Outils pour utilisateurs

Outils du site


fr:rapports:2021:07-04

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Prochaine révision
Révision précédente
fr:rapports:2021:07-04 [2021/07/15 18:46] – créée hgofr:rapports:2021:07-04 [2022/07/22 13:15] (Version actuelle) – modification externe 127.0.0.1
Ligne 4: Ligne 4:
 * [Pad de la réunion](https://pad.libre.brussels/neutrinet-neutriton-2021-07-04) * [Pad de la réunion](https://pad.libre.brussels/neutrinet-neutriton-2021-07-04)
  
-Présences : +Présences : 
 - HgO - HgO
 - Célo - Célo
Ligne 33: Ligne 34:
 - Voir comment l'infrastructure se comporte (test de charge, test de performance, détection des memory leaks) - Voir comment l'infrastructure se comporte (test de charge, test de performance, détection des memory leaks)
  
-Il faut distinguer différentes choses : +Il faut distinguer différentes choses : 
 - la surveillance, du côté de la supervision, qui ne va faire que surveiller des éléments informatiques (mais sans remédiation). Ex: mesure du temps, espace disque, tests de charge,... - la surveillance, du côté de la supervision, qui ne va faire que surveiller des éléments informatiques (mais sans remédiation). Ex: mesure du temps, espace disque, tests de charge,...
 - la remédiation automatique. Ex: si un service ne répond plus, le redémarrer. - la remédiation automatique. Ex: si un service ne répond plus, le redémarrer.
Ligne 53: Ligne 55:
  
 Exemples de logiciels: Exemples de logiciels:
 +
 - Nagios - Nagios
 - icinga - icinga
Ligne 66: Ligne 69:
  
 Par exemple: Par exemple:
 +
 - grafana, prometheus, node-exporter - grafana, prometheus, node-exporter
 - elasticsearch, logstash, kibana (ELK) - elasticsearch, logstash, kibana (ELK)
  
 On a des agents sur les serveurs monitorés qui On a des agents sur les serveurs monitorés qui
 +
 - soit envoient les informations vers le serveur central, - soit envoient les informations vers le serveur central,
 - soit permettent au serveur central de récupérer les informations. - soit permettent au serveur central de récupérer les informations.
Ligne 92: Ligne 97:
    
 Voir aussi après combien de temps on est averti qu'un service est down. Spammer tout le monde si down après 5min, pas forcément pertinent, mais il ne faut pas forcément attendre qu'un service soit down 30 min pour prévenir les admins. Voir aussi après combien de temps on est averti qu'un service est down. Spammer tout le monde si down après 5min, pas forcément pertinent, mais il ne faut pas forcément attendre qu'un service soit down 30 min pour prévenir les admins.
-  
  
-  
 - https://github.com/statping/statping - https://github.com/statping/statping
 - https://github.com/CachetHQ/Cachet mais https://github.com/CachetHQ/Cachet/issues/4271 du coup https://github.com/fiveai/Cachet - https://github.com/CachetHQ/Cachet mais https://github.com/CachetHQ/Cachet/issues/4271 du coup https://github.com/fiveai/Cachet
Ligne 119: Ligne 122:
  
 Si on veut rajouter un nouvel outil à monitorer: Si on veut rajouter un nouvel outil à monitorer:
 +
 - on configure le plugin / script - on configure le plugin / script
 - on définit un seuil - on définit un seuil
Ligne 126: Ligne 130:
  
 - plus à la mode ? - plus à la mode ?
-    - parfois des milliers de services à monitoring +    - parfois des milliers de services à monitoring
     - docker pousse ce type de metrics     - docker pousse ce type de metrics
 - plus de communautés - plus de communautés
Ligne 140: Ligne 144:
  
 Ex: https://grafana.neutrinet.be/d/Kd8Y8yCMz/openvpn?orgId=1 Ex: https://grafana.neutrinet.be/d/Kd8Y8yCMz/openvpn?orgId=1
-https://grafana.neutrinet.be/ 
  
 Grafana : on peut avoir une partie privée, par exemple pour monitorer chaque IP individuelle. Grafana : on peut avoir une partie privée, par exemple pour monitorer chaque IP individuelle.
Ligne 157: Ligne 160:
  
 Dashboards: Dashboards:
 +
 - de petits binaires sur les machines qui créent immédiatement les dashboard. Pas besoin de les créer soi-même (mais pas adaptable si on veut faire une  métric métier).  - de petits binaires sur les machines qui créent immédiatement les dashboard. Pas besoin de les créer soi-même (mais pas adaptable si on veut faire une  métric métier). 
 - comment faire pour les metrics métiers ? Tu pleures. - comment faire pour les metrics métiers ? Tu pleures.
  
 Exemples de dashboards: Exemples de dashboards:
 +
 - https://www.elastic.co/fr/blog/elasticon-kibana-canvas-story-elasticoffee - https://www.elastic.co/fr/blog/elasticon-kibana-canvas-story-elasticoffee
 - https://www.elastic.co/fr/blog/getting-started-with-canvas-in-kibana - https://www.elastic.co/fr/blog/getting-started-with-canvas-in-kibana
Ligne 176: Ligne 181:
  
 Deux types d'exporter : Deux types d'exporter :
 +
 - L'école node_exporter, on a autant de petits binaires qui exportent une métric unique (un pour HTTP, un pour SQL, etc...) qui consomment alors un port d'écoute par node_exporter.  - L'école node_exporter, on a autant de petits binaires qui exportent une métric unique (un pour HTTP, un pour SQL, etc...) qui consomment alors un port d'écoute par node_exporter. 
 - L'autre école, c'est telegraf, qui de base a [beaucoup de plugins](https://docs.influxdata.com/telegraf/v1.19/plugins/) pour récupérer des métrics, mais peut aussi agréger des métrics d'autres nodes exporters, et ne fourni qu'une seule page web à scrapper pour Prometheus. - L'autre école, c'est telegraf, qui de base a [beaucoup de plugins](https://docs.influxdata.com/telegraf/v1.19/plugins/) pour récupérer des métrics, mais peut aussi agréger des métrics d'autres nodes exporters, et ne fourni qu'une seule page web à scrapper pour Prometheus.
Ligne 188: Ligne 194:
  
 Influxdb : Influxdb :
 +
 - le stockage long terme des métrics est prévu de base mais problème de licence -> si on veut des fonctions au-delà de la version de base, c'est payant. - le stockage long terme des métrics est prévu de base mais problème de licence -> si on veut des fonctions au-delà de la version de base, c'est payant.
  
Ligne 205: Ligne 212:
 Centraliser les logs sur un même serveur peut permettre de voir certaines choses et d'avoir un autre type d'alerting (gérer les cron job, voir une attaque brute force). Centraliser les logs sur un même serveur peut permettre de voir certaines choses et d'avoir un autre type d'alerting (gérer les cron job, voir une attaque brute force).
  
-Il y a 3 écoles : +Il y a 3 écoles : 
 - Stack ELK - Stack ELK
 - [GrayLog](https://www.graylog.org/) se base sur syslog et on peut rajouter du [fluentd](https://www.fluentd.org) - [GrayLog](https://www.graylog.org/) se base sur syslog et on peut rajouter du [fluentd](https://www.fluentd.org)
Ligne 213: Ligne 221:
  
 C'est l'heure des d-d-d-décisions !!! C'est l'heure des d-d-d-décisions !!!
 +
 - Exporteur : Telegraf - Exporteur : Telegraf
 - Stockage : Prometheus + Promscale - Stockage : Prometheus + Promscale
Ligne 243: Ligne 252:
  
 Chez les propriétaires (oui c'est un peux du troll): Chez les propriétaires (oui c'est un peux du troll):
 +
 - https://www.solarwinds.com/pingdom - https://www.solarwinds.com/pingdom
 - https://pagerduty.com - https://pagerduty.com
Ligne 257: Ligne 267:
  
 On passe par alertmanager, qui envoie ses notifications vers (propositions) On passe par alertmanager, qui envoie ses notifications vers (propositions)
 +
 - Mails - Mails
 - Mattermost - Mattermost
Ligne 264: Ligne 275:
  
 Pour les SMS, on peut souscrire à un service : Pour les SMS, on peut souscrire à un service :
-- https://www.ovhtelecom.fr/sms/ + 
 +- https://www.ovhtelecom.fr/sms/
 - https://www.ringring.be/ - https://www.ringring.be/
 +
 Mais vu que ça coûte du pognon, mieux vaut le mettre sur les services critiques (la collecte). Mais vu que ça coûte du pognon, mieux vaut le mettre sur les services critiques (la collecte).
 On peut aussi faire un système de 2ème ou 3ème ligne : on n'a pas fait d'ACK pour Mattermost / mail, du coup un sms se déclenche. On peut aussi faire un système de 2ème ou 3ème ligne : on n'a pas fait d'ACK pour Mattermost / mail, du coup un sms se déclenche.
 +
 On pourrait aussi avoir un module sur Bour pour envoyer des SMS depuis LouiseDC, mais du coup: On pourrait aussi avoir un module sur Bour pour envoyer des SMS depuis LouiseDC, mais du coup:
 +
 - voir si c'est autorisé - voir si c'est autorisé
 - quel opérateur ? - quel opérateur ?
 - est-ce qu'on capte bien ? - est-ce qu'on capte bien ?
 +
 Qui reçoit les SMS ? Pose la question de la disponibilité des admins Qui reçoit les SMS ? Pose la question de la disponibilité des admins
  
Ligne 278: Ligne 294:
 Pour les Pigeons, on se demande si c'est vraiment libre (possibilité d'étudier le pigeon ?). Pour les Pigeons, on se demande si c'est vraiment libre (possibilité d'étudier le pigeon ?).
  
-Le flow : +Le flow : 
  - Matrix + Mail  - Matrix + Mail
  - Signal (pas d'ACK apres 15m)  - Signal (pas d'ACK apres 15m)
Ligne 289: Ligne 306:
  
 ### A faire ### A faire
- - Cachet (étudier) + 
- - Prometheus + Grafana + AlertManager + promscale sur la vm monitoring.htz.neutri.net +- Cachet (étudier) 
- - Pour recevoir les notifs AlertManager +- Prometheus + Grafana + AlertManager + promscale sur la vm monitoring.htz.neutri.net 
-     - Compte Matrix +- Pour recevoir les notifs AlertManager 
-     - Compte Signal +    - Compte Matrix 
- - telegraf sur toutes les vm +    - Compte Signal 
- - Prometheus federateur sur man.patata.louise.neutri.net (vm de management)+- telegraf sur toutes les vm 
 +- Prometheus federateur sur man.patata.louise.neutri.net (vm de management)
 - Les dashboard dans grafana pleiiin de dashboards - Les dashboard dans grafana pleiiin de dashboards
 - Keycloak pour le sso de grafana - Keycloak pour le sso de grafana
Ligne 316: Ligne 334:
 *Moment informel durant lequel on exprime **en peu de mots** comment, à titre personnel, la réunion a été vécue que ce soit positif ou négatif.* *Moment informel durant lequel on exprime **en peu de mots** comment, à titre personnel, la réunion a été vécue que ce soit positif ou négatif.*
 *Si une ou plusieurs **tension est née** durant la réunion, il est peut-être nécessaire d'envisager l'une ou l'autre réunion pour y remédier.* *Si une ou plusieurs **tension est née** durant la réunion, il est peut-être nécessaire d'envisager l'une ou l'autre réunion pour y remédier.*
 +
 +{{tag>infra neutriton}}
fr/rapports/2021/07-04.1626367600.txt.gz · Dernière modification : 2021/07/15 18:46 de hgo