Différences

Ci-dessous, les différences entre deux révisions de la page.

--- fr:rapports:2021:07-04 [2021/07/15 18:46] – créée hgo
+++ fr:rapports:2021:07-04 [2022/07/22 13:15] (Version actuelle) – modification externe 127.0.0.1
@@ Ligne 4: / Ligne 4: @@
 * [Pad de la réunion](https://pad.libre.brussels/neutrinet-neutriton-2021-07-04)
 Présences :
 - HgO
 - Célo
@@ Ligne 33: / Ligne 34: @@
 - Voir comment l'infrastructure se comporte (test de charge, test de performance, détection des memory leaks)
 Il faut distinguer différentes choses :
 - la surveillance, du côté de la supervision, qui ne va faire que surveiller des éléments informatiques (mais sans remédiation). Ex: mesure du temps, espace disque, tests de charge,...
 - la remédiation automatique. Ex: si un service ne répond plus, le redémarrer.
@@ Ligne 53: / Ligne 55: @@
 Exemples de logiciels:
 - Nagios
 - icinga
@@ Ligne 66: / Ligne 69: @@
 Par exemple:
 - grafana, prometheus, node-exporter
 - elasticsearch, logstash, kibana (ELK)
 On a des agents sur les serveurs monitorés qui
 - soit envoient les informations vers le serveur central,
 - soit permettent au serveur central de récupérer les informations.
@@ Ligne 92: / Ligne 97: @@
 Voir aussi après combien de temps on est averti qu'un service est down. Spammer tout le monde si down après 5min, pas forcément pertinent, mais il ne faut pas forcément attendre qu'un service soit down 30 min pour prévenir les admins.
 - https://github.com/statping/statping
 - https://github.com/CachetHQ/Cachet mais https://github.com/CachetHQ/Cachet/issues/4271 du coup https://github.com/fiveai/Cachet
@@ Ligne 119: / Ligne 122: @@
 Si on veut rajouter un nouvel outil à monitorer:
 - on configure le plugin / script
 - on définit un seuil
@@ Ligne 126: / Ligne 130: @@
 - plus à la mode ?
     - parfois des milliers de services à monitoring
     - docker pousse ce type de metrics
 - plus de communautés
@@ Ligne 140: / Ligne 144: @@
 Ex: https://grafana.neutrinet.be/d/Kd8Y8yCMz/openvpn?orgId=1
-https://grafana.neutrinet.be/
 Grafana : on peut avoir une partie privée, par exemple pour monitorer chaque IP individuelle.
@@ Ligne 157: / Ligne 160: @@
 Dashboards:
 - de petits binaires sur les machines qui créent immédiatement les dashboard. Pas besoin de les créer soi-même (mais pas adaptable si on veut faire une  métric métier).
 - comment faire pour les metrics métiers ? Tu pleures.
 Exemples de dashboards:
 - https://www.elastic.co/fr/blog/elasticon-kibana-canvas-story-elasticoffee
 - https://www.elastic.co/fr/blog/getting-started-with-canvas-in-kibana
@@ Ligne 176: / Ligne 181: @@
 Deux types d'exporter :
 - L'école node_exporter, on a autant de petits binaires qui exportent une métric unique (un pour HTTP, un pour SQL, etc...) qui consomment alors un port d'écoute par node_exporter.
 - L'autre école, c'est telegraf, qui de base a [beaucoup de plugins](https://docs.influxdata.com/telegraf/v1.19/plugins/) pour récupérer des métrics, mais peut aussi agréger des métrics d'autres nodes exporters, et ne fourni qu'une seule page web à scrapper pour Prometheus.
@@ Ligne 188: / Ligne 194: @@
 Influxdb :
 - le stockage long terme des métrics est prévu de base mais problème de licence -> si on veut des fonctions au-delà de la version de base, c'est payant.
@@ Ligne 205: / Ligne 212: @@
 Centraliser les logs sur un même serveur peut permettre de voir certaines choses et d'avoir un autre type d'alerting (gérer les cron job, voir une attaque brute force).
 Il y a 3 écoles :
 - Stack ELK
 - [GrayLog](https://www.graylog.org/) se base sur syslog et on peut rajouter du [fluentd](https://www.fluentd.org)
@@ Ligne 213: / Ligne 221: @@
 C'est l'heure des d-d-d-décisions !!!
 - Exporteur : Telegraf
 - Stockage : Prometheus + Promscale
@@ Ligne 243: / Ligne 252: @@
 Chez les propriétaires (oui c'est un peux du troll):
 - https://www.solarwinds.com/pingdom
 - https://pagerduty.com
@@ Ligne 257: / Ligne 267: @@
 On passe par alertmanager, qui envoie ses notifications vers (propositions)
 - Mails
 - Mattermost
@@ Ligne 264: / Ligne 275: @@
 Pour les SMS, on peut souscrire à un service :
-- https://www.ovhtelecom.fr/sms/ -
+- https://www.ovhtelecom.fr/sms/
 - https://www.ringring.be/
 Mais vu que ça coûte du pognon, mieux vaut le mettre sur les services critiques (la collecte).
 On peut aussi faire un système de 2ème ou 3ème ligne : on n'a pas fait d'ACK pour Mattermost / mail, du coup un sms se déclenche.
 On pourrait aussi avoir un module sur Bour pour envoyer des SMS depuis LouiseDC, mais du coup:
 - voir si c'est autorisé
 - quel opérateur ?
 - est-ce qu'on capte bien ?
 Qui reçoit les SMS ? Pose la question de la disponibilité des admins
@@ Ligne 278: / Ligne 294: @@
 Pour les Pigeons, on se demande si c'est vraiment libre (possibilité d'étudier le pigeon ?).
 Le flow :
  - Matrix + Mail
  - Signal (pas d'ACK apres 15m)
@@ Ligne 289: / Ligne 306: @@
 ### A faire
- - Cachet (étudier)
- - Prometheus + Grafana + AlertManager + promscale sur la vm monitoring.htz.neutri.net
+- Cachet (étudier)
- - Pour recevoir les notifs AlertManager
+- Prometheus + Grafana + AlertManager + promscale sur la vm monitoring.htz.neutri.net
-     - Compte Matrix
+- Pour recevoir les notifs AlertManager
-     - Compte Signal
+    - Compte Matrix
- - telegraf sur toutes les vm
+    - Compte Signal
- - Prometheus federateur sur man.patata.louise.neutri.net (vm de management)
+- telegraf sur toutes les vm
+- Prometheus federateur sur man.patata.louise.neutri.net (vm de management)
 - Les dashboard dans grafana pleiiin de dashboards
 - Keycloak pour le sso de grafana
@@ Ligne 316: / Ligne 334: @@
 *Moment informel durant lequel on exprime **en peu de mots** comment, à titre personnel, la réunion a été vécue que ce soit positif ou négatif.*
 *Si une ou plusieurs **tension est née** durant la réunion, il est peut-être nécessaire d'envisager l'une ou l'autre réunion pour y remédier.*
+{{tag>infra neutriton}}