fr:rapports:2021:07-04
Différences
Ci-dessous, les différences entre deux révisions de la page.
Prochaine révision | Révision précédenteProchaine révisionLes deux révisions suivantes | ||
fr:rapports:2021:07-04 [2021/07/15 18:46] – créée hgo | fr:rapports:2021:07-04 [2021/07/15 18:58] – [Des choix à faire] hgo | ||
---|---|---|---|
Ligne 4: | Ligne 4: | ||
* [Pad de la réunion](https:// | * [Pad de la réunion](https:// | ||
- | Présences : | + | Présences : |
- HgO | - HgO | ||
- Célo | - Célo | ||
Ligne 33: | Ligne 34: | ||
- Voir comment l' | - Voir comment l' | ||
- | Il faut distinguer différentes choses : | + | Il faut distinguer différentes choses : |
- la surveillance, | - la surveillance, | ||
- la remédiation automatique. Ex: si un service ne répond plus, le redémarrer. | - la remédiation automatique. Ex: si un service ne répond plus, le redémarrer. | ||
Ligne 53: | Ligne 55: | ||
Exemples de logiciels: | Exemples de logiciels: | ||
+ | |||
- Nagios | - Nagios | ||
- icinga | - icinga | ||
Ligne 66: | Ligne 69: | ||
Par exemple: | Par exemple: | ||
+ | |||
- grafana, prometheus, node-exporter | - grafana, prometheus, node-exporter | ||
- elasticsearch, | - elasticsearch, | ||
On a des agents sur les serveurs monitorés qui | On a des agents sur les serveurs monitorés qui | ||
+ | |||
- soit envoient les informations vers le serveur central, | - soit envoient les informations vers le serveur central, | ||
- soit permettent au serveur central de récupérer les informations. | - soit permettent au serveur central de récupérer les informations. | ||
Ligne 92: | Ligne 97: | ||
Voir aussi après combien de temps on est averti qu'un service est down. Spammer tout le monde si down après 5min, pas forcément pertinent, mais il ne faut pas forcément attendre qu'un service soit down 30 min pour prévenir les admins. | Voir aussi après combien de temps on est averti qu'un service est down. Spammer tout le monde si down après 5min, pas forcément pertinent, mais il ne faut pas forcément attendre qu'un service soit down 30 min pour prévenir les admins. | ||
- | |||
- | |||
- https:// | - https:// | ||
- https:// | - https:// | ||
Ligne 119: | Ligne 122: | ||
Si on veut rajouter un nouvel outil à monitorer: | Si on veut rajouter un nouvel outil à monitorer: | ||
+ | |||
- on configure le plugin / script | - on configure le plugin / script | ||
- on définit un seuil | - on définit un seuil | ||
Ligne 126: | Ligne 130: | ||
- plus à la mode ? | - plus à la mode ? | ||
- | - parfois des milliers de services à monitoring | + | - parfois des milliers de services à monitoring |
- docker pousse ce type de metrics | - docker pousse ce type de metrics | ||
- plus de communautés | - plus de communautés | ||
Ligne 140: | Ligne 144: | ||
Ex: https:// | Ex: https:// | ||
- | https:// | ||
Grafana : on peut avoir une partie privée, par exemple pour monitorer chaque IP individuelle. | Grafana : on peut avoir une partie privée, par exemple pour monitorer chaque IP individuelle. | ||
Ligne 157: | Ligne 160: | ||
Dashboards: | Dashboards: | ||
+ | |||
- de petits binaires sur les machines qui créent immédiatement les dashboard. Pas besoin de les créer soi-même (mais pas adaptable si on veut faire une métric métier). | - de petits binaires sur les machines qui créent immédiatement les dashboard. Pas besoin de les créer soi-même (mais pas adaptable si on veut faire une métric métier). | ||
- comment faire pour les metrics métiers ? Tu pleures. | - comment faire pour les metrics métiers ? Tu pleures. | ||
Exemples de dashboards: | Exemples de dashboards: | ||
+ | |||
- https:// | - https:// | ||
- https:// | - https:// | ||
Ligne 176: | Ligne 181: | ||
Deux types d' | Deux types d' | ||
+ | |||
- L' | - L' | ||
- L' | - L' | ||
Ligne 188: | Ligne 194: | ||
Influxdb : | Influxdb : | ||
+ | |||
- le stockage long terme des métrics est prévu de base mais problème de licence -> si on veut des fonctions au-delà de la version de base, c'est payant. | - le stockage long terme des métrics est prévu de base mais problème de licence -> si on veut des fonctions au-delà de la version de base, c'est payant. | ||
Ligne 205: | Ligne 212: | ||
Centraliser les logs sur un même serveur peut permettre de voir certaines choses et d' | Centraliser les logs sur un même serveur peut permettre de voir certaines choses et d' | ||
- | Il y a 3 écoles : | + | Il y a 3 écoles : |
- Stack ELK | - Stack ELK | ||
- [GrayLog](https:// | - [GrayLog](https:// | ||
Ligne 213: | Ligne 221: | ||
C'est l' | C'est l' | ||
+ | |||
- Exporteur : Telegraf | - Exporteur : Telegraf | ||
- Stockage : Prometheus + Promscale | - Stockage : Prometheus + Promscale | ||
Ligne 243: | Ligne 252: | ||
Chez les propriétaires (oui c'est un peux du troll): | Chez les propriétaires (oui c'est un peux du troll): | ||
+ | |||
- https:// | - https:// | ||
- https:// | - https:// | ||
Ligne 257: | Ligne 267: | ||
On passe par alertmanager, | On passe par alertmanager, | ||
+ | |||
- Mails | - Mails | ||
- Mattermost | - Mattermost | ||
Ligne 264: | Ligne 275: | ||
Pour les SMS, on peut souscrire à un service : | Pour les SMS, on peut souscrire à un service : | ||
- | - https:// | + | |
+ | - https:// | ||
- https:// | - https:// | ||
+ | |||
Mais vu que ça coûte du pognon, mieux vaut le mettre sur les services critiques (la collecte). | Mais vu que ça coûte du pognon, mieux vaut le mettre sur les services critiques (la collecte). | ||
On peut aussi faire un système de 2ème ou 3ème ligne : on n'a pas fait d'ACK pour Mattermost / mail, du coup un sms se déclenche. | On peut aussi faire un système de 2ème ou 3ème ligne : on n'a pas fait d'ACK pour Mattermost / mail, du coup un sms se déclenche. | ||
+ | |||
On pourrait aussi avoir un module sur Bour pour envoyer des SMS depuis LouiseDC, mais du coup: | On pourrait aussi avoir un module sur Bour pour envoyer des SMS depuis LouiseDC, mais du coup: | ||
+ | |||
- voir si c'est autorisé | - voir si c'est autorisé | ||
- quel opérateur ? | - quel opérateur ? | ||
- est-ce qu'on capte bien ? | - est-ce qu'on capte bien ? | ||
+ | |||
Qui reçoit les SMS ? Pose la question de la disponibilité des admins | Qui reçoit les SMS ? Pose la question de la disponibilité des admins | ||
Ligne 278: | Ligne 294: | ||
Pour les Pigeons, on se demande si c'est vraiment libre (possibilité d' | Pour les Pigeons, on se demande si c'est vraiment libre (possibilité d' | ||
- | Le flow : | + | Le flow : |
- Matrix + Mail | - Matrix + Mail | ||
- Signal (pas d'ACK apres 15m) | - Signal (pas d'ACK apres 15m) | ||
Ligne 289: | Ligne 306: | ||
### A faire | ### A faire | ||
- | - Cachet (étudier) | + | |
- | - Prometheus + Grafana + AlertManager + promscale sur la vm monitoring.htz.neutri.net | + | - Cachet (étudier) |
- | - Pour recevoir les notifs AlertManager | + | - Prometheus + Grafana + AlertManager + promscale sur la vm monitoring.htz.neutri.net |
- | | + | - Pour recevoir les notifs AlertManager |
- | | + | - Compte Matrix |
- | - telegraf sur toutes les vm | + | - Compte Signal |
- | - Prometheus federateur sur man.patata.louise.neutri.net (vm de management) | + | - telegraf sur toutes les vm |
+ | - Prometheus federateur sur man.patata.louise.neutri.net (vm de management) | ||
- Les dashboard dans grafana pleiiin de dashboards | - Les dashboard dans grafana pleiiin de dashboards | ||
- Keycloak pour le sso de grafana | - Keycloak pour le sso de grafana |
fr/rapports/2021/07-04.txt · Dernière modification : 2022/07/22 13:15 de 127.0.0.1