2023/01/22 (hub-infra)

Heure de début : 14h

Présences :

Célo
Tharyrok
HgO

Jitsi: https://conf.domainepublic.net/neutrinet

Météo

Moment informel durant lequel on exprime en peu de mots comment on se sent et si on a une attente forte pour la réunion. Ce n'est pas un moment de discussion mais d'expression individuelle et ce n'est pas obligatoire

Attente(s) forte(s)

Si l'une ou l'autre personne exprime une attente forte, merci de vous en occuper en priorité ou de la noter dans le hub ou dans un point approprié.

FIN: max 17h

Anciens TODOs

Créer le playbook Ansible pour Keycloak → Tharyrok
Créer le playbook Ansible pour oauth2-proxy (dépend de Keycloak)
Créer le playbook Ansible pour Netbox (dépend de Keycloak)
Créer le playbook Ansible pour Peering Manager (dépend de Keycloak)
Créer le message de bienvenue :massage: pour Mattermost → Célo https://doc.neutrinet.be/Z8CmtsoFSm6HIuNF0_j-Vg?view#
Créer un Neutriton sur la question du suivi des differentes versions logicielles
Faire l'article de blog sur le chiffrement des serveur → Célo et HgO : https://git.domainepublic.net/Neutrinet/website-grav/-/merge_requests/10
Créer un utilisateur spécifique sur le Grav pour HgO et Célo → HgO
Voir comment backuper les pfsense
- Peut se faire vers Nextcloud
Tharyrok doit copier le playbook pour le mail qu'il avait fait de son côté.
Faire un sondage après octobre pour faire le switch vers ispng buster.
Décider d'une date pour le Neutriton Redis
- Après les ateliers Keycloak
Ne plus supprimer le mdp root pour PBS, comme pour les Proxmox
Configurer les alertes mails des backups Proxmox si les alertes via metrics ne fonctionnent pas
Continuer le playbook Mobilizon → Célo

Hub service

Playbook Keycloak

Tharyrok va commencer le playbook, et si Célo termine le playbook Mobilizon d'ici-là elle rejoindra Tharyrok.

En vrai, il avait déjà fait une partie pour le Neutriton Keycloak.

Board Mattermost

On n'a pas encore tous le réflexe d'aller voir les boards.

C'est plus difficile depuis qu'on a séparé le hub infra en plusieurs sous hubs, et donc en plusieurs boards.

Voir s'il y a moyen d'avoir un board commun à plusieurs salons.

Sinon il y a le dashboard https://chat.neutrinet.be/boards/dashboard ou on peut filtrer que les channels avec un board.

Mobilizon

C'est en cours :)

Célo a commencé à écrire le playbook pour Mobilizon, elle avance bien.

https://git.domainepublic.net/Neutrinet/infra-ansible/-/merge_requests/236/diffs

Migration Accounting

Tbalthazar nous aide actuellement pour migrer l'outil accounting de chez Heroku vers les serveur de Neutrinet.

HgO a déjà créé la VM. On attend juste la review et puis on pourra faire la migration. Tbalthazar va nous transmettre les données de la base de donnée, et HgO va faire la migration.

Le hub admin a déjà été prévenu à la réunion de hier qu'il y aura une petite coupure :)

https://git.domainepublic.net/Neutrinet/infra-ansible/-/merge_requests/239

Dans un premier temps c'est juste mettre lapplication chez Neutrinet, ensuite on regardera pour le pipeline et le deployment automatique.

TODO: Faire en sorte que ça se déploie automagiquement avec un pipeline → HgO voit ça avec tbalthazar

Migration ISPng

https://gitlab.domainepublic.net/Neutrinet/infra-ansible/-/issues/148

Il faudrait décider d'une date pour la migration d'ISPng vers debian buster.

Est-ce que le test de deux CA dans ISPng a été fait ?

Il faut encore créer la PKI et la mettre dans le git.

Il faudrait le faire dans les deux mois, après ça va devenir compliqué pour les certificats clients.

On va faire une réunion dédiée pour tout ça

Il y aura le problème avec les gens qui ont un certificat de 5 ans. On pourrait voir pour utiliser l'app Neutrinet yunohost qui patch ça mais c'est probable que les gens qui ont fait ça n'ont pas Yunohost… Il faudra les avertir.

Au pire, ils perdront leur accès VPN et devront re-générer un certificat.

TODO: Tharyrok va expliquer comment créer la PKI TODO: Choisir une date pour la réunion de travail TODO: Compléter la liste des trucs à faire pour la migration (cf. ticket gitlab)

Migration serveur mail

Tharyrok a avancé dessus : toute la stack mail est faite, yapluka faire un playbook Ansible.

Il faut gérer la gestion des alias. Certains choix doivent encore être faits et ça prend un peu de temps. Les jounées ne font que 24h, où peut-on se plaindre ? Comment on fait pour changer la config ?

Ateliers Ansible

On doit encore faire au moins un atelier ansible sur:

Vault et secrets
Review playbook Mobilizon

Ca pourrait se faire la même fois car les vault et les secrets doivent être utilisés pour finaliser le playbook

On s'est aussi dit que ce serait cool d'avoir une réunion pour le setup de l'espace de travail.

TODO : trouver des dates et du temps pour faire tout ça :scream:

Serveur NTP

Le serveur NTP fourni par les pfsense n'a pas l'air très stable. La config NTP vers les serveurs pfsense a été désactivée en attendant de trouver une solution.

HgO propose de revenir à la situation d'avant, c'est-à-dire utiliser les serveurs NTP par défaut dans debian.

sysctl -w kern.timecounter.hardware=ACPI-fast

Pfsense, dans une VM sous proxmox, a du mal synchroniser son horloge hardware. Dans une machine linux, on a les deux. Le logiciel qui synchronise le temps met à jour l'horloge software qui parfois synchronise avec l'holorge hardware. Dans le cas de Pfsense, il a du mal à synchronisé l'horloge hardware et il échoue, du coup il reprend le temps hardware qui n'est pas le bon. Parce que dans sa confiance qu'il accorde aux différentes sources de temps, l'horloge hardware a la plus haute priorité.

Du coup toutes les machines prennent la mauvaise heure.

L'idée de mettre les pfSense comme serveur NTP était d'éviter des requêtes multiples vers les serveurs NTP.

C'est fait depuis ce matin (22/01), à voir dans les logs de pfsense s'il a encore les erreurs de synchro de sa clock hardware.

Monitoring des backups Proxmox

Avoir des metrics de pbs pour monitorer la réussite des backup et faire comme pour l'alerte de borg.

HgO a pu se connecter à l'interface d'admin de Proxmox Backup Server, et effectivement il y a un metrics server un peu comme dans Proxmox.

Le fichier à modifier se trouve dans /etc/proxmox-backup/metricserver.cfg

Le serveurs de metrics n'a pas l'air d'envoyer grand chose à telegraf, on peut le voir ainsi:

root@pbs-01:~# cat /etc/telegraf/telegraf.d/proxmox.conf 
# Gather metrics from proxmox based on what is in /etc/pve/setup.cfg
[[inputs.socket_listener]]
  service_address = "udp://:8089"

root@pbs-01:~# cat /etc/proxmox-backup/metricserver.cfg 
influxdb-udp: InfluxDB
        host 127.0.0.1:8089
        
root@pbs-01:~# curl http://localhost:9273/metrics

Il faut encore faire en sorte que Ansible ne supprime pas le mot de passe root de PBS. Dans Ansible, on vérifie si le dossier /etc/pve existe, et dans ce cas on ne supprime pas le mot de passe root. Mais cela ne marche pas pour le PBS qui n'a pas ce dossier-là. Il existe ce dossier /etc/proxmox-backup

L'accès root (en ssh) est aussi utilisé par Proxmox pour le transfert des VMs.

TODO: Ajouter dans ansible le test du dossier /etc/proxmox-backup TODO: Continuer l'enquête sur les metrics de PBS

Activation du cache raid de Bour

Tharyrok en avait parlé il y a quelques mois. En gros, le cache raid sur Bour était désactivé (pas sur Nam), ce qui a pas mal accéléré les accès disques.

Reboot regulier de Bour

Loading Linux 5.15.74-1-pve ...
Loading initial ramdisk ...
[    0.746381] ACPI: SPCR: Unexpected SPCR Access Width.  Defaulting to byte size
[    1.719485] DMAR: [Firmware Bug]: No firmware reserved region can cover this RMRR [0x00000000000e8000-0x00000000000e8fff], contact BIOS vendor for fixes
[    1.724192] DMAR: [Firmware Bug]: No firmware reserved region can cover this RMRR [0x00000000c0000000-0x00000000dfffffff], contact BIOS vendor for fixes
[    1.809335] [Firmware Bug]: the BIOS has corrupted hw-PMU resources (MSR 38d is 330)
[    3.145148] ima: Error Communicating to TPM chip
[    4.302378] DMAR: DRHD: handling fault status reg 2
[    4.304455] DMAR: [INTR-REMAP] Request device [01:00.0] fault index 0x28 [fault reason 0x26] Blocked an interrupt request due to source-id verification failure

Une solution peut être appliquée https://community.hpe.com/t5/proliant-servers-ml-dl-sl/gen8-dmar-firmware-bug-your-bios-is-broken-bad-rmrr/m-p/7177731

Mais on a le même message sur nam… donc ça ne vaut peut-être pas mal peine au final.

Dans Grafana, Tharyrok a regardé le uptime de Bour pour voir quand il a redémarré.

Reboot de bour ces 3 dernier mois

02/12/2022
25/12/2022 (3 semaines)
10/01/2023 (2 semaines)

Le problème pourrait être matériel.

Mais avec la refonte prévue du réseau, on aura plus de déconnexion du VPN, donc ce sera moins crie “TIC”.

S3 et NextCloud

On a constaté qu'il était impossible de televerser des gros fichiers comme les images de la brique internet.

En fait, Nextcloud coupe le fichier en petit morceaux qu'il upload sur le S3. Il rappatrie tout du S3 vers la VM Nextcloud pour refaire un fichier entier. Et ensuite il upload vers le S3, et c'est là que ça plante.

Ça plante lors de l'opération finale MOVE.

HgO a testé avec un disque local dans Nextcloud, un dossier qui est sur le disque de la VM et pas dans le S3, et là ça marche. Donc c'est lié au S3 mais normalement le S3 supporte les gros fichiers…

Est-ce qu'on switcherait vers swift ? C'est une autre implémentation de S3, qui est peut-être meilleure dans Nextcloud. Mais on perdrait le côté haute disponibilité. https://docs.ceph.com/en/quincy/radosgw/swift/

Neutriton: keycloak V3

Prochaine réunion neutriton v3 : 12/02/2023 à 14h (confirmer en réu hub-infra)

On confirme solennellement la date du 12/02.

Hub DC

Posssibilité de mettre un serveur à la Maison de la Paix ?

La maison de la paix va créer un datacenter, est-ce que l'on déplace le serveur pbs-01.htz.neutri.net vers chez eux ?

Est-ce que Neutrinet fait une demande formelle ?

Quand est-ce que ce serait prêt ?

Deux questions:

Tactic / Domaine Public peut-il nous mettre à disposition un serveur physique? Voir avec eux ce qu'ils ont en stock.
Est-ce qu'on devra payer quelque chose pour l'hébergement ? A priori, au moins couvrir les frais énergétiques.

A priori Tactic / Domaine public a des serveurs en stock. Mais avant que ça puisse se faire, des travaux doivent être faits à la Maison de la Paix pour mettre l'électricité aux normes.

Si Neutrinet vient à la Maison de la Paix, les coupures d'électricité seront monitorées :p

Côté Neutrinet, on confirme notre volonté de placer notre Proxmox Backup Server à la Maison de la Paix. Il nous faudra un serveur physique.

demande 2eme badge

Il manque le bouton

TODO: Contacter verixi → Tharyrok

Hub Network

Collecte Neutrinet

Pas d'avancée majeure.

IPv4 fonctionnelle, pas encore l'IPv6.

Backup pfsense

On aimerait backuper la config des pfSense. Via NetxCloud c'est opensense qui le permet. Tharyrok a menti :'(

En plan B, c'est Borg qui permettrait de le faire mais il n'est pas dans les repos. Mais on pourrait mettre le binaire sur les machines.

A tester. Cela ne pose pas de problème avec le playbook borg déjà existant, vu qu'on va devoir l'installer manuellement pour les pfsense (parce que ansible + pfsense = pénible)

Hub Dev

Hub Chez mémé

Avancement de ketupa

RAS

Prochaine réunion

Prochaine réunion : 02/04 à 14h Lieu : Jitsi et Caldarium

Prochain atelier Keycloak : 12/02 à 14h / Caldarium
Prochain atelier PKI / migration ISPng : 12/03 à 10h / Chez Célo
Prochain atelier Ansible : 25/03 à 14h / Chez Célo + cake

Météo de fin

Moment informel durant lequel on exprime en peu de mots comment, à titre personnel, la réunion a été vécue que ce soit positif ou négatif. Si une ou plusieurs tension est née durant la réunion, il est peut-être nécessaire d'envisager l'une ou l'autre réunion pour y remédier.

infra

Inhoud