Heure de début : 14h
Présences :
Moment informel durant lequel on exprime en peu de mots comment on se sent et si on a une attente forte pour la réunion. Ce n'est pas un moment de discussion mais d'expression individuelle et ce n'est pas obligatoire
Si l'une ou l'autre personne exprime une attente forte, merci de vous en occuper en priorité ou de la noter dans le hub ou dans un point approprié.
FIN: max 17h
Tharyrok va commencer le playbook, et si Célo termine le playbook Mobilizon d'ici-là elle rejoindra Tharyrok.
En vrai, il avait déjà fait une partie pour le Neutriton Keycloak.
On n'a pas encore tous le réflexe d'aller voir les boards.
C'est plus difficile depuis qu'on a séparé le hub infra en plusieurs sous hubs, et donc en plusieurs boards.
Voir s'il y a moyen d'avoir un board commun à plusieurs salons.
Sinon il y a le dashboard https://chat.neutrinet.be/boards/dashboard ou on peut filtrer que les channels avec un board.
C'est en cours
Célo a commencé à écrire le playbook pour Mobilizon, elle avance bien.
https://git.domainepublic.net/Neutrinet/infra-ansible/-/merge_requests/236/diffs
Tbalthazar nous aide actuellement pour migrer l'outil accounting de chez Heroku vers les serveur de Neutrinet.
HgO a déjà créé la VM. On attend juste la review et puis on pourra faire la migration. Tbalthazar va nous transmettre les données de la base de donnée, et HgO va faire la migration.
Le hub admin a déjà été prévenu à la réunion de hier qu'il y aura une petite coupure
https://git.domainepublic.net/Neutrinet/infra-ansible/-/merge_requests/239
Dans un premier temps c'est juste mettre lapplication chez Neutrinet, ensuite on regardera pour le pipeline et le deployment automatique.
TODO: Faire en sorte que ça se déploie automagiquement avec un pipeline → HgO voit ça avec tbalthazar
https://gitlab.domainepublic.net/Neutrinet/infra-ansible/-/issues/148
Il faudrait décider d'une date pour la migration d'ISPng vers debian buster.
Est-ce que le test de deux CA dans ISPng a été fait ?
Il faut encore créer la PKI et la mettre dans le git.
Il faudrait le faire dans les deux mois, après ça va devenir compliqué pour les certificats clients.
On va faire une réunion dédiée pour tout ça
Il y aura le problème avec les gens qui ont un certificat de 5 ans. On pourrait voir pour utiliser l'app Neutrinet yunohost qui patch ça mais c'est probable que les gens qui ont fait ça n'ont pas Yunohost… Il faudra les avertir.
Au pire, ils perdront leur accès VPN et devront re-générer un certificat.
TODO: Tharyrok va expliquer comment créer la PKI TODO: Choisir une date pour la réunion de travail TODO: Compléter la liste des trucs à faire pour la migration (cf. ticket gitlab)
Tharyrok a avancé dessus : toute la stack mail est faite, yapluka faire un playbook Ansible.
Il faut gérer la gestion des alias. Certains choix doivent encore être faits et ça prend un peu de temps. Les jounées ne font que 24h, où peut-on se plaindre ? Comment on fait pour changer la config ?
On doit encore faire au moins un atelier ansible sur:
Ca pourrait se faire la même fois car les vault et les secrets doivent être utilisés pour finaliser le playbook
On s'est aussi dit que ce serait cool d'avoir une réunion pour le setup de l'espace de travail.
TODO : trouver des dates et du temps pour faire tout ça
Le serveur NTP fourni par les pfsense n'a pas l'air très stable. La config NTP vers les serveurs pfsense a été désactivée en attendant de trouver une solution.
HgO propose de revenir à la situation d'avant, c'est-à-dire utiliser les serveurs NTP par défaut dans debian.
sysctl -w kern.timecounter.hardware=ACPI-fast
Pfsense, dans une VM sous proxmox, a du mal synchroniser son horloge hardware. Dans une machine linux, on a les deux. Le logiciel qui synchronise le temps met à jour l'horloge software qui parfois synchronise avec l'holorge hardware. Dans le cas de Pfsense, il a du mal à synchronisé l'horloge hardware et il échoue, du coup il reprend le temps hardware qui n'est pas le bon. Parce que dans sa confiance qu'il accorde aux différentes sources de temps, l'horloge hardware a la plus haute priorité.
Du coup toutes les machines prennent la mauvaise heure.
L'idée de mettre les pfSense comme serveur NTP était d'éviter des requêtes multiples vers les serveurs NTP.
C'est fait depuis ce matin (22/01), à voir dans les logs de pfsense s'il a encore les erreurs de synchro de sa clock hardware.
Avoir des metrics de pbs pour monitorer la réussite des backup et faire comme pour l'alerte de borg.
HgO a pu se connecter à l'interface d'admin de Proxmox Backup Server, et effectivement il y a un metrics server un peu comme dans Proxmox.
Le fichier à modifier se trouve dans /etc/proxmox-backup/metricserver.cfg
Le serveurs de metrics n'a pas l'air d'envoyer grand chose à telegraf, on peut le voir ainsi:
root@pbs-01:~# cat /etc/telegraf/telegraf.d/proxmox.conf # Gather metrics from proxmox based on what is in /etc/pve/setup.cfg [[inputs.socket_listener]] service_address = "udp://:8089" root@pbs-01:~# cat /etc/proxmox-backup/metricserver.cfg influxdb-udp: InfluxDB host 127.0.0.1:8089 root@pbs-01:~# curl http://localhost:9273/metrics
Il faut encore faire en sorte que Ansible ne supprime pas le mot de passe root de PBS. Dans Ansible, on vérifie si le dossier /etc/pve
existe, et dans ce cas on ne supprime pas le mot de passe root. Mais cela ne marche pas pour le PBS qui n'a pas ce dossier-là. Il existe ce dossier /etc/proxmox-backup
L'accès root (en ssh) est aussi utilisé par Proxmox pour le transfert des VMs.
TODO: Ajouter dans ansible le test du dossier /etc/proxmox-backup
TODO: Continuer l'enquête sur les metrics de PBS
Tharyrok en avait parlé il y a quelques mois. En gros, le cache raid sur Bour était désactivé (pas sur Nam), ce qui a pas mal accéléré les accès disques.
Loading Linux 5.15.74-1-pve ... Loading initial ramdisk ... [ 0.746381] ACPI: SPCR: Unexpected SPCR Access Width. Defaulting to byte size [ 1.719485] DMAR: [Firmware Bug]: No firmware reserved region can cover this RMRR [0x00000000000e8000-0x00000000000e8fff], contact BIOS vendor for fixes [ 1.724192] DMAR: [Firmware Bug]: No firmware reserved region can cover this RMRR [0x00000000c0000000-0x00000000dfffffff], contact BIOS vendor for fixes [ 1.809335] [Firmware Bug]: the BIOS has corrupted hw-PMU resources (MSR 38d is 330) [ 3.145148] ima: Error Communicating to TPM chip [ 4.302378] DMAR: DRHD: handling fault status reg 2 [ 4.304455] DMAR: [INTR-REMAP] Request device [01:00.0] fault index 0x28 [fault reason 0x26] Blocked an interrupt request due to source-id verification failure
Une solution peut être appliquée https://community.hpe.com/t5/proliant-servers-ml-dl-sl/gen8-dmar-firmware-bug-your-bios-is-broken-bad-rmrr/m-p/7177731
Mais on a le même message sur nam… donc ça ne vaut peut-être pas mal peine au final.
Dans Grafana, Tharyrok a regardé le uptime de Bour pour voir quand il a redémarré.
Reboot de bour ces 3 dernier mois
Le problème pourrait être matériel.
Mais avec la refonte prévue du réseau, on aura plus de déconnexion du VPN, donc ce sera moins crie “TIC”.
On a constaté qu'il était impossible de televerser des gros fichiers comme les images de la brique internet.
En fait, Nextcloud coupe le fichier en petit morceaux qu'il upload sur le S3. Il rappatrie tout du S3 vers la VM Nextcloud pour refaire un fichier entier. Et ensuite il upload vers le S3, et c'est là que ça plante.
Ça plante lors de l'opération finale MOVE.
HgO a testé avec un disque local dans Nextcloud, un dossier qui est sur le disque de la VM et pas dans le S3, et là ça marche. Donc c'est lié au S3 mais normalement le S3 supporte les gros fichiers…
Est-ce qu'on switcherait vers swift ? C'est une autre implémentation de S3, qui est peut-être meilleure dans Nextcloud. Mais on perdrait le côté haute disponibilité. https://docs.ceph.com/en/quincy/radosgw/swift/
Prochaine réunion neutriton v3 : 12/02/2023 à 14h (confirmer en réu hub-infra)
On confirme solennellement la date du 12/02.
La maison de la paix va créer un datacenter, est-ce que l'on déplace le serveur pbs-01.htz.neutri.net vers chez eux ?
Est-ce que Neutrinet fait une demande formelle ?
Quand est-ce que ce serait prêt ?
Deux questions:
A priori Tactic / Domaine public a des serveurs en stock. Mais avant que ça puisse se faire, des travaux doivent être faits à la Maison de la Paix pour mettre l'électricité aux normes.
Si Neutrinet vient à la Maison de la Paix, les coupures d'électricité seront monitorées
Côté Neutrinet, on confirme notre volonté de placer notre Proxmox Backup Server à la Maison de la Paix. Il nous faudra un serveur physique.
Il manque le bouton
TODO: Contacter verixi → Tharyrok
On aimerait backuper la config des pfSense. Via NetxCloud c'est opensense qui le permet. Tharyrok a menti
En plan B, c'est Borg qui permettrait de le faire mais il n'est pas dans les repos. Mais on pourrait mettre le binaire sur les machines.
A tester. Cela ne pose pas de problème avec le playbook borg déjà existant, vu qu'on va devoir l'installer manuellement pour les pfsense (parce que ansible + pfsense = pénible)
RAS
Prochaine réunion : 02/04 à 14h Lieu : Jitsi et Caldarium
Prochain atelier Keycloak : 12/02 à 14h / Caldarium
Prochain atelier PKI / migration ISPng : 12/03 à 10h / Chez Célo
Prochain atelier Ansible : 25/03 à 14h / Chez Célo + cake
Moment informel durant lequel on exprime en peu de mots comment, à titre personnel, la réunion a été vécue que ce soit positif ou négatif. Si une ou plusieurs tension est née durant la réunion, il est peut-être nécessaire d'envisager l'une ou l'autre réunion pour y remédier.