hauban et sabord succèdent à gaillard. Elles sont identiques et hébergent les machines virtuelles des membres à Grenoble-02 avec l'outil Proxmox

IP : 91.216.110.102 / 2001:912:800:200::102

Localisation : Grenoble-02

Matériel
Configuration
Tests de performance

Matériel

Sécifications matérielles

CPU : AMD EPYC 8324P 32C / 64T
Memoire : 4 x Samsung 64G ECC DDR5
Chassis : Supermicro AS-1115SV-WTNRT
Carte réseau : Intel X710 4 SFP+
Disques systèmes : 2 x Kingston DC300 480G NVME M.2 sur carte mère.
Disque data : 3 x Samsung PM9A3 3.8To en façade.

Consommation électrique

idle 80 W
pleine charge 245W

Vérification

un memtest a été effectué.

Configuration

BIOS

Version du BIOS : 1.2
Version de la carte BMC : 1.03
changements apportés à la configuration par défaut :
- Advanced -> boot features --> Power button function --> set to "4 seconds Override" (was: "Instant Off")
- Advanced -> Network Configuration --> IPv{4,6} PXE Support --> disabled (was: enabled)
- Advanced -> SATA Configuration --> SATA Enable --> disabled (was: auto)

Stockage

raid1 mdadm chiffré sur les disques systèmes
zfs zpool raiz1 pour les disques des vm en facade

Choix de l’utilisation des interfaces réseau

1 port cuivre pour la BMC
2 interfaces 10G Cuivre non utilisées sur la carte mère (le driver bnxt_en a été blacklisté car il générait des erreurs)
4 interfaces 10G SFP+ (de gauche à droite) sur la carte fille Intel X710 4SFP+ :
- infra (avec ip publique), ens3f3np3, 1er port en partant de la gauche D
- collecte, ens3f2np2, 2e port en partant de la gauche C
- pve storage, ens3f1np1, 3e port en partant de la gauche B
- pve synchro du cluster, ens3f0np0, 4er port en partant de la gauche A

Reservation des ressources

Cf Réseau.

Installation de proxmox

Installation Debian GNU/Linux

On reproduit ce qui a été fait sur gaillard/vibord dans la mesure du possible.

disque système chiffré en raid 1
install d'un serveur ssh dans l'initramfs (dropbear). Et vérification que ça marche.
configurer le switch (oursin)
configurer les interfaces réseau dans debian
passer les playbook ansible de base (clés SSH & co)
mesure du courant

:warning: si rien n'est branché sur l'interface du bridge, DAD fail et le service netwokring aussi. ref

Configuration du noyau pour le réseau dans l'initramfs dropbear :

GRUB_CMDLINE_LINUX=" ··· ip=91.216.110.102::91.216.110.97:255.255.255.240:hauban:ens3f3np3:"

Configuration du noyau pour bug entre linux et la carte supermicro :

Nous constatons deux problèmes :

le support USB fonctionne mal dans linux.

déc. 28 15:51:56 hauban kernel: xhci_hcd 0000:c6:00.0: init 0000:c6:00.0 fail, -16 déc. 28 15:51:56 hauban kernel: xhci_hcd: probe of 0000:c6:00.0 failed with error -16 déc. 28 15:51:56 hauban kernel: xhci_hcd 0000:c7:00.0: init 0000:c7:00.0 fail, -16 déc. 28 15:51:56 hauban kernel: xhci_hcd: probe of 0000:c7:00.0 failed with error -16 déc. 28 15:51:56 hauban kernel: xhci_hcd 0000:ca:00.4: init 0000:ca:00.4 fail, -16 déc. 28 15:51:56 hauban kernel: xhci_hcd: probe of 0000:ca:00.4 failed with error -16
les disques nvme samsung PM9A3 sont visibles sur un lspci mais ne sont pas reconnus par le driver nvme (ils n'apparaissent pas dans /dev)

Après recherches diverses, nous sommes tombés sur ce post. L'option suivante du noyau règle le problème :

GRUB_CMDLINE_LINUX=" ··· pci=realloc=off"

Installation de proxmox

https://pve.proxmox.com/pve-docs/pve-admin-guide.html#installproxmox_ve_on_debian

Installation des dépôts
Installation du noyau de proxmox

apt install proxmox-default-kernel

:warning: les interfaces réseau changent de nom lorsque l'on passe de linux 6.1 à linux 6.8 (ens3f3→ ens3f3np3, ens3f2 → ens3f2np2, etc). La configuration réseau a été adaptée en conséquence.

:warning: le driver bnxt_en pour les deux interfaces réseau de la carte mère se prend les pieds dans le tapis. Comme a priori, on n'en a pas besoin, le module a été rajouté à la blacklist pour éviter les problèmes. Les deux interfaces cuivre en question ne sont donc plus dispo.
Installation de proxmox

apt install proxmox-ve
réseau corosync séparé : https://pve.proxmox.com/pve-docs/pve-admin-guide.html#separatecluster_network
réseau réplication/migration séparé : https://pve.proxmox.com/pve-docs/pve-admin-guide.html#datacenter_configuration_file
To configure this as the default network for all migrations in the cluster, set the migration property of the /etc/pve/datacenter.cfg file:
```
# use dedicated migration network
migration: secure,network=10.1.2.0/24
```
two_nodes mode

Pour que le quorum fonctionne dans un cluster à deux noeuds, il faut utiliser l'option two_nodes.

Cf. two_nodes and wait_for_all options in https://manpages.debian.org/unstable/corosync/votequorum.5.en.html

Sécurisation de l'accès à proxmox sur l'IP publique

Nous avons restreint l'interface web via le pare-feu. Pour s'y connecter il faut donc rebondir via SSH.

Via du port forwarding :

ssh -L 8006:hauban.grenode.net:8006 hauban.grenode.net

ou du Proxy Socks (l'extension de firefox FoxyProxy est pas mal) :

ssh -D 1234 hauban.grenode.net

Création du pool zfs sur les disques data

Cf https://pve.proxmox.com/wiki/ZFS_on_Linux

zpool create -f -o ashift=12 <pool> raidz1 <device1> <device2> <device3>

ATTENTION : d'après les logs noyau de sabord. Les disques peuvent changer de nom lors d'un redémarrage. Il y a eu une inversion entre /dev/nvme3n1 et /dev/nvme2n1.

Cela a mis le pool zfs dans un état dégradé au redémarrage. Et, il n'a pas été possible de le réparer à chaud. Cela a été réglé en bougeant toute les vm, puis :

zfs export zpoolnvme1
zfs import -d /dev/disk/by-id

L'option -d /dev/disk/by-id a été utilisée pour éviter que les disques soit référencés par leur nom logique.

Augmentation MTU sur les interfaces réseau

On passe à 9000 sur les interfaces réseau. Dans /etc/network/interfaces :

iface ...
  ...
  mtu 9000
  ...

Configuration de etckeeper

Il semble difficile de faire fonctionner etckeeper avec le répertoire /etc géré par Proxmox car c'est un filesystem spécial (pmxcfs) et que ça bouge souvent. Nous avons donc exclu /etc/pve de git.

:warning: On pourait ajouter explicitement les configurations des VMs à terme dans le gitignore, pour les versionner.

Exemple de ce qu'on peut rajouter à la main dans gitignore:

pve/*
!pve/corosync.conf
!pve/storage.cfg
!pve/datacenter.cfg
!pve/user.cfg
!pve/domains.cfg
!pve/status.cfg
!pve/nodes/<node>/config
!pve/nodes/<node>/qemu-server/*.conf
!pve/nodes/<node>/lxc/*.conf
!pve/firewall/cluster.fw
!pve/firewall/*.fw

Gestion des notifications

Pour l'envoi de notification, Proxmox recommande l'installation de Postfix sur les machines.

À Grenode, on utilise nullmailer sur toutes les machines, cela permet uniquement d'envoyer du mail via un relay qui est mail.grenode.net. Proxmox envoie par défaut ses notifications à root@ qui est redirigé automatiquement vers machines@grenode.net (/etc/aliases).

Proxmox permet l'envoi des notifications par d'autres moyens (onglet notifications dans l'interfaces web).

Metrologie & Monitoring

Les machines hauban et sabord ont été ajoutées à librenms et à check_mk.

À cette occasion, les interfaces sont maintenant indexées par leur alias dans check_mk et les interfaces tap sont également ignorées. Les 15 machines de Grenode ont été réinventoriées.

Backups

Le role ansible backups a été passé sur hauban et sabord (après avoir mis à jour le role et géré les changements du role). Les backup sont faits sur nable. Comme /etc/pve n'est pas le même système de fichier, il a fallu rajouter explicitement ce chemin.

Tests de performance

Tests de performance disques

Nous utilisons ZFS car proxmox en recommande l'usage et que nous n'avons sufisament de nœud pour utiliser ceph. Les vm sont donc stockées sur un zpool raidz1 avec les disques "data". Nous avons réalisé des tests de performance dans une VM avec le driver SCSI via l'outil fio.

fio --filename=/root/fiofile --size=1G \
  --rw=$mode --direct=1 --bs=$bs \
  --ioengine=libaio --runtime=10 \
  --numjobs=1 --time_based --group_reporting --name=blou \
  --iodepth=16

mode	bs	IOPS	MiB/s
randread	1k	87.0k	85
randwrite	1k	16.3k	16
read	1k	79.0k	77
write	1k	17.5k	17
randread	4k	79.5k	311
randwrite	4k	64.3k	251
read	4k	85.6k	334
write	4k	64.7k	253
randread	1M	16.4k	16000
randwrite	1M	6463	6464
read	1M	18.9k	18500
write	1M	6367	6367
randread	32M	481	15100
randwrite	32M	195	6270
read	32M	578	18100
write	32M	200	6406

Globalement c'est incroyablement plus performant que les système de stockage actuels (sata + ide) et il ne nous semble pas nécessaire d'aller plus en avant sur ces tests.

Tests performance réseau

L'enjeu pour nous est la quantité de paquets par secondes (pps) supporté par le système. Nous avons effectué des tests entre deux vm (Debian bookworm), une sur sabord, une sur hauban. Ces conditions ne sont pas idéales. Pour faire un test qui se rapproche plus de l'usage que nous en avons, il faudrait sortir le récepteur et l'éméteur du système que l'on test.

Nous avons utilisé trafgen pour generé du trafic avec la configuration suivante :

trafgen -o ens18 --cpus 6 -n 3 '{ eth(da=bc:24:11:92:a9:85),ipv6(daddr=2001:912:400:100::6666,saddr=dinc()), udp()}' --num 1000000000000000

Le maximum de pps atteint est de 2,8 M (on a pas réussi à générer plus de pps, la machine émétrice était saturée) : c'est probablement la génération elle même qui prend le plus de CPU. Pour info, en 2024, il y a ~300k pps sur l'interface la plus utilisée à Grenoble et 200 kpps à Vénissieux.

Interfaces réseaux non visibles par le noyau de temps à autre

En rebootant les machines "une dernière fois", nous nous sommes aperçus que les cartes réseau 10G Intel X710 n'étaient pas là, "parfois". On a tenté d'activer SRIOV dans le bios, ça change rien (https://www.supermicro.com/support/faqs/faq.cfm?faq=40068). On a tenté avec l'option kernel reboot=pci, ça change pas.

Aussi, lors de plusieurs reboot, la machine freeze sur l'étape 91 du boot, la bmc aussi. Et on perd l'accès à toute la machine pendant un temps allant jusqu'à 20 minutes. On récupère ensuite les accès et la machine boot à nouveau.

Parfois la carte réseau n'est juste pas visible dans le bios.

Après mise à jour du firmware des cartes réseau (6.01 → 9.83), 10 reboot successifs de sabord et hauban ont été faits sans problème de reconnaissance de carte (ni pb de bmc d'ailleurs). Outils de mise à jour : https://www.intel.com/content/www/us/en/download/18635/non-volatile-memory-nvm-update-utility-for-intel-ethernet-adapters-700-series-linux.html