Cet article décrit la configuration matérielle du cluster CALI.
Le cluster est hétérogène :
Les matériels ajoutés par des laboratoires sont accessibles à tout le monde, mais le laboratoire propriétaire est prioritaire et les jobs en cours seront suspendus ou tués. L'hétérogénéité du cluster est gérée au niveau de l'ordonnanceur slurm via l'utilisation de partitions différentes, et possibilité de demander des features.
Notes sur les colonnes slurm
normal
, vous voulez exécuter votre code uniquement sur les noeuds avec processeur Xeon-E5-2650-v2
→ ajoutez --constraint=Xeon-E5-2650-v2
comme option pour le batchDate | Noeuds | Processeur | Mémoire | GPU | Infiniband | Partitions slurm | Feature slurm |
---|---|---|---|---|---|---|---|
2014 | (19) node[01,03-12,21-28] | 2 Xeon E5-2650v2, 8 cœurs | 128 Go | – | Oui (QDR) | normal , rapide | Xeon-E5-2650-v2 , Infiniband , NoPreemption |
2014 | (1) node29 | 2 Xeon E5-2650v2, 8 cœurs | 128 Go | 3 NVidia K20 | Oui | gpu | Xeon-E5-2650-v2 , Infiniband , GPU , K20 , NoPreemption |
2016 | (11) node[46-54,56-57] | 2 Xeon E5-2630v4, 10 cœurs | 128 Go | – | Oui (QDR) | normal , rapide | Xeon-E5-2630-v4 , Infiniband |
2016 | (1) node58 | 2 Xeon E5-2630v4, 10 cœurs | 128 Go | 4 K40m | Oui (QDR) | gpu | Xeon-E5-2630-v4 , Infiniband , GPU , K40m |
2017 | (4) node[59-62] | 2 Xeon E5-2630 v4, 10 cœurs | 128 Go | – | Oui (QDR) | normal , rapide | Xeon-E5-2630-v4 , Infiniband |
| | 2 Xeon Silver 4108, 8 cœurs | 96 Go | 8 GTX 1080 Ti | – | gpu | Xeon-4108 , GPU , GTX1080Ti |
| | 2 Xeon Silver 4114, 10 cœurs | 192 Go | 8 GTX 1080 Ti | – | gpu | Xeon-4114 , GPU , GTX1080Ti |
2019 | (1) node66 | 2 Xeon Silver 4108, 8 cœurs | 256 Go | – | – | normal , rapide | Xeon-4108 |
Note : (mars 2024) les noeuds 2018 avec 8 GPU chacun ont été transférés sur la cluster CALI v3
Le nœud frontal sert de point d'accès au cluster, via des connexions SSH ou x2go
Matériel
Les nœuds de calcul sont les serveurs qui exécutent les jobs lorsque l'ordonnanceur (slurm) le décide.
Plusieurs ensemble de nœud de calcul différents cohabitent.
Série node[01,03-12,21-28]
Affectation slurm :
rapide
, normal
, cluster
Cette série de noeuds a été financé par le laboratoire INSERM UMR 850 de l'intitut GEIST et par XLIM.
Série node[46-54,56-57]
, node[59-62]
Affectation slurm :
rapide
, normal
, cluster
cluster-e5v4-umr850
, cluster-e5v4-xlim-electro
node58
Affectation slurm :
gpu
gpu-umr850
Un noeud : node66
– Financé par XLIM
Affectation slurm :
rapide
, normal
, cluster
xlim-cc
Le réseau interne Infiniband est un réseau avec une grande bande passante et une très faible latence. Il offre ainsi des communications très performantes pour les applications de calcul parallèle distribué (MPI) qui utilisent les ressources de plusieurs nœuds de calcul distincts.
Notre réseau est basé sur l'architecture Intel True Scale QDR (débit 40 Gb/s) – maintenant obsolète et non maintenue par le constructeur
Deux commutateurs Gb ethernet “empilés”