~~SLIDESHOW yatil~~
====== Description matérielle de CALI ======
Cet article décrit la configuration matérielle du cluster CALI.
===== Avant-propos =====
Le cluster est hétérogène :
* une base matérielle commune a été acquise en 2014
* des //ajouts// de noeuds de calcul ont été réalisés par divers laboratoires
* un réseau d'interconnexion rapide //Infiniband// interconnecte la __plupart__ des noeuds, mais pas les derniers acquis
Les matériels ajoutés par des laboratoires sont accessibles à tout le monde, mais le laboratoire propriétaire est prioritaire et les jobs en cours seront suspendus ou tués. L'hétérogénéité du cluster est gérée au niveau de l'ordonnanceur slurm via l'utilisation de //partitions// différentes, et possibilité de demander des //features//.
===== Résumé des noeuds =====
__Notes sur les colonnes slurm__
* La liste des partitions indiquée ici **n'est pas exhaustive**, seulement les partitions ouvertes à tous et généralistes sont indiquées. Voir la page [[slurm:partitions]] ou la description détaillée des noeuds ci-après
* Les //features// slurm permettent, quand on lance un job, de forcer sa localisation sur les noeuds possédant la //feature// demandée. Par exemple, dans la partition ''normal'', vous voulez exécuter votre code uniquement sur les noeuds avec processeur ''Xeon-E5-2650-v2'' -> ajoutez ''%%--constraint=Xeon-E5-2650-v2%%'' comme option pour le batch
^ Date ^ Noeuds ^ Processeur ^ Mémoire ^ GPU ^ Infiniband ^ Partitions slurm ^ //Feature// slurm ^
| 2014 | (19) node[01,03-12,21-28] | 2 Xeon [[http://ark.intel.com/fr/products/75269/Intel-Xeon-Processor-E5-2650-v2-20M-Cache-2_60-GHz | E5-2650v2]], 8 cœurs | 128 Go | -- | Oui (QDR) | ''normal'', ''rapide'' | ''Xeon-E5-2650-v2'', ''Infiniband'', ''NoPreemption'' |
| 2014 | (1) node29 | 2 Xeon [[http://ark.intel.com/fr/products/75269/Intel-Xeon-Processor-E5-2650-v2-20M-Cache-2_60-GHz | E5-2650v2]], 8 cœurs | 128 Go | 3 [[https://www.nvidia.com/content/PDF/kepler/tesla-k20-active-bd-06499-001-v03.pdf | NVidia K20]] | Oui | ''gpu'' |''Xeon-E5-2650-v2'', ''Infiniband'', ''GPU'', ''K20'', ''NoPreemption'' |
| 2016 | (11) node[46-54,56-57] | 2 Xeon [[http://ark.intel.com/fr/products/92981/Intel-Xeon-Processor-E5-2630-v4-25M-Cache-2_20-GHz | E5-2630v4]], 10 cœurs | 128 Go | -- | Oui (QDR) | ''normal'', ''rapide'' |''Xeon-E5-2630-v4'', ''Infiniband'' |
| 2016 | (1) node58 | 2 Xeon [[http://ark.intel.com/fr/products/92981/Intel-Xeon-Processor-E5-2630-v4-25M-Cache-2_20-GHz | E5-2630v4]], 10 cœurs | 128 Go | 4 [[https://international.download.nvidia.com/tesla/pdf/tesla-k40-passive-board-spec.pdf | K40m]] | Oui (QDR) | ''gpu'' |''Xeon-E5-2630-v4'', ''Infiniband'', ''GPU'', ''K40m'' |
| 2017 | (4) node[59-62] | 2 Xeon [[http://ark.intel.com/fr/products/92981/Intel-Xeon-Processor-E5-2630-v4-25M-Cache-2_20-GHz | E5-2630 v4]], 10 cœurs | 128 Go | -- | Oui (QDR) | ''normal'', ''rapide'' |''Xeon-E5-2630-v4'', ''Infiniband'' |
| 2018 | (2) node[63-64] | 2 Xeon [[https://www.intel.fr/content/www/fr/fr/products/sku/123544/intel-xeon-silver-4108-processor-11m-cache-1-80-ghz/specifications.html | Silver 4108]], 8 cœurs | 96 Go | 8 [[https://www.nvidia.com/en-gb/geforce/graphics-cards/geforce-gtx-1080-ti/specifications/ | GTX 1080 Ti]] | -- | ''gpu'' |''Xeon-4108'', ''GPU'', ''GTX1080Ti'' |
| 2018 | (1) node65 | 2 Xeon [[https://www.intel.fr/content/www/fr/fr/products/sku/123550/intel-xeon-silver-4114-processor-13-75m-cache-2-20-ghz/specifications.html | Silver 4114]], 10 cœurs | 192 Go | 8 [[https://www.nvidia.com/en-gb/geforce/graphics-cards/geforce-gtx-1080-ti/specifications/ | GTX 1080 Ti]] | -- | ''gpu'' |''Xeon-4114'', ''GPU'', ''GTX1080Ti'' |
| 2019 | (1) node66 | 2 Xeon [[https://ark.intel.com/content/www/us/en/ark/products/123544/intel-xeon-silver-4108-processor-11m-cache-1-80-ghz.html | Silver 4108]], 8 cœurs | 256 Go | -- | -- | ''normal'', ''rapide'' | ''Xeon-4108'' |
Note : (mars 2024) les noeuds 2018 avec 8 GPU chacun ont été transférés sur la cluster CALI v3
===== Nœud frontal =====
Le nœud frontal sert de point d'accès au cluster, via des connexions SSH ou x2go
__Matériel__
* Deux processeurs E5-2620 v2 (Hyper-Threading activé)
* Mémoire 32 Go
* Réseau Infiniband QLogic IBA7322 QDR
===== Nœuds de calcul =====
Les nœuds de calcul sont les serveurs qui exécutent les //jobs// lorsque l'ordonnanceur (slurm) le décide.
Plusieurs ensemble de nœud de calcul différents cohabitent.
==== Noeuds génération 2014 ====
Série ''node[01,03-12,21-28]''
++++ Voir les détails |
* 2 processeurs Intel Xeon E5-2650 v2 (8 coeurs)
* mémoire 128 Go -- 8 Go/cœur
* disque local 1 To SATA, espace utilisable via /tmp
* Réseau Infiniband QLogic IBA7322 QDR
++++
Affectation slurm :
* __Partitions communes__ : ''rapide'', ''normal'', ''cluster''
==== Noeud GPU (K20) génération 2014 ====
Un nœud ''node29''
++++ Voir les détails |
* 2 processeurs Intel Xeon E5-2650 v2 (8 coeurs)
* mémoire 128 Go -- 8 Go/cœur
* disque local 1 To SATA, espace utilisable via /tmp
* trois cartes NVidia Tesla K20m (architecture //Kepler//, capacités 3.x)
* Réseau Infiniband QLogic IBA7322 QDR
++++
Affectation slurm :
* __Partitions communes__ : ''gpu''
==== Noeuds génération 2016 / 2017 ====
Cette série de noeuds a été financé par le laboratoire INSERM UMR 850 de l'intitut GEIST et par XLIM.
Série ''node[46-54,56-57]'', ''node[59-62]''
++++ Voir les détails |
* 2 processeurs Intel Xeon E5-2630 v4 (10 coeurs)
* mémoire 128 Go
* disque local 1 To SATA, espace utilisable via /tmp
* Réseau Infiniband QLogic IBA7322 QDR
++++
Affectation slurm :
* __Partitions communes__ : ''rapide'', ''normal'', ''cluster''
* __Partitions privatives__ : ''cluster-e5v4-umr850'', ''cluster-e5v4-xlim-electro''
==== Noeuds GPU (K40m) génération 2016 ====
''node58''
++++ Voir les détails |
* 2 processeurs Intel Xeon E5-2630 v4 (10 coeurs)
* mémoire 128 Go – 8 Go/cœur
* disque local 1 To SATA, espace utilisable via /tmp
* quatre cartes NVidia Tesla K40m (architecture Kepler, capacités 3.x)
* Réseau Infiniband QLogic IBA7322 QDR
Puissance crête théorique des 4 cartes K40 : 17,16 TFlops
++++
Affectation slurm :
* __Partitions communes__ : ''gpu''
* __Partitions privatives__ : ''gpu-umr850''
==== Noeud E5V4 XLIM 2019 ====
Un noeud : ''node66'' -- Financé par XLIM
++++ Voir les détails |
* 2 processeurs Intel(R) Xeon(R) Silver 4108 CPU @ 1.80GHz
* mémoire 256 Go
* disques locaux : 2 x SATA 1 To
* Pas de réseau Infiniband
++++
Affectation slurm :
* __Partitions communes__ : ''rapide'', ''normal'', ''cluster''
* __Partitions privatives__ : ''xlim-cc''
===== Réseau Infiniband =====
Le réseau interne Infiniband est un réseau avec une grande bande passante et une très faible latence. Il offre ainsi des communications très performantes pour les applications de calcul parallèle distribué (MPI) qui utilisent les ressources de plusieurs nœuds de calcul distincts.
Notre réseau est basé sur l'architecture [[http://www.intel.com/content/www/us/en/infiniband/truescale-infiniband.html | Intel True Scale]] QDR (débit 40 Gb/s) -- maintenant obsolète et non maintenue par le constructeur :!:
* Commutateur Intel True Scale Edge Switch 12300
* Technologie QDR
===== Réseau ethernet interne =====
Deux commutateurs Gb ethernet "empilés"
===== Quelques photos =====
{{:dsc_0376.jpg?200 |}}
{{:dsc_0379.jpg?200 |}}