Description matérielle de CALI

Cet article décrit la configuration matérielle du cluster CALI.

Avant-propos

Le cluster est hétérogène :

  • une base matérielle commune a été acquise en 2014
  • des ajouts de noeuds de calcul ont été réalisés par divers laboratoires
  • un réseau d'interconnexion rapide Infiniband interconnecte la plupart des noeuds, mais pas les derniers acquis

Les matériels ajoutés par des laboratoires sont accessibles à tout le monde, mais le laboratoire propriétaire est prioritaire et les jobs en cours seront suspendus ou tués. L'hétérogénéité du cluster est gérée au niveau de l'ordonnanceur slurm via l'utilisation de partitions différentes, et possibilité de demander des features.

Résumé des noeuds

Notes sur les colonnes slurm

  • La liste des partitions indiquée ici n'est pas exhaustive, seulement les partitions ouvertes à tous et généralistes sont indiquées. Voir la page partitions ou la description détaillée des noeuds ci-après
  • Les features slurm permettent, quand on lance un job, de forcer sa localisation sur les noeuds possédant la feature demandée. Par exemple, dans la partition normal, vous voulez exécuter votre code uniquement sur les noeuds avec processeur Xeon-E5-2650-v2 → ajoutez --constraint=Xeon-E5-2650-v2 comme option pour le batch
Date Noeuds Processeur Mémoire GPU Infiniband Partitions slurm Feature slurm
2014 (19) node[01,03-12,21-28] 2 Xeon E5-2650v2, 8 cœurs 128 Go Oui (QDR) normal, rapide Xeon-E5-2650-v2, Infiniband, NoPreemption
2014 (1) node29 2 Xeon E5-2650v2, 8 cœurs 128 Go 3 NVidia K20 Oui gpu Xeon-E5-2650-v2, Infiniband, GPU, K20, NoPreemption
2016 (11) node[46-54,56-57] 2 Xeon E5-2630v4, 10 cœurs 128 Go Oui (QDR) normal, rapide Xeon-E5-2630-v4, Infiniband
2016 (1) node58 2 Xeon E5-2630v4, 10 cœurs 128 Go 4 K40m Oui (QDR) gpu Xeon-E5-2630-v4, Infiniband, GPU, K40m
2017 (4) node[59-62] 2 Xeon E5-2630 v4, 10 cœurs 128 Go Oui (QDR) normal, rapide Xeon-E5-2630-v4, Infiniband
2018 (2) node[63-64] 2 Xeon Silver 4108, 8 cœurs 96 Go 8 GTX 1080 Ti gpu Xeon-4108, GPU, GTX1080Ti
2018 (1) node65 2 Xeon Silver 4114, 10 cœurs 192 Go 8 GTX 1080 Ti gpu Xeon-4114, GPU, GTX1080Ti
2019 (1) node66 2 Xeon Silver 4108, 8 cœurs 256 Go normal, rapide Xeon-4108

Note : (mars 2024) les noeuds 2018 avec 8 GPU chacun ont été transférés sur la cluster CALI v3

Nœud frontal

Le nœud frontal sert de point d'accès au cluster, via des connexions SSH ou x2go

Matériel

  • Deux processeurs E5-2620 v2 (Hyper-Threading activé)
  • Mémoire 32 Go
  • Réseau Infiniband QLogic IBA7322 QDR

Nœuds de calcul

Les nœuds de calcul sont les serveurs qui exécutent les jobs lorsque l'ordonnanceur (slurm) le décide.

Plusieurs ensemble de nœud de calcul différents cohabitent.

Noeuds génération 2014

Série node[01,03-12,21-28]

Voir les détails

Affectation slurm :

  • Partitions communes : rapide, normal, cluster

Noeud GPU (K20) génération 2014

Un nœud node29

Voir les détails

Affectation slurm :

  • Partitions communes : gpu

Noeuds génération 2016 / 2017

Cette série de noeuds a été financé par le laboratoire INSERM UMR 850 de l'intitut GEIST et par XLIM.

Série node[46-54,56-57], node[59-62]

Voir les détails

Affectation slurm :

  • Partitions communes : rapide, normal, cluster
  • Partitions privatives : cluster-e5v4-umr850, cluster-e5v4-xlim-electro

Noeuds GPU (K40m) génération 2016

node58

Voir les détails

Affectation slurm :

  • Partitions communes : gpu
  • Partitions privatives : gpu-umr850

Noeud E5V4 XLIM 2019

Un noeud : node66 – Financé par XLIM

Voir les détails

Affectation slurm :

  • Partitions communes : rapide, normal, cluster
  • Partitions privatives : xlim-cc

Réseau Infiniband

Le réseau interne Infiniband est un réseau avec une grande bande passante et une très faible latence. Il offre ainsi des communications très performantes pour les applications de calcul parallèle distribué (MPI) qui utilisent les ressources de plusieurs nœuds de calcul distincts.

Notre réseau est basé sur l'architecture Intel True Scale QDR (débit 40 Gb/s) – maintenant obsolète et non maintenue par le constructeur :!:

  • Commutateur Intel True Scale Edge Switch 12300
  • Technologie QDR

Réseau ethernet interne

Deux commutateurs Gb ethernet “empilés”

Quelques photos