Le cluster comporte :
node-1
et node-2
) avec 1,5 Tonode-1
à node-4
) et bridge NVlinknode-5
à node-7
)
Le choix du type de GPU se fait lors de la soumission de job sous Slurm, en spécifiant un type de gpu : --gres=gpu:h100:1
par exemple pour demander une GPU H100, à remplacer par l40
pour une L40.
Les communications MPI peuvent utiliser du RDMA via le protocole RoCE –