~~SLIDESHOW yatil~~ ====== Ressources matérielles dans le cluster ====== Le cluster comporte : * un noeud //frontal// * 7 noeuds de calcul * un réseau d'interconnexion * du stockage ==== Noeud frontal ==== * Noeud //interactif//, sur lequel vous vous connectez * Il sert à préparer les travaux, à regarder les résultats, à gérer les données * Processeurs : * 2 x AMD EPYC 9254 24-Core * //Hyperthreading// activé * Mémoire : 128 Go * GPU : NVidia A30 pour aider à la visualisation des résultats (FIXME à venir) ==== Noeuds de calculs ==== * 7 noeuds de calculs * Processeurs : 2 x EPYC 9254 24-Core * Mémoire : * 2 noeuds (''node-1'' et ''node-2'') avec 1,5 To * 5 noeuds avec 389 Go * GPU : * 4 noeuds avec 2 NVidia H100 (''node-1'' à ''node-4'') et bridge NVlink * 3 noeuds avec 4 NVidia L40 (''node-5'' à ''node-7'') Le choix du type de GPU se fait lors de la soumission de job sous Slurm, en spécifiant un //type// de gpu : ''%%--gres=gpu:h100:1%%'' par exemple pour demander une GPU H100, à remplacer par ''l40'' pour une L40. ==== Réseau interconnexion ==== * Le réseau interne est équipé d'un commutateur ethernet 25 Gb/s SN2010M * Les cartes réseaux des serveurs sont des Intel E810-XXV Les communications MPI peuvent utiliser du RDMA via le protocole RoCE -- FIXME ==== Stockage ====