Ceci est une ancienne révision du document !
Cet article décrit deux des notions fondamentales de l'ordonnanceur de travaux slurm :
Une partition est un groupe de nœuds de calcul du cluster
Les partitions sont utilisées :
Rappel : pour connaître les nœuds de calcul disponibles, consultez la page de description matérielle
Vous trouverez sur CALI :
Partition | Noeuds | Durée max / job | # noeuds max / job | # CPU Max actives / User | # Max Jobs actif (soumis) / User | Priorité | Infiniband | Pré-emptible ? |
---|---|---|---|---|---|---|---|---|
rapide | tous sauf GPU | 1 H | - | 32 | 2 (10) | 100 | Selon placement | Selon placement |
normal | tous sauf GPU | 2 J | - | 96 | - (400) | 50 | Selon placement | Selon placement |
cluster | tous sauf GPU | 45 J | 1 | 96 | - (400) | 1 | Selon placement | Selon placement |
gpu | Ceux avec GPU | 2 J | - | - | - (400) | 10 | Non | Selon placement |
Pour ceux qui veulent en savoir plus, les limites ci-dessus sont imposées à travers plusieurs mécanismes :
Le principe général est le suivant :
rapide
normal
cluster
Les jobs longs (plusieurs jours) sont à éviter autant que possible :
Certains noeuds de calcul ont été financés spécifiquement par des laboratoires :
Pour répondre à ce besoin, les noeuds sont regroupés dans des partitions de très haute priorité, utilisables uniquement par le laboratoire propriétaire.
Afin d'utiliser une partition privative, un membre du laboratoire doit simplement changer le nom de la partition (--partition
).
Il est à noter qu'une QoS différente sera automatiquement sélectionnée :
Partition | Noeuds | Durée max | Priorité |
---|---|---|---|
cluster-e5v4-umr850 | node46-57 (2016) | 30 J | 100 |
gpu-umr850 | node58 (2016) | 30 J | 100 |
cluster-e5v4-xlim-electro | node59-62 (2016) | 30 J | 100 |
gpu-umr1248-gtx1080 | node63-64 (2018) | 30 J | 100 |
gpu-ircer-gtx1080 | node65 (2018) | 30 J | 100 |
xlim-cc | node66 (2019) | 30 J | 100 |
La QoS, ou Quality of Service , est dans slurm une notion orthogonale aux partitions. En pratique, les QoS sont utilisés sur CALI-2 pour :
QoS | # CPU max | # Noeuds max | # CPU max / util. | # job max actif / utilisateur | # job max en file / utilisateur | Facteur d'usage |
---|---|---|---|---|---|---|
rapide | 32 | 2 | 10 | 1.0 | ||
normal | 96 | 1.0 | ||||
cluster | 96 | 1.0 | ||||
cluster-nopreempt | 88 | 14 | 1.0 | |||
cluster-e5v4 | 0.0 | |||||
gold-geist-lcsn | 0.0 | |||||
gold-geist-genolim | 0.0 | |||||
gold-geist-umr850 | 0.0 | |||||
gold-ipam-spcts | 0.0 |
sacctmgr list qos
sacctmgr list user $(whoami) WithAssoc Format=User%18,Account%20,QoS%100
sacctmgr list user WithAssoc Format=User%18,Account%20,QoS%60 | grep QOS_CHERCHEE