Outils pour utilisateurs

Outils du site


slurm:partitions

Ceci est une ancienne révision du document !


Voir cette page sous forme de diaporama.

Partitions de CALI-2

Cet article décrit deux des notions fondamentales de l'ordonnanceur de travaux slurm :

  • les partitions
  • les features qui vous permettent de contrôler finement le placement de vos travaux

Partitions

Une partition est un groupe de nœuds de calcul du cluster

  • Les partitions peuvent se « chevaucher », un même nœud peut faire partie de plusieurs partitions
  • Un job slurm ne peut s'exécuter que dans une seule partition

Les partitions sont utilisées :

  • pour grouper des ressources de calcul à peu près “identiques”, comme par exemple la partition avec des GPU
  • pour placer des travaux qui ont des contraintes identiques, par exemple en temps d'exécution
  • pour donner des priorités

Rappel : pour connaître les nœuds de calcul disponibles, consultez la page de description matérielle

Vous trouverez sur CALI :

  • des partitions communes, ouvertes à tout chercheur
  • des partitions dites privatives, restreintes à un laboratoire ou groupe de chercheurs

Partitions ouvertes à tout chercheur

Liste

Partition Noeuds Durée max / job # noeuds max / job # CPU Max actives / User # Max Jobs actif (soumis) / User Priorité Infiniband Pré-emptible ?
rapide tous sauf GPU 1 H - 32 2 (10) 100 Selon placement Selon placement
normal tous sauf GPU 2 J - 96 - (400) 50 Selon placement Selon placement
cluster tous sauf GPU 45 J 1 96 - (400) 1 Selon placement Selon placement
gpu Ceux avec GPU 2 J - - - (400) 10 Non Selon placement

Pour ceux qui veulent en savoir plus, les limites ci-dessus sont imposées à travers plusieurs mécanismes :

  • les limites des partitions proprement dites
  • le choix d'une QoS utilisateur qui est faite automatiquement lors de la soumission d'un travail

Quelle partition choisir ?

Le principe général est le suivant :

  • pour la mise au point de code, jobs très courts : rapide
  • pour les jobs “normaux” : normal
    • point notable : durée limitée à 2 jours
  • pour les jobs “longs” : cluster
    • point notable : limité à un noeud max par job (pas de job réparti sur plusieurs noeuds)

Danger des jobs longs (partition cluster)

Les jobs longs (plusieurs jours) sont à éviter autant que possible :

  • Les nœuds de calculs ne sont pas “hautement disponibles”, ils peuvent être arrêtés inopinément. Si vous perdez 40 jours de calcul … vous devrez patienter !
  • L'ordonnanceur réalise un meilleur travail de placement et de répartition des ressources avec des jobs de courte durée

Partitions à accès restreint

Principe

Certains noeuds de calcul ont été financés spécifiquement par des laboratoires ou groupes de chercheurs :

  • ces parties “privatives” peuvent être utilisées par tout le monde
  • mais le laboratoire propriétaire sera prioritaire lorsqu'il en aura besoin

Autrement dit :

  • les noeuds sont regroupés dans des partitions de haute priorité, utilisables uniquement par le laboratoire propriétaire.
  • si des jobs d'autres partitions sont en cours d'utilisation, ils seront gelés pour laisser de la place

Utilisation

Afin d'utiliser une partition privative, un membre du laboratoire doit simplement changer le nom de la partition (--partition).

Liste

Partition Noeuds Durée max
cluster-e5v4-umr850 node46-57 (2016) 30 J
gpu-umr850 node58 (2016) 30 J
cluster-e5v4-xlim-electro node59-62 (2016) 30 J
gpu-umr1248-gtx1080 node63-64 (2018) 30 J
gpu-ircer-gtx1080 node65 (2018) 30 J
xlim-cc node66 (2019) 30 J

QoS

La QoS, ou Quality of Service , est dans slurm une notion orthogonale aux partitions. En pratique, les QoS sont utilisés sur CALI-2 pour :

  • imposer des limites, qu’on ne peut pas donner au niveau des partitions : nombre de job en cours par utilisateur, nombre de CPU, etc.
  • ou pour contrôler l'accès aux partitions privatives tout en ne comptabilisant pas le temps d'exécution sur ces partitions pour le calcul général du fair-share

Choix de la QoS

  • Dans notre configuration, une seule QoS est utilisée avec une partition
  • Par simplicité, elle porte le même nom que la partition associée (sauf pour les “gold”)
  • La QoS est automatiquement sélectionnée par rapport à la partition choisie, vous n'avez donc pas besoin de la spécifier
  • La liste ci-après vous permet de connaître les limites imposées par les QoS associées aux partitions

Liste

QoS # CPU max # Noeuds max # CPU max / util. # job max actif / utilisateur # job max en file / utilisateur Facteur d'usage
rapide 32 2 10 1.0
normal 96 1.0
cluster 96 1.0
cluster-nopreempt 88 14 1.0
cluster-e5v4 0.0
gold-geist-lcsn 0.0
gold-geist-genolim 0.0
gold-geist-umr850 0.0
gold-ipam-spcts 0.0

S'informer sur les QoS

  • Lister les QoS : sacctmgr list qos
  • Connaître les QoS avec lesquelles vous pouvez soumettre des travaux
    sacctmgr list user $(whoami) WithAssoc Format=User%18,Account%20,QoS%100
  • Lister les usagers autorisés pour une QoS
    sacctmgr list user  WithAssoc Format=User%18,Account%20,QoS%60 | grep QOS_CHERCHEE

Références

slurm/partitions.1671629010.txt.gz · Dernière modification: 2022/12/21 14:23 de montap01