Slurm, plus de commandes

Cet article donne une liste plus complètes des commandes du logiciel slurm. Vous devez déjà être familier avec les bases de Slurm.

Options des batchs

Dans les exemples de batch, nous n'avons indiqué que quelques-unes des options de soumission possibles.

Pour connaître toutes les options possibles, consultez la page de manuel UNIX de la commande sbatch

Lignes #SBATCH

Toutes les lignes #SBATCH des fichiers batch sont en réalité des options de la commande sbatch

  • elles peuvent être données directement sur la ligne de commande, à l'invocation de la commande sbatch
  • il est plus sûr de les indiquer dans le fichier batch, ainsi vous n'oublierez pas de les donner

Envoi de mail par Slurm

Slurm peut expédier des mails lorsqu'un job change d'état. Par exemple, pour recevoir un mail à la fin d'un job, utilisez les options suivantes :

  --mail-type=end
  --mail-user=votre.nom@votre.domaine

Les jobs

Liste

Voir tous les jobs de slurm :

squeue -l
squeue -o "%.6i %.12u %.14j %.14P %.14q %.14a %.9T %.9Q %.10V %.10M %.9l %.6m %.6C %.6D %R"
smap

Voir un résumé des jobs par account et utilisateur (commande DSI)

squeue-summary

Exemple de commande pour compter le nombre de CPU en cours d'utilisation par un usager :

squeue -u <LOGIN> -t running -o "%C" --noheader | awk 'BEGIN{ncpus=0}{ncpus+=$1}END{print "CPUS utilisees : "ncpus}'

Informations détaillées

Voir les détails d'un job :

scontrol --details show job JOB_ID

Pour connaître la quantité de ressources consommées par un job en cours :

sstat -j JOB_ID

Priorité des jobs en attente

sprio
sprio -o "%.9i %.14u %.8Y %.8A %.8a %.8F %.8f %.8P %.8p"

Données de comptabilité

Comptabilité générales

sreport 

Synthèse des 30 derniers jours (commande DSI)

sreport-summary

Détails d'un job terminé

Pour lire les informations de comptabilité (accounting) enregistrées par slurm sur un job terminé :

sacct -j JOB_ID
sacct -j JOB_ID -l
sacct -j JOB_ID -o JobID,User,Account,partition,qos,Submit,Start,End,exitcode,elapsed,cputime,NodeList,alloccpus,state

La commande sacct permet d'afficher d'autres métriques avec l'option -o ; pour connaître toutes les données visualisables, voir sacct --helpformat

Calcul du fair-share

Le fair-share est un des 3 facteurs rentrant dans le calcul de la priorité

sshare 
sshare -u USER

Les noeuds

Pour lister les noeuds déclarés dans slurm avec leurs caractéristiques et l'allocation actuelle de CPU et de mémoire :

scontrol show nodes

Pour lister seulement l'état des noeuds 01 à 28 :

scontrol show nodes node[01-28]

Jobs en cours

Pour connaître les jobs utilisant un nœud ou un ensemble de nœuds particuliers (node31 ici) :

squeue -w node31

Les partitions

Pour lister les partitions avec leurs caractéristiques :

scontrol show partitions

Pour voir l'état des partitions et des noeuds :

sinfo
sinfo -a -o "%20P %14C %14F %10p"

Les QoS

Lister les QoS et leur paramétrage :

sacctmgr list qos