Cet article donne une liste plus complètes des commandes du logiciel slurm. Vous devez déjà être familier avec les bases de Slurm.
Dans les exemples de batch, nous n'avons indiqué que quelques-unes des options de soumission possibles.
Pour connaître toutes les options possibles, consultez la page de manuel UNIX de la commande sbatch
Toutes les lignes #SBATCH
des fichiers batch sont en réalité des options de la commande sbatch
sbatch
Slurm peut expédier des mails lorsqu'un job change d'état. Par exemple, pour recevoir un mail à la fin d'un job, utilisez les options suivantes :
--mail-type=end --mail-user=votre.nom@votre.domaine
Voir tous les jobs de slurm :
squeue -l squeue -o "%.6i %.12u %.14j %.14P %.14q %.14a %.9T %.9Q %.10V %.10M %.9l %.6m %.6C %.6D %R" smap
Voir un résumé des jobs par account et utilisateur (commande DSI)
squeue-summary
Exemple de commande pour compter le nombre de CPU en cours d'utilisation par un usager :
squeue -u <LOGIN> -t running -o "%C" --noheader | awk 'BEGIN{ncpus=0}{ncpus+=$1}END{print "CPUS utilisees : "ncpus}'
Voir les détails d'un job :
scontrol --details show job JOB_ID
Pour connaître la quantité de ressources consommées par un job en cours :
sstat -j JOB_ID
sprio sprio -o "%.9i %.14u %.8Y %.8A %.8a %.8F %.8f %.8P %.8p"
sreport
Synthèse des 30 derniers jours (commande DSI)
sreport-summary
Pour lire les informations de comptabilité (accounting) enregistrées par slurm sur un job terminé :
sacct -j JOB_ID sacct -j JOB_ID -l sacct -j JOB_ID -o JobID,User,Account,partition,qos,Submit,Start,End,exitcode,elapsed,cputime,NodeList,alloccpus,state
La commande sacct
permet d'afficher d'autres métriques avec l'option -o
; pour connaître toutes les données visualisables, voir sacct --helpformat
Le fair-share est un des 3 facteurs rentrant dans le calcul de la priorité
sshare sshare -u USER
Pour lister les noeuds déclarés dans slurm avec leurs caractéristiques et l'allocation actuelle de CPU et de mémoire :
scontrol show nodes
Pour lister seulement l'état des noeuds 01 à 28 :
scontrol show nodes node[01-28]
Pour connaître les jobs utilisant un nœud ou un ensemble de nœuds particuliers (node31
ici) :
squeue -w node31
Pour lister les partitions avec leurs caractéristiques :
scontrol show partitions
Pour voir l'état des partitions et des noeuds :
sinfo sinfo -a -o "%20P %14C %14F %10p"
Lister les QoS et leur paramétrage :
sacctmgr list qos