~~SLIDESHOW yatil~~
====== Slurm, plus de commandes ======
Cet article donne une liste plus complètes des commandes du logiciel //slurm//. Vous devez déjà être familier avec [[les-bases | les bases de Slurm]].
===== Options des batchs =====
Dans les exemples de batch, nous n'avons indiqué que quelques-unes des options de soumission possibles.
Pour connaître toutes les options possibles, consultez la [[http://slurm.schedmd.com/sbatch.html | page de manuel UNIX de la commande sbatch]]
==== Lignes #SBATCH ====
Toutes les lignes ''#SBATCH'' des fichiers batch sont en réalité des options de la commande ''sbatch''
* elles peuvent être données directement sur la ligne de commande, à l'invocation de la commande ''sbatch''
* il est plus sûr de les indiquer dans le fichier batch, ainsi vous n'oublierez pas de les donner
==== Envoi de mail par Slurm ====
//Slurm// peut expédier des mails lorsqu'un job change d'état. Par exemple, pour recevoir un mail à la fin d'un job, utilisez les options suivantes :
--mail-type=end
--mail-user=votre.nom@votre.domaine
===== Les jobs =====
==== Liste ====
Voir tous les jobs de slurm :
squeue -l
squeue -o "%.6i %.12u %.14j %.14P %.14q %.14a %.9T %.9Q %.10V %.10M %.9l %.6m %.6C %.6D %R"
smap
Voir un résumé des jobs par //account// et utilisateur (commande DSI)
squeue-summary
Exemple de commande pour compter le nombre de CPU en cours d'utilisation par un usager :
squeue -u -t running -o "%C" --noheader | awk 'BEGIN{ncpus=0}{ncpus+=$1}END{print "CPUS utilisees : "ncpus}'
==== Informations détaillées ====
Voir les détails d'un job :
scontrol --details show job JOB_ID
Pour connaître la quantité de ressources consommées par un job en cours :
sstat -j JOB_ID
==== Priorité des jobs en attente ====
sprio
sprio -o "%.9i %.14u %.8Y %.8A %.8a %.8F %.8f %.8P %.8p"
===== Données de comptabilité =====
==== Comptabilité générales ====
sreport
Synthèse des 30 derniers jours (commande DSI)
sreport-summary
==== Détails d'un job terminé ====
Pour lire les informations de comptabilité (//accounting//) enregistrées par slurm sur un job terminé :
sacct -j JOB_ID
sacct -j JOB_ID -l
sacct -j JOB_ID -o JobID,User,Account,partition,qos,Submit,Start,End,exitcode,elapsed,cputime,NodeList,alloccpus,state
La commande ''sacct'' permet d'afficher d'autres métriques avec l'option ''-o'' ; pour connaître toutes les données visualisables, voir ''%%sacct --helpformat%%''
==== Calcul du fair-share ====
Le fair-share est un des 3 facteurs rentrant dans le calcul de la [[priorité]]
sshare
sshare -u USER
===== Les noeuds =====
Pour lister les noeuds déclarés dans slurm avec leurs caractéristiques et l'allocation actuelle de CPU et de mémoire :
scontrol show nodes
Pour lister seulement l'état des noeuds 01 à 28 :
scontrol show nodes node[01-28]
==== Jobs en cours ====
Pour connaître les jobs utilisant un nœud ou un ensemble de nœuds particuliers (''node31'' ici) :
squeue -w node31
===== Les partitions =====
Pour lister les partitions avec leurs caractéristiques :
scontrol show partitions
Pour voir l'état des partitions et des noeuds :
sinfo
sinfo -a -o "%20P %14C %14F %10p"
===== Les QoS =====
Lister les QoS et leur paramétrage :
sacctmgr list qos