~~SLIDESHOW yatil~~ ====== Slurm, plus de commandes ====== Cet article donne une liste plus complètes des commandes du logiciel //slurm//. Vous devez déjà être familier avec [[les-bases | les bases de Slurm]]. ===== Options des batchs ===== Dans les exemples de batch, nous n'avons indiqué que quelques-unes des options de soumission possibles. Pour connaître toutes les options possibles, consultez la [[http://slurm.schedmd.com/sbatch.html | page de manuel UNIX de la commande sbatch]] ==== Lignes #SBATCH ==== Toutes les lignes ''#SBATCH'' des fichiers batch sont en réalité des options de la commande ''sbatch'' * elles peuvent être données directement sur la ligne de commande, à l'invocation de la commande ''sbatch'' * il est plus sûr de les indiquer dans le fichier batch, ainsi vous n'oublierez pas de les donner ==== Envoi de mail par Slurm ==== //Slurm// peut expédier des mails lorsqu'un job change d'état. Par exemple, pour recevoir un mail à la fin d'un job, utilisez les options suivantes : --mail-type=end --mail-user=votre.nom@votre.domaine ===== Les jobs ===== ==== Liste ==== Voir tous les jobs de slurm : squeue -l squeue -o "%.6i %.12u %.14j %.14P %.14q %.14a %.9T %.9Q %.10V %.10M %.9l %.6m %.6C %.6D %R" smap Voir un résumé des jobs par //account// et utilisateur (commande DSI) squeue-summary Exemple de commande pour compter le nombre de CPU en cours d'utilisation par un usager : squeue -u -t running -o "%C" --noheader | awk 'BEGIN{ncpus=0}{ncpus+=$1}END{print "CPUS utilisees : "ncpus}' ==== Informations détaillées ==== Voir les détails d'un job : scontrol --details show job JOB_ID Pour connaître la quantité de ressources consommées par un job en cours : sstat -j JOB_ID ==== Priorité des jobs en attente ==== sprio sprio -o "%.9i %.14u %.8Y %.8A %.8a %.8F %.8f %.8P %.8p" ===== Données de comptabilité ===== ==== Comptabilité générales ==== sreport Synthèse des 30 derniers jours (commande DSI) sreport-summary ==== Détails d'un job terminé ==== Pour lire les informations de comptabilité (//accounting//) enregistrées par slurm sur un job terminé : sacct -j JOB_ID sacct -j JOB_ID -l sacct -j JOB_ID -o JobID,User,Account,partition,qos,Submit,Start,End,exitcode,elapsed,cputime,NodeList,alloccpus,state La commande ''sacct'' permet d'afficher d'autres métriques avec l'option ''-o'' ; pour connaître toutes les données visualisables, voir ''%%sacct --helpformat%%'' ==== Calcul du fair-share ==== Le fair-share est un des 3 facteurs rentrant dans le calcul de la [[priorité]] sshare sshare -u USER ===== Les noeuds ===== Pour lister les noeuds déclarés dans slurm avec leurs caractéristiques et l'allocation actuelle de CPU et de mémoire : scontrol show nodes Pour lister seulement l'état des noeuds 01 à 28 : scontrol show nodes node[01-28] ==== Jobs en cours ==== Pour connaître les jobs utilisant un nœud ou un ensemble de nœuds particuliers (''node31'' ici) : squeue -w node31 ===== Les partitions ===== Pour lister les partitions avec leurs caractéristiques : scontrol show partitions Pour voir l'état des partitions et des noeuds : sinfo sinfo -a -o "%20P %14C %14F %10p" ===== Les QoS ===== Lister les QoS et leur paramétrage : sacctmgr list qos