Il est possible pour visualiser simplement des information sur son job d'utiliser la commande jobinfo <jobid>.Il peut être utilisé à la fin d'un script sbatch, jobinfo donnera des informations très utiles si vous contactez le support.
jobinfo 6101Job Infos :Name : Test partition volta - 4 noeudsUser : estanaPartition : voltaNNodes : 4Nodes : olympevolta[0-3]State : COMPLETEDSubmit : 2023-04-14T16:08:02Start : 2023-04-14T16:08:02End : 2023-04-14T16:08:05Reserved walltime : 04:00:00Used walltime : 00:00:03Used CPU time : 00:01.884% User Computation) : 0 % (00:00.658)% System (I/O) : 100.00 % (00:01.225)Mem reserved : 2.0TMax Mem used : 24MMax Disk Write : 0Max Disk Read : 0
Le paramètre “Max Mem used : 24M”, basé sur la variable MaxRSS, représente la quantité maximale de mémoire physique (RAM) utilisée par le processus principal d’un travail ou d’une étape Slurm.
Cependant, cette mesure dépend de la fréquence d’échantillonnage utilisée par Slurm. Comme Slurm ne surveille pas la mémoire en continu mais à des intervalles définis, il est possible que des pics de consommation de mémoire plus élevés passent inaperçus s’ils surviennent entre deux échantillonnages.
De plus, si le travail est un code MPI (Message Passing Interface), la valeur affichée correspond à la mémoire maximale utilisée par le processus individuel qui a consommé le plus, et non à la somme totale de la mémoire utilisée sur l’ensemble du nœud de calcul. Ainsi, la consommation réelle de mémoire sur le nœud peut être bien plus élevée que la valeur rapportée par MaxRSS.
Il peut être utile de mettre une petite temporisation avant la commande jobinfo pour permettre d'avoir les dernières valeurs de l'accounting slurm s'il est utilisé dans un script sbatch.
sleep 10jobinfo