Symptome : certains jobs sont ’PENDING’ avec pour statut (REASON) ’ReqNodeNotAvail, Reserved for maintenance.’
Cela est du à la durée maximale du job soumis (walltime) qui est trop longue par rapport à un arrêt planifié.
Cette durée est indiquée soit dans votre script slurm (#SBATCH —time=") soit avec la commande ’squeue -u $USER’ et la colonne "TIME_LIMIT".
JOBID | PARTITION | NAME | USER | STATE | TIME | TIME_LIMIT | QOS | NODES | NODELIST(REASON) |
yyyyyy | exclusive | xxxx | xxxx | PENDING | 0:00 | 10-10:00:00 | noeud | 1 | (ReqNodeNotAvail, Reserved for maintenance) |
Vous pouvez toujours, si votre calcul le permet, réduire le walltime pour permettre à votre job de passer. Cela se fait en deux étapes :
Étape 1 : évaluer le temps restant avant la coupure
La valeur est dans ce cas : 5-00:40:00
Étape2 : positionner cette nouvelle valeur 5-00:40:00 pour votre job
Remarque : cette valeur est à titre d’exemple. Vous obtiendrez une valeur différentes en fonction du moment où vous lancerez le script check-timelimit.sh.
Pour plus d’informations sur le dispositif mis en place pour l’arrêt : https://www.calmip.univ-toulouse.fr/spip.php?article782
N’hésitez pas à solliciter l’équipe support si besoin : support.calmip@univ-toulouse.fr
Merci de votre compréhension concernant cet arrêt de production.