SLURM : ReqNodeNotAvail, Reserved for maintenance
Article mis en ligne le 8 avril 2021

À l’approche de la coupure électrique du 12 Avril certains jobs sont ’PENDING’ avec pour statut (REASON) : ReqNodeNotAvail, Reserved for maintenance.

Cela est du à la durée maximale du job soumis (walltime) qui est trop longue par rapport à la coupure à venir.
Cette durée est indiquée soit dans votre script slurm (#SBATCH —time=") soit avec la commande ’squeue -u $USER’ et la colonne "TIME_LIMIT".

JOBID PARTITION NAME USER STATE TIME TIME_LIMIT QOS NODES NODELIST(REASON)
yyyyyy exclusive xxxx xxxx PENDING 0:00 10-10:00:00 noeud 1 (ReqNodeNotAvail, Reserved for maintenance)

Vous pouvez toujours, si votre calcul le permet, réduire le walltime pour permettre à votre job de passer. Cela se fait en deux étapes :
- Étape 1 : évaluer le temps restant avant la coupure

La valeur est dans ce cas : 5-00:40:00
- Étape2 : positionner cette nouvelle valeur 5-00:40:00 pour votre job

Remarque : cette valeur est à titre d’exemple. Vous obtiendrez une valeur différentes en fonction du moment où vous lancerez le script check-timelimit.sh.

Pour plus d’informations sur le dispositif mis en place pour l’arrêt : https://www.calmip.univ-toulouse.fr/spip.php?article782

N’hésitez pas à solliciter l’équipe support si besoin : support.calmip@univ-toulouse.fr

Merci de votre compréhension concernant cet arrêt de production.