Impact de l'intervention du 4 septembre 2023 sur la soumission des Jobs / Impact on Job Submission due to Operation on cooling system


French version

French version

Nous mettons en place un dispositif spécifique, afin que vos jobs ne soient pas tués lors de la maintenance.
En fonction de leur durée, certains jobs pourront être mis en attente jusqu’à la fin de la maintenance.

Explications

Visualisation de la maintenance :

[user@olympelogin1 ~]$ scontrol show res
ReservationName=Maintenance_Olympe_04-09-2023 StartTime=2023-09-04T05:00:00

Si vous lancez un job qui risque de se terminer après StartTime, votre job restera en état PENDING jusqu’à la fin de la maintenance. Il sera automatiquement lancé après la maintenance.

Mais si vous pensez que votre job est suffisamment court pour se terminer AVANT le début de la réservation, vous pouvez ajuster convenablement sa durée en ajoutant l’option --time dans vos en-têtes sbatch.

Aide

Pour vous aider à calculer le temps disponible avant la prochaine réservation vous pouvez utiliser la commande check-timelimit.sh :

[marteau@olympelogin1 ~]$ check-timelimit.sh
**************************************************************************

              MAINTENANCE RESERVATION ACTIVE !

    Reservation : Maintenance_Olympe_04-09-2023 will start at  2023-09-04T05:00:00

    Remaining time : 2 days 10 hours 34 minutes and 00 seconds 

    If you think your job will end before the reservation starts
    you can adjust its duration with --time option in your sbatch headers 

    Max value for --time option (slurm format) : 2-10:34:00

    Additional information is available here :
    https://www.calmip.univ-toulouse.fr/spip.php?article808

**************************************************************************

Par exemple :

  1. Je sais qu’une maintenance est prévue bientôt.
  2. Je vérifie combien de temps il reste avec check-timelimit.sh, qui me renvoie 2-10:34:00 (2 jours, 10 heures, 34 mn avant l’arrêt)
  3. Si mon job est trop long, j’attends la fin de la maintenance
  4. Supposons que mon job soit prévu pour une vingtaine d’heures : pour avoir une chance de passer avant la maintenance, j’introduis dans mon script sbatch la ligne suivante : --time=01-00:00:00 (la valeur doit être inférieure au temps restant).

Attention ! Dans tous les cas la valeur de durée ne peut dépasser les limites de WallTime imposées par les files d’attente : [https://www.calmip.univ-toulouse.fr/spip.php?article608]

English version

English version

In view of the Olympe downtime, in order to avoid to kill jobs in progress during the shutdown, we are setting up a specific slurm reservation. This reservation may impact the submission of your jobs until the shutdown.

This reservation may impact the submission of your jobs until the shutdown.

Explanations

Maintenance view :

[user@olympelogin1 ~]$ scontrol show res
ReservationName=Maintenance_Olympe_04-09-2023 StartTime=2023-09-04T05:00:00

If you run a job that is likely to terminate after StartTime, your job will remain in the PENDING state until the maintenance ends. It will be automatically started after maintenance.

But if you think your job is short enough to end before the reservation starts, you can adjust its duration appropriately by adding the --time option in your sbatch headers.

Help

To help you calculate the time available before the next reservation you can use the check-timelimit.sh command :

[marteau@olympelogin1 ~]$ check-timelimit.sh
**************************************************************************

              MAINTENANCE RESERVATION ACTIVE !

    Reservation : Maintenance_Olympe_04-09-2023 will start at  2023-09-04T05:00:00

    Remaining time : 2 days 10 hours 34 minutes and 00 seconds 

    If you think your job will end before the reservation starts
    you can adjust its duration with --time option in your sbatch headers 

    Max value for --time option (slurm format) : 2-10:34:00

    Additional information is available here :
    https://www.calmip.univ-toulouse.fr/spip.php?article808

**************************************************************************

For example :

  1. I know there’s a maintenance scheduled soon.
  2. I check how much time is left with check-timelimit.sh, which returns 2-10:34:00 (2 days, 10 hours, 34 min before shutdown)
  3. If my job is too long, I wait for maintenance to finish
  4. Suppose my job is scheduled for about 20 hours : to have a chance of getting through before then, I insert the following line in my sbatch script : --time=01-00:00:00

Warning ! In all cases the time value cannot exceed the WallTime limits imposed by the queues : [https://www.calmip.univ-toulouse.fr/spip.php?article608]