L’accounting

Pour rappel Olympe est un Cluster qui interconnecte des nœuds de calcul. Chaque nœud d’Olympe dispose de 36 cœurs, certains nœuds disposent en plus de 4 cartes accélératrices GPU.

Plusieurs cas de figure se présentent en fonction de votre réservation totale : de 1 à 18 cœurs, supérieure à 18 cœurs, beaucoup de mémoire, utilisation d’un ou plusieurs GPUs.

Accounting pour la réservation de plus de 18 cœurs

Pour une réservation de plus de 18 cœurs, les nœuds sont attribués dans leur intégralité (i.e les 36 cœurs de chaque nœud réservé sont réservés).
Tout nœud réservé sur la (partition exclusive) est comptabilisé de la manière suivante :

(nombre de nœuds réservés) * (36 cœurs) * (temps de réservation effectivement utilisé)

Accounting pour la réservation de 18 cœurs ou moins

Pour une réservation de moins de 18 cœurs, le nœud est partagé entre plusieurs utilisateurs (queue mono).
Tout nœud réservé sur la partition shared est comptabilisé de la manière suivante :

(nombre de cœurs réservés) * (temps de réservation effectivement utilisé)

Accounting pour la réservation de grands besoins mémoire (nœuds mesca)

Pour une réservation sur l’un des deux nœuds mesca (nœud grande capacité mémoire), le nœud est partagé entre plusieurs utilisateurs .

Tout job sur la partition mesca est comptabilisé de la manière suivante :

(nombre de cœurs réservés) * (temps de réservation effectivement utilisé)

Accounting ’GPU’

Afin de se rapprocher du mode d’accounting de la machine Jean Zay de l’IDRIS, centre national Tier1, l’usage des cpu ne sera pas comptabilisé sur la partition Volta d’Olympe.

Accounting pour la réservation d’une ou plusieurs cartes accélératrices GPU (nœuds Volta : CPU+cartes accélératrices GPU )

Pour une réservation de moins de 18 cœurs, et de moins de 2 cartes accélératrices GPU le nœud est partagé entre plusieurs utilisateurs (partition volta QOS voltam).

Dans ce cas de figure les ressources sont comptabilisées de la manière suivante :

((nombre de GPUs)*(33) )* (temps de réservation effectivement utilisé)

Le coefficient 33 est le coefficient de conversion des heures GPU en heures cpu normalisées

Pour une réservation de plus de 18 cœurs, et de plus de 2 cartes accélératrices GPU le ou les nœuds sont attribués dans leur intégralité (i.e les 36 cœurs de chaque nœud réservé sont réservés, ainsi que les 4 cartes GPU et les 380 Go de mémoire) (partition volta QOS volta).

Dans ce cas de figure les ressources sont comptabilisées de la manière suivante :

(nombre de nœuds réservés) *( (4 GPUs)*(33)) * (temps de réservation effectivement utilisé)

Exemples:

CPU uniquement :

Je lance un job sur 2 nœuds, en lançant 36 tâches par nœud.
Mon job met 15h à tourner.
L’en-tête de mon script SLURM ressemblera à quelque chose comme :

#SBATCH -N 2
#SBATCH -n 72
#SBATCH --ntasks-per-node=36
#SBATCH --ntasks-per-core=1
#SBATCH --time=20:00:00

Il me sera décompté (2 nœuds) * (36 cpus) * (15 h) = 1080 h_cpus
Pour rappel : 36 cœurs de calculs par noeud d’Olympe.

CPU uniquement, mode dépeuplé :

Je lance un job sur 2 nœuds en dépeuplé, en lançant 32 tâches par nœud.
Mon job met 15h à tourner.
L’en-tête de mon script SLURM ressemblera à quelque chose comme :

#SBATCH -N 2
#SBATCH -n 72
#SBATCH --ntasks-per-node=32
#SBATCH --ntasks-per-core=1
#SBATCH --time=20:00:00

Il me sera décompté (2 nœuds) * (36 cpus) * (15 h) = 1080 h_cpus
Pour rappel : 36 cœurs de calculs par nœud d’Olympe.

CPU et carte accélératrice GPU :

Je lance un job utilisant 4 cpu et un GPU.
Mon job met 15h à tourner.
L’en-tête de mon script SLURM ressemblera à quelque chose comme :

#SBATCH -N 1
#SBATCH -n 4
#SBATCH --ntasks-per-node=4
#SBATCH --ntasks-per-core=1
#SBATCH --gres=gpu:1
#SBATCH --mem=20000
#SBATCH --time=20:00:00

Il me sera décompté ((1 GPU)*(33)) * (15 h) = 555 h_cpus

Et si mon quota est épuisé ?

Un job n’est comptabilisé que lorsqu’il est terminé. En cas de dépassement de quota :

Aucun job ne peut plus être soumis au gestionnaire de batch
Les jobs en attente sont supprimés
Les jobs en cours continuent leur exécution.