Jobs dans l'état CONFIGURING (CF)

Symptome

Symptôme :

Mon job a été soumis mais il n'est ni en attente (PENDING) ni en cours d'exécution (RUNNING). La commande squeue affiche un état différent :

stcl@olympelogin1 ~]$ squeue --me


             JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)


           1225678 exclusive interact   testcl CF       0:08      1 olympecomp112

A quoi correspond cet état ?

Dans le cadre de la mise en place de mesures d'économie d'énergie à CALMIP, certains nœuds peuvent être ponctuellement éteints pour limiter la consommation électrique.
L'état CONFIGURING (CF) correspond à la phase de mise en service de nœuds préalablement éteints. Cette phase peut prendre quelques minutes selon le job que vous soumettez.

Quel impact sur ma consommation d'heures de calcul ?

Cet état n'a pas d'impact sur le lancement de votre job ni sur la consommation d'heures de calcul, le temps de calcul n'est décompté que lorsque le job passe à l'état RUNNING.

Vous pouvez simplement ignorer cet étape et attendre le démarrage du calcul.

Voir aussi

Comment demander de l’aide ?

Si votre job se plante sans que vous sachiez pourquoi, ou de manière générale si quelque chose ne fonctionne pas comme prévu, comment faire ?

Erreurs java lors de la connexion du VPN ou en utilisant turboVNC

java plante de manière incompréhensible lorsque vous essayez de vous connecter via le VPN ou sur les stations graphiques.

Passage d’Eos à Olympe : Ce qui change !

L’évolution principale réside dans l’apparition de nœuds avec des cartes GPU. Les nœuds à grande mémoire sont par ailleurs mieux intégrés au supercalculateur. Les caractéristiques des nœuds d’Olympe

Passage d’Eos à Olympe : ce qui ne change pas !

Olympe, les points similaires avec Eos :

chdb fait le job, mais ne rend pas la main

chdb démarre, exécute complètement le job, mais le job ne se termine pas de lui-même

Se connecter à travers le VPN

Tous les pièges à éviter pour utiliser notre VPN

gabedit ne se lance pas

Mon poste de travail est un mac, gabedit ne se lance pas

Je n’arrive pas à utiliser matplotlib !

Avec certaines versions de Python, la séquence suivante est problématique :

Quelques messages de slurm

Mon job ne se lance pas et je ne comprends pas les messages de slurm

Je n’arrive pas à utiliser gdal avec python 2.7.14

Comment installer chez vous le module gdal de python

MAP & Intel Python

Au sein de votre script batch (

Warning : add —mem to your script !!!

Description of Partition and QOS (file queue) :

Map issue with OpenMPI 4.0.4 and PGI compilers

To use OpenMPI 4.0.4 compiled with PGI and level optimisation = ’-O1’ :

Visualisation : Erreur "javax.net.ssl.SSLHandshake

Visualisation : Erreur "javax.net.ssl.SSLHandshakeException" Problème :

SLURM : ReqNodeNotAvail, Reserved for maintenance

Symptome : certains jobs sont ’PENDING’ avec pour statut (REASON) ’ReqNodeNotAvail, Reserved for maintenance.’

intelmpi: Messages d'erreur incompréhensibles !

Mon job utilisant intelmpi ne fonctionne pas correctement, le fichier de sortie contient les lignes suivantes (probablement plusieurs fois):

Wandb: Network error (ConnectionError), entering retry loop

Lors de l'utilisation de wandb une erreur "wandb: Network error (ConnectionError), entering retry loop" apparait :

Intel MPI. MPI_Barrier error.

Le problème a été rencontré lors de l'utilisation de chdb (compilé avec Intel MPI):

Forcer les I/O de mes scripts python et bash

Les outputs de mes scripts python, bash ne sont pas présents de façon synchrone dans le fichier slurm-<jobid>.out et slurm-<jobid>.err Plusieurs solutions sont possibles en fonction du langage utilisé :

Tester le trafic sur le NVLink entre les GPUs Volta. Olympe

Sur cette page, il est expliqué comment vérifier que le connecteur NVLink est utilisé pour communiquer directement des messages entre les cartes graphiques.