Suite à l'incident matériel sur le /tmpdir nous prévoyons un arrêt de la production sur le Supercalculateur Olympe du Lundi 12 Janvier à 09h00 jusqu'au Mardi 13 Janvier 09h00.
Les jobs en cours seront arrêtés. Les frontales, l'espace NFS (HOME) ainsi que le STORE resteront accessibles.
Cet arrêt de production permettra de remettre les performances et la volumétrie utile du /tmpdir à ses valeurs nominales.
Pour rappel :
- une triple panne matérielle (disques rotatifs) sur un même groupe de disque (10 disques).
- le groupe de disque étant résiliant à la perte de deux disques, les données présentent sur ce groupe de disques sont perdues.
Nous sommes toujours en cours de collecte des fichiers impactés par cette panne.
Une liste de ces fichiers sera mise à disposition à la racine de chacun des dossier HOME utilisateurs.
À l'heure actuelle la borne maximum estimée du nombre de fichiers impactés est de 8%.
Ces fichiers seront malheureusement perdus.
Une triple panne sur un groupe disque est extrêmement rare, mais elle devient plus probable avec des matériels dont la date de mise en production est 2018.
Pour rappel nous préconisons l'usage de l'espace 'STORE' pour sécuriser vos données : https://www.calmip.univ-toulouse.fr/espace-utilisateurs/doc-technique-olympe/lespace-disque
Nous vous remercions pour votre compréhension et nous sommes désolés pour les inconvénients ou difficultés que ces pertes de données vont provoquer dans vos travaux.
Nous prévoyons la mise en production du nouveau supercalculateur Kairos, ainsi que de son système de stockage associé, pour le milieu de l’année 2026.
Historique Mercredi 7 Janvier 2025
L'accès à l'espace /tmpdir est très perturbé.
- L'incident en cours est lié à une triple panne disque (sur 1 groupe de disques particulier) d'une des baies composant l'espace de fichier temporaire "/tmpdir".
- Au maximum, 8% des fichiers de l'espace de fichier temporaire"tmpdir" sont impactés par la panne de ce groupe de disques.
L'espace /tmpdir est maintenant redevenu fonctionnel.
Nous travaillons à la constitution de la liste des fichiers réellement impactés.
La commande 'ls' sur fichier impacté donnera l'un des messages suivants :
ls: cannot access /tmpdir/user/test_freq.c: Cannot send after transport endpoint shutdown
ls: impossible d'accéder à /tmpdir/user/test_freq.c: Ne peut transmettre suite à la fermeture du noeud final de transport
La commande 'ls' sur un dossier donnera des '???' à la place des attributs des fichiers impactés :
ls -l /tmpdir/user/
....
-?????????? ? ? ? ? ? test_freq.c
Nous vous tiendrons informés des suites de cet incident matériel.
Merci de votre compréhension.