28/01/2025 - Olympe - Incident en cours - Evolution Statut

Soumis par Nicolas renon le

Bonjour,

Évolution Statut de l'Incident :

Ven  7 fév 2025 16:20:13 CET

Les dernières manipulations de la baie de stockage posant problème n'ont pas porté leurs fruits.

Nous sommes déçus ne pas pouvoir faire mieux, mais conformément à ce que nous avons annoncé,
 nous préférons ne pas prendre le risque d'une mise en péril plus générale de l'espace '/tmpdir'  .

Afin de remettre l'espace '/tmpdir' dans son état nominal (état avant incident) nous allons arrêter les calculs le Lundi 10 Février à 8H00.
Le Lundi 10 Février à 8H00 les calculs en cours seront arrêtés.
 


Cette opération devrait prendre la matinée du Lundi et un retour en production est prévu dans l'après-midi.
Nous communiquerons dans la semaine sur les conséquences de cet incident.

Merci pour votre patience et votre compréhension.
 

mer. févr.  5 17:59:08 CET 2025
- la reconstruction avec les nouveaux paramètres bien qu'ayant atteint 89% n'a pu aller à son terme.

- suite aux échecs répétés lors des tentatives de reconstruction, conformément à la stratégie communiquée, 
afin de ne pas mettre en péril l'ensemble des données du '/tmpdir' ainsi que le bon fonctionnement général de la plateforme nous décidons de ne pas relancer une nouvelle reconstruction.

- en conséquences un certain nombre des données concernées par le groupe de disque (au nombre de 10) faisant défaut seront définitivement perdues. 

- le processus de remise dans un fonctionnement nominal du '/tmpdir' continue.

- nous espérons avoir des informations plus précises dès demain ou dans les prochains jours sur les données qui seront réellement perdues.
 Lun  3 fév 2025 16:10:23 CET

La reconstruction qui devait s'opérer ce week-end grâce aux interventions conjointes de notre prestataire EVIDEN et du constructeur de la baie a échoué car le nouveau disque qui portait cette reconstruction est lui-même tombé en panne.

Nous avons entamé une nouvelle reconstruction sur un nouveau disque pour essayer de nouveau de récupérer les données (les 8% de fichiers impactés). Elle devrait se terminer dans une dizaine d'heures environ si tout se passe bien.

Pour rappel, vous pouvez lancer des calculs, l'espace /tmpdir est accessibleVous ne pouvez pas lancer des calculs qui devraient utiliser des fichiers évoqués ci-dessous :
 

  • Au maximum, 8% des fichiers de l'espace de fichier temporaire"tmpdir" sont impactés par la panne de ce groupe de disques. Nous travaillons avec notre partenaire EVIDEN pour minimiser cet impact. Nous ne sommes pas en mesure de garantir la récupération complète des données de ces fichiers.
     
  • Pour permettre la reconstruction des données, 25% des fichiers de l'espace de fichier temporaire "/tmpdir" sont momentanément inaccessibles.
  • La reconstruction est toujours en cours.
     
Notre stratégie est de se laisser jusqu'à la fin de la semaine pour essayer de remettre le groupe de disque en état nominal et ainsi éviter la perte de données.

Ven 31 jan 2025 11:18:02 CET
 

  • L'incident en cours est lié à une triple panne disque (sur 1 groupe de disques particulier) d'une des baies composant l'espace de fichier temporaire "/tmpdir". La reconstruction est en cours mais difficile et nous sommes en contact avec le support de niveau 3 du constructeur.
  • Au maximum, 8% des fichiers de l'espace de fichier temporaire"tmpdir" sont impactés par la panne de ce groupe de disques. Nous travaillons avec notre partenaire EVIDEN pour minimiser cet impact. Nous ne sommes pas en mesure de garantir la récupération complète des données de ces fichiers. Nous sommes en train de constituer pour chaque utilisateur la liste de ses fichiers impactés qui fera l'objet d'une communication ultérieure. 
     
  • Pour permettre la reconstruction des données, 25% des fichiers de l'espace de fichier temporaire "/tmpdir" sont momentanément inaccessibles.

Vous pouvez de nouveau soumettre des calculs en prenant en compte que certains fichiers de l'espace sur le "/tmpdir" déposés avant l'incident ne seront pas disponibles.

Nous préconisons de tester la disponibilité du ou des fichiers avec la commande "ls" avant de lancer un calcul  :

ls /tmpdir/mon_user/mon_fichier

Si vous obtenez des messages de ce type, cela veut dire que le fichier est momentanément inaccessible mais pas forcément corrompu :

ls -al /tmpdir/cbns/canvas.png
ls: cannot access /tmpdir/cbns/canvas.png: Cannot send after transport endpoint shutdown

ou

ls -al /tmpdir/DNNSP99099/matrix/file1
ls: cannot access /tmpdir/DNNSP99099/matrix/files/file1.bin: Cannot send after transport endpoint shutdown
ls: cannot access /tmpdir/DNNSP99099/matrix/files/file1.tar.gz: Cannot send after transport endpoint shutdown
total 1656
-?????????? ? ? ? ? ? file1.bin
-rw-------+ 1 plic p99099 1680020 Sep 25 2023 file2
-?????????? ? ? ? ? ? file1.tar.gz
-rw-rw----+ 1 plic p99099 177 Sep 26 2023 README
drwxrwx---+ 2 plic p99099 4096 Sep 28 2023 TEST
 

Nous vous remercions pour votre compréhension et votre patience dans la résolution de cet incident matériel.

Nous communiquerons de nouveau sur l'évolution de cet incident au plus tard lundi dans la journée.

 

Mer 29 jan 2025 18:13:34 CET

  • cause de l'incident : triple panne disque sur 1 groupe de disque
  • la reconstruction est en cours mais difficile
  • l'accès au /tmpdir est possible mais dégradé (certains fichiers demeurent inaccessibles) 
  • nous ferons un point sur l'avancée du traitement de l'incident demain dans la journée 

Mar 28 jan 2025 13:58:05 CET

L'accès à l'espace /tmpdir a été partiellement rétabli.

Certains fichiers peuvent demeurer inaccessibles. Dans ce cas des messages de ce type peuvent apparaitre :   

[olympe @olympelogin1 ~]$ ll /tmpdir/xxx

ls: cannot access

La cause ayant entrainer l'incident a été identifiée. Elle est en cours de traitement.

Mar 28 jan 2025 10:12:05 CET

Il y'a un incident en cours sur le système de calcul Olympe.

L'accès à l'espace /tmpdir est très perturbé, voire impossible.

Les équipes CALMIP & EVIDEN sont en cours d'investigation.

Désolé pour le désagrément.

Equipe CALMIP