Modélisation avec Alphafold3 sur Kairos
Cette page explique la mise en place du job à partir du répertoire suivant, à récupérer ici :
tar xf /work/conteneurs/shared/alphafold3/methodologie_alphafold3.tar.gz
La modélisation avec Alphafold3 se réalise en 2 étapes permettant de séparer la partie recherche dans les bases de données et la partie inférence du modèle.
Obtention des paramètres des modèles.
Afin de réaliser une modélisation, il est nécessaire d'obtenir les paramètres des modèles utilisés par Alphafold3. Cette demande est à réaliser à l'aide d'un formulaire auprès de DeepMind, pour cela consulter cette section du dépôt d'Alphafold3.
Les paramètres des modèles, une fois obtenus, doivent être placés dans un répertoire de son $HOME.
Préparation de l'input.
L'input d'Alphafold3 est un fichier JSON, la description du formatage de ce fichier est disponible ici.
Pour cet exemple, la séquence utilisé est le Metal Binding Domain de la polyprotéine ORF1 du virus de l'hépatite E, situé en position 516 à 689 de la séquence YP_010775524, fichier inputs/YP_010775524_HEV_MBD.json:
```json
{
"name": "YP-010775524_HEV-MBD",
"modelSeeds": [29],
"sequences": [
{
"protein": {
"id": "A",
"sequence": "DVSGTYAVHGHQLVALYRALNVPHDIAARASRLTATVELVAGPDRLECRTVLGNKTFRTTVVDGAHLEANGPEQYVLSFDASRQSMGAGSHNLTYELTPAGLQVRISSNGLDCTATFPPGGAPSAAPGEVAAFCGALYRYNRFTQRHSLTGGLWLHPEGLLGIFPPFSPGHIWE"
}
}
],
"dialect": "alphafold3",
"version": 4
}
```
Data Pipeline
La recherche dans les base de données est réalisée à l'aide du script sbatch: 1_data-pipeline_alphafold3.sh
Les variables suivantes de la section parameters du script sbatch doivent être mises à jour:
- INPUT : Le nom du fichier JSON d'input, dans cet exemple input.json.
- INPUT_DIR: le chemin du répertoire contenant le JSON d'input.
- OUTPUT_DIR: le chemin du répertoire de sortie.
- MODEL_DIR: le chemin du répertoire contenant les paramètres des modèles d'Alphafold3 dans son $HOME.
Le temps d'exécution de cette étape dans la configuration du script 1_data-pipeline_alphafold3.sh est d'environ 8 minutes.
Cette étape va produire le fichier JSON suivant: 1_data-pipeline/YP-010775524_HEV-MBD/YP-010775524_HEV-MBD_data.json.
Ce fichier et son répertoire parent porte le nom du champ name du fichier input.json. Ce nouveau JSON servira d'input à l'étape suivante d'inférence du modèle.
Model Inference
La modélisation est réalisée à l'aide du script sbatch: 2_model-inference_alphafold3.sh
Les variables suivantes de la section parameters du script sbatch doivent être mises à jour:
- SAMPLE: La valeur du champ name du fichier input.json.
- INPUT_DIR: le chemin du répertoire contenant le JSON d'input.
- OUTPUT_DIR: le chemin du répertoire de sortie.
- MODEL_DIR: le chemin du répertoire contenant les paramètres des modèles d'Alphafold3 dans son $HOME.
Le temps d'exécution de cette étape dans la configuration du script 2_model-inference_alphafold3.sh est d'environ 1 minute.
Le modèle produit différents outputs dont le fichier CIF, 2_model-inference/YP-010775524_HEV-MBD/YP-010775524_HEV-MBD_model.cif, qui permet la visualisation de la modélisation.