Horovod

Horovod est un framework permettant d’entraîner des modèles d’intelligence artificielle en utilisant plusieurs GPUs.

Cette installation d'Horovod est expérimentale

Version installée

Le module intègre python 3.6, tensorflow 2.3.0 et horovod :

Version d’Horovod 0.20.3
Version de python 3.6.12
Version de tensorflow 2.3.0

Si vous souhaitez utiliser Horovod avec d’autres applications d’intelligence artificeille, contactez-nous !

Utilisation et exemples

Pour utiliser horovod :

module load horovod/tf2.3.0

Des exemples de scripts python sont disponibles dans le répertoire $HOROVOD_EXAMPLES

Le script suivant permet de faire tourner l’exemple tensorflow2_keras_synthetic_benchmark.py

#! /bin/bash

#SBATCH --job-name=Horovod_test
#SBATCH -N 1
#SBATCH -n 36
#SBATCH --gres=gpu:4
#SBATCH --time=00:30:00

module load horovod/tf2.3.0

horovodrun --verbose --gloo -np 4 -H localhost:4 python3.6 $HOROVOD_EXAMPLES/tensorflow2/tensorflow2_keras_synthetic_benchmark.py

Pendant l’exécution de l’exemple, n’oubliez pas de vérifier que les quatre GPUs sont effectivement utilisés avec la commande :

placement --jobid xxxxxx

 

Espace utilisateurs/Doc technique Olympe/Les logiciels installés

Voir aussi

Tensorflow (Legacy)

CALMIP recommande l’utilisation plutôt de conda pour gérer ses environnements python