Compilé avec le compilateur intel et intelmpi - Amber n’est pas compris dans cet environnement. Cet environnement est utile pour les personnes désirant utiliser les outils (sous licence libre) Ambertools alors qu’ils ne disposent pas de la licence Amber.
Dans le cas testé (250000 atomes), la réponse est oui, sans aucune ambiguïté : la configuration la plus efficace est l’utilisation d’un seul nœud et des 4 GPUs du nœud. On utilisera seulement 4 processus, donc 4 cœurs des processeurs.
Pour des données comportant 250000 atomes, le graphique ci-dessous montre les performances obtenues en utilisant :
Lorsque votre job amber est en état RUNNING, nous vous conseillons de vérifier que tout se passe correctement grâce à la commande :
Pour un appel amber on devrait avoir la sortie suivante :
On voit que :
Les 4 processus se répartissent correctement sur les deux processeurs
Les 4 GPUS sont utilisés (80 à 95% de taux d’utilisation)
19% de la mémoire des GPUs est utilisée
Chaque CPU "voit" les quatre processus, mais sa mémoire est utilisée essentiellement par l’un d’entre eux : en fait les processes tournant sur les GPUs communiquent entre eux, il y a donc des tampons d’entrée-sortie sur chaque GPU pour tous les processus.
On peut comparer cette sortie à celle obtenue pour gromacs.