Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
logiciels:gromacs [2014/10/15 11:55] fabre21 [Benchmarks] |
logiciels:gromacs [2019/01/28 11:27] (Version actuelle) fabrep03 [Performance] |
||
---|---|---|---|
Ligne 9: | Ligne 9: | ||
* 5.0.2 avec support OpenMP et MPI | * 5.0.2 avec support OpenMP et MPI | ||
* 5.0.2 avec support OpenMP et GPU NVidia (:!: compilé avec Intel composer 2013) | * 5.0.2 avec support OpenMP et GPU NVidia (:!: compilé avec Intel composer 2013) | ||
+ | * 5.0.4, en simple et double précision, avec MPI ou sans | ||
+ | * 2016 avec support OpenMP et MPI | ||
+ | * 2018.4 avec support OpenMP et MPI | ||
+ | * 2019 avec support OpenMP, MPI, nouvelles SIMD et GPU avec CUDA 10.0 | ||
===== Utilisation ===== | ===== Utilisation ===== | ||
- | Voir les manuels d' | + | Voir les manuels d' |
- | Pour une discussion sur la parallélisation : http:// | ||
==== Sélection de la version ==== | ==== Sélection de la version ==== | ||
Pour sélectionner la version voulue : utiliser les [[..: | Pour sélectionner la version voulue : utiliser les [[..: | ||
Par exemple : | Par exemple : | ||
- | module load gromacs/5.0.2-mpi | + | module load gromacs/2019 |
- | :!: Si vous utilisez | + | Un seul fichier module existe. Le nom de l' |
- | | + | * '' |
- | | + | |
- | | + | |
+ | | ||
+ | * '' | ||
+ | ===== Performance ===== | ||
+ | La dernière version (2019 ou plus) est à privilégier, | ||
- | ===== Benchmarks ===== | + | J'ai effectué de nombreux |
- | Les benchmarks | + | |
- | Il est possible | + | |
- | * avec MPI, qui est performant pour partager un job au sein d'un ou plusieurs noeuds | + | |
- | * avec openMP, qui peut être performant pour partager des coeurs au sein d'un processus MPI sur un même noeud. | + | |
- | Voici un tableau des performances relevées avec Gromacs 5.0.2 compilé avec les compilateurs intel : | + | |
- | nb_coeurs | + | {{: |
- | 2 | + | |
- | 4 | + | |
- | 8 | + | |
- | | + | |
- | | + | |
- | | + | |
- | 128 | + | |
- | 256 | + | |
- | 256 | + | |
- | 8 | + | |
- | 8 | + | |
- | | + | |
- | | + | |
- | + | ||
- | Ne sont présentées ici que les configurations les plus rapides. En effet, sur CPU uniquement, openMP n'est efficace que pour des gros systèmes sur un grand nombre de coeurs. Avec moins de 256 coeurs, on constate une dégradation de performance quel que soit le nombre de threads openMP par processus MPI. | + | |
- | Avec des GPU, c'est différent. Il faut utiliser au moins un processus thread-MPI par GPU. Ensuite, on ajuste le nombre de threads openMP pour obtenir le nombre de coeurs voulu. En pratique, utiliser plus d'un thread-MPI par GPU dégrade la performance. | ||
- | |||
- | On constate qu' | ||
===== Exemples de fichiers batch slurm ===== | ===== Exemples de fichiers batch slurm ===== | ||
==== Sur CPU ==== | ==== Sur CPU ==== | ||
+ | |||
#!/bin/bash | #!/bin/bash | ||
- | #SBATCH --partition=cluster | + | #SBATCH --partition=normal |
- | #SBATCH --qos=cluster | + | #SBATCH --ntasks=16 |
- | #SBATCH --ntasks=32 | + | |
#SBATCH --cpus-per-task=1 | #SBATCH --cpus-per-task=1 | ||
#SBATCH --threads-per-core=1 | #SBATCH --threads-per-core=1 | ||
#SBATCH --mem-per-cpu=1000 | #SBATCH --mem-per-cpu=1000 | ||
- | #SBATCH --time=10-00:00:00 | + | #SBATCH --time=2-00:00:00 |
+ | #SBATCH --nodes=1-4 | ||
| | ||
- | module load gromacs | + | |
+ | |||
+ | | ||
export OMP_NUM_THREADS=$SLURM_CPUS_PER_TASK | export OMP_NUM_THREADS=$SLURM_CPUS_PER_TASK | ||
+ | mdrun=" | ||
+ | grompp=" | ||
| | ||
- | | + | |
+ | # if state.cpt exists in the current directory, that means we are in scratch | ||
+ | restart=" | ||
+ | else | ||
+ | restart=" | ||
+ | fi | ||
+ | # restart=" | ||
| | ||
+ | if [ " | ||
+ | MIN=false # we assume min step is done the first day | ||
+ | #WORKDIR has to be where the data is, i.e. in scratch / inside the results.* folder. So submit this batch file from there. | ||
+ | WORKDIR=" | ||
+ | sleep 30 # to make sure all processes from the previous job are killed | ||
+ | restartoptions=" | ||
+ | else # options for the beginning of the run | ||
MIN=true | MIN=true | ||
- | | + | |
- | | + | |
- | | + | |
# Directory used to store the results | # Directory used to store the results | ||
- | mkdir $WORKDIR || { | + | |
- | echo "ERROR Creating the working directory" | + | |
- | exit 1 | + | echo "ERROR Creating the working directory" |
+ | exit 1 | ||
} | } | ||
- | | ||
cp * $WORKDIR | cp * $WORKDIR | ||
+ | ln -sfn $WORKDIR " | ||
+ | cd $WORKDIR | ||
+ | restartoptions="" | ||
+ | fi | ||
+ | | ||
cd $WORKDIR | cd $WORKDIR | ||
| | ||
if [ $MIN = " | if [ $MIN = " | ||
| | ||
- | | + | |
- | $mdrun -s em.tpr -o em.trr -c em.gro -e em.edr -g em.log | + | $mdrun -s em.tpr -o em.trr -c em.gro -e em.edr -g em.log |
| | ||
- | | + | |
- | $mdrun -s pr.tpr -o pr.trr -c pr.gro -e pr.edr -g pr.log | + | $mdrun -s pr.tpr -o pr.trr -c pr.gro -e pr.edr -g pr.log |
| | ||
- | | + | |
| | ||
fi | fi | ||
| | ||
+ | #use the following line if you want to prolong a simulation that crashed or terminated normally. | ||
+ | #if you just want to finish it after a crash, comment it. | ||
+ | #adjust the -until option to the total amount of ps you want to have. | ||
+ | #gmx convert-tpr -s md.tpr -o md.tpr -until 1000000 | ||
+ | | ||
+ | # tricky part: submit the same job, that will only be run after the current one crashes. | ||
+ | sbatch -d afternotok: | ||
+ | | ||
+ | if [ " | ||
$grompp -f md.mdp -c 0.gro -n md.ndx -p md.top -o md.tpr | $grompp -f md.mdp -c 0.gro -n md.ndx -p md.top -o md.tpr | ||
- | $mdrun -s md.tpr -o md.trr -x md.xtc -c md_out.gro -e md.edr -g md.log | + | |
- | rm -f md.trr # remove the uncompressed trajectory | + | |
- | rm -f \#* # remove backup files | + | #the -cpi option will use your checkpoint to restart the calculation and continue writing to your files. |
+ | | ||
+ | | ||
+ | rm -f md.trr # remove the big file (> | ||
+ | rm -f #* # remove | ||
===== Exemple de fichier batch slurm sur GPU ===== | ===== Exemple de fichier batch slurm sur GPU ===== |