Upload
juliette-larcher
View
111
Download
3
Embed Size (px)
Citation preview
MGV* : quelques prévisions de performances
*Modèle à Grande Vitesse
Configurations testées
• Configurations : uniquement LMDZ forcé.• LMDZ 96x72x19.• LMDZ 72x45x19.• LMDZ 44x43x(19 ou 15).
• Calculateurs• Mercure : Nec SX6 et SX8 vectoriels.• Tantale : scalaire, cluster de nœuds Optéron@2,4GhZx4, réseau Infiniband, assemblé par HP, système Linux. Compilateur : pgi.
• X, scalaire, cluster de nœuds Itanium@1,5Ghzx4, réseau Infiniband, système Linux.
Rappels : temps mono CPU
• ORCA2 - LMD 72x45x19 sur SX6 :• 880s/an, environ 6 ans/jour.
• ORCA4 - LMD 44x43x19 sur SX8 :• Environ 20 ans/jour -> 50 jours/millénaire
La parallélisation
• Dynamique :• Découpage en bandes de latitudes : communication par MPI -> mémoire distribuée, intra ou inter nœud.
• Découpage vertical : communication par OpenMP -> mémoire partagée, sur un nœud.
• Scalabilité limité : il faut au moins 3 bandes de latitude par processeur.
• Physique• Découpage mono-dimensionnel : on réparti les points
également sur les processeurs. Communications MPI et OpenMP.
• Pas d’entrée/sortie …. :-)
• SX6 et SX8 : 1 à 8 processeurs testés. Projection
sur 32 (OpenMP).
• Scalaire : 1 à 16 processeurs testés. Projection sur
64 (OpenMP).
• En italique : projections, pas testé.
• Unité : jours / millénaire simulé.
Performances
LMDZ 96x72x19
#CPU SX6 Optéron Itanium SX8
1 290 1800 900 145
2 160 900 450 80
4 90 480 240 45
8 50 239 120 25
16 128 64
32 17 9
64 43 ? 22 ?
LMDZ 72x45x19
#CPU SX6 Optéron Itanium SX8
1 130 1025 X2 ? 65
2 65 518 33
4 42 255 21
8 31 143 16
16Pas assez de
points
32 11 48 5,5
64
LMDZ 44x43x19
#CPU SX6 Optéron Itanium SX8
1 385 OpteronX2 ? SX6 x 2 ?
2 185
4 100
8 73 39 ?
16Pas assez de
points
32 25 13 ? 8 ?
64
LMDZ 44x43x15
#CPU SX6 Optéron Itanium SX8
1 50 297 Opt. x 2 ? SX6 x 2 ?
2 30 150
4 18 80
8 12 48
16Pas assez de
points
32 4 16 2-3 ?
64
Comparatif SX8
#CPUs 1 8 32
96x72x19 290 50 17
72x45x19 130 31 11
44x43x19 100 24 8,5
44x43x15 50 12 3,5
Et après ?
• Il faut coupler …
• NEMO sur un jeu de processeurs différent
• Il faut être raisonnable sur les I/O …
• Il faut un coupleur parallèle• OASIS 3 (bidouille)• OASIS 4