1 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP 02/12/09 Utilisation de GPUs et du Cell pour...

1CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP 02/12/09

Utilisation de GPUs et du Cell pour des calculs de neutronique : performances et précision

Jérôme Dubois, Serge Petiton, Christophe CalvinCEA Saclay – DEN/DANS/DM2S/SERMA/LLPR

University of Lille 1 – LIFL/MAP

Lille, France – 02/12/2009Journées CIGIL

2CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP 02/12/09

Outline

Motivations

Caractéristiques principales

Méthodes de Krylov: Arnoldi et ERAM

Précision pour une itération d’Arnoldi

Performances et impact de la precision pour ERAM : Arnoldi itéré

3CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP

Motivations

Champs d’application : simulation de coeur de réacteur, neutronique

Objectif : MINOS détermine le k-effective ratio + autres données

Data : Matrices creuses et larges jeux de données (Goctets)

Intensité des calculs : transposition de matrice + résolution de

système

Speed-ups : 15x avec Tesla, 5x with Quadro GPU

02/12/09

Caractéristiques principales(1)

• Meilleure performance crête : ~1-10x (vs Nehalem 8 cores)

• Meilleure bande passante mémoire : ~1-20x

02/12/09

Caractéristiques principales(2)

• Norme IEEE admise

• Processeur Cell :

– 8 SPEs non complètement IEEE en SP :

• No multiple rounding modes

• Exception handled by saturation (NaN, inf, ...)

– 8 SPEs complètement IEEE en DP

• GPU :

– Proche de la norme IEEE

– Mais pas complètement en SP & DP :

• FMAD result truncated

• IEEE exceptions handled differently

02/12/09

• Algorithme :

– Input : ANxN

– Output : VNxm

, Hm+1xm

, λ1, ..., λ

1, ..., R

– Calculer m produits matrice vecteur, + opérations BLAS 1

pour obtenir :

• V* A V = H

• Avec H Hessenberg et V orthogonale

– Calculer les valeurs propres intéressantes dans H

– Projeter les vecteurs propres associés de l’espace de H

dans l’espace de A

– Estimation de l’erreur

Algorithme de la méthode d’Arnoldi

02/12/09

• Contrainte : la taille de V est N x m

• Solution :

– Faire itérer la méthode d’Arnoldi dans un plus petit sous-espace– Explicitly Restarted Arnoldi Method (ERAM)

• Algorithme :

– Tant que error > tolerance• Faire une itération d’Arnoldi• Si nécessaire, redémarrer la méthode avec un nouveau

vecteur initial construit avec une combinaison des vecteurs de Ritz calculés dans Arnoldi

Principe de la méthode ERAM

02/12/09

Méthode d’ArnoldiOrthogonolisation et calcul de vp dominante (Hilbert matrix)

02/12/09

Précision atteinte pour l’orthogonalisation

•Arnoldi CGS : orthogonal basis

02/12/09

Précision atteinte pour l’orthogonalisation

•Arnoldi CGS with reorthogonalization : orthogonal basis

02/12/09

• Une itération de la méthode d’Arnoldi sur une matrice d’Hilbert d’ordre 10240 avec une taille de sous-espace de 8 :

• GPU proche du CPU

• Le Cell est 500-600x moins précis que le GPU en SP

• En DP, le Cell et le CPU calculent le même résultat. Celui du GPU diffère de 4.10-15

Influence sur la valeur propre dominante calculée

CPU 32 bits 2,61319470 2,61319160 réf.GPU 32 bits 2,61319971 5,01E-06 2,61319876 7,15E-06

2,61209750 1,10E-03 2,61210108 1,09E-03

CGS – reorthoDom. Eig error Dom. Eig. error

Cell 32 bits

02/12/09

Méthode d’Arnoldi itérée (Hilbert & DingDong matrices)

02/12/09

ERAM : Hilbert matrix, SP, tolerance ε= 10-8. Tests on a Quadro GPU.

Impact sur le nombre d’itérations, SP (cas facile)

2 3 4 5 6 7 80

CPUGPUCell

subspace size

02/12/09

ERAM : Hilbert matrix in SP, ε= 10-8. Speed-up = 8x with Quadro GPU

Impact sur le temps de calcul, SP (cas facile)

2 3 4 5 6 7 80.00

CPUGPUCell

subspace size

02/12/09

• Same number of iterations between CPU and GPU (Tesla) in DP

• Mean speed-up of 17x between CPU and Tesla GPU, with an error of 3.10-15

Impact sur le nombre d’itérations, DP (cas facile)

2 3 4 5 6 7 8 9 10 110.00

CPUGPUCell

subspace size

02/12/09

ERAM : DingDong matrix, SP , stop at ε= 10-8. Tests on Tesla GPU.

Impact sur le nombre d’itérations (cas sensible)

CPUGPUCell

Subspace size

02/12/09

ERAM : DingDong matrix, SP, ε= 10-8. Mean speed-up = 16x on Tesla

Impact sur le temps de calcul, SP (cas sensible)

CPUGPUCell

Subspace size

02/12/09

ERAM : DingDong matrix, SP, ε= 10-8.

Impact sur la précision, SP (cas sensible)

1.00E-07

1.00E-06

1.00E-05

1.00E-04

1.00E-03

1.00E-02

1.00E-01

GPUCell

Subspace size

02/12/09

Le GPU et le Cell peuvent améliorer la performance :

Cell : 10x, SP ou DP

GPU : 10-20x, SP ou DP

Proche du speed-up obtenu avec le solveur Minos

Impact sur le résultat: SP :

Erreur de 10-6 à 10-5 for GPU, 10-4 à 10-3 pour le Cell en SP Le nombre d’itérations varie fortement avec un cas sensible

DP : Résultat du Cell et du CPU identique GPU est proche du CPU avec une erreur de 10-15

Conclusion

02/12/09

Nouveau modèle de GPU GT300/Fermi :

Mémoire ECC (Error-Correcting Code)

Respect complet de la norme IEEE-2008

Adressage mémoire 64 bits, cartes de 6Go prévues, ->1To!

Ajout de caches L1 et L2

Support natif du C++

Puissance en DP multipliée par 8x : ~125 GFLOPs -> ~1TFLOPs

Puissance SP multipliée par 2x : ~1TFLOPs -> 2TFLOPs

Evolutions futures

02/12/09

Utilisation de GPUs et du Cell pour des calculs de neutronique : performances and precision

Merci pour votre attention !

02/12/09

1 CEA-Saclay/DEN/DANS/DM2S/SERMA/LLPR & LIFL/MAP 02/12/09 Utilisation de GPUs et du Cell pour...

Documents

21/05/20141DEN/DANS/DM2S/SEMT/LM2S – S. PASCAL, F. DI PAOLA, C. BERDIN Analyse de VER : une idée pour saffranchir des effets de bords une idée pour saffranchir

One decade of GPUs for cosmological simulations (in

Development of Desktop Computing Applications and Engineering … · 2010-08-27 · Development of Desktop Computing Applications and Engineering Tools on GPUs Hans Henrik B. Sørensen†,

NOUVEL - IVECO - SERMA POIDS-LOURDS - Catalogue ACCESSOIRE... · 2019. 4. 2. · Il a parcouru plus de kilomètres que n'importe quel autre véhicule et ce, dans un monde en perpétuelle

RAPPORT DM2S - Accueil · PDF fileModélisation des structures de génie civil sous chargement sismique à l’aide de Castem 2000 5 3.6.1. Principe des modélisations du comportement

25/11/2005Club CAST3M 2005 CAST3M et les nouvelles plates- formes logicielles du CEA/DEN Christophe DELLIS CEA/DEN/DANS/DM2S/SEMT

O.Petit, E.Dumonteil, F.X.Hugot, Y.K.Lee, A.Mazzolo, C ... · 2 CEA/DEN/DM2S/SERMA 2 TRIPOLI-4 Monte Carlo code overview ICRM meeting, November 27-28, 2006 1. A brief history 2. Application

SERMA OUTILLAGE - Affutage

SERMA TECHNOLOGIES COMPTES CONSOLIDES …€¦ · SERMA TECHNOLOGIES ‐ Comptes consolidés au 31 Décembre 2013 Eric ... Résultat net des activités arrêtées ou en cours de cession

Plateforme Incertitude Uranie - GdR MASCOT-NUMCEA/DEN/DANS/DM2S/SFME/LGLS/Workshop HPC/MASCOT NUM F. Gaudier, 28/03/2013 1 / 46 Plateforme Incertitude Uranie Fonctionnalit´es et Applications

Bayesian inference for arti cial perception using …...Abstract This dissertation project addresses the implementation of Bayesian inference on FPGAs and GPUs, following a top-down

Intégration de composants€¦ · DEN DM2S RAPPORT DM2S SFME/LGLS/RT/07-001 Date: 05/01/2007 Page: 4/74 MEDMEM user’s guide Liste des modiﬁcations Indice Date Motif et description

CEA Saclay - DEN/DM2S/SEMT/DYNClub Castem 26 novembre 2009 Modélisation des structures fissurées en rotation Stage Effectué par Anaëlle Torre Encadré par