Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM...

Preview:

Citation preview

Colloque données massives 2015 - CRDM

Les données massives à Calcul Québec

Marc Parizeau, professeur et directeur scientifique de Calcul Québec

Plan

• Calcul Québec / Calcul Canada • Les outils et les services disponibles • Un outil en particulier : Spark

2Colloque données massives 2015 - CRDM

Calcul Québec

3Colloque données massives 2015 - CRDM

Mission

4Colloque données massives 2015 - CRDM

Procurer au milieu de la R&D des infrastructures matérielles et logicielles en Calcul Informatique de Pointe (CIP) ainsi que des services d’expert-conseil, afin de contribuer à l’avancement des connaissances dans toutes les branches du savoir et à la formation de personnel hautement qualifié en CIP, capable d’exploiter efficacement le parallélisme des systèmes informatiques modernes.

Quelques chiffres…

• Quatre sites principaux ✓ Laval ✓ McGill / ETS ✓ UdeM ✓ Sherbrooke

• Au total: ✓ un personnel d’une quarantaine d’employés ✓ environ 1200 utilisateurs dans 400 groupes de recherche ✓ 80,000 cœurs de calcul ✓ 300 accélérateurs ✓ 200 To de mémoire vive ✓ 8000 To de stockage sur disque

5Colloque données massives 2015 - CRDM

Statistiques

6Colloque données massives 2015 - CRDM

Nous rejoindre

• Site web ✓ http://www.calculquebec.ca ✓ http://wiki.calculquebec.ca ✓ http://www.calculquebec.ca/fr/acces-aux-ressources

• Support technique ✓ support@calculquebec.ca

• Informations générales ✓ info@calculquebec.ca

• Pour un serveur spécifique ✓ <serveur>@calculquebec.ca

7Colloque données massives 2015 - CRDM

Calcul Canada

8Colloque données massives 2015 - CRDM

Université membre

Université membre avec personnel

Université membre avec personnel et infrastructures

Infrastructures à l’UL

• Colosse ✓ Grappe de 960 noeuds ✓ 2 x Intel X5560 2.8GHz (8 coeurs) ✓ Mémoire : DDR3 à 1333 MHz.

- 936 noeuds: 24 GB (3 GB / coeur) - 24 noeuds: 48 GB (6 GB / coeur)

✓ Réseau: Infiniband QDR (40Gbps) ✓ Stockage: 2 x 500 TB (1PB total) ✓ 17 GB/s (scratch), 12 GB/s (home)

• Hélios ✓ Grappe de 168 GPGPU ✓ 15 noeuds, 20 coeurs à 2,5 GHz, 128 Go

RAM et 8 GPU NVIDIA K20 par noeud ✓ 6 noeuds, 24 coeurs à 2,7 GHz, 256 GB

RAM et 8 GPU NVIDIA K80 par noeud

9Colloque données massives 2015 - CRDM

Services disponibles

• Administration et opération de grappes de calcul ✓ Déploiement de systèmes de calcul et de stockage parallèle ✓ Conception et mise en service de solutions de calcul sur-

mesure

• Exploitation de grappes de calcul ✓ Développement d'algorithmes parallèles (MPI, OpenMP, CUDA,

Hadoop, Spark, etc.) ✓ Configuration / utilisation de logiciels HPC (Ansys, OpenFoam,

etc.) ✓ Adaptation et optimisation de workflows distribués ✓ Virtualisation

• Formation10Colloque données massives 2015 - CRDM

Les formations

• De base ✓ Software Carpentry

Ligne de commande UnixGestion de codeprogrammation (R / Python)Premiers pas sur les serveurs de calcul

✓ Programmation Python ✓ Programmation R ✓ MDCS : Matlab Distributed Computer Server ✓ Visualisation avec Paraview

• Analyse de données ✓ Hadoop / MapReduce ✓ Spark

11Colloque données massives 2015 - CRDM

• Accélérateurs et GPU ✓ programmation Cuda ✓ Programmation Cuda avancée ✓ Bibliothèques GPU ✓ programmation de Xeon Phi

• Calcul parallèle de haute performance ✓ Introduction à OpenMP ✓ Programmation OpenMP avancée ✓ Introduction à MPI ✓ Programmation MPI avancée et programmation hybride ✓ Profilage et optimisation avec Open / SpeedShop ✓ Déboggage avec DDT ✓ Entrées/sorties parallèles avec HDF5

12Colloque données massives 2015 - CRDM

13Colloque données massives 2015 - CRDM

Outils: Hadoop + Spark

Les défis du « big data »

14Colloque données massives 2015 - CRDM

les 3 Vs…

+ la véracité

Apache Software Foundation

• Plus de 150 projets open source ✓ dont plus d’une trentaine en lien

avec les données massives

15Colloque données massives 2015 - CRDM

Hadoop

16Colloque données massives 2015 - CRDM

mécanique de base

stockage distribué

autres outils

Les enjeux

17Colloque données massives 2015 - CRDM

l’approche classiquene fonctionne plus avec les données massives

(Oracle)

(Google)

(Hadoop / Spark)

Stockage distribué (HDFS)

18Colloque données massives 2015 - CRDM

HDFS = Hadoop Distributed File System

Map - shuffle - reduce

19Colloque données massives 2015 - CRDM

Redondance

20Colloque données massives 2015 - CRDM

21Colloque données massives 2015 - CRDM

problèmes majeurs: usage de disques

• Spark remplace le map/reduce de Hadoop • Permet de faire des itérations sans passer par

le stockage sur disque • Augmente la performance jusqu’à 100x

22Colloque données massives 2015 - CRDM

23Colloque données massives 2015 - CRDM

Hadoop

Spark

Pour en savoir plus?

• La prochaine formation Spark est mardi le 3 novembre!

• Voir notre calendrier: ✓ http://www.calculquebec.ca/fr/aide-et-documentation/

formation/calendrier-formations

• Pour s’inscrire: ✓ http://calculquebec.eventbrite.ca

24Colloque données massives 2015 - CRDM

Conclusion

• Temps de calcul ✓ Extension de capacité de calcul. ✓ Capacité supplémentaire de courte durée (bursting).

• Stockage / transfert de données • Consultation ✓ choix technologique ✓ développement algorithmique ✓ optimisation, etc.

• Formations spécialisées • Soutien à la recherche • Contrats avec l’industrie

25Colloque données massives 2015 - CRDM

Recommended