25
Colloque données massives 2015 - CRDM Les données massives à Calcul Québec Marc Parizeau, professeur et directeur scientifique de Calcul Québec

Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

Embed Size (px)

Citation preview

Page 1: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

Colloque données massives 2015 - CRDM

Les données massives à Calcul Québec

Marc Parizeau, professeur et directeur scientifique de Calcul Québec

Page 2: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

Plan

• Calcul Québec / Calcul Canada • Les outils et les services disponibles • Un outil en particulier : Spark

2Colloque données massives 2015 - CRDM

Page 3: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

Calcul Québec

3Colloque données massives 2015 - CRDM

Page 4: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

Mission

4Colloque données massives 2015 - CRDM

Procurer au milieu de la R&D des infrastructures matérielles et logicielles en Calcul Informatique de Pointe (CIP) ainsi que des services d’expert-conseil, afin de contribuer à l’avancement des connaissances dans toutes les branches du savoir et à la formation de personnel hautement qualifié en CIP, capable d’exploiter efficacement le parallélisme des systèmes informatiques modernes.

Page 5: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

Quelques chiffres…

• Quatre sites principaux ✓ Laval ✓ McGill / ETS ✓ UdeM ✓ Sherbrooke

• Au total: ✓ un personnel d’une quarantaine d’employés ✓ environ 1200 utilisateurs dans 400 groupes de recherche ✓ 80,000 cœurs de calcul ✓ 300 accélérateurs ✓ 200 To de mémoire vive ✓ 8000 To de stockage sur disque

5Colloque données massives 2015 - CRDM

Page 6: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

Statistiques

6Colloque données massives 2015 - CRDM

Page 7: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

Nous rejoindre

• Site web ✓ http://www.calculquebec.ca ✓ http://wiki.calculquebec.ca ✓ http://www.calculquebec.ca/fr/acces-aux-ressources

• Support technique ✓ [email protected]

• Informations générales ✓ [email protected]

• Pour un serveur spécifique ✓ <serveur>@calculquebec.ca

7Colloque données massives 2015 - CRDM

Page 8: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

Calcul Canada

8Colloque données massives 2015 - CRDM

Université membre

Université membre avec personnel

Université membre avec personnel et infrastructures

Page 9: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

Infrastructures à l’UL

• Colosse ✓ Grappe de 960 noeuds ✓ 2 x Intel X5560 2.8GHz (8 coeurs) ✓ Mémoire : DDR3 à 1333 MHz.

- 936 noeuds: 24 GB (3 GB / coeur) - 24 noeuds: 48 GB (6 GB / coeur)

✓ Réseau: Infiniband QDR (40Gbps) ✓ Stockage: 2 x 500 TB (1PB total) ✓ 17 GB/s (scratch), 12 GB/s (home)

• Hélios ✓ Grappe de 168 GPGPU ✓ 15 noeuds, 20 coeurs à 2,5 GHz, 128 Go

RAM et 8 GPU NVIDIA K20 par noeud ✓ 6 noeuds, 24 coeurs à 2,7 GHz, 256 GB

RAM et 8 GPU NVIDIA K80 par noeud

9Colloque données massives 2015 - CRDM

Page 10: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

Services disponibles

• Administration et opération de grappes de calcul ✓ Déploiement de systèmes de calcul et de stockage parallèle ✓ Conception et mise en service de solutions de calcul sur-

mesure

• Exploitation de grappes de calcul ✓ Développement d'algorithmes parallèles (MPI, OpenMP, CUDA,

Hadoop, Spark, etc.) ✓ Configuration / utilisation de logiciels HPC (Ansys, OpenFoam,

etc.) ✓ Adaptation et optimisation de workflows distribués ✓ Virtualisation

• Formation10Colloque données massives 2015 - CRDM

Page 11: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

Les formations

• De base ✓ Software Carpentry

Ligne de commande UnixGestion de codeprogrammation (R / Python)Premiers pas sur les serveurs de calcul

✓ Programmation Python ✓ Programmation R ✓ MDCS : Matlab Distributed Computer Server ✓ Visualisation avec Paraview

• Analyse de données ✓ Hadoop / MapReduce ✓ Spark

11Colloque données massives 2015 - CRDM

Page 12: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

• Accélérateurs et GPU ✓ programmation Cuda ✓ Programmation Cuda avancée ✓ Bibliothèques GPU ✓ programmation de Xeon Phi

• Calcul parallèle de haute performance ✓ Introduction à OpenMP ✓ Programmation OpenMP avancée ✓ Introduction à MPI ✓ Programmation MPI avancée et programmation hybride ✓ Profilage et optimisation avec Open / SpeedShop ✓ Déboggage avec DDT ✓ Entrées/sorties parallèles avec HDF5

12Colloque données massives 2015 - CRDM

Page 13: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

13Colloque données massives 2015 - CRDM

Outils: Hadoop + Spark

Page 14: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

Les défis du « big data »

14Colloque données massives 2015 - CRDM

les 3 Vs…

+ la véracité

Page 15: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

Apache Software Foundation

• Plus de 150 projets open source ✓ dont plus d’une trentaine en lien

avec les données massives

15Colloque données massives 2015 - CRDM

Page 16: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

Hadoop

16Colloque données massives 2015 - CRDM

mécanique de base

stockage distribué

autres outils

Page 17: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

Les enjeux

17Colloque données massives 2015 - CRDM

l’approche classiquene fonctionne plus avec les données massives

(Oracle)

(Google)

(Hadoop / Spark)

Page 18: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

Stockage distribué (HDFS)

18Colloque données massives 2015 - CRDM

HDFS = Hadoop Distributed File System

Page 19: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

Map - shuffle - reduce

19Colloque données massives 2015 - CRDM

Page 20: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

Redondance

20Colloque données massives 2015 - CRDM

Page 21: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

21Colloque données massives 2015 - CRDM

problèmes majeurs: usage de disques

Page 22: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

• Spark remplace le map/reduce de Hadoop • Permet de faire des itérations sans passer par

le stockage sur disque • Augmente la performance jusqu’à 100x

22Colloque données massives 2015 - CRDM

Page 23: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

23Colloque données massives 2015 - CRDM

Hadoop

Spark

Page 24: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

Pour en savoir plus?

• La prochaine formation Spark est mardi le 3 novembre!

• Voir notre calendrier: ✓ http://www.calculquebec.ca/fr/aide-et-documentation/

formation/calendrier-formations

• Pour s’inscrire: ✓ http://calculquebec.eventbrite.ca

24Colloque données massives 2015 - CRDM

Page 25: Les données massives à Calcul Québec - Accueil · Mission Colloque données massives 2015 - CRDM 4 Procurer au milieu de la R&D des infrastructures matérielles et logicielles

Conclusion

• Temps de calcul ✓ Extension de capacité de calcul. ✓ Capacité supplémentaire de courte durée (bursting).

• Stockage / transfert de données • Consultation ✓ choix technologique ✓ développement algorithmique ✓ optimisation, etc.

• Formations spécialisées • Soutien à la recherche • Contrats avec l’industrie

25Colloque données massives 2015 - CRDM