Les grilles et le Cloud Computing · • Des supercalculateurs et grappes aux Clouds en passant par...

Preview:

Citation preview

Les grilles et le Cloud Computing

PARTIE 3 – Le Cloud Computing : principes et utilisation

Gilles Mathieu – gilles.mathieu@inserm.fr

Coordination de l’Informatique Scientifique de l’Inserm

1

2

Cette présentation…

… fait partie d’une série de 3 :

• Partie 1 : La grille : Concepts, architectures et

fonctionnement général

• Partie 2 : La grille : Détails de fonctionnement,

opérations et outils

• Partie 3 : Le Cloud Computing : principes et

utilisation

2

3

Plan

1. Les concepts du Cloud

2. Les solutions disponibles

3. Le Cloud Académique de France Grilles

4. Le Cloud Fédéré EGI

5. Le Cloud de l’IFB

6. Exemples

7. Questions/discussion

4

1. Les concepts du Cloud

Le calcul comme un service

Suggéré par John Mc Carthy en 1961 !

Il est moins coûteux de louer ou d’acheter de l’électricité que de construire, gérer et maintenir une station de production!

6

Un paradigme de calcul distribué dans lequel les données et les

services sont disponibles dans des data centers extensibles et

peuvent être accédés de manière transparente depuis des

appareils (ordinateurs, téléphones, grappes, …) connectés par

Internet

Credit: IBM Corp.

Définition du Cloud Computing

5ème génération d’architectures • 1970: Mainframes, • 1980: Client-serveurs, • 1990: Web, grilles, • 2000: SOA, • 2010: Clouds

7

Le Cloud : pour quoi faire ?

• Il est moins coûteux de louer de la capacité de calcul et de

stockage que de monter un centre de calcul

• La transparence d’utilisation des grandes plateformes distribuées

est primordiale

• Pouvoir gérer ces ressources de manière dynamique et élastique

• Un long historique du calcul distribué à plus ou moins grande

échelle

• Des supercalculateurs et grappes aux Clouds en passant par les grilles

• Des besoins applicatifs de plus en plus importants et variés

• Explosion du nombre et du volume de données

8

Cloud Computing: caractéristiques

• Libre service à la demande

• Le consommateur récupère des ressources de calcul et de

stockage à la demande (machines virtuelles)

• Accès réseau

• Ressources, briques logicielles et applications disponibles à

travers le réseau pour des clients de tailles différentes

• Mise en commun de ressources

• Datacenters fournissant les ressources (machines, stockage,

mémoire, BP réseau) pour différents clients en mode partagé

• « Elasticité » réactive et rapide

• Croissance ou décroissance dynamique du nombre de ressources

en fonction de la demande et des besoins

• Service mesuré et facturation à l’usage

• Reporting de l’utilisation des ressources

9

Cloud Computing: modes d’utilisation

• Infrastructure as a Service (IaaS)

• Le matériel est fourni sous forme de machines virtuelles sur

lesquelles on installe son image disque

• Amazon EC2, Rackspace, GoGRID, Orange, …

• Platform as a Service (PaaS)

• On peut développer ses propres applications en utilisant les

services fournis

• Google Apps, Windows Azure, Amazon S3, IBM CloudBurst et

Websphere, …

• Software as a Service (SaaS)

• Des applications entières sont disponibles à distance

• Googledocs, Facebook, Orange, IBM LotusLive, …

10

Qui contrôle quoi ?

Crédits: P. Saulière, Microsoft

Informatique

Données

Applications

Machines virtuelles

Serveur

Stockage

Réseau

Hébergeur

Données

Applications

Machines virtuelles

Serveur

Stockage

Réseau

IaaS public

Données

Applications

Machines virtuelles

Serveur

Stockage

Réseau

PaaS public

Données

Applications

Machines virtuelles

Serveur

Stockage

Réseau

SaaS public

Données

Applications

Machines virtuelles

Serveur

Stockage

Réseau

Entreprise

Partage entreprise/fournisseur

Fournisseur

11

Un Cloud, des Clouds…

• Cloud public

– Infrastructure (propriété du fournisseur) louée à n’importe qui

• Cloud privé

– Propriété d’une entreprise

– interne ou externe

• Cloud communautaire

– Mise en commun de ressources pour une communauté

d’utilisateurs

– interne ou externe

• Cloud hybride

– Composition de plusieurs formes de Clouds, voire même de

grilles

• Sky Computing

12

Les challenges en termes de sécurité

• Quelques défis

– Localisation des données et des calculs

– Gestion de l’isolation

– Déplacement des données

– Lois internationales

– Attraction des hackers

– Besoin de chiffrement à plusieurs niveaux

– Perte de contrôle

• Mais aussi des avantages

– Gestion des fautes et des pannes par un fournisseur externe

– Gestion automatisée de la sécurité

– Relative homogénéité des plates-formes

13

2. Les solutions disponibles

14

Quelles solutions de Cloud ?

• Les Clouds commerciaux

– Amazon, Google, Azure, Outscale, OVH…

• Les Clouds académiques/institutionnels

– Cloud académique France Grilles (FG-Cloud)

– Cloud fédéré EGI (EGI Federated Cloud)

• Les Clouds communautaires

– Cloud IFB (Bioinformatique)

– Indigo DataCloud (Physique et autres disciplines)

15

Critères de choix

• Coûts et modèle économique

– Estimation du coût du stockage, du CPU, du transfert

– Rapport entre besoin et coût

• Contraintes de sécurité

– Territorialité : où sont mes données ?

– Confidentialité

• Niveau de service nécessaire

– Disponibilité

– Fiabilité

• Facilité d’utilisation

16

Deux exemples

• OpenStack, une solution open source

d’infrastructure de Cloud (IaaS)

• SlipStream, un outil intégré de gestion et de

déploiement de machines (PaaS)

17

OpenStack

• Project collaboratif de développement d'un

gestionnaire de Cloud IaaS initié en 2010

– Utilisé dans plus de 130 pays et par plus de 14.000 personnes

– API Python, Java, Node.js, Ruby, PHP et .NET

– Licence libre (licence Apache 2.0)

• Outils

– Interface web / tableau de bord

– Ligne de commande

• http://docs.openstack.org/user-guide/content/

18

OpenStack

OpenStack

20

OpenStack

• Ligne de commande

– Installation du client en quelques lignes

– Commandes simples pour l’instanciation, la gestion, l’arrêt de

machines

• Gestion du stockage

– Différents types (éphémère, permanent, objets, fichiers…)

– Gestion intuitive

• Formations disponibles via France Grilles

– Prochaine formation fin novembre 2015

OpenStack

OpenStack

23

SlipStream

• Une plateforme développée par la société SixSq

– PaaS pour le déploiement automatique de machines

– Plateforme DevOps

– Manager de cloud hybride

• More info

– http://sixsq.com/products/slipstream/

– Démonstration complète en ligne

• http://webcast.in2p3.fr/videos-demonstration_slipstream

24

SlipStream

25

SlipStream

26

SlipStream

27

SlipStream

28

SlipStream

29

SlipStream

30

SlipStream

31

3. Le Cloud Académique France Grilles

32

France Grilles (1)

• GIS et Infrastructure de Recherche – 8 partenaires

– (CEA, CNRS, CPU,INRA, INRIA, INSERM, Ministère ESR et

RENATER)

– http://www.france-grilles.fr

• Composante Française de l’infrastructure EGI

(http://www.egi.eu) :

– Initiative Nationale de Grille française

33

France Grilles (2)

• Missions

– Établir et opérer une infrastructure nationale de grilles de

production, pour le traitement et le stockage de données

scientifiques massives.

– Contribuer au fonctionnement de l'infrastructure européenne EGI

– Favoriser rapprochements et échanges entre les grilles de

production et les grilles de recherche

– Offre de service autour du calcul distribué pour les utilisateurs,

les organisations virtuelles, les responsables de portail

scientifique et les formateurs

• Missions étendues au Cloud Computing

34

FG-Cloud : le projet

• Objectifs

– Mettre en place un service de Cloud fédéré IaaS pour la

recherche scientifique

– Définir la stratégie et construire l'infrastructure nationale

– Rédiger les conditions d'utilisation, la documentation

– Définir les services aux utilisateurs

• Organisation

– Un groupe technique

– Un forum de discussion entre administrateurs et utilisateurs

35

FG-Cloud : l’infrastructure

• 6 sites en production

– OpenStack@CC-IN2P3

– OpenStack@IPHC

– OpenNebula@IRIT

– StratusLab@LAL

– StratusLab@LUPM

– OpenStack@UNIV-LILLE

• 2 sites en pré-production

– StratusLab@LLR

– OpenStack@LPSC

• 1 site prévu

– OpenStack@LPC Plus d'information : http://www.france-grilles.fr/6-Cloud

36

FG-Cloud : Solutions et outils

• Une fédération, différentes technologies

– OpenStack (majoritaire), StratusLab, OpenNebula

– Fonctionnement fédératif naissant

• Outils

– Interface OpenStack

– Slipstream

• Et au-delà de France Grilles

– Utilisation du cloud fédéré EGI

38

4. Le Cloud fédéré EGI

39

EGI

• E-infrastructure internationale

– Coordonnée par une organisation à but non lucratif (EGI.eu)

basée à Amsterdam

– Partenariats et interactions au-delà de l’Europe (32 pays)

– Grille & Cloud, stockage

– Services (opérations, accounting, monitoring, logiciels, …)

– Réseau humain

• Ressources (nov. 2015)

– 350 centres de ressources

– 620 000 CPUs

– 500 PB storage (disk+tape)

40

EGI Federated Cloud

• Ressources

– 14 NGIs fournissant 21 ressources

certifiées (~6000 cœurs)

• Utilisation (12 derniers mois)

– 700.000 VMs certifiées

– 9M d'heures CPU

• Spécificités

– Authentification par certificat

– Accounting et monitoring centralisés

– Interface d'accès standardisée pour

tous les Clouds (OCCI)

– Marketplace

– Formation

41

Accès au Cloud EGI

• Accès pour l'utilisateur :

– Rejoindre l'un des groupes

existants (VO)

– Rechercher une VO sur le

portail des opérations

http://operations-portal.egi.eu/

• Allocation de ressources

par les fournisseurs

– Ressources dédiées à un

projet scientifique

– Soumission des demandes

sur https://e-grant.egi.eu

Allocation de ressources e-Grant

42

5. Le Cloud IFB

43

L’Institut Français de Bioinformatique

• L’IFB est composé :

– d’un ensemble de plates-formes de bio-informatique organisées

en 6 pôles régionaux couvrant l’ensemble du territoire

– d’un hub national, l’UMS 3601 « IFB-core » situé sur le campus

CNRS de Gif-sur-Yvette.

• Les Plateformes appartiennent :

– aux organismes participants (CNRS, INRA, INRIA, CEA et

INSERM)

– aux universités, au CIRAD, et aux Instituts Pasteur et Curie.

• L'IFB est le nœud français de l’infrastructure de

recherche européenne d’ELIXIR.

• http://www.france-bioinformatique.fr

44

Cloud IFB : infrastructure

• Nœud « core » hébergé à l’IDRIS

– StratusLab (en migration vers OpenStack)

– 200 cœurs, 50 To de stockage.

– 5000 cœurs et 1 Po (objectif 2016)

– 10 000 cœurs et 2Po (objectif 2017)

• Réseau de nœuds régionaux

– Différentes technologies

– Objectif à terme : infrastructure distribuée

(en fédération)

45

Cloud IFB : solutions et outils

• Dépôt des sources de données publiques de

référence

– grandes banques internationales comme UNIPROT ou EMBL,

séquences de génome complet, etc.)

– connexion automatique aux machines virtuelles qui le

nécessitent.

• Machines virtuelles dédiées (‘Appliances’)

– environnement préinstallé, prêt à l’emploi et clé en main

– Galaxy, RSAT, OMSSA, X !Tandem, ImageJ, R…

– Catalogue des appliances disponible en ligne

46

Cloud IFB : Accès

• Demande d’inscription

– https://cloud.france-bioinformatique.fr/accounts/register/

• Acceptation des conditions générales

• Validation du compte par les administrateurs

• Formations

47

6. Exemples

48

Chimie quantique sur le Cloud

• Projet

– A.Scemama, T.Applencourt, M.Caffarel, G. Da Costa

– Lab. Chimie et Physique Quantiques, IRSAMC, UPS/CNRS,

Toulouse

– IRIT, Toulouse

• Problématique scientifique

– Description quantitative des systèmes chimiques complexes

– Résolution d’équations, algèbre sur grandes matrices

49

Chimie quantique sur le Cloud

• Problématique informatique

– Calculs HPC tournant habituellement sur supercalculateurs

– Besoin de flexibilité, de passage à l’échelle maitrisé

– Utilisation des ressources de FG Cloud

• Résultats

– Calcul distribué utilisant un mésocentre (Toulouse) et le cloud

• Plus d’infos

– http://succes2015.sciencesconf.org/conference/succes2015/Ant

honyScemama_SUCCES2015.pdf

50

Génétique des populations

• Projet

– Leslie Faucher, Sophie Gallina & Jean-François Arnaud

– Université de Lille – Sciences & Technologies

• Problématique scientifique

– Un exemple d'inférences bayésiennes en génétique des

populations, le cas du crapaud calamite dans le nord de la

France.

– Méthode de clustering Bayesien

51

Génétique des populations

• Problématique informatique

– Calculs distribués de type grille

– Besoin de tâches longues (2-4 semaines incompatibles avec un

fonctionnement grille

• Perspectives

– Utilisation des ressources FG Cloud pour instancier les calculs

• Plus d’infos

– http://succes2015.sciencesconf.org/conference/succes2015/Lesl

ieFauche_SUCCES2015.pdf

52

Biodiversité avec R sur le cloud

• Projet

– Fernando Aguilar

– Instituto de Fisica de Cantabria (IFCA), Espagne

• Problématique scientifique

– Projets dans le cadre de Lifewatch, infrastructure européenne

(ESFRI) pour la recherche en biodiversité et sur les

écosystèmes

– Utilisation de R pour des études de biodiversité (répartition des

espèces, analyse d’images, de données satellite)

53

Biodiversité avec R sur le cloud

• Problématique informatique

– Optimisation de packages, problématique big data

– Besoin de « speed-up » et d’interfaces conviviales

• Résultats

– Utilisation du cloud EGI en mode SaaS, avec développement

d’un portail pour l’interface

• Plus d’infos

– https://indico.egi.eu/indico/contributionDisplay.py?contribId=67&c

onfId=2544

55

7. Questions/discussions

56

Crédits

• Transparents empruntés, images, captures d’écran

– Frédéric Desprez (INRIA)

• Introduction, concepts de cloud, schémas

– Cécile Cavet (CNRS/APC)

• Démonstration SlipStream

– Jérôme Pansanel (CNRS/IPHC) et Vincent Legoll (CNRS/IdGC)

• Formation OpenStack, FG cloud, Cloud EGI

Recommended