36
1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

Embed Size (px)

Citation preview

Page 1: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

1

DataGRAAL

DataGRid pour Animation et Applications à Large échelle

Yves Denneulin IMAG-IDPierre Sens LIP6 - INRIA

Page 2: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 2

Pourquoi s’interesser aux données ?

Croissance des capacité de stockage > croissance des processeurs

Nécessité d’adapter les supports

Moore’s Law vs. storage improvements vs. optical improvements. Graph from Scientific American (Jan-2001) by Cleo Vilett, source Vined Khoslan, Kleiner, Caufield and Perkins.

Préambule

Page 3: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 3

Plan

Partenaires

Problèmatique

Objectifs

Complémentarité

Axes de recherches

Echéancier

Page 4: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 4

Partenaires

Communauté bases de données : PRISM – SMIS (INRIA – Univ. Versailles St Quentin) LIRMM (Univ. Montpellier) LSR-IMAG (Grenoble) LISI – (INSA Lyon)

Communauté système : PARIS (IRISA) LRI - Equipe Cluster (Université Paris 11) REMAP (LIP - ENS Lyon) LIP6 (Université Paris 6) Apache ID – IMAG HP Labs

Applications : CERS IN2P3

Page 5: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 5

Contexte

2 types de grands systèmes distribués

Les Grilles de calcul ou « GRID »

Les systèmes de Calcul Global

Les systèmes Pair à Pair

Les systèmes distribués à grande échelle

Grands sitesde calcul,Clusters

PC

•<1000•Stables•Identification individuelle•Confiance

•~100 000•Volatiles•Pas d’ident individuelle•Pas de confiance

Caractéristiques des nœuds :

Problématique

Page 6: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 6

Impact de la très grande échelle

Nombre de ressourcesDynamicité

panne, déconnexion, charge

Eloignement asynchronisme

Hétérogénéité des architectures, des systèmes

Comportement malveillant

Pas de d’état global

Problématique

Page 7: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 7

Les Grilles

Plates-formes Globus, NetSolve (Univ. Tennessee),

Ninf (Univ. Tsukuba), DIET (ENS-Lyon/INRIA) Stockage

GridFTP(Argonne), OceanStore (Univ. Berkeley), IBP (Univ. Tennessee)

Problématique

Page 8: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 8

Les systèmes Pair-à-Pair

Lié à des applications Napster, Kazaa, Edonkey, FreeNet…

Plates-formes de routages (DHT) Chord (MIT), CAN, Pastry (Rice), Tapestry (Berkeley)...

Stockage de données Non modifiables : PAST (Rice), CFS (MIT) Modifiables : FarSite (Microsoft), Ivy (MIT)

Distribution de codes XtremWeb (LRI)

Plate-forme générique JXTA (Sun)

Problématique

Page 9: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 9

Problèmes ouverts dans la gestion des données

Qualité de service dans l’accès aux données Efficacité des accès Disponibilité Tolérance aux fautes

Hétérogénéité des sources

Persistance

Modèles de partage Ecritures multiples Protocoles de cohérence

Problématique

Page 10: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 10

DataGraal : Les objectifs

1. Gestion des données à très large échelle=> exploratoire

2. Multi-communautaire : Profiter/confronter les expériences des BD, système, applications=> animation

3. Identification de thématiques/concepts communs

4. Maquettes d’expérimentation

Objectifs

Page 11: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 11

DataGraal : les applications

Stockage : Grande quantité Dispersion des données Hétérogénéité

Objectifs

Page 12: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 12

Coopération entre communautés

Communauté système Issus des expérience des systèmes répartis et pair-a-

pair Protocole de localisation Placement, déploiement Protocole de cohérence Détection et gestion des fautes

Communauté bases de données Gestion de grandes quantités de données Hétérogénéité Mobilité Médiation traditionnellement, architecture faiblement distribué

Complémentarité

Page 13: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 13

Coopération (2)

Applications physique des particules physique des plasmas simulation de grands systèmes physiques

Idée de la coopération : faire se rencontrer des communautés

différentes contexte : stockage distribué de grandes

quantités de données

Complémentarité

Page 14: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 14

Atouts des partenaires

PRiSM/INRIA langage de requêtes, fouille de données exploitation de grandes quantités de données

LSR Eclatement d ’un SGBD en un ensemble de services

(persistance, duplication, …) Connaissance approfondie des architectures de SGBD

LISI Systèmes d’information à large échelle

LIRMM médiation, exploitation de résultats venant de

nombreuses sources

Complémentarité

BD

Page 15: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 15

Atouts des partenaires (2)

IRISA / PARIS Maîtrise des mémoires partagées Partage de mémoire pair-è-pair Expérimentations avec JXTA

LRI Calcul haute performance sur P2P Tolérance aux fautes

LIP6 Modèle de cohérence hiérarchiques Gestion des fautes dans environnement asynchrone Systèmes multi-agents

LIP Remap Environnement de type grille Traitement de grande masses de données Redistribution dynamique des données et tolérance aux pertes

Complémentarité

Système

Page 16: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 16

Atouts des partenaires (3)

HP labs environnement de grappe virtuelle forte volatilité

Laboratoire ID expérience architecture grande grappes

• administration, gestion• déploiement efficace d ’applications sur un

grand nombre de nœuds

Complémentarité

Infrastructures

Page 17: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 17

Atouts des partenaires (4)

IN2P3 expérience dans la gestion de grandes quantités de

données élément central de Datagrid

CESR fusion de plusieurs grandes bases en une seule requêtes hétérogènes à traiter, stockage réparti

CEA expériences grandeur nature

• modélisation du climat, de la terre forte complexité des données grand nombre de sites

Complémentarité

Applications

Page 18: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 18

Atout du projet

Complémentarité expériences diverses vaste domaine de compétences

• domaine des bases de données• système distribué

expériences acquises• applications (CEA, IN2P3, CESR)• système grande échelle

Complémentarité

Page 19: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 19

Identification des tâches (provisoire)

Tâche 1 : Besoins applicatifs (Tâche transversale) Moteurs : CEA / CESR / IN2P3

Tâche 2 : Déploiement de données Moteurs : LRI / LIP / LIP6 / LISI

Tâche 3 : Accès efficace aux données Moteurs : PRISM, LIRMM, LIP

Tâche 4 : Partage de données Moteurs : IRISA / LIP / LIP6 / PRISM

Tâche 5 : Modèle de cohérence Moteurs : IRISA/ LIP6 / PRISM

Tâche 6 : Tolérance aux fautes Moteurs : LIP6 / LRI /

Tâche 7 : Apport des approches multi-agents Moteurs : LIP6 / IRISA

Axes

Page 20: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 20

Tâche 1 : Besoin applicatif

CEA , CESR , IN2P3 « Retour » d’expérience de DataGrid

Capacité de stockage – 5-8 PetaOctect / année

10 PetaOctect de disquePuissance de calcul –

200 000 PC rapides Répartition du volume ? Grain.

Quelles disponibilités, persistance ?

Mode de partage ?

Axes

Page 21: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 21

Tâche 2 : Déploiement

LRI : XtremWeb

LISI : Technique de cache Web

LIP6 : Algorithmes de placement de données /

observation

LIP : DIET+IBP - Redistribution, Placement

Axes

Page 22: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 22

Tâche 2 : déploiement (2)

Constat : Placement de données très statique Exploration 1 : vers plus de dynamicité

Nécessité de contrôler l’environnement Ressources disponibles

Détection de fautes en environnement asynchrone (pb algorithmique)

Transport d’information de contrôle à large échelle (filtrage, propagation épidemique)

Accumulation de données pertinentes (vision partielle)

Prise de décision Problème de validité des informations

Exploration 2 : Lien avec le placement des tâches

Axes

Page 23: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 23

Tâche 3 : Accès

PRISM : Accès efficace en fonction du profil

LIRMM : Adaptation dynamique des vues

LIP : Distribution de requêtes Co-ordonnancement

Page 24: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 24

Tâche 4 : Partage

PRISM :

Mode de partage transactionnelle

IRISA / LIP6 / LISI

Partage à grain fin (page / objet)

LIP Gestion de versions de données immutables

Axes

Page 25: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 25

Tâche 4 : partage (2)

Versionning vs. données modifiable Limite du partage en lecture dans P2P

Approche de partage « volontaire » limitée

Le partage avec de nombreux écrivains Augmenter la complexité - Quelles applications ?

Des tendances récentes : Partage (en lecture) forcé (ex. Edonkey) Partage avec une nombre réduit d’écrivains (Ivy

…)

Axes

Page 26: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 26

Tâche 5 : Cohérence

Modèle de cohérence sur mémoire partagée répartie (IRISA / LIP6 / LISI)

LISI• DosMos

IRISA• Cohérence au relachement• Cohérence multi-thread (DSM-PM2)

LIP6• Modèle hiérarchique (CLRC)

Axes

Page 27: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 27

Tâche 5 : Cohérence (2)

Avenir des mémoires partagées réparties ? Application à large échelle

Travail coopératif, couplage de code

Hétérogénéité

Tolérance aux fautes

Axes

Page 28: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 28

Tâche 6 : Tolérance aux fautes

PRISM : Redondance dynamique

LIP6 : Détection de fautes hiérarchique (RTT-FD) Réplication dynamique (DARX)

LRI : Journalisation de messages + mémoire de canal MPICH-

V

LIP : Code redondant Reconstruction dynamique

Axes

Page 29: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 29

Tâche 6 : Tolérance aux fautes (2)

Gestion de l’incertitude des informations vers un système « indulgent » ?

Choisir la bonne stratégies (types de réplication, point de reprise, journalisation) en fonction de plusieurs critères : Applicatif (type de fautes, nombre de fautes,

temps de recouvrement) Environnemental : surcoût, charge des

machine et du réseau, MTBF ….

Axes

Page 30: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 30

Tâche 7 : Approche multi-agent

LIP6 : Plate-forme DARX : http://www-src.lip6.fr/darx Fiabilité des agents, réplication Dynamicité

IRISA/LIP6 Service de partage de mémoire sur DARX

Axes

Page 31: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 31

Tâche 7 : Approche multi-agent (2)

Un agent est une entité physique ou virtuelle : capable d’agir sur elle-même et sur son environnement, capable de percevoir son environnement, mais ne dispose

que d’une représentation partielle de cet environnement (et parfois aucune),

peut communiquer avec d’autres agents, poursuit un objectif individuel, qui possède des compétences et peut offrir des services, …

Propriétés d’un agent = autonomie, proactivité, adaptabilité, sociabilité, mobilité, …

Agent une alternative pour le large échelle ?

Axes

Page 32: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 32

Support d’expérimentation

Plate-forme GDX : GriD eXplorerF. Cappello, O. Richard , P. Sens 1000 noeudsObjectif : Emulation d’internet

Nombre de sites, Éloignement

Différent type d’expériences : réseau, calcul, système

Intégré dans projet GRID 5000

Axes

Page 33: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 33

GDX

INRIACEA

IMAGLRI

VTHD

Axes

Page 34: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 34

Organisation

Réunions régulières Plénières (2 par an) Par tâche (~5 par an)

Site Web : datagraal.lip6.fr Suivi des réunions (transparents) Lien vers les projets du domaine

Mailing list : [email protected]

Organisation

Page 35: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 35

Déroulement

Première réunion plénière (15/11/02 - IMAG) Présentation des travaux des différentes équipes Transparents disponibles sur le site

Réunion d’avancement (4/12/02 – Aussois) Ebauche des groupes de travail

Séminaire de deux jours (30-31/01/03) séminaire technique définition de topiques de travail + responsables

Rencontres trimestrielles une rencontre = un topique

Organisation

Page 36: 1 DataGRAAL DataGRid pour Animation et Applications à Large échelle Yves Denneulin IMAG-ID Pierre Sens LIP6 - INRIA

ACI DataGraal – 10/01/03 36

Déroulement

Fin de l ’action

Ecriture d ’un document commun

Ecole DGRID sur la gestion de données à grande échelle

Organisation

Bretagne (Port aux Rocs)