14
BIG DATA ARCHITECTURE ET TECHNOLOGIES Dr. Corentin Burnay DKCA Data Knowledge Capital Advice

Big data Keep IT Simple

Embed Size (px)

Citation preview

Page 1: Big data Keep IT Simple

BIG DATA

ARCHITECTURE ET TECHNOLOGIES

Dr. Corentin Burnay DKCA – Data Knowledge Capital Advice

Page 2: Big data Keep IT Simple

CONTEXTE Les données produites aujourd’hui par les entreprises sont :

•  Volumineuses •  Variées •  Véloces

L’approche classique au traitement des données ne permet pas de gérer simultanément ces différentes caractéristiques:

•  Goulot d’étranglement dans la production de rapports •  Délais de calcul trop longs •  Mode de stockage des données inadapté (SQL)

Nécessité d’une architecture plus adaptée: le Big Data

20/11/16 2

Page 3: Big data Keep IT Simple

DIVISER POUR MIEUX REGNER Le besoin de base pour gérer les problèmes de volume, de vélocité et de variété est de “diviser pour mieux régner”

•  1 machine effectuant un gros calcul: inéfficace •  1000 machines effectuant chacune une partie du calcul: …

La solution au problème de division du travail est Map Reduce •  Un modèle de programmation massivement parallèle adapté

au traitement de très grandes quantités de données •  Un produit Google Corp •  Les programmes adoptant ce modèle sont automatiquement

parallélisés et exécutés sur des clusters d'ordinateurs •  Exemple: l'index de Google est généré avec MapReduce

20/11/16 3

Page 4: Big data Keep IT Simple

MAP REDUCE Mécanismes de base

•  Découper une requête en multiples sous-requêtes (Map) •  Chacune des sous-requêtes peut être traitée par différents

serveur d'un même cluster •  Possibilité de duplication du traitement et des données •  Récupérer les multiples résultats des sous-requêtes et les

réduire en un résultat global (Reduce).

20/11/16 4

Page 5: Big data Keep IT Simple

MAP REDUCE

20/11/16 5

Page 6: Big data Keep IT Simple

HADOOP Hadoop est un projet géré par Apache Software Fundation basé sur le principe de Map Reduce et du Google Files System

•  Hadoop met en pratique l’approche Map Reduce •  Hadoop utilise Hadoop Distributed File System (HDFS)

Hadoop fractionne des fichiers en gros blocs et les distribue à travers les différents nœuds du cluster Pour traiter les données:

•  Hadoop transfère le code à chaque nœud •  Chaque nœud traite les données dont il dispose

20/11/16 6

Page 7: Big data Keep IT Simple

HADOOP

20/11/16 7

Page 8: Big data Keep IT Simple

NO SQL Les bases de données relationnelles ont une philosophie d'organisation des données bien spécifiques

•  Langage d'interrogation SQL •  Principe d'intégrité des transactions (ACID) •  Lois de normalisation

Pas du tout adaptées au stockage de très grandes dimension et au traitement ultra rapide à des fins de reporting Les bases NoSQL (not only SQL) autorisent la redondance pour mieux servir les besoins en matière de:

•  Performance •  Flexibilité •  Tolérance aux pannes •  Évolutivité

20/11/16 8

Page 9: Big data Keep IT Simple

MANGO DB MongoDB est un système de gestion de base de données orientée documents qui:

•  Est répartissable sur un nombre quelconque d'ordinateurs •  Ne nécessite pas de schéma prédéfini

Les données dans MongoDB prennent la forme:

•  De champs (colonne) représentant des données •  De documents (enregistrements) regroupant un ensemble de

champs. •  De collections (tables) regroupant un nombre quelconque de

documents Les champs d'un enregistrement sont libres et peuvent être différents d'un enregistrement à un autre au sein d'une même collection

20/11/16 9

Page 10: Big data Keep IT Simple

MANGO DB Table dans un SGBD relational Collection dans MongoDB

Table dans un fichier plat

20/11/16 10

Page 11: Big data Keep IT Simple

NEO4J Neo4j permet de stocker et représenter les données en tant qu’objets inter reliés. Les données dans Neo4J prennent la forme de graphes, se composant:

•  D’attributs (colonne) représentant des données •  De noeuds (enregistrements) regroupant un ensemble d’attribut et

représentant un concept clé du business •  De liens (?) regroupant différents noeuds (sans règles prédéfinies)

L'absence de modélisation rigide rend Neo4j bien adapté à la gestion de données changeantes et de schémas évoluant fréquemment Les bases de données de graphes sont un outil puissant pour répondre à des requêtes faisant intervenir des relations entre objets Une base Neo4j est censée être jusqu’à plusieurs milliers de fois plus rapide pour traiter des données associatives, car elle évite de coûteuses opérations de type jointures SQL pour les bases de données relationnelles.

20/11/16 11

Page 12: Big data Keep IT Simple

NEO4J

20/11/16 12

Page 13: Big data Keep IT Simple

ARCHITECTURE BIG DATA

20/11/16 13

Page 14: Big data Keep IT Simple

QUELQUES AUTRES OUTILS DU BIG DATA

20/11/16 14