20
www.usievents.com 24 & 25 Juin 2013 LE RENDEZ-VOUS DES GEEKS & DES BOSS POUR UNE INFORMATIQUE QUI TRANSFORME NOS SOCIÉTÉS Prochaine Génération d’architectures Big Data Olivier Mallassi 1 www.gopivotal.com

Usi 2013-next big data architecture

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Usi 2013-next big data architecture

www.usievents.com

24 & 25 Juin 2013LE RENDEZ-VOUS DES GEEKS & DES BOSSPOUR UNE INFORMATIQUE QUI TRANSFORME NOS SOCIÉTÉS

Prochaine Génération d’architectures Big Data

Olivier Mallassi

1

www.gopivotal.com

Page 2: Usi 2013-next big data architecture

www.usievents.com 2

« Big Data »…Tout attribut qui défie les contraintes d’une capacité d’un système ou besoin métier.

Challenge nos savoir-faire.

Page 3: Usi 2013-next big data architecture

www.usievents.com 3

Plus…

…de volume

…vite

…complexe : « predictive enterprise »…variée

et variable

…nous amène vers « plus… »

Page 4: Usi 2013-next big data architecture

www.usievents.com 4

UNE IMPLEMENTATIONDE REFERENCE : Hadoop

Page 5: Usi 2013-next big data architecture

www.usievents.com

UNE IMPLEMENTATIONDE REFERENCE : Hadoop

5

Nam

eN

od

e

Data

Nod

e

Data

Nod

e

Data

Nod

e

Data

Nod

e

File#2Block#1

File#2Block#2

File#2Block#3

Un système de fichier distribué : HDFS

Découpage des fichiers en « bloc ».Répartition des données sur plusieurs machines.Réplication des données pour assurer la tolérance à la panne.

File#2

File#2Block#1

File#2Block#2

File#2Block#3

Page 6: Usi 2013-next big data architecture

www.usievents.com

UNE IMPLEMENTATIONDE REFERENCE : Hadoop

6Ta

skTr

acker

TaskTr

acker

TaskTr

acker

TaskTr

acker

File#2Block#1

File#2Block#2

File#2Block#3

Map Map MapReduce

Une couche de traitement: MapReduce

Distribution des traitements.Co-localisation traitements & données.

Job

Tracker

Page 7: Usi 2013-next big data architecture

www.usievents.com 7

QUI POSE QUELQUESDEFIS

Page 8: Usi 2013-next big data architecture

www.usievents.com

QUI POSE QUELQUESDEFIS

8

Manque de généricité : « MapReduce Only »

Structurant en termes de développement. Structurant en termes d’architecture (« scheduling »…).Ne convient pas à tous les types de traitements.

TaskTr

acker

TaskTr

acker

TaskTr

acker

TaskTr

acker

File#2Block#1

File#2Block#2

File#2Block#3

Map Map MapReduce

Job

Tracker

Page 9: Usi 2013-next big data architecture

www.usievents.com 9

Une architecture qui ne répond pas aux nouveaux enjeux

Complexité d’intégration.Mode de traitement batch incompatible avec le « plus vite ».Architecture Master / Slave incompatible avec les problématiques

d’ingestion (Machine-2-Machine).

QUI POSE QUELQUESDEFIS

SI Opérationnel SI Décisionnel

Hadoop

DWH (MPP...)

Déchargement

Extraction / Enrichissement

App / RDBMS

App / RDBMS

App / RDBMS

App / RDBMS

Page 10: Usi 2013-next big data architecture

www.usievents.com 10

THEORIEDE L’EVOLUTION

Page 11: Usi 2013-next big data architecture

www.usievents.com

THEORIEDE L’EVOLUTION

11

#1. YARN ou l’ouverture vers d’autres types de traitements distribués

YA

RN

Ressou

rce M

an

ag

er

Nod

e M

gr

Nod

e M

gr

Nod

e M

gr

Nod

e M

gr

Map Map MapReduce

Nod

e M

gr

MR Application

Worker Master Worker

SQL SQL

MapReduce

Master/Worker

SQL

Page 12: Usi 2013-next big data architecture

www.usievents.com

THEORIEDE L’EVOLUTION

12

#2. Faciliter et diversifier l’accès à la donnée…

Page 13: Usi 2013-next big data architecture

www.usievents.com

THEORIEDE L’EVOLUTION

13

#2. …avec SQL

Facilite l’accès via « SQL Like »Génération traitement MR

Page 14: Usi 2013-next big data architecture

www.usievents.com

THEORIEDE L’EVOLUTION

14

#2. …avec SQL

Améliore les performances de HiveEnrichit la compatibilité SQLPrivilégie la mémoire

Page 15: Usi 2013-next big data architecture

www.usievents.com

THEORIEDE L’EVOLUTION

15

#2. …avec SQL

Architecture différente de MRCompatibilité avec SQLNouveau format de stockage, compressionPrivilégie la mémoire

Page 16: Usi 2013-next big data architecture

www.usievents.com

THEORIEDE L’EVOLUTION

16

#2. …avec SQL

Le portage du « moteur SQL » de Greenplum MPPCompatibilité avec SQL« Moteur SQL » éprouvé : redistribution des données en cas de jointureStockage polymorphe : compression, « row / column oriented »

Page 17: Usi 2013-next big data architecture

www.usievents.com

THEORIEDE L’EVOLUTION

17

AnalyticWorkloads

SQL Services

OperationalIntelligence

In-Memory Services

Stream Ingestion

HDFS

In memory / Streaming Services

Processing / transformationcalculation

MR / SQL services

GemFire

#3. HDFS : le substrat sur lequel s’intègre différentes couches de traitement

Collecte, traitements temps réel : « In Memory Data Grid ».

Page 18: Usi 2013-next big data architecture

www.usievents.com

THEORIEDE L’EVOLUTION

18

AnalyticWorkloads

SQL Services

OperationalIntelligence

In-Memory Services

Stream Ingestion

In memory / Streaming Services

Processing / transformationcalculation

MR / SQL services

MR / Hive / HAWQ

insert into…. select from…

#3. HDFS : le substrat sur lequel s’intègre différentes couches de traitement

Analyse, Extraction, Machine Learning : MapReduce, SQL…

HDFS

Page 19: Usi 2013-next big data architecture

www.usievents.com

THEORIEDE L’EVOLUTION

19

AnalyticWorkloads

SQL Services

OperationalIntelligence

In-Memory Services

Stream Ingestion

In memory / Streaming Services

Processing / transformationcalculation

MR / SQL services

HAWQ SQLFire

select lag() over(partition by…) from … where …

#3. HDFS : le substrat sur lequel s’intègre différentes couches de traitement

Restitution : SQL.

HDFS

Page 20: Usi 2013-next big data architecture

www.usievents.com 20

Ouvrir vers d’autres types de traitements distribués avec YARNFaciliter et diversifier l’accès à la donnée avec SQLIntégrer différentes couches de traitements sur HDFS

Simplifie(ra) la « gestion technique » de la donnée.

Simplifie(ra) l’analyse et l’accès à cette donnée.

Facilite(ra) l’intégration à l’écosystème et l’existant.

Sera le socle technique aux nouveaux cas d’usage.