Usi 2013-next big data architecture

www.usievents.com

24 & 25 Juin 2013LE RENDEZ-VOUS DES GEEKS & DES BOSSPOUR UNE INFORMATIQUE QUI TRANSFORME NOS SOCIÉTÉS

Prochaine Génération d’architectures Big Data

Olivier Mallassi

1

www.gopivotal.com

www.usievents.com 2

« Big Data »…Tout attribut qui défie les contraintes d’une capacité d’un système ou besoin métier.

Challenge nos savoir-faire.

www.usievents.com 3

Plus…

…de volume

…vite

…complexe : « predictive enterprise »…variée

et variable

…nous amène vers « plus… »

www.usievents.com 4

UNE IMPLEMENTATIONDE REFERENCE : Hadoop

www.usievents.com


5

Nam

eN

od

e

Data

Nod

e

Data

Nod

e

Data

Nod

e

Data

Nod

e

File#2Block#1

File#2Block#2

File#2Block#3

Un système de fichier distribué : HDFS

Découpage des fichiers en « bloc ».Répartition des données sur plusieurs machines.Réplication des données pour assurer la tolérance à la panne.

File#2

File#2Block#1

File#2Block#2

File#2Block#3

www.usievents.com


6Ta

skTr

acker

TaskTr

acker

TaskTr

acker

TaskTr

acker

File#2Block#1

File#2Block#2

File#2Block#3

Map Map MapReduce

Une couche de traitement: MapReduce

Distribution des traitements.Co-localisation traitements & données.

Job

Tracker

www.usievents.com 7

QUI POSE QUELQUESDEFIS

www.usievents.com


8

Manque de généricité : « MapReduce Only »

Structurant en termes de développement. Structurant en termes d’architecture (« scheduling »…).Ne convient pas à tous les types de traitements.

TaskTr

acker

TaskTr

acker

TaskTr

acker

TaskTr

acker

File#2Block#1

File#2Block#2

File#2Block#3

Map Map MapReduce

Job

Tracker

www.usievents.com 9

Une architecture qui ne répond pas aux nouveaux enjeux

Complexité d’intégration.Mode de traitement batch incompatible avec le « plus vite ».Architecture Master / Slave incompatible avec les problématiques

d’ingestion (Machine-2-Machine).


SI Opérationnel SI Décisionnel

Hadoop

DWH (MPP...)

Déchargement

Extraction / Enrichissement

App / RDBMS

App / RDBMS

App / RDBMS

App / RDBMS

www.usievents.com 10

THEORIEDE L’EVOLUTION

www.usievents.com


11

#1. YARN ou l’ouverture vers d’autres types de traitements distribués

YA

RN

Ressou

rce M

an

ag

er

Nod

e M

gr

Nod

e M

gr

Nod

e M

gr

Nod

e M

gr

Map Map MapReduce

Nod

e M

gr

MR Application

Worker Master Worker

SQL SQL

MapReduce

Master/Worker

SQL

www.usievents.com


12

#2. Faciliter et diversifier l’accès à la donnée…

www.usievents.com


13

#2. …avec SQL

Facilite l’accès via « SQL Like »Génération traitement MR

www.usievents.com


14

#2. …avec SQL

Améliore les performances de HiveEnrichit la compatibilité SQLPrivilégie la mémoire

www.usievents.com


15

#2. …avec SQL

Architecture différente de MRCompatibilité avec SQLNouveau format de stockage, compressionPrivilégie la mémoire

www.usievents.com


16

#2. …avec SQL

Le portage du « moteur SQL » de Greenplum MPPCompatibilité avec SQL« Moteur SQL » éprouvé : redistribution des données en cas de jointureStockage polymorphe : compression, « row / column oriented »

www.usievents.com


17

AnalyticWorkloads

SQL Services

OperationalIntelligence

In-Memory Services

Stream Ingestion

HDFS

In memory / Streaming Services

Processing / transformationcalculation

MR / SQL services

GemFire

#3. HDFS : le substrat sur lequel s’intègre différentes couches de traitement

Collecte, traitements temps réel : « In Memory Data Grid ».

www.usievents.com


18

AnalyticWorkloads

SQL Services


In-Memory Services

Stream Ingestion



MR / SQL services

MR / Hive / HAWQ

insert into…. select from…


Analyse, Extraction, Machine Learning : MapReduce, SQL…

HDFS

www.usievents.com


19

AnalyticWorkloads

SQL Services


In-Memory Services

Stream Ingestion



MR / SQL services

HAWQ SQLFire

select lag() over(partition by…) from … where …


Restitution : SQL.

HDFS

www.usievents.com 20

Ouvrir vers d’autres types de traitements distribués avec YARNFaciliter et diversifier l’accès à la donnée avec SQLIntégrer différentes couches de traitements sur HDFS

Simplifie(ra) la « gestion technique » de la donnée.

Simplifie(ra) l’analyse et l’accès à cette donnée.

Facilite(ra) l’intégration à l’écosystème et l’existant.

Sera le socle technique aux nouveaux cas d’usage.

Documents

Usi 2013-next big data architecture