50

Thinking big

Embed Size (px)

Citation preview

About ME

• Docteur en Informatique

• Enseignante à l’INSAT

• Chercheuse au laboratoire LIP2

BIG DATATout a commencé quand l’Homme a

voulu se faire entendre…

Au début, c’était un peu

difficile…

Ensuite,

un peu mieux

Il a inventé le livre pour tout

noter

Et le téléphone pour tout dire

Il voulait une

machine qui

ferait le travail

à sa place…

Puis

partager ses

trouvailles

avec

d’autres

A début, une

poignée de

privilégiés

avaient le

monopole de

l’information sur

Internet

Les données étaient

statiques, fiables et peu

nombreuses

Le bon

vieux

temps…

Et puis un jour…

Et LÀ…

Et avec l’arrivée des Plateformes

Mobiles Intelligentes

Le Cloud

Les objets connectés

Les données ont explosé!

BIG DATA

Quand peut-on dire qu’on a

affaire à des BIG DATA?

Les n-V

VOLUME

VARIÉTÉ

VÉLOCITÉ

VÉRACITÉ

VALEU

R

VISIBILITÉ(6ème V?)

Comment Gérer ces

Données?

MOTTO 1

Stocker d’Abord,

Réfléchir Ensuite

MOTTO 2

Ce sont les Données qui

pilotent le Traitement(pas le contraire)

MOTTO 3

Arrêter de réfléchir en

Relationnel!

MOTTO 4

Absolument TOUTES les

Données sont

Importantes!

Facepalm

Mais tout de

même…

Comment Gérer ces

Données?

2 Grands Challenges

Stockage Traitement

STOCKAGE

Scale UP vs. Scale OUT

Scale

UP

Scale

OUT

Propriétés

ACID

Atomicité

Consistance

Isolation

Durabilité

P

A

CThéorème

CAP

Availability

Consistanc

ePartitionneme

nt

NO GO!

Propriétés

BASE

Basically Available

Soft-State

Eventual

Consistency

Autres Préoccupations

Formats de données variés

Formats qui changent dans le temps

Besoin d’un Système de Gestion des

Données

Tolérant au Partitionnement

Grande Disponibilité

Schéma flexible

Accès très rapide en écriture Diminuer les jointures

Accepter les redondances

Laisser le contrôle à l’utilisateur

Systèmes de Gestion des

Données BIG DATA

NOSQL

Hadoop HDFS

TRAITEMENT

Diviser pour Régner

Diviser pour RégnerRépartir les données

Dupliquer les données

Répartir et Dupliquer

les Traitements

Diviser pour Régner

Tolérance aux

PannesParallélisme de

Données

Répartition

de ChargeParallélisme de

Traitement

Map-Reduce

Mappers Reducers

Mélanger &

Ordonner

BIG DATAEveryone talks about it

Nobody knows how to do it

Everyone thinks everyone else is

doing it

So everyone claims they are doing it

liliasfaxi.wix.com/liliasfax

i