20
Gérard Peliks planche 2 Le BIG DATA ????? Big Buzz ? Big Opportunity ? Big Bang ? Big Business ? Big Challenge ? Big Hacking ? Big hype ?

Le BIG DATA - ISEP Alumni · V o l u m é t r i e V ... Les bases technologiques du Big Data • Hadoop Framework Java, ... • HDFS (Hadoop Distributed File System) • Map/Reduce

Embed Size (px)

Citation preview

Page 1: Le BIG DATA - ISEP Alumni · V o l u m é t r i e V ... Les bases technologiques du Big Data • Hadoop Framework Java, ... • HDFS (Hadoop Distributed File System) • Map/Reduce

Gérard Peliks planche 2

Le BIG DATA ?????

Big Buzz ?

Big Opportunity ?

Big Bang ?

Big Business ?

Big Challenge ?Big Hacking ?

Big hype ?

Page 2: Le BIG DATA - ISEP Alumni · V o l u m é t r i e V ... Les bases technologiques du Big Data • Hadoop Framework Java, ... • HDFS (Hadoop Distributed File System) • Map/Reduce

Gérard Peliks planche 3

Les quatre paradigmes de la science en marche

• Paradigme 1 : L’empirismeLa science basée sur l’observation des phénomènes naturels.

• Paradigme 2 : Les sciences duresLa théorisation permet l’explication des phénomènes observables.

• Paradigme 3 : La simulation sur ordinateurPour valider ou réfuter des théories.

• Paradigme 4 : Le Big DataL’ordinateur fait des découvertes par lui-même, en trouvant des liens statistiques au sein de milliards de données.

Gérard Peliks planche 4

Une définition du Big Data

Page 3: Le BIG DATA - ISEP Alumni · V o l u m é t r i e V ... Les bases technologiques du Big Data • Hadoop Framework Java, ... • HDFS (Hadoop Distributed File System) • Map/Reduce

Gérard Peliks planche 5

Le Big Data ou déferlante informationnelle, le champ des nouveaux possibles

•• Les 3 Les 3 " V V "•• Des analogies pour comprendreDes analogies pour comprendre

•• Les technologies du Big DataLes technologies du Big Data

•• Le marchLe marchéé

•• Les compLes compéétencestences

•• …… et pour conclureet pour conclure

Gérard Peliks planche 6

Page 4: Le BIG DATA - ISEP Alumni · V o l u m é t r i e V ... Les bases technologiques du Big Data • Hadoop Framework Java, ... • HDFS (Hadoop Distributed File System) • Map/Reduce

Gérard Peliks planche 7

Le BIG DATA,un modèle tri-dimensionnel : les 3 " V "

V o l u m é t r i e

V é

l o c i t éV a

r i

ét é

Gérard Peliks planche 8

V comme Volumétrie

• Une unité pour le Big Data : le Zettaoctet– Teraoctet : 1000 Gigaoctets (1012 octets) Twitter, Facebook par jour

– Petaoctet : 1000 Teraoctets (1015 octets) Facebook, Google,…

– Exaoctet : 1000 Gigaoctets (1018 octets) Quantité d’info/jour / (5 exaoctets)

– Zettaoctet : 1000 Exaoctets ou 1000 milliards de Gigaoctets (1021 octets)

– Yottaoctet : 1000 Zettaoctets (1024 octets) NSA datacenter (1 Yo sur 92000 m2)

• Le volume de la connaissance : étude de EMC-CDC– 1,8 zettaoctets en 2011,

– 2,9 zettaoctets en 2015 (18 millions de fois le contenu de la Librairie du Congrés)

– 35 zettaoctets en 2020

Page 5: Le BIG DATA - ISEP Alumni · V o l u m é t r i e V ... Les bases technologiques du Big Data • Hadoop Framework Java, ... • HDFS (Hadoop Distributed File System) • Map/Reduce

Gérard Peliks planche 9

V comme Volumétrie

• La production des données– réseaux sociaux

• Twitter génère 7 teraoctets par jour

• Facebook génère 10 téraoctets par jour

La NSA est parvenue à aspirer plus de 180 millions de fichiers sur Google et sur YahooSon plus grand site (sur 6) dans l’Utah pourrait stocker un yottaoctet

Gérard Peliks planche 10

V comme Volumétrie

• La production des données, par jour– 143 milliards de courriels

– 540 millions de SMS

– 400 millions de tweets

– 104 000 heures de vidéos ajoutées sur YouTube

0,05% des données sont analysées

Page 6: Le BIG DATA - ISEP Alumni · V o l u m é t r i e V ... Les bases technologiques du Big Data • Hadoop Framework Java, ... • HDFS (Hadoop Distributed File System) • Map/Reduce

Gérard Peliks planche 11

V comme Volumétrie

• La production des données– Open Data

• L’Open Data recouvre l’ouverture gratuite des données publiques et privées au grand public et aux entreprises

• Les 27 pays de l’Union Européenne doivent, sous 18 mois, donner accès à leurs données publiques

• www.data.gouv.fr : 355 000 informations publiques

Gérard Peliks planche 12

V comme Volumétrie

• La production des données– Capteurs (puces RFID, caméras de surveillance,

Linky, Google glass…)

– Internet des Objets (15 milliards d’objets connectés en 2015)

– Web 2.0, Web 3.0…

– MOOC (Massive Open Online Courses)

Page 7: Le BIG DATA - ISEP Alumni · V o l u m é t r i e V ... Les bases technologiques du Big Data • Hadoop Framework Java, ... • HDFS (Hadoop Distributed File System) • Map/Reduce

Gérard Peliks planche 13

V comme Volumétrie

• Le déluge, c’est maintenant– Aujourd’hui, en 2 jours, l’humanité produit bien plus de

données que depuis l’invention de l’imprimerie jusqu’en

2003.

– Dans 8 ans, la masse de données sera 50 fois supérieure.

– Dans les dernières 20 secondes, plus d’informations ont traversé le net qu’il n’en existait sur le web il y a 20 ans

– 90% des données du monde ont été créées ces deux dernières années (estimation IBM)

Mais le volume seul ne fait pas le BIG DATAMais le volume seul ne fait pas le BIG DATA……

Gérard Peliks planche 14

V comme Vélocité

• Nous entrons dans l'ère de l'immédiateté

• Vous traverseriez une rue en n’ayant qu’une photo prise

il y a 5 minutes ?

• La donnée bouge dans un monde qui bouge

• La vélocité fait référence à la vitesse à laquelle changent les données, ainsi qu’à la vitesse auxquelles celles-ci doivent être utilisées pour en tirer de la valeur

Google parcourt 100 Google parcourt 100 petaoctetspetaoctets en moins den moins d’’une une secondeseconde

Page 8: Le BIG DATA - ISEP Alumni · V o l u m é t r i e V ... Les bases technologiques du Big Data • Hadoop Framework Java, ... • HDFS (Hadoop Distributed File System) • Map/Reduce

Gérard Peliks planche 15

V comme Variété

• Blogs, réseaux sociaux, tweets, textes, images, photos,

vidéo, musiques, transactions…– Plus de 1000 formats différents

• Evolution de la structure des données– En 2000, 30% des données étaient non structurées, 70% structurées dans

des BD

– En 2012, 70% des données sont non structurées et 30% structurées

• Des informations qui étaient difficilement dicernables (signaux faibles) apparaissent

Ce nCe n’’est pas tant la taille des donnest pas tant la taille des donnéées qui est es qui est importante, que leur diversitimportante, que leur diversitéé et la multiplicitet la multiplicitééde leurs originesde leurs origines

Gérard Peliks planche 16

Les 4 autres " V "

V a l e u r

V é

r a

c i

t é V

i r t u e l

V i s u a l i s a t i o n

Page 9: Le BIG DATA - ISEP Alumni · V o l u m é t r i e V ... Les bases technologiques du Big Data • Hadoop Framework Java, ... • HDFS (Hadoop Distributed File System) • Map/Reduce

Gérard Peliks planche 17

Gérard Peliks planche 18

Des analogies pour comprendre la rupture induite par le Big Data…

• Avec le Big Data, on ne regarde plus la trajectoire des molécules … on découvre la thermodynamique

• Ce ne sont plus les 30 rumeurs de la page 2 du Canard Enchaîné, ce sont les 200 000 documents d’un coup de Wikileaks…

• On donne du sens au déluge de données– Donnée -> Information -> Culture ->Profit

– Celui qui contrôlera les métadonnées, contrôlera le Web• Tim Berners-Lee

• Les données sont-elles le nouveau pactole pétrolier ?– Extraire, raffiner, distribuer

– 20eme siècle, siècle du pétrole ; 21eme siècle celui de la donnée

by calwest

Page 10: Le BIG DATA - ISEP Alumni · V o l u m é t r i e V ... Les bases technologiques du Big Data • Hadoop Framework Java, ... • HDFS (Hadoop Distributed File System) • Map/Reduce

Gérard Peliks planche 19

Des analogies pour comprendre la rupture induite par le Big Data…

• Au fond, on se comporte aujourd'hui face aux données du web comme un biologiste qui prétendrait tout connaître de la pensée parce qu'il dispose de belles images d'IRM. Il verrait effectivement des états d'activation des neurones, des zones d'activité du cerveau, mais que saurait-il de la mémoire, de la volonté, des affects et des passions ? Rien.

Henri Verdier

Gérard Peliks planche 20

Page 11: Le BIG DATA - ISEP Alumni · V o l u m é t r i e V ... Les bases technologiques du Big Data • Hadoop Framework Java, ... • HDFS (Hadoop Distributed File System) • Map/Reduce

Gérard Peliks planche 21

D’où viennent les technologies du Big Data ?

• Des solutions majoritairement open source (fondation Apache)

Source : Enjeux et usages du Big Data

Lavoisier

Gérard Peliks planche 22

Les bases technologiques du Big Data

• HadoopFramework Java, open source de la fondation Apache, créé par Yahoo!. Il permet de

paralléliser les tâches et d’utiliser donc un grand nombre de serveurs. Première distribution d’Hadoop en janvier 2012

• HDFS (Hadoop Distributed File System)

• Map/Reduce– Popularisé par Google, c’est une librairie de calculs massivement

parallèles, distribués, qui porte sur des données potentiellement très volumineuses.

• Bases de données « NoSQL » : – Hbase et Cassandra

• Bases de données distribuées .

• Interrogation de base de données NoSQL– Hive, langage d’interrogation, genre SQL

Source : Enjeux et usages du Big Data Lavoisier

Créateur Doug Cutting

Page 12: Le BIG DATA - ISEP Alumni · V o l u m é t r i e V ... Les bases technologiques du Big Data • Hadoop Framework Java, ... • HDFS (Hadoop Distributed File System) • Map/Reduce

Gérard Peliks planche 23

MapReduce, le calcul massivement parallèle

Gérard Peliks planche 24

Evolution des outils : Hadoop 2.0

• La fondation Apache a livré la version 2.0 du framework Hadoop– YARN : « Yet Another Resource Negociator » succède à MapReduce

• Gestion des ressources avec Resources Manager

• Monitoring et surveillance avec Node Manager

– Haute disponibilité du système de fichier distribué HDFS

– Exécution aussi sour Windows

– Compatibilité avec Hadoop 1.0

Page 13: Le BIG DATA - ISEP Alumni · V o l u m é t r i e V ... Les bases technologiques du Big Data • Hadoop Framework Java, ... • HDFS (Hadoop Distributed File System) • Map/Reduce

Gérard Peliks planche 25

Gérard Peliks planche 26

Quand le Small Data rencontre le Big Data

• Le Small Data va rencontrer le Big Data– « Voilà ce que je désire, vous me connaissez, vous connaissez mes besoins, faites-

moi vos propositions »

• Avec le Small Data, le pouvoir est au demandeur • Cartographie des compétences

• Comparaison des honoraires des médecins

• Hummingbird : un nouvel algorithme pour Google Search

Page 14: Le BIG DATA - ISEP Alumni · V o l u m é t r i e V ... Les bases technologiques du Big Data • Hadoop Framework Java, ... • HDFS (Hadoop Distributed File System) • Map/Reduce

Gérard Peliks planche 27

Quand l’Open Data rencontre le Big Data

• www.etalab.gouv.fr/

www.usine-digitale.fr/article/la-revolution-de-la-donnee-va-bouleverser-notre-vision-du-systeme-de-sante-previent-henri-verdier.N193665

Gérard Peliks planche 28

Le marché du Big Data

• Une augmentation de 60% par an– 36 milliards de dollars en 2013

– 55 milliards de dollars en 2016 (Gartner) et 10 fois plus de serveurs nécessaires

– 4,4 millions d’emplois dans le monde d’ici 2015 (Gartner et IBM)

• Ceux qui l’utilisent aujourd’hui :– Les offreurs de solutions : Microsoft, Oracle, IBM, SAP, HP, EMC…

– Les utilisateurs: Google, Amazon, Facebook, Twitter, LinkedIn, NSA, Orange, SFR…

• Principaux marchés– Services financiers, santé, secteur public, 55% du marché du big data en 2012

(Transparency Market Research)

Page 15: Le BIG DATA - ISEP Alumni · V o l u m é t r i e V ... Les bases technologiques du Big Data • Hadoop Framework Java, ... • HDFS (Hadoop Distributed File System) • Map/Reduce

Gérard Peliks planche 29

Le marché du Big Data

• Commerce (prix décidés par les données et les algorithmes)

• On peut s’attendre à des services proposés en SAS– Big Data as a Service

– Hadoop as a Service (HaaS)

– Analytics & Visualisation as a Service

• La feuille de route du gouvernement retient le Big Data au rang des technologies stratégiques, avec les objets connectés et la cybersécurité.

• Penser grand mais commencer petit et avancer vite (cigref)

• Le Big Data, c’est maintenant !

Gérard Peliks planche 30

Les 5 mesures du plan de soutien du gouvernement sur le Big Data avril 2013

1. Ouverture de formations de Data Scientists On estime à 300 000 le nombre de datascientists nécessaires à l'Europe Fleur Pellerin

2. Mise à disposition pour les start-up d'un kit de briques technologiques nécessaires à leur croissance

3. Renforcement de la chaîne de financement de l'innovation dans le Big Data • 11,5 millions d’euros pour 7 projets de Big Data en particulier sur les transports ou la

santé (Louis Gallois, commissaire général à l’Investissement))

4. Stimuler de l'écosystème du Big Data, en créant un réseau social en France http://www.medef.com/medef-tv/videos/detail/medeftv/fleur-pellerinstructurer-une-filiere-autour-du-big-data-et-des-objets-connectes.html

Page 16: Le BIG DATA - ISEP Alumni · V o l u m é t r i e V ... Les bases technologiques du Big Data • Hadoop Framework Java, ... • HDFS (Hadoop Distributed File System) • Map/Reduce

Gérard Peliks planche 31

Le Big Data et la Santé

• En 2012, Microsoft et le Technion prédisent une épidémie de choléra à Cuba, maladie disparue depuis 50 ans.

– Prédiction basée sur des probabilités. L’épidémie a vraiment eu lieu.

• Google Flu Trends

http://goo.gl/SUqJd

Gérard Peliks planche 32

Le Big Data et la Santé

• Dossiers médicaux

• Génomique– Premier séquençage ADN humain : 3 milliards de nucléotides

– Il a fallu 11 ans (1990-2001) et 3 milliards de dollars

– Aujourd’hui : quelques jours et 1000 dollars

• Imagerie médicale– A l’INRIA de Rennes sont étudiées les corrélations entre les images du cerveau et le

patrimoine génétique des patients

• Quid de l’anonymisation des données ?

• …et de la ré-identification d’une personne ?– 96% des patients sont identifiés en se basant sur leurs historiques médicaux (Bradley)

• Quel choix entre utilité maximale des données et confidentialité absolue ?

• McKinsey estime le potentiel économique annuel du Big Data, pour le système de santé US, à 300 milliards de dollars, soit 1000 dollars par habitant et par an.

Page 17: Le BIG DATA - ISEP Alumni · V o l u m é t r i e V ... Les bases technologiques du Big Data • Hadoop Framework Java, ... • HDFS (Hadoop Distributed File System) • Map/Reduce

Gérard Peliks planche 33

Le Big Data et Big Brother

• Programme XKeyscore de la NSA– Du 10 dec 2012 au 8 janv 2013, d’après Le Monde et Ed. Snowden

• 70,3 millions de données téléphoniques, en France, enregistrées

• Données wanadoo.fr et alcatel-lucent écoutées

– 150 sites de collecte (ambassades US)

– Stockage dans 700 serveurs

• Capacité d’aspiration de la NSA– La NSA est parvenue à aspirer plus de 180 millions de fichiers sur Google et sur

Yahoo

– Son plus grand site (sur 6) dans l’Utah pourrait stocker un yottaoctet ou un siècle de conversation téléphonique des US, et plusieurs années de flux internet mondiall

Source : Le Figaro

Gérard Peliks planche 34

Le Big Data et la cyber sécurité

• Techniques d’anonymisation et d’effacement automatique

• Sécurité des Clouds publics et privés

• Police prédictive ? Minority report de Spielberg

• Analyse des évènements piégés dans des honeypots

• Corrélation de signaux, mêmes faibles, et visualisation des attaques

• Machine learning

SIEMSIEM

SOCSOC

Page 18: Le BIG DATA - ISEP Alumni · V o l u m é t r i e V ... Les bases technologiques du Big Data • Hadoop Framework Java, ... • HDFS (Hadoop Distributed File System) • Map/Reduce

Gérard Peliks planche 35

Gérard Peliks planche 36

Les compétences requises en Big Data

• Les « Data Scientists » ou experts en science de la donnée– Collecter, nettoyer, corréler, analyser, visualiser l’information à partir des data– Interface entre la statistique, l’informatique, les mathématiques et les enjeux socio-

économiques– Data visualisation– Sciences humaines, sémantique, linguistique, design (infovisualisation)

• Data Scientists vs Data Analysts– Le Data Analyst ne regarde que les données issues d’une seule source (ex CRM)– Le Data Scientist explore et examine les données venant de sources hétérogènes,

parfois peu fiables avec des informations lacunaires.– Il fait parler les données et en sort des indicateurs concrets au service de la direction

générale– Le Data Scientist doit savoir communiquer, convaincre : il aide à la décision– Analogie avec la sécurité de l’Info : Data Analyst = RSSI ; Data Scientist = CSO

• Le CDO (Chief Data Officer) transmet au comité de direction les observations et analyses appuyées sur les données, afin d’éclairer davantage la prise de décision.

Page 19: Le BIG DATA - ISEP Alumni · V o l u m é t r i e V ... Les bases technologiques du Big Data • Hadoop Framework Java, ... • HDFS (Hadoop Distributed File System) • Map/Reduce

Gérard Peliks planche 37

Gérard Peliks planche 38

Mythes et légendes du Big Data

• MYTHE N° 1 : Le Big Data, c'est le Cloud Computing 2.0

• MYTHE N° 2 : Mon entreprise utilise déjà le Big Data depuis plusieurs années

• MYTHE N° 3 : Le Big Data marque une rupture technologique

• MYTHE N° 4 : Le Big Data, signifie la fin des bases de données relationnelles

• MYTHE N° 5 : Le marché du Big Data est à prendre tout de suite

Ivan de Lastours, Direction de l'innovation de l'Institut Mines-Télécom

http://www.forumatena.org/node/358

Page 20: Le BIG DATA - ISEP Alumni · V o l u m é t r i e V ... Les bases technologiques du Big Data • Hadoop Framework Java, ... • HDFS (Hadoop Distributed File System) • Map/Reduce

Gérard Peliks planche 39

Le Big Data, un changement de paradigme

• Ce qui fait tout l'intérêt du Big Data, ce ne sont pas les données en elles-mêmes, mais leur mélange avec toutes vos données stratégiques.

• Plus qu’un traitement statistique massif des données et leur corrélation avec d’autres données, c’est la science qui évolue.

Gérard Peliks planche 40