27
BIG DATA Veille technologique Malek Hamouda Nina Lachia Léo Valette Commanditaire : Thomas Milon Encadré: Philippe Vismara 1

Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

BIG DATA Veille technologique

Malek Hamouda Nina Lachia Léo Valette

Commanditaire : Thomas Milon

Encadré: Philippe Vismara

1

Page 2: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

Méthodes d’analyses statistiques classiques

1er méthode d’analyse chimiométrique multivariée : Exploratoires (ACP,AFCM) Régression(PCR, PLS)

Fouille de données.

Explosion du volume de données

Méthodes pas assez puissante pour traiter et

analyser toutes ces données

Historique des bases de données : méthodes de stockage et d’analyse

Premier SGBD

2 ème génération des SGBD: Les systèmes relationnels

Organisation classique en fichier

3 ème génération des SGBD: Les systèmes orientés objets.

Entrepôt de données

1970 1960 1980 2000 1985 2012

Introduction 2

Page 3: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

Problèmatique: Comment stocker et analyser ces données?

à Big Data Ensemble de données trop volumineuses et variées pour être stockées ettraitées avec des outils classiques de gestion de base de données. 

Volume Vitesse Variété

Introduction 3

Page 4: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

q Web, internet et objet communicant : e-Journaux, réseaux sociaux, e-commerce, stockage de document, RFID, réseaux de capteurs…

q  Sciences : génomique, astronomie, climatologie…

q  Données commerciales, personnelles, publiques. (Historique de transaction dans une chaine de supermarchés, Dossier médicaux, Open data )

Qui est concerné par le Big Data

Fournisseurs de solutions Leader du web

Le secteur scientifique

Les grands acteurs de logiciel et système d’entreprises

Introduction 4

Page 5: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

Plan

� Formes de stockage des données

� Méthode de traitement � Conclusion et perspectives

5

Page 6: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

I. Quelles formes de stockage ?

Interrogation par requête SQL

Techniquement impossible sur du

big data

Modèle NoSQL (not only SQL)

Modèle classique : BD relationnelle

6

Page 7: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

Le modèle NoSQL

I. Quelles formes de stockage ?

Base du NoSQL : structure « clé-valeur » distribuée

Clé Valeur

Malek Etudiante

Léo 23

Nina France

Bruno Enseignant

Clé Valeur

Nina agroTIC

Malek Tunisie

Léo Etudiant

Simplifier les BD : �  Supprimer les relations entre tables �  Transférer l’intelligence des requêtes SQL vers l’applicatif qui interroge la BD �  Pouvoir répartir la BD sur plusieurs serveurs

7

Page 8: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

Base de donnée clé-valeur AVANTAGES �  Stocker un grand nombre de données et de nature variée �  Effectuer des requêtes rapides �  Augmentation de la capacité de calcul et de stockage en

ajoutant de nouveaux serveurs

INCONVENIENTS

�  Pas de requêtes complexes �  Transactionnel limité (atomicité, cohérence, isolation,

durabilité) �  Apprendre une nouvelle  approche de technologie

de base de données

I. Quelles formes de stockage ? 8

Page 9: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

Les différents types de NoSQL

9

I. Quelles formes de stockage ?

Page 10: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

Les différents types de NoSQL APPLICATIONS : �  Données semi-persistantes

�  cache, pour conserver les sessions d'un site web �  stockage pour des files d'attentes, �  accumuler des événements bruts en vue d'en

agréger des statistiques

EXEMPLES : �  Memcached �  CouchBase �  Redis

10

I. Quelles formes de stockage ?

Page 11: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

Clé (ID message)

Valeur (destinataire)

Tag temps (heure envoie)

Les types de NoSQL BigTable et dérivés

APPLICATIONS : �  BD de tous les produits

Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

�  BD de Twitter sur Cassandra

�  BD de Facebook sur HBase

11

I. Quelles formes de stockage ?

Page 12: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

Clé (id document)

Valeur (information structurée de manière hiérarchique type XML,JSON)

Doc001 {promo:’agrotic2012’, groupe : ’Malek, Nina, Leo’, travail : ’veille techno’, date : ’19/12/2012’, body:’…’,…}

Les types de NoSQL BD orientées documents

APPLICATIONS : �  Accélérateur de

particules du CERN, banque Barclays sur MongoDB

�  Ubuntu One et la banque suisse sur CouchDB

�  Mozilla, AOL sur Riak

12

I. Quelles formes de stockage ?

Page 13: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

Clé Valeur

3 {Statut:’étudiante’, Etat:’souriante’}

103 {label:’enseigne à’}

Les types de NoSQL BD orientées graphes

APPLICATIONS : � Deutsche Telekom et

Viadeo sur NEO4J

Bruno

Id: 1 Statut : enseignant

Nina

Id: 2 Statut : étudiante

Malek

Id: 3 Statut : étudiante

État : souriante

Id: 103 label : enseigne à

Id: 203 label : est amie

avec

13

I. Quelles formes de stockage ?

Page 14: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

Plan

� Formes de stockage des données

� Méthode de traitement � Conclusion et perspectives

14

Page 15: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

à Une méthode de programmation d’analyses en parallèle à Grande quantité de données, traitement à grande vitesse

Source: http://static.slidesharecdn.com/

Architecture traditionnelle

Architecture BigData Division en clusters

Une Nouvelle façon d’interroger les données

II.  Méthode de traitement 15

Page 16: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

Le principe en exemple Compter le nombre de lettres contenus dans un fichier

Fichier source (Base de données NoSQL)

Splitting Découpage

en blocs

Shuffling Tri

Reducing Agrégation

des informations

Résultat

A, 3 B, 1 C, 3 D, 2

Mapping Fonction

d’analyse parallèle

à Répartition du travail à Efficace sur des tera octets de données

16

II.  Méthode de traitement

Page 17: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

Source: http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=bigdata1-111109113624-phpapp02&stripped_title=big-data-par-mfg-labs&userName=benjamingans

17

II.  Méthode de traitement

Page 18: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

Projet Apache Open Source

18

II.  Méthode de traitement

Page 19: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

PARALLELISATION DES PROCESSUS � Volume de donnée � Vitesse de traitement augmentée

Les traitements en temps réel Quelques exemples

�  Publicité �  Transactions financières �  Gérer des flux de données énormes en temps réel

19

II.  Méthode de traitement

Page 20: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

Conclusion:

� Principes: Travail en parallèle et structuration

simplifiée de la donnée.

� Le Big Data ne s’applique que dans des cas particuliers, pour des besoins particuliers.

A quand un BigDat’Agricole?

20

Page 21: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

Autres informations: �  Conférence à Paris (Défense)au CNIT le 3 et 4 avril 2013 sur le

BIG DATA. �  1er master en France, ouvre en 2013 à Telecom Paris Tech sur

“BIG DATA : gestion et analyse des données massives”.

21

Page 22: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

22

Page 23: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

Risques:

�  Protection des données à caractères personnelle: Mot de passe, liberté de circulation,géolocalisation des personnes à partir des smartphones (photos et les publications).

�  De contrôle permanent de la pars des autorités.

23

Page 24: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

Bibliographie (articles scientifique, conférences, livres, cours…)

�  Conférence du 20/21 mars 2012 sur les Big Data à la Cité universitaire à Paris �  http://www.digora.com/blog/big-data-connaissez-vous-hadoop/ �  http://123opendata.com/blog/le-lexique/#ixzz2FOHD8rRn (lexique de l’Open Data) �  http://www.telecom-paristech.fr/big-data-dossier-presse.html#c9999 �  http://www.telecom-paristech.fr/formation-continue/les-entretiens-de-

telecom-paristech/dec-2012-big-data-big-value/avis-experts.html#c10129 �  http://nosql.mypopescu.com/post/9621746531/a-definition-of-big-data �  http://france.emc.com/microsites/bigdata/index.htm �  http://eric.univ-lyon2.fr/~jdarmont/docs/old/sise-bd.pdf �  Journal : O’Reilly, article Big Data Now . Edition 2012. �  Big Data Spectrum, Connect Architecture, Infosis. �  Big Data et Open source, une convergence inévitable, Mars 2012 Stéphane

Fermier.

24

Page 25: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

II.  Nouveau mode de traitement des flux de données «  Stream Processing ».

�  Utilité: permet d’effectuer plus facilement et plus rapidement le calcul parallèle.

�  Pourquoi? : §  Les données en entrée sont trop rapide pour

les stocker dans leur intégralités §  La réponse doit être immédiate. (en temps

réel)

�  Quelques exemples.

25

Page 26: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

Annexes 26

Page 27: Commanditaire : Thomas Milon · Les types de NoSQL BigTable et dérivés APPLICATIONS : ! BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube,…) sur Bigtable

Annexes 27