Data Science & Big Data, réalités et perspectives

Data Science & Big Data Umons – 12/3/2014 Alexis Gil Gonzales

Agenda

1.  Synopsis historique 2.  Data Science – principes 3.  Big Data 4.  Réalités & PerspecHves

Synopsis historique

•  1900’s : StaHsHques •  1960’s : Pêche aux données (dredging) •  1962 : John Tukey « The Future of Data Analysis »

•  1974 : Peter Naur « Concise Survey of Computer Methods »

•  1989 : Gregory Piatetsky-‐Shapiro : Knowledge Discovery in Database (KDD) Workshop

Synopsis historique

•  1990’s : Data Mining •  1996 : Fayyad, Piatetsky-‐Shapiro, Smyth « From Data Mining to Knowledge Discovery in Databases »

•  1997 : Data Mining and Knowledge Discovery journal

•  2001 : William Cleveland « Data Science : An acHon plan for expanding the technical areas of the field of staHsHcs »

Synopsis historique

•  2002/2003 : Data Science Journal, Journal of Data Science

•  2004 : Dean, Ghemawat (Google) : « MapReduce : Simplified Data Processing on Large Clusters »

•  2005 : Davenport, Cohen, Jacobson « CompeHng on AnalyHcs »

•  2005 : Hadoop naît chez Yahoo •  2006 : Google AnalyHcs •  2007 : Analyse predicHve •  2007 : Research Center for Datalogy and Data Science – Shanghai (China)

Synopsis historique

•  2008 : J. Hammerbacher, DJ PaHl (Facebook, Linkedin) uHlisent pour la première fois le rôle « Data ScienHst »

•  2009 : Kirk Borne « The RevoluHon in Astronomy EducaHon : Data Science for the Masses »

•  2009 : Mathew Graham « The Art of Data Science »

Data Science -‐ Principes

Défini&on

Extrac'on de patrons ou modèles u'les à par'r de vastes sources de données (Fayyad, Piatetsky, Shapiro, Smyth 1996)

Concepts divers

Extraire de la connaissance u'le à par'r de grands volumes de données pour résoudre des problèmes d’entreprise peut être réalisé en suivant un processus en étapes bien définies. Example : CRISP-‐DM

Concepts divers

A par'r de grands volumes de données, technologies de l’informa'on peuvent être u'lisées pour trouver des aAributs descrip'fs et informa'fs d’en'tés d’intérêt.

Concepts divers

Si vous regardez assez longtemps un ensemble de données vous pourriez trouver quelque chose, mais ce ne peut pas être généralisé au délà de l’ensemble de données ini'al. Overfiong

Classifica&on

Prédire, pour chaque élément d’une populaHon, à quelle classe il apparHent.

Scoring Prédit, pour chaque élément d’une populaHon, la probabilité d’appartenance à chaque classe.

Régression

Prédire, pour chaque élément d’une populaHon, la valeur numérique d’une variable donnée.

Correspondance de similarités IdenHfie des éléments similaires à parHr de données connues sur ceux-‐ci. classe.

Clustering

Grouper des éléments d’une populaHon ensemble par leur similarité, mais sans objecHf bien défini.

Groupage de co-‐occurrence Trouve des associaHons entre des éléments basées sur des transacHons les impliquant. (Market basket analysis)

Profiling

CaractérisaHon du comportement typique d’un élément, groupe ou populaHon.

Prédic&on de lien Prédire l’existence de liens entre deux éléments et éventuellement esHmer la force du lien.

Réduc&on de données

ConverHr un grand ensemble de données en un autre plus peHt en conservant le max. d’informaHon du premier.

Modélisa&on causale Comprendre quels événements ou acHons influencent d’autres.

CRISP-‐DM

Autres ou'ls analy'ques

ApprenHssage Machine InterrogaHon BBDD

Data Warehousing Analyse de régression

StaHsHques

Data Mining Supvervisé Classifica'on et Régression

•  SélecHon d’arributs •  ClassificaHon par arbres (inducHon) •  ClassificaHon par opHmisaHon (foncHon linéaire, foncHon objecHf)

•  Support Vector Machines •  Classificateurs Bayesiens •  Réseaux neuronaux

Similarités et voisins •  Similarités entre éléments d’un ensemble •  Distance •  Instances similaires -‐> distance minimale •  Nearest Neighbor •  ClassificaHon •  Diverses mesures de distance ! (Manharan, Jaccard, Cosinus, distance d’édiHon, ...)

Clustering •  SegmentaHon non supervisée •  « groupes naturels », sans cible connue •  Clustering hiérarchique

Co-‐occurrence •  Découverte d’associaHons entre éléments d’une populaHon sur base des transacHons passées.

•  Recherche combinaison d’éléments aux staHsHques intéressantes.

•  Grand nombre de co-‐occurrences ! •  Hasard •  Support de l’associaHon

Profiling •  Comportement-‐type •  DistribuHon normale/log-‐normale •  Gaussian Mixture Models •  Clusters « mous »

Big Data

•  Très grands volumes de données •  3 « V »

•  Volume •  Vitesse •  Variabilité

Big Data Paysage

Big Data

Technologies

•  Au début : MapReduce (Google), puis Hadoop (Yahoo), vers 2004.

•  MapReduce : Algorithme distribué. •  Hadoop : plate-‐forme distribuée.

Big Data

Hadoop •  Architecture en Cluster: NameNode, DataNode. Secondary NameNode

•  HDFS : Distributed FS. Data Block •  Data écrite 1 seule fois, lue plusieurs. •  Hadoop core en java •  MapReduce inside •  Hbase : BD en colonnes. Flexible, Compression •  ZooKeeper : GesHon de configuraHon •  Hive : analyse de données, proche de SQL, scriptable •  Pig : analyse de données, laHn.

Big Data

Hadoop (cont) •  Flume : traitement de flux, logfiles •  SolR : Basé sur project Lucene. Recherche textuelle sur grands volumes de documents. •  Mahout : Librairie d’apprenHssage machine pour grands volumes de données. UHlise MapReduce.

•  Giraph/Hama : Traitement itéraHf de graphes. Basé sur Pregel (Google), BSP.

•  Ambari : provision, gesHon, mgmt hadoop •  Squoop : connecteurs de données. •  Oozie : ordonnanceur de jobs.

Big Data

Hadoop (cont)

•  WebHDFS : REST API •  Hcatalog : expose Hive métadonnées. « schéma »

•  WebHCatalog : REST API •  YARN : MapReduce 2.0, généralisaHon •  Tez : Nouveau framework exécuHon de tâches •  Storm : Temps réel

Big Data

Evolu'on Hadoop

Big Data

Quelques examples concrets Avec flume, pig, hive et mahout

Big Data

Réalités

Big Data

Enquête Gartner 2013 (US)

•  64% entreprises invesHssent ou vont le faire dans des technologies Big Data

•  Mais uniquement 8% de ces derniers ont pris des acHons concrètes

•  Principaux secteurs : Banque, médias, services •  Problème 1 : quanHficaHon de la valeur du BD •  Problème 2 : manque de talents à <> niveaux

Big Data

Réalités

Big Data

Enquête EMC 2012

Big Data

Enquête EMC 2012

Big Data

Enquête EMC 2012

The End

Merci !

Data Science & Big Data, réalités et perspectives

Technology

Introduction au BIG DATA

présentation du Big data

Master: DATA SCIENCE & BIG DATA Liste des candidats

Challenge des big data

Big Data, kesako ?

RÉSEAUX SOCIAUX ET BIG DATA DONNÉES PERSONNELLES ET ...clemi.ac-dijon.fr/.../2019/05/LES-RÉSEAUX-SOCIAUX-ET-BIG-DATA-1.… · Le BIG DATA, ’est quoi ? Littéralement, ces termes

Cours Big Data Chap3

Cahier Big Data v5

001 Big Data Vs

Open Data - Open Gov - Big Data

Big Data In Agriculture (BDA)

Big Data, Big Business. Vraiment ?

Offre onepoint - Data science et big data

Cours Big Data Chap6

Cours Big Data Chap5

Cours Big Data Chap1

Big data (2013)

Le Big Data

EY - Big data : où en sont les entreprises françaises · (Big) data : o n sont s ntrprises ranaises ? Avant-propos (Big) data : difficile d’échapper à cette déferlante depuis

GFII 2014 Big Data