38
Data Science & Big Data Umons – 12/3/2014 Alexis Gil Gonzales

Data Science & Big Data, réalités et perspectives

Embed Size (px)

DESCRIPTION

Séminaire donné à l'Université de Mons (Belgique) le 12/3/2014.

Citation preview

Page 1: Data Science & Big Data, réalités et perspectives

Data  Science  &  Big  Data  Umons  –  12/3/2014  Alexis  Gil  Gonzales  

 

Page 2: Data Science & Big Data, réalités et perspectives

Agenda  

1.  Synopsis  historique  2.  Data  Science  –  principes  3.  Big  Data  4.  Réalités  &  PerspecHves  

Page 3: Data Science & Big Data, réalités et perspectives

Synopsis  historique  

•  1900’s  :  StaHsHques  •  1960’s  :  Pêche  aux  données  (dredging)  •  1962  :  John  Tukey  «  The  Future  of  Data  Analysis  »  

•  1974  :  Peter  Naur  «  Concise  Survey  of  Computer  Methods  »  

•  1989  :  Gregory  Piatetsky-­‐Shapiro  :  Knowledge  Discovery  in  Database  (KDD)  Workshop  

Page 4: Data Science & Big Data, réalités et perspectives

Synopsis  historique  

•  1990’s  :  Data  Mining  •  1996  :  Fayyad,  Piatetsky-­‐Shapiro,  Smyth  «  From  Data  Mining  to  Knowledge  Discovery  in  Databases  »  

•  1997  :  Data  Mining  and  Knowledge  Discovery  journal  

•  2001  :  William  Cleveland  «  Data  Science  :  An  acHon  plan  for  expanding  the  technical  areas  of  the  field  of  staHsHcs  »  

Page 5: Data Science & Big Data, réalités et perspectives

Synopsis  historique  

•  2002/2003  :  Data  Science  Journal,  Journal  of  Data  Science  

•  2004  :  Dean,  Ghemawat  (Google)  :  «  MapReduce  :  Simplified  Data  Processing  on  Large  Clusters  »    

•  2005  :  Davenport,  Cohen,  Jacobson  «  CompeHng  on  AnalyHcs  »  

•  2005  :  Hadoop  naît  chez  Yahoo  •  2006  :  Google  AnalyHcs  •  2007  :  Analyse  predicHve  •  2007  :  Research  Center  for  Datalogy  and  Data  Science  –  Shanghai  (China)  

Page 6: Data Science & Big Data, réalités et perspectives

Synopsis  historique  

•  2008  :  J.  Hammerbacher,  DJ  PaHl  (Facebook,  Linkedin)  uHlisent  pour  la  première  fois  le  rôle  «  Data  ScienHst  »  

•  2009  :  Kirk  Borne  «  The  RevoluHon  in  Astronomy  EducaHon  :  Data  Science  for  the  Masses  »  

•  2009  :  Mathew  Graham  «  The  Art  of  Data  Science  »  

Page 7: Data Science & Big Data, réalités et perspectives

Data  Science  -­‐  Principes  

Défini&on    

Extrac'on  de  patrons  ou  modèles  u'les  à  par'r  de  vastes  sources  de  données  (Fayyad,  Piatetsky,  Shapiro,  Smyth  1996)  

Page 8: Data Science & Big Data, réalités et perspectives

Data  Science  -­‐  Principes  

Concepts  divers    

Extraire  de  la  connaissance  u'le  à  par'r  de  grands  volumes  de  données  pour  résoudre  des  problèmes  d’entreprise  peut  être  réalisé  en  suivant  un  processus  en  étapes  bien  définies.  Example  :  CRISP-­‐DM  

Page 9: Data Science & Big Data, réalités et perspectives

Data  Science  -­‐  Principes  

Concepts  divers    

A  par'r  de  grands  volumes  de  données,  technologies  de  l’informa'on  peuvent  être  u'lisées  pour  trouver  des  aAributs  descrip'fs  et  informa'fs  d’en'tés  d’intérêt.    

Page 10: Data Science & Big Data, réalités et perspectives

Data  Science  -­‐  Principes  

Concepts  divers    

Si  vous  regardez  assez  longtemps  un  ensemble  de  données  vous  pourriez  trouver  quelque  chose,  mais  ce  ne  peut  pas  être  généralisé  au  délà  de  l’ensemble  de  données  ini'al.    Overfiong    

Page 11: Data Science & Big Data, réalités et perspectives

Data  Science  -­‐  Principes  

Classifica&on    

Prédire,  pour  chaque  élément  d’une  populaHon,  à  quelle  classe  il  apparHent.    

Scoring    Prédit,  pour  chaque  élément  d’une  populaHon,  la  probabilité  d’appartenance  à  chaque  classe.    

Page 12: Data Science & Big Data, réalités et perspectives

Data  Science  -­‐  Principes  

Régression    

Prédire,  pour  chaque  élément  d’une  populaHon,  la  valeur  numérique  d’une  variable  donnée.    

Correspondance  de  similarités    IdenHfie  des  éléments  similaires  à  parHr  de  données  connues  sur  ceux-­‐ci.  classe.    

Page 13: Data Science & Big Data, réalités et perspectives

Data  Science  -­‐  Principes  

Clustering    

Grouper  des  éléments  d’une  populaHon  ensemble  par  leur  similarité,  mais  sans  objecHf  bien  défini.    

Groupage  de  co-­‐occurrence    Trouve  des  associaHons  entre  des  éléments  basées  sur  des  transacHons  les  impliquant.  (Market  basket  analysis)    

Page 14: Data Science & Big Data, réalités et perspectives

Data  Science  -­‐  Principes  

Profiling    

CaractérisaHon  du  comportement  typique  d’un  élément,  groupe  ou  populaHon.    

Prédic&on  de  lien    Prédire  l’existence  de  liens  entre  deux  éléments  et  éventuellement  esHmer  la  force  du  lien.    

Page 15: Data Science & Big Data, réalités et perspectives

Data  Science  -­‐  Principes  

Réduc&on  de  données    

ConverHr  un  grand  ensemble  de  données  en  un  autre  plus  peHt  en  conservant  le  max.  d’informaHon  du  premier.    

Modélisa&on  causale    Comprendre  quels  événements  ou  acHons  influencent  d’autres.    

Page 16: Data Science & Big Data, réalités et perspectives

Data  Science  -­‐  Principes  

CRISP-­‐DM

Page 17: Data Science & Big Data, réalités et perspectives

Data  Science  -­‐  Principes  

Autres  ou'ls  analy'ques  

ApprenHssage  Machine   InterrogaHon  BBDD  

Data  Warehousing   Analyse  de  régression  

StaHsHques  

Page 18: Data Science & Big Data, réalités et perspectives

Data  Science  -­‐  Principes  

Data  Mining  Supvervisé  Classifica'on  et  Régression  

•  SélecHon  d’arributs  •  ClassificaHon  par  arbres  (inducHon)  •  ClassificaHon  par  opHmisaHon  (foncHon  linéaire,  foncHon  objecHf)  

•  Support  Vector  Machines  •  Classificateurs  Bayesiens  •  Réseaux  neuronaux  

Page 19: Data Science & Big Data, réalités et perspectives

Data  Science  -­‐  Principes  

Similarités  et  voisins  •  Similarités  entre  éléments  d’un  ensemble  •  Distance    •  Instances  similaires  -­‐>  distance  minimale  •  Nearest  Neighbor  •  ClassificaHon  •  Diverses  mesures  de  distance  !  (Manharan,  Jaccard,  Cosinus,  distance  d’édiHon,  ...)  

Page 20: Data Science & Big Data, réalités et perspectives

Data  Science  -­‐  Principes  

Clustering  •  SegmentaHon  non  supervisée  •  «  groupes  naturels  »,  sans  cible  connue  •  Clustering  hiérarchique  

Page 21: Data Science & Big Data, réalités et perspectives

Data  Science  -­‐  Principes  

Co-­‐occurrence  •  Découverte  d’associaHons  entre  éléments  d’une  populaHon  sur  base  des  transacHons  passées.  

•  Recherche  combinaison  d’éléments  aux  staHsHques  intéressantes.  

•  Grand  nombre  de  co-­‐occurrences  !  •  Hasard  •  Support  de  l’associaHon  

Page 22: Data Science & Big Data, réalités et perspectives

Data  Science  -­‐  Principes  

Profiling  •  Comportement-­‐type  •  DistribuHon  normale/log-­‐normale  •  Gaussian  Mixture  Models  •  Clusters  «  mous  »  

Page 23: Data Science & Big Data, réalités et perspectives

Big  Data  

•  Très  grands  volumes  de  données  •  3  «  V  »  

•  Volume  •  Vitesse  •  Variabilité  

Page 24: Data Science & Big Data, réalités et perspectives

Big  Data  Paysage  

Page 25: Data Science & Big Data, réalités et perspectives

Big  Data  

Page 26: Data Science & Big Data, réalités et perspectives

Big  Data  

Technologies  

•  Au  début  :  MapReduce  (Google),  puis  Hadoop  (Yahoo),  vers  2004.  

•  MapReduce  :  Algorithme  distribué.  •  Hadoop  :  plate-­‐forme  distribuée.  

Page 27: Data Science & Big Data, réalités et perspectives

Big  Data  

Hadoop  •  Architecture  en  Cluster:  NameNode,  DataNode.  Secondary  NameNode  

•  HDFS  :  Distributed  FS.  Data  Block  •  Data  écrite  1  seule  fois,  lue  plusieurs.  •  Hadoop  core  en  java  •  MapReduce  inside  •  Hbase  :  BD  en  colonnes.  Flexible,  Compression  •  ZooKeeper  :  GesHon  de  configuraHon  •  Hive  :  analyse  de  données,  proche  de  SQL,  scriptable  •  Pig  :  analyse  de  données,  laHn.  

Page 28: Data Science & Big Data, réalités et perspectives

Big  Data  

Hadoop  (cont)  •  Flume  :  traitement  de  flux,  logfiles  •   SolR  :  Basé  sur  project  Lucene.  Recherche    textuelle  sur  grands  volumes  de  documents.  •  Mahout  :  Librairie  d’apprenHssage  machine  pour    grands  volumes  de  données.  UHlise  MapReduce.  

•  Giraph/Hama  :  Traitement  itéraHf  de  graphes.  Basé  sur  Pregel  (Google),  BSP.  

•  Ambari  :  provision,  gesHon,  mgmt  hadoop  •  Squoop  :  connecteurs  de  données.  •  Oozie  :  ordonnanceur  de  jobs.    

Page 29: Data Science & Big Data, réalités et perspectives

Big  Data  

Hadoop  (cont)  

•  WebHDFS  :  REST  API  •  Hcatalog  :  expose  Hive  métadonnées.  «  schéma  »  

•  WebHCatalog  :  REST  API  •  YARN  :  MapReduce  2.0,  généralisaHon  •  Tez  :  Nouveau  framework  exécuHon  de  tâches  •  Storm  :  Temps  réel  

Page 30: Data Science & Big Data, réalités et perspectives

Big  Data  

Evolu'on  Hadoop  

Page 31: Data Science & Big Data, réalités et perspectives

Big  Data  

Quelques  examples  concrets  Avec  flume,  pig,  hive  et  mahout  

Page 32: Data Science & Big Data, réalités et perspectives

Big  Data  

Réalités  

Page 33: Data Science & Big Data, réalités et perspectives

Big  Data  

Enquête  Gartner    2013  (US)  

•  64%  entreprises  invesHssent  ou  vont  le  faire  dans  des  technologies  Big  Data  

•  Mais  uniquement  8%  de  ces  derniers  ont  pris  des  acHons  concrètes  

•  Principaux  secteurs  :  Banque,  médias,  services  •  Problème  1  :  quanHficaHon  de  la  valeur  du  BD  •  Problème  2  :  manque  de  talents  à  <>  niveaux  

Page 34: Data Science & Big Data, réalités et perspectives

Big  Data  

Réalités  

Page 35: Data Science & Big Data, réalités et perspectives

Big  Data  

Enquête  EMC  2012  

Page 36: Data Science & Big Data, réalités et perspectives

Big  Data  

Enquête  EMC  2012  

Page 37: Data Science & Big Data, réalités et perspectives

Big  Data  

Enquête  EMC  2012  

Page 38: Data Science & Big Data, réalités et perspectives

The  End  

Merci  !