Data Science & Big Data, réalités et perspectives

Preview:

DESCRIPTION

Séminaire donné à l'Université de Mons (Belgique) le 12/3/2014.

Citation preview

Data  Science  &  Big  Data  Umons  –  12/3/2014  Alexis  Gil  Gonzales  

 

Agenda  

1.  Synopsis  historique  2.  Data  Science  –  principes  3.  Big  Data  4.  Réalités  &  PerspecHves  

Synopsis  historique  

•  1900’s  :  StaHsHques  •  1960’s  :  Pêche  aux  données  (dredging)  •  1962  :  John  Tukey  «  The  Future  of  Data  Analysis  »  

•  1974  :  Peter  Naur  «  Concise  Survey  of  Computer  Methods  »  

•  1989  :  Gregory  Piatetsky-­‐Shapiro  :  Knowledge  Discovery  in  Database  (KDD)  Workshop  

Synopsis  historique  

•  1990’s  :  Data  Mining  •  1996  :  Fayyad,  Piatetsky-­‐Shapiro,  Smyth  «  From  Data  Mining  to  Knowledge  Discovery  in  Databases  »  

•  1997  :  Data  Mining  and  Knowledge  Discovery  journal  

•  2001  :  William  Cleveland  «  Data  Science  :  An  acHon  plan  for  expanding  the  technical  areas  of  the  field  of  staHsHcs  »  

Synopsis  historique  

•  2002/2003  :  Data  Science  Journal,  Journal  of  Data  Science  

•  2004  :  Dean,  Ghemawat  (Google)  :  «  MapReduce  :  Simplified  Data  Processing  on  Large  Clusters  »    

•  2005  :  Davenport,  Cohen,  Jacobson  «  CompeHng  on  AnalyHcs  »  

•  2005  :  Hadoop  naît  chez  Yahoo  •  2006  :  Google  AnalyHcs  •  2007  :  Analyse  predicHve  •  2007  :  Research  Center  for  Datalogy  and  Data  Science  –  Shanghai  (China)  

Synopsis  historique  

•  2008  :  J.  Hammerbacher,  DJ  PaHl  (Facebook,  Linkedin)  uHlisent  pour  la  première  fois  le  rôle  «  Data  ScienHst  »  

•  2009  :  Kirk  Borne  «  The  RevoluHon  in  Astronomy  EducaHon  :  Data  Science  for  the  Masses  »  

•  2009  :  Mathew  Graham  «  The  Art  of  Data  Science  »  

Data  Science  -­‐  Principes  

Défini&on    

Extrac'on  de  patrons  ou  modèles  u'les  à  par'r  de  vastes  sources  de  données  (Fayyad,  Piatetsky,  Shapiro,  Smyth  1996)  

Data  Science  -­‐  Principes  

Concepts  divers    

Extraire  de  la  connaissance  u'le  à  par'r  de  grands  volumes  de  données  pour  résoudre  des  problèmes  d’entreprise  peut  être  réalisé  en  suivant  un  processus  en  étapes  bien  définies.  Example  :  CRISP-­‐DM  

Data  Science  -­‐  Principes  

Concepts  divers    

A  par'r  de  grands  volumes  de  données,  technologies  de  l’informa'on  peuvent  être  u'lisées  pour  trouver  des  aAributs  descrip'fs  et  informa'fs  d’en'tés  d’intérêt.    

Data  Science  -­‐  Principes  

Concepts  divers    

Si  vous  regardez  assez  longtemps  un  ensemble  de  données  vous  pourriez  trouver  quelque  chose,  mais  ce  ne  peut  pas  être  généralisé  au  délà  de  l’ensemble  de  données  ini'al.    Overfiong    

Data  Science  -­‐  Principes  

Classifica&on    

Prédire,  pour  chaque  élément  d’une  populaHon,  à  quelle  classe  il  apparHent.    

Scoring    Prédit,  pour  chaque  élément  d’une  populaHon,  la  probabilité  d’appartenance  à  chaque  classe.    

Data  Science  -­‐  Principes  

Régression    

Prédire,  pour  chaque  élément  d’une  populaHon,  la  valeur  numérique  d’une  variable  donnée.    

Correspondance  de  similarités    IdenHfie  des  éléments  similaires  à  parHr  de  données  connues  sur  ceux-­‐ci.  classe.    

Data  Science  -­‐  Principes  

Clustering    

Grouper  des  éléments  d’une  populaHon  ensemble  par  leur  similarité,  mais  sans  objecHf  bien  défini.    

Groupage  de  co-­‐occurrence    Trouve  des  associaHons  entre  des  éléments  basées  sur  des  transacHons  les  impliquant.  (Market  basket  analysis)    

Data  Science  -­‐  Principes  

Profiling    

CaractérisaHon  du  comportement  typique  d’un  élément,  groupe  ou  populaHon.    

Prédic&on  de  lien    Prédire  l’existence  de  liens  entre  deux  éléments  et  éventuellement  esHmer  la  force  du  lien.    

Data  Science  -­‐  Principes  

Réduc&on  de  données    

ConverHr  un  grand  ensemble  de  données  en  un  autre  plus  peHt  en  conservant  le  max.  d’informaHon  du  premier.    

Modélisa&on  causale    Comprendre  quels  événements  ou  acHons  influencent  d’autres.    

Data  Science  -­‐  Principes  

CRISP-­‐DM

Data  Science  -­‐  Principes  

Autres  ou'ls  analy'ques  

ApprenHssage  Machine   InterrogaHon  BBDD  

Data  Warehousing   Analyse  de  régression  

StaHsHques  

Data  Science  -­‐  Principes  

Data  Mining  Supvervisé  Classifica'on  et  Régression  

•  SélecHon  d’arributs  •  ClassificaHon  par  arbres  (inducHon)  •  ClassificaHon  par  opHmisaHon  (foncHon  linéaire,  foncHon  objecHf)  

•  Support  Vector  Machines  •  Classificateurs  Bayesiens  •  Réseaux  neuronaux  

Data  Science  -­‐  Principes  

Similarités  et  voisins  •  Similarités  entre  éléments  d’un  ensemble  •  Distance    •  Instances  similaires  -­‐>  distance  minimale  •  Nearest  Neighbor  •  ClassificaHon  •  Diverses  mesures  de  distance  !  (Manharan,  Jaccard,  Cosinus,  distance  d’édiHon,  ...)  

Data  Science  -­‐  Principes  

Clustering  •  SegmentaHon  non  supervisée  •  «  groupes  naturels  »,  sans  cible  connue  •  Clustering  hiérarchique  

Data  Science  -­‐  Principes  

Co-­‐occurrence  •  Découverte  d’associaHons  entre  éléments  d’une  populaHon  sur  base  des  transacHons  passées.  

•  Recherche  combinaison  d’éléments  aux  staHsHques  intéressantes.  

•  Grand  nombre  de  co-­‐occurrences  !  •  Hasard  •  Support  de  l’associaHon  

Data  Science  -­‐  Principes  

Profiling  •  Comportement-­‐type  •  DistribuHon  normale/log-­‐normale  •  Gaussian  Mixture  Models  •  Clusters  «  mous  »  

Big  Data  

•  Très  grands  volumes  de  données  •  3  «  V  »  

•  Volume  •  Vitesse  •  Variabilité  

Big  Data  Paysage  

Big  Data  

Big  Data  

Technologies  

•  Au  début  :  MapReduce  (Google),  puis  Hadoop  (Yahoo),  vers  2004.  

•  MapReduce  :  Algorithme  distribué.  •  Hadoop  :  plate-­‐forme  distribuée.  

Big  Data  

Hadoop  •  Architecture  en  Cluster:  NameNode,  DataNode.  Secondary  NameNode  

•  HDFS  :  Distributed  FS.  Data  Block  •  Data  écrite  1  seule  fois,  lue  plusieurs.  •  Hadoop  core  en  java  •  MapReduce  inside  •  Hbase  :  BD  en  colonnes.  Flexible,  Compression  •  ZooKeeper  :  GesHon  de  configuraHon  •  Hive  :  analyse  de  données,  proche  de  SQL,  scriptable  •  Pig  :  analyse  de  données,  laHn.  

Big  Data  

Hadoop  (cont)  •  Flume  :  traitement  de  flux,  logfiles  •   SolR  :  Basé  sur  project  Lucene.  Recherche    textuelle  sur  grands  volumes  de  documents.  •  Mahout  :  Librairie  d’apprenHssage  machine  pour    grands  volumes  de  données.  UHlise  MapReduce.  

•  Giraph/Hama  :  Traitement  itéraHf  de  graphes.  Basé  sur  Pregel  (Google),  BSP.  

•  Ambari  :  provision,  gesHon,  mgmt  hadoop  •  Squoop  :  connecteurs  de  données.  •  Oozie  :  ordonnanceur  de  jobs.    

Big  Data  

Hadoop  (cont)  

•  WebHDFS  :  REST  API  •  Hcatalog  :  expose  Hive  métadonnées.  «  schéma  »  

•  WebHCatalog  :  REST  API  •  YARN  :  MapReduce  2.0,  généralisaHon  •  Tez  :  Nouveau  framework  exécuHon  de  tâches  •  Storm  :  Temps  réel  

Big  Data  

Evolu'on  Hadoop  

Big  Data  

Quelques  examples  concrets  Avec  flume,  pig,  hive  et  mahout  

Big  Data  

Réalités  

Big  Data  

Enquête  Gartner    2013  (US)  

•  64%  entreprises  invesHssent  ou  vont  le  faire  dans  des  technologies  Big  Data  

•  Mais  uniquement  8%  de  ces  derniers  ont  pris  des  acHons  concrètes  

•  Principaux  secteurs  :  Banque,  médias,  services  •  Problème  1  :  quanHficaHon  de  la  valeur  du  BD  •  Problème  2  :  manque  de  talents  à  <>  niveaux  

Big  Data  

Réalités  

Big  Data  

Enquête  EMC  2012  

Big  Data  

Enquête  EMC  2012  

Big  Data  

Enquête  EMC  2012  

The  End  

Merci  !