Pierre Gançarski Universitéde Strasbourg...Science des Données(Big Data) –2017 4 Quelqueschiffres • Années70:256octetsà8Ko • Années80:8Koà1Mo • Années90:1Moà512Mo

“Sciencedesdonnées(BigData)”

PierreGançarskiUniversité deStrasbourg

2Science des Données (Big Data) – 2017

• La capacité de stockage double tous les 13 mois alorsque le coût est divisé par deux (Loi de Kryder)– 1890 : la carte perforée, une mémoire à 80 trous– 1928 : 50 octets par centimètre de bande magnétique– 1956 : Premier disque dur (5Mo , 7000 €/Mo (env. 100 000 € actuels !))

Quelques chiffres


• La capacité de stockage double tous les 13 mois alorsque le coût est divisé par deux (Loi de Kryder)– 1890 : la carte perforée, une mémoire à 80 trous– 1928 : 50 octets par centimètre de bande magnétique– 1956 : Premier disque dur 5Mo (≈ 100 000€/Mo)– 1979 : Seagate ST-506 : 5Mo (≈ 1000€/Mo)– 1982 : une disquette (1,44 Mo) de la taille d'une poche de chemise– 1984 : 80 minutes de musique sur les premiers CD-Rom (600 Mo)– 1994 : 700 Mo sur un seul disque Zip (10 minutes de vidéo)– 2000 : plus de support magnétique pour les cartes mémoire flash

• 1991 : 1 Goà 40 000€ ; 2015 : 512Goà 1 500€ ; 2017 : 512 Goà 300€

– 2011 : Seagate barracuda : 1 To (≈ 0,00012 €/Mo)– 2014 : Cloudà 1.000 milliards d'octets pour 7,2 euros (offre Google)

Quelques chiffres


Quelques chiffres• Années 70 : 256 octets à 8 Ko• Années 80 : 8 Ko à 1 Mo• Années 90 : 1 Mo à 512 Mo• Années 2000 : 512 Mo à 8 Go• Années 2010 : 8 Go à ...

640K oughttobeenoughforanybody.

I’ve said some stupid things andsome wrong things,butnotthat.Nooneinvolved incomputerswould ever say that acertainamount ofmemoryis enough foralltime.

•��


Quelques chiffres

•��


Mais …• Réseaux sociaux

– Facebook génère 500 Tera-octets (To) par jour.

• Données scientifiques– « Large Hadron Collider » (LHC) : 5 Péta-octets de données scientifiques/ jour– European Sentinel Program (Télédétection): 2 To par jour …

• Internet :– env. 20 Zeta-octet par an (40 en 2020 ?)

• Données ouvertes :– Le site data.gouv.fr offre plus de 20 000 bases de données publiques

• Tera : 1012à Mille milliards Peta : 1015 à Milllion de milliards Zetta : 1021 à Mille milliards de milliardsYotabytes : 1024. Nombre d’atomes dans l’Univers : ≈1080


Mais …

• Plus surprenant (ou pas …) :• Un Boeing 737 génère 240 To pour un vol intra US• Les utilisateurs Facebook « like » 5,7 milliards de fois/jour• Google stocke pour chaque utilisateur connecté : info. perso , IP,services utilisés (type, usage et appareil utilisé), requêtes de recherche,localisation … voir https://www.google.com/policies/privacy/#infocollect

• Les équipes de campagne (US) possèdent près de 500 élémentssur le chaque électeur : données bancaires, lignes de crédit,abonnements TV, contenu de ses posts sur les réseaux, amis facebook,port d’arme, origine ethnique …

• Plus de 98% de l’information existante a été créée ces cinqdernières années

• Comment faire face ?


CaractéristiquesdesBigData

• Comment distribuer/parallélisation ? Utilisation de centre de calcul HPC ou le Cloud(e.g., MapReduce) ? Comment colocaliser données et traitements ?

BasesDonnées

Volume



• Les données arrivent en flux quasi-continu. Elles peuvent changer de lieux destockages. Comment les « retrouver » et les traiter « assez rapidement » ??

BasesDonnées

Volume

D.déplaçables

Vélocité



• Les données proviennent de sources diverses : capteurs, données scientifiques,images/videos, réseaux sociaux … Comment croiser des données venant de baseséclatées, de fouilles sur le web, dans des formats différents ? Comment traiter desdonnées ayant chacune ses spécificités et ses traitement « privilégiés »

BasesDonnées

Volume

D.déplaçables

Vélocité

D.hétérogènes

Variété



• Les données ne peuvent plus être systématiquement prétraitées ou vérifiéesQuelle confiance leur accorder ? Comment nettoyer les données ? Quid desopinions/annotations humaines ? Piratage de bases ?

BasesDonnées

Volume

D.déplaçables

Vélocité

D.hétérogènes

Variété

? ?

D.imparfaites

Véracité



• La nature des données change au fil du temps. Comment adapter les bases dedonnées et les algorithmes « à la volée » ?

BasesDonnées

Volume

D.déplaçables

Vélocité

D.hétérogènes

Variété

? ?

D.imparfaites

Véracité

Typesévolutifs

Variabilité



• Les données arrivent en flux et ne peuvent plus être stockées. Comment les traiter« assez rapidement » et les résumer pour un usage futur éventuel ?

BasesDonnées

Volume

D.déplaçables

Vélocité

D.hétérogènes

Variété

? ?

D.imparfaites

Véracité

Typesévolutifs

Variabilité Volatilité

Flux



• Comment garantir le transfert (sécurité, confidentialité, …) des données ?

BasesDonnées

Volume

D.déplaçables

Vélocité

D.hétérogènes

Variété

? ?

D.imparfaites

Véracité

Typesévolutifs


Flux

X

D.attaquables

Vulnérabilité



• Comment visualiser et interagir avec de telles masses de données ? Commentprendre en charge la dimension temporelle ?

BasesDonnées

Volume

D.déplaçables

Vélocité

D.hétérogènes

Variété

? ?

D.imparfaites

Véracité

Appropriation des données et des résultats

Visualisation

Typesévolutifs


Flux

X

D.attaquables

Vulnérabilité



• Comment extraire des informations, de connaissances à partir de telles données ?Pérennisation des données mais aussi des « expériences » ?

BasesDonnées

Volume

D.déplaçables

Vélocité

D.hétérogènes

Variété

? ?

D.imparfaites

Véracité

Exploitation des donnéesValorisation


Visualisation

PierreGançarski– UniversitédeStrasbourg

Typesévolutifs


Flux

X

D.attaquables

Vulnérabilité



• Comment faire du commerce avec des données brutes ou valorisées ?

BasesDonnées

Volume

D.déplaçables

Vélocité

D.hétérogènes

Variété

? ?

D.imparfaites

Véracité

Exploitation des donnéesValorisation


Visualisation

PierreGançarski– UniversitédeStrasbourg

Typesévolutifs


Flux

«C

omm

erce» des données

Valeur

X

D.attaquables

Vulnérabilité


BigData?

• Deux acceptations (frontières assez floues …)– Utilisation plus exhaustive, plus rapide, avec unevalorisation transversale plus systématique deplus gros volumes de données en améliorant etautomatisant les outils existants

– Utilisation de nouveaux outils d’analyse de grosvolumes de données pour obtenir desinformations autrefois impossibles à obtenir.


Pourquoifaire?• Détecter et optimiser :

– Croisement en temps réel d’un grand nombre dedonnées diversifiées : meilleure connaissance desactivités, de l’environnement, l’écosystèmed’affaires

– Aide au pilotage et à la prise de décision :• Trouver la meilleure localisation pour des des éoliennesà partir de données météorologiques et géospatiales,des phases de la lune et de la marée, d’images satellites…

• Prévision de sinistralité, de détection de la fraude• Mémoire territoriale


Pourquoifaire?

• Images/textes/Web et réseaux sociaux

« Cespavillonssontenconstructionenplus.C'estdudélired'autoriserunlotissementàcetendroit»

...

Non_Mineral

Shadow

...

GrayBlack_MineralOrange_Mineral

Mineral

Object

Forest Tree

WaterVegetation

is_a is_a

WaterwayOrange_Building Orange_Bare_Soil .........

...Orange_House

White_Mineral


Pourquoifaire?• Détecter et optimiser• Tracer et cibler :

– Analyser la situation et le contexte de milliers depersonnes en temps réel

– Meilleure compréhension des réactions du marchépour la proposition de messages et d’offrespersonnalisés.

• Des systèmes GPS et télématiques permettant de collecteret monétiser une multitude de données sur les habitudes deconduite d’une population afin de proposer des primesd’assurance adaptées

• Usage-based-insurance : Connected xx (car, health, home)


Pourquoifaire?• Détecter et optimiser• Tracer et cibler• Prévoir et prédire :

– Analyse prédictive : projections pour identifier desnouvelles sources d’opportunités ou de menaces

• Flu Trends est un modèle de Google qui permet d’estimer lapropagation des cas réels de grippe en fonction desrecherches sur Internet : évaluation fournie par Google entemps réel sur la propagation de la maladie estétonnamment précise, bien que souvent sur-estimée (cf.article publié dans Nature) et souvent plus rapide que lesréseaux de veille sanitaire

• Risques climatiques


Unenouvelledémarchescientifique?

SH.Lazare/F

.Barthélem

y(Axiod

is):Introd

uctio

nBigdata

• Sérendipité du Big Data : capacité à montrer des choses que l’on nes’attendait pas à trouver à trouver, par des hasards heureux, ce que l’onne cherche pas.


Extractiondeconnaissances

• Un processus global

Données

ExtractionModèle

Connaissances

NettoyageSélectionIntégration

Validation

Acquisition


Valorisationparextractiondeconnaissances

• Apprentissage / Fouille de données

Données

ExtractionModèle

Connaissances

NettoyageSélectionIntégration

Validation

Acquisition


Apprentissage

• Apprentissage : capacité d’un ordinateur àapprendre à répondre à un problème sansavoir été explicitement programmé pour lerésoudre– Apprentissage supervisé– Apprentissage non supervisée– Apprentissage par renforcement– …


Apprentissage

• Fouille de données (Data Mining)– Principe inductif : Généralisation d’observations

Consiste à tirer desconclusions à partir de faits : Classe d’un nouvel objet en fonctiondes historiques ; prédiction de valeurs ...

Preditedclass

Desiredclass

Supervisor

Error

Learned model

Model seeking

Trainingdata


ApprentissagesuperviséDonnéesd’apprentissage

Apprentissage

Modèle

Algorithmed’apprentissage

Appliquer le modèle

yesyes

no

yesno

Données« nonvues »


Apprentissagesupervisé

• Exemple : Arbre de décisions– Création de l’arbre

Attrib1

Attrib2NO

Yes No

Small, Large

< 80K

Attrib3

YESNO

NO

Medium

> 80K 100K


Arbre dedécisions

• Exemple : Arbre de décisions– Classement d’une nouvelle donnée (non vue)

Attr1 = No;Attrib2 = Small,Attrib3 = 130KClasse = ??

30

Attrib1

Attrib2NO

Yes No

Small, Large

< 80K

Attrib3

YESNO

NO

Medium

> 80K 100K


Arbre dedécisions



31

Attrib1

Attrib2NO

Yes No

Small, Large

< 80K

Attrib3

YESNO

NO

Medium

> 80K 100K


Arbre dedécisions



32

Attrib1

Attrib2NO

Yes No

Small, Large

< 80K

Attrib3

YESNO

NO

Medium

> 80K 100K


Arbre dedécisions



33

Attrib1

Attrib2NO

Yes No

Small, Large

< 80K

Attrib3

YESNO

NO

Medium

> 80K 100K


Arbre dedécisions


Attr1 = No;Attrib2 = Small,Attrib3 = 130KClasse = no

34

Attrib1

Attrib2NO

Yes No

Small, Large

< 80K

Attrib3

YESNO

NO

Medium

> 80K 100K


Apprentissageprofond

• Exemple : Deep learning– Réseaux convolutionnels (Yann Le Cun) où chaque coucheeffectue une opération de convolution de l’image avec unfiltre donné

Homme

Lunette

Sourire

…


Commentfaire?

• Exemple : Deep learning– Réseaux convolutionnels (Yann Le Cun) où chaque coucheeffectue une opération de convolution de l’image avec unfiltre donné

– En enchainant des opérations de ce genre le réseau faitressortir des caractéristiques de plus en plus abstraites,génériques (et donc « de haut niveau ») de l’image.

– Les poids du réseau sont déterminants : suivant ces poids,ce filtre peut agir en faisant ressortir certainescaractéristiques locales de l’image (bords, arêtes, zonesuniformesà Apprentissage


Commentfaire?

• Fouille de données (Data Mining)– Principe inductif : Généralisation d’observations– Recherche de régularités, de relations ou destructures cachéesPanier de la ménagère Clustering

x

x

xx

xx

x

xoo

o o

o

oo

o

oo

Revenu

Dette

x

x:pbederemboursemento:pasdepbe

Emprunteurssûrs

Emprunteursàéviter


Apprentissagenonsupervisé

• Clustering par partitionnement :– trouver l’organisation en classes homogènes tellesque deux objets d’une même classe se« ressemblent » plus que deux objets de classesdifférentes

– trouver l’organisation en classes homogènes tellesque les classes soient les plus « différentes »possibles

Exemple :


Partitionnement

• Trouver l’organisation en classes homogènestelles que deux objets d’une même classe seressemblent plus que deux objets de classesdifférentes


Partitionnement

• Trouver l’organisation en classes homogènestelles que deux objets d’une même classe seressemblent plus que deux objets de classesdifférentes

d1etd2demêmeclasse,d3d’uneclassedifférentealorsdist(d1,d2)<dist(d1,d3)

etdist(d1,d2)<dist(d2,d3)


intuitivement on voudrait :

Partitionnement

• Trouver l’organisation en classes homogènestelles que les distances entre les classes soientmaximales :


alors que ceci augmente la distance

Partitionnement

• Trouver l’organisation en classes homogènestelles que les distances entre les classes soientmaximales :


• Clustering par partitionnement :– trouver l’organisation en classes homogènes telles que deux objets

d’unemême classe se « ressemblent » plus que deux objets de classesdifférentes

– trouver l’organisation en classes homogènes telles que les classessoient les plus « différentes » possibles

• Problème « mal posé » : il n’existe pas de solution engénéralà Il faut trouver d’autres critères– minimiser l’inertie intra-classe Iintra– maximiser l’inertie inter-classe Iinter

Partitionnement


Partitionnement

• Comment construire ces classes– Soit nombre S(n,k) de partitions à k classes à partirde n données qu’il est possible de définir sur unensemble D :

– Tend vers pour n assez grand

– Pour n=8 et k=4à 1701– Pour n=12 et k=3à 86526– Pour k inconnu et n = 25 à 4 638 590 332 229 999 353 partitionspossibles (avec 1 000 0000 partitions/sec à 147 000 années)

!),(

kkknSn

»

å=

--=k

i

nki

i iCk

knS0

1)1(!1),(


Kmeans:uneméthodeheuristique(MacQueen,1967)

• Objectif :– minimiser l’inertie intra-classe (maximiser l’inertieinterclasses)

avec :– K nombre clusters– PK(t)={C1,C2….CK} : la partition– LK(t)={g1,g2,….,gK} : ensemble des centres

è Idée : Optimisation itérative

Q(PK, LK ) = distance x,gk( )2

x∈Ck

∑k=1

K

∑


Kmeans :uneméthodeheuristique(MacQueen,1967)

• Un processus itératif– choix aléatoire du nombre K de classes et de Knoyaux initiaux

– (ré-)affectation des objets aux noyaux– calcul des nouveaux noyaux– le processus s’arrête lorsque deux partitionssuccessives sont identiques (ou presque)


• Exemple



• Exemple : K=4 : Choix de 4 graines



• Exemple : allocation au centre le plus proche



• Exemple : Recalcul des centres



• Exemple : Ré-allocation



• Exemple : Recalcul des centres



• Exemple : K=4 (moving)



• Exemple : Plus de ré-allocationè Fin



Kmeans(propriétés)

• Kmeans est donc un algorithme qui « cherche »à minimiser l’inertie inter-classe

• Néanmoins, l’algorithme ne fournit pasnécessairement le meilleur résultat maissimplement une suite de couples dont la valeurdécroîtà optimisation locale


Nouvellesopportunités?• Big Data

– 32% de croissance annuelle entre 2011 et 2016– 23,8 milliards de dollars en 2016 (IDC mars 2013).– 8% du PIB européen en 2020 (AFDEL février 2013)

• Data Scientist (Ingénieur des données ?)– Un nouveau métier entre les moyens informatiques etle producteur/consommateur de données

– 5 millions d'emplois dans le monde d'ici à 2017 (env.27000 en France) :

• Selon IDC, aux États-Unis, il y aura 181 000 profils compétents en2018 tandis que les entreprises auront 5 fois plus de postes àpourvoir dans le domaine du Big Data.


(Première)conclusion• Les données sont au cœur de la transformation de lasociété … mais le Big Data encourage la pratique deencourage la pratique de l’apophénie

à voir des corrélations là où il n’y en a probablementpas


(Première)conclusion• Voir des corrélations là où il n’y en a probablementpas :– En primaire, le QI est en corrélé au signe astrologique (cette

corrélation s’affaiblit avec l'âge et disparaît à l'âge adulte)– Le nombre de prix Nobel remportés par un pays est corrélé avec la

consommation de chocolat par habitant du pays.– Les Américains et Anglais mangent gras et boivent beaucoup d'alcool :

taux élevé de maladies cardiovasculaires aux USA et Royaume-Uni /Les Français et les Italiens mangent gras et boivent beaucoup d'alcool :taux de maladies cardio-vasculaires plus faible à Vous avez plus dechances d’avoir une crise cardiaque si vous parlez anglais!

• Ou simplement mal les interpréter :– Plus on envoie de pompiers sur un feu, plus celui-ci fait de dégâts.


(Première)conclusion• Les données sont au cœur de la transformation de lasociété mais soulève des questionnements« éthiques » forts :– Vie privée :

• Environ 44% des employeurs cherchent de l'information sur leurspotentiels futurs employé.e.s sur les réseaux sociaux

• Echanges de fichiers


(Première)conclusion• Les données sont au cœur de la transformation de lasociété mais soulève des questionnements« éthiques » forts :– Vie privée :

• Environ 44% des employeurs cherchent de l'information sur leurspotentiels futurs employé.e.s sur les réseaux sociaux

• 5 conseils :– Tout payer en liquide (interdit en France à partir de 5000 €)– Ne jamais se connecter sur internet– Ne pas utiliser de téléphone mobile– Ne pas utiliser de cartes de fidélité– Ne jamais être maladeà Ne jamais sortir de chez vous


ViePrivée

• Anonymisation et sécurité :– Comment anonymiser sans perdre la richesse

des données ?– La formule Navigo Découverte de la RATP (coûtant

approximativement 5 euros) permet depuis quelquesannées au possesseur de la carte de ne pas être inscrit dansun fichier client, contrairement à la formule classique. Leforfait est chargé sur une carte à puce et accompagné d’unecarte nominative cartonnée où le voyageur indique lui-même son nom, son prénom et colle sa photo d’identité.

– Le droit du contrat d’assurance : L’utilisation des donnéesest notamment soumise au respect des libertés publiques(CNIL), du droit pénal (les discriminations), du droitcommunautaire et des règles européennes etinternationales (ONU).

– L’anonymat est-il devenu algorithmiquement


ViePrivée

• Anonymisation et sécurité :– Comment anonymiser sans perdre la richesse desdonnées ?

– L’anonymat est-il devenu algorithmiquementimpossible ?

• Recoupement de base de données– Comment garantir la robustesse de leur transfertet de leur utilisation ?• En Novembre 2013, le Commissariat général à la stratégie et à la

prospective rappelle que la plupart des fournisseurs destechnologies du cloud se ménagent des backdoors qui leurpermettent l’accès aux données stockées sur leurs serveurs


(Première)conclusion• Les données sont au cœur de la transformation de la société

mais soulève des questionnement « éthiques » forts :

– Vie privée– Droit à l’oubli :

• Qui peut-on protéger ?• Contre quoi peut-il protéger ?

– Collecte et diffusion d’info. à caractère personnel– Conservation et de l’exploitation de ces données

• Contre qui peut-il protéger ?– Devoir de mémoire– Liberté d’expression


(Première)conclusion• Les données sont au cœur de la transformation de la société


– Vie privée– Droit à l’oubli– Usage

• Les analyses de l’ADN à grande échelle aideront-elles àguérir les maladies ? Ou bien cela aboutira-t-il à unenouvelle vague d’inégalités médicales

• L’analyse des données sert-elle réellement la« connaissance humaine » ou va-t-elle rétrécir lapalette des options qui s’offrent à la recherche etaltérer ce que “recherche” veut dire ?


(Deuxième)conclusion• Les données sont au cœur de la transformation de la société


– Vie privée / droit à l’oubli / usage– L’accès limité aux données crée-t-il de nouvellesfractures numériques ?

– Objectivité des analyses ?– Big brother ?– …

Mercidevotreattention


Bibliographie• Faire entrer la France dans la troisième révolution industrielle

: le pari de l’innovation - Le big data– Observatoire de l’Innovation de l’Institut de l’entreprise / Mai 2014

• Big Data : Défis et opportunités pour les assureurs– François Ewald ; Patrick Thourot– ENASS paper 5 – Banque & Stratégie N°315 / Juin 2013

• “Analyse des big data. Quels usages, quels défis ?”– Commissariat général à la stratégie et à la prospective / Novembre

2013

• Les 5 grands défis de la Big Data– Emmanuelle Garnaud-Gamache– Revue digitale n°9 : La Data, et moi, et moi... émois ? Avril-Juin 2014

Documents

Pierre Gançarski Universitéde Strasbourg...Science des Données(Big Data) –2017 4 Quelqueschiffres • Années70:256octetsà8Ko • Années80:8Koà1Mo • Années90:1Moà512Mo