Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
“Sciencedesdonnées(BigData)”
PierreGançarskiUniversité deStrasbourg
2Science des Données (Big Data) – 2017
• La capacité de stockage double tous les 13 mois alorsque le coût est divisé par deux (Loi de Kryder)– 1890 : la carte perforée, une mémoire à 80 trous– 1928 : 50 octets par centimètre de bande magnétique– 1956 : Premier disque dur (5Mo , 7000 €/Mo (env. 100 000 € actuels !))
Quelques chiffres
3Science des Données (Big Data) – 2017
• La capacité de stockage double tous les 13 mois alorsque le coût est divisé par deux (Loi de Kryder)– 1890 : la carte perforée, une mémoire à 80 trous– 1928 : 50 octets par centimètre de bande magnétique– 1956 : Premier disque dur 5Mo (≈ 100 000€/Mo)– 1979 : Seagate ST-506 : 5Mo (≈ 1000€/Mo)– 1982 : une disquette (1,44 Mo) de la taille d'une poche de chemise– 1984 : 80 minutes de musique sur les premiers CD-Rom (600 Mo)– 1994 : 700 Mo sur un seul disque Zip (10 minutes de vidéo)– 2000 : plus de support magnétique pour les cartes mémoire flash
• 1991 : 1 Goà 40 000€ ; 2015 : 512Goà 1 500€ ; 2017 : 512 Goà 300€
– 2011 : Seagate barracuda : 1 To (≈ 0,00012 €/Mo)– 2014 : Cloudà 1.000 milliards d'octets pour 7,2 euros (offre Google)
Quelques chiffres
4Science des Données (Big Data) – 2017
Quelques chiffres• Années 70 : 256 octets à 8 Ko• Années 80 : 8 Ko à 1 Mo• Années 90 : 1 Mo à 512 Mo• Années 2000 : 512 Mo à 8 Go• Années 2010 : 8 Go à ...
640K oughttobeenoughforanybody.
I’ve said some stupid things andsome wrong things,butnotthat.Nooneinvolved incomputerswould ever say that acertainamount ofmemoryis enough foralltime.
•���
5Science des Données (Big Data) – 2017
Quelques chiffres
•��
6Science des Données (Big Data) – 2017
Mais …• Réseaux sociaux
– Facebook génère 500 Tera-octets (To) par jour.
• Données scientifiques– « Large Hadron Collider » (LHC) : 5 Péta-octets de données scientifiques/ jour– European Sentinel Program (Télédétection): 2 To par jour …
• Internet :– env. 20 Zeta-octet par an (40 en 2020 ?)
• Données ouvertes :– Le site data.gouv.fr offre plus de 20 000 bases de données publiques
• Tera : 1012à Mille milliards Peta : 1015 à Milllion de milliards Zetta : 1021 à Mille milliards de milliardsYotabytes : 1024. Nombre d’atomes dans l’Univers : ≈1080
7Science des Données (Big Data) – 2017
Mais …
• Plus surprenant (ou pas …) :• Un Boeing 737 génère 240 To pour un vol intra US• Les utilisateurs Facebook « like » 5,7 milliards de fois/jour• Google stocke pour chaque utilisateur connecté : info. perso , IP,services utilisés (type, usage et appareil utilisé), requêtes de recherche,localisation … voir https://www.google.com/policies/privacy/#infocollect
• Les équipes de campagne (US) possèdent près de 500 élémentssur le chaque électeur : données bancaires, lignes de crédit,abonnements TV, contenu de ses posts sur les réseaux, amis facebook,port d’arme, origine ethnique …
• Plus de 98% de l’information existante a été créée ces cinqdernières années
• Comment faire face ?
8Science des Données (Big Data) – 2017
CaractéristiquesdesBigData
• Comment distribuer/parallélisation ? Utilisation de centre de calcul HPC ou le Cloud(e.g., MapReduce) ? Comment colocaliser données et traitements ?
BasesDonnées
Volume
9Science des Données (Big Data) – 2017
CaractéristiquesdesBigData
• Les données arrivent en flux quasi-continu. Elles peuvent changer de lieux destockages. Comment les « retrouver » et les traiter « assez rapidement » ??
BasesDonnées
Volume
D.déplaçables
Vélocité
10Science des Données (Big Data) – 2017
CaractéristiquesdesBigData
• Les données proviennent de sources diverses : capteurs, données scientifiques,images/videos, réseaux sociaux … Comment croiser des données venant de baseséclatées, de fouilles sur le web, dans des formats différents ? Comment traiter desdonnées ayant chacune ses spécificités et ses traitement « privilégiés »
BasesDonnées
Volume
D.déplaçables
Vélocité
D.hétérogènes
Variété
11Science des Données (Big Data) – 2017
CaractéristiquesdesBigData
• Les données ne peuvent plus être systématiquement prétraitées ou vérifiéesQuelle confiance leur accorder ? Comment nettoyer les données ? Quid desopinions/annotations humaines ? Piratage de bases ?
BasesDonnées
Volume
D.déplaçables
Vélocité
D.hétérogènes
Variété
? ?
D.imparfaites
Véracité
12Science des Données (Big Data) – 2017
CaractéristiquesdesBigData
• La nature des données change au fil du temps. Comment adapter les bases dedonnées et les algorithmes « à la volée » ?
BasesDonnées
Volume
D.déplaçables
Vélocité
D.hétérogènes
Variété
? ?
D.imparfaites
Véracité
Typesévolutifs
Variabilité
13Science des Données (Big Data) – 2017
CaractéristiquesdesBigData
• Les données arrivent en flux et ne peuvent plus être stockées. Comment les traiter« assez rapidement » et les résumer pour un usage futur éventuel ?
BasesDonnées
Volume
D.déplaçables
Vélocité
D.hétérogènes
Variété
? ?
D.imparfaites
Véracité
Typesévolutifs
Variabilité Volatilité
Flux
14Science des Données (Big Data) – 2017
CaractéristiquesdesBigData
• Comment garantir le transfert (sécurité, confidentialité, …) des données ?
BasesDonnées
Volume
D.déplaçables
Vélocité
D.hétérogènes
Variété
? ?
D.imparfaites
Véracité
Typesévolutifs
Variabilité Volatilité
Flux
X
D.attaquables
Vulnérabilité
15Science des Données (Big Data) – 2017
CaractéristiquesdesBigData
• Comment visualiser et interagir avec de telles masses de données ? Commentprendre en charge la dimension temporelle ?
BasesDonnées
Volume
D.déplaçables
Vélocité
D.hétérogènes
Variété
? ?
D.imparfaites
Véracité
Appropriation des données et des résultats
Visualisation
Typesévolutifs
Variabilité Volatilité
Flux
X
D.attaquables
Vulnérabilité
16Science des Données (Big Data) – 2017
CaractéristiquesdesBigData
• Comment extraire des informations, de connaissances à partir de telles données ?Pérennisation des données mais aussi des « expériences » ?
BasesDonnées
Volume
D.déplaçables
Vélocité
D.hétérogènes
Variété
? ?
D.imparfaites
Véracité
Exploitation des donnéesValorisation
Appropriation des données et des résultats
Visualisation
PierreGançarski– UniversitédeStrasbourg
Typesévolutifs
Variabilité Volatilité
Flux
X
D.attaquables
Vulnérabilité
17Science des Données (Big Data) – 2017
CaractéristiquesdesBigData
• Comment faire du commerce avec des données brutes ou valorisées ?
BasesDonnées
Volume
D.déplaçables
Vélocité
D.hétérogènes
Variété
? ?
D.imparfaites
Véracité
Exploitation des donnéesValorisation
Appropriation des données et des résultats
Visualisation
PierreGançarski– UniversitédeStrasbourg
Typesévolutifs
Variabilité Volatilité
Flux
«C
omm
erce» des données
Valeur
X
D.attaquables
Vulnérabilité
18Science des Données (Big Data) – 2017
BigData?
• Deux acceptations (frontières assez floues …)– Utilisation plus exhaustive, plus rapide, avec unevalorisation transversale plus systématique deplus gros volumes de données en améliorant etautomatisant les outils existants
– Utilisation de nouveaux outils d’analyse de grosvolumes de données pour obtenir desinformations autrefois impossibles à obtenir.
19Science des Données (Big Data) – 2017
Pourquoifaire?• Détecter et optimiser :
– Croisement en temps réel d’un grand nombre dedonnées diversifiées : meilleure connaissance desactivités, de l’environnement, l’écosystèmed’affaires
– Aide au pilotage et à la prise de décision :• Trouver la meilleure localisation pour des des éoliennesà partir de données météorologiques et géospatiales,des phases de la lune et de la marée, d’images satellites…
• Prévision de sinistralité, de détection de la fraude• Mémoire territoriale
20Science des Données (Big Data) – 2017
Pourquoifaire?
• Images/textes/Web et réseaux sociaux
« Cespavillonssontenconstructionenplus.C'estdudélired'autoriserunlotissementàcetendroit»
...
Non_Mineral
Shadow
...
GrayBlack_MineralOrange_Mineral
Mineral
Object
Forest Tree
WaterVegetation
is_a is_a
WaterwayOrange_Building Orange_Bare_Soil .........
...Orange_House
White_Mineral
21Science des Données (Big Data) – 2017
Pourquoifaire?• Détecter et optimiser• Tracer et cibler :
– Analyser la situation et le contexte de milliers depersonnes en temps réel
– Meilleure compréhension des réactions du marchépour la proposition de messages et d’offrespersonnalisés.
• Des systèmes GPS et télématiques permettant de collecteret monétiser une multitude de données sur les habitudes deconduite d’une population afin de proposer des primesd’assurance adaptées
• Usage-based-insurance : Connected xx (car, health, home)
22Science des Données (Big Data) – 2017
Pourquoifaire?• Détecter et optimiser• Tracer et cibler• Prévoir et prédire :
– Analyse prédictive : projections pour identifier desnouvelles sources d’opportunités ou de menaces
• Flu Trends est un modèle de Google qui permet d’estimer lapropagation des cas réels de grippe en fonction desrecherches sur Internet : évaluation fournie par Google entemps réel sur la propagation de la maladie estétonnamment précise, bien que souvent sur-estimée (cf.article publié dans Nature) et souvent plus rapide que lesréseaux de veille sanitaire
• Risques climatiques
23Science des Données (Big Data) – 2017
Unenouvelledémarchescientifique?
SH.Lazare/F
.Barthélem
y(Axiod
is):Introd
uctio
nBigdata
• Sérendipité du Big Data : capacité à montrer des choses que l’on nes’attendait pas à trouver à trouver, par des hasards heureux, ce que l’onne cherche pas.
24Science des Données (Big Data) – 2017
Extractiondeconnaissances
• Un processus global
Données
ExtractionModèle
Connaissances
NettoyageSélectionIntégration
Validation
Acquisition
25Science des Données (Big Data) – 2017
Valorisationparextractiondeconnaissances
• Apprentissage / Fouille de données
Données
ExtractionModèle
Connaissances
NettoyageSélectionIntégration
Validation
Acquisition
26Science des Données (Big Data) – 2017
Apprentissage
• Apprentissage : capacité d’un ordinateur àapprendre à répondre à un problème sansavoir été explicitement programmé pour lerésoudre– Apprentissage supervisé– Apprentissage non supervisée– Apprentissage par renforcement– …
27Science des Données (Big Data) – 2017
Apprentissage
• Fouille de données (Data Mining)– Principe inductif : Généralisation d’observations
Consiste à tirer desconclusions à partir de faits : Classe d’un nouvel objet en fonctiondes historiques ; prédiction de valeurs ...
Preditedclass
Desiredclass
Supervisor
Error
Learned model
Model seeking
Trainingdata
28Science des Données (Big Data) – 2017
ApprentissagesuperviséDonnéesd’apprentissage
Apprentissage
Modèle
Algorithmed’apprentissage
Appliquer le modèle
yesyes
no
yesno
Données« nonvues »
29Science des Données (Big Data) – 2017
Apprentissagesupervisé
• Exemple : Arbre de décisions– Création de l’arbre
Attrib1
Attrib2NO
Yes No
Small, Large
< 80K
Attrib3
YESNO
NO
Medium
> 80K 100K
30Science des Données (Big Data) – 2017
Arbre dedécisions
• Exemple : Arbre de décisions– Classement d’une nouvelle donnée (non vue)
Attr1 = No;Attrib2 = Small,Attrib3 = 130KClasse = ??
30
Attrib1
Attrib2NO
Yes No
Small, Large
< 80K
Attrib3
YESNO
NO
Medium
> 80K 100K
31Science des Données (Big Data) – 2017
Arbre dedécisions
• Exemple : Arbre de décisions– Classement d’une nouvelle donnée (non vue)
Attr1 = No;Attrib2 = Small,Attrib3 = 130KClasse = ??
31
Attrib1
Attrib2NO
Yes No
Small, Large
< 80K
Attrib3
YESNO
NO
Medium
> 80K 100K
32Science des Données (Big Data) – 2017
Arbre dedécisions
• Exemple : Arbre de décisions– Classement d’une nouvelle donnée (non vue)
Attr1 = No;Attrib2 = Small,Attrib3 = 130KClasse = ??
32
Attrib1
Attrib2NO
Yes No
Small, Large
< 80K
Attrib3
YESNO
NO
Medium
> 80K 100K
33Science des Données (Big Data) – 2017
Arbre dedécisions
• Exemple : Arbre de décisions– Classement d’une nouvelle donnée (non vue)
Attr1 = No;Attrib2 = Small,Attrib3 = 130KClasse = ??
33
Attrib1
Attrib2NO
Yes No
Small, Large
< 80K
Attrib3
YESNO
NO
Medium
> 80K 100K
34Science des Données (Big Data) – 2017
Arbre dedécisions
• Exemple : Arbre de décisions– Classement d’une nouvelle donnée (non vue)
Attr1 = No;Attrib2 = Small,Attrib3 = 130KClasse = no
34
Attrib1
Attrib2NO
Yes No
Small, Large
< 80K
Attrib3
YESNO
NO
Medium
> 80K 100K
35Science des Données (Big Data) – 2017
Apprentissageprofond
• Exemple : Deep learning– Réseaux convolutionnels (Yann Le Cun) où chaque coucheeffectue une opération de convolution de l’image avec unfiltre donné
Homme
Lunette
Sourire
…
36Science des Données (Big Data) – 2017
Commentfaire?
• Exemple : Deep learning– Réseaux convolutionnels (Yann Le Cun) où chaque coucheeffectue une opération de convolution de l’image avec unfiltre donné
– En enchainant des opérations de ce genre le réseau faitressortir des caractéristiques de plus en plus abstraites,génériques (et donc « de haut niveau ») de l’image.
– Les poids du réseau sont déterminants : suivant ces poids,ce filtre peut agir en faisant ressortir certainescaractéristiques locales de l’image (bords, arêtes, zonesuniformesà Apprentissage
37Science des Données (Big Data) – 2017
Commentfaire?
• Fouille de données (Data Mining)– Principe inductif : Généralisation d’observations– Recherche de régularités, de relations ou destructures cachéesPanier de la ménagère Clustering
x
x
xx
xx
x
xoo
o o
o
oo
o
oo
Revenu
Dette
x
x:pbederemboursemento:pasdepbe
Emprunteurssûrs
Emprunteursàéviter
38Science des Données (Big Data) – 2017
Apprentissagenonsupervisé
• Clustering par partitionnement :– trouver l’organisation en classes homogènes tellesque deux objets d’une même classe se« ressemblent » plus que deux objets de classesdifférentes
– trouver l’organisation en classes homogènes tellesque les classes soient les plus « différentes »possibles
Exemple :
39Science des Données (Big Data) – 2017
Partitionnement
• Trouver l’organisation en classes homogènestelles que deux objets d’une même classe seressemblent plus que deux objets de classesdifférentes
40Science des Données (Big Data) – 2017
Partitionnement
• Trouver l’organisation en classes homogènestelles que deux objets d’une même classe seressemblent plus que deux objets de classesdifférentes
d1etd2demêmeclasse,d3d’uneclassedifférentealorsdist(d1,d2)<dist(d1,d3)
etdist(d1,d2)<dist(d2,d3)
41Science des Données (Big Data) – 2017
intuitivement on voudrait :
Partitionnement
• Trouver l’organisation en classes homogènestelles que les distances entre les classes soientmaximales :
42Science des Données (Big Data) – 2017
alors que ceci augmente la distance
Partitionnement
• Trouver l’organisation en classes homogènestelles que les distances entre les classes soientmaximales :
43Science des Données (Big Data) – 2017
• Clustering par partitionnement :– trouver l’organisation en classes homogènes telles que deux objets
d’unemême classe se « ressemblent » plus que deux objets de classesdifférentes
– trouver l’organisation en classes homogènes telles que les classessoient les plus « différentes » possibles
• Problème « mal posé » : il n’existe pas de solution engénéralà Il faut trouver d’autres critères– minimiser l’inertie intra-classe Iintra– maximiser l’inertie inter-classe Iinter
Partitionnement
44Science des Données (Big Data) – 2017
Partitionnement
• Comment construire ces classes– Soit nombre S(n,k) de partitions à k classes à partirde n données qu’il est possible de définir sur unensemble D :
– Tend vers pour n assez grand
– Pour n=8 et k=4à 1701– Pour n=12 et k=3à 86526– Pour k inconnu et n = 25 à 4 638 590 332 229 999 353 partitionspossibles (avec 1 000 0000 partitions/sec à 147 000 années)
!),(
kkknSn
»
å=
--=k
i
nki
i iCk
knS0
1)1(!1),(
45Science des Données (Big Data) – 2017
Kmeans:uneméthodeheuristique(MacQueen,1967)
• Objectif :– minimiser l’inertie intra-classe (maximiser l’inertieinterclasses)
avec :– K nombre clusters– PK(t)={C1,C2….CK} : la partition– LK(t)={g1,g2,….,gK} : ensemble des centres
è Idée : Optimisation itérative
Q(PK, LK ) = distance x,gk( )2
x∈Ck
∑k=1
K
∑
46Science des Données (Big Data) – 2017
Kmeans :uneméthodeheuristique(MacQueen,1967)
• Un processus itératif– choix aléatoire du nombre K de classes et de Knoyaux initiaux
– (ré-)affectation des objets aux noyaux– calcul des nouveaux noyaux– le processus s’arrête lorsque deux partitionssuccessives sont identiques (ou presque)
47Science des Données (Big Data) – 2017
• Exemple
Kmeans:uneméthodeheuristique(MacQueen,1967)
48Science des Données (Big Data) – 2017
• Exemple : K=4 : Choix de 4 graines
Kmeans :uneméthodeheuristique(MacQueen,1967)
49Science des Données (Big Data) – 2017
• Exemple : allocation au centre le plus proche
Kmeans :uneméthodeheuristique(MacQueen,1967)
50Science des Données (Big Data) – 2017
• Exemple : Recalcul des centres
Kmeans :uneméthodeheuristique(MacQueen,1967)
51Science des Données (Big Data) – 2017
• Exemple : Ré-allocation
Kmeans:uneméthodeheuristique(MacQueen,1967)
52Science des Données (Big Data) – 2017
• Exemple : Recalcul des centres
Kmeans :uneméthodeheuristique(MacQueen,1967)
53Science des Données (Big Data) – 2017
• Exemple : Ré-allocation
Kmeans :uneméthodeheuristique(MacQueen,1967)
54Science des Données (Big Data) – 2017
• Exemple : K=4 (moving)
Kmeans :uneméthodeheuristique(MacQueen,1967)
55Science des Données (Big Data) – 2017
• Exemple : Ré-allocation
Kmeans :uneméthodeheuristique(MacQueen,1967)
56Science des Données (Big Data) – 2017
• Exemple : K=4 (moving)
Kmeans :uneméthodeheuristique(MacQueen,1967)
57Science des Données (Big Data) – 2017
• Exemple : Plus de ré-allocationè Fin
Kmeans :uneméthodeheuristique(MacQueen,1967)
58Science des Données (Big Data) – 2017
Kmeans(propriétés)
• Kmeans est donc un algorithme qui « cherche »à minimiser l’inertie inter-classe
• Néanmoins, l’algorithme ne fournit pasnécessairement le meilleur résultat maissimplement une suite de couples dont la valeurdécroîtà optimisation locale
59Science des Données (Big Data) – 2017
Nouvellesopportunités?• Big Data
– 32% de croissance annuelle entre 2011 et 2016– 23,8 milliards de dollars en 2016 (IDC mars 2013).– 8% du PIB européen en 2020 (AFDEL février 2013)
• Data Scientist (Ingénieur des données ?)– Un nouveau métier entre les moyens informatiques etle producteur/consommateur de données
– 5 millions d'emplois dans le monde d'ici à 2017 (env.27000 en France) :
• Selon IDC, aux États-Unis, il y aura 181 000 profils compétents en2018 tandis que les entreprises auront 5 fois plus de postes àpourvoir dans le domaine du Big Data.
60Science des Données (Big Data) – 2017
(Première)conclusion• Les données sont au cœur de la transformation de lasociété … mais le Big Data encourage la pratique deencourage la pratique de l’apophénie
à voir des corrélations là où il n’y en a probablementpas
61Science des Données (Big Data) – 2017
(Première)conclusion• Voir des corrélations là où il n’y en a probablementpas :– En primaire, le QI est en corrélé au signe astrologique (cette
corrélation s’affaiblit avec l'âge et disparaît à l'âge adulte)– Le nombre de prix Nobel remportés par un pays est corrélé avec la
consommation de chocolat par habitant du pays.– Les Américains et Anglais mangent gras et boivent beaucoup d'alcool :
taux élevé de maladies cardiovasculaires aux USA et Royaume-Uni /Les Français et les Italiens mangent gras et boivent beaucoup d'alcool :taux de maladies cardio-vasculaires plus faible à Vous avez plus dechances d’avoir une crise cardiaque si vous parlez anglais!
• Ou simplement mal les interpréter :– Plus on envoie de pompiers sur un feu, plus celui-ci fait de dégâts.
62Science des Données (Big Data) – 2017
(Première)conclusion• Les données sont au cœur de la transformation de lasociété mais soulève des questionnements« éthiques » forts :– Vie privée :
• Environ 44% des employeurs cherchent de l'information sur leurspotentiels futurs employé.e.s sur les réseaux sociaux
• Echanges de fichiers
63Science des Données (Big Data) – 2017
(Première)conclusion• Les données sont au cœur de la transformation de lasociété mais soulève des questionnements« éthiques » forts :– Vie privée :
• Environ 44% des employeurs cherchent de l'information sur leurspotentiels futurs employé.e.s sur les réseaux sociaux
• 5 conseils :– Tout payer en liquide (interdit en France à partir de 5000 €)– Ne jamais se connecter sur internet– Ne pas utiliser de téléphone mobile– Ne pas utiliser de cartes de fidélité– Ne jamais être maladeà Ne jamais sortir de chez vous
64Science des Données (Big Data) – 2017
ViePrivée
• Anonymisation et sécurité :– Comment anonymiser sans perdre la richesse
des données ?– La formule Navigo Découverte de la RATP (coûtant
approximativement 5 euros) permet depuis quelquesannées au possesseur de la carte de ne pas être inscrit dansun fichier client, contrairement à la formule classique. Leforfait est chargé sur une carte à puce et accompagné d’unecarte nominative cartonnée où le voyageur indique lui-même son nom, son prénom et colle sa photo d’identité.
– Le droit du contrat d’assurance : L’utilisation des donnéesest notamment soumise au respect des libertés publiques(CNIL), du droit pénal (les discriminations), du droitcommunautaire et des règles européennes etinternationales (ONU).
– L’anonymat est-il devenu algorithmiquement
65Science des Données (Big Data) – 2017
ViePrivée
• Anonymisation et sécurité :– Comment anonymiser sans perdre la richesse desdonnées ?
– L’anonymat est-il devenu algorithmiquementimpossible ?
• Recoupement de base de données– Comment garantir la robustesse de leur transfertet de leur utilisation ?• En Novembre 2013, le Commissariat général à la stratégie et à la
prospective rappelle que la plupart des fournisseurs destechnologies du cloud se ménagent des backdoors qui leurpermettent l’accès aux données stockées sur leurs serveurs
66Science des Données (Big Data) – 2017
(Première)conclusion• Les données sont au cœur de la transformation de la société
mais soulève des questionnement « éthiques » forts :
– Vie privée– Droit à l’oubli :
• Qui peut-on protéger ?• Contre quoi peut-il protéger ?
– Collecte et diffusion d’info. à caractère personnel– Conservation et de l’exploitation de ces données
• Contre qui peut-il protéger ?– Devoir de mémoire– Liberté d’expression
67Science des Données (Big Data) – 2017
(Première)conclusion• Les données sont au cœur de la transformation de la société
mais soulève des questionnement « éthiques » forts :
– Vie privée– Droit à l’oubli– Usage
• Les analyses de l’ADN à grande échelle aideront-elles àguérir les maladies ? Ou bien cela aboutira-t-il à unenouvelle vague d’inégalités médicales
• L’analyse des données sert-elle réellement la« connaissance humaine » ou va-t-elle rétrécir lapalette des options qui s’offrent à la recherche etaltérer ce que “recherche” veut dire ?
68Science des Données (Big Data) – 2017
(Deuxième)conclusion• Les données sont au cœur de la transformation de la société
mais soulève des questionnement « éthiques » forts :
– Vie privée / droit à l’oubli / usage– L’accès limité aux données crée-t-il de nouvellesfractures numériques ?
– Objectivité des analyses ?– Big brother ?– …
Mercidevotreattention
70Science des Données (Big Data) – 2017
Bibliographie• Faire entrer la France dans la troisième révolution industrielle
: le pari de l’innovation - Le big data– Observatoire de l’Innovation de l’Institut de l’entreprise / Mai 2014
• Big Data : Défis et opportunités pour les assureurs– François Ewald ; Patrick Thourot– ENASS paper 5 – Banque & Stratégie N°315 / Juin 2013
• “Analyse des big data. Quels usages, quels défis ?”– Commissariat général à la stratégie et à la prospective / Novembre
2013
• Les 5 grands défis de la Big Data– Emmanuelle Garnaud-Gamache– Revue digitale n°9 : La Data, et moi, et moi... émois ? Avril-Juin 2014