70
“Science des données (Big Data)” Pierre Gançarski Université de Strasbourg

Pierre Gançarski Universitéde Strasbourg...Science des Données(Big Data) –2017 4 Quelqueschiffres • Années70:256octetsà8Ko • Années80:8Koà1Mo • Années90:1Moà512Mo

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

  • “Sciencedesdonnées(BigData)”

    PierreGançarskiUniversité deStrasbourg

  • 2Science des Données (Big Data) – 2017

    • La capacité de stockage double tous les 13 mois alorsque le coût est divisé par deux (Loi de Kryder)– 1890 : la carte perforée, une mémoire à 80 trous– 1928 : 50 octets par centimètre de bande magnétique– 1956 : Premier disque dur (5Mo , 7000 €/Mo (env. 100 000 € actuels !))

    Quelques chiffres

  • 3Science des Données (Big Data) – 2017

    • La capacité de stockage double tous les 13 mois alorsque le coût est divisé par deux (Loi de Kryder)– 1890 : la carte perforée, une mémoire à 80 trous– 1928 : 50 octets par centimètre de bande magnétique– 1956 : Premier disque dur 5Mo (≈ 100 000€/Mo)– 1979 : Seagate ST-506 : 5Mo (≈ 1000€/Mo)– 1982 : une disquette (1,44 Mo) de la taille d'une poche de chemise– 1984 : 80 minutes de musique sur les premiers CD-Rom (600 Mo)– 1994 : 700 Mo sur un seul disque Zip (10 minutes de vidéo)– 2000 : plus de support magnétique pour les cartes mémoire flash

    • 1991 : 1 Goà 40 000€ ; 2015 : 512Goà 1 500€ ; 2017 : 512 Goà 300€

    – 2011 : Seagate barracuda : 1 To (≈ 0,00012 €/Mo)– 2014 : Cloudà 1.000 milliards d'octets pour 7,2 euros (offre Google)

    Quelques chiffres

  • 4Science des Données (Big Data) – 2017

    Quelques chiffres• Années 70 : 256 octets à 8 Ko• Années 80 : 8 Ko à 1 Mo• Années 90 : 1 Mo à 512 Mo• Années 2000 : 512 Mo à 8 Go• Années 2010 : 8 Go à ...

    640K oughttobeenoughforanybody.

    I’ve said some stupid things andsome wrong things,butnotthat.Nooneinvolved incomputerswould ever say that acertainamount ofmemoryis enough foralltime.

    •���

  • 5Science des Données (Big Data) – 2017

    Quelques chiffres

    •��

  • 6Science des Données (Big Data) – 2017

    Mais …• Réseaux sociaux

    – Facebook génère 500 Tera-octets (To) par jour.

    • Données scientifiques– « Large Hadron Collider » (LHC) : 5 Péta-octets de données scientifiques/ jour– European Sentinel Program (Télédétection): 2 To par jour …

    • Internet :– env. 20 Zeta-octet par an (40 en 2020 ?)

    • Données ouvertes :– Le site data.gouv.fr offre plus de 20 000 bases de données publiques

    • Tera : 1012à Mille milliards Peta : 1015 à Milllion de milliards Zetta : 1021 à Mille milliards de milliardsYotabytes : 1024. Nombre d’atomes dans l’Univers : ≈1080

  • 7Science des Données (Big Data) – 2017

    Mais …

    • Plus surprenant (ou pas …) :• Un Boeing 737 génère 240 To pour un vol intra US• Les utilisateurs Facebook « like » 5,7 milliards de fois/jour• Google stocke pour chaque utilisateur connecté : info. perso , IP,services utilisés (type, usage et appareil utilisé), requêtes de recherche,localisation … voir https://www.google.com/policies/privacy/#infocollect

    • Les équipes de campagne (US) possèdent près de 500 élémentssur le chaque électeur : données bancaires, lignes de crédit,abonnements TV, contenu de ses posts sur les réseaux, amis facebook,port d’arme, origine ethnique …

    • Plus de 98% de l’information existante a été créée ces cinqdernières années

    • Comment faire face ?

  • 8Science des Données (Big Data) – 2017

    CaractéristiquesdesBigData

    • Comment distribuer/parallélisation ? Utilisation de centre de calcul HPC ou le Cloud(e.g., MapReduce) ? Comment colocaliser données et traitements ?

    BasesDonnées

    Volume

  • 9Science des Données (Big Data) – 2017

    CaractéristiquesdesBigData

    • Les données arrivent en flux quasi-continu. Elles peuvent changer de lieux destockages. Comment les « retrouver » et les traiter « assez rapidement » ??

    BasesDonnées

    Volume

    D.déplaçables

    Vélocité

  • 10Science des Données (Big Data) – 2017

    CaractéristiquesdesBigData

    • Les données proviennent de sources diverses : capteurs, données scientifiques,images/videos, réseaux sociaux … Comment croiser des données venant de baseséclatées, de fouilles sur le web, dans des formats différents ? Comment traiter desdonnées ayant chacune ses spécificités et ses traitement « privilégiés » 

    BasesDonnées

    Volume

    D.déplaçables

    Vélocité

    D.hétérogènes

    Variété

  • 11Science des Données (Big Data) – 2017

    CaractéristiquesdesBigData

    • Les données ne peuvent plus être systématiquement prétraitées ou vérifiéesQuelle confiance leur accorder ? Comment nettoyer les données ? Quid desopinions/annotations humaines ? Piratage de bases ?

    BasesDonnées

    Volume

    D.déplaçables

    Vélocité

    D.hétérogènes

    Variété

    ? ?

    D.imparfaites

    Véracité

  • 12Science des Données (Big Data) – 2017

    CaractéristiquesdesBigData

    • La nature des données change au fil du temps. Comment adapter les bases dedonnées et les algorithmes « à la volée » ?

    BasesDonnées

    Volume

    D.déplaçables

    Vélocité

    D.hétérogènes

    Variété

    ? ?

    D.imparfaites

    Véracité

    Typesévolutifs

    Variabilité

  • 13Science des Données (Big Data) – 2017

    CaractéristiquesdesBigData

    • Les données arrivent en flux et ne peuvent plus être stockées. Comment les traiter« assez rapidement » et les résumer pour un usage futur éventuel ?

    BasesDonnées

    Volume

    D.déplaçables

    Vélocité

    D.hétérogènes

    Variété

    ? ?

    D.imparfaites

    Véracité

    Typesévolutifs

    Variabilité Volatilité

    Flux

  • 14Science des Données (Big Data) – 2017

    CaractéristiquesdesBigData

    • Comment garantir le transfert (sécurité, confidentialité, …) des données ?

    BasesDonnées

    Volume

    D.déplaçables

    Vélocité

    D.hétérogènes

    Variété

    ? ?

    D.imparfaites

    Véracité

    Typesévolutifs

    Variabilité Volatilité

    Flux

    X

    D.attaquables

    Vulnérabilité

  • 15Science des Données (Big Data) – 2017

    CaractéristiquesdesBigData

    • Comment visualiser et interagir avec de telles masses de données ? Commentprendre en charge la dimension temporelle ?

    BasesDonnées

    Volume

    D.déplaçables

    Vélocité

    D.hétérogènes

    Variété

    ? ?

    D.imparfaites

    Véracité

    Appropriation des données et des résultats

    Visualisation

    Typesévolutifs

    Variabilité Volatilité

    Flux

    X

    D.attaquables

    Vulnérabilité

  • 16Science des Données (Big Data) – 2017

    CaractéristiquesdesBigData

    • Comment extraire des informations, de connaissances à partir de telles données ?Pérennisation des données mais aussi des « expériences » ?

    BasesDonnées

    Volume

    D.déplaçables

    Vélocité

    D.hétérogènes

    Variété

    ? ?

    D.imparfaites

    Véracité

    Exploitation des donnéesValorisation

    Appropriation des données et des résultats

    Visualisation

    PierreGançarski– UniversitédeStrasbourg

    Typesévolutifs

    Variabilité Volatilité

    Flux

    X

    D.attaquables

    Vulnérabilité

  • 17Science des Données (Big Data) – 2017

    CaractéristiquesdesBigData

    • Comment faire du commerce avec des données brutes ou valorisées ?

    BasesDonnées

    Volume

    D.déplaçables

    Vélocité

    D.hétérogènes

    Variété

    ? ?

    D.imparfaites

    Véracité

    Exploitation des donnéesValorisation

    Appropriation des données et des résultats

    Visualisation

    PierreGançarski– UniversitédeStrasbourg

    Typesévolutifs

    Variabilité Volatilité

    Flux

    «C

    omm

    erce» des données

    Valeur

    X

    D.attaquables

    Vulnérabilité

  • 18Science des Données (Big Data) – 2017

    BigData?

    • Deux acceptations (frontières assez floues …)– Utilisation plus exhaustive, plus rapide, avec unevalorisation transversale plus systématique deplus gros volumes de données en améliorant etautomatisant les outils existants

    – Utilisation de nouveaux outils d’analyse de grosvolumes de données pour obtenir desinformations autrefois impossibles à obtenir.

  • 19Science des Données (Big Data) – 2017

    Pourquoifaire?• Détecter et optimiser :

    – Croisement en temps réel d’un grand nombre dedonnées diversifiées : meilleure connaissance desactivités, de l’environnement, l’écosystèmed’affaires

    – Aide au pilotage et à la prise de décision :• Trouver la meilleure localisation pour des des éoliennesà partir de données météorologiques et géospatiales,des phases de la lune et de la marée, d’images satellites…

    • Prévision de sinistralité, de détection de la fraude• Mémoire territoriale

  • 20Science des Données (Big Data) – 2017

    Pourquoifaire?

    • Images/textes/Web et réseaux sociaux

    « Cespavillonssontenconstructionenplus.C'estdudélired'autoriserunlotissementàcetendroit»

    ...

    Non_Mineral

    Shadow

    ...

    GrayBlack_MineralOrange_Mineral

    Mineral

    Object

    Forest Tree

    WaterVegetation

    is_a is_a

    WaterwayOrange_Building Orange_Bare_Soil .........

    ...Orange_House

    White_Mineral

  • 21Science des Données (Big Data) – 2017

    Pourquoifaire?• Détecter et optimiser• Tracer et cibler :

    – Analyser la situation et le contexte de milliers depersonnes en temps réel

    – Meilleure compréhension des réactions du marchépour la proposition de messages et d’offrespersonnalisés.

    • Des systèmes GPS et télématiques permettant de collecteret monétiser une multitude de données sur les habitudes deconduite d’une population afin de proposer des primesd’assurance adaptées

    • Usage-based-insurance : Connected xx (car, health, home)

  • 22Science des Données (Big Data) – 2017

    Pourquoifaire?• Détecter et optimiser• Tracer et cibler• Prévoir et prédire :

    – Analyse prédictive : projections pour identifier desnouvelles sources d’opportunités ou de menaces

    • Flu Trends est un modèle de Google qui permet d’estimer lapropagation des cas réels de grippe en fonction desrecherches sur Internet : évaluation fournie par Google entemps réel sur la propagation de la maladie estétonnamment précise, bien que souvent sur-estimée (cf.article publié dans Nature) et souvent plus rapide que lesréseaux de veille sanitaire

    • Risques climatiques

  • 23Science des Données (Big Data) – 2017

    Unenouvelledémarchescientifique?

    SH.Lazare/F

    .Barthélem

    y(Axiod

    is):Introd

    uctio

    nBigdata

    • Sérendipité du Big Data : capacité à montrer des choses que l’on nes’attendait pas à trouver à trouver, par des hasards heureux, ce que l’onne cherche pas.

  • 24Science des Données (Big Data) – 2017

    Extractiondeconnaissances

    • Un processus global

    Données

    ExtractionModèle

    Connaissances

    NettoyageSélectionIntégration

    Validation

    Acquisition

  • 25Science des Données (Big Data) – 2017

    Valorisationparextractiondeconnaissances

    • Apprentissage / Fouille de données

    Données

    ExtractionModèle

    Connaissances

    NettoyageSélectionIntégration

    Validation

    Acquisition

  • 26Science des Données (Big Data) – 2017

    Apprentissage

    • Apprentissage : capacité d’un ordinateur àapprendre à répondre à un problème sansavoir été explicitement programmé pour lerésoudre– Apprentissage supervisé– Apprentissage non supervisée– Apprentissage par renforcement– …

  • 27Science des Données (Big Data) – 2017

    Apprentissage

    • Fouille de données (Data Mining)– Principe inductif : Généralisation d’observations

    Consiste à tirer desconclusions à partir de faits : Classe d’un nouvel objet en fonctiondes historiques ; prédiction de valeurs ...

    Preditedclass

    Desiredclass

    Supervisor

    Error

    Learned model

    Model seeking

    Trainingdata

  • 28Science des Données (Big Data) – 2017

    ApprentissagesuperviséDonnéesd’apprentissage

    Apprentissage

    Modèle

    Algorithmed’apprentissage

    Appliquer le modèle

    yesyes

    no

    yesno

    Données« nonvues »

  • 29Science des Données (Big Data) – 2017

    Apprentissagesupervisé

    • Exemple : Arbre de décisions– Création de l’arbre

    Attrib1

    Attrib2NO

    Yes No

    Small, Large

    < 80K

    Attrib3

    YESNO

    NO

    Medium

    > 80K 100K

  • 30Science des Données (Big Data) – 2017

    Arbre dedécisions

    • Exemple : Arbre de décisions– Classement d’une nouvelle donnée (non vue)

    Attr1 = No;Attrib2 = Small,Attrib3 = 130KClasse = ??

    30

    Attrib1

    Attrib2NO

    Yes No

    Small, Large

    < 80K

    Attrib3

    YESNO

    NO

    Medium

    > 80K 100K

  • 31Science des Données (Big Data) – 2017

    Arbre dedécisions

    • Exemple : Arbre de décisions– Classement d’une nouvelle donnée (non vue)

    Attr1 = No;Attrib2 = Small,Attrib3 = 130KClasse = ??

    31

    Attrib1

    Attrib2NO

    Yes No

    Small, Large

    < 80K

    Attrib3

    YESNO

    NO

    Medium

    > 80K 100K

  • 32Science des Données (Big Data) – 2017

    Arbre dedécisions

    • Exemple : Arbre de décisions– Classement d’une nouvelle donnée (non vue)

    Attr1 = No;Attrib2 = Small,Attrib3 = 130KClasse = ??

    32

    Attrib1

    Attrib2NO

    Yes No

    Small, Large

    < 80K

    Attrib3

    YESNO

    NO

    Medium

    > 80K 100K

  • 33Science des Données (Big Data) – 2017

    Arbre dedécisions

    • Exemple : Arbre de décisions– Classement d’une nouvelle donnée (non vue)

    Attr1 = No;Attrib2 = Small,Attrib3 = 130KClasse = ??

    33

    Attrib1

    Attrib2NO

    Yes No

    Small, Large

    < 80K

    Attrib3

    YESNO

    NO

    Medium

    > 80K 100K

  • 34Science des Données (Big Data) – 2017

    Arbre dedécisions

    • Exemple : Arbre de décisions– Classement d’une nouvelle donnée (non vue)

    Attr1 = No;Attrib2 = Small,Attrib3 = 130KClasse = no

    34

    Attrib1

    Attrib2NO

    Yes No

    Small, Large

    < 80K

    Attrib3

    YESNO

    NO

    Medium

    > 80K 100K

  • 35Science des Données (Big Data) – 2017

    Apprentissageprofond

    • Exemple : Deep learning– Réseaux convolutionnels (Yann Le Cun) où chaque coucheeffectue une opération de convolution de l’image avec unfiltre donné

    Homme

    Lunette

    Sourire

  • 36Science des Données (Big Data) – 2017

    Commentfaire?

    • Exemple : Deep learning– Réseaux convolutionnels (Yann Le Cun) où chaque coucheeffectue une opération de convolution de l’image avec unfiltre donné

    – En enchainant des opérations de ce genre le réseau faitressortir des caractéristiques de plus en plus abstraites,génériques (et donc « de haut niveau ») de l’image.

    – Les poids du réseau sont déterminants : suivant ces poids,ce filtre peut agir en faisant ressortir certainescaractéristiques locales de l’image (bords, arêtes, zonesuniformesà Apprentissage

  • 37Science des Données (Big Data) – 2017

    Commentfaire?

    • Fouille de données (Data Mining)– Principe inductif : Généralisation d’observations– Recherche de régularités, de relations ou destructures cachéesPanier de la ménagère Clustering

    x

    x

    xx

    xx

    x

    xoo

    o o

    o

    oo

    o

    oo

    Revenu

    Dette

    x

    x:pbederemboursemento:pasdepbe

    Emprunteurssûrs

    Emprunteursàéviter

  • 38Science des Données (Big Data) – 2017

    Apprentissagenonsupervisé

    • Clustering par partitionnement :– trouver l’organisation en classes homogènes tellesque deux objets d’une même classe se« ressemblent » plus que deux objets de classesdifférentes

    – trouver l’organisation en classes homogènes tellesque les classes soient les plus « différentes »possibles

    Exemple :

  • 39Science des Données (Big Data) – 2017

    Partitionnement

    • Trouver l’organisation en classes homogènestelles que deux objets d’une même classe seressemblent plus que deux objets de classesdifférentes

  • 40Science des Données (Big Data) – 2017

    Partitionnement

    • Trouver l’organisation en classes homogènestelles que deux objets d’une même classe seressemblent plus que deux objets de classesdifférentes

    d1etd2demêmeclasse,d3d’uneclassedifférentealorsdist(d1,d2)<dist(d1,d3)

    etdist(d1,d2)<dist(d2,d3)

  • 41Science des Données (Big Data) – 2017

    intuitivement on voudrait :

    Partitionnement

    • Trouver l’organisation en classes homogènestelles que les distances entre les classes soientmaximales :

  • 42Science des Données (Big Data) – 2017

    alors que ceci augmente la distance

    Partitionnement

    • Trouver l’organisation en classes homogènestelles que les distances entre les classes soientmaximales :

  • 43Science des Données (Big Data) – 2017

    • Clustering par partitionnement :– trouver l’organisation en classes homogènes telles que deux objets

    d’unemême classe se « ressemblent » plus que deux objets de classesdifférentes

    – trouver l’organisation en classes homogènes telles que les classessoient les plus « différentes » possibles

    • Problème « mal posé » : il n’existe pas de solution engénéralà Il faut trouver d’autres critères– minimiser l’inertie intra-classe Iintra– maximiser l’inertie inter-classe Iinter

    Partitionnement

  • 44Science des Données (Big Data) – 2017

    Partitionnement

    • Comment construire ces classes– Soit nombre S(n,k) de partitions à k classes à partirde n données qu’il est possible de définir sur unensemble D :

    – Tend vers pour n assez grand

    – Pour n=8 et k=4à 1701– Pour n=12 et k=3à 86526– Pour k inconnu et n = 25 à 4 638 590 332 229 999 353 partitionspossibles (avec 1 000 0000 partitions/sec à 147 000 années)

    !),(

    kkknSn

    »

    å=

    --=k

    i

    nki

    i iCk

    knS0

    1)1(!1),(

  • 45Science des Données (Big Data) – 2017

    Kmeans:uneméthodeheuristique(MacQueen,1967)

    • Objectif :– minimiser l’inertie intra-classe (maximiser l’inertieinterclasses)

    avec :– K nombre clusters– PK(t)={C1,C2….CK} : la partition– LK(t)={g1,g2,….,gK} : ensemble des centres

    è Idée : Optimisation itérative

    Q(PK, LK ) = distance x,gk( )2

    x∈Ck

    ∑k=1

    K

  • 46Science des Données (Big Data) – 2017

    Kmeans :uneméthodeheuristique(MacQueen,1967)

    • Un processus itératif– choix aléatoire du nombre K de classes et de Knoyaux initiaux

    – (ré-)affectation des objets aux noyaux– calcul des nouveaux noyaux– le processus s’arrête lorsque deux partitionssuccessives sont identiques (ou presque)

  • 47Science des Données (Big Data) – 2017

    • Exemple

    Kmeans:uneméthodeheuristique(MacQueen,1967)

  • 48Science des Données (Big Data) – 2017

    • Exemple : K=4 : Choix de 4 graines

    Kmeans :uneméthodeheuristique(MacQueen,1967)

  • 49Science des Données (Big Data) – 2017

    • Exemple : allocation au centre le plus proche

    Kmeans :uneméthodeheuristique(MacQueen,1967)

  • 50Science des Données (Big Data) – 2017

    • Exemple : Recalcul des centres

    Kmeans :uneméthodeheuristique(MacQueen,1967)

  • 51Science des Données (Big Data) – 2017

    • Exemple : Ré-allocation

    Kmeans:uneméthodeheuristique(MacQueen,1967)

  • 52Science des Données (Big Data) – 2017

    • Exemple : Recalcul des centres

    Kmeans :uneméthodeheuristique(MacQueen,1967)

  • 53Science des Données (Big Data) – 2017

    • Exemple : Ré-allocation

    Kmeans :uneméthodeheuristique(MacQueen,1967)

  • 54Science des Données (Big Data) – 2017

    • Exemple : K=4 (moving)

    Kmeans :uneméthodeheuristique(MacQueen,1967)

  • 55Science des Données (Big Data) – 2017

    • Exemple : Ré-allocation

    Kmeans :uneméthodeheuristique(MacQueen,1967)

  • 56Science des Données (Big Data) – 2017

    • Exemple : K=4 (moving)

    Kmeans :uneméthodeheuristique(MacQueen,1967)

  • 57Science des Données (Big Data) – 2017

    • Exemple : Plus de ré-allocationè Fin

    Kmeans :uneméthodeheuristique(MacQueen,1967)

  • 58Science des Données (Big Data) – 2017

    Kmeans(propriétés)

    • Kmeans est donc un algorithme qui « cherche »à minimiser l’inertie inter-classe

    • Néanmoins, l’algorithme ne fournit pasnécessairement le meilleur résultat maissimplement une suite de couples dont la valeurdécroîtà optimisation locale

  • 59Science des Données (Big Data) – 2017

    Nouvellesopportunités?• Big Data

    – 32% de croissance annuelle entre 2011 et 2016– 23,8 milliards de dollars en 2016 (IDC mars 2013).– 8% du PIB européen en 2020 (AFDEL février 2013)

    • Data Scientist (Ingénieur des données ?)– Un nouveau métier entre les moyens informatiques etle producteur/consommateur de données

    – 5 millions d'emplois dans le monde d'ici à 2017 (env.27000 en France) :

    • Selon IDC, aux États-Unis, il y aura 181 000 profils compétents en2018 tandis que les entreprises auront 5 fois plus de postes àpourvoir dans le domaine du Big Data.

  • 60Science des Données (Big Data) – 2017

    (Première)conclusion• Les données sont au cœur de la transformation de lasociété … mais le Big Data encourage la pratique deencourage la pratique de l’apophénie

    à voir des corrélations là où il n’y en a probablementpas

  • 61Science des Données (Big Data) – 2017

    (Première)conclusion• Voir des corrélations là où il n’y en a probablementpas :– En primaire, le QI est en corrélé au signe astrologique (cette

    corrélation s’affaiblit avec l'âge et disparaît à l'âge adulte)– Le nombre de prix Nobel remportés par un pays est corrélé avec la

    consommation de chocolat par habitant du pays.– Les Américains et Anglais mangent gras et boivent beaucoup d'alcool :

    taux élevé de maladies cardiovasculaires aux USA et Royaume-Uni /Les Français et les Italiens mangent gras et boivent beaucoup d'alcool :taux de maladies cardio-vasculaires plus faible à Vous avez plus dechances d’avoir une crise cardiaque si vous parlez anglais!

    • Ou simplement mal les interpréter :– Plus on envoie de pompiers sur un feu, plus celui-ci fait de dégâts.

  • 62Science des Données (Big Data) – 2017

    (Première)conclusion• Les données sont au cœur de la transformation de lasociété mais soulève des questionnements« éthiques » forts :– Vie privée :

    • Environ 44% des employeurs cherchent de l'information sur leurspotentiels futurs employé.e.s sur les réseaux sociaux

    • Echanges de fichiers

  • 63Science des Données (Big Data) – 2017

    (Première)conclusion• Les données sont au cœur de la transformation de lasociété mais soulève des questionnements« éthiques » forts :– Vie privée :

    • Environ 44% des employeurs cherchent de l'information sur leurspotentiels futurs employé.e.s sur les réseaux sociaux

    • 5 conseils :– Tout payer en liquide (interdit en France à partir de 5000 €)– Ne jamais se connecter sur internet– Ne pas utiliser de téléphone mobile– Ne pas utiliser de cartes de fidélité– Ne jamais être maladeà Ne jamais sortir de chez vous

  • 64Science des Données (Big Data) – 2017

    ViePrivée

    • Anonymisation et sécurité :– Comment anonymiser sans perdre la richesse

    des données ?– La formule Navigo Découverte de la RATP (coûtant

    approximativement 5 euros) permet depuis quelquesannées au possesseur de la carte de ne pas être inscrit dansun fichier client, contrairement à la formule classique. Leforfait est chargé sur une carte à puce et accompagné d’unecarte nominative cartonnée où le voyageur indique lui-même son nom, son prénom et colle sa photo d’identité.

    – Le droit du contrat d’assurance : L’utilisation des donnéesest notamment soumise au respect des libertés publiques(CNIL), du droit pénal (les discriminations), du droitcommunautaire et des règles européennes etinternationales (ONU).

    – L’anonymat est-il devenu algorithmiquement

  • 65Science des Données (Big Data) – 2017

    ViePrivée

    • Anonymisation et sécurité :– Comment anonymiser sans perdre la richesse desdonnées ?

    – L’anonymat est-il devenu algorithmiquementimpossible ?

    • Recoupement de base de données– Comment garantir la robustesse de leur transfertet de leur utilisation ?• En Novembre 2013, le Commissariat général à la stratégie et à la

    prospective rappelle que la plupart des fournisseurs destechnologies du cloud se ménagent des backdoors qui leurpermettent l’accès aux données stockées sur leurs serveurs

  • 66Science des Données (Big Data) – 2017

    (Première)conclusion• Les données sont au cœur de la transformation de la société

    mais soulève des questionnement « éthiques » forts :

    – Vie privée– Droit à l’oubli :

    • Qui peut-on protéger ?• Contre quoi peut-il protéger ?

    – Collecte et diffusion d’info. à caractère personnel– Conservation et de l’exploitation de ces données

    • Contre qui peut-il protéger ?– Devoir de mémoire– Liberté d’expression

  • 67Science des Données (Big Data) – 2017

    (Première)conclusion• Les données sont au cœur de la transformation de la société

    mais soulève des questionnement « éthiques » forts :

    – Vie privée– Droit à l’oubli– Usage

    • Les analyses de l’ADN à grande échelle aideront-elles àguérir les maladies ? Ou bien cela aboutira-t-il à unenouvelle vague d’inégalités médicales

    • L’analyse des données sert-elle réellement la« connaissance humaine » ou va-t-elle rétrécir lapalette des options qui s’offrent à la recherche etaltérer ce que “recherche” veut dire ?

  • 68Science des Données (Big Data) – 2017

    (Deuxième)conclusion• Les données sont au cœur de la transformation de la société

    mais soulève des questionnement « éthiques » forts :

    – Vie privée / droit à l’oubli / usage– L’accès limité aux données crée-t-il de nouvellesfractures numériques ?

    – Objectivité des analyses ?– Big brother ?– …

  • Mercidevotreattention

  • 70Science des Données (Big Data) – 2017

    Bibliographie• Faire entrer la France dans la troisième révolution industrielle

    : le pari de l’innovation - Le big data– Observatoire de l’Innovation de l’Institut de l’entreprise / Mai 2014

    • Big Data : Défis et opportunités pour les assureurs– François Ewald ; Patrick Thourot– ENASS paper 5 – Banque & Stratégie N°315 / Juin 2013

    • “Analyse des big data. Quels usages, quels défis ?”– Commissariat général à la stratégie et à la prospective / Novembre

    2013

    • Les 5 grands défis de la Big Data– Emmanuelle Garnaud-Gamache– Revue digitale n°9 : La Data, et moi, et moi... émois ? Avril-Juin 2014