48
Datascape Privacy Web Corpus Maxime Crépel – médialab 15/12/2017

Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

Datascape Privacy Web Corpus Maxime Crépel – médialab 15/12/2017

Page 2: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 2

1-Présentation du projet Privacy Web Corpus

Page 3: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 3

Cadre du projet Privacy Web Corpus •  Projet pus large sur le rôle de régulation du marché

(assurance) dans la gestion des transactions de données et protection de la privacy – Lessig 2000

•  Produire des outils pour l’analyse des controverses liées

aux questions de data privacy : identifier les acteurs et termes des sous controverses

Page 4: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 4

Module 1 : Architectures des transactions des cartes de crédit Module 2 : Typologie des données et états des données Module 3 : Etude qualitative : perception et gestion des risques

Page 5: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 5

Module 4 : Datascape exploration des controverses sur le Privacy Module 5 : Etudes de cas acteurs et termes des controverses Module 6 : Transfert de compétences outils et méthodes

Page 6: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

6

Objectifs et principes du « Datascape »

•  Datascape : Interface d’exploration d’un corpus de données

•  Identifier des sous domaines de controverses è Qui Dit Quoi ? = Acteurs / Verbatims / Termes

•  Corpus web structuré avec attributs topologiques •  Documents pages web •  Corpus Indexé par topics

•  Interface d’exploration du corpus (search) •  Rechercher, explorer et analyser des cas de controverse •  Point de départ pour des investigations qualitatives et

quantitatives

Page 7: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 7

2-Production du Corpus

Page 8: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

8

•  Corpus Web de départ constitué à partir de : •  Domaines identifiés module 2 : (41 requêtes EN/FR) = 4100

pages •  Veille Presse = 1 464 pages •  Hétérogénéité : Presse, Blogs, Professionnels, Institutions

•  Crawl à partir de Hyphe : http://hyphe.medialab.sciences-po.fr

Page 9: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

9

•  Nettoyage et Affinage du corpus « à la main »: •  Suppression erreurs et sites inactifs •  Suppression des sites hors thématique •  Suppression couches hautes et basses (« discovered »

partageant moins de 5 liens avec le reste du corpus) •  Crawl des pages « discovered » dans la thématique

Page 10: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 10

3-Analyse topologique du réseau

Page 11: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 11

Corpus Web Final :

•  7 578 entités web (2 256 entités non connectées mais indexées) •  50 904 liens hypertextes •  Plus de 380 000 pages web de contenu

Page 12: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 12

TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION

Page 13: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 13

TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION

Page 14: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 14

TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION

01-ModuleN04=CybersécuritéTag:CybersécuritéActeurTechcompaniesetExpertITLang:EN02-ModuleN01=DataProtectionTag:DataProtection/regulation/Surveillance/sujettrèsvariésActeur:Organisation(lobby)/MediaLang:EN03-ModuleN08=DataRegulationEUTag:DataProtection/regulation/Surveillance/sujettrèsvariésActeur:Organisation(lobby)/MediaLang:FRetEN04-ModuleN09=DataRegulationFRTag:DataProtection/regulation/Surveillance/sujettrèsvariésActeur:Media/MediaIT/Organisation(lobby)/MediaLang:FRetEN05-ModuleN03=CryptoetDataprotectionActeurTechcompanies/Organisation/MediaITTag:Anonymity/HttpRefer/Dataprotection/CybersecurityLang:EN06-ModuleN00=Surveillance&IOTMediaActeur:MediaIT/MediaTag:Surveillance/PersonnelData/IOT/ConnectedCarLang:EN(+FR)07-PlusieursModules-Media/Plate-forme/Institution/StandardTwitter/linkedin/LePointUsineDigitale/ArgusurlandCnet/Reddit/GizmodoTruste/SaysafeonlinePrivacyCommission

Page 15: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 15

TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 1CLUSTERCENTRAL

CryptoetDataprotection

Page 16: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 16

TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 4CLUSTERSPERIPHERIQUES

CybersecurityDataprotectionDataregulationFRDataregualtionEU

Page 17: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 17

TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 8PETITSCLUSTERS

NonthématiquesParplateformes

Page 18: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 18

TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION

CRYPTO&DATAPROTECTION

Page 19: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 19

TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION

DATAPROTECTION

Page 20: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 20

TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION

CYBERSECURITY

Page 21: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 21

TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION

DATAREGULATIONFR

Page 22: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 22

TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION

DATAREGULATIONEU

Page 23: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 23

TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION

DIVERS-Media/Plateform/Institution/Standard

Page 24: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 24

4-Topic modeling

Page 25: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

25

Topic Modeling Spécificités et contraintes •  Corpus multilingue : filtrage pour conserver EN FR •  Volumineux : 380k pages •  Nettoyage du texte : balises, ponctuation, etc. •  Corpus taggué à la source (requête et tag à la main) Nettoyage et test •  Corpus réduit (seed EN déjà taggué) : 2500 pages •  Nettoyage du texte : canola, raw, etc. •  Puissance / tps de calcul •  Cohérence des topics (tags, connaissance coprus, nb topics) •  Ajout itératif de stop words

Page 26: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

26

Topic Modeling

Page 27: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

27

Topic Modeling Finalisation de la LDA •  Demande de 60 topics •  Suppression des topics non pertinents •  Fusion des topics proches •  Stabilisation de 32 topics cohérents EN et FR

Maximiser la couverture des topics sur le coprus •  Choix du seuil d’attribution 15% (couvre 90% du corpus) •  Choix du nombre de topic par page (0 à 3 selon seuil et score) •  Choix mode d’attribution des topics pages aux topics entités

Page 28: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 28

5-Production du Datascape

Page 29: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 29

Page 30: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 30

Page 31: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

31

Datascape : Mockup

Page 32: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

32

Page 33: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

33

Datascape : Architecture pour navigation verticale

Page 34: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

34

Datascape : Architecture pour navigation horizontale

Page 35: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

35

Page 36: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

36

Page 37: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

37

Page 38: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

38

Page 39: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

39

Page 40: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 40

6-Etudes de cas

Page 41: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 41

•  FBI vs Apple : Requête : FBI AND (Apple or Iphone) AND backdoor AND (Terrorist OR attack) Corpus : 112 entités contennant 1356 pages répondant à la requête Pages Web du corpus sélectionnées pour analyse qualitative : 58 pages de départ Pages hors corpus : 11 pages de départ •  Vtech : Requête : Vtech AND (Breach OR Leak OR Hack OR attack) Corpus : 77 entités web Pages Web du corpus sélectionnées pour analyse qualitative : 27 pages

Page 42: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 42

FBI vs Apple : •  Controverse entre le FBI et Apple suite aux attentats de San

Bernardino et l’impossibilité d’accéder aux données d’un iphone d’un assaillant

•  Contexte Post-Snowden besoin de construire la confiance

envers les utilisateurs par les GAFA : Apple intègre le Privacy by design par la crypto chez Apple

•  Refus d’Apple d’ouvrir une « backdoor » : conflit judiciaire avec le FBI

•  Justice et gouvernement en échec face à un débat qui sort de la sphère politique et du débat de société pour se centrer uniquement sur la technique (textes inadaptés, décisions trop lentes = hacking par le FBI et refus de créer des backdoor par Apple)

Page 43: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 43

Etudes de cas : FBI vs Apple backdoor

Page 44: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 44

Vtech hack : •  Piratage par un hacker des seveurs de données Vtech fabricant

de jouets connectés •  Hack publié dans la presse pour alerter sur le manque de

sécurité : adresses, mail, noms, vidéo et images produites par les jouets connectés

•  Problèmes : •  Sécurisation et compétences des fabricants IOT •  Définition des données personnelles (Vtech n°CB et Sécu) •  Pas de monitoring et de robustesse de la sécurité •  Communication désastreuse : aveux tardifs, refus de

responsabilité

•  Résolution sur le plan juridique par une modifications des conditions d’utilisation

Page 45: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 45

Etudes de cas : Vtech

Page 46: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 46

Conclusion

Page 47: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag

28/11/17 47

Conclusion •  Orienté search / Requêtes complexes •  Fonctions d’exports pour analyse quali et quanti approfondies

Pas un résultat de recherche mais outil pour l’exploration et l’analyse

•  Corpus riche en données pour l’étude de cas de controverses mais photo à un instant T (protocole de màj)

•  Les web entités ne correspondent pas toujours avec les acteurs des controverses

•  La présence d’une web entité ne signifie pas systématiquement la production de contenu à analyser : sites vitrines

Datascape Privacy Web Corpus http://tools.medialab.sciences-po.fr/privacy/

Page 48: Datascape Privacy Web Corpus - Sciences Po/2441/50pcas4psk963o61... · 2019-02-27 · 28/11/17 14 TITRE PRÉSENTATION SOUS-TITRE PRÉSENTATION 01-Module N04 = Cybersécurité Tag