57
Colloque « Données & Sécurité » 25 mars 2016, Paris Télécom ParisTech - LINCS / GERN -CNRS

Colloque "données et sécurité" Ce que disent les métadonnées

Embed Size (px)

Citation preview

Page 1: Colloque "données et sécurité" Ce que disent les métadonnées

Colloque « Données & Sécurité »

25 mars 2016, Paris

Télécom ParisTech - LINCS / GERN -CNRS

Page 2: Colloque "données et sécurité" Ce que disent les métadonnées

« Ce que nous disent les métadonnées »

Thierry BerthierChaire de Cybersécurité & Cyberdéfense Saint-Cyr

Thales - Sogeti

Page 3: Colloque "données et sécurité" Ce que disent les métadonnées

« Ce que nous disent les métadonnées »

Plan

1 - Définir la métadonnée , exemples, ratio des volumes « Données / Métadonnées »

2 - Quand la métadonnée renseigne plus que la donnée…

3 - Métadonnées et projections algorithmiques

Page 4: Colloque "données et sécurité" Ce que disent les métadonnées

1- Définir la métadonnée

Page 5: Colloque "données et sécurité" Ce que disent les métadonnées

1- Définir la métadonnée

On parle souvent de « données sur la donnée » ou « d’informations sur une information » pour définir la métadonnée. Il s’agit d’une donnée qui décrit une autre donnée. Elle accompagne la donnée principale et contient de l’information additionnelle sur cette donnée. Le préfixe grec « méta » indique le niveau supérieur de cette information.

Certains qualifient les métadonnées d’armes à double tranchant : à la fois très utiles pour classer et structurer l’information mais parfois également néfastes pour l’utilisateur dans certaines situations.

Nous sous-estimons fortement le volume d’information véhiculé par les métadonnées.

Page 6: Colloque "données et sécurité" Ce que disent les métadonnées

1- Définir la métadonnée

Quelques exemple de métadonnées :

-Date et heure de création d’un fichier. - Adresse ou géolocalisation du lieu où a été créé le fichier.-Nom des contributeurs ayant travaillé sur un document ou commentaires ajoutés. - La marque, le modèle et l’opérateur téléphonique lors d’un appel sur smartphone. - Type d’appareil photo utilisé et paramètres fixés au moment de la prise de vue.- Le type d’enregistreur audio ou vidéo et les paramètres fixés lors de l’enregistrement .

Page 7: Colloque "données et sécurité" Ce que disent les métadonnées

Quelques contextes de création de métadonnées…

Métadonnées associées

Numéro de téléphone de l'appelantNuméro de téléphone composéNuméro de série unique des appareils téléphoniques utilisésHeure de l'appelDurée de l'appelEmplacement de chaque participantNuméro de carte d'appel

https://www.priv.gc.ca/information/research-recherche/2014/md_201410_f.asp

Page 8: Colloque "données et sécurité" Ce que disent les métadonnées

Quelques contextes de création de métadonnées…

Nom, adresse de courriel et adresse IP de l'expéditeurNom et adresse de courriel du destinataireRenseignements sur le transfert via le serveurDate, heure et fuseau horaireIdentifiant unique du courriel et des courriels connexes (identifiant de message)Type de contenu et codageDossier de connexion du client de la messagerie avec adresse IPFormat de l'en-tête du client de la messageriePriorité et catégorieObjet du courrielStatut du courrielDemande de confirmation de lecture

Page 9: Colloque "données et sécurité" Ce que disent les métadonnées

Quelques contextes de création de métadonnées…

Votre nom et les renseignements biographiques indiqués dans votre profil, notamment votre date de naissance, votre ville natale, vos antécédents professionnels et vos centres d'intérêtVotre nom d'utilisateur et identifiant uniqueVos abonnementsLe lieu où vous vous trouvezL'appareil que vous utilisezLa date et l'heure de l'activité ainsi que le fuseau horaireVos activités, ce que vous aimez, le lieu où vous vous trouvez et les événements auxquels vous assistez

https://www.priv.gc.ca/information/research-recherche/2014/md_201410_f.asp

Page 10: Colloque "données et sécurité" Ce que disent les métadonnées

Quelques contextes de création de métadonnées…

Votre nom, le lieu où vous vous trouvez, votre langue, les renseignements biographiques indiqués dans votre profil et votre URLLa date à laquelle vous avez créé votre compteVotre nom d'utilisateur et votre identifiant uniqueLe lieu du gazouillis, la date, l'heure et le fuseau horaireLe numéro d'identification unique du gazouillis et celui du gazouillis auquel vous répondezLe code d'identification des contributeursLe nombre d'abonnés, d'abonnements et de favorisVotre statut en matière de vérificationL'application qui a servi à l'envoi du gazouillis

Page 11: Colloque "données et sécurité" Ce que disent les métadonnées

Quelques contextes de création de métadonnées…

Les pages que vous visitez, et quandLes données sur l'utilisateur et peut être les détails de connexion de l'utilisateur avec la fonction de saisie automatiqueLes adresses URLVotre adresse IP, votre fournisseur de services Internet, les détails matériels de votre appareil, la version du système d'exploitation et du navigateurLes témoins et données en cache provenant des sites WebVos requêtes de rechercheLes résultats de recherche qui s'affichentLes pages que vous visitez par la suite

https://www.priv.gc.ca/information/research-recherche/2014/md_201410_f.asp

Page 12: Colloque "données et sécurité" Ce que disent les métadonnées

Les métadonnées d’un tweet de 140 caractères

Page 13: Colloque "données et sécurité" Ce que disent les métadonnées

Les métadonnées d’un tweet de 140 caractères

Page 14: Colloque "données et sécurité" Ce que disent les métadonnées

Les métadonnées d’un tweet de 140 caractères

Page 15: Colloque "données et sécurité" Ce que disent les métadonnées

Les métadonnées d’un tweet de 140 caractères

Page 16: Colloque "données et sécurité" Ce que disent les métadonnées

Les métadonnées d’un tweet de 140 caractères

Un tweet de 140 caractères est donc encapsulé dans plus de 25 champs de métadonnées.

Le tweet (champ TEXTE) lui-même peut être considéré comme l’une des métadonnées de l’ensemble informationnel. Il n’est pas privilégié dans la structure, c’est un champ parmi les autres champs.

Si l’on compare le nombre de caractères du Tweet (< 140) et le nombre de caractères de l’ensemble des métadonnées qui l’accompagnent, on obtient un ratio R pour Twitter :

R = Volume message / Volume total envoyé R < 5% !

Page 17: Colloque "données et sécurité" Ce que disent les métadonnées

Les métadonnées associées à un mail

Expérimentation : j’utilise Mozilla Thunderbird pour envoyer un mail depuis mon compte Gmail sur mon compte Orange :

Texte de mon mail : « Bonjour, Voici un mail. Observons les métadonnées associées ».Longueur du message = 52 caractères sans les espaces, 58 en les comptant.

Le code source associé à ce message est reproduit dans les slides suivantes …

Page 18: Colloque "données et sécurité" Ce que disent les métadonnées

Code source associé au messageFrom - Wed Mar 16 13:10:36 2016X-Account-Key: account1X-UIDL: 1199567394.116940X-Mozilla-Status: 0001X-Mozilla-Status2: 00000000X-Mozilla-Keys: Return-Path: <[email protected]>Received: from mwinf5c45 (mwinf5c45.me-wanadoo.net [10.223.111.95])

by mwinb2p02 with LMTPA; Wed, 16 Mar 2016 13:10:30 +0100

X-Sieve: CMU Sieve 2.3Received: from mail-wm0-f53.google.com ([74.125.82.53])

by mwinf5c45 with MEid WXQd1s01P191faa01cAWk9; Wed, 16 Mar 2016 13:10:30 +0100

X-bcc: [email protected]: orange.frX-ME-engine: defaultX-me-spamcause: (0)(0000)gggruggvucftvghtrhhoucdtuddrfeekkedrtddvgdefheculddtuddrfeekjedrtddtmdcutefuodetggdotefrodftvfcurfhrohhfihhlvgemucfogfdpggftiffpkfenuceurghilhhouhhtmecugedttdenucenucfjughrpefvhffukffffgggtgfgsehtkegrtddtfeejnecuhfhrohhmpefvhhhivghrrhihuceuvghrthhhihgvrhcuoehthhhivghrrdgsvghrthhhihgvrhesghhmrghilhdrtghomheqnecuffhomhgrihhnpegrvhgrshhtrdgtohhmnecukfhppeejgedruddvhedrkedvrdehfedpledtrdefkedrkeegrdekudenucfrrghrrghmpehhvghlohepmhgrihhlqdifmhdtqdhfheefrdhgohhoghhlvgdrtghomhdpihhnvghtpeejgedruddvhedrkedvrdehfedpmhgrihhlfhhrohhmpehthhhivghrrdgsvghrthhhihgvrhesghhmrghilhdrtghomhdprhgtphhtthhopehthhhivghrrdgsvghrthhhihgvrhesohhrrghnghgvrdhfrhX-me-spamlevel: not-spamX-ME-Helo: mail-wm0-f53.google.comX-ME-IP: 74.125.82.53X-ME-Entity: ofrReceived: by mail-wm0-f53.google.com with SMTP id l124so37043686wmf.1 for <[email protected]>; Wed, 16 Mar 2016 05:10:30 -0700 (PDT)

Page 19: Colloque "données et sécurité" Ce que disent les métadonnées

Code source associé au messageDKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=gmail.com; s=20120113; h=to:from:subject:message-id:date:user-agent:mime-version :content-transfer-encoding; bh=jvnu7JfOim9bOWPcVMASJIJjk8a/JJOVzO5hmx1+HyM=; b=V5z9ya3nfRYlPfejSZIu1GQRCUotzB39+SJLyUYpyKUAZM/aHuCrywScv1oDbmiApx tG3eeg0ZMD5NT3C+cIVMttF4m1PA/Xhrlz5QtlKsTT7HSzESGMxg58E/VhvalQ5X1ZQO de5af6V9MFYgFUYMFvn5zKDMCIkmDcQ74760gdSuKaGtg0Yd0ek6CC3yz2X1k4Gjhk9V dL/svKF8FdPEpgsgPRtBEXmdD7SVXGu3xphBq49tXaXeokp/8ykXe3eOHjuk7YjB4CdG dhWnQwSjuEx47kExzoHb9hBrjzPywJtwWSIyhqnhvgLLBgFeDzN6D9CilOH9e+igxHNX HIlQ==X-Google-DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=1e100.net; s=20130820; h=x-gm-message-state:to:from:subject:message-id:date:user-agent :mime-version:content-transfer-encoding; bh=jvnu7JfOim9bOWPcVMASJIJjk8a/JJOVzO5hmx1+HyM=;b=fOk5zdPhQecvBVcat+qxZT+uxawbt2FQZEXpaMFlVToICViaSVi/YSLBhtUWbcDfsO f27+RcSPGbJng5sKOY1SUkjQ2jBO5m3+DnFs+Y56rypbHeebSscum8Tz8llDmI4R3rEb V14B3ZDI4XWC1VsJ71x7THBWUw35LQjOntNUVYZosmhivcifJUj+YHa8i2coK3cAd1vj E0IwU9r0pIU+4oaaB37FNczJVa8ae50q90hzpA9Ol5GuuAG41grdbHo+E9vWIiojZljG hpCz0QvcM6JsMgOZqKmYSf8gI8PRHH0lhO8SIJYDhEyvVLyy0wy0CJlWcAUYmHQbIsAi rjcg==X-Gm-Message-State: AD7BkJJfJ+E0PF3fg9H4RNZfV3SNr/QBZBY7s2HuJ0T34cLZk8rD1hu43V1ac3fW7RAXtw==X-Received: by 10.194.189.7 with SMTP id ge7mr3450791wjc.72.1458130230263; Wed, 16 Mar 2016 05:10:30 -0700 (PDT)Received: from [127.0.0.1] (APoitiers-257-1-17-81.w90-38.abo.wanadoo.fr. [90.38.84.81]) by smtp.googlemail.com with ESMTPSA id g203sm25229488wmf.23.2016.03.16.05.10.29 for <[email protected]> (version=TLSv1/SSLv3 cipher=OTHER); Wed, 16 Mar 2016 05:10:29 -0700 (PDT)

Page 20: Colloque "données et sécurité" Ce que disent les métadonnées

Code source associé au messageTo: Thierry Berthier <[email protected]>From: Thierry Berthier <[email protected]>Subject: =?UTF-8?Q?Un_mail_et_ses_m=c3=a9tadonn=c3=a9es?=Message-ID: <[email protected]>Date: Wed, 16 Mar 2016 13:10:27 +0100User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; rv:38.0) Gecko/20100101 Thunderbird/38.5.1MIME-Version: 1.0Content-Type: text/plain; charset=utf-8; format=flowedContent-Transfer-Encoding: 8bitX-Antivirus: avast! (VPS 160315-1, 15/03/2016), Outbound messageX-Antivirus-Status: CleanX-Antivirus: avast! (VPS 160315-1, 15/03/2016), Inbound messageX-Antivirus-Status: Clean Bonjour, Voici un mail. Observons les métadonnées associées. ---L'absence de virus dans ce courrier électronique a été vérifiée par le logiciel antivirus Avast.https://www.avast.com/antivirus

Page 21: Colloque "données et sécurité" Ce que disent les métadonnées

Les métadonnées associées à un mail

Le code source associé au message contient 3676 caractères sans les espaces et 4144 caractères espaces compris.

On observe alors dans ce contexte d’envoi un ratio R :

R = 52 / 3676 = 0,0141 soit à peine plus de 1% (!)

On retrouve ce ratio avec la plupart des clients de messagerie électronique.

Le volume de l’information volontairement transmise par l’utilisateur représente moins de 10 % du volume numérique envoyé …

Page 22: Colloque "données et sécurité" Ce que disent les métadonnées

Les métadonnées associées à un mail

Les métadonnées associées à un message envoyé depuis un compte Gmail ou Yahoo sont facilement exploitable et fournissent une « mine d’informations ».

Vous pouvez expérimenter en utilisant votre compte Gmail ou Yahoo à partir de l’application IMMERSION développée par une équipe de chercheurs du MIT :

https://immersion.media.mit.edu/

Immersion réalise le « mapping » de l’ensemble de vos contacts et échanges à partir de votre boite gmail (data visualisation) en hiérarchisant les métadonnées par fréquence d’envoi et de réception.

Page 23: Colloque "données et sécurité" Ce que disent les métadonnées

Les métadonnées associées à un mail

Page 24: Colloque "données et sécurité" Ce que disent les métadonnées

Les métadonnées associées à un mail

Page 25: Colloque "données et sécurité" Ce que disent les métadonnées

Les métadonnées d’archivage

Elles sont indispensables à la conservation de l’information.Il existe plusieurs standards internationaux comme le modèle OAIS : Reference Model for an Open Archival Information System développé par l’organisme international de normalisation des agences spatiales.

Les données archivées sont encapsulées dans un ensemble de métadonnées qui permet de garantir leur traçabilité et leur intégrité.

Page 26: Colloque "données et sécurité" Ce que disent les métadonnées

Les métadonnées d’archivage

Page 27: Colloque "données et sécurité" Ce que disent les métadonnées

Les métadonnées d’archivage

Page 28: Colloque "données et sécurité" Ce que disent les métadonnées

Les métadonnées « métier » d’archivage : le système PAC

Page 29: Colloque "données et sécurité" Ce que disent les métadonnées

Les métadonnées « métier » d’archivage : le système PAC

Page 30: Colloque "données et sécurité" Ce que disent les métadonnées

Métadonnées d’une image numérique

Page 31: Colloque "données et sécurité" Ce que disent les métadonnées

Limiter ses métadonnées ?

Des applications permettent de limiter la création de métadonnées et d’en supprimer certaines.

Par exemple, le système d’exploitation TAILS peut être utilisé pour minorer le volume de métadonnées créées par l’utilisateur (TAILS s’appuie sur TOR).

TAILS : The Amnesic Incognito Live System

Page 32: Colloque "données et sécurité" Ce que disent les métadonnées

Limiter ses métadonnées ?

Page 33: Colloque "données et sécurité" Ce que disent les métadonnées

Limiter ses métadonnées ?

Page 34: Colloque "données et sécurité" Ce que disent les métadonnées

2 – Quand la métadonnée renseigne plus que la donnée

http://www.lemonde.fr/pixels/video/2015/06/15/comment-les-metadonnees-permettent-de-vous-surveiller-explique-en-patates_4654461_4408996.html

Page 35: Colloque "données et sécurité" Ce que disent les métadonnées

2 – Quand la métadonnée renseigne plus que la donnée

Une donnée numérique D est accompagnée d'une ensemble de métadonnées M(D) = { M1, M2, .... , Mk } . La paire (D, M(D) ) est stockée ou transmise.On s'intéresse à l'ensemble de toutes les hypothèses que l'on peut formuler à partir de M(D) en utilisant les règles usuelles de logique (sans connaitre le contenu de D). On note H(D) = < M(D) > l'ensemble des hypothèses construites à partir de la seule connaissance des métadonnées de D ou d'une partie seulement de ces métadonnées H(D) = { H1, H2, .... , Hn }

Chaque hypothèse Hi a une probabilité pi d'être vérifiée connaissant M(D) (Hi peut être vraie sur un certain contexte à un instant t ).

pi = P ( Hi / M(D) )

Page 36: Colloque "données et sécurité" Ce que disent les métadonnées

2 – Quand la métadonnée renseigne plus que la donnéeExemple 1 – Téléphonie mobile

Une équipe du MIT a démontré dans un article de 2013 (Yves Alexandre de Montjoye, César A Hidalgo, Michel Verleysen article publié sur la revue Nature) qu’il suffit de quatre repères spatio-temporels de type métadonnées pour déterminer, dans 95% des cas, l’identité d’un individu utilisant un réseau de communication téléphonique. Les repères utilisés sont par exemple le lieu ou l’heure de l’appel téléphonique. L’identité de la cible est inconnue, seules ses traces de mobilité sont analysées. L’étude a été menée à partir des données de mobilité d’un ensemble de 1,5 million d’utilisateurs d’un réseau de téléphonie mobile. La collecte des données a eu lieu entre avril 2006 et juin 2007 dans un pays occidental. Lorsque l’utilisateur interagit avec le réseau de téléphonie par le lancement ou la réception d’un appel ou d’un SMS, l’emplacement de l’antenne de connexion relais est enregistré ainsi que l’heure de l’appel. La résolution spatiale de l’ensemble de données est égale à la moitié de la distance maximale séparant les antennes. La résolution temporelle de l’ensemble est exprimée en heures.

Page 37: Colloque "données et sécurité" Ce que disent les métadonnées

2 – Quand la métadonnée renseigne plus que la donnéeUne mesure du caractère d’unicité des traces de mobilité E (ou unicité de mobilité humaine) est construite à partir des données collectées, et s’exprime selon la formule : E = a – (v . h)B

h est la résolution temporelle, v la résolution spatiale liée au nombre d’antennes.B est un exposant linéairement lié aux nombres de traces de mobilité, par exemple B = – p / 100 avec p traces utilisées (en pratique p = 4 suffit à l’identification).La quantité « a » est une constante d’ajustement liée au système.En moyenne, l’étude rapporte 114 interactions par utilisateur, par mois, sur un réseau de 6500 antennes référencées. Ces antennes sont distribuées sur le territoire en servant environ 2000 habitants par antenne et couvrant des zones géographiques de 0,15 km² en secteur urbain et 15 km² en zone rurale. Le nombre d’antennes est bien entendu corrélé à la densité de population. Les traces de mobilité n’ont pas toutes la même valeur informationnelle. Ainsi, une communication téléphonique passée à midi en plein centre de Paris est moins spécifique, moins parlante qu’un appel passé à quatre heures du matin depuis une clairière de la forêt de Fontainebleau. L’étude démontre que quatre traces ou points choisis au hasard sont suffisants pour caractériser de façon unique 95% des utilisateurs du réseau ; c’est-à-dire que E > 0,95.

Page 38: Colloque "données et sécurité" Ce que disent les métadonnées

2 – Quand la métadonnée renseigne plus que la donnéeExemple 2 - Analyse des métadonnées Twitter

Page 39: Colloque "données et sécurité" Ce que disent les métadonnées

2 – Quand la métadonnée renseigne plus que la donnéeExemple 2 - Analyse des métadonnées Twitter

Une équipe du Master d'intelligence économique de l'université d'Angers s'est intéressée au Buzz médiatique créé le 17 mai 2015 par les révélations de Médiapart sur le procès Kerviel/ Société Générale. En utilisant le logiciel de data visualisation - cartographie Gephi l'équipe a analysé les interactions sur Twitter à partir des seules métadonnées et a été en mesure de produire les hypothèses suivantes :Mediapart, source de l’affaire, est le principal vecteur de sa diffusion. Jérome Kerviel, très mentionné car cité directement dans les tweets de Mediapart et Edwy Plenel, profite de l’occasion pour communiquer de son côté. Le compte @sg_etvous, même peu mentionné, est visible en dehors des clients de la Société Générale. Les politiques Jean-Luc Mélenchon et Eva Joly ne touchent que leurs sympathisants (leur propre communauté), contrairement au porte-parole des Verts Julien Bayou. L’avocat David Koubbi, qui prend à parti la Société Générale dans ses tweets, est très central dans les échanges.Un second filtrage sous Gephi permet de faire ressortir certains médias et quelques élus, sans enlever de comptes très mentionnés ou centraux en dehors de @Denisjph2, compte central avec 816 followers.Cela correspond à la logique de diffusion de cette information : ce sont surtout des médias ou des politiques qui relaient l’information, et qui ont donc déjà de nombreux abonnés.

Page 40: Colloque "données et sécurité" Ce que disent les métadonnées

2 – Quand la métadonnée renseigne plus que la donnéeExemple 2 - Analyse des métadonnées Twitter

Le fait pour un compte twitter d’être présent dans un nombre très important de listes permet de confirmer si des twittos considèrent ses tweets intéressants ou non. Ici, on constate que seuls les comptes de médias restent, en dehors de Jean-Luc Mélenchon, seul politique présent. La plupart des comptes ayant contribué aux discussions sur la Société Générale ne sont donc pas forcément jugés pertinents par de nombreux membres de Twitter. Cela confirme le caractère très « parisien » de la diffusion de cette information, mais aussi que les politiques nationaux basés sur Paris qui interviennent sur le sujet n’assument pas trop d’y être présent. Bien entendu, selon les thématiques, l’utilisation des filtres sera plus ou moins pertinente. Le buzz sur la « nouvelle » affaire étant ici assuré par des médias et des politiques, ce sont principalement des comptes Twitter basés à Paris, étant très listés et ayant beaucoup d’abonnés. http://master-iesc-angers.com/usage-des-metadonnees-pour-lanalyse-des-reseaux-sociaux-via-gephi-lexemple-de-la-societe-generale/

Page 41: Colloque "données et sécurité" Ce que disent les métadonnées

2 – Quand la métadonnée renseigne plus que la donnéeExemple 2 - Analyse des métadonnées Twitter

La valeur du ratio R explique la puissance informationnelle des métadonnées. En tant qu'utilisateur :

-Nous sous-estimons fortement la taille de l'ensemble M(D)

-Nous sous-estimons fortement le volume de l'ensemble H(D) = < M(D) >

-Nous sous-estimons la vitesse de convergence vers 1 des probabilités pi = P (Hi / M(D) ) lorsque M(D) croît !

Page 42: Colloque "données et sécurité" Ce que disent les métadonnées

3 - La projection algorithmique d’un individu

Page 43: Colloque "données et sécurité" Ce que disent les métadonnées

3-1 La projection algorithmique d’un individu

Lorsqu’un individu H déclenche l’exécution (volontaire ou non)d’un algorithme A sur un système S, une partie de l’informationassociée à cette exécution est stockée quelque part dans lesarchives de S, dans le Cloud ou ailleurs. C’est la trace numérique de cette interaction. Cette information est notée PS(H/A), comme la projection algorithmique de H sur S selon A. PS(H/A) est unensemble de mots binaires m qui ont un sens pour la machine quiexécute A. Cette projection algorithmique peut se décomposer encomposantes ouverte et fermée :

PS(H/A) = POS(H/A) U PFS(H/A)

Page 44: Colloque "données et sécurité" Ce que disent les métadonnées

3 -1 La projection algorithmique d’un individu

POS(H/A) est la composante ouverte de la projection, elle estpublique, consultable par tous les utilisateurs sur S. PFS(H/A) est lacomposante fermée de la projection, elle est privée, consultable par les administrateurs de S et d’autres… Elle peut aussi se décomposer en composantes volontaire etsystémique :

PS(H/A) = PVOL-S(H/A) U PSYST-S(H/A) PVOL-S(H/A) est la composante volontaire de la projection. (je rédige un mail et je l’envoie, j’achète un objet en ligne).PSYST-S(H/A) est la composante systémique de la projection.(les métadonnées créées lors d’une interaction).

Page 45: Colloque "données et sécurité" Ce que disent les métadonnées

3-1 - La projection algorithmique d’un individu

Lorsque l’on considère maintenant la réunion de toutes lesprojections algorithmiques d’un individu H sur le système S, onobtient sa S-projection notée PS(H) :

PS(H) = UA PS(H/A)

Puis, on généralise encore en considérant la réunion de toutes les S-projections de H. On obtient la projection algorithmique globale de H notée P(H) :

P(H) = US PS(H)

Page 46: Colloque "données et sécurité" Ce que disent les métadonnées

3-1 - La projection algorithmique d’un individu

La projection globale P(H) d’un individu se décompose encore en composantes globales ouverte, fermée, volontaire et systémique. Elle se construit tout au long de notre vie…

P(H) est croissante en fonction du temps t.

L’archivage et la duplication des données assurent cette croissance en volume, de la naissance jusqu’à la mort.

La composante globale systémique va bientôt dépasser en volume la composante volontaire. Les objets connectés vont contribuer à ce basculement du volontaire vers le systémique.

Page 47: Colloque "données et sécurité" Ce que disent les métadonnées

3-1 - La projection algorithmique d’un individu

Dans quelle mesure notre libre-arbitre peut-il s’accommoder d’une projection globale systémique hyper croissante ?

Doit-on s’y opposer ?

Chacun possède sa propre réponse. Celle d’aujourd’hui n’est pas celle de demain. Ma réponse est toujours directement liée à mon niveau de consentement algorithmique (cf. partie 3).

Page 48: Colloque "données et sécurité" Ce que disent les métadonnées

3-2 - Le niveau d’ubiquité d’un lieu

Considérons à présent un individu évoluant dans une ville connectée durant l'intervalle de temps [0,T]. Au cours de cettepériode, il va produire des projections algorithmiques volontaires etsystémiques (involontaires) dont on mesure le volume total V Vol ( H , [0,T] ) et V Syst ( H , [0,T] ) . On s'intéresse ensuite au ratiodes volumes "volontaire / systémique" durant la période considérée : R ( H , [0,T] ) = V Vol ( H , [0,T] ) / V Syst ( H , [0,T] ) puis à la valeurmoyenne µ ( R ( H , [0,T] ) ) de ce ratio prise sur tous les individusfréquentant la ville durant la période [0,T]. On peut alors définir leniveau d'ubiquité d'une ville connectée en fonction de cette valeurmoyenne.

Page 49: Colloque "données et sécurité" Ce que disent les métadonnées

3-2 - Le niveau d’ubiquité d’un lieu

Définition du niveau d'ubiquité d'une ville : Une ville est dite ubiquitaire de niveau N sur la période [0,T] si :

µ ( R ( H , [0,T] ) ) < 10 - N

Le niveau d'ubiquité d'une ville intelligente est l'entier N[0,T]

maximum vérifiant cette inégalité.

Plus N est grand et plus la partie systémique des projections estprépondérante sur la partie volontaire. Cela signifie que durant lapériode considérée, la densité des objets, systèmes de surveillancevidéo et infrastructures connectées de la ville provoque cettedissymétrie. Le niveau N est globalement croissant dans le temps ausein d'une ville intelligente.

Page 50: Colloque "données et sécurité" Ce que disent les métadonnées

3-2 - Le niveau d’ubiquité d’un lieu

Ubiquité et temporalité

La durée d’observation choisie T détermine le niveau d’ubiquité du lieu.

On peut s’intéresser à l’évolution de ce niveau d’ubiquité lorsque T tend vers 0. La limite s’interprète alors comme le niveau d’ubiquité instantané d’un lieu donné.

Page 51: Colloque "données et sécurité" Ce que disent les métadonnées

3-3 - Le consentement algorithmique

Ce second niveau d'ubiquité s'appuie cette fois sur une appréciation rétrospective que l'usager porte sur sa propre projection algorithmique purement systémique. Le niveau de consentement algorithmique (ou ubiquité consentie) mesure en quelque sorte le degré de liberté algorithmique ressenti par les usagers d'une ville intelligente. On le définit à partir des projections algorithmiques systémiques des usagers : P Syst - S ( H / A). On observe leur production de projections purement systémique durant l'intervalle de temps [0,T] puis à l'instant T, on leur demande de se prononcer rétrospectivement sur l'admissibilité de chacune des projections systémiques par la question : "Vous avez produit involontairement P Syst - S ( H / A). Si vous aviez la possibilité de bloquer ou de supprimer cette projection, le feriez-vous ?".

Page 52: Colloque "données et sécurité" Ce que disent les métadonnées

3-3 - Le consentement algorithmique

Les réponses de l'usager permettent alors de séparer l'ensemble des projections systémiques créées durant la période [0,T] en deux sous-ensemble : les projections systémiques rétrospectivement consenties d'une part, et celles qui sont rétrospectivement jugées non admissibles par l'usager, c'est-à-dire, celles qu'il aurait refusées s'il en avait eu la possibilité. Ainsi, la projection systémique sur un système S pendant la durée [0,T] s'écrit :

PSyst - S (H, [0,T] ) = UA, [0,T] PSyst - S (H/A)

On la généralise à tous les systèmes actifs pendant l'intervalle de temps [0,T] pour obtenir :

PSyst (H, [0,T]) = US PSyst - S (H, [0,T])

Page 53: Colloque "données et sécurité" Ce que disent les métadonnées

3-3 - Le consentement algorithmique

Puis, on passe à la phase de jugement rétrospectif de l'usager, à l'instant T, sur ses projections systémiques :

PSyst (H, [0,T]) = PSyst - consentie (H, [0,T]) U PSyst - refusée (H, [0,T])

Cette partition fait apparaitre la projection algorithmique systémique consentie par l'usager d'une part PSyst - consentie (H, [0,T]) et d'autre part, celle qu'il refuserait rétrospectivement de produire s'il en avait la possibilité : PSyst - refusée (H, [0,T]). En considérant les volumes respectifs de ces projections consenties et systémiques, on peut alors définir le ratio de consentement algorithmique d'un usager de la ville sur l'intervalle de temps [0,T] par :R consentie ( H , [0,T] ) = V Syst - consentie ( H , [0,T] ) / V Syst ( H , [0,T] )

Page 54: Colloque "données et sécurité" Ce que disent les métadonnées

3-3 - Le consentement algorithmique

Enfin, on définit la valeur moyenne de ce ratio µ (R cons ( H , [0,T] ) ) prise sur tous les individus fréquentant la ville durant la période [0,T]. Définition du consentement algorithmique : On appelle consentement algorithmique sur la période [0,T] ou niveau d'ubiquité consentie d'une ville intelligente sur la période [0,T], la valeur C[0,T] = µ (R consentie ( H , [0,T] ) ) .

Plus cette valeur moyenne C[0,T] est proche de 1 et plus il y a consentement algorithmique des usagers de la ville intelligente. Plus ce ratio s'approche de 0 et plus les usagers ont le sentiment d'une perte de liberté et d'une captation illégitime par les infrastructures connectées de leurs données personnelles. Le ratio fournit une mesure sur la période [0,T] du degré de liberté ressentie par l'usager au sein de la ville intelligente.

Page 55: Colloque "données et sécurité" Ce que disent les métadonnées

3-3 - Le consentement algorithmique

La valeur du consentement algorithmique dépend en particulier de la période sur laquelle on la mesure et du lieu d'implantation de la ville intelligente. Par exemple, la demande en systèmes de vidéo surveillance automatisés semble plus forte chez les habitants de Songdo (Corée du Sud) que dans une ville connectée européenne.

C'est avant tout une question de culture, de perception des risques et d'acceptation d'une technologie parfois intrusive.

Page 56: Colloque "données et sécurité" Ce que disent les métadonnées

3-3 - Le consentement algorithmique

Prospérité et développement d’une ville intelligente :

Une ville intelligente ne peut prospérer, se développer, et augmenter ses capacités algorithmiques que si, lorsque N[0,T] croît, alors C[0,T] croît également.

Autrement dit, le développement et la prospérité d'une ville connectée reposent sur les croissances conjuguées de son niveau d'ubiquité N[0,T] et de son consentement algorithmique C[0,T] .

Page 57: Colloque "données et sécurité" Ce que disent les métadonnées

http://cyberland.centerblog.net/ http://echoradar.eu/

http://www.chaire-cyber.fr/