18
Colloque « La donnée n’est pas donnée » Ecole Militaire – Paris Lundi 23 mars 2015 Véracité de la donnée : Un enjeu pour l’entreprise Des défis pour le Data Scientist Thierry Berthier Chaire de Cybersécurité & Cyberdéfense Saint-Cyr - Thales

Colloque "La donnée n'est pas donnée - Big Data " Ecole Militaire

Embed Size (px)

Citation preview

Colloque « La donnée n’est pas donnée »

Ecole Militaire – ParisLundi 23 mars 2015

Véracité de la donnée : Un enjeu pour l’entreprise

Des défis pour le Data Scientist

Thierry BerthierChaire de Cybersécurité &

Cyberdéfense Saint-Cyr - Thales

Selon Gartner et IBM, les données massives sont caractérisées par 6 V :

- Volume- Variété- Vélocité- Visibilité- Valeur- Véracité

Nous allons évoquer la Valeur et la Véracité d’une donnée

Premiers constats…

Les 4 V (Volume, Variété, Vélocité, Visibilité) sont assez facilement mesurables.

Mesurer précisément la valeur et la véracité d’une donnée, c’est en général un problème difficile.

Valeur et Véracité de la donnée dépendent fortement du contexte et de l’instant d’évaluation.

La Valeur et la Véracité d’une donnée sont parfois indépendantes.

Premiers constats…La fragmentation des projections algorithmiques fragmente aussi leur valeur et leur véracité

La valeur d’impact d’une donnée

On doit parler de valeur fonctionnelle instantanée d’une donnée D sur un contexte C selon un algorithme A :

Val t ( D / C, A)

Un exemple illustrant la Valeur sans la Véracité

Le faux tweet de la SEA qui valait 136 milliards de dollars

Un exemple illustrant la Valeur sans la Véracité

La valeur d’impact d’une donnée peut être indépendante de sa Véracité.C’est la confiance qu’on accorde à une donnée qui lui permet de fonder sa valeur.Interroger la donnée, c’est d’abord évaluer la confiance qu’elle suscite, mesurer sa véracité puis sa valeur sur un contexte.

La tentation des fausses données pour se protéger…

Selon le rapport Symantec 2015 sur la protection des données privées :

57 % des européens se déclarent inquiets quant à la sécurité de leurs informations personnelles.

81 % estiment que leurs données ont de la valeur (>1000 euros).

31 % n’hésitent plus à communiquer de fausses données pour protéger leurs données personnelles.

Des applications pour créer de fausses données

Tromper les applications Android avec de fausses données !Xprivacy est un outil qui permet de nourrir les applications Android avec de faux contacts, de fausses coordonnées géographiques, de faux dictionnaires user, de faux presses papiers, de faux historiques d’appels, de faux SMS… L’objectif étant de créer de fausses données pour mieux protéger sa vie privée.

Des applications pour créer de fausses données

Le site FakeNameGenerator permet de construire des bases de données sous divers formats (MS SQL, MySQL,IBM DB2, Oracle,…) de 50 000 identités cohérentes incluant l’identité, l’âge, l’adresse, le métier, etc…

Données fictives et hacking

Dans une opération de hacking, la phase d’ingénierie sociale s’appuie de plus en plus souvent sur la création d’un ensemble de données fictives.L’objectif est d’installer la confiance auprès des cibles et de les pousser à exécuter un code viral (malware,spyware, rançonware,…).Un exemple emblématique : l’Opération Newscaster - NewsOnLine

L’OP Newscaster

Newscaster est une opération de cyberespionnage attribuée à l’Iran qui s’inscrit dans le durée (2012-2014) ciblant plus de 2000 personnes (USA, Europe, Israël) , des officiers supérieurs de l’US Army, des ingénieurs de l’industrie de l’armement, des membres du congrès, etc. C’est une APT longue, structurée et furtive. La première phase de l’opération s’est appuyée sur la construction d’un faux site web d’information NewsOnLine, hébergé sur des serveurs US et supervisé par une rédaction américaine fictive. Des contacts ont été noués avec les futures cibles pour qu’elles participent à la rédaction d’articles du site. Un noyau de profils fictifs américains (sur Facebook, Twitter, LinkedIn) a été construit de toute pièce pour échanger avec les cibles. La confiance s’installe durant près d’un an puis, les attaquants profitent des échanges de fichiers d’articles pour injecter des spyware sur les machines des cibles et collecter des données sensibles ou classifiées.

L’OP Newscaster

Mesurer la confiance en une donnée ?

Pour une donnée D, nous évaluons en général la probabilité :

P ( D est vraie / Historique et réputation )

L’historique du contexte et la réputation de l’émetteur de la donnée.

Nous devrions plutôt évaluer :

P ( D est vraie / Historique, réputation et P(Hacking(D)) > 0 )

C’est cette probabilité qui permet d’exprimer la confiance que l’on porte en une donnée.

Les futurs défis du Data Scientist

- Il faut évoluer vers la certification des données.- Certifier une donnée, c’est augmenter sa valeur !- L’analyse Big Data doit s’appuyer sur des données globalement certifiées. - Nous devons pouvoir détecter les corpus de données fictives pour anticiper le hacking et les cybermanipulations.

- Il faut pour cela former des Data Scientists qui possèdent une vraie culture de cybersécurité et croiser les compétences de sorte que les deux derniers V (Volume et Véracité) occupent toute leur place.

- Il faut construire des infrastructures algorithmiques dans le BigData qui soient résilientes, antifragiles, capables d’évaluer en temps réel la véracité et la valeur des données en streaming.

Thierry Berthier est Maitre de conférences en mathématiques à l'Université

de Limoges. Il effectue ses recherches au sein de la Chaire de Cybersécurité & Cyberdéfense, Saint-Cyr - Thales – Sogeti, est membre de l'Institut Fredrik Bull et du comité d'études de la Défense Nationale. Il est cofondateur du site d’analyse stratégique EchoRadar et de Cyberland.

Thierry BERTHIER

ECHORADAR & CYBERLAND

http://cyberland.centerblog.net/

http://echoradar.eu/

https://twitter.com/echo_radar