Lorsque l'intelligence artificielle uberise la cybersécurité

Colloque « Economie de la cybersécurité »

14 novembre 2016, Amphithéâtre Austerlitz

Musée de l’Armée, Hôtel National des Invalides, Paris

Colloque organisé par la Chaire de cyberdéfense & cybersécurité Saint-Cyr, Thales, Sogeti et les écoles de Saint-Cyr Coëtquidan

« Lorsque l'intelligence artificielle "uberise" la cybersécurité »

Thierry Berthier

Chaire de cyberdéfense & cybersécurité Saint-Cyr

« Lorsque l'intelligence artificielle "uberise" la cybersécurité »

L'intelligence artificielle (IA) transforme l'ensemble des activités humaines. La cybersécurité, en tant que pratique numérique, n'échappe pas à cette diffusion de l'IA. Elle s'apprête ainsi à connaitre une véritable révolution avec l'émergence de deux nouvelles approches industrialisant la sécurité des systèmes : d'une part le développement de solutions d'UBA (User Behavior Analytics) très performantes qui intègrent l'apprentissage automatique, et d'autre part le déploiement généralisé d'agents intelligents autonomes de type "Bug Hunting" présentés en août 2016 lors du Cyber Grand Challenge supervisé par l'Agence américaine Darpa.

Ces deux familles d'innovations technologiques issues des progrès de l'IA vont impacter de plein fouet le périmètre de l'expertise humaine en cybersécurité. Elles vont aussi bouleverser le marché et l'économie associés. La Chine vient d'annoncer très officiellement qu'elle allait consacrer plus de 16 Milliards de dollars à la R&D en l'IA entre 2016 et 2018 dans le but de relancer sa croissance et de relever les nouveaux défis dont celui de la cybersécurité.

PLAN

1 – Intelligence artificielle (IA) : de quoi parle – t -on ?

2 - La course à l’IA est lancée !

3 - Les apports de l’IA en cybersécurité – cyberdéfense

4 – Uberisation par l’IA - prospective

1 – Intelligence artificielle :

de quoi parle-t-on ?

6

Des tentatives pour définir l’IA …

L’expression IA apparaît en 1956 durant la conférence de Dartmouth dans une première définition (qui s’avère très insuffisante aujourd’hui) :

Définition de Marvin Minsky (1927 – 2016)« L’intelligence artificielle est la science qui consiste à faire faire à des machines ce que l’homme fait moyennant une certaine intelligence ».

Critique : Cette définition présente une forte récursivité… La « complexité » mentale est-elle comparable à la complexité informatique ?La définition de Minsky exclut des domaines majeurs de l’IA : la perception (vision et parole), la robotique, la compréhension du langage naturel, le sens commun.

7


L’IA est-t-elle le contraire de la « bêtise naturelle » ??

Une définition plus opérationnelle : « L’IA est le domaine de l’informatique qui étudie comment faire faire à l’ordinateur des tâches pour lesquelles l’homme est aujourd’hui encore le meilleur. » (Elaine Rich & Knight – Artificial Intelligence)

Les grandes dichotomies de l’IA subsistent :- IA forte vs IA faible, - Niveau de compétence vs niveau de performance,- Algorithmique vs non algorithmique,- Vision analytique vs vision émergente de la résolution de problèmes,- Sciences du naturel vs sciences de l’Artificiel.

8


IA forte : une machine produisant un comportement intelligent , capable d’avoir conscience d’elle-même en éprouvant des « sentiments » et une compréhension de ses propres raisonnements.IA faible : Machine simulant ces comportements sans conscience d’elle-même. Impossibilité liée au support « biologique » de la conscience.

La question centrale : une « conscience » peut-elle émerger de manipulations purement syntaxiques ?

C’est l’expérience de la Chambre chinoise imaginée par John Searle en 1981. C’est aussi l’hypothèse (forte) de la pensée singulariste / transhumaniste.

9

Le Test de Turing (1950)

10

Compétence vs performance :On doit tenir compte de la distinction introduite par Noam Chomsky (MIT) : faire « comme » ou faire « aussi bien que ». L’oiseau et l ’avion volent mais pas de la même façon…Jeux d ’échecs : les grands champions réfléchissent différemment de Deep Blue. Jeu de Go : AlphaGo n’a pas la même approche que celle du champion du monde .

Vision analytique vs vision émergente de la résolution de problèmes :D’un côté on procède par décomposition de problèmes en sous-problèmes plus simples à résoudre (analyse procédurale, système experts basés sur la logique des prédicats) et de l’autre, on réalise une distribution des tâches à un ensemble d ’agents qui interagissent (exemple : Ant Algorithm).

14

L’histoire de l’IA est très récente… (60 ans)

Acte de naissance : 1956, Darmouth College (New Hampshire,USA)John McCarthy (tenant de la logique) et Marvin Minsky (tenantd’une approche par schémas).Genèse autour de la notion de « machines à penser »Comparaison du cerveau avec les premiers ordinateurs

Les grands acteurs de l’IA

Mc Culloch et Pitts : réseaux neuronaux artificiels (approchephysiologique),Wiener : cybernétique,Shannon : théorie de l’information,Von Neumann : architecture d’un calculateur,Alan Turing : théorisation des fonctions calculables par machine,Kurt Gödel : théorème d’incomplétude (1931).

15

Les premiers programmes et systèmes de l’IA

Newell, Simon et Shaw proposent un premier programme dedémonstration de théorèmes en logique (1956!). Ils généralisent enproposant le General Problem Solver qui progresse dans larésolution en évaluant la différence entre la situation du solveur etle but à atteindre.

Les programmes capables de jouer aux échecs : les premières idéesapparaissent en 1950 avec Shannon. La première victoire sur unMaître en 1997 Deep Blue bat Kasparov. Jeu de Go: AlphaGo remporte 4 victoires sur 5 au jeu de Go en 2016Le test « d’intelligence » (Evans 1963) : trouver la suite « logique »(analogique en fait) d’une série de figures.Résolution de problèmes par propagation de contraintes ( Waltz1975 ).Dialogue en « langage naturel » : Eliza, Weizenbaum en 1965Système SHRDLU Winograd en 1971.

16

L’époque des systèmes experts (1970-1980)

Les systèmes experts apparaissent au début des années 1970 et sedéveloppent jusqu’à la fin des années 1980 :

DENDRAL en chimie, MYCIN en médecine, Hersay II encompréhension de la parole, Prospector en géologie.

Apparaissent également les premiers générateurs de systèmesExperts : NEXPERT System, CLIPS, …

Les langages de programmation pour l’IA

LISP (usa), PROLOG (France - Colmerauer), SmallTalk (langage objet), YAFOOL et KL-ONE (langages de Frame),langages de logique de description.

17

Dès 1970, apparaît le concept de Réseaux sémantiques

18

Les années 1980 : La période des espoirs déçus de l’IA

Recul de l’approche symbolique de l’IA : Après des espoirs déçus : en particulier avec l’échec de lagénéralisation de la théorie des micromondes et le constat dumanque de souplesse des systèmes experts (on parlerait aujourd’huide manque d’agilité). Ils ont pourtant enregistré des succès dans desdomaines bien spécifiques en particulier en informatique de gestion.

Renaissance de l’approche connexionniste :- Systèmes multi-agents, concept de « vie artificielle »,- Hopfield, mémoire autoassociative, 1982 - Rumelhart & McClelland, Parallel Distributed Processes, MIT Press,1985- Réseaux de neurones artficiel (RNA)

19

Les défis actuels de l’IA

- Attente d’une IA généraliste (?), autonome (?), auto-apprenante- Elle doit devenir performante et adaptative sur des situations dynamiques, changeantes, singulières. - Elle doit être capable d’assister l’apprentissage humain.- Elle doit être en mesure de gérer des dialogues entre « agents » très hétérogènes.

Pour cela, il faut traiter la cognition comme une émergence dans l’interaction avec l’environnement.

Ceci implique la conception d’une nouvelle génération de systèmes informatiques qui vont privilégier une cognition située, distribuée, émergente (prolifération d’agents intelligents et auto-apprentissage).

20

L’agent intelligent comme concept fondamental de l’IA

- Le terme « action » est à comprendre au sens large. Cela peutsignifier « fournir un diagnostic ». - La boucle systémique Agent/Environnement n’est pasnécessairement fermée.

?

senseurs

"actionneurs "

AGENT

perception ENVIRO

NN

EMEN

T

"action"Source – Mines ParisTech

21

Source – Mines ParisTech

22

Définition de l’apprentissage artificiel :« Capacité d’un système à améliorer ses performances via des interactions avec son environnement » .

Spécificité de l’apprentissage :Conception et adaptation de l’agent « intelligent » par analyse automatisée (statistique) de son environnement et de son action dans cet environnement.

Exemple typique d’apprentissage artificiel :L’agent « prédicteur »

23

Historique

Donnéesexternes

PrédictionAGENTPREDICTEUR

Modèle de l’agent prédicteur

Performance espérée : minimiser l’erreur de prédictionMéthode : utiliser des données expérimentales pour déterminer le modèle le plus correct du type :

Prédiction = F ( historique, données externes )

Source – Mines ParisTech

24

Un système d’apprentissage est en général composé :

- d’un modèle paramétrique,

- d’une façon d’interagir avec l’environnement,

- d’une « fonction de coût » à minimiser,

- d’un algorithme destiné à adapter le modèle, en utilisant les données issues de l’environnement, avec l’objectif d’optimiser la fonction de coût

25

Le modèle mathématique d'un neurone artificiel

Entrées duneurone

Poids duneurone

26

Sortie n de l’intégrateur :

Sous forme matricielle :

b = biais du neurone

Sortie a du neurone :

Principe de fonctionnement du

neurone

27

Les plus courantes

Les plus utilisées

fonction seuil(ou "hard limit") fonction sigmoïde fonction linéaire

Fonctions de transfert usuelles

28

Construction du réseau de neurones

29

Représentation du réseau

30

La phase d'apprentissage d'un réseau de neurones se décompose en cinq étapes :

Etape 1 - Présenter au réseau un couple entrée-cible.Etape 2 - Calculer les prévisions du réseau pour les cibles.Etape 3 - Utiliser la fonction d'erreur pour calculer la différence entre les prévisions (sorties) du réseau et les valeurs cible. Reprendre les étapes 1 et 2 jusqu'à ce que tous les couples entrée-cible aient été présentés au réseau. Etape 4 - Utiliser l'algorithme d'apprentissage afin d'ajuster les poids du réseau de telle sorte qu'il produise de meilleures prévisions à chaque couple entrée-cible. Remarque : les étapes 1 à 5 constituent un seul cycle d'apprentissage ou itération. Le nombre de cycles nécessaire pour entraîner un modèle de réseaux de neurones n'est pas connu a priori mais peut être défini dans le cadre du processus d'apprentissage.Etape 5 - Répéter à nouveau les étapes 1 à 5 pendant un certain nombre de cycles d'apprentissage ou d'itérations jusqu'à ce que le réseau commence à produire des résultats suffisamment fiables (c'est-à-dire des sorties qui se trouvent assez proches des cibles compte tenu des valeurs d'entrée). Un processus d'apprentissage type pour les réseaux de neurones est constitué de plusieurs centaines de cycles.

31

Les réseaux de neurones sont performants dans les taches suivantes :

Traitement du signal, Maîtrise des processus,

Robotique, Classification,

Pré-traitement des données Reconnaissance de formes,

Analyse de l'image et synthèse vocale, Diagnostics et suivi médical,

Marché boursier et prévisions, Demande de crédits ou de prêts immobiliers.

32

Deep Learning et Réseaux de Neurones

On enregistre les premiers succès du Deep Learning (apprentissage profond) en 2006. Les réseaux de neurones accompagnent les avancées du Deep Learning .

Ces réseaux sont multicouches. Ils effectuent une série de traitements hiérarchisés dans le but de classer des objets en catégories, sans critères prédéfinis. Il s'agit d'un apprentissage non supervisé.

Google, Facebook, IBM les utilisent partout aujourd’hui…

2 –

La course à l’IA est lancée !

La Course à l’IA

La Course à l’IA

La Course à l’IA

La Course à l’IA Google, IBM, Twitter, Intel, Apple, Yahoo, Salesforce, Samsung, sont en concurrence depuis 2011 pour racheter les startups d’IA les plus innovantes.

Depuis 2011, 140 startups et entreprises travaillant dans le secteur de l’intelligence artificielle avancée ont été rachetées , dont 40 acquisitions en 2016 !

La Course à l’IA

Google, leader mondial du rachat de startups d’IA

La Course à l’IA

Google, leader mondial du rachat de startups d’IA

Google a été l’acheteur le plus « vorace » avec 11 rachats de startups d’IA.En 2013, Google a mis la main sur DNNresearch , startup spécialisée dans le deep learning et les réseaux de neurones, issue du laboratoire d’IA de l’Université de Totonto.En 2014, Google achète la startup britannique DeepMind Technologies pour 600 millions de dollars (DeepMind a développé entre autres le programme AlphaGo qui a remporté 4 victoires sur 5 contre le champion du monde de jeu de Go Lee Sedol). En 2016, Google a racheté la startup française Moodstock (reconnaissance visuelle via le deep learning) et la plateforme conversationnelle (Chatbot ) Api.ai.

La Course à l’IA En seconde position dans la course au rachat des startups de l’IA , on trouve Intel et Apple :

Intel a acheté cette année les startups : Itseez, Nervana Systems et Movidius.

Apple a acheté en 2016 les startups Turi et Tuplejump.

Au troisième rang des acheteurs, Twitter qui a acheté 4 startups dont Magic Pony (Londres, reconnaissance visuelle).

Enfin, Salesforce en quatrième position a racheté en 2015 la startups TempoAI (assistant personnel) et en 2016 MetaMind (analyse de contenus) et Prediction IO (plateforme open source de machine learning).

Acquisition de startups d'IA depuis 2011

Startup Date d'acquisition Acheteur

Hunch 11/21/2011 eBay

Cleversense 12/14/2011 Google

Face.com 5/29/2012 Facebook

DNNresearch 3/13/2013 Google

Netbreeze 3/20/2013 Microsoft

Causata 8/7/2013 NICE

Indisys 8/25/2013 Yahoo

IQ Engines 9/13/2013 Intel

LookFlow 10/23/2013 Yahoo

SkyPhrase 12/2/2013 Yahoo

Gravity 1/23/2014 AOL

DeepMind 1/27/2014 Google

Convertro 5/6/2014 AOL

Cogenea 5/20/2014 IBM

Desti 5/30/2014 Nokia

Medio Systems 6/12/2014 Nokia

Madbits 7/30/2014 Twitter

https://www.cbinsights.com/company/hunch

https://www.cbinsights.com/company/cleversense

https://www.cbinsights.com/company/facecom

https://www.cbinsights.com/company/dnnresearch

https://www.cbinsights.com/company/netbreeze

https://www.cbinsights.com/company/causata

https://www.cbinsights.com/company/indisys

https://www.cbinsights.com/company/iq-engines

https://www.cbinsights.com/company/lookflow

https://www.cbinsights.com/company/skyphrase

https://www.cbinsights.com/company/gravity

https://www.cbinsights.com/company/deepmind-technologies

https://www.cbinsights.com/company/convertro

https://www.cbinsights.com/company/cognea

https://www.cbinsights.com/company/desti

https://www.cbinsights.com/company/medio-systems

https://www.cbinsights.com/company/madbits

Acquisition de startups d'IA depuis 2011

Startup Date d'acquisition Acheteur

Emu 8/6/2014 Google

Jetpac 8/16/2014 Google

Dark Blue Labs 10/23/2014 DeepMind

Vision Factory 10/23/2014 DeepMind

Wit.ai 1/5/2015 Facebook

Equivio 1/20/2015 Microsoft

Granata Decision Systems 1/23/2015 Google

AlchemyAPI 3/4/2015 IBM

Explorys 4/13/2015 IBM

TellApart 4/28/2015 Twitter

Timeful 5/4/2015 Google

Tempo AI 5/29/2015 Salesforce

Sociocast 6/9/2015 AOL

Whetlab 6/17/2015 Twitter

Orbeus 10/1/2015 Amazon

Vocal IQ 10/2/2015 Apple

Perceptio 10/6/2015 Apple

https://www.cbinsights.com/company/emu

https://www.cbinsights.com/company/jetpac

https://www.cbinsights.com/company/dark-blue-labs



https://www.cbinsights.com/company/vision-factory

https://www.cbinsights.com/company/wit

https://www.cbinsights.com/company/equivio

https://www.cbinsights.com/company/granata-decision-systems

https://www.cbinsights.com/company/alchemyapi

https://www.cbinsights.com/company/explorys

https://www.cbinsights.com/company/tellapart

https://www.cbinsights.com/company/timeful

https://www.cbinsights.com/company/tempo-ai

https://www.cbinsights.com/company/sociocast-network

https://www.cbinsights.com/company/whetlab

https://www.cbinsights.com/company/orbeus

https://www.cbinsights.com/company/vocal-iq

https://www.cbinsights.com/company/perceptio

Acquisition de startups d'IA depuis 2011Startup Date d'acquisition AcheteurSaffron 10/26/2015 Intel

Emotient 1/7/2016 Apple

Nexidia 1/11/2016 NICE

PredictionIO 2/19/2016 Salesforce

MetaMind 4/4/2016 Salesforce

Crosswise 4/14/2016 Oracle

Expertmaker 5/5/2016 eBay

Itseez 5/27/2016 Intel

Magic Pony 6/20/2016 Twitter

Moodstocks 7/6/2016 Google

SalesPredict 7/11/2016 eBay

Turi 8/5/2016 Apple

Nervana Systems 8/9/2016 Intel

Genee 8/22/2016 Microsoft

Movidius 9/6/2016 Intel

Palerra 9/19/2016 Oracle

Api.ai 9/19/2016 Google

Angel.ai 9/20/2016 Amazon

tuplejump 9/22/2016 Apple

https://www.cbinsights.com/company/saffron-technology

https://www.cbinsights.com/company/emotient

https://www.cbinsights.com/company/nexidia

https://www.cbinsights.com/company/predictionio

https://www.cbinsights.com/company/metamind

https://www.cbinsights.com/company/crosswise

https://www.cbinsights.com/company/expertmaker

https://www.cbinsights.com/company/itseez-inc

https://www.cbinsights.com/company/magic-pony

https://www.cbinsights.com/company/moodstocks

https://www.cbinsights.com/company/salespredict

https://www.cbinsights.com/company/nervana-systems

https://www.cbinsights.com/company/geenee

https://www.cbinsights.com/company/movidius

https://www.cbinsights.com/company/apprity

https://www.cbinsights.com/company/speaktoit

https://www.cbinsights.com/company/gobutler

https://www.cbinsights.com/company/tuplejump

Les leaders de la recherche en Machine Learning

La Chine et les Etats-Unis sont leaders dans la recherche en Machine Learning / Deep Learning.

La Chine vient de prendre la tête du classement des pays en terme de publications de recherche en Machine Learning / Deep Learning et des citations de ces articles.

Barack Obama a fait plusieurs interventions rappelant l’importance stratégique de l’IA dans la future croissance américaine. Plusieurs études prospectives sur l’IA ont été lancées par son gouvernement.

https://www.whitehouse.gov/sites/default/files/whitehouse_files/microsites/ostp/NSTC/national_ai_rd_strategic_plan.pdf



3 – Les apports de l’IA en

cybersécurité- cyberdéfense

53

Quelques chiffres concernant 2015 …

54

Les chiffres de la cybersécurité en 2015 Etude Pwc – The Global State of Information Security Survey 2016

Au niveau mondial :

- Une augmentation de 38 % du nombre de cyberattaques.

- Une augmentation de 24 % des budgets sécurité des entreprises (correction par rapport à la tendance en baisse constatée en 2014)

- En France, le nombre de cyberattaques a progressé de 51 % au cours des 12 derniers mois et les budgets de sécurité des entreprises françaises ont progressé en moyenne de 29 % alors que les pertes estimées liées aux cyberattaques ont augmenté de 28 % en une année.

55

Pourcentage d’augmentation du nombre d’incident de cybersécurité en 2015 en France et dans le monde

Source d’incident de cybersécurité en 2015 en France et dans le monde

56

Au niveau mondial comme en France, la source des menaces reste majoritairement interne aux entreprises. En effet, les employés actuels constituent, cette année encore, la principale source des compromissions de données. Cependant les sources qui ont progressé le plus en 2015 sont, elles, externes aux entreprises. L’étude révèle que la responsabilité des fournisseurs et des prestataires de service actuels est de plus en plus importante ; elle a augmenté d’environ 32% pour les fournisseurs et de 30% pour les prestataires de services. Cela est dû au fait que les entreprises travaillent de plus en plus en collaboration avec des partenaires externes, ce qui participe à l’expansion de la surface d’attaque.

Augmentation du budget moyen « cybersécurité » des entreprises en 2015

57

Le budget moyen de cybersécurité des entreprises françaises interrogées s’est établi à 4,8 millions d’euros par entreprise en 2015, soit un budget en hausse de 29% par rapport à l’année dernière – un chiffre quelque peu supérieur à la moyenne mondiale de 24%. Les répondants ont affirmé que l’implication de plus en plus poussée du comité exécutif a permis d’améliorer leurs pratiques de cybersécurité. Ces investissements budgétaires répondent à une menace réelle pesant sur les résultats des entreprises. En effet, les pertes financières liées à des incidents de cybersécurité sont estimées en moyenne à 1,3 million d’euros pour une grande entreprise en France, soit une augmentation de 28% par rapport à 2014. Alors que les cyber-risques deviennent des préoccupations clés des comités exécutifs, les dirigeants repensent leurs pratiques en matière de cybersécurité et se concentrent sur un mix de technologies innovantes qui peuvent réduire les risques, tout en améliorant la performance commerciale de l’entreprise. Ces technologies permettent de construire des dispositifs de protection intégrés et holistiques contre les cyberattaques. 91% des organisations interrogées ont mis en place des frameworks pour la sécurité, ou, plus souvent, une fusion de différents frameworks.

58

http://www.pwc.fr/cybersecurite-le-nombre-de-cyber-attaques-recensees-a-progresse-de-38-dans-le-monde-en-2015.html

59

http://www.pwc.fr/cybersecurite-le-nombre-de-cyber-attaques-recensees-a-progresse-de-38-dans-le-monde-en-2015.html

60

61

- 75 % des entreprises ont été victimes d’attaques au cours des deux dernières années.

- 8 sur 10 n’avaient pas conscience d’avoir été compromises.

- 99 % ne possèdent que les outils basiques de protection : firewall, antivirus, sauvegardes.

62

Les 5 chiffres-clés de la cybersécurité en France

- 81 % des entreprises françaises ont été visées par une cyberattaque en 2015(Selon un sondage OpinionWay pour le club des experts de la sécurité de l’information et du numérique).

- 5 à 10 % du budget d’une entreprise devrait être consacré à la cybersécurité(Selon l’estimation formulée par Guillaume Poupard, Directeur de l’ANSSI – article publié sur Les Echos).

63

Les 5 chiffres-clés de la cybersécurité en France

- 800 000 euros est le coût moyen pour se remettre d’une violation du système d’information d’un entreprise française.(Selon l’étude NTT Com Security : 300 000 euros pour une entreprise de 1000 salariés au moins et jusqu’à 1,3 millions pour une entreprise de plus de 5000 salariés. L’attaque de TV5 Monde nui a coûté 4,6 millions d’euros pour réparer les dégâts !).

- Il faut en moyenne 9 semaines pour réparer les dégâts causés par une cyberattaque. (Selon NTT Com Security).

- 35 % des incidents de sécurité ont été générés (involontairement) par des collaborateurs.(Selon une étude du cabinet Pwc).

64

Pour détecter les menaces, les mécanismes de sécurité « traditionnel » se basent aujourd’hui sur des signatures ou sur des scénarios de malveillance pré-établis, donc rigides et peu ou pas adaptés aux menaces en évolution permanente.

Les solutions de cybersécurité classiques sont créées autour de règles utilisées pour détecter les vulnérabilités et les activités suspectes. Elles sont en général insensibles aux APT.

Ces systèmes ont atteint leurs limites fonctionnelles !L’IA permet de dépasser ces limites.

65

Security Information and Event Management

66

UBA : User Behavior Analytics

67

68

69

70

Fonctionnement d’une solution UBA

Une solution utilisant l’UBA apprend, sans pré-requis de modèle, à partir de « l’historique de vie » d’un système puis catégorise et sépare les comportements « anormaux » de ceux qui sont conformes aux standards de sécurité.

L’UBA est ainsi en mesure de produire des alertes sur des événements susceptibles de créer un contexte de vulnérabilité.

Le fonctionnement de l’UBA repose sur l’apprentissage statistique. Celui-ci exploite les données massives qui demeuraient jusqu’à présent sous-employées ou seulement partiellement utilisées comme les bases de logs des systèmes connectés.

71


Les outils UBA exploitent massivement les rapports d’activité, les fichiers de logs et le SIEM (Security Information Management System) en tant que base d’apprentissage.

Ils définissent des motifs typiques correspondant statistiquement à des comportements à risque.

Les solutions UBA contiennent souvent plusieurs moteurs de détection d’anomalies, complémentaires, qui collaborent pour couvrir un large spectre de menaces. On y trouve en général un moteur de détection de signal faible, un moteur de corrélation métier issu de l’expertise d’ingénieurs en cybersécurité complétés par une base de connaissance globale régulièrement mise à jour à partir des retours d’expériences-clients.

72


Ces moteurs travaillent sur une base (big data) souvent externalisée qui contient les données d’entrées utilisées ensuite lors de la phase d’apprentissage.

Ces données proviennent de sources diverses : SIEM et logs via les connecteurs SIEM, des messages AMQP (Advanced Message Queuing Protocol) et des requêtes JSON (JavaScript Object Notation).

Après analyse, le système UBA renvoie les alertes, les seuils et les sources d’anomalies par logs, Syslogs, AMQP et XML/JSON. Les règles métiers peuvent être implémentées et suivies dans le corrélateur métier (cf; Technologie Reveelium développée par ITrust).

73

Ce que détecte une solution UBA

L’IHM des moteurs UBA permet d’afficher les corrélations, de suivre les déviances et d’instaurer un dialogue entre l’utilisateur et son système de détection. Les anomalies affichées peuvent être des virus connus, des malwares furtifs, des comportements à risque, de la fraude, une fuite de données, une malveillance numérique…

Les solutions UBA offrent un spectre de détection beaucoup plus large qu’un système de supervision classique ou qu’un antivirus.

Elles permettent ,entre autres, l’analyse forensique et l’investigation après une compromission. Elles identifient l’attaque et son cheminement.

Elles sont en mesure de détecter une utilisation frauduleuse du système d’information et notamment l’usurpation de droits.

74

Elles réagissent à la perte et au vol de données et se montrent efficaces face à des attaques de type APT.

Elles peuvent prédire certains crashs entraînant une indisponibilité de la production et sont utiles pour respecter la conformité aux réglementations et aux meilleures pratiques.

Elles détectent les pertes et fraudes financières ainsi que les attaques sur l’image de marque. L’apprentissage statistique permet souvent de diviser par 50 les temps d’analyse des données par les superviseurs !

Pour finir, on notera que lorsque la solution UBA est développée en Europe, sa technologie n’est pas soumise au Patriot Act et les données des clients restent confidentielles, conformément aux réglementations européennes.

75

Ce que l’UBA (2016) aurait pu éviter …

Une solution UBA aurait été en mesure de détecter les agissements de Snowden avant qu’il ne réalise ses vols de données.

Cette solution UBA aurait également été capable de détecter la propagation des virus et APT récents (Target, Sony,…) avant les extractions de données confidentielles des entreprises concernées.

76

Quelques exemples de solutions proposant l’approche User Behavior

Analytics (UBA)

SPLUNK – solution UBAITRUST - solution Reveelium

DARKTRACE SENTRYO – solution ICS Cybervision

THALES – Sonde Cybels SensorCISCO TALOS

77

Splunk – solution UBA Société américaine (San Francisco) développe une solution appelée UBA (User Behavior Analytics) qui se veut « clé en main ». Elle permet de détecter des menaces connues, inconnues et dissimulées via l’apprentissage automatisé.

Avant l’UBA, les solutions travaillaient sur la base de règles et de codification de tous les scénarios qui pouvaient aboutir à une anormalité. Les limites sont atteintes : impossible de tout codifier et un taux extrêmement élevé de faux positifs d’autre part. L’UBA fournit aujourd’hui une approche complémentaire qui permet de détecter les comportements déviants.

Splunk vient de racheter la start-up Caspida spécialisée dans les technologies de machine learning.

78

79

80

81

82

83

84

85

86

Solution Itrust Reveelium

87

88

89

90

DarktraceStart-up britannique fondée en 2013, valorisée à 100 millions de dollars, utilise des technologies d’UBA issues de recherches menées à l’Université de Cambridge. Les solutions Darktrace construisent un modèle comportemental à partir du flux généré par les machines et les usages des employés. Ce modèle apprend tout au long de la durée de vie du projet. Il fonctionne comme un système immunitaire biologique qui devient performant pour détecter les APT. La solution Darktrace utilise environ 300 paramètres (heures, IP de connexion des utilisateurs,…) pour établir un modèle comportemental dont la première phase d’apprentissage dure environ une semaine. Le réseau est visualisable en 3D, en temps réel. Des solutions existent pour la bureautique et pour les systèmes industriels.

91

92

93

94

95

96

Sentryo ICS Cybervision (startup française)

La start-up lyonnaise Sentryo développe la solution ICS CyberVision dédiée à la sécurisation « UBA » des sites industriels critiques SCADA. Sentryo rapproche IT et OT. Ses solutions permettent de dépasser le périmètre classique d’un système, avec une approche plus globale de sa cybersécurité.https://www.sentryo.net/fr/

https://www.sentryo.net/fr/

97

Solution Sentryo surveillant un réseau industriel SCADA

98

Thales – Sonde de détection Cybels Sensor

Le groupe Thales développe sa sonde de détection d’intrusion Cybels Sensor qui intègre l’UBA pour détecter les évènements anormaux en complément des signatures d’attaques classiques.

https://www.thalesgroup.com/sites/default/files/asset/document/cybels_white_paper_uk_08042013.pdf



99

Thales – Cybels Sensor

100

Cisco – Talos

Talos, division sécurité de Cisco développe une solution dédiée aux sites industriels qui embarque des technologies d’UBA.

101

4 – Uberisation par l’IA - Prospectives

102

Les programmes DARPA en cybersécurité & UBAhttp://www.darpa.mil/program/space-time-analysis-for-cybersecurity

http://www.darpa.mil/program/cyber-grand-challenge

Open Catalog : http://opencatalog.darpa.mil/ADAMS.html

http://www.darpa.mil/program/space-time-analysis-for-cybersecurity

http://www.darpa.mil/program/cyber-grand-challenge

http://opencatalog.darpa.mil/ADAMS.html

103

104

105

Organisée par la DARPA (l'Agence pour les projets de recherche avancés de défense supervisée par le département de la Défense des Etats-Unis), la phase finale du Cyber Grand Challenge vient de se dérouler, les 6 et 7 août 2016, à Las Végas. Le CGC a opposé sept systèmes robotisés développés durant trois années par sept équipes finalistes dans la détection automatique de vulnérabilités logicielles et réseaux présentes dans le système adverse et la protection de son propre environnement numérique. Conçu avant tout comme un démonstrateur, le tournoi CGC a prouvé qu'il était désormais possible de concevoir des agents logiciels capables de scanner de façon automatique des codes adaptés puis de détecter certaines de leurs vulnérabilités. La compétition a eu lieu dans un environnement numérique spécifique dans lequel se sont affrontés quinze supercalculateurs détecteurs de vulnérabilités informatiques devant un comité d'arbitrage qui a finalement désigné l'équipe ForAllSecure comme gagnante du Challenge CGC.

La Darpa souhaite désormais développer des agents logiciels "chasseurs de bugs" ouvrant ainsi la voie à une cybersécurité automatisée, industrialisée, exploitant massivement les techniques de l'intelligence artificielle. Les démonstrateurs finalistes du CGC doivent évoluer à très court terme vers la production d'agents "Bug-Hunting Bots" qui seront déployés sur l'ensemble des réseaux sensibles. Ces futurs agents autonomes pourront être utilisés autant en mode défensif qu'en version offensive afin de détecter certaines des vulnérabilités d'un système adverse. Cette évolution vers une cyberdéfense "robotisée" se trouve toutefois limitée par un résultat mathématique lié au problème de l'arrêt (Turing) qui prouve qu' il n'existe pas d'analyseur universel capable de décider sans jamais se tromper, pour tout programme, si ce programme est sûr ou non. Cette limite théorique permet d'affirmer que la cybersécurité absolue n'existe pas... Cela dit, une telle borne n'interdit pas le développement de systèmes de détections dont la performance pourrait atteindre 90 ou 95% de l'ensemble des vulnérabilités.

Lorsque deux IA installent un protocole cryptographique ….

Article (octobre 2016) de Google Brain

https://arxiv.org/pdf/1610.06918v1.pdf

" Alice devait envoyer un message à Bob, qui devait réussir à le déchiffrer sans qu’Eve ne parvienne à écouter le message. L’expérience a dépassé toutes les attentes, : les IA « ne sont en général pas destinées à être bonnes en chiffrement » expliquent les chercheurs de Google. Et les deux I.A. n’avaient appris d’aucun algorithme de chiffrement spécifique. Les deux IA ont mis du temps avant de parler le même langage. Alice a ainsi envoyé plusieurs messages chiffrés de 16 bits à Bob qui devait les déchiffrer (tout comme Eve). Seul Bob détenait la clé de déchiffrement. Il aura fallu pas moins de 10 000 messages avant que Bob ne réussisse à reconstruire le message en clair. Dans le même temps, Eve, qui faisait de moins en moins d’erreurs, a vu son sort se compliquer à mesure que les IA réussissaient à communiquer entre elles. Au bout de 15 000 messages, c’était chose faite et Eve n’était plus en mesure d’écouter la conversation. Reste à comprendre comment l’algorithme de chiffrement s’est constitué. » (journaldugeek.com)

Prouver les futurs programmes et compilateurs …

Avec un assistant de preuve comme COQ

(Article Wikipedia) : Coq est un assistant de preuve utilisant le langage Gallina, développé par l'équipe PI.R2 d'Inria au sein du laboratoire PPS du CNRS et en partenariat avec l'École polytechnique, le CNAM, l'Université Paris Diderot et l'Université Paris-Sud (et antérieurement l'École normale supérieure de Lyon).Le nom du logiciel (initialement CoC) est particulièrement adéquat car : il est français ; il est fondé sur le calcul des constructions (CoC abrégé en anglais) introduit par Thierry Coquand. Dans la même veine, son langage est Gallina et Coq possède un wiki dédié, baptisé Cocorico!. Coq a été récompensé du ACM SIGPLAN Programming Languages Software 2013 Award. Coq est fondé sur le calcul des constructions, une théorie des types d'ordre supérieur, et son langage de spécification est une forme de lambda-calcul typé. Le calcul des constructions utilisé dans Coq comprend directement les constructions inductives, d'où son nom de calcul des constructions inductives (CIC).

(Article Wikipedia) : Coq a été récemment doté de fonctionnalités d'automatisation croissantes. Citons notamment la tactique Omega qui décide l'arithmétique de Presburger. Plus particulièrement, Coq permet de manipuler des assertions du calcul ; de vérifier mécaniquement des preuves de ces assertions ; d'aider à la recherche de preuves formelles ; de synthétiser des programmes certifiés à partir de preuves constructives de leurs spécifications. C'est un logiciel libre distribué selon les termes de la licence GNU LGPL.Parmi les grands succès de Coq, on peut citer le théorème des quatre couleurs : la démonstration complètement mécanisée a été terminée en 2004 par Georges Gonthier et Benjamin Werner ; le théorème de Feit et Thompson : la preuve du théorème a été terminée par Georges Gonthier et son équipe en septembre 2012 ; le compilateur CompCert C : un compilateur optimisant le C qui est en grande partie programmé et prouvé en Coq.

En conclusion …

125

Formons des Data scientist !

La montée en puissance de l’IA dans les solutions de cybersécurité fait appel à de nouvelles expertises croisant les compétences :Mathématiciens , statisticiens, scientifiques des données…

La pénurie de data scientist sur le marché de l’emploi en Europe est aujourd’hui une réalité …

126

127

http://cyberland.centerblog.net/ http://echoradar.eu/

http://www.chaire-cyber.fr/

Technology

Lorsque l'intelligence artificielle uberise la cybersécurité