29
www.thalesgroup.com CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

CENTAI : Big Data & Big Analytics - Institut des …...Limitation à la recherche de patterns connus Temps réel, Requêtes complexes 2013-2014 E-Border, sécurité Maritime, Contrôle

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

www.thalesgroup.com

CENTAI : Big Data & BigAnalytics

Réunion DGPN / Thales Octobre 2013

2 /2 / Sommaire

� CENTAI : Présentation du laboratoire

� Plate-forme OSINT LAB

� Détection de la fraude à la carte bancaire

� Détection de comportements anormaux

� Cartographie du SI

� Projet REQUEST

� Conclusions

3 /3 / Big Data : « Big soucis ou opportunités » pour l’assureur ?

Enjeux de l’assurance connectée et des Big Data :

� Une révolution dans la gestion des données :qualité, sources (internes/externes), formats(structurées, non structurées), traitement, traçabilité,sécurisation, déontologie, modélisation… ?

� Une révolution dans l’approche produits & clients ?

� Une révolution dans les organisations et les outilspour les acteurs de l’assurance ?

� Une révolution dans le métier d’actuaire et dansl’apparition de nouveaux métiers ?

4 /4 /

CENTAI

5 /5 / CENTAI : Laboratoire Etudes Amont

Thales Communications & Security

Laboratoire

joint

UPMC – LIP6

CENTAI (Centre de Traitement et d’Analyse de l’Information)

Big Data, Big Analytics &

Visual Analytics

Thales Research &Technology(France, Hollande, Singapour, CanadaCanadaCanadaCanada)

Thales

Business

Lines

Transfert d’algorithmesEvaluation / Méthodologies & Technologies

Proof of Concept, Proof of Technos Dévt et Transfert de briques logicielles et de chaînes de traitements

PMEs

(OSS)

Partenariat

LABRI

(PF TULIP)

TRL 1-3 TRL 3-5 TRL 3-6 TRL > 6

6 /6 / Pourquoi le Big Data & le Big Analytics au CENTAI ?

2009

Détection & Investigation de la fraude à la carte bancaire sur Internet

Thales fournit des systèmes qui produisent de très grands volumes

de données encore très partiellement exploitées Les approches Big Data et Big Analytics

fondées sur des BD NoSql et des frameworks de traitement distribué, associés si besoin à des BD

SQL, permettent de définir de nouveaux produits et de nouveaux services pour optimiser les processus de détection et d’investigation de

l’information critique

2 milliards de transactions / an

Exhaustivité, Temps réel, Requêtes complexes

500 000 noeuds

Modélisation SQL non adaptée aux données et aux parcours de graphes, Pbs de performances, Partitionnement des données coûteux, Requêtes complexes

2010

L’information sous forme de grands graphes (SNA)

2011

Smart Transport

Smart City

5 milliards de transactions / an (STIF/Billettique ) + Autres données

Données très hétérogènes issues des systèmes Thales (billettique,

maintenance et supervision) / Données externes : Open data,

Données sociales

Exhaustivité, Temps réel, Requêtes complexes

2012- 2013

Cyber-Sécurité

130 milliards de logs / an

Echantillonnage impossible

� Anomalies inscrites dans la durée

Limitation à la recherche de patterns connus

Temps réel, Requêtes complexes

2013- 2014

E-Border, sécurité Maritime, Contrôle

du spectre, ….

7 /7 / CENTAI : Métier & Domaines d’Activités

Traitement de données massives, hétérogènes, dynamiques et relationnelles

(données métier, données open source, open data)à des fins de détection et d’investigation des informations

(Collecte – Analyse – Visualisation)

8 /8 / Projet REQUEST : Appel à projets Cloud computing – Big Data

� Objectifs du projet

� Couplage entre les domaines du Big Data, Big Analytics, Visu alAnalytics et du Cloud Computing

� Développement d’une architecture ouverte, dédiée à la gest ion desdonnées, aux algorithmes d’analyse et de visualisation

� Techniques de gestion des données, fondées sur les nouvelles bases de donnéesNoSQL

� Techniques innovantes de requêtage, utilisant un compromis entre l’approche derecherche gouvernée par les hypothèses (Hypothesis driven) et l’approche parexploration exhaustive des données (Data driven)

� Algorithmes adaptés au traitement de données massives, hétérogènes etdynamiques (données numériques, données non structurées et grands graphes)

� Techniques de visualisation analytique et interactive, permettant aux utilisateursd’investiguer les données

� Structuration et animation de la communauté française du Bi g Data,en associant des partenaires issus du monde industriel - gra ndesentreprises, petites et moyennes entreprises - du monde aca démiqueet du monde des opérateurs et prescripteurs publics

9 /9 / Consortium

� Un consortium pluri-disciplinaires de 15 partenaires

� Académiques, Industriels et PMEs

� Compétences reconnues dans les domaines des architectures , de la gestion dedonnées, de l’analyse des données et de la visualisation

� Apport d’expertise SHS pour les enjeux juridiques/éthique s/réglementaires

Partenaires CollègeThales Services GEThales Communications & Sécurité GEOrange Labs GESNCF GELab. ERIC / Université ERIC AcadémiqueLIP6 UPMC( MALIRE & Complex Networks)

Académique

LIMSI/CNRS/ILES AcadémiqueINRIA Bordeaux / LABRI AcadémiqueL2TI Paris 13 AcadémiqueUTT AcadémiqueKXEN PMEALTIC PMEALDECIS PME ISTHMA PMESYLLABS PMEINTHEMIS PME

10 /10 / Cas d’usage applicatifs

� Cas d’usage CyberCrime avec la Gendarmerie Nationale et la Police Nationale – Protection du citoyen

� Implémentation d’une chaîne de traitement, dédiée à la déte ction et à l’investigation desinfractions dans les réseaux sociaux et, plus particulière ment, dans les plateformes demicroblogging, en vue de répondre aux besoins spécifiques d u métier d’enquêteur

� Cas d’usage CyberSécurité - Protection du citoyen,Protection des infrastructures)

� Implémentation d’une chaîne de traitement dédiée à la fouil le de logs de sécurité et à la gestiondynamique des risques, permettant d’optimiser les capacit és de prévention et de détection desattaques contre les systèmes d’information, pour répondre aux attentes des grands clientsinstitutionnels et industriels

� Cas d’usage « Transport Intelligent » - Mobilité et Sécurité

� Construction de typologies pour identifier des habitudes d e voyages, Analyse des flux pourmieux comprendre la mobilité

� Couplage des données métier et OPEN DATA

� Exploitation de la nature relationnelle et interactionnelle des données (graphe « social » reliant des porteurs de cartes avecun réseau de transport)

� Détection et investigation d’anomalies dans les flux de don nées

11 /11 /

« SOCIAL NETWORK ANALYSIS »PLATE-FORME OSINT LAB

12 /12 / Plate-forme OSINT LAB

Chaîne de traitement pour l’analyse et le suivi des données issues du Web

Social (Twitter, Facebook, Blogs & Forums), fondée sur des méthodes de

Détection & d’Investigation (Analytics et Visual Analytics)

Grandes visées fonctionnelles

� Détecter & Investiguer dans le temps et dans l’espace, en les corrélant

� les faits saillants (fréquents & rares)

� les rôles, comportements et pratiques des socionautes (individus & communautés)

Innovation : Text & Link Mining

� Couplage dynamique des informations issues de l’ana lyse du contenu des textes et de l’analyse des relations ( ���� liens acteurs, sources, textes)

� Langues supportées : Français, Anglais, Arabe

Approche

� Intégration de composants Thales, de COTS et OSS, d ans une plate-forme technique

� Développement agile, en s’appuyant sur les résultat s des évaluations opérationnelles� Expérimentations continues menées en collaboration avec les utilisateurs finaux (Aujourd’hui : GN, ANSSI,

Thales (France, Canada, Inde )

� R&D collaborative (ANR, Grand Emprunt, CALL SECURIT Y)

13 /13 / Différentiateurs / Marché

� 3 grandes approches

� Moteur de recherche généraliste (Exalead, Bertin)

� Veille sociale orientée analyse des contenus textue ls (AmiSoftware, Temis)

� Veille sociale orientée analyse des contenus relati onnels (Linkfluence, I2)

� Approche OSINT LAB � Répondre aux besoins spécifiques du métier d’enquêteur (en s’appuyant si besoin sur un couplage avec les outils du marché)

� Fonctions de collecte d’informations textuelles et relationnelles en temps réel

� Couplage « Text et Link Mining »

� Fonctions de détection de signaux faibles

� Fonctions de détection des communautés

� Fonctions d’investigation dynamique (pour la collec te de la preuve)

14 /14 / Plate-forme OSINT LAB : Exemples d’Usages

� Prévention, détection et investigation des infractions commises sur les réseaux

sociaux, dans le contexte du Cybercrime

� Recherche et Etude des infractions (escroqueries, d iffusion de contenus illicites, atteintes aux mineures, etc.)

� Analyse de la structure, des comportements et prati ques des communautés de cybercriminels (mise en évidence du rôle des différents suspects d’un gr oupe criminel)

� Maintien de l’ordre public / Gestion de crise

� Détection de menaces susceptibles de porter atteint e à l'ordre public et à la sécurité des citoyens (rassemblements dangereux, manifestations, émeutes, menaces contre les intérêts français, …)

� Plan de veille : Levée d’alertes, pour anticiper le s risques et menaces� Recherche et filtrage d’information multi-modale (gé ographie/textes/acteurs)� Suivi et Investigation des événements à risque� Identification des acteurs (qui parle?, qui agit?, qui interagit?)� Mesure de la mobilisation sociale

� Cellule de veille et d’anticipation de la menace dans le contexte de la cybersécurité

� Etude des menaces et attaques discutées sur les réseau x sociaux� Etude des comportements et pratiques des communautés d e hackers

� Anticipation des attaques potentielles, pour aider l es opérateurs à prendre des décisions pour la

protection et la défense des infrastructures critiqu es

� E-reputation et communication d’influence , Veille technologique (Thales SA)

15 /15 / Architecture fonctionnelle

16 /16 / Couplage dynamique informations textuelles, relationelles et temporelles

17 /17 / Débat : Quelles usages pour l’assurance?

� Veille financière ?

� Analyse et Suivi des risques de marché

� Mesure de l’impact des rumeurs

� Exemple de la Société Générale en 2011

� Baisse de l’action de 15% en une journée, suite à des tweets repris par un journal anglais, annonçant la faillite de la banque � puis, Chute de la bourse de 20%

� Social Customer Relationship Intelligence ?

� Optimisation de la connaissance des clients

� Connaissance des nouveaux besoins marché

� E-Reputation ?

� E-Reputation de l’assureur et de son réseau

� Communication d’influence

� Veille concurrentielle ?

� Autres pistes ?

18 /18 /

DÉTECTION DES ANOMALIES & CARTOGRAPHIE DU SYSTEMED’INFORMATION

19 /19 / Cyber-sécurité

Analyse de logs réseau

� Objectifs� Détection d’évènements réseau anormaux (a posteriori)

� Caractérisation de la topologie d’un système d’information supervisé (a posteriori)

� Données� 70 To de fichiers de logs

� Données massives et hétérogènes

� Architecture choisie� Stockage

� Besoin : Stockage de gros volumes de logs hétérogènes

� Solution : Apache Hadoop HDFS

� Processing

� Besoin : Requêtage (sélection, jointure, …)

� Solution : Apache Hive / UC Berkeley Shark (requêtage SQL)

� Besoin : Traitements complexes sur les données (alg orithmes d’apprentissage)

� Solution : Apache Hadoop MapReduce (algorithmes de détection CENTAI)

20 /20 / Le Big Data & le Big Analytics, dans le contexte de la Cybersécurité

VISUAL ANALYTICSBIG ANALYTICSBIG DATA

Moteur de visualisation de

graphes

Moteur de recherche (Elastic

Search)

ENJEUX

• CYBELS SENSOR : Moteur de corrélation IDS/NetFlow/DPI

Données massives et dynamiques 10GB/s

• Cartographie dynamique et passive du SI • Détection et investigation des attaques contre le SIDonnées massives et hétérogènes 80 To logs / an

• Cellule de veille et d’évaluation de la menace sur le Web SocialDonnées hétérogènes et dynamiques données textuelles et données relationnelles

Base de données graphe (Titan)

Base de données colonne

(Cassandra)

Stockage distribué (HDFS)

Parallélisation des algorithmes

Linéarisation des algorithmes

Portail de reporting

Parallélisation & Distribution

(MapReduce)

Parallélisation & Distribution

(MapReduce)

Moteur de visualisation de

graphes

Portail de reporting

21 /21 / Cartographie dynamique du SI

� Cartographie dynamique

� Remonter la topologie réseau d’un SI de manière passive , non intrusive et automatique

� Analyse des logs réseau (routeurs, firewalls, …)

� Représentation des liaisons entre machines sous forme de graphe relationnel

� Typologie des flux (protocole, nombre de paquets, …)

� Typologie des machines (serveurs, VMs, …)

� Communautés de machines (sous-réseaux)

� Navigation temporelle entre différents « snapshots »

22 /22 /

� Customer Relationship Intelligence ?

� Cartographie et suivi des réseaux d’agents et court iers

� Cartographie et suivi des segments de clientèle et de leurs scores d’appétence

� Gestion de risques ?

� Proposition de stratégies de portefeuille : Modélis ation des interdépendances de risque entre produits

� « Baskets » financiers entre produits / mauvais risques et mauvais comportements pour un ensemble de produits

� Autres ?

Débat : Quelles usages pour l’assurance?

23 /23 / Débat : Autres pistes pour les assureurs

� Qualité des données

� Méthodes d’amélioration de la qualité des données B ig Data

� Gestion de risques

� Analyse de risques pays à partir des OPEN DATA , po ur les réassureurs et les assisteurs

� ….

� Autre

24 /24 /

CYBERCRIME : FRAUDE A LA CARTE BANCAIRE SUR INTERNET

25 /25 / La problématique de la fraude à la carte bancaire sur Internet

L’ascension du e-commerce (FEVAD 2011)

� En 2011: + 22 % et CA du e-commerce de 38 milliards €

Un succès qui attire les fraudeurs (OSCP-2011)

� 73% des paiements frauduleux en 2011 et 52% en 2007

La fraude sur Internet très différente de la

fraude de proximité

� Fraude en proximité

� Fraude localisée dans l’espace et le temps : carte perdue ou volée avec code confidentiel,

� Mécanismes bien compris : par ex. piratage des distributeurs et duplication de la piste sur un faux support et utilisation à l’étranger…

� Fraude sur Internet

� Les comportements de fraude sont diffus, vagues, mouvants et changent fréquemment

� Les origines des compromissions de données sensibles sont très diverses, beaucoup plus largement distribuées géographiquement

Montant M€

26 /26 / E-Fraud Box - Objectifs

Développer une boîte à outils de techniques

� Fouille de données, Analyse des réseaux sociaux & I nformatique décisionnelle

Pour la détection de la fraude à la carte bancaire sur Internet

� Identifier plus rapidement les cartes utilisées frau duleusement sur Internet et ainsi prévenir les porteurs de carte pl us tôt

& pour l’investigation de la fraude

� Identifier plus automatiquement des points de compro mission

� Détecter plus rapidement les nouveaux modes opératoi res

� Identifier plus rapidement les affaires pour les tra nsmettre aux forces de l’ordre

27 /27 / Principaux résultats

Un ensemble d’algorithmes pour la détection et l’investigation de la fraude

� Techniques d’échantillonnage tenant compte du déséq uilibre des classes

� Typologie dynamique de la fraude

� Evolution des comportements de fraude

� Algorithmes de détection de la fraude

� Algorithmes d’investigation de la fraude

Une intégration dans un démonstrateur au sein du GIE Cartes Bancaires CB

Une phase de test par le GIE après la fin du projet (6 mois-2 ans)

28 /28 /

� Détection de la fraude

� Sécurisation des systèmes d’information

� Sécurisation des opérations d’assurance en ligne av ec un mode de distribution sur Internet en croissance continue

� Assurance Santé : diminution des incidents de paiem ent chez les professionnels de santé, aide à la lutte contre la fraude, réduction de coûts, dématérialisation des cartes de Tiers Payant

� Autres ?

Débat : Quelles usages pour l’assurance?

29 /29 /

Conclusions