27
Utiliser les Big Data: Défis & Opportunités Françoise Soulié Fogelman Institut des Actuaires Conférence Big Data Paris, 13 mai 2014

Présentation Françoise Soulié Fogelman

Embed Size (px)

Citation preview

Page 1: Présentation Françoise Soulié Fogelman

Utiliser les Big Data: Défis & Opportunités

Françoise Soulié Fogelman

Institut des Actuaires

Conférence Big Data

Paris, 13 mai 2014

Page 2: Présentation Françoise Soulié Fogelman

2F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Mon parcours professionnel

Business &

Decision

KXEN

Innovation

KDD_US

Atos

Page 3: Présentation Françoise Soulié Fogelman

3F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Agenda

• Qu’est ce que le Big Data

• Qu’est ce que le Data Mining

• Impact sur le métier des actuaires

Page 4: Présentation Françoise Soulié Fogelman

Qu’est ce que le Big

Data ?

Page 5: Présentation Françoise Soulié Fogelman

5F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Une définition classique

Introduite par Gartner en 2001Nombre de

variables

Nombre

d’événements

/seconde

Nombre d’observations

x Nombre de variables

Largeur

Profondeur

Page 6: Présentation Françoise Soulié Fogelman

6F. Soulié Fogelman. Utiliser les big data: défis & opportunités

La valeur des Big Data

• À l’origine (Gartner, 2001) les Big Data sont considérées comme un risque de faire exploser les architectures

• Puis on se rend compte que les Big Data sont source de valeur

– Le Data Mining (ou Machine Learning ou Predictive Analytics) est la clé majeure de la source de valeur, en produisant de meilleurs modèles

“Invariably, simple models and a lot of data trump more elaborate models based on less data”

• MAIS il faut pour cela des techniques adaptées– Acceptant de grands volumes (!)

– Avec des variables corrélées (variété)

– Sans over-fitting

Page 7: Présentation Françoise Soulié Fogelman

7F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Big Data pour la Finance & l’Assurance

Facilité à capturer la valeur des Big Data & index de la valeur potentielle

Mc Kinsey, Big Data. 2011

Finance &

Assurance

Page 8: Présentation Françoise Soulié Fogelman

Qu’est ce que le Data

Mining?

Page 9: Présentation Françoise Soulié Fogelman

9F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Data Mining & Big Data

• Neural Network,

Data Mining &

Big Data

– 1980 – 2008

– 2004 – 2014 http://www.google.com/trends

https://books.google.com/ngrams

Page 10: Présentation Françoise Soulié Fogelman

10F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Qu’est ce que le Data Mining

• Situation où

– On ne connait pas de modèle mathématique • Sciences

– On a des données• Beaucoup

• On recherche

– Une fonction solution

• Dans une classe YYYY

– Pas une distribution

• « Modèle »

– (YYYY , algo. d’apprentissage)

Page 11: Présentation Françoise Soulié Fogelman

11F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Concepts importants en Data Mining

• Expliquer / Prévoir

– Précision / Robustesse

– Apprendre / Généraliser

– Erreur en apprentissage / Erreur en généralisation

“It wasn’t too long ago that calling someone a data miner was a very badthing. You could start a fistfight at a convention of statisticians with thiskind of talk. It meant that you were finding the analytical equivalent of thebunnies in the clouds, poring over data until you found something.Everyone knew that if you did enough poring, you were bound to find

that bunny sooner or later, but it was no more real than the one that

blows over the horizon.”David J. Leinweber, Stupid data miner tricks (2000)

Page 12: Présentation Françoise Soulié Fogelman

12F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Concepts importants en Data Mining

Construire un modèle pour expliquer l’index S&P 500

• Avec 1 seule variable: l’année

– Période 1983-92 : modèle polynomial à 1 variable de degré 9 • .25*1016-.26*1013x+.12*1010x2-320000.x3+56.x4-.0064x5 +.49*10-6x6 -.24*10-10x7+.69*10-15x8-.88*10-20x9

– Période 1983-93 : modèle polynomial à 1 variable de degré 10• .77*1017-.88*1014x+.45*1011x2-.14*108x3+2700.x4 -.37x5 +.000035x6- .23*10 -8x7+.99*10-13x8-.25*10-17x9 + .28*10-22x10

– Les modèles obtenus sont absolument « parfaits » : 100%

Leinweber

83 92 83 93

Page 13: Présentation Françoise Soulié Fogelman

13F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Concepts importants en Data Mining

• Construire un modèle

– L’ensemble d’apprentissage : le modèle apprend (précision)

– L’ensemble de validation : le modèle généralise (robustesse)

Page 14: Présentation Françoise Soulié Fogelman

14F. Soulié Fogelman. Utiliser les big data: défis & opportunités

La Théorie de l’apprentissage statistique de Vapnik

Un résumé très court !!

: VC dimension de YYYY

( )( )

n

nl

hn

hnnl

hnηε −

+=

21,

( ) ( ) ( )h,nRR empGen εθθ +≤

1971 1982 1995 1998

Over-fitting

Page 15: Présentation Françoise Soulié Fogelman

15F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Concepts (moins) importants en Data Mining

• Le choix de l’algorithme

– Régression

– Arbres de décision

– Forêts d’arbres

– K-ppv

– Naïve Bayes

– Réseau de neurones

– Support vector machine (SVM)

– …

“Invariably, simple models and a lot of data trump more

elaborate models based on less data”

Page 16: Présentation Françoise Soulié Fogelman

16F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Exemple: la fraude à la carte bancaire sur Internet

• La vente en ligne augmente très rapidement

• La fraude aussi

Difficultés

• Taux de fraude très faible– <<1%

• Taux d’alerte très faible – <<1%

• Volumes très grands

• La fraude change très vite

Banque de France. Rapport annuel OSCP, 2012

M€%

Page 17: Présentation Françoise Soulié Fogelman

17F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Exemple: la fraude à la carte bancaire sur Internet

• Modèle de base (uniquement les variables de transaction)

– Très insuffisant

Précision : 70%

Rappel: 30 %( ) F

VPsappelR =

( ) AVPsrecP =

Rappel Précision

Nb de Cartes en Alerte / Jour

Page 18: Présentation Françoise Soulié Fogelman

18F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Exemple: la fraude à la carte bancaire sur Internet

• Méthode 1 : créer des variables additionnelles (Variété ↑↑↑↑)

– 37 � 997 ( ~1500 avec scores cartes & marchands+ Agrégats)

• Variables Sociales

Marchand

Marchand

Marchand

Marchand

Carte

Carte

Carte

Carte

Carte Marchand

Page 19: Présentation Françoise Soulié Fogelman

19F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Exemple: la fraude à la carte bancaire sur Internet

• Méthode 2 : segmenter les cartes

• Il y a beaucoup de types de fraude

– Faire une segmentation cartes, avec les agrégats cartes

– Chaque segment est homogène pour un type de fraude

→ 19 segments

– Différents types de fraude

Page 20: Présentation Françoise Soulié Fogelman

20F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Exemple: la fraude à la carte bancaire sur Internet

• 19 segments (sur le score carte)

Segment 1 Segment 2

Segment 15 Segment 15

Page 21: Présentation Françoise Soulié Fogelman

21F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Exemple: la fraude à la carte bancaire sur Internet

• Résultats

• Importance des variables– Variables Initiales

– Agrégats Marchand

– Agrégats Carte

– Variables Sociales• Carte Marchand

Model Recall Precision

Baseline 1,40% 8,18%

Baseline + Agg 9,13% 19,00%

Baseline + Agg + Social 9,09% 40,58%

Seg 19 5,09% 28,21%

Seg 19 + Ag. 7,38% 28,82%

Seg 19 + Agg + Social 16,46% 60,89%

Page 22: Présentation Françoise Soulié Fogelman

22F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Exemple : Risque (Carte de Crédit)

• Données granulaires

– Nombreuses sources (transaction, appels, …)

– On peut créer de la valeur SI on agrège bein

– Le nombre d’attributs augmente très vite (23 000 +)

• La question– Comment choisir les meilleures variables ?

• Approches1. Utiliser toujours les mêmes variables2. Demander aux experts de choisir 500 variables

• Il faut 10 jours de travail pour 10 variables

3. Utiliser toutes les variables & laisser les données choisir les meilleures• Il faut construire un modèle

Page 23: Présentation Françoise Soulié Fogelman

Impact sur le métier des

actuaires

Page 24: Présentation Françoise Soulié Fogelman

24F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Assurance

• Fraude, Connaissance clients, Risque…

– Fraude à l’assurance automobile ~ 10% des pertes (~ Md $13.3 en 2011 aux US)

• Comment procéder en approche Big Data

– Collecter des données

Facile Difficile

“ Precise detection comes from bringing together multiple characteristics to

create an overall picture of the probability of fraud ” (Verisk, 2013)

– Les données ne sont pas produites pour les besoins de l’analyste

• Problèmes de représentativité

Page 25: Présentation Françoise Soulié Fogelman

25F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Impacts

L’approche Big Data donne un score individuel

• Le score individuel est obtenu par application d’un

« modèle »

– Ce modèle peut être rafraichi automatiquement aussi souvent que nécessaire

• On peut segmenter la population

– Obtenir un modèle par segment

– Établir une politique de prix / segment

• Questions ouvertes

– Comment intégrer les approches

• actuarielle orientée « modèle » et Big Data orientée « données » ?

Page 26: Présentation Françoise Soulié Fogelman

26F. Soulié Fogelman. Utiliser les big data: défis & opportunités

Conclusion

• Quels impacts sur le métier / la formation ?

– Les écoles du GENES ouvrent des formations• L'Ensae ParisTech ouvre en octobre 2013 une nouvelle filière de 3ème année de son

cycle ingénieur : la voie Data Science. Cette filière permettra, entre autres, d’acquérir les compétences attendues pour les postes de Data Scientist et Chief Data Officer qui émergent avec le développement des Big Data.

• À l’Ensai, la filière Statistique et ingénierie des données officialise aujourd’hui son passage à l’échelle du Big Data. La filière forme les ingénieurs de l’Ensai au métier de Data Scientist.

– Les écoles du GENES sont partenaires de la plateforme Teralab pour le Big Data:

• Enseignement

• Projets de R&D

Page 27: Présentation Françoise Soulié Fogelman

Questions ?