Vers une meilleure connaissance client grâce au big data

Preview:

Citation preview

Thomas ANGLADE - Data ScientistThomas.anglade@data2b.net06 60 30 00 14data2b.net

Vers une meilleure connaissance client grâce au big data Data2Breakfast – 07/02/2017

1. La révolution big data : utiliser les données comme matière première

2. Cas concret : mieux connaître ses clients pour détecter la fraude

3. Comment améliorer la segmentation client grâce au bigdata

3

Utiliser la donnée comme matièrepremière

(Big) data010011001100000110011100110110011011000111001101

Explosion des données

01 La révolution technologique qui ne pourra être remplacée que par l’ordinateur quantique

Les 3V : Volume, Variety, Velocity

Il est estimé que 90% des données récoltées depuis le début de l’humanité ont été générées durant les 2 dernières années

Le développement de la data science à été permis par le big data et notamment l’invention du paradigme hadoop (2003)

Passage de l’ère de la causalité à celle de la corrélation : le big data permet de faire mieux mais on ne sait pas forcément pourquoi…

Que vaut la donnée ?La donnée a pris de la valeur car elle est passée de luxe a commodité

La donnée est désormais produite de manière différente, pas forcément de manière consciente et intentionnelle.

Valeur de ré-utilisation énorme

Matière 1ère (circulation – blé)

Outil de levier / décision

Actif stratégique

Avantage compétitif grâce aux data

Marketing

Finance & assurances

E-commerce

Santé

RH

Transports

Logistique

Maintenance

Agro-alimentaire

Environnement

Le data scientist peut-il faire mieux que l’expert ?

La data est un « business » de volume

« Un algorithme moins performant couplé à un plus gros volume de données donne de meilleurs résultats qu’un algorithme performant sur un échantillon plus restreint »

valeur de la data personnelle / an / personne selon OCDE

Collecter des données avant de savoir comment les exploiter ??

Comment produire la donnée ?Utiliser le « digital labour » ?

9

Utiliser les données clients pour la détection de fraude

Détection de fraude – le problème

25%demandes de remboursement frauduleuses

Fraude à l’assurance en 2014 2,5Md€

Achat d'une police après la survenance

« Crash for cash »

Inventer un sinistre de toutes pièces

« Gonfler » les montants des sinistres

Déclaration pour une blessure antérieure

Dupliquer un sinistre

1 2

3 4

6 5

Détection de fraude – les méthodes

Lot ofData

Variety ofData

Machinelearning

LessFraudx x =

DEMO !

12

Automatiser la recherche de bons clients et V360

Sujet tous métiers de service et de vente

Type de segmentationÉtapes de la vie Public cible Segmentation discrèteTOUS les clients Sous-groupe de clients

ayant un comportement / attribut

Décrire un ensemble spécifique de personnes a travers le temps (cohortes)

Chaque client estseulement dans un segment

Aucune relation naturelle a travers les segments

Statique - les gens ne bougent pas du segment

Suivi de la progressionde segments

Suivi de l'adhésion (entrée ou sortie) du segment et suivi des membres du segment

Suivre le comportement au fil du temps

Utilisation en combinaison avec segments cibles

Utilisé pour des campagnes et offres spécifiques

Utilisé pour l'analyse de rétention et l'analyse saisonnière

+ interactions clients = + données• Données internes Association données marketing avec des données d'autres divisions de la société (ventes, opérations, service client, etc.)

• Données externesRéseaux sociaux, logs, géolocalisation, open data, etc.

Meilleure technologie = données mieux utilisées

• Exploiter de nombreux formats d'information - lecontenu d'une image ou d'une vidéo et la signification desdonnées textuelles

• Nouveaux algorithmes de segmentation tels que l'analysede réseaux (network science) et le regroupement par densité(density-based clustering).

• Amélioration des performances matérielles et logiciellessur de grandes quantités de données.

• Capacité à calculer des segmentations dynamiques entemps réel, grâce à Spark Streaming et Flink.

Network scienceClustering coefficient

Les amis de mes amis sont mes amis.

Ce coefficient mesure à quel point le voisinage d'un sommet est connecté.

- Segmentation dynamique

Density-based clusteringTrouver une structure de formes non linéaires basée sur la densité.

Density-based clusteringParamètres

ɛ Le rayon autour d'un point de données p.

minPts Le nombre minimum de points que nous voulons dans un cluster.

Points

Points de noyeau Un point p est point de noyau si | Nbhd (p, ɛ) | > = MinPts.

Points de frontière Un point q est point de frontière si Nbhd (q, ɛ) contient moins minPts, mais q est accessible à partir d'un point de noyau p.

Outlier Un point o est un outlier si ce n'est ni un point de noyau ni un point de frontière.

Density-based clustering

Algorithme

• Choisissez un point au hasard qui n'a pas été affecté à un cluster ou qui a été désigné comme outlier.

• Déterminer si c'est un point de noyau. Si oui, démarrez un cluster autour de ce point. Si non, étiquettez le point comme outlier.

• Répétez ces deux étapes jusqu'à ce que tous les points soient soit assignés à un cluster ou désignés comme outlier.

Density-based clustering vs k-means

Big Data + segmentation on action

Possibilité d'avoir autant de segmentations que de questions à répondre.

Industrialisation des segmentations dynamiques mises à jour automatiquement en temps réel.

data2b.net