Transcript
Page 1: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

SEMINAIRE

Jean Roger MABLY

DATAMINING ET

APPLICATIONS

K

Zx(

b8

5

$

a

>

[K

S Let’s come& see

9

Page 2: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

Customer Lifetime Management Analyst à MTN-CI depuis Juillet 2011

Professeur vacataire de Marketing et Etudes de marchés à l’ENSEA (ITS Option Entreprise) depuis 2013.

Concpeteur et administrateur de la page facebook Intelligence Marketing: www.facebook/pages/Intelligence-Marketing

CEO du Bureau d’Etude Spécialisé dans le traitement de l’INFOrmation (BEST-INFO): Cabinet spécialisé dans l’E-commerce et Data-Analytics.

PRESENTATION DE L’INTERVENANT

Jean Roger MABLY

Page 3: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

PLAN DE PRESENTATION

1. Origine et Définition du Datamining

2. Apport du Datamining

3. Comparaison Datamining vs Statistiques et Datamining vs Big Data

4. Le Datamining d’hier, d’aujourd’hui et de demain

PARTIE I: INTRODUCTION AU DATAMINING

PARTIE II: PANORAMA DES TECHNIQUES DATAMINING

1. Les grands groupes de modèles

2. Analyse factorielle

3. Classification/Prédiction

4. Segmentation

5. Associations

Page 4: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

PLAN DE PRESENTATION (2)PARTIE III: DOMAINES D’APPLICATIONS

1. Utilité du Datamining dans le CRM

2. Utilité dans la banque

3. Datamining dans l’assurance de risque

4. Datamining dans la téléphonie

5. Le datamining dans le commerce

6. Autres exemples

PARTIE IV: CONSTRUIRE UN PROJET DATAMINING

1. SEMMA (SAS)

2. CRISP-DM (CLEMENTINE)

PARTIE V: UTILISATION D’OUTILS

1. CLEMENTINE

2. TANAGRA

Page 5: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

INTRODUCTION AU DATAMINING Qu’est ce que le Datamining

? A quoi sert le datamining ? Ou va le Datamining ?

[

I

Page 6: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

La fouille des donnéesLe DATAMINING est l’ensemble des:

techniques et méthodes

… destinées à l’exploration et l’analyse

… de (souvent) grandes bases de données informatiques

… en vue de détecter dans ces données des règles, des associations, des tendances inconnues (non fixées a priori), dans des structures particulières restituant de façon concise l’essentiel de l’information utile.

… pour l’aide à la décision.

On parle alors d’extraction de l’information dans la donnée

Selon le MIT, c’est l’une des 10 technologies émergentes qui « changerons le monde » au XXIème siècle

L’ONU à déclaré le 20 Octobre comme Journée mondiale de la Statistique

Page 7: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

Intérêt du data mining On ne veut pas simplement confirmer des intuitions a priori par des requêtes

dans les bases de données mais détecter sans a priori les

combinaisons de critères les plus discriminantes

Par exemple, dans le domaine commercial, on ne veut plus seulement savoir:

« Combien de clients ont acheté tel produit pendant telle période ? »

Mais:

« Quel est leur profil ? »

« Quels autres produits les intéresseront ? »

« Quand seront-ils intéressés ? »

Les profils de clientèle à découvrir sont en général des profils complexes : pas seulement des oppositions « jeunes/seniors », « citadins/ruraux »… que l’on pourrait deviner en tâtonnant par des statistiques descriptives

Le data mining fait passer:

d’analyses confirmatoires

à des analyses exploratoires

Page 8: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

À quoi sert le data mining?

Sondage effectué en 2009 sur: www,kdnudgets.com

Mieux connaitre le client Mettre en évidence des

facteurs de risques Test de médicaments et de

comestiques Détection automatique de

fraude Contôle de qualité des

produits Prévision d’audience TV Astrophysique pour le

classement des étoiles ou galaxie

Détection automatique de spam

Algorithm des moteur de recherche…

Page 9: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

Préhistoire du data mining 1875 : régression linéaire de Francis Galton

1896 : formule du coefficient de corrélation de Karl Pearson

1900 : distribution du ² de Karl Pearson

1936 : analyse discriminante de Fisher et Mahalanobis

1941 : analyse factorielle des correspondances de Guttman

1943 : réseaux de neurones de Mc Culloch et Pitts

1944 : régression logistique de Joseph Berkson

1958 : perceptron de Rosenblatt

1962 : analyse des correspondances de J.-P. Benzécri

1964 : arbre de décision AID de J.P. Sonquist et J.-A. Morgan

1965 : méthode des centres mobiles de E. W. Forgy

1967 : méthode des k-means de Mac Queen

1972 : modèle linéaire généralisé de Nelder et Wedderburn

Page 10: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

Histoire du data mining 1975 : algorithmes génétiques de Holland

1975 : méthode de classement DISQUAL de Gilbert Saporta

1980 : arbre de décision CHAID de KASS

1983 : régression PLS de Herman et Svante Wold

1984 : arbre CART de Breiman, Friedman, Olshen, Stone

1986 : perceptron multicouches de Rumelhart et McClelland

1989 : réseaux de T. Kohonen (cartes auto-adaptatives)

vers 1990 : apparition du concept de data mining

1991 : méthode MARS de Jerome H. Friedman

1993 : arbre C4.5 de J. Ross Quinlan

1996 : bagging (Breiman) et boosting (Freund-Shapire)

1998 : support vector machines de Vladimir Vapnik

2001 : forêts aléatoires de L. Breiman

2005 : méthode elastic net de Zhou et Hastie

Page 11: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

Le data mining aujourd’hui Ces techniques ne sont pas toutes récentes

Ce qui est nouveau, ce sont aussi :

les capacités de stockage et de calcul offertes par l’informatique moderne

la constitution de giga-bases de données pour les besoins de gestion des entreprises

la recherche en théorie de l’apprentissage

les logiciels universels, puissants et conviviaux (Clementine, EG & Miner de SAS

l’intégration du data mining dans les processus de production

Ces évolutions permettent de traiter de grands volumes de données et font sortir le data mining des laboratoires de recherche pour entrer dans les entreprises

Page 12: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

Le data mining aujourd’hui (2) Agrégation de modèles

rééchantillonnage bootstrap, bagging, boosting…

Web mining: optimisation des sites

meilleure connaissance des internautes

croisement avec les bases de données de l’entreprise

Text mining statistique lexicale pour l’analyse des courriers, courriels, dépêches,

compte-rendu, brevets (langue naturelle): 3 onglets de Gmail et Yahoo Spam, Moteurs de recherches Google, Bing…

Image mining reconnaissance automatique d’une forme ou d’un visage (Google

Glass, reconnaissance des sosie de la CIA…)

détection d’une échographie anormale, d’une tumeur

Page 13: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

Le data mining de demain

Autant de développement

possible que votre

imagination ne peut vous le permettre

Page 14: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

data mining vs statistique

DATAMINING

STATISTIQUE

Le datamining:1. Traite plus de données2. S’applique à une

population entière3. Travaille sur des

données existante4. Orienté pratique5. Compréhensibilité des

modèles plutôt que précision

6. Modèles localisés

La statistique:1. Traite moins de

données2. S’applique à un

échantillon représentatif

3. Recueille des données avant le travail

4. Orienté théorie5. Précision des

modèles plutôt que Compréhensibilité

6. Modèles généralisés

Le datamining utilise des techniques statistiques

Page 15: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

data mining vs big dataLe data mining est l’ensemble des techniques

analytiques qui permettent d‘extraire de l’information d’une masse de données

La Big Data est l’ensemble des techniques informatiques qui permettent de recueillir le plus

grand nombre de données de toutes formes

BIG DATA = VELOCITY + VERACITY +

VOLUME

DATA MINING = STATISTIQUE +

APPRENTISSAGE + INTELLIGENCE

ARTIFICIELLE

Page 16: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

PANORAMA DES TECHNIQUES DATAMINING Quelles sont les techniques

de Datamining ? Qu’est ce que le scoring Ou va le Datamining

(II

Page 17: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

Les 2 types de techniques Le data mining

Les techniques descriptives (recherche de « patterns »):

visent à mettre en évidence des informations présentes mais cachées par le volume des données (c’est le cas des segmentations de clientèle et des recherches d’associations de produits sur les tickets de caisse)

réduisent, résument, synthétisent les données

il n’y a pas de variable à expliquer

Les techniques prédictives (modélisation) :

visent à extrapoler de nouvelles informations à partir des informations présentes (c’est le cas du scoring) la constitution de giga-bases de données pour les besoins de gestion des entreprises

expliquent les données

il y a une variable à expliquer

Page 18: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

Qu’est ce que la segmentation et factorisation ? (classification en anglais)Regrouper des objets en groupes, ou classes, ou familles, ou segments, ou clusters, de sorte que : 2 objets d’un même groupe se ressemblent le + possible

2 objets de groupes distincts diffèrent le + possible

le nombre des groupes est parfois fixé

les groupes ne sont pas prédéfinis mais déterminés au cours de l’opération

Méthode descriptive : pas de variable cible privilégiée

décrire de façon simple une réalité complexe en la résumant

Utilisation en marketing, médecine, sciences humaines… segmentation de clientèle marketing

Les objets à classer sont : des individus

des variables

les deux à la fois (biclustering)

Page 19: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

Qu’est ce que la classification ou prédiction? (segmentation en anglais)

Ce sont des méthodes prédictives

Classement : la variable à expliquer (ou « cible », « réponse », « dépendante ») est qualitative

on parle aussi de segmentation (en anglais) ou de discrimination

Prédiction : la variable à expliquer est quantitative

on parle aussi de régression

ou d’apprentissage supervisé (réseaux de neurones, arbres de décision…)

Scoring : classement appliqué à une problématique d’entreprise (variable à expliquer souvent binaire) – chaque individu est affecté à une classe (« sain » ou « malade », par exemple) en fonction de ses caractéristiques

Page 20: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

Quelque types de score

Score d’appétence prédire l’achat d’un produit ou service

Score de (comportement) risque prédire les impayés ou la fraude

Score de préacceptation croisement des deux précédents

Score d’octroi prédire en temps réel les impayés

Score d’attrition prédire le départ du client vers un concurrent

Et aussi : En médecine : diagnostic (bonne santé : oui / non) en fonction du dossier du

patient et des analyses médicales

Courriels : spam (oui / non) en fonction des caractéristiques du message (fréquence des mots…)

Page 21: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

Qu’est ce qu’une regle d’ associationsCe sont des méthodes prédictives pour détecter des

liaisons entre des « individus » d’un groupe ou d’en ensemble

E.g. Panier de la ménagère : qu’elles sont les éléments qui viennent ensemble ? si vous avez acheté des fleurs et du thé, vous allez probablement acheter du pain aussi

Pour découvrir modèles prédictifs cachés:

Parfois les modèles prédictifs intéressant sont cachées

La découverte d’association permet de trouver plusieurs petits lots de règles et peut de découvrir les modèles “masqués”

Exploration Générale :

“Ne sais pas exactement qu’est ce que je cherche, mais juste dis moi qui va avec quoi”

Page 22: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

DOMAINES D’APPLICATIONS Quelles sont les applications

du datamining ? Comment son application

change notre quotidiens ?

bIII

Page 23: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

Utilité du datamining dans le CRM (gestion de la relation client)

Mieux connaître le client pour mieux le servir

pour augmenter sa satisfaction

pour augmenter sa fidélité (+ coûteux d’acquérir un client que le conserver)

La connaissance du client est encore plus utile dans le secteur tertiaire : les produits se ressemblent entre

établissements

le prix n’est pas toujours déterminant

ce sont surtout le service et la relation avec le client qui font la différence

Page 24: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

Exemple de Credit scoring

Objectifs de la banque : vendre plus

en maîtrisant les risques

en utilisant les bons canaux au bon moment

Le crédit à la consommation: un produit standard

concurrence des sociétés spécialisées sur le lieu de vente

quand la banque a connaissance du projet du client, il est déjà trop tard

Conclusion : il faut être pro-actif détecter

les besoins des clients et leur tendance à emprunter

Faire des propositions commerciales aux bons clients, avant qu’ils n’en fassent la demande

Page 25: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

Le Data mining dans la Banque Naissance du score de risque en 1941 (David Durand)

Multiples techniques appliquées à la banque de détail et la banque d’entreprise

Surtout la banque de particuliers :

montants unitaires modérés

grand nombre de dossiers

dossiers relativement standards

Essor dû à :

développement des nouvelles technologies

nouvelles attentes de qualité de service des clients

concurrence des nouveaux entrants (assureurs, grande distribution) et des sociétés de crédit

pression mondiale pour une plus grande rentabilité

surtout : ratio de solvabilité Bâle 2

vendre plus

en maîtrisant les risques

en utilisant les bons canaux au bon moment

Page 26: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

Le Data mining dans l’ assurance de risque Des produits obligatoires (automobile, habitation) :

soit prendre un client à un concurrent

soit faire monter en gamme un client que l’on détient déjà

D’où les sujets dominants :

Attrition

ventes croisées (cross-selling)

montées en gamme (up-selling)

Besoin de décisionnel dû à :

concurrence des nouveaux entrants (bancassurance)

bases clients des assureurs traditionnels mal organisées :

compartimentées par agent général

ou structurées par contrat et non par client

vendre plus

en maîtrisant les risques

en utilisant les bons canaux au bon moment

Page 27: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

Le Data mining dans la telephonie Deux événements :

ouverture des monopoles nationaux à d’autres opérateurs télécom

arrivée à saturation du marché de la téléphonie mobile

D’où les sujets dominants dans la téléphonie :

score d’attrition (churn = changement d’opérateur)

optimisation des campagnes marketing

text mining (pour analyser les lettres de réclamation)

Problème du churn :

coût d’acquisition moyen en téléphonie mobile : 50,000 frs env

plus d’un million d’utilisateurs changent chaque d’année d’opérateur

En France, la loi Chatel (juin 2008) facilite le changement d’opérateur en diminuant le coût pour ceux qui ont dépassé 12 mois chez l’opérateur

la portabilité du numéro facilite le churn

Page 28: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

Le Data mining dans le commerce Vente Par Correspondance

utilise depuis longtemps des scores d’appétence

pour optimiser ses ciblages et en réduire les coûts

des centaines de millions de documents envoyés par an

e-commerce

personnalisation des pages du site web de l’entreprise, en fonction du profil de chaque internaute

optimisation de la navigation sur un site web

Grande distribution

analyse du ticket de caisse

détermination des meilleures implantations (géomarketing)

Page 29: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

Autres exemples d’utilisation du data mining

De l’infiniment petit (génomique) à l’infiniment grand (astrophysique pour le classement en étoile ou galaxie)

Du plus quotidien (reconnaissance de l’écriture manuscrite sur les enveloppes) au moins quotidien (aide au pilotage aéronautique)

Du plus ouvert (e-commerce) au plus sécuritaire (détection de la fraude dans la téléphonie mobile ou les cartes bancaires)

Du plus industriel (contrôle qualité pour la recherche des facteurs expliquant les défauts de la production) au plus théorique (sciences humaines, biologie…)

Du plus alimentaire (agronomie et agroalimentaire) au plus divertissant (prévisions d’audience TV)

Page 30: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

CONSTRUIRE UN PROJET DATAMINING Quelles sont les etapes

pour aboutir au bon modele

Quelles sont les diiferents méthodes existantes ?

Quelle difference entre SAS et SPSS?

b IV

Page 31: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

Démarche methodologique du data mining Comprendre l’application ou le problème

Connaissances a priori, objectifs, etc.

Sélectionner un échantillon des données

Choisir une méthode d’échantillonnage

Nettoyage et transformation des données

Supprimer les « bruits »: données superflues, marginales, données manquantes, etc.

Appliquer les techniques de fouille des données

Choisir le bon algorithme

Visualiser, évaluer et interpréter les modèles découverts

Analyse de la connaissance (intérêt)

Vérifier sa validité ( sur le reste de la base de données)

Réitérer le processus si nécessaire.

Gérer la connaissance découverte

La mettre à la disposition des décideurs

L’échange avec d’autres applications (système d’expert,…)

Etc.

Page 32: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

Les étapes du processus du data mining 1.Compréhension du domaine d’application

2.Création du fichier cible (target data set)

3.Traitement des données brutes (data cleaning & prepocessing)

4.Réduction des données (data reduction and projection)

5.Définition des taches de fouille des données

6.Choix des algorithmes appropriés de fouilles de données

7.Fouille de données (data mining)

8.Interprétation des formes extraites (mined patterns)

9.Validation des connaissances extraites

10.Déploiement des algorithmes.

Page 33: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]

YOUR LOGO

SEMMA (SAS) vs CRISP-DM (CLEMENTINE)

Sampling = Echantillonner

Tirer un échantillon significatif pour extraire des modèles

Exploration = Explorer

Devenir famillier avec les données (patterns)

Manipulation = Manipuler

Ajouter des informations, coder, grouper des attributs

Appmodelling = Modeliser

Contruire des modèles

Assement = Valider

Comprendre , Valider, expliquer et repondres aux questions

Sampling = Echantillonner

Tirer un échantillon significatif pour extraire des modèles

Exploration = Explorer

Devenir famillier avec les données (patterns)

Manipulation = Manipuler

Ajouter des informations, coder, grouper des attributs

Appmodelling = Modeliser

Contruire des modèles

Assement = Valider

Comprendre , Valider, expliquer et repondres aux questions

Page 34: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

APPLICATIONS

Apprendre à manipuler Clémentine (Software)

Apprendre à manipuler Tanagra (Freeware)

b IV

Page 35: Seminaire datamining Ecole de Statistique et d'Economie Appliquée

A bientôt!

MERCI

Pour votre participation