SEMINAIRE
Jean Roger MABLY
DATAMINING ET
APPLICATIONS
K
Zx(
b8
5
$
a
>
[K
S Let’s come& see
9
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
Customer Lifetime Management Analyst à MTN-CI depuis Juillet 2011
Professeur vacataire de Marketing et Etudes de marchés à l’ENSEA (ITS Option Entreprise) depuis 2013.
Concpeteur et administrateur de la page facebook Intelligence Marketing: www.facebook/pages/Intelligence-Marketing
CEO du Bureau d’Etude Spécialisé dans le traitement de l’INFOrmation (BEST-INFO): Cabinet spécialisé dans l’E-commerce et Data-Analytics.
PRESENTATION DE L’INTERVENANT
Jean Roger MABLY
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
PLAN DE PRESENTATION
1. Origine et Définition du Datamining
2. Apport du Datamining
3. Comparaison Datamining vs Statistiques et Datamining vs Big Data
4. Le Datamining d’hier, d’aujourd’hui et de demain
PARTIE I: INTRODUCTION AU DATAMINING
PARTIE II: PANORAMA DES TECHNIQUES DATAMINING
1. Les grands groupes de modèles
2. Analyse factorielle
3. Classification/Prédiction
4. Segmentation
5. Associations
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
PLAN DE PRESENTATION (2)PARTIE III: DOMAINES D’APPLICATIONS
1. Utilité du Datamining dans le CRM
2. Utilité dans la banque
3. Datamining dans l’assurance de risque
4. Datamining dans la téléphonie
5. Le datamining dans le commerce
6. Autres exemples
PARTIE IV: CONSTRUIRE UN PROJET DATAMINING
1. SEMMA (SAS)
2. CRISP-DM (CLEMENTINE)
PARTIE V: UTILISATION D’OUTILS
1. CLEMENTINE
2. TANAGRA
INTRODUCTION AU DATAMINING Qu’est ce que le Datamining
? A quoi sert le datamining ? Ou va le Datamining ?
[
I
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
La fouille des donnéesLe DATAMINING est l’ensemble des:
techniques et méthodes
… destinées à l’exploration et l’analyse
… de (souvent) grandes bases de données informatiques
… en vue de détecter dans ces données des règles, des associations, des tendances inconnues (non fixées a priori), dans des structures particulières restituant de façon concise l’essentiel de l’information utile.
… pour l’aide à la décision.
On parle alors d’extraction de l’information dans la donnée
Selon le MIT, c’est l’une des 10 technologies émergentes qui « changerons le monde » au XXIème siècle
L’ONU à déclaré le 20 Octobre comme Journée mondiale de la Statistique
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
Intérêt du data mining On ne veut pas simplement confirmer des intuitions a priori par des requêtes
dans les bases de données mais détecter sans a priori les
combinaisons de critères les plus discriminantes
Par exemple, dans le domaine commercial, on ne veut plus seulement savoir:
« Combien de clients ont acheté tel produit pendant telle période ? »
Mais:
« Quel est leur profil ? »
« Quels autres produits les intéresseront ? »
« Quand seront-ils intéressés ? »
Les profils de clientèle à découvrir sont en général des profils complexes : pas seulement des oppositions « jeunes/seniors », « citadins/ruraux »… que l’on pourrait deviner en tâtonnant par des statistiques descriptives
Le data mining fait passer:
d’analyses confirmatoires
à des analyses exploratoires
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
À quoi sert le data mining?
Sondage effectué en 2009 sur: www,kdnudgets.com
Mieux connaitre le client Mettre en évidence des
facteurs de risques Test de médicaments et de
comestiques Détection automatique de
fraude Contôle de qualité des
produits Prévision d’audience TV Astrophysique pour le
classement des étoiles ou galaxie
Détection automatique de spam
Algorithm des moteur de recherche…
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
Préhistoire du data mining 1875 : régression linéaire de Francis Galton
1896 : formule du coefficient de corrélation de Karl Pearson
1900 : distribution du ² de Karl Pearson
1936 : analyse discriminante de Fisher et Mahalanobis
1941 : analyse factorielle des correspondances de Guttman
1943 : réseaux de neurones de Mc Culloch et Pitts
1944 : régression logistique de Joseph Berkson
1958 : perceptron de Rosenblatt
1962 : analyse des correspondances de J.-P. Benzécri
1964 : arbre de décision AID de J.P. Sonquist et J.-A. Morgan
1965 : méthode des centres mobiles de E. W. Forgy
1967 : méthode des k-means de Mac Queen
1972 : modèle linéaire généralisé de Nelder et Wedderburn
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
Histoire du data mining 1975 : algorithmes génétiques de Holland
1975 : méthode de classement DISQUAL de Gilbert Saporta
1980 : arbre de décision CHAID de KASS
1983 : régression PLS de Herman et Svante Wold
1984 : arbre CART de Breiman, Friedman, Olshen, Stone
1986 : perceptron multicouches de Rumelhart et McClelland
1989 : réseaux de T. Kohonen (cartes auto-adaptatives)
vers 1990 : apparition du concept de data mining
1991 : méthode MARS de Jerome H. Friedman
1993 : arbre C4.5 de J. Ross Quinlan
1996 : bagging (Breiman) et boosting (Freund-Shapire)
1998 : support vector machines de Vladimir Vapnik
2001 : forêts aléatoires de L. Breiman
2005 : méthode elastic net de Zhou et Hastie
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
Le data mining aujourd’hui Ces techniques ne sont pas toutes récentes
Ce qui est nouveau, ce sont aussi :
les capacités de stockage et de calcul offertes par l’informatique moderne
la constitution de giga-bases de données pour les besoins de gestion des entreprises
la recherche en théorie de l’apprentissage
les logiciels universels, puissants et conviviaux (Clementine, EG & Miner de SAS
l’intégration du data mining dans les processus de production
Ces évolutions permettent de traiter de grands volumes de données et font sortir le data mining des laboratoires de recherche pour entrer dans les entreprises
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
Le data mining aujourd’hui (2) Agrégation de modèles
rééchantillonnage bootstrap, bagging, boosting…
Web mining: optimisation des sites
meilleure connaissance des internautes
croisement avec les bases de données de l’entreprise
Text mining statistique lexicale pour l’analyse des courriers, courriels, dépêches,
compte-rendu, brevets (langue naturelle): 3 onglets de Gmail et Yahoo Spam, Moteurs de recherches Google, Bing…
Image mining reconnaissance automatique d’une forme ou d’un visage (Google
Glass, reconnaissance des sosie de la CIA…)
détection d’une échographie anormale, d’une tumeur
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
Le data mining de demain
Autant de développement
possible que votre
imagination ne peut vous le permettre
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
data mining vs statistique
DATAMINING
STATISTIQUE
Le datamining:1. Traite plus de données2. S’applique à une
population entière3. Travaille sur des
données existante4. Orienté pratique5. Compréhensibilité des
modèles plutôt que précision
6. Modèles localisés
La statistique:1. Traite moins de
données2. S’applique à un
échantillon représentatif
3. Recueille des données avant le travail
4. Orienté théorie5. Précision des
modèles plutôt que Compréhensibilité
6. Modèles généralisés
Le datamining utilise des techniques statistiques
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
data mining vs big dataLe data mining est l’ensemble des techniques
analytiques qui permettent d‘extraire de l’information d’une masse de données
La Big Data est l’ensemble des techniques informatiques qui permettent de recueillir le plus
grand nombre de données de toutes formes
BIG DATA = VELOCITY + VERACITY +
VOLUME
DATA MINING = STATISTIQUE +
APPRENTISSAGE + INTELLIGENCE
ARTIFICIELLE
PANORAMA DES TECHNIQUES DATAMINING Quelles sont les techniques
de Datamining ? Qu’est ce que le scoring Ou va le Datamining
(II
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
Les 2 types de techniques Le data mining
Les techniques descriptives (recherche de « patterns »):
visent à mettre en évidence des informations présentes mais cachées par le volume des données (c’est le cas des segmentations de clientèle et des recherches d’associations de produits sur les tickets de caisse)
réduisent, résument, synthétisent les données
il n’y a pas de variable à expliquer
Les techniques prédictives (modélisation) :
visent à extrapoler de nouvelles informations à partir des informations présentes (c’est le cas du scoring) la constitution de giga-bases de données pour les besoins de gestion des entreprises
expliquent les données
il y a une variable à expliquer
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
Qu’est ce que la segmentation et factorisation ? (classification en anglais)Regrouper des objets en groupes, ou classes, ou familles, ou segments, ou clusters, de sorte que : 2 objets d’un même groupe se ressemblent le + possible
2 objets de groupes distincts diffèrent le + possible
le nombre des groupes est parfois fixé
les groupes ne sont pas prédéfinis mais déterminés au cours de l’opération
Méthode descriptive : pas de variable cible privilégiée
décrire de façon simple une réalité complexe en la résumant
Utilisation en marketing, médecine, sciences humaines… segmentation de clientèle marketing
Les objets à classer sont : des individus
des variables
les deux à la fois (biclustering)
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
Qu’est ce que la classification ou prédiction? (segmentation en anglais)
Ce sont des méthodes prédictives
Classement : la variable à expliquer (ou « cible », « réponse », « dépendante ») est qualitative
on parle aussi de segmentation (en anglais) ou de discrimination
Prédiction : la variable à expliquer est quantitative
on parle aussi de régression
ou d’apprentissage supervisé (réseaux de neurones, arbres de décision…)
Scoring : classement appliqué à une problématique d’entreprise (variable à expliquer souvent binaire) – chaque individu est affecté à une classe (« sain » ou « malade », par exemple) en fonction de ses caractéristiques
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
Quelque types de score
Score d’appétence prédire l’achat d’un produit ou service
Score de (comportement) risque prédire les impayés ou la fraude
Score de préacceptation croisement des deux précédents
Score d’octroi prédire en temps réel les impayés
Score d’attrition prédire le départ du client vers un concurrent
Et aussi : En médecine : diagnostic (bonne santé : oui / non) en fonction du dossier du
patient et des analyses médicales
Courriels : spam (oui / non) en fonction des caractéristiques du message (fréquence des mots…)
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
Qu’est ce qu’une regle d’ associationsCe sont des méthodes prédictives pour détecter des
liaisons entre des « individus » d’un groupe ou d’en ensemble
E.g. Panier de la ménagère : qu’elles sont les éléments qui viennent ensemble ? si vous avez acheté des fleurs et du thé, vous allez probablement acheter du pain aussi
Pour découvrir modèles prédictifs cachés:
Parfois les modèles prédictifs intéressant sont cachées
La découverte d’association permet de trouver plusieurs petits lots de règles et peut de découvrir les modèles “masqués”
Exploration Générale :
“Ne sais pas exactement qu’est ce que je cherche, mais juste dis moi qui va avec quoi”
DOMAINES D’APPLICATIONS Quelles sont les applications
du datamining ? Comment son application
change notre quotidiens ?
bIII
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
Utilité du datamining dans le CRM (gestion de la relation client)
Mieux connaître le client pour mieux le servir
pour augmenter sa satisfaction
pour augmenter sa fidélité (+ coûteux d’acquérir un client que le conserver)
La connaissance du client est encore plus utile dans le secteur tertiaire : les produits se ressemblent entre
établissements
le prix n’est pas toujours déterminant
ce sont surtout le service et la relation avec le client qui font la différence
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
Exemple de Credit scoring
Objectifs de la banque : vendre plus
en maîtrisant les risques
en utilisant les bons canaux au bon moment
Le crédit à la consommation: un produit standard
concurrence des sociétés spécialisées sur le lieu de vente
quand la banque a connaissance du projet du client, il est déjà trop tard
Conclusion : il faut être pro-actif détecter
les besoins des clients et leur tendance à emprunter
Faire des propositions commerciales aux bons clients, avant qu’ils n’en fassent la demande
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
Le Data mining dans la Banque Naissance du score de risque en 1941 (David Durand)
Multiples techniques appliquées à la banque de détail et la banque d’entreprise
Surtout la banque de particuliers :
montants unitaires modérés
grand nombre de dossiers
dossiers relativement standards
Essor dû à :
développement des nouvelles technologies
nouvelles attentes de qualité de service des clients
concurrence des nouveaux entrants (assureurs, grande distribution) et des sociétés de crédit
pression mondiale pour une plus grande rentabilité
surtout : ratio de solvabilité Bâle 2
vendre plus
en maîtrisant les risques
en utilisant les bons canaux au bon moment
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
Le Data mining dans l’ assurance de risque Des produits obligatoires (automobile, habitation) :
soit prendre un client à un concurrent
soit faire monter en gamme un client que l’on détient déjà
D’où les sujets dominants :
Attrition
ventes croisées (cross-selling)
montées en gamme (up-selling)
Besoin de décisionnel dû à :
concurrence des nouveaux entrants (bancassurance)
bases clients des assureurs traditionnels mal organisées :
compartimentées par agent général
ou structurées par contrat et non par client
vendre plus
en maîtrisant les risques
en utilisant les bons canaux au bon moment
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
Le Data mining dans la telephonie Deux événements :
ouverture des monopoles nationaux à d’autres opérateurs télécom
arrivée à saturation du marché de la téléphonie mobile
D’où les sujets dominants dans la téléphonie :
score d’attrition (churn = changement d’opérateur)
optimisation des campagnes marketing
text mining (pour analyser les lettres de réclamation)
Problème du churn :
coût d’acquisition moyen en téléphonie mobile : 50,000 frs env
plus d’un million d’utilisateurs changent chaque d’année d’opérateur
En France, la loi Chatel (juin 2008) facilite le changement d’opérateur en diminuant le coût pour ceux qui ont dépassé 12 mois chez l’opérateur
la portabilité du numéro facilite le churn
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
Le Data mining dans le commerce Vente Par Correspondance
utilise depuis longtemps des scores d’appétence
pour optimiser ses ciblages et en réduire les coûts
des centaines de millions de documents envoyés par an
e-commerce
personnalisation des pages du site web de l’entreprise, en fonction du profil de chaque internaute
optimisation de la navigation sur un site web
Grande distribution
analyse du ticket de caisse
détermination des meilleures implantations (géomarketing)
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
Autres exemples d’utilisation du data mining
De l’infiniment petit (génomique) à l’infiniment grand (astrophysique pour le classement en étoile ou galaxie)
Du plus quotidien (reconnaissance de l’écriture manuscrite sur les enveloppes) au moins quotidien (aide au pilotage aéronautique)
Du plus ouvert (e-commerce) au plus sécuritaire (détection de la fraude dans la téléphonie mobile ou les cartes bancaires)
Du plus industriel (contrôle qualité pour la recherche des facteurs expliquant les défauts de la production) au plus théorique (sciences humaines, biologie…)
Du plus alimentaire (agronomie et agroalimentaire) au plus divertissant (prévisions d’audience TV)
CONSTRUIRE UN PROJET DATAMINING Quelles sont les etapes
pour aboutir au bon modele
Quelles sont les diiferents méthodes existantes ?
Quelle difference entre SAS et SPSS?
b IV
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
Démarche methodologique du data mining Comprendre l’application ou le problème
Connaissances a priori, objectifs, etc.
Sélectionner un échantillon des données
Choisir une méthode d’échantillonnage
Nettoyage et transformation des données
Supprimer les « bruits »: données superflues, marginales, données manquantes, etc.
Appliquer les techniques de fouille des données
Choisir le bon algorithme
Visualiser, évaluer et interpréter les modèles découverts
Analyse de la connaissance (intérêt)
Vérifier sa validité ( sur le reste de la base de données)
Réitérer le processus si nécessaire.
Gérer la connaissance découverte
La mettre à la disposition des décideurs
L’échange avec d’autres applications (système d’expert,…)
Etc.
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
Les étapes du processus du data mining 1.Compréhension du domaine d’application
2.Création du fichier cible (target data set)
3.Traitement des données brutes (data cleaning & prepocessing)
4.Réduction des données (data reduction and projection)
5.Définition des taches de fouille des données
6.Choix des algorithmes appropriés de fouilles de données
7.Fouille de données (data mining)
8.Interprétation des formes extraites (mined patterns)
9.Validation des connaissances extraites
10.Déploiement des algorithmes.
www.domain.comPhone: +1(123) 456 78 90 | e-mail: [email protected]
YOUR LOGO
SEMMA (SAS) vs CRISP-DM (CLEMENTINE)
Sampling = Echantillonner
Tirer un échantillon significatif pour extraire des modèles
Exploration = Explorer
Devenir famillier avec les données (patterns)
Manipulation = Manipuler
Ajouter des informations, coder, grouper des attributs
Appmodelling = Modeliser
Contruire des modèles
Assement = Valider
Comprendre , Valider, expliquer et repondres aux questions
Sampling = Echantillonner
Tirer un échantillon significatif pour extraire des modèles
Exploration = Explorer
Devenir famillier avec les données (patterns)
Manipulation = Manipuler
Ajouter des informations, coder, grouper des attributs
Appmodelling = Modeliser
Contruire des modèles
Assement = Valider
Comprendre , Valider, expliquer et repondres aux questions
APPLICATIONS
Apprendre à manipuler Clémentine (Software)
Apprendre à manipuler Tanagra (Freeware)
b IV
A bientôt!
MERCI
Pour votre participation
Recommended