28
1 Data Mining 2 - Fondements théoriques Françoise Soulié Fogelman Master MI2R MICR Cours Fouille de Données KXEN-Confidential 2 Agenda La question métier Comment décrire un problème data mining Comment décrire la question métier Données Modèles Evaluation des Techniques de Modélisation Le modèle d’apprentissage statistique de V. Vapnik

06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

1

Data Mining2 - Fondements théoriques

Françoise Soulié Fogelman

Master MI2R MICRCours Fouille de Données

KXEN-Confidential 2

Agenda

La question métier■ Comment décrire un problème data mining■ Comment décrire la question métier

DonnéesModèlesEvaluation des Techniques de ModélisationLe modèle d’apprentissage statistique de V. Vapnik

Page 2: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

2

KXEN-Confidential 3

Comment décrire un problème data mining

Le début de tout projet data mining■ Un utilisateur métier pose une question

La Direction veut augmenter le revenu sur ce produit : – “Pouvez-vous me dire quels clients actuels je dois contacter pour leur offrir ce

produit avec mon prix spécial promotion ? “

La Production s’est aperçu que ce processus produits beaucoup plus de défauts que cet autre :

– “Pouvez-vous me dire les caractéristiques de ces processus qui expliquent cet écart ? “

■ … pour prendre une décision concernant une action à lancer

Ces questions sont liées aux objectifs stratégiques de l’entreprise■ Le Plan Stratégique détaille les objectifs stratégiques de

l’entreprise■ Le Plan opérationnel liste

Les actions prévuesLes KPI - Key Performance Indicators - utilisés pour mesurer les résultats des actions

Aujourd’hui, les entreprises veulent industrialiser le processus de décision et contrôler leurs actions

KXEN-Confidential 4

Comment décrire la question métier

Pour chaque question métier posée, il faut :■ Comprendre le processus métier associé■ Quelles sont les variables associées■ Quel est le résultat attendu

Les variables d’entrée■ Ou variables explicatives■ Ou inputs■ Doivent être disponibles

La cible■ Ou variable expliquée■ Ou output■ Doit être mesurable■ Et “actionnable”

Page 3: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

3

KXEN-Confidential 5

Exemples de questions métier

Ciblage marketing■ Propensité d’achat■ Rétention ■ Push d’offres en temps réel

Segmentation■ Segmentation clients■ Segmentation offres

Crédit ■ Probabilité de défaut

Distribution■ Prévision de revenu, de vente■ Ventes co-occurrentes

Industrie■ Prévision des défauts, ■ Nombre de pannes■ Appels pour intervention■ Pièces nécessaires

KXEN-Confidential 6

Comment décrire la question métier

Le projet Data Mining vise donc à :■ Exploiter les données existantes pour■ Produire un modèle répondant à la question métier

Le modèle fournit les éléments pour construire un Business Case

■ Exploiter le modèle pour réaliser une action ciblée

Exemple■ Définir la cible d’une campagne marketing, i.e. la liste des

personnes à contacter. ■ Le modèle donne une indication du retour attendu

J’ai un budget de 100 000 €Mon modèle m’indique que en contactant 10 000 clients (ceux qui ont le meilleur score), je devrais obtenir un taux de retour de 12%Le retour net de ma campagne devrait donc être de 20 000 € (si chaque client qui répond me rapporte 100 €)

Page 4: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

4

KXEN-Confidential 7

Agenda

La question métierDonnées■ Le processus données■ Construire l’Analytical Data Set■ Caractéristiques des données

ModèlesEvaluation des Techniques de ModélisationLe modèle d’apprentissage statistique de V. Vapnik

KXEN-Confidential 8

Le processus données

Les données sont à la base du data mining ■ No data, no model !

Le processus de collecte de données est complexe : il faut■ Identifier l’ensemble des sources de données■ Mettre en place les mécanismes de collecte■ Mettre les données en cohérence■ Manipuler & transformer les données

… pour constituer le “Analytical Data Set”

DataMining

DataPreparation

DataManipulation

DataAccess

Mail e-mail POSCall Center Phone Fax SMS / MMS Web

AnalyticalData Set

Customer Touch Points

Productiondatabases

Legacysystems

Files

DataAccess

ODS DataWarehouse

External Files

Page 5: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

5

KXEN-Confidential 9

Le processus données

Exemple

Manipulation des donnéesBase clients telco

Préparation des donnéesAnalytical Data Set

Customer Id Last name

First name Address Birth date Profession Education

Local traffic

Traffic to mobile

Traffic to Internet

Preferred mode

Quality of payment

Number of calls

Duration of calls Mobile

1234

128 Lion Leo S.12 Baltimore

Street1975/02/2

9 Clown PhD 02:37:00 01:23:00 07:46:00 CC E 37 03:24:00 1…………

KXEN-Confidential 10

Le processus données

Manipulation des donnéesRéconcilier les formats hétérogènes■ Meta-données et référentiels

Rapprocher des labellés différents■ Données internes & externes

Préparation des donnéesProduire des données calculées■ Agrégats■ Variables calculées

Coder les variables■ Binning ■ Regroupement de catégories …

DataPreparation Analytical

Data SetData

Warehouse

DataManipulation

DataAccess

DataAccess

ODS

Page 6: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

6

KXEN-Confidential 11

Construire l’Analytical Data Set

Analytical Data Set : Représentation tabulaire des données Une ligne représente une “observation”■ Par exemple : un client

Une colonne représente une “variable”■ Par exemple : âge, nom

Autre termes pour "Observation"

Autre termes pour "Variable"

Ligne ColonneExemple AttributTable ChampEvent PropriétéInstance -Record -

KXEN-Confidential 12

Construire l’Analytical Data Set

Manipulation des donnéesRéférentiel & meta-données■ Les données sur les données

Nom des variables, sens, format

■ Mapping des meta-données Noms de champs et types de formats d’input variés vers un format commun

Transformer les contenus de variables similaires vers un format commun unique ■ Consistence

Ex : format “civilité, prénom, nom”

Jointures : de sources de données multiplesFiltrage des données Règles métier ■ Ex : variables positives (“nb d’appels”), borné (“âge” < 150), dans

un domaine (“sexe” dans {mâle, femelle}

Outliers■ Détecté en fonction du dictionnaire, des règles et flaggé■ Traité ensuite

DataManipulation

DataAccess

DataAccess

ODS

Page 7: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

7

KXEN-Confidential 13

Construire l’Analytical Data Set

Préparation des données Sélection des variables■ Choisir les variables utiles

Définition de la cibleLes transformations “métier”■ Champs calculés : produire de nouvelles variables à partir de

variables existantesNb de jours entre l’émission de la facture et le paiementProfit : prix d’achat – coût de fabrication

Codage : les transformations statistiques nécessaires pour un certain modèle■ Changer les types de continu à nominal ou ordinal (binning ou

regroupement de catégories)■ Eclater une variable en plusieurs ou Regrouper plusieurs variables

en une seuleReprésentation d’une variable multi-catégorie

Évaluer la qualité des données pour determiner■ Les valeurs manquantes (blancs, espaces, nuls)■ Les outliers■ Les corrélations

DataPreparation Analytical

Data SetData

Warehouse

KXEN-Confidential 14

Construire l’Analytical Data Set

Qualité des données

Les données doivent être ■ Exactes : valeurs correctes■ Non redondantes : doublons■ Complètes : données “manquantes”

“missing-rate” d’une variable : combien d’observations ne l’ont pas“filling-rate” d’une observation : combien de variables sont remplies

Traitement des données “manquantes”1. Éliminer toutes les lignes non remplies complètement

On risque d’éliminer beaucoup de lignes !

2. Remplacer les données manquantes par des valeurs calculéesVariable nominale : catégorie la plus fréquente, Variable continue : moyenne

3. Créer une classe spécialeVoir Démo KXEN

Page 8: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

8

KXEN-Confidential 15

Caractéristiques des données

Chaque variable a 3 caractéristiques :1. Type

Continue Ordinal : variables discrètes (numérique ou texte) dont l’ordre a un sens Nominal : variables discrètes dont l’ordre n’a pas de sens

– Numérique : binaire (0 ou 1), codes postaux (75 013, 92 125 …) – Texte : chaînes de caractères sans ordre (CC –carte crédit, CH –chèque, RA –

retrait automatique)

2. Format de stockageDateNumber String

Le format de stockage …est utilisé pour décrire des variables quand leur valeur correspond à … Par exemple ...

dateDates exprimées dans les formats : AAAA-MM-JJ, AAAA/MM/JJ Variable date de naissance "2001-11-30", "1999/04/28"

numberNombres sur lesquels on peut faire des opérations

Variable "Salaire", en dollars US : "1000", "1593" et "2000,54"Variable "Age", en années "21", "34" et "99"

string Chaîne de caractères alpha-numérique

Variable "Nom de famille": "Lion", "Martin" et "Miller"Variable "Numéro de téléphone "800 555 1234" et "800 555 4321"Variable "Profession": "professeur", "ingénieur" et "clown"

KXEN-Confidential 16

Caractéristiques des données

Chaque variable a 3 caractéristiques :3. Rôle

Le rôle de la variable dans le projetLe rôle peut changer dans un autre projet

Rôle de la variable Autres termes

Cible

Variable expliquéeVariable dépendanteOutput

Explicative

Variable causale Variable indépendanteInput

Exclue SkipPoids *

Page 9: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

9

KXEN-Confidential 17

Un exemple : le problème “census”

Variables

skip integer continuous KxIndex target 0 number nominal class input 857 string nominal native-country input 0 number continuous hours-per-week input 0 number continuous capital-loss input 244 number continuous capital-gain input 0 string nominal sex input 0 string nominal race input 0 string nominal relationship input 2 809 string nominal occupation input 0 string nominal marital-status input 0 number ordinal education-num input 0 string nominal education input 0 number continuous fnlwgt input 2 799 string nominal workclass input 0 number continuous age

Rôle Nombre de manquant Stockage Valeur Variable

KXEN-Confidential 18

Agenda

La question métierDonnéesModèles■ Modèles descriptifs■ Modèles prédictifs

Le modèle d’apprentissage statistique de V. Vapnik Evaluation des Techniques de Modélisation

Page 10: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

10

KXEN-Confidential 19

Types de modèles

Il y a deux sortes de modèles :

Modèles descriptifs■ Exploration des données du passé■ … pour comprendre le passé■ Information descriptive sur les

variables et leurs relations

Modèles prédictifs■ Exploitation des données du passé■ … pour prévoir et expliquer le futur■ Information prédictive sur la future valeur de la variable cible

KXEN-Confidential 20

Types de modèles

Source : Teradata

Page 11: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

11

KXEN-Confidential 21

Types de modèles

Un modèleEst produit à partir de l’Analytical Data Set ■ à partir des données du passé, on produit un modèle pour prévoir

Est utilisé■ sur de nouvelles données (le futur)

Est évalué■ sur ces nouvelles données

Qualités d’un modèlePrécision ■ La capacité du modèle à être “bon” sur les données du passé

Robustesse / Généralisation ■ La capacité du modèle à être “bon” sur les données du futur

Quelles que soient ces donnéesEn présence d’outliers, de données manquantes …

Et ceci quelles que soient les distributions des données

KXEN-Confidential 22

Modèles descriptifsStatistiques descriptives

Variable “Age” (base Census)

0%

5%

10%

15%

20%

25%

[17 ; 23] [24 ; 26] ]26 ; 29[ [29 ; 30] [31 ; 35] [36 ; 45] ]45 ; 53] ]53 ; 62] ]62 ; 90]

Share of Category with Target = 1

Share of Category with Target = 0

-1%

1%

3%

5%

7%

9%

11%

13%

[17 ; 23]

[24 ; 26]

]26 ; 29[

[29 ; 30]

[31 ; 35][36 ; 45]

]45 ; 53]

]53 ; 62]

]62 ; 90]

Page 12: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

12

KXEN-Confidential 23

Modèles descriptifsImportance des variables

Un modèle prédictif peut donner de l’information sur l’importance des variables. Exemple■ Dans la base Census, j’essaie de prévoir si une personne gagne

plus de 50 000 $ / an■ Un modèle de régression simple :

Classe = 1 si a*age + b*capital-gain ≥ cClasse = 0 si a*age + b*capital-gain < c

■ Contribution avec

■ Cas des variables corrélées : x et yContribution intelligente

■ Importance des catégoriesInfluence sur la cible : le comportement est comparé au comportement moyen de l'ensemble de la population

1=∑∑i

ii

i

oidsPoidsP

∑=

ii

ii oidsP

oidsPontribC

( ) ( )( )xybAx

xybxbabybxbxax

byax

−+=−++=

+−+=+

KXEN-Confidential 24

Modèles descriptifsImportance des variables

■ Contribution intelligente des variables (prévision de “class” -base Census)

■ Importance des catégories des variables “marital-status” et “capital-gain”

Page 13: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

13

KXEN-Confidential 25

Modèles descriptifsSegments

Construction de segments■ Non supervisée / Supervisée

Exemple■ Production de 5 segments

supervisée par “class”(base Census)

■ Description des Segments / variable / population

Marital Status

Capital Gain

00,10,20,30,40,5

0,60,70,80,9

1

Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5

Fréquence % de 1

KXEN-Confidential 26

Modèles prédictifsClasses de modèles

Classification ■ La cible est nominale

Binaire : il y a 2 classes (0 et 1)Multi-modale : il y a n classes (1, 2, …, n)

Régression■ La cible est continue

ScoreSérie temporelle …

1

0

Page 14: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

14

KXEN-Confidential 27

Modèles prédictifsUtilisation des modèles

1. Expliquer / comprendre■ Le modèle est une description / simplification du phénomène■ Il permet de répondre à des questions comme :

Quelles sont les variables significativesQuel est l’impact d’une variation de l’une des variables …

2. Prévoir■ Le modèle donne une estimation de la classe ou de la valeur■ Des modèles différents donnent des prévisions différentes

Quelle est la “bonne” prévision ? Existe-t-il un moyen de garantir qu’on obtient une bonne prévision ?

KXEN-Confidential 28

Modèles prédictifsUtilisation des modèles

Données d’apprentissage

t

y

x

Modèle simple

Modèle intermédiaire

Modèle complexe

Page 15: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

15

KXEN-Confidential 29

Modèles prédictifsUtilisation des modèles

Qu’attendons-nous d’un modèlePrécision (ensemble d’apprentissage)

Modèle simple Modèle complexeModèle intermédiaire

Robustesse (ensemble de test)

Modèle complexeModèle simple Modèle intermédiaire

KXEN-Confidential 30

Agenda

La question métierDonnéesModèlesLe modèle d’apprentissage statistique de V. Vapnik■ Le cadre mathématique■ La théorie de Vapnik■ Le processus de modélisation

Propriétés attendues d’un modèle– Généralisation– Consistence– Robustesse

Stratégie de génération de modèle

Evaluation des Techniques de Modélisation

Page 16: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

16

KXEN-Confidential 31

Le cadre mathématique

Données d’apprentissage■ La cible y peut être continue ou pas

■ Dans la « base d’apprentissage », tous les yi sont connus

Une classe de fonctions■ Par exemple :

La classe des plynômes de degré pLa classe des MLP avec p neurones cachés …

Un modèle issu de cette classe■ Par exemple, le polynôme dont les paramètres sont

Le « meilleur » modèle ■ Produit par un certain algorithme ou un principe d’inférence■ Et qui correspond donc au « meilleur » paramètre

( ){ }Θ∈=ΦΘ θθ ,.,f

( )θ,xfy =

( )θ,ˆ xfy =

θ

θ

( ) ( ) ( )nn yxyxyx ,,...,,,, 2211

KXEN-Confidential 32

Le cadre mathématique

Une fonction de coût■ Par exemple

L’écart quadratique

L’erreur en apprentissage ou risque empirique■ Le coût moyen sur l’ensemble

d’apprentissage■ Par exemple l’écart quadratique

moyen MSE (Mean Square Error)

L’erreur en généralisation■ Le coût moyen théorique sur

l’ensemble de la population■ … qui est l’erreur attendue sur de

nouvelles données

Principe d’inférence■ Minimisation du risque empirique■ Par exemple : LMSE (Least Mean

Square Error)

( )[ ] ( )[ ]2,,, θθ xfyxfyL −=

( )[ ]θ,, xfyL

( ) ( )[ ]∑=

=n

iiiemp xfyL

nR

1

,,1 θθ

( ) ( )[ ] ( )yxdPxfyLRGen ,,, ⋅= ∫ θθ

( )θθθ

empRnmiargˆ =

( ) ( )[ ]∑=

−=n

iiiemp xfy

nR

1

2,1 θθ

( )[ ]∑=

−=n

iii xfy

nrga nmi

1

2,1ˆ θθθ

Page 17: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

17

KXEN-Confidential 33

Le cadre mathématique

L’erreur d’apprentissage (précision)

L’erreur de généralisation (robustesse)

( ) ( )[ ] ( )yxdPxfyLRGen ,,, ⋅= ∫ θθ

Modèle intermédiaire

Deux notions

Modèle complexe

( ) ( )[ ]∑=

=n

iiiemp xfyL

nR

1

,,1 θθ

KXEN-Confidential 34

La théorie de Vapnik

La « Statistical Learning Theory » est une théorie générale qui repose sur 4 principes1. Consistence (robustesse)

Capacité à généraliser correctement sur de nouvelles données

2. Vitesse de convergenceCapacité à généraliser de mieux en mieux quand le nombre de données d’apprentissage augmente

3. Contrôle de la capacité de généralisationC’est la stratégie qui permet de contrôler la capacité de généralisation àpartir des seules données disponibles : les données d’apprentissage

4. Stratégie pour obtenir de bons algorithmesC’est la stratégie qui nous permet de garantir et mesurer la capacité de généralisation du modèle que notre algorithme produit

… et utilise un paramètre la « VC dimension » ou dimension de Vapnik Chervonenkis

Page 18: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

18

KXEN-Confidential 35

La théorie de Vapnik

Dimension de Vapnik ChervonenkisEtant donné■ Un échantillon de n observations

■ caractérisées par p variables :

Il y a 2n façons de séparer ces n observations en 2 classes

On dit que la famille de fonctions “pulvérise” l’échantillon si toutes les 2n séparations sont réalisables (avec un θ bien choisi)

On dit que la famille ΦΘ est de VC dimension h ∈N si :

1. Tout échantillon de h observations de ℜp peut être pulvérisé par ΦΘ2. Il existe au moins un échantillon de h+1 observations qui ne peut pas

être éclaté par ΦΘ

( )nxxx ,...,, 21

pix ℜ∈

( ){ }Θ∈=ΦΘ θθ ,.,f

KXEN-Confidential 36

La théorie de Vapnik

Dimension de Vapnik Chervonenkis de la famille des droites de ℜ2

■ 3 points

■ 4 points

h = 3 (=2+1)

Page 19: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

19

KXEN-Confidential 37

La théorie de Vapnik

1. Consistence (robustesse)■ Capacité à généraliser

correctement sur de nouvelles données

2. Vitesse de convergence■ Capacité à généraliser de

mieux en mieux quand le nombre de données d’apprentissage augmente

■ Indépendant des distributions de (X,Y)

( )θ,ˆ xfy =

h

( ){ }Θ∈=ΦΘ θθ ,.,f

■ Un modèle est

consistent si et seulement si

la famille

dont il est issu est de VC

dimension finie

KXEN-Confidential 38

La théorie de Vapnik

3. Contrôle de la capacité de généralisation■ C’est la stratégie qui permet de contrôler la capacité de généralisation à

partir des seules données disponibles : les données d’apprentissage

■ Quand n/h est grand, on minimise le risque empirique Remp

■ Quand n/h est petit , on minimise les deux termes : Remp ET ε(n,h)

doivent être minimisés

empR

empR

GenR

Statistique classique

Page 20: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

20

KXEN-Confidential 39

La théorie de Vapnik

4. Stratégie pour obtenir de bons algorithmes■ C’est la stratégie qui nous permet de garantir et mesurer la capacité de

généralisation du modèle que notre algorithme produit■ SRM (Structural Risk Minimization) : on utilise des familles de fonctions

emboîtées

KXEN-Confidential 40

La théorie de Vapnik

MoralitéCe qu’on ne peut pas contrôler■ La distribution des données

Certainement pas Gaussiennes …

■ Les approximations de distributionTransformation pour se ramener au cas Gaussien

Ce qu’on peut contrôler■ La classe de modèles où on recherche la solution ΦΘ

■ La VC dimension h de la classe retenue

Avec une méthode de contrôle■ La SRM qui garantit la robustesse

Page 21: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

21

KXEN-Confidential 41

Le processus de modélisation

La SRM en pratique dans KXEN

Et deux indicateurs ■ Précision : KI■ Robustesse : KR

KXEN-Confidential 42

Le processus de modélisation

1. Produire l’Analytical Data Set

2. Choisir la famille emboîtée de modèles

3. Choisir le meilleur modèle (SRM)

4. Evaluer les performances5. Ré-itérer si nécessaire

Modélisation

Choisir la famille emboîtée de fonctions

Augmenter progressivement la VC dim

Choisir le modèle qui optimise lecompromis précision / robustesse

Page 22: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

22

KXEN-Confidential 43

Agenda

La question métierDonnéesModèlesLe modèle d’apprentissage statistique de V. VapnikEvaluation des Techniques de Modélisation■ Introduction■ Classification binaire

Matrice de Confusion Indicateurs de performance

■ Régression

KXEN-Confidential 44

Introduction

Le résultat de la modélisation :■ Un ou plusieurs modèles

Il faut ■ Évaluer la performance d’un modèle■ Comparer les performances de plusieurs modèles

Il y a deux niveaux d’évaluation de la performance■ Évaluation technique

Indicateurs techniques / statistiquesDoivent être indépendants des distributions des données

■ Évaluation métierQuelles sont les performances “métier” obtenues si on utilise ce modèle : elles sont mesurées apr des KPI (“key Performance Indicators”)Exemples :

– Taux de retour, profit généré par une campagne– Taux de défaut généré dans ce processus d’attribution de crédit

Page 23: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

23

KXEN-Confidential 45

Classification binaire

On a 2 classes : 0/1 ou N/P (négatif / positif)

Il faut définir un modèle Classe tel que

Classe ( X ) = 0 ou 1

Il y a deux méthodes■ Classification - ou décision- directe■ Score

On produit d’abord un score f dont la valeur est une variable continue

f(x) = sOn fixe un seuil sur ce score SOn classe dans une classe 0/1 selon que le score est inférieur / supérieur à S

– Classe ( X ) = 1 si f(x) > S

– Classe ( X ) = 0 si f(x) ≤ SCette technique est plus flexible : en faisant varier le seuil , on peut faire varier les proportions d’individus affectés à l’une ou l’autre classe

KXEN-Confidential 46

Classification binaire Matrice de Confusion

On a un modèle de décision Classe On compare la décision “Classé” à la réalité “Réel”Pour chaque observation, 4 cas possibles■ Classe ( X ) = 1 et Réel ( X ) = 1 : Vrai Positif■ Classe ( X ) = 1 et Réel ( X ) = 0 : Faux Positif■ Classe ( X ) = 0 et Réel ( X ) = 1 : Faux Négatif■ Classe ( X ) = 0 et Réel ( X ) = 0 : Vrai Négatif

On note■ VP, FP, VN et FN les nombres de vrai/faux positifs, vrai/faux

négatifs dans la population totale■ nbCP / nbCN, nbRP / nbRN les nombres de classés et réels P/N

P N TotalP VP FP nbCPN FN VN nbCN

nbRP nbRN n

Réel

Classé

Total

Page 24: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

24

KXEN-Confidential 47

Classification binaire Matrice de Confusion

Pour un score, la matrice de confusion en proportions■ Les proportions de vrai P /N :

(sensibilité et spécificité)

Modèle parfait

Modèle aléatoireScore

Fréquence

Positif

Négatif

(s)

(s)

s

( ) nbRPVPs =α ( ) nbRN

VNs =β

P NP α (s) 1 - β (s)N 1 - α (s) β (s)

Réel

Classé

KXEN-Confidential 48

Classification binaire Indicateurs de performance

Taux de Bien Classéset taux d’erreur de classification■ Problème si les classes sont déséquilibrées■ OK pour comparer plusieurs classifieurs

Lift Curve■ La courbe représentant le taux de VP en fonction des P de la

population, i.e. si on ordonne les observations par score décroissant α(s) en fonction de 1-F(s) (F(s) est le taux de positifs

dans la population avec score supérieur à s)

nbRNnbRPVNVPTBC

++

=

TBCTER −=1

α(s)

1-F(s)

Page 25: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

25

KXEN-Confidential 49

Classification binaire Indicateurs de performance

A partir de la Lift Curve

Indicateur KI■ Le rapport de l’aire M entre

les courbes Modèle/aléatoire

à l’aire W entre les courbes modèle parfait / aléatoire

KI = M / W(modèle parfait =Wizard ou Oracle)

Indicateur KR■ Le rapport de l’aire G entre

les courbes du Modèle sur les ensembles d’estimation et de

validation à l’aire W entre les courbes modèle parfait / aléatoire

KR = 1 - G / W

α(s)

1-F(s)

W

M

1-F(s)

α(s)

G

W

KXEN-Confidential 50

Classification binaire Indicateurs de performance

Courbe de profit■ On définit une structure de coût/

revenu■ Exemple

Profit ( s ) = VP x Rev – FP x CoûtProfitmax est le profit généré par Wizard

Profit_Rate ( s ) = Profit ( s ) / Profitmax

(pP et pN sont les taux de P /N)

■ La courbe de profit est la courbe représentant Profit_Rate ( s ) en fonction des P de la population, i.e. si on ordonne les observa-tions par score décroissant Profit_Rate ( s ) en fonction de 1-F(s) 1-F(s)

Profit_Rate(s)

( ) ( ) ( )[ ]evR

CoûtppsssraterofitP

P

N ⋅⋅−−= βα 1_

nbRNnbRPnbRPpP +

=

nbRNnbRPnbRNpN +

=

P NP Rev CoûtN 0 0

Réel

Classé

Page 26: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

26

KXEN-Confidential 51

Classification binaire Indicateurs de performance

Remarques■ Si Rev=1 et Coût=0, Profit_Rate ( s )=α(s)

Courbe de profit = courbe de lift

■ Si Rev= pN et Coût=pP ,

Courbe de profit = Standardized Profit

( ) ( ) ( )[ ] ( )sTsssraterofitP =−−= βα 1_

1-F(s)

T(s)

KXEN-Confidential 52

Classification binaire Indicateurs de performance

Courbe ROC ■ La courbe représentant le taux de VP en fonction du taux de

FP, i.e. si on ordonne les observations par score décroissantα(s) en fonction de 1-β(s)

Indicateur AUC■ L’aire sous la courbe ROC

■ KI = 2 AUC -1

( ) ( )[ ]sdsAUC βα −= ∫−∞

∞+

1.α(s)

1-β(s)

AUC

Page 27: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

27

KXEN-Confidential 53

Régression

Notations■ Un échantillon

■ La cible y est une variable continue

■ La valeur prévue :

■ Le résidu :

■ L’erreur :

■ La moyenne de la cible :

■ La moyenne des prévisions :

( ) ( ) ( )nn yxyxyx ,,...,,,, 2211

y

iii yyr ˆ−=

|||ˆ| iiii ryyu =−=

∑=

=n

iiy

ny

1

1

∑=

=n

iiy

ny

1

ˆ1ˆ

KXEN-Confidential 54

RégressionIndicateurs de performance

Les indicateurs■ Mean Square Error

■ Root Mean Squared Error (RMSE ou L2)

■ Mean Absolute Error (MAE ou L1)

■ Maximum Absolute Error (ou L∞)

■ Sum of Squares of Regression

■ Total Sum of Squares

■ Determination Coefficient (Rsquare-R2)

■ Corrélation de Pearson

[ ]∑=

−=n

iii yy

nMSE

1

2ˆ1

MSEL =2

∑=

=n

iiu

nL

1

11

iiuL max=∞

∑=

−=n

ii yySSR

1

2)ˆ(

∑=

−=n

ii yySST

1

2)(

SSTSSRR =2

22 srP =

∑∑∑===

−−−−=n

ii

n

ii

n

iiis yyyyyyyyr

1

2

1

2

1

)()ˆˆ())(ˆˆ(

Page 28: 06 Data Mining KXEN 2.ppt [Read-Only] - LIPNbennani/tmpc/FDON/06... · Nb de jours entre l’émission de la facture et le paiement Profit : prix d’achat – coût de fabrication

28

KXEN-Confidential 55

Lecture

IndustrielSite d’informations data mining ■ http://www.kdnuggets.com/

Predictive Analytics; the Future of Business Intelligence Mukhles Zaman■ http://www.technologyevaluation.com/Research/ResearchHighlights/BusinessIntelligenc

e/2005/12/research_notes/TU_BI_XMZ_12_24_05_1.asp

Data Mining Tools: Which One is Best For CRM? Robert A. Nisbet■ Part 1 http://www.dmreview.com/editorial/newsletter_article.cfm?articleId=1046025■ Part 2 http://www.dmreview.com/article_sub.cfm?articleID=1046597

Comprendre l'industrialisation informatique ■ http://solutions.journaldunet.com/dossiers/pratique/industrialisation-informatique.shtml

ScientifiqueVladimir Vapnik■ ‘Statistical Learning Theory’, Wiley-Interscience, 1998■ ‘The Nature of Statistical Learning Theory’, Springer-Verlag, 1999

Cours du MIT ■ http://www.mit.edu/~9.520/#description