1
Data Mining2 - Fondements théoriques
Françoise Soulié Fogelman
Master MI2R MICRCours Fouille de Données
KXEN-Confidential 2
Agenda
La question métier■ Comment décrire un problème data mining■ Comment décrire la question métier
DonnéesModèlesEvaluation des Techniques de ModélisationLe modèle d’apprentissage statistique de V. Vapnik
2
KXEN-Confidential 3
Comment décrire un problème data mining
Le début de tout projet data mining■ Un utilisateur métier pose une question
La Direction veut augmenter le revenu sur ce produit : – “Pouvez-vous me dire quels clients actuels je dois contacter pour leur offrir ce
produit avec mon prix spécial promotion ? “
La Production s’est aperçu que ce processus produits beaucoup plus de défauts que cet autre :
– “Pouvez-vous me dire les caractéristiques de ces processus qui expliquent cet écart ? “
■ … pour prendre une décision concernant une action à lancer
Ces questions sont liées aux objectifs stratégiques de l’entreprise■ Le Plan Stratégique détaille les objectifs stratégiques de
l’entreprise■ Le Plan opérationnel liste
Les actions prévuesLes KPI - Key Performance Indicators - utilisés pour mesurer les résultats des actions
Aujourd’hui, les entreprises veulent industrialiser le processus de décision et contrôler leurs actions
KXEN-Confidential 4
Comment décrire la question métier
Pour chaque question métier posée, il faut :■ Comprendre le processus métier associé■ Quelles sont les variables associées■ Quel est le résultat attendu
Les variables d’entrée■ Ou variables explicatives■ Ou inputs■ Doivent être disponibles
La cible■ Ou variable expliquée■ Ou output■ Doit être mesurable■ Et “actionnable”
3
KXEN-Confidential 5
Exemples de questions métier
Ciblage marketing■ Propensité d’achat■ Rétention ■ Push d’offres en temps réel
Segmentation■ Segmentation clients■ Segmentation offres
Crédit ■ Probabilité de défaut
Distribution■ Prévision de revenu, de vente■ Ventes co-occurrentes
Industrie■ Prévision des défauts, ■ Nombre de pannes■ Appels pour intervention■ Pièces nécessaires
KXEN-Confidential 6
Comment décrire la question métier
Le projet Data Mining vise donc à :■ Exploiter les données existantes pour■ Produire un modèle répondant à la question métier
Le modèle fournit les éléments pour construire un Business Case
■ Exploiter le modèle pour réaliser une action ciblée
Exemple■ Définir la cible d’une campagne marketing, i.e. la liste des
personnes à contacter. ■ Le modèle donne une indication du retour attendu
J’ai un budget de 100 000 €Mon modèle m’indique que en contactant 10 000 clients (ceux qui ont le meilleur score), je devrais obtenir un taux de retour de 12%Le retour net de ma campagne devrait donc être de 20 000 € (si chaque client qui répond me rapporte 100 €)
4
KXEN-Confidential 7
Agenda
La question métierDonnées■ Le processus données■ Construire l’Analytical Data Set■ Caractéristiques des données
ModèlesEvaluation des Techniques de ModélisationLe modèle d’apprentissage statistique de V. Vapnik
KXEN-Confidential 8
Le processus données
Les données sont à la base du data mining ■ No data, no model !
Le processus de collecte de données est complexe : il faut■ Identifier l’ensemble des sources de données■ Mettre en place les mécanismes de collecte■ Mettre les données en cohérence■ Manipuler & transformer les données
… pour constituer le “Analytical Data Set”
DataMining
DataPreparation
DataManipulation
DataAccess
Mail e-mail POSCall Center Phone Fax SMS / MMS Web
AnalyticalData Set
Customer Touch Points
Productiondatabases
Legacysystems
Files
DataAccess
ODS DataWarehouse
External Files
5
KXEN-Confidential 9
Le processus données
Exemple
Manipulation des donnéesBase clients telco
Préparation des donnéesAnalytical Data Set
Customer Id Last name
First name Address Birth date Profession Education
Local traffic
Traffic to mobile
Traffic to Internet
Preferred mode
Quality of payment
Number of calls
Duration of calls Mobile
1234
…
128 Lion Leo S.12 Baltimore
Street1975/02/2
9 Clown PhD 02:37:00 01:23:00 07:46:00 CC E 37 03:24:00 1…………
KXEN-Confidential 10
Le processus données
Manipulation des donnéesRéconcilier les formats hétérogènes■ Meta-données et référentiels
Rapprocher des labellés différents■ Données internes & externes
Préparation des donnéesProduire des données calculées■ Agrégats■ Variables calculées
Coder les variables■ Binning ■ Regroupement de catégories …
DataPreparation Analytical
Data SetData
Warehouse
DataManipulation
DataAccess
DataAccess
ODS
6
KXEN-Confidential 11
Construire l’Analytical Data Set
Analytical Data Set : Représentation tabulaire des données Une ligne représente une “observation”■ Par exemple : un client
Une colonne représente une “variable”■ Par exemple : âge, nom
Autre termes pour "Observation"
Autre termes pour "Variable"
Ligne ColonneExemple AttributTable ChampEvent PropriétéInstance -Record -
KXEN-Confidential 12
Construire l’Analytical Data Set
Manipulation des donnéesRéférentiel & meta-données■ Les données sur les données
Nom des variables, sens, format
■ Mapping des meta-données Noms de champs et types de formats d’input variés vers un format commun
Transformer les contenus de variables similaires vers un format commun unique ■ Consistence
Ex : format “civilité, prénom, nom”
Jointures : de sources de données multiplesFiltrage des données Règles métier ■ Ex : variables positives (“nb d’appels”), borné (“âge” < 150), dans
un domaine (“sexe” dans {mâle, femelle}
Outliers■ Détecté en fonction du dictionnaire, des règles et flaggé■ Traité ensuite
DataManipulation
DataAccess
DataAccess
ODS
7
KXEN-Confidential 13
Construire l’Analytical Data Set
Préparation des données Sélection des variables■ Choisir les variables utiles
Définition de la cibleLes transformations “métier”■ Champs calculés : produire de nouvelles variables à partir de
variables existantesNb de jours entre l’émission de la facture et le paiementProfit : prix d’achat – coût de fabrication
Codage : les transformations statistiques nécessaires pour un certain modèle■ Changer les types de continu à nominal ou ordinal (binning ou
regroupement de catégories)■ Eclater une variable en plusieurs ou Regrouper plusieurs variables
en une seuleReprésentation d’une variable multi-catégorie
Évaluer la qualité des données pour determiner■ Les valeurs manquantes (blancs, espaces, nuls)■ Les outliers■ Les corrélations
DataPreparation Analytical
Data SetData
Warehouse
KXEN-Confidential 14
Construire l’Analytical Data Set
Qualité des données
Les données doivent être ■ Exactes : valeurs correctes■ Non redondantes : doublons■ Complètes : données “manquantes”
“missing-rate” d’une variable : combien d’observations ne l’ont pas“filling-rate” d’une observation : combien de variables sont remplies
Traitement des données “manquantes”1. Éliminer toutes les lignes non remplies complètement
On risque d’éliminer beaucoup de lignes !
2. Remplacer les données manquantes par des valeurs calculéesVariable nominale : catégorie la plus fréquente, Variable continue : moyenne
3. Créer une classe spécialeVoir Démo KXEN
8
KXEN-Confidential 15
Caractéristiques des données
Chaque variable a 3 caractéristiques :1. Type
Continue Ordinal : variables discrètes (numérique ou texte) dont l’ordre a un sens Nominal : variables discrètes dont l’ordre n’a pas de sens
– Numérique : binaire (0 ou 1), codes postaux (75 013, 92 125 …) – Texte : chaînes de caractères sans ordre (CC –carte crédit, CH –chèque, RA –
retrait automatique)
2. Format de stockageDateNumber String
Le format de stockage …est utilisé pour décrire des variables quand leur valeur correspond à … Par exemple ...
dateDates exprimées dans les formats : AAAA-MM-JJ, AAAA/MM/JJ Variable date de naissance "2001-11-30", "1999/04/28"
numberNombres sur lesquels on peut faire des opérations
Variable "Salaire", en dollars US : "1000", "1593" et "2000,54"Variable "Age", en années "21", "34" et "99"
string Chaîne de caractères alpha-numérique
Variable "Nom de famille": "Lion", "Martin" et "Miller"Variable "Numéro de téléphone "800 555 1234" et "800 555 4321"Variable "Profession": "professeur", "ingénieur" et "clown"
KXEN-Confidential 16
Caractéristiques des données
Chaque variable a 3 caractéristiques :3. Rôle
Le rôle de la variable dans le projetLe rôle peut changer dans un autre projet
Rôle de la variable Autres termes
Cible
Variable expliquéeVariable dépendanteOutput
Explicative
Variable causale Variable indépendanteInput
Exclue SkipPoids *
9
KXEN-Confidential 17
Un exemple : le problème “census”
Variables
skip integer continuous KxIndex target 0 number nominal class input 857 string nominal native-country input 0 number continuous hours-per-week input 0 number continuous capital-loss input 244 number continuous capital-gain input 0 string nominal sex input 0 string nominal race input 0 string nominal relationship input 2 809 string nominal occupation input 0 string nominal marital-status input 0 number ordinal education-num input 0 string nominal education input 0 number continuous fnlwgt input 2 799 string nominal workclass input 0 number continuous age
Rôle Nombre de manquant Stockage Valeur Variable
KXEN-Confidential 18
Agenda
La question métierDonnéesModèles■ Modèles descriptifs■ Modèles prédictifs
Le modèle d’apprentissage statistique de V. Vapnik Evaluation des Techniques de Modélisation
10
KXEN-Confidential 19
Types de modèles
Il y a deux sortes de modèles :
Modèles descriptifs■ Exploration des données du passé■ … pour comprendre le passé■ Information descriptive sur les
variables et leurs relations
Modèles prédictifs■ Exploitation des données du passé■ … pour prévoir et expliquer le futur■ Information prédictive sur la future valeur de la variable cible
KXEN-Confidential 20
Types de modèles
Source : Teradata
11
KXEN-Confidential 21
Types de modèles
Un modèleEst produit à partir de l’Analytical Data Set ■ à partir des données du passé, on produit un modèle pour prévoir
Est utilisé■ sur de nouvelles données (le futur)
Est évalué■ sur ces nouvelles données
Qualités d’un modèlePrécision ■ La capacité du modèle à être “bon” sur les données du passé
Robustesse / Généralisation ■ La capacité du modèle à être “bon” sur les données du futur
Quelles que soient ces donnéesEn présence d’outliers, de données manquantes …
Et ceci quelles que soient les distributions des données
KXEN-Confidential 22
Modèles descriptifsStatistiques descriptives
Variable “Age” (base Census)
0%
5%
10%
15%
20%
25%
[17 ; 23] [24 ; 26] ]26 ; 29[ [29 ; 30] [31 ; 35] [36 ; 45] ]45 ; 53] ]53 ; 62] ]62 ; 90]
Share of Category with Target = 1
Share of Category with Target = 0
-1%
1%
3%
5%
7%
9%
11%
13%
[17 ; 23]
[24 ; 26]
]26 ; 29[
[29 ; 30]
[31 ; 35][36 ; 45]
]45 ; 53]
]53 ; 62]
]62 ; 90]
12
KXEN-Confidential 23
Modèles descriptifsImportance des variables
Un modèle prédictif peut donner de l’information sur l’importance des variables. Exemple■ Dans la base Census, j’essaie de prévoir si une personne gagne
plus de 50 000 $ / an■ Un modèle de régression simple :
Classe = 1 si a*age + b*capital-gain ≥ cClasse = 0 si a*age + b*capital-gain < c
■ Contribution avec
■ Cas des variables corrélées : x et yContribution intelligente
■ Importance des catégoriesInfluence sur la cible : le comportement est comparé au comportement moyen de l'ensemble de la population
1=∑∑i
ii
i
oidsPoidsP
∑=
ii
ii oidsP
oidsPontribC
( ) ( )( )xybAx
xybxbabybxbxax
byax
−+=−++=
+−+=+
KXEN-Confidential 24
Modèles descriptifsImportance des variables
■ Contribution intelligente des variables (prévision de “class” -base Census)
■ Importance des catégories des variables “marital-status” et “capital-gain”
13
KXEN-Confidential 25
Modèles descriptifsSegments
Construction de segments■ Non supervisée / Supervisée
Exemple■ Production de 5 segments
supervisée par “class”(base Census)
■ Description des Segments / variable / population
Marital Status
Capital Gain
00,10,20,30,40,5
0,60,70,80,9
1
Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5
Fréquence % de 1
KXEN-Confidential 26
Modèles prédictifsClasses de modèles
Classification ■ La cible est nominale
Binaire : il y a 2 classes (0 et 1)Multi-modale : il y a n classes (1, 2, …, n)
Régression■ La cible est continue
ScoreSérie temporelle …
1
0
14
KXEN-Confidential 27
Modèles prédictifsUtilisation des modèles
1. Expliquer / comprendre■ Le modèle est une description / simplification du phénomène■ Il permet de répondre à des questions comme :
Quelles sont les variables significativesQuel est l’impact d’une variation de l’une des variables …
2. Prévoir■ Le modèle donne une estimation de la classe ou de la valeur■ Des modèles différents donnent des prévisions différentes
Quelle est la “bonne” prévision ? Existe-t-il un moyen de garantir qu’on obtient une bonne prévision ?
KXEN-Confidential 28
Modèles prédictifsUtilisation des modèles
Données d’apprentissage
t
y
x
Modèle simple
Modèle intermédiaire
Modèle complexe
15
KXEN-Confidential 29
Modèles prédictifsUtilisation des modèles
Qu’attendons-nous d’un modèlePrécision (ensemble d’apprentissage)
Modèle simple Modèle complexeModèle intermédiaire
Robustesse (ensemble de test)
Modèle complexeModèle simple Modèle intermédiaire
KXEN-Confidential 30
Agenda
La question métierDonnéesModèlesLe modèle d’apprentissage statistique de V. Vapnik■ Le cadre mathématique■ La théorie de Vapnik■ Le processus de modélisation
Propriétés attendues d’un modèle– Généralisation– Consistence– Robustesse
Stratégie de génération de modèle
Evaluation des Techniques de Modélisation
16
KXEN-Confidential 31
Le cadre mathématique
Données d’apprentissage■ La cible y peut être continue ou pas
■ Dans la « base d’apprentissage », tous les yi sont connus
Une classe de fonctions■ Par exemple :
La classe des plynômes de degré pLa classe des MLP avec p neurones cachés …
Un modèle issu de cette classe■ Par exemple, le polynôme dont les paramètres sont
Le « meilleur » modèle ■ Produit par un certain algorithme ou un principe d’inférence■ Et qui correspond donc au « meilleur » paramètre
( ){ }Θ∈=ΦΘ θθ ,.,f
( )θ,xfy =
( )θ,ˆ xfy =
θ
θ
( ) ( ) ( )nn yxyxyx ,,...,,,, 2211
KXEN-Confidential 32
Le cadre mathématique
Une fonction de coût■ Par exemple
L’écart quadratique
L’erreur en apprentissage ou risque empirique■ Le coût moyen sur l’ensemble
d’apprentissage■ Par exemple l’écart quadratique
moyen MSE (Mean Square Error)
L’erreur en généralisation■ Le coût moyen théorique sur
l’ensemble de la population■ … qui est l’erreur attendue sur de
nouvelles données
Principe d’inférence■ Minimisation du risque empirique■ Par exemple : LMSE (Least Mean
Square Error)
( )[ ] ( )[ ]2,,, θθ xfyxfyL −=
( )[ ]θ,, xfyL
( ) ( )[ ]∑=
=n
iiiemp xfyL
nR
1
,,1 θθ
( ) ( )[ ] ( )yxdPxfyLRGen ,,, ⋅= ∫ θθ
( )θθθ
empRnmiargˆ =
( ) ( )[ ]∑=
−=n
iiiemp xfy
nR
1
2,1 θθ
( )[ ]∑=
−=n
iii xfy
nrga nmi
1
2,1ˆ θθθ
17
KXEN-Confidential 33
Le cadre mathématique
L’erreur d’apprentissage (précision)
L’erreur de généralisation (robustesse)
( ) ( )[ ] ( )yxdPxfyLRGen ,,, ⋅= ∫ θθ
Modèle intermédiaire
Deux notions
Modèle complexe
( ) ( )[ ]∑=
=n
iiiemp xfyL
nR
1
,,1 θθ
KXEN-Confidential 34
La théorie de Vapnik
La « Statistical Learning Theory » est une théorie générale qui repose sur 4 principes1. Consistence (robustesse)
Capacité à généraliser correctement sur de nouvelles données
2. Vitesse de convergenceCapacité à généraliser de mieux en mieux quand le nombre de données d’apprentissage augmente
3. Contrôle de la capacité de généralisationC’est la stratégie qui permet de contrôler la capacité de généralisation àpartir des seules données disponibles : les données d’apprentissage
4. Stratégie pour obtenir de bons algorithmesC’est la stratégie qui nous permet de garantir et mesurer la capacité de généralisation du modèle que notre algorithme produit
… et utilise un paramètre la « VC dimension » ou dimension de Vapnik Chervonenkis
18
KXEN-Confidential 35
La théorie de Vapnik
Dimension de Vapnik ChervonenkisEtant donné■ Un échantillon de n observations
■ caractérisées par p variables :
Il y a 2n façons de séparer ces n observations en 2 classes
On dit que la famille de fonctions “pulvérise” l’échantillon si toutes les 2n séparations sont réalisables (avec un θ bien choisi)
On dit que la famille ΦΘ est de VC dimension h ∈N si :
1. Tout échantillon de h observations de ℜp peut être pulvérisé par ΦΘ2. Il existe au moins un échantillon de h+1 observations qui ne peut pas
être éclaté par ΦΘ
( )nxxx ,...,, 21
pix ℜ∈
( ){ }Θ∈=ΦΘ θθ ,.,f
KXEN-Confidential 36
La théorie de Vapnik
Dimension de Vapnik Chervonenkis de la famille des droites de ℜ2
■ 3 points
■ 4 points
h = 3 (=2+1)
19
KXEN-Confidential 37
La théorie de Vapnik
1. Consistence (robustesse)■ Capacité à généraliser
correctement sur de nouvelles données
2. Vitesse de convergence■ Capacité à généraliser de
mieux en mieux quand le nombre de données d’apprentissage augmente
■ Indépendant des distributions de (X,Y)
( )θ,ˆ xfy =
h
( ){ }Θ∈=ΦΘ θθ ,.,f
■ Un modèle est
consistent si et seulement si
la famille
dont il est issu est de VC
dimension finie
KXEN-Confidential 38
La théorie de Vapnik
3. Contrôle de la capacité de généralisation■ C’est la stratégie qui permet de contrôler la capacité de généralisation à
partir des seules données disponibles : les données d’apprentissage
■ Quand n/h est grand, on minimise le risque empirique Remp
■ Quand n/h est petit , on minimise les deux termes : Remp ET ε(n,h)
doivent être minimisés
empR
empR
GenR
Statistique classique
20
KXEN-Confidential 39
La théorie de Vapnik
4. Stratégie pour obtenir de bons algorithmes■ C’est la stratégie qui nous permet de garantir et mesurer la capacité de
généralisation du modèle que notre algorithme produit■ SRM (Structural Risk Minimization) : on utilise des familles de fonctions
emboîtées
KXEN-Confidential 40
La théorie de Vapnik
MoralitéCe qu’on ne peut pas contrôler■ La distribution des données
Certainement pas Gaussiennes …
■ Les approximations de distributionTransformation pour se ramener au cas Gaussien
Ce qu’on peut contrôler■ La classe de modèles où on recherche la solution ΦΘ
■ La VC dimension h de la classe retenue
Avec une méthode de contrôle■ La SRM qui garantit la robustesse
21
KXEN-Confidential 41
Le processus de modélisation
La SRM en pratique dans KXEN
Et deux indicateurs ■ Précision : KI■ Robustesse : KR
KXEN-Confidential 42
Le processus de modélisation
1. Produire l’Analytical Data Set
2. Choisir la famille emboîtée de modèles
3. Choisir le meilleur modèle (SRM)
4. Evaluer les performances5. Ré-itérer si nécessaire
Modélisation
Choisir la famille emboîtée de fonctions
Augmenter progressivement la VC dim
Choisir le modèle qui optimise lecompromis précision / robustesse
22
KXEN-Confidential 43
Agenda
La question métierDonnéesModèlesLe modèle d’apprentissage statistique de V. VapnikEvaluation des Techniques de Modélisation■ Introduction■ Classification binaire
Matrice de Confusion Indicateurs de performance
■ Régression
KXEN-Confidential 44
Introduction
Le résultat de la modélisation :■ Un ou plusieurs modèles
Il faut ■ Évaluer la performance d’un modèle■ Comparer les performances de plusieurs modèles
Il y a deux niveaux d’évaluation de la performance■ Évaluation technique
Indicateurs techniques / statistiquesDoivent être indépendants des distributions des données
■ Évaluation métierQuelles sont les performances “métier” obtenues si on utilise ce modèle : elles sont mesurées apr des KPI (“key Performance Indicators”)Exemples :
– Taux de retour, profit généré par une campagne– Taux de défaut généré dans ce processus d’attribution de crédit
23
KXEN-Confidential 45
Classification binaire
On a 2 classes : 0/1 ou N/P (négatif / positif)
Il faut définir un modèle Classe tel que
Classe ( X ) = 0 ou 1
Il y a deux méthodes■ Classification - ou décision- directe■ Score
On produit d’abord un score f dont la valeur est une variable continue
f(x) = sOn fixe un seuil sur ce score SOn classe dans une classe 0/1 selon que le score est inférieur / supérieur à S
– Classe ( X ) = 1 si f(x) > S
– Classe ( X ) = 0 si f(x) ≤ SCette technique est plus flexible : en faisant varier le seuil , on peut faire varier les proportions d’individus affectés à l’une ou l’autre classe
KXEN-Confidential 46
Classification binaire Matrice de Confusion
On a un modèle de décision Classe On compare la décision “Classé” à la réalité “Réel”Pour chaque observation, 4 cas possibles■ Classe ( X ) = 1 et Réel ( X ) = 1 : Vrai Positif■ Classe ( X ) = 1 et Réel ( X ) = 0 : Faux Positif■ Classe ( X ) = 0 et Réel ( X ) = 1 : Faux Négatif■ Classe ( X ) = 0 et Réel ( X ) = 0 : Vrai Négatif
On note■ VP, FP, VN et FN les nombres de vrai/faux positifs, vrai/faux
négatifs dans la population totale■ nbCP / nbCN, nbRP / nbRN les nombres de classés et réels P/N
P N TotalP VP FP nbCPN FN VN nbCN
nbRP nbRN n
Réel
Classé
Total
24
KXEN-Confidential 47
Classification binaire Matrice de Confusion
Pour un score, la matrice de confusion en proportions■ Les proportions de vrai P /N :
(sensibilité et spécificité)
Modèle parfait
Modèle aléatoireScore
Fréquence
Positif
Négatif
(s)
(s)
s
( ) nbRPVPs =α ( ) nbRN
VNs =β
P NP α (s) 1 - β (s)N 1 - α (s) β (s)
Réel
Classé
KXEN-Confidential 48
Classification binaire Indicateurs de performance
Taux de Bien Classéset taux d’erreur de classification■ Problème si les classes sont déséquilibrées■ OK pour comparer plusieurs classifieurs
Lift Curve■ La courbe représentant le taux de VP en fonction des P de la
population, i.e. si on ordonne les observations par score décroissant α(s) en fonction de 1-F(s) (F(s) est le taux de positifs
dans la population avec score supérieur à s)
nbRNnbRPVNVPTBC
++
=
TBCTER −=1
α(s)
1-F(s)
25
KXEN-Confidential 49
Classification binaire Indicateurs de performance
A partir de la Lift Curve
Indicateur KI■ Le rapport de l’aire M entre
les courbes Modèle/aléatoire
à l’aire W entre les courbes modèle parfait / aléatoire
KI = M / W(modèle parfait =Wizard ou Oracle)
Indicateur KR■ Le rapport de l’aire G entre
les courbes du Modèle sur les ensembles d’estimation et de
validation à l’aire W entre les courbes modèle parfait / aléatoire
KR = 1 - G / W
α(s)
1-F(s)
W
M
1-F(s)
α(s)
G
W
KXEN-Confidential 50
Classification binaire Indicateurs de performance
Courbe de profit■ On définit une structure de coût/
revenu■ Exemple
Profit ( s ) = VP x Rev – FP x CoûtProfitmax est le profit généré par Wizard
Profit_Rate ( s ) = Profit ( s ) / Profitmax
(pP et pN sont les taux de P /N)
■ La courbe de profit est la courbe représentant Profit_Rate ( s ) en fonction des P de la population, i.e. si on ordonne les observa-tions par score décroissant Profit_Rate ( s ) en fonction de 1-F(s) 1-F(s)
Profit_Rate(s)
( ) ( ) ( )[ ]evR
CoûtppsssraterofitP
P
N ⋅⋅−−= βα 1_
nbRNnbRPnbRPpP +
=
nbRNnbRPnbRNpN +
=
P NP Rev CoûtN 0 0
Réel
Classé
26
KXEN-Confidential 51
Classification binaire Indicateurs de performance
Remarques■ Si Rev=1 et Coût=0, Profit_Rate ( s )=α(s)
Courbe de profit = courbe de lift
■ Si Rev= pN et Coût=pP ,
Courbe de profit = Standardized Profit
( ) ( ) ( )[ ] ( )sTsssraterofitP =−−= βα 1_
1-F(s)
T(s)
KXEN-Confidential 52
Classification binaire Indicateurs de performance
Courbe ROC ■ La courbe représentant le taux de VP en fonction du taux de
FP, i.e. si on ordonne les observations par score décroissantα(s) en fonction de 1-β(s)
Indicateur AUC■ L’aire sous la courbe ROC
■ KI = 2 AUC -1
( ) ( )[ ]sdsAUC βα −= ∫−∞
∞+
1.α(s)
1-β(s)
AUC
27
KXEN-Confidential 53
Régression
Notations■ Un échantillon
■ La cible y est une variable continue
■ La valeur prévue :
■ Le résidu :
■ L’erreur :
■ La moyenne de la cible :
■ La moyenne des prévisions :
( ) ( ) ( )nn yxyxyx ,,...,,,, 2211
y
iii yyr ˆ−=
|||ˆ| iiii ryyu =−=
∑=
=n
iiy
ny
1
1
∑=
=n
iiy
ny
1
ˆ1ˆ
KXEN-Confidential 54
RégressionIndicateurs de performance
Les indicateurs■ Mean Square Error
■ Root Mean Squared Error (RMSE ou L2)
■ Mean Absolute Error (MAE ou L1)
■ Maximum Absolute Error (ou L∞)
■ Sum of Squares of Regression
■ Total Sum of Squares
■ Determination Coefficient (Rsquare-R2)
■ Corrélation de Pearson
[ ]∑=
−=n
iii yy
nMSE
1
2ˆ1
MSEL =2
∑=
=n
iiu
nL
1
11
iiuL max=∞
∑=
−=n
ii yySSR
1
2)ˆ(
∑=
−=n
ii yySST
1
2)(
SSTSSRR =2
22 srP =
∑∑∑===
−−−−=n
ii
n
ii
n
iiis yyyyyyyyr
1
2
1
2
1
)()ˆˆ())(ˆˆ(
28
KXEN-Confidential 55
Lecture
IndustrielSite d’informations data mining ■ http://www.kdnuggets.com/
Predictive Analytics; the Future of Business Intelligence Mukhles Zaman■ http://www.technologyevaluation.com/Research/ResearchHighlights/BusinessIntelligenc
e/2005/12/research_notes/TU_BI_XMZ_12_24_05_1.asp
Data Mining Tools: Which One is Best For CRM? Robert A. Nisbet■ Part 1 http://www.dmreview.com/editorial/newsletter_article.cfm?articleId=1046025■ Part 2 http://www.dmreview.com/article_sub.cfm?articleID=1046597
Comprendre l'industrialisation informatique ■ http://solutions.journaldunet.com/dossiers/pratique/industrialisation-informatique.shtml
ScientifiqueVladimir Vapnik■ ‘Statistical Learning Theory’, Wiley-Interscience, 1998■ ‘The Nature of Statistical Learning Theory’, Springer-Verlag, 1999
Cours du MIT ■ http://www.mit.edu/~9.520/#description