Mehdi ADDAR
Sylvain DOUSSET
Manuel BOUILLON
Aurélien TEXIER
Bertrand LE MAROUILLE
Maxime HAVEZ
Encadrant : Farid BENINEL
Classe A Classe B
Individu I
ETUDES SUR LA CLASSIFICATION
2
• Les données• La méthode de classification
I - Présentation
• Méthode du favorite class model• Méthode du random choice
II - Mise en place d’une équipe de Classifieurs
• Différentes méthodes composante par composante• Méthode basée sur la distance au profil moyen
III - Classifieur Synthétique, Résultats et Interprétations
Mehdi ADDAR
Sylvain DOUSSET
Manuel BOUILLON
Aurélien TEXIER
Bertrand LE MAROUILLE
Maxime HAVEZ
Encadrant : Farid BENINEL
Classe A Classe B
Individu I
I - Présentation
4Etudes sur la Classification
•Données sur les clients d’une banque Allemande à Munich.
•Problématique d’une banque : Accorder ou non un prêt à un client?
I – Présentation des données
Client : Monsieur X• Compte courant• Montant total du crédit• Nombre des précédents crédits• Durée du dernier emploi• Age• Situation familiale• …
5Etudes sur la Classification
I – Présentation de la méthode de classification
Kredit
0 (refus) 1 (accord)
Individu à classifier
Classifieur synthétique grâce à un « choix social »
Combinaison d’équipes de classifieurs
Mehdi ADDAR
Sylvain DOUSSET
Manuel BOUILLON
Aurélien TEXIER
Bertrand LE MAROUILLE
Maxime HAVEZ
Encadrant : Farid BENINEL
Classe A Classe B
Individu I
II – Mise en place d’une équipe de classifieurs
7Etudes sur la Classification
•Créer une équipe de N classifieurs (N = nombre de classes de la variable à expliquer, pour N > 2).
•Prendre en compte les 4 covariables les plus corrélées à la variable à expliquer.
•Analyser les résultats obtenus.
II – Méthode du « favorite class model »
Dans notre cas, créer une équipe d’un classifieur
• taux d’erreur : 0,27• proportion d'erreur (Acceptation de
mauvais clients): 0.09733333
• Laufkont(Compte courant)• laufzeit(Durée en mois)
• moral(Paiement des crédits précédents)• Sparkont(Montant des réserves)
8
•Sélection aléatoire de 4 covariables parmi les D variables les plus corrélées à « Kredit ».
•On a ainsi solutions de classifieurs différents. Il est donc important de
les évaluer afin de déterminer ceux que l’on gardera.
- a = nombre d’individus correctement classés dans Clk et Cll.- b = nombre d’individus mal classés dans Clk et Cll.- c = nombre d’individus correctement classés dans Clk et mal dans Cll.- d = nombre d’individus mal classés dans Clk et bien dans Cll.
II – Méthode du « random choice »
D = 7Définition
d’un seuil = 0.1
Etudes sur la Classification
9Etudes sur la Classification
II – Méthode du « random choice » - Suite
Cla
ssif2
2
Cla
ssif4
Cla
ssif5
Cla
ssif1
7
Cla
ssif2
1
Cla
ssif6
Cla
ssif3
3
Cla
ssif9
Cla
ssif1
2
Cla
ssif8
Cla
ssif3
2
Cla
ssif3
Cla
ssif2
0
Cla
ssif2
8
Cla
ssif3
4
Cla
ssif1
1
Cla
ssif1
8
Cla
ssif7
Cla
ssif2
9
Cla
ssif2
Cla
ssif3
5
Cla
ssif1
3
Cla
ssif1
6
Cla
ssif1
0
Cla
ssif2
7
Cla
ssif2
3
Cla
ssif2
6
Cla
ssif1
9
Cla
ssif3
0
Cla
ssif1
Cla
ssif3
1
Cla
ssif1
5
Cla
ssif2
4
Cla
ssif1
4
Cla
ssif2
5
-1.0
-0.8
-0.6
-0.4
-0.2
0.0
Cluster Dendrogram
hclust (*, "median")Diversite
Hei
ght
Mehdi ADDAR
Sylvain DOUSSET
Manuel BOUILLON
Aurélien TEXIER
Bertrand LE MAROUILLE
Maxime HAVEZ
Encadrant : Farid BENINEL
Classe A Classe B
Individu I
III – Classifieur Synthétique, Résultats et Interprétations
11Etudes sur la Classification
III – Méthode composante par composante
•Utilisation des équipes de classifieurs obtenues précédemment et création d’un classifieur synthétique grâce à ces méthodes.
•Méthode du minimum.
•Même système pour les méthodes du maximum, de la moyenne, du produit, de la moyenne pondérée.•Pour la méthode du trimmed mean (moyenne tronquée), on retire 10% des classifieurs (parmi les plus éloignés à la moyenne des classifieurs), puis méthode de la moyenne standard.
Individu Classifieur 1 Classifieur 2 Classifieur 3 Classifieur Synthétique
1 0,3 0,9 0,7 0,3
2 0,6 0,1 0,6 0,1
3 0,8 0,8 0,7 0,7
4 0,4 0,8 0,5 0,4
12Etudes sur la Classification
III – Méthode composante par composante
Méthode du minimum Méthode du maximum
Proportion d'erreur : 0.3066667 Proportion d'erreur (Acceptation de mauvais clients): 0.02733333 AUC : 0.7721743
Proportion d'erreur : 0.3066667 Proportion d'erreur (Acceptation de mauvais clients): 0.02733333 AUC : 0.7721743
13Etudes sur la Classification
III – Méthode composante par composante
Méthode de la moyenne Méthode de la médiane
Proportion d'erreur : 0.3066667 Proportion d'erreur (Acceptation de mauvais clients): 0.03033333 AUC : 0.814217
Proportion d'erreur : 0.2933333 Proportion d'erreur (Acceptation de mauvais clients): 0.02966667 AUC : 0.8069564
14Etudes sur la Classification
III – Méthode composante par composante
Méthode du produit Méthode Trimmed Mean
Proportion d'erreur : 0.3033333 Proportion d'erreur (Acceptation de mauvais clients): 0.02716667 AUC : 0.8171115
Proportion d'erreur : 0.3066667 Proportion d'erreur (Acceptation de mauvais clients): 0.03033333 AUC : 0.8130887
15Etudes sur la Classification
III – Méthode basée sur la distance au profil moyen
•On utilise désormais une méthode qui opère par combinaison de composantes.
•Pour chaque individu, on calcule la distance au profil moyen de chacune des deux classes de la variable expliquée « Kredit ». Ce profil moyen est calculé selon les classifieurs.
•Ensuite on affecte l’individu à la classe avec laquelle il est le plus proche.
Individu Distance au profil moyen
ClassificationClasse 0 Classe 1
1 0,3 0,4 Classe 0
2 0,8 0,3 Classe 1
3 0,1 0,4 Classe 0
4 0,5 0,9 Classe 0
Proportion d'erreur : 0.2333333 AUC : 0.8080357
Mehdi ADDAR
Sylvain DOUSSET
Manuel BOUILLON
Aurélien TEXIER
Bertrand LE MAROUILLE
Maxime HAVEZ
Encadrant : Farid BENINEL
Classe A Classe B
Individu I
Conclusion