Download pptx - Mehdi ADDAR

Mehdi ADDAR

Sylvain DOUSSET

Manuel BOUILLON

Aurélien TEXIER

Bertrand LE MAROUILLE

Maxime HAVEZ

Encadrant : Farid BENINEL

Classe A Classe B

Individu I

ETUDES SUR LA CLASSIFICATION

2

• Les données• La méthode de classification

I - Présentation

• Méthode du favorite class model• Méthode du random choice

II - Mise en place d’une équipe de Classifieurs

• Différentes méthodes composante par composante• Méthode basée sur la distance au profil moyen

III - Classifieur Synthétique, Résultats et Interprétations

Mehdi ADDAR

Sylvain DOUSSET

Manuel BOUILLON

Aurélien TEXIER


Maxime HAVEZ


Classe A Classe B

Individu I

I - Présentation

4Etudes sur la Classification

•Données sur les clients d’une banque Allemande à Munich.

•Problématique d’une banque : Accorder ou non un prêt à un client?

I – Présentation des données

Client : Monsieur X• Compte courant• Montant total du crédit• Nombre des précédents crédits• Durée du dernier emploi• Age• Situation familiale• …


I – Présentation de la méthode de classification

Kredit

0 (refus) 1 (accord)

Individu à classifier

Classifieur synthétique grâce à un « choix social »

Combinaison d’équipes de classifieurs

Mehdi ADDAR

Sylvain DOUSSET

Manuel BOUILLON

Aurélien TEXIER


Maxime HAVEZ


Classe A Classe B

Individu I

II – Mise en place d’une équipe de classifieurs


•Créer une équipe de N classifieurs (N = nombre de classes de la variable à expliquer, pour N > 2).

•Prendre en compte les 4 covariables les plus corrélées à la variable à expliquer.

•Analyser les résultats obtenus.

II – Méthode du « favorite class model »

Dans notre cas, créer une équipe d’un classifieur

• taux d’erreur : 0,27• proportion d'erreur (Acceptation de

mauvais clients): 0.09733333

• Laufkont(Compte courant)• laufzeit(Durée en mois)

• moral(Paiement des crédits précédents)• Sparkont(Montant des réserves)

8

•Sélection aléatoire de 4 covariables parmi les D variables les plus corrélées à « Kredit ».

•On a ainsi solutions de classifieurs différents. Il est donc important de

les évaluer afin de déterminer ceux que l’on gardera.

- a = nombre d’individus correctement classés dans Clk et Cll.- b = nombre d’individus mal classés dans Clk et Cll.- c = nombre d’individus correctement classés dans Clk et mal dans Cll.- d = nombre d’individus mal classés dans Clk et bien dans Cll.

II – Méthode du « random choice »

D = 7Définition

d’un seuil = 0.1

Etudes sur la Classification


II – Méthode du « random choice » - Suite

Cla

ssif2

2

Cla

ssif4

Cla

ssif5

Cla

ssif1

7

Cla

ssif2

1

Cla

ssif6

Cla

ssif3

3

Cla

ssif9

Cla

ssif1

2

Cla

ssif8

Cla

ssif3

2

Cla

ssif3

Cla

ssif2

0

Cla

ssif2

8

Cla

ssif3

4

Cla

ssif1

1

Cla

ssif1

8

Cla

ssif7

Cla

ssif2

9

Cla

ssif2

Cla

ssif3

5

Cla

ssif1

3

Cla

ssif1

6

Cla

ssif1

0

Cla

ssif2

7

Cla

ssif2

3

Cla

ssif2

6

Cla

ssif1

9

Cla

ssif3

0

Cla

ssif1

Cla

ssif3

1

Cla

ssif1

5

Cla

ssif2

4

Cla

ssif1

4

Cla

ssif2

5

-1.0

-0.8

-0.6

-0.4

-0.2

0.0

Cluster Dendrogram

hclust (*, "median")Diversite

Hei

ght

Mehdi ADDAR

Sylvain DOUSSET

Manuel BOUILLON

Aurélien TEXIER


Maxime HAVEZ


Classe A Classe B

Individu I

III – Classifieur Synthétique, Résultats et Interprétations


III – Méthode composante par composante

•Utilisation des équipes de classifieurs obtenues précédemment et création d’un classifieur synthétique grâce à ces méthodes.

•Méthode du minimum.

•Même système pour les méthodes du maximum, de la moyenne, du produit, de la moyenne pondérée.•Pour la méthode du trimmed mean (moyenne tronquée), on retire 10% des classifieurs (parmi les plus éloignés à la moyenne des classifieurs), puis méthode de la moyenne standard.

Individu Classifieur 1 Classifieur 2 Classifieur 3 Classifieur Synthétique

1 0,3 0,9 0,7 0,3

2 0,6 0,1 0,6 0,1

3 0,8 0,8 0,7 0,7

4 0,4 0,8 0,5 0,4



Méthode du minimum Méthode du maximum

Proportion d'erreur : 0.3066667 Proportion d'erreur (Acceptation de mauvais clients): 0.02733333 AUC : 0.7721743




Méthode de la moyenne Méthode de la médiane





Méthode du produit Méthode Trimmed Mean




III – Méthode basée sur la distance au profil moyen

•On utilise désormais une méthode qui opère par combinaison de composantes.

•Pour chaque individu, on calcule la distance au profil moyen de chacune des deux classes de la variable expliquée « Kredit ». Ce profil moyen est calculé selon les classifieurs.

•Ensuite on affecte l’individu à la classe avec laquelle il est le plus proche.

Individu Distance au profil moyen

ClassificationClasse 0 Classe 1

1 0,3 0,4 Classe 0

2 0,8 0,3 Classe 1

3 0,1 0,4 Classe 0

4 0,5 0,9 Classe 0

Proportion d'erreur : 0.2333333 AUC : 0.8080357

Mehdi ADDAR

Sylvain DOUSSET

Manuel BOUILLON

Aurélien TEXIER


Maxime HAVEZ


Classe A Classe B

Individu I

Conclusion