Upload
gervaise-guillaume
View
114
Download
1
Embed Size (px)
Citation preview
Analyse DiscriminanteAnalyse Discriminante
Agrocampus
HémochromatoseHémochromatose
Hémochromatose : pathologie se traduisant par une absorption anormale du fer au niveau digestif entraînant à terme l’apparition d’une cirrhose.
L’objectifL’objectif
Le problème consiste ici à détecter la présence de cirrhose chez les patients atteints d’hémochromatose sans recourir à un examen pénible et risqué pour le sujet (biopsie du foie).
Les donnéesLes données
La population étudiée comporte 136 sujets, tous atteints d’hémochromatose. Certains (37) présentent une cirrhose (groupe 1), les autres (99) en sont indemnes (groupe 2).
Les variablesLes variablesSEXE : sexe du patient
AGEDIAG : âge du patient au diagnostic
HM : Hépatomégalie
IHC : insuffisance hépato cellulaire
AST : enzymes de la cellule hépatique
ALT : idem
GGT : gamma GT
FER : teneur en fer dans le sang (quantité de fer par unité de volume)
FRT : ferritine (quantité de la protéine vecteur du fer)
CS : coefficient de saturation
CHFAGE : concentration hépatique divisée par l’âge
BMI : index de biomasse (poids en kg divisé par le carré de la taille)
OH : présence d’alcoolisme
2 - Choix des variables2 - Choix des variables
Seules les variables continues peuvent être traitées directement, soit :
AGEDIAG, AST, ALT, GGT, FER, CS, FRT, CHFAGE et BMI
3 - Choix 3 - Choix a prioria priori
1 - Estimation des densités (*)
2 - Probabilités a priori
3 - Echantillon test
4 - Coûts d’erreur de classement
4 - Fonction de densité normale4 - Fonction de densité normale
Sous l’hypothèse d’identité des matrices de variance-covariance intra (Wk = W), la règle de classement obtenue est linéaire :
Fonction discriminante de FISHER
5 - La règle de classement5 - La règle de classement
N° Variable Coef 1 Coef 2 C
123456789
AGEDIAGASTALTGGTFERCSFRTCHFAGEBMIConstante
0.478796.36683
-4.336571.358350.556980.47833
-0.000771.550182.37150
-79.50164
0.430673.30994
-3.140251.064140.612640.43528
-0.002881.554212.37441
-69.40452
0.048123.05689
-1.196320.29421
-0.055660.043050.00211
-0.00403-0.00291-10.09712
Le classementLe classement
obs appartenance affectation statut
21
27
31
37
1
1
2
2
2
1
1
2
mal classé
bien classé
mal classé
bien classé
Les résultatsLes résultats
Groupe
1
d’affectation
2
Total
Groupe 1 29 8 37
d’appartenance 2 2 97 99
Ensemble 31 105 136
La validation croiséeLa validation croisée
Groupe
1
d’affectation
2
Total
Groupe 1 28(75.68)
9(24.32)
37
d’appartenance 2 2(2.02)
97(97.98)
99
Ensemble 31 105 136
6 - La qualité du classement6 - La qualité du classement
Obs appartenance affectation pr(G1/x) pr(G2/x)
27
28
31
42
1
1
2
2
1
1
1
1
0.9276
0.5722
0.9930
0.5996
0.0724
0.4278
0.0070
0.4004
L’introduction d’un seuilL’introduction d’un seuil
Groupe
1
d’affectation
2
Non classés
Groupe
d’appartenance
1
2
20
1
3
85
14
13
Total 21 88 17
Avec un seuil il faut Avec un seuil il faut examiner :examiner :
le pourcentage de bien classés
le taux d’erreur majeure de classement
le pourcentage de non classés
Taux d’erreur et seuilTaux d’erreur et seuil
Seuil % de nonclassés
% de bienclassés
%d’erreurssévères
0.90
0.80
0.70
0.60
37.8
21.6
16.2
5.4
87.0
82.8
83.9
77.1
13.0
17.2
16.1
22.9
7 - La sélection des variables7 - La sélection des variables
Le modèle après sélection (STEPDISC) :
FRT - AST - AGEDIAG
Optique prédictiveOptique prédictive
Les critères de la procédure STEPDISC sont adaptés à l’optique descriptive
Dans une optique prédictive il vaudrait mieux utiliser le % de bien classés, global ou sur le groupe d’intérêt
Sélection du meilleur modèleSélection du meilleur modèle
88.0
89.0
90.0
91.0
92.0
93.0
94.0
95.0
1 2 3 4 5 6 7 8 9
Nombre de prédicteurs
% d
e b
ien
cla
ssés
(va
lid
atio
n c
rois
ée)
Complet
Stepdisc
Quelques points à considérerQuelques points à considérerIl vaut mieux retenir pour un même % de bien classés, le modèle comportant le moins de paramètres
Le choix entre plusieurs modèles peut s’opérer sur l’intérêt des variables
Une variable non significative sur le plan statistique peut être jugée importante sur le plan médical
8 - Qualité de la règle de 8 - Qualité de la règle de classementclassement
Maximum chance criterion :
Tous les individus sont classés dans le groupe le plus nombreux : 137 patients classés dans le groupe 2, donc 99 bien classés, soit un % global de bien classés de 72.8 %
Problème : 0 bien classés dans le groupe d’intérêt
Remarque : attention au % global de bien classés
Autre critèreAutre critère
Proportional chance criterion
Allocation au hasard des patients dans l’un des deux groupes
Probabilité de placer un patient dans le groupe k :
nk / n
Nombre de bien classés dans le groupe k : nk2 / n
% global de bien classés : (n12 + n2
2) / n2
Application :
82.1 patients bien classés (60.4 %)
n
nk
ComparaisonsComparaisons
MCC : 99 bien classés (72.8%)
PCC : 82.1 bien classés (60.4 %)
FDL : 127 bien classés (93.4 %)
Règle empirique : faire au moins 25 % de mieux
Test : comparer le nombre de bien classés de la FD
avec celui obtenu au hasard (PCC)
Remarques terminalesRemarques terminales
Le choix des probabilités a priori :
Des probabilités a priori proportionnelles aux effectifs dans l’échantillon favorisent le classement dans le groupe le plus nombreux
% de bien classés Groupe 1 Groupe 2
Pk égales
Pk prop.
81.1
70.3
97.9
99.0
Suite ...Suite ...Les coûts d’erreur de classement
Objectif : minimiser le coût moyen a posteriori
Affectation au groupe 1 si :
pr2 f2(x) c1/2 < pr1 f1(x) c2/1
prk : probabilité a priori du groupe k
fk(x) : densité dans le groupe k
cj/k : coût d’erreur de classement dans le groupe j d’un élément du groupe k
......Les résultats (Bootstrap - SPAD.N)
C1/2 % bienclassés
G1
% bienclassés
G2
% bienclassés
Global
50
40
30
20
10
5
82.22
82.76
84.86
90.65
93.03
98.70
98.93
96.91
95.78
92.44
83.54
73.01
94.38
93.06
92.81
91.96
86.12
80.00
Les variables qualitativesLes variables qualitatives
La méthode DISQUAL :
Analyse Discriminante sur les facteurs d’une ACM
Sélection des variablesSélection des variables
Problème :
un facteur est combinaison de toutes les variables de base
Solutions :
- Examiner les résultats de l’ACM dans laquelle la variable d’intérêt est placée en supplémentaire
- Réaliser un test du khi-2 entre la variable d’intérêt et chaque variable de base (codée)
AXE 2
--------------------------------------------------------------------------------------------------ihc1
| | |
2.4 + | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
1.6 + | |
| | |
| | |
| | |
| | |
| | |
| | |
| | |
sex2 | |
| | |
.8 + | |
| | |
| age2 |
| | |
| fer1 | hm1 |
cs1chf1 | bmi2 ast2 cir1 |
| | ggt2 |
| | fib2 |
| | |
| oh2 | alt2 |
.0 frt1alt1cir2--------ihc2----------------------------------------frt2---------------------------------|
| hm2 | oh1 |
ast1ggt1 | cs2 |
| bmi1 | |
| | fer2sex1 |
| | |
| | chf2 |
---+------fib1-----+--age1---------+---------------+---------------+---------------+---------------+
-.4 .0 .4 .8 1.2 1.6 2.0
AXE 1
Sélection des variablesSélection des variablesN° Variable ACM Khi-2 Khi-2
1
2
3
4
5
6
7
8
9
10
11
12
13
SEXE
AGE
HM
IHC
AST
ALT
GGT
FER
CS
FRT
CHFAGE
BMI
OH
oui
oui
oui
oui
oui
oui
1.76
1.34
62.79
7.57
45.86
15.49
20.10
0.18
8.06
72.05
15.23
0.02
32.87
oui
oui
oui
oui
oui
oui
oui
oui
Les résultatsLes résultatsGroupe
1
d’affectation
2
Total
Groupe
d’appartenance
1
2
3594.59
99.09
25.41
9090.91
37
99
Total 44 88 136
VarianteVarianteAnalyse directe sur les modalités :
Modalité Score
hm1
ast1
alt1
ggt1
cs1
frt1
chf1
oh1
constante
6.2495
-4.4700
1.4815
-0.0955
-0.3692
-6.6783
0.0750
2.3721
1.3979
Résultats variante 1Résultats variante 1
% de mal classés (validation croisée) :
Groupe 1 : 5.4 %
Groupe 2 : 9.0 %
Variante avec sélectionVariante avec sélectionVariables retenues : FRT - HM - AST - OH - ALT
Modalité Score
hm1
ast1
alt1
frt1
oh1
constante
6.3216
-4.4494
1.4092
-6.6962
2.3938
1.2723
ClassementClassement
% de mal classés (validation croisée) :
Groupe 1 : 5.41 %
Groupe 2 : 7.07 %
Global : 6.6 % (9 patients sur 136)
ComparaisonComparaisonPeu de variation des coefficients
Modalité Score avant Score après Variation (%)
hm1
ast1
alt1
frt1
oh1
constante
6.2495
- 4.4700
1.4815
- 6.6783
2.3721
1.3979
6.3216
- 4.4494
1.4092
- 6.6962
2.3938
1.2723
+ 1.15
+ 0.46
- 4.88
- 0.27
+ 0.91
- 8.98
Autre méthode :Autre méthode :
La régression LOGISTIQUE