View
6
Download
0
Category
Preview:
Citation preview
Modelisation et apprentissage statistique
Gilbert Ritschard
Departement d’econometrie, Universite de Geneve
http://mephisto.unige.ch
mars 2005
Intro plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 1
Modelisation et apprentissage statistiques
1 Introduction
2 Cadre formel et notations
3 Modelisation statistique
4 Apprentissage supervise
5 Points communs et differences entre modelisation et apprentissage
Intro plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 2
1 Introduction
Objectif : passer en revue les criteres d’evaluation utilises
– en modelisation statistique
– en apprentissage supervise
Quels sont les points communs et les differences entre modelisation
statistique et apprentissage supervise ?
Intro plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 3
Modelisation statistique
Formuler et quantifier un modele (schema) explicatif d’un phenomene. Par
exemple :
recherche, parmi des facteurs potentiels, des determinants d’une variable
reponse (reussite des etudiants, divorce, succes commercial, ...) et
quantification des liens.
But :
– Comprehension du phenomene
– Parfois prevision
Intro plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 4
Apprentissage supervise
Apprendre a predire l’etat d’une variable reponse a partir du profil en terme
de predicteurs. Par exemple :
– prevoir le volume des ventes, le nombre de chomeur, ...
– classer des malades selon le type d’affection en ne connaissant que certains
symptomes, predire la solvabilite de demandeurs de credits, ...
But :
– Construire des regles predictives (prevision ou classification) performantes
en generalisation, c’est-a-dire en dehors de l’echantillon d’apprentissage.
Intro plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 5
Certains modeles statistiques (regression, regression logistique, ...) sont
utilises dans un contexte d’apprentissage.
� � � � � � � � � � �� � � � � � � �
� � � � � � � � � �� � � � � � � � � �
Intro plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 6
2 Cadre formel et notations
Echantillon d’apprentissage :
n nombre de cas (instance, exemple, ...)
p nombre d’attributs predictifs
xj j-eme attribut predictif (facteur explicatif), j = 1, . . . , pxαj valeur du i-eme attribut pour le cas α = 1, . . . , nY variable reponse (a predire, dependante) : variable aleatoire
yα realisation de Y pour le cas α
On utilise le gras pour les vecteurs et les matrices :
x′ =[x1 · · · xp
]X =
x11 · · · x1p
.... . .
...
xn1 · · · xnp
Notations plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 7
Qu’il s’agisse d’expliquer un phenomene ou de formuler des regles de
prediction,
0n cherche a exprimer y en fonction des predicteurs par une fonction
y = f(x)
ou y represente la prediction donnee par le modele f(x).
Exemples d’interpretation de f(x)
Y numerique (regression) ⇒ f(x) = E(Y |x)
Y categoriel (classification) ⇒ f(x) = arg maxi{p(Yi|x)}
En regression lineaire ou Y est numerique, on postule, f(x) =∑
j βjxj.
En classification, f(x) est le classifieur.
Notations plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 8
3 Modelisation statistique
3.1 Typologie de modeles statistiques
3.1.1 Regression lineaire
3.1.2 Regression logistique
3.1.3 Modeles log-lineaires
3.1.4 Modeles d’equations structurelles
3.2 Estimation des parametres (ajustement du modele)
3.2.1 Moindres carres
3.2.2 Maximum de vraisemblance
3.3 Evaluation d’un modele
3.3.1 Qualite globale d’ajustement
3.3.2 Test de difference entre deux modeles
3.3.3 Analyse des residus
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 9
3.1 Typologie de modeles statistiques
Modele statistique parametrique : caracteriser la distribution d’une variable
(hypothese sur la forme et estimation des parametres).
Ici, on s’interesse aux modeles ou un ou plusieurs parametres de la
distribution sont exprimes en fonction des predicteurs.
(par exemple en regression, on postule la normalite de Y , et l’on exprime E(Y )en fonction des predicteurs.)
Typologie selon ce que l’on cherche a ajuster (reproduire)
– les valeurs particulieres de yα (Regression lineaire)
– soit une representation synthetique des donnees
– distribution de Y conditionnellement au profil x (Regression logistique)
– la distribution conjointes de toutes les variables (Modeles log-lineaires)
– correlations entre (plusieurs) y et les differents predicteurs (Modeles
d’equations structurelles)
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 10
Typologie selon la nature de la variable reponse
variable Y une seule plusieurs
categorielle Regression logistique Modeles log-lineaires
Analyse discriminante
quantitative Regression lineaire Modeles d’equations structurelles
simple et multipleRegression multivariee
ANOVA MANOVA
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 11
Modele lineaire generalise
Les trois premiers types de modele (regression lineaire, regression logistique,
modeles log-lineaires) font partie de la classe des modeles lineaires generalises
(McCullagh and Nelder (1989)).
Caracteristiques
Distribution de la variable reponse Y : quelconque parmi famille
exponentielle qui comprend en particulier les lois
de Gauss, de Bernoulli, binomiale, de Poisson et gamma (donc khi-2)
Fonction lien qui decrit comment l’esperance µ de Y depend des predicteurs
lineaires
g(µ) = x′β
Fonction variance V (µ) qui precise le lien entre variance et esperance
Var(Y ) = φV (µ)
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 12
3.1.1 Regression lineaire
Modele de regression multiple :
yα = β0 + β1xα1 + β2xα2 + . . . + βkxαk + uα
pour α = 1, 2, . . . , ny1
y2
...
yn
=
1 x11 · · · x1k
1 x21 · · · x2k
......
...
1 xn1 · · · xnk
β0
β1
...
βk
+
u1
u2
...
un
y = Xβ + u
pour n observations et k = p− 1 facteurs predictifs.
Sans perte de generalite, on admet que le vecteur u est nul en esperance
mathematique : E(u) = 0.
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 13
On cherche la droite (hyperplan) qui ajuste le mieux les donnees individuelles
x
y
r i
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 14
Exemple de regression
avec SPSS
Donnees : Bank
variable reponse :
salnow
Model Summary
.898a .806 .804 3023.02Model1
R R SquareAdjusted R
SquareStd. Error ofthe Estimate
Predictors: (Constant), AGEBEG, SALBEG, SEX, EDLEVEL, WORKa.
ANOVAb
1.78E+10 5 3557952240.0 389.331 .000a
4.28E+09 468 9138628.3542.21E+10 473
RegressionResidualTotal
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), AGEBEG, SALBEG, SEX, EDLEVEL, WORKa.
Dependent Variable: SALNOWb.
Coefficientsa
464.041 982.673 .472 .6371.708 .062 .787 27.613 .000
-858.435 339.121 -.063 -2.531 .012252.457 67.973 .107 3.714 .000-60.996 29.325 -.078 -2.080 .038-27.799 21.164 -.048 -1.314 .190
(Constant)SALBEGSEXEDLEVELWORKAGEBEG
Model1
B Std. Error
UnstandardizedCoefficients
Beta
Standardized
Coefficients
t Sig.
Dependent Variable: SALNOWa.
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 15
3.1.2 Regression logistique
- 1 variable dependante y dichotomique (y ∈ {0, 1}), E(Y ) = p = p(Y = 1)
- variables explicatives x1, . . . , xp quantitatives et/ou qualitatives
En regressant y sur les xi (y = β0 + β1x1 + · · · ) :
– predictions y peuvent etre > 1 ou < 0.– hypothese de normalite des residus pas tenable.
– variance de Y non independante de son esperance (σ2Y = p(1− p))
⇒ regresser π = logit(p) = log(
p1−p
)sur les facteurs explicatifs.
π(x) = log( p(x)
1− p(x)
)⇔ p(x) =
exp(π(x)
)1 + exp
(π(x)
)π(x) = x′β ⇔ p(x) =
exp(x′β)1 + exp(x′β)
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 16
Fonction logit
logit : [0, 1] → Rp 7→ π
Transformation logit et probit
-4
-3
-2
-1
0
1
2
3
4
0 0.5 1
p
logi
t, pr
obit
logitprobit
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 17
Exemple : poids a la naissance
Fichier : lg birth.sav, source : Hosmer and Lemeshow (2000).
LOW : Low birth weight (0 = weight ≥ 2’500g, 1 = weight < 2’500g)
RACE : race (1 = white, 2 = black, 3 = other)
SMOKE : Smoking during pregnancy (1 = yes, 0 = no)
HT : Hypertension (1 =yes, 0 = no)
UI : Uterine irritability (1 =yes, 0 = no)
AGE : Age of mother in years
LWT : Weight in pounds at last menstrual period
FTV : Number of physician visits during first trimester
PTL : Premature Labor (0, 1 , 2, ...)
Bwt : Birth weight in grams
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 18
Modele pour LOW : ajustement global
Omnibus Tests of Model Coefficients
33.387 9 .00033.387 9 .00033.387 9 .000
StepBlockModel
Step 1Chi-square df Sig.
Model Summary
201.285 .162 .228Step1
-2 Loglikelihood
Cox & SnellR Square
Nagelkerke RSquare
Hosmer and Lemeshow Test
5.660 8 .685Step1
Chi-square df Sig.
Variables in the Equation
-.030 .037 .637 1 .425 .971-.015 .007 4.969 1 .026 .985
7.116 2 .028-.880 .441 3.990 1 .046 .415.392 .538 .531 1 .466 1.480
-.939 .402 5.450 1 .020 .391.543 .345 2.474 1 .116 1.722
-1.863 .698 7.136 1 .008 .155-.768 .459 2.793 1 .095 .464.065 .172 .143 1 .705 1.067
4.931 1.493 10.908 1 .001 138.505
AGELWTRACERACE(1)RACE(2)SMOKE(1)PTLHT(1)UI(1)FTVConstant
aB S.E. Wald df Sig. Exp(B)
Variable(s) entered on step 1: AGE, LWT, RACE, SMOKE, PTL, HT, UI, FTV.a.
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 19
Modele pour LOW : estimation et significativite des coefficients
Omnibus Tests of Model Coefficients
33.387 9 .00033.387 9 .00033.387 9 .000
StepBlockModel
Step 1Chi-square df Sig.
Model Summary
201.285 .162 .228Step1
-2 Loglikelihood
Cox & SnellR Square
Nagelkerke RSquare
Hosmer and Lemeshow Test
5.660 8 .685Step1
Chi-square df Sig.
Variables in the Equation
-.030 .037 .637 1 .425 .971-.015 .007 4.969 1 .026 .985
7.116 2 .028-.880 .441 3.990 1 .046 .415.392 .538 .531 1 .466 1.480
-.939 .402 5.450 1 .020 .391.543 .345 2.474 1 .116 1.722
-1.863 .698 7.136 1 .008 .155-.768 .459 2.793 1 .095 .464.065 .172 .143 1 .705 1.067
4.931 1.493 10.908 1 .001 138.505
AGELWTRACERACE(1)RACE(2)SMOKE(1)PTLHT(1)UI(1)FTVConstant
aB S.E. Wald df Sig. Exp(B)
Variable(s) entered on step 1: AGE, LWT, RACE, SMOKE, PTL, HT, UI, FTV.a.
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 20
3.1.3 Modeles log-lineaires
Objectif : mise en evidence de structures d’association
par la modelisation du nombre d’individus niaibic··· de chaque cellule
(ia, ib, ic, . . .) d’un tableau multidimensionnel.
miaibic··· effectif predit par A,B,C, . . . variables categorielles
variable nbre de categories categories
A a ia = 1, 2, . . . , a
B b ib = 1, 2, . . . , b
C c ic = 1, 2, . . . , c
......
...
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 21
modele graphe marges ajustees
independance complete
(A,B, C)
df = abc− a− b− c + 2A B
C A
B C
un facteur independant
(3 modeles similaires)
(AC,B)
df = (ac− 1)(b− 1)A B
C
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 22
modele graphe marges ajustees
independance conditionnelle
(3 modeles similaires)
(AB,AC)
df = a(b− 1)(c− 1)A B
C
Associations homogenes
d’ordre 2
(AB,AC,BC)
df = (a− 1)(b− 1)(c− 1)A B
C
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 23
modele graphe marges ajustees
association d’ordre 3
(ABC)
df = 0A B
C
Statistiques suffisantes : marges fixees
Les effectifs predits se deduisent de ces statistiques suffisantes
⇒ notations : on n’indique que les statistiques suffisantes.
Exemple :
(AB,AC) pour le modele d’independance conditionnelle entre B et C
(ABC) pour le modele sature.
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 24
Forme generale du modele
Modele sature (ABC) (d’ordre 3)
log(miaibic) = λ︸ ︷︷ ︸
effet moyen
+ λAia
+ λBib
+ λCic︸ ︷︷ ︸
effets propres (ordre 1)
+
+ λABiaib
+ λACiaic
+ λBCibic︸ ︷︷ ︸
interactions d’ordre 2
+ λABCiaibic︸ ︷︷ ︸
interaction d’ordre 3
Modele non sature (AB,AC) (independance conditionnelle) :
log(miaibic) = λ + λAia
+ λBib
+ λCic
+ λABiaib
+ λACiaic
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 25
Modele loglineaire hierarchique
Modele ou la presence d’une interaction d’ordre k implique la presence de
toutes les interactions d’ordre q < k entre les variables concernees.
Exemple : Modele hierarchique avec 4 variables A,B,C, D
Pour inclure
- les effets propres de A, B et D,
- les interactions d’ordre 2 AB, AD, BD et
- celle d’ordre 3 ABD,
il suffit de specifier l’interaction du plus grand ordre : ABD.
Le modele (C,ABD) comprend ainsi tous les effets ci-dessus
+ l’effet propre de C.
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 26
Exemple EGMP
E : Extramarital sex EMS (yes, no)
G : Gender (Women, Men)
M : Marital Status (Divorced, Still Married)
P : Premarital sex PMS (yes, no)
Women
PMS Yes NoMarital Status EMS Yes No Yes No
Divorced 17 54 36 214
Still Married 4 25 4 322
Men
PMS Yes NoMarital Status EMS Yes No Yes No
Divorced 28 60 17 68
Still Married 11 42 4 130
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 27
Modele satureDATA Information
16 unweighted cases accepted.0 cases rejected because of out-of-range factor values.0 cases rejected because of missing data.
1036 weighted cases will be used in the analysis.
FACTOR Information
Factor Level LabelGENDER 2 GenderPMS 2 Premarital SexEMS 2 Extramarital SexMARITALS 2 Marital Status
Tests that K-way and higher order effects are zero.
K DF L.R. Chisq Prob Pearson Chisq Prob Iteration
4 1 .146 .7020 .147 .7009 43 5 13.630 .0181 14.170 .0146 52 11 232.140 .0000 270.135 .0000 21 15 1333.855 .0000 1786.178 .0000 0
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 28
Step 5
The best model has generating class
PMS*EMS*MARITALS GENDER*PMS GENDER*MARITALS
Likelihood ratio chi square = 5.21194 DF = 5 P = .391
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
If Deleted Simple Effect is DF L.R. Chisq Change Prob Iter
PMS*EMS*MARITALS 1 12.914 .0003 4 GENDER*PMS 1 78.170 .0000 2 GENDER*MARITALS 1 2.942 .0863 2
Step 6
The best model has generating class
PMS*EMS*MARITALS GENDER*PMS
Likelihood ratio chi square = 8.15352 DF = 6 P = .227
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
If Deleted Simple Effect is DF L.R. Chisq Change Prob Iter
PMS*EMS*MARITALS 1 12.914 .0003 4 GENDER*PMS 1 75.259 .0000 2
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 29
Structure d’association mise en evidence
Le modele final
(pms*ems*maritals,pms*gender)
correspond a la structure d’association
� � �
� � � � � � � � � � � � � �
Independance conditionnelle entre le genre (gender) et le statut marital
(maritals) et aussi entre le genre et le fait d’avoir ou non des relations
extra-maritales (ems).
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 30
3.1.4 Modeles d’equations structurelles
EQS : equations structurelles
SEM : Structural equation model
LISREL : Linear structural relations
AMOS : Analysis of moment structure
Arbuckle and Wothke (1999) Bollen (1989) Joreskog and Sorbom (1989)
Objectif : Modeliser les interrelations entre plusieurs variables endogenes ainsi
que leurs liens de dependance par rapport aux facteurs exogenes.
⇒ modele d’equations simultanees (et avec variables latentes)
y′ = y′B + x′Γ + ζ ′
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 31
Le modele doit permettre de generer les variances et covariances
(correlations) entre variables endogenes (y) et exogenes (x).
Σ(θ) ⇒ Σ = Σ(θ)
θ vecteur des parametres,
Σ matrice des moments theoriques de y et xS matrice des moments observes.
Ajuster aux donnees ⇒ ajuster Σ a S
On cherche a reproduire la matrice des moments (variances-covariances).
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 32
Exemple de modele simultane Donnees : Bank
SEX
EDLEVELWORK
SALBEG SALNOW
AGEBEG
ue1
uw1
usn1usa
1
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 33
Representation equivalente sous forme de 4 equations (variables centrees) :
edlevel = γ11agebeg + γ12sex + ue
work = γ21agebeg + γ22sex + β21edlevel + uw
salbeg = γ32sex + β31edlevel + β32work + usa
salnow = γ42sex + β41edlevel + β42work + β43salbeg + usn
Γ =
γ11 γ12
γ21 γ22
0 γ32
0 γ32
B =
0 0 0 0
β21 0 0 0
β31 β32 0 0
β41 β42 β43 0
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 34
Extrait d’output d’Amos Modele Bank
bk_demo: Thursday, January 30, 2003 04:50 PMbk_demo: 30-Jan-03 16:50:26
Fit Measures 1 1/1
Fit Measures
Fit Measure Default model Saturated Independence MacroDiscrepancy 7.367 0.000 1775.690 CMINDegrees of freedom 2 0 15 DFP 0.025 0.000 PNumber of parameters 19 21 6 NPARDiscrepancy / df 3.684 118.379 CMINDF
RMR 490.566 0.000 4121179.141 RMRGFI 0.995 1.000 0.499 GFIAdjusted GFI 0.946 0.299 AGFIParsimony-adjusted GFI 0.095 0.357 PGFI
Normed fit index 0.996 1.000 0.000 NFIRelative fit index 0.969 0.000 RFIIncremental fit index 0.997 1.000 0.000 IFITucker-Lewis index 0.977 0.000 TLIComparative fit index 0.997 1.000 0.000 CFI
Parsimony ratio 0.133 0.000 1.000 PRATIOParsimony-adjusted NFI 0.133 0.000 0.000 PNFIParsimony-adjusted CFI 0.133 0.000 0.000 PCFI
Noncentrality parameter estimate 5.367 0.000 1760.690 NCP NCP lower bound 0.489 0.000 1625.992 NCPLO NCP upper bound 17.725 0.000 1902.745 NCPHIFMIN 0.016 0.000 3.754 FMINF0 0.011 0.000 3.722 F0 F0 lower bound 0.001 0.000 3.438 F0LO F0 upper bound 0.037 0.000 4.023 F0HIRMSEA 0.075 0.498 RMSEA RMSEA lower bound 0.023 0.479 RMSEALO RMSEA upper bound 0.137 0.518 RMSEAHIP for test of close fit 0.178 0.000 PCLOSE
Akaike information criterion (AIC) 45.367 42.000 1787.690 AICBrowne-Cudeck criterion 45.938 42.631 1787.871 BCCBayes information criterion 158.474 167.012 1823.408 BICConsistent AIC 143.430 150.385 1818.658 CAICExpected cross validation index 0.096 0.089 3.779 ECVI ECVI lower bound 0.086 0.089 3.495 ECVILO ECVI upper bound 0.122 0.089 4.080 ECVIHIMECVI 0.097 0.090 3.780 MECVI
Hoelter .05 index 385 7 HFIVEHoelter .01 index 592 9 HONE
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 35
Extrait d’output d’Amos Modele Bank (suite)
bk_demo: Thursday, January 30, 2003 04:50 PMbk_demo: 30-Jan-03 16:50:26
Fit Measures 1 1/1
Fit Measures
Fit Measure Default model Saturated Independence MacroDiscrepancy 7.367 0.000 1775.690 CMINDegrees of freedom 2 0 15 DFP 0.025 0.000 PNumber of parameters 19 21 6 NPARDiscrepancy / df 3.684 118.379 CMINDF
RMR 490.566 0.000 4121179.141 RMRGFI 0.995 1.000 0.499 GFIAdjusted GFI 0.946 0.299 AGFIParsimony-adjusted GFI 0.095 0.357 PGFI
Normed fit index 0.996 1.000 0.000 NFIRelative fit index 0.969 0.000 RFIIncremental fit index 0.997 1.000 0.000 IFITucker-Lewis index 0.977 0.000 TLIComparative fit index 0.997 1.000 0.000 CFI
Parsimony ratio 0.133 0.000 1.000 PRATIOParsimony-adjusted NFI 0.133 0.000 0.000 PNFIParsimony-adjusted CFI 0.133 0.000 0.000 PCFI
Noncentrality parameter estimate 5.367 0.000 1760.690 NCP NCP lower bound 0.489 0.000 1625.992 NCPLO NCP upper bound 17.725 0.000 1902.745 NCPHIFMIN 0.016 0.000 3.754 FMINF0 0.011 0.000 3.722 F0 F0 lower bound 0.001 0.000 3.438 F0LO F0 upper bound 0.037 0.000 4.023 F0HIRMSEA 0.075 0.498 RMSEA RMSEA lower bound 0.023 0.479 RMSEALO RMSEA upper bound 0.137 0.518 RMSEAHIP for test of close fit 0.178 0.000 PCLOSE
Akaike information criterion (AIC) 45.367 42.000 1787.690 AICBrowne-Cudeck criterion 45.938 42.631 1787.871 BCCBayes information criterion 158.474 167.012 1823.408 BICConsistent AIC 143.430 150.385 1818.658 CAICExpected cross validation index 0.096 0.089 3.779 ECVI ECVI lower bound 0.086 0.089 3.495 ECVILO ECVI upper bound 0.122 0.089 4.080 ECVIHIMECVI 0.097 0.090 3.780 MECVI
Hoelter .05 index 385 7 HFIVEHoelter .01 index 592 9 HONE
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 36
Modele simultane avec variables latentes
income
occup
.37
la_sub_inc
.46
la_sub_occ
.47
overall
.38
.43
.37
.32
.22
.38
u_sinc
u_socc
u_sovr
.29
white
.77
sub_inc
.49
sub_occ
.88
.70
e_oc
e_in
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 37
3.2 Estimation des parametres (ajustement du modele)
Valeur des parametres choisie de telle sorte que le modele reproduise le mieux
possible les donnees.
Deux criteres sont principalement utilises :
3.2.1 Moindres carres
3.2.2 Maximum de vraisemblance
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 38
3.2.1 Moindres carres
Principe : choisir la valeur des parametres qui minimise la somme,
eventuellement ponderee, des carres des ecarts entre valeurs cible observees
et valeurs predites.
Par exemple :
minβ
∑α
(yα − f(β;xα)
)2prediction de valeurs individuelles
minθ
tr[(
S− Σ(θ))2]
modele d’equations structurelles
Ne necessite pas d’hypotheses sur la distribution des valeurs cible.
Critere utilise en particulier pour la regression lineaire.
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 39
Regression lineaire : estimation du vecteur β
vecteur β qui minimise la somme des carres des ecarts yα − yα.
Le vecteur de ces ecarts est (y −Xβ), et la somme des carres de ses
composantes (y −Xβ)′(y −Xβ).
Ainsi, l’estimateur des moindres carres est la solution du probleme
minβ
(y −Xβ)′(y −Xβ) = y′y − 2y′Xβ + β′X′Xβ
Les conditions du premier ordre sont 2X′Xβ − 2X′y = 0, d’ou l’estimateur des
moindres carres ordinaires
β = (X′X)−1X′y
Dans le cas de la regression simple (k = 1) de y sur x, on a
β1 =cov(x, y)var(x)
=∑
α(xα − x)(yα − y)∑α(xα − x)2
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 40
3.2.2 Maximum de vraisemblance
Principe : choisir les valeurs des parametres avec lesquelles on a la plus forte
probabilite de generer l’echantillon avec le modele,
⇒ valeurs qui maximisent la vraisemblance de l’echantillon.
maxθ
L(Y1 = y1, . . . , Yn = yn | θ)
L(Y1 = y1, . . . , Yn = yn) probabilite conjointe si Y est discret
densite conjointe si Y continu.
En general on maximise la log-vraisemblance (lnL) ce qui est equivalent car lnmonotone croissante.
Pour definir la vraisemblance, on doit preciser la forme de la distribution de la
variable a predire ⇒ approche parametrique
Exemples : regression, regression logistique, table contingence, equations
structurelles,
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 41
Max vraisemblance : cas de la regression
Y ∼ N(x′β, σ2)
⇒
L(y1, . . . , yn | β) = (2πσ)(n/2)∏α
exp(− (yα − x′
αβ)2
σ2
)
lnL(·|β) = −∑α
(yα − x′αβ)2 + termes ne dependant pas de β
⇒
maximiser vraisemblance ⇔ minimiser somme des carres
⇒ β = (X′X)−1X′y
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 42
Max vraisemblance : regression logistique
Soit Y, (Y = 0 ou 1) la variable codant les etats de la variable reponse.
Le logit conditionnel au profil xα du α-eme individu est
πα(xα) = x′αβ = β0 +
p∑j=1
βjxαj
⇒ probabilite conditionnelle
p(Yα = 1|xα) = p(x′αβ) =
ex′αβ
1 + ex′αβ
La vraisemblance (conditionnelle) de l’observation yα est (Bernoulli)
p(Yα = yα|xα) = p(x′αβ)yα [1− p(x′
αβ)](1−yα)
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 43
⇒ vraisemblance de l’echantillon
L(β) =n∏
α=1
p(x′αβ)yα [1− p(x′
αβ)](1−yα)
lnL(β) =n∑
α=1
yα ln[p(x′αβ)] + (1−yα) ln[1−p(x′
αβ)]
Estimateur du maximum de vraisemblance
β = (β0, . . . , βp)′ solution du systeme de p + 1 equations non lineaires en β
(car p(x′αβ) = ex
′αβ
1+ex′αβ )
n∑α=1
p(x′αβ)xα =
n∑α=1
yαxα
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 44
Max vraisemblance : table contingence
n : taille d’un echantillon (n certain)
mij : esperance du nombre d’individus dans la cellule (i, j)
Modele de reconstruction des effectifs (la variable reponse est nij)
nij = n pij
La vraisemblance de l’echantillon pour ce modele est (loi multinomiale)
L(n11, . . . , n`c | p11, . . . , p`c) = A∏
i
∏j
pnij
ij
avec A = n!n11! ···n`c!
, et son logarithme (log-vraisemblance) s’ecrit
lnL(·|p11, . . . , p`c) =∑
i
∑j
nij log(pij) + log(A)
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 45
Estimation du maximum de vraisemblance
Les estimations du maximum de vraisemblance des pij sont solution demax
(p11,...,p`c)
∑i
∑j
nij ln(pij)
s.c.∑
i
∑j pij = 1
Lagrangien : L(p11, . . . , p`c, λ) = lnL(·)− λ(∑
i
∑j pij − 1)
⇒ conditions du premier ordre
∂L∂pij
=nij
pij− λ = 0
∂L∂λ
=∑
i
∑j
pij − 1 = 0
dont la solution est λ = n et
pij =nij
n
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 46
Modele log-lineaire general
Les estimations des parametres d’un modele log-lineaire s’obtiennent en
resolvant le systeme d’equations definissant les conditions du premier ordre
(voir Agresti (1990) p. 187) avec un algorithme du type Newton-Raphson.
On obtient les memes estimateurs en postulant un processus multinomial (n
fixe a priori) ou un processus de Poisson (n aleatoire).
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 47
Modele d’equations structurelles
On ajuste S avec Σ(θ)
⇒ vraisemblance de S
lnL(S|θ) = log|Σ(θ)|+ tr(SΣ−1(θ)
)− log|S|+ termes independants de θ
La solution est une fonction
θ = θ(S)
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 48
3.3 Evaluation d’un modele
3.3.1 Qualite globale d’ajustement
3.3.2 Test de difference entre deux modeles
3.3.3 Analyse des residus
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 49
3.3.1 Qualite globale d’ajustement
independance
nœud inital
modele sature
arbre maximal
modele ajuste
graphe induit
En notant : modele ajuste M , sature S, sans predicteurs I, observations O
on distingue trois types d’indicateurs :
1. divergence par rapport aux donnees D(M,O)
2. divergence par rapport au modele sature D(M,S)
3. gain par rapport au modele sans predicteurs D(I,M) = D(I,O)−D(M,O)
Mesure de la divergence
optique moindres carres : D(M,O) = somme de carres d’ecarts
optique maximum de vraisemblance : D(M,O) = −2 ln L(·|θ)
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 50
Optique moindres carres : exemples
Test F de significativite globale
Coefficient de determination R2
Khi-2 de Pearson
Khi-2 de Hosmer-Lemeshow
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 51
Regression : test F de significativite globale (D(I,M)/D(M,O))
Test de H0 : β1 = β2 = · · ·βk = 0 contre
H1 : βj 6= 0 pour un j 6= 0 au moins.
C’est un probleme d’analyse de variance avec
Somme de carres dl
SCexp∑n
α=1(yα − y)2 (p− 1)
SCres∑n
α=1(yα − yα)2 (n− p)
SCtot∑n
α=1(yα − y)2 (n− 1)
et l’on utilise la statistique de test
F =SCexp/(p− 1)SCres/(n− p)
∼ F(p−1),(n−p)
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 52
Qualite de l’ajustement : coefficient de determination (D(I,M)/D(I,O))
Part de la variance de la variable reponse y reproduite par la regression
R2 =var(y)var(y)
= 1− r′ry′y − ny2︸ ︷︷ ︸
n var(y)
= corr2(y, y)
avec r = y − y et y = Xβ.
x
y
y -
x
y
R2 ajuste :
R2a = 1− σ2
u
σ2y
= 1− n− 1n− p
(1−R2)
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 53
Ajustement d’une distribution : le khi-2 de Pearson
Valeurs de Y partionnees en c classes i = 1, . . . , c
ni effectifs observes
mi effectifs attendus si modele correct
Statistique X2 de Pearson
X2 =c∑
i=1
(ni −mi)2
mi
Sous l’hypothese H0 : modele correct, et sous reserves de conditions de
regularite,
X2 ∼ χ2d
d : nombre de degres de liberte = c− nbre contraintes liant les mi aux ni
Chaque parametre estime (independant) fait perdre un degre de liberte.
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 54
Test d’ajustement de Hosmer-Lemeshow (D(M,O)
S’utilise en regression logistique, pour tester l’ajustement aux donnees.
Principe
Partitionner les n donnees en groupes selon les valeurs des probabilites
predites et tester ajustement des effectifs des groupes.
1. Partitionner les n valeurs predites pi en g < n groupes j = 1, 2, . . . , g.
2. Determiner pour chaque groupe j le nombre de cas observes et le nombre
de cas predits avec la caracteristique voulue (yi = 1), et
3. Tester globalement la significativite de l’ecart entre ces effectifs avec la
statistique H2 du khi-2 de Hosmer-Lemeshow.
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 55
1. Partitionner les n valeurs predites pi en g < n groupes.
2. Calculer pour chaque groupe j
– oj0 nbre de cas du groupe avec yi = 0 ou
oj1 nbre de cas du groupe avec yi = 1
– nj = oj0 + oj1 nbre de cas dans le groupe j
– ej0 =∑
i∈j(1− pi) et
ej1 =∑
i∈j pi les predictions des ojk
– pj = ej1/nj estimation de p(Y = 1|j) .
3. Statistique Hosmer-Lemeshow
H2 =g∑
j=1
(oj0 − ej0)2
ej0pj=
g∑j=1
(oj1 − ej1)2
ej1(1− pj)= ∼ χ2
g−2
On perd 2 d.l. car∑
ej0 =∑
oj0 et∑
nj = n.
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 56
Hosmer-Lemeshow : exemple
Donnees EGMP, modele : logit(p) = β0 + βP P + βEE . SPSS fournit la table
Divorced Still Married
j Observed Expected Observed Expected Total
1 45 52.19 15 7.81 60
2 53 45.81 8 15.19 61
3 114 106.81 67 74.19 181
4 282 289.19 452 444.81 734
Ici, les groupes correspondent aux 4 cellules definies par E ∗ P .
H2 =(45− 52.19)2
52.19 7.8160
+ · · ·+ (282− 289.19)2
289.19 441.81734
= 7.601 + 4.530 + 1.180 + 0.295 = 13.606
d.l.= 4− 2 = 2 et H2 = 13.6 > χ22,.95 = 5.99 ⇒ ajustement non satisfaisant
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 57
Optique deviance −2 ln L (-2LogLik)
Principe de la deviance
Statistique du rapport de vraisemblance
Pseudo R2
Criteres d’information AIC et BIC
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 58
Deviance : principe
Mesurer divergence en termes de log-vraisemblance.
Principe : Ajustement d’autant meilleur que la vraisemblance de l’echantillon
est forte pour le modele ⇒ −2 ln L petit.
Vraisemblance maximale (L = 1 dans le cas discret) pour le modele (O) qui
reproduit exactement les donnees.
L lnL −2 ln L
1 0 0...
......
e−1 −1 2...
......
0 −∞ ∞
⇒ −2 ln L s’interprete comme une distance par rapport a O (observe).
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 59
Rapport de vraisemblance
Soit M2 un modele imbrique dans M1.
M2 modele restreint obtenu en imposant d contraintes sur les
parametres de M1 ⇒ L(M2) ≤ L(M1).
Principe : L’ecart entre deux modeles imbriques est significatif si le rapport de
vraisemblance est inferieur a un seuil donne.
L(M2)L(M1)
< λ ⇔ − lnL(M2)−(− lnL(M1)
)> − lnλ
Lorsque le modele M2 est correct et sous reserve de conditions de regularite,
le double du terme de droite est distribue selon un χ2 a d degres de liberte
(khi-2 du rapport de vraisemblance de M2 par rapport a M1)
G2(M2|M1) = −2 ln L(M2)− (−2 ln L(M1)) ∼ χ2d
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 60
Statistique du rapport de vraisemblance (D(M,S))
On appelle statistique du rapport de vraisemblance (LR) d’un modele M la
statistique (du type D(M,S)) :
G2(M) = G2(M |S) = −2 ln L(M)− (−2 ln L(S)) ∼ χ2d
Exemple table de contingence : la statistique
G2(I) = 2∑
i
∑j
nij log( nij
mij
)∼ χ2
(`−1)(c−1)
est une alternative au khi-2 de Pearson pour tester l’independance.
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 61
Exemple : Age×Sexe×Opinion
Age : “≤ 40”, “> 40”
Sexe : H, F
Opinion s/retraite 65 ans : def, ind, fav
3 presentations alternatives des donnees
≤ 40 def ind fav
H 50 150 50
F 70 30 50
> 40 def ind fav
H 25 80 30
F 130 60 100
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 62
H def ind fav
≤ 40 50 150 50
> 40 25 80 30
F def ind fav
≤ 40 70 30 50
> 40 130 60 100
def H F
≤ 40 50 70
> 40 25 130
ind H F
≤ 40 150 30
> 40 80 60
fav H F
≤ 40 50 50
> 40 30 100
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 63
* * * * * * * * * * H I E R A R C H I C A L L O G L I N E A R
DATA Information
12 unweighted cases accepted. 0 cases rejected because of out-of-range factor values. 0 cases rejected because of missing data. 825 weighted cases will be used in the analysis.
FACTOR Information
Factor Level Label RETRAITE 3 Retraite à 65 ans pour femmes AGE 2 SEXE 2
DESIGN 1 has generating class
RETRAITE*AGE*SEXE
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 64
Tests that K-way and higher order effects are zero.
K DF L.R. Chisq Prob Pearson Chisq Prob Iteration
3 2 .107 .9480 .107 .9479 5 2 7 220.205 .0000 227.587 .0000 2 1 11 239.426 .0000 254.636 .0000 0
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Tests that K-way effects are zero.
K DF L.R. Chisq Prob Pearson Chisq Prob Iteration
1 4 19.221 .0007 27.049 .0000 0 2 5 220.099 .0000 227.480 .0000 0 3 2 .107 .9480 .107 .9479 0
Tests of PARTIAL associations.
Effect Name DF Partial Chisq Prob Iter
RETRAITE*AGE 2 .342 .8429 2 RETRAITE*SEXE 2 128.000 .0000 2 AGE*SEXE 1 67.148 .0000 2 RETRAITE 2 14.794 .0006 2 AGE 1 .758 .3840 2 SEXE 1 3.669 .0554 2
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 65
Pseudo R2
Il s’agit de mesurer le gain relatif par rapport au modele sans predicteurs :
R2 = 1− LogLik(M)LogLik(I)
ou, lorsque −2LogLik(M) = G2(M), sa version corrigee des degres de liberte
R2ajust = 1− G2(M)/dM
G2(I)/dI
Pour l’exemple Age/Retraite/Sexe on a pour M = (AS, RS) :
G2(M) = .107 + .342 = .449 avec dM = 2 + 2 = 4G2(I) = = 220.205 avec dI = 7
d’ou :
R2 = 1− .449220.205
= .99796
R2ajust = 1− .449
220.20574
= .99643
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 66
Criteres d’information AIC et BIC
Compromis entre qualite d’ajustement (−2LogLik) et complexite (nbre p de
parametres independants)
AIC(M) = −2LogLik(M) + 2p
BIC(M) = −2LogLik(M) + p log(n)
(On a p = kmax − d, avec kmax le nombre de parametres du modele sature).
Forme alternative, en fonction des degres de liberte :
AIC′(M) = G2(M)− 2d
BIC′(M) = G2(M)− d log(n)
BIC′(M) = BIC(M)− kmax (idem pour AIC) : valeur change, mais meme ordre
des modeles.
Permet de comparer des modeles non imbriques.
⇒ meilleur modele : celui qui a le plus petit AIC ou BIC.
Akaike (1973), Schwarz (1978), Raftery (1995), Kass and Raftery (1995)
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 67
AIC et BIC : exemple Age/Sexe/Retraite
La table a trois dimensions a 12 cellules ⇒ kmax = 12.
n = 825 ⇒ ln(n) = 6.715
LR d p = kmax − d AIC BIC
ARS 0 0 12 24 80.585
AR,AS,RS 0.107 2 10 20.11 67.26
AS,RS 0.449 4 8 16.45 54.17
A,RS 79.9 5 7 93.9 126.91
AS,R 140.75 6 6 152.75 181.04
A,S,R 220.205 7 5 230.21 253.78
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 68
3.3.2 Test de difference entre deux modeles
Pour un parametre : Ratio critique (t de Student)
Cas general : rapport de vraisemblance conditionnel
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 69
Tests de significativite des coefficients
Il s’agit de tester H0 : βj = 0 contre H1 : βj 6= 0.
En regression, on utilise la statistique de Student
Tβj=
βj
σβj
∼ Stn−p
ou σβjest l’estimateur de l’ecart-type de βj (racine du terme diagonal
correspondant de σu(X′X)−1 .)
Pour tester H0 : βj = βj0 contre H1 : βj 6= βj0.
On utilise la statistique de Student
Tβj=
βj − βj0
σβj
∼ Stn−p
Pour n grand, on considere le coefficient comme significatif lorsque le t
calcule est superieur a 2 (le seuil a 5% de la loi normale vaut 1.96). Pour n
petit, le seuil est plus eleve.
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 70
Ratio critique
L’utilisation de la distribution de Student suppose
– la normalite de la reponse Y
– variance de Y independante de son esperance
Lorsque ces conditions ne sont pas verifiees, on compare a titre indicatif le
rapport critique :
θj
σθj
au seuil de la loi normale.
Exemple : voir AMOS.
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 71
Cas general : rapport de vraisemblance conditionnel
Pour des modeles qui different par un ou plusieurs parametres, on peut
utiliser :
G2(M2|M1) = G2(M2)−G2(M1) = −2 ln L(M2) + 2 ln L(M1)
qui, si M2 est correct, suit un χ2 a d2 − d1(= p1 − p2) degres de liberte.
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 72
Alternative : comparer les BIC
Raftery (1995) (p. 139) : interpretation des differences entre BIC
Difference facteur bayesien prob. a posteriori
entre BIC p(O|M1)/p(O|M2) p(M1|O) evidence
0–2 1–3 50–75 % faible
2–6 3–20 75–95 % positive
6–10 20–150 95–99 % fort
>10 >150 >99 % tres fort
Conversion approximative d’un ratio critique t en termes de variation de BIC :
t2 − lnn ' BIC2 −BIC1
⇒ pour une evidence forte, il faut
|t| >√
lnn + 6
soit respectivement 2.88, 3.26, 3.59 et 3.9 pour n = 10, 100, 1000 et 10000.
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 73
3.3.3 Analyse des residus
Residu : ecart entre observation et prediction.
A nouveau on peut mesurer cet ecart par
– la difference entre yα − yα (contribution a la sommes des carres (SC))
– contribution a la deviance (deviate)
Souvent, on considere des formes normalisees des contributions a la SC.
Objectif
Des residus standardises superieurs a 2.5 ou 3 indiquent des cas atypiques
(tres mal ajustes par le modele).
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 74
Residus : exemple regression logistique
Contribution a la somme des carres
Les residus de la regression logistique sont de la forme :
ri = yi − pi =
pi si yi = 0
1− pi si yi = 1
ecart entre etat observe (yi = 0 ou 1) et prediction de la probabilite d’etre en
yi = 1.
Residu standardise (zre)
zi =ri√
pi(1− pi)
Residu studentise (sre)
idem mais en calculant le residu par rapport a la prediction donnee par le
modele estime sans la i-eme observation
zi =rsi√
psi (1− ps
i )
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 75
Deviance (dev)
√−2 ln pi si yi = 1
−√−2 ln(1− pi) si yi = 0
Residus logit (lre)
Residus calcules en termes de logit
lrei =ri
pi(1− pi)
Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 76
4 Apprentissage supervise
4.1 Typologie de modeles d’apprentissage
4.2 Details sur quelques methodes d’apprentissage
4.2.1 Analyse discriminante
4.2.2 Reseaux de neurones
4.2.3 Machine a support vectoriel (SVM)
4.2.4 Arbres d’induction
4.2.5 Classifieurs et reseaux bayesiens
4.3 Initiation a la pratique des arbres d’induction
4.4 Criteres de qualite des regles
4.4.1 Performance en classification (taux d’erreur)
4.4.2 Complexite
4.4.3 Qualite des partitions
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 77
4.1 Typologie de modeles d’apprentissage
Apprentissage machine, apprentissage supervise, apprentissage par les
exemples :
apprendre un predicteur (classifieur) f(x) qui permet de predire la valeur (la
classe) yα d’un cas α avec profil xα :
yα = f(xα)
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 78
Typologie selon la nature des variables (attributs)
attributs predictifsreponse categoriels quantitatifs
categorielle arbre de decision analyse discriminante(classification) reseau bayesien hyperplan separateur optimal
SVMk-PPV
Perceptron
quantitative arbre de regression regression(regression) CART regression locale
methodes de noyauxmethodes de regulation
Remarque : typologie non stricte. Discretisation et codage indicateur des
attributs categoriels, permettent d’etendre la portee des methodes.
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 79
Typologie selon principe de classification
Methodes procedant en deux etapes :
1. determiner la distribution conditionnelle, c-a-d les probabilites
p(Y = yi | x)
2. attribuer la categorie f(x) = arg maxyip(Y = yi | x)
ou la categorie qui minimise le cout d’erreur de classification
f(x) = arg minyi
(1− p(Y = yi | x)
)c(yi).
analyse discriminante, arbres,regression logistique, k-PPV,reseau bayesien, ...
Methodes directes : Determination directe de la frontiere entre les classes.
Perceptron, hyperplan separateur optimal,SVM, ...
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 80
Methodes en deux etapes
On distingue entre
– Methodes ou pi(x) = p(Y = yi|x) est fonction analytique de x(fonction parametrique)
Exemples : analyse discriminante, regression logistique, ...
– Methodes de partitionnement de l’espace X des predicteurs
(fonction non parametrique)
⇒ un vecteurs pk par classe de la partition.
Exemples : arbres, reseau bayesien, ...
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 81
Methodes globales versus methodes locales
Methodes globales : fonction parametrique simple (robuste) de
– la fonction de prediction (regression)
– le logit de la probabilite (regression logistique, analyse discriminante)
– de la frontiere de separation (hyperplan separateur optimal, SVM)
Methodes locales : les fonctions sont definies localement (souvent de facon
non parametree)
Exemple : k-PPV, arbres, methodes de noyaux, ...
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 82
Apprentissage en une etape versus incremental
En une etape :
– Donnees d’apprentissage
– Donnees de validation
– Donnees d’application
En particulier toutes les methodes globales parametrees, mais aussi les
arbres.
Incremental : (Case base reasoning CBR)
La regle (classifieur) est automatiquement adaptee des qu’une nouvelle
information est disponible.
Exemple : k-PPV, ...
Autres typologie, voir Hastie et al. (2001) et Han and Kamber (2001).
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 83
4.2 Details sur quelques methodes d’apprentissage
Analyse discriminante
Reseaux de neurones
Machine a support vectoriel (SVM)
Arbres d’induction
Classifieurs et reseaux bayesiens
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 84
4.2.1 Analyse discriminante
Contexte
- Une variable reponse categorielle (Type d’etudes)
- Plusieurs attributs predictifs metriques (revenu, dettes, age, duree de
chomage, nombre d’enfants) ⇒ matrice Xn× p
Exemple :i Forma Revenu Age Enfants1 1 100 40 22 1 90 25 03 1 120 60 14 2 50 25 15 2 60 40 26 2 80 50 37 2 60 55 28 3 80 30 19 3 80 50 110 3 50 40 0
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 85
Plot des donnees
REVENU
AGE
ENFANTS
FORMA
technqiue
social
commercial
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 86
Principe de l’analyse discriminante
Objectif : classer dans la categorie la plus probable pour le profil de x.
On associe a chaque categorie i une fonction discriminante δi(x), et l’on
classifie selon :
f(x) = arg maxi
δi(x)
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 87
Fonction discriminante lineaire de Fisher
Une fonction discriminante lineaire pour chaque groupe i = 1, . . . , `.
Chaque fonction correspond (a une constante additive pres) a l’oppose de la
distance de Mahalanobis au centre xi du groupe :
d2(x, xi) = (x− xi)′S−1(x− xi)
= x′S−1x− 2x′S−1xi + x′iS
−1xi
avec S estimation de la matrice de variances-covariances intra supposee
commune des groupes.
Comme x′S−1x ne depend pas du groupe i, chercher le centre xi dont un
point x est le plus proche est equivalent a chercher parmi les ` fonctions
lineaires suivantes, celle qui prend la valeur maximale
δi(x) = x′S−1xi −12x′
iS−1xi
Ces ` fonctions sont les fonctions lineaires discriminantes de Fisher.
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 88
Remarque : Le principe de Fisher suppose
1) les memes variances et covariances dans chaque groupe (Σi = Σ, tout i).
2) que la probabilite a priori de choisir un cas du groupe i est la meme pour
tous les groupes i = 1, . . . , `.
Regles probabilistes d’affectation
Si l’on admet que la distribution de x est multi-normale dans chaque groupe,
les fonctions discriminantes de Fisher sont equivalentes aux probabilites a
posteriori p(Y = yi|x)
arg maxi
p(Y = yi|x) = arg maxi
δi(x)
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 89
Probabilites a priori differentes
p(Y = yi) probabilite a priori de la classe yi.
Regle bayesienne
Affectation au groupe i qui maximise la probabilite
p(Y = yi|x) =p(x|yi)p(Y = yi)∑`
k=1 P (x|yk)p(Y = yk)
⇒ fonction discriminante
δi(x) = x′S−1xi −12x′
iS−1xi + ln(p(Y = yi))︸ ︷︷ ︸
nouveau terme
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 90
Analyse discriminante quadratique
Si l’on abandonne l’hypothese de matrice de covariances Σi egales pour tous
les groupes i, les fonctions discriminantes deviennent quadratiques :
δi(x) = −12
ln |Si| −12(x− xi)′S−1
i (x− xi) + ln(p(Y = yi))
Plus souple, mais beaucoup plus de parametres a estimer.
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 91
Classification : output de SPSS
Classification StatisticsPrior Probabilities for Groups
.333 3 3.000
.333 4 4.000
.333 3 3.0001.000 10 10.000
FORMAcommercialsocialtechnqiueTotal
Prior Unweighted WeightedCases Used in Analysis
Classification Function Coefficients
.849 .301 .533-6.062E-02 7.393E-02 5.671E-02
-8.900 -1.507 -6.338-39.268 -10.578 -18.773
REVENUAGEENFANTS(Constant)
commercial social technqiueFORMA
Fisher's linear discriminant functions
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 92
Casewise Statistics
1 1 .144 2 .789 3.878 3 .209 6.532 1.376 1.4531 1 .674 2 .994 .790 3 .006 10.885 3.473 -.3801 1 .454 2 1.000 1.579 3 .000 17.320 4.260 .1092 2 .668 2 .867 .806 3 .133 4.555 -1.890 -.3992 2 .982 2 .990 .037 3 .010 9.331 -2.619 .3512 2 .443 2 .993 1.630 3 .007 11.663 -2.230 1.5792 2 .728 2 .993 .635 3 .007 10.445 -2.980 -.2583 3 .427 2 .776 1.700 1 .219 4.231 .987 .2243 3 .930 2 .965 .145 1 .026 7.368 .505 -.5873 3 .247 2 .937 2.800 2 .063 8.197 -.883 -2.0911 3** .111 3 1.000 6.014 2 .000 44.2521 1 .077 3 .933 6.849 3 .067 12.1161 1 .000 3 1.000 27.202 3 .000 48.9622 3** .166 3 .577 5.087 2 .423 5.7042 2 .990 3 .982 .112 3 .018 8.0902 2 .251 3 .980 4.096 3 .020 11.9022 2 .323 3 .978 3.483 3 .022 11.1093 1** .197 3 .922 4.677 3 .072 9.7803 3 .700 3 .915 1.425 1 .063 6.7913 2** .047 3 .948 7.971 3 .052 13.783
CaseNumber1234567891012345678910
Original
Cross-validateda
ActualGroup
PredictedGroup p df
P(D>d | G=g)P(G=g | D=d)
SquaredMahalanobisDistance to
Centroid
Highest Group
Group P(G=g | D=d)
SquaredMahalanobisDistance to
Centroid
Second Highest Group
Function 1Function
2
Discriminant Scores
For the original data, squared Mahalanobis distance is based on canonical functions.For the cross-validated data, squared Mahalanobis distance is based on observations.
Misclassified case**. Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case.a.
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 93
Classification Resultsb,c
3 0 0 30 4 0 40 0 3 3
100.0 .0 .0 100.0.0 100.0 .0 100.0.0 .0 100.0 100.02 0 1 30 3 1 41 1 1 3
66.7 .0 33.3 100.0.0 75.0 25.0 100.0
33.3 33.3 33.3 100.0
FORMAcommercialsocialtechnqiuecommercialsocialtechnqiuecommercialsocialtechnqiuecommercialsocialtechnqiue
Count
%
Count
%
Original
Cross-validateda
commercial social technqiuePredicted Group Membership
Total
Cross validation is done only for those cases in the analysis. In cross validation, each case isclassified by the functions derived from all cases other than that case.
a.
100.0% of original grouped cases correctly classified.b. 60.0% of cross-validated grouped cases correctly classified.c.
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 94
4.2.2 Reseaux de neurones
Thiria et al. (1997), Rumelhart et al. (1986)
Reseaux a apprentissage supervise
– Retropropagation (descendant du Perceptron)
Les poids sont iterativement reajustes pour ameliorer les classements.
. . . .
Couche entrée
Couche intermédiairecachée
Couche sortie
. . . .
Trouve les hyperplans separateurs des donnees d’apprentissage, lorsqu’ils
existent.
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 95
4.2.3 Machine a support vectoriel (SVM)
Hyperplan separarteur optimal : si les classes sont separables, trouve
l’hyperplan separateur qui laisse la plus grande marge libre de points de
chaque cote.
maxβ,β0
C
s.c. yα(x′αβ + β0) ≥ C, α = 1, . . . , n
β′β = 1
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 96
Classement par vecteur support :
Cherche la bande (non lineaire) de separation la plus large sans depasser une
valeur donnee pour la somme des erreurs.
maxβ,β0
C
s.c. yα(x′αβ + β0) ≥ C(1− ξα), α = 1, . . . , n
β′β = 1
avec ξα ≥ 0 et∑
α ξα ≤ cste.
Le SVM est une generalisation utilisant une extension en base polynomiale ou
spline.
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 97
4.2.4 Arbres d’induction
Principe
1. Eclater nœud initial (toutes les donnees)
selon categories de la variable la plus
pertinente (gain d’information maximal)
⇒ nouvelle branche pour chaque
categorie.
2. Eclater successivement les feuilles
⇒ ∆critere≤ 0 (ou autre critere d’arret.)
3. Elaguer.
�
� �
� � � � � �
� � � � � � � �
� � � � � �� � �
� � � � �
� � �
Graphes d’induction : possibilites de fusion.
⇒ Initiation aux arbres d’induction
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 98
4.2.5 Classifieurs et reseaux bayesiens
Classificateur naıf
x = (xj)j=1,...,p : instance, vecteur des valeurs des predicats.
Classer x dans categorie Ci avec plus grande probabilite a posteriori
P (Ci|x) > P (Ck|x) tout k 6= i
P (Ci|x) ∝ P (x|Ci)P (Ci)
P (Ci) probabilite a priori (constante ou estimee par ni/n)
Hypotheses pour estimer P (x|Ci) :
1. P (x|Ci) =∏
j P (xj |Ci)c-a-d independance conditionnelle a la classe.
2. normalite des Xj continus : Xj |Ci ∼ N(µCi, σCi
).
Meilleur classificateur lorsque ces hypotheses sont satisfaites.
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 99
Classificateur bayesien naıf : exemple
cancer (C, C), fumeur (F, F), antecedent familial (A, A)
cancer F F total
A 12 5 17
A 12 1 13
total 24 6 30
∼cancer F F total
A 6 24 30
A 16 24 40
total 22 48 70
Comment classer un individu (∼antecedent, fumeur) = (A, F) ?
P (C) = 0.3 P (C) = 0.7
P (A|C) = 13/30 = 0.43 P (A|C) = 40/70 = 0.57
P (F |C) = 24/30 = 0.80 P (F |C) = 22/70 = 0.314
P (A ∧ F | C) ' 0.43 · 0.8 = 0.35 ( 6=12/30) P (A ∧ F | C) ' 0.57 · 0.31 = 0.18 ( 6=16/70)
P (C | A ∧ F ) ∝ 0.3 · 0.35 = 0.105
P (C | A ∧ F ) ∝ 0.7 · 0.18 = 0.126
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 100
Reseau bayesien (Bayesian Belief Network) Heckerman (1996)
Principe : Relacher hypothese d’independance conditionnelle a la classe.
⇒ Reseau de causalite unidirectionnel
� � � � � � � � � �� � � � �
� � � �
� � � � � � � � �� � � � � �
P (x|Ci) =∏j
P(xj |Parents(Xj) et Ci
)Exemple :
P ([fumeur] et [∼antecedent] | [cancer]) =
= P ([∼antecedent] | [cancer]) P ([fumeur] | [∼antecedent] et [cancer])
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 101
Reseau bayesien : exemple
P (F |A ∧ C) = 0.71 6= P (F |A ∧ C) = 0.92 6= P (F |C) = 0.8 ⇒ non independance
cancer F F total
A 12 5 17
A 12 1 13
total 24 6 30
∼cancer F F total
A 6 24 30
A 16 24 40
total 22 48 70
P (C) = 0.3 P (C) = 0.7
P (A|C) = 13/30 = 0.43 P (A|C) = 40/70 = 0.57
P (F | A ∧ C) = 12/13 = 0.923 P (F | A ∧ C) = 16/40 = 0.4
P (A ∧ F | C) = 0.43 · 0.923 = 0.4 (=12/30) P (A ∧ F | C) = 0.57 · 0.4 = 0.228 (=16/70)
P (C | A ∧ F ) ∝ 0.3 · 0.4 = 0.12
P (C | A ∧ F ) ∝ 0.7 · 0.228 = 0.16
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 102
Reseau bayesien : apprentissage
Reseau fixe, pas de donnees manquantes : Calcul direct des PC
(probabilites conditionnelles).
Donnees manquantes Estimation du maximum de vraisemblance des PC.
Reseau inconnu : structure inferee des donnees Munteanu and Cau (2000).
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 103
4.3 Initiation a la pratique des arbres d’induction
4.3.1 Principe
4.3.2 Les criteres
4.3.3 AnswerTree 3.0
4.3.4 SIPINA
http ://mephisto.unige.ch
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 104
4.3.1 Principe
Graphes d’induction : apprentissage supervise
⇒ 1 variable dependante (categorielle)
variables explicatives (attributs) categorielles ou metriques
(variable dependante metrique ⇒ arbre de regression)
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 105
Arbre :
Eclatement successif des
sommets
On cherche, a chaque sommet,
la variable qui discrimine le
mieux par rapport a la variable
dependante.
����
� � �
� � �
� � � �
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 106
Graphe :
procede egalement par
fusion
– des sommets avec
distributions similaires.
– des sommets a faible
effectif avec sommet le
plus semblable
����
� � �
� � �
� � � �
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 107
Arbre binaire :
Ne fait que des
eclatements en 2 ����
� � �
� � �
� � � �
� � �
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 108
4.3.2 Les criteres
Criteres issus de
la theorie de l’information : entropies (incertitude) de la distribution
Entropie de Shannon : hS(p) = −∑c
i=1 pi log2 pi
Entropie quadratique (Gini) : hQ(p) =∑c
i=1 pi(1− pi) = 1−∑c
i=1 p2i
⇒ maximiser la reduction d’entropie
association statistique Khi-2 de Pearson, mesures d’association
⇒ maximiser l’association, minimiser la p-valeur du test de l’association
nulle.
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 109
Gain d’information
Lecteurs et non lecteurs d’un magazine
age lecteur non lecteur total
jeune 200 3000 3200
age 700 900 1600
total 900 3900 4800
� age�⇒ � lecteur� [15%,44%]
Quelle information apporte l’age ?
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 110
Gain = reduction de l’incertitude
Incertitude : entropie de Shannon
H(lecteur) = −c∑
i=1
pi log2 pi
= −(
9004800
log2
( 9004800
)+
39004800
log2
(39004800
) )= 0.696
H(lecteur|jeune) = 0.377
H(lecteur|age) = 0.989
H(lecteur|Age) = (2/3)0.377 + (1/3)0.989 = 0.554
Gain(Age) = H(lecteur)−H(lecteur|Age)
= 0.696− 0.554 = 0.14
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 111
4.3.3 AnswerTree 3.0
SPSS (2001)
Construit des arbres
4 methodes :
arbre binaire variable dependante probabilites
methode oui non nominale ordinale continue a priori
CHAID X X X X
CHAID exhaustif X X X X
C&RT X X X X X
QUEST X X X
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 112
CHAID Chi-squared Automatic Interaction Detection (Kass (1980))
1. Explore les valeurs de chaque predicteur et fusionne les categories avec
quasi-equivalence distributionnelle par rapport a la variable dependante.
2. Choisit le meilleur predicteur sur la base du degre de signification du test
d’independance :
– χ2, si variable dependante categorielle
– F , si variable dependante continue
CHAID exhaustif (Biggs et al. (1991))
CHAID stoppe la fusion de categories des que les categories restantes sont
statistiquement differentes.
CHAID exhaustif continue la fusion ⇒ 2 categories et retient l’agregation qui
donne la plus forte association avec la variable dependante.
⇒ meilleure partition pour chaque predicteur.
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 113
CART :Classification and Regression Trees Breiman et al. (1984)
Partage binaire iteratif ⇒ arbre binaire
Minimise des indices d’impurete :
– Gini : gs = 1−∑
i p2is,
avec pis probabilite de la categorie i au sommet s.
– Twoing : on cherche simultanement la meilleure partition en deux des
categories de la variable dependante et des categories des predicteurs.
– LSD (Least-squared deviation) si variable dependante continue
(LSD=Variance interne du sommet).
QUEST Quick, Unbiased, Efficient Statistical Tree
Loh and Shih (1997)
Traite separement le choix
– du predicteur (non biaise : choix aleatoire selon l’information fournie)
– de la partition (partition binaire univariee)
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 114
4.3.4 SIPINA
Zighed and Rakotomalala (2000) http ://eric.univ-lyon2.fr
SIPINA methode de construction de graphe d’induction et logiciel.
Le logiciel propose plusieurs autres methodes (CHAID, CART, C4.5, ...)
La methode Sipina se caracterise par
– La prise en compte de la representativite (taille) des groupes.
– Construit des graphes par eclatements et fusions successives
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 115
Notations :
P : partition en q groupes ou sommets
q : nombre de sommets de la partition P
` : nombre de categories de la variable reponse
nik : nombre de cas du sommet k qui sont dans la categorie i
n.k : nombre de cas dans le sommet k
p(i, k, λ) : estimation (de Laplace) de la probabilite qu’un individu de la classe
k soit dans la categorie i
p(i, k, λ) =nik + λ
n.k + `λ
λ limite la trop forte sensibilite des estimations dans les petits
echantillons et penalise donc les petits echantillons.
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 116
SIPINA choisit successivement l’eclatement ou la fusion qui maximise le gain
sur l’incertitude
G(P) = I(P−1)− I(P)
ou I(P) est l’un des indices suivants.
Indice fonde sur l’entropie quadratique
IQ(P) =q∑
k=1
α
(n.k
n
∑i=1
p(i, k, λ)[1− p(i, k, λ)
])+ (1− α)
`λ
n.k
Indice fonde sur l’entropie de Shannon
IS(P) =q∑
k=1
α
(n.k
n
∑i=1
p(i, k, λ) log2
[ 1p(i, k, λ)
])+ (1− α)
`λ
n.k
Le parametre α ∈ [0, 1] permet de controler l’arbitrage entre
– discrimination
– taille des sommets
Plus α est petit, plus on penalise pour les petites tailles n.k.
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 117
4.4 Criteres de qualite des regles
On se concentre ici sur les criteres pour les regles de classification.
Performance en classification (taux d’erreur)
Complexite
Qualite des partitions
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 118
4.4.1 Performance en classification (taux d’erreur)
Chaque cas est classe dans la categorie la plus frequente du sommet final ou
il se trouve.
Taux d’erreur (pourcents de cas mal classes)
– Sur echantillon d’apprentissage
– Sur echantillon de validation independant
– Par validation croisee
– Par bootstrap
En fait, il faudrait comparer avec le taux d’erreur du classement naıf
(tous dans categorie la plus frequente du sommet initial).
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 119
Taux d’erreur
En classification,
err =1n
∑i
I[yi 6= f(xi)]
ou I[condition] prend la valeur 1 lorsque la condition est verifiee et 0 sinon.
On peut aussi utiliser la fonction perte log-vraisemblance en lieu et place de
la fonction de perte 0–1.
err =−2n
∑i
ln(p(Y = yi|x))
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 120
Echantillon de validation
L’objectif etant la classification d’objets n’ayant pas servi a l’apprentissage,
on evalue le taux d’erreur sur un echantillon test.
Le taux d’erreur en apprentissage souffre d’optimisme.
En complexifiant l’arbre (en multipliant les sommets) on ameliore toujours le
taux d’erreur en apprentissage,
par contre au dela d’un certain seuil, le taux d’erreur en generalisation (sur
l’echantillon test) se degrade.
� � � � � � � � � � � � � �
� � � � � � � � � �
� � � � � � � �
� � � � � � � � � � �
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 121
Validation croisee
On partitionne les donnees en g groupes a peu pres egaux
� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �
Pour chaque groupe k = 1, . . . , g on retient les autres g − 1 groupes pour
� apprendre� le classifieur (l’arbre par exemple) et on calcule le taux d’erreur
sur le groupe k.
On obtient ainsi g taux d’erreur dont on peut calculer la moyenne et la
variance.
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 122
4.4.2 Complexite
Complexite de l’arbre :
– nombre de sommets
– nombre de niveaux
– longueur des messages (regles)
On peut reduire la complexite
– a priori en renforcant les criteres d’arret
(par exemple nombre maximum de niveaux dans CHAID ou CART)
– a posteriori par des procedures d’elagage
(procedure automatique par exemple dans CART)
En statistique, complexite du modele = nombre de parametres libres
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 123
4.4.3 Qualite des partitions
On peut calculer l’amelioration totale du critere
– Gain d’information entre sommet initial et ensemble des sommets finaux.
– Degre d’association entre partition finale et variable dependante (GK τ , v
de Cramer, ...).
– Degre de signification du test que l’association est nulle.
Answer Tree et Sipina ne calculent pas ces valeurs et ne permettent pas de
recuperer l’information necessaire (no du sommet final).
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 124
4.5 Stabilite des arbres
Arbres et graphes d’induction sont tres instables
La variabilite porte sur
1. Le taux d’erreur en classification.
2. La structure (surtout aux niveaux eleves)
– Attributs retenus
– Partitionnement des modalites des attributs categoriels ou
seuils de discretisation des variables continues
3. A structure fixe, sur les distributions dans les sommets.
On ne dispose malheureusement pas d’outils pour evaluer cette variabilite
(excepte celle du taux d’erreur). Des etudes par simulations montrent que
plus l’arbre est simple, plus il est stable.
Si trop simple, l’erreur de classification (biais) tend a augmenter.
⇒ trouver compromis entre biais et variance.
Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 125
5 Points communs et differences entre
modelisation et apprentissage
Modelisation est apprentissage ont en commun :
– Le contexte : une (des) variable(s) reponse(s) y, des predicteurs x.
– Recherche d’une fonction f(x) pour predire ou expliquer les valeurs prises
par y.
– Induction de f a partir de donnees d’apprentissages (estimation)
Ritschard and Zighed (2003, 2004), Ritschard (2003a,b)
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 126
Les differences portent sur
Modelisation :
– Utilise souvent une approche parametrique : on postule une forme de
distribution de y, sa dependance par rapport a x et on estime les
parametres.
– Objectif prioritaire : decrire les mecanismes liant y a x– Validation par mesure de la qualite d’ajustement (des donnees
d’apprentissage), test d’hypotheses.
Apprentissage supervise :
– Utilise en general une approche non-parametrique : pas d’hypotheses sur la
forme des distributions (k-ppv, arbres, reseau de neurones). f est le plus
souvent considere comme une boite noire.
– Objectif prioritaire : predire y (classer) a l’aide de x– Validation par taux d’erreur (prediction ou classement) en generalisation
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 127
Vers une universalite des criteres d’evaluation
Les taux d’erreur de prediction ou de classification, non parametriques par
nature, s’appliquent sans difficulte aux modeles statistiques.
Les criteres utilises en modelisation statistique (Deviance, BIC) peuvent
aussi s’appliquer dans certains cas en apprentissage supervise.
L’utilisation du −2LL requiere toutefois des hypotheses parametriques.
Dans le cas discret (y discret) comme avec les arbres de decision, ces
hypotheses ne sont pas tres restrictives.
A titre d’illustration, nous montrons comment les criteres de validation des
modeles statistiques s’appliquent aux arbres.
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 128
5.1 Arbres d’induction et table cible
Arbres d’induction : apprentissage supervise
(Kass (1980), Breiman et al. (1984), Quinlan (1993), Zighed and Rakotomalala (2000),
Hastie et al. (2001))
⇒ 1 variable reponse categorielle y (statut marital)
predicteurs, attributs categoriels ou metriques x = (x1, . . . , xp)(age, secteur d’activite)
(variable reponse metrique ⇒ arbre de regression)
Apprentissage supervise
A partir d’un echantillon {(xα, yα)}α=1,...,n,
construire une fonction predictive (ou de classification) f(x) qui permette de
predire la valeur ou classe y de cas dont on ne connaıt que x.
(predire le statut marital a partir de la classe d’age et du secteur d’activite)
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 129
Table cible
Si toutes les variables sont categorielles, on peut representer les donnees sous
forme d’une table de contingence croisant la variable reponse avec une
variable composite definie par le croisement de tous les predicteurs.
Tab. 1 – Exemple de table de contingence cible T
homme femme
marie primaire secondaire tertiaire primaire secondaire tertiaire total
non 11 14 15 0 5 5 50
oui 8 8 9 10 7 8 50
total 19 22 24 10 12 13 100
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 130
Arbres d’induction construit la regle f(x) en deux temps :
1. Determiner une partition des profils possibles x telle que la distribution py
de la reponse Y soit la plus differente possible d’une classe a l’autre.
� �
� �
� �
� �
�
� �
� �
� ��
�
�
2. La regle consiste ensuite a attribuer a chaque cas la valeur de y la plus
frequente dans sa classe.
y = f(x) = arg maxi
pi(x)
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 131
Rappel du principe des arbres d’induction
� �
� ��
� �
� �
�
� �
� �
� �
�
� �
�
Fig. 1 – Arbre induit
Arbres d’induction determinent la partition par eclatements successifs des
sommets. En partant du sommet initial, ils recherchent l’attribut qui permet
le meilleur eclatement selon un critere donne. L’operation est repetee a
chaque nouveau sommet jusqu’a ce qu’un critere d’arret, une taille minimale
du sommet par exemple, soit atteint.
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 132
Question : Peut-on mesurer la qualite de l’ajustement
fourni par un arbre, comme on mesure la qualite
d’ajustement d’une regression lineaire ou d’un modele
log-lineaire par exemple ?
Mesures de type R2 : λY |P , τY |P et uY |P
⇒ gain par rapport au modele naıf
Quid de la qualite de reproduction des donnees (distance predictions -
observations) ?
Peut-on tester la significativite des effets pris en compte par l’arbre ?
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 133
5.2 Ajustement de la table cible
Qualite d’ajustement : capacite du modele a reproduire les donnees.
Deux types d’ajustement
1. ajustement des donnees individuelles yα
2. ajustement de la representation synthetique (table cible T)
En apprentissage supervise, l’objectif est en general la classification
⇒ ajustement des cas individuels (qualite de la regle f(x)).
En sciences sociales, on s’interesse plutot aux mecanismes (influences des
predicteurs sur la variable a predire)
⇒ examiner effets de x sur distribution de Y
⇒ ajustement de la table de contingence (qualite du modele p(x)).
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 134
Table generee par l’arbre induit
Ta table croisant la variable a predire avec la partition generee par l’arbre.
� �
� ��
� �
� �
�
� �
� �
� �
�
� �
�
Tab. 2 – Table de contingence generee par l’arbre Ta
homme femmemarie secteur primaire autre secteur total
non 40 0 10 50oui 25 10 15 50
total 65 10 25 100
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 135
Arbre sature et table cible
Arbre sature : arbre qui genere
exactement la table cible T � �
� � � � � �
� �
� �
� �
�
� �
�
�
� �
�
�
�
�
�
� �
�
Tab. 3 – Table de contingence cible T
homme femmemarie primaire secondaire tertiaire primaire secondaire tertiaire total
non 11 14 15 0 5 5 50oui 8 8 9 10 7 8 50
total 19 22 24 10 12 13 100
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 136
Arbre etendu et table predite
Arbre induit (sommets blancs)
et son extension maximale � �
� � � � ��
� �
� � � �
� � �� � �
� � �� � �
�� �
� �� �
� �� �
�� �
� �� �
� � � �
� � � � �
Tab. 4 – Table de contingence predite T
homme femmemarie primaire secondaire tertiaire primaire secondaire tertiaire total
non 11.7 13.5 14.8 0 4.8 5.2 50oui 7.3 8.5 9.2 10 7.2 7.8 50
total 19 22 24 10 12 13 100
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 137
Dans l’arbre etendu, on applique aux feuilles (grises) de l’extension la
distribution des sommets (blancs) de l’arbre induit dont ils sont issus
p|HP = p|HS = p|HT = pa|H =
40/65
25/65
p|FP = pa
|FP =
0/10
10/10
p|FS = p|FT = pa
|FP =
10/25
15/25
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 138
5.3 Mesure et test de la qualite d’ajustement
Qualite d’ajustement : distance entre T et T
Mesures de divergence du khi-2 : X2 de Pearson et G2 du rapport de
vraisemblance (deviance)
X2 =∑i=1
c∑j=1
(nij − nij)2
nij(1)
G2 = 2∑i=1
c∑j=1
nij ln(
nij
nij
)(2)
Lorsque le modele est correct, et sous reserve des conditions de regularite, X2
et G2 sont distribuees selon loi du χ2.
Quels sont les degres de liberte ?
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 139
Deviance
� �
� � � � � �
� �
� �
� �
�
� �
�
�
� �
�
�
�
�
�
� �
�
� �
� ��
� �
� �
�
� �
� �
� �
�
� �
�
� �
� � � � � �
� �
� �
� �
�
� �
�
�
� �
�
�
�
�
�
� �
�
50
50↔
40 0 10
25 10 15↔
11 14 15 0 5 5
8 8 9 10 7 8
independance
nœud inital
tableau cible
arbre maximal
modele ajuste
graphe induit
D(m0|m) D(m)
D(m0)
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 140
Calcul de la deviance
Difficulte : construction des tableaux T et T car c peut etre tres grand
Deviance partielle D(m|mT∗)
T ∗ tableau `× c∗ cible
defini avec les c∗ profils differents en termes de predicteurs et
groupements de valeurs retenus par l’arbre induit
Perte d’interet de l’interpretation de la deviance en tant que distance par
rapport a la cible.
Differences de deviance entre arbres emboıtes restent les memes, par
exemple :
D(m0|m) = D(m0)−D(m) = D(m0|mT∗) − D(m|mT∗)
mesure gain par rapport au nœud initial.
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 141
Deviance et rapport de vraisemblance
D(m0|m) = statistique du khi-2 du rapport de vraisemblance
pour test independance sur tableau associe a l’arbre induit.
D(m0) = statistique du khi-2 du rapport de vraisemblance
pour test independance sur tableau cible.
Ces deux valeurs s’obtiennent avec les logiciels statistiques (SPSS, SAS, ...)
On obtient la deviance de l’arbre m par difference
D(m) = D(m0) − D(m0|m)
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 142
Modele de reconstruction et degres de liberte
L’arbre induit donne lieu au modele de reconstruction suivant ou l’on note Tj
la j-eme colonne de T :
Tj = n ajp|j , j = 1, . . . , c (3)
s.c. p|j = pa|k pour tout xj ∈ Xk k = 1, . . . , q (4)
ou Xk est la classe de profils x defini par la keme feuille finale de l’arbre.
Les parametres sont
– n le nombre total de cas,
– aj les proportions de cas par colonne j = 1, . . . , c, et
– p|j, les c vecteurs p(Y |j) de ` probabilites definissant la distribution de Y
dans chaque colonne j de la table.
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 143
parametres nombre dont independants
pi|j, i = 1, . . . , `, j = 1, . . . , c c` q(`− 1)
aj, j = 1, . . . , c c c− 1
n 1 1
Total c` + ` + c + 1 q`− q + c
Degres de liberte = c` cellules – (q(`− 1) + c) parametres independants, soit
dM = (c− q)(`− 1)
Ce nombre correspond au nombre de contraintes (4).
Pour modele d’independance : q = 1 et donc dI = (c− 1)(`− 1).Pour l’arbre sature : q = c et donc dS = 0.
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 144
Comparaison de modeles
La statistique du G2 permet de tester la difference de modeles imbriques.
Si modele restreint M2 correct lorsque M1 l’est,
G2(M2|M1) = G2(M2)−G2(M1) ∼ χ2dM2−dM1
(5)
Permet de tester la significativite d’une expansion (branche).
Exemple : M1 notre arbre induit et M2 arbre avant eclatement de � femme�
G2(M1) = 0.18 avec dM1 = 3 et G2(M2) = 8.41 avec dM2 = 4,
G2(M2|M1) = 8.41− 0.18 = 8.23 avec d2 − d1 = 4− 3 = 1
Degre de signification : p(χ21 > 8.23) = .004 ⇒ effet significatif
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 145
5.4 Indicateurs derives de la deviance
Indicateurs derives de la deviance :
– BIC = deviance penalisee pour la complexite (nbre de parametres)
defini a une constante additive pres ⇒ seules variations sont pertinentes
– pseudo R2 = 1−D(m)/D(m0),
pas pertinent avec deviance partielle
– u Theil, taux de reduction de l’entropie de Shannon
u =D(m0|m)
−2∑
i ni. ln(ni./n)
evolution quadratique ⇒√
u plus pertinent
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 146
Pseudo R2
R2 = 1− G2(M)G2(I)
ou sa version corrigee des degres de liberte
R2ajust = 1− G2(M)/dM
G2(I)/dI
Pour notre exemple, on a G2(I) = 18.55, dI = 5, G2(M) = .18 et dM = 3, d’ou
R2 = .99 et R2ajust = .984.
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 147
Criteres d’information
Compromis entre qualite d’ajustement (G2) et complexite (nbre parametres
independants)
AIC(M) = G2(M) + 2(q`− q + c)
BIC(M) = G2(M) + (q`− q + c) log(n)
Permet de comparer des modeles non imbriques.
⇒ meilleur modele : celui qui a le plus petit AIC ou BIC.
Akaike (1973), Schwarz (1978), Raftery (1995), Kass and Raftery (1995)
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 148
Calcul de l’association entre feuilles et reponse
Dans Answer Tree :
1. Selectionner toutes les feuilles (menu : Edit/Select Terminal Nodes/All)
2. Selectionner l’onglet ”Rules”
3. Ouvrir le dialogue ”Classification Rules” (menu : Format/Rules)
4. Dans ce dialogue, selectionner Type ”SPSS” et Generate Syntax For
”Assigning Values”
5. Copier coller tout le contenu de l’onglet ”Rules” dans un fichier syntaxe
SPSS.
6. Ouvrir le fichier SPSS et executer la syntaxe copiee precedemment.
7. Caluler les associations avec la commande CROSSTAB. Exemple :
CROSSTABS
/TABLES=priv_car BY nod_001
/FORMAT=NOTABLES
/STATISTIC=CHISQ PHI LAMBDA UC.
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 149
Directional Measures
Value Asymp. Std. Error(a) Approx. T(b) Approx. Sig.
Lambda
Symmetric .034 .007 4.988 .000
Voiture a usage prive .018 .027 .655 .513nod 001 .037 .006 6.132 .000
Goodman and Kruskal tau
Voiture a usage prive .114 .014 .000(c)nod 001 .013 .002 .000(c)
Uncertainty Coefficient
Symmetric .042 .005 8.072 .000(d)
Voiture a usage prive .127 .015 8.072 .000(d)nod 001 .025 .003 8.072 .000(d)
a Not assuming the null hypothesis.
b Using the asymptotic standard error assuming the null hypothesis.
c Based on chi-square approximation
d Likelihood ratio chi-square probability.
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 150
5.5 Illustration : le TitanicLIVING
SEXAdj. P-value=0.0000, Chi-square=456.8742, df=1
female
CLASSAdj. P-value=0.0000, Chi-square=130.6862, df=2
c3c2;crewc1
Male
AGEAdj. P-value=0.0000, Chi-square=23.1250, df=1
child
CLASSAdj. P-value=0.0000, Chi-square=25.7471, df=1
c3c1;c2
adult
CLASSAdj. P-value=0.0000, Chi-square=37.9879, df=3
crewc3c2c1
Page 1, 1
Tree 03 - LIVING X2
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 151
Tab. 5 – Titanic : effectifs observes et deduits de l’arbre CHAID
observe selon arbrefeuille living
j k sex age class yes no yes no Total
1 1 male adult c1 57 118 57 118 175
2 2 c2 14 154 14 154 168
3 3 c3 75 387 75 387 462
4 4 crew 192 670 192 670 862
5 5 child c1 5 0 5 0 5
6 5 c2 11 0 11 0 11
7 6 c3 13 35 13 35 48
8 7 female adult c1 140 4 140.03 3.97 144
9 8 c2 80 13 81.47 11.53 93
10 9 c3 76 89 75.77 89.23 165
11 8 crew 20 3 20.15 2.85 23
12 7 child c1 1 0 0.97 0.03 1
13 8 c2 13 0 11.39 1.61 13
14 9 c3 14 17 14.23 16.77 31
Total 711 1490 711 1490 2201
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 152
Tab. 6 – Titanic : qualites d’ajustement d’un choix de modeles
pseudo
Modele d G2 sig(G2) X2 sig(X2) R2ajust AIC BIC
CHAID 5 3.72 0.590 2.10 0.835 .986 49.7 180.7
Independance 13 671.96 0.000 650.09 0.000 0 702.0 787.4
Sature 0 0 1 0 1 1 56 215.5
CHAID2 6 35.81 0.000 27.85 0.000 .885 79.8 205.1
CHAID3 6 10.68 0.098 8.44 0.208 .966 54.7 180.0
CART 4 0.08 0.999 0.05 0.999 .999 48.1 184.8
C4.5 6 43.32 0.000 40.10 0.000 .860 87.3 212.6
Sipina 7 5.15 0.642 3.16 0.870 .986 47.2 166.8
Meilleur BIC 8 9.08 0.335 7.82 0.452 .978 49.1 163.0
CHAID2 : regroupe tous les enfants males en un seul groupe (k = 5, 6).
CHAID3 : regroupe les hommes adultes de 2eme et 3eme classe (k = 2, 3).
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 153
Illustration : Etude reussite etudiants SES 98
Variable reponse :
– bilan octobre 1999 (elimine, redouble, reussi)
predicteurs :
– age
– date immatriculation
– tronc commun choisi
– type diplome secondaire
– lieu obtention diplome secondaire
– age obtention diplome secondaire
– nationalite
– domicile de la mere
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 154
bilan oct.99
dipl. second.regroup.Adj. P-value=0.0000, Chi-square=50.7197, df=2
économique;moderne,<missing>
AGEDIPAdj. P-value=0.0090, Chi-square=11.0157, df=1
>20,<missing><=20
classic .latine;scientifique
AGEDIPAdj. P-value=0.0067, Chi-square=14.6248, df=2
>19(18,19]<=18
étranger,autre;dipl. ing.
nationalité regoup.Adj. P-value=0.0011, Chi-square=16.2820, df=1
Genève;hors Europe
tronc communAdj. P-value=0.0188, Chi-square=5.5181, df=1
sc.socialessc.écon. + HEC
ch-al.+Tessin;Europe;Suisse Romande
date d'immatriculationAdj. P-value=0.0072, Chi-square=9.2069, df=1
>97<=97
Page 1, 1
Tree 01 - BIL_99
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 155
Category % nechec 27.43 209redouble 17.06 130réussi 55.51 423Total (100.00) 762
Node 0
Category %echec 22redouble 19réussi 57Total (32
Node 9
Category % nechec 16.60 41redouble 11.74 29réussi 71.66 177Total (32.41) 247
Node 2
Category % nechec 23.91 22redouble 16.30 15réussi 59.78 55Total (12.07) 92
Node 8Category % nechec 14.53 17redouble 11.11 13réussi 74.36 87Total (15.35) 117
Node 7Category % nechec 5.26 2redouble 2.63 1réussi 92.11 35Total (4.99) 38
Node 6
Category % nechec 40.70 81redouble 21.61 43réussi 37.69 75Total (26.12) 199
Node 1
Category % nechec 54.88 45redouble 23.17 19réussi 21.95 18Total (10.76) 82
Node 5
Category % nechec 71.05 27redouble 13.16 5réussi 15.79 6Total (4.99) 38
Node 14Category % nechec 40.91 18redouble 31.82 14réussi 27.27 12Total (5.77) 44
Node 13
Category % nechec 30.77 36redouble 20.51 24réussi 48.72 57Total (15.35) 117
Node 4
Category % nechec 23.81 20redouble 19.05 16réussi 57.14 48Total (11.02) 84
Node 12Category % nechec 48.48 16redouble 24.24 8réussi 27.27 9Total (4.33) 33
Node 11
bilan oct.99
dipl. second.regroup.Adj. P-value=0.0000, Chi-square=50.7197, df=2
éc
Adj. P-val
<=20
classic .latine;scientifique
AGEDIPAdj. P-value=0.0067, Chi-square=14.6248, df=2
>19(18,19]<=18
étranger,autre;dipl. ing.
nationalité regoup.Adj. P-value=0.0011, Chi-square=16.2820, df=1
Genève;hors Europe
tronc communAdj. P-value=0.0188, Chi-square=5.5181, df=1
sc.socialessc.écon. + HEC
ch-al.+Tessin;Europe;Suisse Romande
date d'immatriculationAdj. P-value=0.0072, Chi-square=9.2069, df=1
>97<=97
Page 1, 1
Tree 01 - BIL_99
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 156
Exemple etudiants SES 98
Regroupements utilises par l’arbre ⇒ tableau cible avec 88 colonnes
Tab. 7 – SES 98 : qualites d’ajustement d’un choix de modeles
pseudo
Modele q d G2 sig(G2) R2ajust AIC BIC
Sature 88 0 0 1 1 528 1751.9
Meilleur AIC 14 148 17.4 1 .941 249.4 787.2
CHAID 9 158 177.9 0.133 .336 390.0 881.3
CHAID2 8 160 187.4 0.068 .309 395.4 877.5
CHAID3 7 162 195.2 0.038 .289 399.2 872.1
Meilleur BIC 6 164 75.2 1 .745 275.2 738.8
Independance 1 174 295.1 0.000 0 475.8 892.3
CHAID2 : CHAID sans eclatement datimma du sommet 4 (nationa 6= GE, hors Europe)
CHAID3 : CHAID2 sans eclatement troncom du sommet 5 (nationa= GE, hors Europe)
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 157
References
Agresti, A. (1990). Categorical Data Analysis. New York: Wiley.
Akaike, H. (1973). Information theory and an extension of the maximum likelihood principle.
In B. N. Petrox and F. Caski (Eds.), Second International Symposium on Information
Theory, pp. 267. Budapest: Akademiai Kiado.
Arbuckle, J. L. and W. Wothke (1999). Amos 4.0 Users’ Guide. Chicago: SmallWaters.
Biggs, D., B. de Ville, and E. Suen (1991). A method of choosing multiway partitions for
classification and decision trees. Journal of Applied Statistics 18, 49–62.
Bollen, K. A. (1989). Structural Equations with Latent Variables. New York: Wiley.
Breiman, L., J. H. Friedman, R. A. Olshen, and C. J. Stone (1984). Classification And
Regression Trees. New York: Chapman and Hall.
Han, J. and M. Kamber (2001). Data Mining: Concept and Techniques. San Francisco:
Morgan Kaufmann.
Hand, D. J., H. Mannila, and P. Smyth (2001). Principles of Data Mining (Adaptive
Computation and Machine Learning). Cambridge MA: MIT Press.
Hastie, T., R. Tibshirani, and J. Friedman (2001). The Elements of Statistical Learning.
New York: Springer.
Heckerman, D. (1996). Bayesian networks for knowledge discovery. In U. M. Fayyad,
G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy (Eds.), Advances in Knowledge
Discovery and Data Mining, pp. 273–305. Cambridge, MA: MIT Press.
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 158
Hosmer, D. W. and S. Lemeshow (2000). Applied Logistic Regression (Second ed.). New
York: Wiley.
Jobson, J. D. (1992). Applied Multivariate Data Analysis, Volume II: Categorical and
Multivariate Methods. New York: Springer-Verlag.
Joreskog, K. and D. Sorbom (1989). LISREL 7 User’s Reference Guide. Mooresville, IN:
Scientific Software.
Kass, G. V. (1980). An exploratory technique for investigating large quantities of categorical
data. Applied Statistics 29(2), 119–127.
Kass, R. E. and A. E. Raftery (1995). Bayes factors. Journal of the American Statistical
Association 90(430), 773–795.
Lebart, L., A. Morineau, and M. Piron (2000). Statistique exploratoire multivariee (Troisieme
ed.). Paris: Dunod.
Loh, W. Y. and Y. S. Shih (1997). Split selection methods for classification trees. Statistica
Sinica 7, 815–840.
McCullagh, P. and J. A. Nelder (1989). Generalized Linear Models. London: Chapman and
Hall.
Munteanu, P. and D. Cau (2000). Efficient score-based learning of equivalence classes of
bayesian network. In D. A. Zighed, J. Komorowski, and J. Zytkow (Eds.), Principles of
Data Mining and Knowledge Discovery, pp. 318–362. Berlin: Springer.
Powers, D. A. and Y. Xie (2000). Statistical Methods for Categorical Data Analysis. San
Diego, CA: Academic Press.
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 159
Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. San Mateo: Morgan
Kaufmann.
Raftery, A. E. (1995). Bayesian model selection in social research. In P. Marsden (Ed.),
Sociological Methodology, pp. 111–163. Washington, DC: The American Sociological
Association.
Ritschard, G. (2003a). Partition BIC optimale de l’espace des predicteurs. Revue des
nouvelles technologies de l’information 1, 99–110.
Ritschard, G. (2003b). Testing hypotheses with induction trees. In Bulletin of the
International Statistical Institute 54th Session, F Proceedings, Berlin.
Ritschard, G. and G. Ryczkowska (2004, March). Endogamy - community. inter-generational
mobility in 19th century Geneva. In Fifth European Social Science History Conference,
Berlin.
Ritschard, G. and D. A. Zighed (2003). Modelisation de tables de contingence par arbres
d’induction. Revue des sciences et technologies de l’information – ECA 17(1-3), 381–392.
Ritschard, G. and D. A. Zighed (2004). Qualite d’ajustement d’arbres d’induction. Revue des
nouvelles technologies de l’information E-1, 45–67.
Rumelhart, D. E., G. E. Hinton, and R. J. Williams (1986). Learning internal representations
by error propagation. In D. Rumelhart and J. McClelland (Eds.), Parallel Distributed
Processing: Explorations in the Microstructure of Cognition, Volume 1, pp. 318–362.
Cambridge, MA: MIT Press.
Schwarz, G. (1978). Estimating the dimension of a model. The Annals of Statistics 6,
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 160
461–464.
SPSS (Ed.) (2001). Answer Tree 3.0 User’s Guide. Chicago: SPSS Inc.
Thiria, S., Y. Lechevallier, O. Gascuel, and S. Canu (Eds.) (1997). Statistique et methodes
neuronales. Paris: Dunod.
Zighed, D. A. and R. Rakotomalala (2000). Graphes d’induction: apprentissage et data
mining. Paris: Hermes Science Publications.
Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 161
Recommended