Mod´elisation et apprentissage...

Modelisation et apprentissage statistique

Gilbert Ritschard

Departement d’econometrie, Universite de Geneve

http://mephisto.unige.ch

mars 2005

Intro plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 1

Modelisation et apprentissage statistiques

1 Introduction

2 Cadre formel et notations

3 Modelisation statistique

4 Apprentissage supervise

5 Points communs et differences entre modelisation et apprentissage

1 Introduction

Objectif : passer en revue les criteres d’evaluation utilises

– en modelisation statistique

– en apprentissage supervise

Quels sont les points communs et les differences entre modelisation

statistique et apprentissage supervise ?

Modelisation statistique

Formuler et quantifier un modele (schema) explicatif d’un phenomene. Par

exemple :

recherche, parmi des facteurs potentiels, des determinants d’une variable

reponse (reussite des etudiants, divorce, succes commercial, ...) et

quantification des liens.

– Comprehension du phenomene

– Parfois prevision

Apprentissage supervise

Apprendre a predire l’etat d’une variable reponse a partir du profil en terme

de predicteurs. Par exemple :

– prevoir le volume des ventes, le nombre de chomeur, ...

– classer des malades selon le type d’affection en ne connaissant que certains

symptomes, predire la solvabilite de demandeurs de credits, ...

– Construire des regles predictives (prevision ou classification) performantes

en generalisation, c’est-a-dire en dehors de l’echantillon d’apprentissage.

Certains modeles statistiques (regression, regression logistique, ...) sont

utilises dans un contexte d’apprentissage.

� � � � � � � � � � ��

� � � � � � � � � ��

2 Cadre formel et notations

Echantillon d’apprentissage :

n nombre de cas (instance, exemple, ...)

p nombre d’attributs predictifs

xj j-eme attribut predictif (facteur explicatif), j = 1, . . . , pxαj valeur du i-eme attribut pour le cas α = 1, . . . , nY variable reponse (a predire, dependante) : variable aleatoire

yα realisation de Y pour le cas α

On utilise le gras pour les vecteurs et les matrices :

x′ =[x1 · · · xp

x11 · · · x1p

.... . .

xn1 · · · xnp

Notations plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 7

Qu’il s’agisse d’expliquer un phenomene ou de formuler des regles de

prediction,

0n cherche a exprimer y en fonction des predicteurs par une fonction

y = f(x)

ou y represente la prediction donnee par le modele f(x).

Exemples d’interpretation de f(x)

Y numerique (regression) ⇒ f(x) = E(Y |x)

Y categoriel (classification) ⇒ f(x) = arg maxi{p(Yi|x)}

En regression lineaire ou Y est numerique, on postule, f(x) =∑

j βjxj.

En classification, f(x) est le classifieur.

Notations plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 8

3 Modelisation statistique

3.1 Typologie de modeles statistiques

3.1.1 Regression lineaire

3.1.2 Regression logistique

3.1.3 Modeles log-lineaires

3.1.4 Modeles d’equations structurelles

3.2 Estimation des parametres (ajustement du modele)

3.2.1 Moindres carres

3.2.2 Maximum de vraisemblance

3.3 Evaluation d’un modele

3.3.1 Qualite globale d’ajustement

3.3.2 Test de difference entre deux modeles

3.3.3 Analyse des residus

Modeles statistiques plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 9

3.1 Typologie de modeles statistiques

Modele statistique parametrique : caracteriser la distribution d’une variable

(hypothese sur la forme et estimation des parametres).

Ici, on s’interesse aux modeles ou un ou plusieurs parametres de la

distribution sont exprimes en fonction des predicteurs.

(par exemple en regression, on postule la normalite de Y , et l’on exprime E(Y )en fonction des predicteurs.)

Typologie selon ce que l’on cherche a ajuster (reproduire)

– les valeurs particulieres de yα (Regression lineaire)

– soit une representation synthetique des donnees

– distribution de Y conditionnellement au profil x (Regression logistique)

– la distribution conjointes de toutes les variables (Modeles log-lineaires)

– correlations entre (plusieurs) y et les differents predicteurs (Modeles

d’equations structurelles)

Typologie selon la nature de la variable reponse

variable Y une seule plusieurs

categorielle Regression logistique Modeles log-lineaires

Analyse discriminante

quantitative Regression lineaire Modeles d’equations structurelles

simple et multipleRegression multivariee

ANOVA MANOVA

Modele lineaire generalise

Les trois premiers types de modele (regression lineaire, regression logistique,

modeles log-lineaires) font partie de la classe des modeles lineaires generalises

(McCullagh and Nelder (1989)).

Caracteristiques

Distribution de la variable reponse Y : quelconque parmi famille

exponentielle qui comprend en particulier les lois

de Gauss, de Bernoulli, binomiale, de Poisson et gamma (donc khi-2)

Fonction lien qui decrit comment l’esperance µ de Y depend des predicteurs

lineaires

g(µ) = x′β

Fonction variance V (µ) qui precise le lien entre variance et esperance

Var(Y ) = φV (µ)

3.1.1 Regression lineaire

Modele de regression multiple :

yα = β0 + β1xα1 + β2xα2 + . . . + βkxαk + uα

pour α = 1, 2, . . . , ny1

1 x11 · · · x1k

1 x21 · · · x2k

......

1 xn1 · · · xnk

y = Xβ + u

pour n observations et k = p− 1 facteurs predictifs.

Sans perte de generalite, on admet que le vecteur u est nul en esperance

mathematique : E(u) = 0.

On cherche la droite (hyperplan) qui ajuste le mieux les donnees individuelles

Exemple de regression

avec SPSS

Donnees : Bank

variable reponse :

salnow

Model Summary

.898a .806 .804 3023.02Model1

R R SquareAdjusted R

SquareStd. Error ofthe Estimate

Predictors: (Constant), AGEBEG, SALBEG, SEX, EDLEVEL, WORKa.

ANOVAb

1.78E+10 5 3557952240.0 389.331 .000a

4.28E+09 468 9138628.3542.21E+10 473

RegressionResidualTotal

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), AGEBEG, SALBEG, SEX, EDLEVEL, WORKa.

Dependent Variable: SALNOWb.

Coefficientsa

464.041 982.673 .472 .6371.708 .062 .787 27.613 .000

-858.435 339.121 -.063 -2.531 .012252.457 67.973 .107 3.714 .000-60.996 29.325 -.078 -2.080 .038-27.799 21.164 -.048 -1.314 .190

(Constant)SALBEGSEXEDLEVELWORKAGEBEG

Model1

B Std. Error

UnstandardizedCoefficients

Standardized

Coefficients

t Sig.

Dependent Variable: SALNOWa.

3.1.2 Regression logistique

- 1 variable dependante y dichotomique (y ∈ {0, 1}), E(Y ) = p = p(Y = 1)

- variables explicatives x1, . . . , xp quantitatives et/ou qualitatives

En regressant y sur les xi (y = β0 + β1x1 + · · · ) :

– predictions y peuvent etre > 1 ou < 0.– hypothese de normalite des residus pas tenable.

– variance de Y non independante de son esperance (σ2Y = p(1− p))

⇒ regresser π = logit(p) = log(

p1−p

)sur les facteurs explicatifs.

π(x) = log( p(x)

1− p(x)

)⇔ p(x) =

exp(π(x)

)1 + exp

(π(x)

)π(x) = x′β ⇔ p(x) =

exp(x′β)1 + exp(x′β)

Fonction logit

logit : [0, 1] → Rp 7→ π

Transformation logit et probit

0 0.5 1

logitprobit

Exemple : poids a la naissance

Fichier : lg birth.sav, source : Hosmer and Lemeshow (2000).

LOW : Low birth weight (0 = weight ≥ 2’500g, 1 = weight < 2’500g)

RACE : race (1 = white, 2 = black, 3 = other)

SMOKE : Smoking during pregnancy (1 = yes, 0 = no)

HT : Hypertension (1 =yes, 0 = no)

UI : Uterine irritability (1 =yes, 0 = no)

AGE : Age of mother in years

LWT : Weight in pounds at last menstrual period

FTV : Number of physician visits during first trimester

PTL : Premature Labor (0, 1 , 2, ...)

Bwt : Birth weight in grams

Modele pour LOW : ajustement global

Omnibus Tests of Model Coefficients

33.387 9 .00033.387 9 .00033.387 9 .000

StepBlockModel

Step 1Chi-square df Sig.

Model Summary

201.285 .162 .228Step1

-2 Loglikelihood

Cox & SnellR Square

Nagelkerke RSquare

Hosmer and Lemeshow Test

5.660 8 .685Step1

Chi-square df Sig.

Variables in the Equation

-.030 .037 .637 1 .425 .971-.015 .007 4.969 1 .026 .985

7.116 2 .028-.880 .441 3.990 1 .046 .415.392 .538 .531 1 .466 1.480

-.939 .402 5.450 1 .020 .391.543 .345 2.474 1 .116 1.722

-1.863 .698 7.136 1 .008 .155-.768 .459 2.793 1 .095 .464.065 .172 .143 1 .705 1.067

4.931 1.493 10.908 1 .001 138.505

AGELWTRACERACE(1)RACE(2)SMOKE(1)PTLHT(1)UI(1)FTVConstant

aB S.E. Wald df Sig. Exp(B)

Variable(s) entered on step 1: AGE, LWT, RACE, SMOKE, PTL, HT, UI, FTV.a.

Modele pour LOW : estimation et significativite des coefficients

Omnibus Tests of Model Coefficients

33.387 9 .00033.387 9 .00033.387 9 .000

StepBlockModel

Step 1Chi-square df Sig.

Model Summary

201.285 .162 .228Step1

-2 Loglikelihood

Cox & SnellR Square

Nagelkerke RSquare

Hosmer and Lemeshow Test

5.660 8 .685Step1

Chi-square df Sig.

Variables in the Equation

-.030 .037 .637 1 .425 .971-.015 .007 4.969 1 .026 .985

7.116 2 .028-.880 .441 3.990 1 .046 .415.392 .538 .531 1 .466 1.480

-.939 .402 5.450 1 .020 .391.543 .345 2.474 1 .116 1.722

-1.863 .698 7.136 1 .008 .155-.768 .459 2.793 1 .095 .464.065 .172 .143 1 .705 1.067

4.931 1.493 10.908 1 .001 138.505

AGELWTRACERACE(1)RACE(2)SMOKE(1)PTLHT(1)UI(1)FTVConstant

aB S.E. Wald df Sig. Exp(B)

Variable(s) entered on step 1: AGE, LWT, RACE, SMOKE, PTL, HT, UI, FTV.a.

3.1.3 Modeles log-lineaires

Objectif : mise en evidence de structures d’association

par la modelisation du nombre d’individus niaibic··· de chaque cellule

(ia, ib, ic, . . .) d’un tableau multidimensionnel.

miaibic··· effectif predit par A,B,C, . . . variables categorielles

variable nbre de categories categories

A a ia = 1, 2, . . . , a

B b ib = 1, 2, . . . , b

C c ic = 1, 2, . . . , c

......

modele graphe marges ajustees

independance complete

(A,B, C)

df = abc− a− b− c + 2A B

un facteur independant

(3 modeles similaires)

(AC,B)

df = (ac− 1)(b− 1)A B

independance conditionnelle

(3 modeles similaires)

(AB,AC)

df = a(b− 1)(c− 1)A B

Associations homogenes

d’ordre 2

(AB,AC,BC)

df = (a− 1)(b− 1)(c− 1)A B

association d’ordre 3

df = 0A B

Statistiques suffisantes : marges fixees

Les effectifs predits se deduisent de ces statistiques suffisantes

⇒ notations : on n’indique que les statistiques suffisantes.

Exemple :

(AB,AC) pour le modele d’independance conditionnelle entre B et C

(ABC) pour le modele sature.

Forme generale du modele

Modele sature (ABC) (d’ordre 3)

log(miaibic) = λ︸︷︷︸

effet moyen

+ λAia

+ λBib

+ λCic︸︷︷︸

effets propres (ordre 1)

+ λABiaib

+ λACiaic

+ λBCibic︸︷︷︸

interactions d’ordre 2

+ λABCiaibic︸︷︷︸

interaction d’ordre 3

Modele non sature (AB,AC) (independance conditionnelle) :

log(miaibic) = λ + λAia

+ λBib

+ λCic

+ λABiaib

+ λACiaic

Modele loglineaire hierarchique

Modele ou la presence d’une interaction d’ordre k implique la presence de

toutes les interactions d’ordre q < k entre les variables concernees.

Exemple : Modele hierarchique avec 4 variables A,B,C, D

Pour inclure

- les effets propres de A, B et D,

- les interactions d’ordre 2 AB, AD, BD et

- celle d’ordre 3 ABD,

il suffit de specifier l’interaction du plus grand ordre : ABD.

Le modele (C,ABD) comprend ainsi tous les effets ci-dessus

+ l’effet propre de C.

Exemple EGMP

E : Extramarital sex EMS (yes, no)

G : Gender (Women, Men)

M : Marital Status (Divorced, Still Married)

P : Premarital sex PMS (yes, no)

PMS Yes NoMarital Status EMS Yes No Yes No

Divorced 17 54 36 214

Still Married 4 25 4 322

PMS Yes NoMarital Status EMS Yes No Yes No

Divorced 28 60 17 68

Still Married 11 42 4 130

Modele satureDATA Information

16 unweighted cases accepted.0 cases rejected because of out-of-range factor values.0 cases rejected because of missing data.

1036 weighted cases will be used in the analysis.

FACTOR Information

Factor Level LabelGENDER 2 GenderPMS 2 Premarital SexEMS 2 Extramarital SexMARITALS 2 Marital Status

Tests that K-way and higher order effects are zero.

K DF L.R. Chisq Prob Pearson Chisq Prob Iteration

4 1 .146 .7020 .147 .7009 43 5 13.630 .0181 14.170 .0146 52 11 232.140 .0000 270.135 .0000 21 15 1333.855 .0000 1786.178 .0000 0

Step 5

The best model has generating class

PMS*EMS*MARITALS GENDER*PMS GENDER*MARITALS

Likelihood ratio chi square = 5.21194 DF = 5 P = .391

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

If Deleted Simple Effect is DF L.R. Chisq Change Prob Iter

PMS*EMS*MARITALS 1 12.914 .0003 4 GENDER*PMS 1 78.170 .0000 2 GENDER*MARITALS 1 2.942 .0863 2

Step 6

The best model has generating class

PMS*EMS*MARITALS GENDER*PMS

Likelihood ratio chi square = 8.15352 DF = 6 P = .227

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

If Deleted Simple Effect is DF L.R. Chisq Change Prob Iter

PMS*EMS*MARITALS 1 12.914 .0003 4 GENDER*PMS 1 75.259 .0000 2

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Structure d’association mise en evidence

Le modele final

(pms*ems*maritals,pms*gender)

correspond a la structure d’association

� � �

� � � � � � � � � � � � � �

Independance conditionnelle entre le genre (gender) et le statut marital

(maritals) et aussi entre le genre et le fait d’avoir ou non des relations

extra-maritales (ems).

3.1.4 Modeles d’equations structurelles

EQS : equations structurelles

SEM : Structural equation model

LISREL : Linear structural relations

AMOS : Analysis of moment structure

Arbuckle and Wothke (1999) Bollen (1989) Joreskog and Sorbom (1989)

Objectif : Modeliser les interrelations entre plusieurs variables endogenes ainsi

que leurs liens de dependance par rapport aux facteurs exogenes.

⇒ modele d’equations simultanees (et avec variables latentes)

y′ = y′B + x′Γ + ζ ′

Le modele doit permettre de generer les variances et covariances

(correlations) entre variables endogenes (y) et exogenes (x).

Σ(θ) ⇒ Σ = Σ(θ)

θ vecteur des parametres,

Σ matrice des moments theoriques de y et xS matrice des moments observes.

Ajuster aux donnees ⇒ ajuster Σ a S

On cherche a reproduire la matrice des moments (variances-covariances).

Exemple de modele simultane Donnees : Bank

EDLEVELWORK

SALBEG SALNOW

AGEBEG

usn1usa

Representation equivalente sous forme de 4 equations (variables centrees) :

edlevel = γ11agebeg + γ12sex + ue

work = γ21agebeg + γ22sex + β21edlevel + uw

salbeg = γ32sex + β31edlevel + β32work + usa

salnow = γ42sex + β41edlevel + β42work + β43salbeg + usn

γ11 γ12

γ21 γ22

0 γ32

0 0 0 0

β21 0 0 0

β31 β32 0 0

β41 β42 β43 0

Extrait d’output d’Amos Modele Bank

bk_demo: Thursday, January 30, 2003 04:50 PMbk_demo: 30-Jan-03 16:50:26

Fit Measures 1 1/1

Fit Measures

Fit Measure Default model Saturated Independence MacroDiscrepancy 7.367 0.000 1775.690 CMINDegrees of freedom 2 0 15 DFP 0.025 0.000 PNumber of parameters 19 21 6 NPARDiscrepancy / df 3.684 118.379 CMINDF

RMR 490.566 0.000 4121179.141 RMRGFI 0.995 1.000 0.499 GFIAdjusted GFI 0.946 0.299 AGFIParsimony-adjusted GFI 0.095 0.357 PGFI

Normed fit index 0.996 1.000 0.000 NFIRelative fit index 0.969 0.000 RFIIncremental fit index 0.997 1.000 0.000 IFITucker-Lewis index 0.977 0.000 TLIComparative fit index 0.997 1.000 0.000 CFI

Parsimony ratio 0.133 0.000 1.000 PRATIOParsimony-adjusted NFI 0.133 0.000 0.000 PNFIParsimony-adjusted CFI 0.133 0.000 0.000 PCFI

Noncentrality parameter estimate 5.367 0.000 1760.690 NCP NCP lower bound 0.489 0.000 1625.992 NCPLO NCP upper bound 17.725 0.000 1902.745 NCPHIFMIN 0.016 0.000 3.754 FMINF0 0.011 0.000 3.722 F0 F0 lower bound 0.001 0.000 3.438 F0LO F0 upper bound 0.037 0.000 4.023 F0HIRMSEA 0.075 0.498 RMSEA RMSEA lower bound 0.023 0.479 RMSEALO RMSEA upper bound 0.137 0.518 RMSEAHIP for test of close fit 0.178 0.000 PCLOSE

Akaike information criterion (AIC) 45.367 42.000 1787.690 AICBrowne-Cudeck criterion 45.938 42.631 1787.871 BCCBayes information criterion 158.474 167.012 1823.408 BICConsistent AIC 143.430 150.385 1818.658 CAICExpected cross validation index 0.096 0.089 3.779 ECVI ECVI lower bound 0.086 0.089 3.495 ECVILO ECVI upper bound 0.122 0.089 4.080 ECVIHIMECVI 0.097 0.090 3.780 MECVI

Hoelter .05 index 385 7 HFIVEHoelter .01 index 592 9 HONE

Extrait d’output d’Amos Modele Bank (suite)

bk_demo: Thursday, January 30, 2003 04:50 PMbk_demo: 30-Jan-03 16:50:26

Fit Measures 1 1/1

Fit Measures

Fit Measure Default model Saturated Independence MacroDiscrepancy 7.367 0.000 1775.690 CMINDegrees of freedom 2 0 15 DFP 0.025 0.000 PNumber of parameters 19 21 6 NPARDiscrepancy / df 3.684 118.379 CMINDF

RMR 490.566 0.000 4121179.141 RMRGFI 0.995 1.000 0.499 GFIAdjusted GFI 0.946 0.299 AGFIParsimony-adjusted GFI 0.095 0.357 PGFI

Normed fit index 0.996 1.000 0.000 NFIRelative fit index 0.969 0.000 RFIIncremental fit index 0.997 1.000 0.000 IFITucker-Lewis index 0.977 0.000 TLIComparative fit index 0.997 1.000 0.000 CFI

Parsimony ratio 0.133 0.000 1.000 PRATIOParsimony-adjusted NFI 0.133 0.000 0.000 PNFIParsimony-adjusted CFI 0.133 0.000 0.000 PCFI

Noncentrality parameter estimate 5.367 0.000 1760.690 NCP NCP lower bound 0.489 0.000 1625.992 NCPLO NCP upper bound 17.725 0.000 1902.745 NCPHIFMIN 0.016 0.000 3.754 FMINF0 0.011 0.000 3.722 F0 F0 lower bound 0.001 0.000 3.438 F0LO F0 upper bound 0.037 0.000 4.023 F0HIRMSEA 0.075 0.498 RMSEA RMSEA lower bound 0.023 0.479 RMSEALO RMSEA upper bound 0.137 0.518 RMSEAHIP for test of close fit 0.178 0.000 PCLOSE

Akaike information criterion (AIC) 45.367 42.000 1787.690 AICBrowne-Cudeck criterion 45.938 42.631 1787.871 BCCBayes information criterion 158.474 167.012 1823.408 BICConsistent AIC 143.430 150.385 1818.658 CAICExpected cross validation index 0.096 0.089 3.779 ECVI ECVI lower bound 0.086 0.089 3.495 ECVILO ECVI upper bound 0.122 0.089 4.080 ECVIHIMECVI 0.097 0.090 3.780 MECVI

Hoelter .05 index 385 7 HFIVEHoelter .01 index 592 9 HONE

Modele simultane avec variables latentes

income

la_sub_inc

la_sub_occ

overall

u_sinc

u_socc

u_sovr

sub_inc

sub_occ

3.2 Estimation des parametres (ajustement du modele)

Valeur des parametres choisie de telle sorte que le modele reproduise le mieux

possible les donnees.

Deux criteres sont principalement utilises :

Principe : choisir la valeur des parametres qui minimise la somme,

eventuellement ponderee, des carres des ecarts entre valeurs cible observees

et valeurs predites.

Par exemple :

(yα − f(β;xα)

)2prediction de valeurs individuelles

S− Σ(θ))2]

modele d’equations structurelles

Ne necessite pas d’hypotheses sur la distribution des valeurs cible.

Critere utilise en particulier pour la regression lineaire.

Regression lineaire : estimation du vecteur β

vecteur β qui minimise la somme des carres des ecarts yα − yα.

Le vecteur de ces ecarts est (y −Xβ), et la somme des carres de ses

composantes (y −Xβ)′(y −Xβ).

Ainsi, l’estimateur des moindres carres est la solution du probleme

(y −Xβ)′(y −Xβ) = y′y − 2y′Xβ + β′X′Xβ

Les conditions du premier ordre sont 2X′Xβ − 2X′y = 0, d’ou l’estimateur des

moindres carres ordinaires

β = (X′X)−1X′y

Dans le cas de la regression simple (k = 1) de y sur x, on a

β1 =cov(x, y)var(x)

α(xα − x)(yα − y)∑α(xα − x)2

Principe : choisir les valeurs des parametres avec lesquelles on a la plus forte

probabilite de generer l’echantillon avec le modele,

⇒ valeurs qui maximisent la vraisemblance de l’echantillon.

L(Y1 = y1, . . . , Yn = yn | θ)

L(Y1 = y1, . . . , Yn = yn) probabilite conjointe si Y est discret

densite conjointe si Y continu.

En general on maximise la log-vraisemblance (lnL) ce qui est equivalent car lnmonotone croissante.

Pour definir la vraisemblance, on doit preciser la forme de la distribution de la

variable a predire ⇒ approche parametrique

Exemples : regression, regression logistique, table contingence, equations

structurelles,

Max vraisemblance : cas de la regression

Y ∼ N(x′β, σ2)

L(y1, . . . , yn | β) = (2πσ)(n/2)∏α

exp(− (yα − x′

αβ)2

lnL(·|β) = −∑α

(yα − x′αβ)2 + termes ne dependant pas de β

maximiser vraisemblance ⇔ minimiser somme des carres

⇒ β = (X′X)−1X′y

Max vraisemblance : regression logistique

Soit Y, (Y = 0 ou 1) la variable codant les etats de la variable reponse.

Le logit conditionnel au profil xα du α-eme individu est

πα(xα) = x′αβ = β0 +

p∑j=1

βjxαj

⇒ probabilite conditionnelle

p(Yα = 1|xα) = p(x′αβ) =

ex′αβ

1 + ex′αβ

La vraisemblance (conditionnelle) de l’observation yα est (Bernoulli)

p(Yα = yα|xα) = p(x′αβ)yα [1− p(x′

αβ)](1−yα)

⇒ vraisemblance de l’echantillon

L(β) =n∏

p(x′αβ)yα [1− p(x′

αβ)](1−yα)

lnL(β) =n∑

yα ln[p(x′αβ)] + (1−yα) ln[1−p(x′

αβ)]

Estimateur du maximum de vraisemblance

β = (β0, . . . , βp)′ solution du systeme de p + 1 equations non lineaires en β

(car p(x′αβ) = ex

′αβ

1+ex′αβ )

n∑α=1

p(x′αβ)xα =

n∑α=1

yαxα

Max vraisemblance : table contingence

n : taille d’un echantillon (n certain)

mij : esperance du nombre d’individus dans la cellule (i, j)

Modele de reconstruction des effectifs (la variable reponse est nij)

nij = n pij

La vraisemblance de l’echantillon pour ce modele est (loi multinomiale)

L(n11, . . . , n`c | p11, . . . , p`c) = A∏

avec A = n!n11! ···n`c!

, et son logarithme (log-vraisemblance) s’ecrit

lnL(·|p11, . . . , p`c) =∑

nij log(pij) + log(A)

Estimation du maximum de vraisemblance

Les estimations du maximum de vraisemblance des pij sont solution demax

(p11,...,p`c)

nij ln(pij)

s.c.∑

∑j pij = 1

Lagrangien : L(p11, . . . , p`c, λ) = lnL(·)− λ(∑

∑j pij − 1)

⇒ conditions du premier ordre

∂L∂pij

pij− λ = 0

∂L∂λ

pij − 1 = 0

dont la solution est λ = n et

pij =nij

Modele log-lineaire general

Les estimations des parametres d’un modele log-lineaire s’obtiennent en

resolvant le systeme d’equations definissant les conditions du premier ordre

(voir Agresti (1990) p. 187) avec un algorithme du type Newton-Raphson.

On obtient les memes estimateurs en postulant un processus multinomial (n

fixe a priori) ou un processus de Poisson (n aleatoire).

Modele d’equations structurelles

On ajuste S avec Σ(θ)

⇒ vraisemblance de S

lnL(S|θ) = log|Σ(θ)|+ tr(SΣ−1(θ)

)− log|S|+ termes independants de θ

La solution est une fonction

θ = θ(S)

3.3 Evaluation d’un modele

independance

nœud inital

modele sature

arbre maximal

modele ajuste

graphe induit

En notant : modele ajuste M , sature S, sans predicteurs I, observations O

on distingue trois types d’indicateurs :

1. divergence par rapport aux donnees D(M,O)

2. divergence par rapport au modele sature D(M,S)

3. gain par rapport au modele sans predicteurs D(I,M) = D(I,O)−D(M,O)

Mesure de la divergence

optique moindres carres : D(M,O) = somme de carres d’ecarts

optique maximum de vraisemblance : D(M,O) = −2 ln L(·|θ)

Optique moindres carres : exemples

Test F de significativite globale

Coefficient de determination R2

Khi-2 de Pearson

Khi-2 de Hosmer-Lemeshow

Regression : test F de significativite globale (D(I,M)/D(M,O))

Test de H0 : β1 = β2 = · · ·βk = 0 contre

H1 : βj 6= 0 pour un j 6= 0 au moins.

C’est un probleme d’analyse de variance avec

Somme de carres dl

SCexp∑n

α=1(yα − y)2 (p− 1)

SCres∑n

α=1(yα − yα)2 (n− p)

SCtot∑n

α=1(yα − y)2 (n− 1)

et l’on utilise la statistique de test

F =SCexp/(p− 1)SCres/(n− p)

∼ F(p−1),(n−p)

Qualite de l’ajustement : coefficient de determination (D(I,M)/D(I,O))

Part de la variance de la variable reponse y reproduite par la regression

R2 =var(y)var(y)

= 1− r′ry′y − ny2︸︷︷︸

n var(y)

= corr2(y, y)

avec r = y − y et y = Xβ.

R2 ajuste :

R2a = 1− σ2

= 1− n− 1n− p

(1−R2)

Ajustement d’une distribution : le khi-2 de Pearson

Valeurs de Y partionnees en c classes i = 1, . . . , c

ni effectifs observes

mi effectifs attendus si modele correct

Statistique X2 de Pearson

X2 =c∑

(ni −mi)2

Sous l’hypothese H0 : modele correct, et sous reserves de conditions de

regularite,

X2 ∼ χ2d

d : nombre de degres de liberte = c− nbre contraintes liant les mi aux ni

Chaque parametre estime (independant) fait perdre un degre de liberte.

Test d’ajustement de Hosmer-Lemeshow (D(M,O)

S’utilise en regression logistique, pour tester l’ajustement aux donnees.

Principe

Partitionner les n donnees en groupes selon les valeurs des probabilites

predites et tester ajustement des effectifs des groupes.

1. Partitionner les n valeurs predites pi en g < n groupes j = 1, 2, . . . , g.

2. Determiner pour chaque groupe j le nombre de cas observes et le nombre

de cas predits avec la caracteristique voulue (yi = 1), et

3. Tester globalement la significativite de l’ecart entre ces effectifs avec la

statistique H2 du khi-2 de Hosmer-Lemeshow.

1. Partitionner les n valeurs predites pi en g < n groupes.

2. Calculer pour chaque groupe j

– oj0 nbre de cas du groupe avec yi = 0 ou

oj1 nbre de cas du groupe avec yi = 1

– nj = oj0 + oj1 nbre de cas dans le groupe j

– ej0 =∑

i∈j(1− pi) et

ej1 =∑

i∈j pi les predictions des ojk

– pj = ej1/nj estimation de p(Y = 1|j) .

3. Statistique Hosmer-Lemeshow

H2 =g∑

(oj0 − ej0)2

ej0pj=

g∑j=1

(oj1 − ej1)2

ej1(1− pj)= ∼ χ2

On perd 2 d.l. car∑

ej0 =∑

oj0 et∑

nj = n.

Hosmer-Lemeshow : exemple

Donnees EGMP, modele : logit(p) = β0 + βP P + βEE . SPSS fournit la table

Divorced Still Married

j Observed Expected Observed Expected Total

1 45 52.19 15 7.81 60

2 53 45.81 8 15.19 61

3 114 106.81 67 74.19 181

4 282 289.19 452 444.81 734

Ici, les groupes correspondent aux 4 cellules definies par E ∗ P .

H2 =(45− 52.19)2

52.19 7.8160

+ · · ·+ (282− 289.19)2

289.19 441.81734

= 7.601 + 4.530 + 1.180 + 0.295 = 13.606

d.l.= 4− 2 = 2 et H2 = 13.6 > χ22,.95 = 5.99 ⇒ ajustement non satisfaisant

Optique deviance −2 ln L (-2LogLik)

Principe de la deviance

Statistique du rapport de vraisemblance

Pseudo R2

Criteres d’information AIC et BIC

Deviance : principe

Mesurer divergence en termes de log-vraisemblance.

Principe : Ajustement d’autant meilleur que la vraisemblance de l’echantillon

est forte pour le modele ⇒ −2 ln L petit.

Vraisemblance maximale (L = 1 dans le cas discret) pour le modele (O) qui

reproduit exactement les donnees.

L lnL −2 ln L

1 0 0...

......

e−1 −1 2...

......

0 −∞ ∞

⇒ −2 ln L s’interprete comme une distance par rapport a O (observe).

Rapport de vraisemblance

Soit M2 un modele imbrique dans M1.

M2 modele restreint obtenu en imposant d contraintes sur les

parametres de M1 ⇒ L(M2) ≤ L(M1).

Principe : L’ecart entre deux modeles imbriques est significatif si le rapport de

vraisemblance est inferieur a un seuil donne.

L(M2)L(M1)

< λ ⇔ − lnL(M2)−(− lnL(M1)

)> − lnλ

Lorsque le modele M2 est correct et sous reserve de conditions de regularite,

le double du terme de droite est distribue selon un χ2 a d degres de liberte

(khi-2 du rapport de vraisemblance de M2 par rapport a M1)

G2(M2|M1) = −2 ln L(M2)− (−2 ln L(M1)) ∼ χ2d

Statistique du rapport de vraisemblance (D(M,S))

On appelle statistique du rapport de vraisemblance (LR) d’un modele M la

statistique (du type D(M,S)) :

G2(M) = G2(M |S) = −2 ln L(M)− (−2 ln L(S)) ∼ χ2d

Exemple table de contingence : la statistique

G2(I) = 2∑

nij log( nij

)∼ χ2

(`−1)(c−1)

est une alternative au khi-2 de Pearson pour tester l’independance.

Exemple : Age×Sexe×Opinion

Age : “≤ 40”, “> 40”

Sexe : H, F

Opinion s/retraite 65 ans : def, ind, fav

3 presentations alternatives des donnees

≤ 40 def ind fav

H 50 150 50

F 70 30 50

> 40 def ind fav

H 25 80 30

F 130 60 100

H def ind fav

≤ 40 50 150 50

> 40 25 80 30

F def ind fav

≤ 40 70 30 50

> 40 130 60 100

def H F

≤ 40 50 70

> 40 25 130

ind H F

≤ 40 150 30

> 40 80 60

fav H F

≤ 40 50 50

> 40 30 100

* * * * * * * * * * H I E R A R C H I C A L L O G L I N E A R

DATA Information

12 unweighted cases accepted. 0 cases rejected because of out-of-range factor values. 0 cases rejected because of missing data. 825 weighted cases will be used in the analysis.

FACTOR Information

Factor Level Label RETRAITE 3 Retraite à 65 ans pour femmes AGE 2 SEXE 2

DESIGN 1 has generating class

RETRAITE*AGE*SEXE

Tests that K-way and higher order effects are zero.

3 2 .107 .9480 .107 .9479 5 2 7 220.205 .0000 227.587 .0000 2 1 11 239.426 .0000 254.636 .0000 0

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Tests that K-way effects are zero.

1 4 19.221 .0007 27.049 .0000 0 2 5 220.099 .0000 227.480 .0000 0 3 2 .107 .9480 .107 .9479 0

Tests of PARTIAL associations.

Effect Name DF Partial Chisq Prob Iter

RETRAITE*AGE 2 .342 .8429 2 RETRAITE*SEXE 2 128.000 .0000 2 AGE*SEXE 1 67.148 .0000 2 RETRAITE 2 14.794 .0006 2 AGE 1 .758 .3840 2 SEXE 1 3.669 .0554 2

Pseudo R2

Il s’agit de mesurer le gain relatif par rapport au modele sans predicteurs :

R2 = 1− LogLik(M)LogLik(I)

ou, lorsque −2LogLik(M) = G2(M), sa version corrigee des degres de liberte

R2ajust = 1− G2(M)/dM

G2(I)/dI

Pour l’exemple Age/Retraite/Sexe on a pour M = (AS, RS) :

G2(M) = .107 + .342 = .449 avec dM = 2 + 2 = 4G2(I) = = 220.205 avec dI = 7

d’ou :

R2 = 1− .449220.205

= .99796

R2ajust = 1− .449

220.20574

= .99643

Criteres d’information AIC et BIC

Compromis entre qualite d’ajustement (−2LogLik) et complexite (nbre p de

parametres independants)

AIC(M) = −2LogLik(M) + 2p

BIC(M) = −2LogLik(M) + p log(n)

(On a p = kmax − d, avec kmax le nombre de parametres du modele sature).

Forme alternative, en fonction des degres de liberte :

AIC′(M) = G2(M)− 2d

BIC′(M) = G2(M)− d log(n)

BIC′(M) = BIC(M)− kmax (idem pour AIC) : valeur change, mais meme ordre

des modeles.

Permet de comparer des modeles non imbriques.

⇒ meilleur modele : celui qui a le plus petit AIC ou BIC.

Akaike (1973), Schwarz (1978), Raftery (1995), Kass and Raftery (1995)

AIC et BIC : exemple Age/Sexe/Retraite

La table a trois dimensions a 12 cellules ⇒ kmax = 12.

n = 825 ⇒ ln(n) = 6.715

LR d p = kmax − d AIC BIC

ARS 0 0 12 24 80.585

AR,AS,RS 0.107 2 10 20.11 67.26

AS,RS 0.449 4 8 16.45 54.17

A,RS 79.9 5 7 93.9 126.91

AS,R 140.75 6 6 152.75 181.04

A,S,R 220.205 7 5 230.21 253.78

Pour un parametre : Ratio critique (t de Student)

Cas general : rapport de vraisemblance conditionnel

Tests de significativite des coefficients

Il s’agit de tester H0 : βj = 0 contre H1 : βj 6= 0.

En regression, on utilise la statistique de Student

∼ Stn−p

ou σβjest l’estimateur de l’ecart-type de βj (racine du terme diagonal

correspondant de σu(X′X)−1 .)

Pour tester H0 : βj = βj0 contre H1 : βj 6= βj0.

On utilise la statistique de Student

βj − βj0

∼ Stn−p

Pour n grand, on considere le coefficient comme significatif lorsque le t

calcule est superieur a 2 (le seuil a 5% de la loi normale vaut 1.96). Pour n

petit, le seuil est plus eleve.

Ratio critique

L’utilisation de la distribution de Student suppose

– la normalite de la reponse Y

– variance de Y independante de son esperance

Lorsque ces conditions ne sont pas verifiees, on compare a titre indicatif le

rapport critique :

au seuil de la loi normale.

Exemple : voir AMOS.

Cas general : rapport de vraisemblance conditionnel

Pour des modeles qui different par un ou plusieurs parametres, on peut

utiliser :

G2(M2|M1) = G2(M2)−G2(M1) = −2 ln L(M2) + 2 ln L(M1)

qui, si M2 est correct, suit un χ2 a d2 − d1(= p1 − p2) degres de liberte.

Alternative : comparer les BIC

Raftery (1995) (p. 139) : interpretation des differences entre BIC

Difference facteur bayesien prob. a posteriori

entre BIC p(O|M1)/p(O|M2) p(M1|O) evidence

0–2 1–3 50–75 % faible

2–6 3–20 75–95 % positive

6–10 20–150 95–99 % fort

>10 >150 >99 % tres fort

Conversion approximative d’un ratio critique t en termes de variation de BIC :

t2 − lnn ' BIC2 −BIC1

⇒ pour une evidence forte, il faut

|t| >√

lnn + 6

soit respectivement 2.88, 3.26, 3.59 et 3.9 pour n = 10, 100, 1000 et 10000.

Residu : ecart entre observation et prediction.

A nouveau on peut mesurer cet ecart par

– la difference entre yα − yα (contribution a la sommes des carres (SC))

– contribution a la deviance (deviate)

Souvent, on considere des formes normalisees des contributions a la SC.

Objectif

Des residus standardises superieurs a 2.5 ou 3 indiquent des cas atypiques

(tres mal ajustes par le modele).

Residus : exemple regression logistique

Contribution a la somme des carres

Les residus de la regression logistique sont de la forme :

ri = yi − pi =

pi si yi = 0

1− pi si yi = 1

ecart entre etat observe (yi = 0 ou 1) et prediction de la probabilite d’etre en

yi = 1.

Residu standardise (zre)

zi =ri√

pi(1− pi)

Residu studentise (sre)

idem mais en calculant le residu par rapport a la prediction donnee par le

modele estime sans la i-eme observation

zi =rsi√

psi (1− ps

Deviance (dev)

√−2 ln pi si yi = 1

−√−2 ln(1− pi) si yi = 0

Residus logit (lre)

Residus calcules en termes de logit

lrei =ri

pi(1− pi)

4 Apprentissage supervise

4.1 Typologie de modeles d’apprentissage

4.2 Details sur quelques methodes d’apprentissage

4.2.1 Analyse discriminante

4.2.2 Reseaux de neurones

4.2.3 Machine a support vectoriel (SVM)

4.2.4 Arbres d’induction

4.2.5 Classifieurs et reseaux bayesiens

4.3 Initiation a la pratique des arbres d’induction

4.4 Criteres de qualite des regles

4.4.1 Performance en classification (taux d’erreur)

4.4.2 Complexite

4.4.3 Qualite des partitions

Apprentissage plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 77

4.1 Typologie de modeles d’apprentissage

Apprentissage machine, apprentissage supervise, apprentissage par les

exemples :

apprendre un predicteur (classifieur) f(x) qui permet de predire la valeur (la

classe) yα d’un cas α avec profil xα :

yα = f(xα)

Typologie selon la nature des variables (attributs)

attributs predictifsreponse categoriels quantitatifs

categorielle arbre de decision analyse discriminante(classification) reseau bayesien hyperplan separateur optimal

SVMk-PPV

Perceptron

quantitative arbre de regression regression(regression) CART regression locale

methodes de noyauxmethodes de regulation

Remarque : typologie non stricte. Discretisation et codage indicateur des

attributs categoriels, permettent d’etendre la portee des methodes.

Typologie selon principe de classification

Methodes procedant en deux etapes :

1. determiner la distribution conditionnelle, c-a-d les probabilites

p(Y = yi | x)

2. attribuer la categorie f(x) = arg maxyip(Y = yi | x)

ou la categorie qui minimise le cout d’erreur de classification

f(x) = arg minyi

(1− p(Y = yi | x)

)c(yi).

analyse discriminante, arbres,regression logistique, k-PPV,reseau bayesien, ...

Methodes directes : Determination directe de la frontiere entre les classes.

Perceptron, hyperplan separateur optimal,SVM, ...

Methodes en deux etapes

On distingue entre

– Methodes ou pi(x) = p(Y = yi|x) est fonction analytique de x(fonction parametrique)

Exemples : analyse discriminante, regression logistique, ...

– Methodes de partitionnement de l’espace X des predicteurs

(fonction non parametrique)

⇒ un vecteurs pk par classe de la partition.

Exemples : arbres, reseau bayesien, ...

Methodes globales versus methodes locales

Methodes globales : fonction parametrique simple (robuste) de

– la fonction de prediction (regression)

– le logit de la probabilite (regression logistique, analyse discriminante)

– de la frontiere de separation (hyperplan separateur optimal, SVM)

Methodes locales : les fonctions sont definies localement (souvent de facon

non parametree)

Exemple : k-PPV, arbres, methodes de noyaux, ...

Apprentissage en une etape versus incremental

En une etape :

– Donnees d’apprentissage

– Donnees de validation

– Donnees d’application

En particulier toutes les methodes globales parametrees, mais aussi les

arbres.

Incremental : (Case base reasoning CBR)

La regle (classifieur) est automatiquement adaptee des qu’une nouvelle

information est disponible.

Exemple : k-PPV, ...

Autres typologie, voir Hastie et al. (2001) et Han and Kamber (2001).

4.2 Details sur quelques methodes d’apprentissage

Analyse discriminante

Reseaux de neurones

Machine a support vectoriel (SVM)

Arbres d’induction

Classifieurs et reseaux bayesiens

4.2.1 Analyse discriminante

Contexte

- Une variable reponse categorielle (Type d’etudes)

- Plusieurs attributs predictifs metriques (revenu, dettes, age, duree de

chomage, nombre d’enfants) ⇒ matrice Xn× p

Exemple :i Forma Revenu Age Enfants1 1 100 40 22 1 90 25 03 1 120 60 14 2 50 25 15 2 60 40 26 2 80 50 37 2 60 55 28 3 80 30 19 3 80 50 110 3 50 40 0

Plot des donnees

REVENU

ENFANTS

technqiue

social

commercial

Principe de l’analyse discriminante

Objectif : classer dans la categorie la plus probable pour le profil de x.

On associe a chaque categorie i une fonction discriminante δi(x), et l’on

classifie selon :

f(x) = arg maxi

δi(x)

Fonction discriminante lineaire de Fisher

Une fonction discriminante lineaire pour chaque groupe i = 1, . . . , `.

Chaque fonction correspond (a une constante additive pres) a l’oppose de la

distance de Mahalanobis au centre xi du groupe :

d2(x, xi) = (x− xi)′S−1(x− xi)

= x′S−1x− 2x′S−1xi + x′iS

−1xi

avec S estimation de la matrice de variances-covariances intra supposee

commune des groupes.

Comme x′S−1x ne depend pas du groupe i, chercher le centre xi dont un

point x est le plus proche est equivalent a chercher parmi les ` fonctions

lineaires suivantes, celle qui prend la valeur maximale

δi(x) = x′S−1xi −12x′

iS−1xi

Ces ` fonctions sont les fonctions lineaires discriminantes de Fisher.

Remarque : Le principe de Fisher suppose

1) les memes variances et covariances dans chaque groupe (Σi = Σ, tout i).

2) que la probabilite a priori de choisir un cas du groupe i est la meme pour

tous les groupes i = 1, . . . , `.

Regles probabilistes d’affectation

Si l’on admet que la distribution de x est multi-normale dans chaque groupe,

les fonctions discriminantes de Fisher sont equivalentes aux probabilites a

posteriori p(Y = yi|x)

arg maxi

p(Y = yi|x) = arg maxi

δi(x)

Probabilites a priori differentes

p(Y = yi) probabilite a priori de la classe yi.

Regle bayesienne

Affectation au groupe i qui maximise la probabilite

p(Y = yi|x) =p(x|yi)p(Y = yi)∑`

k=1 P (x|yk)p(Y = yk)

⇒ fonction discriminante

δi(x) = x′S−1xi −12x′

iS−1xi + ln(p(Y = yi))︸︷︷︸

nouveau terme

Analyse discriminante quadratique

Si l’on abandonne l’hypothese de matrice de covariances Σi egales pour tous

les groupes i, les fonctions discriminantes deviennent quadratiques :

δi(x) = −12

ln |Si| −12(x− xi)′S−1

i (x− xi) + ln(p(Y = yi))

Plus souple, mais beaucoup plus de parametres a estimer.

Classification : output de SPSS

Classification StatisticsPrior Probabilities for Groups

.333 3 3.000

.333 4 4.000

.333 3 3.0001.000 10 10.000

FORMAcommercialsocialtechnqiueTotal

Prior Unweighted WeightedCases Used in Analysis

Classification Function Coefficients

.849 .301 .533-6.062E-02 7.393E-02 5.671E-02

-8.900 -1.507 -6.338-39.268 -10.578 -18.773

REVENUAGEENFANTS(Constant)

commercial social technqiueFORMA

Fisher's linear discriminant functions

Casewise Statistics

1 1 .144 2 .789 3.878 3 .209 6.532 1.376 1.4531 1 .674 2 .994 .790 3 .006 10.885 3.473 -.3801 1 .454 2 1.000 1.579 3 .000 17.320 4.260 .1092 2 .668 2 .867 .806 3 .133 4.555 -1.890 -.3992 2 .982 2 .990 .037 3 .010 9.331 -2.619 .3512 2 .443 2 .993 1.630 3 .007 11.663 -2.230 1.5792 2 .728 2 .993 .635 3 .007 10.445 -2.980 -.2583 3 .427 2 .776 1.700 1 .219 4.231 .987 .2243 3 .930 2 .965 .145 1 .026 7.368 .505 -.5873 3 .247 2 .937 2.800 2 .063 8.197 -.883 -2.0911 3** .111 3 1.000 6.014 2 .000 44.2521 1 .077 3 .933 6.849 3 .067 12.1161 1 .000 3 1.000 27.202 3 .000 48.9622 3** .166 3 .577 5.087 2 .423 5.7042 2 .990 3 .982 .112 3 .018 8.0902 2 .251 3 .980 4.096 3 .020 11.9022 2 .323 3 .978 3.483 3 .022 11.1093 1** .197 3 .922 4.677 3 .072 9.7803 3 .700 3 .915 1.425 1 .063 6.7913 2** .047 3 .948 7.971 3 .052 13.783

CaseNumber1234567891012345678910

Original

Cross-validateda

ActualGroup

PredictedGroup p df

P(D>d | G=g)P(G=g | D=d)

SquaredMahalanobisDistance to

Centroid

Highest Group

Group P(G=g | D=d)

SquaredMahalanobisDistance to

Centroid

Second Highest Group

Function 1Function

Discriminant Scores

For the original data, squared Mahalanobis distance is based on canonical functions.For the cross-validated data, squared Mahalanobis distance is based on observations.

Misclassified case**. Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case.a.

Classification Resultsb,c

3 0 0 30 4 0 40 0 3 3

100.0 .0 .0 100.0.0 100.0 .0 100.0.0 .0 100.0 100.02 0 1 30 3 1 41 1 1 3

66.7 .0 33.3 100.0.0 75.0 25.0 100.0

33.3 33.3 33.3 100.0

FORMAcommercialsocialtechnqiuecommercialsocialtechnqiuecommercialsocialtechnqiuecommercialsocialtechnqiue

Original

Cross-validateda

commercial social technqiuePredicted Group Membership

Cross validation is done only for those cases in the analysis. In cross validation, each case isclassified by the functions derived from all cases other than that case.

100.0% of original grouped cases correctly classified.b. 60.0% of cross-validated grouped cases correctly classified.c.

4.2.2 Reseaux de neurones

Thiria et al. (1997), Rumelhart et al. (1986)

Reseaux a apprentissage supervise

– Retropropagation (descendant du Perceptron)

Les poids sont iterativement reajustes pour ameliorer les classements.

. . . .

Couche entrée

Couche intermédiairecachée

Couche sortie

. . . .

Trouve les hyperplans separateurs des donnees d’apprentissage, lorsqu’ils

existent.

4.2.3 Machine a support vectoriel (SVM)

Hyperplan separarteur optimal : si les classes sont separables, trouve

l’hyperplan separateur qui laisse la plus grande marge libre de points de

chaque cote.

maxβ,β0

s.c. yα(x′αβ + β0) ≥ C, α = 1, . . . , n

β′β = 1

Classement par vecteur support :

Cherche la bande (non lineaire) de separation la plus large sans depasser une

valeur donnee pour la somme des erreurs.

maxβ,β0

s.c. yα(x′αβ + β0) ≥ C(1− ξα), α = 1, . . . , n

β′β = 1

avec ξα ≥ 0 et∑

α ξα ≤ cste.

Le SVM est une generalisation utilisant une extension en base polynomiale ou

spline.

4.2.4 Arbres d’induction

Principe

1. Eclater nœud initial (toutes les donnees)

selon categories de la variable la plus

pertinente (gain d’information maximal)

⇒ nouvelle branche pour chaque

categorie.

2. Eclater successivement les feuilles

⇒ ∆critere≤ 0 (ou autre critere d’arret.)

3. Elaguer.

� �

� � � � � �

� � � � � � � �

� � � � � ��

� � � � �

� � �

Graphes d’induction : possibilites de fusion.

⇒ Initiation aux arbres d’induction

4.2.5 Classifieurs et reseaux bayesiens

Classificateur naıf

x = (xj)j=1,...,p : instance, vecteur des valeurs des predicats.

Classer x dans categorie Ci avec plus grande probabilite a posteriori

P (Ci|x) > P (Ck|x) tout k 6= i

P (Ci|x) ∝ P (x|Ci)P (Ci)

P (Ci) probabilite a priori (constante ou estimee par ni/n)

Hypotheses pour estimer P (x|Ci) :

1. P (x|Ci) =∏

j P (xj |Ci)c-a-d independance conditionnelle a la classe.

2. normalite des Xj continus : Xj |Ci ∼ N(µCi, σCi

Meilleur classificateur lorsque ces hypotheses sont satisfaites.

Classificateur bayesien naıf : exemple

cancer (C, C), fumeur (F, F), antecedent familial (A, A)

cancer F F total

A 12 5 17

A 12 1 13

total 24 6 30

∼cancer F F total

A 6 24 30

A 16 24 40

total 22 48 70

Comment classer un individu (∼antecedent, fumeur) = (A, F) ?

P (C) = 0.3 P (C) = 0.7

P (A|C) = 13/30 = 0.43 P (A|C) = 40/70 = 0.57

P (F |C) = 24/30 = 0.80 P (F |C) = 22/70 = 0.314

P (A ∧ F | C) ' 0.43 · 0.8 = 0.35 ( 6=12/30) P (A ∧ F | C) ' 0.57 · 0.31 = 0.18 ( 6=16/70)

P (C | A ∧ F ) ∝ 0.3 · 0.35 = 0.105

P (C | A ∧ F ) ∝ 0.7 · 0.18 = 0.126

Reseau bayesien (Bayesian Belief Network) Heckerman (1996)

Principe : Relacher hypothese d’independance conditionnelle a la classe.

⇒ Reseau de causalite unidirectionnel

� � � � � � � � � ��

� � � �

� � � � � � � � ��

P (x|Ci) =∏j

P(xj |Parents(Xj) et Ci

)Exemple :

P ([fumeur] et [∼antecedent] | [cancer]) =

= P ([∼antecedent] | [cancer]) P ([fumeur] | [∼antecedent] et [cancer])

Reseau bayesien : exemple

P (F |A ∧ C) = 0.71 6= P (F |A ∧ C) = 0.92 6= P (F |C) = 0.8 ⇒ non independance

cancer F F total

A 12 5 17

A 12 1 13

total 24 6 30

∼cancer F F total

A 6 24 30

A 16 24 40

total 22 48 70

P (C) = 0.3 P (C) = 0.7

P (A|C) = 13/30 = 0.43 P (A|C) = 40/70 = 0.57

P (F | A ∧ C) = 12/13 = 0.923 P (F | A ∧ C) = 16/40 = 0.4

P (A ∧ F | C) = 0.43 · 0.923 = 0.4 (=12/30) P (A ∧ F | C) = 0.57 · 0.4 = 0.228 (=16/70)

P (C | A ∧ F ) ∝ 0.3 · 0.4 = 0.12

P (C | A ∧ F ) ∝ 0.7 · 0.228 = 0.16

Reseau bayesien : apprentissage

Reseau fixe, pas de donnees manquantes : Calcul direct des PC

(probabilites conditionnelles).

Donnees manquantes Estimation du maximum de vraisemblance des PC.

Reseau inconnu : structure inferee des donnees Munteanu and Cau (2000).

4.3 Initiation a la pratique des arbres d’induction

4.3.1 Principe

4.3.2 Les criteres

4.3.3 AnswerTree 3.0

4.3.4 SIPINA

http ://mephisto.unige.ch

4.3.1 Principe

Graphes d’induction : apprentissage supervise

⇒ 1 variable dependante (categorielle)

variables explicatives (attributs) categorielles ou metriques

(variable dependante metrique ⇒ arbre de regression)

Arbre :

Eclatement successif des

sommets

On cherche, a chaque sommet,

la variable qui discrimine le

mieux par rapport a la variable

dependante.

��

� � �

� � � �

Graphe :

procede egalement par

fusion

– des sommets avec

distributions similaires.

– des sommets a faible

effectif avec sommet le

plus semblable

��

� � �

� � � �

Arbre binaire :

Ne fait que des

eclatements en 2 ��

� � �

� � � �

� � �

4.3.2 Les criteres

Criteres issus de

la theorie de l’information : entropies (incertitude) de la distribution

Entropie de Shannon : hS(p) = −∑c

i=1 pi log2 pi

Entropie quadratique (Gini) : hQ(p) =∑c

i=1 pi(1− pi) = 1−∑c

i=1 p2i

⇒ maximiser la reduction d’entropie

association statistique Khi-2 de Pearson, mesures d’association

⇒ maximiser l’association, minimiser la p-valeur du test de l’association

nulle.

Gain d’information

Lecteurs et non lecteurs d’un magazine

age lecteur non lecteur total

jeune 200 3000 3200

age 700 900 1600

total 900 3900 4800

� age�⇒ � lecteur� [15%,44%]

Quelle information apporte l’age ?

Gain = reduction de l’incertitude

Incertitude : entropie de Shannon

H(lecteur) = −c∑

pi log2 pi

= −(

9004800

( 9004800

39004800

(39004800

) )= 0.696

H(lecteur|jeune) = 0.377

H(lecteur|age) = 0.989

H(lecteur|Age) = (2/3)0.377 + (1/3)0.989 = 0.554

Gain(Age) = H(lecteur)−H(lecteur|Age)

= 0.696− 0.554 = 0.14

4.3.3 AnswerTree 3.0

SPSS (2001)

Construit des arbres

4 methodes :

arbre binaire variable dependante probabilites

methode oui non nominale ordinale continue a priori

CHAID X X X X

CHAID exhaustif X X X X

C&RT X X X X X

QUEST X X X

CHAID Chi-squared Automatic Interaction Detection (Kass (1980))

1. Explore les valeurs de chaque predicteur et fusionne les categories avec

quasi-equivalence distributionnelle par rapport a la variable dependante.

2. Choisit le meilleur predicteur sur la base du degre de signification du test

d’independance :

– χ2, si variable dependante categorielle

– F , si variable dependante continue

CHAID exhaustif (Biggs et al. (1991))

CHAID stoppe la fusion de categories des que les categories restantes sont

statistiquement differentes.

CHAID exhaustif continue la fusion ⇒ 2 categories et retient l’agregation qui

donne la plus forte association avec la variable dependante.

⇒ meilleure partition pour chaque predicteur.

CART :Classification and Regression Trees Breiman et al. (1984)

Partage binaire iteratif ⇒ arbre binaire

Minimise des indices d’impurete :

– Gini : gs = 1−∑

i p2is,

avec pis probabilite de la categorie i au sommet s.

– Twoing : on cherche simultanement la meilleure partition en deux des

categories de la variable dependante et des categories des predicteurs.

– LSD (Least-squared deviation) si variable dependante continue

(LSD=Variance interne du sommet).

QUEST Quick, Unbiased, Efficient Statistical Tree

Loh and Shih (1997)

Traite separement le choix

– du predicteur (non biaise : choix aleatoire selon l’information fournie)

– de la partition (partition binaire univariee)

4.3.4 SIPINA

Zighed and Rakotomalala (2000) http ://eric.univ-lyon2.fr

SIPINA methode de construction de graphe d’induction et logiciel.

Le logiciel propose plusieurs autres methodes (CHAID, CART, C4.5, ...)

La methode Sipina se caracterise par

– La prise en compte de la representativite (taille) des groupes.

– Construit des graphes par eclatements et fusions successives

Notations :

P : partition en q groupes ou sommets

q : nombre de sommets de la partition P

` : nombre de categories de la variable reponse

nik : nombre de cas du sommet k qui sont dans la categorie i

n.k : nombre de cas dans le sommet k

p(i, k, λ) : estimation (de Laplace) de la probabilite qu’un individu de la classe

k soit dans la categorie i

p(i, k, λ) =nik + λ

n.k + `λ

λ limite la trop forte sensibilite des estimations dans les petits

echantillons et penalise donc les petits echantillons.

SIPINA choisit successivement l’eclatement ou la fusion qui maximise le gain

sur l’incertitude

G(P) = I(P−1)− I(P)

ou I(P) est l’un des indices suivants.

Indice fonde sur l’entropie quadratique

IQ(P) =q∑

∑i=1

p(i, k, λ)[1− p(i, k, λ)

])+ (1− α)

Indice fonde sur l’entropie de Shannon

IS(P) =q∑

∑i=1

p(i, k, λ) log2

[ 1p(i, k, λ)

])+ (1− α)

Le parametre α ∈ [0, 1] permet de controler l’arbitrage entre

– discrimination

– taille des sommets

Plus α est petit, plus on penalise pour les petites tailles n.k.

4.4 Criteres de qualite des regles

On se concentre ici sur les criteres pour les regles de classification.

Performance en classification (taux d’erreur)

Complexite

Qualite des partitions

4.4.1 Performance en classification (taux d’erreur)

Chaque cas est classe dans la categorie la plus frequente du sommet final ou

il se trouve.

Taux d’erreur (pourcents de cas mal classes)

– Sur echantillon d’apprentissage

– Sur echantillon de validation independant

– Par validation croisee

– Par bootstrap

En fait, il faudrait comparer avec le taux d’erreur du classement naıf

(tous dans categorie la plus frequente du sommet initial).

Taux d’erreur

En classification,

err =1n

I[yi 6= f(xi)]

ou I[condition] prend la valeur 1 lorsque la condition est verifiee et 0 sinon.

On peut aussi utiliser la fonction perte log-vraisemblance en lieu et place de

la fonction de perte 0–1.

err =−2n

ln(p(Y = yi|x))

Echantillon de validation

L’objectif etant la classification d’objets n’ayant pas servi a l’apprentissage,

on evalue le taux d’erreur sur un echantillon test.

Le taux d’erreur en apprentissage souffre d’optimisme.

En complexifiant l’arbre (en multipliant les sommets) on ameliore toujours le

taux d’erreur en apprentissage,

par contre au dela d’un certain seuil, le taux d’erreur en generalisation (sur

l’echantillon test) se degrade.

� � � � � � � � � � � � � �

� � � � � � � � � �

� � � � � � � �

� � � � � � � � � � �

Validation croisee

On partitionne les donnees en g groupes a peu pres egaux

� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �

Pour chaque groupe k = 1, . . . , g on retient les autres g − 1 groupes pour

� apprendre� le classifieur (l’arbre par exemple) et on calcule le taux d’erreur

sur le groupe k.

On obtient ainsi g taux d’erreur dont on peut calculer la moyenne et la

variance.

4.4.2 Complexite

Complexite de l’arbre :

– nombre de sommets

– nombre de niveaux

– longueur des messages (regles)

On peut reduire la complexite

– a priori en renforcant les criteres d’arret

(par exemple nombre maximum de niveaux dans CHAID ou CART)

– a posteriori par des procedures d’elagage

(procedure automatique par exemple dans CART)

En statistique, complexite du modele = nombre de parametres libres

4.4.3 Qualite des partitions

On peut calculer l’amelioration totale du critere

– Gain d’information entre sommet initial et ensemble des sommets finaux.

– Degre d’association entre partition finale et variable dependante (GK τ , v

de Cramer, ...).

– Degre de signification du test que l’association est nulle.

Answer Tree et Sipina ne calculent pas ces valeurs et ne permettent pas de

recuperer l’information necessaire (no du sommet final).

4.5 Stabilite des arbres

Arbres et graphes d’induction sont tres instables

La variabilite porte sur

1. Le taux d’erreur en classification.

2. La structure (surtout aux niveaux eleves)

– Attributs retenus

– Partitionnement des modalites des attributs categoriels ou

seuils de discretisation des variables continues

3. A structure fixe, sur les distributions dans les sommets.

On ne dispose malheureusement pas d’outils pour evaluer cette variabilite

(excepte celle du taux d’erreur). Des etudes par simulations montrent que

plus l’arbre est simple, plus il est stable.

Si trop simple, l’erreur de classification (biais) tend a augmenter.

⇒ trouver compromis entre biais et variance.

5 Points communs et differences entre

modelisation et apprentissage

Modelisation est apprentissage ont en commun :

– Le contexte : une (des) variable(s) reponse(s) y, des predicteurs x.

– Recherche d’une fonction f(x) pour predire ou expliquer les valeurs prises

par y.

– Induction de f a partir de donnees d’apprentissages (estimation)

Ritschard and Zighed (2003, 2004), Ritschard (2003a,b)

Conciliation plan not mstat appr arbr comm J I N H MAS 9/3/2005gr 126

Les differences portent sur

Modelisation :

– Utilise souvent une approche parametrique : on postule une forme de

distribution de y, sa dependance par rapport a x et on estime les

parametres.

– Objectif prioritaire : decrire les mecanismes liant y a x– Validation par mesure de la qualite d’ajustement (des donnees

d’apprentissage), test d’hypotheses.

Apprentissage supervise :

– Utilise en general une approche non-parametrique : pas d’hypotheses sur la

forme des distributions (k-ppv, arbres, reseau de neurones). f est le plus

souvent considere comme une boite noire.

– Objectif prioritaire : predire y (classer) a l’aide de x– Validation par taux d’erreur (prediction ou classement) en generalisation

Vers une universalite des criteres d’evaluation

Les taux d’erreur de prediction ou de classification, non parametriques par

nature, s’appliquent sans difficulte aux modeles statistiques.

Les criteres utilises en modelisation statistique (Deviance, BIC) peuvent

aussi s’appliquer dans certains cas en apprentissage supervise.

L’utilisation du −2LL requiere toutefois des hypotheses parametriques.

Dans le cas discret (y discret) comme avec les arbres de decision, ces

hypotheses ne sont pas tres restrictives.

A titre d’illustration, nous montrons comment les criteres de validation des

modeles statistiques s’appliquent aux arbres.

5.1 Arbres d’induction et table cible

Arbres d’induction : apprentissage supervise

(Kass (1980), Breiman et al. (1984), Quinlan (1993), Zighed and Rakotomalala (2000),

Hastie et al. (2001))

⇒ 1 variable reponse categorielle y (statut marital)

predicteurs, attributs categoriels ou metriques x = (x1, . . . , xp)(age, secteur d’activite)

(variable reponse metrique ⇒ arbre de regression)

Apprentissage supervise

A partir d’un echantillon {(xα, yα)}α=1,...,n,

construire une fonction predictive (ou de classification) f(x) qui permette de

predire la valeur ou classe y de cas dont on ne connaıt que x.

(predire le statut marital a partir de la classe d’age et du secteur d’activite)

Table cible

Si toutes les variables sont categorielles, on peut representer les donnees sous

forme d’une table de contingence croisant la variable reponse avec une

variable composite definie par le croisement de tous les predicteurs.

Tab. 1 – Exemple de table de contingence cible T

homme femme

marie primaire secondaire tertiaire primaire secondaire tertiaire total

non 11 14 15 0 5 5 50

oui 8 8 9 10 7 8 50

total 19 22 24 10 12 13 100

Arbres d’induction construit la regle f(x) en deux temps :

1. Determiner une partition des profils possibles x telle que la distribution py

de la reponse Y soit la plus differente possible d’une classe a l’autre.

� �

� ��

2. La regle consiste ensuite a attribuer a chaque cas la valeur de y la plus

frequente dans sa classe.

y = f(x) = arg maxi

Rappel du principe des arbres d’induction

� �

� ��

� �

Fig. 1 – Arbre induit

Arbres d’induction determinent la partition par eclatements successifs des

sommets. En partant du sommet initial, ils recherchent l’attribut qui permet

le meilleur eclatement selon un critere donne. L’operation est repetee a

chaque nouveau sommet jusqu’a ce qu’un critere d’arret, une taille minimale

du sommet par exemple, soit atteint.

Question : Peut-on mesurer la qualite de l’ajustement

fourni par un arbre, comme on mesure la qualite

d’ajustement d’une regression lineaire ou d’un modele

log-lineaire par exemple ?

Mesures de type R2 : λY |P , τY |P et uY |P

⇒ gain par rapport au modele naıf

Quid de la qualite de reproduction des donnees (distance predictions -

observations) ?

Peut-on tester la significativite des effets pris en compte par l’arbre ?

5.2 Ajustement de la table cible

Qualite d’ajustement : capacite du modele a reproduire les donnees.

Deux types d’ajustement

1. ajustement des donnees individuelles yα

2. ajustement de la representation synthetique (table cible T)

En apprentissage supervise, l’objectif est en general la classification

⇒ ajustement des cas individuels (qualite de la regle f(x)).

En sciences sociales, on s’interesse plutot aux mecanismes (influences des

predicteurs sur la variable a predire)

⇒ examiner effets de x sur distribution de Y

⇒ ajustement de la table de contingence (qualite du modele p(x)).

Table generee par l’arbre induit

Ta table croisant la variable a predire avec la partition generee par l’arbre.

� �

� ��

� �

Tab. 2 – Table de contingence generee par l’arbre Ta

homme femmemarie secteur primaire autre secteur total

non 40 0 10 50oui 25 10 15 50

total 65 10 25 100

Arbre sature et table cible

Arbre sature : arbre qui genere

exactement la table cible T � �

� � � � � �

� �

Tab. 3 – Table de contingence cible T

homme femmemarie primaire secondaire tertiaire primaire secondaire tertiaire total

non 11 14 15 0 5 5 50oui 8 8 9 10 7 8 50

total 19 22 24 10 12 13 100

Arbre etendu et table predite

Arbre induit (sommets blancs)

et son extension maximale � �

� � � � ��

� �

� � � �

� � ��

��

� ��

��

� ��

� � � �

� � � � �

Tab. 4 – Table de contingence predite T

homme femmemarie primaire secondaire tertiaire primaire secondaire tertiaire total

non 11.7 13.5 14.8 0 4.8 5.2 50oui 7.3 8.5 9.2 10 7.2 7.8 50

total 19 22 24 10 12 13 100

Dans l’arbre etendu, on applique aux feuilles (grises) de l’extension la

distribution des sommets (blancs) de l’arbre induit dont ils sont issus

p|HP = p|HS = p|HT = pa|H =

p|FP = pa

p|FS = p|FT = pa

5.3 Mesure et test de la qualite d’ajustement

Qualite d’ajustement : distance entre T et T

Mesures de divergence du khi-2 : X2 de Pearson et G2 du rapport de

vraisemblance (deviance)

X2 =∑i=1

c∑j=1

(nij − nij)2

nij(1)

G2 = 2∑i=1

c∑j=1

nij ln(

Lorsque le modele est correct, et sous reserve des conditions de regularite, X2

et G2 sont distribuees selon loi du χ2.

Quels sont les degres de liberte ?

Deviance

� �

� � � � � �

� �

� ��

� �

� � � � � �

� �

40 0 10

25 10 15↔

11 14 15 0 5 5

8 8 9 10 7 8

independance

nœud inital

tableau cible

arbre maximal

modele ajuste

graphe induit

D(m0|m) D(m)

Calcul de la deviance

Difficulte : construction des tableaux T et T car c peut etre tres grand

Deviance partielle D(m|mT∗)

T ∗ tableau `× c∗ cible

defini avec les c∗ profils differents en termes de predicteurs et

groupements de valeurs retenus par l’arbre induit

Perte d’interet de l’interpretation de la deviance en tant que distance par

rapport a la cible.

Differences de deviance entre arbres emboıtes restent les memes, par

exemple :

D(m0|m) = D(m0)−D(m) = D(m0|mT∗) − D(m|mT∗)

mesure gain par rapport au nœud initial.

Deviance et rapport de vraisemblance

D(m0|m) = statistique du khi-2 du rapport de vraisemblance

pour test independance sur tableau associe a l’arbre induit.

D(m0) = statistique du khi-2 du rapport de vraisemblance

pour test independance sur tableau cible.

Ces deux valeurs s’obtiennent avec les logiciels statistiques (SPSS, SAS, ...)

On obtient la deviance de l’arbre m par difference

D(m) = D(m0) − D(m0|m)

Modele de reconstruction et degres de liberte

L’arbre induit donne lieu au modele de reconstruction suivant ou l’on note Tj

la j-eme colonne de T :

Tj = n ajp|j , j = 1, . . . , c (3)

s.c. p|j = pa|k pour tout xj ∈ Xk k = 1, . . . , q (4)

ou Xk est la classe de profils x defini par la keme feuille finale de l’arbre.

Les parametres sont

– n le nombre total de cas,

– aj les proportions de cas par colonne j = 1, . . . , c, et

– p|j, les c vecteurs p(Y |j) de ` probabilites definissant la distribution de Y

dans chaque colonne j de la table.

parametres nombre dont independants

pi|j, i = 1, . . . , `, j = 1, . . . , c c` q(`− 1)

aj, j = 1, . . . , c c c− 1

Total c` + ` + c + 1 q`− q + c

Degres de liberte = c` cellules – (q(`− 1) + c) parametres independants, soit

dM = (c− q)(`− 1)

Ce nombre correspond au nombre de contraintes (4).

Pour modele d’independance : q = 1 et donc dI = (c− 1)(`− 1).Pour l’arbre sature : q = c et donc dS = 0.

Comparaison de modeles

La statistique du G2 permet de tester la difference de modeles imbriques.

Si modele restreint M2 correct lorsque M1 l’est,

G2(M2|M1) = G2(M2)−G2(M1) ∼ χ2dM2−dM1

Permet de tester la significativite d’une expansion (branche).

Exemple : M1 notre arbre induit et M2 arbre avant eclatement de � femme�

G2(M1) = 0.18 avec dM1 = 3 et G2(M2) = 8.41 avec dM2 = 4,

G2(M2|M1) = 8.41− 0.18 = 8.23 avec d2 − d1 = 4− 3 = 1

Degre de signification : p(χ21 > 8.23) = .004 ⇒ effet significatif

5.4 Indicateurs derives de la deviance

Indicateurs derives de la deviance :

– BIC = deviance penalisee pour la complexite (nbre de parametres)

defini a une constante additive pres ⇒ seules variations sont pertinentes

– pseudo R2 = 1−D(m)/D(m0),

pas pertinent avec deviance partielle

– u Theil, taux de reduction de l’entropie de Shannon

u =D(m0|m)

−2∑

i ni. ln(ni./n)

evolution quadratique ⇒√

u plus pertinent

Pseudo R2

R2 = 1− G2(M)G2(I)

ou sa version corrigee des degres de liberte

R2ajust = 1− G2(M)/dM

G2(I)/dI

Pour notre exemple, on a G2(I) = 18.55, dI = 5, G2(M) = .18 et dM = 3, d’ou

R2 = .99 et R2ajust = .984.

Criteres d’information

Compromis entre qualite d’ajustement (G2) et complexite (nbre parametres

independants)

AIC(M) = G2(M) + 2(q`− q + c)

BIC(M) = G2(M) + (q`− q + c) log(n)

Permet de comparer des modeles non imbriques.

⇒ meilleur modele : celui qui a le plus petit AIC ou BIC.

Akaike (1973), Schwarz (1978), Raftery (1995), Kass and Raftery (1995)

Calcul de l’association entre feuilles et reponse

Dans Answer Tree :

1. Selectionner toutes les feuilles (menu : Edit/Select Terminal Nodes/All)

2. Selectionner l’onglet ”Rules”

3. Ouvrir le dialogue ”Classification Rules” (menu : Format/Rules)

4. Dans ce dialogue, selectionner Type ”SPSS” et Generate Syntax For

”Assigning Values”

5. Copier coller tout le contenu de l’onglet ”Rules” dans un fichier syntaxe

6. Ouvrir le fichier SPSS et executer la syntaxe copiee precedemment.

7. Caluler les associations avec la commande CROSSTAB. Exemple :

CROSSTABS

/TABLES=priv_car BY nod_001

/FORMAT=NOTABLES

/STATISTIC=CHISQ PHI LAMBDA UC.

Directional Measures

Value Asymp. Std. Error(a) Approx. T(b) Approx. Sig.

Lambda

Symmetric .034 .007 4.988 .000

Voiture a usage prive .018 .027 .655 .513nod 001 .037 .006 6.132 .000

Goodman and Kruskal tau

Voiture a usage prive .114 .014 .000(c)nod 001 .013 .002 .000(c)

Uncertainty Coefficient

Symmetric .042 .005 8.072 .000(d)

Voiture a usage prive .127 .015 8.072 .000(d)nod 001 .025 .003 8.072 .000(d)

a Not assuming the null hypothesis.

b Using the asymptotic standard error assuming the null hypothesis.

c Based on chi-square approximation

d Likelihood ratio chi-square probability.

5.5 Illustration : le TitanicLIVING

SEXAdj. P-value=0.0000, Chi-square=456.8742, df=1

female

CLASSAdj. P-value=0.0000, Chi-square=130.6862, df=2

c3c2;crewc1

AGEAdj. P-value=0.0000, Chi-square=23.1250, df=1

c3c1;c2

crewc3c2c1

Tree 03 - LIVING X2

Tab. 5 – Titanic : effectifs observes et deduits de l’arbre CHAID

observe selon arbrefeuille living

j k sex age class yes no yes no Total

1 1 male adult c1 57 118 57 118 175

2 2 c2 14 154 14 154 168

3 3 c3 75 387 75 387 462

4 4 crew 192 670 192 670 862

5 5 child c1 5 0 5 0 5

6 5 c2 11 0 11 0 11

7 6 c3 13 35 13 35 48

8 7 female adult c1 140 4 140.03 3.97 144

9 8 c2 80 13 81.47 11.53 93

10 9 c3 76 89 75.77 89.23 165

11 8 crew 20 3 20.15 2.85 23

12 7 child c1 1 0 0.97 0.03 1

13 8 c2 13 0 11.39 1.61 13

14 9 c3 14 17 14.23 16.77 31

Total 711 1490 711 1490 2201

Tab. 6 – Titanic : qualites d’ajustement d’un choix de modeles

pseudo

Modele d G2 sig(G2) X2 sig(X2) R2ajust AIC BIC

CHAID 5 3.72 0.590 2.10 0.835 .986 49.7 180.7

Independance 13 671.96 0.000 650.09 0.000 0 702.0 787.4

Sature 0 0 1 0 1 1 56 215.5

CHAID2 6 35.81 0.000 27.85 0.000 .885 79.8 205.1

CHAID3 6 10.68 0.098 8.44 0.208 .966 54.7 180.0

CART 4 0.08 0.999 0.05 0.999 .999 48.1 184.8

C4.5 6 43.32 0.000 40.10 0.000 .860 87.3 212.6

Sipina 7 5.15 0.642 3.16 0.870 .986 47.2 166.8

Meilleur BIC 8 9.08 0.335 7.82 0.452 .978 49.1 163.0

CHAID2 : regroupe tous les enfants males en un seul groupe (k = 5, 6).

CHAID3 : regroupe les hommes adultes de 2eme et 3eme classe (k = 2, 3).

Illustration : Etude reussite etudiants SES 98

Variable reponse :

– bilan octobre 1999 (elimine, redouble, reussi)

predicteurs :

– age

– date immatriculation

– tronc commun choisi

– type diplome secondaire

– lieu obtention diplome secondaire

– age obtention diplome secondaire

– nationalite

– domicile de la mere

bilan oct.99

dipl. second.regroup.Adj. P-value=0.0000, Chi-square=50.7197, df=2

économique;moderne,<missing>

AGEDIPAdj. P-value=0.0090, Chi-square=11.0157, df=1

>20,<missing><=20

classic .latine;scientifique

>19(18,19]<=18

étranger,autre;dipl. ing.

nationalité regoup.Adj. P-value=0.0011, Chi-square=16.2820, df=1

Genève;hors Europe

tronc communAdj. P-value=0.0188, Chi-square=5.5181, df=1

sc.socialessc.écon. + HEC

ch-al.+Tessin;Europe;Suisse Romande

date d'immatriculationAdj. P-value=0.0072, Chi-square=9.2069, df=1

>97<=97

Tree 01 - BIL_99

Category % nechec 27.43 209redouble 17.06 130réussi 55.51 423Total (100.00) 762

Node 0

Category %echec 22redouble 19réussi 57Total (32

Node 9

Node 2

Node 8Category % nechec 14.53 17redouble 11.11 13réussi 74.36 87Total (15.35) 117

Node 6

Node 1

Node 5

Node 13

Node 4

Node 11

bilan oct.99

dipl. second.regroup.Adj. P-value=0.0000, Chi-square=50.7197, df=2

Adj. P-val

classic .latine;scientifique

>19(18,19]<=18

étranger,autre;dipl. ing.

nationalité regoup.Adj. P-value=0.0011, Chi-square=16.2820, df=1

Genève;hors Europe

tronc communAdj. P-value=0.0188, Chi-square=5.5181, df=1

sc.socialessc.écon. + HEC

ch-al.+Tessin;Europe;Suisse Romande

date d'immatriculationAdj. P-value=0.0072, Chi-square=9.2069, df=1

>97<=97

Tree 01 - BIL_99

Exemple etudiants SES 98

Regroupements utilises par l’arbre ⇒ tableau cible avec 88 colonnes

Tab. 7 – SES 98 : qualites d’ajustement d’un choix de modeles

pseudo

Modele q d G2 sig(G2) R2ajust AIC BIC

Sature 88 0 0 1 1 528 1751.9

Meilleur AIC 14 148 17.4 1 .941 249.4 787.2

CHAID 9 158 177.9 0.133 .336 390.0 881.3

CHAID2 8 160 187.4 0.068 .309 395.4 877.5

CHAID3 7 162 195.2 0.038 .289 399.2 872.1

Meilleur BIC 6 164 75.2 1 .745 275.2 738.8

Independance 1 174 295.1 0.000 0 475.8 892.3

CHAID2 : CHAID sans eclatement datimma du sommet 4 (nationa 6= GE, hors Europe)

CHAID3 : CHAID2 sans eclatement troncom du sommet 5 (nationa= GE, hors Europe)

References

Agresti, A. (1990). Categorical Data Analysis. New York: Wiley.

Akaike, H. (1973). Information theory and an extension of the maximum likelihood principle.

In B. N. Petrox and F. Caski (Eds.), Second International Symposium on Information

Theory, pp. 267. Budapest: Akademiai Kiado.

Arbuckle, J. L. and W. Wothke (1999). Amos 4.0 Users’ Guide. Chicago: SmallWaters.

Biggs, D., B. de Ville, and E. Suen (1991). A method of choosing multiway partitions for

classification and decision trees. Journal of Applied Statistics 18, 49–62.

Bollen, K. A. (1989). Structural Equations with Latent Variables. New York: Wiley.

Breiman, L., J. H. Friedman, R. A. Olshen, and C. J. Stone (1984). Classification And

Regression Trees. New York: Chapman and Hall.

Han, J. and M. Kamber (2001). Data Mining: Concept and Techniques. San Francisco:

Morgan Kaufmann.

Hand, D. J., H. Mannila, and P. Smyth (2001). Principles of Data Mining (Adaptive

Computation and Machine Learning). Cambridge MA: MIT Press.

Hastie, T., R. Tibshirani, and J. Friedman (2001). The Elements of Statistical Learning.

New York: Springer.

Heckerman, D. (1996). Bayesian networks for knowledge discovery. In U. M. Fayyad,

G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy (Eds.), Advances in Knowledge

Discovery and Data Mining, pp. 273–305. Cambridge, MA: MIT Press.

Hosmer, D. W. and S. Lemeshow (2000). Applied Logistic Regression (Second ed.). New

York: Wiley.

Jobson, J. D. (1992). Applied Multivariate Data Analysis, Volume II: Categorical and

Multivariate Methods. New York: Springer-Verlag.

Joreskog, K. and D. Sorbom (1989). LISREL 7 User’s Reference Guide. Mooresville, IN:

Scientific Software.

Kass, G. V. (1980). An exploratory technique for investigating large quantities of categorical

data. Applied Statistics 29(2), 119–127.

Kass, R. E. and A. E. Raftery (1995). Bayes factors. Journal of the American Statistical

Association 90(430), 773–795.

Lebart, L., A. Morineau, and M. Piron (2000). Statistique exploratoire multivariee (Troisieme

ed.). Paris: Dunod.

Loh, W. Y. and Y. S. Shih (1997). Split selection methods for classification trees. Statistica

Sinica 7, 815–840.

McCullagh, P. and J. A. Nelder (1989). Generalized Linear Models. London: Chapman and

Munteanu, P. and D. Cau (2000). Efficient score-based learning of equivalence classes of

bayesian network. In D. A. Zighed, J. Komorowski, and J. Zytkow (Eds.), Principles of

Data Mining and Knowledge Discovery, pp. 318–362. Berlin: Springer.

Powers, D. A. and Y. Xie (2000). Statistical Methods for Categorical Data Analysis. San

Diego, CA: Academic Press.

Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. San Mateo: Morgan

Kaufmann.

Raftery, A. E. (1995). Bayesian model selection in social research. In P. Marsden (Ed.),

Sociological Methodology, pp. 111–163. Washington, DC: The American Sociological

Association.

Ritschard, G. (2003a). Partition BIC optimale de l’espace des predicteurs. Revue des

nouvelles technologies de l’information 1, 99–110.

Ritschard, G. (2003b). Testing hypotheses with induction trees. In Bulletin of the

International Statistical Institute 54th Session, F Proceedings, Berlin.

Ritschard, G. and G. Ryczkowska (2004, March). Endogamy - community. inter-generational

mobility in 19th century Geneva. In Fifth European Social Science History Conference,

Berlin.

Ritschard, G. and D. A. Zighed (2003). Modelisation de tables de contingence par arbres

d’induction. Revue des sciences et technologies de l’information – ECA 17(1-3), 381–392.

Ritschard, G. and D. A. Zighed (2004). Qualite d’ajustement d’arbres d’induction. Revue des

nouvelles technologies de l’information E-1, 45–67.

Rumelhart, D. E., G. E. Hinton, and R. J. Williams (1986). Learning internal representations

by error propagation. In D. Rumelhart and J. McClelland (Eds.), Parallel Distributed

Processing: Explorations in the Microstructure of Cognition, Volume 1, pp. 318–362.

Cambridge, MA: MIT Press.

Schwarz, G. (1978). Estimating the dimension of a model. The Annals of Statistics 6,

461–464.

SPSS (Ed.) (2001). Answer Tree 3.0 User’s Guide. Chicago: SPSS Inc.

Thiria, S., Y. Lechevallier, O. Gascuel, and S. Canu (Eds.) (1997). Statistique et methodes

neuronales. Paris: Dunod.

Zighed, D. A. and R. Rakotomalala (2000). Graphes d’induction: apprentissage et data

mining. Paris: Hermes Science Publications.

Mod´elisation et apprentissage...

Documents

Modélisation, analyse mathématique et …Département de formation doctorale en Mathématiques Ecole doctorale MSTII´ UFR SFA Modélisation, analyse mathématique et numérique

Présenté par BENSID YAZID - univ-oran1.dz · Bensid Yazid 24 mai 2011. 2 Introduction Qu’est ce que la modélisation géométrique? Le terme ”modélisation géométrique”

Processus stochastiques mod elisation · 2013. 12. 18. · Processus stochastiques mod elisation Exercices et Rappels Responsable UE : Agn es Lagnoux (lagnoux@univ-tlse2.fr) Conception

Mod elisation math ematique des vagues · Mod elisation math ematique des vagues David Lannes Institut de Math ematiques de Bordeaux et CNRS UMR 5251 Journ ee des doctorants David

L. Dumas Mod elisation et simulation num erique du ux sanguinmaths.ac-creteil.fr/IMG/pdf/sourdun-ldumas.pdf · Mod elisation et simulation num erique du ux sanguin L. Dumas Mod elisation

Mod´elisation tridimensionnelle de l’amor¸cage de l’arc ...Mod´elisation tridimensionnelle de l’amor¸cage de l’arc ... R REBOUX Jean-Luc professeur LTDS ENISE RETIF Jean-Marie

MERISE - lim.univ-reunion.frlim.univ-reunion.fr/staff/courdier/old/cours/si/1_MERISE_Support_M... · MERISE Modélisation de Systèmes d’Information Pierre Gérard Licence Pro

Modélisation Mathématique et Maladies Infectieusesmbb.univ-montp2.fr/MBB/uploads/sallet.pdf · Mod elisation Math ematique et Maladies Infectieuses G. Sallet1 1INRIA IRD UMMISCO

Cours de Mod elisation des Syst emes Robotiquesperso.crans.org/~ghaessig/UPMC/Modelisation_robotique/Cours... · Objectifs du cours Ce cours vise a fournir des m ethodes de mod elisation

Mod elisation du RMI et trajectoires des allocataires : Une analyse empirique des ... · 2017-01-28 · Mod elisation du RMI et trajectoires des allocataires : Une analyse empirique

Analyse et mod elisation de l’utilisation de signaux GNSS en … · 2017-01-29 · Analyse et mod elisation de l’utilisation de signaux GNSS en environnement marin Sarab Tay To

Qu’est-ce que la mod elisation math ematiqueducrot/CSG/modelisation2008.pdfTous les mod eles etudi es d ecrivent un syst eme dynamique d ependant du temps Outil math ematique pricipal

Conception, fabrication, caractérisation et modélisation de … · 2016. 12. 24. · Conception, fabrication, caract erisation et mod elisation de transistors MOSFET haute tension

Rapport de stage Mod elisation d’une coul ee de d ebris · Rapport de stage Mod elisation d ... nous pencherons sur un mod ele d ej a connu a n d’e ectuer des simulations sur

Analyse et mod elisation du fonctionnement biophysique et ... · Analyse et mod elisation du fonctionnement biophysique et d ecisionnel d’un syst eme prairial irrigu e - Application

Mod´elisation, analyse et simulation de probl`emes de

Mod elisation et evaluation des d elais de bout-en-bout

Mod´elisation Causale et Commande d’un Actionneur pi´ezo

Modélisation en Programmation Linéaire - lgi.ecp.frmousseau/Cours/S4/pmwiki/uploads/Main/PL.pdf · Vincent Mousseau Modélisation en Programmation Linéaire. Exemple de référence

Modélisation et étude de performance de l ...msr2015.loria.fr/pdfs/escheikh.pdf · Modélisation et étude de performance de l’équilibrage de charge LTE par ajustement dynamique