71
Année Universitaire 2008-2009 Régression sur variables catégorielles Laurent Rouvière Université Rennes 2 Place du Recteur H. le Moal CS 24307 - 35043 Rennes Tel : 02 99 14 18 21 Mel : [email protected]

Poly Freg Var Quali

Embed Size (px)

Citation preview

  • Anne Universitaire 2008-2009

    Rgression sur variables catgorielles

    Laurent Rouvire

    Universit Rennes 2Place du Recteur H. le Moal

    CS 24307 - 35043 RennesTel : 02 99 14 18 21

    Mel : [email protected]

  • Table des matires

    1 Introduction 51.1 Rappels sur le modle linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 Le modle linaire gnralis : GLM . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    1.2.1 La rgression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2.2 La rgression log-linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.2.3 Gnralisation : GLM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    1.3 Exemples de fonctions de liens pour la rgression dune variable binaire . . . . . . . 12

    2 Analyse discriminante logistique 152.1 Estimation des paramtres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    2.1.1 Equations du score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.1.2 Rappel sur lalgorithme de Newton-Raphson . . . . . . . . . . . . . . . . . . 182.1.3 Calcul des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    2.2 Dimensions explicatives, variables explicatives . . . . . . . . . . . . . . . . . . . . . 192.2.1 Variable explicative continue . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.2.2 Variable explicative qualitative . . . . . . . . . . . . . . . . . . . . . . . . . 192.2.3 Interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    2.3 Interprtation des coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212.4 Prcision des estimations et tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    2.4.1 Loi asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.4.2 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.4.3 Tests de nullit de q coefficients libres . . . . . . . . . . . . . . . . . . . . . . 24

    2.5 Un exemple avec R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.5.1 Modles simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.5.2 Encore dautres modles... . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    3 Slection et validation de modles 313.1 Slection ou choix de modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    3.1.1 Un outil spcifique : la dviance . . . . . . . . . . . . . . . . . . . . . . . . . 313.1.2 Test de dviance entre 2 modles embots . . . . . . . . . . . . . . . . . . . 343.1.3 Critre de choix de modles . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.1.4 Apprentissage/validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.1.5 Validation croise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.1.6 Slection automatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    3.2 Validation du modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.2.1 Test dadquation par la dviance . . . . . . . . . . . . . . . . . . . . . . . . 423.2.2 Test dHosmer Lemeshow . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.2.3 Analyse des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

    Rgression sur variables catgorielles Laurent Rouvire

  • 4 Table des matires

    3.2.4 Points leviers et points influents . . . . . . . . . . . . . . . . . . . . . . . . . 47

    4 Modle logistique multi-classes 514.1 Modle polytomique ordonn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    4.1.1 Cas binaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514.1.2 Gnralisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524.1.3 Lgalit des pentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

    4.2 Modle multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.2.1 Le modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.2.2 Estimation et interprtation des paramtres . . . . . . . . . . . . . . . . . . 56

    Annexes 59A.1 Rappels sur la mthode du maximum de vraisemblance . . . . . . . . . . . . . . . . 59A.2 Echantillonnage Rtrospectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61A.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63A.4 Correction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    Bibliographie 71

    Laurent Rouvire Rgression sur variables catgorielles

  • Chapitre 1

    Introduction

    Notations : X = (1,X1, . . . ,Xp) : variable alatoire explicative de dimension p + 1, x = (1,x1, . . . ,xp) uneralisation de X ;

    Y variable (univarie) expliquer. (X1, Y1), . . . , (Xn, Yn) : un n-chantillon alatoire (iid et de mme loi que le couple (X,Y )), telque Xi = (Xi1, . . . , Xip) ;

    (x1, y1), . . . , (xn, yn) une ralisation de (X1, Y1), . . . , (Xn, Yn). X : la matrice des observations :

    X =

    1 x11 . . . x1p...

    ......

    ...1 xn1 . . . xnp

    .

    1.1 Rappels sur le modle linaire

    Le contexte

    Nous cherchons expliquer une variable Y par p variables X = (1,X1, . . . ,Xp). Pour ce faire,

    on dispose de n ralisations (x1, y1), . . . , (xn, yn) du couple (X,Y ). Le but est de modliser ladpendance de la variable rponse Y sur les variables explicatives X1, . . . ,Xp. Plusieurs raisonspeuvent motiver cette modlisation : la description : on veut un modle qui permette de dcrire la relation entre Y et X ; lvaluation des contributions relatives de chaque prdicteur pour expliquer Y ; la prdiction : prvoir la valeur de Y pour des nouvelles valeurs des variables explicatives.Le modle linaire classique scrit :

    Y = X + = 0 + 1X1 + . . .+ pXp + ,

    avec = (0, 1, . . . , p) Rp+1 et N (0, 2). On distingue alors deux cas :

    Les variables Xi sont dterministes (non-alatoires) :

    Y N (X , 2), E(Y ) = X ;

    Les variables Xi sont alatoires :

    (Y |X) N (X , 2), E(Y |X) = X .

    Rgression sur variables catgorielles Laurent Rouvire

  • 6 Introduction

    Plaons nous maintenant dans le cas o la variable expliquer Y est qualitative ou de type facteur(sexe, couleur, prsence ou absence dune maladie...). Cette variable possde un nombre fini demodalits g1, . . . , gm. Le problme consiste expliquer lappartenance dun individu un groupe partir des p variables explicatives, on parlera alors de discrimination au lieu de rgression.

    Il est bien entendu impossible de modliser directement la variable Y par une relation linaire(imaginons que Y soit le sexe dune personne ou la couleur de ces cheveux).

    Afin de pallier cette difficult, on va sintresser aux probabilits P(Y = gk|X = x). Supposonspour simplifier que la variable Y prenne uniquement deux valeurs : 0 (groupe 0) ou 1 (groupe 1).La connaissance de P(Y = 1|X = x) implique celle de P(Y = 0|X = x) : il suffit par consquentde modliser la probabilit p(x) = P(Y = 1|X = x). On peut par exemple envisager une relationde la forme

    p(x) = 0 + 1x1 + . . .+ pxp = x.

    Cette approche possde plusieurs inconvnients :

    Remarquons tout dabord que la variance de Y |X = x vaut p(x)(1 p(x)). Contrairement aumodle linaire traditionnel, cette variance nest pas constante et par consquent lhypothseclassique dhomoscdasticit des rsidus ne sera pas vrifie.

    Le fait quaucune restriction ne soit effectue sur les implique que x peut prendre nimportequelle valeur sur R. Ce qui peut tre gnant pour lestimation dune probabilit (imaginez uneestimation du genre P(Y = 1|X = x) = 1297.56 ! ! !).

    Pour ces raisons, nous devons tendre le modle linaire classique aux cas o :

    Y peut tre une variable qualitative (prsence ou absence dune maladie, appartenance unecatgorie...) ;

    les erreurs peuvent ne pas avoir la mme variance (saffranchir de lhypothse dhomoscdasti-cit).

    1.2 Le modle linaire gnralis : GLM

    1.2.1 La rgression logistique

    Nous nous plaons tout dabord dans un contexte de classification binaire, cest--dire que noussupposons quil existe seulement deux groupes discriminer. Nous verrons dans le chapitre 4comment tendre les techniques des modles multiclasses (plus de deux groupes).

    Variable explicative continue

    Exemple 1.1Nous souhaitons expliquer la variable Y prsence (1)/ absence (0) dune maladie cardio-vasculaire(Chd) par lge des patients. Les donnes sont reprsentes sur la figure 1.1.

    Laurent Rouvire Rgression sur variables catgorielles

  • 1.2 Le modle linaire gnralis : GLM 7

    * * * *

    *

    * * * *

    *

    * * *

    *

    * * *

    *

    * *

    *

    * * *

    *

    *

    *

    * *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    *

    * *

    * * *

    *

    * *

    *

    *

    *

    * *

    *

    * * * *

    *

    * * *

    age

    chd

    20 30 40 50 60 70

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    Fig. 1.1 Reprsentation directe de Chd (note aussi Y , la variable expliquer) en fonction de lgeX.

    Cette figure montre quil est difficile de modliser les donnes brutes, la variabilit de la variableCHD est leve pour tout ge. Une mthode permettant de rduire cette variabilit consiste regrouper les patients par classe dge. Nous obtenons le tableau suivant :

    CHDAge n Absent Present Moyenne

    ]19 ;29] 10 9 1 0.1]29 ;34] 15 13 2 0.133333]34 ;39] 12 9 3 0.25]39 ;44] 15 10 5 0.333333]44 ;49] 13 7 6 0.461538]49 ;54] 8 3 5 0.625]54 ;59] 17 4 13 0.764706]59 ;69] 10 2 8 0.8

    Tab. 1.1 Donnes regroupes en classe dge.

    La liaison entre lge et la prsence de la maladie devient beaucoup plus claire. Il apparat en effetque lorsque lge augmente, la proportion dindividus atteint par la maladie augmente. La figure1.2 permet dvaluer cette liaison : elle apparat nettement sous la forme dune courbe sigmode(i.e. en forme de S). Il semblerait donc naturel de modliser cette proportion de malade parclasse dge en fonction de lge par une courbe sigmode.

    Rgression sur variables catgorielles Laurent Rouvire

  • 8 Introduction

    oo

    o

    o

    o

    o

    oo

    age

    chd

    20 40 60 80

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    Fig. 1.2 Frquence de Chd par classe dge en fonction de lge X

    La colonne moyenne du tableau 1.1 fournit une estimation de E(Y |X = x). Nous pouvons doncproposer un modle du type pour lesprance conditionnelle de Y |X = x de la forme :

    E(Y |X = x) = h(x)o lallure de la courbe reprsentative de h est une sigmode.

    Plusieurs fonctions h ont t proposes dans la littrature. Pour le modle logistique on considrela fonction h(x) = exp(x)/(1 + exp(x)), ce qui donne le modle

    E(Y |X = x) = p(x) = exp(0 + 1x)1 + exp 0 + 1x

    ,

    o encore

    logit p(x) = log

    (p(x)

    1 p(x))

    = 0 + 1x,

    logit dsignant la fonction bijective et drivable de ]0, 1[ dans R : p 7 log(p/(1 p)) (voir figures1.3 et 1.4). Nous verrons quune telle modlisation permettra de retrouver un grand nombre desbonnes proprits du modle linaire.

    La loi conditionnelle de la variable dintrt diffre entre le modle logistique et le modle linaire.Dans le modle de rgression linaire Y = 0 + 1x + , on fait lhypothse que les rsidus suivent une loi N (0, 2). On en dduit Y |x N (0+1x, 2). Pour le modle logistique, pour uneobservation x de la variable explicative, on peut exprimer la variable dintrt comme suit :

    Y = p(x) + .

    La quantit peut prendre simplement deux valeurs : si y = 1 alors = 1 p(x) et si y = 0alors = p(x). Par consquent prend pour valeur 1 p(x) avec probabilit p(x) et p(x) avecprobabilit 1 p(x) : Y |x suit une loi de Bernoulli de paramtre p(x).

    Laurent Rouvire Rgression sur variables catgorielles

  • 1.2 Le modle linaire gnralis : GLM 9

    0.0 0.2 0.4 0.6 0.8 1.0

    3

    2

    1

    01

    23

    Fig. 1.3 logit

    3 2 1 0 1 2 3

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    Fig. 1.4 Inverse de logit

    Variable explicative qualitative

    Il y a deux faons davoir des variables explicatives qualitatives. Tout dabord, la variable peuttre qualitative par nature (sexe, CSP). La deuxime manire consiste regrouper une variablecontinue en classes. Soit X une variable qualitative admettant m modalits, le modle logistiquepermettant dexpliquer une variable dichotomique Y par X scrit

    logit p(x) = 0 + 111(x) + . . .+ m1m(x)

    o 1j(x) dsignent les indicatrices

    1j(x) =

    {1 si x correspond la jme modalit de X0 sinon.

    Avec un lger abus de notation, on crira

    logit p(x) = x

    avec = (0, 1, . . . , m) et x = (1,11(x), . . . ,1m(x)). Toutes les variables qualitatives sont d-coupes en variables indicatrices dans le modle, chaque modalit dune variable correspond uncoefficient. Nous verrons (section 2.2.2 et exercice A.2) (page 63) quen prsence dune variablequalitative, il est ncessaire dimposer une contrainte sur les coefficients du modle. Nous sommesmaintenant mme de dfinir le modle logistique dans un cadre gnral.

    Dfinition 1.1 (Rgression logistique)Soit Y une variable binaire expliquer et X = (X1, . . . , Xp) Rp p variables explicatives. Lemodle logistique propose une modlisation de la loi de Y |X = x par une loi de Bernoulli deparamtre p(x) = P(Y = 1|X = x) telle que :

    logp(x)

    1 p(x) = 0 + 1x1 + . . .+ pxp = x, (1.1)

    ou encorelogit p(x) = x,

    logit dsignant la fonction bijective et drivable de ]0, 1[ dans R : p 7 log(p/(1 p)).On dduit de (1.1)

    p(x) = P(Y = 1|X = x) = exp(x)

    1 + exp(x).

    Rgression sur variables catgorielles Laurent Rouvire

  • 10 Introduction

    Identifiabilit du modle

    On rappelle que le modle est identifiable si pour 6= , les loi de Y |X = x associes et sontdiffrentes. Tout comme pour le modle linaire, une condition ncessaire pour pouvoir estimer lesparamtres est que lchantillon rende le modle identifiable : les lois {(Yi|X = xi), i = 1, . . . , n}associes et sont diffrentes. Comme Yi|X = xi suit une loi de Bernoulli de paramtre p(xi)et que la fonction logit est strictement croissante, cette condition quivaut lexistence dun xi telque xi 6= xi. Ce qui, comme pour le modle linaire, quivaut rang(X) = p+ 1. On supposerapar la suite que cette condition est vrifie.

    RemarqueDans un modle logistique, nous effectuons deux choix pour dfinir le modle :

    1. le choix dune loi pour Y |X = x, ici la loi de Bernoulli ;2. le choix de la modlisation de P(Y = 1|X = x) par

    logit (P(Y = 1|X = x)) = x.La fonction logit est bijective et drivable. Elle est appele fonction de lien.

    Remarquons galement que

    E(Y |X = x) = P(Y = 1|X = x)

    V(Y |X = x) = P(Y = 1|X = x)(1P(Y = 1|X = x)

    )ce qui implique que la variance nest pas constante et varie selon la valeur x de X.

    1.2.2 La rgression log-linaire

    Dans le modle logistique la variable expliquer est une variable binaire. Le modle log-linairetraite le cas dune variable de comptage. Voici quelques exemples : nombre de catastrophes ariennes sur une priode donne ; nombre de voitures un feu rouge ; nombre daccidents par jour sur une autoroute...

    Dfinition 1.2 (Rgression log-linaire)Soit Y une variable de comptage expliquer et X = (1,X1, . . . ,Xp) Rp+1 p + 1 variablesexplicatives. Le modle log-linaire propose une modlisation de la loi de Y |X = x par une loi depoisson de paramtre = (x) telle que :

    logE(Y |X = x) = x.Pour une nouvelle mesure x effectue, le modle log-linaire va donc prdire exp(x).

    RemarqueIci encore, deux choix sont effectus pour dfinir le modle :

    1. le choix dune loi pour Y |X = x, ici la loi de Poisson ;2. le choix de la modlisation de E(Y |X = x) par

    logE(Y |X = x) = x.La fonction log est bijective et drivable.

    Laurent Rouvire Rgression sur variables catgorielles

  • 1.2 Le modle linaire gnralis : GLM 11

    1.2.3 Gnralisation : GLM

    On peut rsumer les remarques prcdentes par le tableau :

    Choix logistique log-linaire linaire

    Y |X = x Bernoulli Poisson Normalemodlisation

    de logit E(Y |X = x) = x logE(Y |X = x) = x E(Y |X = x) = xE(Y |X = x)

    Une gnralisation de ces mthodes est appele GLM (Generalized Linear Model). LapprocheGLM consiste :

    1. choisir une loi pour Y |X = x parmi un ensemble restreint de loi (les lois exponentiellesGLM) ;

    2. choisir une fonction de lien g(.) parmi une ensemble rduit de fonctions bijectives et drivable.

    3. la transformation de lesprance conditionnelle E(Y |X = x) par la fonction g est ensuitemodlise par une fonction qui nest autre quune combinaison linaire des variables expli-catives :

    g (E(Y |X = x)) = (x) = x.On peut rsumer un modle GLM par le schma suivant :

    A expliquercomposante alatoire

    Y |X = x suit une loi fixe.

    Lien

    E(Y |X = x) dpend de(x) au travers de la fonc-tion g appele fonction delien

    g(E(Y |X)) = (X)

    g est une fonction inversible.

    ExplicatifComposante systmatique

    On modlise par une com-binaison linaire des Xj

    (x) =

    pj=1

    xjj

    Remarque1. Pour choisir un modle GLM il faut donc

    choisir la loi de Y |X = x dans la famille exponentielle des GLM. choisir une fonction de lien inversible g.

    2. Pour utiliser un modle GLM il faudra donc estimer les paramtres = (0, 1, . . . , p). Unefois cette estimation ralise, (x) est fix, ce qui fixe E(Y |X = x) = g1((x)).

    Le tableau 1.2 donne quelques exemples de GLM.

    Rgression sur variables catgorielles Laurent Rouvire

  • 12 Introduction

    Loi Nom du lien Fonction de lienBernoulli/Binomiale lien logit g() = logit () = log(/(1 ))Poisson lien log g() = log()Normale lien identit g() = Gamma lien rciproque g() = 1/

    Tab. 1.2 Exemples de GLM.

    1.3 Exemples de fonctions de liens pour la rgression dune

    variable binaire

    Dautres fonctions de lien que logit peuvent tre utilises dans le cas o la variable expliquer Yest binaire. On retrouve notamment dans la littrature les transformations : probit, qui nest autre que linverse de la fonction de rpartition de la loi normale centre rduite :

    p [0, 1], probit(p) = avec 12

    exp

    (12u2)

    du = p.

    log-log dfinie par :p [0, 1], log-log(p) = log( log(1 p)).

    Ces transformations sont reprsentes sur la figure 1.5

    0.0 0.2 0.4 0.6 0.8 1.0

    4

    2

    02

    4

    p

    Fig. 1.5 Fonctions de liens : probit (trait plein), logit (tirets), log-log (pointills).

    Des trois fonctions de lien prsentes, la transformation log-log est bien approprie aux cas olon souhaite modliser les probabilits de succs de manire asymtrique. Les transformationslogit et probit possdent des proprits identiques. Dans de nombreux cas, on prfre utiliser latransformation logistique. Plusieurs raisons motivent ce choix : dun point de vue numrique, la transformation logistique est plus simple manipuler (notam-ment pour lcriture des estimateurs du maximum de vraisemblance, voir section 2.1) ;

    Laurent Rouvire Rgression sur variables catgorielles

  • 1.3 Exemples de fonctions de liens pour la rgression dune variable binaire 13

    on a une interprtation claire des coefficients en terme dodds ratio pour la transformationlogistique (voir section 2.3).

    le modle logistique est particulirement bien adapt un schma dchantillonnage rtrospectif(voir annexe A.2)

    Nous nous focaliserons dans la suite sur le modle logistique. Les diffrents rsultats obtenuspourront stendre aux autres modles GLM. Il est important de connatre les notations des GLMprsentes dans cette partie. Cest en effet sous cette forme l quelles sont prsentes dans lalittrature ainsi que dans la plupart des logiciels statistiques (notamment R).

    Rgression sur variables catgorielles Laurent Rouvire

  • Chapitre 2

    Analyse discriminante logistique

    Nous rappelons que Y dsigne une variable expliquer binaire (qui prend 2 valeurs 0 ou 1 poursimplifier) ou un label qui dnote lappartenance un groupe et X1, . . . ,Xp dsignent p variablesexplicatives. On souhaite :

    expliquer la variable Y laide des p variables explicatives X = (1,X1, . . . ,Xp) ; tant donne une nouvelle mesure x des p variables explicatives X, prdire le label y associ cette variable.

    Nous avons vu dans le chapitre prcdent que le modle logistique scrit

    logit p(x) = 0 + 1x1 + . . .+ pxp = x (2.1)

    o = (0, . . . , p) et x = (1,x1, . . . ,xp). Nous nous posons le problme de lestimation desparamtres partir dun chantillon (x1, y1), . . . , (xn, yn). Les observations sont supposes ind-pendantes. Il y a deux structures de donnes :

    les donnes individuelles : {(xi, yi), i = 1, . . . , n} o les xi sont tous diffrents, le design est{x1, . . . , xn} ;

    les donnes rptes : {((xt, yit), i = 1, . . . , nt), t = 1, . . . , T}. Il y a nt 1 observations yit aupoint xt, le nombre total dobservations est n =

    Tt=1 nt et le design est {(x1, n1), . . . , (xT , nT )}.

    Les proprits du modle logistique sont trs proches pour ces deux types de donnes. Certainsconcepts tels que la forme de la vraisemblance o les tests dadquation par la dviance peuventnanmoins lgrement diffrer. Dans ce chapitre, nous nous focalisons sur le cas de donnes in-dividuelles (qui est le cas le plus frquent). Pour une tude plus approfondie du cas des donnesrptes, nous renvoyons le lecteur lannexe A.3 (pour lcriture de la vraisemblance) ou auxouvrages de Hosmer & Lemeshow (2000) et Collet (2003).

    2.1 Estimation des paramtres

    2.1.1 Equations du score

    Nous allons utiliser lchantillon (x1, y1), . . . , (xn, yn) pour estimer les paramtres par la m-thode du maximum de vraisemblance (voir annexe A.1). Cette mthode consiste chercher =(0, 1, . . . , p) qui maximise la vraisemblance

    ni=1

    P(Y = yi|X = xi).

    Rgression sur variables catgorielles Laurent Rouvire

  • 16 Analyse discriminante logistique

    Rappelons que par dfinition du modle logistique Y |X = x Ber(p(x)). Par consquent :ni=1

    P(Y = yi|X = xi) =ni=1

    pyii (1 pi)1yi

    avec pi = P(Y = 1|X = xi). En passant au log nous avons alors

    L() =ni=1

    {yi log(pi) + (1 yi) log(1 pi)}

    =ni=1

    {yi log

    (pi

    1 pi

    )+ log(1 pi)

    }.

    Daprs (2.1) nous obtenons

    L() =ni=1

    {yixi log(1 + exp(xi))}. (2.2)

    En drivant par rapport au paramtre nous avons queL

    () =

    [L0

    (), . . . ,Lp

    ()

    ]avec

    Lj

    () =ni=1

    [yixij xij exp(x

    i)

    1 + exp(xi)

    ]

    =ni=1

    [xij(yi pi)] .

    Ce qui donne en criture matricielle

    L

    () =ni=1

    [xi(yi pi)] .

    Une condition ncessaire doptimum (sur Rp) est lannulation des drives loptimum, nousobtenons lquation suivante (appele quation du score) :

    S() =L

    () =ni=1

    xi {yi P(Y = 1|X = xi)} = X (Y P ) = 0, (2.3)

    P est le vecteur de dimension n des P(Y = 1|X = xi) qui dpend de . On note une solutionde S() = 0.

    Trouver explicitement nest pas possible. En effet, lquation (2.3) scrit :

    x11y1 + . . .+ xn1yn = x11exp(1x11 + . . .+ px1p)

    1 + exp(1x11 + . . .+ px1p)+ . . .+ xn1

    exp(1xn1 + . . .+ pxnp)

    1 + exp(1xn1 + . . .+ pxnp)......

    x1py1 + . . .+ xnpyn = x1pexp(1x11 + . . .+ px1p)

    1 + exp(1x11 + . . .+ px1p)+ . . .+ xnp

    exp(1xn1 + . . .+ pxnp)

    1 + exp(1xn1 + . . .+ pxnp).

    Dans le cas de la rgression logistique (binaire), il existe une procdure spcifique dite IRLS(Iterative Reweighted Least Squares) issue de la procdure de Newton-Raphson.

    Laurent Rouvire Rgression sur variables catgorielles

  • 2.1 Estimation des paramtres 17

    Dfinition 2.1Le nuage de points est dit : compltement sparable si Rp+1 : i tel que Yi = 1 xi > 0 et i tel que Yi = 0 xi < 0 ; quasi-compltement sparable si Rp+1 : i tel que Yi = 1 xi 0, i tel que Yi = 0 xi 0et {i : xi = 0} 6= ;

    en recouvrement sil nest ni compltement sparable ni quasi-compltement sparable (voir figure2.1).

    Fig. 2.1 Exemple de sparabilit complte (gauche), quasi-complte (milieu) et de recouvrement(droite).

    La proposition suivante assure la convergence de lalgorithme IRLS vers la valeur .

    Proposition 1 On suppose que le nuage de points est en situation de recouvrement et que les xisont des ralisations i.i.d. dune loi support compact. Alors

    1. La log-vraisemblance L() est strictement concave : existe et est unique.2. La loi asymptotique de lestimateur du maximum de vraisemblance est donne par

    n( ) N (0, I()1),

    o I() est la matrice dinformation de Fisher au point :

    I()ij = E[ 2ij

    LY ()],

    LY () dsignant la log-vraisemblance de au point Y .

    Pour la preuve de la concavit, on pourra se rfrer au polycopi de Guyon (2005) ou larticle deAlbert & Anderson (1984). La loi asymptotique dcoule de la thorie du maximum de vraisemblance(voir annexe A.1). La concavit a une consquence numrique importante puisquelle justifie quunalgorithme itratif convergera bien vers la valeur de . Il ny a donc pas de risque de convergervers un maximum local non global et la convergence de lalgorithme ne dpend pas du pointdinitialisation de lalgorithme.

    Rgression sur variables catgorielles Laurent Rouvire

  • 18 Analyse discriminante logistique

    2.1.2 Rappel sur lalgorithme de Newton-Raphson

    La mthode de Newton-Raphson permet une rsolution numrique des quations du score. Onpart tout dabord dune valeur initiale arbitraire de , note 0. On note 1 = 0 + h une valeurcandidate pour tre solution de S() = 0, cest--dire S(0+h) = 0. Par un dveloppement limit lordre un de la fonction S, on obtient lapproximation suivante :

    S(0 + h) S(0) + hS (0).Comme S(0 + h) = 0, on obtient pour h la valeur suivante :

    h = [S (0)]1 S(0).Il vient

    1 = 0 [2L

    (0)

    ]1L

    (0).

    On itre le processus. La procdure se rsume de la manire suivante :

    1. choix dun point de dpart 0 ;

    2. On construit k+1 partir de k

    k+1 = k + AkL|k ,o L|k est le gradient au point k et Ak = (2L|k)1 est la matrice de pas delalgorithme (linverse du hessien de L au point k)

    Algorithme 1 maximisation de la vraisemblance

    Require: 0

    k 1repeatk+1 k + AkLkk k + 1

    until k+1 k et/ou L(k+1) L(k)

    2.1.3 Calcul des estimateurs

    Calculons la matrice hessienne 2L ={

    2Lrs

    }1r,sp

    :

    2Lrs

    = ni=1

    xrixsi

    exp(xi)

    (1 + exp(xi))2=

    ni=1

    xrixsipi(1 pi),

    par consquent

    2L = 2L2

    = ni=1

    xixiP(Y = 1|X = xi)(1P(Y = 1|X = xi)).

    On note pki la probabilit P(Y = 1|X = xi) estime ltape k de lalgorithme ;

    Laurent Rouvire Rgression sur variables catgorielles

  • 2.2 Dimensions explicatives, variables explicatives 19

    P k le vecteur colonne de dimension n dont le ime lment est pki ; W k la matrice diagonale diag(pki (1 pki )).Il vient

    (2L|k)1 = (XW kX)1. (2.4)Nous sommes maintenant mme de calculer k+1

    k+1 = k + (XW kX)1X(Y P k)= (XW kX)1XW k(Xk +W k

    1(Y P k))

    = (XW kX)1XW kZk,

    o Zk = Xk + W k1(Y P k). Cette quation est simplement une rgression pondre o les

    poids W k dpendent de X et k. Les poids sont donc rvalus chaque tape de lalgorithme,une tape tant une simple rgression pondre. A la dernire tape k de lalgorithme, on noteW k

    = W . On obtient lestimateur du maximum de vraisemblance :

    = (XW k

    X)1XW k

    Zk

    = (XW X)1XW Zk

    .

    2.2 Dimensions explicatives, variables explicatives

    Les remarques formules dans cette partie sappliquent dans la plupart des modles de rgres-sion (modles linaires et danalyse de variance par exemple). Pour plus de dtails, on pourra serapporter aux ouvrages de Droesbeke et al (2007) et Cornillon & Matzner-Lber (2007).

    Suivant la nature dune variable explicative, le nombre de dimensions explicatives du modle peutvarier. Plus prcisment, on dira que la dimension explicative du modle est gale au nombre decolonnes de la matrice du design X utilise dans lalgorithme destimation des paramtres (voirsection 2.1). Elle est obtenue en sommant les dimensions explicatives associes aux diffrentesvariables explicatives du modle, lesquelles varient suivant le nature de la variable explicative. Noustudions dans cette partie les dimensions explicatives pour des variables explicatives quantitatives,qualitatives. Le cas dinteraction sera ensuite abord.

    2.2.1 Variable explicative continue

    Cest le cas le plus simple puisque une variable explicative est reprsente par une seule colonnedans la matrice du design X. On estime donc un seul paramtre par variable quantitative.

    2.2.2 Variable explicative qualitative

    Tout comme pour le modle danalyse de variance, une variable qualitative est reprsente parles indicatrices associes aux diffrentes modalits. Considrons un modle o la seule variableexplicative est le sexe :

    logit (P(Y = 1|X = x)) = 0 + F1F (x) + H1H(x), (2.5)

    mais aussi

    logit (P(Y = 1|X = x)) = (0 + F ) + (H F )1H(x).

    Rgression sur variables catgorielles Laurent Rouvire

  • 20 Analyse discriminante logistique

    Il y a une infinit dcritures possibles... Le modle (2.5) correspond une matrice du design X trois colonnes o la premire colonne est une colonne de 1 et les deux dernires sont obtenuesen effectuant un codage disjonctif complet pour chaque individu (le ime terme de la 2me (resp.3me) colonne vaut 1 si le ime individu de lchantillon est une femme (resp. un homme)). Parconsquent, la somme des deuxime et troisime colonne vaut 1 ce qui rend lestimation impossiblepuisque la matrice X nest pas de plein rang (XWX nest donc pas inversible). Une solution pourpallier cette difficult consiste mettre une contrainte sur les coefficients H et F . La solutionsouvent utilise par les logiciels est de supprimer une des colonnes de la matrice X, ce qui revient considrer que le coefficient de la modalit associe cette colonne est nul. Cette modalit est prisecomme modalit de rfrence par rapport laquelle on mesure des dviations. Le choix de cettemodalit na bien entendu pas dinfluence sur le modle. Il en a cependant une sur la valeur descoefficients estims ainsi que sur leurs carts types. Ainsi le nombre de coefficients significativementdiffrents de 0 peut changer suivant le choix de la modalit de rfrence. Ceci montre clairementque, pour juger lapport dune variable qualitative, il nest pas pertinent dutiliser les tests designificativit des coefficients. Il sera prfrable de raliser un test entre modles embots (voirpage 34).

    Exemple 2.1Considrons le cas dune variable explicative trois niveaux g1, g2, g3. Les observations sont rcol-tes dans les tableaux suivants (quivalents)

    observation X Y

    1 g1 12 g2 13 g3 14 g1 15 g2 06 g1 0

    X #{Y = 1} #{Y = 0}g1 2 1g2 1 1g3 1 0

    On effectue une rgression logistique sur R :

    > model model

    Call: glm(formula = Y ~ ., family = binomial, data = X)

    Coefficients:

    (Intercept) xg2 xg3

    0.6931 -0.6931 17.8729

    Degrees of Freedom: 5 Total (i.e. Null); 3 Residual

    Null Deviance: 7.638

    Residual Deviance: 6.592 AIC: 12.59

    La modalit g1 est ici prise comme modalit de rfrence. Le modle estim scrit donc :

    logit P(Y = 1|X = gj) =

    0.6931 si j = 10 si j = 20.6931 + 17.8729 = 18.566 si j = 3.

    Laurent Rouvire Rgression sur variables catgorielles

  • 2.3 Interprtation des coefficients 21

    ou encore

    P(Y = 1|X = gj) =

    exp(0.6931)1+exp(0.6391)

    = 2/3 si j = 1

    1/2 si j = 2exp(18.566)

    1+exp(18.566)= 1.0000 si j = 3.

    2.2.3 Interactions

    Tout comme en analyse de la variance, on ne peut se contenter de modles purement additifs.Reprenons lexemple dvelopp dans Droesbeke et al (2007) (page 122). Nous considrons le caso la variable Y reprsente le fait de faire (cod 1) ou non (cod 0) de la couture. On dispose dedeux variables explicatives : lage et le sexe. Le modle purement additif scrit :

    logit p(x) = 0 + 1age+ 21femme,

    la modalit homme a t choisie comme modalit de rfrence. Une telle criture revient supposerque les pentes sont identiques pour les hommes et les femmes (voir Figure 2.2).

    Hommes

    Femmes

    age

    Fig. 2.2 Modle additif.

    Hommes

    Femmes

    age

    Fig. 2.3 Modle avec interaction.

    Sachant que les hommes font trs rarement de la couture, il parait prfrable de pouvoir utiliserun modle du genre (voir Figure 2.3) :

    logit p(x) = 0 + 1age+ 21femme + 3age1femme.

    Ce modle revient considrer linteraction entre les variables age et sexe. On rappelle quedeux variables interagissent si leffet de lune sur Y diffre suivant les valeurs de lautre. Bienentendu, lajout dune interaction augmente la dimension explicative du modle. Le nombre decomposantes supplmentaires sobtient en faisant le produit du nombre de dimensions des variablesqui interagissent (ici les variables sexe et age sont de dimension 1, on rajoute donc une dimension).

    2.3 Interprtation des coefficients

    Nous avons reprsent sur la Figure 2.4 plusieurs reprsentations de la fonction x 7 exp(x)1+exp(x)

    pourdiffrentes valeurs de . On remarque que : pour de faibles valeurs de on a une large plage de valeurs de x pour lesquelles la fonction sesitue aux alentours de 0.5 (la fonction est mme constante (0.5) dans le cas extrme = 0).Pour ces valeurs P(Y = 1|X = x) sera proche de 0.5 et on peut donc penser quil sera difficilede discriminer ;

    Rgression sur variables catgorielles Laurent Rouvire

  • 22 Analyse discriminante logistique

    0.2

    0.8

    0.0

    1.0

    0.0

    1.0

    0.3

    0.7

    = 0 = 0.5

    = 2 = 10

    Fig. 2.4 P(Y = 1|X = x) pour diffrentes valeurs de .

    lorsque augmente, la zone o la fonction est proche de 0.5 diminue et la fonction est prochede 0 ou 1 pour un grand nombre de valeurs de x. Par consquent, P(Y = 1|X = x) sera souventproche de 1 ou 0, ce qui risque de minimiser dventuelles erreurs de prdictions.

    On peut interprter ainsi : plus est grand, mieux on discrimine. Cependant une telle interpr-tation dpend des valeurs que x prend (de son chelle). Cest pourquoi en gnral linterprtationdes coefficients seffectue en terme dodds ratio. Les odds ratio sont des outils souvent apprcisdans le domaine de lpidmiologie (mais pas toujours bien utiliss !).

    Les odds ratio servent mesurer leffet dune variable continue ou le contraste entre les effetsdune variable qualitative. Lide gnrale est de raisonner en terme de probabilits ou de rapportde cotes (odds). Si on a, par exemple, une probabilit p = 1/4 de gagner un jeu, cela signifieque sur 4 personnes une gagne et les trois autres perdent, soit un rapport de 1 gagnant sur troisperdants, cest--dire p/(1 p) = 1/3. Ce rapport p/(1 p) varie entre 0 (0 gagnant) et linfini(que des gagnants) en passant par 1 (un gagnant pour un perdant).

    Dfinition 2.2Lodds (chance) pour un individu x dobtenir la rponse Y = 1 est dfini par :

    odds(x) =p(x)

    1 p(x) , o p(x) = P(Y = 1|X = x).

    Lodds ratio (rapport des chances) entre deux individus x et x est

    OR(x, x) =odds(x)

    odds(x)=

    p(x)1p(x)

    p(x)1p(x)

    .

    Les odds ratio peuvent tre utiliss de plusieurs manires :

    1. Comparaison de probabilits de succs entre deux individus (voir Tableau 2.1) ;

    Laurent Rouvire Rgression sur variables catgorielles

  • 2.4 Prcision des estimations et tests 23

    OR(x, x) > 1 p(x) > p(x)OR(x, x) = 1 p(x) = p(x)OR(x, x) < 1 p(x) < p(x)

    Tab. 2.1 Rgles dinterprtation des odds ratio.

    2. Interprtation en terme de risque relatif : dans le cas o p(x) et p(x) sont trs petitspar rapport 1, comme dans le cas dune maladie trs rare, alors on peut approximer lodd-ratio comme OR(x, x) p(x)/p(x) et interprter simplement. Par exemple si OR(x, x) = 4alors la rponse (maladie) est 4 fois plus probable dans le cas o X = x que dans le cas oX = x.

    3. Mesure de limpact dune variable : pour le modle logistique

    logit p(x) = 0 + 1x1 + . . .+ pxp,

    il est facile de vrifier que

    OR(x, x) = exp(1(x1 x1)) . . . exp(p(xp xp)).Pour tudier linfluence dune variable sur lodds ratio, il suffit de considrer deux observationx et x qui diffrent uniquement par la jme variable. On obtient alors

    OR(x, x) = exp(j(xj xj)).Ainsi une variation de la jme variable dune unit (sur lchelle de cette variable) correspond un odds ratio exp(j) qui est uniquement fonction du coefficient j. Le coefficient j permetde mesurer linfluence de la jme variable sur le rapport p(x)/(1 p(x)) lorsque xj variedune unit, et ceux indpendamment de la valeur de xj. Une telle analyse peut se rvlerintressante pour tudier linfluence dun changement dtat dune variable qualitative.

    Exemple 2.2Considrons lexemple o lon souhaite expliquer le fait davoir une mention au bac par la moyenneen math sur les deux premiers trimestres. On note Y la variable alatoire qui prend pour valeur 1 si lindividu a obtenu une mention, 0 sinon ; X1 la moyenne de lindividu en question au cours des deux premiers trimestres.Le modle logistique scrit

    logit p(x) = 0 + 1x1.

    On trouve une estimation de 1 gale log 2. Pour une note x1 fixe, le modle donne p(x) = 1/4(on rappelle que x = (1,x1)). On a donc odds(x) = 1/3 soit un rapport dune mention pour 3non mention (pour la note x1). Si on considre des individu ayant obtenu la note x1 + 1, il fautmultiplier lodds par 2 : odds(x) = 2/3 avec x = (1,x1 + 1).

    2.4 Prcision des estimations et tests

    2.4.1 Loi asymptotique

    Nous avons obtenu dans la proposition 1 le comportement asymptotique de lestimateur du maxi-mum de vraisemblance :

    n( ) N (0, I()1),

    Rgression sur variables catgorielles Laurent Rouvire

  • 24 Analyse discriminante logistique

    o I() est la matrice dinformation de Fisher au point :

    I()ij = E[ 2ij

    LY ()],

    et LY () dsigne la log-vraisemblance de au point Y . Un tel rsultat nest pas utilisable tel quelpuisque la matrice I() est inconnue. Dans la pratique, cette matrice est estime comme suit :

    I()ij = 1n

    nk=1

    2

    ijLYi() =

    1

    n

    2

    ij

    nk=1

    LYi() = 1

    n

    2

    ijL(),

    o L() est dfini par (2.2). tant inconnu, lestimateur de la matrice dinformation de Fisherest donn par :

    I() = 1n(XW X).

    2.4.2 Intervalles de confiance

    On dduit facilement du paragraphe prcdent quun estimateur de la variance de j est donne

    par le jme terme de la diagonale de (XW X)1. Notons 2j cet estimateur. On dduit que j/jsuit asymptotiquement une loi N (j, 1). Un intervalle de confiance de niveau 1 pour j estdonc donn par

    IC(j) =[j u1/2j; j + u1/2j

    ],

    o u1/2 reprsente le quantile de niveau (1 /2) de la loi normale N (0, 1).La validit de ces intervalles est toute relative puisquil sagit dune approximation valable asymp-totiquement. Il est toujours possible de complter cette tude par un bootstrap afin dobtenirdautres intervalles de confiance dans le cas ou ceux-ci sont particulirement importants. Cela dit,en pratique, on se contente de lintervalle de confiance bti grce la matrice dinformation deFisher.

    2.4.3 Tests de nullit de q coefficients libres

    La thorie du maximum de vraisemblance nous donnant la loi (asymptotique) des estimateurs,il est possible de tester la significativit des variables explicatives. Pour cela, trois tests sontgnralement utiliss : Le test de Wald ; Le test du score ; Le test du rapport de vraisemblance ou de la dviance.Les hypothses scrivent :

    H0 : j1 = j2 = . . . = jq = 0 contre H1 : k {1, . . . , q} : jk 6= 0.Sous H0 les trois statistiques de test suivantes suivent asymptotiquement une loi du

    2 q degrsde libert : Statistique du test de Wald :

    (Q)(QI1n ()Q)1Q,o In() = nI() et Q est la matrice q (p+ 1) telle que Q = (j1, . . . , jq).

    Laurent Rouvire Rgression sur variables catgorielles

  • 2.5 Un exemple avec R 25

    Statistique du score :S(H0)

    I10 (H0)S(H0),o S est la fonction de score dfinie par 2.3 (page 16) et I10 (H0) et H0 sont respectivementles estimateurs de n fois la matrice dinformation de Fisher et du maximum de vraisemblancesous la contrainte H0.

    Statistique de la dviance :2[L(H0) L()].

    H0 est rejet au profit de H1 ds que ces statistiques dpassent le fractile dordre 1 de la loi du2 q degrs de libert. La figure 2.5 permet de visualiser les trois tests. Le test du score revient tester que la pente en H0 ( sous H0) est nulle, le test de Wald que lcart entre et H0 estnul et le test du rapport de vraisemblance que lcart entre les vraisemblances de ces deux pointsest nul.

    0

    0

    max

    Test du rapport des vraisemblances

    Test du score

    Test de Wald

    Log-vraisemblance

    Fig. 2.5 Rapport de vraisemblance, score, test de Wald.

    Remarque La PROC LOGISTIC sous SAS ralise les trois tests pour H0 : 1 = 2 = . . . = p = 0. Pour les tests variable par variable ou paramtre par paramtre

    H0 : j = 0 contre H1 : j 6= 0,la PROC LOGISTIC utilise le test de Wald.

    2.5 Un exemple avec R

    Le traitement du cancer de la prostate change si le cancer a atteint ou non les neuds lymphatiquesentourant la prostate. Pour viter une investigation lourde (ouverture de la cavit abdominale) uncertain nombre de variables sont considres comme explicative de la variable Y binaire : Y = 0le cancer na pas atteint le rseau lymphatique, Y = 1 le cancer a atteint le rseau lymphatique.Le but est dexpliquer Y par les variables suivantes :

    Rgression sur variables catgorielles Laurent Rouvire

  • 26 Analyse discriminante logistique

    ge du patient au moment du diagnostic : age ; le niveau dacide phosphatase srique : acide ; Le rsultat dune analyse par rayon X, 0= ngatif, 1=positif : rayonx ; La taille de la tumeur, 0=petite, 1=grande : taille ; Ltat pathologique de la tumeur dtermine par biopsie (0=moyen, 1=grave) : grade ; Le logarithme nprien du niveau dacidit : log.acid.

    age acide rayonx taille grade log.acid.

    1 66 0.48 0 0 0 -0.73396918

    2 68 0.56 0 0 0 -0.57981850

    3 66 0.50 0 0 0 -0.69314718

    4 56 0.52 0 0 0 -0.65392647

    5 58 0.50 0 0 0 -0.69314718

    6 60 0.49 0 0 0 -0.71334989

    7 65 0.46 1 0 0 -0.77652879

    8 60 0.62 1 0 0 -0.47803580

    9 50 0.56 0 0 1 -0.57981850

    10 49 0.55 1 0 0 -0.59783700

    Tab. 2.2 Reprsentation des dix premiers individus.

    2.5.1 Modles simples

    Nous sommes en prsence de 6 variables explicatives X1, . . . ,X6 avec : X1, X2 et X6 quantitatives ; X3, X4 et X5 qualitatives (2 niveaux pour chacune).

    Premier modle

    Considrons tout dabord les trois variables explicatives qualitatives X = (X3,X4,X5) :

    logit P(Y = 1|X = x) = 0 + 31{x3=1} + 41{x4=1} + 51{x5=1}.Ce modle possde 4 paramtres. Les sorties du logiciel R sont :

    > model_quali model_quali

    Call: glm(formula = Y ~ rayonx + taille + grade, family = binomial, data = donnees)

    Coefficients:

    (Intercept) rayonx1 taille1 grade1

    -2.1455 2.0731 1.4097 0.5499

    Degrees of Freedom: 52 Total (i.e. Null); 49 Residual

    Null Deviance: 70.25

    Residual Deviance: 52.78 AIC: 60.78

    Si par exemple (x3,x4,x5) = (1, 0, 1), on aura alors :

    logit P(Y = 1|X = x) = 0 + 3 + 5 = 2.1455 + 2.0731 + 0.5499 = 0.4785

    Laurent Rouvire Rgression sur variables catgorielles

  • 2.5 Un exemple avec R 27

    et

    P(Y = 1|X = x) = exp(0.4785)1 + exp(0.4785)

    = 0.6174.

    Ainsi, dans un contexte de prvision, nous assignerons le label 1 la nouvelle observation x.

    Deuxime modle

    Considrons maintenant le modle uniquement compos de variables quantitatives,

    logit P(Y = 1|X = x) = 0 + 1x1 + 2x2 + 6x6.> model_quanti model_quanti

    Call: glm(formula = Y ~ age + acide + log.acid., family = binomial, data = donnees)

    Coefficients:

    (Intercept) age acide log.acid.

    12.34700 -0.02805 -9.96499 10.54332

    Degrees of Freedom: 52 Total (i.e. Null); 49 Residual

    Null Deviance: 70.25

    Residual Deviance: 59.95 AIC: 67.95

    Troisime modle

    Le modle complet 6 variables scrit

    logit P(Y = 1|X = x) = 0 + 1x1 + 2x2 + 31{x3=1} + 41{x4=1} + 51{x5=1} + 6x6.> model_complet model_complet

    Call: glm(formula = Y ~ ., family = binomial, data = donnees)

    Coefficients:

    (Intercept) age acide rayonx1 taille1 grade1

    10.08672 -0.04289 -8.48006 2.06673 1.38415 0.85376

    log.acid.

    9.60912

    Degrees of Freedom: 52 Total (i.e. Null); 46 Residual

    Null Deviance: 70.25

    Residual Deviance: 44.77 AIC: 58.77

    2.5.2 Encore dautres modles...

    Comme dans le cas du le modle linaire on peut galement considrer des interactions entre lesvariables explicatives. Gnralement, on dit quil y a interaction entre deux facteurs F1 et F2 surune variable Y si leffet de lun des facteurs diffre selon la modalit de lautre. Remarquons quecette notion na rien voir avec celle de corrlation qui ne concerne que deux variables alors quelinteraction met en jeu une troisime variable Y .

    Rgression sur variables catgorielles Laurent Rouvire

  • 28 Analyse discriminante logistique

    Exemple 2.3 (Construction dinteraction)On sintresse leffet de deux traitements X1 et X2 sur le rhume. Le traitement X1 consiste prendre intervalle de temps rguliers deux verres de cognac et X2 reprsente un traitement auxantibiotiques (il nest pas difficile de comprendre lintrt denvisager une interaction). La variablerponse Y correspond ltat du patient (1 si malade, 0 si bonne sant). Nayant pas encore trouvsuffisamment de volontaires pour raliser ltude, on simule un chantillon suivant le modle

    1. deux facteurs X1 et X2 deux niveaux quiprobables ;

    2. la loi de Y conditionnellement X1 et X2 est donne dans le tableau 2.3.

    0 1

    0 B(0.95) B(0.05)1 B(0.05) B(0.95)

    Tab. 2.3 Loi de Y (B dsigne la loi de Bernoulli).

    On estime les pourcentages de mal classs sur un chantillon indpendant (voir section 3.1.4) eton reporte dans le tableau suivant les pourcentages de mal classs pour les modles sans et avecinteraction. Nous voyons lintrt dinclure une interaction pour cet exemple.

    Sans 0.54

    Avec 0.065

    Tab. 2.4 Pourcentages de mal classs.

    Pour lexemple du cancer de la prostate, le modle avec toutes les interactions dordre 2 scrit :

    > model_inter model_inter

    Call: glm(formula = Y ~ .^2, family = binomial, data = donnees)

    Coefficients:

    (Intercept) age acide rayonx1

    2.843e+17 -4.229e+15 -3.117e+17 -5.453e+16

    taille1 grade1 log.acid. age:acide

    2.516e+16 -5.778e+15 2.026e+17 4.665e+15

    age:rayonx1 age:taille1 age:grade1 age:log.acid.

    2.077e+13 -5.245e+13 -1.670e+14 -2.869e+15

    acide:rayonx1 acide:taille1 acide:grade1 acide:log.acid.

    5.572e+16 -2.420e+16 2.336e+16 -5.687e+15

    rayonx1:taille1 rayonx1:grade1 rayonx1:log.acid. taille1:grade1

    1.129e+15 -1.176e+15 -4.004e+16 -5.496e+15

    taille1:log.acid. grade1:log.acid.

    8.625e+15 -1.228e+16

    Degrees of Freedom: 52 Total (i.e. Null); 31 Residual

    Null Deviance: 70.25

    Residual Deviance: 504.6 AIC: 548.6

    Laurent Rouvire Rgression sur variables catgorielles

  • 2.5 Un exemple avec R 29

    On peut vrifier que ce modle ncessite lestimation de 22 paramtres (1+6+(62

    )). Bien entendu,

    dautres sous-modles avec interactions peuvent tre utiliss. De plus, nous pouvons nous demandersi toutes les variables sont bien explicatives ? Ds lors, des mthodes slection et validation demodles doivent tre envisages.

    Rgression sur variables catgorielles Laurent Rouvire

  • Chapitre 3

    Slection et validation de modles

    Ce chapitre se divise en deux parties :

    1. Slection : Etant donns M modles M1, . . .MM , comment choisir le meilleur partirde lchantillon dont on dispose.

    2. Validation : Est-ce que le modle slectionn est bon ? En statistique cette question peuttre aborde de diffrentes faons : Est-ce que la qualit dajustement globale est satisfaisante : le modle dcrit-il bien lesvaleurs observes ? Ce type de question fait lobjet des tests dajustement ou dadquation (goodness of fit). Lajustement peut tre aussi regard observation par observation (individus aberrants)par des mthodes graphiques (analyse des rsidus) ou analytiques.

    Est-ce que les hypothses sont vrifies ? Les mthodes sont essentiellement graphiques(analyse des rsidus).

    Linfluence des observations sur lestimation des paramtres peut tre aussi envisage (dis-tance de Cook, robustesse).

    Dans ce chapitre nous allons traiter ces questions travers lexemple du modle logistique. Len-semble des mthodes prsentes peut stendre dautres problmatiques de slection-validationde modles.

    3.1 Slection ou choix de modle

    Si on se restreint des modles logistiques, slectionner un modle revient choisir les variables(interactions inclues) qui vont constituer le modle.

    3.1.1 Un outil spcifique : la dviance

    Il est difficile de se faire une ide sur lajustement en se basant sur la valeur vraisemblance puis-quelle dpend (entre autres) de la taille de lchantillon. Pour la rgression logistique, un outilspcifique est introduit : la dviance. Elle compare la vraisemblance obtenue celle dun modlede rfrence : le modle complet (ou modle satur). Ce modle possde autant de paramtres quede points du design et vrifie : Psat(Y = yi|X = xi) = 1 si on est en prsence de donnes individuelles. Psat(Y = yi|X = xi) = yt o yt = st/nt, st dsignant le nombre de succs au point xt et nt lenombre de rptitions au point xt, si on est en prsence de donnes rptes.

    Rgression sur variables catgorielles Laurent Rouvire

  • 32 Slection et validation de modles

    Ce modle est le modle le plus complexe (en terme de nombre de coefficients) puisquil proposeun coefficient diffrent pour chaque point du design. Tous les autres modles sont embots danscelui-ci.

    La dviance est dfinie par :

    D = 2 (Lsature L()) 0.La dviance est gal 2 fois une diffrence de vraisemblance. Elle constitue un cart en terme delog-vraisemblance entre le modle satur dajustement maximum et le modle considr.

    -

    Ajustementparfait

    0 Dviance

    bon moyen mauvais Qualit dajustement

    On rappelle que pour des donnes individuelles la log-vraisemblance scrit

    L() = log{

    ni=1

    P(Y = yi|X = xi)}

    =ni=1

    yi log(pi) + (1 yi) log(1 pi).

    Pour le modle satur, il nexiste aucune incertitude et la probabilit estime par le modle aupoint X = xi est donc 1 pour le groupe observ et 0 sinon :

    P(Y = j|X = xi) ={

    1 si yi = j0 sinon.

    ou encore P(Y = yi|X = xi) = 1.

    Par consquent Lsature = 0 et la dviance est gale deux fois loppos de la log-vraisemblance.RemarqueSi maintenant plusieurs observations sont effectues au mme point du design (voir annexe A.3),la log vraisemblance du modle logistique scrit :

    L() =Tt=1

    log

    (ntst

    )+

    Tt=T

    nt {yt log(p(xt)) + (1 yt) log(1 p(xt))}

    o nt et st dsignent respectivement le nombres dobservations et de succs au point xi. Le modlesatur vrifie

    P(Y = 1|X = xt) = yt, o yt = st/nt,par suite,

    Lsature =Tt=1

    log

    (ntst

    )+

    Tt=1

    nt {yt log(yt) + (1 yt) log(1 yt)}

    La dviance est donc gale

    D = 2Tt=1

    nt

    (yt log

    ytp(xt)

    + (1 yt) log 1 yt1 p(xt))

    ).

    Laurent Rouvire Rgression sur variables catgorielles

  • 3.1 Slection ou choix de modle 33

    Exemple 3.1 (calcul de dviance)Considrons lexemple du cancer de la prostate et calculons dabord la dviance pour le modleY~age+acide. Nous somme ici en prsence de donnes individuelles, on obtient la dviance via lescommandes :

    > mod1 #calcul de la vraisemblance

    > prev vrais vrais[donnees$Y==1] vrais[donnees$Y==0] vrais dev dev

    [1] 65.72393

    Bien entendu, le logiciel peut retourner directement la valeur de la dviance

    > mod1$deviance

    [1] 65.72393

    Si maintenant on considre le modle Y~age+taille, nous somme en prsence de donnes rptes.Les donnes se trouvent dans le fichier donnees_bin_age_taille.txt dont voici les premireslignes :

    "age" "taille" "Y1" "Y0"

    49 "0" 0 1

    50 "0" 1 0

    51 "0" 0 2

    52 "0" 0 1

    56 "0" 1 3

    58 "0" 0 2

    Les deux premires colonnes reprsentent les valeurs des variables explicatives. On retrouve ensuite(colonne Y1) le nombre de rponses Y=1 et (colonne Y0) le nombre de rponses Y=0. Le modle estconstruit via la commande :

    > donnees1 model1 prev ni ti ybi #calcul des termes combinatoires (facultatif)

    > vect_comb for (i in 1:nrow(donnees1)){

    Rgression sur variables catgorielles Laurent Rouvire

  • 34 Slection et validation de modles

    + vect_comb[i] vect vrais_model1 #modele sature

    > vect_sat vect_sat[is.na(vect_sat)] vrais_modelsat #on deduit la deviance

    > 2*(vrais_modelsat-vrais_model1)

    [1] 37.15260

    On retrouve cette valeur directement

    > model1$deviance

    [1] 37.15260

    3.1.2 Test de dviance entre 2 modles embots

    Rappelons que par dfinition un modle est embot dans un autre plus gnral (ou plus grand)lorsquil est un cas particulier de ce modle plus gnral.

    Exemple 3.2Dans le cas de la rgression simple, le modle

    y = 0 + 1x1 + ,

    est un cas particulier du modle

    y = 0 + 1x1 + 2x2 + .

    En effet il suffit de poser que 2 = 0 dans le second modle pour retrouver le premier.

    Exemple 3.3On a la mme notion de modles embots pour la rgression logistique. Par exemple, les modles

    logit (P(Y = 1|X = x)) = 0 + 1x1 + 2x2et

    logit (P(Y = 1|X = x)) = 0 + 1x1 + 2x2 + 3x3sont embots lun dans lautre.

    Pour comparer deux modles embots M1 M2 nous allons comparer leur dviance D1 et D2.On a alors deux cas : La diffrence est grande le fait de passer dun modle simple (petit) un modle plus complexe(plus gnral ou plus grand) a donc apport un cart de dviance significatif le modle plusgnral est acceptable.

    La diffrence est faible le modle simple et celui plus complexe sont voisins et par souci deparcimonie le modle simple est conserv.

    Laurent Rouvire Rgression sur variables catgorielles

  • 3.1 Slection ou choix de modle 35

    Il nous faut bien entendu dterminer un seuil partir duquel on pourra dire que la diffrence dedviance est petite ou grande. Pour ce faire, on construit un test dans lequel nous allons chercherla loi de la diffrence de dviance sous H0 (lhypothse selon laquelle le modle simple est vrai).

    Comparer les dviances des deux modles candidats revient comparer leurs vraisemblances. Parsuite, sous les mmes hypothses que celles de la proposition 1, D = D1 D2 = Dpetit Dgrandsuit asymptotiquement une loi du 2 p2 p1 degrs de libert o p1 est le nombre de paramtresdu modle simple et p2 celui du modle complexe. Le test se droule alors de la manire classique

    1. Les hypothses sont fixes H0 le modle simple p1 paramtres est adquat ; H1 le modle complexe p2 paramtres est adquat.

    2. est choisi (en gnral 5% ou 1%)

    3. Lobservation de D est calcule, notons la Dobs

    4. Calcul du quantile de niveau (1 ) de la loi du 2(p2 p1), not q1(p2 p1). Si Dobs > q1(p2 p1) alors H0 est repouss au profit de H1, le modle M1 sera alorsrejet au profit du modle M2.

    Si Dobs q1(p2 p1) alors H0 est conserv, le modle M1 est slectionn..

    3.1.3 Critre de choix de modles

    Le test que nous venons dtudier permet de slectionner un modle parmi deux modles embots.Or, partir de p variables explicatives, il est possible de construire un grand nombre de modleslogistiques qui ne sont pas forcment embots. Lutilisation dun simple test de dviance se rvlealors insuffisante. On a recours des critres de choix de modles qui permettent de comparer desmodles qui ne sont pas forcment embots les uns dans les autres.

    Les critres AIC et BIC sont les plus utiliss. Ces critres sont bass sur la philosophie suivante :plus la vraisemblance est grande, plus grande est donc la log-vraisemblance et meilleur est lemodle. Cependant la vraisemblance augmente avec la complexit du modle, et choisir le modlequi maximise la vraisemblance revient choisir le modle satur. Ce modle est clairement sur-paramtr, il sur-ajuste les donnes (overfitting).

    Exemple 3.4On considre un chantillon de taille n = 100 simul suivant le modle :

    Xi N (0, 1), Ui U [0, 1], et Yi ={

    1Ui0.25 si Xi 01Ui0.25 si Xi 0

    Les donnes sont reprsentes sur la figure 3.1 : environ 3/4 des labels valent 0 pour les valeurs deXi ngatives et 1 pour les valeurs positives. Le modle satur ajuste parfaitement les observations.Nous voyons cependant quil est difficile, pour ne pas dire impossible utiliser dans un contextede prvision. De plus le modle satur possde ici n = 100 paramtres tandis que le modlelogistique nen possde que 2. Ceci est nettement plus avantageux pour expliquer Y dun point devue descriptif.

    Pour choisir des modles plus parcimonieux, une stratgie consiste pnaliser la vraisemblancepar une fonction du nombre de paramtres.

    Rgression sur variables catgorielles Laurent Rouvire

  • 36 Slection et validation de modles

    Par dfinition lAIC (Akaike Informative Criterion) pour un modle p paramtres est

    AIC = 2L+ 2p.

    Le critre de choix de modle le BIC (Bayesian Informative Criterion) pour un modle pparamtres estims sur n observations est dfini par

    BIC = 2L+ p log(n).

    On choisira le modle qui possde le plus petit AIC ou BIC. Lutilisation de ces critres est simple.Pour chaque modle concurrent le critre de choix de modle est calcul et le modle qui prsentele plus faible est slectionn.

    RemarqueRemarquons que certains logiciels utilisent AIC et BIC il est donc prudent de bien vrifierdans quel sens doivent tre optimiss ces critres (maximisation ou minimisation). Ceci peut trefait aisment en comparant un modle trs mauvais (compos uniquement de la constante parexemple) un bon modle et de vrifier dans quel sens varie les critres de choix.

    + +

    +

    +++

    +

    + ++++++

    +

    ++++++

    +

    ++++++++

    +

    +++++++++++

    +

    +++++

    ++++++++++++++++++++

    +

    +++

    +

    + ++

    +

    ++++++++++++

    +

    +

    +

    ++++ + +

    2 0 2

    0.01.0

    X

    Y 0.5

    + +

    +

    +++

    +

    + ++++++

    +

    ++++++

    +

    ++++++++

    +

    +++++++++++

    +

    +++++

    ++++++++++++++++++++

    +

    +++

    +

    + ++

    +

    ++++++++++++

    +

    +

    +

    ++++ + +

    2 0 2

    0.01.0

    X

    Y

    2 0 2

    0.01.0

    X

    Y

    2 0 2

    0.01.0

    0.5

    Fig. 3.1 Gauche : Reprsentation des observations (gauche). Droite : Trac des modles saturs(pointills) et logistique (trait plein).

    3.1.4 Apprentissage/validation

    Un moyen naturel de slectionner un modle consisterait :

    1. estimer les pourcentages de mal classs de tous les modles candidats laide de lchantillon ;

    2. choisir le modle qui possde la plus petite estimation.

    Dans le cas dobservations binaires, un estimateur du pourcentage de mal classs est

    1

    n

    ni=1

    1{Yi(j) 6=Yi},

    Laurent Rouvire Rgression sur variables catgorielles

  • 3.1 Slection ou choix de modle 37

    o Yi(j) dsigne la ime prdiction (celle associe Xi) du j

    me modle.

    Nous avons vu que le modle satur ajuste de manire parfaite les donnes, ce qui signifie queson pourcentage de mal classs est nul. Lutilisation dun tel critre semble alors peu pertinente.La faiblesse de ce critre tient du fait que le mme chantillon (x1, y1), . . . , (xn, yn) est utilis pour : construire le modle (estimer ses paramtres) ; estimer le taux derreurs.Ceci introduit un biais dans lestimation du pourcentage de mal classs. La procdure apprentissage-validation saffranchit de ce problme en sparant de manire alatoire les donnes (X1, Y1), . . . , (Xn, Yn)en deux parties distinctes : (Xi, Yi), i I un chantillon dapprentissage de taille ; (Xi, Yi), i Im un chantillon de validation de taille m tel que +m = n,o I Im = {1, . . . , n} et I Im = . Lchantillon dapprentissage est utilis pour construireles modles concurrents (pour estimer les paramtres des diffrents modles logistiques envisags).Lchantillon de validation est ensuite utilis pour estimer les pourcentages de mal classs desdiffrents modles. Plus prcisment, une fois les paramtres des diffrents modles estims, chaquemodle est appliqu sur les individus du deuxime chantillon. Pour chaque modle j nous obtenonsune prvision pour chaque observation i de lchantillon de validation Yi(j). Cette prvision estensuite compare la valeur observe Yi. Le pourcentage de mal classs est alors estim par (voirfigure 3.2) :

    MC(j) =1

    m

    iIm

    1{Yi(j) 6=Yi}.

    On choisira bien entendu le modle pour lequel le critreMC sera minimum. Si les modles concur-rents sont tous des modles logistiques, nous avons pour chaque modle j et chaque observation ide lchantillon Im une estimation de la probabilit :

    Pj(Y = 1|X = xi).

    Une prvision peut tre obtenue suivant la rgle

    Yi(j) =

    {1 si Pj(Y = 1|X = xi) > 0.50 sinon.

    Le tableau 3.1 compare les pourcentages de mal classs des modles satur et logistique de lexemplede la figure 3.1. La procdure qui utilise un seul chantillon pour calculer le taux de mal classs vaainsi slectionner le modle satur, ce nest pas le cas de la procdure Apprentissage-Validation quifournit des estimations des taux derreurs plus prcises et qui slectionnera le modle logistique.

    Satur Logistique

    Sans AV 0 0.146avec AV 0.244 0.160

    Tab. 3.1 Pourcentages de mal classs des modles saturs et logistique de lexemple de la Figure 3.1avec et sans la procdure apprentissage-validation (les deux chantillons de mme taille)

    Cette procdure semble la plus indique pour choisir un modle. Il faut nanmoins la nuancer carelle requiert beaucoup de donnes

    Rgression sur variables catgorielles Laurent Rouvire

  • 38 Slection et validation de modles

    Validation

    X

    Y

    YSparation

    Valeurs observes

    Toutes les variables

    Donnes de dpart

    Apprentissage

    Uniquement les X

    Y

    Estimations des modlesconcurrents

    Valeurs prdites (pour tous les modles concurrents)

    Fig. 3.2 Procdure dapprentissage/validation.

    dans lchantillon dapprentissage pour estimer le modle et ainsi ne pas trop pnaliser lesmodles avec beaucoup de variables dont les coefficients seront moins bien estims ;

    dans lchantillon de validation pour bien valuer la capacit de prvision.

    De plus il nexiste pas de rgle pour choisir les tailles des deux chantillons.

    3.1.5 Validation croise

    Lorsque lon na pas assez de donnes pour lapprentissage/validation, on peut avoir recours uneprocdure de validation croise. Le principe est de moyenner le pourcentage de mal classs laide de plusieurs dcoupages de lchantillon. Plus prcisment, on divise lchantillon initial enK sous chantillons Ek de mme taille et on effectue K procdures apprentissage-validation pourlesquelles :

    lchantillon test sera constitu dune division Ek ; lchantillon dapprentissage sera constitu de lensemble des autres divisions EEk (voir figure3.3).

    On obtient ainsi une prvision pour chaque individu de la division Ek et une fois les K procduresapprentissage-validation effectues, on a une prvision pour tous les individus de lchantillon.Il suffit alors de comparer ces prvisions aux valeurs observes pour obtenir une estimation dupourcentage de mal classs. Le modle retenu sera le modle qui conduit lestimation minimale.

    Bien entendu le choix du nombre K parties nest pas anodin.

    Plus K est faible, plus la capacit de prvision sera value dans de nombreux cas puisque lenombre dobservations dans la validation sera lev, mais moins lestimation sera prcise ;

    Au contraire, un K lev conduit peu dobservations dans la validation et donc une plusgrande variance dans les pourcentages de mal classs.

    Laurent Rouvire Rgression sur variables catgorielles

  • 3.1 Slection ou choix de modle 39

    E1

    E2

    Ek

    EK

    XY

    Fig. 3.3 Dcoupage de lchantillon pour la validation croise. Lchantillon dapprentissage corres-pond la partie hachure.

    RemarqueSous R, la librairie boot permet destimer le pourcentage de mal classes par validation croise.Si, par exemple, on considre le modle compos des 6 variables explicatives sur les donnes ducancer de la prostate, on obtient :

    > modele library(boot)

    > cout 0.5))}

    > cv.glm(donnees,modele,cout)$delta[1]

    1

    0.3396226

    3.1.6 Slection automatique

    Les procdures que nous venons dtudier permettent de slectionner un modle partir dunefamille de modles donne. Une autre approche de la slection de modle consiste chercherparmi les variables X1, . . . ,Xp, celles qui expliquent le mieux Y . Par exemple, pour la rgressionlogistique, nous pourrions nous poser le problme de chercher le meilleur sous-ensemble des pvariables explicatives pour un critre C donn (AIC, BIC...). Le nombre de sous ensembles dep variables tant 2p, nous serions en prsence de 2p modles logistiques possibles, cest--dire 2p

    modles diffrents. Bien entendu, nous slectionnerions le modle qui optimiserait le critre C.Cependant, dans de nombreuses situations, p est grand et par consquent le nombre de modlesconsidrs est trs grand. Les algorithmes doptimisation du critre C deviennent trs coteuxen temps de calcul. On prfre alors souvent utiliser des mthodes de recherche pas pas.

    Rgression sur variables catgorielles Laurent Rouvire

  • 40 Slection et validation de modles

    Modle courant M0 retenu

    Modle de dpart

    Modle slectionn =M1

    Modle en cours = M0

    Comparaison AIC modele M0 et modele M1

    Choix parmi tous les modles (+ petit AIC)

    AIC M0 moins bon Ajout dun coefficient

    AIC M0 meilleur

    M1 devient M0

    Fig. 3.4 Technique ascendante utilisant lAIC.

    Recherche pas pas, mthode ascendante (forward selection)

    A chaque pas, une variable est ajoute au modle.

    Si la mthode ascendante utilise un test de dviance, nous rajoutons la variable Xj dont la valeurp (probabilit critique) associe la statistique de test de dviance qui compare les 2 modlesest minimale. Nous nous arrtons lorsque toutes les variables sont intgres ou lorsque la valeurp est plus grande quune valeur seuil.

    Si la mthode ascendante utilise un critre de choix, nous ajoutons la variable Xj dont lajout aumodle conduit loptimisation la plus grande du critre de choix. Nous nous arrtons lorsquetoutes les variables sont intgres ou lorsque quaucune variable ne permet loptimisation ducritre de choix (voir aussi Figure 3.4).

    Recherche pas pas, mthode descendante (backward selection)

    A la premire tape toutes les variables sont intgres au modle.

    Si la mthode descendante utilise un test de dviance, nous liminons ensuite la variable Xj dontla valeur p associe la statistique de test de dviance est la plus grande. Nous nous arrtonslorsque toutes les variables sont retires du modle ou lorsque la valeur p est plus petite quunevaleur seuil.

    Si la mthode descendante utilise un critre de choix, nous retirons la variable Xj dont le retraitdu modle conduit laugmentation la plus grande du critre de choix. Nous nous arrtonslorsque toutes les variables sont retires ou lorsque quaucune variable ne permet laugmentationdu critre de choix.

    Laurent Rouvire Rgression sur variables catgorielles

  • 3.1 Slection ou choix de modle 41

    Recherche pas pas, mthode progressive (stepwise selection)

    Idem que lascendante, sauf que lon peut liminer des variables dj introduites. En effet, il peutarriver que des variables introduites au dbut de lalgorithme ne soient plus significatives aprsintroduction de nouvelles variables. Remarquons quen gnral la variable constante est toujoursprsente dans le modle.

    Exemple 3.5Reprenons lexemple des donnes du cancer de la prostate. Nous allons slectionner des modlespar les diffrentes approches pas pas.

    1. Mthode ascendante : le modle initial est constitu uniquement de la variable age.

    > model_age model_asc model_asc

    Call: glm(formula = Y ~ age + rayonx + taille + log.acid., family = binomial,

    data = donnees)

    Coefficients:

    (Intercept) age rayonx1 taille1 log.acid.

    2.65636 -0.06523 2.08995 1.75652 2.34941

    Degrees of Freedom: 52 Total (i.e. Null); 48 Residual

    Null Deviance: 70.25

    Residual Deviance: 47.68 AIC: 57.68

    2. Mthode descendante : le modle initial est ici constitu de toutes les variables (sansinteractions).

    > modelcomplet model_des model_des

    Call: glm(formula = Y ~ acide + rayonx + taille + log.acid., family = binomial,

    data = donnees)

    Coefficients:

    (Intercept) acide rayonx1 taille1 log.acid.

    9.067 -9.862 2.093 1.591 10.410

    Degrees of Freedom: 52 Total (i.e. Null); 48 Residual

    Null Deviance: 70.25

    Residual Deviance: 46.43 AIC: 56.43

    3. Mthode progressive : le modle initial est ici constitu de toutes les variables (sansinteractions).

    > model_pro model_pro

    Call: glm(formula = Y ~ acide + rayonx + taille + log.acid., family = binomial,

    data = donnees)

    Coefficients:

    (Intercept) acide rayonx1 taille1 log.acid.

    Rgression sur variables catgorielles Laurent Rouvire

  • 42 Slection et validation de modles

    9.067 -9.862 2.093 1.591 10.410

    Degrees of Freedom: 52 Total (i.e. Null); 48 Residual

    Null Deviance: 70.25

    Residual Deviance: 46.43 AIC: 56.43

    On peut galement mettre des variables dinteractions parmi les variables candidates.

    > model_pro1 model_pro1

    Call: glm(formula = Y ~ acide + rayonx + taille + grade + log.acid. + taille:grade +

    taille:log.acid. + acide:grade, family = binomial,data = donnees)

    Coefficients:

    (Intercept) acide rayonx1 taille1

    49.385 -49.186 3.135 -2.635

    grade1 log.acid. taille1:grade1 taille1:log.acid.

    1.227 53.329 -14.264 -21.719

    acide:grade1

    17.629

    Degrees of Freedom: 52 Total (i.e. Null); 44 Residual

    Null Deviance: 70.25

    Residual Deviance: 26.47 AIC: 44.47

    Nous voyons sur cet exemple que suivant le choix de la mthode pas pas et du modle initial, lesmodles slectionns diffrent. La slection dun seul modle peut seffectuer en deux temps :

    1. On slectionne un nombre faible (entre 5 et 10 par exemple) de modles candidats via desalgorithmes pas pas ;

    2. On choisit le modle qui minimise un critre de choix (AIC, BIC, ou pourcentage de malclasss).

    Une fois le modle choisi, il est ncessaire de mener une tude plus approfondie de ce dernier quipermettra de le valider ou de laffiner (suppression de points aberrants, analyse des rsidus...).

    3.2 Validation du modle

    3.2.1 Test dadquation par la dviance

    Ce test permet de valider un modle p paramtres. Les hypothses nulle et alternative sont : H0 le modle considr p paramtres est adquat ; H1 le modle considr p paramtres nest pas adquat.Ici, nous allons comparer le modle satur au modle considr au moyen de la dviance. Noussavons que si la dviance est grande, alors le modle considr est loin du modle satur et que par cons-quent il najuste pas bien les donnes ;

    Par contre si la dviance est proche de 0, le modle considr sera adquat.Pour quantifier cette notion de proche de 0 et de grande dviance, la loi de la dviance sousH0 (le modle considr est le vrai modle) va nous tre utile. En effet si H0 est vraie, le modleconsidr est vrai par dfinition. La dviance sera rpartie sur R+ mais avec plus de chance dtre

    Laurent Rouvire Rgression sur variables catgorielles

  • 3.2 Validation du modle 43

    proche de 0. Par contre si H0 nest pas vraie la dviance sera rpartie sur R+ mais avec plus de

    chance dtre loigne de 0. Il nous faut donc connatre la loi de la dviance sous H0.

    La dviance est une diffrence de log-vraisemblance entre deux modles embots. Il dcoule que lastatistique D suit asymptotiquement une loi du 2(n p) degrs de libert, o p est le nombre deparamtres du modle et n le nombre de points du design. Le test se droule alors de la manireclassique :

    1. Les hypothses sont fixes H0 le modle considr p paramtres est adquat (cette hypothse se traduit par unehypothse qui fixe zro les coefficients prsents dans le modle satur mais pas dans lemodle en question).

    H1 le modle considr p paramtres nest pas adquat

    2. est choisi (en gnral 5% ou 1%)

    3. Lobservation de D est calcule, notons la Dobs

    4. Calcul du quantile de niveau (1 ) de la loi du 2(n p), not q1(n p). Si Dobs > q1(n p) alors H0 est repouss au profit de H1, le modle considr nest pasadquat.

    Si Dobs q1(n p) alors H0 est conserv, le modle considr est adquat.

    0 2 4 6 8 100.00

    0.05

    0.10

    0.15

    0.20

    0.25

    D

    densit

    H0 conserv H0 repouss

    Fig. 3.5 Test de dviance, la droite horizontale reprsente le seuil de rejet Dc = q1(n p).

    RemarqueLa validit de la loi et donc du test nest quasymptotique, il est donc ncessaire davoir un peude recul quant aux conclusions. Ce test ne peut tre utilis uniquement en prsence de donnesrptes. En effet, lapproximation de la loi de la dviance par une loi du 2 est dautant plusvalable lorsque le nombre de rptitions aux points du design est grand. En prsence de donnesindividuelles (aucune rptition sur les points du design), D ne suit pas une loi du 2 : le testdadquation dHosmer Lemeshow est alors conseill.

    3.2.2 Test dHosmer Lemeshow

    Ce test permet de vrifier ladquation dun modle en prsence de donnes individuelles. Il sef-fectue de la manire suivante (voir Hosmer & Lemeshow (2000), chapitre 5).

    1. Les probabilits pi sont ordonnes par ordre croissant (pi est la probabilit P(Y = 1|X = xi)estime par le modle) ;

    Rgression sur variables catgorielles Laurent Rouvire

  • 44 Slection et validation de modles

    2. Ces probabilits ordonnes sont ensuite spares en K groupes de taille gale (on prendsouvent K = 10 si n est suffisamment grand). On note mk les effectifs du groupe k ; ok le nombre de succs (Y = 1) observ dans le groupe k ; k la moyenne des pi dans le groupe k.

    La statistique de test est alors

    C2 =Kk=1

    (ok mkk)2mkk(1 k) .

    Le test se conduit de manire identique au test de dviance, la statistique C2 suivant approxima-tivement un 2 K 1 degrs de libert.

    3.2.3 Analyse des rsidus

    Les diffrents types de rsidus

    A limage de la rgression plusieurs types de rsidus sont proposs par les logiciels. Le premier,le plus simple calculer est tout simplement Yi pi. Ces rsidus sont appels rsidus bruts. Ilspermettent de mesurer lajustement du modle sur chaque observation. Ces rsidus nayant pas lamme variance, ils sont difficiles comparer. En effet, on rappelle que V(Y |X = xi) = pi(1 pi).Par consquent, la variance de tels rsidus risquent dtre leves pour des valeurs de pi prochesde 1/2. Un moyen de pallier cette difficult est de considrer les rsidus de Pearson

    Yi pipi(1 pi)

    . (3.1)

    Par dfinition on standardise les rsidus par la variance thorique de Yi. Cependant, pi tantalatoire, on a V(Yi pi) 6= V(Yi pi). En effet, en notant

    i = Yi pi

    i = Yi pion a

    Hypothses Ralit

    E(i) = 0 E(i) 0

    V(i) = pi(1 pi) V(i) = pi(1 pi)(1 hii)o hii est llment de la i

    me ligne et de la ime colonne de la matrice H = X(XW X)1XW .

    Il est par consquent intressant de considrer la version standardise des rsidus de Pearson

    Yi pipi(1 pi)(1 hii)

    ,

    Les rsidus de dviance sont dfinis par

    signe(Yi pi)

    2(LYi(sature) LYi()),

    Laurent Rouvire Rgression sur variables catgorielles

  • 3.2 Validation du modle 45

    o LYi()) est la log-vraisemblance associe lobservation Yi (et non pas toutes les observations)du modle en question et LYi(sature) son homologue pour le modle satur. L encore pour tenircompte de la variabilit ces rsidus sont standardiss :

    signe(Yi pi)

    2(LYi(sature)(Yi) LYi())1 hii .

    Ces deux types de rsidus de dviance sont ceux qui sont en gnral conseills.

    Examen des rsidus

    Index plot Pour le modle logistique les rsidus de dviance sont souvent prfrs. De nom-breuses tudes exprimentales ont montr quils approchent mieux la loi normale que les rsidusde Pearson. Pour cette raison ces rsidus prennent gnralement des valeurs qui varient entre -2et 2. Nous pourrons construire un index plot pour dtecter des valeurs aberrantes. Ce graphiqueordonne les rsidus en fonction du numro de leur observation. Les points pour lesquels on observeon rsidu lev (hors de [2, 2] par exemple) devront faire lobjet dune tude approfondie.

    > model plot(rstudent(model),type="p",cex=0.5,ylab="Rsidus studentiss par VC")

    > abline(h=c(-2,2))

    0 10 20 30 40 50

    2

    1

    01

    2

    Index

    Rs

    idus

    stu

    dent

    iss

    par V

    C

    2634

    Fig. 3.6 Index plot.

    Graphique prdiction linaire/rsidus Ce graphique qui reprsente X en abscisse et enordonn permet de dtecter les valeurs aberrantes mais aussi les structurations suspectes. Si unestructuration suspecte apparat, il sera peut tre adquat dajouter une nouvelle variable afin deprendre en compte cette structuration. Dans le cas des donnes individuelles ce type de graphiquedonne toujours des structurations (Figure 3.7) et nest donc pas conseiller.

    Rgression sur variables catgorielles Laurent Rouvire

  • 46 Slection et validation de modles

    5 0 5 10

    2

    1

    01

    2

    prvision linaire

    Rs

    idus

    stu

    dent

    iss

    par V

    C

    Fig. 3.7 Graphique prdiction/rsidus pour un modle logistique

    Rsidus partiels Les rsidus partiels sont dfinis par

    P.j =Yi pi

    pi(1 pi) + jX.j

    Lanalyse consiste tracer pour toutes les variables j les points avec en abscisse la variable j eten ordonne les rsidus partiels. Si le trac est linaire alors tout est normal. Si par contre unetendance non linaire se dgage, il faut remplacer la variable j par une fonction de celle ci donnantla mme tendance que celle observe.

    > residpartiels prov ordre plot(donnees$log.acid.,residpartiels[,"log.acid."],type="p",cex=0.5,xlab="",ylab="")

    > matlines(donnees$log.acid.[ordre],predict(prov)[ordre])

    > abline(lsfit(donnees$log.acid.,residpartiels[,"log.acid."]),lty=2)

    Le graphique 3.8 montre quaucune transformation nest ncessaire, les rsidus partiels tant r-partis le long de la droite ajuste.

    Mallows (1986) propose dutiliser les rsidus partiels augments qui dans certaines situations per-mettent de mieux dgager cette tendance. Les rsidus partiels augments pour la jme variablencessitent un nouveau modle logistique identique mis part le fait quune variable explicativesupplmentaire est ajoute : Xp+1 = X

    2j la j

    me variable leve au carr. Le nouveau vecteur decoefficient du modle est estim et les rsidus partiels sont alors dfinis comme

    PA.j =Yi pi

    pi(1 pi) + jX.j + p+1X2.j.

    Lanalyse des diagrammes est identique ceux des rsidus partiels. Pour une analyse plus compltesur lutilisation des rsidus, on pourra se reporter au chapitre 5 de louvrage de Collet (2003).

    Laurent Rouvire Rgression sur variables catgorielles

  • 3.2 Validation du modle 47

    0.5 0.0 0.5

    5

    05

    1015

    20 26

    Fig. 3.8 Rsidus partiels pour la variable log.acid., le trait continu reprsente le rsum liss desdonnes par lestimateur loess, le trait discontinu reprsente lestimateur linaire par moindre carr.

    3.2.4 Points leviers et points influents

    Ces notions sont analogues celles du modle linaire (voir Cornillon & Matzner-Lber (2007),chapitre 4).

    Points leviers

    Par dfinition les points leviers sont les points du design qui dterminent trs fortement leur propreestimation. Nous avons vu que lalgorithme destimation des paramtres effectue chaque tapeune rgression linaire et sarrte lorsque le processus devient stationnaire :

    = (XW X)1XW z,

    et la prdiction linaire est alors

    X = X(XW X)1XW z = Hz,

    o H est une matrice de projection selon la mtrique W . Comme nous transformons X parune fonction monotone, des X extrmes entranent des valeurs de p extrmes. Nous allons doncutiliser la mme mthode de diagnostic que celle de la rgression simple avec une nouvelle matricede projection H. Pour la ime prdiction linaire nous avons

    [X]i = Hiizi +j 6=i

    Hijzj.

    Si Hii est grand relativement aux Hij, j 6= i alors la ime observation contribue fortement laconstruction de [X]i. On dira que le poids de lobservation i sur sa propre estimation vaut hii.

    Comme H est un projecteur nous savons que 0 Hii 1. Nous avons alors les cas extrmessuivants : si Hii = 1, pi est entirement dtermin par Yi car hij = 0 pour tout j. si Hii = 0, Yi na pas dinfluence sur pi.

    Rgression sur variables catgorielles Laurent Rouvire

  • 48 Slection et validation de modles

    La trace dun projecteur tant gale la dimension du sous espace dans lequel on projette, on atr(H) =

    iHii = p + 1. Donc en moyenne Hii vaut (p + 1)/n. Pour dire que la valeur de Hii

    contribue trop fortement la construction de pi, il faut un seuil au del duquel le point est unpoint levier. Par habitude, si Hii > 2p/n ou si Hii > 3p/n alors le i

    me point est dclar comme unpoint levier.

    En pratique un trac de Hii est effectu et lon cherche les points dont le Hii est suprieur 3(p + 1)/n ou 2(p + 1)/n. Ces points sont leviers et leur valeur influe fortement sur leur propreprvision.

    > p n plot(influence(model)$hat,type="h",ylab="hii")

    > seuil1 abline(h=seuil1,col=1,lty=2)

    > seuil2 abline(h=seuil2,col=1,lty=3)

    0 10 20 30 40 50

    0.0

    0.1

    0.2

    0.3

    0.4

    0.5

    Index

    hii

    34

    9

    Fig. 3.9 Points leviers.

    Points influents

    Les points influents sont des points qui influent sur le modle de telle sorte que si on les enlve, alorslestimation des coefficients sera fortement change. La mesure la plus classique dinfluence est ladistance de Cook. Il sagit dune distance entre le coefficient estim avec toutes les observations etcelui estim avec toutes les observations sauf une. La distance de Cook pour lindividu i est dfiniepar

    Di =1

    p+ 1((i) )XW X((i) ) r

    2PiHii

    (p+ 1)(1Hii)2 ,

    o rPi est le rsidu de Pearson pour le ime individu.

    Les distances de Cook sont gnralement reprsentes comme sur la figure 3.10. Si une distancese rvle grande par rapport aux autres, alors ce point sera considr comme influent. Il convientalors de comprendre pourquoi il est influent, soit

    Laurent Rouvire Rgression sur variables catgorielles

  • 3.2 Validation du modle 49

    il est levier ; il est aberrant ; (les deux !)Dans tous les cas il convient de comprendre si une erreur de mesure, une diffrence dans la popu-lation des individus est lorigine de ce phnomne. Eventuellement pour obtenir des conclusionsrobustes il sera bon de refaire lanalyse sans ce(s) point(s).

    0 10 20 30 40 50

    0.0

    0.2

    0.4

    0.6

    0.8

    Index

    Dis

    tanc

    e de

    Coo

    k34

    Fig. 3.10 Distances de Cook.

    Rgression sur variables catgorielles Laurent Rouvire

  • Chapitre 4

    Modle logistique multi-classes

    Nous traitons dans ce chapitre le cas o la variable expliquer Y prend plus de deux modalits.Pour simplifier les notations, on supposera que Y peut prendre k valeurs 1, . . . , k et on cherche tou-jours expliquer Y par p variables explicatives X = (1,X1, . . . ,Xp) qualitatives ou quantitatives.Nous distinguerons deux cas :

    les modalits de Y sont ordonnes : il existe une hirarchie naturelle entre elles. Par exemplele degr de satisfaction relativement un produit, le degr dadhsion une opinion... Enbiostatistique, il peut sagir dun diagnostic sur ltat de sant (trs bonne, bonne, moyenne,mauvais sant), sur le stade dvolution dune maladie, ou encore sur la taille ou la nature dunetumeur (tumeur absente, bnigne, ou maligne). On parle dans ce cas de modle polytomiqueordonn ;

    il nexiste pas de relation dordre sur les modalits de Y , la variable expliquer est purementnominale : accord pour un prt (oui, non, examen du dossier). On parle dans ce cas de modlepolytomique nominal o de modle multinomial.

    4.1 Modle polytomique ordonn

    4.1.1 Cas binaire

    Plaons nous dabord dans le cas o Y est binaire (0 ou 1). Sans perte de gnralit, on supposeraque nous sommes en prsence dune seule variable explicative X. On introduit une variablealatoire centre et une variable latente (non observe) Y = 0 + 1x+ telle que Y |X = x vaut1 lorsque la variable latente Y est grande (suprieure un seuil s) et 0 sinon. Nous obtenons :

    P(Y = 1|X = x) = P (0 + 1x+ > s) = P( < s+ 0 + 1) = F (0 + 1x)

    o F est la fonction de rpartition de la variable et 0 = s + 0. Pour finir de spcifier lemodle, il reste choisir la fonction de rpartition F . Si on choisit

    F (x) =1

    1 + exp(x) =exp(x)

    1 + exp(x), (4.1)

    on obtient le modle logistique tudi dans les chapitres prcdents. Si F est la fonction de rpar-tition associe la loi normale centre rduite, nous obtenons alors le modle probit (voir section1.3 et figure 4.1).

    Rgression sur variables catgorielles Laurent Rouvire

  • 52 Modle logistique multi-classes

    4 2 0 2 4

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    Fig. 4.1 Fonctions de rpartition des lois normale (trait plein) et logistique (tirets).

    4.1.2 Gnralisation

    Le modle polytomique ordonn peut tre prsent comme une simple gnralisation du modledichotomique prsent dans la partie prcdente, avec cette fois Y prenant k modalits ordonnes.On se place toujours dans le cas dune seule variable explicative X, et nous allons maintenantintroduire non plus un seul, mais plusieurs seuils 1, . . . , k1 tels que :

    (Y |X = x) =

    1 si Y < 1j si j1 Y < j, j = 2, . . . , k 1k si Y k1

    o Y = 1x+ .

    Le choix de la fonction de rpartition logistique (4.1) conduit au modle :

    P(Y j|X = x) = F (j 1x), j = 1, . . . , k 1ou encore

    logit (P(Y j|X = x)) = j 1x, j = 1, . . . , k 1. (4.2)Si on est en prsence de p variables explicatives, le modle devient

    logit (P(Y j|X = x)) = j 1x1 . . . pxp, j = 1, . . . , k 1, (4.3)ou encore

    P(Y j|X = x)) = exp(j 1x1 . . . pxp)1 + exp(j 1x1 . . . pxp) .

    Nous voyons qu travers une telle modlisation, seule la constante diffre suivant les diffrentsniveaux de Y . Ce modle ncessite donc lestimation de p + k 1 coefficients (p pentes et k 1constantes car

    kj=1 P(Y = j|X = x) = 1).

    RemarqueSuivant le logiciel les coefficients estims peuvent diffrer. La procdure LOGISTIC de SAS estimepar exemple les pentes bj = j. Sous R les fonctions polr, lmr et vgam des librairies MASS, Designet VGAM permettent de construire des modles logistiques pour expliquer une variable qualitativeordinale. Il est important de consulter laide de la fonction afin de connatre la signification descoefficients estims.

    Laurent Rouvire Rgression sur variables catgorielles

  • 4.1 Modle polytomique ordonn 53

    Exemple 4.1La fonction polr de la librairie MASS utilise un modle de la forme (4.2) et (4.3). Elle sutilise dela manire suivante :

    #Simulation des donnees

    > Y set.seed(145)

    > X donnees library(MASS)

    > library(VGAM) #pour la fonction logit

    > model model

    Call:

    polr(formula = Y ~ X, data = donnees)

    Coefficients:

    X

    -3.059502

    Intercepts:

    1|2 2|3

    -3.0779038 -0.6120617

    Residual Deviance: 21.48307

    AIC: 27.48307

    Les coefficients estimes sont = 3.059502, 1 = 3.0779038 et 2 = 0.6120617. On peutobtenir les probabilits a posteriori du p