21
Giorgio Russolillo [email protected] Modèle Logistique Multinomial et Ordinal

Modèle Logistique Multinomial et Ordinalmaths.cnam.fr/IMG/pdf/mult_ord_log_regr_fr_cle021178.pdfGiorgio Russolillo – Régression Logistique Multinomiale et Ordinale Slide 5 Le modèle

  • Upload
    others

  • View
    5

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Modèle Logistique Multinomial et Ordinalmaths.cnam.fr/IMG/pdf/mult_ord_log_regr_fr_cle021178.pdfGiorgio Russolillo – Régression Logistique Multinomiale et Ordinale Slide 5 Le modèle

Giorgio [email protected]

Modèle Logistique Multinomial et Ordinal

Page 2: Modèle Logistique Multinomial et Ordinalmaths.cnam.fr/IMG/pdf/mult_ord_log_regr_fr_cle021178.pdfGiorgio Russolillo – Régression Logistique Multinomiale et Ordinale Slide 5 Le modèle

Régression logistique multinomiale

Slide 2 Giorgio Russolillo – Régression Logistique Multinomiale et Ordinale

Page 3: Modèle Logistique Multinomial et Ordinalmaths.cnam.fr/IMG/pdf/mult_ord_log_regr_fr_cle021178.pdfGiorgio Russolillo – Régression Logistique Multinomiale et Ordinale Slide 5 Le modèle

Régression logistique multinomiale

•  Le modèle logit multinomial est une extension directe du modèle logit binaire à une variable dépendante comportant plusieurs catégories (M) non ordonnées:

•  Un modèle logit multinomial s’ajuste simultanément à M – 1 catégories de la variable dépendante

•  Lorsqu'il est ajusté à une variable dichotomique, le modèle logit multinomial est identique au modèle logit binaire

•  Suivant directement le cas logit binaire, le modèle est ajusté en utilisant le maximum de vraisemblance.

πm|x = Pr Y = m | x( )

Slide 3 Giorgio Russolillo – Régression Logistique Multinomiale et Ordinale

Page 4: Modèle Logistique Multinomial et Ordinalmaths.cnam.fr/IMG/pdf/mult_ord_log_regr_fr_cle021178.pdfGiorgio Russolillo – Régression Logistique Multinomiale et Ordinale Slide 5 Le modèle

Du modèle logistique binaire au modèle logistique multinomial (1)

On choisie un événement de référence (disons M) et on considére les M - 1 modèles de régression logistique dans lesquels les autres événements sont régressés par rapport à la référence:

β01 + β j1x jj=1

J

∑ = ln π1|xπM |x

⎛⎝⎜

⎞⎠⎟= ln E Y = 1| x( )

E Y = M | x( )⎛⎝⎜

⎞⎠⎟

β02 + β j2x jj=1

J

∑ = ln π 2|xπM |x

⎛⎝⎜

⎞⎠⎟= ln E Y = 2 | x( )

E Y = M | x( )⎛⎝⎜

⎞⎠⎟

!

β0M−1 + β jM−1x jj=1

J

∑ = ln πM−1|x

πM |x

⎛⎝⎜

⎞⎠⎟== ln E Y = M −1| x( )

E Y = M | x( )⎛⎝⎜

⎞⎠⎟

πm|x = Pr Y = m | x( )

Slide 4 Giorgio Russolillo – Régression Logistique Multinomiale et Ordinale

Page 5: Modèle Logistique Multinomial et Ordinalmaths.cnam.fr/IMG/pdf/mult_ord_log_regr_fr_cle021178.pdfGiorgio Russolillo – Régression Logistique Multinomiale et Ordinale Slide 5 Le modèle

Du modèle logistique binaire au modèle logistique multinomial (2)

On passe à l’exponentiel les deux termes et on résout en pi1|x:

π1|x = πM |x ⋅eβ01+ β j1x j

j=1

J

!

πm|x = πM |x ⋅eβ0m+ β jmx j

j=1

J

!

πM−1|x = πM |x ⋅eβ0M−1+ β jM−1x j

j=1

J

1−πM |x = πM |x ⋅ eβ0m+ β jmx j

j=1

J

m=1

M−1

1= πM |x 1+ eβ0m+ β jmx j

j=1

J

m=1

M−1

∑⎛

⎝⎜⎜

⎠⎟⎟

πM |x =1

1+ eβ0m+ β jmx j

j=1

J

m=1

M−1

En utilisant le fait que la somme des probabilités est untaire, on trouve

for m = 1,…,M −1 πm|x =eβ0m+ β jmx j

j=1

J

1+ eβ0m+ β jmx j

j=1

J

m=1

M−1

Slide 5 Giorgio Russolillo – Régression Logistique Multinomiale et Ordinale

Page 6: Modèle Logistique Multinomial et Ordinalmaths.cnam.fr/IMG/pdf/mult_ord_log_regr_fr_cle021178.pdfGiorgio Russolillo – Régression Logistique Multinomiale et Ordinale Slide 5 Le modèle

Le modèle logistique multinomial

•  Comme le montre cette équation, il existe un ensemble de paramètres, β0m, β1m, …, βJm pour chaque catégorie de la variable dépendante, à l'exception de la catégorie de référence M

•  Bien qu’on pourrait techniquement adapter une série de modèles logit binaires distincts pour trouver les coefficients, ces modèles ne nous donneraient pas une seule mesure globale de la déviance.

πm|x = E Y = m | x( ) = eβ0m+ β jmx j

j=1

J

1+ eβ0m+ β jmx j

j=1

J

m=1

M−1

∑ for m = 1,…,M −1

πM |x = E Y = M | x( ) = 1− πm|xm=1

M−1

∑ for category M

πm|x = Pr Y = m | x( )

Slide 6 Giorgio Russolillo – Régression Logistique Multinomiale et Ordinale

Page 7: Modèle Logistique Multinomial et Ordinalmaths.cnam.fr/IMG/pdf/mult_ord_log_regr_fr_cle021178.pdfGiorgio Russolillo – Régression Logistique Multinomiale et Ordinale Slide 5 Le modèle

Interprétation du prédicteur linéaire

•  Le prédicteur linéaire des modèles logit multinomiaux est le log de la probabilité d'appartenance dans la catégorie m par rapport à la catégorie de référence M

•  Bien qu’il se réfere à une référence, il est possible de calculer le logarithme des probabilités d’être dans n’importe quelle couple de catégories m et m’

β0m + β jmx jj=1

J

∑ = ln πm|x

πM |x

for m =1,…,M

lnπm x( )π ′m x( )

= lnπm x( ) πM x( )π ′m x( ) πM x( )

= lnπm x( )πM x( )

− lnπ ′m x( )πM x( )

= β0m − β0 ′m( ) + β jm − β j ′m( ) x jj=1

J

∑ for m =1,…,M

Slide 7 Giorgio Russolillo – Régression Logistique Multinomiale et Ordinale

Page 8: Modèle Logistique Multinomial et Ordinalmaths.cnam.fr/IMG/pdf/mult_ord_log_regr_fr_cle021178.pdfGiorgio Russolillo – Régression Logistique Multinomiale et Ordinale Slide 5 Le modèle

Interprétation des coefficients (cas d’un seul prédicteur)

•  Si x augmente d’une unité le log des quotes augmente de β1m

logπm|x0+1

πM |x0+1

⎝⎜⎞

⎠⎟= β0 + β1m x0 +1( ) = β0 + β1mx0 + β1m = ln

πm|x0

πM |x0

⎝⎜⎞

⎠⎟+ β1m

Ex: Si β1m = 2, l’augmentation d’une unité de X multiplie les chances par e2 = 7.389.

πm|x0+1

1−πm|x0+1

= eβ0+β1m x0+1( ) = eβ0+β1mx0 × eβ1m =πm|x0

1−πm|x0

× eβ1m•  Si x augmente d’une unité les odds sont multipliés par eβ1m

πm|x0= Pr Y = m | x = x0( )

πm|x0+1

πM |x0+1

=πm|x0

πM |x0

× eβ1m ⇒ eβ1m =πm|x0+1

πM |x0+1

πm|x0

πM |x0

•  eβ1m is an odds ratio:

Slide 8 Giorgio Russolillo – Régression Logistique Multinomiale et Ordinale

Page 9: Modèle Logistique Multinomial et Ordinalmaths.cnam.fr/IMG/pdf/mult_ord_log_regr_fr_cle021178.pdfGiorgio Russolillo – Régression Logistique Multinomiale et Ordinale Slide 5 Le modèle

Evaluation de la significativité de la j-ème variable

Le modèleπm (x) = P(Y = m | X = x) = eβ0m+β1mx1+...+βJmxJ

1+ eβ0m+β1mx1+...+βJmxJm=1

M−1∑ m =1,…,M −1

Test

Statistiques de Test

2. Wald = β̂ j1,..., β̂ j M−1( )⎡⎣

⎤⎦ Var

β̂ j1

!

β̂ j (M−1)

⎜⎜⎜⎜

⎟⎟⎟⎟

⎢⎢⎢⎢

⎥⎥⎥⎥

−1

β̂ j1

!

β̂ j (M−1)

⎢⎢⎢⎢

⎥⎥⎥⎥

H0 :β j1 =…= β jm =…= β jM = 0 H1 : Au moins un m tel que β jm ≠ 0

Slide 9 Giorgio Russolillo – Régression Logistique Multinomiale et Ordinale

1. LR = [-2Log L(Simplified Model)] - [-2Log L(Full Model)]

Page 10: Modèle Logistique Multinomial et Ordinalmaths.cnam.fr/IMG/pdf/mult_ord_log_regr_fr_cle021178.pdfGiorgio Russolillo – Régression Logistique Multinomiale et Ordinale Slide 5 Le modèle

Évaluer la signification d'un groupe de variables

Le modèle

Test

Statistiques du test

1. LR = [-2Log L(Simplified Model)] - [-2Log L(Full Model)]

2.

Wald = β̂(r+1)1,..., β̂J (M−1)⎡⎣

⎤⎦ Var

β̂(r+1)1!

β̂J (M−1)

⎜⎜⎜⎜

⎟⎟⎟⎟

⎢⎢⎢⎢

⎥⎥⎥⎥

−1

β̂(r+1)1!

β̂J (M−1)

⎢⎢⎢⎢

⎥⎥⎥⎥

πm (x) = P(Y = m | X = x) = eβ0m +β1m x1+...+βJm xJ

1+ eβ0m +β1m x1+...+βJm xJ m =1,…,M −1

H0 :β r+1( )1 =…= β r+1( ) M−1( ) =…= βJ1 =…= βJ M−1( ) = 0 1< r < J

H1 : At least one β jm ≠ 0

Slide 10 Giorgio Russolillo – Régression Logistique Multinomiale et Ordinale

Page 11: Modèle Logistique Multinomial et Ordinalmaths.cnam.fr/IMG/pdf/mult_ord_log_regr_fr_cle021178.pdfGiorgio Russolillo – Régression Logistique Multinomiale et Ordinale Slide 5 Le modèle

Règle de décision

We reject

On rejet H0 avec un risque de premier type

si

c. à d. si

LR or Wald ≥ χ1−α2 r M −1( )⎡⎣ ⎤⎦

Prob χ 2 r M −1( )⎡⎣ ⎤⎦ ≥ Wald or LR( ) ≤α

H0 :β r+1( )m =…= βJ m = 0

α

Slide 11 Giorgio Russolillo – Régression Logistique Multinomiale et Ordinale

Page 12: Modèle Logistique Multinomial et Ordinalmaths.cnam.fr/IMG/pdf/mult_ord_log_regr_fr_cle021178.pdfGiorgio Russolillo – Régression Logistique Multinomiale et Ordinale Slide 5 Le modèle

Exemple : Alligators

•  L'échantillon comprend 63 alligators capturés dans quatre lacs de Floride en septembre 1985.

•  La variable de réponse est le type d’aliment principal, en volume, trouvé dans l’estomac d’un alligator. Cette variable a trois catégories: Invertébrés, Poisson et Autre (référence).

•  Deux variables indépendantes: le sexe (codé 1 et 2) et la longueur de l'alligator

Slide 12 Giorgio Russolillo – Régression Logistique Multinomiale et Ordinale

Page 13: Modèle Logistique Multinomial et Ordinalmaths.cnam.fr/IMG/pdf/mult_ord_log_regr_fr_cle021178.pdfGiorgio Russolillo – Régression Logistique Multinomiale et Ordinale Slide 5 Le modèle

Probabilité d'appartenir à un groupe vs longueur

Longueur

4.03.53.02.52.01.51.0

Probabilité

.8

.6

.4

.2

0.0

Prob(O)

Prob(I)

Prob(F)

Slide 13 Giorgio Russolillo – Régression Logistique Multinomiale et Ordinale

Page 14: Modèle Logistique Multinomial et Ordinalmaths.cnam.fr/IMG/pdf/mult_ord_log_regr_fr_cle021178.pdfGiorgio Russolillo – Régression Logistique Multinomiale et Ordinale Slide 5 Le modèle

Modèle logistique ordinal (Modèle à rapports des chances proportionnels)

Slide 14 Giorgio Russolillo – Régression Logistique Multinomiale et Ordinale

Page 15: Modèle Logistique Multinomial et Ordinalmaths.cnam.fr/IMG/pdf/mult_ord_log_regr_fr_cle021178.pdfGiorgio Russolillo – Régression Logistique Multinomiale et Ordinale Slide 5 Le modèle

Modèle logistique ordinal

•  Nous avons souvent des mesures ordinales pour lesquelles nous ne pouvons pas nécessairement supposer que les catégories soient équidistantes.

–  Eléments de questionnaire de type Likert pour les opinions, la classe sociale, le niveau d’éducation, etc.

•  Nous aimerions garder le caractère ordonné des données, de sorte qu'un modèle logit multinomial n'est pas notre premier choix.

•  Les modèles logit ordinaux peuvent fournir une meilleure alternative

•  Le modèle le plus simple et le plus couramment utilisé est le modèle à rapports des chances proportionnels.

Slide 15 Giorgio Russolillo – Régression Logistique Multinomiale et Ordinale

Page 16: Modèle Logistique Multinomial et Ordinalmaths.cnam.fr/IMG/pdf/mult_ord_log_regr_fr_cle021178.pdfGiorgio Russolillo – Régression Logistique Multinomiale et Ordinale Slide 5 Le modèle

Modèle à rapports des chances proportionnels

Prob(Y ≤ m | x) = eαm−β1x1−!−βJxJ

1+ eαm−β1x1−!−βJxJ

1+ eαm−β1x1−!−βJxJ( )Prob(Y ≤ m | x) = eαm−β1x1−!−βJxJ

Prob(Y ≤ m | x)+ eαm−β1x1−!−βJxJ( )Prob(Y ≤ m | x) = eαm−β1x1−!−βJxJ

eαm−β1x1−!−βJxJ Prob(Y ≤ m | x)−1[ ] = −Prob(Y ≤ m | x)

eαm−β1x1−!−βJxJ = Prob(Y ≤ m | x)1− Prob(Y ≤ m | x)

= Prob(Y ≤ m | x)Prob(Y > m | x)

αm − β1x1 −!− βJxJ = lnProb(Y ≤ m | x)Prob(Y > m | x)

⎛⎝⎜

⎞⎠⎟ (fonction Logit)

Slide 16 Giorgio Russolillo – Régression Logistique Multinomiale et Ordinale

1)  La même pente pour tous niveaux de y2)  Une intercepte différente pour chaque

niveau de y 3)  Le signe des betas est negatif

A noter:

Page 17: Modèle Logistique Multinomial et Ordinalmaths.cnam.fr/IMG/pdf/mult_ord_log_regr_fr_cle021178.pdfGiorgio Russolillo – Régression Logistique Multinomiale et Ordinale Slide 5 Le modèle

Modèle à rapports des chances proportionnels

•  Modèle avec des pentes égales ou des lignes parallèles•  Les rapports de cotes ne dépendent pas de m

Prob(Y ≤ m | x) = eαm−β1x1−!−βJxJ

1+ eαm−β1x1−!−βJxJ

Prob(Y ≤ m | x)Prob(Y > m | x)

Prob(Y ≤ m | x')Prob(Y > m | x')

= eαm−β1x1−!−βJxJ

eαm−β1x1' −!−βJxJ

' = eβ1(x−x ')−!−βJ (x−x ')

•  Si βj > 0, lorsque Xj augmente, la probabilité de passer d'un niveau inférieur à un niveau supérieur de Y augmente.

Slide 17 Giorgio Russolillo – Régression Logistique Multinomiale et Ordinale

e−β1 =π≤m|x0+1

π>m|x0+1

π≤m|x0

π>m|x0

Page 18: Modèle Logistique Multinomial et Ordinalmaths.cnam.fr/IMG/pdf/mult_ord_log_regr_fr_cle021178.pdfGiorgio Russolillo – Régression Logistique Multinomiale et Ordinale Slide 5 Le modèle

L’hypothese de parallelité

•  Lorsque on utilise une modèle à rapports des chances proportionnels, on suppose que les relations entre les variables indépendantes et les logits soient les mêmes pour tous les niveaux de Y.

•  On peux vérifier cette hypothèse en laissant les coefficients varier dans un modèle sans conrainte d’ordre (multinomial) et puis en comparant le deux modèles

H0 : ∀j in 1, …, J β j1 =…β jm =…= β jM

Slide 18 Giorgio Russolillo – Régression Logistique Multinomiale et Ordinale

Page 19: Modèle Logistique Multinomial et Ordinalmaths.cnam.fr/IMG/pdf/mult_ord_log_regr_fr_cle021178.pdfGiorgio Russolillo – Régression Logistique Multinomiale et Ordinale Slide 5 Le modèle

Exemple : Bordeaux

Variables observed over 34 years (1924 - 1957)

•  TEMPERATURE : Somme des températures moyennes journalières (° C)

•  SOLEIL : Durée d'ensoleillement (heures)•  CHALEUR : nombre de jours très chauds•  PLUIE : hauteur de pluie (mm)•  QUALITÉ du vin : Extra, Bonne, Moyenne

variable ordinale

Slide 19 Giorgio Russolillo – Régression Logistique Multinomiale et Ordinale

Page 20: Modèle Logistique Multinomial et Ordinalmaths.cnam.fr/IMG/pdf/mult_ord_log_regr_fr_cle021178.pdfGiorgio Russolillo – Régression Logistique Multinomiale et Ordinale Slide 5 Le modèle

Données

•  34 observations•  Variable cible ordinale•  4 prédicteurs continus

Slide 20 Giorgio Russolillo – Régression Logistique Multinomiale et Ordinale

Page 21: Modèle Logistique Multinomial et Ordinalmaths.cnam.fr/IMG/pdf/mult_ord_log_regr_fr_cle021178.pdfGiorgio Russolillo – Régression Logistique Multinomiale et Ordinale Slide 5 Le modèle

This presentation is made available through a Creative Commons Attribution-Noncommercial license. Details of the license and permitted uses are available at

http://creativecommons.org/licenses/by-nc/3.0/

© 2018 G. Russolillo – Modèle Logistique Multinomial et Ordinal Title: Modèle Logistique Multinomial et Ordinal – STA201 Attribution: G. Russolillo, CNAM

Slide 21 Giorgio Russolillo – Régression Logistique Multinomiale et Ordinale