67
1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

Embed Size (px)

Citation preview

Page 1: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

1

Le modèle linéaire généralisé(Réponse multinomiale)

Michel Tenenhaus

Page 2: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

2

                         

Page 3: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

3

Un exemple d’applicationTest de l’efficacité du diffuseur d’iode RHODIFUSE

Conséquences biologiques du

déficit en iode :

Chez l’enfant :

- Retard mental

- Troubles musculaire

- Paralysie

- Crétinisme

Chez l’adulte :

- Goitre

- Adynamie

- Crétinisme

- Hypoproductivité

Page 4: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

4

Classification des goitres selon l ’OMS

• Groupe 0 : Thyroïde non palpable, ou palpable mais dont les lobes sont de volume inférieur à la phalange distale du pouce du sujet.

• Groupe 1A : Nettement palpable, et dont les lobes ont un volume supérieur à la phalange distale du pouce du sujet, non visible lorsque la tête est en extension.

• Groupe 1B : Idem, mais visible en extension du cou, mais non visible en position normale.

• Groupe 2 : Thyroïde nettement visible lorsque la tête est en position normale.

• Groupe 3 : Thyroïde volumineuse, nettement visible à plus de 5 mètres.

Page 5: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

5

L’expérimentation

N’Djiba

Sebabougou

Sirablo (Témoin)

Woloni

Bamako

17

19

4 2

6

Niger

5

7

15

15

37

Page 6: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

6

Les données

• Y = Niveau de goitre : 1= 0, 2 = IA, 3 = IB, 4 = II

• X1 = Village : 1 = Sirablo (Témoin), 2 = Woloni

3 = N ’Djiba, 4 = Sebabougou

• X2 = Sexe : 1 = Homme, 2 = Femme

• X3 = Jour : 0 = 0, 1 = 180, 2 = 360

• X4 = Iode : 1 = Absence, 2 = Présence

Page 7: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

7

Les données (en effectif)

Répartition des goitres par niveau

Sirablo Homme 0 Absence 106 12 46 11 175

Sirablo Homme 180 Absence 60 31 46 15 152

Sirablo Homme 360 Absence 64 23 50 14 151

Sirablo Femme 0 Absence 77 21 71 65 234

Sirablo Femme 180 Absence 46 28 63 65 202

Sirablo Femme 360 Absence 44 29 67 57 197

Woloni Homme 0 Absence 127 27 45 12 211

Woloni Homme 180 Présence 145 28 19 1 193

Woloni Homme 360 Présence 161 16 12 2 191

Woloni Femme 0 Absence 69 21 65 50 205

Woloni Femme 180 Présence 76 40 41 13 170

Woloni Femme 360 Présence 89 28 33 10 160

N'Djiba Homme 0 Absence 91 8 14 6 119

N'Djiba Homme 180 Présence 94 14 10 0 118

N'Djiba Homme 360 Présence 99 7 12 0 118

N'Djiba Femme 0 Absence 42 18 45 34 139

N'Djiba Femme 180 Présence 50 29 38 13 130

N'Djiba Femme 360 Présence 67 18 32 6 123

Sebabougou Homme 0 Absence 112 47 30 13 202

Sebabougou Homme 180 Présence 155 26 10 1 192

Sebabougou Homme 360 Présence 171 12 12 2 197

Sebabougou Femme 0 Absence 86 40 47 55 228

Sebabougou Femme 180 Présence 119 26 39 18 202

Sebabougou Femme 360 Présence 132 12 41 22 207

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

VILLAGE SEXE JOUR IODE G1 G2 G3 G4 Total

Page 8: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

8

Les données (en fréquence)

Fréquence de répartition des goitres

Sirablo Homme 0 Absence .61 .07 .26 .06

Sirablo Homme 180 Absence .39 .20 .30 .10

Sirablo Homme 360 Absence .42 .15 .33 .09

Sirablo Femme 0 Absence .33 .09 .30 .28

Sirablo Femme 180 Absence .23 .14 .31 .32

Sirablo Femme 360 Absence .22 .15 .34 .29

Woloni Homme 0 Absence .60 .13 .21 .06

Woloni Homme 180 Présence .75 .15 .10 .01

Woloni Homme 360 Présence .84 .08 .06 .01

Woloni Femme 0 Absence .34 .10 .32 .24

Woloni Femme 180 Présence .45 .24 .24 .08

Woloni Femme 360 Présence .56 .18 .21 .06

N'Djiba Homme 0 Absence .76 .07 .12 .05

N'Djiba Homme 180 Présence .80 .12 .08 .00

N'Djiba Homme 360 Présence .84 .06 .10 .00

N'Djiba Femme 0 Absence .30 .13 .32 .24

N'Djiba Femme 180 Présence .38 .22 .29 .10

N'Djiba Femme 360 Présence .54 .15 .26 .05

Sebabougou Homme 0 Absence .55 .23 .15 .06

Sebabougou Homme 180 Présence .81 .14 .05 .01

Sebabougou Homme 360 Présence .87 .06 .06 .01

Sebabougou Femme 0 Absence .38 .18 .21 .24

Sebabougou Femme 180 Présence .59 .13 .19 .09

Sebabougou Femme 360 Présence .64 .06 .20 .11

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

VILLAGE SEXE JOUR IODE Goitre 1 Goitre 2 Goitre 3 Goitre 4

Page 9: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

9

Évolution des niveaux moyens de goitreSIRABLO (Témoin)

JOUR

3601800

Niv

eau m

oyen d

e g

oitr

e2.8

2.6

2.4

2.2

2.0

1.8

1.6

SEXE

Homme

Femme

WOLONI

JOUR

3601800

Niv

eau m

oyen d

e g

oitr

e

2.6

2.4

2.2

2.0

1.8

1.6

1.4

1.2

1.0

SEXE

Homme

Femme

N'DJIBA

JOUR

3601800

Niv

eau m

oyen d

e g

oitr

e

2.6

2.4

2.2

2.0

1.8

1.6

1.4

1.2

1.0

SEXE

Homme

Femme

SEBABOUGOU

JOUR

3601800

Niv

eau m

oyen d

e g

oitr

e

2.6

2.4

2.2

2.0

1.8

1.6

1.4

1.2

1.0

SEXE

Homme

Femme

Page 10: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

10

Le problème

• Étudier la liaison entre la variable dépendante Y = Niveau de goitre et les variables indépendantes X1= Village, X2 = Sexe, X3 = Jour, et X4 = Iode.

• Étudier la loi de probabilité

Prob(Y = y | X1 = x1, X2 = x2, X3 = x3, X4 = x4)

de Y conditionnellement à des valeurs prises par les Xj.

Page 11: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

11

Hypothèses à tester

• H1: La répartition des niveaux de goitre au temps 0 ne dépend pas du village.

• H2: La répartition des niveaux de goitre dépend du sexe : la situation est plus

grave chez les femmes que chez les hommes.

• H3: La répartition des goitres dépend des jours et de l’iode : la situation se détériore dans le village témoin de SIRABLO au cours du temps, alors qu’elle s’améliore dans les autres villages au cours du temps.

Page 12: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

12

Analyse statistique

I. Analyse des correspondances du tableau des goitres

II. Typologie des profils-lignes

III. Modélisation de la loi de probabilité des goitres en fonction des variables Village, Sexe, Jour, et Iode à l’aide du modèle linéaire généralisé

Page 13: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

13

Analyse des correspondances

Page 14: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

14

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Dendrogram using Ward Method

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+

SiH180 2 NDF180 17 WoF180 11 SiH360 3 SiH0 1 SeF360 24 WoH0 7 SeF180 23 WoF360 12 NDF360 18 SeH0 19 NDH180 14 SeH180 20 WoH180 8 WoH360 9 SeH360 21 NDH360 15 NDH0 13 SiF180 5 SiF360 6 WoF0 10 NDF0 16 SiF0 4 SeF0 22

Typologie

Page 15: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

15

Visualisation de la typologie

Femmes non traitées

Hommes non traités (hors N’Djiba)et femmes traitées

Hommes traitéset hommes non traitésde N’Djiba

Page 16: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

16

En résumé

• La gravité des goitres est plus importante chez les femmes.

• L’amélioration due au traitement iodé est nette aussi bien chez les femmes que chez les hommes. L’effet du traitement paraît plus important dans les six premiers mois.

• Le traitement iodé rend la gravité des goitres chez les femmes comparable à celle des hommes avant traitement.

Page 17: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

17

Utilisation du modèle linéaire généralisé

• Le modèle linéaire généralisé permet d ’étudier la liaison entre une variable qualitative Y (à r modalités) et un ensemble de variables explicatives X1, …, Xk qualitatives ou quantitatives.

• Exemple : Y = Niveau de goitre (r = 4)X1 = Village

X2 = Sexe

X3 = Jour

X4 = Iode

Page 18: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

18

Le modèle linéaire généralisé dans la Proc CATMOD de SAS

• Les s croisements disponibles (xi1, …, xik) des variables X1, …, Xk définissent s populations.

• On note i la loi de probabilité de Y sur la population i.

• On cherche à relier linéairement q (= s(r-1)) fonctions de réponse Fh(i) aux caractéristiques de la population i :

Fh(i) = xih

où xi = vecteur-ligne caractérisant la population i

et h = vecteur-colonne de paramètres

Page 19: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

19

Exemple des goitresChoix de la fonction de réponse

Identité : Fh(i) = ih , h = 1 à 3

Logit généralisé : Fh(i) = Log(ih/ i4), h = 1 à 3

Logit cumulé :Fh(i) =

h = 1 à 3

Pr ob(Y h | i)Log

Pr ob(Y h | i)

Moyenne :Fh(i) =

4

ijj 1

j

Page 20: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

20

Choix du modèle

• Pour h = 1 à 3 :

Fh(i) = Village, Sexe, Village*Sexe

Iode(Village = 2), Iode(Village = 3)

Iode(Village = 4), Sexe*Iode,

Jour(Iode = Absence), Jour(Iode = Présent)

• Idem pour la fonction de réponse « Moyenne »

Page 21: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

21

Les problèmes

• Le modèle probabiliste

• Estimation des paramètres du modèle

- GLS ou WLS en général

- ML pour le logit généralisé

• Test sur les variables explicatives

• Test d’adéquation du modèle

• Étude des contrastes

Page 22: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

22

Le modèle probabilisteRéponse Y

Population1…j …rTotal1 n11 …n1j …n1r n1

i ni1 …nij …nir ni

s ns1 …nsj …nsr ns

Réponse YPopulation1…j …r1

i pi1 …pij …pir

s

pi

ij = Prob(Y = j dans la

population i)

ijij ij

i

np estimation de

n

Page 23: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

23

La loi multinomiale

pi = (pi1, …, pir)

Prob (pi) = i1 irn ni

i1 iri1 ir

n !...

n ! ... n !

E(pi) = i = (i1, …, ir)

i1 i1 i1 i2 i1 ir

i i i

i2 i2 i2 ir

i ii

ir ir

i

(1 )

n n n

(1 )

n nV(p )

(1 )

n

Estimée par Vi

en remplaçant

les ij par pij

Page 24: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

24

Loi du vecteur des proportions p

p = (p1, …, ps)

Prob (p) = s

ii 1

Pr ob(p )

E(p) = = (1, …, s)

1

2

s

V(p ) 0 0

V(p ) 0V(p)

V(p )

Estimée par V

en remplaçant

les V(pi) par Vi

Indépendance entre

les populations

Page 25: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

25

Modélisation des ij

ih

ih ir

h i

r

ij

Sexe

Villa

j=1

h1h h

h 2 40 h h

3

ge

4h h1 3

Pr ob(Y h | Population i)

Log( / )

Pr ob(Y h | Pop. iLogF ( ) =

Pr ob(Y h | Pop. i

j

1

2 H

3 F

4 ...

Iode(Village 2,3,4)Village*S

h h5 5 h h

8 8h h6 6 h h

9 9

ex

h h7 7 h h

10 10h h h h5

e

7 5 7

h11 11

1 -2

2 -3

1 2Homme F

3 -4

4 ... ...

H

F

emme

Sexe*Iode

h h h h h12 13 12 13

h h h h11 11 14 1

Jour(Iode)

4

1 2 0 180 360

1

2

Page 26: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

26

Estimation des hjβ

La méthode GLS (Generalized Least Squares) prend en

compte

le fait que les pij ont des variances inégales et sont corrélées

entre elles.

On minimise la Somme des Carrés Résiduelle :

1ˆ ˆSCR (F F) ' Var(F) (F F)

où : F = [F1(p),…,Fq(p)] =

1 qˆ ˆ ˆF F (p),..., F (p) ' estimation des Fh(p)

à l’aide du modèle étudié

estimation des Fh(p) à l’aide du modèle saturé

Var(F) = estimation de Var(F)

Page 27: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

27

Utilisation de la Proc CATMOD

Réponse = Identité

data goitre;input village sexe jour iode goitre freq;cards;1 1 0 1 1 1061 1 1 1 1 601 1 2 1 1 64...4 2 0 1 4 554 2 1 2 4 184 2 2 2 4 22;proc catmod data=goitre; weight freq; response marginal; model goitre=village sexe village*sexe iode(village=2) iode(village=3) iode(village=4) sexe*iode jour(iode=1) jour(iode=2)/predict addcell=1 ;run;quit;

Page 28: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

28

Utilisation de la Proc CATMOD

Population Profiles

AdjustedSample village sexe iode jour Sample Sizeƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1 1 1 1 0 179 2 1 1 1 1 156 3 1 1 1 2 155 4 1 2 1 0 238 5 1 2 1 1 206 6 1 2 1 2 201 7 2 1 1 0 215 8 2 1 2 1 197 9 2 1 2 2 195 10 2 2 1 0 209 11 2 2 2 1 174 12 2 2 2 2 164 13 3 1 1 0 123 14 3 1 2 1 122 15 3 1 2 2 122 16 3 2 1 0 143 17 3 2 2 1 134 18 3 2 2 2 127 19 4 1 1 0 206 20 4 1 2 1 196 21 4 1 2 2 201 22 4 2 1 0 232 23 4 2 2 1 206 24 4 2 2 2 211

Page 29: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

29

Utilisation de la Proc CATMOD

Réponse = Identité

Response Functions

Response Functions Sample 1 2 3 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1 0.59777 0.07263 0.26257 2 0.39103 0.20513 0.30128 3 0.41935 0.15484 0.32903 4 0.32773 0.09244 0.30252 5 0.22816 0.14078 0.31068 6 0.22388 0.14925 0.33831 7 0.59535 0.13023 0.21395 8 0.74112 0.14721 0.10152 9 0.83077 0.08718 0.06667 10 0.33493 0.10526 0.31579 11 0.44253 0.23563 0.24138 12 0.54878 0.17683 0.20732 13 0.74797 0.07317 0.12195 14 0.77869 0.12295 0.09016 15 0.81967 0.06557 0.10656 16 0.30070 0.13287 0.32168 17 0.38060 0.22388 0.29104 18 0.53543 0.14961 0.25984 19 0.54854 0.23301 0.15049 20 0.79592 0.13776 0.05612 21 0.85572 0.06468 0.06468 22 0.37500 0.17672 0.20690 23 0.58252 0.13107 0.19417 24 0.63033 0.06161 0.19905

Page 30: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

30

Utilisation de la Proc CATMOD

La matrice X

Design Matrix

Sample 1 2 3 4 5 6 7 8ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1 1 1 0 0 1 1 0 0 2 1 1 0 0 1 1 0 0 3 1 1 0 0 1 1 0 0 4 1 1 0 0 -1 -1 0 0 5 1 1 0 0 -1 -1 0 0 6 1 1 0 0 -1 -1 0 0 7 1 0 1 0 1 0 1 0 8 1 0 1 0 1 0 1 0 9 1 0 1 0 1 0 1 0 10 1 0 1 0 -1 0 -1 0 11 1 0 1 0 -1 0 -1 0 12 1 0 1 0 -1 0 -1 0 13 1 0 0 1 1 0 0 1 14 1 0 0 1 1 0 0 1 15 1 0 0 1 1 0 0 1 16 1 0 0 1 -1 0 0 -1 17 1 0 0 1 -1 0 0 -1 18 1 0 0 1 -1 0 0 -1 19 1 -1 -1 -1 1 -1 -1 -1 20 1 -1 -1 -1 1 -1 -1 -1 21 1 -1 -1 -1 1 -1 -1 -1 22 1 -1 -1 -1 -1 1 1 1 23 1 -1 -1 -1 -1 1 1 1 24 1 -1 -1 -1 -1 1 1 1

9 10 11 12 13 14 15 16ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1 0 0 0 1 1 0 0 0 0 0 1 0 1 0 0 0 0 0 1 -1 -1 0 0 0 0 0 -1 1 0 0 0 0 0 0 -1 0 1 0 0 0 0 0 -1 -1 -1 0 0 1 0 0 1 1 0 0 0 -1 0 0 -1 0 0 0 1 -1 0 0 -1 0 0 -1 -1 1 0 0 -1 1 0 0 0 -1 0 0 1 0 0 0 1 -1 0 0 1 0 0 -1 -1 0 1 0 1 1 0 0 0 0 -1 0 -1 0 0 0 1 0 -1 0 -1 0 0 -1 -1 0 1 0 -1 1 0 0 0 0 -1 0 1 0 0 0 1 0 -1 0 1 0 0 -1 -1 0 0 1 1 1 0 0 0 0 0 -1 -1 0 0 0 1 0 0 -1 -1 0 0 -1 -1 0 0 1 -1 1 0 0 0 0 0 -1 1 0 0 0 1 0 0 -1 1 0 0 -1 -1

Page 31: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

31

Utilisation de la Proc CATMOD

Estimation des paramètres

Analysis of Weighted Least Squares Estimates

Function Standard Chi-Parameter Number Estimate Error Square Pr > ChiSqƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒIntercept 1 0.4735 0.0110 1867.62 <.0001 2 0.1679 0.0083 400.04 <.0001 3 0.2286 0.0101 514.59 <.0001village 1 1 -0.1069 0.0146 53.20 <.0001 1 2 -0.0347 0.0095 13.34 0.0003 1 3 0.0798 0.0133 35.89 <.0001 2 1 0.0177 0.0128 1.93 0.1653 2 2 0.0122 0.0090 1.82 0.1773 2 3 -0.0060 0.0111 0.29 0.5893 3 1 0.0364 0.0142 6.56 0.0104 3 2 -0.0024 0.0099 0.06 0.8029 3 3 -0.0099 0.0124 0.64 0.4223sexe 1 1 0.1343 0.0070 362.79 <.0001 1 2 -0.0126 0.0050 6.19 0.0128 1 3 -0.0557 0.0061 82.79 <.0001village*sexe 1 1 1 -0.0269 0.0149 3.25 0.0714 1 1 2 -0.0013 0.0105 0.02 0.9012 1 1 3 0.0368 0.0137 7.20 0.0073 2 1 1 0.0039 0.0122 0.10 0.7461 2 1 2 -0.0050 0.0088 0.33 0.5653 2 1 3 -0.0056 0.0104 0.30 0.5834 3 1 1 0.0548 0.0135 16.54 <.0001 3 1 2 -0.0246 0.0096 6.42 0.0113 3 1 3 -0.0350 0.0117 9.03 0.0027

Page 32: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

32

Utilisation de la Proc CATMOD

Estimation des paramètres

Function Standard Chi-Parameter Number Estimate Error Square Pr > ChiSqƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ iode(village=2) 1 1 1 -0.1128 0.0178 39.94 <.0001 1 1 2 -0.0140 0.0127 1.20 0.2732 1 1 3 0.0639 0.0158 16.44 <.0001iode(village=3) 1 1 1 -0.0767 0.0199 14.92 0.0001 1 1 2 -0.0117 0.0138 0.72 0.3976 1 1 3 0.0233 0.0171 1.85 0.1739iode(village=4) 1 1 1 -0.1561 0.0175 79.85 <.0001 1 1 2 0.0601 0.0133 20.31 <.0001 1 1 3 0.0340 0.0144 5.56 0.0184sexe*iode 1 1 1 -0.0009 0.0086 0.01 0.9132 1 1 2 0.0173 0.0063 7.48 0.0062 1 1 3 0.0111 0.0071 2.41 0.1205jour(iode=1) 0 1 1 0.0898 0.0189 22.56 <.0001 0 1 2 -0.0492 0.0127 14.92 0.0001 0 1 3 -0.0210 0.0183 1.31 0.2517 1 1 1 -0.0466 0.0189 6.07 0.0137 1 1 2 0.0312 0.0150 4.31 0.0380 1 1 3 -0.0018 0.0192 0.01 0.9223jour(iode=2) 0 1 1 -0.0763 0.0187 16.73 <.0001 0 1 2 0.0681 0.0141 23.35 <.0001 0 1 3 0.0093 0.0138 0.46 0.4998 1 1 1 . . . .jour(iode=2) 1 1 2 . . . . 1 1 3 . . . .

Page 33: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

33

Exemple : Calcul de

Sexe

VillageVillage*Sex

i1

H

ˆ Pr ob(Y 1 | Population i) =

1 .03 .031 .11

2 .00 -.002 .02 H .13

.47 +

omme Fem

. 3 .05

13.02

-.0

.02.06

53 .03

m

F4

4e

Iode(Village 2,3,4)e

Sexe*Iode Jour(Iode)

.11

.08

.16

.00

2 .11

3 .08

4 .16

H . .04

.00 .00

1 2

1 2

.

00 1 .09 .0

08

36

5

F 2 .0

0 18

8

0 0

i1̂

11ˆ .47 .11 .13 .03 .0 .59 6

p11 = (106+1)/(175+4) = .5977

Page 34: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

34

Comparaison observé /prédit

Predicted Values for Response Functions

------Observed----- -----Predicted----- Function Standard Standardvillage sexe iode jour Number Function Error Function Error Residualƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1 1 1 0 1 0.597765 0.03665 0.562911 0.016938 0.03485 2 0.072626 0.01939 0.087365 0.016938 -0.01474 3 0.26257 0.03288 0.279571 0.016938 -0.017

1 1 1 1 1 0.391026 0.03907 0.426496 0.020966 -0.03547 2 0.205128 0.03232 0.167716 0.020966 0.03741 3 0.301282 0.03673 0.298699 0.020966 0.00258

.

.

.

Page 35: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

35

Test sur les variables explicatives

Exemple : Village*Sexe

Test : H0 : 5

h = 6h = 7

h = 0, h = 1, 2, 3

Statistique de Wald :

1'Village*Sexe Village*Sexe Village*Sexe

ˆ ˆ ˆQ Var( )

Sous H0 : Q suit un 2(9)

Remarque : Q = SCR(Modèle sans « Village*Sexe ») - SCR(Modèle complet)

Analogie avec les sommes de carrés de type III du GLM

Page 36: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

36

Test sur les variables explicativesRésultats

Analysis of Variance

Source DF Chi-Square Pr > ChiSqƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒIntercept 3 12968.97 <.0001village 9 123.91 <.0001sexe 3 465.13 <.0001village*sexe 9 32.52 0.0002iode(village=2) 3 65.97 <.0001iode(village=3) 3 35.41 <.0001iode(village=4) 3 90.12 <.0001sexe*iode 3 28.66 <.0001jour(iode=1) 6 30.27 <.0001jour(iode=2) 3* 25.41 <.0001

Residual 27 16.45 0.9438

NOTE: Effects marked with '*' contain one or more redundant or restricted parameters

Page 37: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

37

Test d ’adéquation du modèle

Test : H0 : Modèle étudié exact

Statistique :

Sous H0 :

1ˆ ˆSCR (F F) ' Var(F) (F F)

1 1ˆ ˆSCR (F' Var(F) F F' Var(F) F)

2n 2

d

n = Nombre de fonctions de réponses = 324 = 72d = Nombre de paramètres du modèle = 315 = 45

2n dSCR

Page 38: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

38

Modélisation de Fh(i) = Log(ih/ir)

Sexe

Jour(Iode)Vill

ih i4

hh h h h112 13 12 13h h

h h h2 40 14 1

ag

4h h3 4

h1 3

e

h0 180 360

Log( / )

11

2 H = ... 2

3 F

4 ...

De

on peut déduire le modèle

lih ih jf (..., ,...)

Page 39: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

39

Calcul de ih

Soit :xi = Caractéristique du profil i

h = vecteur des jh

Alors : i h

i h

x

ih r 1x

h 1

e, h=1,...,r-1

1 e

i h

ir r 1x

h 1

1

1 e

et

Page 40: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

40

Estimation des par maximum de vraisemblance

Multinomiale :

i1 ir

sn ni

ih i1 iri 1 i1 ir

n !Prob(..., p ,...) ...

n ! ... n !

Modèle :l

ih ih jf (..., ,...)

Vraisemblance :

i1 irs

n nii1 ir

i 1 i1 ir

n !L(Modèle) f ( ) ... f ( )

n ! ... n !

On recherche maximisant la vraisemblance.

hjβ

Page 41: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

41

Le modèle saturé

Si le nombre de paramètres indépendant jh est égal au

nombre de probabilités indépendantes ih le modèle est dit saturé.

Alors : ih

ih ihi

nˆ p

n

et on a :

i1 ir

sn nii1 ir

i 1 i1 ir

n !L(Modèle saturé) p ... p

n ! ... n !

Page 42: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

42

Test d ’adéquation du modèle

Test : H0 : Modèle étudié exact

Statistique :

Sous H0 :

L(Modèle étudié)D 2Log

L(Modèle saturé)

2n dD

où :n = Nombre de fonctions de réponses = 324 = 72d = Nombre de paramètres du modèle = 315 = 45

Page 43: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

43

Test sur les variables explicatives

Exemple : Village*Sexe

Test : H0 : 5

h = 6h = 7

h = 0, h = 1, 2, 3

Statistique LRT :

L(Modèle sans "Village*Sexe")D 2Log

L(Modèle complet)

Sous H0 : D suit un 2(9)

Page 44: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

44

Modélisation du logit généralisé par maximum de vraisemblance

proc catmod data=goitre; weight freq; model goitre=village sexe village*sexe

iode(village=2) iode(village=3) iode(village=4) sexe*iode

jour(iode=1) jour(iode=2);run;quit;

Le logit généralisé est la fonction de réponse par défaut.

Page 45: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

45

Résultat des tests pour la modélisation dulogit généralisé par maximum de

vraisemblance

Maximum Likelihood Analysis of Variance

Source DF Chi-Square Pr > ChiSqƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒIntercept 3 371.22 <.0001village 9 123.07 <.0001sexe 3 291.31 <.0001village*sexe 9 21.94 0.0091iode(village=2) 3 67.56 <.0001iode(village=3) 3 36.38 <.0001iode(village=4) 3 84.76 <.0001sexe*iode 3 8.24 0.0413jour(iode=1) 6 30.46 <.0001jour(iode=2) 3* 24.14 <.0001

Likelihood Ratio 27 19.62 0.8463

NOTE: Effects marked with '*' contain one or more redundant or restricted parameters.

Page 46: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

46

Étude du modèle « Moyenne »

Sexe

VillageV

r

i ijj=1

51

6 62 4

illage*Se

0 7 73 4

5 6 7 5 6 71 2 3

xe

F( ) j

Homme Femm

=

1 -1

2 -2 H

3 -3 F

44

e

8 8

9 9

10 10

11 11 12 13 12 13

11 1

Iode(Village 2,3,4)

Sexe*Iod Jour(Iode

1 14 14

e )

2

3

4

H

1 2

1

1

2 0 1

2

360

F

80

Page 47: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

47

Étude du modèle « Moyenne »

proc catmod data=goitre; weight freq; response mean; model goitre=village sexe village*sexe

iode(village=2) iode(village=3)

iode(village=4) sexe*iode jour(iode=1) jour(iode=2)

/predict addcell=1; run;

Page 48: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

48

Résultats SAS pour le modèle « Moyenne »Tests

Analysis of Variance

Source DF Chi-Square Pr > ChiSqƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒIntercept 1 6603.20 <.0001village 3 88.43 <.0001sexe 1 455.33 <.0001village*sexe 3 7.77 0.0509iode(village=2) 1 63.58 <.0001iode(village=3) 1 26.65 <.0001iode(village=4) 1 69.60 <.0001sexe*iode 1 5.34 0.0208jour(iode=1) 2 12.58 0.0019jour(iode=2) 1* 6.10 0.0135

Residual 9 8.44 0.4910

NOTE: Effects marked with '*' contain one or more redundant or restricted parameters.

Page 49: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

49

Résultats SAS pour le modèle « Moyenne »Estimation

Analysis of Weighted Least Squares Estimates

Standard Chi-Parameter Estimate Error Square Pr > ChiSqƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒIntercept 2.0203 0.0249 6603.20 <.0001village 1 0.3055 0.0333 84.01 <.0001 2 -0.0661 0.0280 5.55 0.0184 3 -0.0970 0.0315 9.50 0.0021sexe 1 -0.3226 0.0151 455.33 <.0001village*sexe 1 1 0.0433 0.0345 1.58 0.2093 2 1 0.0020 0.0254 0.01 0.9374 3 1 -0.0760 0.0284 7.14 0.0075iode(village=2) 1 1 0.3117 0.0391 63.58 <.0001iode(village=3) 1 1 0.2266 0.0439 26.65 <.0001iode(village=4) 1 1 0.3185 0.0382 69.60 <.0001sexe*iode 1 1 -0.0431 0.0186 5.34 0.0208jour(iode=1) 0 1 -0.1618 0.0458 12.49 0.0004 1 1 0.0926 0.0467 3.93 0.0474jour(iode=2) 0 1 0.0853 0.0345 6.10 0.0135 1 1 . . . .

Page 50: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

50

Estimation du modèle « Moyenne »

Sexe

VillageVillage*Sex

r

i ijj=1

e

F( ) j =

1 .04 -.041 .31 2

2 .00 -.002 .07 H .32

2.02 3 .08 .083 .10 F .32

4 .04 .

Homme Femme

044 .14

Iode(Village 2,3,4)

Sexe*Iode Jour(Iode)

.31 .31

3 .22 .22

4 .32 .32

H .04 .04 1 .16 .09 .07

F .04 .04 2 .09 .0

1 2

1 2 0 180 360

9

Page 51: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

51

Résultats SAS pour le modèle « Moyenne »prévision

Predicted Values for Response Functions

------Observed----- -----Predicted----- Function Standard Standardvillage sexe iode jour Number Function Error Function Error Residualƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ1 1 1 0 1 1.798883 0.077964 1.841489 0.064202 -0.042611 1 1 1 1 2.115385 0.083561 2.095914 0.067112 0.0194711 1 1 2 1 2.103226 0.085188 2.072596 0.067781 0.030631 2 1 0 1 2.529412 0.078302 2.486436 0.064347 0.0429761 2 1 1 1 2.723301 0.079355 2.740861 0.065432 -0.017561 2 1 2 1 2.691542 0.078487 2.717543 0.065127 -0.0262 1 1 0 1 1.739535 0.067628 1.740296 0.060877 -0.000762 1 2 1 1 1.380711 0.050366 1.364979 0.038139 0.0157322 1 2 2 1 1.266667 0.046476 1.279703 0.036946 -0.013042 2 1 0 1 2.4689 0.082047 2.467779 0.069658 0.001122 2 2 1 1 1.95977 0.075966 1.920096 0.053614 0.0396742 2 2 2 1 1.792683 0.077358 1.83482 0.053675 -0.042143 1 1 0 1 1.487805 0.082404 1.546307 0.072282 -0.05853 1 2 1 1 1.327869 0.060725 1.34114 0.045345 -0.013273 1 2 2 1 1.303279 0.062305 1.255864 0.045599 0.0474153 2 1 0 1 2.51049 0.096831 2.429709 0.079944 0.080783 2 2 1 1 2.119403 0.08958 2.052175 0.060992 0.0672283 2 2 2 1 1.834646 0.08822 1.966899 0.060971 -0.132254 1 1 0 1 1.737864 0.066177 1.699405 0.059677 0.0384594 1 2 1 1 1.280612 0.043761 1.310488 0.034967 -0.029884 1 2 2 1 1.238806 0.044648 1.225212 0.035291 0.0135944 2 1 0 1 2.314655 0.079013 2.369482 0.06768 -0.054834 2 2 1 1 1.796117 0.073209 1.808199 0.052207 -0.012084 2 2 2 1 1.78673 0.076037 1.722923 0.052668 0.063807

Page 52: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

52

Étude des contrastes

Test : H0 : L = 0

Statistique :

Sous H0 :

1ˆ ˆ ˆQ (L ) ' Var(L ) L

Modèle :[F1(i),…,Fr(i)] = xi

2rang de LQ

Page 53: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

53

Test 1

Le niveau moyen des goitres sur toute la duréede l ’expérimentation est significativement supérieurdans le village témoin de Sirablo par rapport auxautres villages.

Solution

Test2 3 1 2 3

0 1

2 3 1 2 31 1

H : 3

H : 3

0 1

1 1

H : 0

H : 0

Statistique de Wald

1

2

1

ˆ

ˆQ 84

s

On rejette H0 au profit de H1.

Page 54: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

54

Test 2

Les trois villages où le Rhodifuse Iode a été installésont équivalents.

Solution

Test0 2 3

2 1 2 3

H : ,

0 2 3

1 2 3

H : 0,

2 0

Statistique de Wald

Q 3.17 (NS=.2) On accepte H0

Page 55: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

55

Étude du contraste « Test 2 »

proc catmod data=goitre; weight freq; response mean; model goitre = village sexe village*sexe iode(village=2) iode(village=3) iode(village=4) sexe*iode jour(iode=1) jour(iode=2)

/predict addcell=1contrast 'village test' village 0 1 -1,

village 1 2 1;run;

Analysis of Contrasts

Contrast DF Chi-Square Pr > ChiSqƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒvillage test 2 3.17 0.2045

Page 56: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

56

Test 3

Il y a un effet « Iode » dans chaque village. Cet effetest un peu moins fort dans le village de N ’DJIBA.

Solution

Statistique de Wald

Q 4.47 (NS=.0172) On rejette H0

Test8 10

0 9

8 101 9

H : 2

H : 2

0 8 9 10

1 8 9 10

H : 2 0

H : 2 0

Page 57: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

57

Étude du contraste «  Test 3 »

proc catmod data=goitre; weight freq; response mean; model goitre=village sexe village*sexe iode(village=2) iode(village=3) iode(village=4) sexe*iode jour(iode=1) jour(iode=2)/predict addcell=1;

contrast 'iode n''djiba ’ iode(village=2) 1

iode(village=3) -2 iode(village=4) 1;run;

Analysis of Contrasts

Contrast DF Chi-Square Pr > ChiSqƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒiode n'djiba 1 4.47 0.0344

Page 58: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

58

Test 4

Comparaison des villages en J0.

Statistique de Wald

Q 5.42 (NS=.1433) On accepte l’homogénéitédes 4 villages en J0.

Solution

Test0 1 2 8

1 3 9

1 1 2 3 10

H : ,

,

0 1 2 8

1 3 9

1 2 3 10

H : 0,

0,

2 0

Page 59: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

59

Étude du contraste « Test 4 »

proc catmod data=goitre; weight freq; response mean; model goitre=village sexe village*sexe iode(village=2) iode(village=3) iode(village=4) sexe*iode jour(iode=1) jour(iode=2)

/predict addcell=1; contrast 'villages j0 ’

village 1 -1 0 iode(village=2) -1, village 1 0 -1 iode(village=3) -1, village 2 1 1 iode(village=4) -1;run;

Analysis of Contrasts

Contrast DF Chi-Square Pr > ChiSqƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒvillages j0 3 5.42 0.1433

Page 60: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

60

Utilisation du modèle linéaire généralisé de SPSS

régression logistique ordinale

kk11i

kk11i

xxα

xxα

e1

e)x/iY(Prob

Page 61: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

61

Etude au temps 0

Page 62: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

62

Etude au temps 0

Page 63: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

63

Modèle 1Sur toute la période

Page 64: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

64

Modèle 1

Page 65: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

65

Modèle 2

Page 66: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

66

Modèle 3

Page 67: 1 Le modèle linéaire généralisé (Réponse multinomiale) Michel Tenenhaus

67

Modèle 3