27
1 Analyse de la variance multivariée Michel Tenenhaus

1 Analyse de la variance multivariée Michel Tenenhaus

Embed Size (px)

Citation preview

Page 1: 1 Analyse de la variance multivariée Michel Tenenhaus

1

Analyse de la variance multivariée

Michel Tenenhaus

Page 2: 1 Analyse de la variance multivariée Michel Tenenhaus

2

Les données

Variables dépendantes :

- Y1, Y2, …, Yp

Variables indépendantes :

- X1, X2, …, Xk

Les variables Xj sont quantitatives ou qualitatives.

Page 3: 1 Analyse de la variance multivariée Michel Tenenhaus

3

Ventes d’oranges

Variables dépendantes :

- Q1 = Ventes de la première variété d’orange

- Q2 = Ventes de la deuxième variété d’orange

Variables indépendantes :

- Magasins (1 à 6)

- Jour de la semaine (1 à 6)

- P1 = Prix de la première variété

- P2 = Prix de la deuxième variété

Page 4: 1 Analyse de la variance multivariée Michel Tenenhaus

Le modèle

11 1

MAGASIN JO

1

12 12

13 131 1 11 1 12 2 1

14 14

15 15

UR

1 1

2 2

3 3Q P P

4 4

5 5

6 0 6 0

21 2

MAGASIN JO

1

22 22

23 232 2 21 1 22 2 2

24 24

25 25

UR

1 1

2 2

3 3Q P P

4 4

5 5

6 0 6 0

Page 5: 1 Analyse de la variance multivariée Michel Tenenhaus

5

Résultats pour Q1

Tests of Between-Subjects Effects

Dependent Variable: Q1

1225.368a 12 102.114 5.752 .000

373.677 1 373.677 21.049 .000

223.833 5 44.767 2.522 .058

433.097 5 86.619 4.879 .003

538.169 1 538.169 30.315 .000

39.542 1 39.542 2.227 .149

408.308 23 17.753

5391.693 36

1633.676 35

SourceCorrected Model

Intercept

STORE

DAY

P1

P2

Error

Total

Corrected Total

Type III Sumof Squares df Mean Square F Sig.

R Squared = .750 (Adjusted R Squared = .620)a.

Page 6: 1 Analyse de la variance multivariée Michel Tenenhaus

6

Résultats pour Q1

Parameter Estimates

Dependent Variable: Q1

51.700 9.791 5.280 .000 31.446 71.954

-7.645 2.692 -2.840 .009 -13.214 -2.077

-5.602 2.464 -2.273 .033 -10.700 -.505

-7.363 2.464 -2.988 .007 -12.460 -2.265

-4.365 2.488 -1.755 .093 -9.511 .781

-5.021 2.436 -2.061 .051 -10.060 1.898E-02

0a . . . . .

-5.830 2.519 -2.314 .030 -11.042 -.619

-4.900 2.447 -2.002 .057 -9.962 .162

2.270 2.540 .894 .381 -2.985 7.525

-2.652 2.447 -1.084 .290 -7.714 2.409

4.047 2.557 1.583 .127 -1.242 9.336

0a . . . . .

-.830 .151 -5.506 .000 -1.142 -.518

.149 .100 1.492 .149 -5.747E-02 .355

ParameterIntercept

[STORE=1]

[STORE=2]

[STORE=3]

[STORE=4]

[STORE=5]

[STORE=6]

[DAY=1]

[DAY=2]

[DAY=3]

[DAY=4]

[DAY=5]

[DAY=6]

P1

P2

B Std. Error t Sig. Lower Bound Upper Bound

95% Confidence Interval

This parameter is set to zero because it is redundant.a.

Page 7: 1 Analyse de la variance multivariée Michel Tenenhaus

7

Résultats pour Q2

Tests of Between-Subjects Effects

Dependent Variable: Q2

2043.267a 12 170.272 5.540 .000

139.568 1 139.568 4.541 .044

155.099 5 31.020 1.009 .435

614.409 5 122.882 3.998 .009

83.923 1 83.923 2.730 .112

852.341 1 852.341 27.731 .000

706.941 23 30.737

7155.720 36

2750.208 35

SourceCorrected Model

Intercept

STORE

DAY

P1

P2

Error

Total

Corrected Total

Type III Sumof Squares df Mean Square F Sig.

R Squared = .743 (Adjusted R Squared = .609)a.

Page 8: 1 Analyse de la variance multivariée Michel Tenenhaus

8

Résultats pour Q2

Parameter Estimates

Dependent Variable: Q2

29.512 12.883 2.291 .031 2.861 56.163

-3.677 3.542 -1.038 .310 -11.004 3.651

1.991 3.242 .614 .545 -4.716 8.699

-3.716 3.242 -1.146 .264 -10.424 2.991

.297 3.273 .091 .928 -6.474 7.068

.879 3.206 .274 .786 -5.752 7.510

0a . . . . .

-4.333 3.315 -1.307 .204 -11.191 2.524

-8.072 3.220 -2.507 .020 -14.733 -1.411

4.549 3.343 1.361 .187 -2.366 11.464

-1.004 3.219 -.312 .758 -7.664 5.656

2.942 3.364 .875 .391 -4.017 9.901

0a . . . . .

.328 .198 1.652 .112 -8.261E-02 .738

-.691 .131 -5.266 .000 -.963 -.420

ParameterIntercept

[STORE=1]

[STORE=2]

[STORE=3]

[STORE=4]

[STORE=5]

[STORE=6]

[DAY=1]

[DAY=2]

[DAY=3]

[DAY=4]

[DAY=5]

[DAY=6]

P1

P2

B Std. Error t Sig. Lower Bound Upper Bound

95% Confidence Interval

This parameter is set to zero because it is redundant.a.

Page 9: 1 Analyse de la variance multivariée Michel Tenenhaus

9

Analyse de la covariance multivariée

Pour chaque facteur ou covariable on recherche une

combinaison linéaire Z1 = a11Y1+…+a1pYp maximisant le F

correspondant dans le modèle reliant Z1 aux variables X.

On note 1 la statistique F aux degrés de liberté près :

1

Nb de degrés de liberté du dénominateurF

Nb de degrés de liberté du numérateur

1

Somme des carrés expliquée

Somme des carrés résiduelle

Page 10: 1 Analyse de la variance multivariée Michel Tenenhaus

10

Exemple pour le facteur Store

Anova pour Z1 = a11Q1 + a12Q2 rendant maximum le F de Store

F maximum1

Page 11: 1 Analyse de la variance multivariée Michel Tenenhaus

11

Analyse de la covariance multivariée

On recherche de la même manière une deuxième combinaison linéaire Z2 orthogonale à Z1 maximisant le F. On note 2 la statistique correspondante.

En itérant cette procédure on obtient p combinaisons linéaires Zh. et p valeurs h.

Page 12: 1 Analyse de la variance multivariée Michel Tenenhaus

12

Exemple pour le facteur Store

Anova pour Z2 = a21Q1 + a22Q2 orthogonal à Z1

rendant maximum le F de Store

F maximum1 1 + 2

Page 13: 1 Analyse de la variance multivariée Michel Tenenhaus

13

Statistique de Wilks

p

h 1 h

1( )1

Statistique de Wilks :

Transformation de Rao :1/ t

1/ t

1 rt 2uF

pq

où : q = Nombre de paramètres testés par Yj

v = n - k - 1r = v - (p - q + 1)/2u = (pq - 2)/4t = [(p2q2 - 4)/(p2 + q2 - 5)]1/2 si p2 + q2 - 5 > 0

= 1 sinon

Page 14: 1 Analyse de la variance multivariée Michel Tenenhaus

14

Statistique de Wilks

Sous l’hypothèse testée H0 la statistique F suit approximativement une loi de Fisher-Snedecor à (pq, rt-2u) degrés de liberté.

La loi est exacte si min(p,q) 2.

Page 15: 1 Analyse de la variance multivariée Michel Tenenhaus

15

Statistique de Wilks pour Store

1 = .574 , 2 = .159

p

h 1 h

1 1 1( ) 0.5481 1 .574 1 .159

q = nb de paramètres testés par Yj = 5

v = n - k - 1 = 36 - 12 -1 = 23 r = v - (p - q + 1)/2 = 23 - (2 - 5 +1)/2 = 24u = (pq - 2)/4 = (2*5 - 2)/4 = 2t = [(p2q2 - 4)/(p2 + q2 - 5)]1/2 = [(4*25 - 4)/(4 + 25 - 5]1/2 = 2

Page 16: 1 Analyse de la variance multivariée Michel Tenenhaus

16

Utilisation du F de Rao pour la statistique de Wilks pour le facteur Score

1/ t

1/ t

1/ 2

1/ 2

1 rt 2uF

pq

1 .548 24 2 2 2

.548 2 5 1.544

On rejette H0 au risque si : F > F1- (pq, rt-2u)

Ici : pq = 2*5 = 10, rt - 2u = 24*2 - 2*2 = 44 min(p, q) = 2, d ’où loi exacte

Page 17: 1 Analyse de la variance multivariée Michel Tenenhaus

17

Trace de Pillai

ph

h 1 h

V1

Trace de Pillai :

Transformation F :

2

1

V 2m s 1F

s V 2m s 1

où : s = min (p,q)

m1 = (|p - q| - 1)/2m2 = (v - p - 1)/2

Page 18: 1 Analyse de la variance multivariée Michel Tenenhaus

18

Trace de Pillai

Sous l’hypothèse H0 la statistique F suit

approximativement une loi de Fisher-

Snedecor à (s(2m1 + s +1), s(2m2 + s + 1)

degrés de liberté.

Page 19: 1 Analyse de la variance multivariée Michel Tenenhaus

19

Trace de Hotelling-Lawley

p

hh 1

U

Trace de Hotelling-Lawley :

Transformation F :

22

1

2(sm 1)F U

s (2m s 1

où : s = min (p,q)

m1 = (|p - q| - 1)/2m2 = (v - p - 1)/2

Page 20: 1 Analyse de la variance multivariée Michel Tenenhaus

20

Trace de Hotelling-Lawley

Sous l’hypothèse H0 la statistique F suit

approximativement une loi de Fisher-

Snedecor à (s(2m1 + s +1), 2(sm2 + 1)

degrés de liberté.

Page 21: 1 Analyse de la variance multivariée Michel Tenenhaus

21

Plus grande valeur propre de Roy

1

Plus grande valeur propre de Roy :

Transformation F :

v r 1F

r

où :v = n - k -1r = max(p, q)

Page 22: 1 Analyse de la variance multivariée Michel Tenenhaus

22

Plus grande valeur propre de Roy

Sous l’hypothèse H0 la statistique F est une borne

supérieure d’une variable suivant approximativement une loi de Fisher-Snedecor à (r, v - r + q) degrés de liberté.

Le niveau de signification calculé est une borne inférieure du vrai niveau de signification.

Page 23: 1 Analyse de la variance multivariée Michel Tenenhaus

23

Résultats SPSS

Multivariate Testsc

.504 11.155a 2.000 22.000 .000

.496 11.155a 2.000 22.000 .000

1.014 11.155a 2.000 22.000 .000

1.014 11.155a 2.000 22.000 .000

.502 1.542 10.000 46.000 .155

.548 1.544a 10.000 44.000 .156

.733 1.540 10.000 42.000 .159

.574 2.639b 5.000 23.000 .050

.722 2.597 10.000 46.000 .014

.343 3.111a 10.000 44.000 .004

1.725 3.622 10.000 42.000 .002

1.607 7.393b 5.000 23.000 .000

.612 17.347a 2.000 22.000 .000

.388 17.347a 2.000 22.000 .000

1.577 17.347a 2.000 22.000 .000

1.577 17.347a 2.000 22.000 .000

.588 15.674a 2.000 22.000 .000

.412 15.674a 2.000 22.000 .000

1.425 15.674a 2.000 22.000 .000

1.425 15.674a 2.000 22.000 .000

Pillai's Trace

Wilks' Lambda

Hotelling's Trace

Roy's Largest Root

Pillai's Trace

Wilks' Lambda

Hotelling's Trace

Roy's Largest Root

Pillai's Trace

Wilks' Lambda

Hotelling's Trace

Roy's Largest Root

Pillai's Trace

Wilks' Lambda

Hotelling's Trace

Roy's Largest Root

Pillai's Trace

Wilks' Lambda

Hotelling's Trace

Roy's Largest Root

EffectIntercept

STORE

DAY

P1

P2

Value F Hypothesis df Error df Sig.

Exact statistica.

The statistic is an upper bound on F that yields a lower bound on the significance level.b.

Design: Intercept+STORE+DAY+P1+P2c.

Page 24: 1 Analyse de la variance multivariée Michel Tenenhaus

24

Résultats SPSS

Tests of Between-Subjects Effects

1225.368a 12 102.114 5.752 .000

2043.267b 12 170.272 5.540 .000

373.677 1 373.677 21.049 .000

139.568 1 139.568 4.541 .044

223.833 5 44.767 2.522 .058

155.099 5 31.020 1.009 .435

433.097 5 86.619 4.879 .003

614.409 5 122.882 3.998 .009

538.169 1 538.169 30.315 .000

83.923 1 83.923 2.730 .112

39.542 1 39.542 2.227 .149

852.341 1 852.341 27.731 .000

408.308 23 17.753

706.941 23 30.737

5391.693 36

7155.720 36

1633.676 35

2750.208 35

Dependent VariableQ1

Q2

Q1

Q2

Q1

Q2

Q1

Q2

Q1

Q2

Q1

Q2

Q1

Q2

Q1

Q2

Q1

Q2

SourceCorrected Model

Intercept

STORE

DAY

P1

P2

Error

Total

Corrected Total

Type III Sumof Squares df Mean Square F Sig.

R Squared = .750 (Adjusted R Squared = .620)a.

R Squared = .743 (Adjusted R Squared = .609)b.

Page 25: 1 Analyse de la variance multivariée Michel Tenenhaus

25

Résultats SPSS pour « Store »

Estimated Marginal Means of Q1

STORE

654321

Est

ima

ted

Ma

rgin

al M

ea

ns

16

14

12

10

8

6

Estimated Marginal Means of Q2

STORE

654321

Est

ima

ted

Ma

rgin

al M

ea

ns

15

14

13

12

11

10

9

8

7

Page 26: 1 Analyse de la variance multivariée Michel Tenenhaus

26

Résultats SPSS pour « Day »

Estimated Marginal Means of Q1

DAY

654321

Est

ima

ted

Ma

rgin

al M

ea

ns

16

14

12

10

8

6

4

Estimated Marginal Means of Q2

DAY

654321

Est

ima

ted

Ma

rgin

al M

ea

ns

18

16

14

12

10

8

6

4

2

Page 27: 1 Analyse de la variance multivariée Michel Tenenhaus

27

Utilisation des corrélations partielles

Résultats : 2 22 h h 0hh 2

h h 0

R (Z ,X) R (Z ,X / H )r

1 1 R (Z ,X / H )

Calcul des statistiques en fonction des rh2 :

2h

h

2h

h

2h

2h h

21

21

Wilks : = (1 - r )

Pillai : V = r

rHotelling Lawley : U = ( )

1- r

rRoy :

1 r