24
Régression linéaire (STT- 2400) Section 3 Tests d’hypothèses et l’hypothèse linéaire générale Version: 26 janvier 2007

Régression linéaire (STT-2400)

  • Upload
    lorant

  • View
    69

  • Download
    3

Embed Size (px)

DESCRIPTION

Régression linéaire (STT-2400). Section 3 Tests d’hypothèses et l’hypothèse linéaire générale Version: 26 janvier 2007. Tests d’hypothèses. On dispose d’un jeux de données portant sur le prix des maisons dans une certaine région. Exemples de variables: - PowerPoint PPT Presentation

Citation preview

Page 1: Régression linéaire (STT-2400)

Régression linéaire (STT-2400)

Section 3Tests d’hypothèses et

l’hypothèse linéaire générale

Version: 26 janvier 2007

Page 2: Régression linéaire (STT-2400)

STT-2400; Régression linéaire2

Tests d’hypothèses On dispose d’un jeux de données portant sur le prix des

maisons dans une certaine région. Exemples de variables:– PRICE, prix en milliers de dollars US: variable réponse.– FLR, surface du plancher en pieds carrés: préviseur.– RMS, nombre de pièces: préviseur.– BDR, nombre de chambres à coucher: préviseur.– BTH, nombre de salles de bain: préviseur.– GAR, présence ou non d’un garage (0: aucun garage, 1: garage simple, 1.5:

garage pour un véhicule mais plus grand que le simple, 2: garage pour deux véhicules): préviseur.

– LOT, largeur de la façade du terrain en pieds: préviseur.– FP, nombre de foyers: préviseur.– ST, présence de contre-fenêtre (storm window): préviseur.

Page 3: Régression linéaire (STT-2400)

STT-2400; Régression linéaire3

Ajustement dans l’exemple du prix des maisons

Un ajustement donne la fonction moyenne suivante:

Au niveau de l’interprétation, il semble y avoir une association positive entre l’ajout d’un garage et le prix de la maison de l’ordre de 1770$ US, les autres choses étant égales.

On note que l’augmentation d’une chambre, toutes les autres choses étant égales, semble associée à une diminution du prix! (mais le coefficient porte sur l’augmentation d’une chambre, sans faire augmenter par exemple la superficie ou le nombre total de pièces).

Quand un grand nombre de préviseurs sont reliés, il peut arriver que les signes soient contre intuitifs et plus difficiles à interpréter.

STFPLOTGARBTHBDRRMSFLRPRICE

82.1091.6263.077.137.270.790.3018.064.18

Page 4: Régression linéaire (STT-2400)

STT-2400; Régression linéaire4

D’autres questions d’intérêt pourraient être…

(a) Est-ce que le prix de vente semble affecté par le nombre de chambres dans la maison (tous les autres préviseurs restant fixés)?

(b) Est-ce que l’ajout d’un garage semble associé à l’augmentation du prix de vente de $5000 US?

(c) Est-ce que le nombre de chambres et de pièces semble affecter le prix de la même manière?

(d) Est-ce que le nombre de salles de bains ou de garages semblent affecter le prix d’une maison?

(e) Est-ce qu’au moins un des préviseurs semble utile afin d’expliquer le prix de la maison?

Page 5: Régression linéaire (STT-2400)

STT-2400; Régression linéaire5

Formulation des questions de façon statistique… tests déjà vus!

(a) Est-ce que le prix de vente semble affecté par le nombre de chambres dans la maison (tous les autres préviseurs restant fixés)?

(b) Est-ce que l’ajout d’un garage semble associé à l’augmentation du prix de vente de $5000 US?

0:0:

21

20

HH

5:5:

51

50

HH

STFPLOTGARBTHBDRRMSFLRPRICE

8765

43210

Page 6: Régression linéaire (STT-2400)

STT-2400; Régression linéaire6

Formulation des questions de façon statistique… nouveaux tests!

(c) Est-ce que le nombre de chambres et de pièces semble affecter le prix de la même manière?

(d) Est-ce que le nombre de salles de bains ou de garages semblent affecter le prix d’une maison?

STFPLOTGARBTHBDRRMSFLRPRICE

8765

43210

321

320

::

HH

01

540

:0:

HHH

Page 7: Régression linéaire (STT-2400)

STT-2400; Régression linéaire7

Formulation des questions de façon statistique (suite)

(e) Est-ce qu’au moins un des préviseurs semble utile afin d’expliquer le prix de la maison?

Ce test correspond bien entendu au test F global dans une table d’ANOVA.

01

876543210

:0:

HHH

STFPLOTGARBTHBDRRMSFLRPRICE

8765

43210

Page 8: Régression linéaire (STT-2400)

STT-2400; Régression linéaire8

Hypothèse linéaire générale Un examen attentif de tous ces tests montre qu’en fait

toutes ces questions impliquent des contraintes linéaires sur les paramètres:

En fait toutes ces hypothèses peuvent s’exprimer comme un cas particulier de l’hypothèse linéaire générale.

.0;0;;5;0

8154

3252

Page 9: Régression linéaire (STT-2400)

STT-2400; Régression linéaire9

Formulation de l’hypothèse linéaire générale

Considérons le modèle de régression linéaire multiple:

L’hypothèse linéaire générale est:

La matrice C est de dimension et elle est de rang m. Les vecteurs et sont de dimension

.

eXβy

0γCβ :0H 1 pm

11 p

Page 10: Régression linéaire (STT-2400)

STT-2400; Régression linéaire10

Exemple (a)

Pour (a), il suffit de poser:

On a m = 1. L’hypothèse linéaire générale est:

Elle se réduit donc à:

STFPLOTGARBTHBDRRMSFLRPRICE

8765

43210

0: 20 H

0γ ;0,0,0,0,0,0,1,0,0C

0γCβ :0H

Page 11: Régression linéaire (STT-2400)

STT-2400; Régression linéaire11

Exemple (b)

Pour (b), il suffit de poser:

On a m = 1. L’hypothèse linéaire générale est:

Elle se réduit donc à:

STFPLOTGARBTHBDRRMSFLRPRICE

8765

43210

5: 50 H

5;0,0,0,1,0,0,0,0,0 C

0γCβ :0H

Page 12: Régression linéaire (STT-2400)

STT-2400; Régression linéaire12

Exemple (c)

Pour (c), il suffit de poser:

On a m = 1. L’hypothèse linéaire générale est:

Elle se réduit donc à:

STFPLOTGARBTHBDRRMSFLRPRICE

8765

43210

320 : H

0γC ;0,0,0,0,0,1,1,0,0

0γCβ :0H

Page 13: Régression linéaire (STT-2400)

STT-2400; Régression linéaire13

Exemple (d)

Pour (d), il suffit de poser:

On a m = 2. L’hypothèse linéaire générale est:

Elle se réduit donc à:

STFPLOTGARBTHBDRRMSFLRPRICE

8765

43210

0: 540 H

00

;000100000000010000

γC

0γCβ :0H

Page 14: Régression linéaire (STT-2400)

STT-2400; Régression linéaire14

Exemple (e)

Pour (e), il suffit de considérer la matrice :

On a donc m = 8. L’hypothèse linéaire générale est:

Elle se réduit donc à:

STFPLOTGARBTHBDRRMSFLRPRICE

8765

43210

0: 810 H

0γI0C ;8

0γCβ :0H

98

Page 15: Régression linéaire (STT-2400)

STT-2400; Régression linéaire15

Statistique de test pour l’hypothèse linéaire générale

Supposons que les erreurs sont iid normales . Confrontons les hypothèses:

C est de dimension et de rang .

Posons:

2,0 N

0γCβ0γCβ

::

1

0

HH

1 pm 1 pm

2

11

ˆ

ˆ''ˆ

mF γβCCXX'CγβC

Page 16: Régression linéaire (STT-2400)

STT-2400; Régression linéaire16

Statistique F pour l’hypothèse linéaire générale

On pose encore:

Hypothèses à confronter:

Règle de décision: rejeter H0 si

2

11

ˆ

ˆ''ˆ

mF γβCCXX'CγβC

0γCβ0γCβ

::

1

0

HH

1, pnmFF

1/ˆ;''ˆ 21 pnRSSyXXXβ

Page 17: Régression linéaire (STT-2400)

STT-2400; Régression linéaire17

Quelques faits concernant le test F

Ce test est en fait le test du rapport de vraisemblance pour les hypothèses considérées.

Pour obtenir la distribution, on a utilisé la normalité et donc il repose sur l’estimation des paramètres du modèle par la méthode de vraisemblance maximale.

Même si les erreurs ne sont pas normales, ce test est généralement robuste aux écarts à la normalité des erreurs.

Qu’est-ce que cela veut dire? Si des écarts relativement peu importants de l’hypothèse de normalité surviennent, alors les estimateurs, tests d’hypothèses et intervalles de confiance se trouvent souvent peu affectés.

Page 18: Régression linéaire (STT-2400)

STT-2400; Régression linéaire18

Test-F dans la situation « modèle plein – modèle réduit »

Reconsidérons l’exemple (d): (d) Est-ce que le nombre de salles de bains ou

de garages semblent affecter le prix d’une maison?

STFPLOTGARBTHBDRRMSFLRPRICE

8765

43210

01

540

:0:

HHH

Page 19: Régression linéaire (STT-2400)

STT-2400; Régression linéaire19

Formalisation de l’exemple (d)

Considérons , où les matrices composants X sont de dimensions:

On considère la partition suivante du vecteur :

21 XXX

qn

qpn

:

1:

2

1

XX

'2'1' βββ

1:

11:

2

1

qqp

ββ

Page 20: Régression linéaire (STT-2400)

STT-2400; Régression linéaire20

Confrontation du modèle plein et du modèle réduit

On désire confronter:

Autrement formulé, on désire tester l’hypothèse nulle:

eβXβXyeβXy

2211

11

::

MPMR

0β 20 :H1:2 qβ

Page 21: Régression linéaire (STT-2400)

STT-2400; Régression linéaire21

Test F pour tester « modèle plein – modèle réduit »

Il est possible de montrer que le test F du rapport de vraisemblance se réduit à calculer la statistique suivante:

On compare avec la distribution F suivante:

MPMP

MPMRMPMR

dlRSSdldlRSSRSSF

MPMPMR dldldlF ,

Page 22: Régression linéaire (STT-2400)

STT-2400; Régression linéaire22

Mise en œuvre pratique du test pour l’hypothèse « modèle plein-modèle réduit »

Ainsi afin de mettre en œuvre ce test il suffit d’effectuer deux régression.

On fait la régression incluant tous les préviseurs et on récupère la somme des carrés résiduelle RSSMP et son nombre de dl associé.

On fait la régression incluant les préviseurs formant le modèle réduit et on récupère la somme des carrés résiduelle RSSMR et ses dl.

On calcule la statistique F.

Page 23: Régression linéaire (STT-2400)

STT-2400; Régression linéaire23

Hypothèse linéaire avec SAS dans la procédure PROC REG

proc reg data=maison; model price = flr rms bdr bth gar lot fp st; HypA: test bdr = 0; HypB: test gar = 5; HypC: test bdr = bth; HypD: test bth = 0, gar = 0; HypE: test flr, rms, bdr, bth, gar, lot, fp, st; run;

proc reg data=maison; model price = flr rms bdr lot fp st; run;

Page 24: Régression linéaire (STT-2400)

STT-2400; Régression linéaire24

Quelques commentaires sur les tests Pour HypA: on avait déjà ce test en regardant la

statistique-t pour la variable BDR: (-4.21)2 = 17.70 avec valeur-p de 0.0006.

Pour HypE: on retrouve le résultat du test global, avec une statistique F de 20.11.

Pour HypD: La statistique-F est de 1.32. On peut obtenir cette statistique de l’ajustement des deux régressions, l’une incluant tous les préviseurs (RSS=378.21240, dl=17), l’autre excluant BTH et GAR (RSS=436.92812). On vérifie que:

(436.92812-378.21240)/(2*22.24779) = 1.32