Upload
tod
View
35
Download
0
Embed Size (px)
DESCRIPTION
Régression linéaire (STT-2400). Section 3 Analyse séquentielle et tables d’analyse de variance (ANOVA) Version: 19 janvier 2007. Analyse de variance séquentielle. Dans l’exemple des données sur l’essence, on a considéré la fonction moyenne suivante: La table d’ANOVA globale est:. - PowerPoint PPT Presentation
Citation preview
Régression linéaire (STT-2400)
Section 3
Analyse séquentielle et tables d’analyse de variance (ANOVA)
Version: 19 janvier 2007
STT-2400; Régression linéaire2
Analyse de variance séquentielle
Dans l’exemple des données sur l’essence, on a considéré la fonction moyenne suivante:
La table d’ANOVA globale est:
MilesvenuTaxDlicYE logRe 43210 xX
source d.l. SS MSrégression p SSreg SSreg/présidu n-p-1 RSS RSS/(n-p-1)Total n-1 SYY
STT-2400; Régression linéaire3
Comment expliquer l’effet de la variable « Tax »
Si on s’attarde à la variable « Tax », on peut penser que la somme des carrés de l’ANOVA globale SSreg peut se diviser en deux:– Un effet relié à un ajustement incluant les variables
Dlic, Revenu et logMiles.– Un effet relié à l’ajout de la variable « Tax »;
autrement formulé, un effet relié à l’ajustement incluant la variable « Tax » après avoir déjà inclus dans le modèle les variables Dlic, Revenu et logMiles.
STT-2400; Régression linéaire4
Décomposition de SSreg dans l’ANOVA globale
On écrira la somme des carrés SSreg dans l’ANOVA globale:
SSreg(Dlic, Revenu, logMiles, Tax | 0) = SSreg(Dlic, Revenu, logMiles | 0) + SSreg(Tax |Dlic, Revenu, logMiles, 0)
Cette logique peut être répétée pour le terme SSreg(Dlic, Revenu, logMiles | 0).
STT-2400; Régression linéaire5
Table d’ANOVA dans une régression linéaire simple
Avec ce système de notation, nous aurons que la table d’ANOVA dans une régression linéaire simple prend la forme:
En effet, SSreg correspond à l’augmentation dans la somme des carrés due à la régression lors de l’ajout du préviseur X.
source d.l. SS MSrégression 1 SSreg( 1 | 0 ) SSreg/1résidu n-2 RSS RSS/(n-2)Total (corrigé) n-1 SYY
STT-2400; Régression linéaire6
Autre forme de l’ANOVA dans la régression linéaire simple
Une forme moins populaire (car moins fréquente dans les sorties informatiques) est:
On a que: et
n
iiy
1
2yy' 20 ynSSreg
source d.l. SSterme constant 1 SSreg( 0 )régression 1 SSreg( 1 | 0 )résidu n-2 RSSTotal n y'y
STT-2400; Régression linéaire7
ANOVA et régression linéaire simple
Inclure que le terme constant donne l’ANOVA:
Dans cette logique inclure les deux termes donne la table d’ANOVA
source d.l. SSterme constant 1 SSreg( 0 )résidu n-1 RSSTotal n y'y
source d.l. SSterme constant et X 2 SSreg( 0, 1 )résidu n-2 RSSTotal n y'y
STT-2400; Régression linéaire8
ANOVA et régression linéaire simple
Conséquemment on trouve que: SSreg(1 | 0) = SSreg(1,0) – SSreg(0) Ceci suggère la table d’ANOVA:
source d.l. SSterme constant 1 SSreg( 0 )régression 1 SSreg( 1 | 0 )résidu n-2 RSSTotal n y'y
STT-2400; Régression linéaire9
ANOVA et régression linéaire multiple
En général, on trouve les tables d’ANOVA suivantes:
Ainsi que:
source d.l. SSterme constant + préviseurs p+1 SSreg( 0, 1 ,... p )résidu n-p-1 RSSTotal n y'y
source d.l. SSterme constant 1 SSreg( 0 )régression p SSreg( 1 ,…, p | 0 )résidu n-p-1 RSSTotal n y'y
STT-2400; Régression linéaire10
En résumé, ce qu’il faut retenir…
En fait il faut retenir les deux formes suivantes, qui sont équivalentes:
Et la forme plus répandue (à cause des logiciels):
source d.l. SSterme constant 1 SSreg( 0 )régression p SSreg( 1 ,…, p | 0 )résidu n-p-1 RSSTotal n y'y
source d.l. SSrégression p SSreg( 1 ,…, p | 0 )résidu n-p-1 RSSTotal (corrigé) n-1 y'y-SSreg( 0 )=SYY
STT-2400; Régression linéaire11
ANOVA séquentielle
Considérons la fonction moyenne suivante:
Posons: SSreg1 = SSreg(1 | 0);
SSreg2 = SSreg(2 |1, 0);
SSreg3 = SSreg(3 |2, 1, 0);
SSreg4 = SSreg(4 |3, 2, 1, 0).
443322110| xxxxYE xX
STT-2400; Régression linéaire12
ANOVA séquentielle (suite)
On aura l’ANOVA suivante dite séquentielle:
source d.l. SSx1 1 SSreg1x2 1 SSreg2x3 1 SSreg3x4 1 SSreg4résidu n-5 RSSTotal n-1 SYY
STT-2400; Régression linéaire13
ANOVA séquentielle (suite)
Afin de calculer SSreg1, on doit ajuster une régression avec 0 et 1: ceci nous donne: SSreg(1 | 0).
Afin de calculer SSreg2, on ajuste une régression avec 0, 1 et 2, et une seconde avec seulement 0 et 1. On calcule alors:
SSreg(2 | 1, 0 ) = SSreg(1, 2 | 0 ) – SSreg(1 | 0)
STT-2400; Régression linéaire14
ANOVA séquentielle (suite)
On remarque que l’on a la relation: SSreg1 + SSreg2 + SSreg3 + SSreg4 = SSreg En effet: SSreg(1 | 0) + { SSreg(1,2 | 0) - SSreg(1 | 0) } +
{SSreg(1,2,3 | 0) - SSreg(1,2 | 0) } + {SSreg(1,2,3,4 | 0) - SSreg(1,2,3 | 0) } = SSreg(1,2,3,4 | 0) = SSreg
STT-2400; Régression linéaire15
L’ordre compte…
Il est important de noter que l’ordre dans lequel entre les variables importe.
Exemple: Inclure successivement Dlic, Tax, Revenu et logMiles donnera une ANOVA séquentielle différente de celle consistant à entrer successivement logMiles, Income, Dlic et Tax.
Si les préviseurs sont approximativement non corrélés, les différences devraient être petites.
STT-2400; Régression linéaire16
ANOVA séquentielle et SAS
Pour SAS, cette décomposition s’intitule le calcul des sommes de carrés de type I. Il suffit d’ajouter l’option SS1 dans l’énoncé « model ». Par exemple:
data essence; set alr3.fuel2001; Dlic=Drivers*1000/Pop; Fuel=FuelC*1000/Pop; logMiles=log2(Miles); Revenu=Income/1000;
proc reg data=essence; model Fuel = Dlic Tax Revenu logMiles / SS1; run;