86
Test et analyse de variance de la régression Distribution des paramètres Tests et intervalles de confiance sur les paramètres IC pour une valeur moyenne et pour une prévision Exemple Compléments sur la régression linéaire simple Anova et inférence sur les paramètres Myriam Maumy-Bertrand 1 1 IRMA, Université de Strasbourg France 22-11-2013 Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Compléments sur la régression linéaire simple Anova et

  • Upload
    others

  • View
    2

  • Download
    1

Embed Size (px)

Citation preview

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Compléments sur la régression linéaire simpleAnova et inférence sur les paramètres

Myriam Maumy-Bertrand1

1IRMA, Université de StrasbourgFrance

22-11-2013

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Ce chapitre s’appuie également sur ce livre :« Analyse de régression appliquée »,de Y. Dodge et V. Rousson,Éditions Dunod, 2004.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Sommaire1 Test et analyse de variance de la régression2 Distribution des paramètres

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

3 Tests et intervalles de confiance sur les paramètresTest sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

4 Intervalle de confiance pour une valeur moyenne ou uneprévision

5 Exemple

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Sommaire1 Test et analyse de variance de la régression2 Distribution des paramètres

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

3 Tests et intervalles de confiance sur les paramètresTest sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

4 Intervalle de confiance pour une valeur moyenne ou uneprévision

5 Exemple

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Il existe plusieurs démarches pour tester la validité de lalinéarité d’une régression linéaire simple.Nous montrons l’équivalence de ces différents tests.Conséquence : Cela revient à faire le test du coefficientde corrélation linéaire, appelé aussi le coefficient deBravais-Pearson.

RemarqueNous renvoyons le lecteur à un cours sur le coefficient decorrélation linéaire.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

ProblèmeNous souhaitons tester l’hypothèse nulle :

H0 : ρ(X ,Y ) = 0

contre l’hypothèse alternative :

H1 : ρ(X ,Y ) 6= 0

oùρ(X ,Y ) =

Cov(X ,Y )√Var [X ]Var [Y ]

,

avec

Cov(X ,Y ) = E[XY ]− E[X ]E[Y ] = Cov(Y ,X ).

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

SolutionLa méthode que nous allons employer ici est :

la méthode de l’ANOVA

utilisée par les logiciels de statistique.

Remarques1 ANOVA pour ANalysis Of VAriance ou encore analyse de

la variance.2 Nous renvoyons le lecteur à un cours sur le test du

coefficient de corrélation linéaire.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

RemarqueNous avons établi dans le cours numéro 5 :

Somme des Carrés Totale = Somme des Carrés Expliquée+ Somme des Carrés Résiduelle

ce qui s’écrit mathématiquement par :

n∑i=1

(Yi − Y n)2 =n∑

i=1

(Yi − Y n)2 +n∑

i=1

(Yi − Yi)2.

À chaque somme de carrés est associé son nombre de degrésde liberté (ddl). Ces ddl sont présents dans le tableau del’ANOVA.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Tableau de l’ANOVA

Source de variation sc ddl cm

expliquée screg

n∑i=1

(yi − yn)2 1 screg/1

résiduelle scres

n∑i=1

(yi − yi)2 n − 2 scres/(n − 2)

totale sctot

n∑i=1

(yi − yn)2 n − 1

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Remarques1 Le coefficient de détermination

R2 =screg

sctot

mesure le pourcentage d’explication du modèle par larégression linéaire.

2 Le rapportcmres =

scres

n − 2est l’estimation de la variance résiduelle.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

À partir du tableau de l’ANOVA, nous effectuons le test de lalinéarité de la régression en calculant la statistique deFisher F qui suit une loi de Fisher F (1,n − 2).

Cette variable aléatoire F se réalise en :

Fobs =SCreg/1

SCres/(n − 2)= (n − 2)

SCreg

SCres·

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

DécisionSi

Fobs > F1−α(1,n − 2),

alors nous décidons de rejeter l’hypothèse nulle H0 et parconséquent d’accepter l’hypothèse alternative H1 au risque α,c’est-à-dire qu’il existe une liaison linéaire significative entre Xet Y .Si

Fobs < F1−α(1,n − 2),

alors nous décidons de ne pas rejeter l’hypothèse nulle H0 etpar conséquent de l’accepter, c’est-à-dire nous concluons qu’iln’existe pas de liaison linéaire entre X et Y .

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

RemarqueEn effet, si l’hypothèse nulle H0 est vérifiée alors cela impliqueque ρ(X ,Y ) = 0 c’est-à-dire Cov(X ,Y ) = 0. Donc il n’existeaucune liaison linéaire entre X et Y .

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

Sommaire1 Test et analyse de variance de la régression2 Distribution des paramètres

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

3 Tests et intervalles de confiance sur les paramètresTest sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

4 Intervalle de confiance pour une valeur moyenne ou uneprévision

5 Exemple

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

Sommaire1 Test et analyse de variance de la régression2 Distribution des paramètres

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

3 Tests et intervalles de confiance sur les paramètresTest sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

4 Intervalle de confiance pour une valeur moyenne ou uneprévision

5 Exemple

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

ModélisationLe modèle de régression linéaire simple est

Yi = β0 + β1xi + εi

où les εi sont des variables aléatoires inobservables, appeléesles erreurs.

Conséquence : Les variables Yi sont aléatoires.

Première hypothèse : E[εi ] = 0.Conséquence : E[Yi ] = β0 + β1xi .

D’autre part, nous avons :

Var [Yi ] = Var [εi ].

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

Les quatre hypothèses indispensables pour construire lathéorie :

1 Les variables aléatoires εi sont indépendantes.2 Les variables aléatoires εi sont normalement distribuées.3 L’espérance des variables aléatoires εi est égale à 0.4 La variance des variables aléatoires εi est égale à σ2

(inconnue) ne dépendant pas de xi .Nous avons donc pour tout i = 1, . . . ,n :

Var [εi ] = Var [Yi ] = σ2.

Cette condition s’appelle d’homoscédasticité.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

Résumons-nousCes quatre hypothèses sont équivalentes à :

les variables aléatoires εi sont indépendantes etidentiquement distribuées selon une loi normale de

moyenne nulle et de variance σ2.

Nous notons :εi i.i.d. ∼ N (0;σ2).

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

Conséquences importantes :1 La normalité des variables aléatoires εi implique la

normalité des variables aléatoires Yi .

2 L’indépendance des variables aléatoires εi impliquel’indépendance des variables aléatoires Yi .En effet, nous montrons en calculant que :

Cov [Yi ,Yj ] = Cov [β0 + β1xi + εi , β0 + β1xj + εj ]

= Cov [εi , εj ]

= 0.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

Sommaire1 Test et analyse de variance de la régression2 Distribution des paramètres

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

3 Tests et intervalles de confiance sur les paramètresTest sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

4 Intervalle de confiance pour une valeur moyenne ou uneprévision

5 Exemple

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

RésultatNous avons :

β1 =

∑(xi − xn)Yi∑(xi − xn)2 , où xn =

∑xi

ConséquencesIl en résulte que :

β1 est une variable aléatoire car β1 dépend des variablesYi qui sont des variables aléatoires.β1 est une fonction linéaire des variables aléatoires Yi .Comme les variables aléatoires Yi par hypothèse sontnormalement distribuées, alors β1 est normalementdistribuée.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

Il reste donc à calculer ces deux valeurs pour caractériser la loide l’estimateur β1 :

1 E[β1

]2 Var

[β1

].

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

Calcul de l’espérance de β1

D’une part, nous calculons l’espérance de β1 ainsi :

E[β1

]= E

[∑(xi − xn)Yi∑(xi − xn)2

]=

∑(xi − xn)E[Yi ]∑

(xi − xn)2

=

∑(xi − xn)(β0 + β1xi)∑

(xi − xn)2

=β0∑

(xi − xn) + β1∑

(xi − xn)xi∑(xi − xn)2

=0 + β1

∑(xi − xn)xi∑

(xi − xn)2 ·

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

Suite et fin du calcul de l’espérance de β1

En effet, nous montrons que :∑

(xi − xn) = 0. De plus, commenous avons : ∑

(xi − xn)2 =∑

(xi − xn)xi

alors nous obtenons :

E[β1

]= β1.

Remarque importante

Donc la variable aléatoire β1 est un estimateur sans biais ducoefficient β1.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

Calcul de la variance de β1

D’autre part, nous calculons la variance de β1 ainsi :

Var[β1

]= Var

[∑(xi − xn)Yi∑(xi − xn)2

]=

∑(xi − xn)2Var [Yi ](∑

(xi − xn)2)2

=

∑(xi − xn)2σ2(∑(xi − xn)2

)2

Var[β1

]=

σ2∑(xi − xn)2 ·

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

Sommaire1 Test et analyse de variance de la régression2 Distribution des paramètres

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

3 Tests et intervalles de confiance sur les paramètresTest sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

4 Intervalle de confiance pour une valeur moyenne ou uneprévision

5 Exemple

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

Nous avons :β0 = Y n − β1xn

oùxn =

∑xi

net Y n =

∑Yi

β0 est une variable aléatoire car β0 dépend de β1 qui estune variable aléatoire.β0 est une fonction linéaire de β1.Comme β1 est normalement distribuée, alors β0 estnormalement distribuée.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

Il reste donc à calculer ces deux valeurs pour caractériserl’estimateur β0 :

1 E[β0

]2 Var

[β0

].

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

Calcul de l’espérance de β0

D’une part, nous calculons l’espérance de β0 ainsi :

E[β0

]= E

[Y n − β1xn

]= E

[Y n]− xn E

[β1

]= E

[Y n]− xnβ1,

car nous venons de démontrer que β1 est un estimateur sansbiais du coefficient β1.Il reste à calculer la valeur :

E[

Y n].

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

Suite du calcul de l’espérance de β0

Or nous avons :

E[

Y n]

= E[∑

Yi

n

]=

∑E[Yi ]

n

=

∑(β0 + β1xi)

n

=nβ0 + β1

∑xi

n= β0 + xnβ1.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

Fin du calcul de l’espérance de β0

Nous obtenons donc :

E[β0

]= E

[Y n]− xnβ1

= (β0 + xnβ1)− xnβ1

= β0.

Remarque

Donc la variable aléatoire β0 est un estimateur sans biais ducoefficient β0.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

Calcul de la variance de β0

D’autre part, nous calculons la variance de β0 ainsi :

Var[β0

]= Var

[Y n − β1xn

]= Var

[Y n]

+ x2n Var

[β1

]− 2 xn Cov

[Y n, β1

].

Il reste donc à calculer la valeur :

Cov[Y n, β1

].

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

Suite du calcul de la variance de β0

Par les calculs, nous montrons que :

Cov[Y n, β1

]= Cov

[∑Yi

n,

∑(xj − xn)Yj∑(xi − xn)2

]=

∑i∑

j(xj − xn)Cov [Yi ,Yj ]

n∑

(xi − xn)2

=

∑i(xi − xn)Var [Yi ]

n∑

(xi − xn)2

=σ2∑

i(xi − xn)

n∑

(xi − xn)2

= 0.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

Suite du calcul de la variance de β0

Comme nous avons que

Var[

Y n]

=σ2

n,

nous obtenons, alors :

Var[β0

]= Var

[Y n]

+ x2nVar

[β1

]=

σ2

n+

x2nσ

2∑(xi − xn)2

=σ2(∑

(xi − xn)2 + nx2n

)n∑

(xi − xn)2 ·

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

Fin du calcul de la variance de β0

En rappelant que :∑(xi − xn)2 =

∑x2

i − nx2n,

nous avons finalement :

Var[β0

]=

σ2∑ x2i

n∑

(xi − xn)2 ·

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Test sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

Sommaire1 Test et analyse de variance de la régression2 Distribution des paramètres

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

3 Tests et intervalles de confiance sur les paramètresTest sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

4 Intervalle de confiance pour une valeur moyenne ou uneprévision

5 Exemple

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Test sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

Sommaire1 Test et analyse de variance de la régression2 Distribution des paramètres

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

3 Tests et intervalles de confiance sur les paramètresTest sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

4 Intervalle de confiance pour une valeur moyenne ou uneprévision

5 Exemple

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Test sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

RappelNous rappelons que :

β1 ∼ N (β1;σ2(β1))

σ2(β1) =σ2∑

(xi − xn)2 ·

Nous obtenons alors :

β1 − β1

σ(β1)∼ N (0; 1).

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Test sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

Problème

Nous ne connaissons pas le paramètre σ2, c’est-à-dire lavariance des variables aléatoires εi .

Que pouvons-nous faire alors pour résoudre ce problème ?

PropositionEstimer ce paramètre ! Oui, mais comment ?

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Test sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

Solution

Nous estimons d’abord σ2 par CMres l’estimateur sansbiais de σ2 :

CMres =||ε||2

n − 2=

∑(Yi − Yi)

2

n − 2·

Nous estimons ensuite σ2(β1) par :

s2(β1) =CMres∑

(xi − xn)2 ·

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Test sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

Fin de la solutionNous montrons alors que :

β1 − β1

s(β1)∼ Tn−2,

où la variable aléatoire Tn−2 désigne une variable deStudent avec (n − 2) degrés de liberté.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Test sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

Mise en place du test sur la penteNous souhaitons tester l’hypothèse nulle :

H0 : β1 = 0

contre l’hypothèse alternative :

H1 : β1 6= 0.

Nous utilisons alors la statistique de Student suivante :

tobs =β1

s(β1)

pour décider de l’acceptation ou du rejet de H0.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Test sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

DécisionNous décidons de rejeter l’hypothèse nulle H0 et doncd’accepter l’hypothèse alternative H1 au seuil de signification αsi

|tobs| > tn−2;1−α/2

où la valeur critique tn−2;1−α/2 est le (1− α/2)-quantile d’uneloi de Student avec (n − 2) ddl .

Dans ce cas, nous disons que la relation linéaire entre X et Yest significative au seuil α.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Test sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

Décision - Suite et finNous décidons d’accepter l’hypothèse nulle H0 au seuil designification α si

|tobs| < tn−2;1−α/2

où la valeur tn−2;1−α/2 est le (1− α/2)-quantile d’une loi deStudent avec (n − 2) ddl .

Dans ce cas, Y ne dépend pas linéairement de X . Le modèledevient alors :

Yi = β0 + εi

Le modèle proposé Yi = β0 + β1xi est inadéquat. Nous testonsalors un nouveau modèle.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Test sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

Sommaire1 Test et analyse de variance de la régression2 Distribution des paramètres

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

3 Tests et intervalles de confiance sur les paramètresTest sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

4 Intervalle de confiance pour une valeur moyenne ou uneprévision

5 Exemple

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Test sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

IC pour β1

Un intervalle de confiance au niveau (1− α) pour le coefficientinconnu β1 est défini par]

β1 − tn−2;1−α/2 × s(β1) ; β1 + tn−2;1−α/2 × s(β1)[.

Cet intervalle de confiance est construit pour contenir, dans(1− α)% des cas, la vraie valeur inconnue du coefficient β1.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Test sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

Sommaire1 Test et analyse de variance de la régression2 Distribution des paramètres

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

3 Tests et intervalles de confiance sur les paramètresTest sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

4 Intervalle de confiance pour une valeur moyenne ou uneprévision

5 Exemple

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Test sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

RappelNous rappelons que :

β0 ∼ N (β0;σ2(β0))

σ2(β0) =σ2∑ x2

in∑

(xi − xn)2 ·

Nous obtenons alors :

β0 − β0

σ(β0)∼ N (0; 1).

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Test sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

Problème

Nous ne connaissons pas le paramètre σ2, c’est-à-dire lavariance des variables aléatoires εi .

Que pouvons-nous faire alors pour résoudre ce problème ?

SolutionEstimer ce paramètre !

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Test sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

Solution

Nous estimons d’abord σ2 par CMres l’estimateur sansbiais de σ2 :

CMres =||ε||2

n − 2=

∑(Yi − Yi)

2

n − 2·

Nous estimons ensuite σ2(β0) par :

s2(β0) =CMres

∑x2

in∑

(xi − xn)2 ·

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Test sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

Suite de la solutionNous montrons alors que :

β0 − β0

s(β0)∼ Tn−2,

où Tn−2 désigne une v.a. de Student avec (n − 2) ddl .

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Test sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

Mise en place du test sur l’ordonnée à l’origine

Nous souhaitons tester l’hypothèse nulle

H0 : β0 = 0

contre l’hypothèse alternative

H1 : β0 6= 0.

Nous utilisons la statistique de Student suivante :

tobs =β0

s(β0)

pour décider de l’acceptation ou du rejet de H0.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Test sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

DécisionNous décidons de refuser l’hypothèse nulle H0 et d’accepterl’hypothèse alternative H1 au seuil de signification α si :

|tobs| > tn−2;1−α/2

où la valeur critique tn−2;1−α/2 est le (1− α/2)-quantile d’uneloi de Student avec (n − 2) ddl.

Dans ce cas, le coefficient β0 du modèle est dit significatif auseuil α.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Test sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

Décision - Suite et finNous décidons de ne pas refuser et donc d’accepterl’hypothèse nulle H0 au seuil de signification α si

|tobs| < tn−2;1−α/2

où la valeur critique tn−2;1−α/2 est le (1− α/2)-quantile d’uneloi de Student avec (n − 2) ddl .

Dans ce cas, l’ordonnée de la droite de régression passe parl’origine :

Yi = β1xi + εi .

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Test sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

Sommaire1 Test et analyse de variance de la régression2 Distribution des paramètres

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

3 Tests et intervalles de confiance sur les paramètresTest sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

4 Intervalle de confiance pour une valeur moyenne ou uneprévision

5 Exemple

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Test sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

IC pour β0

Un intervalle de confiance au niveau (1− α) pour le coefficientinconnu β0 est défini par :]

β0 − tn−2;1−α/2 × s(β0) ; β0 + tn−2;1−α/2 × s(β0)[.

Cet intervalle de confiance est construit pour contenir, dans(1− α)% des cas, la vraie valeur inconnue du coefficient β0.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Sommaire1 Test et analyse de variance de la régression2 Distribution des paramètres

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

3 Tests et intervalles de confiance sur les paramètresTest sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

4 Intervalle de confiance pour une valeur moyenne ou uneprévision

5 Exemple

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Construction de l’intervalle de confiance pour une valeurmoyenneNous allons voir comment trouver un intervalle de confiancepour la valeur moyenne x :

µY (x) = β0 + β1x ,

c’est-à-dire pour l’ordonnée du point d’abscisse x se trouvantsur la droite des moindres carrés ordinaire.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

L’estimateur de β0 + β1x est donné par la droite des moindrescarrés ordinaire :

Y (x) = β0 + β1x ,

oùY (x) ∼ N

(β0 + β1x ;σ2(Y (x)

))et

σ2(

Y (x))

= σ2(

1n

+(x − x)2∑(xi − x)2

Ce qui peut s’écrire aussi :

Y (x)− µY (x)

σ(

Y (x)) ∼ N (0; 1).

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Problème

La variance σ2 est inconnue.

Solution

Nous estimons d’abord σ2 par l’estimateur CMres.Nous estimons ensuite σ2(Y (x)

)par :

s2(Y (x))

= cmres

(1n

+(x − xn)2∑(xi − xn)2

Ainsi nous obtenons :

Y (x)− µY (x)

s(

Y (x)) ∼ Tn−2.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Intervalle de confiance pour une valeur moyenneIl est possible de construire une intervalle de confiance de lavaleur moyenne de Y sachant que X = x0. L’estimationponctuelle pour cette valeur de x0 est alors égale ày(x0) = β0 + β1x0.L’intervalle de confiance de la valeur moyenne prise par lavariable Y lorsque X = x0 est égal à :]

y(x0)− tn−2;1−α/2 × s(y(x0)

); y(x0) + tn−2;1−α/2 × s

(y(x0)

)[.

RemarqueCet intervalle de confiance est construit pour contenir, dans(1− α)% des cas, la vraie valeur moyenne inconnue µY (x0).

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

L’ajustement affine peut servir à prévoir une valeur attenduepour la variable Y quand nous fixons X = x0. L’estimationponctuelle de cette valeur est alors égale à y(x0) = β0 + β1x0.

Intervalle de prévision d’une valeur individuelle

Un intervalle de prévision au niveau (1− α) pour la variable Ysachant que X = x0 est égal à :]

y(x0)− tn−2;1−α/2

√cmres + s2

(y(x0)

);

y(x0) + tn−2;1−α/2

√cmres + s2

(y(x0)

)[.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Remarques1 Cet intervalle de prévision est construit pour contenir, dans

(1− α)% des cas, la vraie valeur individuelle inconnueY (x0).

2 L’utilisation d’une valeur estimée y(x0) n’est justifiée que siR2 est proche de 1.

3 Notez que l’intervalle de confiance va produire uneétendue de valeurs plus petite, parce qu’il s’agit d’uneestimation d’un intervalle pour une moyenne plutôt que del’estimation d’un intervalle pour une seule observation.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Sommaire1 Test et analyse de variance de la régression2 Distribution des paramètres

Modèle de régression linéaire simpleDistribution de la pente du modèleDistribution de l’ordonnée à l’origine

3 Tests et intervalles de confiance sur les paramètresTest sur la penteIntervalle de confiance pour la penteTest sur l’ordonnée à l’origineIntervalle de confiance pour l’ordonnée à l’origine

4 Intervalle de confiance pour une valeur moyenne ou uneprévision

5 Exemple

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Exemple : le tableau de données. D’après Birkes et Dodge(1993)

Pays Taux d’ur- Taux debanisation natalité

xi yi

Canada 55,0 16,2Costa Rica 27,3 30,5Cuba 33,3 16,9E.U. 56,5 16,0El Salvador 11,5 40,2Guatemala 14,2 38,4Haïti 13,9 41,3

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Suite des données

Pays Taux d’ur- Taux debanisation natalité

xi yi

Honduras 19,0 43,9Jamaïque 33,1 28,3Mexique 43,2 33,9Nicaragua 28,5 44,2Trinité-et-Tobago 6,8 24,6Panama 37,7 28,0Rép. Dom. 37,1 33,1

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Nuage de points

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Analyse : calcul du coefficient de corrélation linéaireNous souhaitons modéliser la relation entre le taux de natalitéet le taux d’urbanisation.La première question à se poser est : « existe-t-il une relationlinéaire entre les deux variables ? »Pour y répondre, calculons le coefficient de corrélation linéairede Bravais-Pearson à l’aide de R.

> cor(natalite,urbanisation)[1] -0.6211854

Comment interprétons-nous cette valeur ? Il semblerait qu’ilpuisse exister une relation linéaire entre les deux variables. Ilreste donc à réaliser le test du coefficient de corrélation linéaire.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Suite de l’analyse : test de corrélation linéaire

Mais pour cela, il faut savoir si le couple (X ,Y ) suit une loinormale bivariée. Utilisons R.

> exemple<-data.frame(urbanisation,natalite)> transpose<-t(exemple)> mshapiro.test(transpose)Shapiro-Wilk normality testdata: ZW = 0.927, p-value = 0.2771

La p-valeur (p-value = 0,2771) étant supérieure à α = 5%, nousdécidons de ne pas rejeter et donc d’accepter l’hypothèse nulleH0 au seuil α = 5%.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Suite de l’analyse : test de corrélation linéaireMaintenant que l’hypothèse fondamentale est vérifiée, nouspouvons réaliser le test de corrélation linéaire.

> cor.test(urbanisation,natalite)Pearson’s product-moment correlationdata: urbanisation and natalitet = -2.7459, df = 12, p-value = 0.01774alternative hypothesis: true correlation isnot equal to 095 percent confidence interval:-0.8662568 -0.1351496sample estimates:cor-0.6211854

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Suite et fin de l’analyse : test de corrélation linéaire

La p-valeur (p-value = 0,01774) étant inférieure à α = 5%, nousdécidons de rejeter l’hypothèse nulle H0 et donc d’accepterl’hypothèse alternative H1 au seuil de signification α = 5%. Ilexiste donc une relation linéaire entre les deux variables.Maintenant, déterminons les coefficients de la droite lesmoindres carrés avec R et traçons-la.

> modele<-lm(natalite urbanisation)> coef(modele)(Intercept) urbanisation42.9905457 -0.3988675> abline(coef(modele),col="red")

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Nuage des points et droite des MCO

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Calcul des résidusPour réaliser les tests sur la pente et sur l’ordonnée, il fautvérifier la normalité des résidus. Nous allons les calculer avecR.

> residus<-residuals(modele)

et les placer dans le tableau des données.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Tableau de données avec résidus

Pays Taux d’ur- Taux de Valeurs Rési-banisation natalité estimées dus

xi yi yi ei

Canada 55,0 16,2 21,05 −4,85Costa Rica 27,3 30,5 32,10 −1,60Cuba 33,3 16,9 29,71 −12,81E.U. 56,5 16,0 20,45 −4,45El Salvador 11,5 40,2 38,40 1,80Guatemala 14,2 38,4 37,33 1,07Haïti 13,9 41,3 37,45 3,85

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Suite des données avec résidus

Pays Taux d’ur- Taux de Valeurs Rési-banisation natalité estimées dus

xi yi yi ei

Honduras 19,0 43,9 35,41 8,49Jamaïque 33,1 28,3 29,79 −1,49Mexique 43,2 33,9 25,76 8,14Nicaragua 28,5 44,2 31,62 12,58Trinité-et-Tobago 6,8 24,6 40,28 −15,68Panama 37,7 28,0 27,95 0,05Rép. Dom. 37,1 33,1 28,19 4,91

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Normalité des résidusRéalisons donc le test de normalité, le test de Shapiro-Wilkavec R.

> shapiro.test(residus)Shapiro-Wilk normality testdata: residus W = 0.9635, p-value = 0.7797

La p-valeur (p-value = 0,7797) étant supérieure à α = 5%, nousdécidons de ne pas rejeter et donc d’accepter l’hypothèse nulleH0 au seuil de signification α = 5%. Nous commettons uneerreur de deuxième espèce β qu’il faudrait évaluer.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Test sur la pente β1.Nous testons

H0 : β1 = 0

contreH1 : β1 6= 0.

Nous calculons

tobs =β1

s(β1)=−0,39890,1453

= −2,746.

Or la valeur critique est égale à pour un seuil α = 0,05 :

t(12;0,975) ' 2,179.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

DécisionComme

|tobs| > tn−2;1−α/2,

nous décidons de refuser l’hypothèse nulle H0. Parconséquent, nous décidons d’accepter l’hypothèse alternativeH1, au seuil de signification α = 5%. Nous commettons uneerreur de première espèce qui vaut α = 5%.En conclusion, la relation linéaire entre le taux de natalité et letaux d’urbanisation est significative au seuil α = 5%.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

RemarqueEn se servant de la sortie du logiciel R et en raisonnant enterme de p-valeur, nous retrouvons cette conclusion.

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 42.9905 4.8454 8.872 1.28e-06xi -0.3989 0.1453 -2.746 0.0177

--Residual standard error: 8.154 on 12 degreesof freedomMultiple R-squared: 0.3859, AdjustedR-squared: 0.3347F-statistic: 7.54 on 1 and 12 DF, p-value:0.01774

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

IC pour β1

Un intervalle de confiance pour le coefficient inconnu β1 auniveau (1− α) = 0,95 s’obtient en calculant :

β1 ± tn−2;1−α/2 × s(β1) = −0,3989± 2,179× 0,1453.

Nous avons donc après simplification :

]− 0,716;−0,082[

qui contient la vraie valeur du coefficient inconnu β1 avec uneprobabilité de 0,95.

RemarqueNous remarquons que 0 n’est pas compris dans l’intervalle.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

RemarqueEn se servant de la sortie du logiciel R et en raisonnant enterme de p-valeur, nous retrouvons cette conclusion.

> confint(modele1)2.5 % 97.5%

(Intercept) 32.4332596 53.54783182xi -0.7153622 -0.08237281

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

Test sur l’ordonnée β0

H0 : β0 = 0

contreH1 : β0 6= 0.

Nous calculons

tobs =β0

s(β0)=

42,99054,8454

= 8,872.

Or la valeur critique est égale à pour un seuil α = 0,05 :

t0,975;12 = 2,179.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

DécisionComme

|tobs| > tn−2;1−α/2,

nous décidons de refuser l’hypothèse nulle H0. Par conséquentnous décidons d’accepter l’hypothèse alternative H1, au seuilde signification α = 5%. Nous commettons une erreur depremière espèce qui vaut α = 5%.

En conclusion, la droite des moindres carrés ordinaire nepasse pas par l’origine.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

RemarqueEn se servant de la sortie du logiciel R et en raisonnant enterme de p-valeur, nous retrouvons cette conclusion.

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 42.9905 4.8454 8.872 1.28e-06xi -0.3989 0.1453 -2.746 0.0177

--Residual standard error: 8.154 on 12 degreesof freedomMultiple R-squared: 0.3859, AdjustedR-squared: 0.3347F-statistic: 7.54 on 1 and 12 DF, p-value:0.01774

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

IC pour β0

Un intervalle de confiance pour le coefficient inconnu β0 auniveau (1− α) = 0,95 s’obtient en calculant :

β0 ± tn−2;1−α/2, × s(β0) = 42,9905± 2,179× 4,8454.

Nous avons donc après simplification :

]32,433; 53,548[

qui contient la vraie valeur du coefficient inconnu β0 avec uneprobabilité de 0,95.

RemarqueNous remarquons que 0 n’est pas compris dans l’intervalle.

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple

Test et analyse de variance de la régressionDistribution des paramètres

Tests et intervalles de confiance sur les paramètresIC pour une valeur moyenne et pour une prévision

Exemple

RemarqueEn se servant de la sortie du logiciel R et en raisonnant enterme de p-valeur, nous retrouvons cette conclusion.

> confint(modele1)2.5 % 97.5%

(Intercept) 32.4332596 53.54783182xi -0.7153622 -0.08237281

Myriam Maumy-Bertrand Compléments sur la régression linéaire simple