poly

Embed Size (px)

Citation preview

Universit Rennes 2 Master de Statistique Anne 2011/2012 Premier Semestre

Rgression linaireArnaud Guyader

Ce cours est tir des quatre premiers chapitres du livre de Pierre-Andr Cornillon et Eric MatznerLber, Rgression avec R, paru chez Springer en 2010.

Table des matires1 La rgression linaire simple 1.1 Modlisation . . . . . . . . . . . . . . . . . . . . . . 1.2 Moindres Carrs Ordinaires . . . . . . . . . . . . . . 1.2.1 Calcul des estimateurs de 1 et 2 . . . . . . 1.2.2 Quelques proprits des estimateurs 1 et 2 1.2.3 Calcul des rsidus et de la variance rsiduelle 1.2.4 Prvision . . . . . . . . . . . . . . . . . . . . 1.3 Interprtations gomtriques . . . . . . . . . . . . . . 1.3.1 Reprsentation des variables . . . . . . . . . . 1.3.2 Le coecient de dtermination R2 . . . . . . 1.4 Cas derreurs gaussiennes . . . . . . . . . . . . . . . 1.4.1 Estimateurs du maximum de vraisemblance . 1.4.2 Rappels sur les lois usuelles . . . . . . . . . . 1.4.3 Lois des estimateurs et rgions de conance . 1.4.4 Prvision . . . . . . . . . . . . . . . . . . . . 1.5 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . 1.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . 1.7 Corrigs . . . . . . . . . . . . . . . . . . . . . . . . . 2 La rgression linaire multiple 2.1 Modlisation . . . . . . . . . . . . . . . . . 2.2 Estimateurs des Moindres Carrs Ordinaires 2.2.1 Calcul de . . . . . . . . . . . . . . 2.2.2 Quelques proprits . . . . . . . . . 2.2.3 Rsidus et variance rsiduelle . . . . 2.2.4 Prvision . . . . . . . . . . . . . . . 2.3 Interprtation gomtrique . . . . . . . . . . 2.4 Exemple . . . . . . . . . . . . . . . . . . . . 2.5 Exercices . . . . . . . . . . . . . . . . . . . 2.6 Corrigs . . . . . . . . . . . . . . . . . . . . 3 Le modle gaussien 3.1 Estimateurs du Maximum de Vraisemblance 3.2 Lois des estimateurs . . . . . . . . . . . . . 3.2.1 Quelques rappels . . . . . . . . . . . 3.2.2 Nouvelles proprits . . . . . . . . . 3.3 Intervalles et rgions de conance . . . . . . 3.4 Prvision . . . . . . . . . . . . . . . . . . . 3.5 Tests dhypothses . . . . . . . . . . . . . . 3.5.1 Introduction . . . . . . . . . . . . . . i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 2 3 4 6 7 8 8 9 10 10 11 13 15 15 16 20 27 28 29 29 31 32 34 34 35 36 39 45 45 46 46 47 49 50 51 51

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

ii 3.5.2 Tests entre modles embots . . . . . . . . . . . 3.5.3 Test de Student de signication dun coecient . 3.5.4 Test de Fisher global . . . . . . . . . . . . . . . . 3.5.5 Lien avec le Rapport de Vraisemblance Maximale Estimation sous contraintes . . . . . . . . . . . . . . . . Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . Corrigs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Table des matires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 55 55 55 57 57 58 66 71 71 71 74 75 75 76 78 80 83 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 111 111 111 111 112 112 112 113 113 113 113 114 115 115 115 117 117 118 119 120 121 123

3.6 3.7 3.8 3.9

4 Validation du modle 4.1 Analyse des rsidus . . . . . . . . . . . . . . . . 4.1.1 Les dirents types de rsidus . . . . . . 4.1.2 Ajustement individuel au modle, valeur 4.1.3 Analyse de la normalit . . . . . . . . . 4.1.4 Analyse de lhomoscdasticit . . . . . . 4.1.5 Analyse de la structure des rsidus . . . 4.2 Analyse de la matrice de projection . . . . . . . 4.3 Autres mesures diagnostiques . . . . . . . . . . A Annales B Rappels dalgbre B.1 Quelques dnitions . . . . . . . . . . . . B.2 Quelques proprits . . . . . . . . . . . . . B.2.1 Les matrices n p . . . . . . . . . B.2.2 Les matrices carres n n . . . . . B.2.3 Les matrices symtriques . . . . . B.2.4 Les matrices semi-dnies positives B.3 Proprits des inverses . . . . . . . . . . . B.4 Proprits des projections . . . . . . . . . B.4.1 Gnralits . . . . . . . . . . . . . B.4.2 Exemple de projection orthogonale B.4.3 Trace et lments courants . . . . . B.5 Drivation matricielle . . . . . . . . . . . .

. . . . . . . . . . . . aberrante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

C Rappels de probabilit C.1 Gnralits . . . . . . . . . . . . . . . . . . . C.2 Vecteurs alatoires gaussiens . . . . . . . . . . C.3 Tables des lois usuelles . . . . . . . . . . . . . C.3.1 Loi Normale X N (0, 1) . . . . . . . C.3.2 Loi de Student X T . . . . . . . . . C.3.3 Loi du Khi-deux ddl X 2 . . . C.3.4 Loi de Fisher 1 , 2 ddl X F(1 ,2 ) D Quelques donnes Bibliographie

Arnaud Guyader - Rennes 2

Rgression

Chapitre 1

La rgression linaire simpleIntroductionCommenons par un exemple : pour des raisons de sant publique, on sintresse la concentration dozone O3 dans lair. On cherche en particulier savoir si on peut expliquer le taux maximal dozone de la journe par la temprature T12 12h. Les donnes sont : Temprature 12h O3 max 23.8 115.4 16.3 76.8 27.2 113.8 7.1 81.6 25.1 115.4 27.5 125 19.4 83.6 19.8 75.2 32.2 136.8 20.7 102.8

Table 1.1 10 donnes journalires de temprature et dozone. Dun point de vue pratique, le but de cette rgression est double : Ajuster un modle pour expliquer O3 en fonction de T12 ; Prdire les valeurs dO3 pour de nouvelles valeurs de T12 . Avant toute analyse, il est intressant de reprsenter les donnes, comme sur la gure 1.1.100 110 120 130 80 90

O3

10

15

T12

20

25

30

Figure 1.1 10 donnes journalires de temprature et dozone.

Pour analyser la relation entre les xi (temprature) et les yi (ozone), nous allons chercher une fonction f telle que : yi f (xi ). Pour prciser le sens de , il va falloir se donner un critre quantiant la qualit de lajustement de la fonction f aux donnes. Il faudra aussi se donner une classe de fonctions F dans laquelle nous supposerons que se trouve la vraie fonction inconnue.

2

Chapitre 1. La rgression linaire simple Le problme mathmatique peut scrire de la faon suivante :n

arg minf F i=1

L(yi f (xi )),

o n reprsente le nombre de donnes disponibles (taille de lchantillon) et L(.) est appele fonction de cot ou fonction de perte (Loss en anglais).

1.1

Modlisation

Dans de nombreuses situations, une ide naturelle est de supposer que la variable expliquer y est une fonction ane de la variable explicative x, cest--dire de chercher f dans lensemble F des fonctions anes de dans . Cest le principe de la rgression linaire simple. On suppose dans la suite disposer de n points (xi , yi ) dans le plan. Dnition 1.1 (Modle de rgression linaire simple) Un modle de rgression linaire simple est dni par une quation de la forme : i {1, . . . , n} yi = 1 + 2 xi + i

Les quantits i viennent du fait que les points ne sont jamais parfaitement aligns sur une droite. On les appelle les erreurs (ou bruits) et elles sont supposes alatoires. Pour pouvoir dire des choses pertinentes sur ce modle, il faut nanmoins imposer deux hypothses les concernant : (H) (H1 ) : [i ] = 0 pour tout indice i (H2 ) : Cov(i , j ) = ij 2 pour tout couple (i, j)

Les erreurs sont donc supposes centres, de mme variance (homoscdasticit) et non corrles entre elles (ij est le symbole de Kronecker, i.e. ij = 1 si i = j, ij = 0 si i = j). Notons que le modle de rgression linaire simple de la dnition 1.1 peut encore scrire de faon vectorielle : Y = 1 + 2 X + , o : le vecteur Y = [y1 , . . . , yn ] est alatoire de dimension n, le vecteur = [1, . . . , 1] est le vecteur de n dont les n composantes valent 1, le vecteur X = [x1 , . . . , xn ] est un vecteur de dimension n donn (non alatoire), les coecients 1 et 2 sont les paramtres inconnus (mais non alatoires !) du modle, le vecteur = [1 , . . . , n ] est alatoire de dimension n. Cette notation vectorielle sera commode notamment pour la reprsentation et linterprtation gomtrique du problme en rgression linaire multiple, cest pourquoi il convient dores et dj de sy habituer.

1.2

Moindres Carrs Ordinaires

Les points (xi , yi ) tant donns, le but est maintenant de trouver une fonction ane f telle que la quantit n L(yi f (xi )) soit minimale. Pour pouvoir dterminer f , encore faut-il prciser la i=1 fonction de cot L. Deux fonctions sont classiquement utilises : le cot absolu L(u) = |u| ; le cot quadratique L(u) = u2 . Arnaud Guyader - Rennes 2 Rgression

1.2. Moindres Carrs Ordinaires Les deux ont leurs vertus, mais on privilgiera dans la suite la fonction de cot quadratique. On parle alors de mthode destimation par moindres carrs (terminologie due Legendre dans un article de 1805 sur la dtermination des orbites des comtes). Dnition 1.2 (Estimateurs des Moindres Carrs Ordinaires) On appelle estimateurs des Moindres Carrs Ordinaires (en abrg MCO) 1 et 2 les valeurs minimisant la quantit :n

3

S(1 , 2 ) =i=1

(yi 1 2 xi )2 .

Autrement dit, la droite des moindres carrs minimise la somme des carrs des distances verticales des points (xi , yi ) du nuage la droite ajuste y = 1 + 2 x.

1.2.1

Calcul des estimateurs de 1 et 2

La fonction de deux variables S est une fonction quadratique et sa minimisation ne pose aucun problme, comme nous allons le voir maintenant. Proposition 1.1 (Estimateurs 1 et 2 ) Les estimateurs des MCO ont pour expressions : 1 = y 2 x, avec : 2 =n i=1 (xi x)(yi n 2 i=1 (xi x)

y)

=

n i=1 (xi x)yi . n 2 i=1 (xi x)

Preuve. La fonction S(1 , 2 ) est strictement convexe, elle admet donc un minimum unique au point (1 , 2 ), lequel est dtermin en annulant les drives partielles de S. On obtient les quations normales : n S (yi 1 2 xi ) = 0 1 = 2 La premire quation donne : S 2i=1 n i=1

= 2

xi (yi 1 2 xi ) = 0

n

n

1 n + 2i=1

xi =i=1

yi

do lon dduit immdiatement : 1 = y 2 x, (1.1)

o x et y sont comme dhabitude les moyennes empiriques des xi et des yi . La seconde quation donne :n n n

1i=1

xi + 2i=1

x2 = ii=1

xi y i

et en remplaant 1 par son expression (1.1), nous avons : 2 = xi y i x2 i xi y = xi x xi (yi y ) = xi (xi x) (xi x)(yi y ) . (xi x)(xi x) (1.2)

Rgression

Arnaud Guyader - Rennes 2

4

Chapitre 1. La rgression linaire simple

Cette dernire quation suppose que le dnominateur n (xi x)2 est non nul. Or ceci ne peut i=1 arriver que si tous les xi sont gaux, situation sans intrt pour notre problme et que nous excluons donc a priori dans toute la suite. Remarques : 1. La relation 1 = y 2 x montre que la droite des MCO passe par le centre de gravit du nuage (, y ). x 2. Les expressions obtenues pour 1 et 2 montrent que ces deux estimateurs sont linaires par . rapport au vecteur Y = [y1 , . . . , yn ] 3. Lestimateur 2 peut aussi scrire comme suit (exercice !) : 2 = 2 + (xi x)i . (xi x)2

Si cette dcomposition nest pas intressante pour le calcul eectif de 2 puisquelle fait intervenir les quantits inconnues 2 et i , elle lest par contre pour dmontrer des proprits thoriques des estimateurs (biais et variance). Son avantage est en eet de mettre en exergue la seule source dala du modle, savoir les erreurs i .

1.2.2

Quelques proprits des estimateurs 1 et 2

Sous les seules hypothses (H1 ) et (H2 ) de centrages, dcorrlations et homoscdasticits des er reurs i du modle, on peut dj donner certaines proprits statistiques des estimateurs 1 et 2 des moindres carrs. Thorme 1.1 (Estimateurs sans biais) 1 et 2 sont des estimateurs sans biais de 1 et 2 . Preuve. Partons de lcriture suivante pour 2 : 2 = 2 + (xi x)i . (xi x)2

Dans cette expression, seuls les bruits i sont alatoires, et puisquils sont centrs, on en dduit bien que [2 ] = 2 . Pour 1 , on part de lexpression : 1 = y 2 x, do lon tire : [1 ] = [] x [2 ] = 1 + x2 x2 = 1 . y

On peut galement exprimer variances et covariance de nos estimateurs. Thorme 1.2 (Variances et covariance) Les variances des estimateurs sont : Var(1 ) = 2 x2 i n (xi x)2 & Var(2 ) = 2 , (xi x)2

tandis que leur covariance vaut :

Cov(1 , 2 ) = Arnaud Guyader - Rennes 2

2x . (xi x)2 Rgression

1.2. Moindres Carrs Ordinaires Preuve. On part nouveau de lexpression de 2 utilise dans la preuve du non-biais : 2 = 2 + (xi x)i , (xi x)2

5

or les erreurs i sont dcorrles et de mme variance 2 donc la variance de la somme est la somme des variances : 2 (xi x)2 2 . = Var(2 ) = (xi x)2 ( (xi x)2 )2 Par ailleurs, la covariance entre y et 2 scrit : Cov(, 2 ) = Cov y do il vient pour la variance de 1 : Var(1 ) = Var cest--dire : Var(1 ) = yi 2 x n 2 + n = 2 + n x2 2 2Cov(, 2 ), x y (xi x)2 yi , n (xi x)i (xi x)2 2 (xi x) = 0, n (xi x)2

=

Enn, pour la covariance des deux estimateurs :

2 x2 x2 2 i = . (xi x)2 n (xi x)2 2x . (xi x)2

Cov(1 , 2 ) = Cov( 2 x, 2 ) = Cov(, 2 ) xVar(2 ) = y y

Remarque. On a vu que la droite des MCO passe par le centre de gravit du nuage (, y ). x Supposons celui-ci x et x positif, alors il est clair que si on augmente la pente, lordonne lori gine va baisser et vice versa, on retrouve donc bien le signe ngatif pour la covariance entre 1 et 2 . Les estimateurs des moindres carrs sont en fait optimaux en un certain sens, cest ce que prcise le rsultat suivant. Thorme 1.3 (Gauss-Markov) Parmi les estimateurs sans biais linaires en y, les estimateurs j sont de variance minimale. Preuve. Lestimateur des MCO scrit 2 = n pi yi , avec pi = (xi x)/ i=1 un autre estimateur 2 linaire en yi et sans biais, cest--dire :n

(xi x)2 . Considrons

2 =i=1

i y i .

Montrons que

i = 0 et (2 ) = 1

i xi = 1. Lgalit i + 2 i x i + i (i ) = 1 i + 2 i x i

est vraie pour tout 2 . Lestimateur 2 est sans biais donc (2 ) = 2 pour tout 2 , cest--dire 2 ) Var(2 ) : que i = 0 et i xi = 1. Montrons que Var( Var(2 ) = Var(2 2 + 2 ) = Var(2 2 ) + Var(2 ) + 2Cov(2 2 , 2 ). Rgression Arnaud Guyader - Rennes 2

6 Or : Cov(2 2 , 2 ) = Cov(2 , 2 ) Var(2 ) = la dernire galit tant due aux deux relations2

Chapitre 1. La rgression linaire simple

i (xi x) 2 (xi x)

2 = 0, (xi x)2

i = 0 et

i xi = 1. Ainsi :

Var(2 ) = Var(2 2 ) + Var(2 ). Une variance est toujours positive, donc : Var(2 ) Var(2 ). Le rsultat est dmontr. On obtiendrait la mme chose pour 1 .

1.2.3

Calcul des rsidus et de la variance rsiduelle150

yi = 1 + 2 xi

i

O30 0 50

100

5

10

15

T12

20

25

xi

30

35

Figure 1.2 Reprsentation des individus. Dans 2 (espace des variables xi et yi ), 1 est lordonne lorigine et 2 la pente de la droite ajuste. Cette droite minimise la somme des carrs des distances verticales des points du nuage la droite ajuste. En notant yi = 1 + 2 xi lordonne du point de la droite des moindres carrs dabscisse xi , les rsidus sont dnis par (cf. gure 1.2) : i = yi yi = yi 1 2 xi = yi y 2 (xi x). Par construction, la somme des rsidus est nulle : i = i i

(1.3)

(yi y + 2 x 2 xi ) =

i

(yi y ) 2

i

(xi x) = 0.

Notons maintenant que les variances et covariance des estimateurs 1 et 2 tablies en section 2 des erreurs, laquelle est en prcdente ne sont pas pratiques car elles font intervenir la variance gnral inconnue. Nanmoins, on peut en donner un estimateur sans biais grce aux rsidus. Thorme 1.4 (Estimateur non biais de 2 ) La statistique 2 = n 2 /(n 2) est un estimateur sans biais de 2 . i=1 i Preuve. Rcrivons les rsidus en constatant que 1 = y 2 x et 1 = y 2 x , ce qui donne : i = 1 + 2 xi + i 1 2 xi = y 2 x + 2 xi + i y + 2 x 2 xi = (2 2 )(xi x) + (i ). Rgression

Arnaud Guyader - Rennes 2

1.2. Moindres Carrs Ordinaires En dveloppant et en nous servant de lcriture vue plus haut : 2 = 2 + nous avons : 2 = (2 2 )2 i = (2 2 )2 (xi x)2 + (xi x)2 + (i )2 + 2(2 2 ) (xi x)(i ) (xi x)2 . (xi x)i , (xi x)2

7

(i )2 2(2 2 )2

Prenons-en lesprance : i 2 = (i )2 (xi x)2 Var(2 ) = (n 2) 2 .

Bien sr, lorsque n est grand, cet estimateur dire trs peu de lestimateur empirique de la variance des rsidus.

1.2.4

Prvision

Un des buts de la rgression est de faire de la prvision, cest--dire de prvoir la variable expliquer y en prsence dune nouvelle valeur de la variable explicative x. Soit donc xn+1 une nouvelle valeur de la variable x, nous voulons prdire yn+1 . Le modle est toujours le mme : yn+1 = 1 + 2 xn+1 + n+1 avec [n+1 ] = 0, Var(n+1 ) = 2 et Cov(n+1 , i ) = 0 pour i = 1, , n. Il est naturel de prdire la valeur correspondante via le modle ajust : yn+1 = 1 + 2 xn+1 . Deux types derreurs vont entacher notre prvision : la premire est due la non-connaissance de n+1 , la seconde lincertitude sur les estimateurs 1 et 2 . Proposition 1.2 (Erreur de prvision) Lerreur de prvision n+1 = (yn+1 yn+1 ) satisfait les proprits suivantes : [n+1 ] = 0 Var(n+1 ) = 2 1 + 1 n

+

(xn+1 )2 x n x2 i=1 (xi )

.

Preuve. Pour lesprance, il sut dutiliser le fait que n+1 est centre et que les estimateurs 1 2 sont sans biais : et [n+1 ] = [1 1 ] + [2 2 ]xn+1 + [n+1 ] = 0.

Nous obtenons la variance de lerreur de prvision en nous servant du fait que yn+1 est fonction de n+1 seulement tandis que yn+1 est fonction des autres erreurs (i )1in : Var(n+1 ) = Var (yn+1 yn+1 ) = Var(yn+1 ) + Var(n+1 ) = 2 + Var(n+1 ). y y Rgression Arnaud Guyader - Rennes 2

8 Calculons le second terme :

Chapitre 1. La rgression linaire simple

Var (n+1 ) = Var 1 + 2 xn+1 = Var(1 ) + x2 Var(2 ) + 2xn+1 Cov 1 , 2 y n+1 x2 2 i + x2 2xn+1 x n+1 (xi x)2 n (xi x)2 2 + x2 + x2 2xn+1 x = n+1 2 n (xi x) 1 (xn+1 x)2 = 2 + . n (xi x)2 = Au total, on obtient bien : Var(n+1 ) = 2 1 + 1 (xn+1 x)2 + (xi x)2 n .

Ainsi la variance augmente lorsque xn+1 sloigne du centre de gravit du nuage. Autrement dit, faire de la prvision lorsque xn+1 est loin de x est prilleux, puisque la variance de lerreur de prvision peut tre trs grande ! Ceci sexplique intuitivement par le fait que plus une observation xn+1 est loigne de la moyenne x et moins on a dinformation sur elle.

1.31.3.1

Interprtations gomtriquesReprsentation des variables

Si nous abordons le problme dun point de vue vectoriel, nous avons deux vecteurs notre disposition : le vecteur X = [x1 , . . . , xn ] des n observations pour la variable explicative et le vecteur Y = [y1 , . . . , yn ] des n observations pour la variable expliquer. Ces deux vecteurs appartiennent au mme espace n : lespace des variables. Si on ajoute cela le vecteur = [1, . . . , 1] , on voit tout dabord que par lhypothse selon laquelle tous les xi ne sont pas gaux, les vecteurs et X ne sont pas colinaires : ils engendrent donc un sous-espace de n de dimension 2, not M(X). On peut projeter orthogonalement le vecteur Y sur le sous-espace M(X), notons provisoirement Y ce projet : puisque (, X) forme une base de M(X), il existe une unique dcomposition de la forme Y = 1 + 2 X. Par dnition du projet est dni comme lunique vecteur de M(X) minimisant la distance euclidienne orthogonal, Y Y Y , ce qui revient au mme que de minimiser son carr. Or, par dnition de la norme euclidienne, cette quantit vaut :n

Y Y

2

=i=1

(yi (1 + 2 xi ))2 ,

ce qui nous ramne la mthode des moindres carrs ordinaires. On en dduit que 1 = 1 , 2 = 2 et Y = Y = [1 , . . . , yn ] , avec les expressions de 1 , 2 et Y vues prcdemment. y

Arnaud Guyader - Rennes 2

Rgression

1.3. Interprtations gomtriques

9

Y 2 X y

X

1 M(X)

Y

Figure 1.3 Reprsentation de la projection dans lespace des variables. Autrement dit, dans n , 1 et 2 sinterprtent comme les coordonnes de la projection orthogo de Y sur le sous-espace de n engendr par et X (voir gure 1.3). nale Y Remarques : 1. Cette vision gomtrique des choses peut sembler un peu abstraite, mais cest en fait lapproche fconde pour comprendre la rgression multiple, comme nous le verrons dans les chapitres suivants. 2. Nous avons suppos que et X ne sont pas colinaires. En gnral, ces vecteurs ne sont pas orthogonaux (sauf si x = 0), ce qui implique que 1 nest pas la projection orthogonale 2 X nest pas la projection orthogonale de Y sur X de Y sur (laquelle vaut y ), et que (laquelle vaut Y,X2 X). X

1.3.2

Le coecient de dtermination R2

Nous conservons les notations du paragraphe prcdent, en notant Y = [1 , . . . , yn ] la projection y orthogonale du vecteur Y sur M(X) et = Y Y = [1 , . . . , n ] le vecteur des rsidus dj rencontrs en section 1.2.3. Le thorme de Pythagore donne alors directement :n

Y y

2 2

= =

n

Y y

2

+ 2

2 n

i=1

(yi y )

i=1

(i y ) + y

2 ii=1

SCT

= SCE + SCR,

o SCT (respectivement SCE et SCR) reprsente la somme des carrs totale (respectivement explique par le modle et rsiduelle). Ceci peut se voir comme une formule typique de dcomposition de la variance. Elle permet en outre dintroduire le coecient de dtermination de faon naturelle. Dnition 1.3 (Coecient de dtermination R2 ) Le coecient de dtermination R2 est dni par : R2 = Rgression SCE Y y = SCT Y y 2 2

=1

2 Y y

2

=1

SCR . SCT Arnaud Guyader - Rennes 2

10

Chapitre 1. La rgression linaire simple On voit sur la gure 1.3 que R2 correspond au cosinus carr de langle . De faon schmatique, on peut direncier les cas suivants : Si R2 = 1, le modle explique tout, langle vaut zro et Y est dans M(X), cest--dire que yi = 1 + 2 xi pour tout i ; Si R2 = 0, cela veut dire que (i y )2 = 0, donc yi = y pour tout i. Le modle de rgression y linaire est inadapt puisquon ne modlise rien de mieux que la moyenne ; Si R2 est proche de zro, cela veut dire que y est quasiment dans lorthogonal de M(X), le modle de rgression linaire est inadapt, la variable utilise nexplique pas bien la variable y. De faon gnrale, linterprtation est la suivante : le modle de rgression linaire permet dexpliquer 100 R2 % de la variance totale des donnes. Remarques : 1. On peut aussi voir R2 comme le carr du coecient de corrlation empirique entre les xi et les yi (cf. exercice 1.2) : R =2

x)(yi y ) n n 2 2 i=1 (xi x) i=1 (yi y )

n i=1 (xi

2

= 2 . X,Y

2. Sur la gure 1.3 est not un angle droit entre les vecteurs et Y y . On vrie en eet facilement que ces deux vecteurs sont orthogonaux puisque y nest rien dautre que le projet orthogonal de Y sur (la droite vectorielle engendre par) le vecteur (exercice).

1.4

Cas derreurs gaussiennes

Mieux que les expressions des estimateurs et celles de leurs variances, on aimerait connatre leurs lois : ceci permettrait par exemple dobtenir des rgions de conance et deectuer des tests dhypothses. Dans cette optique, il faut bien entendu faire une hypothse plus forte sur notre modle, savoir prciser la loi des erreurs. Nous supposerons ici que les erreurs sont gaussiennes. Les hypothses (H1 ) et (H2 ) deviennent ds lors : (H) (H1 ) : i N (0, 2 ) (H2 ) : i mutuellement indpendants

Le modle de rgression simple devient un modle paramtrique, o les paramtres (1 , 2 , 2 ) sont valeurs dans . La loi des i tant connue, les lois des yi sen dduisent : + i {1, . . . , n} yi N (1 + 2 xi , 2 ),

et les yi sont mutuellement indpendants puisque les i le sont. Nous pouvons donc calculer la vraisemblance de lchantillon et les estimateurs qui maximisent cette vraisemblance. Cest lobjet de la section suivante.

1.4.1

Estimateurs du maximum de vraisemblancen n i=1

La vraisemblance vaut L(1 , 2 , 2 ) = = Arnaud Guyader - Rennes 2 1 2 2 1 2 2 exp n

1 2 2

(yi 1 2 xi )2

exp

1 S(1 , 2 ) 2 2 Rgression

1.4. Cas derreurs gaussiennes Ce qui donne pour la log-vraisemblance : 1 n log L(1 , 2 , 2 ) = log (2 2 ) 2 S(1 , 2 ). 2 2 Nous voulons maximiser cette quantit par rapport aux trois variables (1 , 2 , 2 ). Les deux premires variables napparaissent que dans le terme en S(1 , 2 ), quil faut donc minimiser. Or on a dj vu que cette quantit est minimale lorsquon considre les estimateurs des moindres carrs, cest--dire pour 1 = 1 et 2 = 2 . Bilan : les estimateurs du maximum de vraisemblance de 1 et 2 sont gaux aux estimateurs des moindres carrs. Ceci tant vu, il reste simplement maximiser log L(1 , 2 , 2 ) par rapport 2 . Calculons donc 2 : la drive par rapport log L(1 , 2 , 2 ) n 1 n 1 = 2 + 4 S(1 , 2 ) = 2 + 4 2 2 2 2 2n i=1

11

(yi 1 2 xi )2

Do lon dduit que lestimateur du maximum de vraisemblance de 2 est dirent de lestimateur 2 vu prcdemment et vaut : mv 2 1 = nn

2 . ii=1 n2 2 n ,

2 Lestimateur du maximum de vraisemblance de 2 est donc biais. On a en eet [mv ] = mais ce biais est dautant plus ngligeable que le nombre dobservations est grand.

Avant de passer aux lois des estimateurs et aux intervalles de conance qui sen dduisent, faisons quelques rappels sur les lois usuelles dans ce contexte.

1.4.2

Rappels sur les lois usuelles

Outre la loi normale, trois lois seront dusage constant dans la suite : la loi du 2 , la loi de Student et la loi de Fisher.

Figure 1.4 Densit dun 2 (trait gras) et densit dune N (50, 100) (trait n). 50 Dnition 1.4 (Loi du 2 ) Soit X1 , . . . , Xn des variables alatoires i.i.d. suivant une loi normale centre rduite. La loi de la variable X = n Xi2 est appele loi du 2 n degrs de libert (ddl), not X 2 . n i=1 Rgression Arnaud Guyader - Rennes 2

12

Chapitre 1. La rgression linaire simple On a [X] = n et Var(X) = 2n. Lorsque n est grand, on sait par le Thorme Central Limite que X suit approximativement une loi normale de moyenne n et de variance 2n : X N (n, Ainsi, 2n). pour n grand, environ 95% des valeurs de X se situent dans lintervalle [n 2 2n, n + 2 2n]. Ceci est illustr gure 3.1 pour n = 50 ddl.

Dnition 1.5 (Loi de Student) Soit Z une variable alatoire suivant une loi normale centre rduite et X une variable suivant une loi du 2 n degrs de libert, avec Z et X indpendantes. La loi de la variable T = Z estX/n

appele loi de Student n degrs de libert et on note T Tn .

Figure 1.5 Densit dune T10 (trait gras) et densit dune N (0, 1) (trait n).

Lorsque n = 1, T suit une loi de Cauchy et na donc pas desprance (ni, a fortiori, de variance). n Pour n = 2, T est centre mais de variance innie. Pour n 3, T est centre et de variance n2 . Dautre part, lorsque n devient grand, on sait par la Loi des Grands Nombres que le dnominateur tend presque srement vers 1. De fait, on peut montrer que pour n grand, T tend en loi vers une gaussienne centre rduite : T N (0, 1). Ceci est illustr gure 1.5 pour n = 10 ddl. Par consquent, lorsque n sera grand, on pourra remplacer les quantiles dune loi de Student Tn par ceux dune loi N (0, 1) (cf. tables en Annexe C.3).

Dnition 1.6 (Loi de Fisher) Soit U1 une variable alatoire suivant une loi du 2 n1 degrs de libert et U2 une variable alatoire suivant une loi du 2 n2 degrs de libert, avec U1 et U2 indpendantes. La loi de la n1 variable F = U1 /n1 est appele loi de Fisher (n1 , n2 ) degrs de libert et on note F Fn2 . U2 /n2

n1 Pour n2 > 2, la variance dune loi de Fisher Fn2 est n2 /(n2 2). Dans la suite, typiquement, n2 sera grand, de sorte qu nouveau la Loi des Grands Nombres implique que U2 /n2 tend vers 1. Dans ce cas, F peut se voir comme un chi-deux normalis par son degr de libert : F 2 1 /n1 . n Ceci est illustr gure 1.6 pour n1 = 2 et n2 = 10.

Arnaud Guyader - Rennes 2

Rgression

1.4. Cas derreurs gaussiennes

13

2 Figure 1.6 Densit dune F10 (trait gras) et densit dun

2 2 2

(trait n).

1.4.3

Lois des estimateurs et rgions de conance

Nous allons maintenant voir comment les lois prcdentes interviennent dans nos estimateurs. An de faciliter la lecture de cette partie, considrons les notations suivantes : c =2 1 = 2 2 2 =

2 x (xi x)2 n 2 (xi x)2

2 =

x2 i (xi x)2

1 n2

2 i x2 i (xi x)2

1 = 2 2 2 = 2

n 2 . (xi x)2

2 2 Les variances 1 et 2 interviennent dans la vraie loi de lestimateur des moindres carrs ordinaires, comme le prcise le rsultat suivant.

Proprits 1.1 (Lois des estimateurs avec variance connue) Les lois des estimateurs des MCO avec variance 2 connue sont : 1 (i) = 1 N , 2 V o = et 2 2 V = 1 (xi x)2 x2 /n x i x 1 = 1 22 1 c 2 c 2

.

(ii)

(n 2) 2 2 , loi du 2 (n 2) degrs de libert. n2 2 et 2 sont indpendants. (iii)

Remarque. Ces proprits, comme celles venir, ne sont pas plus faciles montrer dans le cadre de la rgression linaire simple que dans celui de la rgression linaire multiple. Cest pourquoi nous reportons les preuves au Chapitre 3. Le problme des proprits ci-dessus vient de ce quelles font intervenir la variance thorique 2 , gnralement inconnue. La faon naturelle de procder est de la remplacer par son estimateur 2 . Les lois intervenant dans les estimateurs sen trouvent de fait lgrement modies.

Rgression

Arnaud Guyader - Rennes 2

14

Chapitre 1. La rgression linaire simple Proprits 1.2 (Lois des estimateurs avec variance estime) Les lois des estimateurs des MCO avec variance 2 estime sont : 1 1 (i) Tn2 , o Tn2 est une loi de Student (n 2) degrs de libert. 1 2 2 (ii) Tn2 . 2 1 2 ( ) V 1 ( ) Fn2 , loi de Fisher de paramtres (2, n 2). (iii) 2 2 Ces dernires proprits nous permettent de donner des intervalles de conance (IC) ou des rgions de conance (RC) des estimateurs. En eet, la valeur ponctuelle dun estimateur est de peu dintrt en gnral et il est intressant de lui associer un intervalle de conance. Les rsultats sont donns pour un gnral, en pratique on prend typiquement = 0, 05.

2

4

2

4

2

0

4

2

0 1

2

4

Figure 1.7 Comparaison entre ellipse de conance et rectangle de conance. Proprits 1.3 (Intervalles et rgions de conance) (i) IC(1 ) : 1 tn2 (1 /2)1 , o tn2 (1 /2) est le quantile de niveau (1 /2) dune loi Tn2 . (ii) IC(2 ) : 2 tn2 (1 /2)2 . (iii) RC() : Une rgion de conance simultane pour 1 et 2 au niveau (1 ) est 1 n(1 1 )2 + 2n(1 1 )(2 2 ) + x 2 2 2 x2 (2 2 )2 fn2 (1 ), i

2 2 o fn2 (1 ) est le quantile de niveau (1 ) dune loi Fn2 . 2 est donn par : (iv) Un intervalle de conance de

(n 2) 2 (n 2) 2 , , cn2 (1 /2) cn2 (/2) o cn2 (1 /2) est le quantile de niveau (1 /2) dune loi 2 . n2 Arnaud Guyader - Rennes 2 Rgression

1.5. Exemple Remarque : (iii) donne la rgion de conance simultane des paramtres (1 , 2 ) de la rgression, appele ellipse de conance, tandis que (i) et (ii) donnent des intervalles de conance pour 1 et 2 sans tenir compte de la corrlation entre 1 et 2 . La gure 1.7 montre la dirence entre ces deux notions.

15

1.4.4

Prvision

Pour lesprance et la variance, nous avons videmment les mmes rsultats que ceux obtenus en section 1.2.4. De plus, puisque yn+1 est linaire en 1 , 2 et n+1 , on peut prciser sa loi : yn+1 yn+1 N 0, 2 1 + 1 (xn+1 x)2 + (xi x)2 n .

A nouveau on ne connat pas 2 et on lestime donc par 2 . Comme (yn+1 yn+1 ) et 2 (n 2)/ 2 sont indpendants, on peut noncer un rsultat donnant des intervalles de conance pour yn+1 . Proposition 1.3 (Loi et intervalle de conance pour la prdiction) Avec les notations et hypothses prcdentes, on a : yn+1 yn+1 1+1 n

+

(xn+1 )2 x (xi )2 x

Tn2 ,

do lon dduit lintervalle de conance pour yn+1 : yn+1 tn2 (1 /2) 1+ 1 (xn+1 x)2 + . n (xi x)2

De ce rsultat, il dcoule que lintervalle de conance pour la valeur prdite est une hyperbole. Nous retrouvons aussi la remarque dj faite : plus le point prvoir admet pour abscisse xn+1 une valeur loigne de x, plus lintervalle de conance sera grand.

1.5

Exemple

Nous allons traiter 50 donnes journalires prsentes en Annexe D. La variable expliquer est la concentration en ozone, note O3, et la variable explicative est la temprature midi, note T12. Les donnes sont traites avec le logiciel R. > a summary(a) Call: lm(formula = O3 T12) Residuals: Min -45.256 Coefficients : (Intercept) T12 Rgression Estimate 31.4150 2.7010 Std. Error 13.0584 0.6266 t value 2.406 4.311 Pr(>|t|) 0.0200 8.04e-05 * *** Arnaud Guyader - Rennes 2 1Q -15.326 Median -3.461 3Q 17.634 Max 40.072

16

Chapitre 1. La rgression linaire simple Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 20.5 on 48 degrees of freedom Multiple R-Squared: 0.2791, Adjusted R-squared: 0.2641 F-statistic: 18.58 on 1 and 48 DF, p-value: 8.041e-05 Les sorties du logiciel donnent les valeurs estimes des paramtres, leur cart-type, la statistique de test sous lhypothse H0 : i = 0. Nous rejetons H0 pour les deux paramtres estims.

1.6

Exercices

Exercice 1.1 (QCM) 1. Lors dune rgression simple, si le R2 vaut 1, les points sont-ils aligns ? A. Non ; B. Oui ; C. Pas obligatoirement. 2. La A. B. C. droite des MCO dune rgression simple passe-t-elle par le point (, y ) ? x Toujours ; Jamais ; Parfois.

3. Nous avons eectu une rgression simple, nous recevons une nouvelle observation xN et nous calculons la prvision correspondante yN . La variance de la valeur prvue est minimale lorsque A. xN = 0 ; B. xN = x ; C. Aucun rapport. 4. Le vecteur Y est-il orthogonal au vecteur des rsidus estims ? A. Toujours ; B. Jamais ; C. Parfois. Exercice 1.2 (R2 et corrlation empirique) Montrer que le coecient de dtermination R2 est gal au carr du coecient de corrlation empirique entre x et y, not r(x, y), cest--dire quon a : R = r(x, y) =2 2 n i=1 (xi n i=1 (xi

x)2

x)(yi y ) n i=1 (yi

2

y )2

.

Exercice 1.3 (Poids des pres et des ls) Ltude statistique ci-dessous porte sur les poids respectifs des pres et de leur l an. Pre 65 63 67 64 68 62 70 66 68 67 69 71 Fils 68 66 68 65 69 66 68 65 71 67 68 70 Voici les rsultats numriques que nous avons obtenus :12 12 12 12 12

pi = 800i=1 i=1

p2 = 53418 ii=1

pi fi = 54107i=1

fi = 811i=1

fi2 = 54849.

Arnaud Guyader - Rennes 2

Rgression

1.6. Exercices 1. Calculez la droite des moindres carrs du poids des ls en fonction du poids des pres. 2. Calculez la droite des moindres carrs du poids des pres en fonction du poids des ls. 3. Que vaut le produit des pentes des deux droites ? Exercice 1.4 (Hauteur dun arbre) Nous souhaitons exprimer la hauteur y (en pieds) dun arbre dune essence donne en fonction de son diamtre x (en pouces) 1m30 du sol. Pour ce faire, nous avons mesur 20 couples (diamtre,hauteur) et eectu les calculs suivants : x = 4.53, y = 8.65 et 1 2020 i=1

17

(xi x) = 10.97

2

1 20

20 i=1

(yi y ) = 2.24

2

1 20

20 i=1

(xi x)(yi y ) = 3.77

1. On note y = 0 + 1 x la droite de rgression. Calculer 0 et 1 . 2. Donner et commenter une mesure de la qualit de lajustement des donnes au modle. Exprimer cette mesure en fonction des statistiques lmentaires. Commenter le rsultat. 3. On donne les estimations de lcart-type de 0 , 0 = 1.62, et de 1 , 1 = 0.05. On suppose les perturbations i gaussiennes, centres, de mme variance et indpendantes. Tester H0 : j = 0 contre H1 : j = 0 pour j = 0, 1. Pourquoi ce test est-il intressant dans notre contexte ? Que pensez-vous du rsultat ? Exercice 1.5 (Droite de rgression et points aberrants) Douze personnes sont inscrites une formation. Au dbut de la formation, ces stagiaires subissent une preuve A note sur 20. A la n de la formation, elles subissent une preuve B de niveau identique. Les rsultats sont donns dans le tableau suivant : Epreuve A 3 4 6 7 9 10 9 11 12 13 15 4 Epreuve B 8 9 10 13 15 14 13 16 13 19 6 19 1. Reprsenter le nuage de points. Dterminer la droite de rgression. Calculer le coecient de dtermination. Commenter. 2. Deux stagiaires semblent se distinguer des autres. Les supprimer et dterminer la droite de rgression sur les dix points restants. Calculer le coecient de dtermination. Commenter. Exercice 1.6 (La hauteur des eucalyptus) On souhaite expliquer la hauteur y (en mtres) dun arbre en fonction de sa circonfrence x (en centimtres) 1m30 du sol. On a relev n = 1429 couples (xi , yi ), le nuage de points tant x reprsent gure 1.8. On a obtenu (, y ) = (47, 3; 21, 2) et :n i=1 n n

(xi x)2 = 102924

i=1

(yi y )2 = 8857

i=1

(xi x)(yi y ) = 26466

1. Calculer la droite des moindres carrs pour le modle y = 1 + 2 x + et la reprsenter sur la gure 1.8. 2. Calculer le coecient de dtermination R2 . Commenter la qualit de lajustement des donnes au modle. 3. Avec ces estimateurs, la somme des carrs des rsidus vaut alors n (yi yi )2 = 2052. Si i=1 on suppose les perturbations i gaussiennes, centres, indpendantes et de mme variance 2 , en dduire un estimateur non biais 2 de 2 . Rgression Arnaud Guyader - Rennes 2

1828

Chapitre 1. La rgression linaire simplehauteur

26

24

22

20

18

16

14

12

Circonfrence10 20 30 40 50 60 70 80

Figure 1.8 Nuage de points pour les eucalyptus.

4. Donner un estimateur 1 de la variance de 1 . 2 5. Tester lhypothse H0 : 1 = 0 contre H1 : 1 = 0. Exercice 1.7 (Forrest Gump for ever) On appelle frquence seuil dun sportif amateur sa frquence cardiaque obtenue aprs trois quarts dheure dun eort soutenu de course pied. Celle-ci est mesure laide dun cardio-frquencemtre. On cherche savoir si lge dun sportif a une inuence sur sa frquence seuil. On dispose pour cela de 20 valeurs du couple (xi , yi ), o xi est lge et yi la frquence seuil du sportif. On a obtenu (, y ) = (35, 6; 170, 2) et : x n i=1 n n

(xi x)2 = 1991

i=1

(yi y )2 = 189, 2

i=1

(xi x)(yi y ) = 195, 4

1. Calculer la droite des moindres carrs pour le modle y = 1 + 2 x + . 2. Calculer le coecient de dtermination R2 . Commenter la qualit de lajustement des donnes au modle. n 3. Avec ces estimateurs, la somme des carrs des rsidus vaut 2 i=1 (yi yi ) = 170. Si on suppose les perturbations i gaussiennes, centres, indpendantes et de mme variance 2 , en dduire un estimateur non biais 2 de 2 . 2 de la variance de . 2 4. Donner un estimateur 2 5. Tester lhypothse H0 : 2 = 0 contre H1 : 2 = 0 pour un risque de 5%. Conclure sur la question de linuence de lge sur la frquence seuil. Exercice 1.8 (Comparaison destimateurs) Nous considrons le modle statistique suivant : yi = xi + i , i = 1, , n,

o nous supposons que les perturbations i sont telles que [i ] = 0 et Cov(i , i ) = 2 i,j . 1. En revenant la dnition des moindres carrs, montrer que lestimateur des moindres carrs de vaut =n i=1 xi yi n 2 . i=1 xi

Arnaud Guyader - Rennes 2

Rgression

1.6. Exercices 2. Montrer que la droite passant par lorigine et le centre de gravit du nuage de points est y = x, avec =n i=1 yi . n i=1 xi

19

3. Montrer que et sont tous deux des estimateurs sans biais de . 4. Montrer que V ( ) > V () sauf dans le cas o tous les xi sont gaux (penser lingalit de Cauchy-Schwarz). Ce rsultat tait-il prvisible ? Exercice 1.9 (Rgression simple) On dispose de n points (xi , yi )1in et on sait quil existe une relation de la forme : yi = axi +b+i , o les erreurs i sont des variables centres, dcorrles et de mme variance 2 . 1. Rappeler les formules des estimateurs des moindres carrs a et ainsi que leurs variances b, respectives. 2. Dans cette question, on suppose connatre b, mais pas a. (a) En revenant la dnition des moindres carrs, calculer lestimateur a des moindres carrs de a. (b) Calculer la variance de a. Montrer quelle est infrieure celle de a. 3. Dans cette question, on suppose connatre a, mais pas b. (a) En revenant la dnition des moindres carrs, calculer lestimateur des moindres b carrs de b. (b) Calculer la variance de Montrer quelle est infrieure celle de b. b. Exercice 1.10 (Forces de frottement et vitesse) Au 17me sicle, Huygens sest intress aux forces de rsistance dun objet en mouvement dans un uide (eau, air, etc.). Il a dabord mis lhypothse selon laquelle les forces de frottement taient proportionnelles la vitesse de lobjet, puis, aprs exprimentation, selon laquelle elles taient proportionnelles au carr de la vitesse. On ralise une exprience dans laquelle on fait varier la vitesse x dun objet et on mesure les forces de frottement y. Ensuite, on teste la relation existant entre ces forces de frottement et la vitesse. 1. Quel(s) modle(s) testeriez-vous ? 2. Comment feriez-vous pour dterminer le modle adapt ? Exercice 1.11 (Prix dun appartement en fonction de sa supercie) En juin 2005, on a relev dans les petites annonces les supercies (en m2 ) et les prix (en euros) de 108 appartements de type T3 louer sur lagglomration de Rennes (cf. gure 1.9). 1. Daprs le listing du tableau 1.2, donner une estimation du coecient de corrlation entre le prix et la supercie dun appartement T3. 2. Proposer un modle permettant dtudier la relation entre le prix des appartements et leur supercie. Prciser les hypothses de ce modle. 3. Daprs le tableau 1.2, est-ce que la supercie joue un rle sur le prix des appartements de type 3 ? Considrez-vous ce rle comme important ? 4. Quelle est lestimation du coecient (coecient de la supercie dans le modle) ? Comment interprtez-vous ce coecient ? 5. La supercie moyenne des 108 appartements est de 68.74 m2 et le prix moyen des appartements est de 591.95 euros. Quel est le prix moyen dun mtre carr ? Pourquoi ce prix moyen est dirent de lestimation de ? Rgression Arnaud Guyader - Rennes 2

20

Chapitre 1. La rgression linaire simple

prix

400 50

600

800

1000

60

70

80

90

100

110

120

superficie

Figure 1.9 Prix de location des appartements en fonction de leur supercie.Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 134.3450 45.4737 2.954 0.00386 Superficie 6.6570 0.6525 10.203 < 2e-16 Residual standard error: 77.93 on 106 degrees of freedom Multiple R-Squared: 0.4955, Adjusted R-squared: 0.4907 F-statistic: 104.1 on 1 and 106 DF, p-value: < 2.2e-16

Table 1.2 Prix en fonction de la supercie : rsultats de la rgression linaire simple (sortie R). 6. Dans lchantillon dont on dispose, comment savoir quels sont les appartements bon march du seul point de vue de la surface ? Exercice 1.12 (Total Least Squares (TLS)) Nous avons un nuage de points observs (xi , yi ) pour i = 1, , n, et nous cherchons un couple (, y ) vriant la relation linaire suivante x y = , x tel que la norme matricielle [x, y] [, y ] x F

soit minimale (rappel : AF

F

=

Tr(AA )).

1. Que reprsente la norme matricielle [x, y] [, y ] x

dun point de vue gomtrique ?

2. Supposons pour simplier que x = y = 0, cest--dire que le centre de gravit du nuage de points est en lorigine du repre. Quel rapport voyez-vous entre TLS et ACP ?

1.7

Corrigs

Exercice 1.1 (QCM) Cest le B.A.-BA. Arnaud Guyader - Rennes 2 Rgression

1.7. Corrigs Exercice 1.2 (R2 et corrlation empirique) Le coecient R2 scrit R2 = = =n n i=1 y 2 x + 2 xi y i=1 1 + 2 xi y Y y 2 = = n n 2 Y y 2 2 i=1 (yi y ) i=1 (yi y ) 2 [ n (xi x)(yi y )]2 n (xi x)2 2 n (xi x)2 i=1 i=1 i=1 = n 2 2 n n [ i=1 (xi x)2 ] 2 i=1 (yi y ) i=1 (yi y ) 2 2

21

x)(yi y )]2 = r(x, y)2 . n (xi x)2 n (yi y )2 i=1 i=1 [n i=1 (xi

Exercice 1.3 (Poids des pres et des ls) 1. La droite des moindres carrs du poids des ls en fonction du poids des pres scrit (cf. gure 1.10 gauche) : f = 1 + 2 p = 35.8 + 0.48p. 2. La droite des moindres carrs du poids des ls en fonction du poids des pres scrit (cf. gure 1.10 droite) : p = 1 + 2 f = 3.38 + 1.03f . 3. Le produit des pentes des deux droites est 2 2 = (fi f )(pi p) = R2 , n 2) )2 ( (fi f i=1 (pi p)2

o R2 est le coecient de dtermination, carr du coecient de corrlation linaire.

Figure 1.10 Nuages de points et droites de rgression pour les poids des pres et des ls.

Exercice 1.4 (Hauteur dun arbre) Nous souhaitons exprimer la hauteur y (en pieds) dun arbre dune essence donne en fonction de son diamtre x (en pouces) 1m30 du sol. Pour ce faire, nous avons mesur 20 couples (diamtre,hauteur) et eectu les calculs suivants : x = 4.53, y = 8.65 et 1 2020 i=1

(xi x)2 = 10.97

1 20

20 i=1

(yi y )2 = 2.24

1 20

20 i=1

(xi x)(yi y ) = 3.77

1. Les estimateurs de la droite des moindres carrs y = 0 + 1 x sont respectivement : 1 = Rgression (xi x)(yi y ) 0.344 2 (xi x) Arnaud Guyader - Rennes 2

22 et

Chapitre 1. La rgression linaire simple

0 = y 1 x 7.09 2. Une mesure de la qualit de lajustement des donnes au modle est donne par le coecient de dtermination R2 , dont on a vu quil correspond au carr du coecient de corrlation linaire empirique : R =2 n i=1 (xi n i=1 (xi

x)2

x)(yi y ) n i=1 (yi

2

y )2

0.58.

Le modle de rgression linaire simple explique donc un peu plus de la moiti de la variance prsente dans les donnes. 3. Sous H0 , on sait que 0 T18 , 0

loi de Student 18 degrs de libert. Pour un niveau de conance de 95%, on compare donc la valeur absolue obtenue dans notre cas particulier, savoir |0 /0 | 4.38 au quantile t18 (0.975) 2.1. On en dduit quon rejette lhypothse selon laquelle 0 serait nul. De mme pour le test dhypothse sur 1 , ce qui donne la statistique de test : 1 6.88 > 2.1 1 donc on rejette galement lhypothse selon laquelle 1 serait nul. A priori, un arbre de diamtre nul a une hauteur gale zro, donc on aurait pu sattendre ce que le coecient 0 soit nul. Ceci est en contradiction avec le rsultat du test dhypothse ci-dessus, mais il ny a rien dtonnant a : le modle de rgression propos est pertinent dans lintervalle considr, cest--dire pour des arbres de hauteur moyenne 8.65 pieds, avec un cart-type gal 2.24 1.5, non pour des arbres tout petits. Exercice 1.5 (Droite de rgression et points aberrants) Douze personnes sont inscrites une formation. Au dbut de la formation, ces stagiaires subissent une preuve A note sur 20. A la n de la formation, elles subissent une preuve B de niveau identique. Les rsultats sont donns dans le tableau suivant : Epreuve A 3 4 6 7 9 10 9 11 12 13 15 4 Epreuve B 8 9 10 13 15 14 13 16 13 19 6 19 1. Pour lexplication de la note B partir de la note A, la droite de rgression (cf. gure 1.11 gauche) est donne par y = 1 + 2 x, o : 2 =n i=1 (xi x)(yi n 2 i=1 (xi x)

y)

0.11

et 1 = y 2 x 12.0 Le coecient de dtermination vaut : R2 = ( ( n (xi x)(yi y ))2 i=1 n 2 ) ( n (y y )2 ) i=1 (xi x) i=1 i 0, 01

Le modle de rgression linaire expliquerait donc 1% de la variance des donnes, ce qui est trs faible. Arnaud Guyader - Rennes 2 Rgression

1.7. Corrigs

23

Figure 1.11 Droites de rgression et points aberrants.

2. Si on supprime les deux derniers stagiaires, on obtient cette fois (cf. gure 1.11 droite) y = 1 + 2 x = 5.47 + 0.90x et R2 0.81. Sans ces deux stagiaires, le modle de r gression linaire expliquerait donc 81% de la variance des donnes, ce qui le rend tout fait pertinent. Les deux derniers stagiaires correspondent ce quon appelle des points aberrants.

Exercice 1.6 (La hauteur des eucalyptus) Cet exercice est corrig en annexe (dcembre 2009). Exercice 1.7 (Forrest Gump for ever) 1. La mthode des moindres carrs ordinaires donne pour estimateur de 2 : 2 = Et pour estimateur de 1 : 1 = y 2 x 173.7. 2. Le coecient de dtermination R2 est gal au carr du coecient de corrlation linaire entre les variables x et y, ce qui donne : R2 = x)(yi y ))2 0, 101. n 2 ) ( n (y y )2 ) i=1 (xi x) i=1 i (n i=1 (xi n i=1 (xi x)(yi n 2 i=1 (xi x)

y)

0, 098.

(

On en conclut que 10% de la variance des frquences seuils yi est explique par lge. Ce modle de rgression linaire simple ne semble donc pas ecace. 3. Un estimateur non biais 2 de 2 est tout simplement : 2 = n i=1 (yi

yi )2 = n2

n i=1 (yi

18

yi )2

9.44.

4. Un estimateur 2 de la variance de 2 est alors donn par : 2 2 = 2 Rgression 2 0, 0047. n 2 i=1 (xi x) Arnaud Guyader - Rennes 2

24

Chapitre 1. La rgression linaire simple 5. On sait que lestimateur centr et normalis de 2 suit une loi de Student (n 2) = 18 degrs de libert : 2 2 T18 , 2 2 donc sous lhypothse H0 : 2 = 0, ceci se simplie en 2 T18 , et cette statistique de test donne ici : 0, 098 1.43 > 2.101 = t18 (0.025). t = T () 0, 0047

Ainsi on accepte lhypothse H0 selon laquelle la pente de la droite de rgression est nulle. Ceci signie quau vu des donnes dont nous disposons, on peut considrer que lge na pas dinuence sur la frquence seuil. Exercice 1.8 (Comparaison destimateurs) Nous considrons le modle statistique yi = xi + i , i = 1, , n, [i ] = 0 et Cov(i , i ) = 2 i,j .

o nous supposons que les perturbations i sont telles quen

1. Par dnition, lestimateur des moindres carrs de vrie = arg min i=1

(yi xi )2 = arg min S().

Cette fonction S est strictement convexe et admet donc un unique minimum au point o sa drive sannule :n n n

S () = 2 Ceci mne bien :

i=1

xi (yi xi ) = 2

i=1

x2 i

xi y ii=1

.

=

n i=1 xi yi n 2 . i=1 xi

2. La droite passant par lorigine et le centre de gravit (, y ) du nuage de points admet pour x x, o quation y = = y = x n i=1 yi . n i=1 xi

3. Commencons par rcrire les estimateurs obtenus grce la relation yi = xi + i . Pour le premier, ceci donne : =+ et pour le second : = +n i=1 i . n i=1 xi n i=1 xi i n 2 , i=1 xi

Puisque par hypothse les erreurs sont centres (i.e. [i ] = 0), il en dcoule que [ ] = , cest--dire que les deux estimateurs sont sans biais. Arnaud Guyader - Rennes 2

[] =

Rgression

1.7. Corrigs 4. On rutilise les expressions prcdentes des estimateurs pour cette question. Puisque les erreurs sont dcorrles, la variance de vaut V () = La variance de vaut quant elle V ( ) =2. n i=1 xi ) n 2 2 i=1 xi n 2 2 i=1 xi

25

=

n 2. i=1 xi

2

n 2

(

Lingalit de Cauchy-Schwarz dit que la valeur absolue du produit scalaire de deux vecteurs est infrieure ou gale au produit de leurs normes, cest--dire : pour tous vecteurs u = [u1 , . . . , un ] et v = [v1 , . . . , vn ] de n , | u, v | u v , ou encore en passant aux carrs :n 2 n n

ui vii=1

u2 ii=1 i=1

2 vi

,

avec galit si et seulement si u et v sont colinaires. En prenant u = [x1 , . . . , xn ] et v = [1, . . . , 1] , on en dduit que V ( ) V (), avec galit si et seulement si u et v sont colinaires, cest--dire si et seulement si tous les xi sont gaux. Puisque les deux estimateurs sont linaires en y et que est celui des moindres carrs, ce rsultat nest pas tonnant si lon repense au thorme de Gauss-Markov. Exercice 1.9 (Rgression simple) Cet exercice est corrig en annexe, sujet de dcembre 2010. Exercice 1.10 (Forces de frottement et vitesse) Cet exercice est corrig en annexe, sujet de dcembre 2010. Exercice 1.11 (Prix dun appartement en fonction de sa supercie) Cet exercice est corrig en annexe, sujet de dcembre 2011.

Rgression

Arnaud Guyader - Rennes 2

Chapitre 2

La rgression linaire multipleIntroductionLa modlisation de la concentration dozone dans latmosphre voque au Chapitre 1 est relativement simpliste. En eet, dautres variables peuvent expliquer cette concentration, par exemple le vent qui pousse les masses dair. Ce phnomne physique est connu sous le nom dadvectance (apport dozone) ou de dilution. Dautres variables telles le rayonnement, la prcipitation, etc. ont une inuence certaine sur la concentration dozone. Lassociation Air Breizh mesure ainsi en mme temps que la concentration dozone dautres variables susceptibles davoir une inuence sur celle-ci (voir Annexe D). Voici quelques-unes de ces donnes : T12 V N12 O3 23.8 9.25 5 115.4 16.3 -6.15 7 76.8 27.2 -4.92 6 113.8 7.1 11.57 5 81.6 25.1 -6.23 2 115.4 27.5 2.76 7 125 19.4 10.15 4 83.6 19.8 13.5 6 75.2 32.2 21.27 1 136.8 20.7 13.79 4 102.8

Table 2.1 10 donnes journalires de temprature, vent, nbulosit et ozone.

La variable V est une variable synthtique. En eet, le vent est normalement mesur en degrs (direction) et mtres par seconde (vitesse). La variable V que nous avons cre est la projection du vent sur laxe Est-Ouest, elle tient donc compte la fois de la direction et de la vitesse. Pour analyser la relation entre la temprature T , le vent V , la nbulosit midi N et lozone O3 , nous allons chercher une fonction f telle que : O3i f (Ti , Vi , Ni ). An de prciser , il va falloir dnir comme au Chapitre 1 un critre quantiant la qualit de lajustement de la fonction f aux donnes, ou inversement le cot de non-ajustement. Cette notion de cot permet dapprhender de manire aise les problmes dajustement conomique dans certains modles, do son nom. Minimiser un cot ncessite aussi la connaissance de lespace sur lequel on minimise, cest--dire la classe de fonctions F dans laquelle nous supposerons que se trouve la vraie fonction inconnue. Le problme mathmatique peut scrire de la faon suivante :n

arg minf F i=1

L(yi f (xi )),

(2.1)

28

Chapitre 2. La rgression linaire multiple o n reprsente le nombre de donnes analyser, L(.) est appele fonction de cot, ou de perte, et xi est une variable vectorielle pour tout i. La fonction de cot sera la mme que celle utilise prcdemment, cest--dire le cot quadratique. En ce qui concerne le choix de la classe F, nous utiliserons la classe des fonctions linaires : p j xj . F = f : P , f (x1 , , xp ) = j=1

Ce chapitre est donc la gnralisation naturelle du prcdent, mais nous allons cette fois manipuler sytmatiquement des vecteurs et des matrices la place des scalaires.

2.1

Modlisation

Le modle de rgression linaire multiple est une gnralisation du modle de rgression simple lorsque les variables explicatives sont en nombre quelconque. Nous supposons donc que les donnes collectes suivent le modle suivant : yi = 1 xi1 + 2 xi2 + + p xip + i , i = 1, . . . , n (2.2)

o : les xij sont des nombres connus, non alatoires, la variable xi1 valant souvent 1 pour tout i ; les paramtres j du modle sont inconnus, mais non alatoires ; les i sont des variables alatoires inconnues. En utilisant lcriture matricielle de (2.2) nous obtenons la dnition suivante : Dnition 2.1 (Modle de rgression linaire multiple) Un modle de rgression linaire est dni par une quation de la forme : Y = X + o : Y est un vecteur alatoire de dimension n, X est une matrice de taille n p connue, appele matrice du plan dexprience, est le vecteur de dimension p des paramtres inconnus du modle, est le vecteur de dimension n des erreurs. Les hypothses concernant le modle sont (H) (H1 ) : rg(X) = p (H2 ) : [] = 0, Var() = 2 In

Lhypothse (H2 ) signie que les erreurs sont centres, de mme variance (homoscdasticit) et non corrles entre elles. Notation. On notera X = [X1 | . . . |Xp ], o Xj est le vecteur de taille n correspondant la j-me variable. La i-me ligne de la matrice X sera quant elle note x = [xi1 , . . . , xip ]. Ainsi lquation i (2.2) scrit aussi : i {1, . . . , n} yi = x + i i Arnaud Guyader - Rennes 2 Rgression

2.2. Estimateurs des Moindres Carrs Ordinaires

29

2.2

Estimateurs des Moindres Carrs Ordinaires

Comme pour la rgression linaire simple, on va prendre ici une fonction de cot quadratique. On parle encore de Moindres Carrs Ordinaires (MCO). Dnition 2.2 (Estimateur des MCO) Lestimateur des moindres carrs est dni comme suit :n

= arg min p i=1

p j=1

Dans la suite de cette section, nous allons donner lexpression de lestimateur ainsi que certaines de ses proprits.

yi

j xij = arg min Y X 2 . p

2

(2.3)

2.2.1

Calcul de

Pour dterminer , une mthode consiste se placer dans lespace des variables, comme on la fait au Chapitre 1, Section 1.3.1. Rappelons brivement le principe : Y = [y1 , . . . , yn ] est le vecteur des variables expliquer. La matrice du plan dexprience X = [X1 | . . . |Xp ] est forme de p vecteurs colonnes (la premire colonne tant gnralement constitue de 1). Le sous-espace de n engendr par les p vecteurs colonnes de X est appel espace image, ou espace des solutions, et not M(X). Il est de dimension p par lhypothse (H1 ) et tout vecteur de cet espace est de la forme X, o est un vecteur de p : X = 1 X1 + + p Xp M (X) Y

M(X)

X

X X X

Figure 2.1 Reprsentation de X dans lespace des variables.

Selon le modle de la Dnition 2.1, le vecteur Y est la somme dun lment de M(X) et dun bruit lment de n , lequel na aucune raison dappartenir M(X). Minimiser Y X 2 revient chercher un lment de M(X) qui soit le plus proche de Y au sens de la norme euclidienne classique. Cet unique lment est, par dnition, le projet orthogonal de Y sur M(X). Il sera not Y = PX Y , o PX est la matrice de projection orthogonale sur M(X). Cet lment de M(X) est aussi not Y = X , o est lestimateur des MCO de . Lespace orthogonal M(X), not M (X), est souvent appel espace des rsidus. Il est bien entendu de dimension np = dim(n )dim(M(X)). Proposition 2.1 (Expression de ) des Moindres Carrs Ordinaires a pour expression : Lestimateur = (X X)1 X Y, Rgression Arnaud Guyader - Rennes 2

30

Chapitre 2. La rgression linaire multiple et la matrice PX de projection orthogonale sur M(X) scrit : PX = X(X X)1 X . Remarque. Lhypothse (H1 ) assure que la matrice X X est bien inversible. Supposons en eet quil existe un vecteur de p tel que (X X) = 0. Ceci impliquerait que X 2 = (X X) = 0, donc X = 0, do = 0 puisque rg(X) = p. Autrement dit la matrice symtrique X X est dnie positive. Preuve. On peut prouver ce rsultat de plusieurs faons. 1. Par direntiation : on cherche p qui minimise la fonction S() = Y X2

= (X X) (Y X + X Y ) + Y

2

.

Or S est une forme quadratique en , avec X X qui est symtrique dnie positive, donc le problme admet une unique solution : cest le point o la drive de S par rapport est nulle. Ceci scrit : S () = 2X X 2X Y = 0. Puisque la matrice X X est inversible par (H1 ), ceci donne = (X X)1 X Y et puisque X)1 X Y et que cette relation est valable pour tout par dnition Y = PX Y = X = X(X n , on en dduit que P = X(X X)1 X . Y X 2. Par projection : une autre faon de procder consiste dire que le projet orthogonal Y = Y est dni comme lunique vecteur tel que (Y Y ) soit orthogonal M(X). Puisque M(X) est engendr par les vecteurs X1 , . . . , Xp , ceci revient dire que (Y Y ) est orthogonal chacun des Xi : X1 , Y X = 0 . . . Xp , Y X = 0 Ces p quations se regroupent en une seule : X (Y X ) = 0, do lon dduit bien lexpres puis celle de PX . sion de ,

Dornavant nous noterons PX = X(X X)1 X la matrice de projection orthogonale sur M(X) et PX = (I PX ) la matrice de projection orthogonale sur M (X). La dcomposition Y = Y + (Y Y ) = PX Y + (I PX )Y = PX Y + PX Y nest donc rien de plus quune dcomposition orthogonale de Y sur M(X) et M (X). Achtung ! La dcomposition Y = 1 X1 + + p Xp

signie que les i sont les coordonnes de Y dans la base (X1 , . . . , Xp ) de M(X). Il ne faudrait i sont les coordonnes des projections de Y sur les Xi : ceci nest pas croire pour autant que les vrai que si la base (X1 , . . . , Xp ) est orthogonale, ce qui nest pas le cas en gnral. Rappels sur les projecteurs. Soit P une matrice carre de taille n. On dit que P est une matrice de projection si P 2 = P . Ce nom est d au fait que pour tout vecteur x de n , P x est la projection de x sur Im(P ) paralllement Ker(P ). Si en plus de vrier P 2 = P , la matrice P est symtrique, Arnaud Guyader - Rennes 2 Rgression

2.2. Estimateurs des Moindres Carrs Ordinaires alors P x est la projection orthogonale de x sur Im(P ) paralllement Ker(P ), cest--dire que dans la dcomposition x = P x + (x P x), les vecteurs P x et (x P x) sont orthogonaux. Cest ce cas de gure qui nous concernera dans ce cours. Toute matrice symtrique relle tant diagonalisable en base orthonorme, il existe une matrice orthogonale U (i.e. U U = In , ce qui signie que les colonnes de U forment une base orthonorme de n ) et une matrice diagonale telles que P = U U . On voit alors facilement que la diagonale de est compose de p 1 et de (n p) 0, o p est la dimension de Im(P ), espace sur lequel on projette.2 Revenons nos moutons : on a vu que PX = X(X X)1 X . On vrie bien que PX = PX et que PX est symtrique. Ce qui prcde assure galement que Tr(PX ) = p et Tr(PX ) = n p. Cette dernire remarque nous sera utile pour construire un estimateur sans biais de 2 . Dautre part, la matrice PX est souvent note H (comme Hat) dans la littrature anglo-saxonne, car elle met des chapeaux sur les vecteurs : PX Y = Y . De fait, les lements de PX sont nots (hij )1i,jn .

31

2.2.2

Quelques proprits

Comme en rgression simple, lestimateur obtenu est sans biais. On obtient de plus une expression trs simple pour sa matrice de covariance Var(). On rappelle que la matrice de covariance du vecteur alatoire , ou matrice de variance-covariance, ou matrice de dispersion, est par dnition : Var() = [( [])( []) ] = [ ] [] [] .

Puisque est de dimension p, elle est de dimension p p. De plus, pour pour toute matrice A de taille m p et tout vecteur B de dimension m dterministes, on a : Var(A + B) = AVar()A . Cette proprit sera dutilit constante dans la suite. Proposition 2.2 (Biais et matrice de covariance) Lestimateur des moindres carrs est sans biais, i.e. [] = , et sa matrice de covariance est : V () = 2 (X X)1 . Preuve. Pour le biais il sut dcrire : [] = et puisque [(X X)1 X Y ] = (X X)1 X [Y ] = (X X)1 X [X + ], [] = (X X)1 X X = . Pour la variance, on procde de mme : Var() = Var((X X)1 X Y ) = (X X)1 X Var(Y )X(X X)1 , or Var(Y ) = Var(X + ) = Var() = 2 In , donc : Var() = 2 (X X)1 X X(X X)1 = 2 (X X)1 .

[] = 0, il vient :

Lestimateur des MCO est optimal en un certain sens. Cest ce que prcise le rsultat suivant, gnralisation de celui vu en rgression linaire simple. Thorme 2.1 (Gauss-Markov) Lestimateur des MCO est de variance minimale parmi les estimateurs linaires sans biais de . Rgression Arnaud Guyader - Rennes 2

32 Remarques :

Chapitre 2. La rgression linaire multiple

1. Linaire signie linaire par rapport Y , cest--dire de la forme AY o A est une matrice (p, n) : en ce sens, lestimateur des MCO est bien linaire puisque = (X X)1 X Y . 2. Rappelons quil existe une relation dordre partielle entre matrices symtriques relles : dire que S1 S2 signie que S = (S2 S1 ) est une matrice symtrique relle positive, cest--dire que pour tout vecteur x, on a x S1 x x S2 x. Ceci revient encore dire que les valeurs propres de S sont toutes suprieures ou gales 0. Preuve. Nous allons montrer que, pour tout autre estimateur de linaire et sans biais, Var() o lingalit entre matrices de variance-covariance est comprendre au sens prcis ciVar(), dessus. Rappelons la formule gnrale pour la matrice de covariance de la somme deux vecteurs alatoires U et V : Var(U + V ) = Var(U ) + Var(V ) + Cov(U, V ) + Cov(V, U ), o Cov(U, V ) = [U V ] [U ] [V ] = Cov(V, U ) . Dcomposons ainsi la variance de :

Var() = Var( + ) = Var( ) + Var() + Cov( , ) + Cov(, ). Les variances tant semi-dnies positives, si nous montrons que Cov( , ) = 0, nous aurons est linaire, = AY . De plus, nous savons quil est sans biais, ni la dmonstration. Puisque cest--dire [] = pour tout , donc AX = I. La covariance devient : Cov( , ) = Cov(AY, (X X)1 X Y ) Var()

= 2 AX(X X)1 2 (X X)1 = 0.

2.2.3

Rsidus et variance rsiduelle

Les rsidus sont dnis par = [1 , . . . , n ] = Y Y = (I PX )Y = PX Y = PX , car Y = X + et X M(X). On peut alors noncer les rsultats suivants. Proprits 2.1 (Biais et Variance de et Y ) Sous le jeu dhypothses (H), on a : 1. [] = 0. 2. Var() = 2 PX . 3. [Y ] = X. 4. Var(Y ) = 2 PX . 5. Cov(, Y ) = 0. Preuve. 1. 3. [] = [PX ] = PX [] = 0. [] = 0. 2. Var() = PX Var()PX = PX Var()PX = 2 PX PX = 2 PX .

[Y ] = [Y ] = [Y ] [] = [Y ] = [X + ] = X, car 4. Var(Y ) = PX Var(Y )PX = PX Var(Y )PX = 2 PX . Arnaud Guyader - Rennes 2

Rgression

2.2. Estimateurs des Moindres Carrs Ordinaires 5. Rappelons que la covariance entre deux vecteurs alatoires est une application bilinaire et que Cov(U, U ) = Var(U ). Ici ceci donne : Cov(, Y ) = Cov(, Y ) = Cov(, Y ) Var() = Cov(PX Y, Y ) 2 PX et puisque Var(Y ) = 2 In , nous avons : Cov(, Y ) = PX Var(Y ) 2 PX = 0.

33

Comme en rgression linaire simple, un estimateur naturel de la variance rsiduelle est donn par : 1 nn

i = i=1

1 2. n

Malheureusement on va voir que cet estimateur est biais. Ce biais est nanmoins facile corriger, comme le montre le rsultat suivant. Cest une bte gnralisation du rsultat obtenu en rgression linaire simple, en remplaant n 2 par n p. Proposition 2.3 La statistique 2 = 2 np

=

SCR np

est un estimateur sans biais de 2 .

Preuve. Nous calculons ce qui donne :

[ 2 ]. Ruse de sioux : puisque cest un scalaire, il est gal sa trace, [ 2] = [Tr( 2 )] = [Tr( )], i,j

et puisque pour toute matrice A, on a Tr(AA ) = Tr(A A) = [ 2] =

a2 , il vient : ij

[Tr( )] = Tr( [ ]) = Tr(Var()) = Tr( 2 PX ).

Et comme PX est la matrice de la projection orthogonale sur un espace de dimension (n p), on a bien : [ 2 ] = (n p) 2 . On dduit de cet estimateur de 2 de la variance rsiduelle 2 un estimateur de la variance 2 = 2 (X X)1 : Var() = 2 (X X)1 = 2 SCR 1 2 (X X)1 = (X X) . np np

En particulier, un estimateur de lcart-type de lestimateur j du j-me coecient de la rgression est tout simplement : j = [(X X)1 ]jj .

An dallger les notations, on crira parfois j pour j . Rgression Arnaud Guyader - Rennes 2

34

Chapitre 2. La rgression linaire multiple

2.2.4

Prvision

Un des buts de la rgression est de proposer des prdictions pour la variable expliquer y lorsque nous avons de nouvelles valeurs de x. Soit donc x n+1 = [xn+1,1 , , xn+1,p ] une nouvelle valeur pour laquelle nous voudrions prdire yn+1 , dni par yn+1 = x + n+1 , avec [n+1 ] = 0, n+1 Var(n+1 ) = 2 et Cov(n+1 , i ) = 0 pour i = 1, . . . , n. La mthode naturelle est de prdire la valeur correspondante grce au modle ajust : yn+1 = x . Lerreur de prvision est nouveau n+1 + n+1 . Deux types derreurs vont alors entacher dnie par n+1 = yn+1 yn+1 = xn+1 ( ) notre prvision : la premire due lincertitude sur n+1 et lautre lincertitude inhrente les timateur . Proposition 2.4 (Erreur de prvision) Lerreur de prvision n+1 = (yn+1 yn+1 ) satisfait les proprits suivantes : [n+1 ] = 0 Var(n+1 ) = 2 (1 + x (X X)1 xn+1 ). n+1 Preuve. Puisque [n+1 ] = 0 et que est un estimateur sans biais de , il est clair que [n+1 ] = 0. Autrement dit, en moyenne, notre estimateur ne se trompe pas. Calculons la variance de lerreur de prvision. Puisque dpend uniquement des variables alatoires (i )1in , dont n+1 est dcorrle, il vient : Var (n+1 ) = Var(n+1 + x ( )) = 2 + x Var()xn+1 n+1 n+1

= 2 (1 + x (X X)1 xn+1 ). n+1

Nous retrouvons bien lincertitude dobservation 2 laquelle vient sajouter lincertitude destimation.

2.3

Interprtation gomtrique

M (X) Y

0 Y = X M(X) y

Figure 2.2 Reprsentation des variables.

Arnaud Guyader - Rennes 2

Rgression

2.4. Exemple Le thorme de Pythagore nous donne directement : SCT Y2

35

= SCE + SCR = Y 2+ 2 = X2

+ Y X 2.

Si la constante fait partie du modle alors nous avons, toujours par Pythagore : SCT Y y 2

Variation totale = V. explique par le modle + V. rsiduelle. Dnition 2.3 Le coecient de dtermination R2 est dni par : R2 = cos2 0 = Y Y2 2

= SCE + SCR = Y y 2 +

2

=1

Y

2 2

=1

SCR , SCT

et si la constante fait partie de M(X) par : R2 = cos2 = V. explique par le modle Y y = Variation totale Y y 2 2

=1

2 Y y

2

=1

SCR . SCT

Ce coecient mesure le cosinus carr de langle entre les vecteurs Y et Y pris lorigine ou pris en y . Ce dernier est toujours plus grand que le premier, puisque Y y Y . Nanmoins, ce coecient ne tient pas compte de la dimension de lespace de projection M(X), un R2 ajust est donc dni. Dnition 2.4 2 Le coecient de dtermination ajust Ra est dni par :2 Ra = 1

n np Y

2 2

=1

n SCR , n p SCT

et si la constante fait partie de M(X) par :2 Ra = 1

2 n1 n p Y y

2

=1

n 1 SCR . n p SCT

Avec le logiciel R, le coecient de dtermination R2 est appel Multiple R-Squared, tandis que 2 le coecient de dtermination ajust Ra est appel Adjusted R-Squared (cf. infra).

2.4

Exemple

Nous allons traiter les 50 donnes journalires prsentes en Annexe D. La variable expliquer est la concentration en ozone note O3 et les variables explicatives sont la temprature T12, le vent Vx et la nbulosit Ne12. Les donnes sont traites avec le logiciel R. > a summary(a) Call: lm(formula = O3 T12 + Vx + Ne12, data = DONNEE)) Rgression Arnaud Guyader - Rennes 2

36 Residuals: Min -29.0441 Coefficients : (Intercept) T12 Vx Ne12 Estimate 84.5483 1.3150 0.4864 -4.8935 Std. Error 13.6065 0.4974 0.1675 1.0270 t value 6.214 2.644 2.903 -4.765 1Q -8.4833 Median 0.7857

Chapitre 2. La rgression linaire multiple

3Q 7.7011

Max 28.2919

Pr(>|t|) 1.38e-07 0.01118 0.00565 1.93e-05

*** * ** ***

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 13.91 on 46 degrees of freedom Multiple R-Squared: 0.6819, Adjusted R-squared: 0.6611 F-statistic: 32.87 on 3 and 46 DF, p-value: 1.663e-11 Les interprtations des sorties sont similaires celles obtenues pour la rgression simple. Noter que le Residual standard error correspond lcart-type rsiduel, cest--dire .

2.5

Exercices

Exercice 2.1 (Rgression simple et Rgression multiple) Considrons le modle de rgression linaire simple y = 1 + 2 x + . On dispose dun chantillon de n couples (xi , yi )1in . 1. Rappeler les formules de 1 et 2 , estimateurs des moindres carrs ordinaires du Chapitre 1. 2. Donner la formule de = [1 , 2 ] , estimateur des moindres carrs ordinaires du Chapitre 2. 3. Retrouver le rsultat de la question 1 partir de celui de la question 2. 4. Soit xn+1 une nouvelle mesure et yn+1 la valeur prdite associe. Retrouver la variance de lerreur de prdiction n+1 = yn+1 yn+1 vue au Chapitre 1 partie de celle du Chapitre 2. Exercice 2.2 (Rle de la constante) Soit X(n,p) une matrice de rang p. Soit Y la projection orthogonale dun vecteur Y de n sur lespace engendr par les colonnes de X. On note le vecteur de n uniquement compos de 1. 1. Exprimer le produit scalaire Y, en fonction des yi . 2. Soit = Y Y et supposons que lun des vecteurs colonnes de X est constant (non nul). Que vaut , ? n i=1 yi

3. En dduire que lorsque la constante fait partie du modle,

=

n i=1 yi .

Exercice 2.3 (Le R2 et les modles embots) Soit Z(n,q) une matrice (n, q) de rang q et soit X(n,p) une matrice (n, p) de rang p compose des q vecteurs colonnes de Z et de p q autres vecteurs linairement indpendants. Nous avons les deux modles suivants : Y Y = Z + = X + .

Supposons pour simplier que la constante ne fait partie daucun modle. Montrer que PX Y 2 = PZ Y 2 + PXZ Y 2 . Comparer alors les R2 dans ces deux modles. Discuter de lutilisation du R2 pour le choix de variables. Arnaud Guyader - Rennes 2 Rgression

2.5. Exercices Exercice 2.4 (Deux variables explicatives) On examine lvolution dune variable y en fonction de deux variables exognes x et z. On dispose de n observations de ces variables. On note X = [ x z] o est le vecteur constant et x, z sont les vecteurs des variables explicatives. 1. Nous avons obtenu les rsultats suivants : 25 0 0 0.04 0 0 X X = ? 9.3 5.4 (X X)1 = 0 0.1428 0.0607 . ? ? 12.7 0 0.0607 0.1046 (a) Donner les valeurs manquantes. (b) Que vaut n ? (c) Calculer le coecient de corrlation linaire empirique entre x et z. 2. La rgression linaire de Y sur (, x, z) donne Y = 1.6 + 0.61x + 0.46z + , (a) Dterminez la moyenne empirique y . (b) Calculer la somme des carrs explique (SCE), la somme des carrs totale (SCT ) et le coecient de dtermination. Exercice 2.5 (Rgression sur variables orthogonales) Nous considrons le modle de rgression linaire Y = X + , o Y n , X est une matrice de taille n p compose de p vecteurs orthogonaux, p et n . Considrons Z la matrice des q premires colonnes de X et U la matrice des (p q) dernires colonnes de X. Nous avons obtenu par les MCO les estimations suivantes : YX YZ YU X X = 1 X1 + + p Xp = Z X1 + + Z Xq1 q 2

37

SCR =

= 0.3.

U U = q+1 Xq+1 + + p Xp .

Notons galement SCE(A) la norme au carr de PA Y . 1. Montrer que SCE(X) = SCE(Z) + SCE(U ). X 2. Donner lexpression de 1 en fonction de Y , X1 et X1 . 3. En dduire que X = Z .1 1

Exercice 2.6 (Rgression sur variables centres) Nous considrons le modle de rgression linaire Y = X + , (2.4)

o Y n , X est une matrice de taille n p de rang p, p et n . La premire colonne de X est le vecteur constant . X peut donc scrire X = [, Z] o Z = [X2 , . . . , Xp ] est la matrice n (p 1) des (p 1) derniers vecteurs colonnes de X. Le modle peut donc scrire sous la forme : Y = 1 + Z(1) + , o 1 est la premire coordonne du vecteur et (1) reprsente le vecteur priv de sa premire coordonne. Rgression Arnaud Guyader - Rennes 2

38

Chapitre 2. La rgression linaire multiple 1. Donner P , matrice de projection orthogonale sur le sous-espace engendr par le vecteur . 2. En dduire la matrice de projection orthogonale P sur le sous-espace vecteur . 3. Calculer P Z. 4. En dduire que lestimateur de des Moindres Carrs Ordinaires du modle (2.4) peut tre obtenu en minimisant par les MCO le modle suivant : Y = Z(1) + , (2.5)

orthogonal au

o Y = P Y et Z = P Z. 5. Ecrire la SCR estime dans le modle (2.5) en fonction des variables du modle (2.5). Vrier que la SCR du modle (2.5) est identique celle qui serait obtenue par lestimation du modle (2.4). Exercice 2.7 (QCM) Ce questionnaire fait appel non seulement au cours, mais galement certains des rsultats vus dans les exercices qui prcdent. 1. Nous avons eectu une rgression multiple, une des variables explicatives est la constante, la somme des rsidus calculs vaut : A. 0 ; B. Approximativement 0 ; C. Parfois 0. 2. Le vecteur Y est-il orthogonal au vecteur des rsidus estims ? A. Oui ; B. Non ; C. Seulement si fait partie des variables explicatives. 3. Un estimateur de la variance de , estimateur des MC de , vaut : A. 2 (X X)1 ; B. 2 (X X)1 ; C. 2 (XX )1 . 4. Un autre estimateur que celui des moindres carrs (moindres valeurs absolues ou autre) a t calcul. La SCR obtenue avec cet estimateur est : A. Plus petite que la SCR obtenue avec lestimateur des MC classique ; B. Plus grande que la SCR obtenue avec lestimateur des MC classique ; C. Aucun rapport. 5. Une rgression a t eectue et le calcul de la SCR a donn la valeur note SCR1. Une variable est ajoute, le calcul de la SCR a donn une nouvelle valeur note SCR2. Nous savons que : A. SCR1 SCR2 ; B. SCR1 SCR2 ; C. Cela dpend de la variable ajoute. 6. Une rgression a t eectue et un estimateur de la variance rsiduelle a donn la valeur note 1 . Une variable est rajoute et un estimateur de la variance rsiduelle vaut maintenant 2 2 . Nous savons que : 2 A. 1 2 ; 2 2 B. 1 2 ; 2 2 C. On ne peut rien dire.

Arnaud Guyader - Rennes 2

Rgression

2.6. Corrigs

39

2.6

Corrigs

Exercice 2.1 (Rgression simple et Rgression multiple) On dispose donc dun chantillon de n points (xi , yi )1in . 1. On a vu au Chapitre 1 que les estimateurs des MCO ont pour expressions : 1 = y 2 x, avec 2 =n i=1 (xi x)(yi n (xi x)2 i=1

y)

=

n i=1 (xi x)yi . n (xi x)2 i=1

2. Conformment aux conventions du Chapitre 2, on note X la matrice n 2 dont la premire colonne est uniquement compose de 1 et la seconde est compose des xi . De mme, Y = [y1 , . . . , yn ] est un vecteur colonne de taille n. On a vu que lestimateur = [1 , 2 ] des moindes carrs scrit alors : = (X X)1 X Y 3. Les calculs de (X X)1 et de X Y donnent : (X X)1 X Y = do : (X X)1 X Y = Il sut alors de voir que n x2 i 1 n 2 x2 1 (xi x)2 x2 n x i n n x y n y xi y i ,

x2 x xi y i i xi yi ny x

xi yi ny = x

(xi x)(yi y )

pour vrier que la seconde composante de ce vecteur correspond bien la formule de 2 de la premire question. Pour la premire composante, on crit : y y x2 x xi y i i = 2 (xi x) (xi x)2 x( xi yi ny ) x = y 2 x 2 (xi x)

et la messe est dite. 4. En notant x n+1 = [1, xn+1 ], nous avons vu en Section 2.2.4 que la variance de lerreur destimation vaut : Var(n+1 ) = 2 (1 + x (X X)1 xn+1 ). n+1 Puisque (X X)1 = on obtient x (X X)1 xn+1 = n+1 donc x (X X)1 xn+1 = n+1 Rgression n 1 (xi x)2 (xi x)2 + n2 2nxn+1 + nx2 x x n+1 , Arnaud Guyader - Rennes 2 n 1 (xi x)2 x2 2nxn+1 + nx2 x i n+1 , n x2 i 1 n 2 x2 x2 n x i n n x = n 1 (xi x)2 x2 n x i n n x ,

40 cest--dire x (X X)1 xn+1 = n+1 do au nal

Chapitre 2. La rgression linaire multiple

(xn+1 x)2 1 + n n 2 i=1 (xi x) (xn+1 x)2 1 + n 2 n i=1 (xi x) ,

2 (1 + x (X X)1 xn+1 ) = 2 1 + n+1 qui est bien la formule de la Proposition 1.2.

Exercice 2.2 (Rle de la constante) Soit X(n,p) une matrice de rang p. Soit Y la projection dun vecteur Y de n sur lespace engendr par les colonnes de X. On note le vecteur de n uniquement compos de 1. 1. Par dnition du produit scalaire usuel dans

n , on a tout simplement :yi

Y, =

2. Puisque Y est la projection orthogonale de Y sur le sous-espace engendr par les colonnes de X, le vecteur = Y Y est orthogonal toutes les colonnes de X. En particulier, si lune dentre elles est constante et vaut c (c suppos non nul), on en dduit que : , c = 0 , = 0.

Autrement dit, lorsque la constante fait partie du modle, la somme des rsidus vaut 0. 3. Dire que la constante fait partie du modle signie typiquement que la premire colonne de X est le vecteur . Daprs la question prcdente, on sait que dans ce cas : , = 0 yi = yi .

Exercice 2.3 (Le R2 et les modles embots) Soit Z(n,q) une matrice (n, q) de rang q et soit X(n,p) une matrice (n, p) de rang p compose des q vecteurs colonnes de Z et de p q autres vecteurs. Nous avons les deux modles suivants : Y Y = Z + = X + .

Rappelons la proprit suivante des projecteurs orthogonaux : si PA et PB dsignent respectivement les projections orthogonales sur les sous-espaces A et B, alors PA PB = PB PA = PAB , projection orthogonale sur le sous-espace A B. Dans notre contexte, notons respectivement PX et PZ les projections orthogonales sur les sousespaces M(X) et M(Z) engendrs par les p colonnes de X et les q colonnes de Z. Notons enn PXZ la projection orthogonale sur le sous-espace M(X) M(Z) , orthogonal de M(Z) dans M(X), autrement dit : M(X) = M(Z) (M(X) M(Z) ). PX Y2

Par le thorme de Pythagore, on a : = PZ Y2

+ PXZ Y

2

.

Supposons pour simplier les critures que la constante ne fait partie daucun modle. Dans le premier modle, le R2 vaut : PZ Y 2 2 , RZ = Y 2 Arnaud Guyader - Rennes 2 Rgression

2.6. Corrigs et dans le second :2 RX =

41

PX Y Y 2

2

=

PZ Y

2

+ PXZ Y Y 2

2

PZ Y 2 2 = RZ . Y 2

Ceci montre la chose suivante : ds lors que deux modles sont embots, le coecient de dtermination du plus gros sera suprieur celui du plus petit. Autrement dit, ds que lon ajoute des variables un modle, on amliore le pourcentage de variation explique, mme si les variables explicatives supplmentaires ne sont pas pertinentes ! En ce sens, le coecient de dtermination ajust est prfrable, ayant au moins le mrite de tenir compte des dimensions des dirents modles. Plus prcisment, nous verrons au Chapitre 3 comment eectuer des tests dhypothses entre modles embots. Exercice 2.4 (Deux variables explicatives) On examine lvolution dune variable y en fonction de deux variables exognes x et z. On dispose de n observations de ces variables. On note X = [ x z] o est le vecteur constant et x, z sont les vecteurs des variables explicatives. 1. Nous avons obtenu les rsultats suivants : 25 0 0 0.04 0 0 X X = ? 9.3 5.4 (X X)1 = 0 0.1428 0.0607 . ? ? 12.7 0 0.0607 0.1046 (a) Les 3 valeurs manquantes se dduisent de la symtrie de la matrice X X. (b) Puisque X = [ x z], il vient n = (X X)1,1 = 25. (c) Le coecient de corrlation linaire empirique entre x et z se dduit lui aussi de la matrice X X. On remarque tout dabord que les moyennes empiriques sont nulles puisque x= Par consquent rx,z = ce qui donne rx,z = (xi x)2 (xi x)(zi z ) (zi z )2 = xi zi x2 i2 zi

(X X)1,2 (X X)1,3 =0= =z n n (X X)2,3 (X X)2,2 (X X)3,3

=

5.4 0.5 9.3 12.7

2. La rgression linaire de Y sur (, x, z) donne Y = 1.6 + 0.61x + 0.46z + , SCR = 2

= 0.3.

(a) Puisque la constante fait partie du modle, la moyenne empirique des rsidus est nulle : = 0. On en dduit que y = 1.6 + 0.61 + 0.46 + = 1.6 x z (b) Puisque la constante fait partie du modle, la somme des carrs explique par le modle est SCE = Y y 2 = (yi y )2 = (0.61xi + 0.46zi )2 cest--dire SCE = Y y Rgression2

= 0.612

x2 + 2 0.61 0.46 i

xi zi + 0.462

2 zi

Arnaud Guyader - Rennes 2

42

Chapitre 2. La rgression linaire multiple ce qui se calcule nouveau grce la matrice X X : SCE = Y y2

= 0.612 (X X)2,2 + 2 0.61 0.46(X X)2,3 + 0.462 (X X)3,3 = 9.18

La somme des carrs totale est alors immdiate, en vertu de la sacro-sainte formule de dcomposition de la variance : SCT = SCE + SCR = 9.18 + 0.3 = 9.48 Le coecient de dtermination vaut donc R2 = SCE 0.97 SCT

Autrement dit, 97% de la variance des donnes est explique par ce modle de rgression. Exercice 2.5 (Rgression sur variables orthogonales) Nous considrons le modle de rgression linaire Y = X + , o Y n , X est une matrice de taille n p compose de p vecteurs orthogonaux, p et n . Considrons Z la matrice des q premires colonnes de X et U la matrice des p q dernires colonnes de X. Nous avons obtenu par les MCO les estimations suivantes : YX YZ YU X X = 1 X1 + + p Xp = Z X1 + + Z Xq1 q

U U = q+1 Xq+1 + + p Xp .

Notons galement SCE(A) la norme au carr de PA Y . 1. Rappelons nouveau la proprit suivante des projecteurs orthogonaux : si PA et PB dsignent respectivement les projections orthogonales sur les sous-espaces A et B, alors PA PB = PB PA = PAB , projection orthogonale sur le sous-espace A B. Ici, ceci se traduit comme suit : YX = PX Y = (PZ + PZ )PX Y = PZ PX Y + PZ PX Y, or dune part PZ PX = PZX = PZ , dautre part PZ PX = PZ X = PU projection orthogonale sur le sous-espace engendr par les colonnes de U puisque les colonnes de X sont orthogonales. Au total, on obtient la dcomposition orthogonale YX = YZ + YU et le thorme de Pythagore assure donc que SCE(X) = SCE(Z) + SCE(U ). X 2. Pour lexpression de 1 , on part tout simplement de la formule gnrale X = (X X)1 X Y Puisque les colonnes de X sont orthogonales, la matrice X X est diagonale, de termes diagonaux Xi 2 . Par ailleurs, X Y est un vecteur colonne de taille p, dont les coordonnes sont les produits scalaires Xi Y = Xi , Y . Ainsi X = Arnaud Guyader - Rennes 2 Xp , Y X1 , Y ,..., 2 X1 Xp 2

X1 , Y X 1 = . X1 2 Rgression

2.6. Corrigs X 3. La premire colonne de Z tant X1 , le raisonnement prcdent appliqu 1 montre que X = Z . Ainsi, lorsque les variables explicatives sont orthogonales, eectuer une rgression 1 1 multiple revient eectuer p rgression simples. En pratique, nanmoins, il arrive rarement que les variables explicatives soient eectivement orthogonales... Exercice 2.6 (Rgression sur variables centres) Nous considrons le modle de rgression linaire Y = X + , (2.6)

43

o Y n , X est une matrice de taille n p de rang p, p et n . La premire colonne de X est le vecteur constant . X peut ainsi scrire X = [, Z], o Z = [X2 , . . . , Xp ] est la matrice n (p 1) des (p 1) derniers vecteurs colonnes de X. Le modle peut donc scrire sous la forme : Y = 1 + Z(1) + , o 1 est la premire coordonne du vecteur et (1) reprsente le vecteur priv de sa premire coordonne. 1. La matrice de la projection orthogonale sur le sous-espace engendr par le vecteur P = ( )1 = 1 1 = J, n n

scrit

2. La matrice de projection orthogonale P sur le sous-espace 1 donc : P = I n J.

o J = est la matrice n n compose uniquement de 1.

orthogonal au vecteur est

1 3. On a ainsi P Z = Z n JZ. Si on note x2 , . . . , xn les moyennes empiriques des colonnes x X2 , . . . , Xn , P Z est donc la matrice n(p1) dont les colonnes sont X2 2 , . . . , Xn n . x Autrement dit P Z est la matrice (individus variables) pour laquelle chaque variable xi a t centre.

4. Lestimateur de des Moindres Carrs Ordinaires du modle (2.6) est dni par = arg min Y X 2 . p En dcomposant le vecteur sous la forme = [1 , (1) ] , ceci peut encore scrire :

(1 , (1) ) = arg Puisque P + P = In , il vient : (1 , (1) ) = arg1 ,(1) p1

1 ,(1) p1

min

Y 1 Z(1) 2 .

min

(P Y 1 P Z(1) ) + (P Y P Z(1) ) 2 .

Le premier vecteur entre parenthses est dans le sous-espace engendr par le vecteur second