27
Notes de cours LM347 : ANALYSE DE DONNÉES ET RÉGRESSION Arnak Dalalyan Université Paris 6 Résumé : La dernière partie de ce cours est consacrée à l’analyse statistique des modèles linéaires gaussiens. Nous commençons par introduire les notions les plus importantes dans un cas particulier très simple : le modèle gaussien sans variable explicative. Nous montrons par la suite comment ces notions peuvent être étendues aux modèles linéaires faisant intervenir des variables explicatives. 1. Exemples. Dans ce paragraphe nous proposons des exemples 1 de pro- blèmes pratiques qui peuvent être modélisés par un modèle linéaire gaussien. Dans les sections suivantes, nous donnerons les éléments permettant de ré- soudre ce type de problèmes. Exemple 1. Le tableau 1 (cf. page 2) représente des mesures de hauteurs d’arbres en mètres effectuées dans 3 forêts distinctes. On rassemble dans un même tableau les mesures effectuées dans les 3 forêts dans le but de les comparer. Le facteur étudié est ici l’influence de la forêt sur la hauteur de ces arbres. La variabilité de la hauteur due ici au tirage d’un échantillon aléatoire dans chaque forêt se décompose donc naturellement en une partie contrôlée, le facteur (forêt), et une partie aléatoire, la variabilité intrinsèque à la pousse des arbres due au terrain, à la lumière, à la présence ou non d’un autre arbre à proximité... On peut supposer que les hauteurs des différents arbres sont indépendantes (ce qui exige que l’on ne mesure pas des arbres trop rapprochés les uns des autres), et que, pour la forêt numéro k, la mesure d’un arbre suit une loi gaussienne de moyenne μ k et de variance σ 2 k ; on peut alors comparer les 3 échantillons 2 à 2. Mais si la variabilité des hauteurs des arbres peut être considérée comme identique d’une forêt à l’autre (σ 2 1 = σ 2 2 = σ 2 3 = σ 2 ) on observe trois échantillons gaussiens de même variance σ 2 et de moyennes différentes qui représentent l’effet de chaque forêt (les modalités du facteur “forêt”) sur la pousse des arbres. L’hypothèse d’égalité des variances est ap- 1 Ces exemples sont empruntés du polycopié de J.-F. Delmas intitulé “ Cours de statis- tique et analyse des données” ; ENPC 1

LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

Notes de cours

LM347 : ANALYSE DE DONNÉES ET RÉGRESSION

Arnak Dalalyan

Université Paris 6

Résumé : La dernière partie de ce cours est consacrée à l’analysestatistique des modèles linéaires gaussiens. Nous commençons parintroduire les notions les plus importantes dans un cas particulier trèssimple : le modèle gaussien sans variable explicative. Nous montronspar la suite comment ces notions peuvent être étendues aux modèleslinéaires faisant intervenir des variables explicatives.

1. Exemples. Dans ce paragraphe nous proposons des exemples1 de pro-blèmes pratiques qui peuvent être modélisés par un modèle linéaire gaussien.Dans les sections suivantes, nous donnerons les éléments permettant de ré-soudre ce type de problèmes.

Exemple 1. Le tableau 1 (cf. page 2) représente des mesures de hauteursd’arbres en mètres effectuées dans 3 forêts distinctes. On rassemble dansun même tableau les mesures effectuées dans les 3 forêts dans le but de lescomparer. Le facteur étudié est ici l’influence de la forêt sur la hauteur deces arbres. La variabilité de la hauteur due ici au tirage d’un échantillonaléatoire dans chaque forêt se décompose donc naturellement en une partiecontrôlée, le facteur (forêt), et une partie aléatoire, la variabilité intrinsèqueà la pousse des arbres due au terrain, à la lumière, à la présence ou non d’unautre arbre à proximité...On peut supposer que les hauteurs des différents arbres sont indépendantes(ce qui exige que l’on ne mesure pas des arbres trop rapprochés les uns desautres), et que, pour la forêt numéro k, la mesure d’un arbre suit une loigaussienne de moyenne µk et de variance σ2

k ; on peut alors comparer les 3échantillons 2 à 2. Mais si la variabilité des hauteurs des arbres peut êtreconsidérée comme identique d’une forêt à l’autre (σ2

1 = σ22 = σ2

3 = σ2) onobserve trois échantillons gaussiens de même variance σ2 et de moyennesdifférentes qui représentent l’effet de chaque forêt (les modalités du facteur“forêt”) sur la pousse des arbres. L’hypothèse d’égalité des variances est ap-

1Ces exemples sont empruntés du polycopié de J.-F. Delmas intitulé “ Cours de statis-tique et analyse des données” ; ENPC

1

Page 2: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

2 DALALYAN, ARNAK

Foret 1 Foret 2 Foret 3n1 = 13 arbres n2 = 14 n3 = 10

23.4 22.5 18.924.4 22.9 21.124.6 23.7 21.224.9 24.0 22.125.0 24.4 22.526.2 24.5 23.526.3 25.3 24.526.8 26.0 24.626.8 26.2 26.226.9 26.4 26.727.0 26.727.6 26.927.7 27.4

28.5Tab. 1

Hauteurs d’arbres dans 3 forêts

pelée homoscédasticité. Avec ces hypothèses on peut alors écrire :

Yi,j = µi + εi,j pour la j-ième mesure de la forêt i,

j = 1, . . . , ni, i = 1, 2, 3,

où εi,j ∼ N (0, σ2). En posant n = n1 + n2 + n3, les équations ci-dessuss’écrivent avec une notation matricielle :

Y = Xϑ + ε,

où ε ∼ Nn(0,Σ) est un vecteur aléatoire gaussien de matrice de covariancediagonale, et

Y = (Y1,1, . . . , Y1,n1, Y2,1, . . . , Y2,n2

, Y3,1, . . . , Y3,n3)⊤ ∈ R

n,

X =

1 0 0...

......

1 0 00 1 0...

......

0 1 00 0 1...

......

0 0 1

∈ Rn ⊗ R

3

ϑ = (µ1, µ2, µ3)⊤ ∈ R

3.

Page 3: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

MODÈLES LINÉAIRES GAUSSIENS 3

Années 1956 1957 1958 1959 1960 1961 1962 1963 1964 1965Jours 154 161 193 131 198 152 159 159 146 196Hauteur 545 536 783 453 739 541 528 559 521 880Années 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975Jours 192 161 176 173 199 141 170 156 198 164Hauteur 834 592 634 618 631 508 740 576 668 658Années 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985Jours 135 179 171 172 170 197 173 177 177 163Hauteur 417 717 743 729 690 746 700 623 745 501Années 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995Jours 176 180 167 140 149 140 154 155 192 162Hauteur 611 707 734 573 501 472 645 663 699 670

Tab. 2

Jour et quantité de pluie par années

Ce problème est un problème d’analyse de la variance à un facteur. Il seraétudié plus tard. Pour répondre à la question “existe-t-il un effet forêt”, onconstruira un test statistique dont l’hypothèse nulle est

H0 : µ1 = µ2 = µ3.

Exemple 2. Le tableau suivant donne le nombre de jours de pluie et lahauteur de pluie en mm, observés pendant toute l’année à Paris de 1956 à1995.

Une représentation sur un graphique (cf. Fig. 1) des données avec en abscissele nombre de jours de pluie et en ordonnée la hauteur de pluie permet deconstater que l’ensemble des points forme un nuage allongé et que la quantitéde pluie augmente lorsque le nombre de jours de pluie augmente. Le facteurhauteur de pluie est alors un facteur à expliquer par le facteur explicatifcontrôlé nombre de jours de pluie.La question que l’on se pose est de savoir si ces deux quantités sont liéespar une relation affine, de calculer les paramètres de cette relation et d’avoirune indication sur le caractère prédictif de ce modèle (autrement dit, peut-on déduire de façon satisfaisante la hauteur de pluie à partir du nombre dejours de pluie ?).

Le modèle statistique que l’on propose est le suivant :

Yi = β + αri + εi

où– Y = (Yi)i=1,...,n désigne la hauteur de pluie,– (ri)i=1,...,n désigne le nombre de jours de pluie,

Page 4: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

4 DALALYAN, ARNAK

120 130 140 150 160 170 180 190 200 210

400

450

500

550

600

650

700

750

800

850

900

56

57

58

59

60

61

62

6364

65

66

67

68

69

70

71

72

73

74

75

76

7778

79

80

81

82

83

84

8586

87

88

89

90

91 92

93

9495

Fig. 1. Représentation des données

– la droite d’équationy = αr + β

est appelée droite de régression ; α et β sont à estimer à partir des obser-vations,

– ε = (εi)i=1,...,n représente les écarts aléatoires entre les observations et ladroite. On supposera que c’est une suite de variables aléatoires indépen-dantes de loi N (0, σ2).

Le modèle peut alors s’écrire :

Y = Xϑ + ε

en notant :

X =

(

1 . . . 1r1 . . . rn

)⊤

∈ Rn ⊗ R

2, et ϑ = (β, α)⊤.

C’est un modèle de régression linéaire simple qui sera étudié au paragraphe ??.

2. Modèle gaussien. Les deux exemples de la section précédente concernentdes modèles gaussiens avec des variables explicatives (le numéro de la fo-rêt dans le premier exemple et le nombre de jours de pluie dans le secondexemple). Cependant, il y a des situations où nous nous intéressons à l’ana-lyse d’une variable quantitative sans vouloir l’expliquer ou prédire par uneautre variable. Donnons un exemple de telle situation.

Page 5: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

MODÈLES LINÉAIRES GAUSSIENS 5

2.1. Exemple. On a enregistré le taux d’alcool dans le sang (en dg/l) de nsujets : voici le tableau des observations, avec n = 30 (extrait de l’ouvrage deD. Schwartz, Méthodes statistiques à l’usage des médecins et des biologistes,Flammarion).

27 26 26 29 10 28 26 23 14 3716 18 26 27 24 19 11 19 16 1827 10 37 24 18 26 23 26 19 37

On notera (y1, . . . , y30) cette suite de résultats observée. Les valeurs s’éche-lonnant entre 10 et 37, la précision étant l’unité, il serait maladroit de mo-déliser ceci comme les réalisations de v.a. discrètes : le nombre de valeursdistinctes envisageables devrait être grand, de l’ordre de la quarantaine, carrien n’interdit de penser qu’auraient pu être observées des valeurs en de-hors de l’intervalle ici présent. Il est plus raisonnable de considérer qu’il ya, sous-jacent à ces observations, un phénomène à valeurs réelles, dont lesobservations recueillies sont une discrétisation, l’arrondi se faisant à la pré-cision du décigramme par litre. Les modèles les plus simples que l’on puisseenvisager ici sont des modèles d’échantillonnage : on admet que l’on a ob-servé les réalisations de n v.a. Yi indépendantes et identiquement distribuées.Pour voir si un tel modèle est approprié, il faut d’abord se demander com-ment a été constitué cet échantillon. Le problème essentiel est, comme dansle premier paragraphe, celui de la source de variabilité (cause de l’aléatoire).Celle-ci a en fait ici plusieurs origines simultanées : variation d’individu à in-dividu et, pour chaque individu, imprécision de l’appareil de mesure et effetde l’erreur d’arrondi. On peut espérer que la première cause est dominante,mais alors il reste à s’interroger sur les conditions de choix des individus surlesquels a été effectuée la prise de sang. Voici quelques situations possibles :

– Expérience scientifique contrôlée, par exemple faisant intervenir 30 sujetsen bonne santé, ayant bu tous la même quantité d’alcool, dans des condi-tions d’alimentation identiques, et testés dans un temps déterminé aprèsl’absorption : on jauge alors la variabilité des réactions individuelles desorganismes.

– Contrôle systématique après un bon repas ou au sortir d’un boîte de nuit :on jauge alors la variabilité de consommation de gens placés dans un mêmecontexte social, mêlé à l’effet individuel de cette consommation sur le sang.

– Rapport de police : on jauge alors la variabilité du taux parmi des analysessur des conducteurs que la police a jugé utile de citer, par exemple aprèsun premier filtrage à l’alcootest.

Revenant à l’ouvrage d’où ont été extraites ces données, nous lisons : 30sujets en état d’ébriété. Nous savons donc que nous nous limitons à une ca-

Page 6: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

6 DALALYAN, ARNAK

tégorie dont il faut donner la définition exacte (non fournie dans le texte) :celle-ci est-elle externe à l’enregistrement (par exemple détermination sur lecomportement ou sur l’alcootest) ou interne à l’enregistrement (on auraitprocédé à des observations sur une plus grande masse de sujets et retenuuniquement ceux pour lesquels le taux était supérieur ou égal à 10 dg/l,procédure dite de censure des données) ? Il est assez évident que, quelles quesoient les conditions de recueil, elles ont dû assurer l’indépendance des n v.a.Yi dont les observations résultent. Le problème de l’identité de leurs lois etdu choix de la famille à laquelle serait supposée appartenir cette loi communeest plus délicat. En tout état de cause, si l’on pose (comme nous allons lefaire) un modèle i.i.d., il faudra retenir que la loi commune traduit une va-riabilité intrinsèque et de mesure dans l’ensemble des individus satisfaisantaux critères retenus pour la population que les sujets testés sont censés re-présenter, et celle-là seule (ici une certaine notion de l’état d’ébriété). Nousl’avons dit, les praticiens utilisent souvent dans un tel contexte une modé-lisation avec pour loi commune une loi normale, de moyenne µ et varianceσ2 (non nulle) inconnues, N (µ, σ2). Le paramètre est donc bi-dimensionnelϑ = (µ, σ2) ∈ R×R

∗+. La probabilité N (µ, σ2) a pour support R tout entier,

alors qu’ici (comme presque toujours dans la pratique) les données sont fon-damentalement bornées ; cet usage suppose donc que, pour la zone de valeursde µ et σ2 envisageables, la probabilité du complémentaire de l’intervalle desvaleurs effectivement atteignables par les taux d’alcool soit négligeable. Cettecondition de validité serait incontestablement mise en défaut dans le cas devaleurs censurées évoqué ci-dessus.

2.2. Estimation des paramètres. Dans toute la suite de cette section,on suppose qu’on a observé une réalisation d’un vecteur aléatoireY = (Y1, . . . , Yn)⊤ dont les coordonnées sont des variables iid de loicommune N (µ, σ2).

Comme µ et σ2 sont respectivement la moyenne et la variance théorique desv.a. Yi, il est naturelle de les estimer par la moyenne et la variance empiriquede l’échantillon observé. C’est-à-dire, on estime µ par

Y =1

n

n∑

i=1

Yi

et σ2 par

S2n =

1

n

n∑

i=1

(Yi − Y )2 =1

n

n∑

i=1

Y 2i − Y 2.

Dans la littérature statistique, on utilise souvent l’estimateur sans biais de

Page 7: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

MODÈLES LINÉAIRES GAUSSIENS 7

la variance au lieu de la variance empirique. L’estimateur sans biais de lavariance est défini par

σ2n =

1

n − 1

n∑

i=1

(Yi − Y )2.

On l’appelle sans biais, car il vérifie

E[σ2n] = σ2.

En effet, si l’on pose Zi = (Yi−µ)/σ, on a Z = (Y −µ)/σ et, par conséquent,

E[σ2n] =

σ2

n − 1

n∑

i=1

(Zi − Z)2 =σ2

n − 1

n∑

i=1

E[Z2i ] − σ2

n − 1E[Z2]

=σ2

n − 1

n∑

i=1

1 − σ2

(n − 1)n2

n∑

i=1

n∑

j=1

E[ZiZj ]

=nσ2

n − 1− σ2

(n − 1)n2

n∑

i=1

E[Z2i ] − 2σ2

(n − 1)n2

n−1∑

i=1

n∑

j=i+1

E[ZiZj]

=nσ2

n − 1− nσ2

(n − 1)n2= σ2,

où on a utilisé le fait que E[Z2i ] = 1 et E[ZiZj ] = E[Zi]E[Zj ] = 0 si i 6= j. On

remarque que dans tous ces calculs nous n’avons pas utilisé le fait que les Yi

étaient de loi gaussienne, mais seulement le fait qu’ils sont indépendants demoyenne µ et d’espérance σ2. Nous avons donc démontré le résultat suivant.

Lemme 2.1. Si les variables aléatoires Y1, . . . , Yn sont indépendantes demoyenne µ et de variance σ2, c’est-à-dire E[Yi] = µ et E[(Yi − µ)2] = σ2

pour tout i, alorsE[Y ] = µ, E[σ2] = σ2.

On dit alors que Y et σ2 sont des estimateurs sans biais de µ et de σ2.

Notre objectif maintenant est d’utiliser ces estimateurs pour déterminer desintervalles de confiance et des tests pour les paramètres µ et σ2. Afin d’at-teindre cet objectif, on utilisera le résultat suivant, dans lequel, contrairementau lemme précédent, la gaussianité des Yi joue un rôle crucial.

2.3. Intervalles de confiance. Pour déterminer un intervalle de confiance Ide niveau 1 − α pour µ, on utilise le résultat suivant.

Page 8: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

8 DALALYAN, ARNAK

Lemme 2.2. Si Y1, . . . , Yn sont i.i.d. de loi N (µ, σ2), alors

√n(Y − µ)

σ∼ tn−1,

où tn−1 désigne la loi de Student à n − 1 degrés de liberté.

Démonstration. D’une part, d’après le Théorème 5.1 de la première partiede ce cours, on a Y ⊥⊥ σ2 et

ξ1 =

√n(Y − µ)

σ∼ N (0, 1).

D’autre part, d’après le théorème 5.3 (iii), on a

η1 =(n − 1)σ2

σ2∼ χ2

n−1.

Comme Y ⊥⊥ σ2, on en déduit que ξ1 ⊥⊥ η1 et, en vertu du Théorème 5.4(iii), on obtient

ξ1√

η1/(n − 1)=

√n(Y − µ)

σ∼ tn−1,

ce qu’il fallait démontrer.

Ce résultat implique que

P

(√n(Y − µ)

σ∈ [−q1−α/2(tn−1), q1−α/2(tn−1)]

)

= 1 − α,

où q1−α/2(tn−1) est le quantile d’ordre 1 − α/2 de la loi de Student à n − 1degrés de liberté. Par conséquent, au vu des équivalences suivantes

√n(Y − µ)

σ∈ [−a, a] ⇐⇒− a ≤

√n(Y − µ)

σ≤ a

⇐⇒− aσ√n≤ Y − µ ≤ aσ√

n

⇐⇒Y − aσ√n≤ µ ≤ Y +

aσ√n

,

on a

P

(

µ ∈[

Y − q1−α/2(tn−1)σ√n

, Y +q1−α/2(tn−1)σ√

n

])

= 1 − α.

Page 9: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

MODÈLES LINÉAIRES GAUSSIENS 9

Nous venons donc de démontrer que si Y1, . . . , Yn sont i.i.d. de loi N (µ, σ2),alors

I =[

Y − q1−α/2(tn−1)σ√n

, Y +q1−α/2(tn−1)σ√

n

]

est un intervalle de confiance de niveau 1 − α pour µ.

Pour déterminer un intervalle de confiance pour la variance σ2, on utilise larelation

(n − 1)σ2

σ2∼ χ2

n−1 (Thm. 5.3 (iii)).

Cette relation implique que

P

((n − 1)σ2

σ2∈ [qα/2(χ

2n−1), q1−α/2(χ

2n−1)]

)

= 1 − α,

où qs(χ2n−1) désigne le quantile d’ordre s de la loi χ2

n−1. En faisant destransformations élémentaires, on en déduit que

P

(

σ2 ∈[

(n − 1)σ2

q1−α/2(χ2n−1)

,(n − 1)σ2

qα/2(χ2n−1)

])

= 1 − α.

On a donc prouver que si Y1, . . . , Yn sont i.i.d. de loi N (µ, σ2), alors

Iσ =

[(n − 1)σ2

q1−α/2(χ2n−1)

,(n − 1)σ2

qα/2(χ2n−1)

]

est un intervalle de confiance de niveau 1 − α pour σ2.

Remarque 2.1. On remarque que pour Iσ, on a utilisé les quantiles d’ordreα/2 et 1 − α/2, alors que pour µ on avait utilisé −q1−α/2 et q1−α/2. Cettedifférence vient du fait que la loi du khi-deux n’est pas symétrique, alorsque la loi de Student l’est. Rappelons que pour une loi symétrique, on aqα/2 = −q1−α/2.

2.4. Tests d’hypothèses. On cherche maintenant à tester des hypothèses quiportent sur la moyenne ou sur la variance d’un échantillon gaussien. Com-mençons par donner quelques définitions générales.

Supposons qu’on a observé un échantillon Y1, . . . , Yn dont la loi dépend d’unparamètre inconnu ϑ. On veut tester l’hypothèse ϑ ∈ Θ0 contre ϑ ∈ Θ1,où Θ0 et Θ1 sont deux ensembles disjoints connus. Par exemple, si ϑ est unparamètre réel, on peut avoir Θ0 =]−∞, 0] et Θ1 =]0,+∞[ ou Θ0 = {0} etΘ1 = R \ {0},...

Page 10: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

10 DALALYAN, ARNAK

Dans ce type de situation, on appelle hypothèse nulle, notée H0, l’hypothèseϑ ∈ Θ0 et hypothèse alternative, notée H1, l’hypothèse ϑ ∈ Θ1. L’objectifd’un test d’hypothèse est, au vu de l’échantillon Y1, . . . , Yn, décider laquelledes hypothèses H0 et H1 est plus plausible.

On appelle donc un test toute application mesurable ϕ : Rn → {0, 1}. Étant

donné un test ϕ, on acceptera H0 si ϕ(Y1, . . . , Yn) = 0. Sinon, on accepteraH1. Autrement dit, on accepte l’hypothèse Hϕ(Y1,...,Yn).

Comme ϕ ne prend que deux valeurs, 0 et 1, on peut le réécrire comme unefonction indicatrice : ϕ = 1lR, où R = {(y1, . . . , yn) : ϕ(y1, . . . , yn) = 1}. Il ya une bijection entre les tests ϕ et les sous-ensembles mesurables R de R

n.Par conséquent, une façon équivalente de définir un test consiste à spécifierl’ensemble R où l’hypothèse H0 est rejetée. On appelle R région critique ourégion de rejet.

En général, il y a une infinité de tests pour des hypothèses H0 et H1 données.Ce qui nous intéresse, c’est les tests dont on peut contrôler la probabilitéd’erreur. Lorsqu’on effectue un test, on peut commettre deux type d’erreurs :– rejeter H0 alors qu’elle est vraie (erreur de 1ère espèce),– accepter H0 alors qu’elle est fausse (erreur de 2ème espèce).On appelle risque de 1ère espèce d’un test ϕ, noté αϕ, la probabilité de com-mettre l’erreur de première espèce. De façon symétrique, on appelle risquede 2ème espèce d’un test ϕ, noté βϕ, la probabilité de commettre l’erreur dedeuxième espèce.

Il est en général très difficile, voir impossible, de définir des tests dont onpeut contrôler les deux types de risques. C’est pourquoi, dans la majorité descas, les statisticiens procèdent de la façon suivante. On fixe un α ∈ [0, 1] quireprésente le niveau d’erreur que l’on considère acceptable (souvent α = 0.05est utilisé) et on définit un test ϕ dont le risque de première espèce αϕ estinférieur ou égal à α. Ensuite, parmi tous les tests tels que αϕ ≤ α, on chercheceux qui minimisent le risque de deuxième espèce βϕ. De ce point de vue,les tests qui ont un risque αϕ égal à α, sont en général préférables à ceuxpour lesquels αϕ < α. C’est pourquoi, dans toute la suite, on ne s’intéresseraqu’aux tests vérifiant αϕ = α.

La comparaison des tests est un problème délicat qui ne fait pas partie duprogramme de ce cours. Lorsqu’il s’agira des tests, on se contentera de trouverun test dont le risque de première espèce est = α, sans se préoccuper durisque de 2ème espèce.

Page 11: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

MODÈLES LINÉAIRES GAUSSIENS 11

2.4.1. Test bilatéral sur la moyenne. Posons H0 : µ = µ0 et H1 : µ 6= µ0,où µ0 est une valeur donnée. On cherche à définir un événement aléatoire R,appelé région critique ou région de rejet, qui ne dépend pas de paramètreinconnu et la probabilité que R se réalise alors que H0 est vraie est égale àun niveau spécifié α. En pratique, on choisit souvent α = 0.05.

Une façon simple de déduire une région critique pour un test bilatéral àpartir d’un intervalle de confiance I sur µ consiste à poser

R = {(Y1, . . . , Yn) : µ0 6∈ I(Y1, . . . , Yn)}.

Cela équivaut à accepter H0 si

|Y − µ0| ≤q1−α/2(tn−1)σ√

n

et de rejeter H0 dans le cas contraire.

Vérifions que le test défini par la région critique R est de niveau α. Sousl’hypothèse H0, on a Yi ∼ N (µ0, σ

2) et, par conséquent,

P(µ0 ∈ I) = 1 − α.

Cela implique que sous H0,

P(µ0 6∈ I) = P(rejeter H0) = 1 − (1 − α) = α.

Ce qu’il fallait démontrer. Cela nous conduit vers le test

ϕ(Y1, . . . , Yn) =

0, si |Y − µ0| ≤ q1−α/2(tn−1)σ√n

,

1, sinon.

2.4.2. Test unilatéral sur la moyenne. On cherche à tester l’hypothèse nulle

H0 : µ ≤ µ0

contre l’alternativeH1 : µ > µ0,

où µ0 est une valeur donnée. Comme Y est un estimateur de µ, il est naturelde rejeter H0 si la différence Y − µ0 est suffisamment grande, c’est-à-dire si

ϕ(Y1, . . . , Yn) = 1l(Y − µ0 > c),

Page 12: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

12 DALALYAN, ARNAK

où c est un nombre réel à déterminer de telle sorte que ϕ soit de niveau α.On réécrit ce test sous la forme

ϕ(Y1, . . . , Yn) = 1l(Y − µ0 > c1σ/√

n).

Le risque de 1ère espèce de ϕ est

αϕ = supµ≤µ0

Pµ(Y − µ0 > c1σ/√

n) = supµ≤µ0

P(ξ > c1 + (µ0 − µ)√

n/σ),

où ξ est une variable aléatoire de loi tn−1. Posons Aµ = {ξ > c1 + (µ0 −µ)√

n/σ}. Pour tout µ ≤ µ0, on a Aµ ⊂ Aµ0, donc P(Aµ) ≤ P(Aµ0

). On endéduit que

αϕ = sup−µ ≤ µ0P(Aµ) = P(Aµ0) = P(ξ > c1) = 1 − Ft(n−1)(c1)

où Ft(n−1) désigne la fonction de répartition de la loi de Student tn−1. Il enrésulte que αϕ = α si et seulement si Ft(n−1)(c1) = 1−α, ce qui entraîne que

c1 = q1−α(tn−1).

On a donc vérifié que le test

ϕ(Y1, . . . , Yn) = 1l(Y − µ0 > q1−α(tn−1)σ/√

n)

est un test de niveau α de l’hypothèse µ ≤ µ0 contre l’alternativeµ > µ0.

2.4.3. Test bilatéral sur la variance. Supposons maintenant qu’on observeY1, . . . , Yn i.i.d. de loi N (µ, σ2) et qu’on veut tester l’hypothèse

H0 : σ = σ0

contre l’alternative H1 : σ 6= σ0, où σ0 > 0 est une valeur donnée.

On procède de la même façon que lors du test bilatéral sur µ. Comme on avu que Iσ est un intervalle de confiance de niveau 1 − α pour σ2, on définitle test

ϕ(Y1, . . . , Yn) = 1l(σ20 6∈ Iσ(Y1, . . . , Yn)),

ce qui équivaut à

ϕ(Y1, . . . , Yn) = 1l

(

σ20 6∈

[(n − 1)σ2

q1−α/2(χ2n−1)

,(n − 1)σ2

qα/2(χ2n−1)

])

,

où, rappelons-le, σ2 = 1n−1

∑ni=1(Yi − Y )2.

Page 13: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

MODÈLES LINÉAIRES GAUSSIENS 13

3. Régression linéaire multiple. Dans cette section, nous supposeronsque l’on dispose d’un échantillon (x1, Y1), . . . , (xn, Yn) tel que

Yi = g(xi) + ξi, i = 1, . . . , n,

où xi ∈ Rp et les ξi sont des variables aléatoires indépendantes centrées.

Nous considérerons le problème statistique de l’estimation de la fonction derégression g à partir de cet échantillon. Plus particulièrement, nous nousintéresserons seulement à la situation quand la régression est affine :

g(x) = α + β⊤x,

où α ∈ R et β ∈ Rp sont les paramètres du modèle. On introduit le paramètre

vectoriel : ϑ = (ϑ0, . . . , ϑp)⊤ = (α, β⊤)⊤. Les observations Yi sont alors de

la forme

Yi = (1,x⊤i )ϑ + ξi, i = 1, . . . , n, (3.1)

et l’estimation de la fonction g se réduit à l’estimation du paramètre in-connu ϑ. Le modèle statistique défini par (3.1) s’appelle modèle de ré-gression linéaire multiple ou multidimensionnelle. L’importance dece modèle pour les applications statistiques s’explique d’une part par sa re-lative simplicité et d’autre part par le fait qu’il permet d’inclure comme descas particuliers un certain nombre de modèles qui semblent, à la premièrevue, non-linéaires.

Exemple 3.1. Régression polynomiale. Soit Z une variable aléatoire réelle.Puisque toute fonction suffisamment régulière peut être décomposée selon laformule de Taylor, il est naturel de chercher la dépendance entre Y et Z sousune forme polynomiale :

g(Z) = ϑ0 + ϑ1Z + · · · + ϑpZp,

où p ≥ 1 est un entier et ϑ1, . . . , ϑp sont des coefficients inconnus. Si l’ondéfinit les vecteurs x = (Z, . . . , Zp)T et ϑ = (ϑ0, . . . , ϑp)

T , on obtient

g(Z) = (1,x⊤)ϑ.

On voit donc que la régression polynomiale est un cas particulier de la ré-gression linéaire multiple.

Exemple 3.2. Régression non-linéaire transformée. Il existe des modèlesnon-linéaires de régression qui peuvent être réduits aux modèles linéaires

Page 14: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

14 DALALYAN, ARNAK

par une transformation. Par exemple, supposons que la fonction de régressiong(·) est de la forme

g(x) = Aev⊤x avec x, v ∈ Rk,

où v est un vecteur des paramètres inconnus et A > 0 est une constanteinconnue. Des fonctions de régression de ce type sont utilisées, par exemple,dans les applications en économie, pour modéliser la productivité des entre-prises. En prenant les logarithmes, on obtient

ln g(x) = lnA + v⊤x.

Afin de se ramener à une régression linéaire, on pose ϑ = (ln A, vT )T , x′ =

(1,xT )T et on obtient

Y ′i = ln Yi = (1,x′⊤

i )ϑ + ξ′i, i = 1, . . . , n. (3.2)

C’est un modèle de régression linéaire par rapport à l’échantillon transformé

(x′1, Y

′1), . . . , (x

′n, Y ′

n).

3.1. Méthode des moindres carrés. Une méthode usuelle et très répanduepour estimer le paramètre ϑ ∈ R

p est celle des moindres carrés. Elle consisteà chercher une valeur ϑ = ϑ qui minimise la somme des carrés des déviations :

n∑

i=1

(Yi − (1,x⊤i )ϑ)2 = min

ϑ∈Rp

n∑

i=1

(Yi − (1,x⊤i )ϑ)2.

Il est facile de voir qu’il existe toujours une solution ϑ de ce problème deminimisation que l’on appelle estimateur des moindres carrés de ϑ. Onécrit alors

ϑ = argminϑ∈Rp

n∑

i=1

(Yi − (1,xTi )ϑ)2.

L’estimateur des moindres carrés n’est pas toujours unique. La condition del’unicité est donnée dans la proposition suivante.

Proposition 3.1. Supposons que la matrice

B =n∑

i=1

(

1xi

)(

1xi

)⊤

∈ Rp+1 ⊗ R

p+1

Page 15: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

MODÈLES LINÉAIRES GAUSSIENS 15

soit strictement positive. Alors, l’estimateur des moindres carrés est uniqueet il s’écrit sous la forme

ϑ = B−1n∑

i=1

(

1xi

)

Yi.

Démonstration. La condition nécessaire pour que ϑ soit un point de mi-nimum pour h(ϑ) =

∑ni=1(Yi − (1,x⊤

i )ϑ)2 est (∂h/∂ϑi)(ϑ) = 0 pour touti = 1, . . . , p. Cette condition équivaut à

2n∑

i=1

(

1xi

)

(Yi − (1,x⊤i )ϑ) = 0

ou encore

Bϑ =n∑

i=1

(

1xi

)

Yi. (3.3)

C’est un système de p équations linéaires qui admet une solution unique carla matrice B est inversible. Cette solution est

ϑ = B−1n∑

i=1

(

1xi

)

Yi.

Comme la fonction h(ϑ) est convexe et positive, ce vecteur ϑ fournit le mi-nimum global de h.

Il est convenable d’écrire le modèle de régression linéaire sous la forme ma-tricielle :

y = Xϑ + ξ,

où y = (Y1, . . . , Yn)⊤, ϑ = (ϑ0, . . . , ϑp)⊤, ξ = (ξ1, . . . , ξp)

⊤ et

X =

(

1 . . . 1x1 . . . xn

)⊤

Avec ces notations, on a B = X⊤X, et on peut écrire l’estimateur des

moindres carrés sous la forme

ϑ = (X⊤X)−1

X⊤y.

Le système des équations linéaires (3.3) s’appelle système des équationsnormales pour la méthode des moindres carrés. On peut l’écrire sous laforme

Bϑ = X⊤y.

Page 16: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

16 DALALYAN, ARNAK

Proposition 3.2. La matrice

B =n∑

i=1

(

1xi

)(

1xi

)⊤

= X⊤X

est toujours positive. Afin qu’elle soit strictement positive, il est nécessaireet suffisant que le rang de la matrice X soit égal à p + 1.

Démonstration. Notons d’abord que B est positive, car tout v ∈ Rp+1

vérifie l’inégalité

v⊤Bv = v⊤X⊤Xv = w⊤w =

p∑

i=1

w2i ≥ 0,

où w = Xv = (w1, . . . , wp). Il est évident que l’inégalité précédente devientégalité si et seulement si w = Xv = 0. Or, Xv = 0 pour un vecteur v différentde 0 implique que le rang de X est strictement inférieur à p + 1. On a doncmontré que si B n’est pas strictement positive, alors Rang(X) < p + 1.

La preuve de la réciproque est similaire. Si Rang(X) < p+1, alors il existe unvecteur v ∈ R

p+1 \{0} tel que Xv = 0. Il en résulte que v⊤Bv = v⊤X⊤Xv =

0. Par conséquent, B n’est pas strictement positive.

Une conséquence immédiate de cette proposition est la suivante : si la tailled’échantillon n est strictement inférieure à la dimension p+1 des régresseurs,la matrice B est dégénérée. En effet, n < p + 1 implique que Rang(X) <p + 1, car le rang d’une matrice M est le nombre maximal des lignes de Mqui forment une famille de vecteurs libre. Une autre formulation de cettepropriété est :

B > 0 =⇒ n ≥ p + 1.

3.2. Interprétation géométrique de la méthode des moindres carrés. Le pro-blème de minimisation de la somme des carrés des déviations peut s’écriresous la forme suivante :

minϑ∈Rp+1

‖y −Xϑ‖2 = minv∈D

‖y − v‖2 (3.4)

où D désigne le sous-espace linéaire de Rn défini par

D ={v ∈ R

n : v = Xϑ, ϑ ∈ Rp+1}.

Page 17: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

MODÈLES LINÉAIRES GAUSSIENS 17

Par conséquent, D est le sous-espace linéaire de Rn engendré par les p + 1

colonnes de la matrice X. Si X est une matrice de rang p +1, ce qui est vrailorsque B > 0, alors D est un sous-espace linéaire de dimension p + 1 :

Rang(X) = p + 1 ⇐⇒ B > 0 ⇐⇒ dim(D) = p + 1.

Si B > 0, la solution du problème (3.4) est v = Xϑ = X(X⊤X)−1

X⊤y :=

Ay.

Définition 3.1. Soit B > 0. La matrice

A = X(X⊤X)−1

X⊤ ∈ R

n×n

est dite matrice chapeau (“hat" matrice).

Proposition 3.3. Supposons que B > 0. Alors la matrice A est symé-trique, idempotente, Rang(A) = p + 1 et A est le projecteur dans R

n sur lesous-espace D.

Démonstration. D’une part, il vient

A⊤ = X[(X⊤X)−1]⊤X

⊤ = X[(X⊤X)⊤]−1

X⊤ = X(X⊤

X)−1X

⊤ = A

et

A2 = X(X⊤X)−1

X⊤X(X⊤

X)−1X

⊤ = X(X⊤X)−1

X⊤ = A.

Donc A est symétrique et idempotente, ce qui signifie que A est un projecteur.D’autre part, pour tout y ∈ R

n, on a Ay = Xϑ = v ∈ D. Donc A projettesur un sous-ensemble de D. Ce sous-ensemble coïncide avec D, car pour toutvecteur v ∈ D il existe ϑ ∈ R

p tel que v = Xϑ et, par conséquent,

Av = X(X⊤X)−1

X⊤v = X(X⊤

X)−1X

⊤Xϑ = Xϑ = v.

Cela signifie que A est le projecteur sur D. Comme D est un sous-espace deR

n de dimension p + 1, le rang de A est égal à p + 1.

Page 18: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

18 DALALYAN, ARNAK

3.3. Propriétés statistiques de la méthode des moindres carrés. Supposonsque l’hypothèse suivante soit vérifiée.

Hypothèse (R).(R1) Les vecteurs x1, . . . ,xn appartenant à R

p sont déterministes et n >p + 1.

(R2) La matrice B est strictement positive.

(R3) Le vecteur aléatoire ξ est de moyenne E(ξ) = 0 et de matrice de co-variance V (ξ) = σ2In, où σ2 > 0 et In est la matrice unité de dimensionn × n.

Théorème 3.1. Sous l’Hypothèse (R), l’estimateur des moindres carrés estsans biais :

E(ϑ) = ϑ (3.5)

et sa matrice de covariance V (ϑ) = E[(ϑ − ϑ)(ϑ − ϑ)⊤

]vaut

V (ϑ) = σ2B−1.

Démonstration. Il vient

ϑ = B−1X

⊤y = B−1X

⊤(Xϑ + ξ) = ϑ + B−1X

⊤ξ, (3.6)

d’où découle (3.5). En utilisant (3.6) on obtient aussi que

V (ϑ) = E[(ϑ − ϑ)(ϑ − ϑ)⊤

]= E[B−1

X⊤ξξ⊤XB−1] = B−1

X⊤E[ξξ⊤]XB−1.

Comme V (ξ) = E[ξξ⊤] = σ2In, on obtient

B−1X

⊤E[ξξ⊤]XB−1 = σ2B−1

X⊤XB−1 = σ2B−1.

Théorème 3.2. Sous l’Hypothèse (R), la statistique

σ2 :=‖y − Xϑ‖2

n − p − 1=

1

n − p − 1

n∑

i=1

(Yi − α − x⊤i β)2

est un estimateur sans biais de la variance σ2 :

E(σ2) = σ2.

Page 19: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

MODÈLES LINÉAIRES GAUSSIENS 19

Démonstration. Notons d’abord que les observations y proviennent dumodèle y = Xϑ + ξ, ce qui implique que y − Xϑ = X(ϑ − ϑ) + ξ. Vu (3.6),il en résulte que

y − Xϑ = −XB−1X

⊤ξ + ξ = (In − XB−1X

⊤)ξ = (In − A)ξ. (3.7)

Par conséquent,

E[‖y−Xϑ‖2] = E[ξ⊤(In−A)⊤(In−A)ξ] = E[ξ⊤(In−A)2ξ] = E[ξ⊤(In−A)ξ],

où on a utilisé le fait que A est une matrice idempotente. Désignons par aij

les éléments de A. On a alors

E[ξ⊤(In − A)ξ] =n∑

i,j=1

(δij − aij)E[ξiξj] = σ2n∑

i,j=1

(δij − aij) δij

= σ2n∑

i=1

(1 − aii) = σ2(n − tr(A)),

où δij est le symbole de Kronecker. Comme A est un projecteur, ses valeurspropres valent 0 ou 1. D’après la Proposition 3.3, Rang(A) = p+1, donc il ya exactement p+1 valeurs propres égales à 1. On en déduit que tr(A) = p+1,d’où le résultat.

3.4. Régression linéaire normale. Supposons maintenant que

Hypothèse (NR). L’Hypothèse (R) est vérifiée et ξ est un vecteur gaussien.

Sous l’Hypothèse (NR), ϑ est l’estimateur du maximum de vraisemblancedu paramètre ϑ.

Le théorème suivant permet de déduire la loi jointe de (ϑ, σ2) sous l’Hypo-thèse (NR).

Théorème 3.3. Si l’Hypothèse (NR) est vérifiée, alors

(i) ϑ ∼ Np+1(ϑ, σ2B−1),

(ii) ϑ ⊥⊥ y − Xϑ et y − Xϑ ⊥⊥ X(ϑ − ϑ),

(iii) σ−2‖y − Xϑ‖2 ∼ χ2n−p−1 et σ−2‖X(ϑ − ϑ)‖2 ∼ χ2

p+1.

Démonstration. D’après (3.6) et (3.7),

ϑ − ϑ = B−1X

⊤ξ, y − Xϑ = (In − A) ξ. (3.8)

La première égalité, compte tenu du fait que B et X sont déterministes,implique que ϑ est un vecteur gaussien. D’après le Théorème 3.1, la moyenne

Page 20: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

20 DALALYAN, ARNAK

de ce vecteur est ϑ et sa matrice de covariance vaut σ2B−1, d’où le résultat(i).

Vu (3.8), le vecteur aléatoire(y − Xϑ, ϑ) ∈ R

n+p+1 est gaussien commetransformation affine du vecteur gaussien ξ. De plus, la matrice de covarianceentre ϑ et y − Xϑ est

C(ϑ, y − Xϑ) = E[(ϑ − ϑ)(y − Xϑ)⊤] = E[B−1X

⊤ξξ⊤(In − A)]

= σ2(B−1X

⊤ − B−1X

⊤A) = 0.

En utilisant la propriété (ii) du théorème 5.1 de la première partie de ce cours,on obtient la première partie du résultat (ii). Sa deuxième partie en découlegrâce à la préservation de l’indépendance par transformations mesurables.

Pour prouver le résultat (iii) du théorème, introduisons le vecteur aléatoireξ′ = ξ/σ et appliquons le Théorème de Cochran (cf. Paragraphe 4 ci-après).D’après (3.8), y − Xϑ = σ(In − A)ξ′ et X(ϑ − ϑ) = σXB−1

X⊤ξ′ = σAξ′.

Par ailleurs, la Proposition 3.3 implique que les matrices A et In − A sontsymétriques et idempotentes, (In −A)A = 0, Rang(A) = p+1 et Rang(In −A) = n − p − 1. D’après le Théorème de Cochran, ceci entraîne le résultat(iii).

3.5. Application au problème de prévision. Considérons d’abord un exemplede problème de prévision qui motive ce qui va suivre.

Exemple 3.3. Prévision dans le modèle de régression sur le temps. Sup-posons que l’on dispose des données statistiques (Yi, xi), i = 1, . . . , n, oùxi = i∆ et ∆ > 0 est un nombre fixé, telles que Yi = ϑxi + ξi, i = 1, . . . , n,avec ϑ ∈ R. On peut penser à Yi comme à la valeur à l’instant i∆ d’unevariable Y évoluant dans le temps de manière aléatoire (exemples : la tem-pérature, le niveau de l’eau dans un fleuve, le cours d’une option financière,etc). Le problème de prévision consiste à donner un estimateur Y0 qui ap-proche bien la valeur de la fonction de régression g(x0) = ϑx0 à l’instantdonné x0 tel que x0 > xn = n∆. Une méthode très répandue est de cher-cher une prévision linéaire de la forme Y0 = ϑx0, où ϑ est un estimateurconvenable de ϑ. Le plus souvent on utilise ϑ = ϑ, l’estimateur des moindrescarrés de ϑ.

Considérons maintenant le cas général quand les xi sont multidimensionnels.Soit x0 ∈ R

p un vecteur donné. Le problème est formulé de manière simi-laire : trouver une prévision Y0 de g(x0) = ϑ⊤

x0, étant donné un échantillon

Page 21: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

MODÈLES LINÉAIRES GAUSSIENS 21

(x1, Y1), . . . , (xn, Yn) provenant du modèle de régression linéaire

Yi = (1,x⊤i )ϑ + ξi, i = 1, . . . , n.

Comme ϑ est un estimateur de ϑ, il est raisonnable de définir la prévision deg(x0) par Y0 = (1,x⊤

0 )ϑ, où ϑ est l’estimateur des moindres carrés de ϑ. Lespropriétés de cette prévision sont données dans le théorème suivant, dans

lequel, pour simplifier les notations, on a posé z0 =

(

1x0

)

.

Théorème 3.4.

(i) Si l’Hypothèse (R) est vérifiée,

E(Y0) = z⊤0 ϑ et V(Y0) = σ2

z⊤0 B−1

z0.

(ii) Si l’Hypothèse (NR) est vérifiée,

Y0 ∼ N (z⊤0 ϑ, σ2z⊤0 B−1

z0) et Y0 − z⊤0 ϑ ⊥⊥ y −Xϑ.

Démonstration. Elle est immédiate d’après les Théorèmes 3.1 et 3.3.

La seconde partie de ce théorème nous permet de construire un intervalle deconfiance pour g(x0) = z

⊤0 ϑ. En effet, d’après la partie (ii) du Théorème 3.4,

si l’Hypothèse (NR) est satisfaite,

η :=Y0 − g(x0)√

σ2z⊤0 B−1z0

∼ N (0, 1).

Cette relation implique, en particulier, que

P (g(x0) ∈ [g, g]) = 1 − α,

g = Y0 −√

σ2z⊤0 B−1z0 qN1−α/2,

g = Y0 +√

σ2z⊤0 B−1z0 qN1−α/2.

Donc, dans le cas où la variance σ est connue, l’intervalle [g, g] est un inter-valle de confiance de taille exacte 1 − α pour g(x0).

Lorsque la variance σ2 est inconnue, il est naturel de la remplacer par sonestimateur sans biais σ2 défini dans le Théorème 3.2.

Page 22: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

22 DALALYAN, ARNAK

D’après le Théorème 3.4, les variables aléatoires η et χ := (n−p−1)σ2/σ2 =‖y−Xϑ‖2/σ2 sont indépendantes. Par conséquent, la variable aléatoire t peutêtre représentée sous la forme

η′ :=Y0 − g(x0)√

σ2z⊤0 B−1z0

χ/(n − p − 1),

où η ∼ N (0, 1), χ ∼ χ2n−p−1 et η ⊥⊥ χ. Il en résulte que η′ suit la loi de

Student tn−p−1 avec n− p− 1 degrés de liberté. On en déduit que [g′, g′] estun intervalle de confiance de niveau 1 − α pour g(x0) si

g′ = Y0 −√

σ2z⊤0 B−1z0 q1−α/2(tn−p−1),

g′ = Y0 +√

σ2z⊤0 B−1z0 q1−α/2(tn−p−1).

Soulignons que l’hypothèse de normalité des erreurs ξi est cruciale pour que[g′, g′] soit un intervalle de confiance de taille exacte 1 − α.

3.6. Application aux tests sur le paramètre ϑ. Dans ce paragraphe, on sup-posera que les erreurs ξi du modèle de régression sont normales et que l’Hy-pothèse (NR) est vérifiée. Notre premier objectif est de tester l’hypothèse

H0 : ϑj = a

contre l’hypothèse alternative

H1 : ϑj 6= a,

où a ∈ R est une valeur donnée et ϑj est la jème coordonnée du vecteurϑ. Désignons par ϑj la jème coordonnée de l’estimateur des moindres carrésϑ et par bj le jème élément diagonal de la matrice B−1. L’Hypothèse (R2)implique que bj > 0 pour j = 1, . . . , p.

Corollaire 3.1. Si l’Hypothèse (NR) est vérifiée,

ϑj − ϑj

σ√

bj∼ N (0, 1).

Démonstration. D’après le Théorème 3.3, ϑ−ϑ ∼ N (0, σ2B−1). Soit vj levecteur de R

p+1 dont toutes les coordonnées sont nulles sauf la jème qui vaut1. La v. a. (ϑj − ϑj) est donc égale à (ϑ− ϑ)⊤vj , ce qui entraîne qu’elle suit

Page 23: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

MODÈLES LINÉAIRES GAUSSIENS 23

une loi gaussienne. Afin d’identifier cette loi, il suffit de calculer sa moyenneet sa variance :

E(ϑj − ϑj) = E[(ϑ − ϑ)⊤vj ] = 0,

V(ϑj − ϑj) = E[(

(ϑ − ϑ)⊤vj)2]

= v⊤j E[(ϑ − ϑ)(ϑ − ϑ)⊤]vj

= σ2v⊤j B−1vj = σ2bj .

On a alors ϑj − ϑ ∼ N (0, σ2bj) ou encore (σ2bj)−1/2(ϑj − ϑ) ∼ N (0, 1).

Si le paramètre σ est inconnu, nous ne pouvons pas utiliser la statistique(σ2bj)

−1/2(ϑj − ϑ). Dans ce cas, il faut la modifier en remplaçant σ par sonestimateur σ défini au Paragraphe 3.3.

Corollaire 3.2. Si l’Hypothèse (NR) est vérifiée,

ϑj − ϑj

σ√

bj∼ tn−p−1.

Démonstration. Soit η := (σ2bj)−1/2(ϑj − ϑ) et χ := (n − p− 1)σ2/σ2 =

‖y − Xϑ‖2/σ2. D’après le Théorème 3.3 et le Corollaire 3.1, η ∼ N (0, 1),χ ∼ χ2

n−p et η ⊥⊥ χ. Par ailleurs,

ϑj − ϑj

σ√

bj=

η√

χ/(n − p),

d’où le résultat.

Ce corollaire implique que sous l’hypothèse H0 : ϑj = a, la loi de la v. a.

t =ϑj − ϑj

σ√

bj

est tn−p−1 (loi de Student avec n− p− 1 degrés de liberté). Par conséquent,si l’on définit la région critique du test par

R =

{∣∣∣∣

ϑj − a

σ√

bj

∣∣∣∣ > cα

}

avec une constante cα > 0 convenablement choisie, alors le risque de premièreespèce est

supϑ∈Θ0

Pϑ(R) = supϑ∈Θ0

(∣∣∣∣

ϑj − a

σ√

bj

∣∣∣∣ > cα

)

,

Page 24: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

24 DALALYAN, ARNAK

où Θ0 ={ϑ ∈ R

p : ϑj = a}

(soulignons que H0 est une hypothèse composite,car on peut la réécrire comme H0 : ϑ ∈ Θ0). Sur l’ensemble Θ0 le paramètreϑj vaut a, donc la variable t suit la loi de Student tn−p. On a alors

supϑ∈Θ0

(∣∣∣∣

ϑj − a

σ√

bj

∣∣∣∣ > cα

)

= P(|tn−p| > cα

)= P

(|tn−p| > cα).

Pour avoir le risque de première espèce égal à α, il faut choisir la valeurcritique cα = q1−α/2(tn−p). Ainsi, on obtient la région critique du test deniveau α :

R =

{∣∣∣∣

ϑj − a

σ√

bj

∣∣∣∣ > q1−α/2(tn−p)

}

. (3.9)

On rejette donc l’hypothèse H0 si

∣∣∣∣

ϑj − a

σ√

bj

∣∣∣∣ > q1−α/2(tn−p)

et on ne la rejette pas dans le cas contraire.

Dans les applications, on est souvent confronté aux tests des hypothèses plusgénérales, en particulier, de l’hypothèse

H0 : ϑj1 = a1, . . . , ϑjm = am

contre l’alternative

H1 : ∃ k ∈ {1, . . . ,m} tel que ϑjk6= ak,

où {j1, . . . , jm} est un sous-ensemble de {1, . . . , p}. Notons que H1 est lecomplémentaire de H0.

Exemple 3.4. Test de “ sélection des variables” dans la régression polyno-miale :

Yi = g(xi) + ξi = ϑ1 + ϑ2Zi + · · · + ϑpZp−1i + ξi, i = 1, . . . , n.

On veut tester l’hypothèse

H0 : ϑj+l = 0, l = 1, . . . , p − j.

contre l’alternative H1 : il existe l ≥ 1 tel que ϑj+l 6= 0. Pour ce faire, onpeut utiliser le test de Fisher.

Page 25: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

MODÈLES LINÉAIRES GAUSSIENS 25

3.7. Hypothèse linéaire générale. F-test. Supposons que l’on souhaite testerl’hypothèse

H0 : Gϑ = b

contre l’alternativeH1 : Gϑ 6= b,

où G est une matrice m × (p + 1) et b est un vecteur de Rm. En particulier,

si l’on pose

G =

0 . . . 0...

. . ....

0 . . . 0︸ ︷︷ ︸

p−m

1 . . . 0...

. . ....

0 . . . 1

m

︸ ︷︷ ︸

m

, b =

a1...

am

∈ R

m,

on obtient l’hypothèse et l’alternative décrites dans l’Exemple 3.4.

Proposition 3.4. Si l’Hypothèse (NR) est vérifiée,

Gϑ ∼ Nm(Gϑ, σ2GB−1G⊤).

Démonstration. Elle est immédiate d’après le Théorème 3.3.

D’après cette proposition, sous l’hypothèse H0 : Gϑ = b on a :

Gϑ ∼ Nm(b,D) avec D = σ2GB−1G⊤.

Soit D > 0. Définissons le vecteur aléatoire

ξ = D−1/2(Gϑ − b) ∼ Nm(0, Im)

et la variable aléatoire

η := ‖ξ‖2 = (Gϑ − b)⊤D−1(Gϑ − b).

D’après les propriétés de la loi χ2,

η ∼ χ2m.

Si σ2 est inconnu, on ne peut pas se servir de η pour définir la région critiquedu test. C’est pourquoi on replace σ2 par son estimateur σ2. On obtient ainsil’estimateur de la matrice de covariance D suivant :

D = σ2GB−1G⊤ avec σ2 =‖y − Xϑ‖2

n − p − 1.

Page 26: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

26 DALALYAN, ARNAK

Introduisons maintenant la variable aléatoire

F :=(Gϑ − b)⊤D−1(Gϑ − b)

m

que l’on appelle F-statistique et définissons la région critique du test basésur cette statistique :

R = {F > cα}.Ici cα > 0 est à choisir de façon que le test soit de niveau α. On peutremarquer que F est une sorte de distance entre Gϑ et b. On décidera doncde rejeter H0 si cette distance F est assez grande (> cα).

En utilisant le Théorème 3.3, on peut facilement vérifier que sous H0 lavariable aléatoire F suit la loi de Fisher-Snedecor à degrés de liberté m etn − p, ce qui nous conduit au choix suivant de la valeur critique : cα =q1−α(m,n − p − 1), où q1−α(m,n − p − 1) désigne le quantile d’ordre 1 − αde la loi de Fisher-Snedecor Fm,n−p−1 à degrés de liberté m et n− p− 1. Onobtient finalement la région critique

R ={

F > q1−α(m,n − p − 1)}

. (3.10)

Le test basé sur la région critique (3.10) est appelé F-test.

4. Complément : théorème de Cochran.

Théorème 4.1 (Théorème de Cochran). Soient Z1, . . . , Zn des variablesaléatoires i.i.d. de loi gaussienne N (0, 1). Soient P1 et P2 deux projecteursorthogonaux de R

n (c’est-à-dire, Pi = P⊤i = P 2

i , i = 1, 2) tels que P1P2 = 0.Alors,- les vecteurs aléatoires P1Z et P2Z sont indépendants, où Z = (Z1, . . . , Zn)⊤,- ‖PiZ‖2 ∼ χ2(Rang(Pi)), i = 1, 2.

Démonstration. Comme les Zi sont indépendantes et gaussiennes, le vec-teur Z suit la loi gaussienne multivariée Nn(0, In). On vérifie aisément que(P1Z, P2Z)⊤ est une transformation linéaire de Z, car

(

P1Z

P2Z

)

=

(

P1 00 P2

)

Z.

Par conséquent, d’après le théorème 5.1 de la première partie de ce cours,le vecteur (P1Z, P2Z)⊤ suit une loi gaussienne multivariée. La matrice decovariance entre P1Z et P2Z se calcule par

C(P1Z, P2Z) = E[P1Z(P2Z)⊤] = P1E[ZZ⊤]P⊤

2 = P1InP2 = P1P2 = 0.

Page 27: LM347 : Analyse de données et Régressionimagine.enpc.fr/~dalalyan/Links/Partie4.pdf · 2008-04-27 · 27.7 27.4 28.5 Tab. 1 Hauteurs d’arbres dans 3 forêts ... dividu et, pour

MODÈLES LINÉAIRES GAUSSIENS 27

En utilisant l’assertion (ii) du théorème 5.1 de la première partie de ce cours,on obtient l’indépendance de P1Z et de P2Z.

Pour démontrer la seconde assertion du théorème, on utilise la décompositionorthogonale de la matrice P1. Comme une matrice de projection est symé-trique, elle est diagonalisable. C’est-à-dire, il existe une matrice diagonale Det une matrice orthogonale O telle que P1 = ODO⊤. Dans cette décompo-sition, les éléments diagonaux de D sont les valeurs propres de P1, ce quientraîne que d1 = . . . = dr1

= 1 et dr1+1 = . . . = dn = 0, où r1 = Rang(P1).C’est-à-dire,

D =

1 . . . 0 0 . . . 0...

. . ....

.... . .

...0 . . . 1 0 . . . 00 . . . 0 0 . . . 0...

. . ....

.... . .

...0 . . . 0 0 . . . 0

}

r1 lignes

}

(n − r1) lignes

On a donc

‖P1Z‖2 = Z⊤P1P1Z = Z

⊤P1Z = Z⊤ODOZ = Z

⊤ODZO

où ZO = OZ. D’une part, comme O est une matrice orthogonale, on a

ZO ∼ Nn(0, OV[Z ]O⊤) = Nn(0, OO⊤) = Nn(0, In).

D’autre part,

‖P1Z‖2 = Z⊤ODZO =

r1∑

k=1

(ZO)2k.

Comme la somme des carrés de r1 variables indépendantes gaussiennes cen-trées réduites suit une loi χ2

r1, on obtient le résultat désiré.