45
Analyse de données Régression linéaire Jamal Atif [email protected] Université Paris-Dauphine, Licence MIDO 2014-2015 1 / 45 Jamal Atif Analyse de Données

Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif [email protected] Université

  • Upload
    others

  • View
    16

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Analyse de donnéesRégression linéaire

Jamal [email protected]

Université Paris-Dauphine, Licence MIDO

2014-2015

1 / 45 Jamal Atif Analyse de Données

Page 2: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Copyright

Ce cours est adapté librement des ressources suivantes :

▶ Livre : Régression avec , Pierre-André Cornillon et EricMatzner- Lober, Springer 2010.

2 / 45 Jamal Atif Analyse de Données

Page 3: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Exemple introductif

Un analyste en webmarketing s’intéresse à la relation de causalité entre lesfrais de publicité et les ventes d’un produit donné. En particulier il cherche àsavoir s’il est possible d’expliquer le nombre de ventes par les frais depublicité. Il collecte l’échantillon des données suivant :

Pub. (e) Ventes (unité)1 12 13 24 25 4

Il s’agit alors :▶ de trouver un modèle permettant d’expliquer Ventes en fonction de Pub,▶ de prédire les valeurs de Ventes par de nouvelles valeurs de Pub.

⇒ Régression

3 / 45 Jamal Atif Analyse de Données

Page 4: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Nuage de points

▶ Pub (x) est une variable indépendante, dite variableexplicative ou encore de régression

▶ Ventes (y) est dépendante dite réponse.

4 / 45 Jamal Atif Analyse de Données

Page 5: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Première démarcheExaminer le nuage de points

Trouver une relation entre la variable x et la variable y, telleque :

yi ≈ f (xi), i = 1, · · · ,n5 / 45 Jamal Atif Analyse de Données

Page 6: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Modèle

yi ≈ f (xi)

; Se fixer une famille de fonction F (ex : fonctions linéaires) etune fonction de coût L telle que :

n∑i=1

L(y − f (x)) est minimale pour une fonction f ∈ F donnée,

où n représente le nombre de données disponibles (taille del’échantillon) et L une fonction de coût ou de perte (Loss).

f = argminf∈F

n∑i=1

L(y − f (x)), i = 1, · · · ,n

Exemples de L :▶ L(x) =| x |,▶ L(x) = x2,▶ etc.

6 / 45 Jamal Atif Analyse de Données

Page 7: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Modèle de régression linéaire simple

▶ F est une famille de fonctions linéaires (affines) de R dansR.

▶ On suppose disposer d’un échantillon de n points (xi, yi).

yi = β1 + β2xi + εi, ∀i = 1, · · · ,n

▶ εi modélisent le bruit et sont supposés aléatoires (les pointsn’étant jamais parfaitement alignées sur une droite).

▶ β1 et β2 sont les paramètres inconnues du modèles.

7 / 45 Jamal Atif Analyse de Données

Page 8: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Modèle de régression linéaire simpleHypothèses :

yi = β1 + β2xi + εi, ∀i = 1, · · · ,n

1. le bruit est une variable aléatoire d’espérance nulle et devariance inconnue fixe (homoscédacité) : E(εi) = 0 etVar(εi) = σ2,

2. εi et εj sont décorrélés pour tout i = j : cov(εi, εj) = 0

3. εi une v.a distribuée selon une loi normale de moyennenulle et de variance σ2 : εi ∼ N (0, σ2).

8 / 45 Jamal Atif Analyse de Données

Page 9: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Modèle de régression linéaire simpleHypothèses :

Homoscédacité vs Hétéroscédacité Ex : yi = 2xi + 1 + εi

Nuage de points (xi, yi).

9 / 45 Jamal Atif Analyse de Données

Page 10: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Modèle de régression linéaire simpleHypothèses :

Homoscédacité vs Hétéroscédacité

Nuage de points (xi, εi). εi ∼ N (0, xi)

10 / 45 Jamal Atif Analyse de Données

Page 11: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Modèle de régression linéaire simpleHypothèses :

Homoscédacité vs Hétéroscédacité Ex : yi = 2xi + 1 + εi

Distribution des erreurs.

11 / 45 Jamal Atif Analyse de Données

Page 12: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Modèle de régression linéaire simpleHypothèses :

Dépendance vs indépendance du bruit Ex : yi = 2xi + 1 + εi

A gauche (xi, yi), au milieu (xi, εi) et à droite la distribution de ε.εi+1 ∼ N (εi, 100)

12 / 45 Jamal Atif Analyse de Données

Page 13: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Estimateur des Moindres carrés Ordinaires

f = argminf∈F

n∑i=1

L(yi − f (xi)), i = 1, · · · ,n

On fixe L(x) = x2 et f (x) = β1 + β2x

(β1, β2) = argminβ1,β2

n∑i=1

(yi − β1 − β2xi)2

13 / 45 Jamal Atif Analyse de Données

Page 14: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Estimateur des Moindres carrés OrdinairesCela revient à minimiser le carré du bruit εi pour chaque i :

εi = yi − β1 + β2xi = yi − yi

yi : le point observé, et yi le point de la droite théorique.

(β1, β2) = argminβ1,β2

n∑i=1

(yi − β1 − β2xi)2,

= argminβ1,β2

n∑i=1

(yi − yi)2,

= argminβ1,β2

n∑i=1

ε2i ,

= argminβ1,β2

||ε||2

14 / 45 Jamal Atif Analyse de Données

Page 15: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Illustration

Au tableau !

15 / 45 Jamal Atif Analyse de Données

Page 16: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Calcul des estimateurs de β1 et β2

▶ On notera S(β1, β2) =∑n

i=1(yi − β1 − β2xi)2

▶ S(β1, β2) est quadratique donc convexe et différentiable ⇒admet un minimum unique en (β1, β2).

▶ On calcule les points pour lesquelles les dérivées partiellesde S en β1 et β2 s’annulent. On obtient les équationsnormales suivantes :

∂S∂β1

= −2

n∑i=1

(yi − β1 − β2xi) = 0

∂S∂β2

= −2

n∑i=1

xi(yi − β1 − β2xi) = 0

(1)

16 / 45 Jamal Atif Analyse de Données

Page 17: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Calcul des estimateurs de β1 et β2

∂S∂β1

= −2n∑

i=1

(yi − β1 − β2xi) = 0

⇒β1n + β2

n∑i=1

xi =

n∑i=1

yi

⇒β1 = y − β2x.

17 / 45 Jamal Atif Analyse de Données

Page 18: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Calcul des estimateurs de β1 et β2

∂S∂β2

= −2

n∑i=1

xi(yi − β1 − β2xi) = 0

⇒β1

n∑i=1

xi + β2

n∑i=1

x2i =

n∑i=1

xiyi

⇒β2 =

∑xiyi −

∑xiy∑

x2i −∑

xix=

∑xi(yi − y)∑xi(xi − x) =

∑(xi − x)(yi − y)∑(xi − x)(xi − x)

Exercice de TD !

18 / 45 Jamal Atif Analyse de Données

Page 19: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Quelques remarques

▶ La relation β1 = y − β2x montre que la droite des moindrescarrés passe par le centre de gravité des nuages (x, y).

▶ Les expressions obtenues pour β1 et β2 montrent que cesdeux estimateurs sont linéaires par rapport au vecteur y.

▶ L’estimateur β2 peut s’écrire (exercice de TD) :

β2 = β2 +

∑(xi − x)εi∑(xi − x)2

→ La variation de β1 et β2 vient seulement de ε

19 / 45 Jamal Atif Analyse de Données

Page 20: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Quelques propriétés de β1 et β2

Sous les hypothèses 1 et 2 (centrage, décorrélation ethomoscédacité) β1 et β2 sont des estimateurs sans biais de β1 etβ2.

Nous savons que :

β2 = β2 +

∑(xi − x)εi∑(xi − x)2

Dans cette expression, seuls les bruits εi sont aléatoires d’espérance nulle.Nous avons donc :

E(β2) = β2

Pour β1, on part de l’expression :

β1 = y − β2x,

d’où l’on tire :

E(β1) = E(y)− xE(β2) = β1 + xβ2 − xβ2 = β1

20 / 45 Jamal Atif Analyse de Données

Page 21: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Quelques propriétés de β1 et β2

Les variances des estimateurs sont :

var(β1) =σ2

∑x2i

n∑

(xi − x)2 = σ2

(1

n+

x2∑(xi − x)2

)var(β2) =

σ2∑(xi − x)2

Et la covariance vaut :

cov(β1, β2) = − σ2x∑(xi − x)2

Preuve au tableau.

21 / 45 Jamal Atif Analyse de Données

Page 22: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Résultat fondamental

Théorème de Gauss-Markov :Parmi les estimateurs sans biais linéaires de y, les estimateursβi sont de variances minimales.

Nous omettrons la preuve.

22 / 45 Jamal Atif Analyse de Données

Page 23: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Calcul des résidus et de la variance résiduelle

εi = yi − yi = yi − β1 − β2xi = (yi − y)− β2(xi − x)

Par construction, nous avons :∑i

εi =∑

i

(yi − y)− β2∑

i

(xi − x) = 0.

Estimateur non biaisé de σ2

La statistique σ2 =∑

ε2i /(n − 2) est un estimateur sans biais deσ2.

Détails au tableau.

23 / 45 Jamal Atif Analyse de Données

Page 24: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

PrévisionRappel : un des buts de la régression est la prévision/prédiction.

Soit xn+1 une nouvelle valeur pour laquelle nous voulonsprédire yn+1. Le modèle s’écrit :

yn+1 = β1 + β2xn+1 + εn+1,

avec E(εn+1) = 0, var(εn+1 = σ2) et cov(εn+1, εn) = 0 pour touti = 1, · · · ,n.

La valeur yn+1 peut être prédite comme suit :

yn+1 = β1 + β2xn+1

24 / 45 Jamal Atif Analyse de Données

Page 25: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Erreur de prévision

yn+1 = β1 + β2xn+1

L’erreur de prévision εn+1 = (yn+1 − yn+1) satisfait lespropriétés suivantes :{

E(εn+1) = 0

var(εn+1) = σ2(1 + 1

n + (xn+1−x)2∑ni=1(xi−x)2

) (2)

InterprétationLa variance augmente lorsque xn+1 s’éloigne du centre de gravité. Autrementdit, faire la prévision lorsque xn+1 est «loin» de x est périlleux, puisque lavariance de l’erreur de prévision peut être très grande.

25 / 45 Jamal Atif Analyse de Données

Page 26: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Interprétation géométriqueLe problème de régression peut prendre la forme matricielle :y = Ab + ε, avec

A =

1 x1...

...1 xn

,b =

[β1β2

], ε =

ε1...εn

26 / 45 Jamal Atif Analyse de Données

Page 27: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Décomposition de la variance

ε = y − y

Par le théorème de Pythagore, nous avons :

||y − y1||2 = ||y − y1||2 + ||ε||2 (3)n∑

i=1

(yi − y)2 =n∑

i=1

(yi − y)2 +n∑

i=1

ε2i , (4)

SCT = SCE + SCR (5)

▶ SCT : Somme des Carrés des écarts Totale ; elle possède (n − 1) degrés deliberté

▶ SCE : Somme des Carrés des écarts Expliquée ; elle possède (1) degrés deliberté

▶ SCR : Somme des Carrés des écarts Résiduelle ; elle possède (n − 2) degrésde liberté

27 / 45 Jamal Atif Analyse de Données

Page 28: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Rappels sur les degré de libertéSomme des carrés à la moyenne, SC

SC =

n∑i=1

(xi − x)2

Nombre de degrés de liberté (ddl)

▶ ddl = nombre total des valeurs − nombre des valeursestimées.

▶ Pour la somme précédente (SC), on a estimé la moyenne,donc ddl = n − 1.

Variance estimée

var(x) = SCddl

=1

n − 1

n∑i=1

(xi − x)2

28 / 45 Jamal Atif Analyse de Données

Page 29: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Décomposition de la variance

SCT = SCE + SCR

Les degrés de liberté (ddl) s’additionnent, tout comme lessommes carrés d’écarts :

(n − 1) = 1 + (n − 2)

Les variances s’obtient en divisant chaque somme de carrésd’écarts par le nombre de ddl correspondants :

Vt =SCTn − 1

, Ve = SCE, Vr =SCEn − 2

Ce sont respectivement les variances totale, expliquée, etrésiduelle. (Ces variances ne s’additionnent pas !)

29 / 45 Jamal Atif Analyse de Données

Page 30: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Quelques quantitésLe coefficient de détermination R2

R2 =SCESCT

=||y − y1||2||y − y1||2 = 1− ||ε||2

||y − y1||2 = 1− SCRSCT

= ρ2xy

▶ Si R2 = 1, le modèle explique tout, l’angle θ vaut zéro et y est dansM(X), c’est-à-dire que yi = β1 + β2xi pour tout i : les points del’échantillon sont parfaitement alignés sur la droite des moindrescarrés ;

▶ Si R2 = 0, cela veut dire que (yi − y)2 = 0, donc yi = y pour tout i. Lemodèle de régression linéaire est inadapté puisqu’on ne modélise riende mieux que la moyenne ;

▶ Si R2 est proche de zéro, cela veut dire que Y est quasiment dansl’orthogonal de M(X), le modèle de régression linéaire est inadapté, lavariable x n’explique pas bien la variable réponse y (du moins pas defaçon affine).

30 / 45 Jamal Atif Analyse de Données

Page 31: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Quelques quantités

Le coefficient de corrélation R : c’est la racine du coefficient dedétermination, affecté du signe de la pente β2. Ilest toujours compris entre −1 et 1.

L’écart-type résiduel σ : c’est la racine carrée de la variancerésiduelle (σ =

√Vr). C’est une estimation de

l’erreur faite sur la mesure de la variabledépendante y. Une valeur de 0 indiquerait unajustement parfait.

Le rapport de variance F : c’est le rapport de la varianceexpliquée à la variance résiduelle (F = Ve

Vr).

31 / 45 Jamal Atif Analyse de Données

Page 32: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Régions de confiances et tests d’hypothèses

Mieux que les expressions des estimateurs et celles de leursvariances, on aimerait connaître leurs lois : ceci permettrait parexemple d’obtenir des régions de confiance et d’effectuer destests d’hypothèses. Dans cette optique, il faut bien entendufaire une hypothèse plus forte sur notre modèle, à savoirpréciser la loi des erreurs.

32 / 45 Jamal Atif Analyse de Données

Page 33: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Cas d’erreurs gaussiennes

Hypothèses supplémentaires sur le modèle :1. εi ∼ N (0, σ2)

2. εi sont mutuellement indépendants

Il s’en suit :

∀i ∈ {1, · · · ,n} yi ∼ N (β1 + β2xi, σ2)

33 / 45 Jamal Atif Analyse de Données

Page 34: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Estimateurs du maximum de vraisemblanceLa vraisemblance vaut

L(y;β1, β2, σ2) =

n∏i=1

N (β1 + β2xi, σ2)

=

(1√2πσ2

)n

exp

[− 1

2σ2

n∑i=1

(yi − β1 − β2xi)2

]

=

(1√2πσ2

)n

exp[− 1

2σ2S(β1, β2)

]

⇒ Trouver (β1, β2, σ2) qui maximisent la vraisemblance.⇒ Pour simplifier le calcul on prend la log-vraisemblance :log(L).

logL(y;β1, β2, σ2) = −n2

log(2πσ2)− 1

2σ2S(β1, β2)

34 / 45 Jamal Atif Analyse de Données

Page 35: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Estimateurs du maximum de vraisemblanceβ1mv, β2mv

logL(y;β1, β2, σ2) = −n2

log(2πσ2)− 1

2σ2S(β1, β2)

▶ Maximiser par rapport à (β1, β2) revient à minimiser−S(β1, β2).

⇒ Les estimateurs du maximum de vraisemblance de β1 et β2sont égaux aux estimateurs des moindres carrés.

β1mv = β1, β2mv = β2

35 / 45 Jamal Atif Analyse de Données

Page 36: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Estimateurs du maximum de vraisemblanceσ2

mv

Il reste à maximiser logL(y; β1, β2, σ2) par rapport à σ2.

∂L(y; β1, β2, σ2)

∂σ2= − n

2σ2+

1

2σ4S(β1, β2)

= − n2σ2

+1

2σ4

n∑i=1

(yi − β1 − β2xi)2

∂L(y; β1, β2, σ2)

∂σ2mv

= 0 ⇒ σ2mv =

1

n

n∑i=1

εi2

▶ L’estimateur du maximum de vraisemblance de σ2 est différent del’estimateur MCO σ2.

▶ L’estimateur du maximum de vraisemblance de σ2 est donc biaisé. Eneffet E(σ2

mv) =1n

∑E(ε2i ) = n−2

n σ2

⇒ Ce biais est d’autant plus négligeable que le nombre d’observations estgrand.

36 / 45 Jamal Atif Analyse de Données

Page 37: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Lois des estimateurs et régions de confianceRappels sur les lois usuelles

Loi du χ2

Soit X1, · · · ,Xn des variables aléatoires i.i.d. suivant une loi normale centréeréduite. La loi de la variable X =

∑ni=1 X2

i est appelée loi du χ2 à n degrés deliberté (ddl), noté X ∼ χ2

n .

Loi de StudentSoit Z une variable aléatoire suivant une loi normale centrée réduite et X unevariable suivant une loi du χ2 à n degrés de liberté, avec Z et Xindépendantes. La loi de la variable T = Z√

X/nest appelée loi de Student à n

degrés de liberté et on note T ∼ Tn.

Loi de FisherSoit U1 une variable aléatoire suivant une loi du χ2 à n1 degrés de liberté etU2 une variable aléatoire suivant une loi du χ2 à n2 degrés de liberté, avec U1

et U2 indépendantes. La loi de la variable F = U1/n1U2/n2

est appelée loi de Fisherà (n1, n2) degrés de liberté et on note F ∼ Fn1

n2 .

37 / 45 Jamal Atif Analyse de Données

Page 38: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Lois des estimateurs et régions de confiance

Quelques notations préalables :

c =−σ2x∑(xi − x)2 σ2 =

1

n − 2

∑ε2i

σ21 = σ2

( ∑x2i

n∑

(xi − x)2

)σ1 = σ2

( ∑x2i

n∑

(xi − x)2

)σ22 =

σ2∑(xi − x)2 σ2 =

σ2∑(xi − x)2

▶ σ21 , σ2

2 et c sont les variances et covariance des estimateursdes moindres carrés ordinaires.

▶ σ21 et σ2

2 correspondent quant à elles aux estimateurs desvariances d e β1 et β2.

38 / 45 Jamal Atif Analyse de Données

Page 39: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Lois des estimateurs avec variance connue

Les lois des estimateurs des MCO avec variance σ2 connuesont :

▶ β =

[β1β2

]∼ N (β, σ2V) où β =

[β1β2

]et

V = 1∑(xi−x)2

[ ∑x2i /n −x

−x 1

]= 1

σ2

[σ21 c

c σ22

]▶ (n−2)

σ2 σ2 ∼ χ2n−2, loi du χ2 à (n − 2) ddl.

▶ β et σ2 sont indépendants.

39 / 45 Jamal Atif Analyse de Données

Page 40: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Lois des estimateurs avec variance estimée

Les lois des estimateurs des MCO avec variance σ2 estiméesont :

▶ β1−β1

σ1∼ Tn−2 où Tn−2 est une loi de Student à (n − 2)

degrés de liberté.

▶ β2−β2

σ2∼ Tn−2.

▶ 12σ2 (β − β)′V−1((β − β) ∼ F2

n−2, loi de Fisher deparamètres (2,n − 2).

Ces dernières propriétés nous permettent de donner desintervalles de confiance (IC) ou des régions de confiance (RC)des estimateurs.

40 / 45 Jamal Atif Analyse de Données

Page 41: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Intervalles et régions de confiance▶ IC(β1)± tn−2(1− α/2)σ1 où tn−2(1− α/2) est le quantile de

niveau (1− α/2) d’une loi de Student Tn−2.▶ IC(β2)± tn−2(1− α/2)σ2▶ RC(β) : Une région de confiance simultanée pour β1 et β2

au niveau (1− α) est1

2σ2

(n(β1 − β1)

2 + 2nx(β1 − β1)(β2 − β2) +∑

x2i (β2 − β2)2)

≤ f 2n−2(1− α),

où f 2n−2(1− α) est le quantile de niveau (1− α) d’une loiF2

n−2.▶ Un intervalle de confiance de σ2 est donné par :[

(n − 2)σ2

cn−2(1− α/2),(n − 2)σ2

cn−2(α/2)

]où cn−2(1− α/2) est le quantile de niveau 1− α/2 d’une loiχ2

n−2.

41 / 45 Jamal Atif Analyse de Données

Page 42: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Loi et intervalle de confiance pour la prédiction

On a :

yn+1 − yn+1 ∼ N(0, σ2

(1 +

1

n+

(xn+1 − x)2∑ni=1(xi − x)2

))Avec les notations et hypothèses précédentes, on obtient :

yn+1 − yn+1

σ√

1 + 1n + (xn+1−x)2∑n

i=1(xi−x)2∼ Tn−2

d’où l’on déduit l’intervalle de confiance suivant pour yn+1 :[yn+1 ± tn−2(1− α/2)σ

√1 +

1

n+

(xn+1 − x)2∑ni=1(xi − x)2

]

42 / 45 Jamal Atif Analyse de Données

Page 43: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Tests d’hypothèseTest Bilatéral

H0 : β1 = 0,Ha : β2 = 0

Sous H0, nous avons la v.a :

t =β2σ2

∼ tn−2

Considérons un niveau de test α (usuellement 0,05 ou 0,01), Oncalcule t∗ :

▶ si |t∗| ≤ tn−2(1− α/2), alors H0 est acceptée,▶ si |t∗| > tn−2(1− α/2), alors H0 est rejetée.

43 / 45 Jamal Atif Analyse de Données

Page 44: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Tests d’hypothèseTest unilatéral

Exemple : vérifier si β2 est positive.

H0 : β2 ≥ 0,Ha : β2 < 0

Sous H0, nous avons :

t =β2σ2

=β2 − β2

σ2+

β2σ2

∼ tn−2 + terme positif

Considérons un niveau de test α (usuellement 0,05 ou 0,01), Oncalcule t∗ :

▶ si |t∗| ≥ tn−2(α), alors H0 est acceptée,▶ si |t∗| < tn−2(α), alors H0 est rejetée.

44 / 45 Jamal Atif Analyse de Données

Page 45: Analyse de données - Paris Dauphine Universityatif/lib/exe/fetch.php?... · 2014-10-20 · Analyse de données Régression linéaire Jamal Atif jamal.atif@dauphine.fr Université

Tests d’hypothèse

Test de passage par l’oginie β1Test si β1 = 0 :

H0 : β1 = 0,H1 : β1 = 0

Sous H0, nous avons la v.a :

t =β1σ1

∼ tn−2

Considérons un niveau de test α (usuellement 0,05 ou 0,01), Oncalcule t∗ :

▶ si |t∗| ≤ tn−2(1− α/2), alors H0 est acceptée,▶ si |t∗| > tn−2(1− α/2), alors H0 est rejetée.

45 / 45 Jamal Atif Analyse de Données