56
U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017 U. Paris Ouest L. Ferrara, 2016-17

Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

U. Paris Ouest,

M1 - Cours de Modélisation Appliquée

Modèle de régression linéaire:

cas bivarié

Laurent Ferrara

Février 2017

U. Paris Ouest L. Ferrara, 2016-17

Page 2: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Soit 2 variables continues X et Y. On observe les unités

expérimentales : (xi , yi), pour i = 1, …, n.

• 1. Existe-t-il un lien entre X et Y?

• 2. Comment le mesurer ?

• 3. Comment modéliser ce lien?

• 4. Comment estimer les paramètres de ce modèle?

• 5. Comment valider ce modèle ?

• 6. Comment tirer partie de ce modèle pour prévoir les

valeurs d’une variable d’après les valeurs de l’autre?

U. Paris Ouest L. Ferrara, 2016-17

Page 3: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Exemple : données USA 1992 sur 50 états (state.x77)

Existe-t-il un lien entre :

les revenus d’un état et le nombre de ses « high-school graduates »?

Inc

Gra

3000 3500 4000 4500 5000 5500 6000

4045

5055

6065

U. Paris Ouest L. Ferrara, 2016-17

Page 4: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Causalité?

Existe-t-il un lien entre :

Le nombre de meurtres et l ’espérance de vie?

Murder

Life E

xp

2 4 6 8 10 12 14

68

69

70

71

72

73

U. Paris Ouest L. Ferrara, 2016-17

Page 5: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Existe-t-il un lien entre :

L’arrivée de migrants et le vote aux élections US ?

U. Paris Ouest L. Ferrara, 2016-17

Page 6: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Quel type de lien?

• Mise en évidence un lien linéaire entre les 2 variables.

– Y est considérée comme la variable à expliquer, ou indépendante, ou

exogène

– X est considérée comme la variable explicative, ou dépendante, ou

endogène.

• Relation statistique entre les 2 variables (non-déterministe) :

la connaissance de X n’implique pas la connaissance parfaite

de Y : il existe une erreur aléatoire autour de la valeur

prédite

U. Paris Ouest L. Ferrara, 2016-17

Page 7: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Comment mesurer un lien linéaire?

• Outil principal : Coefficient de corrélation linéaire

Estimateur empirique :

n

i

i

n

i

i

n

i

ii

YyXx

YyXx

YX

1

2

1

2

1

)()(

))((

),(

)()(

),(),(

YVXV

YXCovYXc

U. Paris Ouest L. Ferrara, 2016-17

Page 8: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Comment mesurer un lien linéaire?

• Signification :

• Test de Student

– H0 :

– H1 :

baXYqtbaYXc :..,1),(

?1),( YXc

0),( YX

0),( YX

U. Paris Ouest L. Ferrara, 2016-17

Page 9: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Comment mesurer un lien linéaire?

• Sous l’hypothèse nulle H0 :

suit une loi de Student à (n-2) dl

Donc, si

est tq : t* > on rejette H0 au risque

2)),(1(

),(

2 nYX

YX

2/1

2

nt

2)),(1(

),(*

2

nYX

YXt

U. Paris Ouest L. Ferrara, 2016-17

Page 10: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

U. Paris Ouest L. Ferrara, 2016-17

Exemple :

Evolution des taux souverains à 10 ans pour US et Royaume Uni

Coefficient de corrélation de 0,92

Question économique:

quel est le degré d’indépendance des politiques monétaires ?

Lien avec le triangle d’incompatibilité de Mundell en macro inter

Page 11: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

U. Paris Ouest L. Ferrara, 2016-17

Exemple :

Corrélation des taux souverains pour US et Royaume Uni

pour différentes maturités sous forme de heat map

Page 12: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Attention au piège : dépendance non linéaire

le coeff de corrélation ne mesure que la dépendance linéaire.

• Effectuer une analyse graphique au préalable pour identifier

la forme de la dépendance.

• Un coeff de corrélation élevé ne signifie pas forcément une

dépendance linéaire.

> cor(x, y)

[1] 0.99

> cor(x, y2)

[1] 0.246

> cor(x, y3)

[1] 0.854

> cor(x, yexp)

[1] 0.898

U. Paris Ouest L. Ferrara, 2016-17

Page 13: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

x

y

-1 0 1

-10

1

x

y2

-1 0 1

01

23

x

y3

-1 0 1

-4-2

02

46

x

ye

xp

-1 0 1

01

23

45

6

U. Paris Ouest L. Ferrara, 2016-17

Page 14: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Attention au piège : Corrélation fallacieuse

Existence d’un coeff de corrélation non nul entre deux

variables qu’aucune théorie économique, physique … ne

relie.

2 cas :

– résultat purement aléatoire

– existence d’un troisième variable qui explique conjointement les 2

phénomènes (en général : le temps)

Exemple de Krugman :

lien désindustrialisation - délocalisation aux USA (Application à la France)

U. Paris Ouest L. Ferrara, 2016-17

Page 15: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

empindus

4000,0

4100,0

4200,0

4300,0

4400,0

4500,0

4600,0

4700,0

mar

s-91

juil-

91

nov-

91

mar

s-92

juil-

92

nov-

92

mar

s-93

juil-

93

nov-

93

mar

s-94

juil-

94

nov-

94

mar

s-95

juil-

95

nov-

95

mar

s-96

juil-

96

nov-

96

mar

s-97

juil-

97

nov-

97

mar

s-98

juil-

98

nov-

98

mar

s-99

juil-

99

nov-

99

mar

s-00

juil-

00

nov-

00

mar

s-01

juil-

01

nov-

01

mar

s-02

juil-

02

nov-

02

mar

s-03

Evolution de l’emploi industriel France (Trimestriel 1991-2003)

U. Paris Ouest L. Ferrara, 2016-17

Page 16: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Imports

0,70

0,90

1,10

1,30

1,50

1,70

1,90

2,10

mar

s-91

juil-

91

nov-

91

mar

s-92

juil-

92

nov-

92

mar

s-93

juil-

93

nov-

93

mar

s-94

juil-

94

nov-

94

mar

s-95

juil-

95

nov-

95

mar

s-96

juil-

96

nov-

96

mar

s-97

juil-

97

nov-

97

mar

s-98

juil-

98

nov-

98

mar

s-99

juil-

99

nov-

99

mar

s-00

juil-

00

nov-

00

mar

s-01

juil-

01

nov-

01

mar

s-02

juil-

02

nov-

02

mar

s-03

Evolution des importations de biens en volume France 1991-2003

U. Paris Ouest L. Ferrara, 2016-17

Page 17: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Corrélation = - 0,50, t de Student = 3,99

Conclusion statistique : on rejette l’hypothèse H0 de nullité de

la corrélation linéaire entre les 2 variables

Conclusion économique rapide : les pays à faibles coûts

salariaux détruisent les emplois dans l ’industrie Française

Hypothèse alternative : les destructions d’emplois industriels

peuvent être causées en partie par la baisse des dépenses (en

valeur) des ménages en produits manufacturés, liée à la forte

hausse de la productivité dans l’industrie par comparaison

avec celle dans les services

U. Paris Ouest L. Ferrara, 2016-17

Page 18: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

On remarque également que les coefficients de corrélation

entre chacune des variables et le temps sont de :

-0,75 pour l’emploi industriel

0,94 pour les imports

Exercice :

Proposer des exemples de corrélation fallacieuse

U. Paris Ouest L. Ferrara, 2016-17

Page 19: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Attention au piège :

Un coeff de corrélation nul ne signifie pas que les variables

sont indépendantes (sauf dans le cas Gaussien)

En particulier, il peut exister une relation sur les moments

d’ordre supérieur du modèle

Exemple : lien linéaire entre les variances de X et Y

(cas des processus ARCH en séries chronologiques)

U. Paris Ouest L. Ferrara, 2016-17

Page 20: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Autres outils de mesure de dépendance:

– Concordance

– Corrélation de rang (Tau de Kendall, coefficient de Spearman)

– Corrélation conditionnelle

– …

– L’expression générale de la dépendance ne peut se faire que par la

loi jointe.

Si celle-ci n’est pas calculable: concept de copules

U. Paris Ouest L. Ferrara, 2016-17

Page 21: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Comment modéliser un lien linéaire?

• Quel est le « meilleur » ajustement linéaire entre 2 v.a. ?

• Exemple : taux longs souverains / dette publique brute

U. Paris Ouest L. Ferrara, 2016-17

Page 22: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Notation

iy est la ième observation de la variable exogène

ix est la ième observation de la variable endogène

iy Est la valeur ajustée (estimée) de la ième observation

Equation de la meilleure

droite d’ajustement: ii xbby 10ˆ

U. Paris Ouest L. Ferrara, 2016-17

Page 23: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Erreur de prévision

(ou erreur résiduelle)

En utilisant iy pour prédire ,

iy

on fait une erreur de prévision:

iii yye ˆ

La droite d’ajustement qui colle le mieux aux

données est celle pour laquelle les n erreurs de

prévisions sont les plus petites possibles au sens

d’un certain critère. U. Paris Ouest L. Ferrara, 2016-17

Page 24: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Critère des “Moindres Carrés”

Choisir les valeurs b0 et b1 qui minimise la somme

des carrés des erreurs.

Equation de la droite : ii xbby 10ˆ

i.e. : minimiser:

2

1

ˆ

n

i

ii yyQU. Paris Ouest L. Ferrara, 2016-17

Page 25: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

La droite de régression

Par le calcul, minimiser (dériver, annuler et résoudre

pour b0 et b1):

2

1

10

n

i

ii xbbyQ

et obtenir les estimateurs des moindres carrés

ordinaires (MCO) de b0 et b1:

n

i

i

n

i

ii

xx

yyxx

b

1

2

11ˆ xbyb 10

ˆˆ

U. Paris Ouest L. Ferrara, 2016-17

Page 26: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Remarques

En termes géométriques

• la droite de régression est celle qui minimise la distance

quadratique entre les points et les projections orthogonales

de ces points sur cette droite.

• la droite de régression est celle qui maximise la variance du

nuage de points projetés orthogonalement sur cette droite.

U. Paris Ouest L. Ferrara, 2016-17

Page 27: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Formalisation

Hypothèses du modèle linéaire :

• H1 : E(Yi) fonction linéaire des xi (déterministes)

yi = b0 + b1 xi + i , pour i=1,…,n

• H2 : Les erreurs, i, sont indépendantes entre elles

• H3 : E(i) = 0, les erreurs sont d’espérance nulle

(en moyenne le modèle est bien spécifié)

U. Paris Ouest L. Ferrara, 2016-17

Page 28: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

• H4 : E(2i) = 2 , les erreurs sont de variance égale

pour toute valeur de X

(hypothèse d ’homoscédasticité)

• H5 : E(Xi i) = 0 , les erreurs,sont indépendantes des valeurs de X

• H6 : Hypothèse de Normalité

Les erreurs, i, sont identiquement distribuées selon la loi Normale.

U. Paris Ouest L. Ferrara, 2016-17

Page 29: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Estimation des paramètres

Quels paramètres ? b0 , b1 , 2

estimés par MCO

estimée par l’erreur quadratique moyenne ou Mean Squared Error (MSE)

2

10ˆ,ˆ,ˆ bb

10ˆ,ˆ bb

2

U. Paris Ouest L. Ferrara, 2016-17

Page 30: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

La MSE est définie par :

On pondère par le nombre de degrés de liberté du modèle

défini par :

degrés de liberté = nbre d’observations - nbre de paramètres

2

ˆ

ˆ 1

2

2

n

YY

MSE

n

i

ii

U. Paris Ouest L. Ferrara, 2016-17

Page 31: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Loi asymptotique des paramètres

Les estimateurs MCO sont sans biais et convergents

• On montre que :

• On montre que :

Donc

00 )ˆ( bbE 11)ˆ( bbE

n

i

i Xx

bV

1

2

2

1

)(

ˆ)ˆ(

nsibV 0)ˆ( 1

U. Paris Ouest L. Ferrara, 2016-17

Page 32: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Loi asymptotique des paramètres

• De même,

n

i

i Xx

X

nbV

1

2

22

0

)(

1ˆ)ˆ(

nsibV 0)ˆ( 0

U. Paris Ouest L. Ferrara, 2016-17

Page 33: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Remarques

• Dans ce cadre, sous l ’hypothèse de normalité des erreurs,

estimateur MCO = estimateur EMV

• La variance estimée par le modèle est différente de la

variance empirique (valable pour tout échantillon qui suit le

modèle linéaire)

• La variance résiduelle mesure avec quelle amplitude les

valeurs de Y s ’écartent de la droite de régression.

– C ’est une mesure de la précision du modèle

– C ’est une mesure du risque associé au modèle

U. Paris Ouest L. Ferrara, 2016-17

Page 34: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Exemple : 2 précisions différentes

U. Paris Ouest L. Ferrara, 2016-17

Page 35: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Remarques

• Quel est le but du jeu de toute tentative de modélisation

d’une variable Y ?

Minimiser la variance résiduelle

Y = partie déterministe + partie aléatoire

Y = f(X) +

Par indépendance, V(Y) = V(f(X)) + V()

(Voir partie « Analyse de la Variance »)

U. Paris Ouest L. Ferrara, 2016-17

Page 36: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Validation du modèle

On valide le modèle à l’aide des tests statistiques.

2 types de tests d’hypothèses sont développés :

1) Tests sur les paramètres du modèle

2) Tests sur les résidus du modèle

U. Paris Ouest L. Ferrara, 2016-17

Page 37: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

(1-) IC pour la pente

Formule en mots:

Paramètre estimé ± (t-multiplier × standard error)

Formule en notations:

22,

211

ˆˆ

Xx

tb

i

n

1b

U. Paris Ouest L. Ferrara, 2016-17

Page 38: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Test sur la pente

Null hypothesis H0: 1 = (en général =0)

Alternative hypothesis H1: 1 ≠ (en général 0)

1

1

2

1*bse

b

xx

MSE

bt

i

Test statistic

P-value = Risque maximum d’accepter H1 à tort (à

comparer avec le risque de première espèce )

La P-value est déterminée par référence à une t-

distribution avec n-2 degrés de liberté

1b

U. Paris Ouest L. Ferrara, 2016-17

Page 39: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Formule en notations:

Formule en mots:

Paramètre estimé ± (t-multiplier × standard error)

2

2

2,2

10

1ˆˆ

Xx

x

ntb

i

n

0b(1-) IC pour la constante

U. Paris Ouest L. Ferrara, 2016-17

Page 40: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Null hypothesis H0: 0 = (en général = 0)

Alternative hypothesis HA: 0 ≠ (en général 0)

P-value = Risque maximum d’accepter H1 à tort

(à comparer avec le risque de première espèce )

La P-value est déterminée par référence à une t-

distribution avec n-2 degrés de liberté.

0

0

2

2

0

1

*bse

b

xx

x

nMSE

bt

i

Test statistic

Test sur la constante 0b

U. Paris Ouest L. Ferrara, 2016-17

Page 41: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Test sur le terme d’erreur

Les intervalles et les tests précédents sont basés

sur la Normalité du terme d’erreur. Il importe

donc de tester les résidus.

– Test d’adéquation (Jarque-Bera, KS, …)

– Test graphiques (QQ-Plot)

Les résultats restent valides en cas d’écart à la loi

Normale si l’échantillon est grand. (résultats

asymptotiques) U. Paris Ouest L. Ferrara, 2016-17

Page 42: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Mesure de la qualité du modèle

On mesure la qualité du modèle par l’analyse de la variance

On montre les 2 relations suivantes :

• la somme des résidus est nulle, i.e. :

• la moyenne de la variable et la moyenne de la variable estimée sont égales, i.e. :

n

i

ie1

0

n

i

n

i

ii yy1 1

ˆ

U. Paris Ouest L. Ferrara, 2016-17

Page 43: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

i

i

i

i

i

i eyyyy 222)ˆˆ()(

On en déduit l’équation de l’analyse de la variance: Variance totale = Variance expliquée + Variance résiduelle Objectif : Maximiser la variance expliquée

U. Paris Ouest L. Ferrara, 2016-17

Page 44: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

• R2 : mesure de la variance expliquée

valeur entre 0 et 1

• Critères d’information : Akaike (1971)

n

i

i YY

R

1

2

22

)(

ˆ1

U. Paris Ouest L. Ferrara, 2016-17

Page 45: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Prévision

Que veut-on prévoir?

• La réponse «moyenne» de la population = E(Yh) pour une valeur xh

– Ex : Quel est le poids moyen pour une taille donnée?

(Plus précis que le poids moyen de l’échantillon)

• La réponse Yh(new) à une nouvelle valeur donnée xh

– Ex : Quel est le poids estimé par le modèle d’un nouvel individu choisi au hasard de taille donnée?

U. Paris Ouest L. Ferrara, 2016-17

Page 46: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

est le meilleur estimateur dans chaque cas. hh xbbY 10

ˆ

En fait les 2 prévisions sont égales :

Seuls les intervalles de confiance autour des réponses vont varier

U. Paris Ouest L. Ferrara, 2016-17

Page 47: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Intervalle de confiance pour la

réponse moyenne de la population

E(Yh)

U. Paris Ouest L. Ferrara, 2016-17

Page 48: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Formule en notation:

Formule en mots:

Sample estimate ± (t-multiplier × standard error)

2

2

2

2,2

1

1ˆˆ

Xx

Xx

nty

i

h

nh

(1-) IC pour la réponse moyenne

E(Yh)

U. Paris Ouest L. Ferrara, 2016-17

Page 49: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Implications sur la précision

• Au plus les valeurs des xi sont étalées, au plus

l’intervalle de confiance est petit,

donc l’estimation de E(Yh) est plus précise.

• Suivant le même échantillon de xi, au plus la

valeur de xh est loin de la moyenne empirique, au

plus l’intervalle de confiance est grand,

donc l’estimation de E(Yh) est moins précise.

U. Paris Ouest L. Ferrara, 2016-17

Page 50: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Remarques

• xh est une valeur correspondant au champ de l’étude

mais pas nécessairement une valeur de l’échantillon

• L’IC pour E(Yh) est correct même si le terme

d’erreur est seulement approché par une loi Normale

• Si le nombre d’observations est grand, l’IC pour

E(Yh) est correct même si le terme d’erreur s’écarte

fortement d’une loi Normale

U. Paris Ouest L. Ferrara, 2016-17

Page 51: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Intervalle de Prévision pour la

réponse Yh(new) à une nouvelle

valeur xh(new)

U. Paris Ouest L. Ferrara, 2016-17

Page 52: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Prévision de Yh(new)

si la moyenne E(Y) n’est pas connue

ie : si les paramètres sont estimés

on rajoute une incertitude sur la moyenne

de Y

U. Paris Ouest L. Ferrara, 2016-17

Page 53: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

La prévision est non biaisée

hh xbbY 10

ˆˆˆ

hh

hhh

hhh

xbbbb

xbbxbb

YYe

)ˆ()ˆ(

)ˆˆ(

ˆ

1100

1010

Propriété:

0)( heE

U. Paris Ouest L. Ferrara, 2016-17

Page 54: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Variance de la prévision

n

i

i

h

n

i

i

h

xx

xx

nxx

xx

n

1

2

2

2

1

2

2

22 11ˆ

1ˆˆ

Estimation:

Elle dépend de 2 composantes :

1. Variance due à l’estimation de E(Yh) par

2. Variance de Y inhérente à sa distribution

hy

U. Paris Ouest L. Ferrara, 2016-17

Page 55: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

Sample prediction ± (t-multiplier × standard error)

2

2

2

2,2

1

11ˆˆ

xx

xx

nty

i

h

nh

(1-) IC pour la réponse Yh

U. Paris Ouest L. Ferrara, 2016-17

Page 56: Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

504030

250

150

50

Latitude

Mo

rtalit

yS = 19.1150 R-Sq = 68.0 % R-Sq(adj) = 67.3 %

Mortality = 389.189 - 5.97764 Latitude

95% PI

95% CI

Regression

Regression Plot

U. Paris Ouest L. Ferrara, 2016-17