Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017

U. Paris Ouest,

M1 - Cours de Modélisation Appliquée

Modèle de régression linéaire:

cas bivarié

Laurent Ferrara

Février 2017

U. Paris Ouest L. Ferrara, 2016-17

Soit 2 variables continues X et Y. On observe les unités

expérimentales : (xi , yi), pour i = 1, …, n.

• 1. Existe-t-il un lien entre X et Y?

• 2. Comment le mesurer ?

• 3. Comment modéliser ce lien?

• 4. Comment estimer les paramètres de ce modèle?

• 5. Comment valider ce modèle ?

• 6. Comment tirer partie de ce modèle pour prévoir les

valeurs d’une variable d’après les valeurs de l’autre?


Exemple : données USA 1992 sur 50 états (state.x77)

Existe-t-il un lien entre :

les revenus d’un état et le nombre de ses « high-school graduates »?

Inc

Gra

3000 3500 4000 4500 5000 5500 6000

4045

5055

6065


Causalité?


Le nombre de meurtres et l ’espérance de vie?

Murder

Life E

xp

2 4 6 8 10 12 14

68

69

70

71

72

73



L’arrivée de migrants et le vote aux élections US ?


Quel type de lien?

• Mise en évidence un lien linéaire entre les 2 variables.

– Y est considérée comme la variable à expliquer, ou indépendante, ou

exogène

– X est considérée comme la variable explicative, ou dépendante, ou

endogène.

• Relation statistique entre les 2 variables (non-déterministe) :

la connaissance de X n’implique pas la connaissance parfaite

de Y : il existe une erreur aléatoire autour de la valeur

prédite


Comment mesurer un lien linéaire?

• Outil principal : Coefficient de corrélation linéaire

Estimateur empirique :

n

i

i

n

i

i

n

i

ii

YyXx

YyXx

YX

1

2

1

2

1

)()(

))((

),(

)()(

),(),(

YVXV

YXCovYXc



• Signification :

• Test de Student

– H0 :

– H1 :

baXYqtbaYXc :..,1),(

?1),( YXc

0),( YX

0),( YX



• Sous l’hypothèse nulle H0 :

suit une loi de Student à (n-2) dl

Donc, si

est tq : t* > on rejette H0 au risque

2)),(1(

),(

2 nYX

YX

2/1

2

nt

2)),(1(

),(*

2

nYX

YXt



Exemple :

Evolution des taux souverains à 10 ans pour US et Royaume Uni

Coefficient de corrélation de 0,92

Question économique:

quel est le degré d’indépendance des politiques monétaires ?

Lien avec le triangle d’incompatibilité de Mundell en macro inter

https://bankunderground.files.wordpress.com/2015/08/chart11.png


Exemple :

Corrélation des taux souverains pour US et Royaume Uni

pour différentes maturités sous forme de heat map

Attention au piège : dépendance non linéaire

le coeff de corrélation ne mesure que la dépendance linéaire.

• Effectuer une analyse graphique au préalable pour identifier

la forme de la dépendance.

• Un coeff de corrélation élevé ne signifie pas forcément une

dépendance linéaire.

> cor(x, y)

[1] 0.99

> cor(x, y2)

[1] 0.246

> cor(x, y3)

[1] 0.854

> cor(x, yexp)

[1] 0.898


x

y

-1 0 1

-10

1

x

y2

-1 0 1

01

23

x

y3

-1 0 1

-4-2

02

46

x

ye

xp

-1 0 1

01

23

45

6


Attention au piège : Corrélation fallacieuse

Existence d’un coeff de corrélation non nul entre deux

variables qu’aucune théorie économique, physique … ne

relie.

2 cas :

– résultat purement aléatoire

– existence d’un troisième variable qui explique conjointement les 2

phénomènes (en général : le temps)

Exemple de Krugman :

lien désindustrialisation - délocalisation aux USA (Application à la France)


empindus

4000,0

4100,0

4200,0

4300,0

4400,0

4500,0

4600,0

4700,0

mar

s-91

juil-

91

nov-

91

mar

s-92

juil-

92

nov-

92

mar

s-93

juil-

93

nov-

93

mar

s-94

juil-

94

nov-

94

mar

s-95

juil-

95

nov-

95

mar

s-96

juil-

96

nov-

96

mar

s-97

juil-

97

nov-

97

mar

s-98

juil-

98

nov-

98

mar

s-99

juil-

99

nov-

99

mar

s-00

juil-

00

nov-

00

mar

s-01

juil-

01

nov-

01

mar

s-02

juil-

02

nov-

02

mar

s-03

Evolution de l’emploi industriel France (Trimestriel 1991-2003)


Imports

0,70

0,90

1,10

1,30

1,50

1,70

1,90

2,10

mar

s-91

juil-

91

nov-

91

mar

s-92

juil-

92

nov-

92

mar

s-93

juil-

93

nov-

93

mar

s-94

juil-

94

nov-

94

mar

s-95

juil-

95

nov-

95

mar

s-96

juil-

96

nov-

96

mar

s-97

juil-

97

nov-

97

mar

s-98

juil-

98

nov-

98

mar

s-99

juil-

99

nov-

99

mar

s-00

juil-

00

nov-

00

mar

s-01

juil-

01

nov-

01

mar

s-02

juil-

02

nov-

02

mar

s-03

Evolution des importations de biens en volume France 1991-2003


Corrélation = - 0,50, t de Student = 3,99

Conclusion statistique : on rejette l’hypothèse H0 de nullité de

la corrélation linéaire entre les 2 variables

Conclusion économique rapide : les pays à faibles coûts

salariaux détruisent les emplois dans l ’industrie Française

Hypothèse alternative : les destructions d’emplois industriels

peuvent être causées en partie par la baisse des dépenses (en

valeur) des ménages en produits manufacturés, liée à la forte

hausse de la productivité dans l’industrie par comparaison

avec celle dans les services


On remarque également que les coefficients de corrélation

entre chacune des variables et le temps sont de :

-0,75 pour l’emploi industriel

0,94 pour les imports

Exercice :

Proposer des exemples de corrélation fallacieuse


Attention au piège :

Un coeff de corrélation nul ne signifie pas que les variables

sont indépendantes (sauf dans le cas Gaussien)

En particulier, il peut exister une relation sur les moments

d’ordre supérieur du modèle

Exemple : lien linéaire entre les variances de X et Y

(cas des processus ARCH en séries chronologiques)


Autres outils de mesure de dépendance:

– Concordance

– Corrélation de rang (Tau de Kendall, coefficient de Spearman)

– Corrélation conditionnelle

– …

– L’expression générale de la dépendance ne peut se faire que par la

loi jointe.

Si celle-ci n’est pas calculable: concept de copules


Comment modéliser un lien linéaire?

• Quel est le « meilleur » ajustement linéaire entre 2 v.a. ?

• Exemple : taux longs souverains / dette publique brute


Notation

iy est la ième observation de la variable exogène

ix est la ième observation de la variable endogène

iy Est la valeur ajustée (estimée) de la ième observation

Equation de la meilleure

droite d’ajustement: ii xbby 10ˆ


Erreur de prévision

(ou erreur résiduelle)

En utilisant iy pour prédire ,

iy

on fait une erreur de prévision:

iii yye ˆ

La droite d’ajustement qui colle le mieux aux

données est celle pour laquelle les n erreurs de

prévisions sont les plus petites possibles au sens

d’un certain critère. U. Paris Ouest L. Ferrara, 2016-17

Critère des “Moindres Carrés”

Choisir les valeurs b0 et b1 qui minimise la somme

des carrés des erreurs.

Equation de la droite : ii xbby 10ˆ

i.e. : minimiser:

2

1

ˆ

n

i

ii yyQU. Paris Ouest L. Ferrara, 2016-17

La droite de régression

Par le calcul, minimiser (dériver, annuler et résoudre

pour b0 et b1):

2

1

10

n

i

ii xbbyQ

et obtenir les estimateurs des moindres carrés

ordinaires (MCO) de b0 et b1:

n

i

i

n

i

ii

xx

yyxx

b

1

2

11ˆ xbyb 10

ˆˆ


Remarques

En termes géométriques

• la droite de régression est celle qui minimise la distance

quadratique entre les points et les projections orthogonales

de ces points sur cette droite.

• la droite de régression est celle qui maximise la variance du

nuage de points projetés orthogonalement sur cette droite.


Formalisation

Hypothèses du modèle linéaire :

• H1 : E(Yi) fonction linéaire des xi (déterministes)

yi = b0 + b1 xi + i , pour i=1,…,n

• H2 : Les erreurs, i, sont indépendantes entre elles

• H3 : E(i) = 0, les erreurs sont d’espérance nulle

(en moyenne le modèle est bien spécifié)


• H4 : E(2i) = 2 , les erreurs sont de variance égale

pour toute valeur de X

(hypothèse d ’homoscédasticité)

• H5 : E(Xi i) = 0 , les erreurs,sont indépendantes des valeurs de X

• H6 : Hypothèse de Normalité

Les erreurs, i, sont identiquement distribuées selon la loi Normale.


Estimation des paramètres

Quels paramètres ? b0 , b1 , 2

estimés par MCO

estimée par l’erreur quadratique moyenne ou Mean Squared Error (MSE)

2

10ˆ,ˆ,ˆ bb

10ˆ,ˆ bb

2


La MSE est définie par :

On pondère par le nombre de degrés de liberté du modèle

défini par :

degrés de liberté = nbre d’observations - nbre de paramètres

2

ˆ

ˆ 1

2

2

n

YY

MSE

n

i

ii


Loi asymptotique des paramètres

Les estimateurs MCO sont sans biais et convergents

• On montre que :

• On montre que :

Donc

00 )ˆ( bbE 11)ˆ( bbE

n

i

i Xx

bV

1

2

2

1

)(

ˆ)ˆ(

nsibV 0)ˆ( 1


Loi asymptotique des paramètres

• De même,

n

i

i Xx

X

nbV

1

2

22

0

)(

1ˆ)ˆ(

nsibV 0)ˆ( 0


Remarques

• Dans ce cadre, sous l ’hypothèse de normalité des erreurs,

estimateur MCO = estimateur EMV

• La variance estimée par le modèle est différente de la

variance empirique (valable pour tout échantillon qui suit le

modèle linéaire)

• La variance résiduelle mesure avec quelle amplitude les

valeurs de Y s ’écartent de la droite de régression.

– C ’est une mesure de la précision du modèle

– C ’est une mesure du risque associé au modèle


Exemple : 2 précisions différentes


Remarques

• Quel est le but du jeu de toute tentative de modélisation

d’une variable Y ?

Minimiser la variance résiduelle

Y = partie déterministe + partie aléatoire

Y = f(X) +

Par indépendance, V(Y) = V(f(X)) + V()

(Voir partie « Analyse de la Variance »)


Validation du modèle

On valide le modèle à l’aide des tests statistiques.

2 types de tests d’hypothèses sont développés :

1) Tests sur les paramètres du modèle

2) Tests sur les résidus du modèle


(1-) IC pour la pente

Formule en mots:

Paramètre estimé ± (t-multiplier × standard error)

Formule en notations:

22,

211

ˆˆ

Xx

tb

i

n

1b


Test sur la pente

Null hypothesis H0: 1 = (en général =0)

Alternative hypothesis H1: 1 ≠ (en général 0)

1

1

2

1*bse

b

xx

MSE

bt

i

Test statistic

P-value = Risque maximum d’accepter H1 à tort (à

comparer avec le risque de première espèce )

La P-value est déterminée par référence à une t-

distribution avec n-2 degrés de liberté

1b


Formule en notations:

Formule en mots:

Paramètre estimé ± (t-multiplier × standard error)

2

2

2,2

10

1ˆˆ

Xx

x

ntb

i

n

0b(1-) IC pour la constante


Null hypothesis H0: 0 = (en général = 0)

Alternative hypothesis HA: 0 ≠ (en général 0)

P-value = Risque maximum d’accepter H1 à tort

(à comparer avec le risque de première espèce )

La P-value est déterminée par référence à une t-

distribution avec n-2 degrés de liberté.

0

0

2

2

0

1

*bse

b

xx

x

nMSE

bt

i

Test statistic

Test sur la constante 0b


Test sur le terme d’erreur

Les intervalles et les tests précédents sont basés

sur la Normalité du terme d’erreur. Il importe

donc de tester les résidus.

– Test d’adéquation (Jarque-Bera, KS, …)

– Test graphiques (QQ-Plot)

Les résultats restent valides en cas d’écart à la loi

Normale si l’échantillon est grand. (résultats

asymptotiques) U. Paris Ouest L. Ferrara, 2016-17

Mesure de la qualité du modèle

On mesure la qualité du modèle par l’analyse de la variance

On montre les 2 relations suivantes :

• la somme des résidus est nulle, i.e. :

• la moyenne de la variable et la moyenne de la variable estimée sont égales, i.e. :

n

i

ie1

0

n

i

n

i

ii yy1 1

ˆ


i

i

i

i

i

i eyyyy 222)ˆˆ()(

On en déduit l’équation de l’analyse de la variance: Variance totale = Variance expliquée + Variance résiduelle Objectif : Maximiser la variance expliquée


• R2 : mesure de la variance expliquée

valeur entre 0 et 1

• Critères d’information : Akaike (1971)

n

i

i YY

R

1

2

22

)(

ˆ1


Prévision

Que veut-on prévoir?

• La réponse «moyenne» de la population = E(Yh) pour une valeur xh

– Ex : Quel est le poids moyen pour une taille donnée?

(Plus précis que le poids moyen de l’échantillon)

• La réponse Yh(new) à une nouvelle valeur donnée xh

– Ex : Quel est le poids estimé par le modèle d’un nouvel individu choisi au hasard de taille donnée?


est le meilleur estimateur dans chaque cas. hh xbbY 10

ˆ

En fait les 2 prévisions sont égales :

Seuls les intervalles de confiance autour des réponses vont varier


Intervalle de confiance pour la

réponse moyenne de la population

E(Yh)


Formule en notation:

Formule en mots:

Sample estimate ± (t-multiplier × standard error)

2

2

2

2,2

1

1ˆˆ

Xx

Xx

nty

i

h

nh

(1-) IC pour la réponse moyenne

E(Yh)


Implications sur la précision

• Au plus les valeurs des xi sont étalées, au plus

l’intervalle de confiance est petit,

donc l’estimation de E(Yh) est plus précise.

• Suivant le même échantillon de xi, au plus la

valeur de xh est loin de la moyenne empirique, au

plus l’intervalle de confiance est grand,

donc l’estimation de E(Yh) est moins précise.


Remarques

• xh est une valeur correspondant au champ de l’étude

mais pas nécessairement une valeur de l’échantillon

• L’IC pour E(Yh) est correct même si le terme

d’erreur est seulement approché par une loi Normale

• Si le nombre d’observations est grand, l’IC pour

E(Yh) est correct même si le terme d’erreur s’écarte

fortement d’une loi Normale


Intervalle de Prévision pour la

réponse Yh(new) à une nouvelle

valeur xh(new)


Prévision de Yh(new)

si la moyenne E(Y) n’est pas connue

ie : si les paramètres sont estimés

on rajoute une incertitude sur la moyenne

de Y


La prévision est non biaisée

hh xbbY 10

ˆˆˆ

hh

hhh

hhh

xbbbb

xbbxbb

YYe

)ˆ()ˆ(

)ˆˆ(

ˆ

1100

1010

Propriété:

0)( heE


Variance de la prévision

n

i

i

h

n

i

i

h

xx

xx

nxx

xx

n

1

2

2

2

1

2

2

22 11ˆ

1ˆˆ

Estimation:

Elle dépend de 2 composantes :

1. Variance due à l’estimation de E(Yh) par

2. Variance de Y inhérente à sa distribution

hy


Sample prediction ± (t-multiplier × standard error)

2

2

2

2,2

1

11ˆˆ

xx

xx

nty

i

h

nh

(1-) IC pour la réponse Yh


504030

250

150

50

Latitude

Mo

rtalit

yS = 19.1150 R-Sq = 68.0 % R-Sq(adj) = 67.3 %

Mortality = 389.189 - 5.97764 Latitude

95% PI

95% CI

Regression

Regression Plot


Documents

Modèle de régression linéaire: cas bivarié...U. Paris Ouest, M1 - Cours de Modélisation Appliquée Modèle de régression linéaire: cas bivarié Laurent Ferrara Février 2017