Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
U. Paris Ouest,
M1 - Cours de Modélisation Appliquée
Modèle de régression linéaire:
cas bivarié
Laurent Ferrara
Février 2017
U. Paris Ouest L. Ferrara, 2016-17
Soit 2 variables continues X et Y. On observe les unités
expérimentales : (xi , yi), pour i = 1, …, n.
• 1. Existe-t-il un lien entre X et Y?
• 2. Comment le mesurer ?
• 3. Comment modéliser ce lien?
• 4. Comment estimer les paramètres de ce modèle?
• 5. Comment valider ce modèle ?
• 6. Comment tirer partie de ce modèle pour prévoir les
valeurs d’une variable d’après les valeurs de l’autre?
U. Paris Ouest L. Ferrara, 2016-17
Exemple : données USA 1992 sur 50 états (state.x77)
Existe-t-il un lien entre :
les revenus d’un état et le nombre de ses « high-school graduates »?
Inc
Gra
3000 3500 4000 4500 5000 5500 6000
4045
5055
6065
U. Paris Ouest L. Ferrara, 2016-17
Causalité?
Existe-t-il un lien entre :
Le nombre de meurtres et l ’espérance de vie?
Murder
Life E
xp
2 4 6 8 10 12 14
68
69
70
71
72
73
U. Paris Ouest L. Ferrara, 2016-17
Existe-t-il un lien entre :
L’arrivée de migrants et le vote aux élections US ?
U. Paris Ouest L. Ferrara, 2016-17
Quel type de lien?
• Mise en évidence un lien linéaire entre les 2 variables.
– Y est considérée comme la variable à expliquer, ou indépendante, ou
exogène
– X est considérée comme la variable explicative, ou dépendante, ou
endogène.
• Relation statistique entre les 2 variables (non-déterministe) :
la connaissance de X n’implique pas la connaissance parfaite
de Y : il existe une erreur aléatoire autour de la valeur
prédite
U. Paris Ouest L. Ferrara, 2016-17
Comment mesurer un lien linéaire?
• Outil principal : Coefficient de corrélation linéaire
Estimateur empirique :
n
i
i
n
i
i
n
i
ii
YyXx
YyXx
YX
1
2
1
2
1
)()(
))((
),(
)()(
),(),(
YVXV
YXCovYXc
U. Paris Ouest L. Ferrara, 2016-17
Comment mesurer un lien linéaire?
• Signification :
• Test de Student
– H0 :
– H1 :
baXYqtbaYXc :..,1),(
?1),( YXc
0),( YX
0),( YX
U. Paris Ouest L. Ferrara, 2016-17
Comment mesurer un lien linéaire?
• Sous l’hypothèse nulle H0 :
suit une loi de Student à (n-2) dl
Donc, si
est tq : t* > on rejette H0 au risque
2)),(1(
),(
2 nYX
YX
2/1
2
nt
2)),(1(
),(*
2
nYX
YXt
U. Paris Ouest L. Ferrara, 2016-17
U. Paris Ouest L. Ferrara, 2016-17
Exemple :
Evolution des taux souverains à 10 ans pour US et Royaume Uni
Coefficient de corrélation de 0,92
Question économique:
quel est le degré d’indépendance des politiques monétaires ?
Lien avec le triangle d’incompatibilité de Mundell en macro inter
U. Paris Ouest L. Ferrara, 2016-17
Exemple :
Corrélation des taux souverains pour US et Royaume Uni
pour différentes maturités sous forme de heat map
Attention au piège : dépendance non linéaire
le coeff de corrélation ne mesure que la dépendance linéaire.
• Effectuer une analyse graphique au préalable pour identifier
la forme de la dépendance.
• Un coeff de corrélation élevé ne signifie pas forcément une
dépendance linéaire.
> cor(x, y)
[1] 0.99
> cor(x, y2)
[1] 0.246
> cor(x, y3)
[1] 0.854
> cor(x, yexp)
[1] 0.898
U. Paris Ouest L. Ferrara, 2016-17
x
y
-1 0 1
-10
1
x
y2
-1 0 1
01
23
x
y3
-1 0 1
-4-2
02
46
x
ye
xp
-1 0 1
01
23
45
6
U. Paris Ouest L. Ferrara, 2016-17
Attention au piège : Corrélation fallacieuse
Existence d’un coeff de corrélation non nul entre deux
variables qu’aucune théorie économique, physique … ne
relie.
2 cas :
– résultat purement aléatoire
– existence d’un troisième variable qui explique conjointement les 2
phénomènes (en général : le temps)
Exemple de Krugman :
lien désindustrialisation - délocalisation aux USA (Application à la France)
U. Paris Ouest L. Ferrara, 2016-17
empindus
4000,0
4100,0
4200,0
4300,0
4400,0
4500,0
4600,0
4700,0
mar
s-91
juil-
91
nov-
91
mar
s-92
juil-
92
nov-
92
mar
s-93
juil-
93
nov-
93
mar
s-94
juil-
94
nov-
94
mar
s-95
juil-
95
nov-
95
mar
s-96
juil-
96
nov-
96
mar
s-97
juil-
97
nov-
97
mar
s-98
juil-
98
nov-
98
mar
s-99
juil-
99
nov-
99
mar
s-00
juil-
00
nov-
00
mar
s-01
juil-
01
nov-
01
mar
s-02
juil-
02
nov-
02
mar
s-03
Evolution de l’emploi industriel France (Trimestriel 1991-2003)
U. Paris Ouest L. Ferrara, 2016-17
Imports
0,70
0,90
1,10
1,30
1,50
1,70
1,90
2,10
mar
s-91
juil-
91
nov-
91
mar
s-92
juil-
92
nov-
92
mar
s-93
juil-
93
nov-
93
mar
s-94
juil-
94
nov-
94
mar
s-95
juil-
95
nov-
95
mar
s-96
juil-
96
nov-
96
mar
s-97
juil-
97
nov-
97
mar
s-98
juil-
98
nov-
98
mar
s-99
juil-
99
nov-
99
mar
s-00
juil-
00
nov-
00
mar
s-01
juil-
01
nov-
01
mar
s-02
juil-
02
nov-
02
mar
s-03
Evolution des importations de biens en volume France 1991-2003
U. Paris Ouest L. Ferrara, 2016-17
Corrélation = - 0,50, t de Student = 3,99
Conclusion statistique : on rejette l’hypothèse H0 de nullité de
la corrélation linéaire entre les 2 variables
Conclusion économique rapide : les pays à faibles coûts
salariaux détruisent les emplois dans l ’industrie Française
Hypothèse alternative : les destructions d’emplois industriels
peuvent être causées en partie par la baisse des dépenses (en
valeur) des ménages en produits manufacturés, liée à la forte
hausse de la productivité dans l’industrie par comparaison
avec celle dans les services
U. Paris Ouest L. Ferrara, 2016-17
On remarque également que les coefficients de corrélation
entre chacune des variables et le temps sont de :
-0,75 pour l’emploi industriel
0,94 pour les imports
Exercice :
Proposer des exemples de corrélation fallacieuse
U. Paris Ouest L. Ferrara, 2016-17
Attention au piège :
Un coeff de corrélation nul ne signifie pas que les variables
sont indépendantes (sauf dans le cas Gaussien)
En particulier, il peut exister une relation sur les moments
d’ordre supérieur du modèle
Exemple : lien linéaire entre les variances de X et Y
(cas des processus ARCH en séries chronologiques)
U. Paris Ouest L. Ferrara, 2016-17
Autres outils de mesure de dépendance:
– Concordance
– Corrélation de rang (Tau de Kendall, coefficient de Spearman)
– Corrélation conditionnelle
– …
– L’expression générale de la dépendance ne peut se faire que par la
loi jointe.
Si celle-ci n’est pas calculable: concept de copules
U. Paris Ouest L. Ferrara, 2016-17
Comment modéliser un lien linéaire?
• Quel est le « meilleur » ajustement linéaire entre 2 v.a. ?
• Exemple : taux longs souverains / dette publique brute
U. Paris Ouest L. Ferrara, 2016-17
Notation
iy est la ième observation de la variable exogène
ix est la ième observation de la variable endogène
iy Est la valeur ajustée (estimée) de la ième observation
Equation de la meilleure
droite d’ajustement: ii xbby 10ˆ
U. Paris Ouest L. Ferrara, 2016-17
Erreur de prévision
(ou erreur résiduelle)
En utilisant iy pour prédire ,
iy
on fait une erreur de prévision:
iii yye ˆ
La droite d’ajustement qui colle le mieux aux
données est celle pour laquelle les n erreurs de
prévisions sont les plus petites possibles au sens
d’un certain critère. U. Paris Ouest L. Ferrara, 2016-17
Critère des “Moindres Carrés”
Choisir les valeurs b0 et b1 qui minimise la somme
des carrés des erreurs.
Equation de la droite : ii xbby 10ˆ
i.e. : minimiser:
2
1
ˆ
n
i
ii yyQU. Paris Ouest L. Ferrara, 2016-17
La droite de régression
Par le calcul, minimiser (dériver, annuler et résoudre
pour b0 et b1):
2
1
10
n
i
ii xbbyQ
et obtenir les estimateurs des moindres carrés
ordinaires (MCO) de b0 et b1:
n
i
i
n
i
ii
xx
yyxx
b
1
2
11ˆ xbyb 10
ˆˆ
U. Paris Ouest L. Ferrara, 2016-17
Remarques
En termes géométriques
• la droite de régression est celle qui minimise la distance
quadratique entre les points et les projections orthogonales
de ces points sur cette droite.
• la droite de régression est celle qui maximise la variance du
nuage de points projetés orthogonalement sur cette droite.
U. Paris Ouest L. Ferrara, 2016-17
Formalisation
Hypothèses du modèle linéaire :
• H1 : E(Yi) fonction linéaire des xi (déterministes)
yi = b0 + b1 xi + i , pour i=1,…,n
• H2 : Les erreurs, i, sont indépendantes entre elles
• H3 : E(i) = 0, les erreurs sont d’espérance nulle
(en moyenne le modèle est bien spécifié)
U. Paris Ouest L. Ferrara, 2016-17
• H4 : E(2i) = 2 , les erreurs sont de variance égale
pour toute valeur de X
(hypothèse d ’homoscédasticité)
• H5 : E(Xi i) = 0 , les erreurs,sont indépendantes des valeurs de X
• H6 : Hypothèse de Normalité
Les erreurs, i, sont identiquement distribuées selon la loi Normale.
U. Paris Ouest L. Ferrara, 2016-17
Estimation des paramètres
Quels paramètres ? b0 , b1 , 2
estimés par MCO
estimée par l’erreur quadratique moyenne ou Mean Squared Error (MSE)
2
10ˆ,ˆ,ˆ bb
10ˆ,ˆ bb
2
U. Paris Ouest L. Ferrara, 2016-17
La MSE est définie par :
On pondère par le nombre de degrés de liberté du modèle
défini par :
degrés de liberté = nbre d’observations - nbre de paramètres
2
ˆ
ˆ 1
2
2
n
YY
MSE
n
i
ii
U. Paris Ouest L. Ferrara, 2016-17
Loi asymptotique des paramètres
Les estimateurs MCO sont sans biais et convergents
• On montre que :
• On montre que :
Donc
00 )ˆ( bbE 11)ˆ( bbE
n
i
i Xx
bV
1
2
2
1
)(
ˆ)ˆ(
nsibV 0)ˆ( 1
U. Paris Ouest L. Ferrara, 2016-17
Loi asymptotique des paramètres
• De même,
n
i
i Xx
X
nbV
1
2
22
0
)(
1ˆ)ˆ(
nsibV 0)ˆ( 0
U. Paris Ouest L. Ferrara, 2016-17
Remarques
• Dans ce cadre, sous l ’hypothèse de normalité des erreurs,
estimateur MCO = estimateur EMV
• La variance estimée par le modèle est différente de la
variance empirique (valable pour tout échantillon qui suit le
modèle linéaire)
• La variance résiduelle mesure avec quelle amplitude les
valeurs de Y s ’écartent de la droite de régression.
– C ’est une mesure de la précision du modèle
– C ’est une mesure du risque associé au modèle
U. Paris Ouest L. Ferrara, 2016-17
Exemple : 2 précisions différentes
U. Paris Ouest L. Ferrara, 2016-17
Remarques
• Quel est le but du jeu de toute tentative de modélisation
d’une variable Y ?
Minimiser la variance résiduelle
Y = partie déterministe + partie aléatoire
Y = f(X) +
Par indépendance, V(Y) = V(f(X)) + V()
(Voir partie « Analyse de la Variance »)
U. Paris Ouest L. Ferrara, 2016-17
Validation du modèle
On valide le modèle à l’aide des tests statistiques.
2 types de tests d’hypothèses sont développés :
1) Tests sur les paramètres du modèle
2) Tests sur les résidus du modèle
U. Paris Ouest L. Ferrara, 2016-17
(1-) IC pour la pente
Formule en mots:
Paramètre estimé ± (t-multiplier × standard error)
Formule en notations:
22,
211
ˆˆ
Xx
tb
i
n
1b
U. Paris Ouest L. Ferrara, 2016-17
Test sur la pente
Null hypothesis H0: 1 = (en général =0)
Alternative hypothesis H1: 1 ≠ (en général 0)
1
1
2
1*bse
b
xx
MSE
bt
i
Test statistic
P-value = Risque maximum d’accepter H1 à tort (à
comparer avec le risque de première espèce )
La P-value est déterminée par référence à une t-
distribution avec n-2 degrés de liberté
1b
U. Paris Ouest L. Ferrara, 2016-17
Formule en notations:
Formule en mots:
Paramètre estimé ± (t-multiplier × standard error)
2
2
2,2
10
1ˆˆ
Xx
x
ntb
i
n
0b(1-) IC pour la constante
U. Paris Ouest L. Ferrara, 2016-17
Null hypothesis H0: 0 = (en général = 0)
Alternative hypothesis HA: 0 ≠ (en général 0)
P-value = Risque maximum d’accepter H1 à tort
(à comparer avec le risque de première espèce )
La P-value est déterminée par référence à une t-
distribution avec n-2 degrés de liberté.
0
0
2
2
0
1
*bse
b
xx
x
nMSE
bt
i
Test statistic
Test sur la constante 0b
U. Paris Ouest L. Ferrara, 2016-17
Test sur le terme d’erreur
Les intervalles et les tests précédents sont basés
sur la Normalité du terme d’erreur. Il importe
donc de tester les résidus.
– Test d’adéquation (Jarque-Bera, KS, …)
– Test graphiques (QQ-Plot)
Les résultats restent valides en cas d’écart à la loi
Normale si l’échantillon est grand. (résultats
asymptotiques) U. Paris Ouest L. Ferrara, 2016-17
Mesure de la qualité du modèle
On mesure la qualité du modèle par l’analyse de la variance
On montre les 2 relations suivantes :
• la somme des résidus est nulle, i.e. :
• la moyenne de la variable et la moyenne de la variable estimée sont égales, i.e. :
n
i
ie1
0
n
i
n
i
ii yy1 1
ˆ
U. Paris Ouest L. Ferrara, 2016-17
i
i
i
i
i
i eyyyy 222)ˆˆ()(
On en déduit l’équation de l’analyse de la variance: Variance totale = Variance expliquée + Variance résiduelle Objectif : Maximiser la variance expliquée
U. Paris Ouest L. Ferrara, 2016-17
• R2 : mesure de la variance expliquée
valeur entre 0 et 1
• Critères d’information : Akaike (1971)
n
i
i YY
R
1
2
22
)(
ˆ1
U. Paris Ouest L. Ferrara, 2016-17
Prévision
Que veut-on prévoir?
• La réponse «moyenne» de la population = E(Yh) pour une valeur xh
– Ex : Quel est le poids moyen pour une taille donnée?
(Plus précis que le poids moyen de l’échantillon)
• La réponse Yh(new) à une nouvelle valeur donnée xh
– Ex : Quel est le poids estimé par le modèle d’un nouvel individu choisi au hasard de taille donnée?
U. Paris Ouest L. Ferrara, 2016-17
est le meilleur estimateur dans chaque cas. hh xbbY 10
ˆ
En fait les 2 prévisions sont égales :
Seuls les intervalles de confiance autour des réponses vont varier
U. Paris Ouest L. Ferrara, 2016-17
Intervalle de confiance pour la
réponse moyenne de la population
E(Yh)
U. Paris Ouest L. Ferrara, 2016-17
Formule en notation:
Formule en mots:
Sample estimate ± (t-multiplier × standard error)
2
2
2
2,2
1
1ˆˆ
Xx
Xx
nty
i
h
nh
(1-) IC pour la réponse moyenne
E(Yh)
U. Paris Ouest L. Ferrara, 2016-17
Implications sur la précision
• Au plus les valeurs des xi sont étalées, au plus
l’intervalle de confiance est petit,
donc l’estimation de E(Yh) est plus précise.
• Suivant le même échantillon de xi, au plus la
valeur de xh est loin de la moyenne empirique, au
plus l’intervalle de confiance est grand,
donc l’estimation de E(Yh) est moins précise.
U. Paris Ouest L. Ferrara, 2016-17
Remarques
• xh est une valeur correspondant au champ de l’étude
mais pas nécessairement une valeur de l’échantillon
• L’IC pour E(Yh) est correct même si le terme
d’erreur est seulement approché par une loi Normale
• Si le nombre d’observations est grand, l’IC pour
E(Yh) est correct même si le terme d’erreur s’écarte
fortement d’une loi Normale
U. Paris Ouest L. Ferrara, 2016-17
Intervalle de Prévision pour la
réponse Yh(new) à une nouvelle
valeur xh(new)
U. Paris Ouest L. Ferrara, 2016-17
Prévision de Yh(new)
si la moyenne E(Y) n’est pas connue
ie : si les paramètres sont estimés
on rajoute une incertitude sur la moyenne
de Y
U. Paris Ouest L. Ferrara, 2016-17
La prévision est non biaisée
hh xbbY 10
ˆˆˆ
hh
hhh
hhh
xbbbb
xbbxbb
YYe
)ˆ()ˆ(
)ˆˆ(
ˆ
1100
1010
Propriété:
0)( heE
U. Paris Ouest L. Ferrara, 2016-17
Variance de la prévision
n
i
i
h
n
i
i
h
xx
xx
nxx
xx
n
1
2
2
2
1
2
2
22 11ˆ
1ˆˆ
Estimation:
Elle dépend de 2 composantes :
1. Variance due à l’estimation de E(Yh) par
2. Variance de Y inhérente à sa distribution
hy
U. Paris Ouest L. Ferrara, 2016-17
Sample prediction ± (t-multiplier × standard error)
2
2
2
2,2
1
11ˆˆ
xx
xx
nty
i
h
nh
(1-) IC pour la réponse Yh
U. Paris Ouest L. Ferrara, 2016-17
504030
250
150
50
Latitude
Mo
rtalit
yS = 19.1150 R-Sq = 68.0 % R-Sq(adj) = 67.3 %
Mortality = 389.189 - 5.97764 Latitude
95% PI
95% CI
Regression
Regression Plot
U. Paris Ouest L. Ferrara, 2016-17