48
Introduction à l’Econométrie Ecole Centrale de Paris Année 2006-2007 Pauline Givord 3 novembre 2006

Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Introduction à l’EconométrieEcole Centrale de Paris

Année 2006-2007

Pauline Givord

3 novembre 2006

Page 2: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Table des matières

1 Le modèle linéaire : les MCO 61.1 Introduction : le modèle linéaire simple . . . . . . . . . . . . . . . . . . . . . . 61.2 l’estimateur des moindres carrés ordinaires . . . . . . . . . . . . . . . . . . . . 7

1.2.1 le modèle linéaire général : écriture matricielle . . . . . . . . . . . . . 71.2.2 définition de l’estimateur des moindres carrés ordinaires . . . . . . . . 71.2.3 les équations normales . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.2.4 Interprétation géométrique . . . . . . . . . . . . . . . . . . . . . . . . 81.2.5 interprétation : effet d’une variable . . . . . . . . . . . . . . . . . . . . 91.2.6 propriétés algébriques . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.3 propriétés statistiques de l’estimateur des moindres carrés ordinaires . . . . . 121.3.1 l’estimateur des MCO est sans biais . . . . . . . . . . . . . . . . . . . 121.3.2 la variance de l’estimateur des MCO . . . . . . . . . . . . . . . . . . . 121.3.3 L’estimateur des mco est le plus précis : le théorème de Gauss-Markov 141.3.4 Mise en oeuvre des MCO sous le logiciel SAS . . . . . . . . . . . . . . 15

1.4 conclusion et résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2 Inférence : le modèle linéaire gaussien 162.1 tests et intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.1.1 Rappel sur les tests statistiques . . . . . . . . . . . . . . . . . . . . . . 162.2 L’estimateur des mco dans le modèle linéaire gaussien . . . . . . . . . . . . . 17

2.2.1 Loi du couple (β, σ2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2.2 Test sur la valeur d’un paramètre : la statistique de Student . . . . . . 182.2.3 Test unilatéral sur un coefficient . . . . . . . . . . . . . . . . . . . . . 192.2.4 Test bilatéral sur un coefficient . . . . . . . . . . . . . . . . . . . . . . 192.2.5 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . 202.2.6 mise en oeuvre sous sas des tests de significativité . . . . . . . . . . . 20

2.3 Propriétés asymptotiques de l’estimateur des MCO . . . . . . . . . . . . . . . 20

3 Le modèle linéaire sous contraintes 223.1 Exemple : fonction de production . . . . . . . . . . . . . . . . . . . . . . . . . 223.2 formalisation du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.3 Les moindres carrés sous contraintes . . . . . . . . . . . . . . . . . . . . . . . 23

3.3.1 Propriété de l’estimateur des moindres carrés contraint . . . . . . . . . 243.3.2 Estimation de la variance . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.4 Le test de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.4.1 La statistique de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . 243.4.2 Mise en oeuvre pratique des tests de contraintes linéaires sous SAS . . 253.4.3 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1

Page 3: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

4 Le modèle linéaire généralisé 284.1 Définition du modèle linéaire généralisé . . . . . . . . . . . . . . . . . . . . . 28

4.1.1 Ecriture matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284.1.2 Propriétés des mco dans le cadre du modèle linéaire généralisé . . . . 29

4.2 Détection de l’hétéroscédasticité . . . . . . . . . . . . . . . . . . . . . . . . . 294.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.2.2 Le test de Goldfeld et Quandt . . . . . . . . . . . . . . . . . . . . . . . 304.2.3 Le test de Breush et Pagan . . . . . . . . . . . . . . . . . . . . . . . . 31

4.3 Détection de l’autocorrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.3.2 test de l’hypothèse d’autocorrélation dans le cas du modèle AR(1) . . 32

4.4 Estimateur optimal dans le cadre du modèle généralisé . . . . . . . . . . . . . 33

5 Problèmes de spécification du modèle 365.1 choix des variables explicatives . . . . . . . . . . . . . . . . . . . . . . . . . . 36

5.1.1 omission d’une variable explicative . . . . . . . . . . . . . . . . . . . . 365.1.2 introduction d’une variable "en trop" . . . . . . . . . . . . . . . . . . 375.1.3 Erreur de mesure sur les variables . . . . . . . . . . . . . . . . . . . . 375.1.4 simultanéité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5.2 choix entre deux modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385.3 adéquation de la forme linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . 39

6 Variables dépendantes dichotomiques 406.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406.2 Expression générale du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . 40

6.2.1 Interprétation en terme de variable latente . . . . . . . . . . . . . . . 416.2.2 Interprétation des résultats : effet marginal d’une variation d’une va-

riable explicative x . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416.3 Estimation des modèles dichotomiques . . . . . . . . . . . . . . . . . . . . . . 416.4 Mise en oeuvre de tests simples dans le cas d’un modèle dichotomique . . . . 42

6.4.1 test de la nullité d’un coefficient . . . . . . . . . . . . . . . . . . . . . 426.4.2 test d’un ensemble de contraintes linéaires . . . . . . . . . . . . . . . . 42

6.5 Mise en oeuvre sous sas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426.6 Remarque : le modèle à probabilités linéaires . . . . . . . . . . . . . . . . . . 43

2

Page 4: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Introduction à l’économétrie

Définition

L’économétrie est un ensembre de techniques statistiques utilisées pour estimer des relationséconomiques, évaluer ou implémenter des politiques publiques ou industrielles. L’applicationla plus "visible" de l’économétrie est sans doute la prévision des grands indicateurs écono-miques comme le taux de croissance du PIB ou des taux d’intérêt. Elle dépasse largement cecadre macroéconomique : elle peut être utilisée par exemple pour prévoir la demande adresséeà un bien, ou évaluer les effets d’une réforme.

Les questions qu’on va se poser sont en général de la forme : "quelle est la relation entre unevariable y et une variable x1 ? Ou entre y et x2 ?" On formalise cela sous la forme :

y = f(x1, . . . , xk)

Le choix du modèle est déterminé directement par la théorie économique, ou simplement issude l’"intuition" économique.

Dans pratiquement toute la suite de ce cours, les variations de la variable d’intérêt y sontsupposées dépendre de variables (x1, x2, . . .) selon une relation linéaire. Plus précisément, onva écrire :

y = β0 + β1x1 + β2x2 + . . . (1)

Les données disponibles

L’une des raisons du développement de techniques statistiques spécifiques tient à la naturedes données qui sont mobilisées. Celles-ci sont généralement non expérimentales : les ques-tions posées rendent impossible (et peu souhaitable) un protocole expérimental. Les donnéesmobilisées par l’économètre sont de plusieurs types, chacunes soulevant des problèmes spéci-fiques :

1. des données en coupe : elles consistent en un échantillon de données sur des salariés,des consommateurs, une entreprise, des pays... collectées à un moment donné du temps.

2. des séries temporelles : elles consistent en des données sur une ou plusieurs variablescollectées à intervalles réguliers : les plus fréquentes sont les variables macroécono-miques, ou des données financières.

3. des données de panel : elles consistent en un échantillon de données sur des salariés, desconsommateurs, une entreprise, des pays,... collectées à intervalles réguliers du temps.Elles fournissent donc l’histoire d’un ensemble d’individus à plusieurs dates.

Ces données proviennent généralement d’échantillons supposés représentatifs issus de la po-pulation totale. Cela signifie en particulier que l’on ne pourra calculer qu’une estimationdes paramètres à partir de cet échantillon ; il n’est jamais certain qu’on "identifie" le vraiparamètre. Nous allons discuter ces notions plus en détail.

3

Page 5: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

paramètre estimé, vrai paramètre

comment estimer les paramètres ?

Tout d’abord, en terme pratique, il s’agit de calculer des estimateurs des paramètres dumodèle βj . Nous allons dans une première partie présenter une procédure d’estimation simple,l’estimateur des moindres carrés ordinaires.

quelles sont ses propriétés statistiques ?

Au delà de la question "technique" du calcul des estimateurs, il faut s’interroger sur sespropriétés statistiques. En fait, il s’agit de savoir si on estime "bien" les "vrais" paramètres βj .Les notions auxquelles on se réfère ici sont celles de l’inférence statistique. Il faut se souvenirque ce paramètre est estimé à partir d’un échantillon donné, c’est-à-dire un nombre fini Nd’observations pour lesquelles on dispose des mesures des variables qui nous intéressent.

Même s’il est tiré aléatoirement, cet échantillon est rarement parfait : il y a toujours unrisque qu’il ne soit pas exactement représentatif de la population qu’il est censé représenter.Le paramètre estimé à partir d’un échantillon ne correspondra donc pas exactement au vraiparamètre. Il est a priori dépendant de l’échantillon à partir duquel il a été calculé : si onutilise deux échantillons différents pour estimer les mêmes paramètres, il y a de grandeschances pour que les deux estimations soient différentes.

On va alors s’intéresser à la distribution de ce paramètre. Pour bien comprendre ce dont ils’agit, il faut imaginer qu’on puisse disposer d’un très grand nombre d’échantillons tirés àpartir de la même population initiale, et qu’on calcule à partir de chacun de ses échantillonsun estimateur du même paramètre : la distribution de notre estimateur correspond à lamanière dont cet ensemble de valeurs se répartit.

La première propriété attendue d’un estimateur est qu’il soit sans biais, c’est-à-dire que sonespérance soit égale au "vrai" paramètre. Pour reprendre notre situation fictive ci-dessus, ilfaut qu’en moyenne des estimations conduites sur des échantillons différents correspondentbien à la vraie valeur.

Une autre propriété importante est qu’il soit convergent, c’est-à-dire que si la taille del’échantillon N augmente, le risque de se tromper diminue : à la limite, si on pouvait observertout le monde, on s’attend à trouver le vrai paramètre.

Dans la réalité, on ne dispose que d’un seul échantillon, de taille finie, et donc d’un seulestimateur. Il est nécessaire de pouvoir établir un "diagnostic" à partir de cet estimateur : est-ce qu’on est très loin de la vraie valeur ? Pour cela, la moyenne, ou l’espérance du paramètrene suffit pas : il faut connaître toute la distribution du paramètre. Il sera alors possible decalculer un intervalle de confiance, c’est-à-dire un intervalle de valeurs à laquel le vraiparamètre appartient avec une probabilité donnée. Cet intervalle de confiance va dépendreen particulier de l’écart-type de l’estimateur. Il faut se souvenir que ce terme représente laracine carrée de la variance : il est donc directement lié à la précision de l’estimateur.

Dans les trois premiers chapitres, on va donc s’intéresser aux propriétés statistiques de l’es-timateur des moindres carrés ordinaires, et proposer des stratégies pour effectuer des tests.Comme on va le voir, cela nécessite de poser des hypothèses précises sur la distribution de l’er-reur d’échantillonnage. Les propriétés établies ne seront valables que sous ces hypothèses. Lesdeux chapitres suivant étudient ce que deviennent les propriétés de nos estimateurs lorsqueces hypothèses ne sont plus valides, et des méthodes pour détecter les cas de violation de ceshypothèses, quand cela est possible.

4

Page 6: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

le modèle est-il valide ?

Dans toute la discussion précédente, on a supposé que la relation (1) correspondait à laréalité. Il est cependant possible que cela ne soit pas le cas : dans ce cas, les résultats neseront pas interprétables. Deux notions sont importantes, qui doivent présider en particulierle choix des variables explicatives du modèle :– Effet causal : il est toujours possible de calculer une corrélation. Mais l’écriture même

du modèle (1) est dissymétrique : on cherche à expliquer une variable y d’après d’autresvariables x. Il faut être sûr que dans la réalité, le sens de la causalité va bien dans ce sens

– ceteris paribus on veut mesurer un effet d’une variable x1 sur y en soi, "toutes choses égalespar ailleurs" : il faut être sûr qu’il n’y pas d’effet en chaîne.

Enfin, on peut se demander si la forme linéaire est une représentation pertinente pour décrirela relation entre nos variables d’intérêt. On discutera plus de ce problème dans le chapitre 5.Lorsque les variables sont discrètes, ce qui est généralement le cas des variables "qualitatives",cette formulation n’est pas adaptée. Le chapitre 6 présente donc des techniques appropriéespour ces cas précis.

5

Page 7: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Chapitre 1

Le modèle linéaire : les MCO

On s’interroge sur la relation entre la variable y et ses déterminants potentiels x1, x2, . . .. Laquestion qu’on se pose est donc : de combien va varier y si x1 varie de tant ? On disposepour cela d’un échantillon aléatoire de N observations donnant des mesures de ces variables :(yi, x1i, x2i, . . .)i=1...N . On va supposer qu’il existe une relation linéaire entre la variable y etses déterminants potentiels.

1.1 Introduction : le modèle linéaire simple

Le modèle linéaire le plus simple ne s’intéresse qu’à un seul déterminant x de y. Plus préci-sément, on écrit :

y = β0 + β1x + u (1.1)

Terminologie

– y est généralement appelée variable dépendante, variable d’intérêt, ou encore variable ex-pliquée1

– x est généralement appelée variable indépendante, ou plus souvent variable explicative, ouencore variable de contrôle ou régresseur2.

– u est un terme d’erreur, encore appelé perturbation. Il représente les facteurs, autres quex, qui ont une influence sur y.

présentation du problème

La pente de l’équation β1, correspond à l’effet que l’on cherche à mesurer : à u constant, ellepermet de mesurer l’effet d’une variation de x sur y. A u fixé (i.e. en supposant que 4u = 0),on a en effet 4y = β14x.

L’objectif est d’obtenir une estimation "correcte" de β0 et β1. Pour cela, comme on va le voirdans la prochaine partie, on va proposer une méthode d’estimation, fondée sur la distancedes points observés à la droite d’estimation.

Cependant, en termes d’interprétation, il n’est pas certain que le paramètre estimé β1 (lechapeau sur le paramètre exprime qu’il s’agit d’une estimation du paramètre) soit une mesurecorrecte. En particulier, on cherche à mesurer l’effet de x sur y "toutes choses égales parailleurs", c’est-à-dire l’effet sur y uniquement imputable à une variation de x. Pour cela, il

1Elle est parfois appelée variable prédite ou endogène : ces termes sont plutôt à éviter car ils se réfèrent àdes notions différentes.

2On trouve aussi parfois le terme de variable exogène (à éviter).

6

Page 8: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

faut être sûr que le terme d’erreur u, qui représente les autres déterminants de y, ne réagitpas également à une variation de x.

Cette hypothèse est peu vraisemblable dans le cas du modèle linéaire simple. Par exemple, sil’on s’intéresse à l’effet du diplôme sur le salaire, il est probable que les autres déterminantsdu salaire sont également liés au diplôme : l’expérience professionnelle est l’un d’entre eux.Or elle est a priori également corrélé avec le diplôme : à âge donné, un individu plus diplôméaura acquis moins d’expérience, car la poursuite d’études se traduit aussi par une entrée plustardive sur le marché du travail. Ignorer cette corrélation peut donc conduire à des résultatsbiaisés.

Dans la suite, on va donc se placer dans un cadre plus réaliste, avec des régresseurs multiples.

1.2 l’estimateur des moindres carrés ordinaires

1.2.1 le modèle linéaire général : écriture matricielle

On se place dans le cadre plus général où on considère plusieurs variables explicatives, qu’onsuppose en nombre K. Le pendant de l’équation (1.1) dans le cadre général s’écrit alors :

yi = β0 + β1ix1i + . . . + βKixKi + ui (1.2)

Parce que cela allègera sensiblement les démonstrations par la suite, il est utile de recou-rir à une expression matricielle de cette expression, en "empilant" les N observations. Parconvention, on utilisera plutôt des majuscules pour désigner les variables écrites sous formevectorielle.

Y(N,1)

= β0 + β1 X1(N,1)

+ · · ·+ βK XK(N,1)

+ u(N,1)

= X(N,K+1)

β(K+1,1)

+ u(N,1)

(1.3)

où Y =

y1

...yN

et de même pour les K variables explicatives regroupées dans les K vecteurs

X1, . . . , Xk. X est la matrice des variables explicatives à laquelle on adjoint le vecteur constante = (1, . . . , 1)′.

Notre objectif est d’estimer un vecteur de paramètre β = (β0, β1, . . . , βK) "correct". On vavoir dans la suite quel sens donner à ce terme "correct".

On doit immédiatement imposer une première hypothèse sur les variables X pour que cesparamètres soient "identifiables", c’est-à-dire qu’il soit possible de les estimer de manièreunique :

H1 : rg(X) = K + 1

Autrement dit, les variables (e,X1, . . . , XK) sont linéairement indépendantes.

Si cette hypothèse n’est pas vérifiée, c’est-à-dire si les variables explicatives sont liées par unecombinaison linéaire, le vecteur de paramètre β qui vérifie (1.2) n’est pas défini de manièreunique. Supposons qu’il existe par exemple λ tel que Xλ = 0, alors β + aλ vérifie égalementl’équation (2.2), pour tout réel a.

1.2.2 définition de l’estimateur des moindres carrés ordinaires

On va alors s’intéresser à un estimateur particulier : l’estimateur des moindres carrésordinaires (MCO), qui minimise la distance moyenne entre les points observés, de coor-données (yi, 1, x1i, ..., xKi), et la droite "estimée", d’équation : yi = β0 +β1xi1 + . . .+βKxiK .

7

Page 9: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Il s’agit donc du vecteur de coefficients β = (β0, β1, · · · , βK) qui vérifie :

minβ

∑i

(yi − β0 − β1ix1i − ...βKixKi)2

Sous forme matricielle, l’objectif à minimiser s’écrit : β = Argminβ‖Y −Xβ‖2

1.2.3 les équations normales

Les équations normales correspondent aux conditions du premier ordre du programme :min ‖Y − Xβ‖2. Elles sont obtenues en dérivant ‖Y − Xβ‖2 par rapport au vecteur deparamètre β. On a immédiatement3 :

−2X ′(Y −Xβ) = 0 (1.4)

Sous l’hypothèse H1, les conditions du second ordre (i.e. ∂‖Y−Xβ‖2∂β∂β = 2X ′X définie positive)

sont vérifiées. L’estimateur des moindres carrés existe, est unique et a pour expression :

βmco = (X ′X)−1X ′Y

prédiction et résidu

Par définition, le vecteur Y = Xβmco s’appelle la prédiction de Y. Ce vecteur est de coor-données :

yi = β0 + β1xi1 + . . . + βKxiK

On définit également le vecteur (ui)i=1...N des résidus :

ui = yi − yi = yi − β0 − β1xi1 − . . .− βKxiK

1.2.4 Interprétation géométrique

Il est utile, en particulier parce que cela allègera nettement certaines démonstrations dans lasuite, de remarquer que l’estimateur des moindres carrés ordinaires a une interprétation entermes géométriques. Le programme de résolution des moindres carrés ordinaires correspondà chercher le vecteur Y de l’espace vectoriel £(X) qui minimise ‖Y − Y ‖2. On sait que leminimum est atteint lorsque Y est la projection orthogonale de Y sur £(X) i.e. Y = PXY =X(X ′X)−1X ′Y .

La prédiction de Y par l’équation, et son résidu, peuvent donc s’interpréter comme la pro-jection orthogonales de Y sur £(X) et £(X)⊥ respectivement.

On a Y = PXY et U = MXY où PX est le projecteur orthogonal sur £(X), et MX celui sur£(X)⊥.

3On rappelle que si la matrice A est symétrique : ∂∂X

(AX) = A′, ∂∂X

(X′A′) = A′, ∂∂X

(X′AX) =AX + A′X = 2AX.

8

Page 10: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

1.2.5 interprétation : effet d’une variable

modèle linéaire simple

On rappelle que dans ce cas le modèle s’écrit simplement y = β0 + β1x + u. "Toutes choseségales par ailleurs" (i.e à u constant), un accroissement d’un point de x se traduit par uneaugmentation de β1 points de y : ∆y = β1x.Dans ce cas, l’estimateur des moindres carrés ordinaires de β1 peut s’écrire comme :

β1 =∑

i=1...N (yi − y)(xi − x)(xi − x)2

Démonstration. Les équations normales dans ce cas simple s’écrivent : ∑i(yi − β0 − β1xi) = 0∑i xi(yi − β0 − β1xi) = 0

De la première on a que β0 = y − β1x et on déduit de la seconde que :∑i

xi(yi − y − β1(xi − x)) = 0

En remarquant que∑

i x((yi − y) =∑

i x((yi − y)(xi − x)) = 0, on retrouve l’expression deβ1.

Cette formulation appelle deux remarques :– l’estimateur β1 est simplement le coefficient de corrélation empirique des variables x et y.– pour qu’il puisse être estimé, il faut observer cette dernière dans des états différents. A la

limite, si cette dernière est constante (ce qui est a priori exclu par l’hypothèse H1) , il seraimpossible de calculer le paramètre. C’est par la comparaison de y et de x dans des étatsdifférents qu’il est possible de déduire l’effet de x sur y.

interactions de plusieurs variables explicatives

Pour interpréter l’effet estimé par les moindres carrés ordinaires d’une variable explicativeparticulière Xk sur la variable expliquée Y , il est utile de remarquer que le coefficient βk

estimé par les moindres carrés ordinaires (le kième terme du vecteur β = (X ′X)−1(X ′Y ))peut s’écrire (il s’agit d’une simple application du théorème de Frisch-Waugh, voir annexeA) :

βk = (r′krk)−1r′kY =P

i yirikPi r2

ik

où rk est le résidu de la régression de Xk sur toutes les autres variables explicatives : ilreprésente donc la part de Xk qui n’est pas corrélée avec les autres variables explicatives. Ondit qu’on a "contrôlé" de l’effet des autres variables.

9

Page 11: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

1.2.6 propriétés algébriques

On va alors dériver plusieurs propriétés algébriques de cette estimation. Pour cela, il est utilede remarquer que les équations normales s’écrivent simplement :

∑i ui = 0∑i xi1ui = 0

· · ·∑i xiK ui = 0

Remarque : Toutes les propriétés sont définies ici sous l’hypothèse que le modèle comporteun terme constant. Sinon, la première équation normale n’a pas lieu d’être. Par convention,les variables surlignées correspondent aux moyennes empiriques dans toute la suite.

les résidus sont de moyenne nulle

De la première équation normale ci-dessus, on déduit :

u =1N

N∑i=1

ui = 0 (1.5)

La moyenne empirique des résidus de l’équation est nulle. Comme on va le voir, cela signifieque la moyenne empirique de la variable prédite est égale à la moyenne empirique de lavariable dépendante.

Point moyen de l’échantillon

On a immédiatement :

y =1N

N∑i=1

yi =1N

N∑i=1

yi +1N

N∑i=1

ui

= y d’après (1.5)

Cela signifie en particulier que le point moyen de l’échantillon, de coordonnées (x1, . . . , xK , y)appartient à l’"hyperplan de régression", c’est-à-dire l’espace vectoriel engendré par les va-riables X (parfois simplement appelé droite de régression).

Equation d’analyse de la variance

La somme des carrés des résidus (SCR) est définie comme :

SCR =∑

i

u2i

Ce terme est lié à une mesure de la qualité de régression.– Tout d’abord, on rappelle que la variance empirique de la variable dépendante s’écrit :

1N

∑i(yi − y)2

– La variance empirique "prédite" s’écrit de même (on a vu que y = y) : 1N

∑i(yi − y)2

– Enfin, on définit la variance "résiduelle" : 1N

∑i ui

10

Page 12: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Démonstration. On écrit simplement :∑i=1...N

(yi − y)2 =∑

i=1...N

(yi − yi + yi + y)2

=∑

i=1...N

u2i +

∑i=1...N

(yi − y)2 + 2∑

i=1...N

ui(yi − y) (1.6)

Au facteur N près, le premier terme à droite de (1.6) correspond à la variance résiduelle, lesecond à la variance prédite. Quant au dernier terme, on déduit simplement des équationsnormales qu’il est nul.

L’équation d’analyse de la variance s’écrit :Variance totale = Variance expliquée + Variance résiduelle

Qualité de l’ajustement : le coefficient de détermination

On définit alors le coefficient de détermination R2 par :

R2 =Variance expliquée

Variance totale

Le R2 indique la part de la variance des yi expliquée par la régression et mesure ainsi lepouvoir explicatif du modèle.Le coefficient de détermination peut aussi s’exprimer en fonction de la somme des carrés desrésidus (SCR) :

R2 = 1− SCR∑i=1...N (yi − y)2

Propriétés :– Le R2 est compris entre 0 et 1. Il croît avec la qualité de l’ajustement.– le R2 augmente mécaniquement lorsque l’on introduit des variables explicatives supplé-

mentaires.Cette dernière propriété n’est pas bienvenue : elle signifie qu’il suffit d’ajouter arbitrairementles variables explicatives pour que le R2 augmente4. Celui-ci ne permet pas de mesurer laparcimonie du modèle, c’est-à-dire sa capacité à décrire la réalité avec un nombre restreintde variables.Pour corriger de cet effet, on peut utiliser un indicateur qui permet de tenir compte dunombre de variables explicatives. On appelle nombre de degrés de liberté du modèle laquantité dl = N-K-1. On définit alors le R2 ajusté :

R2adj = 1− N − 1

dl

SCR∑i(yi − y)2

Le modèle sans terme constant

On peut être amené à spécifier un modèle sans terme constant. Par exemple, si on estimele modèle linéaire en "différence" (∆y = β∆x + ∆u), il est vraisemblable que le modèlepasse par l’origine. Dans ce cas, la première équation normale ne tient plus, et les propriétésdémontrées ci-dessus ne tiennent plus. Il n’y a aucune raison que les résidus soient centrés etl’équation d’analyse de la variance n’est plus vérifiée. Cela signifie en particulier que le R2 nepeut pas être utilisé comme indicateur de la qualité de la régression. En pratique,ce type de modélisation est rare et doit reposer sur des hypothèses solides.

4A la limite, on pourrait utiliser autant de variables explicatives que d’individus dans notre échantillonN, ce qui permettrait de décrire complétement cet échantillon particulier. Le R2 serait alors de 1 : celane signifierait pas pour autant que le modèle estimé permettrait de décrire une "vraie" relation entre desvariables.

11

Page 13: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

1.3 propriétés statistiques de l’estimateur des moindrescarrés ordinaires

Il est toujours possible de calculer l’estimateur des moindres carrés ordinaires. En revanche,pour l’interpréter, il est nécessaire de faire des hypothèses supplémentaires.

1.3.1 l’estimateur des MCO est sans biais

La première propriété attendue de cet estimateur statistique est qu’il nous donne une mesurecorrecte du "vrai" paramètre β. Pour cela, il est nécessaire de faire une hypothèse sur laforme des termes d’erreur.

On va d’abord supposer qu’en moyenne, on ne se "trompe" pas : cela peut s’écrire E(u) = 0.En fait, cette hypothèse n’est pas très forte, dès lors que le modèle linéaire est spécifié avecune constante.

Ensuite, comme expliqué dans le cadre du modèle linéaire simple, il faut supposer que lesperturbations ne varient pas avec les variables explicatives, soit E(u/X) = E(u).

Au final, la deuxième hypothèse centrale du modèle linéaire s’écrit :

H2 : E[u/X]=0

Sous cette hypothèse, l’estimateur des moindres carrés ordinaires est sans biais :

E(β/X) = E[(X ′X)−1X ′Y/X] = (X ′X)−1X ′E[Y/X] = β

1.3.2 la variance de l’estimateur des MCO

Le fait que la propriété d’absence de biais soit satisfaite est important mais on a besoind’informations plus précises. On souhaite savoir si la vraie valeur peut se trouver loin del’estimateur. Une telle information est donnée par la précision de l’estimateur et on l’étu-die en considérant la variance. Pour la calculer, on va être amené à faire deux hypothèsessupplémentaires :H3(Homoscédasticité) : V(ui/X) = σ2, ∀iH4(Absence d’autocorrélation des résidus) : E[uiuj/X] = 0 ∀i, j, i 6= j

Ces deux dernières hypothèses s’écrivent sous forme matricielle :

H3−H4 : V(u/X)= σ2IN

Sous ces hypothèses, la variance de l’estimateur des mco conditionnellement aux variablesexplicatives est donnée par

V (βmco/X) = σ2(X ′X)−1

Démonstration. La variance conditionnelle est définie comme

V (βmco/X) = E([βmco − E(βmco/X)][βmco − E(βmco/X)]′/X)

Comme E(βmco/X) = β et βmco − β = (X ′X)−1X ′u

V (βmco/X) = (X ′X)−1X ′E(uu′/X)X(X ′X)−1 = σ2(X ′X)−1 sous H2

Il est utile d’interpréter la variance d’un paramètre particulier (i.e. un terme diagonal). Pourcela, on rappelle que l’estimateur βk de l’effet de la variable Xk dans la régression de Y surtoute les variables peut être obtenu comme la régression du résidu rk de la régression de Xk

sur toutes les autres variables sur la variable Y : βk = (r′krk)−1r′kY .

12

Page 14: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

On a alors :

V (βk/X) = V ((r′krk)−1r′ku/X)= (r′krk)−1r′kV (u/X)rk(r′krk)−1car rk ne dépend que de X

= σ2(r′krk)−1r′krk(r′krk)−1d’après H3 et H4= σ2(r′krk)−1

Un peu de manipulation permet d’exprimer cette équation en fonction de R2k, le coefficient de

détermination de la régression de la variable Xk sur toutes les autres variables explicatives,et de la variance empirique de Xk dans l’échantillon :

Vemp(Xk) =∑

i(xki − xk)2

N

Par définition, R2k = 1−

Pi r2

ikPi(xki−xk)2 . On en déduit que r′krk =

∑i r2

ik =∑

i(xki−xk)2(1−R2k).

Finalement :

V (βk/X) =σ2

N(1−R2k)Vemp(Xk)

Cette décomposition permet de mieux comprendre les déterminants de la précision.

Les déterminants de la précision

la variabilité de la variable explicative Xk, Vemp(Xk). Plus on observe de variabilité de lavariable Xk dans l’échantillon, et plus le paramètre pourra être estimé avec précision. Touteschoses égales par ailleurs, il faut observer la variable Xk dans suffisamment d’états différentspour pouvoir évaluer son effet sur la variable dépendante.

la relation linéaire des variables explicatives entre elles, R2k. Plus la variable Xk est liée

aux autres variables explicatives (i.e. R2k est proche de 1), et moins le paramètre sera estimé

avec précision. A σ2 et∑

i(xki−xk)2 donnés, la variance est minimale lorsque R2k = 0, c’est-

à-dire lorsque Xk n’est pas du tout corrélée avec les autres variables explicatives du modèle.Dit autrement, il faut que la variable Xk apporte de l’information supplémentaire par rapportaux autres variables explicatives pour que le paramètre βk soit estimé avec précision.

le nombre d’observations N. Plus on dispose d’observations, et plus l’estimateur seraprécis. Il faut faire attention à cette propriété : sur des petits échantillon, il est parfois difficiled’estimer correctement l’effet d’une variable. Nous rediscuterons de cet effet plus bas5.

un estimateur de la variance

La variance de β conditionnellement à X dépend de σ2, la variance des résidus. L’estimateurde σ2 fait intervenir la somme des carré des résidus estimés, normalisée par le nombre dedegrés de liberté :

σ2 =∑

i u2i

N −K − 1

Cet estimateur est sans biais :E(σ2/X) = σ2

5il faut remarquer que N intervient également dans Rk et Vemp, donc la convergence n’est pas immédiate :en fait, sous des hypothèses peu restrictives on montre que ces termes convergent vers des termes finis

13

Page 15: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Démonstration. La démonstration se fait simplement en utilisant que par définition, u cor-respond à la projection orthogonale sur l’espace £(X)⊥ : u = MXY = MXu.

E(σ2/X) =E[u′u/X]N −K − 1

=E[Tr(u′MXu)/X]

N −K − 1=

E[Tr(MXu′u)/X]N −K − 1

=Tr(E[MXu′u/X])

N −K − 1=

Tr(MXE[u′u/X])N −K − 1

=σ2Tr(MX)N −K − 1

= σ2 car dim(£(X)⊥) = N −K − 1

On en déduit donc un estimateur sans biais de la variance de l’estimateur des MCO :

V (β) =∑

i u2i

N −K − 1X ′X

1.3.3 L’estimateur des mco est le plus précis : le théorème de Gauss-Markov

On a jusque là introduit l’estimateur des moindres carrés ordinaires de manière ad hoc. On vamontrer ici qu’il est en réalité le meilleur estimateur sans biais, selon un critère d’optimalitéliée à la précision de l’estimateur.

Définition

Un estimateur β1 est optimal dans une classe d’estimateurs β si toute estimation d’unecombinaison linéaire du paramètre est estimée plus précisément avec β1 qu’avec n’importequel estimateur de la classe considérée :

∀λ, V (λ′β1) ≤ V (λ′β)

Cette propriété signifie que la matrice de variance V (β1) de β1 vérifie λ′V (β1)λ ≤ λ′V (β)λ∀λ, c’est-à-dire que V (β1)− V (β) est semi-définie négative.

Théorème 1 (Gauss-Markov). Sous les hypothèses H1-H4 l’estimateur des moindres carrésordinaires du modèle

Y = Xβ + u

est optimal dans la classe des estimateurs sans biais conditionnellement aux variables X.

Démonstration. Soit β un estimateur linéaire sans biais du paramètre β. Il existe donc unematrice A tel que cet estimateur s’écrit β = AY. L’hypothèse d’absence de biais signifieE[β/X] = β. Or E[β/X] = E[AY/X] = E[A(Xβ + u)/X] = AXβ + AE[u/X] = AXβ.L’absence de biais signifie donc AXβ = β. Ce résultat est vrai pour β quelconque donc :

AX = IK+1

On a en outre β − E[β/X] = A(Y − E[Y/X]) = Au. La variance d’un estimateur linéairesans biais quelconque est donc de la forme V (β/X) = V (Au/X) = AV (u/X)A′ = σ2AA′ car

14

Page 16: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

d’après les hypothèses H3 et H4 V (u/X) = σ2IN . Comme IN = PX +MX = X(X ′X)−1X ′+MX , on a :

V (β/X) = σ2AA′ = σ2A(X(X ′X)−1X ′ + MX)A′

= σ2(AX(X ′X)−1X ′A′ + AMXA′)

de AX = IK+1 et V (β/X) = σ2(X ′X)−1, on déduit

V (β/X) = V (β/X) + σ2AMXA′

La matrice AMXA′ est nécessairement semi-définie positive : l’estimateur optimal correspondà A = 0, i.e. à l’estimateur des mco β.

1.3.4 Mise en oeuvre des MCO sous le logiciel SAS

La procédure REG permet de mettre en oeuvre simplement les MCO. La syntaxe est sim-plement :proc reg data = nom_de_table;model y = x1 x2 . . . xK ;run ;

Outre les valeurs estimées des paramètres et de leur écart-type, elle fournit le R2 et le R2

ajusté, ainsi que d’autres statistiques qui seront étudiées plus loin.

1.4 conclusion et résumé

Dans ce chapitre, on a présenté le modèle linéaire général, et introduit quatre hypothèses(appelées les conditions de Gauss-Markov).

Y=Xβ + uH1 : rg(X)=K+1.H2 : E[u/X]=0H3 : V(ui) = σ2, ∀iH4 : E[uiuj ] = 0 ∀i, j, i 6= j.

On a alors défini un estimateur, l’estimateur des moindres carrés ordinaires, et donné sonexpression : β = (X ′X)−1X ′Y . Sous les hypothèses H1 à H4, on a montré que :

1. l’estimateur est sans biais2. il est le plus précis parmi les estimateurs linéaires sans biais

3. donné un estimateur sans biais de sa variance, qui s’écrit :P

ui(X′X)−1

N−K−1

4. proposé un indicateur de la qualité de l’estimation, le coefficient de détermination R2

Ces résultats sont néanmoins insuffisants pour donner des intervalles de confiance sur lesparamètres estimés et réaliser des tests d’hypothèse. C’est à cela que va s’attacher le chapitresuivant.

15

Page 17: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Chapitre 2

Inférence : le modèle linéairegaussien

Dans le chapitre précédent, on a étudié un estimateur des paramètres du modèle linéairegénéral, présenté ses propriétés et en particulier son espérance et sa variance. Pour allerplus loin et faire des tests ou établir des intervalles de confiance, il faut disposer de toute ladistribution de l’estimateur.Pour pouvoir l’étudier, il est possible de faire une hypothèse sur la distribution du termed’erreur u. La plus courante est de supposer qu’il suit une loi normale.Avant d’étudier ce que deviennent les propriétés de l’estimateur des moindres carrés ordinairesdans ce cadre, on rappelle les notions de base de l’inférence statistique.

2.1 tests et intervalles de confiance

Dans cette section, on va voir comment tester des hypothèses sur le paramètre βk. Pour biencomprendre ce que signifie le fait de tester une hypothèse, il faut se souvenir que le "vrai"paramètre βk est un paramètre inconnu, et que l’on ne peut jamais le connaître avec certitude.Cependant, on peut faire des hypothèses sur sa valeur, et utiliser l’inférence statistique pourles tester.

2.1.1 Rappel sur les tests statistiques

On va s’intéresser à une hypothèse, qu’on appelle par convention hypothèse nulle et qu’onnote H0.On va toujours tester la vraisemblance relative de cette hypothèse par rapport à une hypo-thèse alternative, que nous noterons ici Ha.La question qu’on va se poser sera : peut-on, avec suffisamment de vraisemblance, rejeterl’hypothèse nulle et accepter l’hypothèse alternative.L’hypothèse alternative n’est pas définie de manière unique. Par exemple, comme on va levoir, le test le plus classique porte sur l’effet réel d’une variable explicative sur la variabledépendante (test de significativité). L’hypothèse nulle dans ce cas s’écrit :

H0 : βk = 0

On peut tester cette hypothèse de nullité de coefficient contre l’hypothèse alternative Ha :βk 6= 0 (on parle alors de test bilatéral) ; mais également contre une hypothèse alternativeplus restrictive Ha : βk > 0 (test unilatéral).

16

Page 18: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Dans ce cadre de tests d’hypothèse, on peut faire deux types d’erreur :– Risque de première espèce (ou de type I) : rejeter l’hypothèse nulle H0 alors qu’elle est

vraie en réalité.– Risque de deuxième espèce (ou de type II) : accepter l’hypothèse nulle H0 alors qu’elle est

fausse en réalité.Il n’est jamais possible de savoir si on a "fait le bon choix" en acceptant (ou en refusant)l’hypothèse nulle. En revanche, il est possible de calculer la probabilité de faire une erreurde première espèce ou de deuxième espèce. Les mécanismes de choix auxquels on s’inté-resse ici permettent de contrôler du risque de première espèce. On définit un niveau designificativité, ou un seuil α du test comme la probabilité de faire une erreur de type I :α = P (RejeterH0/H0). En pratique, on commence par définir le niveau du test, qui cor-respond au seuil de tolérance que l’on se fixe sur le risque de première espèce. Les valeursusuelles pour α sont 0.01, 0.05 et 0.101.

Pour mettre en oeuvre un test, on va se munir d’une statistique de test T, qui sera unefonction des observations. La propriété attendue de cette statistique est que sa distributionstatistique soit indépendante de l’échantillon d’observations dont on dispose. Au test del’hypothèse H0 va correspondre une région critique W, qui sera définie comme l’ensembledes réalisations des observations qui conduisent à accepter l’hypothèse alternative Ha au seuilα.

En pratique, on va :1. fixer un niveau α du test2. calculer la valeur de la statistique de test T "réalisée" dans notre échantillon, à partir

des valeurs observées des paramètres du modèle.3. définir la région critique, qui dépend du niveau du test, et de la distribution de la

statistique du test.4. si la statistique de test appartient à la région critique, on refuse l’hypothèse H0. Sinon,

on l’accepte.Il faut bien comprendre que la région critique de test dépend du niveau du test α et estdirectement liée au risque de première espèce. Si la statistique de test appartient à la régioncritique W(α), on a moins de α chance de se tromper en refusant l’hypothèse H0 alors qu’elleest vraie. On dira qu’on refuse l’hypothèse H0 au seuil α. A l’inverse, si la statistique de testn’appartient pas à la région critique, on dira qu’on ne peut pas refuser l’hypothèse H0 auseuil α.

2.2 L’estimateur des mco dans le modèle linéaire gaussien

2.2.1 Loi du couple (β, σ2)

On suppose donc que :

H5 : la loi de u conditionnellement aux variables explicatives X est une loi normale demoyenne nulle et de matrice de variance σ2IN .

u |X ; N(0, σ2IN

)La normalité des termes d’erreur se translate directement à l’estimateur.

Théorème 1. – L’estimateur du paramètre des mco βmco est distribué comme une loi nor-male de moyenne β la vraie valeur du paramètre, et de matrice de variance σ2(X ′X)−1 :βmco ; N

(β, σ2(X ′X)−1

)1Une fois fixé le niveau du test, la puissance π du test est définie par : π(θ) = 1− P (TypeII/θ) où θ est

la vraie valeur du paramètre. L’étude de cette notion dépasse le cadre de ce cours.

17

Page 19: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

– L’estimateur σ2, convenablement normalisé, est distribué suivant une loi du χ2 à dl =N −K − 1 degrés de liberté

[N −K − 1]σ2

σ2∼ χ2 (N −K − 1)

– βmco et σ2 sont indépendants

Rappel– Si Z ; N (0, IL) , alors par définition

∥∥Z2∥∥ = Z ′Z =

∑Ll=1 Z2

l ∼ χ2 (L)– Si P est un projecteur orthogonal sur un sous espace de dimension L1 alors Z ′PZ ∼ χ2 (L1)

Démonstration. L’estimateur des MCO peut s’écrire : βmco = β + (X ′X)−1X ′u. Condition-nellement à X, il s’écrit donc comme une combinaison linéaire d’un vecteur normal, ce quisuffit pour montrer qu’il suit également une loi normale. De même, les résidus de la régres-sion u = MXu suivent une loi normale, indépendante de βmco (chacun s’obtient comme

projection d’une loi normale sur deux sous espaces orthogonaux). Donc σ2 = ‖u2‖N−K−1 est

également indépendant de βmco. On déduit directement la loi de σ2, de la propriété rappeléeplus haut.

De la même façon, on montre que βk (resp. σk), le paramètre estimé par les moindres carréscorrespondant à la kième variable (resp. l’estimateur de l’écart type βk, soit le kième termediagonal de σ2(X ′X)−1) suit une loi normale N(βk, σ2((X ′X)−1)kk) (respectivement une loidu χ2 à N-K-1 degrés de liberté). Ces deux variables aléatoires sont indépendantes 2.

2.2.2 Test sur la valeur d’un paramètre : la statistique de Student

Pour tester des valeurs sur un paramètre βk à partir de l’estimateur βk, on cherche unestatistique de test.

On va alors construire la statistique suivante :

t =βk − βk

σk

Cette variable est très utilisée. Elle est appelée la statistique de Student, ou encore t deStudent, ou simplement le Student, du paramètre βk.

On montre alors le résultat essentiel suivant :

Theorème 1. Sous l’hypothèse de normalité des perturbations H5, pour une composantedonnée k du paramètre on a :

βk − βk

σk∼ Student (N −K − 1)

Démonstration. Ce résultat découle directement du théorème 1 et de la définition des loisde Student : Si X1 suit une loi normale N (0, 1) et X2 suit une loi du χ2 (H) à H degrés deliberté, et si X1 et X2 sont indépendants alors

S =X1√X2/H

∼ Student (H)

2il suffit de vérifier que ces variables sont des projections orthogonales des vecteurs β et de l’estimateurde sa matrice de variance covariance

18

Page 20: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

On va voir dans les parties suivantes comment ce résultat nous permet de faire des tests surla valeur d’un coefficient. On distingue deux types de tests, suivant l’hypothèse alternativeretenue : les tests unilatéraux, et les tests bilatéraux.

2.2.3 Test unilatéral sur un coefficient

On souhaite tester si le paramètre βk est égal à une valeur β0k fixée, contre l’hypothèse

alternative qu’il n’est pas strictement supérieur à cette valeur. L’hypothèse nulle s’écrit doncH0 : βk = β0

k, contre l’hypothèse alternative Ha : βk > β0k.

En utilise alors la statistique de test de Student. D’après le résultat précédent, la régioncritique de ce test pour un niveau α s’écrit :

W = βk − β0k

σk> t1−α

N−K−1

où t1−αN−K−1 est le fractile d’ordre 1 − α de la loi de Student à N −K − 1 degrés de liberté,

c’est-à-dire la quantité telle que, pour une variable aléatoire St suivant une loi de Student àN −K − 1 degrés de liberté : P (St > t1−α

N−K−1) = α.

En pratique, on va rejeter l’hypothèse nulle H0 au seuil α lorsque le t de Student est dans larégion critique, car on a alors moins de α risque de se tromper en rejettant H0.

2.2.4 Test bilatéral sur un coefficient

Le test bilatéral de valeur d’un coefficient correspond à une hypothèse alternative moinsrestrictive : l’hypothèse nulle s’écrit toujours H0 : βk = β0

k, mais l’hypothèse alternative estmaintenant Ha : βk 6= β0

k.

On va faire intervenir ici la valeur absolue de la statistique. Plus précisément, la régioncritique de ce test pour un niveau α s’écrit :

W = |βk − β0k|

σk> t

1−α/2N−K−1

où t1−α/2N−K−1 est le fractile d’ordre 1− α

2 de la loi de Student à N −K − 1 degrés de liberté.

La démonstration (non détaillée ici) est liée au fait que la distribution du Student est symé-trique : P (St < t

1−α/2N−K−1) = 1− α/2, et de façon similaire P (S > t

1−α/2N−K−1) = α/2

Si le t de Student est dans la région critique, on a moins de α chances de se tromper enrejettant l’hypothèse H0.

Application : Test de significativité d’un paramètre

L’application la plus fréquente de ce résultat est le test de la significativité d’un paramètre :on va tester s’il est significativement (à un seuil fixé) différent de zéro.

Dans ce cas, le test H0 : βk = 0 contre Ha : βk 6= 0 au seuil de 5%, la région critique s’écrit :

W =|βk|σk

> t0.975N−K−1

Si N est grand, alors t0.975N−K−1 est proche de 2. Il suffira alors de comparer |βk|

σkà 2. Autrement

dit, si |βk| est supérieur au double de l’écart-type estimé, on rejettera l’hypothèse de nullitédu coefficient βk au seuil de 5% (règle des deux écart-types).

19

Page 21: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Significativité statistique versus significativité "économique"

La significativité statistique est importante : elle permet de dire si, à partir des données dontnous disposons, on peut croire que la variable Xk a vraisemblablement un effet sur la variabledépendante Y . Attention néanmoins de ne pas se focaliser uniquement sur cette significati-vité statistique : celle-ci exprime surtout qu’un paramètre est estimé avec suffisamment deprécision. Elle n’est pas liée à la valeur de ce paramètre, et donc à la "taille" de l’effet decette variable.

Une variable peut avoir un effet statistiquement significativement différent de zéro, maisquantitativement très faible, et être donc "négligeable" en termes économiques.

2.2.5 Intervalles de confiance

On va également donner des intervalles de confiance pour le paramètre.

Définition : Un intervalle de confiance pour le paramètre βk au niveau α est un intervalle[a, a] tq P (βk ∈ [a, a]) = 1− α.

Sous les hypothèses H5, soit βk la kième composante de l’estimateur des mco et σk =√σ2

k l’estimateur de son écart-type, alors l’intervalle de confiance de longueur minimale duparamètre βk au niveau α est :

[βk − σkt1−α/2N−K−1, βk + σkt

1−α/2N−K−1]

où t1−α/2N−K−1 est le quantile d’ordre 1−α/2 d’une loi de Student à N −K−1 degrés de liberté.

Démonstration. Par application des résultats précédents, on a immédiatement que S =βk−βk

σk; Student (N −K). Comme la loi de Student est symétrique, on en déduit que

l’intervalle de longueur minimale auquel S appartienne avec probabilité 1− α est

P (S ∈ [−t1−α/2N−K−1, t

1−α/2N−K−1]) = 1− α

dont on déduit immédiatement l’expression des bornes de l’intervalle de confiance.

2.2.6 mise en oeuvre sous sas des tests de significativité

Les sorties de la procédure reg comprennent le paramètre estimé par les moindres carrésordinaires, ainsi que son écart-type estimé. Elles comprennent également le T de Studentde l’hypothèse de nullité d’un paramètre (= βk/σk) et la Pvalue, c’est-à-dire la probabilitéqu’une loi de Student (i.e la loi que suivrait la statistique si l’hypothèse H0 est vraie) prenneune valeur égale ou supérieure à celle observée. Cette Pvalue est directement liée au risquede première espèce : on a Pvalue risque de se tromper en rejetant H0 alors qu’elle est vraie.

2.3 Propriétés asymptotiques de l’estimateur des MCO

L’hypothèse de normalité est nécessaire pour effectuer des tests, dits "à distance finie" (c’est-à-dire lorsque le nombre d’observations est fini). Quand le nombre d’observations devientgrand, il est possible de s’affranchir de cette hypothèse supplémentaire. On peut montrer queles propriétés asymptotiques de l’estimateur (i.e. quand le nombre d’observations tend versl’infini- en pratique quand il est suffisamment grand) sont les suivantes :

1. Sous l’hypothèse X′XN →

N→+∞Q, matrice définie positive, β est un estimateur convergent

de β.

20

Page 22: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

2. Sous l’hypothèse supplémentaire que les éléments du vecteur u sont indépendants etidentiquement distribués, alors l’estimateur des mco suit asymptotiquement une loinormale : √

N(β − β)→loi

(0, σ2( limN→∞

X ′X

N)−1)

etσ2 proba→ σ2

Ces propriétés asymptotiques permettent d’effectuer des tests asymptotiques sur les coeffi-cients sans avoir à supposer la normalité des perturbations. Par exemple, si on veut testerdans le modèle linéaire généralisé l’hypothèse H0 : βk = β0

k contre H1 : βk 6= β0k, on retiendra

comme statistique de test :

ξ =βk − β0

k

σQ

où Qk désigne le kième terme diagonal de la matrice Q.

Sous l’hypothèse H0, on sait que :√

N(βk − β0k)

σQk

Loi→ N (0, 1)

etσ2 proba→ σ2

donc, √N(βk − β0

k)σ2Qk

Loi→ N (0, 1)

Cette loi asymptotique permet de trouver la région critique optimale du problème de test auseuil α :

W = (y1, ..., yn)/√

N |bk − β0k|

σ2Qk> u1−α/2

où u1−α/2 désigne le fractile d’ordre 1− α/2 de la loi normale centrée réduite.

Il faut remarquer que ces résultats sont tout à fait en accord avec les propriétés étudiées plushaut, lorsque N est fini : en effet, la loi de Student à N degrés de liberté tend vers une loinormale centrée réduite quand le nombre de degrés de liberté tend vers l’infini. Lorsque lenombre d’observations est élevé, les deux tests sont donc équivalents.

Rappel sur les convergences :

On dit que (Xn) converge en probabilité vers X (XnP→ X ou plimn→∞ Xn = X) si

∀ε > 0, Pr |Xn −X| > ε −→n→∞

0.

On dit que (Xn) converge en loi vers X (XnL→ X) si la suite des fonctions de répartition

associées (Fn) converge, point par point, vers F la fonction de répartition de X en tout pointoù F est continue :

∀x, Fn(x) → F (x).

21

Page 23: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Chapitre 3

Le modèle linéaire sous contraintes

Dans le chapitre précédent, on a vu comment, sous l’hypothèse de normalité des résidus del’équation linéaire, on pouvait faire des tests sur la valeur des paramètres. Il est souventnécessaire de tester des relations plus compliquées : par exemple pour tester une relationprédite par la relation économique (comme dans l’exemple ci-dessus). Nous allons voir icicomment tester un ensemble de contraintes linéaires.

3.1 Exemple : fonction de production

La fonction de production en fonction du capital et du travail est souvent modélisée dans lathéorie économique par une fonction de type Cobb-Douglas, sous la forme :

Qt = ANβt K1−β

t

- Nt : le travail- Kt : le capital- Qt : la productionOù l’existence de rendements constants se traduit par le fait que le coefficient du travail etdu capital somme à un.

Supposons qu’on dispose d’un échantillon de N entreprises, on pourra alors pour estimer lesparamètres de cette équation introduire le modèle linéaire suivant :

LogQt = α + βLogNt + γLogKt + ut

On pourra alors tester si la contrainte de rendements constants est bien vérifiée. Elle s’écrità partir des coefficients de l’équation : γ + β = 1. Par ailleurs, pour rendre le modèle plusréaliste, on peut introduire une tendance temporelle, captant une croissance tendancielle dela demande :

LogQt = α + βLogNt + γLogKt + δt

100+ ut

Et tester si la croissance de la production est égale à un certain niveau : simultanément à larelation linéaire précédente, on peut par exemple tester δ = 3. Nous allons voir dans la suitecomment tester ces relations linéaires simples dans le cadre du modèle linéaire.

3.2 formalisation du problème

On reprend le formalisme du modèle linéaire précédent, mais on va introduire en plus cescontraintes linéaires. Plus précisément, si le vecteur β des paramètres du modèle est supposé

22

Page 24: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

vérifier un ensemble de p contraintes linéaires, on introduit la matrice R à p lignes et Kcolonnes et un vecteur r à coefficients réels à p lignes correspondant à cet ensemble decontraintes. Le problème s’écrit alors :

Y = Xβ + u

avec rgX = Ku = 0u = σ2IN

R(p,K)

β = r, p < K, rgR = p

Dans l’exemple précédent de la fonction de production, nos deux contraintes sont ainsi résu-mées par : (

0 1 1 00 0 0 1

) αβγδ

=(

13

)

Remarque : Le nombre de contraintes ne peut évidemment excéder le nombre de paramètresdu modèle (p < K), sinon on pourrait les calculer analytiquement.

3.3 Les moindres carrés sous contraintes

On va alors chercher un estimateur vérifiant cette relation. Comme précédemment, on s’in-téresse à l’un estimateur minimisant la somme des carrés des résidus, mais en se restreignantaux estimateurs vérifiant la contrainte. Le programme d’optimisation s’écrit donc :

minβ‖y −Xβ‖2 sous la contrainte Rβ = r

proposition : Si β est l’estimateur des mco et βcc est l’estimateur des moindres carréscontraints, on a :

βcc = βmco + (X ′X)−1R′(R(X ′X)−1R′)−1(r −Rβmco) (3.1)

L’estimateur des moindres carrés contraints apportent une correction à l’estimateur desmoindres carrés ordinaires d’autant plus grande que Rβmco − r est grand. Si l’estimateurdes moindres carrés ordinaires vérifie la contrainte (Rβmco = r), les deux estimateurs sontidentiques.

Démonstration. Le lagrangien s’écrit :

Λ = ‖y −Xβ‖2 − λ′(Rβ − r), λ ∈ Rp

L’estimateur des moindres carrés contraints βcc vérifie :∂Λ∂β = −2X ′(Y −Xβcc)−R′λ = 0∂Λ∂λ = Rβcc − r = 0

On a donc : βcc = (X ′X)−1(X ′Y −R′λ/2) = βmco − (X ′X)−1R′λ/2R(X ′X)−1(X ′Y −R′λ/2) = Rβmco −R(X ′X)−1R′λ/2 = r

On en déduit que λ/2 = [R(X ′X)−1R′]−1[Rβmco − r] et on obtient l’expression de βcc en leremplaçant dans la première équation.

23

Page 25: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

3.3.1 Propriété de l’estimateur des moindres carrés contraint

Il faut noter que tant que l’hypothèse H2 est vérifiée, l’estimateur des MCO est toujours sansbiais. De l’expression précédente on déduit que :

E(βcc/X) = β − (X ′X)−1R′[R(X ′X)−1R′]−1(Rβ − r)

Donc :– si les contraintes sont valides, l’estimateur des moindres carrés contraints est sans biais.– dans le cas contraire, il sera biaiséPar ailleurs, on peut montrer que si les contraintes sont valides, alors l’estimateur desmoindres carrés contraints est optimal parmi les estimateurs linéaires sans biais de β vé-rifiant la contrainte.

3.3.2 Estimation de la variance

Cet estimateur est fondé sur la somme des carrés des résidus contraints. Pour qu’il soit sansbiais, on le définit de la façon suivante :

σ2cc =

u′ccucc

T − (K + 1) + p

avec ucc = y −Xβcc

3.4 Le test de Fisher

On a vu comment calculer un estimateur de β qui vérifie les contraintes. Notre objectif estde tester si ces contraintes sont plausibles. Le test de Fisher repose sur la comparaison desrésultats des régressions par les moindres carrés avec ou sans contraintes. Comme on l’a vudans la section précédente, si les contraintes ne sont pas valides, l’estimateur des moindrescarrés contraints est biaisé : les résultats de la régression effectuée en imposant les contraintesseront donc probablement de moins bonne qualité que la régression simple.

On va se placer dans le cadre du modèle linéaire gaussien, et supposer que les résidus suiventune loi normale : u → N (0, σ2IN ). On va alors tester :

H0 : Rβ = r contre Ha : Rβ 6= r

3.4.1 La statistique de Fisher

Le test de Fisher est fondé sur la statistique de test :

F =SCR0 − SCRa

SCRa

dladl0 − dla

où SCR0 est la somme des carrés des résidus du modèle sous l’hypothèse H0 (donc obtenueavec l’estimateur βcc), dl0 = N − (K−1−p), le nombre de degrés de liberté sous l’hypothèseH0, et SCRa est la somme des carrés des résidus du modèle sous l’hypothèse Ha (doncobtenu avec l’estimateur β), dla = N −K−1 le nombre de degrés de liberté sous l’hypothèsealternative.

On montre que cette statistique de test suit une loi de Fisher, à (dl0 − dla, dla) degrés deliberté.

F =SCR0 − SCRa

SCRa

dladl0 − dla

→ F(dl0 − dla, dla)

24

Page 26: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Rappel : la loi de Fischer correspond par définition à la loi du ratio de deux variables aléatoiressuivant des lois de chi2 indépendants, normalisés par leurs nombres de degrés de liberté. SiQ1 ∼ χ2 (q1) et Q2 ∼ χ2 (q2) et Q1 ⊥ Q2 alors Z = Q1/q1

Q2/q2∼ F (q1, q2) loi de Fisher à q1 et q2

degrés de liberté.

Démonstration. Notons ymco = Xβmco la valeur prédite par l’estimation des moindrescarrés ordinaires, ymcc = Xβmcc la valeur prédite par l’estimation sous contraintes.

La statistique de Fisher correspond en fait à :

F =‖ ymco − ymcc ‖2

pσ2

En effet, par définition : SCR0 =‖ y− ymcc ‖2 ; SCRa =‖ y− ymco ‖2 et umco = y− ymco ∈£(X)⊥, tandis que ymcc − ymc0 ∈ £(X).Le terme au numérateur vient donc simplement d’une application du théorème de Pytha-gore. Quant au dénominateur, il s’agit de la définition de σ2.Avec un peu de manipulation et en utilisant l’expression de βmcc en 3.1, on a :

F =(Rβ − r)′(R(X ′X)−1R′)−1(Rβ − r)

σ2p/σ2

σ2

–– on a déjà montré que dans le cadre gaussien :

(N −K − 1)σ2

σ2→ χ2(N −K − 1)

– reste à montrer que le numérateur de F suit un χ2 à p degrés de liberté. Si le modèle estgaussien, βmco → N(β, σ2(X ′X)−1). Ce qui implique que :

Rβ → (Rβ, σ2R(X ′X)−1R′)

Donc,(Rβ −Rβ)′(R(X ′X)−1R′)−1(Rβ −Rβ)

σ2→ χ2(p)

– Sous l’hypothèse H0 : Rβ = r, et par définition de la loi de Fischer, on obtient le résultat.

3.4.2 Mise en oeuvre pratique des tests de contraintes linéaires sousSAS

Pour faire des tests de contraintes linéaires, il suffit d’ajouter l’option test dans la procédureutilisée.Par exemple, si on s’intéresse au modèle linéaire y = β0 + β1x1 + β2x2 + β3x3, sous lescontraintes β2 + β3 = 3 et β1 = 5, la syntaxe sera :

proc model data=matable ;model y=x1 x2 x3 ;test x2 + x3 = 3, x1 = 5 ;run ;

La procédure fournit la statistique du test de Fischer de l’hypothèse et la "Pvalue" (laprobabilité d’observer cette valeur de la statistique de test, si elle suit effectivement une loide Fischer, c’est-à-dire si H0 est vraie).

25

Page 27: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

3.4.3 Applications

Test de significativité de l’ensemble des coefficients

Le test de Fisher permet de tester l’hypothèse H0 : β1 = β2 = ... = βK = 0, ce qui revient àtester si le fait d’introduire des variables autres que la constante est pertinent.

Si les K contraintes sont vérifiées (H0 est vraie), le modèle s’écrit : yi = β0 +ui. L’estimateurdes moindres carrés contraints est simplement : β0 = y. La somme du carré des résidus dumodèle sous contraintes SCR0 est donc : SCR0 = Σi(yi− y)2. Soit SCR la somme des carrésdes résidus de la régression par les moindres carrés ordinaires (donc sous l’hypothèse Ha).

La statistique de Fischer s’écrit : = Σi(yi−y)2−SCRSCR

N−(K+1)K ∼ F (K, N − (K + 1)). Cette

statistique peut s’écrire de manière plus simple en fonction du R2. En effet par définition duR2 :

SCR = (1−R2)(∑

i

(yi − y)2)

On déduit donc une écriture plus simple de F :

F =R2

1−R2

N − (K + 1)K

∼ F (K, N − (K + 1))

Si F est supérieure au fractile d’ordre (1− α) de la loi de Fisher à (K, N − (K + 1)) ddl, onrefuse l’hypothèse H0 de nullité jointe des coefficients.

La procédure SAS fournit toujours par défaut le test de nullité jointe des coefficients.

Test de Chow (ou de changement de régime)

On souhaite savoir si un modèle de comportement a changé entre deux sous-périodes, ou estdifférent entre deux sous-populations. On dispose d’observations sur deux sous-périodes det = 1 à T1 et de t = T1 + 1 à t = T1 + T2 (ou deux sous-populations). On modélise alors cesdonnées par y = X1β1 +u1 sur la première sous-période et par y = X2β2 +u2 sur la seconde,et on veut tester : H0 : β1 = β2 contre Ha : β1 6= β2.Pour résoudre ce problème, on empile les observations de la manière suivante :(

y1

y2

)=

(X1 00 X2

) (β1

β2

)+

(u1

u2

)Soit

y(T1+T2,1)

= X(T1+T2,2K)

β(2K,1)

+ u(T1+T2,1)

avec les hypothèses u = 0u = σ2IT1+T2

Le test de changement de régime H0 : β1 = β2 contre Ha : β1 6= β2 est en fait un casparticulier du test de Fisher avec SCRa = SCR1 + SCR2 où SCR1 désigne la somme descarrés des résidus sur la première sous-période et SCR2 la somme des carrés des résidus surla seconde. La statistique de test F est alors :

F =SCR0 − (SCR1 + SCR2)

SCR1 + SCR2

T1 + T2 − 2(K + 1)K + 1

La région critique du test de Chow est alors :

W = F > f1−α(K + 1, T1 + T2 − 2(K + 1))

avec f1−α(K, T1+T2−2K) fractile à l’ordre 1−α d’une loi de Fisher à (K+1, T1+T2−2(K+1)degrés de liberté.

26

Page 28: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

mise en oeuvre du test

1. On fait la régression sur l’ensemble de notre échantillon(N1 + N2 observations) et onen déduit SCR0.

2. On estime le modèle sur les deux sous-échantillons séparément, et on calcule SCRa enadditionnant les deux sommes des carrés des résidus obtenues.

3. On calcule alors la statistique de Fischer associée au test : SCR0−(SCR1+SCR2)(SCR1+SCR2)

×N1+N2−2(K+1)

(K+1) et on la compare au seuil théorique f(K + 1, N1 + N2 − 2(K + 1))

4. si la statistique est plus grande que le fractile de niveau α, on a moins de α chance de setromper en rejetant H0, et on en conclut qu’il y a bien une rupture de comportement.

27

Page 29: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Chapitre 4

Le modèle linéaire généralisé

Dans les chapitres précédents, on a supposé que les perturbations avaient toutes la mêmevariance (hypothèse d’homoscédasticité), et étaient non corrélées deux à deux. Dans de nom-breux cas, ces deux hypothèses peuvent ne pas être vérifiées : par exemple, lorsque l’on s’in-téresse à des sous-populations hétérogènes, il est vraisembable que la dispersion des termesd’erreur soit différente entre ces deux sous-populations ; dans le cas des séries temporelles,une "persistance" des chocs au cours du temps se traduira par une autocorrélation des rési-dus. Dans ces deux exemples, la matrice de variance covariance du terme d’erreur du modèlene s’écrit plus simplement : σ2I, mais a une forme plus complexe. On dit qu’on est dans lecadre d’un modèle linéaire généralisé.

La première question qui se pose dans ce cadre est de savoir ce que deviennent alors lespropriétés de l’estimateur des moindres carrés ordinaires. Il est également indispensable desavoir comment détecter l’hétéroscédasticité. Enfin, on évoquera des estimateurs permettantde prendre en compte cet effet.

4.1 Définition du modèle linéaire généralisé

On se place donc dans le cas du modèle linéaire, mais on suppose maintenant que ∃i, jtqE(uiuj) 6=0, ou ∃i, jtqE(u2

i ) 6= E(u2j ). Sous forme matricielle, cela signifie simplement que la matrice

de variance-covariance du terme d’erreur ne s’écrit plus simplement σ2IN , mais a une formeplus compliquée.

4.1.1 Ecriture matricielle

Le modèle linéaire généralisé s’écrit donc :

Y = Xβ + u

avec, rgX = KE(U/X) = 0E(UU ′/X) = Σ

où Σ est une matrice symétrique définie positive.

Par convention (et uniquement parce que cela allège les calculs par la suite), on définit σ2 etΩ tels que Σ = σ2Ω, avec Trace(Ω) = N.

28

Page 30: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

4.1.2 Propriétés des mco dans le cadre du modèle linéaire généralisé

Il est toujours possible de calculer l’estimateur des moindres carrés ordinaires. En revanche,il est important de s’interroger sur ce que deviennent ses propriétés dans le cadre du modèlelinéaire généralisé.

– L’estimateur des moindres carrés ordinaires est toujours sans biais

E[βMCO/X] = β

– en revanche, l’estimateur de sa variance est en général biaisé.

Démonstration. On a toujours en effet :

βMCO = (X ′X)−1X ′Y = (X ′X)−1X ′(Xβ + U)

= β + (X ′X)−1X ′U

et donc sous l’hypothèse H2, on vérifie que βMCO est sans biais.

En revanche, on a :V (β/X) = σ2(X ′X)−1X ′ΩX(X ′X)−1

On rappelle que l’estimateur de la matrice de variance-covariance du paramètre s’écrit :V (β/X) = σ2(X ′X)−1. Avec par définition : σ2 = ‖y−Xβ‖2

N−K = SCRmco

N−K est en général biaisé.En effet :

σ2 =‖y −Xβ‖2

N −K=

SCRmco

N −K

=(u′Mu)N −K

avec MX = IN −X(X ′X)−1X ′

=1

N −KTr(Muu′) =

σ2

N −K(TrΩ− Tr((X ′X)−1X ′ΩX))

=σ2

N −K(N − Tr((X ′X)−1X ′)) 6= σ2

Les deux termes n’ont aucune raison de correspondre.

Si le fait que l’estimateur des MCO reste sans biais est appréciable, la deuxième propriétésignifie que les tests précédents ne seront pas fiables : il est donc impossible de se contenterde l’estimateur des moindres carrés ordinaires, dès lors qu’on suspecte les hypothèses H3et H4 de ne pas être vérifiées. La section suivante présente des tests classiques permettantde détecter l’hétéroscédasticité d’une part, et l’autocorrélation des résidus de l’autre. Lessolutions qui peuvent alors être apportées sont ensuite évoquées.

4.2 Détection de l’hétéroscédasticité

4.2.1 Définition

Le modèle hétéroscédastique "classique" suppose que les dispersions des pertubations indi-viduelles ne sont pas identiques. Cela peut être le cas par exemple lorsque l’on s’intéresse àdes groupes dont les caractéristiques sont très différentes (propension à consommer selon lacatégorie socio-professionnelle par exemple). En revanche, on suppose toujours que les per-turbations ne sont pas corrélées entre elles (les préférences des individus ne dépendent pasles unes des autres).

y = Xβ + u

29

Page 31: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

E(ui/X) = 0E(uiuj/X) = 0 pour i 6= jE(u2

i /X) = σ2i

La matrice de variance covariance est donc diagonale dans ce cas, et s’écrit

E(UU ′/X) = Diag(σ21 , . . . , σ2

N ) 6= σ2IN

Par définition, le modèle est homoscédastique si ∀i, jσi = σj . Si cette hypothèse n’est pasvérifiée, alors le modèle sera dit hétéroscédastique. Les tests suivants tentent donc de testercette propriété à partir d’estimations des variances individuelles.

4.2.2 Le test de Goldfeld et Quandt

Ce test repose sur l’hypothèse que la variance des perturbations est une fonction monotoned’une des variables explicatives Z. On peut alors ordonner les observations en fonction de Z,et supposer que zi ≤ zi+1.

Le test de Goldfeld et Quandt consiste alors à comparer les variances des perturbationscomposées des N1 premières observations et des N2 dernières (on choisit N1 et N2 de manièreà séparer suffisamment les deux sous-échantillons : en pratique on pourra prendre le premieret le dernier tiers). Si on note σ2

1 la variance des perturbations sur le premier sous-échantillonet σ2

2 la variance des perturbations sur le second, l’hypothèse qui est testée est :

H0 : σ21 = σ2

2

Le test est alors fondé sur la statistique :

GQ =σ2

2

σ21

avec,

σ21 =

∑N2

n=1 u2n

N1 −K − 1et σ2

2 =

∑Nn= N

2 +1 u2n

N2 −K − 1

qui suit sous H0 une loi de Fisher (N1 −K − 1, N2 −K − 1).

Mise en oeuvre du test :

1. faire les mco séparément sur les deux sous échantillons.2. Calculer σ2

1 et σ22 à partir des sommes des carrés des résidus des deux régressions.

3. On rejette l’hypothèse nulle d’homoscédasticité H0 au seuil α si

σ22

σ21

> FN1−K−1,N−N2−K−1(1− α)

où FN1−K−1,N−N2−K−1(1 − α) est le quantile 1 − α de la loi de Fisher à N1 −K − 1et N −N2 −K − 1 degrés de liberté1.

1on met toujours le plus élevé au numérateur

30

Page 32: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Mise en oeuvre sous sas

Il faut d’abord trier les variables dans la table initiale avec une proc sort.

proc sort data=matable ;by z ;

Puis créer deux tables, avec les N1 premières observations et les N1 dernières.

data t1 ;set matable ; if _N_ <= N1 ;

data t2 ;set matable ; if _N_ > N −N1 ;

proc reg data=t1 ; model y = z x; proc reg data=t2 ; model y = z x; run; puis récupérer lessommes des carrés des résidus (en haut à gauche des listings) pour calculer la statistique deFisher du test.

4.2.3 Le test de Breush et Pagan

Le test précédent est fondé sur l’idée selon laquelle la variance des perturbations est unefonction croissante d’une variable Z ; or, ceci n’est évidemment pas toujours le cas (toutdépend de la forme de l’hétéroscédasticité sous-jacente). Le test de Breusch et Pagan est plusgénéral. Il s’appuie sur l’hypothèse alternative Ha : ∀i, σ2

i = σ20 + Xiγ où σ2

0 ∈ R et γ0 ∈ RK

sont deux paramètres.

L’hypothèse nulle d’homoscédaticité s’écrit :

H0 : γ = 0.

Le principe est de tester la nullité jointe des coefficients de la régression du carré des résidussur les variables susceptibles d’expliquer l’hétéroscasticité.

Mise en oeuvre du test sous sas :

1. On estime le modèle linéaire y = Xβ + u par les mco et on obtient ainsi des résidusd’estimationui = yi −Xiβmco qu’on enregistre dans une nouvelle table (option output).

proc reg data=matable ; model y = x1 . . . xK ;output out=matable2 r=monres ; run ;

2. on calcule le carré de ces résidus dans une nouvelle tabledata=matable2 ; set matable2 ; res2=monres*monres ; run ;

3. On régresse par MCO u2i sur les variables explicatives.

proc reg data=matable2 ; model res2 = x1 . . . xK ;run ;Le test de Fisher de nullité jointe des coefficients est fait par défaut (colonne de droite).

4.3 Détection de l’autocorrélation

4.3.1 Définition

L’autre exemple classique de modèle linéaire généralisé est la présence de corrélation entreles termes de perturbations. Ce cas est fréquent avec des séries temporelles. Par exemple,si l’on s’intéresse aux évolutions du salaire d’un même individu au cours de sa carrière, ilest difficile de croire que les termes d’erreur, qui est lié aux déterminants non observés dusalaire, ne sont pas corrélés entre eux au cours du temps. Un "choc" sera vraisemblablementpersistant : on parlera alors d’autocorrélation.

31

Page 33: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Exemple : processus AR(1)

On se place dans le cadre d’un modèle où les perturbations suivent un processus autoré-gressif d’ordre 1 noté AR(1). yt = xtβ + ut, t = 1, . . . , T

ut = ρut−1 + εt|ρ| > 1E(εt/X) = 0, V (εt/X) = σ2

ε , cov(εt, εt′/X) = 0, ∀ t 6= t′

Pour que le processus des perturbations soit stationnaire au second ordre (∀t, E(ut/X) =m,V (ut/X) = σ2, cov(ut, ut−h) = γ(h)), on pose la condition initiale :

u0 =ε0√

1− ρ2avec ε0 = 0, (ε0) = σ2

ε , ov(ε0, εt) = 0,∀t > 0

On montre alors que la matrice de variance - covariance des perturbations (u1, ..., uT ) s’écrit :

V (u/X) =σ2

ε

1− ρ2

1 ρ ρ2 ... ρT−1

ρ 1 ρT−2

ρ2 . . ....

... 1 ρρT−1 ρ 1

L’idée est qu’un choc exogène à un moment donné, a un effet persistant mais décroissantexponentiellement avec le temps.

4.3.2 test de l’hypothèse d’autocorrélation dans le cas du modèleAR(1)

Pour ce modèle, tester l’absence d’autocorrélation revient à tester : H0 : ρ = 0 contre H1 :ρ 6= 0

Le test le plus fréquemment utilisé est celui de Durbin-Watson, reposant sur la statistique :

d =ΣT

t=2(ut − ut−1)2

ΣTt=1u

2t

Cette statistique est liée asymptotiquement au paramètre ρ par la relation suivante :

p lim dT↑∞ = 2(1− ρ)

Par conséquent :

– si ρ est nul (absence d’autocorrélation), d est proche de 2,– si ρ est proche de 1 (forte autocorrélation positive), d est proche de 0– si ρ est proche de -1 (forte autocorrélation négative), d est proche de 4

La loi de probabilité de la statistique d est difficile à établir car elle dépend des résidusestimés et donc des valeurs prises par les variables explicatives du modèle. Durbin et Watsonont néanmoins estimé deux lois, qui encadrent la loi de d sous l’hypothèse nulle.

Sous l’hypothèse H0 : ρ = 0, il existe deux statistiques, de et du, qui encadrent toujours d :

d` < d < du,

et dont la loi ne dépend que de T et K.

32

Page 34: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Test de H0 : ρ = 0 contre Ha :ρ > 0

Si d est proche de 2 l’hypothèse H0 est acceptée. Si d est en revanche trop faible l’hypothèsenulle est rejetée. Si on connaissait la loi d0 de d, on pourrait déterminer le fractile d∗(α)de cette loi permettant de conclure au rejet ou à l’acceptation de l’hypothèse H0 de non-autocorrélation pour un test au seuil α.

P (d0 < d?(α)) = α

Ne connaissant pas la loi asymptotique de d on détermine les fractiles correspondants d∗` (α)de dl et d∗u(α) de du

P (dl < d∗l (α)) = α

P (du < d∗u(α)) = α

Commedl < d0 < du

On ad∗l (α) < d∗(α) < d∗u(α)

• Si d est inférieure à d∗` (α), alors d < d∗(α) : on refuse H0

• Si d est supérieure à d∗u(α), alors d > d∗(α) : on accepte H0

• Si d∗` < d < d∗u, on se trouve dans la zone dite inconclusive : le test ne permet pas deconclure au rejet ou à l’acceptation de H0.

La pratique courante consiste à inclure la zone inconclusive dans la zone de rejet de l’hy-pothèse H0 pour se garantir contre le risque d’accepter à tort l’absence d’autocorrélation.L’amplitude de la zone inconclusive, d∗u − d∗` , est d’autant plus importante que le nombre Td’observations est faible et que le nombre de variables explicatives est important.

Mise en oeuvre sous SAS

Il suffit d’ajouter l’option /DW pour obtenir la valeur du durbin Watson :

proc reg data = nom_de_table;model y = x1 x2 . . . xK/DW ;run ;

4.4 Estimateur optimal dans le cadre du modèle généra-lisé

Il est théoriquement possible d’obtenir un estimateur optimal dans le cadre du modèle linéaire"généralisé". Il suffit de remarquer qu’en multipliant tous les vecteurs par l’inverse de lamatrice de variance-covariance des perturbations (on dit qu’on "sphéricise" le modèle), onest ramené au modèle linéaire classique (voir annexe B pour les détails).

L’estimateur des moindres carrés appliqués à ce modèle "sphéricisé", qu’on appelle estimateurdes moindres carrés généralisés, est donc sans biais, et optimal parmi les sans biais.

Malheureusement, ce résultat soulève un nouveau problème : la matrice de variance-covariancedes perturbations est justement inconnue, et il n’est donc en pratique jamais possible d’esti-mer directement l’estimateur des moindres carrés généralisés. Il faut donc dans une premièreétape utiliser un estimateur de cette matrice de variance-covariance. On peut alors "sphé-riciser" le modèle à partir de cette estimation : on parle de modèle "quasi-généralisé", et

33

Page 35: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

l’estimateur de β associé est dit estimateur des moindres carrés quasi généralisés. Mais cenouvel estimateur n’est a priori pas optimal.

En pratique, pour les deux cas présentés ci dessus :correction de l’hétéroscedasticité Si on a trouvé une autocorrélation du type : σ2

i =σ2f(X), on peut tranformer le modèle par :

1/√

f(x) [Y = X + u]

(donc en utilisant les nouvelles variables yi = yi√f(xi)

et xi = xi√f(xi)

)

Le nouveau modèle :V (ui/X) = σ2

est homoscédastique.En pratique, en l’absence de variables "évidentes", on pourra par exemple obtenir cettefonction en régressant le log du carré des résidus estimés par une première étape MCO surles variables explicatives.

log(u2i ) = γ0 + γ1x1i + . . . + γKxKi + vi

Et on utilise l’exp de la valeur prédite par cette équation.Remarque : l’hétéroscédasticité peut découler parfois d’un problème de spécification dumodèle. Passer en log peut parfois aider...

autocorrélation des résidus Pour tenir compte de l’autocorrélation des résidus dans lecadre de modèle AR(1), on utilise des modèles "quasi-différenciés", qui reposent sur uneestimation de ρ. L’estimateur de Prais Watson est présenté ici. il s’agit d’un estimateur enplusieurs étapes :– estimation par MCO du modèle yt = xtβ + ut, t = 1, ..., T– calcul des résidus estimés : ut = yt − xtβmco

– estimation de ρ par application des mco au modèle :

ut = ρut−1 + εt, t = 2, ..., T

soit

ρ =ΣT

t=2 utut−1

ΣTt=2 u2

t−1

– calcul des données transformées (y compris le vecteur unité, transformé en x0) :y1 =

√1− ρ2 y1 et yt = yt − ρyt−1, t = 2, ..., T

X1 =√

1− ρ2 X1 et Xt = xt − ρXt−1, t = 2, ..., Tx01 =

√1− ρ2 et x0t = 1− ρ, t = 2, ..., T

– estimation des MCO du modèle transformé sans constanteL’estimateur β ainsi obtenu est convergent et asymptotiquement aussi efficace que l’es-timateur des MCG2.

Mise en oeuvre sous sas– Dans une première régression, on peut récupérer les résidus avec l’option output :

proc reg data = nom_de_table;model y = x1 x2 . . . xK ;output out = matable2 r = monres;run ;

– on crée une nouvelle table avec le résidu retardé (ut−1) :data=matable2 ; set matable2 ; resret=lag(monres) ; run ;

2Remarque : le modèle sphéricisé correspond "presque" au modèle dit quasi-différencié où les observationssont remplacées par yt − ρyt−1, t = 2...T . Le "presque" concerne la première observation, qui elle s’écrit :p

1− ρ2y1.Il est alors tentant de supprimer cette première observation, et de travailler uniquement sur le modèle

quasi -différencié, qui s’écrit de manière plus simple. Certains tests, comme la procédure de Cochran etOrcutt (CORC) ou de Durbin par exemple, en sont des exemples.

34

Page 36: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

– on obtient ρ avec la régression

proc reg data = matable2 ;model monres = resret ;run ;

– On crée les variables transformées :

data = matable2 ; set matable2 ;if t = 1 then x0 = sqrt(1− ρ ∗ ρ) ;else x0 = 1− ρ ;if t = 1 then ytilde = sqrt(1− ρ ∗ ρ)y ;else ytilde = (1− ρ) ∗ y ;et idem pour toutes les variables explicatives...run ;

– On fait finalement la régression (en remplaçant la constante - option /noint par lavariable transformée x0) :proc reg data = nom_de_table;model ytilde = x0 xtilde1 xtilde2 . . . xtildeK/noint;output out = matable2 r = monres;run ;

35

Page 37: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Chapitre 5

Problèmes de spécification dumodèle

Ce chapitre s’intéresse aux problèmes de spécifications du modèle. Ils sont de plusieursordres. Le choix des variables explicatives est important. Il est légitime de s’interroger surles conséquences d’"oublier" certaines caractéristiques importantes, ou à l’inverse d’intro-duire des variables "inutiles" dans le modèle. Les variables observables ne sont pas toujoursbien mesurées : ces problèmes de mesure peuvent avoir des effets sur la qualité des estima-tions. Enfin, le fait de recourir à une spécification linéaire peut être questionné.

5.1 choix des variables explicatives

5.1.1 omission d’une variable explicativeQue deviennent les estimations lorsqu’une variable explicative importante est oubliée, ouinobservée ? Comme on va le voir, cela pose des problèmes importants.Pour fixer les idées, supposons que la variable dépendante dépend de deux caractéristiques,x1 et x2. Le "vrai" modèle est donc :

y = β0 + β1x1 + β2x2 + u

Supposons que seule x1 soit disponible dans nos données. On estime donc :

y = β0 + β1x1 + v

Comme on va le voir, même lorsque l’on ne s’intéresse qu’à l’effet de la variable x1 sur y,l’omission de cette variable peut avoir des conséquences importantes dès lors qu’elle estégalement corrélée avec x1. On montre en effet que :

E(β1) = β1 + β2δx2x1

où δx2x1 est le coefficient de la régression de x2 sur x1.

Le paramètre de la régression de x1 sur y est donc biaisé.

Démonstration. On rappelle que le coefficient estimé par les mco peut s’écrire dans ce cassimple :

β1 =∑

(x1i − x1)yi∑(x1i − x1)2

36

Page 38: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Si on remplace y par sa "vraie" valeur, on trouve

β1 = β1 +∑

(x1i − x1)ui∑(x1i − x1)2

+ β2

∑(x1i − x1)x2i∑(x1i − x1)2

Donc même si E(u/X) = 0, le coefficient β1 sera biaisé.

5.1.2 introduction d’une variable "en trop"

Supposons à l’inverse du cas précédent qu’on a ajouté une variable "en trop" dans le modèle(on "surspécifie" le modèle), c’est-à-dire une variable qui en réalité n’a pas de "vraie" relationavec la variable dépendante. Pour fixer les idées, on suppose qu’on estime un modèle :

y = β0 + β1x1 + β2x2 + v

mais que x2 n’a en réalité pas d’effet sur la variable y, une fois contrôlés les effets de x1 :β2 = 0.

La bonne nouvelle est que les estimateurs des autres paramètres sont toujours non biaisés,tant que la propriété de non corrélation avec les résidus est toujours vérifiée. Cela signifie qu’enespérance, les estimateurs convergent vers le vrai paramètre (c’est à dire que l’estimation deβ1 estimé dans le modèle "surspécifié" convergera vers β1, tandis quehatbeta2 vers 0.

Démonstration. Dans l’estimation par les moindres carrés du modèle linéaire obtenu en uti-lisant x1 ET x2, on a toujours : β = (X ′X)−1X ′Y avec X = (e,X1, X2). Le "vrai" modèlepeut s’écrire :

y = β0 + β1x1 + 0x2 + u

Donc :E(β/X) = β + (X ′X)−1X ′E(u/X) = β

si E(u/X) = 0. Ici le vrai vecteur de paramètre β =

β0

β1

0

.

Attention néanmoins si la variable supplémentaire est très corrélée avec les "vraies" variablesexplicatives. Dans ce cas, la variance des estimateurs risque d’augmenter. On rappelle que :

V (β1/X) =σ2

N(1−R21)Vemp(Xk)

Avec R21 coefficient de la détermination de x1 sur x2. Si les deux variables sont très corrélées,

ce coefficient sera proche de 1 : on perdra donc en précision dans l’estimation de x1.

5.1.3 Erreur de mesure sur les variables

Un problème se pose également lorsque les variables dont on dispose sont mesurées avecerreur, ou qu’elles ne sont que des "proxy" de la variable qui nous intéresse vraiment.

Supposons par exemple qu’on s’intéresse à un modèle simple :

y = β0 + β1x + u où E(u/x) = 0

Mais que la variable x est mesurée avec erreur. On observe en réalité x∗ = x+ e. On supposeque le terme d’erreur e n’est pas corrélé avec la "vraie" valeur x : E(e/x) = 0 ni avec la

37

Page 39: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

perturbation du "vrai" modèle u. Même dans ce cas favorable, l’estimateur par les moindrescarrés de l’effet de x sera biaisé.

En effet, en pratique on régresse y sur x∗, le coefficient β1 estimé est donc :

β1 =∑

(x∗i − x∗)yi∑(x∗i − x∗)2

Or y = β0 + β1x + u = β0 + β1x∗ + u− β1e donc :

β1 = β1 +∑

(xi − x + ei − e)ui∑(x∗i − x∗)2

−∑

(xi − x + ei − e)ei∑(x∗i − x∗)2

En utilisant les hypothèses sur les termes d’erreur, on a alors :

E(β1/x) = β1 −σ2

e

(σ2e + σ2

x)2

où σe et σx sont respectivement les écarts-types du terme d’erreur de mesure e et de la vraievariable x. Il est important de noter que dans ce cas le biais est toujours négatif. Le problèmed’erreur de mesure se traduit toujours par une sous-estimation du paramètre. Par ailleurs,de manière assez intuitive, il est d’autant plus élevé que la variance du terme d’erreur estgrande relativement à celle du paramètre.

5.1.4 simultanéité

Un autre problème peut se poser lorsque la causalité entre la variable expliquée et la variableexplicative n’est pas univoque : l’exemple "canonique" est le lien entre la demande d’un bieny et son prix p. Une équation de demande va ainsi s’écrire

y = −αdp + xdbd + ud

Il est cependant difficile de s’arrêter là. En effet, il est vraisemblable qu’il existe égalementune équation d’offre du bien y, également fonction du prix

y = αsp + xsbs + us

et le prix est la fonction qui équilibre ces deux fonctions.

p =1

αs + αd(xdbd − xsbs + ud − us)

Un choc de demande ud aura donc vraisemblablement un impact sur le prix p. Cela signifiedonc que E(ud) 6= 0, et que le paramètre estimé par les moindres carrés ordinaires sera biaisé.

5.2 choix entre deux modèles

Plus généralement, on peut se demander, en cas de deux modèles "théoriques" concurrents,lequel est le plus pertinent. Le problème peut souvent se ramener à tester si, entre deux mo-dèles liés à deux ensembles de variables explicatives (x1, x2, . . .) pour le modèle 1 et (z1, z2, . . .)pour le modèle 2, lequel est le plus vraisemblable.Plusieurs cas peuvent se présenter :– les modèles sont emboités, c’est-à-dire que toutes les variables d’un des modèles sont

comprises dans l’autre. Par exemple :(z1, z2, . . .) ∈ (x1, x2, . . .). Dans ce cas, il suffit defaire un test de Fisher de nullité jointe des variables "surnuméraires". L’hypothèse nulledans ce cas correspond au modèle 2, tandis que l’hypothèse alternative correspond aumodèle 1.

38

Page 40: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

– lorsque les deux ensembles sont disjoints, on peut se ramener à un surmodèle qui com-prend toutes les variables explicatives des deux modèles, et se ramener au cas précédent.Dans ce cas néanmoins, il est possible d’être confronté à une indétermination. En fait, deuxtests de Fisher sont possibles, dont l’hypothèse nulle est commune (le surmodèle est vrai),mais qui dont l’hypothèse alternative est le modèle 1 dans un cas, le modèle 2 dans l’autre.

– dans certains cas, passer par un surmodèle n’est pas optimal : par exemple, si l’on veutmodéliser la consommation en fonction du revenu et qu’on hésite entre deux modélisationsfonctionnelles : y = a + bR + cR2 ou y = dlog(R). Il est probable que passer par un sur-modèle (y = a + bR + cR2 + dlog(R)) ne donnera pas des résultats interprétables, car lesvariables dépendantes sont trop liées. On regardera dans ce cas le pouvoir explicatif dumodèle avec le coefficient de détermination. Pour tenir compte du fait que les deux modèlesn’ont pas le même nombre de variables, on utilisera le R2 ajusté (voir chapitre 2).

– attention ceci n’est vrai que pour des modèles qui s’intéressent à exactement la mêmevariable dépendante (i.e il n’est pas possible de comparer un modèle où elle est exprimée enniveau et un autre où elle est en logarithme). Dans l’exemple ci-dessus, il n’y a aucun sensà utiliser le coefficient de détermination (qui donne la part de la variance de la variabledépendante expliquée par le modèle) pour des variables dépendantes différentes (donc devariance totale différente).

5.3 adéquation de la forme linéaire

La forme linéaire de la dépendance entre la variable y et ses déterminants X a été introduitede manière ad hoc, et on peut s’interroger sur sa pertinence. En réalité, cette formulationn’est pas très contraignante, dans la mesure où il est souvent possible de s’y ramener auprix de quelques transformations des variables d’intérêt. Par exemple, lorsque l’on chercheà calculer l’élasticité de la production à l’un de ses facteurs, on raisonne plutôt en taux decroissance. La théorie peut guider dans le choix de la forme fonctionnelle.

De même, il est possible que l’effet d’une variable présente des convexités (par exemple, lesalaire progresse très vite avec l’ancienneté au début, mais le rythme de croissance se ralentitensuite), ou qu’il existe des effets croisés (l’effet du diplôme sur le salaire n’est pas le mêmepour les hommes et les femmes par exemple). Là encore, il suffit d’introduire dans le modèlelinéaire des variables supplémentaires, obtenues par exemple en croisant deux dimensions.

En revanche, le problème est plus complexe quand la variable expliquée a a priori une distri-bution particulière, par exemple lorsqu’il s’agit d’une variable de durée, ou d’une variable decomportement (par nature non continue). Le prochain chapitre s’intéresse plus à ce derniercas.

39

Page 41: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Chapitre 6

Variables dépendantesdichotomiques

6.1 Introduction

Dans les chapitres précédents, les variables utilisées étaient implicitement supposées conti-nues. Cependant, on s’intéresse souvent à des variables qualitatives, qui sont discrètes : di-plôme obtenu, risque de défaillance d’une entreprise, comportement d’achat de tel ou telproduit...Utiliser des variables explicatives de ce type ne pose pas de problème particulier. En re-vanche, les choses sont un peu plus compliquées lorsque c’est la variable dépendante Y quiest discrète. On va s’intéresser ici à la spécification et l’estimation de modèles où la variabledépendante est une variable binaire, appelée encore variable dichotomique : y ∈ 0, 1.

6.2 Expression générale du modèle

Soit donc une variable dépendante Y qui prend les valeurs 1 ou 0. Dans ce modèle, la variabled’intérêt sera la probabilité d’observer yi = 1, conditionnellement à des variables explicatives :Xi. Plus précisément, on va supposer que cette probabilité s’écrit sous la forme :

P (yi = 1/Xi) = G(β0 + β1x1 + . . . + βKxK)

où G est une fonction continue, positive, comprise entre 0 et 1. En pratique les modèles dechoix discret sont spécifiés en utilisant deux fonctions de répartition :

– Φ, la fonction de répartition de la loi normale :

G(z) =∫ z

−∞ϕ(t)dt = Φ(z)

où ϕ(t) = 1√2π

exp(− 12 t2). On a donc dans ce cas

P (y = 1/X) = Φ(Xβ)

Un tel modèle est appelé Modèle Probit.– F , la fonction logistique

F (z) =1

1 + exp(−z)

40

Page 42: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Dans ce casP (y = 1/X) = F (Xβ) =

11 + exp(−xib)

Un tel modèle est appelé Modèle Logit

6.2.1 Interprétation en terme de variable latente

Les modèles à variables dépendantes discrètes sont souvent introduits par le biais d’unevariable latente, c’est-à-dire une variable inobservée mais qui détermine complètement laréalisation de la variable indicatrice étudiée. Par exemple, on peut supposer qu’une personneadopte un comportement lorsque son utilité dépasse un seuil qui varie selon ses caractéris-tiques (observables ou non).

Formellement, on suppose qu’il existe une variable y∗, appelée variable latente associéeau modèle, telle que y = 1[y∗>0], et on postule la dépendance linéaire de cette variablelatente avec les explicatives sous la forme : y∗ = Xβ + u.

On a alors :y = 1 ⇔ y∗ > 0 ⇔ Xβ + u > 0

y∗ est la variable latente associée au modèle.

Si on suppose que le résidu u intervenant dans modélisation de la variable latente suit uneloi normale (resp. logistique) et qu’il est indépendant des variables explicatives, on obtient lemodèle Probit (resp. Logit).

6.2.2 Interprétation des résultats : effet marginal d’une variationd’une variable explicative x

Il est plus difficile que dans le modèle linéaire d’interpréter, ou tout au moins de quantifier,l’effet d’une variable explicative sur notre variable dépendante. Néanmoins, comme on va levoir, il est simple d’en connaître le sens.

De P (y = 1/X) = G(Xβ), on déduit en effet :

∂p(y = 1/X)∂Xk

= g(Xβ)βk

où g est la fonction de densité de la fonction de répartition G (i.e sa dérivée).

Le problème de cette formulation est que l’effet marginal de la variable xk est "local" : ildépend de la valeur de l’ensemble des covariables. Cependant, comme G est une fonctionstrictement croissante, g(z) > 0 pour tout z. Donc l’effet de la variable explicative Xk sur laprobabilité P (Y = 1/X) sera du signe de βk.

Par ailleurs l’effet relatif de deux variables continues xk et xl s’écrit simplement βk/βk et nedépend donc pas de X.

6.3 Estimation des modèles dichotomiques

Les modèles dichotomiques s’estiment par le maximum de vraisemblance. On fait l’hypothèseque les observations sont indépendantes.

Si P (yi = 1/xi) = G(xiβ), la probabilité d’observer yi pour un individu peut s’écrire comme

P (yi/xi) = P (yi = 1|xi)yi [1− P (yi = 1/xi)]1−yi

= G(xiβ)yi [1−G(xiβ)]1−yi

41

Page 43: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

La log-vraisemblance d’observer (yi, Xi) s’écrit donc en fonction du paramètre β :

λi(β) = yilog[G(Xiβ)] + (1− yi)log[1−G(Xiβ)])

La log-vraisemblance de l’échantillon total s’écrit alors : Λ =∑

i λi. L’estimateur du maxi-mum de vraisemblance β est alors le vecteur de paramètre β qui maximise la log vraisem-blance. On peut calculer également sa variance. La log vraisemblance étant non linéaire, iln’est pas possible de donner une expression analytique simple de ces estimateurs, et leur cal-cul se fait généralement par la mise en oeuvre d’un algorithme d’optimisation. On trouvera enannexe les équations du premier ordre permettant de déterminer l’estimateur, et l’expressionde sa variance.

6.4 Mise en oeuvre de tests simples dans le cas d’un mo-dèle dichotomique

On évoque ici les équivalents des tests étudiés dans le cadre du modèle linéaire. On peutmontrer que l’estimateur par maximum de vraisemblance de β (respectivement son écart-type) suit une loi normale (respectivement une loi du χ2).

6.4.1 test de la nullité d’un coefficient

On peut montrer que la statistique de Wald :

W = βj σ2j → χ2(1)

converge asymptotiquement vers une loi du χ2 à un degré de liberté sous l’hypothèse nulleH0 : βj = 01. Si on teste H0 : βj = 0 contre Ha :βj 6= 0, la région critique de rejet du test auniveau α sera :

W = β2k

σ2k

> χ1−α/2N−K−1

6.4.2 test d’un ensemble de contraintes linéaires

Si on veut tester maintenant l’hypothèse nulle H0 :β = r contre Ha : β 6= r, on utilise demême la statistique :

F = (Rβ − r)′(Rβ − r)R(V βR′

qui suit un χ2 sous l’hypothèse nulle.

6.5 Mise en oeuvre sous sas

Les modèles à variables dichotomiques peuvent être mis en application avec la proc Logis-tique de sas. La syntaxe en est :

Proc Logistic data= matable;model y=x1 x2 . . . ;run ;

Par défaut, la procédure estime un modèle Logit. On peut ajouter une option probit pourestimer un tel modèle.

1il serait également possible d’utiliser une statistique de Student. On préfère présenter la statistique deWald, d’usage plus courant en maximum de vraisemblance, et utilisée par SAS.

42

Page 44: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Comme pour la procédure REG, les tests d’hypothèses linéaires s’écrivent simplement enfonction des variables correspondantes. Par exemple, la commande pour tester β1 + β3 = 1s’écrira : test x1 + x3 = 1 ;

6.6 Remarque : le modèle à probabilités linéaires

On peut s’interroger sur les propriétés de l’estimation si la on estime directement un modèlelinéaire en xi :

E(yi/xi) = P (yi = 1/xi) = xiβ

Le modèle peut alors être estimé par les MCO.

En dépit de sa simplicité attractive, ce choix de modélisation présente néanmoins des incon-vénients importants.

– Problème de cohérence, puisqu’il ne peut contraindre P (yi = 1|xi) = xiβ à appartenir àl’intervalle [0, 1].

– Problème d’estimation : le modèle dichotomique est toujours hétéroscédastique. De y2i = yi,

on déduit :

V (yi/xi) = E(y2i /xi)− E(yi/xi)2 = E(yi/xi)− E(yi/xi)2

= E(yi/xi)[1− E(yi/xi)] = G(xiβ)[1−G(xiβ)]

en conséquence, comme montré dans le chapitre 4, l’estimateur de la variance des moindrescarrés ordinaires est biaisé, et il n’est pas possible d’effectuer des tests directement.

43

Page 45: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Annexe A

le théorème de Frisch-Waugh

Le théorème de Frisch-Waugh est une propriété algébrique de l’estimateur des moindres carrésqui explicite l’interdépendance des coefficients de différentes variables dans une régression.

Théorème

Dans la régression de Y sur un ensemble de variables explicatives X, si X se décompose endeux sous-ensembles X1 et X2 : X = (X1, X2), les coefficients des variables X1 peuvent êtreobtenus indirectement en régressant la variable dépendante Y sur les résidus MX2X1 desrégressions des variables X1 sur les variables explicatives X2 :

β1 = ((MX2X1)′MX2X1)−1(MX2X1)′Y

on peut alors retrouver les coefficients des variables X2 en régressant la partie inexpliquéeY −X1β1 sur X2 :

β2 = (X ′2X2)−1X ′

2(Y −X1β1)

avec MX2 = IN −X2(X ′2X2)−1X ′

2

Démonstration. Les coefficients de la régression de Y sur X = (X1, X2) satisfont

X ′1(Y −X1β1 −X2β2) = 0

X ′2(Y −X1β1 −X2β2) = 0

De la deuxième équation on tire directement la deuxième partie du théorème

β2 = (X ′2X2)−1X ′

2(Y −X1β1)

Lorsque l’on réintroduit cette expression dans la première équation il vient

X ′1(Y −X1β1 −X2(X ′

2X2)−1X ′2(Y −X1β1)) = 0 soit X ′

1MX2(Y −X1β1) = 0

soit X ′1MX2(Y −MX2X1β1) = 0 car MX2 est un projecteur et M2

X2 = MX2 d’où l’expressionde β1.

44

Page 46: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Annexe B

Estimateur des moindres carrés généralisés

On se place dans le cadre du modèle généralisé du chapitre 5. On va voir qu’en appliquantau modèle l’inverse de la matrice de variance-covariance, on peut se ramener aux modèleslinéaires classiques.

Sphéricisation

Comme Ω est définie positive, elle est diagonalisable dans le groupe orthogonal. Autrementdit, il existe une matrice carrée H d’ordre n telle que Ω = HDH ′ avec D matrice diagonaleà coefficients diagonaux strictement positifs et H ′ = H−1. On peut donc définir pour toutα ∈, Ωα = HDαH ′ avec

Dα =

dα1

. . . (0)

(0). . .

dαn

Le modèle linéaire généralisé peut alors se mettre sous la forme du modèle linéaire de la façonsuivante :

Ω−12 Y = Ω−

12 Xβ + Ω−

12 u

Si on pose

Y = Ω−

12 y

X = Ω−12 X

u = Ω−12 u

, on obtient le modèle "sphéricisé" :

Y = Xβ + u

On a H1 : X ′X = X ′Ω−1/2′Ω−1/2X = X ′Ω−1X inversibleH2 : E[UX] = E[Ω−1/2U/Ω−1/2X] = Ω−1/2E[U/X] = 0H3 : E[U U ′X] = E[Ω−1/2UU ′V/Ω−1/2X] = Ω−1/2E[UU ′/X]Ω−1/2 = σ2IN

On retrouve donc le cadre du modèle linéaire vu au chapitre 2 : les propriétés de l’estimateurdes moindres carrés ordinaires se transposent à ce nouvel estimateur.

Estimateur des moindres carrés généralisés

Le meilleur estimateur linéaire sans biais de β est l’estimateur des moindres carrés ordinairessur le modèle sphéricisé

βMCG = (X ′X)−1X ′Y = (X ′Ω−1X)−1X ′Ω−1y

βMCG est appelé estimateur des moindres carrés généralisés (MCG).

1. L’estimateur des MCG est sans biais : E[βMCG/X] = β

2. L’estimateur des MCG a pour matrice de variance V(βMCG|X) = σ2(X ′Ω−1X)−1

Par ailleurs, on peut définir l’estimateur des moindres carrés généralisés de σ2... σ2 =‖ey− eXβ‖2N−K−1

Si on se place sous l’hypothèse de normalité des résidus, u ∼ N(0, σ2Ω), on a les lois("à distance finie") des deux estimateurs βMCG et σ2 : βMCG ∼ N(β, σ2(X ′Ω−1X)−1)et (N −K) σ2

σ2 ∼ χ2(N −K)

45

Page 47: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Annexe C

L’estimateur du maximum de vraisemblance dans le cas du mo-dèle dichotomique

L’estimateur du maximum de vraisemblance β est le vecteur de paramètre β qui maxi-mise la log vraisemblance Λ =

∑i yilog[G(Xiβ)] + (1− yi)log[1−G(Xiβ)]).

Conditions de 1er ordre pour la maximisation :

L’estimateur du maximum de vraisemblance est défini par :

∂ log LN

∂β=

N∑i=1

[yi

g(xiβ)

G(xiβ)+ (1− yi)

−g(xiβ)

1−G(xiβ)

]x′i = 0

soit∂ log LN

∂β=

N∑i=1

[yi −G(xiβ)]g(xiβ)

G(xiβ)[1−G(xiβ)]x′i = 0

Ces équations sont en général non linéaires et nécessitent la mise en oeuvre d’un algo-rithme d’optimisation.Pour le modèle Logit on a simplement

∂ log LN

∂ b Logit=

N∑i=1

[yi − F (xiβ)]x′i = 0

Pour le modèle Probit on a simplement

∂ log LN

∂ b

∣∣∣∣ =N∑

i=1

[yi − Φ(xiβ)]ϕ(xiβ)

Φ(xiβ)[1− Φ(xiβ)]x′i = 0

Matrice de variance-covariance de β

La matrice de variance covariance asymptotique est égale à

Vas(β) =[−E

(∂2 log L

∂β∂β′

)]−1

=[E

(∂ log L

∂β

∂ log L

∂β′

)]−1

Elle peut être estimée à partir des dérivées secondes évaluées en β :

Vas(β) =

−∂2 log L(yi, xi, β

)∂β∂β′

−1

46

Page 48: Introduction à l’Econométrie Ecole Centrale de Paris Année 2006 … · 2016-06-17 · le modèle est-il valide? Dans toute la discussion précédente, on a supposé que la relation

Bibliographie

[1] Behaghel L. (2006), Lire l’économétrie, collection Repères, La Découverte, Paris[2] Gouriéroux C. et Monfort A. (1996), Statistique et Modèles Econométriques, Economica[3] Greene, W. (2003) Econometric Analysis, New York : MacMillan[4] Wooldridge J. (2003), Introductory Econometrics, A Modern Approach, South-Western

47