15
Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L’économétrie traite de la construction de modèles. Le premier point de l’analyse consiste à se poser la question : « Quel est le modèle ? ». Le choix de ce dernier com- mence d’habitude par une observation ou une proposition selon laquelle une variable est « causée par » ou « varie avec » une autre, ou encore par une assertion au sujet d’une relation entre une variable et une ou plusieurs covariables dont on attend qu’elles soient liées à la variable d’intérêt. Le modèle pourrait décrire de manière gé- nérale un comportement, comme suggérer, par exemple, que l’utilisation d’un système de santé par un individu dépend, entre autres, de l’état de santé tel qu’il est perçu par ce dernier, des variables démographiques telles que le revenu, l’âge et le niveau d’instruction, et du montant et du type d’assurance que détient l’individu. Il pourrait prendre la forme d’une proposition verbale ou même d’une figure comme un orga- nigramme ou un diagramme de corrélations qui indique les directions des effets. Il est rare que le modèle économétrique fleurisse d’emblée en ensemble d’équations. Au lieu de cela, il prend naissance à travers une idée ou une relation. La prochaine étape que doit naturellement suivre l’économètre est la traduction de cette idée en un ensemble d’équations tout en gardant en tête que certaines caractéristiques de ces équations vont répondre à des questions intéressantes sur la variable d’intérêt. Pour poursuivre notre exemple, un énoncé bien défini de la relation entre l’assurance détenue et les soins demandés pourrait être en mesure de répondre à la question « Comment l’utilisation d’un système de santé dépend-elle de la couverture en assu- rance ? ». Plus précisément, la relation est-elle « positive » – toutes choses égales par ailleurs, un consommateur assuré est-il davantage enclin à « demander plus de soins de santé » – ou bien « négative » ? Finalement, on pourrait considérer une proposition plus précise, comme par exemple « Combien en plus (en moins) ? ». Ce chapitre, et les suivants, vont développer un ensemble d’outils dont les modélisateurs se servent pour étudier en détail des questions comme celles posées précédemment, à partir des données et des méthodes économétriques. D’un point de vue purement statistique, le chercheur pourrait avoir en tête une va- riable y représentant la « demande de soins de santé, H », un vecteur de © 2011 Pearson Education France – Econométrie, 7e édition – William Greene

Le modèle de régression linéaire - pearson.fr · “econometric” — 2011/11/15 — 16:46 — page 9 — #25 Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L’économétrie

Embed Size (px)

Citation preview

Page 1: Le modèle de régression linéaire - pearson.fr · “econometric” — 2011/11/15 — 16:46 — page 9 — #25 Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L’économétrie

“econometric” — 2011/11/15 — 16:46 — page 9 — #25✐

Chapitre 2

Le modèle de régression linéaire

2.1 IntroductionL’économétrie traite de la construction de modèles. Le premier point de l’analyseconsiste à se poser la question : « Quel est le modèle ? ». Le choix de ce dernier com-mence d’habitude par une observation ou une proposition selon laquelle une variableest « causée par » ou « varie avec » une autre, ou encore par une assertion au sujetd’une relation entre une variable et une ou plusieurs covariables dont on attendqu’elles soient liées à la variable d’intérêt. Le modèle pourrait décrire de manière gé-nérale un comportement, comme suggérer, par exemple, que l’utilisation d’un systèmede santé par un individu dépend, entre autres, de l’état de santé tel qu’il est perçupar ce dernier, des variables démographiques telles que le revenu, l’âge et le niveaud’instruction, et du montant et du type d’assurance que détient l’individu. Il pourraitprendre la forme d’une proposition verbale ou même d’une figure comme un orga-nigramme ou un diagramme de corrélations qui indique les directions des effets.Il est rare que le modèle économétrique fleurisse d’emblée en ensemble d’équations.Au lieu de cela, il prend naissance à travers une idée ou une relation. La prochaineétape que doit naturellement suivre l’économètre est la traduction de cette idée enun ensemble d’équations tout en gardant en tête que certaines caractéristiques deces équations vont répondre à des questions intéressantes sur la variable d’intérêt.Pour poursuivre notre exemple, un énoncé bien défini de la relation entre l’assurancedétenue et les soins demandés pourrait être en mesure de répondre à la question« Comment l’utilisation d’un système de santé dépend-elle de la couverture en assu-rance ? ». Plus précisément, la relation est-elle « positive » – toutes choses égales parailleurs, un consommateur assuré est-il davantage enclin à « demander plus de soinsde santé » – ou bien « négative » ? Finalement, on pourrait considérer une propositionplus précise, comme par exemple « Combien en plus (en moins) ? ». Ce chapitre, etles suivants, vont développer un ensemble d’outils dont les modélisateurs se serventpour étudier en détail des questions comme celles posées précédemment, à partir desdonnées et des méthodes économétriques.

D’un point de vue purement statistique, le chercheur pourrait avoir en tête une va-riable y représentant la « demande de soins de santé, H », un vecteur de

© 2011 Pearson Education France – Econométrie, 7e édition – William Greene

Page 2: Le modèle de régression linéaire - pearson.fr · “econometric” — 2011/11/15 — 16:46 — page 9 — #25 Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L’économétrie

“econometric” — 2011/11/15 — 16:46 — page 10 — #26✐

10 Chapitre 2 – Le modèle de régression linéaire

covariables x (le revenu I, l’assurance T ) et une distribution de probabilité conjointep(H,I,T ). Énoncée sous cette forme, la « relation » n’est pas décrite d’une manièreparticulièrement intéressante : quel est le processus statistique qui engendre la de-mande de soins de santé, le revenu et la couverture en assurance ? Il est cependantvrai que p(H,I,T ) = p(H |I,T )p(I,T ), c’est-à-dire que la probabilité de distributionconjointe se décompose en une distribution conjointe de la couverture en assuranceet du revenu dans la population, et une distribution de la « demande de soins desanté » pour un revenu et une couverture en assurance définis. De ce point de vue, ladistribution conditionnelle p(H |I,T ) présente un intérêt tandis que p(I,T ), la distri-bution du revenu et de la couverture en assurance dans la population, ne peut avoirque très peu, voire aucun intérêt. (Par ailleurs, du même point de vue, et étant donnéle revenu, p(T |I), la « demande » conditionnelle de couverture en assurance pour-rait être aussi intéressante.) En suivant ce raisonnement, le modélisateur s’intéressesouvent non pas à la variation conjointe de toutes les variables du modèle mais à lavariation conditionnelle d’une ou plusieurs variables liées aux autres.

La notion de distribution conditionnelle constitue un point de départ intéressantdans la réflexion sur la relation entre une variable d’intérêt « y » et un ensemblede variables « x » dont on pense qu’elles peuvent y être liées. Une question nousramène à celle posée précédemment, à savoir « Quel est le modèle ? ». Quelles sontles caractéristiques de la distribution conditionnelle qui nous intéressent ? En réflé-chissant en ces termes, le modélisateur porte souvent son attention sur la valeurespérée E[y|x] qui n’est autre que la fonction de régression et qui nous amèneau sujet de ce chapitre. Concernant l’exemple précédent, le « nombre de visites chezle médecin » pourrait constituer un choix naturel pour y, comme dans un exempleétudié à plusieurs reprises tout au long du livre. Cependant, au cas où l’on considé-rerait le revenu I dont la distribution est souvent fortement asymétrique, il se peutque la moyenne ne soit pas très intéressante. Compte tenu de la catégorie d’âge,M [I|x], la médiane conditionnelle pourrait se révéler une statistique plus in-téressante. Par ailleurs, considérant toujours la distribution du revenu (sachant lacatégorie d’âge), d’autres quantiles comme le 20e percentile ou encore un seuil depauvreté défini comme par exemple le 5e percentile pourraient être encore plus inté-ressants. Finalement, si l’on considère des études en finance où la variable d’intérêtest le rendement d’un actif, alors dans certains cas, la moyenne ne présente aucunintérêt : la variance et la variance conditionnelle sont particulièrement intéressantes.

Nous avons commencé l’étude du modèle de régression en essayant de comprendre leconcept de « modèle ». Nous nous intéresserons maintenant à la moyenne condition-nelle qui est ordinairement la caractéristique qui suscite notre intérêt. Après avoirexpliqué comment étudier la fonction de régression, nous nous en servirons commepoint de départ pour observer d’autres caractéristiques telles que les quantiles et lesvariances. Le modèle de régression linéaire est l’outil le plus utilisé du kit de l’éco-nomètre. Bien que ce dernier s’en serve de plus en plus comme d’un simple point dedépart de l’analyse complète, il demeure l’outil de référence pour commencer touterecherche empirique. Il est aussi une sorte de lentille à travers laquelle on voit desrelations entre les variables. Au sein de ce chapitre, nous développerons le modèlede régression linéaire. Nous présenterons en détail les hypothèses fondamentales dumodèle. Aux chapitres suivants, nous étudierons plus en détail les spécifications et les

© 2011 Pearson Education France – Econométrie, 7e édition – William Greene

Page 3: Le modèle de régression linéaire - pearson.fr · “econometric” — 2011/11/15 — 16:46 — page 9 — #25 Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L’économétrie

“econometric” — 2011/11/15 — 16:46 — page 11 — #27✐

2.2 – Le modèle de régression linéaire 11

difficultés qui se présenteront si l’on applique des techniques fondées sur le modèlesimple tel que présenté ici.

2.2 Le modèle de régression linéaireLe modèle de régression linéaire multiple étudie la relation entre une variabledépendante et une ou plusieurs variables indépendantes. Sa forme générique est

y = f(x1, x2, . . . , xK) + ε

= x1β1 + x2β2 + . . .+ xKβK + ε,(2-1)

où y est la variable dépendante ou variable expliquée et x1, . . . , xK sont les variablesindépendantes ou variables explicatives. On appelle la fonction f(x1, x2, . . . , xK)l’équation de régression de la population de y sur x1, . . . , xK . Dans cette spécifi-cation, on appelle aussi xk, k= 1, . . . , K, régresseurs ou covariables.La théorie économique permet de déterminer les variables dépendantes et indépen-dantes du modèle. Cela n’est pas toujours facile. Par exemple, une fonctionde demande, quantite= β1 + prix × β2 + revenu × β3 + ε, et une fonction inversede demande, prix = γ1 + quantite× γ2 + revenu × γ3 + u sont des représentationsidentiques d’un système de marché. En modélisation, il apparaît souvent utile deconsidérer des « variations autonomes » de certaines variables. On peut concevoirainsi des variations des variables indépendantes en dehors de la relation définie parle modèle, tandis qu’une variation de la variable dépendante est la réponse à un chocindépendant ou exogène. 1

Le terme ε est une perturbation aléatoire. En effet, il « perturbe » une relationqui, autrement, serait stable. Celle-ci a plusieurs origines dont la principale relèvedu fait que, dans une approximation, on ne peut capter tous les effets d’une variableéconomique. L’effet net (positif ou négatif) des facteurs omis est pris en compte par laperturbation. D’autres raisons expliquent la présence de cette dernière dans un modèleempirique. Les « erreurs de mesure » en sont probablement la plus importante. Siétablir une théorie sur les relations liant des variables semble facile, il en va autrementlorsqu’il s’agit d’obtenir des mesures précises de celles-ci. Par exemple, il est difficiled’obtenir des mesures correctes de profits, de taux d’intérêt, de stocks de capitaux, etc.À l’extrême, il se peut que la variable théorique ne soit pas observable. Le modèle deconsommation avec revenu permanent (Friedman, 1957) en fournit un exemple édifiant.

On suppose que chaque observation de l’échantillon (yi, xi1, xi2, . . . , xiK), aveci = 1, . . . , n, est généré par un processus décrit par

yi = xi1β1 + xi2β2 + . . .+ xiKβK + εi.

La valeur observée de yi est la somme de deux composantes : l’une d’entre elles estdéterministe et l’autre est aléatoire, εi. L’objectif est d’estimer les paramètres inconnus

1. Pour la relation de demande étudiée ici, cette définition suppose que seul le revenu peut êtreconsidéré comme une variable indépendante, tandis que le prix et la quantité sont des variablesdépendantes. En effet, sur un marché, prix et quantités sont déterminés en même temps, et nevarient que lorsqu’un élément change en dehors du marché.

© 2011 Pearson Education France – Econométrie, 7e édition – William Greene

Page 4: Le modèle de régression linéaire - pearson.fr · “econometric” — 2011/11/15 — 16:46 — page 9 — #25 Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L’économétrie

“econometric” — 2011/11/15 — 16:46 — page 12 — #28✐

12 Chapitre 2 – Le modèle de régression linéaire

du modèle, d’utiliser les données pour étudier la validité des propositions théoriqueset, éventuellement, d’utiliser le modèle pour prévoir la variable y. La manière deprocéder dépend fortement des hypothèses émises sur le processus stochastique ayantconduit aux données.

Exemple 2.1 : La fonction de consommation de KeynesDans l’exemple 1.2, nous avons étudié un modèle de consommation proposé par Keynesdans sa Théorie Générale (1936). L’idée selon laquelle la consommation, C, et le revenu,X, sont liés semble conforme aux observations des figures 1.1 et 2.1. (Ces données fi-gurent au tableau F2.1.) Naturellement, la fonction linéaire n’est qu’une approximation.Même en ignorant les années de guerre, la consommation et le revenu ne peuvent êtreliés par une simple relation déterministe. Le modèle linéaire C = α+βX décrit seule-ment les faits saillants de l’économie observée. L’étape suivante consiste à incorporerl’aléa inhérent au monde réel. Ainsi, on écrit C = f(X, ε), où ε est un terme stochas-tique. Il est important de ne pas considérer ε comme un passe-partout qui permet depallier les insuffisances du modèle. Le modèle incorporant ε semble convenable pourdécrire les données ne comprenant pas les années de guerre. Durant cette période, laconsommation n’a pas atteint les niveaux historiquement conformes aux revenus corres-pondants en raison du rationnement. Un modèle susceptible de décrire la consommationpendant cette période devrait intégrer cela.Pour intégrer le terme stochastique dans le modèle, la méthode la plus fréquente consisteà supposer qu’il est additif. L’équation se réécrit alors : C = α + βX + ε. Celle-ci estl’équivalent empirique du modèle théorique de Keynes. Mais qu’en est-il des années deguerre ? S’il fallait « ajuster » ces données par une droite, la meilleure approximationserait celle en pointillé de la figure 2.1. Une spécification cependant plus appropriée,satisfaisant à la fois la nature stochastique des données et les circonstances particulièresdes années 1942-1945, pourrait être celle qui décale la droite vers le bas. On a alorsC = α+βX+dguerreδw+ε, où dguerre est une variable indicatrice (on dit encore variablemuette) prenant la valeur 1 lorsqu’on se situe entre 1942-1945 et 0 sinon, avec δw < 0.

350

325

300

275

250

225

225 250 275 300 325 350 375

1940

1941

1942

1944

1943

1945

1946

1947 1948

1949

1950

X

C

Figure 2.1 : Données de consommation, 1940-1950.

© 2011 Pearson Education France – Econométrie, 7e édition – William Greene

Page 5: Le modèle de régression linéaire - pearson.fr · “econometric” — 2011/11/15 — 16:46 — page 9 — #25 Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L’économétrie

“econometric” — 2011/11/15 — 16:46 — page 13 — #29✐

2.2 – Le modèle de régression linéaire 13

Le modèle de régression multiple présente un aspect très important : il permet d’iden-tifier les effets d’un ensemble de variables explicatives sur une variable dépendante.L’exemple 2.2 décrit une application connue.

Exemple 2.2 : Salaire et niveau d’instructionDes études ont été faites sur le lien entre le salaire et le niveau d’instruction. En moyenne,on s’attend à ce que des niveaux d’études élevés entraînent des revenus importants. Lemodèle de régression simple

salaires = β1 + β2instruction + ε,

néglige cependant le fait que la plupart des individus n’obtiennent des salaires élevésqu’à un âge avancé, quel que soit leur niveau d’études. Ainsi, β2 va surestimer l’effetmarginal du niveau d’études. Si l’âge et l’instruction sont positivement corrélés, alorsle modèle de régression va associer toute hausse du salaire à une hausse du niveaud’études. Une spécification tenant compte de l’effet de l’âge s’écrit

salaires = β1 + β2instruction + β3age + ε.

On observe souvent que le salaire augmente moins vite durant les dernière années detravail que pendant les premières. Pour prendre en compte ce phénomène, on redéfinitle modèle pour obtenir

salaires = β1 + β2instruction + β3age + β4age2 + ε,

où les coefficients β3 et β4 sont supposés respectivement positif et négatif. Ce modèlepeut être utilisé pour comparer les salaires de deux individus de même âge mais ayant desniveaux d’études différents, même si les données disponibles ne portent pas sur de telsindividus. Demeure la difficulté de mesurer le niveau d’études. Ashenfelter et Krueger(1994) ont étudié les revenus de jumeaux en utilisant la spécification précédente. Nousexaminerons cette étude à la section 8.5.3. [Les études portant sur les jumeaux et, demanière générale, sur les frères et sœurs offrent un courant de recherche intéressant surle lien entre le niveau d’instruction et le revenu. On pourrait citer comme exemples lesétudes de Ashenfelter et Zimmerman (1997) et de Bonjour, Cherkas, Haskel, Hawkes,et Spector (2003).]L’expérience sous-jacente au modèle de salaire spécifié précédemment est une compa-raison entre deux individus qui sont identiques en termes de niveau d’instruction, maisdifférents par leur âge. Si l’on considère cette interprétation, « l’effet » du niveau d’ins-truction sur le salaire est donné par ∂E[salaires|age,instruction]/∂instruction = β2.En fait, l’économètre pense à l’expérience consistant à augmenter d’une année supplé-mentaire le niveau d’études de l’individu, ce qui est inobservable. En effet, il faudraitpouvoir observer le niveau d’études de l’individu deux fois, à savoir tel qu’il est effec-tivement observé dans l’échantillon, instructioni, et une seconde fois dans le cas hypo-thétique (contrefactuel), instructioni + 1. Si nous considérons le niveau d’instructioncomme un « traitement », alors l’objectif de l’expérience est de mesurer « l’impact dutraitement sur les données traitées ». Au chapitre 19, nous obtiendrons un tel résultaten utilisant des données non expérimentales.De nombreuses études se sont penchées sur le sujet. Dans cette formulation, le niveaud’instruction n’est pas vraiment « indépendant ». Les individus ayant une forte moti-vation choisiront de poursuivre leurs études. Ils peuvent également entreprendre desdémarches qui, en moyenne, leur garantiront des revenus plus élevés. Le cas échéant, unβ2 positif mesure-t-il vraiment l’effet du niveau d’instruction sur le revenu, ou reflète-t-il

© 2011 Pearson Education France – Econométrie, 7e édition – William Greene

Page 6: Le modèle de régression linéaire - pearson.fr · “econometric” — 2011/11/15 — 16:46 — page 9 — #25 Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L’économétrie

“econometric” — 2011/11/15 — 16:46 — page 14 — #30✐

14 Chapitre 2 – Le modèle de régression linéaire

certains effets sous-jacents sur les deux variables ? Nous aborderons ces questions dansle chapitre 19. 2

2.3 Hypothèses du modèle de régression linéaireLe modèle de régression linéaire se fonde sur un ensemble d’hypothèses concernant lesdonnées et la relation retenue. Ces hypothèses sont énoncées au sein du tableau 2.1.

2.3.1 Linéarité du modèle de régression

Soient xk le vecteur colonne de n observations de la variable xk, k = 1, . . . , K, et Xune matrice n × K constituée des données ainsi empilées. Dans la plupart des cas,la première colonne de X est formée du vecteur unitaire de sorte que β1 représentela constante du modèle. Soient y le vecteur des n observations, y1, . . . , yn, et ε levecteur des perturbations. Le modèle (2-1) se réécrit

y = x1β1 + . . .+ xKβK + ε, (2-2)

ou, si l’on utilise l’hypothèse 1,

Hypothèse : y = Xβ + ε. (2-3)

NotationNous utiliserons des caractères gras x pour désigner une colonne ou une ligne de X.Dans (2-2), xk représente la k-ième colonne de X. Les indices j et k représenterontles variables colonnes. La relation (2-3) se réécrit pour une observation

yi = x′iβ + εi. (2-4)

Les indices i et t désignent les observations lignes de X. Dans (2-4), xi est unvecteur colonne, transposé de la i-ième 1 ×K ligne de X.

Nous nous intéressons principalement à l’estimation et à l’inférence statistique duvecteur des paramètres β. Remarquons que l’exemple 2.1 présente un cas particulierde modèle simple de régression où X ne possède que deux colonnes dont la premièreest la colonne unitaire. L’hypothèse de linéarité suppose également l’additivité de laperturbation. Pour qu’une régression soit linéaire, elle doit être de la forme (2-1), soitpar rapport aux variables telles quelles, soit après une transformation appropriée. Parexemple, le modèle

y = Axβeε

2. Une autre difficulté à laquelle se trouve confronté l’économètre disposant de données en coupetransversale est qu’il n’est pas possible, en comparant tout simplement les individus âgés et les jeunesindividus dans l’échantillon, de déduire les caractéristiques du revenu de ces derniers dans le cas oùils seraient plus âgés. Nous reviendrons sur un problème comparable au chapitre 19 portant sur leseffets de traitement des données.

© 2011 Pearson Education France – Econométrie, 7e édition – William Greene

Page 7: Le modèle de régression linéaire - pearson.fr · “econometric” — 2011/11/15 — 16:46 — page 9 — #25 Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L’économétrie

“econometric” — 2011/11/15 — 16:46 — page 15 — #31✐

2.3 – Hypothèses du modèle de régression linéaire 15

Tableau 2.1 : Hypothèses du modèle de régression linéaire

H1. Linéarité : yi = xi1β1 + xi2β2 + . . .+ xiKβK + εi. La relation entre y etx1, . . . , xK est linéaire.H2. Plein rang : Il n’existe pas de relation linéaire exacte entre les variablesindépendantes. Cette hypothèse est nécessaire pour l’estimation des paramètres dumodèle.H3. Exogénéité des variables indépendantes : E [εi |xj1, xj2, . . . , xjK ] = 0.L’espérance de la perturbation conditionnelle aux réalisations des variablesindépendantes est nulle. En d’autres termes, les variables indépendantesn’interviennent pas dans la prédiction de εi.H4. Homoscédasticité et absence d’autocorrélation : La variance de εi estconstante et finie σ2 et εi n’est pas corrélé avec εj, pour i 6= j. Cette hypothèserestrictive sera dans certains cas levée dans les chapitres suivants.H5. Génération des données : Les observations de (xj1, xj2, . . . , xjK) peuventêtre un mélange de constantes et de variables aléatoires. Les hypothèses les plusimportantes, à ce stade de l’étude, sont l’hypothèse d’indépendance par la moyenne(H3) et l’hypothèse implicite d’indépendance par la variance (H4). Les régressionsseront effectuées conditionnellement à X. Ainsi, que les variables explicatives soientdéterministes ou aléatoires n’a aucune influence sur les résultats. Plus tard danscertains chapitres, nous préciserons la nature de la relation qui existe entre εi et xj .

H6. Distribution normale : Les perturbations sont distribuées selon la loi nor-male. Cette hypothèse n’est pas indispensable pour l’analyse.

est linéaire (après transformation logarithmique), alors que

y = Axβ + ε

ne l’est pas. Ainsi, la variable dépendante est la somme de deux composantes : unecomposante déterministe α+βx et une composante aléatoire ε . Ces deux composantesne sont pas directement observées car α et β sont inconnus.

L’hypothèse de linéarité n’est pas aussi restrictive qu’il paraît au premier abord. Dansla régression, la linéarité se réfère à la manière dont les paramètres et la perturbationsont incorporés dans l’équation, pas nécessairement à la relation entre les variables.Par exemple, les équations y = α + βx + ε, y = α + β cos(x) + ε, y = α + β/x + ε,et y = α + β lnx + ε sont toutes linéaires par rapport à une fonction de x. Dans cesexemples, seul x a été transformé, mais y aurait pu l’être également, comme dansle cas y = Axβeε où la transformation logarithmique donne ln y = α + β ln x + ε.Plusieurs formes fonctionnelles peuvent être utilisées. Par exemple, le modèle log-linéaire s’écrit

ln y = β1 + β2 lnx2 + β3 ln x3 + . . .+ βK ln xK + ε.

© 2011 Pearson Education France – Econométrie, 7e édition – William Greene

Page 8: Le modèle de régression linéaire - pearson.fr · “econometric” — 2011/11/15 — 16:46 — page 9 — #25 Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L’économétrie

“econometric” — 2011/11/15 — 16:46 — page 16 — #32✐

16 Chapitre 2 – Le modèle de régression linéaire

Cette équation est aussi appelée forme fonctionnelle à élasticité constante. Eneffet, l’élasticité de y par rapport à x est ∂ ln y/∂ lnxk = βk. La forme log-linéaire estsouvent utilisée dans des modèles de demande et de production.

Exemple 2.3 : Le marché de l’essence aux États-UnisLes données utilisées concernent le marché américain de l’essence et portent sur lesannées 1953-2004. Elles sont fournies au tableau F2.2. Nous utilisons ces données pourestimer l’élasticité de la demande par rapport au revenu et aux prix direct et croisé. Ellesnous permettent également de soulever l’intéressante question au sujet de la proposition« toutes choses égales par ailleurs ». Considérons le modèle de consommation d’essencepar tête :

ln(essence/pop) = β1 + β2ln(revenu/pop) + β3lnPessence + β4 ln Pvoitures neuves

+ β5 ln Pvoitures d′occasion + ε.

Dans cette spécification, les paramètres β mesurent respectivement les élasticités revenu,prix croisés et prix directs des voitures neuves et d’occasion. La voiture et l’essence sontdes biens complémentaires. Si le prix des voitures neuves augmente, « toutes choseségales par ailleurs », soit la consommation d’essence baisse, soit les consommateursréduisent leurs achats de voitures neuves. Si les voitures d’occasion consomment plusd’essence que les neuves, alors une augmentation du prix des voitures neuves entraî-nera une augmentation de la consommation d’essence. On peut utiliser le modèle derégression multiple et les données sur l’essence pour répondre à ces questions.

La spécification semi-log est souvent utilisée dans les modèles de croissance :

ln yt = x′tβ + δt+ εt.

Dans ces modèles, le taux de croissance autonome (non expliqué par le modèle lui-même) est ∂ ln y/∂t = δ. D’autres formulations peuvent être issues de la formegénérale

f(yt) = g(x′tβ + εt).

Le modèle de régression linéaire est parfois interprété comme une approximation d’unefonction inconnue (voir section A.8.1). Cette interprétation du modèle linéaire a ce-pendant ses limites car une telle approximation (même avec des formes quadratiques)ne s’applique qu’à des cas restreints de variations des variables indépendantes. En re-vanche, le modèle « translog » étudié dans l’exemple suivant est plus souple en termesd’approximation.

Exemple 2.4 : Le modèle translogLes travaux récents portant sur la demande et la production utilisent des formes fonc-tionnelles flexibles. En économétrie, celles-ci permettent de modéliser les effets desecond ordre comme les élasticités de substitution, fonction de la dérivée seconde desfonctions de production, de coût, ou d’utilité. Dans le modèle linéaire, ces effets sontnuls. Le modèle log-linéaire (par exemple, le modèle de Cobb-Douglas) contraint ceux-ci à prendre des valeurs inintéressantes, −1 ou +1. La forme fonctionnelle flexible laplus courante est la forme translog. Elle est souvent interprétée comme une approxi-mation de second ordre d’une forme fonctionnelle inconnue (Berndt et Christensen,1973). Posons y = g(x1, . . . , xK). On a ln y = ln g(. . .) = f(. . .). Si l’on utilise latransformation xk = exp(ln xk), la fonction s’interprète comme le logarithme des x, et

© 2011 Pearson Education France – Econométrie, 7e édition – William Greene

Page 9: Le modèle de régression linéaire - pearson.fr · “econometric” — 2011/11/15 — 16:46 — page 9 — #25 Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L’économétrie

“econometric” — 2011/11/15 — 16:46 — page 17 — #33✐

2.3 – Hypothèses du modèle de régression linéaire 17

ln y = f(ln x1, . . . , ln xK). Le développement de Taylor du second ordre au point x= [1,1, . . . ,1]′ donne

ln y =f(0) +K∑

k=1

[∂f(·)/∂ ln xk]| ln x=0 ln xk

+12

K∑

k=1

K∑

l=1

[∂2f(·)/∂ ln xk∂ ln xl]| ln x=0 ln xk ln xl + ε.

Cette fonction se réécrit

ln y = β0 +K∑

k=1

βk ln xk +12

K∑

k=1

K∑

l=1

γkl ln xk ln xl + ε.

Ce modèle est linéaire par définition mais peut s’adapter à plusieurs courbures lorsqu’ilest utilisé comme approximation d’une autre fonction. Le modèle log-linéaire devientainsi un cas particulier lorsque γkl = 0. En outre, on peut tester la théorie sous-jacente.En effet, si la fonction étudiée est continue et deux fois différentiable, alors, d’après lethéorème de Young, γkl = γlk.

En dépit de sa grande souplesse, le modèle linéaire ne couvre pas tous les cas. Dansl’exemple 18.10 du chapitre 18, nous étudierons un modèle de régression expliquantle nombre de visites chez le médecin, un exemple déjà évoqué dans l’introductionde ce chapitre. La moyenne conditionnelle E[y|x] = exp(x′β) constitue une spé-cification adéquate pour une telle variable dépendante. On pourrait être tenté delinéariser la moyenne conditionnelle par une transformation logarithmique, à savoirlnE[y|x] = x′β. Cela n’est pas une bonne idée puisque lnE[y|x] est différent deE[ln y|x]. De plus, comme y peut prendre la valeur zéro (comme c’est le cas de beau-coup d’observations de l’échantillon), la spécification linéaire x′β (qui peut être né-gative) ne peut s’appliquer ni à ln y ni à y. Ainsi, les méthodes envisagées dans cechapitre ne s’appliquent pas aux modèles ayant une variable dépendante similaire àcelle mentionnée dans ce paragraphe. Des techniques plus ou moins simples ont étédéveloppées pour étudier ce genre de modèles non linéaires. Nous les étudierons dansle chapitre 7.

2.3.2 Hypothèse de plein rang

L’hypothèse 2 énonce qu’il n’existe pas de relation linéaire exacte entre les variables.

Hypothèse : X est une matrice n×K de rang K. (2-5)

Par conséquent, X est de plein rang-colonne. Les colonnes de X sont linéairementindépendantes avec K observations au moins (voir A-42). Cette hypothèse est connuesous le terme de condition d’identification. L’intérêt de cette hypothèse est illustrédans l’exemple suivant.

© 2011 Pearson Education France – Econométrie, 7e édition – William Greene

Page 10: Le modèle de régression linéaire - pearson.fr · “econometric” — 2011/11/15 — 16:46 — page 9 — #25 Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L’économétrie

“econometric” — 2011/11/15 — 16:46 — page 18 — #34✐

18 Chapitre 2 – Le modèle de régression linéaire

Exemple 2.5 : Rang courtSoit le modèle en coupe transversale

C = β1 + β2 revenu non salarial + β3salaire + β4revenu total + ε,

où le revenu total est égal au salaire plus le revenu non salarial. Il existe évidemmentune relation linéaire exacte entre les régresseurs du modèle. Posons

β′2 =β2 + a,

β′3 =β3 + a,

β′4 =β4 − a,

où a est un nombre quelconque. Si l’on substitue β′2, β′

3, et β′4 à β2, β3, et β4, alors

on obtient la même valeur du second membre du modèle. Manifestement, on ne peutestimer les paramètres de ce modèle.

Si le nombre d’observations est inférieur à K, alors X ne peut être de plein rang.On formule donc l’hypothèse (redondante) que n est au moins aussi grand que K.

Dans un modèle linéaire avec deux variables et un terme constant, l’hypothèse deplein rang signifie que le régresseur x varie. Dans le cas contraire, les observationsforment une ligne verticale. Ce dernier cas n’invalide pas les autres hypothèses dumodèle. Nous faisons juste face à un problème de données.

Exemple 2.6 : Un modèle non identifiéDans l’exemple 3.4, nous étudierons un modèle dont la variable expliquée est le prixde vente des toiles de Monet. Les théoriciens du domaine ont en tête divers modèlesexpliquant le prix de vente de toiles vendues aux enchères. Un étudiant naïf suggère lemodèle suivant :

ln prix = β1 + β2 ln taille + β3 ln(rapport d′aspect) + β4 ln hauteur + ε

= β1 + β2x2 + β3x3 + β4x4 + ε,

où taille = largeur × hauteur et rapport d′aspect = largeur/hauteur. Ce modèle a lesmêmes problèmes que rencontre le modèle de consommation de l’exemple 2.5. Dans cecas-ci, x2 − x4 = x3 + x4, ce qui rend le modèle non estimable car non identifé.

2.3.3 Régression

La structure du terme d’erreur est telle que

E [εi | X] = 0. (2-6)

Pour l’ensemble des observations, l’hypothèse 3 se réécrit :

Hypothèse : E [ε | X] =

E [ε1 |X ]E [ε2 |X ]

...E [εn |X ]

= 0. (2-7)

© 2011 Pearson Education France – Econométrie, 7e édition – William Greene

Page 11: Le modèle de régression linéaire - pearson.fr · “econometric” — 2011/11/15 — 16:46 — page 9 — #25 Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L’économétrie

“econometric” — 2011/11/15 — 16:46 — page 19 — #35✐

2.3 – Hypothèses du modèle de régression linéaire 19

Notons que dans (2-7), le membre de gauche stipule que l’espérance de chaque εi

conditionnellement à toutes les observations xi est nulle. Cela signifie que les ob-servations x ne fournissent pas d’informations sur la valeur moyenne de la pertur-bation. Dans le cas des séries temporelles, bien que xi ne donne pas d’informationsur E[εi|·], il se pourrait que xj donne des indications sur les observations des pé-riodes futures. Nous étudierons les conséquences de l’omission d’une telle hypothèse(Wooldridge, 1995). Nous supposerons également que les perturbations ne donnentaucune information sur elles-mêmes, c’est-à-dire E [εi | ε1, . . . , εi−1, εi+1, . . . , εn] = 0.À ce niveau, nous supposons que les perturbations sont générées de manière purementaléatoire.

La nullité de l’espérance conditionnelle entraîne également celle de l’espérance nonconditionnelle puisque

E [εi] = Ex[E [εi | X]] = Ex[0] = 0.

En effet, pour chaque εi, Cov[E [εi | X], X] = Cov[εi, X] et l’hypothèse 3 suppose queCov[εi, X] = 0 pour tout i. L’implication inverse n’est pas vraie, c’est-à-dire, E[εi] = 0n’implique pas E[εi|xi] = 0. L’exemple suivant illustre ce phénomène.

Exemple 2.7 : Non-nullité de la moyenne conditionnelle des perturbationsLa figure 2.2 montre la différence qui existe entre E[εi] = 0 et E[εi|xi] = 0. Globale-ment, la moyenne des perturbations dans l’échantillon est nulle. Cependant, si l’on serestreint à des intervalles spécifiques de x, cette moyenne est non nulle. Une telle ob-servation dans l’échantillon devrait nous amener à nous interroger sur l’adéquation decette hypothèse. Dans ce cas précis, la véritable expression de la moyenne conditionnelle(que l’économètre ne connaît pas en général) est E[y|x] = 1 + exp(1,5x). Visiblement,le modèle linéaire ne s’applique pas aux données de cet échantillon.

Ajustement Y a b

X

Y

= +0,8485 = +5,2193 R2 = 0,9106

12

10

8

6

4

0

2

0 0,25 0,50 0,75 1 1,25 1,50

Figure 2.2 : Perturbations dont la moyenne conditionnelle est non nullemais dont la moyenne non-conditionnelle est nulle.

© 2011 Pearson Education France – Econométrie, 7e édition – William Greene

Page 12: Le modèle de régression linéaire - pearson.fr · “econometric” — 2011/11/15 — 16:46 — page 9 — #25 Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L’économétrie

“econometric” — 2011/11/15 — 16:46 — page 20 — #36✐

20 Chapitre 2 – Le modèle de régression linéaire

Dans la plupart des cas, l’hypothèse de nullité de l’espérance n’est pas restrictive.Considérons un modèle à deux variables et supposons que l’espérance de ε est µ 6= 0.Alors, α + βx + ε est identique à (α + µ) + βx + (ε− µ). Si l’on pose α′ = α + µ etε′ = ε−µ, on reproduit le modèle d’origine. Les analyses concernant les frontières dela fonction de production fournissent un exemple d’application dans le chapitre 18.

Si le modèle d’origine ne contient pas de terme constant, supposer que E [εi] = 0pourrait être substantiel. Cela suggère l’existence d’un problème possible dans lesmodèles sans constante. En règle générale, les modèles de régression ne devraient pasêtre spécifiés sans constante, à moins que cela ne soit explicitement dicté par la théoriesous-jacente. 3 Si nous avons des raisons de supposer que l’espérance de la perturbationest non nulle, alors cela doit être spécifié dans la régression. L’hypothèse 3 supposeégalement que

E [y | X] = Xβ. (2-8)

La régression de y sur X est l’espérance conditionnelle, E [y | X]. Si l’on omet l’hy-pothèse 3, Xβ n’est pas la fonction « espérance conditionnelle ».

Les autres hypothèses apportent des informations supplémentaires sur les caractéris-tiques des perturbations et indiquent sous quelles conditions sont obtenues les obser-vations de x.

2.3.4 Perturbations sphériques

La quatrième hypothèse concerne la variance et la covariance des perturbations :

Var[εi | X] = σ2, pour tout i = 1, . . . , n,

etCov[εi, εj | X] = 0, pour tout i 6= j.

Lorsque la variance est constante, on parle d’homoscédasticité. Soit le modèle ex-pliquant les profits d’une entreprise en fonction de sa taille. Même en tenant comptede la taille, les profits des grandes entreprises seront sujets à des variations plus im-portantes que ceux des petites. L’hypothèse d’homoscédasticité ne semble donc pasconvenir dans ce cas. De même, les dépenses des ménages sont soumises à une fortehétéroscédasticité même si le revenu et la taille du ménage sont pris en compte.

Lorsque les observations ne sont pas corrélées entre elles, on parle de d’absenced’autocorrélation. La figure 2.1 suggère que les perturbations ne sont pas vrai-ment indépendantes. Bien que le nombre d’observations soit faible, il apparaît que,en moyenne, chaque perturbation tend à être suivie d’une autre de même signe. Cette« inertie » est appelée autocorrélation. Beaucoup d’études sont consacrées aux mé-thodes permettant de tenir compte de l’autocorrélation (voir chapitre 20). Notonsque l’absence d’autocorrélation ne suppose pas que les observations yi et yj ne soient

3. Les modèles de différences premières peuvent être spécifiés sans constante de régression. Consi-dérons yt − yt−1. S’il existe une constante α dans le membre de droite de l’équation, alors yt estune fonction de αt, qui est alors un régresseur explosif. Les modèles avec une tendance linéaire fontl’objet d’une attention particulière dans la littérature sur les séries temporelles (voir chapitre 19).

© 2011 Pearson Education France – Econométrie, 7e édition – William Greene

Page 13: Le modèle de régression linéaire - pearson.fr · “econometric” — 2011/11/15 — 16:46 — page 9 — #25 Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L’économétrie

“econometric” — 2011/11/15 — 16:46 — page 21 — #37✐

2.3 – Hypothèses du modèle de régression linéaire 21

pas corrélées. L’hypothèse énonce que les écarts des observations par rapport à leursmoyennes ne sont pas corrélés. Ces deux hypothèses supposent que

E [εε′ | X] =

E [ε1ε1 | X] E [ε1ε2 | X] . . . E [ε1εn | X]E [ε2ε1 | X] E [ε2ε2 | X] . . . E [ε2εn | X]

......

......

E [εnε1 | X] E [εnε2 | X] . . . E [εnεn | X]

=

σ2 0 . . . 00 σ2 . . . 0

...0 0 . . . σ2

.

Cela se résume dans l’hypothèse 4 :

Hypothèse : E [εε′ | X] = σ2I. (2-9)

Si l’on utilise la formule de la décomposition de la variance (B-69), on obtient

Var[ε] = E [Var[ε | X]] + Var[E [ε | X]] = σ2I.

Dans le cadre des séries temporelles, les modèles du type Var[εt | εt−1] = σ2 +αε2t−1

– dits « GARCH » (voir chapitre 20) – ne violent pas l’hypothèse précédente, maissupposent que Var[εt | εt−1] 6= Var[εt].

Les perturbations qui ne satisfont pas les hypothèses d’homoscédasticité et d’absenced’autocorrélation sont parfois dites sphériques. 4

2.3.5 Processus générateur des régresseurs

On suppose généralement que xi est non stochastique, ce qui est le cas des donnéesexpérimentales. Dans une étude, la liste des régresseurs est choisie pour yi donné.À ce stade, l’hypothèse de régresseurs non stochastiques est purement d’ordre tech-nique et simplifie l’analyse. En effet, cela permet d’utiliser des résultats de statistiquemathématique en considérant le vecteur xi comme une constante connue pour la dis-tribution de probabilité de yi. Dans ce cas, les hypothèses H3 et H4 deviennent nonconditionnelles et la distribution de probabilité de εi n’incorpore pas de constantesde X.

Les spécialistes des sciences sociales n’ont presque jamais accès à des données expéri-mentales, et seuls quelques-uns de leurs modèles sont construits avec des régresseursnon aléatoires. Une telle approche paraît difficilement soutenable dans un modèlemacroéconomique. Normalement, les régresseurs xi ainsi que yi devraient être aléa-toires et le problème est alors celui de la nature du processus générant les régresseurs.

4. Ce terme se rapporte à la distribution normale multivariée (voir B-95). Dans la densité normalemultivariée, si Σ = σ2I, alors f(x) = c est l’équation d’une « boule » centrée en µ de rayon σ dansun espace de dimension n. Le terme sphérique est employé, que la distribution supposée soit normaleou non. Parfois cette hypothèse est explicite.

© 2011 Pearson Education France – Econométrie, 7e édition – William Greene

Page 14: Le modèle de régression linéaire - pearson.fr · “econometric” — 2011/11/15 — 16:46 — page 9 — #25 Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L’économétrie

“econometric” — 2011/11/15 — 16:46 — page 22 — #38✐

22 Chapitre 2 – Le modèle de régression linéaire

Si ces derniers sont aléatoires, la distribution conjointe de yi et de xi doit être prise encompte en énonçant les hypothèses 1 à 4. La nature précise du régresseur et la manièredont on conçoit le processus d’échantillonnage sont primordiales pour les propriétésstatistiques des estimateurs et des statistiques de test. Finalement, l’hypothèse es-sentielle est l’hypothèse 3 d’absence de corrélation entre X et ε. Cette méthode nesemble pas complètement satisfaisante non plus, puisque X peut contenir des élé-ments non stochastiques, y compris une constante, une tendance temporelle, et desvariables indicatrices (ou muettes). Nous supposerons alors que X peut être un mé-lange de constantes et de variables aléatoires et que la moyenne et la variance de εi

sont indépendantes de tous les éléments de X.

Hypothèse : X peut etre fixe ou aleatoire. (2-10)

2.3.6 Normalité

On suppose que les perturbations sont normalement distribuées, d’espérance nulleet de variance constante. Ce faisant, on ajoute la normalité de la distribution auxhypothèses 3 et 4.

Hypothèse : ε | X ∼ N [0, σ2I]. (2-11)

Compte tenu de la structure et de la source de ε, les conditions d’application duthéorème central limite sont vérifiées, du moins approximativement, et il est raison-nable de formuler l’hypothèse de normalité. Cette dernière semble souvent inutile etinadéquate dans le cadre des modèles de régression. Mis à part les situations où unedistribution différente est clairement spécifiée [c’est par exemple le cas des modèlesà frontières stochastiques (voir chapitre 18)], l’hypothèse de normalité est tout à faitraisonnable.

L’hypothèse de normalité n’est pas nécessaire pour obtenir les résultats du modèle derégression multiple. Elle permet cependant d’obtenir des résultats statistiques exacts,et de construire des intervalles de confiance et des statistiques de test, comme nous lemontrerons à la section 4.5 et au chapitre 5. Cette hypothèse sera levée ultérieurementet la plupart des résultats statistiques maintenus (voir sections 4.4 et 5.6).

2.3.7 Indépendance

Le terme « indépendant » a été utilisé plusieurs fois dans ce chapitre. À la section 2.2,nous avons appelé les régresseurs du modèle variables indépendantes. Cette notiond’indépendance s’explique par les sources de variation qui, dans ce contexte, sontextérieures au processus décrit. Ainsi, dans notre exemple de demande de soins desanté, nous avons expliqué les variations dans la demande de soins par des variationsde revenu. Nous n’avons cependant pas donné d’explications concernant les variationsdu revenu. Nous avons ainsi supposé que celles-ci proviennent de sources extérieuresau modèle.

On appelle l’hypothèse (2-6), à savoir E[εi|X] = 0, l’hypothèse d’indépendance parla moyenne. Elle suppose que les variations des perturbations ne sont pas expliquéespar celles des variables indépendantes. Nous avons aussi supposé à la section 2.3.4que les perturbations sont non corrélées entre elles (hypothèse H4 du tableau 2.1).

© 2011 Pearson Education France – Econométrie, 7e édition – William Greene

Page 15: Le modèle de régression linéaire - pearson.fr · “econometric” — 2011/11/15 — 16:46 — page 9 — #25 Chapitre 2 Le modèle de régression linéaire 2.1 Introduction L’économétrie

“econometric” — 2011/11/15 — 16:46 — page 23 — #39✐

Résumé et conclusions 23

Cela implique que E[εi|εj ] = 0 pour tout i 6= j, c’est-à-dire, les perturbations sontaussi indépendantes à travers leur moyenne. L’hypothèse de leur normalité (condi-tionnelle) de la section 2.3.6 (hypothèse H6) suppose qu’elles sont statistiquementindépendantes, ce qui constitue une hypothèse plus forte que celle d’indépendancepar la moyenne.

Nous avons enfin étudié à la section 2.3.2 l’indépendance linéaire des colonnes dela matrice X. Cette notion d’indépendance provient de l’algèbre et est liée à la notionde rang en colonnes de X. Pour la modélisation, une telle notion implique que, si lesvariables ne varient pas de façon indépendante, il est impossible de les inclure dansun modèle de régression linéaire. Il existe cependant une ambiguïté dans cette notiond’indépendance des variables. En effet, nous avons inclus dans l’exemple 2.2 age etage2 comme régresseurs. Ces régresseurs ne varient pas de façon indépendante l’un del’autre, ce qui ne constitue pas un obstacle à l’estimation du modèle de régression. Eneffet, même si ces deux variables ne sont pas indépendantes de façon fonctionnelle,elles le sont de façon linéaire. C’est cette dernière hypothèse qui compte pour lemodèle de régression linéaire.

Résumé et conclusionsCe chapitre a posé le cadre du modèle de régression linéaire qui sert de point de départà la modélisation en économétrie. Les hypothèses du modèle sont résumées au sein dela figure 2.3 dans le cas de deux variables.

E(y|x)

x0 x1 x2

x

N( x2, 2 )

E(y|x x2)

x

E(y|x x1)

E(y|x x0)

Figure 2.3 : Le modèle de régression.

© 2011 Pearson Education France – Econométrie, 7e édition – William Greene