279
ECONOMETRIE LINEAIRE Bruno Crépon Novembre 2005

Econométrie Cours de Bruno Crepon

Embed Size (px)

Citation preview

  • ECONOMETRIE LINEAIRE

    Bruno Crpon

    Novembre 2005

  • ii

  • Table des matires

    1 Introduction 11.1 Le modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Do vient le modle ? - 1 de la thorie conomique . . . . . . . . . . . . . 11.3 Les donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.4 Lestimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.5 Pourquoi estimer le modle ? . . . . . . . . . . . . . . . . . . . . . . . . . . 51.6 Do vient le modle ? - 2 de relations stochastiques . . . . . . . . . . . . . 51.7 Plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    2 Lestimateur des moindres carrs ordinaires 112.1 Dfinition et proprits algbriques . . . . . . . . . . . . . . . . . . . . . . 11

    2.1.1 Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.1.2 Interprtation gomtrique . . . . . . . . . . . . . . . . . . . . . . . 122.1.3 Thorme de Frish-Waugh . . . . . . . . . . . . . . . . . . . . . . . 13

    2.2 Modle et proprits statistiques . . . . . . . . . . . . . . . . . . . . . . . . 152.2.1 Quand lestimateur des mco est-il sans biais ? . . . . . . . . . . . . 152.2.2 Quelle est la prcision de lestimateur des mco? . . . . . . . . . . . 162.2.3 Lestimateur des mco est-il le plus prcis : le thorme de Gauss-

    Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2.4 Estimation des paramtres du second ordre . . . . . . . . . . . . . . 192.2.5 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . 20

    2.3 Variable omise et rgresseur additionnel . . . . . . . . . . . . . . . . . . . . 212.4 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    3 Les MCO sous lhypothse de normalit des perturbations. 253.1 Normalit de lestimateur des mco . . . . . . . . . . . . . . . . . . . . . . . 253.2 Ecart-types estims, tests et intervalles de confiance . . . . . . . . . . . . . 27

    3.2.1 Ecart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.2.2 Un rsultat central . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.2.3 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . 293.2.4 Tests de la forme 0b = . . . . . . . . . . . . . . . . . . . . . . . . 30

    iii

  • iv TABLE DES MATIRES

    3.3 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.4 Comparaison avec lestimateur du Maximum de Vraisemblance . . . . . . . 353.5 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.6 Annexe : Distribution de la norme de la projection dun vecteur normal . . 37

    4 Estimation sous contraintes linaires 394.1 Formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.2 LEstimateur des Moindres Carrs Contraints (MCC) . . . . . . . . . . . . 424.3 Esprance et variance de bmcc . . . . . . . . . . . . . . . . . . . . . . . . . 434.4 Estimateur de la variance des rsidus 2 . . . . . . . . . . . . . . . . . . . 454.5 Loi de lestimateur des moindres carrs contraints . . . . . . . . . . . . . . 464.6 Estimation par intgration des contraintes . . . . . . . . . . . . . . . . . . 484.7 Tester les contraintes : le test de Fisher . . . . . . . . . . . . . . . . . . . . 504.8 Applications du test de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 52

    4.8.1 Un test en deux tapes . . . . . . . . . . . . . . . . . . . . . . . . . 524.8.2 Test de la nullit globale des paramtres . . . . . . . . . . . . . . . 544.8.3 Le Test de Chow de stabilit des paramtres . . . . . . . . . . . . . 55

    4.9 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    5 Proprits asymptotiques de lestimateur des MCO 595.1 Rappel sur les convergences . . . . . . . . . . . . . . . . . . . . . . . . . . 59

    5.1.1 Dfinition : Convergence en probabilit, Convergence en loi, Conver-gence en moyenne quadratique . . . . . . . . . . . . . . . . . . . . . 59

    5.1.2 Loi des Grands Nombres et Thorme Centrale Limite . . . . . . . 605.1.3 Dirents rsultats concernant les convergences . . . . . . . . . . . 635.1.4 Illustration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

    5.2 Proprits asymptotiques de lestimateur des MCO . . . . . . . . . . . . . 675.3 Tests asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

    5.3.1 Test dhypothses linaires . . . . . . . . . . . . . . . . . . . . . . . 725.3.2 Test dhypothses non linaires . . . . . . . . . . . . . . . . . . . . 76

    5.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 775.5 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

    6 Le modle linaire sans lhypothse dhomoscdasticit 796.1 Prsentation : Homoscdasticit et htroscdasticit. . . . . . . . . . . . . 79

    6.1.1 Quelques exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . 796.1.2 Conclusion des exemples et dfinition du modle linaire htrosc-

    dastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 846.2 Estimation par les MCO et les MCG . . . . . . . . . . . . . . . . . . . . . 85

    6.2.1 Proprits des moindres carrs ordinaires . . . . . . . . . . . . . . . 856.2.2 La mthode des Moindres Carrs Gnraliss (MCG) . . . . . . . . 86

  • TABLE DES MATIRES v

    6.2.3 Proprits statistiques de lesprance et de la variance conditionnelledes MCG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

    6.3 Lestimateur des MCQG . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

    7 Le modle htroscdastique en coupe 937.1 Infrence robuste lhtroscdasticit . . . . . . . . . . . . . . . . . . . . 94

    7.1.1 Proprits asymptotiques de lestimateur . . . . . . . . . . . . . . . 957.1.2 Test dhypothses dans le modle htroscdastique . . . . . . . . . 967.1.3 Estimation sous contraintes linaires en prsence dhtroscdasticit 97

    7.2 Test dhtroscdasticit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 987.2.1 Le test de Breush-Pagan . . . . . . . . . . . . . . . . . . . . . . . . 987.2.2 Test de Goldfeld-Quandt . . . . . . . . . . . . . . . . . . . . . . . . 100

    7.3 Lestimateur des mCQG dans le cas o V (ui |xi ) = h (, xi) . . . . . . . . 1017.3.1 Application : u2i = vi exp zi . . . . . . . . . . . . . . . . . . . . . . 103

    7.4 Exemple : estimation dune quation de salaire . . . . . . . . . . . . . . . 104

    8 Autocorrlation des rsidus dans les sries temporelles 1098.1 Direntes formes dautocorrlation des perturbations . . . . . . . . . . . . 109

    8.1.1 Processus stationnaires au premier et au second ordres . . . . . . . 1098.1.2 Perturbations suivant une moyenne mobile (MA) . . . . . . . . . . 1108.1.3 Perturbations suivant un processus autorgressif (AR) . . . . . . . . 1118.1.4 Perturbation suivant un processus ARMA(p,q) . . . . . . . . . . . . 114

    8.2 Estimateur des MCO lorsque les perturbations suivent un AR(1) . . . . . . 1158.3 Lestimateur de Newey-West de la matrice de variance de bbmco . . . . . . . 1188.4 Les MCQG dans le modle AR (1) : lestimateur de Prais-Watson. . . . . . 1208.5 Dtection de lautocorrlation . . . . . . . . . . . . . . . . . . . . . . . . . 123

    8.5.1 Un test asymptotique . . . . . . . . . . . . . . . . . . . . . . . . . . 1238.5.2 Le test de Durbin et Watson . . . . . . . . . . . . . . . . . . . . . . 123

    8.6 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

    9 Lestimateur des MCQG dans le cas o = IN () 1279.1 Le cas des rgressions empiles. . . . . . . . . . . . . . . . . . . . . . . . . 1329.2 Illustration : estimation dune fonction de production sur donnes indivi-

    duelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1339.3 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

    10 Variables instrumentales 13710.1 Trois exemples types dendognit des rgresseurs . . . . . . . . . . . . . . 138

    10.1.1 Erreur de mesure sur les variables . . . . . . . . . . . . . . . . . . . 13810.1.2 Simultanit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13910.1.3 Omission de rgresseurs, htrognit inobserve . . . . . . . . . . 139

    10.2 La mthode des variables instrumentales . . . . . . . . . . . . . . . . . . . 141

  • vi TABLE DES MATIRES

    10.2.1 Modle variables endognes et non convergence de lestimateurdes mco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

    10.2.2 Rsoudre le problme de lidentification par lutilisation de variablesinstrumentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

    10.2.3 Identification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14410.2.4 Moindres carrs indirects . . . . . . . . . . . . . . . . . . . . . . . . 14510.2.5 Proprit asymptotiques des estimateurs des MCI . . . . . . . . . . 146

    10.3 Lestimateur des doubles moindres carrs . . . . . . . . . . . . . . . . . . 14810.3.1 Existence dun estimateur optimal . . . . . . . . . . . . . . . . . . . 14810.3.2 Lestimateur optimal comme estimateur des doubles moindres carrs 14910.3.3 Cas des rsidus htroscdastiques . . . . . . . . . . . . . . . . . . . 151

    10.4 Interprtation de la condition rangE (z0ixi) = K + 1 . . . . . . . . . . . . . 15210.5 Test de suridentification . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

    10.5.1 Ide du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15310.5.2 Approche formelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 15410.5.3 Mise en oeuvre du test . . . . . . . . . . . . . . . . . . . . . . . . . 157

    10.6 Test dexognit des variables explicatives . . . . . . . . . . . . . . . . . . 15910.6.1 Intrt et ide du test . . . . . . . . . . . . . . . . . . . . . . . . . 15910.6.2 Approche formelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

    10.7 Illustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16310.7.1 Rduction du temps de travail et gains de productivit . . . . . . . 163

    10.8 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

    11 La Mthode des moments gnralise 16911.1 Modle structurel et contrainte identifiante : restriction sur les moments . . 16911.2 Dfinir un modle par le biais de conditions dorthogonalit . . . . . . . . 171

    11.2.1 Maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . 17211.2.2 Modle desprance conditionnelle, moindres carrs non linaires . . 17211.2.3 Mthode variables instrumentales pour une quation seule . . . . 17311.2.4 Mthode variables instrumentales pour un systme d quations. . 17311.2.5 Lconomtrie des donnes de panel . . . . . . . . . . . . . . . . . . 174

    11.3 Principe de la mthode : . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17811.4 Convergence et proprits asymptotiques . . . . . . . . . . . . . . . . . . . 17911.5 Estimateur optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182

    11.5.1 Existence dun estimateur optimal . . . . . . . . . . . . . . . . . . . 18211.5.2 Mise en oeuvre de lestimateur optimal : deux tapes . . . . . . . . 183

    11.6 Application aux Variables Instrumentales . . . . . . . . . . . . . . . . . . . 18311.6.1 Variables instrumentales dans un systme dquations - cas gnral 18311.6.2 Rgressions variables instrumentales dans un systme homosc-

    dastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18511.6.3 Application aux donnes de panel . . . . . . . . . . . . . . . . . . . 186

  • TABLE DES MATIRES vii

    11.6.4 Estimateur VI optimal dans le cas univari et htroscdastique . . 18811.7 Test de spcification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

    11.7.1 Test de suridentification . . . . . . . . . . . . . . . . . . . . . . . . 18911.7.2 Tester la compatibilit de conditions dorthogonalit additionnelles . 19111.7.3 Application test de suridentification et dexognit pour un esti-

    mateur variables instrumentales dans le cas univari et htrosc-dastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

    11.7.4 Application aux donnes de panel . . . . . . . . . . . . . . . . . . . 19311.8 Illustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194

    11.8.1 Rduction du temps de travail et gains de productivit . . . . . . . 19411.8.2 Salaires et heures . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195

    11.9 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199

    12 Variables dpendantes limites 20112.1 Modle dichotomique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202

    12.1.1 Modle probabilits linaires . . . . . . . . . . . . . . . . . . . . . 20312.1.2 Les modles probit et logit. . . . . . . . . . . . . . . . . . . . . . . 204

    12.2 Variables latentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20512.3 Estimation des modles dichotomiques . . . . . . . . . . . . . . . . . . . . 207

    12.3.1 Conditions de 1er ordre pour la maximisation . . . . . . . . . . . . 20912.3.2 Drives secondes de la log-vraisemblance - condition de concavit . 21012.3.3 Matrice de variance-covariance de bb . . . . . . . . . . . . . . . . . . 211

    12.4 Illustration : participation des femmes sur le march du travail . . . . . . . 21212.5 Slectivit : le modle Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . 213

    12.5.1 Prsentation de la slectivit . . . . . . . . . . . . . . . . . . . . . . 21312.5.2 Rappels sur les lois normales conditionnelles. . . . . . . . . . . . . . 218

    12.6 Estimation du modle Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . 22212.6.1 Pourquoi ne pas estimer un modle Tobit par les MCO? . . . . . . 22212.6.2 Estimation par le maximum de vraisemblance . . . . . . . . . . . . 22312.6.3 Estimation en deux tapes par la mthode dHeckman . . . . . . . 22412.6.4 Des extensions paramtriques simples . . . . . . . . . . . . . . . . . 22612.6.5 Le modle de slection semi paramtrique. . . . . . . . . . . . . . . 22812.6.6 Illustration : le modle dore de travail dHeckman . . . . . . . . . 230

    12.7 Modles de choix discrets : le Modle Logit Multinomial . . . . . . . . . . 23412.7.1 Estimation du modle logit multinomial : . . . . . . . . . . . . . . . 236

    12.8 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237

    13 Evaluation 23913.1 Le Modle causal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241

    13.1.1 Choix de la variable dintrt et choix de ltat de rfrence . . . . . 24113.1.2 Paramtres dintrt . . . . . . . . . . . . . . . . . . . . . . . . . . 242

  • viii TABLE DES MATIRES

    13.1.3 Biais de slectivit . . . . . . . . . . . . . . . . . . . . . . . . . . . 24313.2 Lestimateur des Dirences de Dirences . . . . . . . . . . . . . . . . . . 244

    13.2.1 Estimateur en coupe . . . . . . . . . . . . . . . . . . . . . . . . . . 24513.2.2 Estimateur Avant-Aprs . . . . . . . . . . . . . . . . . . . . . . . . 24513.2.3 Estimateur par dirence de dirence. . . . . . . . . . . . . . . . . 24613.2.4 Exemple : La Contribution Delalande . . . . . . . . . . . . . . . . . 248

    13.3 Indpendance conditionnelles des observables . . . . . . . . . . . . . . . . 25013.3.1 Identification sous lhypothse dindpendance conditionnelles des

    observables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25013.3.2 Le score de propension (propensity score) . . . . . . . . . . . . . . . 25213.3.3 Mthodes destimation . . . . . . . . . . . . . . . . . . . . . . . . . 25213.3.4 Vraisemblance de lhypothse dindpendance conditionnelle des

    observables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25813.4 Le modle de slectivit sur inobservables . . . . . . . . . . . . . . . . . . . 263

    13.4.1 Expression des paramtres dintrt dans le cas gnral . . . . . . . 26413.4.2 Le cas Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26613.4.3 Des extensions paramtriques simples . . . . . . . . . . . . . . . . . 26713.4.4 Le modle de slection semi paramtrique. . . . . . . . . . . . . . . 269

  • Chapitre 1

    Introduction

    1.1 Le modle

    Le modle central auquel on sintresse dans ce cours est le modle linaire que loncrit en toute gnralit

    y = + 1x1 + + KxK + u = xb+ uDans ce modle interviennent direntes grandeurs : y la variable explique ou dpendante x1, . . . , xK , K variables explicatives ou indpendantes u une perturbation b = (, 1, ,K)0 le paramtre estimerParmi ces lments les variables y et x sont observes. En revanche le paramtre b est

    inconnu et la perturbation u inobserve.

    1.2 Do vient le modle ? - 1 de la thorie cono-mique

    Le modle vient dabord dides sur les relations entre y et x.... Ces ides peuventavoir un lien trs troit avec la thorie conomique. Il peut sagir par exemple dunefonction de production

    Y = F (K,L)

    On pourrait estimer la fonction de production parmi toutes les fonctions possibles.On ferait alors des rgressions dites non paramtriques. Le cadre que lon considreici est plus simple et consiste restreindre lensemble des possibilits et de se placerdans un ensemble de fonctions de productions dpendant dun nombre fini de pa-ramtres. On retient souvent la spcification de Cobb-Douglas, ce qui implique en

    1

  • 2 CHAPITRE 1. INTRODUCTION

    particulier une restriction sur les possibilits de substitution par rapport au cadregnral :

    Y = AKL

    Cette spcification conduit une relation log linaire :

    y = a+ k + l

    qui est le modle auquel on sintresse. Dans ce cadre on peut noter que la perturba-tion a une interprtation naturelle, il sagit de la constante a reprsentant le niveaude la technologie, susceptible de varier dune entreprise lautre. En revanche le mo-dle fait lhypothse quil y a homognit des autres coecients dans la populationdentreprises.Un autre exemple de modle directement dduit de la thorie conomique est celuides demandes de facteurs. Si on spcifie une fonction de cot C (Q, pX , u) , o Q estla production, pX le vecteur des prix et u le niveau de la technologie, la demandepour un facteur donn est donne par le Lemme de Shephard :

    X0d =C (Q, pX , u)

    pX0

    Comme dans le cas prcdent on se restreint en gnral une forme paramtriquede la fonction de cot. Une spcification standard est la fonction de cot translogavec deux facteurs, capital de cot exp(c) et travail de cot exp(w) :

    LogC = a+ c+ w + 0.5cc2 + w,ccw + 0.5ww2 + log (Q) log (u)

    La constante reprsente l aussi le niveau de la technologie. Ce type de spcificationconduit des fonctions de demande spcifiant la part de chaque facteur. Par exemplepour le travail on a

    wL

    Q= + w,cc+ ww

    On voit que dans cette spcification la perturbation na pas dinterprtation aussinaturelle que dans le cas prcdent. Il faut considrer que soit le paramtre esthtrogne, soit la part observe scarte de la part thorique pour des raisons nonexpliques.Le modle peut aussi provenir dune relation moins structurelle entre les variables.Par exemple un type dquations trs souvent estim est lquation de Mincer quifait dpendre le salaire du nombre dannes dtude et de lexprience. Par exemple :

    log (wi) = a0 + assi + aeei + ui

    o as reprsente le gain li une anne dtude supplmentaire et ae le gain li une anne dexprience supplmentaire. Les paramtres conomiques auxquels on

  • 1.3. LES DONNES 3

    sintresse alors sont le rendement de lducation ou le rendement de lexprience. Lamodlisation sous-jacente est celle du capital humain : le capital humain saccumuledabord durant la priode des tudes puis durant la vie active par lexprience, enapprenant sur le tas. Si on fait lhypothse dun march du travail concurrentiel,les dirences de rmunrations entre les agents traduiront des dirences dans lecapital humain. On peut remarquer concernant cette quation que lon ne sintressepas seulement expliquer les dirences moyennes de revenus entre les agents maisque lon souhaite aussi parvenir une estimation plus ambitieuse qui puisse conduire une interprtation causale : si on augmente la dure des tudes de un an dunindividu quel sera son gain en terme de rmunration ?Un autre exemple dans lequel le modle entretient des rapports encore plus tnusavec des paramtres structurels mais possde une interprtation causale est celui delincidence de la taille dune classe sur le taux de russite des lves de la classe. Onpeut lgitimement se poser la question de savoir si la rduction de la taille des classesconduit une amlioration du taux de russite scolaire. On peut ainsi considrer unmodle du type :

    i = a0 + attaillei + xiax + ui

    o i reprsente le taux de russite dune classe. Dans cette spcification que lonpourrait appeler fonction de production scolaire, on introduit un ensemble dautresvariables. En eet on se doute bien que de nombreux facteurs aectent la rus-site dune classe. Par exemple lenvironnement scolaire est certainement un facteurimportant. On pourrait se dire que comme on ne sintresse pas la variable den-vironnement on ne la met pas dans la rgression. Dun ct on y gagne car on napas faire leort de mesurer cette variable, mais dun autre ct cette variablecontribue aussi dterminer la taille de la classe. Il est possible que dans certainsmilieux dfavoriss la taille des classes soit plus petites. Si on ignore le rle de lenvi-ronnement scolaire et quon ne lintgre pas dans la rgression, on risque de mesurerun eet de la taille de la classe qui soit un mixte de leet propre de la taille et deleet de lenvironnement. Il donc important dans ce type de modle, entretenantdes rapports larges avec la thorie, dintroduire des facteurs annexes qui permet-tront disoler leet propre de la taille de la classe. On cherche contrler pour uncertain nombre de facteurs extrieurs.Enfin, on peut avoir une approche descriptive des donnes. Il est important deremarquer que dans ce cas les paramtres nont pas dinterprtation structurelle.

    1.3 Les donnes

    Les donnes constituent le cur de lconomtrie. Leur recueil et leur examen descriptifconstituent aussi en gnral une part importante de tout travail conomtrique. Il y aprincipalement trois grands types de donnes :

  • 4 CHAPITRE 1. INTRODUCTION

    1. Donnes temporelles ou longitudinales. Elles sont indices par le temps t. On disposeainsi de sries dites temporelles : yt, xt, par exemple les sries trimestrielles de laconsommation et du revenu, de linflation... En gnral le nombre dobservation Test assez rduit, de lordre de la cinquantaine. On note en gnral y le vecteur T 1(y1, . . . , yT )

    0 et x la matrice T (K + 1) : (x01, . . . , x0T )0 o xt est le vecteur ligneform des valeurs des direntes variables explicatives (dont la constante) la datet.

    2. Donnes en coupe. yi, xi. Leur indice correspond lidentifiant dun individu oudune entreprise. Ces donnes peuvent reprsenter par exemple le salaire dun in-dividu pour y et son diplme, son exprience... pour les variables explicatives. Leschantillons dont on dispose sont en gnral de beaucoup plus grande taille : lenombre dobservation N dpasse le plus souvent la centaine et peut aller jusquplusieurs dizaines de milliers. On note l encore en gnral y le vecteur N 1(y1, . . . , yN)

    0 et x la matrice N (K + 1) : (x01, . . . , x0N)0 o xi est le vecteur ligneform des valeurs des direntes variables explicatives (dont la constante) pour lin-dividu i.

    3. Donnes double indice, dites de panel : yit, xit. On dispose dinformations sur desindividus i = 1, . . . , N que lon suit sur plusieurs priodes, t = 1, . . . , T. Les NT ob-servations zit correspondent N observations vectorielles individuelles zi1, . . . ziT .On note en gnral y

    ile vecteur T 1 (yi1, . . . , yiT )0 et xi la matrice T (K + 1) :

    (x0i1, . . . , x0iT )

    0 et y le vecteur NT 1y1, . . . , y

    N

    0et x la matrice NT (K + 1) :

    (x01, . . . , x0N)

    0 o xi est la matrice forme des valeurs des direntes variables expli-catives (dont la constante) pour lindividu i aux direntes dates.

    1.4 Lestimation

    Estimer le modle cest trouver une fonction des observations y et x

    bb = b y, xdont on souhaite quelle vrifie certaines conditions. Par exemple lestimateur peut trechoisi tel

    quil soit "sans biais" Ebb = Z b y, x f y, x dydx = b

    quil satisfasse un critre : minimisation de la somme des carrs des rsidus bb =argmin

    X(y xb)2 ;maximisation de la log-vraisemblancebb = argmaxX log l (y, x)

    quil soit de variance minimale quil soit convergent, cest dire quil se rapproche de la vraie valeur du paramtrelorsque le nombre dobservations devient grand.

  • 1.5. POURQUOI ESTIMER LE MODLE? 5

    1.5 Pourquoi estimer le modle ?

    tester lexistence dun eet, i.e. vrifier quune variable x a un eet spcifique surune variable y. Par exemple on peut sinterroger sur leet des taux dintrt surlinvestissement, cest dire sur lexistence dun canal montaire de la politiquemontaire. Dans le cadre dun modle acclrateur profit standard, I = Qt + + r + v, on peut sinterroger sur le fait que le coecient du taux dintrt soit nul ou non. On sintresse donc lhypothse H0 : = 0, et on souhaite queles donnes permettent de rpondre cette question. De faon similaire, dans le casde la fonction de production scolaire on peut sinterroger sur lexistence dun eetde la taille de la classe sur le taux de russite. On va alors sintresser lhypothseH0 : at = 0, et l aussi on souhaite que les donnes nous permettent de choisir entreoui ou non. Lestimation du modle et la confrontation du paramtre zro est lavoie la plus naturelle pour prendre cette dcision. La question est ici de savoir si leparamtre est significatif au sens statistique du terme.

    quantifier cet eet, ce qui est utile des fins de simulations. Par exemple dans lesdeux cas prcdents on est aussi intress par donner un ordre de grandeur de leet attendre dune variation de la variable. Si on voulait par exemple prendre unedcision de politique conomique consistant baisser la taille des classes, ce quiest trs coteux, on est intress certes savoir si cela aura un eet non nul maisaussi savoir lordre de grandeur de cet eet. Sil est trs faible on ne prendra pasalors aussi facilement la dcision de rduire la taille des classes. Lordre de grandeurdu paramtre est aussi important. La question est ici de savoir si le paramtre estsignificatif au sens conomique du terme.

    prvoir. Dans le modle yt = xt + ut, le paramtre peut tre estim sur lesobservations t = 1, . . . , T : b. Connaissant xT+1 on calcule la prvision de y ladate T + 1 : byT+1 = xT+1b

    1.6 Do vient le modle ? - 2 de relations stochas-tiques

    Le modle provient aussi de relations stochastiques entre les variables. Lcriture dela relation

    y = xb+ u

    ne constitue pas en fait un modle conomtrique. Comme on la vu il sagit dune relationplus ou moins fonde. Si on ladmet fonde, le paramtre b a un sens en lui-mme. Il aune dfinition conomique, par exemple llasticit de la production au capital. Pour quece modle soit un modle conomtrique il faut lui adjoindre une restriction stochastique.Une faon naturelle de procder est de spcifier la loi jointe des observations l (y, x; b) .Ceci revient spcifier la loi du rsidu sachant les variables explicatives : l (u |x) . La

  • 6 CHAPITRE 1. INTRODUCTION

    situation de base est celle dans laquelle cette loi est choisie comme une loi normale nedpendant pas des variables x. On impose donc dans ce cas une restriction stochastiqueessentielle pour lanalyse conomtrique

    l (u |x) = l (u) = (u/) /

    o est la densit de la loi normale. Imposer cette restriction permet de dfinir la densitdes observations

    l (y, x; b) = l (y |x; b) l (x) = ((y xb) /) l (x) /

    et donc destimer les paramtres en appliquant par exemple la mthode du maximumde vraisemblance. Lestimateur auquel on parvient est alors celui des moindres carrsordinaires. On peut aussi faire des hypothses sur la loi de u sachant x qui soient moinsfortes que la spcification de la loi complte. Par exemple on peut se contenter de spcifier :

    E (u |x) = E (u) = 0

    Cette proprit est satisfaite si on spcifie la loi conditionnelle de u sachant x comme uneloi normale indpendante de x. Linverse est faux et cette spcification est donc moinsexigeante que la prcdente. Elle permet, elle aussi, destimer le modle. Elle impliqueen eet des restrictions du type E (x0 (y xb)) = 0 appeles intuitivement conditionsdorthogonalit dont on verra quelles sont susantes pour estimer les paramtres dumodle. On remarque ce stade que dans cette spcification il y a dores et dj unparamtre de moins : la variance des rsidus nintervient plus.Ces restrictions stochastiques dfinissent un paramtre statistique. On pourrait ainsi

    dfinir autant de paramtres b quil y a de restrictions stochastiques envisageables, cest dire une infinit. On pourrait par exemple considrer le paramtre bZ associ desrestrictions stochastiques E (z0 (y xbZ)) = 0 dont on verra quelles aussi peuvent treutilises souvent pour conduire une estimation du paramtre. Il nest pas certain quele paramtre statistique associ une restriction stochastique concide avec le paramtreconomique. Lestimation peut ainsi tre non convergente, cest dire que la valeur duparamtre estime ne se rapprochera pas de la vraie valeur (conomique) du paramtrelorsque le nombre dobservation augmente, ou tre biaise, cest dire que lesprance duparamtre nest pas la vraie valeur (conomique) du paramtre. Une partie importantede lconomtrie, qui passe par une rflexion sur le modle, les donnes et les mthodesconsiste rechercher des conditions dans lesquelles le paramtre statistique concide avecle paramtre conomique. La question est-ce que p limbb = b0, la vraie valeur conomiquedu paramtre, est en dernier ressort la question la plus centrale et la plus importantede lconomtrie, et assez naturelle : est-ce que jai bien mesur ce que je voulais ? Cestbeaucoup moins facile quil ny parat, car de nombreux facteurs aectent les dcisionsindividuelles et il est dicile disoler leet dune unique cause.

  • 1.7. PLAN 7

    1.7 Plan

    Le cours dbute dans le chapitre 2 par lestimateur des moindres carrs, cest dire levecteur des coecients de la projection orthogonale de y sur lespace vectoriel engendr parles variables explicatives. On prsente dabord les proprits algbriques de cet estimateuret ses proprits statistiques sous des hypothses minimales telles que lindpendanceet lquidistribution des observations (Thorme de Frish-Waugh, Thorme de Gauss-Markov, estimation des paramtres du second ordre, le R2 et lanalyse de la variance). Onmontre ensuite dans le chapitre 3 comment la spcification de la loi des rsidus comme uneloi normale permet de complter lanalyse en particulier en permettant dobtenir la loi desestimateurs, tape incontournable pour procder des tests dhypothses simples (test deStudent) ou dfinir des intervalles de confiance pour les paramtres. On examine ensuitedans le chapitre 4 et dans le mme cadre o la loi des rsidus est suppose normale, le casimportant des estimations sous contraintes linaires (dans les paramtres). On prsentealors les tests dhypothses linaires sur les paramtres par le biais des tests de Fisher.Ces rsultats sont obtenus sous des hypothses fortes : Indpendance des rsidus et des variables explicatives : l (u |x) = l (u) Homoscdasticit V (u |x) = 2I Spcification de la loi des rsidus : l (u) normale.Les chapitres suivants vont progressivement revenir sur chacune de ces hypothses.

    On va dabord examiner dans un cadre trs proche la loi asymptotique des estimateurs,cest dire lorsque le nombre dobservations devient grand. On va chercher dvelopperle mme genre de proprits permettant de faire de linfrence mais sans spcifier la loides rsidus. Les rsultats seront obtenus sous les hypothses : Absence de corrlation entre les rsidus et les variables explicatives E (ux0) = 0 Homoscdasticit V (u |x) = 2ILe comportement asymptotique des estimateurs est examin dans le chapitre 5.Dans le chapitre 6 on revient sur les hypothses dindpendance et dquidistribution

    des paramtres. On prsente lestimateur des moindres carrs gnralise ainsi que di-rentes faons de traiter la situation dite dhtroscdasticit, i.e. situation dans laquelle lavariance des rsidus dpend des variables explicatives. On aborde aussi succinctement laquestion des donnes de panel et de lestimation de modles faisant intervenir des systmesdquations. Le cadre dans lequel on se situe est juste bas sur Absence de corrlation entre les rsidus et les variables explicatives E (ux0) = 0Les chapitres 7, 8 et 9 utilisent la mthode des moindres carrs gnraliss en sap-

    puyant sur une connaissance a priori de la structure de corrlation des rsidus. Le chapitre7 sintresse plus particulirement au cas des rgressions empiles. Dans le chapitre 8, onconsidre le cas dune rgression en coupe dans laquelle on a htroscdascticit du rsidu,ce qui peut tre le cas par exemple pour une quation de salaire, la variance du rsidutant gnralement croissante avec le revenu. Dans le chapitre 9, on considre le cas des-timations o le rsidu peut tre modlis comme une srie temporelle de comportement

  • 8 CHAPITRE 1. INTRODUCTION

    connu. On construit lestimateur les moindres carrs quasi-gnraliss en sappuyant surla connaissance de la forme de lautocorrlation du rsidu.Dans le chapitre 10, on considre la situation dans laquelle E (ux0) 6= 0. On aborde la

    question de lidentification, fondamentale en conomtrie. On montre comment laidede variables extrieures z, dites instrumentales, il est possible destimer le paramtredintrt. On revient donc en partie sur certains aspects des gnralisations prcdentespour mieux se concentrer sur lhypothse didentification. Les rsultats sont obtenus sousles hypothses Absence de corrlation entre les rsidus et des variables z : E (uz0) = 0, Rg (z0x) = dimx Homoscdasticit V (u |x, z ) = 2IOn prsente aussi deux tests importants : le test dexognit et le test de suridentifi-

    cation qui sont des guides importants dans le choix des variables instrumentales.Dans le chapitre 11 on prsente une gnralisation importante de la mthode variable

    instrumentale et qui englobe la plupart des mthodes conomtriques standards. Il sagitde la mthode des moments gnralise et on montre en particulier comment elle permetdtendre la mthode variables instrumentales au cas dans lequel les perturbations sonthtroscdastiques et dautres cas tels que celui de lconomtrie des donnes de panelou lestimation de systmes dquations. Les hypothses scrivent un peu diremmentce qui souligne le caractre gnral de cette mthode E (g (z, )) = 0o z reprsente lensemble des variables du modle, cest dire inclus les y et les x.Dans le chapitre 12, on prsente succinctement certains modles non linaires proches

    des modle linaires. On sintresse ainsi au modles dits probit pour lesquels la variable expliquer na plus un support continu sur R mais prend ses valeurs dans {0, 1} . Lamodlisation sous-jacente consiste introduire une variable latente, i.e. non observecompltement

    I = zc+ u

    et dont les ralisations gouvernent lobservation de la variable I :

    I = 1 I > 0

    On aborde galement dautres situations importantes permettant daborder la questionsde la slectivit des chantillons, cest dire la situation dans laquelle on nobserve lavariable dpendante que sous une condition lie par ailleurs la variable dpendanteelle-mme :

    y = xb+ u

    I = zc+ u

  • 1.7. PLAN 9

    les ralisations de I gouvernent lobservation de la variable I et de la variable y :

    I > 0I = 1y = y

    I 0 I = 0

    Ce type de modle appel modle Tobit est souvent utilis, en particulier pour abor-der lendognit de variables explicatives prenant la valeur 0 ou 1 dans des modles coecients variables

    yi = iIi + vi

    Ce type de modle est souvent utilis pour aborder lvaluation des eets microcono-miques des politiques de lemploi comme les stages de formations.Dans le chapitre 13, on sintresse lvaluation des politiques publiques. On intro-

    duit notamment lestimateur par dirence de dirences qui sapplique une expriencenaturelle. On parle dexprience naturelle lorsquune partie de la population a fait lobjetdune nouvelle politique, tandis quune autre partie de la population na pas fait lobjetde cette politique et donc peut servir de population tmoin. On ne peut observer le com-portement des individus touchs par une mesure sils navaient pas t touchs, on verracomment on peut nanmoins construire des estimateurs valuant limpact dune nouvellepolitique.

  • 10 CHAPITRE 1. INTRODUCTION

  • Chapitre 2

    Lestimateur des moindres carrsordinaires

    Lestimateur des moindres carrs ordinaires reste lun des estimateurs les plus fr-quemment utiliss. Il a de nombreux usage. On peut lutiliser par exemple pour procder une description des donnes : quelles sont les variables rendant compte le mieux dela variabilit dune variable dintrt. On peut aussi lutiliser dans de nombreuses autressituations pour estimer un paramtre auquel on donne un sens causal : que se passerait-ilsi on faisait varier une variable donne dun montant donn. Il est bas sur lhypothseessentielle que les rsidus et les variables explicatives sont orthogonaux. Il faut dautreshypothses pour driver les principales proprits de lestimateur. On verra dabord lesproprits algbriques puis les proprits statistiques. Une partie du cours correspondra lextension et la reformulation des proprits de lestimateur des mco lorsque lon remet encause ces hypothses. On gnralise ou adapte le plus souvent les proprits de lestima-teur la condition que lhypothse centrale dabsence de corrlation entre perturbationset variables explicatives soit maintenue.On va voir dans ce chapitre la dfinition de lestimateur des mco et son interprta-

    tion algbrique comme vecteur des coecients de la projection orthogonale de la variabledpendante sur les variables explicatives. On va galement obtenir deux proprits impor-tantes de cet estimateur qui sont : la proprit de sans biais et une proprit doptimalitconcernant la variance de lestimateur, connue sous le nom de Thorme de Gauss-Markov.

    2.1 Dfinition et proprits algbriques

    2.1.1 Dfinition

    On considre une variable dintrt y appele variable dpendante et un ensemble deKvariables dites explicatives auquel on adjoint une constante. On dispose deN observations.On note y = (y1, . . . , yN) lempilement des N observations de la variable dpendante. On

    11

  • 12 CHAPITRE 2. LESTIMATEUR DES MOINDRES CARRS ORDINAIRES

    dfinit de mme les vecteurs x1, . . . , xK et x la matrice des variables explicatives laquelleon adjoint le vecteur constant e = (1, . . . , 1)0 : x =

    e, x1, . . . , xK

    est donc une matrice

    de dimension N (K + 1).Definition Lestimateur des moindres carrs ordinaires est dfini comme le vecteur bde dimension K + 1, b = (b0, . . . , bK)

    0 , des coecients de la combinaison linaire dee, x1, . . . , xK ralisant le minimum de la distance de y lespace vectoriel de RN engendr

    par e, x1, . . . , xK, pour la norme euclidienne : bbmco = argminy xb2Proposition Sous lhypothseH1 : les vecteurs e, x1, . . . , xK sont indpendants,lestimateur des moindres carrs existe, est unique et a pour expressionbbmco = (x0x)1 x0y

    Dmonstration Lobjectif minimiser est Ob (b) =y xb2 = y xb0 y xb .

    La condition du premier ordre scrit

    dOb

    db= 2x0

    y xb

    = 0

    et la condition du second ordre

    d2Ob

    dbdb0= 2x0x dfinie positive

    Lhypothse dindpendance de e, x1, . . . , xK revient faire lhypothse que x0x est dfiniepositive. La condition du second ordre est ainsi satisfaite et la condition du premier ordreadmet une solution

    2.1.2 Interprtation gomtrique

    On associe deux grandeurs importantes lestimateur des moindres carrs :

    1. Le vecteur prdit by = xbb2. Le vecteur rsiduel bu = y byOn voit immdiatement compte tenu de la dfinition de lestimateur des moindres

    carrs ordinaires que le vecteur rsiduel est orthogonal aux variables explicatives et doncaussi au vecteur prdit :

    x0bu = 0by0bu = 0by sinterprte donc comme la projection orthogonale de y sur lespace engendr pare, x1, . . . , xK et lestimateur des moindres carrs ordinaires comme le vecteur des coef-ficients de cette projection.

  • 2.1. DFINITION ET PROPRITS ALGBRIQUES 13

    Remarque Comme la constante appartient lensemble des rgresseurs, on a immdia-tement e0bu = 0, soit bu = 1

    N

    Xbui = 0 : la moyenne du vecteur rsiduel est nulle.Les vecteurs prdits et rsiduels peuvent scrire directement partir du vecteur y.

    On a en eet

    by = xbb = x (x0x)1 x0y = Pxybu = y by = (IN Px) y =MxyLes matrices Px et Mx sont les matrices des projecteurs orthogonaux sur respectivementlespace engendr par

    e, x1, . . . , xK

    et son orthogonal. Comme on le vrifie directement

    on a en eet

    P 2x = Px

    M2x = Mx

    Px +Mx = IN

    et en outrePxv = v tq v = x

    2.1.3 Thorme de Frish-Waugh

    Le thorme de Frish-Waugh est une proprit algbrique de lestimateur des moindrescarrs qui explicite linterdpendance des coecients de direntes variables dans unergression. Il permet de rpondre la question : dans quel cas est-il ncessaire dintroduiretoutes les variables dun modle dans la liste des rgresseurs ?

    Theoreme Dans la rgression de y sur un ensemble de variables explicatives x, si x sedcomposent en deux sous-ensembles x1 et x2 : x =

    x1, x2

    , les coecients des variables

    x1 peuvent tre obtenus indirectement en rgressant les rsidus Mx2y de la rgressionde la variable dpendante y sur les variables explicatives x2, sur les rsidus Mx2x1 desrgressions des variables x1 sur les variables explicatives x2 :

    bb1 = Mx2x10Mx2x11 Mx2x10Mx2yon peut alors retrouver les coecients des variables x2 en rgressant la partie inexpliquey x1bb1 sur x2 : bb2 = x20x21 x20 y x1bb1avec Mx2 = IN x2

    x20x21

    x20

  • 14 CHAPITRE 2. LESTIMATEUR DES MOINDRES CARRS ORDINAIRES

    Dmonstration Les coecients de la rgression de y sur x =x1, x2

    satisfont

    x10y x1bb1 x2bb2 = 0

    x20y x1bb1 x2bb2 = 0

    De la deuxime quation on tire directement la deuxime partie du thorme

    bb2 = x20x21 x20 y x1bb1Lorsque lon rintroduit cette expression dans la premire quation il vient

    x10y x1bb1 x2 x20x21 x20 y x1bb1 = 0

    soit

    x10Mx2

    y x1bb1 = 0

    x10Mx2

    Mx2y Mx2x1bb1 = 0

    compte tenu de M2x2 =Mx2. Do lexpression debb1

    Remarque La caractristique importante est dutiliser les rsidus des rgressions de x1sur x2. Il nest pas ncessaire dutiliser aussi les rsidus de la rgression de y sur x2.

    Applications du Thorme de Frish-Waugh

    1. Dans la rgression de y sur x1 et x2 on peut rgresser sparment y sur x1 et y surx2 lorsque x1 et x2 sont orthogonaux.

    2. Donnes de panel. Lorsque la rgression introduit des indicatrices spcifiques chaque individu (donc N variables, spcification dite eets fixes) en plus dunensemble de rgresseurs dintrt x1, on peut dabord rgresser les variables dint-rt et la variable dpendante sur les variables indicatrices puis utiliser les rsidusdes rgressions correspondantes. Dans ces oprations puisque les variables indica-trices sont orthogonales les unes aux autres on peut eectuer les rgressions surles indicatrices sparment. On vrifie aisment que le coecient de la rgressiondune variable sur une variable indicatrice dindividu est la moyenne des observationspour cet individu. Les rsidus des rgressions sont donc les carts aux moyennes in-dividuelles des direntes variables dintrt. Lestimateur obtenu en rgressant lescarts des variables explicatives aux moyennes individuelles sur la quantit analoguepour la variable dpendante est trs populaire et connu sous le nom destimateurWithin (ou Intra).

    3. Pour obtenir les coecients de x1 dans la rgression de y sur x1 et x2, on peutrgresser y sur x1 et la prvision de x1 par x2 : Px2x1.

  • 2.2. MODLE ET PROPRITS STATISTIQUES 15

    2.2 Modle et proprits statistiques

    Lestimateur des moindres carrs ordinaires a une dfinition mathmatique. Il sagitdu vecteur des coecients de la projection orthogonale de la variable dpendante sur lesvariables explicatives. Dans le cadre de lconomtrie on sintresse nanmoins lesti-mation des paramtres dun modle conomtrique. On considre ainsi le modle linairesuivant :

    y = b0 + b1x1 + + bKxK + uPour lequel on dispose de N observations. Le modle scrit aussi sous forme matricielle :

    y = xb+ u

    On sintresse aux proprits statistiques de lestimateur des mco : quelle est son esp-rance, sa variance... Comme lestimateur est une fonction des observations, ses propritsstatistiques dpendent de la loi des observations l (y, x). On les caractrise a partir dhy-pothses sur la loi conditionnelle de y sachant x, cest dire dans le cadre du modleprcdent comme des hypothses concernant la loi de la perturbation u conditionnelle-ment aux variables explicatives.

    2.2.1 Quand lestimateur des mco est-il sans biais ?

    On sintresse dabord aux conditions sous lesquelles lesprance de lestimateur desmco concide avec la vraie valeur du paramtre. On dit alors que lestimateur est sansbiais.

    Definition On dit quun estimateur bb y, x est sans biais lorsqueEbb y, x = b

    Dans cette dfinition Ebb y, x = Z bb y, x f y, x dydx o f y, x reprsente la

    densit jointe des variables explicatives et dependantes.

    Proposition Sous lhypothseH2 : E (un |x) = 0 nlestimateur des mco est sans biais.

    Dmonstration Lestimateur des mco scrit

    bbmco = (x0x)1 x0y= (x0x)1 x0 (xb+ u)

    = b+ (x0x)1 x0u

  • 16 CHAPITRE 2. LESTIMATEUR DES MOINDRES CARRS ORDINAIRES

    on sintresse Ebb y, x |x . On a clairement E bb y, x |x = b+(x0x)1 x0E (u |x) .

    Comme E (u |x) = 0 par hypothse on a bien Ebb y, x |x = b. On en dduit immdia-

    tement Ebb y, x = E E bb y, x |x = b

    Lhypothse H2 est extmement forte, puisquelle signifie que lorsque les rsiduschangent, les variables explicatives ne changent pas. Dans de nombreuses situations cettehypothses ne peut pas tre tenu. Cest par exemple le cas si on prend un modle ore-demande dans lequel on observe les prix et les quantits. Si on considre lquation dedemande par exemple, elle correspond lexistence dune relation dcroissante entre lavariable dpendante, la quantit, et la variable explicative, le prix. Si il y a un choc dedemande, le dsquilibre sur le march va se rsoudre par une hausse de la quantit chan-ge et une hausse du prix. Dans ce modle on ne peut donc pas tenir lhypothse H2 parnature mme du modle auquel on sintresse. Dans dautres cas la situation peut tre plusfavorable. Par exemple dans le cas de la taille de la classe et du taux de russite scolaire, ilest vrai que lon peut contester le fait que E (u |taille) = 0, mais il est possible quil existeun ensemble de variables explicatives x tel que lon ait u = xc+ v et E (v |taille, x) = 0.Autrement dit, on peut identifier, mesurer et introduire dans la rgression les sources devariabilit communes la taille et au rsidu. Le modle devient tx = a0+attaille+xb+v.

    2.2.2 Quelle est la prcision de lestimateur des mco?

    Le fait que la proprit dabsence de biais soit satisfaite est trs intressant mais on abesoin dinformations plus prcises. On souhaite savoir si la vraie valeur peut se trouverloin de lestimateur. Une telle information est donne par la prcision de lestimateur eton ltudie en considrant la variance :

    Proposition sous les hypothses H1, H2,H3 : V (un |x) = 2 nH4 : E (unum |x) = 0 n,mla variance de lestimateur des mco conditionnellement au variables explicatives est

    donne par

    Vbbmco |x = 2 (x0x)1

    La variance non conditionnelle est donne par

    Vbbmco = 2E h(x0x)1i

    Dmonstration La variance conditionnelle est dfinie comme

    Vbbmco |x = Ehbbmco E bbmco |xi hbbmco E bbmco |xi0 |x

  • 2.2. MODLE ET PROPRITS STATISTIQUES 17

    Comme Ebbmco |x = b et bbmco b = (x0x)1 x0u,

    Vbbmco |x = (x0x)1 x0E (uu0 |x)x (x0x)1

    La matrice E (uu0 |x) a pour lments n,m E (unum |x) . On dduit directement des hy-pothses que E (uu0 |x) = 2INLa matrice de variance a deux composantes : 2 et E

    (x0x)1

    . Plus 2, i.e. la va-

    riance rsiduelle, est grande, moins lestimateur est prcis. Ceci implique que lon peutaccrotre la prcision des estimateurs de variables dintrt en introduisant des variablesadditionnelles, satisfaisant les hypothses du modle linaire H1 H4, ds lors quellescontribuent rduire la variance rsiduelle. La matrice x0x joue un rle central dans lavariance de lestimateur. On peut lcrire partir des observations individuelles commex0x =

    Pn x

    0nxn. On voit quune criture plus adapte est x

    0x = N1N

    Pn x

    0nxn. Dans

    le cas du modle linaire simple avec une unique variable explicative centre la matrice1N

    Pn x

    0nxn1

    scrit simplement comme 1/x2 = 1/V (x). On voit que dans ce cas la va-

    riance de lestimateur scrit Vbb = 2/ (NV (x)) . Lestimateur est donc dautant plus

    prcis que le nombre dobservations est grand. On sintresse en gnral lcart-type desparamtres estims. La formule prcdente implique que lcart type dcrot comme

    N .

    Lorsque la taille de lchantillon est multiplie par 4 lcart-type nest divis que par 2.On imagine donc bien que dans un chantillon de petite taille la prcision de lestimateurest un problme important. On voit aussi que dans de grands chantillons de plusieurscentaines de milliers dobservations, la prcision des estimations sera trs grande. La for-mule prcdente montre aussi que lestimateur est dautant plus prcis que la variance dela variable explicative est importante. Cest parce que lon observe des situations di-rentes au regard des variables explicatives qui ne soient pas corrles avec les rsidus dumodle conomique que lon peut identifier leet de ces variables. Enfin un dernier caspermettant dillustrer les implications de la formule prcdente est le cas dans lequel il ya deux variables explicatives par exemple de mme variance 2 et ayant un coecient decorrlation . Dans ce cas on calcule simplement

    1

    N

    Pn x

    0nxn

    1=

    1

    2x (1 2)

    1 1

    On voit que dans ce cas la prcision de lestimateur est dautant plus faible que les variablessont corrles. Au total, on voit que si les variables sont presque colinaires la prcisionde lestimateur sera faible.

    2.2.3 Lestimateur des mco est-il le plus prcis : le thorme deGauss-Markov

    On sintresse naturellement la question de loptimalit de lestimation du paramtreb. Ce paramtre, comme on la vu, est sans biais et il est en outre dfini comme une

  • 18 CHAPITRE 2. LESTIMATEUR DES MOINDRES CARRS ORDINAIRES

    fonction linaire des observations. Ceci forme une classe destimateurs. La question laquelle rpond le thorme de Gauss-Markov est celle de loptimalit (au sens de laprcision) de lestimateur dans la classe des estimateurs linaires sans biais.

    Definition Un estimateur bb1 est optimal dans une classe destimateurs bb si toute es-timation dune combinaison linaire du paramtre est estime plus prcisment avec bb1quavec nimporte quel estimateur de la classe considre :

    , V0bb1 V 0bb

    Cette proprit signifie que la matrice de variance Vbb1 de bb1 vrifie 0V bb1

    0Vbb , cest dire que V bb1 V bb est semi-dfinie ngative.

    Theoreme Gauss-Markov : Sous les hypothses H1-H4 lestimateur des moindres carrsordinaires du modle

    y = xb+ u

    est optimal dans la classe des estimateurs sans biais conditionnellement aux variables x.

    Dmonstration Soit eb un estimateur linaire sans biais du paramtre b. Il existe doncune matrice A tel que cet estimateur scrit eb = Ay. Lhypothse dabsence de biais signifieEeb |x = b ce qui implique E Ay |x = E (A (xb+ u) |x) = Axb + AE (u |x) = b

    Comme E (u |x) = 0. Labsence de biais signifie Axb = b. Ce rsultat est vrai pour bquelconque donc pour tout b, cest--dire :

    Ax = IK+1

    On a en outre eb E eb |x = A y E (y |x) = Au. La variance dun estimateur li-naire sans biais quelconque est donc de la forme V

    eb |x = V (Au |x) = AV (u |x)A0 =2AA0 compte tenu de lhypothse cruciale V (u |x) = 2IN . Comme IN = Px +Mx =x (x0x)1 x0 +Mx, on a

    Veb |x = 2AA0 = 2Ax (x0x)1 x0 +MxA0

    = 2Ax (x0x)1 x0A0 +AMxA0

    comme Ax = IK+1 et V

    bb |x = 2 (x0x)1 , on aVeb |x = V bb |x+ 2AMxA0

    et la matrice AMxA0 est ncessairement semi-dfinie ngative

  • 2.2. MODLE ET PROPRITS STATISTIQUES 19

    2.2.4 Estimation des paramtres du second ordre

    La variance des rsidus, intervenant dans lhypothses H4, est un paramtre dit dusecond ordre car il correspond aux moments dordre 2 de la variable y conditionnellementaux variables explicatives. Cest un paramtre important plus dun titre. Dabord, ilpermet de mesurer la qualit de lajustement. En outre, comme on la vu, il intervientdans la matrice de variance-covariance des estimateurs et est lorigine de nombreux testsdhypothses. Il est donc lgitime de sintresser son estimation. Cette estimation faitintervenir le vecteur des rsidus estims

    bu = y xbbProposition Sous les hypothses H1 H4, lestimateur

    b2 = bu0buN K 1 =

    Pn bu2n

    N K 1

    est un estimateur sans biais du paramtre du second ordre 2.

    Dmonstration Comme on la vu bu =Mxy =Mxu. On a doncbu0bu = u0Mxu = Tr u0Mxu = Tr Mxuu0

    On a donc

    Ebu0bu |x = E Tr Mxuu0 |x = Tr E Mxuu0 |x

    = TrMxE

    uu

    0 |x= 2Tr (Mx)

    et Mx = IN x (x0x)1 x0 do

    Tr (Mx) = TrIN x (x0x)1 x0

    = N Tr

    x (x0x)1 x0

    = N Tr

    (x0x)1 x0x

    = N K 1

    Exemple Application la prvision. On considre le modle yn = xnb+ un pour lequelon a n = 1, . . . , N observations et satisfaisant les hypothses H1 H5. Connaissant xN+1et faisant lhypothse que le modle reste valide pour cette observation, on souhaite estimeryN+1.Dire que le modle reste valide signifie que non seulement la relation entre yn et xn peut

    tre tendue lobservation N +1 : yN+1 = xN+1b+ uN+1 mais encore que les hypothsesstochastiques peuvent tre tendues linclusion de lobservation N +1 en particulier ceciimpose E (uN+1 |x, xN+1 ) = 0, V (uN+1 |x, xN+1 ) = 2, E (uN+1un |x, xN+1 ) = 0.

  • 20 CHAPITRE 2. LESTIMATEUR DES MOINDRES CARRS ORDINAIRES

    La prvision de yN+1 est byN+1 = xN+1bbmcoConditionnellement aux variables explicatives la prvision est sans biais :

    E (byN+1 yN+1 |x, xN+1 ) = E xN+1 bbmco b uN+1 |x, xN+1 = 0byN+1 est le meilleur estimateur sans biais de yN+1, linaire dans les observations y1, . . . , yN .Ceci constitue une application directe du Thorme de Gauss Markov : si on considreun estimateur linaire sans biais eyN+1 de yN+1. La variance de lerreur de prvision scritE (yN+1 eyN+1 |x, xN+1 )2 = E (xN+1b+ uN+1 eyN+1 |x, xN+1 )2 = E (xN+1b eyN+1 |x, xN+1 )2+Eu2N+1 |x, xN+1

    puisque lestimateur est linaire en y et que y nest pas corrl uN+1

    conditionnellement aux observations de x. Le problme se rsume donc chercher les-timateur linaire sans biais de variance minimale de la combinaison linaire xN+1b duparamtre b. Le thorme de Gauss-Markov indique quil sagit de xN+1bbmcoLa variance de lerreur de prvision est

    E (byN+1 yN+1)2 = 2 hx0N+1 (x0x)1 xN+1 + 1i2.2.5 Analyse de la variance

    Lanalyse de la variance est fonde sur lorthogonalit entre le vecteur des rsidusestims et de la variable prdite.

    y = by + buLes rgressions que lon considre ayant un terme constant on a y = by dont on tire :

    y ye = by bye+ bucompte tenu de lorthogonalit on peut donc crire lquation dite quation danalyse dela variance P

    n (yn y)2 =

    Pn

    byn by2 +Pn bun2ou encore

    V (y) = V (by) + V (bu)La variance totale est la somme de la variance explique et de la variance rsiduelle. Onintroduit une quantit trs couramment utilise qui mesure la part de la variance expliquepar le modle.

    R2 =

    by bye2ky yek2 = 1

    kbuk2ky yek2

    0 1

    Le R2 est frquemment utilis pour mesurer la qualit de lajustement. Nanmoins deuxprcautions doivent tre prises :

  • 2.3. VARIABLE OMISE ET RGRESSEUR ADDITIONNEL 21

    LeR2 dpend du calibrage des observations. Par exemple si on considre une fonctionde production

    y = + l + k + u

    lestimation va fournir un R2 beaucoup plus important que celui obtenu avec lemodle identique mais expliquant la productivit

    y l = + ( 1) l + k + u On montre facilement que plus on tend lensemble des variables explicatives plus leR2 est grand. Ce nest donc pas ncessairement un bon critre de choix de modle.Pour cette raison on a introduit une quantit proche mais pas directement relie quiest le R2 ajust. Il est dfini d0une faon trs voisine du R2

    R2a = 1b2V (y)

    = 1 kbuk2 / (N K 1)ky yek2 /N 1 = 1 1R2 N 1N K 1Remarque Cette quation danalyse de la variance permet de prciser lexpression de lavariance de chacune des composantes de lestimateur. Dans la formule gnrale V

    bbmco |x =2 (x0x)1 , la variance de la kime composante de lestimateur des mco correspond aukime lments diagonal. Si on utilise les formules dinversion par bloc

    A =

    A11 A12A21 A22

    , A1 =

    A11 A12

    A21 A22

    , A11 =

    A11 A12A122 A21

    1Si on considre une variable xk particulire, alors, quitte rorganiser lordre des variablesexplicatives : x = (xk, xk), o xk reprsente lensemble des variables explicatives autresque la kime,

    x0x =

    "xk0xk x0kxk

    x0kxk x0kxk

    #

    et on a donc (x0x)111 = xk0xkx0kxk

    x0kxk

    1x0kxk = xk

    0Mxkxk = (N.V (xk |xk ))1 .V (xk |xk ) est la variance rsiduelle de la variable xk une fois pris en compte la part dela variance de la variable xk explique par les autres variables explicatives du modle. Lavariance de chacune des composante de lestimation du paramtre scrit donc

    Vbbk = 2/ (NV (xk |xk )) = 2/NVk|k

    2.3 Variable omise et rgresseur additionnel

    2.4 Rsum

    1. On a vu dans ce chapitre la dfinition algbrique de lestimateur des mco commevecteur des coecients de la projection orthogonale de la variables dpendante sur

  • 22 CHAPITRE 2. LESTIMATEUR DES MOINDRES CARRS ORDINAIRES

    lespace engendr par les variables explicatives.

    2. Cet estimateur existe est unique sous lhypothse H1 que les vecteurs des variablesexplicatives soient linairement indpendant.

    3. On a vu sous quelle condition lestimateur des mco est un estimateur sans biais duparamtre conomique b dans le modle linaire y = xb+u. : Il sagit de lhypothseH2 que lesprance des rsidus conditionnellement aux variables observables estnulle.

    4. Sous les hypothses H3 et H4 que dans ce modle les perturbations sont condition-nellement aux variables explicatives des variances identiques et sont non corrles lesunes avec les autres, on peut donner lexpression classique de la matrice de variancede lestimateur V

    bb |x = 2 (x0x)1 .5. Sous ces mme hypothses lestimateur des mco est le meilleur estimateur linairesans biais, au sens de la minimisation de la variance.

    6. Linterprtation de cette formule conduit la conclusion que plus le nombre dob-servations est grand, plus la variance rsiduelle 2 est faible, plus les variables ex-plicatives prsentent de variabilit propre, plus lestimateur est prcis.

    7. Le paramtre du second ordre 2 peut tre estim sans biais comme la moyenne descarrs des rsidus tenant compte des degrs de libert : b2 = Pbu2n/ (N K 1) .

    8. Le R2 est une mesure de la qualit de lajustement du modle aux donnes : ilmesure la part de la variance totale explique par le modle.

    Ces rsultats sont importants : ils tablissent les conditions sous lesquelles les esti-mateurs sont sans biais et ils permettent de dterminer la prcision des estimations. Ilssont nanmoins insusants pour donner des intervalles de confiance sur les paramtresestims et raliser des tests dhypothse. Pour aller plus loin il faut faire des hypothsessupplmentaires. On peut procder de deux faons :

    1. Lorsque le nombre dobservations est faible, on peut spcifier la loi des observationsconditionnellement aux variables explicatives. Ceci est fait dans la majeure partiedes cas en spcifiant les rsidus comme suivant une loi normale. On peut alorscaractriser la loi de lestimateur. On peut aussi dans ce cas estimer le modlepar maximum de vraisemblance. On peut alors tester des hypothses dites simples(nullit dun paramtre). Ces tests sont appels test de Student. Ce cas est examindans le chapitre 3. On peut aussi sur la base de cette hypothse estimer le modleen imposant des contraintes linaires sur les paramtres et tester lhypothse queces contraintes sont acceptes. Les tests mis en oeuvres sont alors des test dits deFisher. Ces aspects sont prsents dans le chapitre 4.

    2. La deuxime faon est dtudier les proprits asymptotiques de lestimateur, cest dire lorsque le nombre dobservations devient grand. On montre dans le chapitre5 que sans spcifier la loi des rsidus mais en faisant des hypothses susamment

  • 2.4. RSUM 23

    fortes sur lpaisseur des queues de distribution des rsidus, on peut spcifier la loiasymptotique de lestimateur.

  • 24 CHAPITRE 2. LESTIMATEUR DES MOINDRES CARRS ORDINAIRES

  • Chapitre 3

    Les MCO sous lhypothse denormalit des perturbations.

    Dans ce chapitre on examine les proprits de lestimateur des mco lorsque lon faitlhypothse de normalit des perturbations. Plus prcisment on fait lhypothse Hn sui-vante.Hn : la loi de u conditionnellement aux variables explicatives x est une loi normale de

    moyenne nulle et de matrice de variance 2IN .

    l (u |x) = 12N Xu2n/22

    u |x N 0,2INRemarque Cette hypothse est plus forte que les hypothses H2H4 puisquelle impliqueque le moment dordre 1 de u conditionnellement x est nul. cest dire lesprance

    On va voir que dans ce cas on peut prciser la loi de lestimateur du paramtre ainsique celle de lestimateur de la variance des rsidus. On va aussi obtenir un rsultat central,le thorme de Cochrane, la base de tous les tests eectus partir de lestimateur desmco.

    3.1 Normalit de lestimateur des mco

    Proposition Sous lhypothse Hn, on peut spcifier la loi jointe de lestimateur des mcoet de lestimateur de la variance des rsidus conditionnellement aux variables explicatives :

    1. Lestimateur du paramtre des mco bbmco est distribu comme une loi normale demoyenne b, la vraie valeur du paramtre, et de matrice de variance 2 (x0x)1 :bbmco N b,2 (x0x)1

    25

  • 26CHAPITRE 3. LESMCOSOUS LHYPOTHSEDENORMALITDES PERTURBATIONS.

    2. Lestimateur b2, convenablement normalis, est distribu suivant une loi du 2[N (K + 1)] b2

    2 2 (N (K + 1))

    3. bbmco et b2 sont indpendants (Thorme de Cochran)Dmonstration Le rsultat concernant la normalit de lestimateur est immdiat. Ilprovient du fait que lestimateur des mco est linaire dans les observations de la variabledpendante. Comme conditionnellement x la variable dpendante est normale, lestima-teur des mco est une combinaison linaire de variables normales et est donc lui mmeun vecteur normal, caractris par ces deux premiers moments : son esprance dont on avu quelle tait gale la vraie valeur du paramtre, et sa matrice de variance dont on adonn lexpression au chapitre prcdent, sous des hypothses plus gnrales que celle dela loi normale.De mme, les rsidus estims sont eux mmes normaux. On a en eet bu =Mxy =Mxu.

    Par ailleurs, on a aussi directement bb b = (x0x)1 x0u. Finalement on peut spcifier laloi jointe des rsidus estims et de lestimateur des mco : bb bbu

    =

    (x0x)1 x0

    Mx

    u

    On en dduit donc que ces deux vecteurs suivent une loi normale jointe, de moyennevisiblement nulle et dont on peut prciser la variance :

    V

    bb bbux

    =

    (x0x)1 x0

    Mx

    V

    bb bbux

    (x0x)1 x0

    Mx

    0= 2

    (x0x)1 x0

    Mx

    x (x0x)1 Mx

    = 2

    (x0x)1 x0x (x0x)1 x (x0x)1MxMxx (x

    0x)1 Mx

    Comme Mxx = 0, on en dduit

    V

    bb bbux

    = 2

    (x0x)1 00 Mx

    Dont on dduit

    1. lexpression de la variance de lestimateur des mco

    2. lestimateur des mco et les rsidus estims sont indpendants (car tant tous lesdeux normaux et non corrls). Lestimateur des mco et lestimateur de la varianceb2 = bu0bu/ (N K 1) sont donc indpendants.

  • 3.2. ECART-TYPES ESTIMS, TESTS ET INTERVALLES DE CONFIANCE 27

    3. Les rsidus estims suivent une loi normale de matrice de variance 2Mx.

    Rappel : Si Z N (0, IL) , alors par dfinition kZ2k = Z 0Z =

    PLl=1 Z

    2l 2 (L)

    Si P est un projecteur orthogonal sur un sous espace de dimension L1 alors Z0PZ

    2 (L1) (Voir annexe)On applique ce rsultat Z = u/ N (0, IN) et P = Mx. On a : (bu/)0 (bu/) =

    (u/)0M 0xMx (u/) = (u/)0Mx (u/) . On en dduit que bu0bu/2 2 (N K 1) ,

    puisque Mx est le projecteur orthogonal sur lorthogonal de lespace vectoriel engendrpar les x donc de dimension N K 1. Finalement, comme bu0bu = (N K 1) b2,[N (K + 1)] b22 2 (N (K + 1))On rappelle quune loi du 2 (L) L degrs de liberts a pour premier et second

    moments E (2 (L)) = L, V (2 (L)) = 2L. On vrifie donc que E[N (K + 1)] b22

    =

    N K 1. On vrifie donc que lon a bien Eb2 = 2 : lestimateur de la variance

    est sans biais. On apprend maintenant, grce la spcification normale la distribution delestimateur de la variance des rsidus et donc sa variance : on a V

    [N (K + 1)] b22

    =

    2 (N K 1), soit Vb2 = 24/ (N K 1) . On voit donc que comme pour lestima-

    teur des mco, lorsque le nombre dobservations devient grand la variance de lestimateurtend vers zero. Le rythme de convergence est en outre identique celui de lestimateurdes mco. On remarque en revanche une spcificit de lestimateur de la variance : plus ladispersion des rsidus est importante, plus lestimateur est imprcis.Lestimation de la variance des rsidus peut tre intressante pour elle-mme, mais

    elle nous intresse en premier lieu car cest un paramtre important de la matrice devariance de lestimateur du paramtre de premier intrt b. En eet, on a vu quebbmco |x Nb,2 (x0x)1

    , mais ce rsultat reste insusant dans la mesure o on ne connat pas

    la variance des rsidus.

    3.2 Ecart-types estims, tests et intervalles de confiance

    3.2.1 Ecart-type

    La formule de la matrice de variance de lestimateur est utile Vbbmco |x = 2 (x0x)1 ,

    mais elle nest pas directement exploitable car on ne connat pas la variance des rsidus2. Un estimateur naturel de cette matrice consiste remplacer la quantit inconnue 2

    par un estimateur. bV bbmco |x = b2 (x0x)1On a immdiatement le rsultat que bV bbmco |x est un estimateur sans biais de la matricede variance de lestimateur mco du paramtre.

  • 28CHAPITRE 3. LESMCOSOUS LHYPOTHSEDENORMALITDES PERTURBATIONS.

    On sintresse en fait plus spcifiquement la variance de chaque composante delestimateur 2k = V

    bbk = 2 (x0x)1kk = 2xkk o dans cette notation xkk est lekime lment diagonal de (x0x)1 . Dans le chapitre prcdent on a vu que ce kimelment tait en fait linverse de la variance rsiduelle de la projection de xk sur lesautres variables du modle (la variance propre de la kime variable) divise par le nombredobservations. Un estimateur naturel de 2k est

    b2k = b2xkkLa quantit bk = qb2k est systmatiquement associ nimporte quelle estimation parles mco. Grce aux rsultats portant sur la loi de b2 on peut directement donner la loi deb2k :Proposition Sous lhypothse Hn lestimateur de la variance de la kime composantedu vecteur des paramtre suit, convenablement normalise une loi du 2 (N K 1) :

    [N (K + 1)] b2k2k 2 (N (K + 1))

    et est indpendant de lestimateur des mco bbmco.3.2.2 Un rsultat central

    On sintresse lobtention dintervalles de confiance et des tests dhypothse simpledu type H0 : bk = b0k pour une valeur donne de b

    0k. Un cas trs frquemment examin est

    par exemple celui de la nullit dun paramtre (b0k = 0). Pour obtenir des intervalles deconfiance ou pour eectuer des tests, on a besoin dobtenir une fonction des estimateursqui ne dpende pas des paramtres.

    Proposition Sous lhypothse de normalit des perturbations Hn, pour une composantedonne k du paramtre on a

    bbk bkbk Student (N K 1)Dmonstration Ce rsultat dcoule directement de la dfinition des lois de Student :Si X1 suit une loi normale N (0, 1) et X2 suit une loi du 2 (H) H degrs de libert, etsi X1 et X2 sont indpendants alors

    S =X1pX2/H

    Student (H)

  • 3.2. ECART-TYPES ESTIMS, TESTS ET INTERVALLES DE CONFIANCE 29

    Ici bbk N (bk,2k) . On en dduit donc que bbk bk /k N (0, 1) . En outre le rsultatprcdent tablit que [N (K + 1)] b2k2k 2 (N (K + 1)) et est indpendant de bbk. Ona donc par application directe de la dfinitionbbk bk /kr

    [N (K + 1)] b2k2k/ [N (K + 1)]

    =bbk bkbk Student (N K 1)

    Les lois de Student sont des lois symtriques de moyenne nulle et de varianceH/ (H 2)o H est le nombre de degrs de libert. Plus H est faible, plus les queues de distribu-tion sont paisses. On voit quil y a un nombre minimal de degrs de libert pour que lemoment dordre 2 existe : H > 2.

    3.2.3 Intervalle de confiance

    Definition Un intervalle de confiance pour le paramtre bk au niveau est un intervalle[a, a] tq P (bk [a, a]) = 1 .

    Lemme Soit z une variable alatoire dont la distribution f est symtrique autour dezro, croissante pour z < 0, continue et de fonction de rpartition F, tout intervalle [z, z]tel que P (z [z, z]) = p0 donn, de longueur minimale est symtrique.

    Dmonstration Ce rsultat se montre trs facilement. La symtrie de la distributionscrit f (z) = f (z) et implique F (z) = 1 F (z). On a F (z) F (z) = p0, donc lalongueur de lintervalle est L = zz = F1 (F (z) + p0)z. La drive de la longueur delintervalle par rapport z est dL/dz = f (z) /f (z)1. Si f (z) < f (z) , alors dL/dz < 0.On pourra diminuer la longueur de lintervalle en augmentant z. Comme f est croissantedans le domaine ngatif accrotre z conduit accrotre f (z) /f (z) 1. Lextremum dela longueur, obtenu pour f (z) /f (z) 1 = 0 est donc bien un minimum.

    Pour trouver un intervalle de confiance pour le paramtre bk on applique directementles rsultats du lemme :

    Proposition Sous les hypothses Hn, soit bbk la kime composante de lestimateur desmco et bk =qb2k lestimateur de son cart-type, alors lintervalle de confiance de longueurminimale du paramtre bk au niveau esthbbk bk tNK1 (1 /2) , bbk + bk tNK1 (1 /2)io tNK1 (1 /2) est le quantile dordre 1 /2 dune loi de Student N K 1degrs de libert.

  • 30CHAPITRE 3. LESMCOSOUS LHYPOTHSEDENORMALITDES PERTURBATIONS.

    Le quantile dordre 1 /2 dune loi de Student N K 1 degrs de libert est laquantit t telle que pour une variable S suivant une loi de Student N K 1 degrsde libert, P (S < t) = 1 /2, et de faon similaire P (S > t) = /2Dmonstration Par application des rsultats prcdents, on a immdiatement que S =bbkbkbk Student (N K 1). Comme la loi de Student est symtrique, on en dduit quelintervalle de longueur minimale auquel S appartienne avec probabilit 1 est

    P (S [tNK1 (1 /2) , tNK1 (1 /2)]) = 1

    dont on dduit immdiatement lexpression des bornes de lintervalle de confiance.

    Remarque Ce rsultat stend directement au cas dans lequel on cherche un intervallede confiance pour une combinaison linaire donne des paramtres : 0b. En eet, ontrouve directement la loi de lestimateur de la combinaison linaire 0bbmco : 0bbmco N0b,20 (x0x)1

    . En notant b =

    q20 (x0x)1 et bb = qb20 (x0x)1 , on

    vrifie aisment que lintervalle de confiance pour la combinaison linaire donne desparamtres est

    h0bbmco bb tNK1 (1 /2) , 0bbmco + bb tNK1 (1 /2)i

    3.2.4 Tests de la forme 0b =

    On rappelle dabord des lments basiques concernant les tests. On se rfre pour cela Gouriroux-Monfort. Les notions importantes sont celles dhypothse nulle, note H0,et dhypothse alternative, note H1. Elles correspondent une partition de lensembledes lois possibles des observations. Ici compte tenu du fait quon se situe dans un cadreparamtrique (la loi des observations est spcifie intgralement), lensemble des lois pos-sibles est dcrit par lensemble des valeurs possibles de tous les paramtres : b,2. Leshypothses que lon va considrer ici portent sur la valeur dune composante du para-mtre ou dune combinaison linaire du paramtre : bk = b0k pour une valeur donne deb0k, un cas trs frquent tant celui de la nullit, b

    0k = 0. On examinera dans le chapitre

    suivant des hypothses portant sur plusieurs paramtres, mais les rappels que lon eectueici valent pour lune et lautre situation. Dune faon gnrale, elles vont scrire sous laforme H0 : 0 et H1 : 1.Un test pur est une rgle de dcision pure cest dire une fonction des observations

    conduisant choisir entre la dcision d0 : H0 est vraie, et d1 : H1 est vraie. A un testpur est associ une rgion critique, en gnral note W dfinie comme lensemble desralisations des observations conduisant prendre la dcision d1. Les tests peuvent aussien thorie tre mixtes. Dans ce cas la rgle de dcision est mixte. Il sagit alors dunefonction des observations associant la dcision d1 une probabilit : compte tenu desobservations y on accepte lhypothse H1 avec une probabilit (y). Il y a trois grandeursessentielles associes un test : le risque de premire espce, le risque de deuxime espceet la puissance du test. Le risque de premire espce correspond la probabilit de de

  • 3.2. ECART-TYPES ESTIMS, TESTS ET INTERVALLES DE CONFIANCE 31

    rejeter H0 alors que H0 est vraie (i.e. rejeter H0 tort). Pour un test pur caractris parune rgion critiqueW , il sagit de la fonction P (W ) dfinie sur 0 Pour un test alatoire,elle est dfinie par E ( (y)). On la note (, ) . Dans cette notation, reprsente le testet la valeur du paramtre. Le risque de deuxime espce est linverse la probabilitdaccepter tort lhypothse nulle (i.e. la probabilit de rejeterH1 alors queH1 est vraie. Ilest dfini comme 1E ( (y)) pour 1 et dans le cas dun test pur par 1P (W ). Onnote en gnral cette quantit (, ) Enfin la puissance du test reprsente la probabilitde rejeter raison lhypothse nulle. On la note (, ). Cette fonction est dfinie sur1 et troitement lie la fonction de risque de deuxime espce (, ) = 1 (, ).On prfrerait des tests pour lesquels les risques de premires et seconde espce soientles plus faibles possibles. Cest dire quun test est prfr un autre si les fonctionsde risque de premire et seconde espce sont plus faibles. Il existe clairement des testsminimisant sparment chacun des risques (le test correspondant au rejet systmatiquede H1 minimise le risque de premire espce). Nanmoins on montre facilement quil nya pas de test annulant simultanment les deux risques : il est donc ncessaire de se rfrer un principe permettant de slectionner un test. Le principe retenu est celui de Neymanqui consiste privilgier la minimisation du risque de seconde espce. On considre desclasses de tests caractriss par un seuil (ou encore niveau) donn . Ces tests sont telsque le risque de premire espce soit uniformment infrieur . Parmi ces tests, onsouhaiterait slectionn ceux maximisant la puissance. Cest ce que lon appelle des testsuniformment plus puissants. Ils sont tels quils maximisent parmi les tests de niveaux la puissance pour toute valeur du paramtre correspondant lhypothse alternative.De tels tests nexiste en gnral pas et on adjoint dautres proprits : tests sans biais,tests invariants... qui permettent de restreindre encore la classe des tests examins. Laproprit de tests sans biais au niveaux correspond pour les tests de niveau au faitque la puissance du test pour toute valeur du paramtre sous lhypothse alternative soitsuprieure . On considre le test de lhypothse nulle

    H0 : bk = b0k

    contre lhypothse

    H1 : bk 6= b0kOn a alors le rsultat suivant

    Proposition Considrant la statistique

    bS = bbk b0kbkle test dfini par la rgion critique

    W =nbS bS < tNK1 (1 /2)o nbS bS > tNK1 (1 /2)o

  • 32CHAPITRE 3. LESMCOSOUS LHYPOTHSEDENORMALITDES PERTURBATIONS.

    o tNK1 (1 /2) est le quantile dordre 1/2 dune loi de Student NK1 degrsde libert est un test uniformment plus puissant sans biais au niveau de lhypothseH0 contre H1.

    On vrifie aisment que ce test est un test au niveau . En eet sous lhypothse nulleon a vu que

    bbkb0kbk suit une loi de Student N K 1 degrs de libert. La probabilitde rejeter lhypothse nulle (la probabilit de la rgion critique) dans ce cas est doncbien . Montrer la proprit de sans biais et la proprit concernant la puissance est pluscompliqu (voir les rsultats dans Gourieroux et Monfort sur le modle exponentiel). On

    peut aussi dfinir la rgion critique par W =nbS bS > tNK1 (1 /2)o

    Mise en oeuvre du test : on calcule la statistique de Studentbbkb0kbk . Suivant les valeurs

    prises par cette statistique, on accepte ou rejette lhypothse nulle. Si la statistique prenddes valeurs extrmes on rejette lhypothse, sinon on laccepte. Le seuil de rejet dpendentdu niveau du test. On considre en gnral des tests au seuil de 5%. Le quantile dordre97, 5% = 1 2, 5% dune loi de Student dpend du nombre de degrs de libert. lorsquece nombre devient grand, ce quantile est 1.96. On sera donc amen rejeter au seuil de5% une hypothse ds lors que la statistique de Student en valeur absolue est suprieur 1.96. Lorsque le nombre de degrs de libert est plus faible, cest dire lorsque le nombrede variables explicatives est plus important ou lorsque le nombre dobservations est plusfaible, le seuil augmente. Par exemple pour 5 degrs de libert, le seuil de la rgion critiqueest de 2,56 ; pour 500 degrs de libert de 1,96 (voire figure 3.1)Ce test est parfois caractris par ce que lon appelle la p-value. Il sagit contrario du

    niveau du test pour lequel la statistique observe serait le seuil. Elle est donc dfinie par laquantit bp value = P |S| > bS = 21 F bS lorsque S suit une loi de Student N-K-1 degrs de libert. On acceptera lhypothse nulle pour un test au niveau si labp value est suprieure . En eet compte tenu du fait que F (tNK1 (1 /2)) =1 /2, on a 2 (1 F (tNK1 (1 /2))) = bp value > bS < tNK1 (1 /2)Un test systmatiquement mis en oeuvre est le test dit de significativit des paramtres. Ilcorrespond lhypothse nulle bk = 0. La statistique de Student associe ce test, nommet de Student est dfinie par bbk/bk. En gnral nimporte quelle estimation dun modlelinaire fait par dfaut lhypothse de normalit des rsidus. Elle produit la valeur estimedu paramtre la valeur estime de lcart-type, la valeur du t de Student (correspondant lhypothse de significativit du paramtre) et la p-value correspondant ce test.

    3.3 Un exemple

    Pour illustrer les tests et leur utilisation, on peut calculer la fonction de puissance dutest lorsque la vraie valeur du paramtre varie. On va considrer un modle une unique

  • 3.3. UN EXEMPLE 33

    0

    0.05

    0.1

    0.15

    0.2

    0.25

    0.3

    0.35

    0.4

    -5 -3 -1 1 3 5

    Fig. 3.1 Distribution de Student pour 5 et 500 degrs de libert

  • 34CHAPITRE 3. LESMCOSOUS LHYPOTHSEDENORMALITDES PERTURBATIONS.

    variabley = 1 + xb0 + u

    et on va simuler ce modle pour dirente vraie valeur du paramtre, allant de 0 2. Onva sintresser au test de lhypothse H0 : b = 1. Pour calculer la fonction de puissanceen un point donn b0, on utilise des simulations. On titre un chantillon Ech1 avec b0comme vraie valeur du paramtre. Sur cet chantillon on applique le test. On retientla dcision d1 = 1 si on rejette et d1 = 0 sinon. On rplique cette opration avec lamme vraie valeur sur M chantillons, avec M grand. On a ainsi un ensemble de valeur(di)iM . On approxime la valeur de la fonction de puissance par (b0) = di. Cest bienun estimateur du nombre de fois ou on a rejet raison lhypothse. Bien sur, lorsqueb0 = 1, la quantit calcule nest pas la puissance mais le risque de premire espce. Onpeut procder ainsi pour direntes taille dchantillons. On considre le cas dans lequelil ny a que 20 observations, puis on augmente progressivement ce nombre. On considrerespectivement N = 50, 100, 500, 2000. La figure 3.2 montre le rsultat de ces estimations.On voit que le graphe de la fonction de puissance a une forme de vasque. Si on se situeau niveau de la valeur teste b0 = 1, on trouve bien que la proportion de rejet est de 5%,correspondant au risque de premire espce, et ce quelque soit le nombre dobservations.Lorsque lon scarte de la vraie valeur on voit que la courbe crot : on rejette de plusen plus souvent le paramtre. La croissance est trs vive lorsque le nombre dobservationest grand : si la vraie valeur est de 0.95, on va rejeter lhypothse dans 60% des cas. Parcontre, dans le cas de 20 observations, il faut que la vraie valeur scarte de plus de 0.5pour que lon atteigne des taux de rejet similaire. Ce rsultat mrite dtre not : avecun petit nombre dobservations, on est amen accepter tort lhypothse dans 40%des cas mme lorsque la vraie valeur est assez loigne. Lorsque lcart la valeur testeaugmente, la probabilit de rejet tend vers 1. Cette valeur est trs rapidement atteintelorsque le nombre dobservations est grand, pour des nombres plus petits il faut des cartsplus importants.

    Remarque Dans le cas o la variance des rsidus est connu, on peut trs facilementcalculer la fonction de puissance. En eet dans ce cas

    Nbb b0/x

    N (0,1)

    Sous H0 : b0 = 1, on a doncNbb 1/x

    N (0,1)

    et a rgion critique du test est

    W =

    (Nbb 1/x

    < qn,/2

    )(Nbb 1/x

    > qn,1/2

    )

  • 3.4. COMPARAISONAVECLESTIMATEURDUMAXIMUMDEVRAISEMBLANCE35

    cest dire en faisant intervenir la vraie valeur du paramtre

    W =

    (Nbb b0/x

    < qn,/2 +Nb0 1/x

    )(Nbb b0/x

    > qn,1/2 +Nb0 1/x

    )

    On en dduit facilement la fonction de puissance

    P (b0) = qn,/2 +

    Nb0 1/x

    + 1

    qn,1/2 +

    Nb0 1/x

    On voit quau voisinage de b0 = 1, la fonction de puissance se dveloppe en

    P (b0) = + qn,1/2qn,1/2

    N

    b0 1/x

    2Comme la fonction x (x) est dcroissante pour x > 1, que pour des valeurs de faiblesqn,1/2 est plus grand que 1 et que qn,1/2 croit avec , plus est lev, plus qn,1/2

    qn,1/2

    est grand. On voit que dans ces conditions, les tests ayant des risques de premire espcefaibles auront peu de puissance pour des vraies valeurs au voisinage de la valeur traite.On voit aussi que la dpendance dans la taille de lchantillon est en N. Il est clair quelorsque N tend vers linfini la puissance du test tend vers 1. Pour tudier la puissance duntest on sintresse en gnral ce que lon appelle des alternatives locales en dterminantla puissance pour

    b0 (N) = 1 + /N

    o 1 est la valeur teste et une direction donne dans lespace des paramtre (ici commele paramtre est de dimension 1 cette caractristique tombe).

    3.4 Comparaison avec lestimateur du Maximum deVraisemblance

    On peut aussi directement appliquer lestimateur du maximum de vraisemblance auxdonnes. La vraisemblance scrit :

    Ly, x, b,2

    = 0.5N log (2) 0.5N log

    2+ 0.5 (y xb)0 (y xb) /2

    Proposition Lestimateur du maximum de vraisemblance du paramtre b est identique lestimateur des mco. Il a les mmes proprits que lestimateur des mco : sous les hy-pothses H1H4 & Hn, il suit une loi normale centre sur la vraie valeur du paramtreet ayant pour matrice de variance Vb = 2E (x0x)

    1. Lestimateur du maximum de vrai-semblance du paramtre du second ordre 2 se dduit linairement de lestimateur des mcode ce paramtre par application dun facteur (N K 1) /N. Cet estimateur nest doncpas sans biais, mais il est indpendant de lestimateur du MV du paramtre b.

  • 36CHAPITRE 3. LESMCOSOUS LHYPOTHSEDENORMALITDES PERTURBATIONS.

    0%

    20%

    40%

    60%

    80%

    100%

    0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

    n=20 n=50 n=100 n=500 n=2000 5%

    Fig. 3.2 Fonction de puissance du test de Student en fonction du nombre dobseravtions

  • 3.5. RSUM 37

    3.5 Rsum

    1. Dans ce chapitre on a examin les proprits de lestimateur des mco lorsque la loide u conditionnellement aux variables explicatives x est une loi normale de moyennenulle et de matrice de variance 2IN .

    2. On a montr que lestimateur des mco suit une loi normale, que lestimateur de lavariance des rsidus suit convenablement normalis une loi du 2 et que ces deuxestimateurs sont indpendants.

    3. On a vu que lon pouvait utiliser ces rsultats pour obtenir un estimateur sans biaisde la matrice de variance de lestimation du paramtre.

    4. On a vu que pour une composante donne k du paramtrebbkbkbk Student (N K 1)

    5. On a appliqu ce rsultat pour dfinir une rgion de confiance pour le paramtre etmettre en oeuvre des tests.

    6. On a vu en particulier que la rgion critique pour le test de significativit dun pa-ramtre correspondait des valeurs extrmes du t de Student. Le caractre extrmesapprciant par rapport au niveau du test.

    3.6 Annexe : Distribution de la norme de la projec-tion dun vecteur normal

    Considrons Z N (0, IL) , et P est un projecteur orthogonal sur un sous espace dedimension L1 alors Z

    0PZ 2 (L1).

    Lhypothse sur P revient dire que P est une matrice symtrique et que ses valeurspropres sont 0 ou 1.Comme P est symtrique, on peut la diagonaliser dans le groupe ortho-gonal. On peut donc crire P = Q0 ePQ, avecQ0Q = IL et eP = Diag( 1, . . . , 1| {z }

    L1lments non nuls

    , 0, . . . 0)

    On dfinit Z = QZ.Z est aussi un vecteur normal N (0, IL) puisque

    1. Cest un vecteur normal puisquil est combinaison linaire dun vecteur normal

    2. Il est desprance nulle puisque E (Z) = E (QZ) = QE (Z) = 0

    3. Il est de variance identit puisque V (Z) = E (ZZ0) = E (QZZ 0Q0) = QE (ZZ 0)Q0 =QILQ

    0 = QQ0 = IL

    On a alors Z0PZ = Z

    0Q0 ePQZ = Z0 ePZ =PL1l=1 Z2l . Cest donc la somme du carr

    de L1 variables normales indpendantes de moyenne nulle et de variance 1. Par dfinitionelle suit un 2 (L1)

  • 38CHAPITRE 3. LESMCOSOUS LHYPOTHSEDENORMALITDES PERTURBATIONS.

  • Chapitre 4

    Estimation sous contraintes linaires

    On peut souhaiter estimer un modle conomtrique linaire en incorporant une in-formation a priori sur les paramtres prenant la forme de contraintes linaires. On peutaussi vouloir tester si certaines relations entre les paramtres sont bien acceptes par lesdonnes. Les rsultats obtenus au chapitre prcdent ont montr comment tester des hy-pothses trs simples, scrivant sous la forme H0 : bk = b0k, o b

    0k est une valeur donne.

    On va examiner ici un cas un peu plus gnral dans lequel les hypothses que lon veuttester, ou bien les contraintes que lon veut imposer font intervenir une ou plusieurs com-binaisons linaires des paramtres. On va montrer obtenir un estimateur dirent de celuides moindres carrs ordinaires, appel estimateur des moindres carrs contraints (mcc)et on va montrer ses deux proprits principales : lestimateur des mcc est toujours plusprcis que lestimateur des mco ; lestimateur des mcc est non biais seulement si la vraievaleur du paramtre satisfait les contraintes imposes. Il y a donc un arbitrage entre ro-bustesse et prcision des estimateurs. Un tel arbitrage est trs frquent en conomtrie.On va aussi introduire un test trs utilis permettant de tester des contraintes linaire. Cetest est connu sous le nom de test de Fisher, et on va voir comment le mettre en oeuvresimplement partir de deux rgressions, lune par les mcc et autre par les mco.

    Exemple Homognit du progrs technique. On considre une fonction de productionfaisant intervenir le capital et le travail. On fait lhypothse que le facteur travail nest pashomogne. Il fait intervenir dirents types de main doeuvre, pas tous aussi ecace lesuns que les autres.

    Y = F (ACICI,AKK,A1L1, . . . , AMLM)

    La drive logarithmique scrit donc

    d log Y =d logF

    d logCI(d logCI + d logACI) +

    d logF

    d logK(d logK + d logAK) +

    d logF

    d logL1(d logL1 + d logA1) + + d logF

    d logLM(d logLM + d logAM)

    39

  • 40 CHAPITRE 4. ESTIMATION SOUS CONTRAINTES LINAIRES

    Sous lhypothse de rendements constants et de concurrence parfaite sur le march desbiens et des produits, la part de la rmunration de chaque facteur dans la productionest gale llasticit de la production. On peut donc mesurer d logF

    d logCI= CI = cCICIY ,

    d logFd logK

    = K = ckKY etd logFd logLm

    = m = wmLmY . On a donc lquation :

    d logSR = CId logACI + Kd logAk + 1d logA1 + + Md logAMo d logSR = d log Y CId logCI Kd logK 1d log