392
Économétrie Cours et exercices corrigés Régis Bourbonnais 9 e édition

économétrie 2015 DUNOD

Embed Size (px)

DESCRIPTION

st

Citation preview

  • conomtrie

    Cours et exercices corrigsRgis Bourbonnais

    9e dition

    9782100721511-Bourbo-lim.qxd 22/10/14 10:34 Page I

  • Dunod, 2015 5 rue Laromiguire, 75005 Paris

    www.dunod.comISBN 978-2-10-072151-1

    9782100721511-Bourbo-lim.qxd 14/11/14 9:11 Page II

  • Table des matiresAvant-propos IX

    1. Quest-ce que lconomtrie ? 1I. La notion de modle 1

    A. Dfinition 1B. La construction des modles en conomtrie 2

    II. Le rle de lconomtrie 5A. Lconomtrie comme validation de la thorie 5B. Lconomtrie comme outil dinvestigation 5

    III. La thorie de la corrlation 6A. Prsentation gnrale 6B. Mesure et limite du coefficient de corrlation 8

    2. Le modle de rgression simple 13

    I. Prsentation du modle 13A. Exemple introductif 13B. Rle du terme alatoire 14C. Consquences du terme alatoire 16

    II. Estimation des paramtres 17A. Modle et hypothses 17B. Formulation des estimateurs 18C. Les diffrentes critures du modle : erreur et rsidu 21 D. Proprits des estimateurs 22

    III. Consquences des hypothses : construction des tests 24A. Hypothse de normalit des erreurs 24B. Consquences de lhypothse de normalit des erreurs 25C. Test bilatral, test unilatral et probabilit critique dun test 27

    IV. quation et tableau danalyse de la variance 33A. quation danalyse de la variance 33B. Tableau danalyse de la variance 34

    V. La prvision dans le modle de rgression simple 39

    Table des matires III

    9782100721511-Bourbo-tdm.qxd 22/10/14 10:35 Page III

  • 3. Le modle de rgression multiple 47I. Le modle linaire gnral 47

    A. Prsentation 47B. Forme matricielle 48

    II. Estimation et proprits des estimateurs 49A. Estimation des coefficients de rgression 49B. Hypothses et proprits des estimateurs 51C. quation danalyse de la variance et qualit dun ajustement 54

    III. Les tests statistiques 59A. Le rle des hypothses 59B. Construction des tests 60C. Tests sur les rsidus : valeur anormale, effet de levier

    et point dinfluence 62IV. Lanalyse de la variance 67

    A. Construction du tableau danalyse de la variance et test de signification globale dune rgression 67

    B. Autres tests partir du tableau danalyse de la variance 68C. Gnralisation des tests par analyse de la variance 73

    V. Lutilisation de variables indicatrices 75A. Constitution et finalits des variables indicatrices 75B. Exemples dutilisation 76

    VI. La prvision laide du modle linaire gnral et la rgression rcursive 81

    A. Prdiction conditionnelle 81B. Fiabilit de la prvision et intervalle de prvision 82C. Les tests de stabilit par la rgression rcursive 84D. Le test de spcification de Ramsey 86

    VII. Exercices rcapitulatifs 90Annexe 102

    A) Interprtation gomtrique de la mthode des moindres carrs 102B) Rsolution de lexercice 1 par des logiciels informatiques

    de rgression multiple 103C) Estimation de la variance de lerreur 105

    4. Multicolinarit et slection du modle optimal 107I. Corrlation partielle 107

    A. Exemple introductif 107B. Gnralisation de la notion de corrlation partielle 108

    II. Relation entre coefficients de corrlation simple,partielle et multiple 112

    IV CONOMTRIE

    9782100721511-Bourbo-tdm.qxd 22/10/14 10:35 Page IV

  • III. Multicolinarit : consquences et dtection 114A. Consquences de la multicolinarit 114B. Tests de dtection dune multicolinarit 115C. Comment remdier la multicolinarit ? 118

    IV. Slection du modle optimal 119

    5. Problmes particuliers : la violation des hypothses 125

    I. Lautocorrlation des erreurs 125A. Prsentation du problme 125B. Lestimateur des Moindres Carrs Gnraliss (MCG) 126C. Les causes et la dtection de lautocorrlation des erreurs 127D. Les procdures destimation en cas dautocorrlation des erreurs 134

    II. Lhtroscdasticit 142A. Prsentation du problme 142B. Correction de lhtroscdasticit 144C. Tests de dtection de lhtroscdasticit 147D. Autre test dhtroscdasticit : le test ARCH 153

    III. Modles erreurs sur les variables 154A. Consquences lorsque les variables sont entaches derreurs 154B. La mthode des variables instrumentales 155C. Le test dexognit dHausman 156D. La mthode des moments gnralise 157

    6. Les modles non linaires 165

    I. Les diffrents types de modles non linaires 165A. Les fonctions de type exponentiel 165B. Les modles de diffusion 168

    II. Mthodes destimation des modles non linaires 170A. Initiation aux mthodes destimation non linaires 170B. Exemples dapplication 172

    7. Les modles dcalages temporels 177

    I. Les modles linaires autorgressifs 177A. Formulation gnrale 177B. Test dautocorrlation et mthodes destimation 178

    II. Les modles retards chelonns 183A. Formulation gnrale 183B. Dtermination du nombre de retards 184

    Table des matires V

    9782100721511-Bourbo-tdm.qxd 22/10/14 10:35 Page V

  • C. Distribution finie des retards 188D. Distribution infinie des retards 192

    III. Deux exemples de modles dynamiques 198A. Le modle dajustement partiel 198B. Le modle danticipations adaptatives 199

    8. Introduction aux modles quations simultanes 217

    I. quations structurelles et quations rduites 218A. Exemple introductif 218B. Le modle gnral 220C. Cas particulier : les modles rcursifs 221

    II. Le problme de lidentification 221A. Restrictions sur les coefficients 221B. Conditions didentification 222

    III. Les mthodes destimation 223A. Les moindres carrs indirects 223B. Les doubles moindres carrs 223C. Autres mthodes destimation 224

    Annexe 236Identification : les conditions de rang 236

    9. lments danalyse des sries temporelles 239I. Stationnarit 239

    A. Dfinition et proprits 239B. Fonctions dautocorrlation simple et partielle 240C. Tests de bruit blanc et de stationnarit 241

    II. La non-stationnarit et les tests de racine unitaire 245A. La non-stationnarit : les processus TS et DS 245B. Les tests de racine unitaire et la stratgie squentielle de test 248

    III. Les modles ARIMA 256A. Typologie des modles AR, MA et ARMA 256B. Lextension aux processus ARIMA et SARIMA 259

    IV. La mthode de Box et Jenkins 260A. Recherche de la reprsentation adquate : lidentification 260B. Estimation des paramtres 261C. Tests dadquation du modle et prvision 262

    10. La modlisation VAR 275

    I. Reprsentation dun modle VAR 276A. Exemple introductif 276

    VI CONOMTRIE

    9782100721511-Bourbo-tdm.qxd 22/10/14 10:35 Page VI

  • B. La reprsentation gnrale 277C. La reprsentation ARMAX 278

    II. Estimation des paramtres 279A. Mthode destimation 279B. Dtermination du nombre de retards 279C. Prvision 280

    III. Dynamique dun modle VAR 284A. Reprsentation VMA dun processus VAR 284B. Analyse et orthogonalisation des chocs 285C. Dcomposition de la variance 288D. Choix de lordre de dcomposition 288

    IV. La causalit 292A. Causalit au sens de Granger 292B. Causalit au sens de Sims 293

    11. La cointgration et le modle correction derreur 297

    I. Exemples introductifs 297II. Le concept de cointgration 299

    A. Proprits de lordre dintgration dune srie 299B. Conditions de cointgration 301C. Le modle correction derreur (ECM) 301

    III. Cointgration entre deux variables 302A. Test de cointgration entre deux variables 303B. Estimation du modle correction derreur 303

    IV. Gnralisation k variables 306A. La cointgration entre k variables 306B. Estimation du modle correction derreur 307C. Le modle correction derreur vectoriel 308D. Tests de relation de cointgration 310E. Test dexognit faible 313F. Synthse de la procdure destimation 314

    12. Introduction lconomtrie des variables qualitatives 319

    I. Les problmes et les consquences de la spcification binaire 320II. Les modles de choix binaires 322

    A. Le modle linaire sur variable latente 322B. Les modles Probit et Logit 323C. Interprtation des rsultats et tests statistiques 325

    III. Les modles choix multiples 330A. Les modles Probit et Logit ordonns 331

    Table des matires VII

    9782100721511-Bourbo-tdm.qxd 22/10/14 10:35 Page VII

  • B. Le modle de choix multiples non ordonn :le Logit multinomial 335

    IV. Les modles variable dpendante limite : le modle Tobit 337A. Le modle Tobit simple : modle de rgression tronqu

    ou censur 338B. Estimation et interprtation des rsultats 340

    13. Introduction lconomtrie des donnes de panel 345

    I. Prsentation des modles donnes de panel 346A. Spcificits des donnes de panel 346B. La mthode SUR 347C. Le modle linaire simple 348

    II. Les tests dhomognit 349A. Procdure squentielle de tests 349B. Construction des tests 350

    III. Spcifications et estimations des modles effets individuels 355A. Le modle effets fixes individuels 355B. Le modle effets alatoires 357C. Effets fixes ou effets alatoires ? Le test dHausman 358

    Liste des exercices 363

    Tables statistiques 367

    Bibliographie 375

    Index 379

    VIII CONOMTRIE

    9782100721511-Bourbo-tdm.qxd 22/10/14 10:35 Page VIII

  • Avant-propos

    Avant-propos IX

    Cette neuvime dition est enrichie de nouveaux exercices et des dveloppe-ments les plus rcents de lconomtrie. Ce livre couvre tous les champs delconomtrie : rgression simple et multiple, violation des hypothses (ht-roscdasticit, autocorrlation des erreurs, variables explicatives alatoires),modle dcalage, analyse des sries temporelles, tests de racine unitaire, qua-tions multiples, VAR, cointgration, VECM, conomtrie des variables qualita-tives et des donnes de panelSur lensemble de ces thmes, ce livre vous propose un cours, des exercices cor-rigs, et une prsentation des logiciels dconomtrie les plus rpandus.Souhaitons quil corresponde votre attente.

    En effet, nous avons voulu, par une alternance systmatique de cours etdexercices, rpondre un besoin pdagogique qui est de mettre rapidement enpratique les connaissances thoriques et ainsi, dutiliser de manire opration-nelle les acquis du cours ; les exercices sont reprs grce un bandeau gris.De surcrot, le recours des logiciels1, lors de la rsolution des exercices, per-met une dcouverte de ces outils et donne une dimension pratique que recher-chent ltudiant et le praticien.

    Afin que le lecteur puisse lui-mme refaire les exercices, les donnes utili-ses (sous format Excel, ASCII, RATS et Eviews) ainsi que les programmes detraitement Batch de Eviews ou de RATS sont disponibles gratuitement partlchargement sur le serveur web :

    http://regisbourbonnais.dauphine.frPour chaque exercice faisant appel un fichier de donnes, le nom du fichier

    est cit en tte de lexercice et repr par licne suivante :Nous avons voulu faire de ce manuel un livre dapprentissage facilement

    accessible ; cest pourquoi les dmonstrations les plus complexes font lobjet derenvois une bibliographie plus spcialise. Cependant, il convient de prciserque lconomtrie fait appel des notions dalgbre linaire et dinduction sta-tistique quil est souhaitable de connatre.

    1. Trois logiciels sont utiliss : EXCEL ( Microsoft), RATS ( Var Econometrics version 3 etEstima version 4), Eviews ( Quantitative Micro Software). Nous recommandons aussi parti-culirement le logiciel GRETL (http://gretl.sourceforge.net) qui est un logiciel dconomtriegratuit, complet et trs facile dapprentissage.

    9782100721511-Bourbo-avtpro.qxd 20/10/14 15:06 Page IX

  • Dans le terme conomtrie figure la racine du mot conomie car sonutilisation est surtout destine des fins de traitement de donnes conomiques ;cependant, dautres domaines tels que la finance, la recherche agronomique, lamdecine, etc., font maintenant le plus souvent appel ces techniques.

    Ce livre sadresse en premier lieu aux tudiants (sciences conomiques, ges-tion, coles de commerce et dingnieurs, etc.) dont la formation requiert uneconnaissance de lconomtrie. Gageons quil sera un support de cours indis-pensable et un alli prcieux pour prparer les sances de travaux dirigs.

    Noublions pas cependant le praticien de lconomtrie (conomiste dentre-prise, chercheur, etc.) qui, confront des problmes destimation statistique,trouvera dans ce livre les rponses pratiques aux diffrentes questions quil peutse poser.

    Enfin, jexprime toute ma gratitude toutes les personnes collgues et tu-diants qui ont eu la gentillesse de me faire des commentaires et dont lesconseils et suggestions contribuent la qualit pdagogique de ce livre. Je reste,bien entendu, le seul responsable des erreurs qui subsisteraient1.

    1. Les lecteurs souhaitant faire des commentaires ou des remarques peuvent me contacter : RgisBourbonnais, universit de Paris-Dauphine, place du Marchal de Lattre de Tassigny, 75775Paris Cedex 16, E-mail : [email protected]

    X CONOMTRIE

    9782100721511-Bourbo-avtpro.qxd 20/10/14 15:06 Page X

  • 1. Quest-ce quelconomtrie ?

    C e premier chapitre est consacr la prsentation de lconomtrieet sa liaison avec la thorie conomique. Nous abordons toutdabord la notion de modle ainsi que les diffrentes tapes de lamodlisation. Lapport de lconomtrie en tant quoutil de validationest tudi en II. Enfin, la thorie de la corrlation fondement de lco-nomtrie fait lobjet de la section III.

    I. La notion de modle

    A. DfinitionIl est dlicat de fournir une dfinition unique de la notion de modle1. Dans lecadre de lconomtrie, nous pouvons considrer quun modle consiste en uneprsentation formalise dun phnomne sous forme dquations dont lesvariables sont des grandeurs conomiques. Lobjectif du modle est de repr-senter les traits les plus marquants dune ralit quil cherche styliser. Lemodle est donc loutil que le modlisateur utilise lorsquil cherche com-prendre et expliquer des phnomnes. Pour ce faire, il met des hypothses etexplicite des relations.

    1. La notion de modle est relative au point de vue auquel nous nous plaons : la physique,lpistmologie...

    Quest-ce que lconomtrie ? 1

    9782100721511-Bourbo-C01.qxd 20/10/14 15:07 Page 1

  • Pourquoi des modles ?

    Nombreux sont ceux sociologues, conomistes ou physiciens qui fondent leurs analyses ou leurs jugements sur des raisonnementsconstruits et labors. Ces constructions refrent implicitement desmodles ; alors pourquoi ne pas expliciter clairement les hypothses etles relations au sein dun modle ?

    Le modle est donc une prsentation schmatique et partielle dune ralitnaturellement plus complexe. Toute la difficult de la modlisation consiste neretenir que la ou les reprsentations intressantes pour le problme que le mod-lisateur cherche expliciter. Ce choix dpend de la nature du problme, du typede dcision ou de ltude effectuer. La mme ralit peut ainsi tre formalisede diverses manires en fonction des objectifs.

    B. La construction des modles en conomtrieDans les sciences sociales, et particulirement en conomie, les phnomnestudis concernent le plus souvent des comportements afin de mieux com-prendre la nature et le fonctionnement des systmes conomiques. Lobjectif dumodlisateur est, dans le cadre de lconomtrie et au travers dune mesure sta-tistique, de permettre aux agents conomiques (mnages, entreprises, tat...)dintervenir de manire plus efficace. La construction dun modle comporte uncertain nombre dtapes qui sont toutes importantes. En effet, en cas de faibles-se dun des maillons , le modle peut se trouver invalid pour cause dhypo-thses manquantes, de donnes non reprsentatives ou observes avec deserreurs, etc. Examinons les diffrentes tapes suivre lors de la constructiondun modle, ceci partir de lexemple du modle keynsien simplifi.

    1) Rfrence une thorie

    Une thorie sexprime au travers dhypothses auxquelles le modle fait rf-rence. Dans la thorie keynsienne, quatre propositions sont fondamentales :

    1. la consommation et le revenu sont lis ;2. le niveau dinvestissement priv et le taux dintrt sont galement lis ;3. il existe un investissement autonome public ;4. enfin, le produit national est gal la consommation plus linvestissement

    priv et public.

    2 CONOMTRIE

    9782100721511-Bourbo-C01.qxd 20/10/14 15:07 Page 2

  • Quest-ce que lconomtrie ? 3

    2) Formalisation des relations et choix de la forme des fonctions

    partir des propositions prcdentes, nous pouvons construire des relations :1. la consommation est fonction du revenu : C = f (Y ) avec f > 0 ;2. linvestissement priv dpend du taux dintrt : I = g(r) avec g < 0 ;3. il existe un investissement autonome public : I ;4. enfin, le produit national (ou le revenu national) est gal la consomma-

    tion plus linvestissement : Y C + I + I . ce stade, nous navons postul aucune forme particulire en ce qui concer-

    ne les fonctions f et g . Ainsi, bien que des considrations dordre thorique nousrenseignent sur le signe des drives, il existe une multitude de fonctions deformes trs diffrentes et ayant des signes de drives identiques, par exempleC = a0 + a1 Y et C = a0 Y a1 . Cependant ces deux relations ne refltent pas lemme comportement ; une augmentation du revenu provoque un accroissementproportionnel pour la premire relation, alors que, dans la seconde, leffet ses-tompe avec laugmentation du revenu (si 0 < a1 < 1 ). Nous appelons formefonctionnelle ce choix (arbitraire ou fond) de spcification prcise du mod-le. Dans notre exemple, le modle explicit scrit :

    C = a0 + a1 Y avec a0 > 0 et 0 < a1 < 1a1 = propension marginale consommeret a0 = consommation incompressible ;

    I = b0 + b1 r avec b0 > 0 et b1 < 0 ;Y C + I + I

    Les deux premires quations refltent des relations de comportements alorsque la troisime est une identit (aucun paramtre nest estimer).

    3) Slection et mesure des variables

    Le modle tant spcifi, il convient de collecter les variables reprsentativesdes phnomnes conomiques. Ce choix nest pas neutre et peut conduire desrsultats diffrents, les questions quil convient de se poser sont par exemple :

    Faut-il raisonner en euros constants ou en euros courants ? Les donnes sont-elles brutes ou CVS1 ? Quel taux dintrt faut-il retenir (taux au jour le jour, taux directeur de la

    Banque Centrale Europenne,...) ? etc.

    1. Corriges des Variations Saisonnires.

    9782100721511-Bourbo-C01.qxd 20/10/14 15:07 Page 3

  • Nous distinguons plusieurs types de donnes selon que le modle est spci-fi en :

    srie temporelle : cest le cas le plus frquent en conomtrie, il sagit devariables observes intervalles de temps rguliers (la consommationannuelle, totale France, exprime en euros courants sur 20 ans) ;

    coupe instantane : les donnes sont observes au mme instant et concer-nent les valeurs prises par la variable pour un groupe dindividus1 spci-fiques (consommation observe des agriculteurs pour une anne donne) ;

    panel : la variable reprsente les valeurs prises par un chantillon dindivi-dus intervalles rguliers (la consommation dun chantillon de mnagesde la rgion parisienne sur 20 ans) ;

    cohorte : trs proches des donnes de panel, les donnes de cohorte se dis-tinguent de la prcdente par la constance de lchantillon, les individussonds sont les mmes dune priode sur lautre.

    4) Dcalages temporels

    Dans le cadre de modle spcifi en sries temporelles, les relations entre lesvariables ne sont pas toujours synchrones mais peuvent tre dcales dans letemps. Nous pouvons concevoir que la consommation de lanne t est expliquepar le revenu de lanne t 1 et non celui de lanne t . Pour lever cette ambi-gut, il est dusage dcrire le modle en le spcifiant laide dun indice de temps : Ct = a0 + a1 Yt1 . La variable Yt1 est appele variable endogneretarde .

    On appelle variable exogne une variable dont les valeurs sont pr-dtermines, et variable endogne une variable dont les valeursdpendent des variables exognes.

    5) Validation du modle

    La dernire tape est celle de la validation2 du modle : Les relations spcifies sont-elles valides ? Peut-on estimer avec suffisamment de prcision les coefficients ? Le modle est-il vrifi sur la totalit de la priode ? Les coefficients sont-ils stables ? Etc. toutes ces questions, les techniques conomtriques sefforcent dapporter

    des rponses.

    4 CONOMTRIE

    1. Le terme dindividu est employ au sens statistique, cest--dire comme un lment dune popu-lation : une personne, une parcelle de terre...

    2. Validation, cest--dire en conformit avec les donnes disponibles.

    9782100721511-Bourbo-C01.qxd 20/10/14 15:07 Page 4

  • II. Le rle de lconomtrie

    A. Lconomtrie comme validation de la thorieLconomtrie est un outil la disposition de lconomiste qui lui permet din-firmer ou de confirmer les thories quil construit. Le thoricien postule desrelations ; lapplication de mthodes conomtriques fournit des estimations surla valeur des coefficients ainsi que la prcision attendue.

    Une question se pose alors : pourquoi estimer ces relations, et les tester statistiquement ? Plusieurs raisons incitent cette dmarche : tout dabord celaforce lindividu tablir clairement et estimer les interrelations sous-jacentes.Ensuite, la confiance aveugle dans lintuition peut mener lignorance de liaisons importantes ou leur mauvaise utilisation. De plus, des relations mar-ginales mais nanmoins explicatives, qui ne sont quun lment dun modleglobal, doivent tre testes et valides afin de les mettre leur vritable place.Enfin, il est ncessaire de fournir, en mme temps que lestimation des relations,une mesure de la confiance que lconomiste peut avoir en celles-ci, cest--direla prcision que lon peut en attendre. L encore, lutilisation de mthodes pure-ment qualitatives exclut toute mesure quantitative de la fiabilit dune relation.

    B. Lconomtrie comme outil dinvestigationLconomtrie nest pas seulement un systme de validation, mais galement unoutil danalyse. Nous pouvons citer quelques domaines o lconomtrie appor-te une aide la modlisation, la rflexion thorique ou laction conomiquepar :

    la mise en vidence de relations entre des variables conomiques quintaient pas a priori videntes ou pressenties ;

    linduction statistique ou linfrence statistique consiste infrer, partirdes caractristiques dun chantillon, les caractristiques dune population.Elle permet de dterminer des intervalles de confiance pour des paramtresdu modle ou de tester si un paramtre est significativement1 infrieur,suprieur ou simplement diffrent dune valeur fixe ;

    Quest-ce que lconomtrie ? 5

    1. Au sens statistique, cest--dire avec un seuil (risque derreur ne pas dpasser, souvent 5 %).

    9782100721511-Bourbo-C01.qxd 20/10/14 15:07 Page 5

  • la simulation qui mesure limpact de la modification de la valeur dunevariable sur une autre (Ct = a1Yt) ;

    la prvision1, par lutilisation de modles conomtriques, qui est utilisepar les pouvoirs publics ou lentreprise afin danticiper et ventuellementde ragir lenvironnement conomique.

    Dans cet ouvrage, nous nous efforcerons de montrer, laide dexemples, lesdiffrentes facettes de lutilisation des techniques conomtriques dans descontextes et pour des objectifs diffrents.

    III. La thorie de la corrlation

    A. Prsentation gnraleLorsque deux phnomnes ont une volution commune, nous disons quils sont corrls . La corrlation simple mesure le degr de liaison existant entre cesdeux phnomnes reprsents par des variables. Si nous cherchons une relationentre trois variables ou plus, nous ferons appel alors la notion de corrlationmultiple.

    Nous pouvons distinguer la corrlation linaire, lorsque tous les points ducouple de valeurs (x,y) des deux variables semblent aligns sur une droite, dela corrlation non linaire lorsque le couple de valeurs se trouve sur une mmecourbe dallure quelconque.

    Deux variables peuvent tre : en corrlation positive ; on constate alors une augmentation (ou diminu-

    tion, ou constance) simultane des valeurs des deux variables ; en corrlation ngative, lorsque les valeurs de lune augmentent, les valeurs

    de lautre diminuent ; non corrles, il ny a aucune relation entre les variations des valeurs de

    lune des variables et les valeurs de lautre.Le tableau 1, en croisant les critres de linarit et de corrlation, renvoie

    une reprsentation graphique.

    6 CONOMTRIE

    1. Pour dcouvrir lutilisation de lconomtrie des fins de prvision de ventes, voir BourbonnaisR. et Usunier J. C. (2013).

    9782100721511-Bourbo-C01.qxd 20/10/14 15:07 Page 6

  • Quest-ce que lconomtrie ? 7

    Corrlation Corrlation Absence depositive ngative corrlation

    Relation linaire Graphe 1 Graphe 2 Graphe 5Relation non linaire Graphe 3 Graphe 4 Graphe 5

    Tableau 1 Linarit et corrlation

    Graphe 1

    Graphe 3

    Graphe 5

    Graphe 4

    Graphe 2

    y

    yy

    y

    y

    x

    x

    x

    x x

    9782100721511-Bourbo-C01.qxd 20/10/14 15:07 Page 7

  • B. Mesure et limite du coefficient de corrlation1) Le coefficient de corrlation linaire

    La reprsentation graphique ne donne quune impression de la corrlationentre deux variables sans donner une ide prcise de lintensit de la liaison,cest pourquoi nous calculons une statistique appele coefficient de corrlationlinaire simple, not rx,y . Il est gal :

    rx,y = Cov (x,y)x y

    =

    ni=1

    (xi x)(yi y)n

    i=1(xi x )2

    n

    i=1(yi y )2

    [1]

    avec :

    Cov (x,y) = covariance entre x et y ;x et y = cart type de x et cart type de y ;n = nombre dobservations.

    En dveloppant la formule [1], il vient :

    rx,y =n

    ni=1

    xi yi n

    i=1xi

    ni=1

    yin

    ni=1

    x2i ( n

    i=1xi

    )2n

    ni=1

    y2i ( n

    i=1yi

    )2 [2]

    On peut dmontrer que, par construction ce coefficient reste compris entre1 et 1 :

    proche de 1, les variables sont corrles positivement ; proche de 1 , les variables sont corrles ngativement ; proche de 0, les variables ne sont pas corrles.Dans la pratique, ce coefficient est rarement trs proche de lune de ces trois

    bornes et il est donc difficile de proposer une interprtation fiable la simplelecture de ce coefficient. Ceci est surtout vrai en conomie o les variables sonttoutes plus au moins lies entre elles. De plus, il nest calcul qu partir dunchantillon dobservations et non pas sur lensemble des valeurs. On appelle x,y

    8 CONOMTRIE

    9782100721511-Bourbo-C01.qxd 20/10/14 15:07 Page 8

  • ce coefficient empirique qui est une estimation du coefficient vrai rx,y . La tho-rie des tests statistiques nous permet de lever cette indtermination.

    Soit tester lhypothse H0 : rx,y = 0 , contre lhypothse H1 : rx,y = 0 .Sous lhypothse H0, nous pouvons dmontrer que x,y(

    1 2x,y)

    n 2

    suit une loi

    de Student n 2 degrs de libert1. Nous calculons alors une statistique, appe-l le t de Student empirique :

    t = |x,y|(1 2x,y

    )n 2

    [3]

    Si t > t/2n2 valeur lue dans une table de Student2 au seuil = 0,05 (5 %) n 2 degrs de libert3, nous rejetons lhypothse H0, le coefficient de corrla-tion est donc significativement diffrent de 0 ; dans le cas contraire, lhypoth-se dun coefficient de corrlation nul est accepte. La loi de Student tant sym-trique, nous calculons la valeur absolue du t empirique et nous procdons au testpar comparaison avec la valeur lue directement dans la table.

    Quest-ce que lconomtrie ? 9

    1. La notion de degrs de libert est explicite au chapitre 2.2. Les lois de probabilit sont en fin douvrage.3. Si le nombre dobservations n est suprieur 30, on peut approximer la loi de Student par une

    loi normale, soit t/2 1,96 .

    9782100721511-Bourbo-C01.qxd 20/10/14 15:07 Page 9

  • Calcul dun coefficient de corrlationUn agronome sintresse la liaison pouvant exister entre le rendement de mas x

    (en quintal) dune parcelle de terre et la quantit dengrais y (en kilo). Il relve 10 cou-ples de donnes consigns dans le tableau 2

    10 CONOMTRIE

    Exercice n 1fichier C1EX1

    Rendement x 16 18 23 24 28 29 26 31 32 34

    Engrais y 20 24 28 22 32 28 32 36 41 41

    Tableau 2 Rendement de mas et quantit dengrais

    1) Tracer le nuage de points et le commenter.2) Calculer le coefficient de corrlation simple et tester sa signification par rapport 0

    pour un seuil = 0,05.

    Solution

    1) Le nuage de points (graphique 6) indique que les couples de valeurs sont approxima-tivement aligns : les deux variables semblent corrles positivement.

    Graphique 6 Nuage du couple de valeurs :rendement-quantit dengrais

    Quan

    tit d

    engr

    ais

    Rendement

    9782100721511-Bourbo-C01.qxd 20/10/14 15:07 Page 10

  • 2) Afin dappliquer la formule [2], nous dressons le tableau de calcul 3.

    Quest-ce que lconomtrie ? 11

    .x y x2 y2 xy

    16 20 256 400 32018 24 324 576 43223 28 529 784 64424 22 576 484 52828 32 784 1 024 89629 28 841 784 81226 32 676 1 024 83231 36 961 1 296 1 11632 41 1 024 1 681 1 31234 41 1 156 1 681 1 394

    Somme 261 304 7 127 9 734 8 286

    Tableau 3 Calcul dun coefficient de corrlation

    x,y = (10)(8 286) (261)(304)(10)(7 127) 2612

    (10)(9 734) 3042

    = 3 516(56,11)(70,17)

    soit x,y = 0,89 et 2x,y = 0,79Le t de Student empirique (daprs [3]) est gal :

    t = |x,y |(1 2x,y)

    n 2

    = 0,890,1 620

    = 5,49 > t0,0258 = 2,306

    le coefficient de corrlation entre x et y est significativement diffrent de 0.

    2) Limites de la notion de corrlation

    a) La relation teste est linaireLapplication de la formule [1] ou [2] ne permet de dterminer que des corrla-tions linaires entre variables. Un coefficient de corrlation nul indique que lacovariance entre la variable x et la variable y est gale 0. Cest ainsi que deuxvariables en totale dpendance peuvent avoir un coefficient de corrlation nul,comme lillustre lexemple suivant : lquation dun cercle nous est donne par (x x1)2 + (y y1)2 = R2 , les variables x et y sont bien lies entre ellesfonctionnellement (graphique 7) et pourtant leur covariance est nulle et doncleur coefficient de corrlation gal 0.

    Pour pallier cette limite, il convient ventuellement de transformer lesvariables, pralablement au calcul du coefficient de corrlation, afin de linariser

    9782100721511-Bourbo-C01.qxd 20/10/14 15:07 Page 11

  • leur relation, par exemple au moyen dune transformation de type logarith-mique.

    12 CONOMTRIE

    Graphique 7 Relation fonctionnelle nest pas corrlation linaire

    b) Corrlation nest pas causalitLe fait davoir un coefficient de corrlation lev entre deux variables ne signi-fie pas quil existe un autre lien que statistique. En dautres termes, une cova-riance significativement diffrente de 0 nimplique pas une liaison dordre co-nomique, physique ou autre. Nous appelons corrlation fortuite ce type de cor-rlation que rien ne peut expliquer.

    Lexemple le plus fameux concerne la forte corrlation existante entre lenombre de taches solaires observes et le taux de criminalit aux tats-Unis.Cela ne signifie pas quil existe une relation entre les deux variables, maisquune troisime variable, lvolution de long terme (la tendance) ici, expliqueconjointement les deux phnomnes. La thorie de la cointgration traite de ceproblme (cf. chapitre 11).

    0

    9782100721511-Bourbo-C01.qxd 20/10/14 15:07 Page 12

  • 2. Le modle de rgression simple

    N ous commenons notre tude par le modle le plus simple : unevariable endogne est explique par une variable exogne.Aprs avoir tudi les consquences probabilistes de lerreurdobservation, nous prsentons en I. les formules de base permettantdestimer les paramtres du modle. Les hypothses stochastiques etleurs consquences sont tudies au paragraphe II. En III. et IV., la qualit de lestimation dun modle est examine laidedes premiers tests statistiques (Student, Fisher).Enfin, en V., le modle de rgression simple est tudi en tant quoutil deprvision avec le degr de confiance que nous pouvons en attendre.

    I. Prsentation du modle

    A. Exemple introductifSoit la fonction de consommation keynsienne :

    C = a0 + a1 Yo :C = consommation,Y = revenu,a1 = propension marginale consommer,a0 = consommation autonome ou incompressible.

    Le modle de rgression simple 13

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 13

  • 1) Vocabulaire

    La variable consommation est appele variable expliquer ou variableendogne .

    La variable revenu est appele variable explicative ou variable exogne (cest le revenu qui explique la consommation).

    a1 et a0 sont les paramtres du modle ou encore les coefficients de rgression.

    2) Spcification

    Nous pouvons distinguer deux types de spcifications : Les modles en srie temporelle, les variables reprsentent des phnomnes

    observs intervalles de temps rguliers, par exemple la consommation et lerevenu annuel sur 20 ans pour un pays donn. Le modle scrit alors :

    Ct = a0 + a1 Yt t = 1,. . . , 20o :Ct = consommation au temps t ,Yt = revenu au temps t . Les modles en coupe instantane, les variables reprsentent des phnomnes

    observs au mme instant mais concernant plusieurs individus, par exemple laconsommation et le revenu observs sur un chantillon de 20 pays. Le modlescrit alors :

    Ci = a0 + a1 Yi i = 1,. . . , 20o :Ci = consommation du pays i pour une anne donne,Yi = revenu du pays i pour une anne donne.

    B. Rle du terme alatoireLe modle tel quil vient dtre spcifi nest quune caricature de la ralit. En effet ne retenir que le revenu pour expliquer la consommation est lvi-dence mme insuffisant ; il existe une multitude dautres facteurs susceptiblesdexpliquer la consommation. Cest pourquoi nous ajoutons un terme (t)qui synthtise lensemble de ces informations non explicites dans le mo-dle : Ct = a0 + a1 Yt + t si le modle est spcifi en srie temporelle (Ci = a0 + a1 Yi + i si le modle est spcifi en coupe instantane), o t repr-sente lerreur de spcification du modle, cest--dire lensemble des phno-mnes explicatifs de la consommation non lis au revenu. Le terme t mesure la

    14 CONOMTRIE

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 14

  • diffrence entre les valeurs rellement observes de Ct et les valeurs qui auraientt observes si la relation spcifie avait t rigoureusement exacte. Le termet regroupe donc trois erreurs :

    une erreur de spcification, cest--dire le fait que la seule variable expli-cative nest pas suffisante pour rendre compte de la totalit du phnom-ne expliqu ;

    une erreur de mesure, les donnes ne reprsentent pas exactement le ph-nomne ;

    une erreur de fluctuation dchantillonnage, dun chantillon lautre lesobservations, et donc les estimations, sont lgrement diffrentes.

    Le modle de rgression simple 15

    Anne Revenu

    1 8 0002 9 0003 9 5004 9 5005 9 8006 11 0007 12 0008 13 0009 15 00010 16 000

    Tableau 1 volution du revenu moyen par habitant en dollars

    Sachant que la propension marginale consommer est de 0,8 et que la consomma-tion incompressible est 1 000, on demande :1) de calculer la consommation thorique sur les 10 ans ;2) considrant que notre erreur dobservation suit une loi normale de moyenne 0 et de

    variance 20 000, de gnrer cette variable alatoire et de calculer une consommationobserve tenant compte de cette erreur.

    Solution

    Les calculs des questions 1) et 2) sont prsents dans le tableau 2.La consommation thorique (colonne 3) est calcule par application directe de la

    formule : Ct = 1 000 + 0,8 Yt .

    Gnration dune consommation alatoireLe tableau 1 prsente le revenu moyen par habitant sur 10 ans exprim en dollars

    pour un pays.

    Exercice n 1fichier C2EX1

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 15

  • La gnration de la variable alatoire t (t N (0 ; 20 000)) ne pose pas de diffi-cult particulire ; bien entendu il en existe une infinit, un exemple en est prsent encolonne 4.

    La consommation observe (colonne 5) est donc gale Ct = 1 000 + 0,8 Yt + t ,soit la somme de la colonne 3 et de la colonne 4.

    16 CONOMTRIE

    Tableau 2 Calcul de la consommation observe

    (1) (2) (3) (4) (5)Anne Revenu Consommation Ala Consommation

    disponible thorique t observe

    1 8 000 7 400 10,01 7 389,992 9 000 8 200 30,35 8 169,653 9 500 8 600 231,71 8 831,714 9 500 8 600 52,84 8 652,845 9 800 8 840 51,92 8 788,086 11 000 9 800 183,79 9 616,217 12 000 10 600 6,55 10 593,458 13 000 11 400 213,89 11 186,119 15 000 13 000 241,91 12 758,0910 16 000 13 800 69,62 13 869,62

    Moyenne : 38,42cart type : 137,24

    1. Il ne faut pas confondre : estimateur a de a et estimation de a qui est la valeur particulire delestimateur pour un chantillon.

    Nous observons que la moyenne de t , = 38,42 et la variance de t , Var(t ) =18 834,81 sont lgrement diffrentes des valeurs thoriques. Cela est la consquencedu tirage particulier dun chantillon de taille assez faible (dix observations).

    C. Consquences du terme alatoireDans lexercice prcdent, les valeurs vraies a0 et a1 sont parfaitement connues,cependant, dans la ralit, nous ne connaissons pas ces valeurs mais seulementles deux sries dobservations Ct et Rt . Les estimateurs1 de a0 et a1 , nots res-pectivement a0 et a1 , sont des variables alatoires, qui suivent les mmes lois deprobabilit, celle de t , puisquils sont fonctions de la variable alatoire t . Lescaractristiques de moyenne et dcart type de ces coefficients permettent deconstruire des tests de validit du modle estim.

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 16

  • II. Estimation des paramtres

    A. Modle et hypothsesSoit le modle suivant :

    yt = a0 + a1 xt + t pour t = 1,. . . ,n

    Le modle de rgression simple 17

    Graphique 1 Histogramme de la distribution de 150 a1

    Frq

    uenc

    e

    Coefficient 1

    Frq

    uenc

    eSi laide dun programme informatique ( C2EX1.PRG) nous construi-

    sons 150 chantillons de valeurs diffrentes pour la variable alatoiret N (0 ; 20 000), nous allons alors trouver 150 estimations de a1 lgrementdiffrentes entre elles dont la distribution aura la forme de lhistogramme dugraphique 1.

    Cette distribution a pour moyenne 0,801 et cart type 0,032, nous pouvonsobserver quelle est peu prs symtrique par rapport la moyenne et quelle ala forme dune courbe en cloche : tous ces lments suggrent bien une dis-tribution normale de : a1 N (0,801 ; 0,032) . Cela est la consquence directede la normalit des erreurs.

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 17

  • avec :yt = variable expliquer au temps t ;xt = variable explicative au temps t ;a0,a1 = paramtres du modle ;t = erreur de spcification (diffrence entre le modle vrai et le modle

    spcifi), cette erreur est inconnue et restera inconnue ;n = nombre dobservations.

    Hypothses

    H1 : le modle est linaire en xt (ou en nimporte quelle transformation de xt ). H2 : les valeurs xt sont observes sans erreur (xt non alatoire). H3 : E(t) = 0 , lesprance mathmatique de lerreur est nulle : en moyenne le

    modle est bien spcifi et donc lerreur moyenne est nulle. H4 : E(2t ) = 2 , la variance de lerreur est constante1 : le risque de lamplitu-

    de de lerreur est le mme quelle que soit la priode. H5 : E(t t ) = 0 si t = t , les erreurs sont non corrles (ou encore indpen-

    dantes) : une erreur linstant t na pas dinfluence sur les erreurs sui-vantes.

    H6 : Cov(xt ,t) = 0 , lerreur est indpendante de la variable explicative.

    B. Formulation des estimateursEn traant un graphique (2) des couples de donnes liant le revenu et la consom-mation observe, nous obtenons un nuage de points que nous pouvons ajuster laide dune droite.

    Lestimateur des coefficients a0 et a1 est obtenu en minimisant la distance aucarr entre chaque observation et la droite, do le nom destimateur desmoindres carrs ordinaires (MCO).

    La rsolution analytique est la suivante :

    Mint=nt=1

    2t = Mint=nt=1

    (yt a0 a1xt)2 = Min S

    18 CONOMTRIE

    1. Cette hypothse sappelle lhypothse dhomoscdasticit ; dans le cas o cette hypothse nestpas vrifie, on parle alors de modle htroscdastique.

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 18

  • En oprant par drivation par rapport a0 et a1 afin de trouver le minimum1de cette fonction, on obtient les rsultats suivants :

    Sa0

    =2

    t

    (yt a0 a1xt) = 0 et Sa1

    =2

    t

    xt(yt a0 a1xt) = 0

    Sommant par rapport t , il vient :t

    xt yt a0

    t

    xt a1

    t

    x2t = 0t

    yt na0 a1

    t

    xt = 0

    quon appelle les quations normales et qui impliquent que :

    a1 =

    t=nt=1

    (xt x)(yt y)t=nt=1

    (xt x)2=

    t=nt=1

    xt yt nx yt=nt=1

    x2t nx2

    a0 = y a1x

    [1]

    [2]

    Le modle de rgression simple 19

    1. Nous considrons les conditions du deuxime ordre comme vrifies car la fonction est convexe.

    Graphique 2 Ajustement dun nuage de points par une droite

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 19

  • Estimation des coefficients de rgression partir des donnes du tableau 2 de lexercice 1, on demande de calculer les esti-

    mations de a0 et a1 .

    Solution

    Le tableau 3 prsente les calculs effectuer.

    Nous pouvons faire deux remarques : lcriture du modle nest pas neutre ;La spcification : yt = a0 + a1 xt + t nest pas quivalente :

    xt = a0 + a1 yt + t . Dans le premier modle, xt est la cause de yt , alors que dansla deuxime spcification, cest yt qui est la cause de xt .

    Nous remarquons que : a1 a 1 = 2( = coefficient de corrlation entre x et y ) ;

    le coefficient a1 reprsente la pente de la droite ou encore une propensionmarginale.

    Nous avons : yt = a1xt . Limpact dune variation de xt se mesure direc-tement sur yt au travers du coefficient a1 .

    Cas particulier : modle sans terme constantLa thorie conomique postule parfois des relations dans lesquelles a0 = 0 :cest le cas par exemple pour une fonction de production de produit industrielo le facteur de production (unique) nul entrane une production nulle.Lestimation de a1 est alors donne par la formule suivante :

    a1 =

    t=nt=1

    xt yt

    t=nt=1

    x2t

    [3]

    Nous remarquons quil sagit de lapplication de la formule [1] dans laquel-le x et y sont nulles. Dans le cas de variables centres1, cest donc cette formu-le [3] quil convient demployer car le terme constant est nul.

    20 CONOMTRIE

    1. Les donnes sont centres lorsque les observations sont centres sur leur moyenne : (xt x) ,la somme des donnes centres est donc par construction nulle.

    Exercice n 2fichier C2EX2

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 20

  • Le modle de rgression simple 21

    Tableau 3 Calcul dun coefficient de rgression

    (1) (2) (3) (4) (5) (6) (7)t yt xt yt y xt x (5)* (5) (4)* (5)

    1 7 389,99 8 000 2 595,59 3 280 10 758 400 8 513 5182 8 169,65 9 000 1 815,93 2 280 5 198 400 4 140 3003 8 831,71 9 500 1 153,87 1 780 3 168 400 2 053 8794 8 652,84 9 500 1 332,74 1 780 3 168 400 2 372 2685 8 788,08 9 800 1 197,50 1 480 2 190 400 1 772 2926 9 616,21 11 000 369,37 280 78 400 103 4227 10 593,45 12 000 607,88 720 518 400 437 6708 11 186,11 13 000 1 200,54 1 720 2 958 400 2 064 9209 12 758,09 15 000 2 772,52 3 720 13 838 400 10 313 75510 13 869,62 16 000 3 884,05 4 720 22 278 400 18 332 692

    Somme 99 855,75 112 800 0 0 64 156 000 50 104 729Moyenne 9 985,57 11 280 0 0 6 415 600 5 010 472

    a1 =

    t=nt=1

    (xt x)(yt y)t=nt=1

    (xt x)2= 50 104 729

    64 156 000= 0,78

    a0 = y a1x = 9 985,57 0,78 11 280 = 1 176,08Ces estimations sont comparer aux valeurs vraies (respectivement 0,8 et 1 000),

    les diffrences importantes en ce qui concerne surtout le terme constant sont imputables lala dobservation qui perturbe lestimation des coefficients.

    C. Les diffrentes critures du modle :erreur et rsidu

    Le modle de rgression simple peut scrire sous deux formes selon quil sagitdu modle thorique spcifi par lconomiste ou du modle estim partir dunchantillon. Modle thorique spcifi par lconomiste avec t lerreur inconnue :

    yt = a0 + a1xt + t

    Modle estim partir dun chantillon dobservations :

    yt = a0 + a1xt + et = yt + et et = rsidu

    (Bien noter les chapeaux sur les a .)

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 21

  • Le rsidu observ et est donc la diffrence entre les valeurs observes de lavariable expliquer et les valeurs ajustes laide des estimations des coeffi-cients du modle ;ou encore :

    yt = a0 + a1xt

    D. Proprits des estimateursyt = a0 + a1xt + ty = a0 + a1x +

    [4][5]

    [4] [5] = yt y = a1(xt x) + (t )

    En remplaant dans la formule [1] de lestimateur a1, yt y par son expression,on obtient :

    a1 = a1 +

    t=nt=1

    (xt x)(t )t=nt=1

    (xt x)2= a1 +

    t=nt=1

    (xt x)tt=nt=1

    (xt x)2[6]

    car n

    t=1(xt x) =

    nt=1

    xt n x = nx nx = 0 avec x =

    nt=1

    xt

    n

    Les estimateurs sont-ils sans biais ?(Rappel : un estimateur est sans biais si E (a) = a.)

    a1 = a1 +

    t=nt=1

    (xt x)tt=nt=1

    (xt x)2[7]

    do : E (a1) = E(a1) +

    t=nt=1

    (xt x)E(t)t=nt=1

    (xt x)2

    Soit E (a1) = a1 car E(t) = 0De mme on dmontre que E (a0) = a0 .

    22 CONOMTRIE

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 22

  • y = a0 + a1xy = a0 + a1x +

    a0 = a0 + (a1 a1)x

    E (a0) = a0 + E() E((a1 a1)x) = a0car E (a1 a1) = 0 et E() = 0

    car E() est par hypothse nulle, E( n

    t=1t

    )= 0

    Les estimateurs sont sans biais.

    Les estimateurs sont-ils convergents ?Puisque les estimateurs sont sans biais, il suffit pour quils soient convergents

    que :Lim V (a1) 0 lorsque n o V (a1) est la variance de a1 .

    V (a1) = E {a1 E (a1)}2 = E (a1 a1)2 = E

    t=nt=1

    (xt x)tt=nt=1

    (xt x)2

    2 (daprs [7])

    V (a1) = E[(

    t

    wtt

    )2]= E

    [t

    w2t 2t + 2

    t

  • le nombre dobservations est important ; et/ou les valeurs de la variable explicative sont trs disperses autour de la

    moyenne.Une dmonstration analogue pour a0 conduit aux rsultats suivant :

    V (a0) = 2

    1

    n+ x

    2t

    (xt x)2

    [9]

    Lim V (a0) 0 lorsque n .Nous remarquons que :

    V (a0) = 2

    n+ x2V (a1) Cov(a0,a1) = xV (a1)

    Les estimateurs sont convergents.

    III. Consquences des hypothses :construction des tests

    A. Hypothse de normalit des erreursNous allons maintenant introduire de nouveau lhypothse qui est celle de lanormalit des erreurs (cf. exercice 1). Cette hypothse nest pas indispensableafin dobtenir des estimateurs convergents mais elle va nous permettre deconstruire des tests statistiques1 concernant la validit du modle estim.

    Soit t N (0, 2 )Le graphique 3 illustre cette hypothse sur la distribution des valeurs proje-

    tes sur la droite des moindres carrs.

    24 CONOMTRIE

    1. En effet, cette hypothse permet de dfinir la loi de probabilit des estimateurs.

    Graphique 3 Les erreurs suivent une loi normale

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 24

  • Le modle de rgression simple 25

    B. Consquences de lhypothse de normalit des erreursEn prliminaire, cherchons un estimateur de la variance de lerreur.

    Le rsidu est donn par :et = yt yt = yt a1xt a0

    Sans rien changer lexpression prcdente, nous pouvons crire :et = yt a1xt a0 a1x + a1x

    Ou encore : et = yt a1x a0 a1xt + a1xOr y = a1x + a0Do : et = yt y a1(xt x)En remplaant yt et y par leurs expressions [4] et [5], il vient :

    et = (a1 a1)(xt x) + (t )Nous obtenons en levant ce terme au carr et effectuant la somme sur les n

    observations :t

    e2t = (a1 a1)2

    t

    (xt x)2 +

    t

    (t )2 + 2(a1 a1)

    t

    (xt x)(t )

    Or daprs lexpression [6], nous avons :t

    (xt x)(t ) = (a1 a1)

    t

    (xt x)2

    que nous remplaons dans lexpression prcdente et aprs simplification :t

    e2t =

    t

    (t )2 (a1 a1)2

    t

    (xt x)2

    En prenant lesprance mathmatique de cette dernire expression :

    E[

    t

    e2t

    ]= E

    [t

    (t )2]

    E[(a1 a1)2]t

    (xt x)2

    Examinons les deux membres de cette quation.

    a) E[

    t

    (t )2]

    = E[

    t

    (2t 2t + 2)]

    = E[

    t

    2t 2

    t

    t +

    t

    2]

    = E[

    t

    2t 2n + n2]

    = E[

    t

    2t 2n2 + n2]

    = E[

    t

    2t n2]

    = E[

    t

    2t

    t

    t

    ]

    = E[

    t

    2t

    [t

    t

    ]2n

    ]=

    [t

    E(2t ) 1n

    E(

    t

    t

    )2]

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 25

  • Nous savons que : E[2t ] = 2E

    [t

    (t )2]

    = n 2

    1n

    E(1 + 2 + . . . + n

    )2Or, daprs lhypothse dindpendance des erreurs, les doubles produits

    sont donc tous nuls. Nous obtenons alors :

    E[

    t

    (t )2]

    = n 2

    1n

    n 2

    = n 2

    2

    b) E[(a1 a1)2]t

    (xt x)2 = 2En effet E

    [(a1 a1)2

    ] = 2t

    (xt x)2Do :

    E

    [t

    e2t

    ]= (n 1) 2

    2

    = (n 2) 2

    Lestimateur de la variance de lerreur ( 2 ) not 2 est donc gal :

    2

    = 1n 2

    t

    e2t [10]

    Ce qui nous permet de dfinir, en remplaant la variance des erreurs par sonestimateur dans les expressions [8] et [9], les estimateurs empiriques1 de lavariance de chacun des coefficients.

    2a1=

    2

    t

    (xt x)2

    2a0= 2

    1

    n+ x

    2t

    (xt x)2

    [11]

    Lhypothse de normalit des erreurs implique que :

    a1 a1a1

    et a0 a0

    a0

    suivent une loi normale centre rduite N(0, 1).

    26 CONOMTRIE

    1. Bien noter les chapeaux qui diffrencient les estimateurs thoriques (inconnus) des estima-tions empiriques (calculables).

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 26

  • Le modle de rgression simple 27

    nt=1

    e2t

    2

    = (n 2) 2

    2

    suit une loi du 2 (chi-deux) n 2 degrs de libert1 (somme au carr de n 2variables alatoires indpendantes normales centres rduites).

    Nous pouvons remarquer que (n 2) 2

    2= (n 2)

    2a

    2a=

    nt=1

    e2t

    2a

    t

    (xt x)2

    suit donc aussi une loi du 2 (chi-deux) n 2 degrs de libert.Il en rsulte que :

    a1 a1a1

    et a0 a0

    a0(lcart type thorique est remplac par lcart type

    empirique) suivent une loi de Student n 2 degrs de libert.

    En effet a1 a1a1

    =a1 a1

    a1(n 2)

    2a1

    2a1

    1(n 2)

    est le rapport dune loi normale

    centre rduite la racine carre dun chi-deux divis par son degr de libert.Il est donc possible maintenant de mettre en place des tests statistiques afin

    dapporter des rponses des problmes tels que : comparaison dun coefficient de rgression par rapport une valeur fixe ; comparaison de deux coefficients de rgression provenant de deux chan-

    tillons diffrents ; dtermination dun intervalle de confiance pour un coefficient.

    C. Test bilatral, test unilatral et probabilit critique dun test1) Test bilatral

    Soit tester, un seuil de 5 %, lhypothse H0 : a1 = 0 contre lhypothseH1 : a1 0.

    Nous savons que a1 a1

    a1suit une loi de Student n 2 degrs de libert.

    1. La notion de degr de libert correspond au nombre de valeurs restant rellement dispositionaprs une procdure destimaton statistique. Si un chantillon comprend 10 observations etquon dispose en plus de la moyenne de cet chantillon, on ne peut choisir librement les valeursque pour 9 de ces observations, la dixime se dduisant de la valeur de la moyenne. Dans lecas prsent, le modle de rgression simple, le nombre de degrs de libert est donc den 2car nous avons estim deux paramtres a0 et a1.

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 27

  • Sous H0 (a1 = 0) le ratio appel ratio de Student a1 0

    a1suit donc une loi de

    Student n 2 degrs de libert. Le test dhypothses bilatral consiste donc com-

    parer le ratio de Student empirique t = |a1|a1

    la valeur du t de Student lue dans la

    table n 2 degrs de libert1 et pour un seuil de probabilit gal 5 %, soit si n 2 > 30, t0,05 = 1,96 (la table 2. de Student en fin du livre est tabule pour les testsbilatraux). Si t* > t0,05 = 1,96, nous rejetons lhypothse H0 (cf. graphique 4), lecoefficient thorique et inconnu a1 est significativement diffrent de 0.

    28 CONOMTRIE

    1. Si le degr de libert est suprieur 30, la loi de Student peut tre approxime par une loi nor-male.

    Graphique 4 Test bilatral 5 %

    2) Test unilatral

    Soit tester, un seuil de 5 %, lhypothse H0 : a1 = 0 contre lhypothseH1 : a1 > 0 ou a1 < 0 selon que le coefficient estim soit positif ou ngatif.

    Le test dhypothses unilatral consiste donc comparer le ratio de Student

    empirique t = |a1|a1

    la valeur du t de Student lue dans la table n 2 degrs

    de libert et pour un seuil de probabilit gal 5 %, soit si n 2 > 30,t0,05 = 1,65 . Si t* > t0,05 = 1,65 nous rejetons lhypothse H0 (cf. graphique 5),le coefficient thorique et inconnu a1 est significativement diffrent de 0.Attention, la table de Student en fin du livre est tabule pour les tests bilatraux,il faut donc lire 10 % = 2 0,05.

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 28

  • Le modle de rgression simple 29

    Graphique 5 Test unilatral 5 % (H1 : a1 > 0)

    Remarque : si nous rejetons lhypothse H0 pour un test bilatral, alors nousrejetons forcment (pour un mme seuil de probabilit) lhypothse H0 pour untest unilatral.

    3) Probabilit critique dun test

    La probabilit critique risque de rejeter tort lhypothse H0 ou encorerisque de premire espce est donne par la valeur de la probabilit c telle que :

    tc

    n2 = t =a1

    a1, par la lecture sur une table de Student n 2 degrs de libert.

    La probabilit critique dun test unilatral peut directement se dduire de laprobabilit critique dun test bilatral par une simple division par 2 cunilatral = cbilatral/2 (opration inverse de celle de la lecture de la table).

    Exemple : Pour t = 2,53 et n 2 = 20, soit dterminer c tel quet

    c

    20 = 2,53. Par lecture de la table de Student 20 degrs de libert, nous trou-vons c = 2 % pour un test bilatral et donc 1 % pour un test unilatral.

    Test de coefficient et intervalle de confiance

    En reprenant les rsultats de lexercice 2, on demande de rpondre aux questionssuivantes.

    1) La propension marginale consommer est-elle significativement diffrente de 0 ?

    Exercice n 3

    fichier C2EX2

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 29

  • 2) Quel est lintervalle de confiance au seuil (ou niveau) de 95 % pour la propensionmarginale consommer ?

    Solution

    1) La propension marginale consommer est-elle significativement diffrente de 0 ?Cette question est trs importante en conomtrie. En effet, dans le cas dune rpon-

    se ngative le coefficient nest pas significativement diffrent de 0 la variable expli-cative Revenu ne sera pas considre comme tant explicative de la consommationpuisque son coefficient de pondration est nul.

    Il peut paratre tonnant de tester la diffrence par rapport zro et non pas seule-ment la positivit ou la ngativit du coefficient de rgression. En effet, il est commodede ne sinterroger que sur la contribution de la variable explicative, quelle soit positiveou ngative.

    Ce problme peut tre formul laide de la thorie des tests partir des deux hypo-thses suivantes :

    H0 : a1 = 0H1 : a1 = 0

    Si nous rejetons lhypothse H0, un seuil 1 fix, alors la propension marginale consommer est considre comme tant significativement diffrente de 0. Le seuil leplus communment employ est = 0,05, soit un risque de rejeter tort H0 de 5 %.

    Nous savons que :a1 a1

    a1suit une loi de Student n 2 degrs de libert.

    Sous lhypothse H0, cette relation devient :a1 0a1

    = a1a1

    = ta1 loi de Student n 2 degrs de libert.

    ta1 est appel le ratio de Student.

    Nous avons calcul a1 lors de lexercice 2, il convient donc de calculer a1 ; or,daprs [11],

    2a1 =

    2t

    (xt x)2, nous connaissons

    t

    (xt x)2 = 64 156 000

    (colonne 6 du tableau de calcul 3). Lestimateur de la variance de lerreur nous est donnpar [10] :

    2 =

    t

    e2t

    n 2 , o et est le rsidu de lestimation (et = yt yt )

    30 CONOMTRIE

    1. Le seuil est aussi appel risque de premire espce : cest la probabilit de rejeter lhypo-thse H0 bien quelle soit vraie.

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 30

  • Le modle de rgression simple 31

    Tableau 4 Calcul du rsidu destimation

    yt et e2t

    7 423,95 33,96 1 153,388 204,93 35,28 1 244,988 595,43 236,28 55 830,268 595,43 57,41 3 296,408 829,72 41,64 1 733,939 766,90 150,69 22 707,42

    10 547,88 45,57 2 076,3911 328,87 142,76 20 379,0812 890,83 132,74 17 620,1213 671,81 197,81 39 127,38

    Somme 0,00 165 169,30Moyenne 0,00 16 516,93

    1. Les petites diffrences constates sont dues des problmes darrondi.

    a) Calcul de yt et de etLa srie ajuste yt est calcule par application des estimations a0 et a1 :

    yt = a0 + a1 xtsoit y1 = a0 + a1 x1 e1 = y1 y1

    y1 = 1 176,08 + 0,78 8 000 = 7 423,95 1 e1 = 7 389,99 7 423,95 = 33,96y2 = 1 176,08 + 0,78 9 000 = 8 204,93 e2 = 8 169,65 8 204,93 = 35,28

    Les rsultats sont consigns dans le tableau 4. Nous remarquons bien quet

    et = 0 (proprit de la mthode des moindres carrs).

    b) Calcul de lestimation de la variance de lerreur et de lcart type du coefficientde rgression.

    Lestimation de la variance de lerreur est donc gale :

    2 =

    t

    e2t

    n 2 =165 169,3

    10 2 = 20 646,16ce qui nous permet de calculer la variance estime de a1 :

    2a1 = 2

    t

    (xt x)2= 20 646,16

    64 156 000= 0,000 321 8

    soit a1 = 0,017 9c) Calcul du ratio de Student et rgle de dcision.Nous savons que

    a1

    a1= t

    a1 est distribu selon une loi de Student n 2degrs de libert, la distribution dchantillonnage sous H0 est donc reprsente par legraphe 6.

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 31

  • La rgle de dcision pour un seuil est alors la suivante :

    On calcule le ratio empirique de Student ta1 =

    a1

    a1(rapport du coefficient sur son

    cart type) Si t

    a1 est infrieur t/2n2 ou suprieur +t/2n2 alors on rejette lhypothse H0(nous sommes dans la zone hachure H1), le coefficient a1 est alors significativementdiffrent de 0 (on accepte a1 = 0) ; la variable explicative Rt est donc contributive lexplication de la variable Ct.

    Si ta1 est compris dans lintervalle t/2n2, alors nous ne sommes pas en mesure de

    rejeter lhypothse H0 (donc on laccepte), le coefficient a1 nest pas significativementdiffrent de 0 (on accepte a1 = 0) ; la variable explicative Rt nest donc pas explicati-ve de la variable Ct.

    Il est plus simple de profiter de la symtrie de la loi de Student et donc de calculerla valeur absolue du ratio de Student et de la comparer directement la valeur lue dansla table.

    La rgle de dcision pour un seuil = 0,05 est alors la suivante : si t

    a1 =|a1|a1

    > t0,025n2 on rejette lhypothse H0, le coefficient a1 est alorssignificativement diffrent de 0 (on accepte a1 = 0 ) ; la variable explicative Rt est donccontributive lexplication de la variable Ct ;

    si ta1 =

    |a1|a1

    t0,025n2 on accepte lhypothse H0, le coefficient a1 nest doncpas significativement diffrent de 0 (on accepte a1 = 0 ) ; la variable explicative Rtnest donc pas contributive lexplication de Ct .

    Nous voyons limportance que revt ce test dans linvestigation conomtrique ; eneffet, il permet de tester la pertinence dune variable explicative qui figure dans unmodle et sa contribution lexplication du phnomne que lon cherche modliser.

    Dans notre exemple, nous calculons le ratio de Student :

    ta1 =

    |a1|a1

    = 0,780,017 9

    = 43,57 > t0,0258 = 2,306 1 a1 = 0

    La propension marginale consommer est donc significativement diffrente de 0,la variable Revenu est bien explicative de la variable Consommation.2) Dtermination dun intervalle de confiance, au seuil de 95 %, pour la propension

    marginale consommer.

    32 CONOMTRIE

    Graphique 6 Distribution dchantillonnage sous lhypothse H0

    1. Les tables statistiques sont en fin douvrage. Dans le cas dun test unilatral, il convient duti-liser une table correspondant ce type de test, cest--dire dont seule la partie de gauche esthachure. Dans le cas dun test bilatral, ce sont les tables dont les deux parties extrmes sonthachures. Bien entendu, cela nest vrai que pour les lois de probabilit symtriques.

    H1 t/2n2 + t/2n2 H0

    H1

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 32

  • Le modle de rgression simple 33

    Nous savons que :a1 a1

    a1suit une loi de Student n 2 degrs de libert, soit a1 a1

    a1= tn2 , lintervalle de

    confiance nous est donn (cf. graphe 4) par :a1 a1

    a1= t/2n2 a1 = a1 a1 t/2n2

    Application numrique pour un seuil = 0,95 :a1 = 0,78 2,306 0,0179

    Nous avons donc un risque de 5 % que le vritable coefficient a1 se trouve lextrieur de lintervalle [0,74 ; 0,82] ; nous constatons que 0 ne figure pas dans cet intervalle de confian-ce, ce qui est bien entendu cohrent avec la question prcdente.

    IV. quation et tableau danalyse de la variance

    A. quation danalyse de la varianceDmontrons les deux relations suivantes :

    t

    et = 0 : la somme des rsidus est nulle (la droite de rgression passepar le point moyen1).

    yt = a0 + a1xt + et

    t

    yt =

    t

    a0 + a1

    t

    xt +

    t

    et t

    yt na0 a1

    t

    xt =

    t

    et or a0 = y a1x , en divisant par n il apparat que t

    et = 0 .

    t

    yt =

    t

    yt , il y a galit entre la moyenne de la srie expliquer et la

    moyenne de la srie ajuste.yt yt = et

    t

    yt

    t

    yt =

    t

    et = 0 y = yDe ces deux relations nous pouvons en dduire lquation fondamentale

    danalyse de la variance :t

    (yt y)2 =

    t

    (yt y)2 +

    t

    e2t

    SCT = SC E +SC R[12]

    1. Cela nest vrai que pour les modles comportant un terme constant, ou bien, pour les modlessans terme constant, si les donnes sont centres sur leur moyenne.

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 33

  • La variabilit totale (SCT) est gale la variabilit explique (SCE) + lavariabilit des rsidus (SCR).

    Cette quation va nous permettre de juger de la qualit de lajustement dunmodle. En effet, plus la variance explique est proche de la variance totale,meilleur est lajustement du nuage de points par la droite des moindres carrs.Il est dusage de calculer le rapport :

    R2 =

    t

    (yt y)2t

    (yt y)2= 1

    t

    e2tt

    (yt y)2[13]

    R2 est appel le coefficient de dtermination, et R le coefficient de corrlationmultiple (dans le cas particulier du modle de rgression une seule variableexplicative, il est gal au coefficient de corrlation linaire simple entre x et y ).

    B. Tableau danalyse de la varianceLe tableau 5 prsente lanalyse de la variance pour un modle de rgression simple.

    34 CONOMTRIE

    Tableau 5 Analyse de la variance par une rgression simple

    Source Somme Degr Carrsde variation des carrs de libert moyens

    x SC E =

    t

    (yt y)2 1 SC E/1

    Rsidu SC R =

    t

    e2t n 2 SC R/(n 2)

    Total SCT =

    t

    (yt y)2 n 1

    Les degrs de libert correspondent au nombre de valeurs que nous pouvonschoisir arbitrairement (par exemple, pour la variabilit totale, connaissant n 1valeurs, nous pourrons en dduire la n-ime, puisque nous connaissons lamoyenne y ).

    Le test H0 : a1 = 0 est quivalent au test dhypothse1 H0 : SC E = 0 (lavariable explicative xt ne contribue pas lexplication du modle).

    Soit le test dhypothses H0 : SC E = 0 contre lhypothse H1 : SC E =/ 0.La statistique2 de ce test est donne par :

    1. Cela nest vrai que dans le cas du modle de rgression simple.2. Nous comparons la somme des carrs expliqus SCE la somme des carrs des rsidus SCRqui est reprsentative de la somme des carrs thoriquement la plus faible.

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 34

  • F =SC E

    ddlSC ESC R

    ddlSC R

    =

    t

    (yt y)2

    1t

    e2t

    (n 2)

    [14]

    Ou encore :

    F =SC E

    ddlSC ESC R

    ddlSC R

    =

    t

    (yt y)2

    1t

    e2t

    (n 2)

    =R2

    1(1 R2)(n 2)

    [15]

    La statistique F est le rapport de la somme des carrs expliqus par xt sur lasomme des carrs des rsidus, chacune de ces sommes tant divise par sondegr de libert respectif. Ainsi, si la variance explique est significativementsuprieure la variance rsiduelle, la variable xt est considre comme tant unevariable rellement explicative.

    F suit une statistique de Fisher 1 et n 2 degrs de libert. Si F > F1;n2nous rejetons au seuil lhypothse H0 dgalit des variances, la variable xt estsignificative ; dans le cas contraire, nous acceptons lhypothse dgalit desvariances, la variable xt nest pas explicative de la variable yt.

    En effet,(a1 a1

    )2 2 /

    t(xt x)2

    suit une loi du 2 (chi-deux) un degr de li-bert (carr dune variable alatoire normale centre rduite) et

    nt=1

    e2t

    2= (n 2)

    2

    2= (n 2)

    2ai

    2ai

    suit une loi du 2 (chi-deux) n 2 degrs delibert (somme au carr de n 2 variables alatoires indpendantes normalescentres rduites).

    En effectuant le rapport des deux chi-deux on obtient : F =(a1 a1)2

    t

    (xt x)2t

    e2t

    (n 2)

    ,

    soit sous H0 (a1 = 0) F =a21

    t

    (xt x)2t

    e2t

    (n 2)

    =SC E

    1SC R

    (n 2)suit une loi de Fisher 1

    Le modle de rgression simple 35

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 35

  • et n 2 degrs de libert (rapport de chi-deux diviss par leurs degrs delibert).En effet, nous avons SC E =

    t

    (yt y)2 = a21

    t

    (xt x)2 car

    yt y = a0 + a1xt a0 a1x = a1(xt x).Nous remarquons :

    F = (ta1)2 =(

    a1

    a1

    )2= a

    21

    2/

    t

    (xt x)2=

    a21

    t

    (xt x)2t

    e2t /(n 2)

    36 CONOMTRIE

    quivalence des tests et analyse de la varianceUn agronome cherche estimer la relation liant la production de mas yi au taux de

    bauxite xi se trouvant dans la terre en formalisant la relation :

    yi = a0 + a1 xi + i partir dune tude statistique portant sur 85 parcelles de terre, un conomtre lui

    fournit les rsultats suivants :yi = 132,80 1,1 xi + ei i = 1,. . . , 85

    (4,3) (10,2)() = ratio de Student

    ie2i = 6 234,32

    1) Montrer que tester lhypothse H0 : a1 = 0 revient tester lhypothse r = 0 , o rest le coefficient de corrlation linaire simple entre yi et xi ; le calculer.

    2) Construire le tableau danalyse de la variance et vrifier les rsultats obtenus en 1) partir du test de Fisher.

    3) Le coefficient a1 est-il significativement infrieur 1 ?

    Solution

    1) Les observations ne sont pas dates, le modle est spcifi en coupe instantane.Pour tester lhypothse H0 : a1 = 0 , nous comparons le ratio de Student empirique

    t = 10,2 la valeur critique t0,0583 = 1,96 1.

    Exercice n 4

    1. Le degr de libert de la loi de Student tant suprieur 30, il est licite de lapproximer parune loi normale, 1,96 est la valeur de la loi normale un seuil de 0,05 (test bilatral).

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 36

  • Le modle de rgression simple 37

    Puisque t est largement suprieur 1,96, nous rejetons lhypothse H0, a1 est doncsignificativement diffrent de 0. Le taux de bauxite est un facteur explicatif (ngatif) dela production de mas.

    Lcart type du coefficient a1 est gal : a1 = a1/t = 0,107.Montrons lquivalence de ce test avec H0 : r = 0 .Le coefficient de corrlation linaire simple est gal :

    r =

    i

    (xi x)(yi y)i

    (xi x)2

    i(yi y)2

    r2 =

    [i

    (xi x)(yi y)]2

    i

    (xi x)2

    i(yi y)2

    Or, daprs [1], nous savons que :

    a1 =

    i

    (xi x)(yi y)i

    (xi x)2 r2 =

    a1

    i(xi x)(yi y)i

    (yi y)2= SC E

    SCT= R2

    En effet :

    a1

    i(xi x)(yi y) = a1 a1

    i

    (xi x)2 = a21

    i(xi x)2

    =

    i(a1xi a1x)2 =

    i

    (yi a0 y + a0)2 =

    i(yi y)2 = SC E

    Pour le modle de rgression simple, nous avons galit entre le coefficient de dter-mination et le carr du coefficient de corrlation.

    Nous avons la relation :

    F = R2

    (1 R2)/(n 2) =r2

    (1 r2)/(n 2) = (t)2

    donc on en dduit :

    t = r

    (n 2)(1 r2)

    qui suit une loi de Student n 2 degrs de libert.

    Ceci permet de tester si la relation entre yi et xi est significative, ou encore si lecoefficient r est significativement diffrent de 0. Le calcul du coefficient de corrlationne pose alors plus de problme :

    t = 10,2 = r

    83(1 r2)

    r2 = 0,556 |r | = 0,745 1

    1. Nous savons que le coefficient r est en ralit ngatif puisque le coefficient de rgression a1est lui-mme ngatif.

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 37

  • 38 CONOMTRIE

    2) Pour construire le tableau danalyse de la variance, il nous faut connatre :SC E =

    i

    (yi y)2

    SC R =

    ie2i

    SCT =

    i(yi y)2

    Or, daprs [13], nous avons : R2 = 1

    i

    e2ii

    (yi y)2= 1 SC R

    SCT

    R2 = r2 = 0,556 , la connaissance de SC R =

    ie2i = 6 234,32 permet de dterminer

    SCT = 14 041,26 ainsi que, daprs [12], SC E = 7 806,94 . Nous pouvons mainte-nant construire le tableau 6 danalyse de la variance.

    Tableau 6 Analyse de la variance

    Source Somme Degr Carrsde variation des carrs de libert moyens

    xi SC E = 7 806,94 1 7 806,94Rsidu SC R = 6 234,32 85 2 75,11Total SCT = 14 041,26 85 1

    H0 H1

    a1 = 0 a1 = 0rx,y = 0 rx,y = 0

    SC E = 0 SC E = 0

    .F = SC E/1SC R/(n 2) =

    7 806,9475,11

    = 103,94 > F0,051,83 = 3,96

    Nous remarquons que F = (t)2.Dans le modle de rgression simple, il y a quivalence tester :

    Le premier test porte sur la pente de la droite de rgression, le deuxime test sur lecoefficient de corrlation entre x et y et, enfin, le troisime a pour but de juger si lasomme des carrs expliqus est significative, ces trois tests nanmoins rpondent lamme interrogation.3) Le coefficient a1 est-il significativement infrieur 1 ?

    La formulation des hypothses est la suivante :

    H0 : a1 = 1H1 : a1 < 1

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 38

  • Le modle de rgression simple 39

    Sous lhypothse H0, nous avons :

    |a1 a1|a1

    = |a1 (1)|a1

    = | 1,1 + 1|0,107 8

    = 0,92 < t0,05 = 1.651

    Nous acceptons lhypothse H0, a1 nest pas significativement diffrent de 1.Nous pouvons aussi rpondre cette question en vrifiant que la valeur 1 est compri-se dans lintervalle de confiance :

    a1 = a1 1,96 a1 a1 [ 1,31 ; 0,89]

    (Attention : t0,05 = 1,96 car le test est maintenant bilatral.)

    1. Valeur de la loi normale au seuil de 5 % ; en effet il sagit dun test unilatral.

    V. La prvision dans le modle de rgression simple

    Lorsque les coefficients du modle ont t estims, il est possible de cal-culer une prvision un horizon h .

    Soit le modle estim sur la priode t = 1,. . . , n : yt = a0 + a1 xt + et ,si la valeur de la variable explicative xt est connue en n + 1(xn+1) , la pr-vision est donne par : yn+1 = a0 + a1 xn+1 .

    Montrons que cette prvision est sans biais.Lerreur de prvision est gale : en+1 = yn+1 yn+1

    que lon peut crire : en+1 = (a0 + a1 xn+1 + n+1) (a0 + a1 xn+1)soit : en+1 = (a0 a0) + (a1 a1)xn+1 + n+1 . En se rfrant aux hypothsesdu modle, on a :

    E(en+1) = 0

    Une dmonstration analogue permet dobtenir E(en+h) = 0 .La prvision sans biais est donc obtenue par lapplication directe du

    modle de rgression estim. Cependant, dans la pratique, il nest que depeu dutilit de connatre la prvision si nous ne savons pas quel degr deconfiance nous pouvons lui accorder. Nous allons donc calculer la varian-ce de lerreur de prvision qui nous permet de dterminer un intervalle de

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 39

  • 40 CONOMTRIE

    confiance1 bornant la prvision. La variance de lerreur de prvision est donnepar :

    V (en+1) = V((a0 a0) + (a1 a1)xn+1 + n+1

    )Puisque la variable xn+1 est certaine et lerreur n+1 est non autocorrle avec lest cette expression peut scrire :

    V (en+1) = V (a0) + x2n+1V (a1) + 2xn+1Cov(a0,a1) + V (n+1)

    En remplaant les variances et la covariance des coefficients par leurs expres-sions daprs [9] et connaissant V (n+1) = 2 , nous obtenons :

    V (en+1) =(

    2

    n+ x2V (a1) + x2n+1V (a1) 2xn+1xV (a1) + 2

    )

    ou encore :

    V (en+1) = V (yn+1 yn+1) = 2

    1

    n+ (xn+1 x)

    2t

    (xt x)2+ 1

    [16]

    Nous pouvons observer que, dans cette formule, la variance de lerreur deprvision est fonction de lcart quadratique entre la variable exogne prvue etla moyenne de cette mme variable : plus la valeur prvue sloigne de cettemoyenne, plus le risque derreur est important. De mme, nous remarquons quela variance de lerreur de prvision est une fonction inverse de la variabilit dela srie explicative.

    Lhypothse de normalit de t permet alors de dterminer un intervalle (1 ) % pour la prvision :

    en+1 = yn+1 yn+1 N

    0, 2

    1

    n+ (xn+1 x)

    2t

    (xt x)2+ 1

    Soit a0 + a1xn+1 yn+1

    1n + (xn+1 x)2

    t

    (xt x)2+ 1

    tn2 (Student n 2 d.d.l.)

    yn+1 = yn+1 t/2n2 1n + (xn+1 x)

    2t

    (xt x)2+ 1 [17]

    1. Il est plus juste de parler dintervalle de prdiction.

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 40

  • Le modle de rgression simple 41

    Cas particulierLorsque nous utilisons le modle de rgression simple pour calculer une droitede tendance (moindres carrs sur le temps), le modle est spcifi ainsi :

    Tt = a0 + a1 t + et pour t = 1,. . . , nPour calculer la prvision lhorizon h , nous employons la formule dextra-

    polation :Tn+h = a0 + a1(n + h) , et lintervalle de prdiction se trouve alors sur deux bran-ches dhyperbole1 (n + h t)2 illustr par le graphique 7.

    1. Cest leffet trompette , le lecteur devinera pourquoi...

    Graphique 7 Intervalle de la prvision par extrapolation de tendance

    Prvision dans un modle de rgression simpleNous reprenons le modle consommation-revenu estim lors de lexercice 2 :

    yt = 1 176,08 + 0,78 xt + et(0,21) (43,53)

    n = 10() = t de Student

    1) Calculer le coefficient de dtermination et effectuer le test de Fisher permettant dedterminer si la rgression est globalement significative.

    Exercice n 5fichier C2EX2

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 41

  • 42 CONOMTRIE

    1. La distribution tant normale (loi continue), il est clair que la probabilit dapparition de cha-cune des valeurs de lintervalle nest pas identique. La valeur la plus probable se trouve aucentre de lintervalle.

    2) Quelle est la consquence sur la consommation de laugmentation du revenu de 8 % ?3) Pour les annes 11 et 12, on prvoit respectivement 16 800 et 17 000 dollars de reve-

    nu par habitant. Dterminer la prvision de consommation pour ces deux annesainsi que lintervalle de prdiction au seuil de 95 %.

    Solution

    1) Pour calculer le coefficient de dtermination, nous nous rfrons la relation [15] :

    F = R2

    (1 R2)/(n 2) =r2

    (1 r2)/(n 2) = (t)2 = 43,52

    Soit : r2 = 0,99, nous pouvons alors calculer le Fisher empirique :F = 1895,3 > F0,051,8 = 5,32 , la variable explicative est significative.2) Augmentation de 8 % du revenu.

    Nous avons :

    yt = a1 xt soit yt = 0,78 xt = 0,78 0,08 = 0,062 4

    La consommation augmente de 6,24 %, soit un peu moins que le revenu.3) Les prvisions sont calcules par lutilisation du modle estim.

    y11 = 1 176,08 + 0,78 x11 = 1 176,08 + 0,78 16 800= 14 280,08

    Lintervalle de prvision [17] peut alors tre calcul :

    y11 = y11 t/2n2 1n + (x11 x)

    2t

    (xt x)2+ 1

    avec :n = 10 = 143,69 (daprs lexercice 3)

    t

    (xt x)2 = 64 156 000 (daprs lexercice 3)x = 11 280 (daprs lexercice 2)

    t/2n2 = 2,306x11 = 16 800y11 = 14 280,08 2,306 180,32I C = [13 864,24 ; 14 695,91]

    La ralisation a 95 % de chance de se trouver lintrieur de cet intervalle1.De mme, pour lanne 12, nous obtenons :

    y12 = 1 176,08 + 0,78 x12 = 1 176,08 + 0,78 17 000= 14 436,08

    y12 = 14 436,08 2,306 182,32I C = [14 015,65 ; 14 856,51]

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 42

  • Le modle de rgression simple 43

    Comparaison de coefficients de rgressionUn conomiste spcialis en conomie du travail sintresse la relation liant la

    rmunration et la dure des tudes (thorie du capital humain). Pour ce faire, il dispo-se dun chantillon de 40 hommes et 25 femmes ayant le mme ge, dont il relve larmunration annuelle (yi ) , exprime en milliers deuros, et le nombre dannesdtudes (xi ) .

    Les estimations conomtriques conduisent aux rsultats suivants :Pour les hommes :

    yi = 18,60 + 1,8 xi + ei i = 1,. . . , 40 n1 = 40(9,3) (5,2)

    () = ratio de StudentR2 = 0,42

    Pour les femmes :yi = 14,50 + 0,7 xi + ei i = 1,. . . , 25 n2 = 25

    (12,8) (2,5)() = ratio de StudentR2 = 0,22

    1) Linfluence de la dure des tudes sur la rmunration vous semble-t-elle signifi-cative ?

    2) Existe-t-il une diffrence significative de limpact de la dure des tudes sur la rmu-nration des hommes et des femmes ?

    Solution1) Pour rpondre cette premire question, nous pouvons analyser soit les ratios de

    Student, soit le coefficient de dtermination.Le ratio de Student empirique de la variable annes dtudes est gal :Pour les hommes :

    tah =ah

    ah= 5,2 > t0,0538 = 1,96

    Pour les femmes :ta f =

    a fa f

    = 2,5 > t0,0523 = 2,06

    Les carts types sont :ah = 0,34 et a f = 0,28

    Les deux coefficients de rgression sont donc significativement diffrents de 0. Il est noter que, pour les femmes, le coefficient de pondration des annes dtudes est plus

    Exercice n 6

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 43

  • 44 CONOMTRIE

    1. Cette notion est importante : il sagit de dterminer le seuil de probabilit partir duquel onaccepte lhypothse H0. Plus ce seuil est faible, moins le risque de se tromper est important.

    faible et moins significatif que celui des hommes. Les probabilits critiques1 sont, pourles hommes, de c = 0,000 1 et de c = 0,02 pour les femmes (nous considrons lecoefficient comme non significativement diffrent de 0 au seuil de 2 %).

    Le test de Fisher men sur les coefficients de dtermination conduit aux mmesrsultats.2) Ce problme se ramne un test de diffrence de moyennes de variables alatoires

    normales indpendantes et de variances ingales.H0 : ah = af H0 : d = ah af = 0H1 : ah = af H1 : d = ah af = 0

    Le rapport (ah a f ) (ah af )

    aha fsuit une loi de Student n1 + n2 4 degrs de

    libert.

    Avec 2d = 2a f + 2ah et d = ah a f et sous lhypothse H0, le rapport scrit :

    dd

    = t = (1,8 0,7)0,342 + 0,282 = 2,49 > t

    0,0561 = 1,96

    Rappel : Var(a x1 + b x2) = a2Var(x1) + b2Var(x2) + 2abCov(x1,x2) o x1 et x2sont deux variables alatoires et a et b sont deux scalaires. Ici Cov(ah,a f ) = 0 car lesdeux rgressions sont indpendantes. Do Var(a f ah) = Var(a f ) + Var(ah) .

    Nous rejetons lhypothse H0, il existe une diffrence significative des coefficientsde rgression : la dure des tudes des femmes a moins dimpact sur la rmunrationque la dure des tudes des hommes (sur cet chantillon...)

    Nous pouvons dterminer la probabilit critique de ce test (probabilit partir delaquelle nous sommes amens accepter lhypothse H0). La lecture de la table deStudent 61 degrs de libert (sur la table ) indique une probabilit comprise entre0,01 et 0,02 (la valeur exacte dtermine par la fonction Excel loi.student est 0,0154). Le risque de se tromper en rejetant lhypothse H0 est donc de 1,54 % ;compte tenu de ce trs faible risque, nous rejetons lhypothse H0. Evidemment, plus laprobabilit critique est faible plus nous sommes conforts dans notre dcision.

    Exercice n 7Apprendre manipuler les formules

    Soit les rsultats dune estimation conomtrique :yt = 1,251 xt 32,95 + etn = 20R2 = 0,23 = 10,66

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 44

  • Le modle de rgression simple 45

    1) A partir des informations connues, on demande de retrouver les statistiques sui-vantes : la somme des carrs des rsidus (SCR), la somme des carrs totaux (SCT),la somme des carrs expliqus (SCE), la valeur de la statistique du Fisher empirique(F ) et lcart type du coefficient a1(a1) .

    2) Le coefficient de la variable x est-il significativement suprieur 1 ?

    Solution

    1) On sait que =

    SCRn 2 = 10,66 SCR = (10,66)

    2 18 = 2 045,44Nous pouvons calculer SCE et SCT laide du coefficient de dtermination.R2 = 0,23 = 1 SC R/SCT

    SCT = SC R/(1 R2) = 2045,44/(1 0,23) = 2 656,42Or SCT = SCE + SCR SCE = 610,98Nous pouvons calculer maintenant :

    F = R2

    (1 R2)/(n 2) =SC E

    SC R/(n 2) = 5,40 t = F = 2,32

    (dans le cas dun modle de rgression simple t2 = F ). Nous pouvons en dduirelcart type du coefficient : a1 = a1

    t= 1,251

    2,32= 0,54.

    2) On pose le test dhypothses :H0 : a1 = 1 contre lhypothse H1 : a1 > 1Sous H0, nous pouvons crire :

    ta1

    = a1 a1a1

    = 1,25 10,54

    = 0,46 < t0,0518 = 1,734 1 nous sommes donc dans lazone de lacceptation de H0, le coefficient a1 nest pas significativement suprieur 1.

    1. Attention, comme le test est unilatral et que la table de Student de cet ouvrage est tabule direc-tement pour /2 (cas le plus gnral dun test bilatral), il convient donc ici de lire sur la table un seuil de 0,10 = 2 0,05.

    Exercice n 8Apprendre utiliser les formules

    partir dun chantillon de 190 observations, on tudie la relation entre la variable expliquer yi et la variable explicative xi .

    laide des informations fournies ci-dessous reconstituez les huit valeurs man-quantes signales par VM1, ...VM8.

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 45

  • 46 CONOMTRIE

    On donne x = 3,447 et x = 38,416

    Solution

    VM1 : directement par a0 =a0

    ta0

    = 262,76

    VM2 : ta1 =

    F = 778,96 = 27,91

    VM3 : a1 =

    (xi x)2, or = 322,88 ;

    x =

    (xi x)2n 1 do

    1 (xi x)2 = (n 1) 2x = 189 (3,447)2 = 2245,66a1 =

    (xi x)2

    = 322,882245,66

    = 6,81

    do VM4 = VM3 VM2 = 190,15

    VM5 : on sait que F = R2/1

    (1 R2)/(n 2) =R2

    (1 R2)/188

    = 778,96 R2 = 778,96778,96 + 188 = 0,80

    VM6 : y = a0 + a1 x = 4364,928 + 190,15 38,416 = 2939,8

    VM7 : SCR =

    e2i , or 2 =

    e2i

    n 2do

    e2i = (n 2) 2 = 188 (322,88)2 = 19 599 280 .

    VM8 : R2 = SC ESCT

    = 1 SC RSCT

    SCT = SC R1 R2 = 98 986 262

    y =

    (yi y)2n 1 =

    SCTn 1 = 723,7

    Dependent Variable: YMethod: Least SquaresSample: 1 190Included observations: 190

    Variable Coefficient Std. Error t-Statistic Prob.

    C 4364.928 VM1 16.61141 0.0000X VM4 VM3 VM2 0.0000

    R-squared VM5 Mean dependent var VM6S.E. of regression 322.8850 S.D. dependent var VM8Sum squared resid VM7 F-statistic 778.9623

    1. Nous prenons ici la formule de lestimateur de lcart type calcul partir dun chantillon,donc nous divisons par n 1.

    9782100721511-Bourbo-C02.qxd 20/10/14 15:09 Page 46

  • 3. Le modle de rgression multiple

    L e modle linaire gnral est une extension du modle de rgres-sion simple abord au chapitre prcdent. Aprs avoir prsent lemodle linaire gnral (I), nous envisageons une procdure des-timation des paramtres en tudiant les proprits statistiques des esti-mateurs (II). Les diffrents tests dhypothses concernant les coefficientsdu modle sont proposs en (III), et la section (IV) est consacre lanaly-se de la variance ainsi quaux tests sy rattachant.En (V) nous prsentons une classe particulire de sries explicatives : lesvariables indicatrices, puis la prvision laide du modle linaire gn-ral fait lobjet de la section (VI).Enfin nous terminons ce chapitre par quelques exercices rcapitulatifs.

    I. Le modle linaire gnral

    A. PrsentationLors du chapitre prcdent, nous avons considr quune variable endogne estexplique laide dune seule variable exogne. Cependant, il est extrmementrare quun phnomne conomique ou social puisse tre apprhend par uneseule variable. Le modle linaire gnral est une gnralisation du modle dergression simple dans lequel figurent plusieurs variables explicatives :

    yt = a0 + a1 x1t + a2 x2t + . . . + ak xkt + t pour t = 1,. . . , n

    Le modle de rgression multiple 47

    9782100721511-Bourbo-C03.qxd 20/10/14 15:12 Page 47

  • avec :

    yt = variable expliquer la date t ;x1t = variable explicative 1 la date t ;x2t = variable explicative 2 la date t ;. . .

    xkt = variable explicative k la date t ;a0, a1,. . . , ak = paramtres du modle ;t = erreur de spcification (diffrence entre le modle vrai et le modle sp-

    cifi), cette erreur est inconnue et restera inconnue ;n = nombre dobservations.

    B. Forme matricielleLcriture prcdente du modle est dun maniement peu pratique. Afin denallger lcriture et de faciliter lexpression de certains rsultats, on a habituel-lement recours aux notations matricielles. En crivant le modle, observationpar observation, nous obtenons :

    y1 = a0 + a1 x11 + a2 x21 + . . . + ak xk1 + 1y2 = a0 + a1 x12 + a2 x22 + . . . + ak xk2 + 2. . .

    yt = a0 + a1 x1t + a2 x2t + . . . + ak xkt + t. . .

    yn = a0 + a1 x1n + a2 x2n + . . . + ak xkn + n

    Soit, sous forme matricielle : Y(n,1)

    = X(n,k+1)

    a(k+1,1)

    + (n,1)

    avec :

    Y =

    y1y2...

    yt...

    yn

    ; X =

    1 x11 x21 . . . xk11 x12 x22 . . . xk2...

    ...... . . .

    1 x1t x2t . . . xkt...

    ...... . . .

    1 x1n x2n . . . xkn

    ; a =

    a0a1a2...

    ak

    ; =

    12...

    t...

    n

    Nous remarquons la premire colonne de la matrice X , compose de 1, quicorrespond au coefficient a0 (coefficient du terme constant).

    La dimension de la matrice X est donc de n lignes et k + 1 colonnes (k tantle nombre de variables explicatives relles, cest--dire constante exclue).

    48 CONOMTRIE

    9782100721511-Bourbo-C03.qxd 20/10/14 15:12 Page 48

  • Lcriture sous forme matricielle rend plus aise la manipulation du modlelinaire gnral, cest pourquoi nous ladoptons par la suite.

    II. Estimation et propritsdes estimateurs

    A. Estimation des coefficients de rgressionSoit le modle sous forme matricielle k variables explicatives et n observa-tions :

    Y = Xa + [1]Afin destimer le vecteur a compos des coefficients a0, a1 . . . ak , nous appli-

    quons la mthode des Moindres Carrs Ordinaires (MCO) qui consiste mini-miser la somme des carrs des erreurs, soit :

    Minn

    t=12t = Min = Min (Y Xa)(Y Xa) = Min S [2]

    avec transpos1 du vecteur .Pour minimiser cette fonction par rapport a , nous diffrencions2 S par

    rapport a :

    Sa

    = 2 X Y + 2 X X a = 0 a = (X X)1 X Y [3]Cette solution est ralisable3 si la matrice carre X X de dimension

    (k + 1, k + 1) est inversible. La matrice X X est la matrice des produits croissdes variables explicatives ; en cas de colinarit parfaite entre deux variablesexplicatives, la matrice X X est singulire et la mthode des MCO dfaillante.