29
UNIVERSITE MOHAMMED PREMIER MATIERE : ÉCONOMÉTRIE FACULTE PLURIDISCIPLAINAIRE- NADOR SEMESTRE 6 DEPARTEMENT : ECONOMIE-GESTION ANNEE UNIVERSITAIRE : 2014-2015 [ COURS D’ÉCONOMÉTRIE [ Modèle linéaire simple Modèle linéaire multiple Professeur : ABBADI Abdelaziz

Cours économetrie

Embed Size (px)

DESCRIPTION

Cours économetrie

Citation preview

  • UNIVERSITE MOHAMMED PREMIER MATIERE : CONOMTRIEFACULTE PLURIDISCIPLAINAIRE- NADOR SEMESTRE 6DEPARTEMENT : ECONOMIE-GESTION ANNEE UNIVERSITAIRE : 2014-2015

    [ COURS DCONOMTRIE [

    UModle linaire simple

    UModle linaire multiple

    Professeur : ABBADI Abdelaziz

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    FPN 2

  • Table des matires

    1 Le modle linaire simple 51.1 Introduction lconomtrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 Le modle linaire simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.3 Prsentation du modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    1.3.1 Exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.3.2 Spcification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3.3 Rle du terme alatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3.4 Estimation des paramtres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.3.5 Mthode des moindres carrs ordinaires (MCO) . . . . . . . . . . . . . . . . . . . . . . . . 91.3.6 Proprits des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.3.7 Construction des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.3.8 quation et tableau danalyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . 131.3.9 La prvision dans le modle de rgression simple . . . . . . . . . . . . . . . . . . . . . . . 15

    2 Le modle linaire multiple 172.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2 La mthode des moindres carrs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    2.2.1 Les hypothses de la mthode des MCOs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2.2 Estimateurs des MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.2.3 Proprits des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    2.3 quation danalyse de la variance et qualit dun ajustement . . . . . . . . . . . . . . . . . . . . 192.4 Construction des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    2.4.1 Construction du tableau danalyse de la variance et test de signification globale dunergression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    3

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    FPN 4

  • Chapitre 1

    Le modle linaire simple

    1.1 Introduction lconomtrie

    Lconomtrie est le principal outil danalyse quantitative utilis par les conomistes et gestionnaires dansdivers domaines dapplication, comme la macroconomie, la finance ou le marketing.Les mthodes de lconomtrie permettent de vrifier lexistence de certaines relations entre desphnomnes conomiques, et de mesurer concrtement ces relations, sur la base dobservations de faitsrels.Dans son acception la plus restreinte, lconomtrie est un ensemble de techniques utilisant la statistiquemathmatique qui vrifient la validit empirique des relations supposes entre les phnomnesconomiques et mesurent les paramtres de ces relations. Au sens large, lconomtrie est lart deconstruire et destimer des modles empiriques adquats par rapport aux caractristiques de la ralit, etintelligibles au regard de la thorie conomique.

    1.2 Le modle linaire simple

    Nous commenons notre tude par le modle le plus simple : une variable endogne est explique par unevariable exogne. Aprs avoir tudi les consquences probabilistes de lerreur dobservation, nousprsentons :

    les formules de base permettant destimer les paramtres du modle

    les hypothses stochastiques et leurs consquences sont tudies

    la qualit de lestimation dun modle est examine laide des premiers tests statistiques (Student,Fisher)

    le modle de rgression simple est tudi en tant quoutil de prvision avec le degr de confianceque nous pouvons en attendre.

    1.3 Prsentation du modle

    1.3.1 Exemple introductif

    Admettons que nous constatons le fait conomique illustrer dans la figure suivante :On observe que les 2 courbes voluent pratiquement dans le mme sens : elles augmentent et diminuentsimultanment. On peut penser quil y a un lien entre ces 2 variables. On peut en effet penser que la

    5

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    consommation C des mnages est influence par le revenu disponible RD . Lorsque le revenu augmente, laconsommation saccrot.Soit la fonction de consommation keynsienne :

    C = a0+a1Y ,o C = consommation, Y = revenu, a1 = propension marginale consommer et a0 = consommationautonome ou incompressible.

    1.3.2 Spcification

    Nous pouvons distinguer deux types de spcifications :

    Les modles en srie temporelle, les variables reprsentent des phnomnes observs intervallesde temps rguliers, par exemple la consommation et le revenu annuel sur 20 ans pour un paysdonn. Le modle scrit alors :

    Ct = a0+a1Yt t = 1, . . . ,20,o Ct et Yt sont la consommation et le revenu au temps t .

    Les modles en coupe instantane, les variables reprsentent des phnomnes observs au mmeinstant mais concernant plusieurs individus, par exemple la consommation et le revenu observs surun chantillon de 20 pays. Le modle scrit alors :

    Ci = a0+a1Yi i = 1, . . . ,20,o Ci et Yi sont la consommation et le revenu du pays i pour une anne donne.

    1.3.3 Rle du terme alatoire

    Il existe une multitude de facteurs susceptibles dexpliquer la consommation. Cest pourquoi nousajoutons un terme (t ) qui synthtise lensemble de ces informations non explicites dans le modle :Ct = a0+a1Yt +t si le modle est spcifie en srie temporelle (Ci = a0+a1Yi +i si le modle est spcifieen coupe instantane).Le terme t reprsente lerreur de specification du modle, cest-a-dire lensemble des phnomnesexplicatifs de la consommation non lis au revenu. Il mesure la diffrence entre les valeurs rellementobserves de Ct et les valeurs qui auraient t observes si la relation spcifie avait t rigoureusementexacte.

    FPN 6

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    1.3.4 Estimation des paramtres

    Soit le modle suivant :yt = a0+a1xt +t t = 1, . . . ,n.

    Afin destimer et dtudier les deux paramtres inconnus a0 et a1, nous introduisons les hypothsessuivantes :

    H1 : Le modle est linaire en xt (ou en nimporte quelle transformation de xt ).

    H2 : Les valeurs xt sont observes sans erreur (xt non alatoires).

    H3 : E(t )= 0, t = 1, . . . ,n. H4 : E(2t )=2, t = 1, . . . ,n, la variance de lerreur est constante. H5 : t 6= t E(tt )= 0, les erreurs sont non corrles. H6 : Cov(xt ,t )= 0, t = 1, . . . ,n , lerreur est indpendante de la variable explicative.

    La reprsentation graphique ne donne quune impression de la corrlation entre deux variables sansdonner une ide prcise de lintensit de la liaison (voir 1.1), cest pourquoi nous calculons une statistiqueappele coefficient de corrlation linaire simple, not rx,y . Il est gal :

    r = rx,y = Cov(X ,Y )XY

    =n

    t=1(xt x)(yt y)nt=1(xt x)2

    nt=1(yt y)2

    Ce coefficient nest calcul que partir dun echantillon dobservations et non pas sur lensemble desvaleurs.

    On appelle x,y ce coefficient empirique qui est une estimation du vrai coefficient rx,y .Soit tester lhypothse H0 : rx,y = 0 , contre lhypothse H1 : rx,y 6= 0.Nous pouvons dmontrer que

    x,y12x,y

    n2

    Tn2

    Nous calculons alors une statistique, appel le t de Student empirique :

    t = |x,y |12x,y

    n2

    Si t > t/2n2 valeur lue dans une table de Student au seuil = 5% n2 degrs de libert, nous rejetonslhypothse H0, le coefficient de correlation est donc significativement different de 0.Dans le cas contraire, lhypothse dun coefficient de corrlation nul est accepte.

    Exemple 1.3.1 On relve 10 couples (x, y) de donnes consigns dans le tableau

    x 16 18 23 24 28 29 26 31 32 34

    y 20 24 28 22 32 28 32 36 41 41

    FPN 7

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    FIGURE 1.1 Corrlation entre deux variables

    1) Tracer le nuage de points et le commenter.2) Calculer le coefficient de correlation simple et tester sa signification par rapport 0 pour un seuil = 0,05.Rponses :1) Le nuage de points indique que les couples de valeurs sont approximativement aligns : les deux variablessemblent corrles positivement.

    2) Aprs calcul, on obtient x,y = 0,89.Le t de Student empirique est gal :

    t = |x,y |12x,y

    n2

    = 5,49> t 0,0258 = 2,306.

    Donc le coefficient de corrlation entre x et y est significativement diffrent de 0.

    FPN 8

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    1.3.5 Mthode des moindres carrs ordinaires (MCO)

    Le nuage de points peut sajuster laide dune droite (voir 1.2). Lestimateur des coefficients a0 et a1 estobtenu en minimisant la distance au carr entre chaque observation et la droite, do le nom destimateurdes moindres carrs ordinaires (MCO) :

    Mi nn

    t=12t =Mi n

    nt=1

    (yt a0a1xt

    )2 .La rsolution analytique est la suivante :

    a1 =n

    t=1(xt x)(yt y)nt=1(xt x)2

    =n

    t=1(xt yt )nx ynt=1(xt )2nx2

    a0 = y a1x

    1.3.6 Proprits des estimateurs

    Ecrivonsyt = a0+a1xt +t ,

    ety = a0+a1x+ ,

    FPN 9

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    FIGURE 1.2 Droite de rgression

    on obtient :

    a1 = a1+n

    t=1(xt x)tnt=1(xt x)2

    .

    On alors,

    E(a1)= E(a1)+n

    t=1(xt x)E(t )nt=1(xt x)2

    = E(a1)

    car E(t )= 0.De mme on dmontre que E(a0)= a0. Ce qui signifie que les estimateurs sont sans biais.Puisque les estimateurs sont sans biais, il suffit pour quils soient convergents que :

    limn+V (a1)= limn+V (a0)= 0.

    En effet :

    V (a1)= E (a1E(a1))2 = E (a1a1)2 = E[(n

    t=1(xt x)tnt=1(xt x)2

    )2]

    V (a1)= E[( n

    t=1tt

    )2]=

    nt=1

    2t E(2t )+2

    t

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    V (a1)=2n

    t=1(xt x)2n+ 0.

    Une dmonstration analogue pour a0 donne

    V (a0)=2(

    1

    n+ x

    2nt=1(xt x)2

    )n+ 0.

    Thorme de Gauss-Markov : Les estimateurs des MCO ont la plus petite variance parmi les estimateurslinaires sans biais. On dit que ce sont des estimateurs BLUE (Best Linear Unbiased Estimator).

    1.3.7 Construction des tests

    Nous allons maintenant introduire de nouveau lhypothse qui est celle de la normalis des erreurs. Cettehypothse nest pas indispensable afin dobtenir des estimateurs convergents mais elle va nous permettrede construire des tests statistiques concernant la validit du modle estim.Soit

    t N (0,2).

    Cette hypothse permet de dfinir la loi de probabilit des estimateurs.Lestimateur de la variance de lerreur not 2 est gal :

    2 =1

    n2n

    t=1e2t ,

    o le rsidu et est donn paret = yt yt , t = 1. . . ,n.

    Ce qui nous permet de dfinir les estimateurs empiriques de la variance de chacun des coefficients :

    2a1 =2n

    t=1(xt x)2

    2a0 = 2

    (1

    n+ x

    2nt=1(xt x)2

    ).

    Lhypothse de normalit des erreurs implique que :

    a1a1a1

    ,a0a0a0

    N (0,1)

    nt=1 e

    2t

    2= (n2)

    2

    2 2n2

    a1a1a1

    ,a0a0a0

    Tn2

    Il est donc possible maintenant de mettre en place des tests statistiques afin dapporter des rponses desproblmes tels que :

    comparaison dun coefficient de rgression par rapport une valeur fixe ;

    FPN 11

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    comparaison de deux coefficients de rgression provenant de deux chantillons diffrents ;

    dtermination dun intervalle de confiance pour un coefficient.

    1) Test bilatralSoit tester, un seuil de 5%, lhypothse H0 : a1 = 0 contre lhypothse H1 : a1 6= 0.Sous H0, on a

    a1a1a1

    = a10a1 suit une loi de Student n2 degrs de libert.Le test dhypotheses bilatral consiste donc comparer le ratio de Student empirique t = |a1|a1 la valeurdu t de Student lue dans la table n2 degrs de libert et pour un seuil de probabilit gal 5%.Si n2> 30, on a t 0.05 = 1.96.Si t > t 0.05 nous rejetons lhypothse H0 le coefficient thorique inconnu a1 est significativement diffrent de 0.2) Test unilatralSoit tester, un seuil de 5%, lhypothse H0 : a1 = 0 contre lhypothse H1 : a1 > 0 ou a1 < 0Sous H0, on a

    a1a1a1

    = a10a1 suit une loi de Student n2 degrs de libert.Le test dhypotheses unilatral consiste donc comparer le ratio de Student empirique t = |a1|a1 la valeurdu t de Student lue dans la table n2 degrs de libert et pour un seuil de probabilit gal 5%.Si n2> 30, on a t 0.05 = 1.65.Si t > t 0.05 nous rejetons lhypothse H0 le coefficient thorique inconnu a1 est significativement diffrent de 0.Remarque : Si nous rejetons lhypothse H0 pour un test bilatral, alors nous rejetons forcment (pour unmme seuil de probabilit) lhypothse H0 pour un test unilatral.

    Exemple 1.3.2 On sintresse la relation entre les bnfices raliss par les entreprises et le budget annuelquelles consacrent la publicit. 15 observations ont t ralises

    Budget 15 8 36 41 16 8 21 21 53 10 32 17 58 6 20Bnfices 48 43 77 89 50 40 56 62 100 47 71 58 102 35 60

    Rpondons aux questions suivantes

    1. Calculer les estimateurs a1, a0 et le coefficient de corrlation r

    2. Sachant que 2 = 10,155, procder lestimation des variances de a1 et a0.3. Dterminer au seuil de signification de 5%, un intervalle de confiance pour a1, a0 et 2.

    4. Peut-on affirmer que les coefficients a1 et a0 sont significativement diffrents de 0 pour 5% ?

    1. Aprs calculs, on obtient a1 = 1,28, a0 = 31,67 et r = 0,989.2. On a n = 15, x = 24,13,nt=1(xt x)2 = 15X = 3753,733 et 2 = 10,155, donc :

    2a1 =2n

    t=1(xt x)2= 0,0027,

    2a0 = 2

    (1

    n+ x

    2nt=1(xt x)2

    )= 2,252.

    3. Nous savons que a1a1a1 eta0a0a0

    suivent la loi de StudentTn2.Lintervalle de confiance pour a1 et a0 nous est donn respectivement par :

    a1a1a1

    =t/2n2 a1 = a1 a1 t/2n2

    FPN 12

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    a0a0a0

    =t/2n2 a0 = a0 a0 t/2n2

    Avec n2= 13 degre de libert et /2= 0,025, on a t/2n2 = 2,16 lu dans le tableau de Student.Donc, les intervalles de confiances pour a1 et a0 sont respectivement :

    [a1 a1 t/2n2; a1+ a1 t/2n2] = [1,166;1,391],

    [a0 a0 t/2n2; a0+ a0 t/2n2] = [28,432;34,916]

    Nous savons que (n2) 22 2n2.

    Lintervalle de confiance pour 2 est

    [(n2) 2

    21/2; (n2)

    2

    2/2

    ]

    Avec n2= 13 degre de libert et /2= 0,025, on a 2/2 = 5,01 et 21/2 = 24,74 lus dans le tableaude 2.Donc

    2 [5,336;26,35].

    4. On procde un test dhypotheses bilatral qui consiste donc comparer les ratio de Studentempiriques t = |a1|a1 = 24,63 ett = |a0|a0 = 21,10 la valeur du t

    /2n2 = 2,16 de Student lue dans la table n2 degrs de libert et pour

    un seuil de probabilit gal 5%.Puisque ces valeurs sont suprieurs en valeur absolu 2,16, alors les deux paramtres a1 et a0 sontsignificativement diffrents de 0.La variable exogne x contribue bien expliquer la variable endogne y .

    1.3.8 quation et tableau danalyse de la variance

    On peut dmontrer quen

    t=1et = 0,

    et par suite, on trouve lquation fondamentale danalyse de la variance :

    nt=1

    (yt y)2 =SC T

    =n

    t=1(yt y)2 =SC E

    +n

    t=1e2t

    =SC R

    .

    La variabilit totale (SCT) est gale la variabilit explique (SCE) + la variabilit des rsidus (SCR).Cette quation va nous permettre de juger de la qualit de lajustement dun modle.En effet, plus la variance explique est proche de la variance totale, meilleur est lajustement du nuage depoints par la droite des moindres carrs.Il est dusage de calculer le rapport :

    R2 = SC ESC T

    = 1 SC RSC T

    .

    FPN 13

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    R2 est appel le coefficient de dtermination, et R le coefficient de corrlation multiple (dans le casparticulier du modle de rgression une seule variable explicative, il est gal au coefficient de corrlationlinaire simple entre x et y ).

    Variation Somme des carrs Degr de libert Carrs moyens

    x SC E =nt=1(yt y)2 1 SC E1Rsidu SC R =nt=1 e2t n-2 SC Rn2Total SC T =nt=1(yt y)2 n1

    Le test H0 : a1 = 0 est quivalent au test dhypothse H0 : SC E = 0 (la variable explicative xt ne contribuepas lexplication du modle). La statistique de ce test est donne par :

    F =SC E

    ddlSC ESC R

    ddlSC R

    =R2

    11R2n2

    F suit une statistique de Fisher 1 et n2 degrs de libert.Si F > F1;n2 nous rejetons au seuil lhypothse H0 et donc la variable xt est significative.Dans le cas contraire, nous acceptons lhypothse dgalit des variances, donc la variable xt nest pasexplicative de la variable yt .

    Remarque 1.3.1 On peut montrer que

    (t)2 = F.

    Exemple 1.3.3 On sintresse la relation entre les tailles Xi en cm de cerains tiges matriaux et leur poidsYi en K g . 10 observations ont t ralises

    taille 150 175 200 225 250 275 300 325 350 375Poids 18 24 26 23 30 27 34 35 33 40

    Donner le tableau danalyse de la variance associ cette chantion. Faire un test de Fisher un seuil de 5%.Rponse : Nous commenons tout dabord de faire les calculs ncessaires qui sont rsums dant le tableausuivant :

    Xi Yi (Yi Y )2 Yi (Yi Y )2 (Yi Yi )2150 18 121 19.84 83.90 3.38175 24 25 21.87 50.83 4.53200 26 9 23.91 25.90 4.36225 23 36 25.95 9.30 8.70250 30 1 27.98 1.04 4.08275 27 4 30.02 1.04 9.12300 34 25 32.05 9.30 3.8325 35 36 34.09 25.90 0.82350 33 16 36.13 50.83 9.79375 40 121 38.16 83.90 3.38

    Total 394 341.94 51.96

    Traons maintenant le danalyse de la variance :

    Variation Somme des carrs Degr de libert Carrs moyens

    x SC E = 341.94 1 SC E1 = 341.94Rsidu SC R = 51.96 8 SC R8 = 6.5Total SC T = 394 9

    FPN 14

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    Soit le test dhypothse H0 : SC E = 0 contre H1 : SC E 6= 0.La statistique de ce test est donne par :

    F =SC E

    ddlSC ESC R

    ddlSC R

    = 341.946.5

    = 52.73.

    Puisque F1;n2 = F 0.051;8 = 5.32, alors F > F1;n2.Donc, nous rejetons au seuil lhypothse H0 et donc la variable explicative est significative.

    1.3.9 La prvision dans le modle de rgression simple

    Lorsque les coefficients du modle ont t estims, il est possible de calculer une prvision un horizon h.Soit le modle estim sur la priode t = 1, . . . ,n ;

    yt = a0+ a1xt +etSi la valeur de la variable explicative xt est connue en n+1 (xn+1), la prvision est donne par :

    yn+1 = a0+ a1xn+1Lerreur de prvision est gale :

    en+1 = yn+1 yn+1 = (a0 a0)+ (a1 a1)xn+1+n+1En se rfrant aux hypothses du modle, on a :

    E(en+1)= 0

    E(en+1)= 2(

    1

    n+ (xn+1x)

    2nt=1(xt x)2

    +1)

    .

    Lhypothse de normalit de t permet alors de determiner un intervalle (1)% pour la prvision :

    en+1 N(0, 2

    (1

    n+ (xn+1x)

    2nt=1(xt x)2

    +1))

    a0+ a1xn+1 yn+1

    (1n + (xn+1x)

    2nt=1(xtx)2 +1

    ) Tn2.On obtient alors lintervalle de prdiction :

    yn+1 = yn+1 t/2n22

    1

    n+ (xn+1x)

    2nt=1(xt x)2

    +1.

    Exemple 1.3.4 A partir de lexemple prcdent, dterminer au seuil 5%, un intervalle de confiance pour lepoids prvisible relatif une taille de 400cm dun tige.Rponse : On a lintervalle de prdiction IY40 est donn par :

    yn+1 = yn+1 t/2n22

    1

    n+ (xn+1x)

    2nt=1(xt x)2

    +1

    o xn+1 = 400, x = 262.5,nt=1(xt x)2 = 51562.5, yn+1 = 40.02, t/2n2 = t 0.0258 = 2.306, 2 = SC Rn2 = 6.5.Donc,

    IY40 = [21.86;58.17].

    FPN 15

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    FPN 16

  • Chapitre 2

    Le modle linaire multiple

    2.1 Introduction

    Le modle de rgression linaire multiple nest quune extension du modle de rgression linaire simpleau cas multivari dans lequel interviennent plusieurs variables exognes dans lexplication du phnomnetudi.On parle aussi de modle de rgression linaire gnral ou standard pour souligner que ce modle restevalable quel que soit le nombre dexognes qui sy figurent.Dans sa forme gnrale, il scrit de la sorte :

    yt = a0+a1x1t + +ak xkt +t , t = 1,2, . . . ,n.Afin den allger lcriture et de faciliter lexpression de certains rsultats, on a habituellement recours auxnotations matricielles.

    Y(n,1)

    = X(n,k+1)

    a(k+1,1)

    + (n,1)

    ,

    o

    Y =

    y1y2...

    yt...

    yn

    , X =

    1 x11 x21 xk11 x12 x22 xk2...

    ...... ...

    1 x1t x2t xkt...

    ...... ...

    1 x1n x2n xkn

    , a =

    a0a1a2...

    ak

    ,=

    12...t...n

    .

    2.2 La mthode des moindres carrs

    La mthode des moindres carrs cherche la meilleure estimation des paramtres a en minimisant la quantit :

    Mi nn

    t=12t =Mi n

    nt=1

    =Mi n (Y X a) (Y X a) .

    2.2.1 Les hypothses de la mthode des MCOs

    Hypothses probabilistes (hypothses stochastiques) :

    Les X sont observs sans erreur (non alatoires)

    E()= 0, en moyenne le modle est bien spcifi E(2)=2 la variance de lerreur est constante (homoscdasticit)

    17

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    i 6= j E(i , j )= 0 les erreurs sont non-corrles (non-autocorrlation des erreurs) Cov(, X )= 0, lerreur est indpendante des variables explicatives N (0,2)

    Hypothses structurelles :

    Rang (X X )= k+1 ; (X X )1 existe, ou encore det (X X ) 6= 0 (X X ) tend vers une matrice finie non singulire quand n + n > k+1, le nombre dobservations est suprieur au nombre de paramtres du modle (variables explicatives+ constante)

    2.2.2 Estimateurs des MCO

    La rsolution analytique par MCO est la suivante :

    a = (X X )1X Y

    Dune manire dvoloppe :

    yt

    x1t ytx2t yt

    ...

    ...xkt yt

    =

    n

    x1t

    x2t xkt

    x1t

    x21t

    x1t x2t x1t xktx2t

    x2t x1t

    x22t

    x2t xkt

    ......

    ... ...xkt

    xkt x1t

    xkt x2t

    x2kt

    a0a1a2...

    ak

    2.2.3 Proprits des estimateurs

    Ecrivons

    a = (X X )1X Y = (X X )1X (X a+)= a+ (X X )1X ,alors,

    E(a)= E(a)+E((X X )1X )= E(a)+ (X X )1X E()= E(a)car E()= 0.Ce qui signifie que les estimateurs sont sans biais.La matrice des variances et covariances des coefficients de rgression quon notea est donne par

    a =2(X X )1

    a =

    V ar (a0) Cov(a0, a1) Cov(a0, ak )

    Cov(a0, a1) V ar (a1) Cov(a1, ak )...

    ... ...Cov(ak , a0) Cov(ak , a1) V ar (ak )

    lima = lim2n

    (X X

    n

    )1= 0.

    Thorme de Gauss-Markov : Les estimateurs des MCO ont la plus petite variance parmi les estimateurs linairessans biais.Ce sont des estimateurs BLUE (Best Linear Unbiased Estimator).

    FPN 18

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    Aprs un calcul matriciel, il apparait que nous pouvons estimer sans biais 2 par :

    2 =ee

    nk1

    avec et = yt yt est le rsidu, cest--dire lcart entre la valeur observe de la variable expliquer et sa valeurestime (ajuste).En remplaant la variance de lerreur par son estimateur, nous obtenons :

    a = 2(X X )1

    2.3 quation danalyse de la variance et qualit dun ajustement

    Lquation fondamentale danalyse de la variance :

    nt=1

    (yt y)2 =SC T

    =n

    t=1(yt y)2 =SC E

    +n

    t=1e2t

    =SC R

    va nous permettre de juger de la qualit de lajustement dun modle ; en effet, plus la variance explique est prochede la variance totale, meilleur est lajustement global du modle. Cest pourquoi nous calculons le rapport

    R2 = SC ESC T

    = 1 SC RSC T

    appel le coefficient de dtermination, et R le coefficient de corrlation multiple. R2 mesure la proportion de lavariance de Y explique par la rgression de Y sur X .

    Exemple 2.3.1 Soit le modle yt = a0+a1x1t +a2x2t +a3x3t +t , o :

    t y x1 x2 x31 12 2 45 1212 14 1 43 1323 10 3 43 1544 16 3 47 1455 14 7 42 1296 19 8 41 1567 21 8 32 1328 19 5 33 1479 21 5 41 128

    10 16 8 38 16311 19 4 32 16112 21 9 31 17213 25 12 35 17414 21 7 29 180

    1. Mettre le modle sous forme matricielle en spcifiant bien les dimensions de chacune des matrices

    2. Estimer les paramtres du modle

    3. Calculer lestimation de la variance de lerreur ainsi que les carts types de chacun des coefficients.

    4. Calculer le coefficient de dtermination et commenter

    FPN 19

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    Rponses :1) Forme matricielle : Y = X a+, o

    Y =

    1214...

    10

    (14,1)

    , X =

    1 2 45 1211 1 43 1321 3 43 154...

    ......

    ...1 7 29 180

    (14,4)

    , a =

    a0a1a2a3

    (4,1)

    ,=

    12...14

    (14,1)

    .

    2) Estimation des paramtres : Nous savons que a = (X X )1X Y . Donc, on doit calculer X X puis (X X )1.

    X X =

    1 1 1 12 1 3 7

    45 43 43 29121 132 154 180

    1 2 45 1211 1 43 1321 3 43 154...

    ......

    ...1 7 29 180

    X X =

    14 85 532 209485 631 3126 13132

    532 3126 20666 786832094 13132 78683 317950

    (X X )1 =

    20,16864 0,015065 0,23145 0,076170,015065 0,013204 0,001194 0,000940,23145 0,001194 0,003635 0,0005750,07617 0,00094 0,000575 0,000401

    .On a

    X Y =

    1 1 1 12 1 3 7

    45 43 43 29121 132 154 180

    1214...

    10

    =

    24816229202

    37592

    Alors,

    a =

    20,16864 0,015065 0,23145 0,076170,015065 0,013204 0,001194 0,000940,23145 0,001194 0,003635 0,0005750,07617 0,00094 0,000575 0,000401

    24816229202

    37592

    a =

    a0a1a2a3

    =

    32,891320,8019000,381360,03713

    3) Calcul de et de a . On sait que

    2 =ee

    nk1 .

    Les composantes du rsidu e = Y Y = Y X a sont :

    et = yt (a0+a1x1t +a2x2t +a3x3t )

    et = yt 32,890,80x1t +0,38x2t +0,03x3t .Par exemple pour e1 :

    FPN 20

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    e1 = y132,890,80x11+0,38x21+0,03x31

    e1 = 1232,890,802+0,3845+0,03121=0,84Nous rsumons dans le tableau suivant lensemble des rsultats.

    t yt yt et e2t1 12 12,84 0,84 0,712 14 12,39 1,61 2,583 10 13,18 3,18 10,114 16 13,39 1,61 2,585 14 17,70 3,70 13,676 19 17,88 1,12 1,267 21 22,20 1,20 1,448 19 18,86 0,14 0,029 21 16,51 4,49 20,14

    10 16 18,76 2,76 7,6311 19 17,92 1,08 1,1712 21 21,90 0,90 0,8113 25 22,71 2,29 5,2714 21 20,76 0,24 0,06

    Somme 0 67,45

    On a

    2 =ee

    nk1 =14

    t=1 e2t

    1431 =67,45

    10= 6,745.

    a = 2(X X )1

    a = 6,745

    20,16864 0,015065 0,23145 0,076170,015065 0,013204 0,001194 0,000940,23145 0,001194 0,003635 0,0005750,07617 0,00094 0,000575 0,000401

    .Les variances des coefficients de rgression se trouvent sur la premire diagonale :

    2a0 = 6,74520,17= 136,04 a0 = 11,66,

    2a1 = 6,7450,013= 0,087 a1 = 0,29,

    2a2 = 6,7450,0036= 0,024 a2 = 0,15,

    2a3 = 6,7450,0004= 0,0026 a3 = 0,05.

    4) Le coefficient de dtermination R2 est

    R2 = SC ESC T

    = 1 SC RSC T

    = 114

    t=1 e2t14

    t=1(yt y)2.

    Nous avons ee =14t=1 e2t = 67,45 et14t=1(yt y)2 = 226,86, doncR2 = 1 67,45

    226,86= 0,702.

    Puisque R2 > 0,5 lajustement global du modle linaire est bon.

    FPN 21

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    2.4 Construction des tests

    Nous pouvons mettre en place un certain nombre de tests statistiques que nous allons expliciter.1) Comparaison dun paramtre ai une valeur fixe a

    H0 : ai = a, contre H1 : ai 6= a.

    Si tai > t/2nk1 nous rejetons lhypothse H0 et alors ai est significativement different de a (au seuil de ).

    Si tai t/2nk1 nous acceptons lhypothse H0 et alors ai est nest pas significativement different de a (auseuil de ).

    2) Comparaison dun ensemble de paramtres un ensemble de valeurs fixes :Nous cherchons tester simultanment lgalit dun sous-ensemble de coefficients de rgression des valeursfixes.

    H0 : aq = aq , contre H1 : aq 6= aq ,o q tant le nombre de coefficients retenus.Pour accepter H0, il suffit que :

    1

    q

    (aq aq

    )1aq(aq aq

    ) F(q,nk1).F(q,nk1) est loi de Fisher au seuil q et nk1 degrs de libert.3) Intervalle de confiance de la variance de lerreur :Lintervalle de confiance de la variance de lerreur permet de dterminer une fourchette de variation de lamplitudede lerreur.Pour un intervalle (1%), il est donn par :

    IC =[

    (nk1)221

    ;(nk1)2

    22

    ]

    avec 21 nk1 degrs de libert et /2 de probabilit dtre dpasse et22 nk1 degrs de libert et 1/2de probabilit dtre dpasse.

    Exemple 2.4.1 En reprenant les donnes du tableau de lexemple prcdent, on demande de rpondre aux questionssuivantes :

    1. Les variables explicatives sont-elles significativement contributives pour expliquer la variable endogne ?

    2. Le coefficient a1 est-il significativement infrieur 1 ?

    3. Les coefficients a1 et a2 sont-ils simultanment et significativement diffrents de 1 et 0,5 ?4. Quel est lintervalle de confiance pour la variance de lerreur ?

    (Les seuils choisis seront de 5%.)Rponses :1) Il convient de calculer les trois ratios de Student et de les comparer la valeur lue dans la table pour un seuil de 5% :

    ta1 =|a1|a1

    = 0,800,29

    = 2,75> 2,228= t 0,0510 a1 6= 0.

    Donc, la variable explicative x1 est contributive lexplication de y.

    ta2 =|a2|a2

    = |0,38|0,15

    = 2,53> t 0,0510 a2 6= 0,

    ta3 =|a3|a3

    = |0,03|0,05

    = 0,60< t 0,0510 a3 = 0.

    FPN 22

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    La variable x2 est explicative de y alors que la variable x3 nest pas contributive lexplication de y, il convient donc dela retirer de ce modle et de procder une nouvelle estimation.Nous aurions pu tout aussi bien rpondre cette question en calculant les intervalles de confiance de chacun descoefficients :

    ICa1 = [a1 a1 t/2nk1; a1+ a1 t/2nk1] = [0,14;1,45].

    De mme, nous obtenons :

    ICa2 = [0,71;0,04],

    ICa3 = [0,14;0,08].La valeur 0 nappartient pas lintervalle de confiance 95% de a1 et a2, donc ces deux coefficients sontsignificativement diffrents de 0 ; en revanche, 0 appartient lintervalle de confiance de a3, ce coefficient nest passignificativement diffrent de 0.2) Nous posons le test dhypothses unilatral suivant :

    H0 : a1 = 1, contre H1 : a1 < 1.

    Sous H0, nous avonsa1a1a1

    = 0,8010,29

    =0,68>1,81=t 0,110 =t 20,0510

    Acceptation de H0.3) Le test dhypothses est le suivant :

    H0 :

    (a1a2

    )=(

    10,5

    ), contre H1 :

    (a1a2

    )6=(

    10,5

    ).

    Calculons F = 1q(aq aq

    )1aq(aq aq

    ),

    o q = 2, aq =(

    0,800,38

    ), aq =

    (1

    0,5)

    et

    aq = 6,745.(

    0,013204 0,0011940,001194 0,003635

    )

    1aq =(

    11,57140 3,802133,80213 42,03506

    ).

    Donc,

    F = 12

    (0,81;3,8+0,5)(

    11,57140 3,802133,80213 42,03506

    )(0,81

    3,8+0,5)

    F = 0,612< 4,10= F(q,nk1)= F 0,052;10 .Et parsuite, on accepte lhypothse H0.Les donnes ne sont pas incompatibles avec la possibilit que les coefficients a1 et a2 soient simultanment etrespectivement gaux 1 et 0,5.4) Lintervalle de confiance de la variance de lerreur un seuil (1)%= 95% est calcule partir de la formule

    IC =[

    (nk1)221

    ;(nk1)2

    22

    ]=[

    106,74520,025

    ;106,74520,975

    ]

    pour 10 degrs de libert.Soit 3,302 20,75.La variance vraie (mais inconnue) 2 de lerreur 95% de chance de se situer dans cet intervalle.

    FPN 23

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    2.4.1 Construction du tableau danalyse de la variance et test de signification globale dunergression

    Dans cette section, nous allons nous interroger sur la signification globale du modle de rgression, cest--dire silensemble des variables explicatives a une influence sur la variable expliquer.Ce test peut tre formul de la manire suivante : existetil au moins une variable explicative significative ?Soit le test dhypothses :

    H0 : a1 = a2 = = ak = 0H1 : Il existe au moins ai 6= 0

    Le cas o lhypothse H0 est accepte signifie quil nexiste aucune relation linaire significative entre la variable expliquer et les variables explicatives (ou encore que la Somme des Carrs Expliqus nest pas significativementdiffrente de 0).Nous reprenons lquation fondamentale danalyse de la variance :

    nt=1

    (yt y)2 =SC T

    =n

    t=1(yt y)2 =SC E

    +n

    t=1e2t

    =SC R

    .

    Nous traons le tableau danalyse de la variance permettant deffectuer le test de Fisher. Soit

    F =n

    t=1(yt y)2/knt=1 e

    2t /(nk1)

    = R2/k

    (1R2)/(nk1)

    Variation SC DDL CM

    x1, . . . , xk SC E kSC E

    kRsidu SC R nk1 SC Rnk1Total SC T n1

    Lhypothese de normalite des erreurs implique que sous H0, F suit une loi de Fisher (rapport de deux chi-deux).Si F > F(k,nk1), nous rejetons H0 et le modle est globalement explicatif.

    Exemple 2.4.2 Tester la significativit globale du modle vu dans lexemple prcdent.Rponse :Le tableau danalyse de la variance permettant deffectuer le test de Fisher est :

    Variation SC DDL CM

    x1, x2, x3 SC E = 159,41 3 53,13Rsidu SC R = 67,45 10 6,745Total SC T = 226,86 13

    On a F = SC E/3SC R/10 = 7,87 et F 0,95(3;10) = 3,71.Puisque F > F 0,95(3;10), nous rejetons H0 et le modle est globalement explicatif.

    FPN 24

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    Tables Statistiques usuelles

    Loi Normale Centre Rduite

    FPN 25

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    Loi de Student

    FPN 26

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    Loi de 2

    FPN 27

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    Loi de Fisher

    FPN 28

  • SCIENCE ECONOMIQUE ET GESTION S 6 CONOMTRIE

    Loi de Fisher

    FPN 29

    Le modle linaire simpleIntroduction l'conomtrieLe modle linaire simplePrsentation du modleExemple introductifSpcificationRle du terme alatoireEstimation des paramtresMthode des moindres carrs ordinaires (MCO)Proprits des estimateursConstruction des testsquation et tableau d'analyse de la varianceLa prvision dans le modle de rgression simple

    Le modle linaire multipleIntroductionLa mthode des moindres carrsLes hypothses de la mthode des MCOsEstimateurs des MCOProprits des estimateurs

    quation d'analyse de la variance et qualit d'un ajustementConstruction des testsConstruction du tableau d'analyse de la variance et test de signification globale d'une rgression