Cours Analyse Donnees

Embed Size (px)

Citation preview

Plan du coursIntroduction gnrale : rappels fondamentaux sur la dmarch conomtrique Chapitre 1 : Le modle linaire deux variables et plusieurs variables Chapitre 2 : LAnalyse Factorielle des correspondances A.F.C Chapitre 3 : LAnalyse Composantes Principales A.C.P en

1

BIBLIOGRAPHIE JOHSSTON (J.), mthodes conomtriques, tome 1 et tome 2, Paris, 1985. PAULRE (B.), la causalit en conomie, collection des sciences des systmes, Lyon, 1985. SALVATORE (D.), conomtrie et statistiques appliques, New York, groupe Mc Graw-Hill, 1985. ARTUS (P.), modlisation macroconomique, Economica, Paris, 1986. BENZECRI (J.-P.), pratique de l'analyse des donnes, Dunod, Paris, 1986. GAGOU (A.), modlisation par la mthode de Box et Jenkins, thse de doctorat, universit d'Aix-Marseille, 1986. DORMONT (B.), introduction l'conomtrie des donnes de panels, Edition CNRS, Paris, 1989. CIRAUD (R.) et CHAIX (N.), conomtrie, Economica, Paris, 1989. MOUCHOT (C.), statistique et conomtrie, Economica, Paris, 1991. BATOLA (L.), statitiques et conomtrie, Masson, Paris, 1990.

2

INTRODUCTION Rappels sur la dmarch conomtrique - Les systmes conomiques sont souvent difficiles comprendre car ils font appel la science sociale. - Pour cerner cette ralit, les thoriciens ont tent de dterminer les lois qui les rgissent : construction et estimation d'un ensemble de modles qui peuvent apprhender et formaliser les liaisons, les interactions et les relations entre plusieurs variables. Exemple : formuler des quations entre des grandeurs conomiques. - Le rle des mathmatiques et des statistiques est donc primordial. - Exemple de grandeurs conomiques pour lesquelles on cherche comprendre le comportement et le fonctionnement : les agrgats macro-conomiques globaux (masse montaire, inflation, emploi, PNB, etc.), les secteurs d'une conomie donne (production automobile, aronautique, situation de la rcolt cralire, etc.). - Autres types de grandeurs : phnomnes sociaux, politiques (sondage d'opinion et campagne lectorale), personnels, etc. - Les thoriciens font ce genre de recherches dans un double objectif :3

prvoir la ralit conomique et sociale; * tester la porte et la validit des thories conomiques. 1- dfinition de l'conomtrie Branche qui traite des modles alatoires et de la dcision. Elle se base sur l'observation et la vrification chiffre (variable quantitative ou qualitative) pour expliquer la relation entre les grandeurs conomiques : vrifier l'existence de liaisons entre les agrgats, mais aussi et surtout, dtecter et prciser la forme correcte de ces liaisons. L'conomtrie est aussi la validation empirique des donnes thoriques. Etapes de la dmarche conomtrique : * proposer un certain nombre de modles rapprochs de la ralit par des thoriciens; * les soumettre des conomtres pour les mathmatiser; * le rejet ou le maintien des dits modles (pour des fins de prvisions) dpend d'une panoplie de tests statistiques et conomtriques.4

*

La dmarche conomtrique peut se schmatiser ainsi Hypothses sur les variables Modle thorique propos Traitement conomtrique Acceptation ou rejet du modle

Observations chiffres 2- Concepts et terminologie - Economtrie : expliquer des phnomnes conomiques par plusieurs autres variables. - Selon la thorie conomique, la relation existant entre plusieurs variables est de la forme : Yt = f(xt, zt,..), exemple : I = f(E, R, Ex, L, etc.). * Avec, I : le niveau de l'investissement; * E : l'pargne; * R : le revenu;5

* Ex : l'exportation; * L : la lgislation en vigueur. - Ncessit d'intervenir le facteur temps : modles dynamiques. Exemple, pour les variables C et R, on peut dire que la Ct = f(Rt), surtout court terme. - Ce type de formulation, Yt = f(Xt) n'explique pas rellement la nature de la relation entre les deux variables X et Y. Donc : faire intervenir d'autres types de variables ct de Xt. - La relation entre les phnomnes expliquer et explicatifs est dans la quasitotalit des cas de type linaire : yt= a + bxt ou du type exponentielle multiplicatrice, qui peut devenir linaire en utilisant le logarithme : Si yt = xat* zbt, alors log yt= c + a log xt + b log zt. - La relation entre les variables expliquer et explicatives n'est pas stricte, mais plutt stochastique (alatoire). - Un terme rsiduel sera toujours prvu pour faire face aux variables non dclares. Donc: yt = f(x1t, x2t, x3t, x4t,.xnt+ t) yt = a1x1t+ a2x2t+ a3x3t+ a4x4t++anxnt+ t

6

Terminologie Variable y- variable explique - variable endogne - variable dtermine - variable dpendante variable variable variable variable

Variable xexplicative exogne prdtermine indpendante

- pondrations Priode - coefficients de d'observation rgression fixe

a2

t

- terme rsiduel - rsidu - bruit - perturbations

REMARQUES : Ces modles linaires qui cherchent apprhender les relations entre variables sont dits des modles de rgression. - rgression simple : si l'on cherche expliquer une seule variable. Exemple : Ct = a + bRt + t; - rgression multiple si plusieurs variables interviennent en mme temps pour7

expliquer un phnomne. Exemple : Et = a + bEt + cPEt + dPPt + eSGt + t .E : environnement international; .PE : politique conomique; .PP : pouvoir publics; .SGE : situation gographique. Le terme (erreur) intervient pour

rsumer l'impact de toutes les autres variables qui sont omises. Celui-ci dpend de : .l'erreur d'observation sur les variables X et Y; .la priode d'observation. puisque l'objectif de toute tude conomtrique est d'laborer des modles efficients servant de prvision fiables, on peut aussi travailler sur des variables retardes (yt-1, t-1, x1t-1).

8

CHAPITRE I : LE MODELE LINEAIRE A DEUX ET A PLUSIEURS VARIABLES I Concepts de base du modle linaire gnral - La reprsentation graphique de la distribution des ouvriers, par exemple selon l'age et le salaire met en relief l'existence d'une liaison statistique entre ces variables. Pour prciser la forme de cette liaison, on trace et on dtermine la courbe de rgression. Mais pour mesurer son intensit, il faut calculer le rapport de corrlation (matrice de corrlation). A/ Ecriture du modle conomtrique linaire - Considrons (n+1) variables dans le temps, l'une note y et les autres xi (i = 1, 2,..,n). Ces grandeurs peuvent tre des vnements, des9

indicateurs conomiques, sociaux, etc. - Ces (n+1) variables sont gnralement mesures pendant t priodes (souvent l'anne) et on dispose, de ce fait de t observations de ces valeurs. - Supposons qu' travers l'histoire, une analyse thorique passe a fait tablir une relation causale et linaire entre les valeurs des xi et celles de y pour chaque priode :yt = a1x1t+ a2x2t+ a3x3t+ a4x4t++anxnt+ (rgression simple ou b+t multiple) = aixit + b+t - Ce modle une seule quation et plusieurs variables comporte ncessairement un rgressant (y) et n rgresseurs. - Ce modle s'appelle aussi rgression linaire de y en x1, x2, xn, les paramtres (coefficients) ai (i = 1, 2,..,n) sont nommes coefficients de rgression de y en xi.10

- Le terme rsiduel t (choisi d'une manire alatoire) peut tre interprt de la faon suivante : * l'chelle de l'interprtation va nous reprsenter conomique, t l'ensemble des raisons pour lesquelles la formule yt= aixit + b+ n'est pas assure de faon stricte et srieuse. Ces motifs peuvent tre par exemple: la non linarit stricte de la relation; l'influence de l'impact sur y des variables autres que xi; les erreurs commises lors de la mesure des grandeurs yt et xit. - La prise en compte de tous ces facteurs nous permet de dire que ces modles conomtriques se basent beaucoup plus sur l'approche de l'approximation. Mais, la relation linaire ne pourra tre accepte que si les termes rsiduels t sont suffisamment petits. - Les coefficients ai et b sont dits les vraies valeurs des paramtres du modle. - Ces vritables valeurs seront toujours (comme les rsidus) inconnues : il s'agit pour la dmarche conomtrique de fournir des estimations rigoureuses pour ces coefficients.11

- La variable explique et les variables explicatives sont observes t fois. La meilleure faon qui permet de visualiser toutes ces observations est l'criture matricielle : y1 . . . yi . . . yt X11.xn1 . . . x1i.xni . * . . x1txnt a1 . . . aj . . . an e1 . . . ei . . . en

=

+

Cela pourra s'crire encore:

Y = X * A+ e REMARQUES1- La relation entre les variables du modle conomtrique est dnomme corrlation; celle-ci peut, parfois, entraner un effet de causalit : en effet, partir du moment o l'on suppose que la connaissance des variables xi gnre celle de y, on peut12

construire un modle causal : {xi} y; le modle fourni dtermine y; 2- Le terme constant b est, dans la majorit des cas, diffrent des ai : sa signification conomique est faible, mais sa flexibilit (variabilit) est grande; 3- Le modle suppos doit tre formul partir d'hypothses thoriques liant les variables tudies, et c'est, d'ailleurs, la qualit de l'estimation obtenue qui confirmera ou infirmera ces hypothses; 4- Le modle linaire peut tre de deux ou plusieurs variables, d'une ou de plusieurs quations.

II L'estimation du coefficient de rgression a et b : le principe de l'ajustement linaire par la mthode des moindres carrs ordinaires Les paramtres de rgression et la constante ne peuvent tre qu'estims pour donner l'image la plus fidle que possible de la ralit.13

Supposons qu'une relation entre la consommation (rgressant) et le revenu (rgresseur) est de la sorte : yt = xt + + t. graphiquement, on notera : Y (c)

- il faut essayer d'ajuster et de tracer une droite qui soit proche de tous ces points. C'est--dire minimiser les carts entre les points de nuages et la droite trace. Celle-ci est la droite de rgression : il faut dterminer la meilleure.

14

Y

- c'est la mthode des ordinaires (MCO) qui minimiser les carrs des la droite d'ajustement ou

moindres carrs nous permet de carts (distance) de rgression.

Expos de la mthode des MCOyt = xt + + t yt = xt + sera alors le modle estimateur de yt et seront donc, les estimateurs de et , il s'agit alors de calculer et . - considrons la droite d'quation :

15

yt = xt + + t. Calculons la valeur des carts des points observs la droite, mesurs paralllement l'axe des ordonnes : t = yt - - xt La somme de ces carts est gale : S = t = (yt - - xt)2 Y

- La droite des moindres carrs correspond aux valeurs des coefficients et qui

rendent minimum la quantit (S). Ce minimum est obtenu en galant zro les drives partielles de S par rapport et . Il faut, tout d'abord,16

rechercher pour un fix, la valeur de qui rend S minimale.

connues; H2- E(t) = 0. Cela veut dire que chaque perturbation a une esprance mathmatique nulle. Autrement dit, elle est centre l'origine. Si alors les rsidus ne sont pas centrs l'origine, cela pourrait provenir de l'omission d'une ou plusieurs variables explicatives;

Les hypothses de la mthode des MCO H1- Les variables xt sont, l'inverse des t non alatoires; elles sont donc

H3- V(et)= 2et= constante. Cela veut dire que les carts (erreurs) yt yt qui correspond et ne doivent pas disparatre dans le temps. H4- La normalit des rsidus. Ainsi, la population doit tre suffisante pour que les rsidus puissent suivre une loi normale de paramtre 0 et 2 :2 N(m, )17

N(0, 2et).

perturbations ont mme variance, elles se dispersent toutes de manire gale autour de leur valeur moyenne. Donc, on dit qu'elles sont homoscdastiques. En effet, la condition de non corrlation des rsidus est matrialise par : Cov (et, ej) = 0 et ce i j | i, j = 1,..,n H6- La matrice X est certaine. Cela veut dire que les observations ralises sur les variables explicatives le sont sans erreur. Cela se justifie surtout pour le modle linaire K variables (rgression multiple).

H5- Les rsidus sont non corrls entre eux. C'est la proprit d'homoscdasticit des perturbations. Ainsi, E(e2t) = 2 et ce t = 1, 2,n. Les

Calcul des estimateurs

- Nous avons yt = 0 + xt + t (t = 1,..,n). - Il s'agit d'estimer 0 et . - En gnral, on ne peut pas trouver exactement les valeurs des paramtres 0 et qui restent toujours des inconnus. - On peut noter aussi qu'il y a toujours une diffrence entre 0 et et leurs estimateurs 0 et . Nous avons alors : yt = 0 + xt18

- Il y a une diffrence entre yt et yt. diffrence que l'on appelle rsidu, et que l'on peut dsigner par et. - Nous pouvons, donc, crire :

valeurs relles de l'chantillon (mais que l'on cherche estimer). Pour n priodes, la relation (1) sera : (y1 - 0 x1) = e1 (y2 - 0 x2)= e2. . . . . . . .

yt yt = et, ou : (1) yt - 0 - xt = et, ou : yt = 0 + xt + et Il faut remarquer que yt et xt sont ici des

(yn - 0 xn) = enLa mthode des moindres carrs ordinaires consiste trouver les valeurs de 0 et telles que la somme des valeurs absolues des rsidus soit minimale. Un rsidu gal + 2 est trait sur le mme pied d'galit qu'in rsidu gal 2. Si on appelle cette somme des rsidus, on aura les dtails suivants :19

=

cela sera gal aussi : (y1 - 0 x1)2 + (y2 - 0 x2)2 + + (yn - 0 xn)2 Dans ce cas, yt et xt sont des valeurs de l'chantillon et sont connues. 0 et sont des inconnus qu'il faut calculer.

e21 + e22 + e23+ + e2n

Nous savons que la valeur devient minimale si l'on peut raliser deux principales conditions :

- drives premires de par rapport 0 et sont toutes deux nulles (condition du premier ordre); - drive seconde par rapport est positive (condition du second ordre).

Aprs dmonstration et calculs, on aura :

20

= y xEt : Donc :

0

( yt y)( xt x) = ( xt x)2

Et :

( yt y)( xt x) = y x 0 ( xt x)2

21

Illustration (voir exercice n7 de la srie d'exercices n1) - Premier cas : rgresser y par rapport x1.

Coefficient de corrlation linaire simple :

Yt = a0 + a1x1 + t

cov( x , y) 1 r = x1y * y x1 cov( x , y) =1n( x x)( y y) i i 1 2 = 1n( x x) x1 i 2 y = 1n( y y) i

22

Tableau des calculs

x = 6.07 y =17.71Observations 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Total yt 12 14 10 16 14 19 21 19 21 16 19 21 25 21 248 xt 2 1 3 6 7 8 8 5 5 8 4 9 12 7 85 (xt-x)2 16.56 25.70 9.42 0 0.86 3.72 3.72 1.14 1.14 3.72 4.28 8.58 35.16 0.86 113.72 (yt-y)2 32.60 13.76 59.44 2.92 13.76 1.66 10.82 1.66 10.82 2.92 1.66 10.82 53.14 10.82 226.8 (xt-x)( yt-y) 23.24 18.81 23.67 0 -3.45 2.49 6.35 -1.38 -3.52 -3.30 -2.67 9.64 43.23 3.06 116.17

Estimer les paramtres a0 et a1 :

( yt y)( xt x) a= 1 ( xt x)223

=116.17 =1.02 113.72 a = y a x 0 1 a =17.71 (1.02*6.07) 0 =11.52Donc :

ou :

Yt = 11.52 + 1.02x1 + tde corrlation

Calculer le coefficient linaire simple :

Yt = 11.52 + 1.02x1

cov( x , y) 1 r = x y x1y 1 1 1 = 14(116.17) * 1 1 14(113.72) 14(226.8)= 0.72 = 72% coefficient de dtermination; r2 = (0.72)2 = 0.52 = 52%24

Autre manire pour calculer r2(R2)

On a :

( yt y) R2 = r 2 = ( yt y)2 t 2 =1 ( y y) 2 t

y =11,52 +1,02 x t 1t

25

t1 2 3 4 5 6 7 8 9 10 11 12 13 14 total

yt12 14 10 16 14 19 21 19 21 16 19 21 25 21

yt13.56 12.54 14.58 17.64 18.66 19.68 19.68 16.62 16.62 19.68 15.60 20.7 23.76 18.66

t 2 = et 22.43 2.13 20.98 2.69 21.72 0.46 1.74 5.66 19.18 13.54 11.56 0.09 1.54 5.48 111.20

et 1.56 1.46 4.58 1.64 4.66 0.68 1.32 2.38 4.38 3.68 3.40 0.30 1.24 2.34 00.00

26

111,21 R =1 226,8 = 0.52 = 52%Effectuer le test de Student permettant de se prononcer sur la participation de x1 l'explication du modle : Soit Ho =a1=0 Le seuil de signification le plus utilis est =0,05, soit un risque de rejet tort de H0 de 5%.

2

X m = a1 a1 a1 a a 1 1 suit une loi de Student n 2 DL a1Sous l'hypothse H0, cette relation devient :

27

a 0 a 1 = 1 = t loi de Student n 2 DL. 1 a a1 a1 t est appel ratio de Student a1Nous avons dj calcul a1, il convient, prsent, de calculer a1. Or, nous avons dj soulign que :

2 ou v(a ) = a1 1

2

( x x) 2 t

Nous avons : ( xt x)2 =113,72 tNous savons aussi que l'estimation de la variance de l'erreur (2), note 2 est gale :

2 = 1 et 2 n2

e 2 2 = t n2 o et est le rsidu de l 'estimation (et = yt yt )

28

A/ Calcul de yt et de et (voir tableau de la question prcdente)

yt = a + a xt 0 1 soit et = yt y t e =y y 1 1 1 e =y y 2 2 2 etc....

D'aprs le tableau 2 de la question prcdente, on obtiendra et =0 et2 = 111,20 et et2/14, c'est dire la somme moyenne ou encore et2 = 7,94 B/ Calcul de l'estimation de la variance de l'erreur et de l'cart-type du coefficient de rgression L'estimation de la variance de l'erreur est donc gale :

2 et 2 = = 111.2 = 9.27 n 2 14 2

Ce qui nous permet de calculer la variance estime de a1 :29

= 9.27 = 0.08 a1 2 113.72 ( x x) t soit = 0.28551 a1 =

2

2

C/ Calcul du ratio de Student et rgle de dcision Nous savons que

est distribue selon une loi de Student n-2 DL. La rgle de dcision pour un seuil = 0,05 est la suivant :

t = t at at

a

si t = at

a

1 >t

On rejette l'hypothse H0; le coefficient est alors significativement diffrent de 0 (on accepte a10); la variable explicative x1 est donc contributive l'explication de la variable y.30

at

c n2

0.025

si par contre : t = 1 < t at c n2 at on accepte l 'hypothse H . 0

a

0.025

Le coefficient a1 n'est, donc, pas significativement diffrent de 0 (on accepte a1= 0), la variable explicative x1, n'est donc pas contributive l'explication de y. Dans notre exercice, on a :

et

t = 1 = 1.02 = 3.57 a1 1.28551 a1 0.025 t =t n2 2 c 14 2 cc 12 0.025 = 2.179

a

=t

On voit trs bien que t>au tc, donc on rejette H0. Donc a1 est bien 0. X1 contribue l'explication de y. Effectuer le test de Fisher permettant de dterminer si la rgression est globalement significative31

Nous savons que : Fc = R2/n-1

F c =

k 1 (1 R 2 ) (t k )

R2

k= nombre de rgresseurs t= nombre d'observations dans notre exercice :

F c =

k 1 (1 R 2 ) (t 2)

R2

si Fc>F0.05t k-t, t-k (DL), nous rejetons l'hypothse H0 qui signifie que a1= a2= a3=.= ak= 0 si, par contre, Fc Ft, on rejette l'hypothse H0, c--d: les variables xt sont rellement explicatives; Si F < Ft, on accepte l'hypothse H0 au seuil de signification %. C--d : toutes les variables xt ne sont pas rellement explicatives.47

k 1 et Ft = F (k 1, t k ) DL 1 R2 t k

R2

REMARQUELes degrs de libert correspondent au nombre de valeurs que nous pouvons choisir arbitrairement (exemple : pour la variabilit totale, connaissant t-1 valeurs, nous pouvons en dduire la tme puisque nous connaissons la moyenne y ).

B- Le Test d'valuation partielle ou test de StudentIl permet de se prononcer sur la signification de chacun des paramtres. H0 : k = 0 signifie que l'exogne (xt) n'a aucune influence sur l'endogne yt. D'une manire gnrale, il faut contrler l'hypothse alternative Hi : k 0.

t = k ou k car T = X m

2 2 xt 2 et V ( ) = AvecV ( ) = 2 2 n ( x x) ( x x) t t Si t> t calcul, on rejette l'hypothse H0. Si t< t calcul, on accepte l'hypothse H0.48

L'ide gnrale est d'tablir un intervalle de confiance pour chacun des paramtres compte tenu d'un seuil de confiance %, ce qui nous permet de cerner la valeur des paramtres k.

= t ( DL) t k

49

C- Le Test d'autocorrlation rsidus ou des erreurs D.WH5 E(t, t)=0 Si t t

des

Lorsque H5 est non respecte (non vrifie), la matrice E() est diffrente de 0, donc il y a autocorrlation des erreurs. Nous sommes en prsence dune autocorrlation des erreurs lorsque ces derniers sont lis par un processus de reproduction : - il y a autocorrlation positive et - autocorrlation ngative 1-Sources dune autocorrlation des erreurs - Absence dune variable explicative importante dont lexplication rsiduelle permettrait de minimiser les erreurs ; - Une mauvaise spcification du modle : les relations entre la variable expliquer et les variables explicatives ne sont pas suffisamment linaires et50

sexpriment sous une autre forme que celle du modle estim. 2-dtection de lautocorrlation des erreurs cest le test du Durbin Waston (D.W) qui permet de dtecter une autocorrlation des erreurs dordre 1 selon la forme : t = t-1_ + vt avec vt (0, v2) Le test dhypothse faire est le suivant : H0 : = 0 H1 : O (ou 0).Pour tester nous lhypothse nulle H0,n (et et 1)2 DW = t =2 n 2 et t =1 calculons la statistique de D.W. O et sont les rsidus lestimation du modle.

de

51

De part sa construction, cette statistique DW varie entre 0 et 4. Afin de tester l'hypothse H0, D et W ont tabul les valeurs critiques de DW au seuil de 5% en fonction de la taille de l'chantillon n et du nombre de variables explicatives k. La lecture de la table permet de dterminer deux valeurs d1 et d2 comprises entre 0 et 2 qui dlimitent l'espace entre 0 et 4 selon le schma suivant : Interprtation du Test du DW et rgle de dcision

>0 ? =0 =0 ?