42
Introduction à l’analyse des séries temporelles M2 DYNEA Florence Dufour Décembre 2007 http://duduffe.free.fr/ M2DYNEA/

Introduction à l’analyse des séries temporelles

Embed Size (px)

DESCRIPTION

Introduction à l’analyse des séries temporelles. M2 DYNEA Florence Dufour Décembre 2007. http://duduffe.free.fr/M2DYNEA/. Plan du cours. Savoir ce qu’est une série temporelle et voir quelques exemples Pourquoi traiter les séries temporelles Quelques définitions utiles - PowerPoint PPT Presentation

Citation preview

Page 1: Introduction à l’analyse des séries temporelles

Introduction à l’analyse des séries

temporelles

M2 DYNEA Florence Dufour

Décembre 2007http://duduffe.free.fr/M2DYNEA/

Page 2: Introduction à l’analyse des séries temporelles

Plan du cours

• Savoir ce qu’est une série temporelle et voir quelques exemples

• Pourquoi traiter les séries temporelles• Quelques définitions utiles• Tester l’existence d’une tendance• Estimer les différentes tendances• Comment éliminer la tendance générale• Pourquoi et comment prendre en compte

l’autocorrélation

Page 3: Introduction à l’analyse des séries temporelles

Qu’est-ce qu’une série temporelle?

Suite d’observations :

• mesurées à intervalles réguliers

• Indicées par le temps

La date à laquelle l’observation est faite est une information importante sur le phénomène observé

Page 4: Introduction à l’analyse des séries temporelles

Quelques exemples de séries temporelles - 1

Evolution de la population française Evolution de la population des EU

Pour ces 2 séries on voit que le temps explique bien le niveau de la série. Une fonction du temps assez lisse capte bien le niveau de la série

Page 5: Introduction à l’analyse des séries temporelles

Quelques exemples de séries temporelles - 2

Nombre de morts par accident de voiture au R.U.

Le niveau moyen reste stable jusqu’à fin 1982 et il y a d’importantes fluctuations saisonnières. En février 1983 une nouvelle législation rend obligatoire le port de la ceinture de sécurité.

La saisonnalité contribue donc à expliquer le niveau.

Page 6: Introduction à l’analyse des séries temporelles

Quelques exemples de séries temporelles - 3

La saisonnalité qui contribue à expliquer le niveau, comme avant

En plus la moyenne et la variabilité de la série augmente avec le temps

La variance nést pas constante. Les séries dont la variance à une date est fonction de la moyenne à cette date. est appelé série hétéroscédastique

Page 7: Introduction à l’analyse des séries temporelles

Comment qualifiez-vous cette série?

La saisonnalité qui contribue à expliquer le niveau, comme avant

Et encore une fois la moyenne et la variabilité de la série augmente avec le temps

C’est donc une série hétéroscédastique

Page 8: Introduction à l’analyse des séries temporelles

Objectifs de l’analyse des séries

3 objectifs principaux:1) Description:

– Diagramme séquentiel (time plot)– Histogramme pour voir la distribution des valeursRemarquer les valeurs atypiques ou aberrantes

2) Explication – résumé:Comprendre comment se passent certains processus et

avoir une vue synthétique débarrassée de détails de court terme (instituts officiels de statistiques)

3) Prédictif:Prédire dans le futur comment évolue un phénomène

Page 9: Introduction à l’analyse des séries temporelles

Les définitions • Une série temporelle est une suite d’instants• Une série est dite régulière (rare) s’il n’y a pas

de lacunes et que le pas d’échantillonnage ne change pas

• On rencontre également des séries temporelles à données manquantes. Pour boucher les trous on peut utiliser un modèle qui prédit les données en prenant en compte les caractéristiques locales et globales

• Une série est dite lacunaire ou intermittente lorsque l’on a pas d’observation pendant plusieurs années.

Page 10: Introduction à l’analyse des séries temporelles

Les définitions

Les différentes composantes d’une série temporelle sont:

• La tendance générale: Ne peut être étudiée que si l’épisode est terminé et non en cours de formation

• Variation saisonnière: Applicable que si l’on dispose de plusieurs observations par an

• Composante cyclique: Echelle intermédiaire entre le court et le long terme

Page 11: Introduction à l’analyse des séries temporelles

Décomposition des séries

Il est classique de décomposer une série temporelle en tendance mt, effet saisonnier st, et erreur Ut.

Généralement on s’intéresse à un modèle additif :Yt = mt, + st, + Ut avec E(Ut) = 0

Dans le cas où les séries montrent une saisonnalité qui a de plus en plus d’ampleur alors (comme pour les ventes de champagne) un modèle multiplicatif est plus ajusté à la série:

Yt = mt, . st, . Ut avec E(Ut) = 0

Suivant l’objectif de l’analyse, le traitement de la série sera différent. Dans le cas où l’on veut regarder le comportement à moyen terme d’une série, il est utile d’éliminer l’effet saisonnier tandis que lorsque c’est le comportement à court terme qui nous intéresse, il est important de garder l’effet saisonnier.

Page 12: Introduction à l’analyse des séries temporelles

Tester l’existence d’une tendanceRappel : les test non paramétriques permettent de ne pas faire d’hypothèse sur

la distribution des probabilités.

2 tests non paramétriques de l’existence d’une tendance:

- Correlation sur les rangs de Spearman

- Corrélation de rang de Mann-Kendall

Page 13: Introduction à l’analyse des séries temporelles

rs =

(Rx - R)2 + (Ry - R)2 - (ex3 - ex)

12 - (Rx - Ry)2

i=1

n

i=1

n

i=1

n

i=1

n

2 (Rx - R)2 (Ry - R)2 - (ex3 - ex)

12i=1

n

i

n

i=1

n

Comme la tendance n’est pas forcément linéaire, on va remplacer les valeurs observées par leur rangs, puis calculer la corrélation non paramétrique de Spearman, rs, avec le temps. Soit une série de n observations. Si on appelle le rang moyen, Rx le rang de la valeur de l'observation x, Ry le rang de la valeur de l'abcisse temporelle correspondante, ex, le nombre d'ex-æquo la formule s'écrit:

R

Afin de savoir s’il existe une tendance, il faut faire une corrélation entre les valeursobservées et les dates d’observations.

Corrélation sur les rangs de Spearman

Page 14: Introduction à l’analyse des séries temporelles

2 ) Il existe une tendance si la corrélation sur les rangs du temps et des observations est significative.

3) Quand la moyenne du coefficient est négative alors la tendance est décroissante et quand elle est positive la tendance est croissante.

.

Interprétation

1) Les valeurs du coefficient de Spearman sont comprises entre -1 et +1. Si le processus est purement aléatoire, la moyenne de rs est égale à 0 et savariance est égale à 1/(n-1). La distribution des rs est normale pour n >50. On calcule ici la quantité qui suit une loi t de Student,

avec n-2 degrés de liberté, valable pour tout n.

rs n - 21 - rs2

Page 15: Introduction à l’analyse des séries temporelles

Corrélation de Mann-Kendall

Le principe du test de Mann-Kendall de l’existence d’une tendance est d’examiner le signe des différences sur des paires des données observées.

Z r / r2

r 4 p

n(n 1)

1 et r

2 2(2n 5)

9n(n 1)

p = nombre de fois où x j xi > 0 avec j >i

Pour un seuil donné, on refusera Ho (pas de tendance) si :

Z z1

Page 16: Introduction à l’analyse des séries temporelles

PAUSE

Page 17: Introduction à l’analyse des séries temporelles

Estimation de la tendance générale

• Par régressions:

L'idée simple pour estimer une tendance générale est de vérifier son ajustement par une droite, une parabole, un polynôme d'ordre plus élevé.

Ces techniques reposent sur l'algorithme des moindres carrés: on minimise les carrés d'écarts entre les données observées et un polynôme de degré fixé à l'avance. L'estimation des paramètres se fait en considérant un système d'équations de dérivés partielles. La signification de l'ajustement peut se faire par l'inférence statistique si les distributions sont normales, cas malheureusement peu fréquent avec les séries.

Page 18: Introduction à l’analyse des séries temporelles

Zt = at + b où Zt est la tendance

Si on veut plus détailler la série, on peut utiliser une régression polynomialeMais on est face à une ambiguïté si un ajustement par un polynôme d'ordre 5 par exemple, semble très bien décrire visuellement la tendance générale, l'ajustement simple peut être lui aussi déjà, hautement significatif. Pour savoir si un degré supérieur est nécessaire il faut tester si le coefficient de régression partielle attaché à ce degré est significativement différent de 0.

Page 19: Introduction à l’analyse des séries temporelles

Estimation de la tendance générale

• Par les moyennes mobiles:

La méthode des Moyennes Mobiles (MB), correspond à un filtre linéaire.

Le filtrage linéaire d'une chronique Zt, consiste à remplacer les diverses valeurs de cette chronique par une combinaison linéaire de ses diverses valeurs :

remplacer chaque valeur de la série par la moyenne des valeurs comprises dans 1 fenêtre définie de façon arbitraire.

Plus la fenêtre est grande et plus le lissage est fort c’est la moyenne de beaucoup de termes

Si on fait un bon choix dans la grandeur de la fenêtre alors la série obtenue

peut être considérée comme la tendance générale.

Page 20: Introduction à l’analyse des séries temporelles

Moyenne mobile simple :

mi

miiij

i

j wy

w

Y1

C’est donc la somme des valeurs comprises dans la fenêtre et on divise par la somme des coefficients de pondération

Une moyenne mobile d’ordre m (calculée sur 2m+1 termes) a la propriété d’éliminer le cycle de même période, la fréquence de coupure du spectre étant égale en effet à :

1 2m

1 fc

Si 2m + 1 égale période de la série alors on fait apparaître la tendance en moyennant la composante : si 2m + 1 = T alors Ft = MMt

Moyenne mobile pondérée : les termes qui sont proches ont plus de poids que lestermes qui sont loinEx : MB simple : 1 1 1 1 1MB pondérée : 0,3 0,8 1 0,8 0,3

Page 21: Introduction à l’analyse des séries temporelles

0 20 40 60 80

0

1000

2000

0 20 40 60 80

0

1000

2000

0 20 40 60 80

0

1000

2000

0 20 40 60 80

0

1000

2000

Filtrage Moyennes mobiles

2m+1=5 2m+1=7

2m+1=13w= [.2 .5 .9 1 .9 .5 .2]

2m+1=7

Filtrage des moyennes mobiles

Page 22: Introduction à l’analyse des séries temporelles

2 méthodes:

1) Différence entre la série totale et la tendance générale

St = Yt – Ft

où Yt est la série totale et Ft est la tendance générale

2) Méthode des sommes cumulées:

Cette méthode dite des sommes cumulées se propose :

• de détecter les changements survenant dans le niveau moyen de la série

• de déterminer la date d’apparition de ces changements

• d’estimer la valeur moyenne d’intervalles homogènes

Estimation de la tendance locale

Page 23: Introduction à l’analyse des séries temporelles

Soit une série échantillonnée régulièrement à pas constant, x(t), t variant entre 1 et N. Choisissons une valeur de référence k (par exemple la moyenne). On retire cette valeur k de toutes les estimations de la série, puis on effectue le cumul des valeurs successives :

S1 = (x1 - k)S2 = (x1 - k) +(x2 - k) = S1 +(x2 - k)

= x1 + x2 - 2k

Sp = xi - p ki=1

pD’où

Cette somme cumulée est très sensible au changement de la valeur moyenne d'une série.

Page 24: Introduction à l’analyse des séries temporelles

Les changements d’Acartia dans la Gironde

0

2

4

6

8

Années Années

Ln(ACARTIA )

1978 80 82 84 86 88 900

1000

2000

3000

4000

5000 MES

1978 80 82 84 86 88 900

10

20 SALINITE

1978 80 82 84 86 88 90Années

Années1978 79 80 81 82 83 84 85 86 87 88 89 90 91

Années

10000

20000

30000

0

MES

-40

-30

-20

-10

0

10Ln (Acartia )

= 413A = 1686M

=1020M

= 762M

-10000

= 2529A =108A

Ln (Acartia )Salinité

-120

-100

-80

-60

-40

-20

0

-40

-30

-20

-10

0

10

1978 79 80 81 82 83 84 85 86 87 88 89 90 91

108 =

4,30 =S

3,20 =S

8,90 =S

413 =A

A

2529 =A

3 a 3 b

Page 25: Introduction à l’analyse des séries temporelles

Estimation de la composante aléatoire

et = Yt – St avex E(et) = 0

Page 26: Introduction à l’analyse des séries temporelles

Elimination de la tendance générale

Page 27: Introduction à l’analyse des séries temporelles

Elimination directe: méthode des différence

La méthode des différences a pour but d'éliminer la tendance. Ce n'est valable que si la série a une tendance monotone et non "en dents de scie".

Pour décrire la méthode, définissons d'abord la notion d'opérateurs de retard.

= L0 - L1

Zt = (L0 - L1)Zt = Zt - Zt-1

Soit l'opérateur polynomial :

Soit:

Les différences d'ordre r (successives), sont définies par :

rZt = (L0 - L1)rZt = (-1)r-i

i=0

r

Cri Li Zt

où Cri

désigne les combinaisons simples de i termes pris r à r.

Page 28: Introduction à l’analyse des séries temporelles

Exemple: Soient les différences secondes:

2Zt = (L0 - L1)2Zt = (L0 + L2 - 2L1L0) Zt

2Zt = Zt + Zt-2 - 2 Zt-1

La transformation de Zt en élimine totalement ou en partie la tendance.

La méthode des différences est extrêmement courante lorsqu'on désire se rapprocher de façon rapide et simple de la stationnarité, en répétant le procédé si nécessaire.

tZ2

Page 29: Introduction à l’analyse des séries temporelles

La méthode des moyennes mobiles permet également d'éliminer directement toute variation cyclique. Si on dispose d'une série pluriannuelle avec des observations mensuelles, une MB simple centrée de 12 mois (13 mois successifs) élimine la variation saisonnière.

Problème du centrage des observations dans la fenêtre de lissage:

On démontre qu'une MB calculée sur 12 termes a la propriété d'éliminer le cycle de même période, la fréquence de coupure du spectre (voir chapitre

sur l'analyse spectrale), étant égale en effet à:

Elimination par la méthode des moyennes mobiles

fc = 12m + 1

Page 30: Introduction à l’analyse des séries temporelles

Cependant on ne peut centrer les observations dans une fenêtre contenant un nombre pair de termes. C'est pourquoi on va considérer un lissage avec une fenêtre à 13 termes. Le filtre de désaisonnalisation s'écrira:

Yi =

111

Zi-6+jj=1

11

+124

(Zi-6 + Zi+6)

Comme il faut considérer le poids de 12 valeurs et non de 13, les observations extrêmes dans la fenêtre, comptent seulement pour moitié. Naturellement, 6 valeurs au début et 6 valeurs à la fin de la série, ne pourront être estimées par cet algorithme.

Problème de l'estimation des termes extrêmes de la série lisséeLa méthode d'addition de valeurs au début et à la fin de la série ne s'applique pas ici si on a à estimer 6 mois successifs au début et à la fin d'une série pluriannuelle. Si la série comporte un grand nombre d'années, on peut préalablement rajouter les valeurs des 6 premiers mois de la deuxième année au début et les valeurs des 6 derniers mois de l'avant dernière année à la fin.

Page 31: Introduction à l’analyse des séries temporelles

Elimination par la méthode des écarts saisonniers

La méthode des différences est également efficace pour éliminer une tendancesinusoïdale. Si on dispose par exemple de séries pluriannuelles avec un pas d'observationmensuel, dans la mesure où on considère que la variabilité saisonnière peutêtre modélisée par une sinusoïde (ce qui n'est pas le cas général, car souventles cycles annuels biologiques sont "télescopés" : la période dereproduction printanière est souvent décalée d'une année sur l'autre..), alors onremplace les données Zi par les écarts aux moyennes des mois respectifs. Sila série était une sinusoïde, un tel filtrage aurait pour effet de la transformer en ne droite. Supposons que l'on ait n années, la valeur désaisonnalisée zi dumois i s'écrira:

zi = Zi -

Ztt=1

12

12

Page 32: Introduction à l’analyse des séries temporelles

Pause

Page 33: Introduction à l’analyse des séries temporelles

Prendre en compte l’autocorrélation dans les

études de corrélation

Page 34: Introduction à l’analyse des séries temporelles

L’autocorrélation c’est lorsque les données d’une année sont fortement liées aux valeurs l’année précédente

L’autocorrélation viole l’hypothèse d’indépendance requise pour la plupart des tests statistiques

Pour faire face à ce problème, les scientifiques spécialisés dans les pêches ont mis au point deux types de méthode :

- Calculer un degré de liberté modifié prenant en compte l’autocorrélation.- Enlever l’autocorrélation avant de faire le moindre test statistique

Page 35: Introduction à l’analyse des séries temporelles

Ajuster les degrés de liberté

Méthode pas très utile lorsque les séries temporelles sont courtes. En effet, le calcul des degrés de liberté passe par l’estimation de la fonction d’autocorrélation, difficilement calculable pour les séries courtes.

Plusieurs changements sont opérés entre l’analyse des données brutes et lorsque l’on s’intéresse à traiter l’autocorrélation:

1) Ajustement de la fonction d’autocorrélation2) Changement du nombre de degrés de liberté utilisés pour les corrélations

Page 36: Introduction à l’analyse des séries temporelles

Fonction d’autocorrélation « normale »

= Eq. 1

Eq. 1

Fonction d’autocorrélation modifiée pour prendre en compte l’autocorrélation:

Page 37: Introduction à l’analyse des séries temporelles

Nombre de degrés de liberté effectifs:

N/5

Ne pas utiliser N* comme degré de liberté mais N*- 2

Cette prise en compte de l’autocorrélation a tout d’abord été prise en compte par Chelton et modifiée par Pyper et Peterman (1998)

Page 38: Introduction à l’analyse des séries temporelles

Eliminer l’autocorrélation

Le principe est que si les séries sont libérées de leur autocorrélation alors les

tests statistiques peuvent leur être appliqués.

Cependant, enlever l’autocorrélation revient à enlever la variabilité à court

terme. Ainsi, le problème est que si la composante basse fréquence est

commune entre les deux séries (processus synchrones ou asynchrones) alors

enlever l’autocorrélation revient également à se séparer de la covariance. On

est donc dans un cas où l’on tend à augmenter l’erreur de type II, i.e.

augmenter la probabilité de ne pas détecter d’importantes relations entre des

processus à variation lente à long terme et par exemple la dynamique des

populations de poissons.

Page 39: Introduction à l’analyse des séries temporelles

2 méthodes principales pour éliminer l’autocorrélation:

• Prewhithenning: Ajuster un modèle de série temporelle (autoregressif) et analyser les résidus

• First differencing: Soustraire chaque point du suivant

Page 40: Introduction à l’analyse des séries temporelles

Eliminer la variabilité haute fréquence

Lorsque l’on est intéressé par la variabilité basse fréquence(long terme), il est fréquent de lisser (smoothing) lesSéries temporelles. C’est une approche opposée à l’élimination de l’autocorrélation du fait qu’au lieu de retirerla variabilité basse fréquence, on retire la variabilité haute fréquence. L’hypothèse associée à ce type de traitement est que le « bruit » haute fréquence (court terme), comme l’erreur de mesure, peut voiler la détection d’une importante variabilité basse fréquence commune.

Ce processus se fait par exemple très simplement à l’aidedes moyennes mobiles.

Page 41: Introduction à l’analyse des séries temporelles
Page 42: Introduction à l’analyse des séries temporelles

Conclusions

• Lorsqu’on a des données indicées par le temps elles doivent être traitées avec précaution

• Il faut savoir à quelle échelle on souhaite travailler, ce que l’on recherche principalement

• Si l’on veut faire des études de corrélations ou de régression, il est très important de prendre en compte l’autocorrélation des données