Upload
kevyn-maxwell
View
30
Download
0
Embed Size (px)
DESCRIPTION
Time Series. César Emmanuel Richard Bruno. XML et Data Mining – 2005-2006 Université de Versailles Saint-Quentin en Yvelines. Sommaire. Présentation des Séries Temporelles Définitions & Explications But de l’Analyse Modèles Mathématiques Les Algorithmes Présentation générale - PowerPoint PPT Presentation
Citation preview
Time Series
César Emmanuel
Richard Bruno
César Emmanuel
Richard Bruno
XML et Data Mining – 2005-2006
Université de Versailles Saint-Quentin en Yvelines
XML et Data Mining – 2005-2006
Université de Versailles Saint-Quentin en Yvelines
SommaireSommaire
I. Présentation des Séries Temporelles1. Définitions & Explications2. But de l’Analyse3. Modèles Mathématiques
II. Les Algorithmes1. Présentation générale2. Détails de l’ART dans SQL Server 20053. Détails du modèle ARIMA
III. Avantages et inconvénients des différents modèles
I. Présentation des Séries Temporelles1. Définitions & Explications2. But de l’Analyse3. Modèles Mathématiques
II. Les Algorithmes1. Présentation générale2. Détails de l’ART dans SQL Server 20053. Détails du modèle ARIMA
III. Avantages et inconvénients des différents modèles
Présentation des Séries Temporelles
XML et Data Mining – 2005-2006
Université de Versailles Saint-Quentin en Yvelines
XML et Data Mining – 2005-2006
Université de Versailles Saint-Quentin en Yvelines
Présentation des Séries Temporelles
1. Définitions & Explications1. Définitions & Explications
L’analyse des séries temporellesL’analyse des séries temporellesS’intéresser à la « dynamique »
d’une variableS’intéresser à la « dynamique »
d’une variable
Définition :Définition : La suite d’observations (yt, tЄT) d’une variable y à différentes dates t est appelée série temporelle. Habituellement T est dénombrable, de sorte que t=1…T.
La suite d’observations (yt, tЄT) d’une variable y à différentes dates t est appelée série temporelle. Habituellement T est dénombrable, de sorte que t=1…T.
Importance de la dimension temporelleImportance de la dimension temporelle
La périodicité de la série n’importe pasLa périodicité de la série n’importe pas
Présentation des Séries Temporelles
Une série temporelle est donc toute suite d’observations correspondant à la même variable :Une série temporelle est donc toute suite d’observations correspondant à la même variable :
Macroéconomiques : Macroéconomiques :
Microéconomiques : Microéconomiques :
Financières : Financières :
Météorologiques : Météorologiques :
Politiques : Politiques :
Démographiques : Démographiques :
PIB d’un pays, Inflation, ExportationsPIB d’un pays, Inflation, Exportations
Ventes d’une entreprise donnée, Nombre d’employés, Revenus d’un individuVentes d’une entreprise donnée, Nombre d’employés, Revenus d’un individu
CAC40, Prix d’une option d’achat, Cours d’une actionCAC40, Prix d’une option d’achat, Cours d’une action
Pluviosité, Nombre de jours de soleil par anPluviosité, Nombre de jours de soleil par an
Nombre de votants, Voix reçu par un candidatNombre de votants, Voix reçu par un candidat
Taille moyenne des habitants, Leur âgeTaille moyenne des habitants, Leur âge
Tout ce qui est chiffrable et varie en fonction du tempsTout ce qui est chiffrable et varie en fonction du temps
1. Définitions & Explications1. Définitions & Explications
Présentation des Séries Temporelles
Représentation :Représentation :
(a) (b)
(c) (d)
généralement un graphique de valeurs (ordonnées) en fonction du temps (abscisses)généralement un graphique de valeurs (ordonnées) en fonction du temps (abscisses)
Stationnarité
Tendance
Saisonnalité
Stationnarité
Tendance
Saisonnalité
1. Définitions & Explications1. Définitions & Explications
Présentation des Séries Temporelles
2. But de l’Analyse2. But de l’Analyse
On peut en distinguer 9 principales applications :On peut en distinguer 9 principales applications :
Prévoir Prévoir
Relier les variables Relier les variables
Déterminer la causalité Déterminer la causalité
Étudier des anticipations des agents Étudier des anticipations des agents
Repérer les tendances et cycles Repérer les tendances et cycles
Corriger des variations saisonnières Corriger des variations saisonnières
Détecter les chocs structurels Détecter les chocs structurels
Contrôler les processus Contrôler les processus
Présentation des Séries Temporelles
3. Modèles Mathématiques3. Modèles Mathématiques
Définition :Définition : Le but poursuivi est la formulation d’un modèle statistique qui soit une représentation congruente du processus stochastique qui génère la série observée.
Le but poursuivi est la formulation d’un modèle statistique qui soit une représentation congruente du processus stochastique qui génère la série observée.
Approche :Approche :
Il est en pratique impossible de connaître la distribution d’une série temporelle {y t}t≥0, on s’intéresse par conséquent à la modélisation de la distribution conditionnelle de {yt} via sa densité :
Il est en pratique impossible de connaître la distribution d’une série temporelle {y t}t≥0, on s’intéresse par conséquent à la modélisation de la distribution conditionnelle de {yt} via sa densité :
f(yt | Yt-1)f(yt | Yt-1)
Conditionnée sur l’historique du processusConditionnée sur l’historique du processus
Yt-1 = (yt-1, yt-2,…, y0)Yt-1 = (yt-1, yt-2,…, y0)
Il s’agit donc d’exprimé yt en fonction de son passéIl s’agit donc d’exprimé yt en fonction de son passé
Présentation des Séries Temporelles
3. Modèles Mathématiques3. Modèles Mathématiques
Résultat :Résultat :
L’approche conditionnelle fournit une Décomposition Prévision Erreur selon laquelle :L’approche conditionnelle fournit une Décomposition Prévision Erreur selon laquelle :
Yt = E[yt | Yt-1] + εtYt = E[yt | Yt-1] + εt
oùoù
E[yt | Yt-1]E[yt | Yt-1] est la composante de yt qui peut donner lieu à une prévision, quand l’historique du processus Yt-1 est connu
est la composante de yt qui peut donner lieu à une prévision, quand l’historique du processus Yt-1 est connu
εt représente les informations imprévisiblesreprésente les informations imprévisibles
Présentation des Séries Temporelles
Modèle de séries temporellesModèle de séries temporelles
1. Processus autorégressifs d’ordre 1, AR(1) :1. Processus autorégressifs d’ordre 1, AR(1) :
yt = ayt-1 + εtyt = ayt-1 + εt
εt ~ WN(0,σ2) (bruit blanc)εt ~ WN(0,σ2) (bruit blanc)
La valeur de yt ne dépend que de son prédécesseur. Ses propriétés sont fonction de α qui est facteur d’inertie :
La valeur de yt ne dépend que de son prédécesseur. Ses propriétés sont fonction de α qui est facteur d’inertie :
α = 0 : α = 0 :
α Є ]-1,1] : α Є ]-1,1] :
|α| = 1 : |α| = 1 :
|α| < 1 : |α| < 1 :
yt est imprévisible et ne dépend pas de son passé, on parle de bruit blancyt est imprévisible et ne dépend pas de son passé, on parle de bruit blanc
yt est stable autour de zéroyt est stable autour de zéro
yt est instable et ses variations sont imprévisiblesyt est instable et ses variations sont imprévisibles
yt est explosifyt est explosif
3. Modèles Mathématiques3. Modèles Mathématiques
Présentation des Séries Temporelles
1. Processus autorégressifs d’ordre 1, AR(1) :1. Processus autorégressifs d’ordre 1, AR(1) :
3. Modèles Mathématiques3. Modèles Mathématiques
Présentation des Séries Temporelles
2. Séries Multi variées :2. Séries Multi variées :
3. Processus autorégressif vectoriel, VAR(1) :3. Processus autorégressif vectoriel, VAR(1) :
4. Modèle autorégressif à retard distribués, ADL :4. Modèle autorégressif à retard distribués, ADL :
3. Modèles Mathématiques3. Modèles Mathématiques
Les Algorithmes
XML et Data Mining – 2005-2006
Université de Versailles Saint-Quentin en Yvelines
XML et Data Mining – 2005-2006
Université de Versailles Saint-Quentin en Yvelines
Listing des modèles:Listing des modèles:
ARIMA (Box & Jenkins) and Autocorrelations ARIMA (Box & Jenkins) and Autocorrelations
Interrupted Time Series ARIMA Interrupted Time Series ARIMA
Exponential Smoothing Exponential Smoothing
Seasonal Decomposition (Census1) Seasonal Decomposition (Census1)
X-11 Census method II seasonal adjustement X-11 Census method II seasonal adjustement
Distributed Lags Analysis Distributed Lags Analysis
Single Spectrum (Fourier) Analysis Single Spectrum (Fourier) Analysis
Cross Spectrum Analysis Cross Spectrum Analysis
Spectrum Analysis Spectrum Analysis
Fast Fourier Transformations Fast Fourier Transformations
Les Algorithmes
1. Présentation Générale1. Présentation Générale
Mois Lait Pain
Jan-2005 5000 4500
Fev-2005 5200 4600
Mar-2005 5240 5130
Avr-2005 6390 6280
Mai-2005 6750 6160
Jui-2005 6280 6560
Juy-2005 7680 7200
…
2. Détails de l’ART dans SQL Server 20052. Détails de l’ART dans SQL Server 2005
L’algorithme est en fait une version hybride d’autorégression et des techniques d’arbres de décisions.L’algorithme est en fait une version hybride d’autorégression et des techniques d’arbres de décisions.
Case Id Lait
(t-2)
Lait
(t-1)
Lait
(t0)
Pain
(t-2)
Pain
(t-1)
Pain
(t0)
1 5000 5200 5240 4500 4600 5130
2 5200 5240 6390 4600 5130 6280
3 5240 6390 6750 5130 6280 6160
4 6390 6750 6280 6280 6160 6560
5 6750 6280 7680 6160 6560 7200
…
Les Algorithmes
Case TransformCase Transform
1er étape: La méthode Case Transform :1er étape: La méthode Case Transform :
Autorégression
2ème étape: Trouver la fonction f2ème étape: Trouver la fonction f
On a : Xt = f(Xt-1,Xt-2,…,Xt-n) + εtOn a : Xt = f(Xt-1,Xt-2,…,Xt-n) + εt
Si f est linéaire : Xt = a1Xt-1,+ a2Xt-2+ anXt-n + εtSi f est linéaire : Xt = a1Xt-1,+ a2Xt-2+ anXt-n + εt où ai sont les coefficients d’autorégression
où ai sont les coefficients d’autorégression
Méthode : ajuster les coefficients par un processus de minimisationMéthode : ajuster les coefficients par un processus de minimisation
Abouti a un système d’équations linéaires pour les coefficients an (Yule Walker Equation)
Abouti a un système d’équations linéaires pour les coefficients an (Yule Walker Equation)
Pour trouver fPour trouver f trouver les aitrouver les ai
1 r1 r2 r3 r4 … rn-1
r1 1 r1 r2 r3 … rn-2
r2 r1 1 r1 r2 … rn-3
. . . . . . .
. . . . . . .
. . . . . . .
rn-1 rn-2 rn-3 rn-4 rn-5 … 1
a1
a2
a3
.
.
.
an
=
r1
r2
r3
.
.
.
rn
Les Algorithmes
Permet le calcul des coefficients grâce a la matrice de covariancePermet le calcul des coefficients grâce a la matrice de covariance
2. Détails de l’ART dans SQL Server 20052. Détails de l’ART dans SQL Server 2005
2. Détails de l’ART dans SQL Server 20052. Détails de l’ART dans SQL Server 2005
Autorégression TreeAutorégression Tree
La fonction f correspond a un arbre de régressionLa fonction f correspond a un arbre de régression
Représentation :Représentation :
All
Paint(t-2)≤ 5000
Paint(t-2)> 5000
Lait(t-1)≤ 6000
Lait(t-1)> 6000
Formule de régression pour le lait :3.02 + 0.72 x Pain(t-1) + 0.31 x Lait(t-1)
Les Algorithmes
2. Détails de l’ART dans SQL Server 20052. Détails de l’ART dans SQL Server 2005
SaisonnalitéSaisonnalité
Ex : La moyenne des t° en été n’est pas la même qu’en hiver, et le phénomène se répète tous les ans.Ex : La moyenne des t° en été n’est pas la même qu’en hiver, et le phénomène se répète tous les ans.
Les Algorithmes
Comment cela fonctionne dans l’ART:Comment cela fonctionne dans l’ART:
Pendant l’étape « Case Transform », l’algorithme ajoute des points de données basé sur des paramètres de saisonnalité.
Pendant l’étape « Case Transform », l’algorithme ajoute des points de données basé sur des paramètres de saisonnalité.
Paramètre : Periodicity_HintParamètre : Periodicity_Hint
Avec l’exemple précédent et une période de saisonnalité de 12mois, l’algorithme ajoute dans la table :Avec l’exemple précédent et une période de saisonnalité de 12mois, l’algorithme ajoute dans la table :
Lait(t-8x12)Lait(t-8x12) Lait(t-12)Lait(t-12)Lait(t-24)Lait(t-24)Lait(t-36)Lait(t-36)…… Lait(t0)Lait(t0)
Pain(t-8x12)Pain(t-8x12) Pain(t-12)Pain(t-12)Pain(t-24)Pain(t-24)Pain(t-36)Pain(t-36)…… Pain(t0)Pain(t0)
Note : On peut spécifier plusieurs Periodicity_HintNote : On peut spécifier plusieurs Periodicity_Hint
Note : Détection automatique la saisonnalité basé sur l’algorithme « Fast Fourier Transform »Note : Détection automatique la saisonnalité basé sur l’algorithme « Fast Fourier Transform »
Note : L’algorithme reconnaît les « séries croisées »Note : L’algorithme reconnaît les « séries croisées »
2. Détails de l’ART dans SQL Server 20052. Détails de l’ART dans SQL Server 2005
SaisonnalitéSaisonnalité
Les Algorithmes
Les principaux paramètres de l’ART:Les principaux paramètres de l’ART:
Minimum_Support Minimum_Support
Complexity_Penalty Complexity_Penalty
Historical_Model_Count Historical_Model_Count
Historical_Model_Gap Historical_Model_Gap
Periodicity_Hint Periodicity_Hint
Auto_Detect_Periodicity Auto_Detect_Periodicity
Maximum_Series_Value Maximum_Series_Value
Minimum_Series_Value Minimum_Series_Value
Les modèles ARIMA
1. Présentation :
ARIMA (Auto-Regressive-Integrated-Moving Average) popularisée et formalisée par Box et Jenkins (1976).
Les processus autorégressifs supposent que chaque point peut être prédit par la somme pondérée d’un ensemble de points précédents plus un terme aléatoire d’erreur.
Le processus d’intégration suppose que chaque point présente une différence constante avec le point précédent.
Les processus de moyenne mobile supposent que chaque point est fonction des erreurs entachant les points précédents plus sa propre erreur.
1. Présentation :
ARIMA (Auto-Regressive-Integrated-Moving Average) popularisée et formalisée par Box et Jenkins (1976).
Les processus autorégressifs supposent que chaque point peut être prédit par la somme pondérée d’un ensemble de points précédents plus un terme aléatoire d’erreur.
Le processus d’intégration suppose que chaque point présente une différence constante avec le point précédent.
Les processus de moyenne mobile supposent que chaque point est fonction des erreurs entachant les points précédents plus sa propre erreur.
Les modèles ARIMA
Un modèle ARIMA est étiqueté comme modèle ARIMA (p,d,q) dans lequel :
p est le nombre de terme autorégressifs,
d est le nombre de différence,
q est le nombre de moyennes mobiles.
Un modèle ARIMA est étiqueté comme modèle ARIMA (p,d,q) dans lequel :
p est le nombre de terme autorégressifs,
d est le nombre de différence,
q est le nombre de moyennes mobiles.
Les modèles ARIMA
2. Les différentes étapes :
On part de la série temporelle originale de l’évolution des unités de ventes suivant :
2. Les différentes étapes :
On part de la série temporelle originale de l’évolution des unités de ventes suivant :
Les modèles ARIMA
Etape 1 : détermination de l’ordre de différenciation
Le graphique de la fonction d’auto-corrélation présente une régression lente et linéaire typique de séries non stationnaires :
Or la méthode ARIMA suppose que l’on travaille sur une série stationnaire, c’est-à-dire que la moyenne et la variance soient constantes dans le temps.On va donc remplacer la série originale par une série de différences adjacentes.Pour corriger la non-stationnarité des valeurs, on pourra utiliser une transformation logarithmique ou exponentielle.
Etape 1 : détermination de l’ordre de différenciation
Le graphique de la fonction d’auto-corrélation présente une régression lente et linéaire typique de séries non stationnaires :
Or la méthode ARIMA suppose que l’on travaille sur une série stationnaire, c’est-à-dire que la moyenne et la variance soient constantes dans le temps.On va donc remplacer la série originale par une série de différences adjacentes.Pour corriger la non-stationnarité des valeurs, on pourra utiliser une transformation logarithmique ou exponentielle.
Les modèles ARIMA
On a un écart type important 17.56. Cette série nécessite donc d’être différenciée.Une différenciation d’ordre 1 suppose que la différence entre 2 valeurs successives de y est constante. On utilise donc la fonction suivante :
yt - yt-1 = µ + Ɛt où µ est la constante du modèle et représente la différence moyenne en y.Si µ = 0, la série est stationnaire.
Une première différenciation avec l’application du modèle ARIMA(0,1,0) donne les résidus suivants :
La série semble a peu près stationnaire et l’écart type a été réduit de manière importante : 1.54 au lieu de 17.56.
On a un écart type important 17.56. Cette série nécessite donc d’être différenciée.Une différenciation d’ordre 1 suppose que la différence entre 2 valeurs successives de y est constante. On utilise donc la fonction suivante :
yt - yt-1 = µ + Ɛt où µ est la constante du modèle et représente la différence moyenne en y.Si µ = 0, la série est stationnaire.
Une première différenciation avec l’application du modèle ARIMA(0,1,0) donne les résidus suivants :
La série semble a peu près stationnaire et l’écart type a été réduit de manière importante : 1.54 au lieu de 17.56.
Les modèles ARIMA
Si on essaie une seconde différenciation en appliquant un modèle ARIMA(0,2,0).Les modèles d’ordre 2 ne travaillent plus sur des différences mais sur les différences de différence. On utilisera alors l’équation de prédiction suivante :
yt - 2yt-1 + yt-2 = µ + Ɛt ou encore yt = µ + 2yt-1 - yt-2 + Ɛt
on obtient les résultats suivants :
Cette série montre des signes clairs de sur-différenciation et l’écart type a augmenté de 1.54 à 1.81. Ceci semble indiqué que l’ordre optimal de différenciation pour cette série est de 1.Toute fois ce modèle devra être optimisé par l’ajout des termes AR ou MA.
Si on essaie une seconde différenciation en appliquant un modèle ARIMA(0,2,0).Les modèles d’ordre 2 ne travaillent plus sur des différences mais sur les différences de différence. On utilisera alors l’équation de prédiction suivante :
yt - 2yt-1 + yt-2 = µ + Ɛt ou encore yt = µ + 2yt-1 - yt-2 + Ɛt
on obtient les résultats suivants :
Cette série montre des signes clairs de sur-différenciation et l’écart type a augmenté de 1.54 à 1.81. Ceci semble indiqué que l’ordre optimal de différenciation pour cette série est de 1.Toute fois ce modèle devra être optimisé par l’ajout des termes AR ou MA.
Les modèles ARIMA
Conclusion intermédiaire : Un modèle sans différenciation suppose que la série originale est stationnaire.
Un modèle avec une différenciation d'ordre 1 suppose que la série originale présente une tendance constante.
Un modèle avec une différenciation d'ordre 2 suppose que la série originaleprésente une tendance variant dans le temps.
Conclusion intermédiaire : Un modèle sans différenciation suppose que la série originale est stationnaire.
Un modèle avec une différenciation d'ordre 1 suppose que la série originale présente une tendance constante.
Un modèle avec une différenciation d'ordre 2 suppose que la série originaleprésente une tendance variant dans le temps.
Les modèles ARIMA
Etape 2 : détermination des termes AR
Analyse basée sur l’examen des fonctions d’auto-corrélation (ACF) et d’auto-corrélations partielles (PACF).
Auto-corrélation est la corrélation d’une série avec elle-même selon un décalage défini.Les modèles autorégressifs supposent que yt est une fonction linéaire des fonctions précédentes
yt = µ + Ф1 yt-1 + Ф2 yt-2 + Ф3 yt-3 + Ɛt
où Ɛ est le choc aléatoire et Ф1, Ф2 et Ф3 sont les coefficients d’auto-régression
compris dans l’intervalle ]-1,1[
Etape 2 : détermination des termes AR
Analyse basée sur l’examen des fonctions d’auto-corrélation (ACF) et d’auto-corrélations partielles (PACF).
Auto-corrélation est la corrélation d’une série avec elle-même selon un décalage défini.Les modèles autorégressifs supposent que yt est une fonction linéaire des fonctions précédentes
yt = µ + Ф1 yt-1 + Ф2 yt-2 + Ф3 yt-3 + Ɛt
où Ɛ est le choc aléatoire et Ф1, Ф2 et Ф3 sont les coefficients d’auto-régression
compris dans l’intervalle ]-1,1[
Les modèles ARIMA
Si on ajuste cette série avec un modèle ARIMA(2,1,0) on obtient les fonctions ACF ET PACF suivantes :
L’analyse montre que les coefficients AR sont significativement différents de 0 et que l’écart type a été réduit de 10% (1.42 au lieu de 1.54). L’équation de prédiction a donc la forme suivante : yt = µ + yt-1 + Ф1(yt-1 - yt-2) + Ф2(yt-2 - yt-3)avec µ = 0.258178, Ф1 = 0.2524 et Ф2 = 0.195572Cette équation permet d’établir le graphique de prédictions suivant :
Si on ajuste cette série avec un modèle ARIMA(2,1,0) on obtient les fonctions ACF ET PACF suivantes :
L’analyse montre que les coefficients AR sont significativement différents de 0 et que l’écart type a été réduit de 10% (1.42 au lieu de 1.54). L’équation de prédiction a donc la forme suivante : yt = µ + yt-1 + Ф1(yt-1 - yt-2) + Ф2(yt-2 - yt-3)avec µ = 0.258178, Ф1 = 0.2524 et Ф2 = 0.195572Cette équation permet d’établir le graphique de prédictions suivant :
Les modèles ARIMA
Etape 3 : détermination des termes MA
Analyse également basée sur l’examen des fonctions d’auto-corrélation (ACF) et d’auto-corrélations partielles (PACF).
Les modèles à moyenne mobile suggèrent que la série présente des fluctuations autour d’une valeur moyenne.
yt = µ + θ1 Ɛt-1 + θ2 Ɛt-2 + θ3 Ɛt-3 + Ɛt
où θ1, θ2 et θ3 sont les coefficients de moyenne mobile.
L’analyse des différents résultats va montrer que le modèle le plus pertinent serait un ARIMA(0,2,1) dont l’équation de prédiction serait la suivante :
yt = 2yt-1 - yt-2 – θ1Ɛt-1
Etape 3 : détermination des termes MA
Analyse également basée sur l’examen des fonctions d’auto-corrélation (ACF) et d’auto-corrélations partielles (PACF).
Les modèles à moyenne mobile suggèrent que la série présente des fluctuations autour d’une valeur moyenne.
yt = µ + θ1 Ɛt-1 + θ2 Ɛt-2 + θ3 Ɛt-3 + Ɛt
où θ1, θ2 et θ3 sont les coefficients de moyenne mobile.
L’analyse des différents résultats va montrer que le modèle le plus pertinent serait un ARIMA(0,2,1) dont l’équation de prédiction serait la suivante :
yt = 2yt-1 - yt-2 – θ1Ɛt-1
Les modèles ARIMA
Conclusion : Ces deux modèles peuvent ajuster de manière alternative la série de départ.
Le choix d'un ou l'autre modèle peut reposer sur des présupposé théoriques liés au phénomène observé.
La décision n'est pas simple et les cas les plus atypiques requièrent, outre l'expérience, de nombreuses expérimentations avec des modèles différents (avec divers paramètres ARIMA).
Puisque le nombre de paramètres (à estimer) de chaque type dépasse rarement 2, il est souvent judicieux d'essayer des modèles alternatifs sur les mêmes données.
Toutefois, les composantes des séries chronologiques empiriques peuvent souvent être assez bien approchées en utilisant l'un des 5 modèles de base suivants, identifiables par la forme de l'autocorrélogramme (FAC) et de l'autocorrélogramme partiel (FACP).
Conclusion : Ces deux modèles peuvent ajuster de manière alternative la série de départ.
Le choix d'un ou l'autre modèle peut reposer sur des présupposé théoriques liés au phénomène observé.
La décision n'est pas simple et les cas les plus atypiques requièrent, outre l'expérience, de nombreuses expérimentations avec des modèles différents (avec divers paramètres ARIMA).
Puisque le nombre de paramètres (à estimer) de chaque type dépasse rarement 2, il est souvent judicieux d'essayer des modèles alternatifs sur les mêmes données.
Toutefois, les composantes des séries chronologiques empiriques peuvent souvent être assez bien approchées en utilisant l'un des 5 modèles de base suivants, identifiables par la forme de l'autocorrélogramme (FAC) et de l'autocorrélogramme partiel (FACP).
Les modèles ARIMA
Modèle FAC FACP
Un paramètre autorégressif (p) décomposition exponentielle pic à la période 1,
pas de corrélation pour les autres périodes.
Deux paramètres autorégressifs
(p)
une composante de forme sinusoïdale ou un
ensemble de décompositions exponentielles
pics aux périodes 1 et 2,
Aucune corrélation pour les autres périodes.
Un paramètre de moyenne
mobile (q) :
pic à la période 1,
aucune corrélation pour les autres périodes
exponentielle amortie.
Deux paramètres de moyenne
mobile (q) :
pics aux périodes 1 et 2,
Aucune corrélation pour les autres périodes
une composante de forme sinusoïdale ou un
ensemble de décompositions exponentielles.
Un paramètre autorégressif (p)
et un de moyenne mobile (q) :
Décomposition exponentielle commençant à la période 1
décomposition exponentielle commençant à la période 1.
Comparatif des méthodes
XML et Data Mining – 2005-2006
Université de Versailles Saint-Quentin en Yvelines
XML et Data Mining – 2005-2006
Université de Versailles Saint-Quentin en Yvelines
La segmentation neuronaleLa segmentation neuronale
Comparatif des méthodes
aptitude à modéliser des relations linéaires entre les données,
on détermine automatiquement le nombre optimal de segments au lieu de le fixer automatiquement.
aptitude à modéliser des relations linéaires entre les données,
on détermine automatiquement le nombre optimal de segments au lieu de le fixer automatiquement.
Avantages :Avantages :
temps d’exécution plus élevé du fait du nombre d’itérations nécessaires pour une bonne segmentation,
se présentent comme des boîtes noires,
les segments sont moins différenciés en taille et en contenu,
un bon apprentissage nécessite un grand échantillon important pour un bon calcul,
les variables doivent être numériques et leurs modalités comprises dans l’intervalle [0,1] ce qui implique une normalisation des données,
très sensibles aux valeurs extrêmes et aux individus isolés.
temps d’exécution plus élevé du fait du nombre d’itérations nécessaires pour une bonne segmentation,
se présentent comme des boîtes noires,
les segments sont moins différenciés en taille et en contenu,
un bon apprentissage nécessite un grand échantillon important pour un bon calcul,
les variables doivent être numériques et leurs modalités comprises dans l’intervalle [0,1] ce qui implique une normalisation des données,
très sensibles aux valeurs extrêmes et aux individus isolés.
Inconvénients :Inconvénients :
La méthode des centres mobilesLa méthode des centres mobiles
Comparatif des méthodes
temps d’exécution proportionnel au nombre d’individus ce qui la rend applicable à de grands volumes de données,
nombre d’itérations nécessaires est faible.
temps d’exécution proportionnel au nombre d’individus ce qui la rend applicable à de grands volumes de données,
nombre d’itérations nécessaires est faible.
Avantages :Avantages :
ne s’applique qu’à des données continues ce qui nécessite des transformations,
absence de solutions optimales mais des meilleures solutions possibles par rapport aux hypothèses d’origine,
le nombre de segments est fixé au départ. Il ya donc un risque qu’on s’éloigne du véritable nuage des individus.
ne s’applique qu’à des données continues ce qui nécessite des transformations,
absence de solutions optimales mais des meilleures solutions possibles par rapport aux hypothèses d’origine,
le nombre de segments est fixé au départ. Il ya donc un risque qu’on s’éloigne du véritable nuage des individus.
Inconvénients :Inconvénients :
La méthode des arbres de décisionLa méthode des arbres de décision
Comparatif des méthodes
grande compréhensibilité des résultats pour les utilisateurs,
faible dépendance aux valeurs extrêmes ou manquantes,
faible sensibilité au bruit des variables non discriminantes,
permettent de gérer des variables de tout type : continues, discrètes, catégoriques,
certains arbres permettent de traiter un très grand nombre de variables explicatives.
grande compréhensibilité des résultats pour les utilisateurs,
faible dépendance aux valeurs extrêmes ou manquantes,
faible sensibilité au bruit des variables non discriminantes,
permettent de gérer des variables de tout type : continues, discrètes, catégoriques,
certains arbres permettent de traiter un très grand nombre de variables explicatives.
Avantages :Avantages :
l’arbre détecte des optimums locaux et non globaux car il utilise les variables séquentiellement et non simultanément. Le choix d’une branche n’est plus jamais remis en cause,
l’apprentissage nécessite un grand nombre d’individus,
la forme des modèles obtenus ne correspond pas forcément à celle de l’échantillon,
les valeurs obtenues ne sont pas uniformément distribuées,
le temps de calcul d’un arbre est long.
l’arbre détecte des optimums locaux et non globaux car il utilise les variables séquentiellement et non simultanément. Le choix d’une branche n’est plus jamais remis en cause,
l’apprentissage nécessite un grand nombre d’individus,
la forme des modèles obtenus ne correspond pas forcément à celle de l’échantillon,
les valeurs obtenues ne sont pas uniformément distribuées,
le temps de calcul d’un arbre est long.
Inconvénients :Inconvénients :
Les méthodes ARIMALes méthodes ARIMA
Comparatif des méthodes
modèle de référence dans l’économétrie,
permet de comprendre la signification théorique de différents processus,
faible impact des valeurs extrêmes.
modèle de référence dans l’économétrie,
permet de comprendre la signification théorique de différents processus,
faible impact des valeurs extrêmes.
Avantages :Avantages :
appropriées que si la série chronologique est stationnaire,
nécessitent au moins 50 observations dans le fichier de données,
nécessite de tester tous les paramètres donc long en terme d’apprentissage.
appropriées que si la série chronologique est stationnaire,
nécessitent au moins 50 observations dans le fichier de données,
nécessite de tester tous les paramètres donc long en terme d’apprentissage.
Inconvénients :Inconvénients :
Intérêt des séries temporellesIntérêt des séries temporelles
Conclusion
descriptive,
explicative,
prévisionnelle.
descriptive,
explicative,
prévisionnelle.
On considère l’intérêt des séries temporelles selon trois perspectives : On considère l’intérêt des séries temporelles selon trois perspectives :