138
Par SIMO Ulrich Florian Matricule : 11V0795 Mémoire Présenté en vue de l’obtention du Diplôme de Master Recherche Option Statistique Appliquée Sous la co-direction de Dr. Ibrahim MOUKOUOP Dr. Patrice TAKAM Chargé de Cours, ENSP Assistant, UYI Devant le jury composé de Président : Pr. Henri GWÉT, Maître de conférences Rapporteurs : Dr. Ibrahim MOUKOUOP, Chargé de cours Dr. Patrice TAKAM, Assistant Membres : Dr. Eugène-Patrice NDONG NGUEMA, Chargé de cours Dr. Jacques TAGOUDJEU, Chargé de cours Année académique 2013-2014 UNIVERSITY OF YAOUNDE I ***************** NATIONAL ADVANCED SCHOOL OF ENGINEERING ****************** DEPARTEMENT OF MATHEMATICS AND PHYSICAL SCIENCES UNIVERSITÉ DE YAOUNDÉ I ****************** ÉCOLE NATIONALE SUPÉRIEURE POLYTECHNIQUE ****************** DEPARTEMENT DE MATHEMATIQUES ET SCIENCES PHYSIQUES GESTION DE STOCK DE GPS A LA DOUANE CAMEROUNAISE : Prévision de la demande et du flux de retour GPS

GESTION DE STOCK DE GPS A LA DOUANE …mastat.visualstat.com/dissertation/2014/Simo.pdf · son soutien et la justesse des orientations qu'il a bien voulu me suggérer; à M. Patrice

  • Upload
    vudien

  • View
    220

  • Download
    0

Embed Size (px)

Citation preview

Par SIMO Ulrich Florian Matricule : 11V0795

Mémoire Présenté en vue de l’obtention du

Diplôme de Master Recherche

Option

Statistique Appliquée

Sous la co-direction de

Dr. Ibrahim MOUKOUOP Dr. Patrice TAKAM Chargé de Cours, ENSP Assistant, UYI

Devant le jury composé de

Président : Pr. Henri GWÉT, Maître de conférences Rapporteurs : Dr. Ibrahim MOUKOUOP, Chargé de cours Dr. Patrice TAKAM, Assistant

Membres : Dr. Eugène-Patrice NDONG NGUEMA, Chargé de cours Dr. Jacques TAGOUDJEU, Chargé de cours

Année académique 2013-2014

UNIVERSITY OF YAOUNDE I

***************** NATIONAL ADVANCED SCHOOL

OF ENGINEERING ******************

DEPARTEMENT OF MATHEMATICS AND PHYSICAL SCIENCES

UNIVERSITÉ DE YAOUNDÉ I

****************** ÉCOLE NATIONALE SUPÉRIEURE

POLYTECHNIQUE ****************** DEPARTEMENT DE

MATHEMATIQUES ET SCIENCES PHYSIQUES

GESTION DE STOCK DE GPS A LA

DOUANE CAMEROUNAISE :

Prévision de la demande et du flux de retour GPS

2

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

GESTION DE STOCK DE GPS A LA

DOUANE CAMEROUNAISE :

Prévision de la demande et du ux de retour

GPS

Ulrich Florian SIMO

16 octobre 2014

2

Figure 1 GPS GARMIN Oregon 300

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

DÉDICACES i

Dédicaces

Je dédie ce mémoire à toute la grande famille SIMO.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

REMERCIEMENTS ii

Remerciements

Je me dois tout d'abord de remercier Pr. Henri Gwét, pour avoir accepté de présider le

jury de ma soutenance. Puis, je remercie aussi tous les autres membres du jury pour avoir

accepter d'en faire partie, notamment : Dr. Ibrahim Moukouop, Dr. Patrice Takam, Dr.

Eugène-Patrice Ndong Nguéma et Dr. Jacques Tagoudjeu.

Je désire également témoigner ici de ma reconnaissance envers tous ceux qui ont suivi,

soutenu et guidé ce travail de rédaction du mémoire de six mois. Qu'ils en soient très cha-

leureusement remerciés.

Je désire adresser une marque toute particulière de ma gratitude :

à M. Henri Gwét, instigateur de cette formation, pour sa présence et ses conseils, tous

considérables, et qui, malgré ses multiples occupations, a su coordonner les enseignements

de ce master ;

à M. Ibrahim Moukouop, pour m'avoir permis d'eectuer mon stage de n de formation

dans l'organisation Polytech-Valor dont il est l'administrateur délégué, pour la constance de

son soutien et la justesse des orientations qu'il a bien voulu me suggérer ;

à M. Patrice Takam, pour ses conseils sans cesse pertinents et ses levées de doute, pour

la constance de son suivi et son soutien sans faille durant ces deux dernières années de ma

formation académique ;

à M. Eugène-Patrice Ndong-Nguéma, pour sa participation essentielle au suivi de ce tra-

vail, pour l'attention assidue qu'il a bien voulu prêter à la lecture, puis à la correction de ce

manuscrit ;

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

REMERCIEMENTS iii

à tous les autres membres du Personnel Enseignant du Master de Statistique Appliquée,

pour leur disponibilité, leur gentillesse, leurs nombreuses remarques, et pour avoir souvent

répondu à des questions bien naïves ;

à tous mes compagnons et amis de tous les jours, mes camarades de classe et de promo-

tion, qui ont contribué chacun à leur manière à l'accomplissement de ce travail.

Enn, de ma famille, je remercie inniment chaque membre et, plus particulièrement,

mes parents - pour leur soutien, leur amour, leur conseil.

Que le dernier de mes remerciements, tout particulier, soit pour Aude.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

TABLE DES MATIÈRES iv

Table des matières

Dédicaces i

Remerciements ii

Table des gures viii

Liste des tableaux ix

Avant-propos x

Lexique des termes techniques xi

Résumé xii

Abstract xiii

Résumé Exécutif xiv

Introduction Générale 1

1 Revue de Littérature 5

2 Présentation et Analyse Descriptive des Données 13

2.1 Présentation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.1.1 Comment s'eectuent les ux physiques de GPS à la douane ? . . . . 13

2.1.2 Origine des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.1.3 Traitement des données manquantes . . . . . . . . . . . . . . . . . . 17

2.2 Analyse descriptive des données . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.2.1 Normalité, tendance et saisonnalité . . . . . . . . . . . . . . . . . . . 18

2.2.2 Le calcul de quelques statistiques de base . . . . . . . . . . . . . . . . 20

2.2.3 Etude statistique du délai de retour GPS . . . . . . . . . . . . . . . . 21

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

TABLE DES MATIÈRES v

3 Méthodologie Statistique 26

3.1 Quelques concepts fondamentaux . . . . . . . . . . . . . . . . . . . . . . . . 26

3.1.1 Processus stochastique . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.1.2 Prévision d'une série chronologique. . . . . . . . . . . . . . . . . . . . 27

3.1.3 La stationnarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.1.4 L'autocorrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.2 Le lissage exponentiel de Holt-Winters . . . . . . . . . . . . . . . . . . . . . 29

3.2.1 Méthode saisonnière . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.2.2 Méthode non saisonnière . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.3 Le modèle ARIMA saisonnier . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.3.1 Le modèle ARMA stationnaire et ses propriétés usuelles . . . . . . . 31

3.3.2 La méthodologie de Box et Jenkins . . . . . . . . . . . . . . . . . . . 33

3.4 Modèle à retards échelonnés . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.4.1 Méthode de Koyck . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.4.2 Cas de la prévision du ux de retour GPS . . . . . . . . . . . . . . . 36

3.4.3 Estimation des paramètres du modèle . . . . . . . . . . . . . . . . . . 37

3.4.4 Prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.5 Prévision en loi de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.5.1 Estimation par histogramme . . . . . . . . . . . . . . . . . . . . . . . 42

3.5.2 Estimateur à noyau continu . . . . . . . . . . . . . . . . . . . . . . . 46

3.5.3 Cas de la prévision en loi de la demande GPS . . . . . . . . . . . . . 48

3.6 Mesure de la qualité de la prévision . . . . . . . . . . . . . . . . . . . . . . . 48

4 Applications aux Données et Résultats 51

4.1 Modélisation et prévision de la demande eective . . . . . . . . . . . . . . . 51

4.1.1 Application de la méthode du lissage exponentiel Holt-Winters . . . . 51

4.1.2 Application de la méthode de Box et Jenkins . . . . . . . . . . . . . . 53

4.1.3 Prévision en loi de la demande eective . . . . . . . . . . . . . . . . . 56

4.2 Modélisation et prévision du ux de retour . . . . . . . . . . . . . . . . . . . 61

4.2.1 Application de la méthode du lissage exponentiel Holt-Winters . . . . 61

4.2.2 Application de la méthode de Box et Jenkins . . . . . . . . . . . . . . 63

4.2.3 Application de la méthode à retards échelonnés . . . . . . . . . . . . 66

5 Formalisation du Cadre Théorique de la Politique de Gestion de Stock 69

5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

5.1.1 Politiques de gestion de stock classiques . . . . . . . . . . . . . . . . 69

5.1.2 Modèles de politique de gestion de stock . . . . . . . . . . . . . . . . 70

5.1.3 Cas de la gestion de stock GPS . . . . . . . . . . . . . . . . . . . . . 71

5.2 Une formalisation mathématique de la gestion de stock GPS . . . . . . . . . 72

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

TABLE DES MATIÈRES vi

5.3 Probabilité de rupture et quantité à approvisionner . . . . . . . . . . . . . . 74

5.3.1 Estimation de la probabilité de rupture à l'horizon h . . . . . . . . . 74

Conclusion Générale 78

Annexe A : Compléments mathématiques 82

Annexe B : Tests d'hypothèses (Dénitions et Exemples) 86

Annexe C : Programmes R 90

Bibliographie 112

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

TABLE DES FIGURES vii

Table des gures

1 GPS GARMIN Oregon 300 . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2 Demande eective de GPS, prédiction Box Jenkins et bande de prédiction. . xv

3 Demande eective de GPS, prédiction en loi de probabilité suivant les jours

et bande de prédiction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xvi

4 Flux de retour GPS, prédiction Box Jenkins et bande de prédiction. . . . . . xvii

1.1 (a) Chaîne d'approvisionnement à sens unique, (b) Chaîne d'approvisionne-

ment en boucle fermée (reconditionnement, réutilisation) [6]. . . . . . . . . . 10

1.2 (a) Prévision de la demande, (b) Prévision des retours, approche à sens unique,

(c) Prévision des retours, approche CLSC [6]. . . . . . . . . . . . . . . . . . 11

2.1 Répartition des données disponibles dans le temps, (a) ux de sortie, (b) ux

de retour, (c) demande eective. . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.2 Prol chronologique de la série journalière de la demande eective de GPS. . 18

2.3 Prol chronologique de la série hebdomadaire du ux de sortie GPS. . . . . . 19

2.4 Prol chronologique de la série journalière du ux de retour GPS. . . . . . . 20

2.5 Périodogramme de la série du ux de sortie hebdomadaire de GPS. . . . . . 21

2.6 Lag plot du ux de retour journalier de GPS. . . . . . . . . . . . . . . . . . 22

2.7 Histogrammes des séries d'observations. . . . . . . . . . . . . . . . . . . . . . 23

2.8 Boîte à moustaches pour la variable durée avant disponibilité. . . . . . . . . . 23

2.9 Ajustement par la fonction de répartition du délai de retour. . . . . . . . . . 24

3.1 Histogrammes et densité des données simulées correspondant aux nombres de

classes m = 10,m = 110 et m = 250. . . . . . . . . . . . . . . . . . . . . . . 44

4.1 Prol chronologique de la série journalière de la demande eective de GPS. . 52

4.2 Demande eective GPS, prédiction Holt-Winters et bande de prédiction. . . 52

4.3 Demande eective de GPS, ACF (gauche) et PACF (droite). . . . . . . . . . 53

4.4 Demande eective GPS diérenciée saisonnièrement, ACF (gauche) et PACF

(droite). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

TABLE DES FIGURES viii

4.5 Demande eective GPS diérenciée saisonnièrement, résidu estimé du modèle,

ACF (gauche) et PACF (droite). . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.6 Demande eective GPS diérenciée saisonnièrement, résidu estimé du modèle

après ajout des deux premiers termes autorégressifs, ACF (gauche) et PACF

(droite). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.7 Demande eective de GPS, prédiction Box Jenkins et bande de prédiction. . 56

4.8 Autocorrélogramme de la série de la demande eective. . . . . . . . . . . . . 56

4.9 Ajustement par histogramme et par noyau de la loi de probabilité de la de-

mande eective. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.10 Demande eective de GPS, prédiction en loi de probabilité et bande de pré-

diction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.11 Ajustement Gamma pour chaque jour de la semaine, demande eective GPS. 60

4.12 Demande eective de GPS, prédiction en loi de probabilité suivant les jours

et bande de prédiction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.13 Prol chronologique de la série journalière du ux de retour GPS. . . . . . . 62

4.14 Flux de retour GPS, prédiction Holt-Winters et bande de prédiction. . . . . 62

4.15 Flux de retour GPS, ACF (gauche) et PACF (droite). . . . . . . . . . . . . . 63

4.16 Flux de retour GPS diérencié saisonnièrement, chronogramme et ACF. . . . 64

4.17 Flux de retour GPS, diérents modèles SARIMA. . . . . . . . . . . . . . . 65

4.18 Flux de retour GPS, prédiction Box Jenkins et bande de prédiction. . . . . . 66

4.19 Estimation de p et q, algorithme EM. . . . . . . . . . . . . . . . . . . . . . . 67

4.20 Flux de retour GPS, prévision par le modèle à retards échelonnés. . . . . . . 68

5.1 Loi de probabilité estimée de la demande nette. . . . . . . . . . . . . . . . . 73

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

LISTE DES TABLEAUX ix

Liste des tableaux

1.1 Espérance de yτ−i,τ+j, le nombre de retours de la période τ + j provenant des

ventes de la période τ − i, pour diérents ensembles d'informations. . . . . . 8

2.1 Statistiques descriptives usuelles pour les trois variables d'intérêt. . . . . . . 21

2.2 Statistiques descriptives usuelles pour la v.a. durée avant disponibilité. . . . . 22

3.1 Espérance de Rt−i,t+h, le ux de retour du jour t+ h provenant des sorties du

jour t− i, pour diérents ensembles d'informations. . . . . . . . . . . . . . . 40

4.1 Série de la demande, paramètres estimés et statistiques du modèle SARIMA. 55

4.2 MAPE pour les deux méthodes de prévision en valeur de la demande eective

de GPS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.3 Prévision en loi de la demande eective de GPS, quelques critères calculés. . 59

4.4 Prévision en loi (version 2) de la demande eective de GPS, quelques critères

calculés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4.5 Série du ux de retour, paramètres estimés et statistiques du modèle SARIMA. 64

4.6 MAPE pour les deux méthodes de prévision en valeur du ux de retour GPS. 65

5.1 Notations principales adoptées dans ce chapitre. . . . . . . . . . . . . . . . . 71

5.2 Demande eective de GPS, valeurs prédites par Box-Jenkins et bornes de

l'intervalle de prédiction à 95%. . . . . . . . . . . . . . . . . . . . . . . . . . 88

5.3 Flux de retour GPS, valeurs prédites par Box-Jenkins et bornes de l'intervalle

de prédiction à 95%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

AVANT-PROPOS x

Avant-propos

Dans le cadre de la formation des ingénieurs chercheurs statisticiens, le MASTAT prévoit

un stage d'une durée de quatre à six mois au terme de la deuxième année. Ce stage est

l'occasion, pour le futur ingénieur chercheur, de mettre en pratique les connaissances pra-

tiques et théoriques acquises pendant ses deux années de formation. Le stage a aussi pour

but de permettre à l'étudiant de s'imprégner des réalités de la vie professionnelle qui sont

évidemment diérentes des réalités académiques.

L'entreprise Polytech-Valor a bien voulu m'accueillir, pour le stage que nous avons ef-

fectué à la Direction de la Recherche. Conformément à l'un des objectifs principaux de la

politique de gestion de stock GPS à la Douane Camerounaise, qui est celle de mettre en

oeuvre un modèle d'application capable de gérer ecacement les diérents ux physiques

de GPS, an d'optimiser la quantité de GPS à pourvoir pour le lancement des voyages dans

un horizon donné, il nous a été coné la tâche de prédire la demande et le ux de retour

GPS. En outre, nous devons proposer une formalisation du cadre théorique de la politique

de gestion de stock.

Ce travail constitue, pour nous, un premier pas dans la recherche et il reste entière-

ment ouvert à toutes les critiques qui permettront de l'améliorer. Cependant, nous espérons

qu'il aidera les administrations douanières ou, de manière indirecte, les professionnels de

Polytech-Valor à proposer des solutions fortes en matière de gestion de stock aux respon-

sables douaniers.

Signalons que l'ensemble des résultats obtenus par application numérique et mentionnés

dans ce mémoire ont été obtenus grâce au logiciel R 3.0.2 [36], car il est libre, gratuit, et

c'est celui avec lequel nous avons eectué la majeure partie de notre formation pratique.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

LEXIQUE DES TERMES TECHNIQUES xi

Lexique des termes techniques

GPS : Global Positionning System.

Transit de marchandises : Dans ce mémoire, ceci désignera le processus qui consiste

à faire passer des marchandises du port de Douala aux postes frontières.

Demande eective : Pour faire transiter les marchandises, les acteurs du secteur sol-

licitent des transporteurs (camions) appropriés auprès des autorités douanières. Or, selon la

réglementation en vigueur, à chaque camion destiné au transit est obligatoirement associé

un GPS. Dans notre étude, nous parlerons de demande eective de GPS.

Flux de sortie : Nous appellerons ux de sortie ou ux de sortie GPS , le nombre

de GPS (ou encore de voyages) mis en transit.

Durée avant disponibilité : La durée avant disponibilité ou délai de retour d'un GPS

désignera le temps qui sépare la date de début de lancement du voyage à la date de retour

au port du GPS associé.

Flux de retour : Nous appellerons ux de retour ou ux de retour GPS , le

nombre de GPS retournés à la base portuaire.

Stock : Un stock est une quantité d'articles emmagasinés. Dans notre travail, il s'agira

de stocks de GPS disponibles pour le lancement des voyages.

Gestion de stock : Ensemble des techniques permettant au gestionnaire d'obtenir la

meilleure gestion possible des ux d'entrée et de sortie. Et ce, dans l'optique de satisfaire la

clientèle tout en minimisant les coûts.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

RÉSUMÉ xii

Résumé

Le travail présenté dans ce mémoire apporte quelques éléments de réponse à la problé-

matique générale de gestion de stock GPS à la Douane Camerounaise. Plus précisément,

nous nous concentrons sur la prévision de la demande eective et la prévision du ux de

retour GPS, en plus de proposer une formalisation du cadre théorique d'une politique de

gestion de stock. Nous considérons une méthode de prévision dite en loi de probabilité ,

et trois autres modèles de prévision en analyse des séries temporelles : le lissage exponentiel

de Holt-Winters, le modèle ARIMA saisonnier et le modèle à retards échelonnés.

Pour la prévision de la demande eective GPS, la performance prédictive de chacun des

trois premiers modèles cités est évaluée avec un indicateur d'ajustement, à savoir le critère

MAPE. L'utilisation de ce critère conduit au choix de la méthode de prévision Box et

Jenkins, comme méthode produisant les meilleurs résultats. De plus, pour des prévisions du

moment de rupture ou l'ampleur de la rupture, il nous semble judicieux de considérer la

méthode de prévision en loi de probabilité, ceci grâce au critère JRGPS introduit dans ce

mémoire.

Pour la prévision du ux de retour GPS, et, sur la base des informations disponibles

dans le cadre de ce mémoire, l'application des trois dernières méthodes citées ci-dessus nous

a conduit au choix de la méthode de Box et Jenkins, comme celle produisant les meilleurs

résultats prévisionnels en termes du critère MAPE.

Ce mémoire propose également une formalisation du cadre théorique d'une politique de

gestion de stock à point de commande adaptée au contexte des ux physiques de GPS, dans

laquelle nous apportons des éléments de réponse, notamment sur la quantité à approvisionner

et l'estimation de la probabilité de rupture. Cette formulation se base sur nos connaissances

mathématiques, notre compréhension du problème dans sa globalité et sur nos diérentes

lectures d'articles consacrés à ce domaine et présentés dans les références bibliographiques.

Mots clés : prévision, demande eective de GPS, ux de sortie GPS, ux de retour

GPS, modèles de séries temporelles, lissage exponentiel, modèle ARIMA saisonnier, modèle

à retards échelonnés, loi de probabilité, gestion de stock, GPS, transit.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

ABSTRACT xiii

Abstract

The work presented in this paper provides some answers to the general problem of GPS

stock management at the Cameroonian custom. Specically, we focus on demand forecasting

and prediction of the return ow of GPS, in addition to providing a formalization of the

theoretical framework of the stock management policy. We consider one prediction method

called law of probability and three models in time series analysis : exponential smoothing

of Holt-Winters, the ARIMA seasonal model and the lag model.

For demand forecasting, predictive performance of the rst three models is assessed

with an adjustment indicator, such as MAPE criterion. According to this criterion, the

Box-Jenkins method seems to be the best prediction method. Besides, for the predictive of

breaking-point or rupture fullness, it could be judicious to also consider the law of probability

method, according to the JRGPS criterion.

For the prediction of the return ow and according to the informations provided, the

application of the last three methods mention above lead us to the Box-Jenkins method as

the best prediction method according to the MAPE criterion.

This thesis also propose a formalization of the theoretical framework of the GPS stock

management policy t to the physical ow context. We also propose the formulation of the

command quantity and estimation of the breaking-point probability. This formulation is ba-

sed on our mathematical knowledge, our understanding of the basic problem and our reading

of various articles devoted to this area and presented in the references.

Key words : forecasting, GPS demands, GPS exit ow, GPS return ow, time series

models, smoothing exponential model, ARIMA seasonal model, lag model, law of probability,

stock management, GPS, transit.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

RÉSUMÉ EXÉCUTIF xiv

Résumé Exécutif

Problème. Le système de gestion de stock GPS à la Douane Camerounaise est confronté

à divers problèmes, notamment celui de la prévision de ses diérents ux physiques de GPS.

C'est à l'occasion des uctuations plus ou moins marquées de tendances de la demande ou

du ux de retour GPS que l'essentiel des pertes se réalise : soit par sur-stock, du fait d'une

demande qui échit brutalement par rapport aux prévisions, soit, au contraire, par perte de

chire d'aaires, due aux ruptures. Il est donc urgent pour le gestionnaire de stock GPS,

de disposer d'un ou plusieurs modèles de prévisions lui permettant de gérer ecacement les

stocks, an de s'éloigner des considérations totalement subjectives. Face à cette probléma-

tique, notre contribution se situe à deux niveaux : (1) construire des modèles statistiques de

prédiction en loi et en valeur pour la demande eective et le ux de retour GPS ; (2)

proposer une formalisation du cadre théorique d'une politique de gestion de stock plausible

et adaptée au contexte douanier.

Méthodes. Pour répondre à la première dimension du problème qui nous a été posé, des

échantillons de données sur nos variables d'intérêt (demande eective et ux de retour GPS)

nous ont été remis. Toutes ces données ont une structure de série chronologique. Elles per-

mettent à cet eet, de disposer des informations sur la demande eective journalière de GPS

et le ux de retour journalier de GPS. Plus précisément, ils serviront à la mise en oeuvre

des modèles de prévision. Nous avons utilisé quatre méthodes statistiques prévisionnelles, à

savoir :

∗ Une méthode de prévision en loi utilisant l'estimation de loi de probabilité ;

∗ La méthode du lissage exponentiel de Holt-Winters ;

∗ La méthode de Box et Jenkins ;

∗ La méthode à retards échelonnés.

Pour répondre à la deuxième dimension du problème, nous nous basons sur nos connais-

sances mathématiques, notre compréhension du problème et sur certaines études théoriques

présentées dans la littérature, notamment celles exposées dans [9,32].

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

RÉSUMÉ EXÉCUTIF xv

Résultats. Comme résultats obtenus dans ce mémoire, nous avons :

1. La série du ux de retour admet une saisonnalité de 6 jours, et le délai de retour (ou

durée avant disponibilité) GPS suit une distribution de Poisson.

2. De l'application des méthodes de Holt-Winters et de Box et Jenkins sur la série jour-

nalière de la demande eective GPS, avec les observations préalablement transformées

par la fonction log, il ressort que, la méthode de prévision de Box et Jenkins s'avère la

plus performante dans la qualité des résultats prévisionnels obtenus, et ce, en termes

du critère MAPE (MAPE = 5.85%). La gure 2 en fait une illustration graphique

pour la série journalière non transformée.

Figure 2 Demande eective de GPS, prédiction Box Jenkins et bande de prédiction.

3. Pour l'estimation de la loi de probabilité de la demande eective, nous obtenons la

loi Gamma. L'approche de prévision en loi utilise cette loi Gamma, et elle semble

performante pour la prédiction du nombre de réalisations de l'évènement rupture de

stock GPS, et ce, en termes du critère JRGPS. En utilisant la seconde version de cette

approche de prévision (selon cette version, au lieu d'avoir une seule loi Gamma pour la

distribution des données, nous avons plutôt 6 lois Gamma correspondants aux 6 jours

de la semaine), on obtient les prédictions schématisées à la gure 3.

4. La modélisation et la prévision à la journée du ux de retour GPS (observations préa-

lablement transformées par la fonction log) ont permis de sélectionner, selon le critère

MAPE, la méthode classique de Box et Jenkins comme celle produisant les meilleurs

résultats (MAPE = 7.03%). La gure 4 en fait une illustration graphique pour la série

journalière non transformée.

5. Après examen de l'état de l'art dans un contexte de gestion de stock avec réutilisation

de l'article, nous arrivons à proposer une politique de gestion à point de commande

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

RÉSUMÉ EXÉCUTIF xvi

Figure 3 Demande eective de GPS, prédiction en loi de probabilité suivant les jours et

bande de prédiction.

adaptée au contexte de la Douane Camerounaise. Se référer au chapitre cinq pour les

détails sur cette politique de gestion. En outre, dans le paragraphe recommanda-

tions qui suit, nous proposons une démarche opérationnelle pour la mise en oeuvre

de cette politique.

6. Nous proposons aussi trois approches d'estimation de la probabilité de rupture de stock

GPS : deux approches par simulation et une approche par calcul théorique , utilisant

notamment la notion d'espérance conditionnelle.

Recommandations. A la lumière des diérentes analyses et les diérents résultats ob-

tenus au terme de cette étude, nous préconisons dans l'encadré suivant, un ensemble de

recommandations que pourra adopter le gestionnaire de stock GPS à la Douane Camerou-

naise, pour améliorer considérablement la qualité de ses services :

1. Sur les données

Mettre en place une phase de vérication du recueil de l'information brute, de sorte

que l'on ne retrouve plus dans les bases de données des incohérences, du genre : un

même voyage qui a deux voire trois dates de départ diérentes. Nous préconisons

également d'améliorer la qualité et la quantité d'informations disponibles.

2. Sur les méthodes de prévision

Nous suggérons, en cas d'observations mensuelles importantes : (i) d'utiliser la

méthode de lissage de Holt-Winters pour prédire la tendance du mois ou des mois

futurs ; (ii) d'utiliser, soit la méthode de Box et Jenkins, soit une approche de

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

RÉSUMÉ EXÉCUTIF xvii

Figure 4 Flux de retour GPS, prédiction Box Jenkins et bande de prédiction.

combinaison de méthodes de prévision, pour prévoir les uctuations journalières

de la demande et du ux de retour. Surtout utiliser la méthode de prévision en loi

dans le but de prédire le moment de rupture.

3. Sur la politique de gestion de stock GPS

La démarche que nous proposons est la suivante :

• considérer un horizon de planication mensuelle ;

• utiliser la méthode de prévision par lissage de Holt-Winters pour prédire la ten-

dance des observations d'un mois. Ce qui donnera une première idée sur la quantité

de GPS à commander au début du mois ; pour plus de précision, on peut ajuster

cette quantité commandée Q0 en tenant compte des prévisions journalières couplées

(données en bloc de deux jours) de la demande et du ux de retour GPS, des pré-

visions de la première semaine et éventuellement de la semaine d'après (méthode

Box et Jenkins, méthode en loi de probabilité) ;

• à un couple de jours t, si on ne prédit pas de rupture de stock GPS dans le

prochain couple de jours, on n'exécute aucune opération jusqu'à ce qu'on soit dans

le couple de jours t+ 1, et ainsi de suite. Si, par contre, on prédit la rupture dans

le prochain couple de jours, alors, il est nécessaire à cet instant t, de passer une

commande de quantité Qt telle que dénie dans la formule (1), où DNt est la de-

mande nette (demande - retour) du couple de jours t, et St la position de base du

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

RÉSUMÉ EXÉCUTIF xviii

stock à la n du couple de jours t.

Qt =

St − St−1 +DNt si St−1 −DNt < St,

0 sinon.(1)

∗ Comment prévoir la rupture de stock GPS ?

Pour prévoir la rupture dans le prochain couple de jours, le gestionnaire devra se

servir simultanément de tous les indicateurs de ruptures exposés dans ce mémoire,

notamment :

Pt,1, estimation de la probabilité de rupture de stock GPS à l'instant t+ 1 sachant

qu'il n'y a pas eu rupture en t et pas de réapprovisionnement entre t et t+1, donnée

par la formule (2) ;

Pt,1 = P(Dt+1 −Rt+1 > PSt+1

). (2)

IRt+1, estimation de l'indicateur de rupture de stock GPS à l'instant t+ 1, donnée

par la formule (3) ;

IRt+1 =

1 si Dt+1 −Rt+1 > PSt+1,

0 sinon.(3)

ou encore le critère JRGPS donné par la formule (4), avec hmax le nombre d'ob-

servations à prédire.

JRGPS =hmax∑h=1

1Dh>Vh(Dh − Vh). (4)

Dans chacune des formules (2)-(4), Dt est la demande totale de l'instant t, Rt le

ux de retour de l'instant t, Vt le ux de sortie de l'instant t, PSt la position du

stock au début de l'instant t et PSt la valeur prédite.

Limites et perspectives. Les deux principales limites de ce travail sont : (1) la taille

réduite des diérents échantillons de données ; (2) l'indisponibilité des articles (payants)

[16,18,19], ce qui a eu un impact non négligeable sur les valeurs prédites de la série du ux

de retour GPS, par la méthode à retards échelonnés. En eet, certains auteurs montrent que,

sous certaines hypothèses (que les données que nous disposons vérient), les informations

de type C et D présentées dans l'exposé de la méthode à retards échelonnés (cf. chapitre 3)

produisent des valeurs prédites bien meilleures que l'information du type B utilisée dans ce

mémoire.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

RÉSUMÉ EXÉCUTIF xix

Comme perspectives futures, nous pensons qu'il serait intéressant : (1) de rendre dispo-

nible les diérents articles dont ont besoin certains travaux présentés dans ce mémoire ; (2)

pour améliorer davantage les prévisions, envisager comme dans [14] la méthode de combinai-

son des prévisions ; (3) améliorer la qualité du recueil des données et la quantité de données

disponibles, de sorte que l'on puisse mener des analyses sur une unité de temps mensuelle par

exemple ; (4) envisager un modèle de prédiction du ux de retour, non plus en considérant

uniquement une forme de loi spécique aux durées avant disponibilité de GPS, mais plutôt,

une forme de distribution plus réaliste prenant en compte les co-variables qui inuencent la

durée d'un voyage.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

RÉSUMÉ EXÉCUTIF xx

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

INTRODUCTION GÉNÉRALE 1

Introduction Générale

Contexte

D'après Achille Mbog Pibasso (Janvier 2010) [25], Le Cameroun a entamé des discus-

sions pour l'amélioration du transit avec ses deux voisins dépourvus de façade maritime, la

Centrafrique et le Tchad, dont 80% des marchandises passent par le port de Douala. Ces

discussions sont consécutives à l'introduction, il y a quatre mois, par le Cameroun, d'un

nouveau système de contrôle et de suivi des marchandises, le Global Positionning System

(GPS) . Le système GPS est une infrastructure matérielle légère permettant l'analyse de

traces de véhicules par relevés de géo-positionnement. Son utilisateur peut ainsi être informé

en temps réel de l'évolution du transit. La Douane Camerounaise se réapprovisionne en GPS

de manière aléatoire au l du temps. Les quantités approvisionnées uctuent en fonction

des ux entrants et sortants enregistrés précédemment et, éventuellement, en fonction des

moyens nanciers disponibles (car l'acquisition de ce service intelligent exige néanmoins des

moyens nanciers conséquents).

Cependant, certains acteurs du secteur ont armé rencontrer énormément de dicultés,

principalement dues au fait qu'il n'y a pas susamment de GPS pour satisfaire la demande

de tous les opérateurs. Une première approche que la Douane a mise sur pied pour pallier

à ce problème a été d'utiliser systématiquement de grandes quantités de stock de GPS.

Mais, cette approche pose cependant des soucis majeurs. En eet, Les stocks mobilisent

de l'argent, et le succès ou l'échec de la gestion de stock aecte la situation nancière de

l'entreprise. Avoir trop de stock peut être aussi problématique que des ruptures de stock.

Trop de stock entraîne des dépenses inutiles liées aux coûts de stockage et d'obsolescence,

tandis que trop peu de stock conduit à des ruptures de stock (Verwijmeren, Van Der Vlist

et al., 1996). Par conséquent, il est indéniable que le bon fonctionnement de la Douane en ce

qui concerne les opérations de lancement des voyages repose essentiellement sur la maîtrise

de la gestion de ses ux physiques de GPS.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

INTRODUCTION GÉNÉRALE 2

Problématique

Pour mieux situer les diérents problèmes rencontrés en gestion de la production, les dé-

cisions de gestion sont classées en trois catégories [2] : décisions stratégiques, tactiques et

opérationnelles. Les décisions stratégiques se traduisent par la formulation d'une politique

à long terme (de quelques mois à plusieurs années) de l'entreprise qui concerne le choix des

fournisseurs, des ressources, d'un mode transport, etc. Les décisions tactiques correspondent

à un ensemble de décisions à moyen terme (de quelques semaines à plusieurs mois). Parmi

les décisions tactiques, on trouve la planication de la production. Les décisions opération-

nelles assurent la exibilité quotidienne nécessaire pour faire face aux uctuations prévues

de la demande et des délais, et permettent de réagir face aux aléas dans le respect des

décisions tactiques. Parmi les décisions opérationnelles, on trouve la gestion des stocks et

l'ordonnancement. Ce mémoire s'intègre dans la problématique de gestion de stock GPS

dans une chaîne logistique en boucle fermée (nous reviendrons plus en détail sur cette ter-

minologie dans le chapitre suivant) face aux aléas tels que la demande, le ux de sortie, les

durées eectives des voyages et le ux entrant (quantité réapprovisionnée, ux de retour).

Le gestionnaire de stock douanier, dans sa prise de décision, devra tenir compte de tous ces

paramètres aléatoires simultanément. Le travail eectué dans ce mémoire se situe donc au

niveau de décisions opérationnelles à court terme (de quelques jours à plusieurs semaines).

Plus précisément, il s'agit de prévoir la demande et le ux de retour GPS.

Objectifs

Parallèlement à l'amélioration du suivi dans le transit de marchandises par l'introduction du

système GPS, les bases de données décrivant les informations liées aux voyages se ranent.

Elles permettent, entre autres, de constituer des historiques de mesures quotidiennes des

diérentes variables d'intérêts considérées. Etant donné que ces mesures ont une structure

chronologique, nous disposons à cet eet de deux séries chronologiques journalières : une série

sur la demande eective de GPS et une série sur le ux de retour GPS. L'objectif principal

de ce mémoire est de mettre en oeuvre des approches statistiques de prévision basées sur

ces observations chronologiques, et permettant d'aider le gestionnaire de stock à optimiser

la quantité de GPS à pourvoir dans un horizon h donné, et ce, pour satisfaire la demande

tout en minimisant les coûts.

An de fournir des outils permettant de donner des éléments de réponse à la probléma-

tique ci-dessus, ce travail est mené pour aboutir aux trois objectifs spéciques suivants.

Objectif 1 : Produire des prévisions à court terme pour la demande eective de GPS.

Objectif 2 : Produire des prévisions à court terme pour le ux de retour GPS.

Objectif 3 : Proposer une formalisation du cadre théorique d'une politique de gestion de

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

INTRODUCTION GÉNÉRALE 3

stock GPS adéquate pour la Douane Camerounaise.

Organisation du mémoire

Le plan de ce mémoire est organisé en se basant sur la séquence des objectifs visés. A la suite

de cette introduction générale, il s'articule autour de cinq chapitres.

Le premier chapitre propose une revue de littérature sur nos modèles d'intérêt, particu-

lièrement les modèles à retards échelonnés et les méthodes non paramétriques de prévision.

Le deuxième chapitre sera consacré à la présentation et à l'analyse descriptive des données

disponibles. Dans ce chapitre, la section 1 fera une présentation des données et la section 2

proposera une analyse descriptive des données.

Le troisième chapitre de notre travail présentera les méthodologies statistiques utilisées

dans ce mémoire, où nous décrivons un peu plus en détail quelques unes de méthodologies

retenues, déduites de la revue de littérature. Il sera composé principalement de quatre mé-

thodes : la méthode 1 portera sur le lissage exponentiel de Holt-Winters, la méthode 2 sur

le modèle ARIMA saisonnier ; la méthode 3, quant à elle, exposera le modèle à retards

échelonnés et enn une méthode de prévision en loi de probabilité .

Le quatrième chapitre se focalisera essentiellement sur l'application des méthodes statis-

tiques exposées précédemment sur les données disponibles. Dans ce chapitre, partant d'un

échantillon de données, il sera question de développer, selon la méthode de prévision em-

ployée, le principe de la modélisation conduisant à la prédiction des valeurs futures. La

section 1 abordera la prévision de la demande eective de GPS et la section 2, la prévision

du ux de retour GPS.

Le cinquième chapitre sera l'objet d'une proposition de formalisation du cadre théorique

de la politique de gestion de stock de GPS à la Douane Camerounaise.

Nous terminerons la présente étude par une conclusion générale dans laquelle nous ferons

une synthèse de tout ce qui a été évoqué dans les diérents chapitres. Après cette synthèse,

nous présenterons quelques limites et perspectives liées aux travaux réalisés dans le cadre de

ce mémoire et, préconiserons quelques recommandations. Par ailleurs, nous signalons ici que

les applications numériques de nos analyses statistiques ont été eectuées avec le logiciel R

[36].

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

INTRODUCTION GÉNÉRALE 4

Notations

Nous donnons ci-dessous les conventions d'écriture adoptées :

Abréviations et symboles :

P : probabilité ;

E : espérance ;

V : variance ;

Cov : covariance ;E(X | Y ) : espérance conditionnelle de X sachant Y ;

1A : fonction indicatrice de l'évènement A ;

v′ : transposée de v ;

AIC : Critère d'information d'Akaïke (Akaike Information Criterion) ;

MAPE : Mean Absolute Percentage Error ;

v.a. : variable aléatoire ;

i.i.d. : indépendantes et identiquement distribuées ;

Typologie des mathématiques :

caractères italiques minuscules : variables non aléatoires,

caractères italiques majuscules : variables aléatoires,

caractères grecs : paramètres.

Numérotation des théorèmes et équations :

Un théorème comprend le numéro du chapitre courant, suivi du numéro de celui-ci au

sein de ce chapitre. Il en est de même pour une dénition, une proposition, une preuve,

un lemme.

Une équation comprend le numéro du chapitre courant, suivi du numéro de celle-ci au

sein de ce chapitre.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

REVUE DE LITTÉRATURE 5

Chapitre Premier

Revue de Littérature

Ce chapitre met en relief la littérature scientique sur les diérentes modèles de prévision

et de contrôle de stock. Il permettra de cerner, en particulier, les modèles de prévision de la

demande eective, et du ux de retour d'articles réutilisables 1 dans un contexte de gestion

d'une chaîne d'approvisionnement en boucle fermée 2. C'est à partir de cette revue et des

variables d'intérêt considérées que nous allons identier et, ainsi, construire les modèles théo-

riques, an d'atteindre les objectifs visés dans notre travail. Nous donnons ci-dessous, autant

que possible, les résumés du contenu des diérentes revues dont nous avons pris connaissance.

• Goh T. N. et Varaprasad. N. (1986), Méthodologie statistique pour l'analyse

du cycle de vie des conteneurs réutilisables.

Dans cet article, les auteurs proposent un modèle de fonction de transfert qui modélise la

relation entre les ventes et les retours. L'approche exige une série temporelle de demande

agrégée et une autre sur les données de retour agrégés. Ils utilisent cette méthode sur un

échantillon de 60 mois (l'unité de temps des observations étant le mois) pour estimer le taux

de Coca-Cola et Fanta retournés des marchés de Malaisie et Singapour. Dans leurs résul-

tats, ils ont observé que la quantité de retours d'une même vente n'était statistiquement

signicative que dans les trois premiers mois, avec près de deux tiers des conteneurs retour-

nés dans le même mois de l'émission. La proportion de conteneurs perdus était inférieur à 5%.

• Kelle P. et Silver. E. A. (1989a), Prévision des retours des conteneurs réuti-

lisables.

Dans cet article, quatre procédures de prévision diérentes, basées sur diérentes quantités

d'informations, sont développées. Les possibilités d'information supposent que, soit chaque

1. Un article réutilisable est un article utilisé pour une certaine opération, puis récupéré et réutilisé comme

article nouveau. Dans cette revue, un article désignera très souvent un conteneur, i.e. un article destiné à

contenir quelque chose (une boisson gazeuse par exemple).

2. Conceptuellement, une chaîne logistique ou d'approvisionnement représente les diérentes étapes que

suit un article de l'étape de départ à l'étape d'arrivée. Le fait que la chaîne soit en boucle fermée signie que

l'article une fois à l'arrivée retourne à l'étape de départ pour être réutilisé. En anglais, on parle de CLSC :=

Closed-Loop Supply Chain.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

REVUE DE LITTÉRATURE 6

article est suivi individuellement période après période, soit les articles sont suivis globale-

ment dans chaque période. Les méthodes sont comparées sur un large éventail de données

simulées, y compris certains cas fondés sur des données empiriques obtenues à partir de

l'industrie. Sans surprise, ils montrent que l'utilisation d'une information supplémentaire

améliore la performance.

• Kelle P. et Silver. E. A. (1989b), Politique d'achat de nouveaux conteneurs

compte tenu des retours aléatoires de conteneurs préalablement émis.

Un certain nombre d'organisations de ventes des produits dans des conteneurs peuvent être

réutilisés. Le temps de l'émission jusqu'au retour d'un conteneur individuel n'est générale-

ment pas connu avec certitude et il y a une chance que le conteneur ne soit jamais de retour

(en raison de la perte ou des dommages irréparables). Par conséquent, même si le motif de la

demande ou la vente est connu et son niveau avec le temps, il est encore nécessaire d'acquérir

de nouveaux conteneurs de temps en temps. Dans cette revue, une politique d'achat de ces

nouveaux conteneurs est déterminée pour un horizon de temps ni de manière à minimiser

le coût total des achats et des charges de remboursement prévu dans un niveau de service

prescrit. Le modèle stochastique associé est réduit à un problème dynamique déterministe de

la otte de lotissement, avec l'apparition éventuelle de la demande négative (demande nette

= demande - retour). D'habitude, une transformation de la demande négative nous permet

d'appliquer des procédures de lotissement déterministes bien connus pour obtenir la solution.

• Toktay L. B. et al (2000), Gestion de stock d'articles manufacturés.

Les auteurs de cet article attestent que : dans les décisions de planication de la produc-

tion et de gestion des stocks, le retour, le délai et le stock disponible associés à une période

donnée sont des caractéristiques clés de l'information. Pourtant, ces quantités ne sont pas

directement disponibles dans le stade client-utilisation d'une chaîne d'approvisionnement

avec remise à neuf de l'article. La remise à neuf étant le processus par lequel les produits

utilisés sont récupérés, traités et vendus comme des produits nouveaux. Pour modéliser le

ux de retour des caméras Kodak, ils laissent les retours dépendre des ventes à travers une

probabilité de retour et une distribution du délai de retour.

Ils utilisent la statistique bayésienne et l'analyse de survie pour estimer dynamiquement

les densités de probabilité pour la probabilité de retour et le délai de retour basé sur les don-

nées de l'évolution des ventes et des retours. A cet eet, le modèle de régression dynamique

est également utilisé par ces auteurs. L'estimation des paramètres est faite de deux manières

diérentes, selon l'information disponible : si l'information au niveau de la période est dis-

ponible (les quantités d'articles vendus et retournés sont connus par période), ils supposent

qu'il y a une densité discrète pour le délai de retour rD(d). Pour une caméra vendue à la

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

REVUE DE LITTÉRATURE 7

période t, la probabilité qu'elle retourne à la période t+ k est rD(k)p, où p est la probabilité

que la caméra retourne. Comme avec Kelle P. et Silver. E. A. (1989a), Toktay L. B. et al

(2000) proposent le modèle suivant :

mt = rD(1)pnt−1 + rD(2)pnt−2 + ...+ rD(t− 1)pn1 +Nt,

où nt désigne les ventes de la période t, mt les retours de la période t, avec m1 = 0. Les

données disponibles pour les caméras Kodak portent sur 22 observations mensuelles. Ils uti-

lisent le modèle ci-dessus sur les données de 22 mois de caméras Kodak avec un décalage

géométrique de paramètre q pour chercher la densité a postériori des paramètres du ux

de retour θ = (p, q). Les formules d'estimation de p et q dérivées de la densité jointe sont

présentées en annexe de leur document. Les auteurs montrent également que l'impact des

conditions initiales sur les valeurs estimées des paramètres est minime.

Si l'information au niveau de l'article est disponible, autrement dit on connaît le temps

de vente tvente de chaque article. A un instant t donné, quelques unes des caméras sont

retournées. Pour ces caméras, on connaît exactement le délai de retour. Pour d'autres par

contre, nous savons que leur délai est plus long que t−tvente. Ce type de données est considérécomme censurées à droite dans la littérature de l'analyse de survie. Les formules d'estimation

de p et q, dérivées de l'algorithme EM, sont présentées en annexe de leur document, toujours

avec un délai de retour géométrique.

• Toktay L. B., Van der Laan E. et De Brito M. P. (2003), Gestion d'articles :

le rôle de la prévision.

Les auteurs passent en revue les méthodes basées sur les données de prévision du ux de

retour qui exploitent le fait que les retours futurs sont fonction des ventes passées. Les

notations suivantes sont adoptées dans cette revue :

s(τ), vente de la période τ ;

u(τ), retour de la période τ ;

p, probabilité qu'un article vendu nira par revenir ;

rk, probabilité qu'un article vendu revienne après k périodes, étant donné que ce sera

retourné ;

νk, probabilité qu'un article vendu revienne après k périodes (νk = p.rk) ;

νk(τ), prévision de la période τ de νk ;

yτ−i,τ+j, total des retours de la période τ + j provenant des ventes de la période τ − i ;vτ,τ−i, total des retours jusqu'à et y compris la période τ provenant des ventes de la période

τ − i ;I(τ), ensemble des données disponibles à la n de la période τ pour prévoir les retours

futurs.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

REVUE DE LITTÉRATURE 8

Pour la prévision des retours, la première étape de tout exercice de prévision est de

construire un modèle de prévision qui modélise les variables à être prédites en fonction

des variables explicatives (Box et Jenkins, 1976). La clé de la prévision des retours est de

constater que les retours dans une quelconque période sont générés par les ventes dans les

périodes précédentes. Ils utilisent comme Goh T. N. et Varaprasad. N. (1986), le modèle de

fonction de transfert et notent également que ce modèle peut se réécrire sous la forme d'un

modèle à retards échelonnés.

Comme précédemment, ils font un classement des modèles de prévision utilisés dans la

littérature en fonction des données qu'ils exploitent. Si l'information au niveau de la période

est disponible, les données sont augmentées à chaque période dès que les informations de

ventes et de retours deviennent disponibles. Le caractère progressif de l'information reçue

fait de l'estimation bayésienne un choix naturel, comme utilisée dans Toktay L. B. et al

(2000). Habituellement, une forme spécique de distribution comportant un ou deux para-

mètres est supposée pour le délai de retour, qui réduit le nombre de paramètres à estimer

(distribution géométrique notamment). L'algorithme EM est utilisé pour l'estimation de ce

modèle lorsque c'est plutôt l'information au niveau de l'article qui est disponible.

Notons I(τ), l'information disponible à la n de la période τ qui sera utilisée pour prévoir

les retours futurs, et par ν(τ) =(ν1(τ), ν2(τ), ...

), l'estimation de la période τ du vecteur

ν = (ν1, ν2, ...). En particulier, Kelle et Silver (1989a) dénit

IA(τ) = ν(τ) (estimation de ν),

IB(τ) = ν(τ), s(τ− i), i = 0, 1, ..., τ (estimation de ν et historique de l'information

de vente au niveau de la période),

IC(τ) = ν(τ), s(τ − i), u(τ − i), i = 0, 1, ..., τ (estimation de ν et historique de

l'information de vente et de retour au niveau de la période), et

ID(τ) = ν(τ), s(τ − i), vτ,τ−i, i = 0, 1, ..., τ (estimation de ν et historique de l'in-

formation de vente et de retour au niveau de l'article).

Table 1.1 Espérance de yτ−i,τ+j, le nombre de retours de la période τ + j provenant des

ventes de la période τ − i, pour diérents ensembles d'informations.

Ensemble

d'information

E(yτ−i,τ+j|I(τ)

)i > 0 i = 0 i < 0

IA(τ) non applicable

IB(τ) νj+i(τ)s(τ − i) νj+i(τ)E(s(τ − i)

)IC(τ) νj+i(τ)s(τ − i) + c(i, j) νj(τ)s(τ) νj+i(τ)E

(s(τ − i)

)ID(τ)

νj+i(τ)

1−∑i

k=1 νk(τ)

(s(τ − i)− vτ,τ−i

)νj(τ)s(τ) νj+i(τ)E

(s(τ − i)

)

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

REVUE DE LITTÉRATURE 9

Sous l'hypothèse que toutes les demandes de la période sont mutuellement indépendantes

et les retours des diérentes demandes issues sont non corrélées, le tableau 1.1 énumère les ex-

pressions de E(yτ−i,τ+j|I(τ)

)sur la base de l'un des ensembles d'informations IA(τ), IB(τ),

IC(τ) ou ID(τ). Dans ce tableau, c(i, j) est un facteur qui tient compte de la corrélation entre

les retours observés à ce jour et les retours futurs. Une expression exacte de c(i, j) n'est pas

disponible en général, mais Kelle et Silver ont développé une approximation. La variance des

retours futurs peut aussi être estimée, même si ces expressions sont un peu plus compliquées

(Kelle et Silver, 1989a). Le nombre total de retours de la période τ + j est tout simplement

donné comme uτ+j =∑τ

i=−(j−1) yτ−i,τ+j, la moyenne et la variance de ce dernier pouvant être

estimées à partir de celles de ses éléments mutuellement indépendants. Le tableau montre

clairement que les expressions pour les retours futurs attendus E(yτ−i,τ+j|I(τ)

)ne dièrent

que par les retours des ventes au cours des périodes antérieures, à savoir i = 0, 1, ..., τ .

Les auteurs de cette revue comparent également les performances de ces méthodes de prévi-

sion dans un contexte particulier - celui de la gestion des stocks.

• Carrasco-Gallego R. et Ponce-Cueto E. (2009), Prévision des retours des

conteneurs réutilisables en chaîne d'approvisionnement en boucle fermée. Un

cas dans l'industrie du GPL.

Dans cet article, les auteurs remarquent que dans leur interaction avec les entreprises trai-

tant avec des éléments d'emballage réutilisables, les gestionnaires ont souvent fait état de

dicultés dans la gestion de ces systèmes logistiques. Les objets réutilisables, même s'ils

sont généralement un atout très coûteux, ne sont pas étroitement contrôlés et beaucoup

d'articles sont rapportés être perdus ou irrémédiablement endommagés. La décision sur le

moment d'acheter de nouveaux éléments et la façon dont le nombre doit être commandé

sont habituellement prises en fonction de considérations de marketing ou sur la disponibilité

des ressources nancières plutôt que sur la prise réelle de l'organisation opérationnelle de

besoins. Peu ou rien n'est connu au sujet de la rotation des objets dans le système et lorsque

certains savoir-faire opérationnels sur ce sujet existent, ils sont généralement basés sur des

estimations approximatives.

Toutes ces raisons leur font penser qu'il existe des possibilités pour les chercheurs de faire

des contributions dans ce domaine. C'est pourquoi ils ont identié la gestion des conteneurs

réutilisables comme un domaine de recherche intéressant et c'est l'objet de leur étude. Pour

leur étude de cas, les techniques ne nécessitant pas d'informations au niveau des articles

ont été appliquées à un ensemble de données réelles fournies par une entreprise utilisant des

contenants réutilisables de grande valeur pour la distribution de GPL (gaz de pétrole liquéé)

aux clients naux. Les informations provenant des bons de livraison étaient agrégées dans

une base mensuelle an d'obtenir de séries chronologiques de 60 observations. En revanche,

les résultats obtenus sont inattendus, et ils pensent que la principale cause de ces résultats

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

REVUE DE LITTÉRATURE 10

réside dans l'échange des conteneurs plein et vide imposées par la présente politique (poli-

tique de remplacement direct) ; les livraisons et les retours sont liés dans le temps, et donc

l'hypothèse de causalité unidirectionnelle très souvent imposée pour la validité du modèle

pourrait ne pas être respectée.

Les auteurs précisent que les prévisions des ventes futures sont faites sur la base des

valeurs passées de la même variable. A cet eet, l'approche mathématique utilisée dans

l'industrie est basée sur : les méthodes de prévision de séries chronologiques univariées. La

complexité des techniques varie de l'approche classique déterministe de méthodes telles

que le lissage exponentiel ou modèles de Winters, à l'approche contemporaine stochas-

tique de méthodes ARIMA.

Contrairement à la chaîne d'approvisionnement en sens unique (gure 1.1a), an d'avoir

une planication ecace et un processus de contrôle lorsqu'il s'agit d'une CLSC, prévoir sur

l'avenir les ventes et les retours est à la fois nécessaire (gure 1.1b).

Figure 1.1 (a) Chaîne d'approvisionnement à sens unique, (b) Chaîne d'approvisionne-

ment en boucle fermée (reconditionnement, réutilisation) [6].

Une approche possible pour obtenir des prévisions de retour serait d'appliquer des mo-

dèles de série chronologique univariée à un ensemble de données passées (gure 1.2b). Lorsque

la seule information disponible est l'historique des retours, ceci semble être une approche rai-

sonnable. Les méthodes de prévision de retour décrites dans la littérature sont fondées sur

l'idée que, avec une probabilité donnée, les ventes passées génèreront un retour futur après

un délai donné. L'approche de prévision naturelle est alors l'utilisation des modèles de ré-

gression dynamique (Pankratz 1991), qui modélise la relation entre les ventes et les retours

(gure 1.2c). Ces modèles sont également connus dans la littérature en tant que modèles de

fonction de transfert ou modèles à retards échelonnés.

• Carbon M. et Francq C. (), Estimation non paramétrique de la densité et

de la régression, prévision non paramétrique.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

REVUE DE LITTÉRATURE 11

Figure 1.2 (a) Prévision de la demande, (b) Prévision des retours, approche à sens unique,

(c) Prévision des retours, approche CLSC [6].

Dans cet article, les auteurs donnent un aperçu sur l'estimation non paramétrique de la

densité et de la régression. Après cet aperçu, ils détaillent et interprètent une méthode de

prévision, dite prévision non paramétrique. Ils montrent les diérents aspects aussi bien

techniques que pratiques, et la compare, sur quelques exemples, à la méthodologie de Box et

Jenkins. Les diverses séries utilisées sont ou bien simulées, ou bien extraites de la littérature.

Notamment la série chronologique sur le trac voyageur (Gouriéroux 1990).

• Autres.Plusieurs autres études dans la littérature abordent le problème de gestion de stock d'articles

réutilisables dans un contexte CLSC (Closed-Loop Supply Chain). Ces études concernent

pour la plupart, l'analyse prévisionnelle des retours et des ventes, l'analyse des coûts et

des moyens mis en oeuvre pour les réduire au maximum, l'analyse de l'impact d'une dés-

information, ou encore l'analyse des politiques nouvelles et ecaces de gestion de stock en

CLSC.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

REVUE DE LITTÉRATURE 12

Résumé du chapitre

Ce chapitre avait pour but d'exposer de manière brève, l'état de l'art sur les approches

les plus souvent utilisées pour prévoir les ux physiques de produits, et ce dans un contexte

de gestion de stock avec réutilisation du produit. Pour cela, nous avons présenté sommai-

rement les principaux articles sur lesquels nous nous sommes basés pour mettre en relief,

dans la suite de ce mémoire, les diérentes méthodes statistiques utilisées. A la lumière de

cette revue de littérature et, compte tenu de la politique de gestion de stock en vigueur

à la Douane Camerounaise, nous nous rendons à l'évidence que le travail de prévision sur

lequel est concentré ce mémoire est essentiellement basé sur deux aspects fondamentaux :

les données disponibles et les méthodes ou modèles statistiques envisageables. Pour ce faire,

le chapitre suivant met en relief la présentation et l'analyse descriptive de l'ensemble des

données disponibles pour la résolution du problème posé. Le chapitre d'après, lui, exposera

les méthodes statistiques retenues.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PRÉSENTATION ET ANALYSE DESCRIPTIVE DES DONNÉES 13

Chapitre Deux

Présentation et Analyse Descriptive

des Données

L'objet de ce chapitre est de se familiariser avec les données, an d'en dégager des in-

formations caractéristiques nous permettant de choisir les méthodes statistiques les plus

appropriées pour les prédire. Pour ce faire, nous donnerons tout d'abord l'origine des don-

nées et leurs types. Ensuite, un traitement sera eectué sur ces données en vue de les épurer.

Nous terminerons ce chapitre par une description sommaire des données.

2.1 Présentation des données

2.1.1 Comment s'eectuent les ux physiques de GPS à la douane ?

Les ux physiques de GPS à la Douane peuvent être résumés en trois phases, selon la

gure 1.1b. Nous parlerons de : phase d'enregistrement, phase de transit et phase de retour.

• Phase d'enregistrement

Cette phase concerne le réapprovisionnement et la demande de GPS. En eet, pour un jour

t donné, le gestionnaire va enregistrer, au courant de la journée, un certain nombre de de-

mandes (eectives) de transit de marchandises. Or, comme nous l'avons précisé auparavant,

à une demande de transit de marchandises correspond une demande de GPS. Nous intro-

duisons donc la notation De,t comme étant la v.a. modélisant la demande eective de GPS

enregistrée le jour t. Dans le contexte de gestion à la Douane, les demandes non satisfaites

sont diérées. D'après le gestionnaire, les demandes non satisfaites sont dues, pour la plu-

part, soit à des dossiers incomplets, soit à des ruptures de stock, etc. Ainsi, pour un jour t

donné, la v.a. demande totale de GPS enregistrée, notée Dt, sera égale à la v.a. demande

résiduelle du jour précédent, notée Dr,t−1, auquel on ajoute la v.a. demande eective du jour.

Ce qui nous donne la relation :

Dt = Dr,t−1 +De,t. (2.1)

De plus, au courant de la même journée t, le gestionnaire donnera l'autorisation de

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PRÉSENTATION ET ANALYSE DESCRIPTIVE DES DONNÉES 14

lancement de voyages ou de GPS parmi les Dt demandes enregistrées (les demandes sont

servies selon l'approche FIFO, c'est-à-dire rst in, rst out, ou premier arrivé, premier servi).

En notant par Vt, la v.a. modélisant le ux de sortie GPS de la journée t, nous en déduisons

immédiatement la relation :

Dr,t = Dt − Vt. (2.2)

• Phase de transitUne fois le GPS posé sur le camion, celui-ci est autorisé à débuter le voyage. Les voyages

eectués le jour t peuvent emprunter plusieurs directions ou itinéraires possibles. De ce fait,

parmi les Vt voyages eectivement lancés au courant de la journée t, nous noterons par Nt,d

la v.a. désignant le nombre de voyages partis dans la direction d, avec d = 1, 2, ..., κ, de sorte

que

Nt,1 +Nt,2 + ...+Nt,κ = Vt.

Il est clair que chaque GPS en transit possèdera une durée de voyage avant d'arriver aux

postes frontières. Précisément, chaque voyage v eectué le jour t dans la direction d, notée

vt,d, a une durée Tv,t,d avant d'arriver à destination. Pour simplier, nous noterons Tv,X cette

durée, où X = (X1, X2, ..., Xp) est un ensemble de covariables inuençant la durée d'un

voyage. Certains résultats obtenus dans [22,23] montrent, entres autres, que les variables

telles que l'itinéraire emprunté, le poids des marchandises, la vitesse maximale du camion,

la personne cda_principal (le conducteur du camion) impactent sur la durée d'un voyage.

• Phase de retourCette phase concerne les voyages ou les GPS qui sont arrivés à destination. Pour ceux-ci, il

est indiqué qu'une fois le voyage arrivé à destination, le GPS qui lui a été assigné retourne à

la base portuaire pour être réutilisé (lors du retour, les GPS sont mis dans des sacs et trans-

portés par des véhicules). Selon les exigences des responsables de l'entreprise Polytech-Valor,

une analyse statistique a été eectuée sur les données disponibles an d'estimer le temps que

met le GPS avant de retourner à la base. Les étapes de cette analyse sont brièvement pré-

sentées à la section 2.1.2, paragraphe données sur le ux de retour GPS . Nous sommes

arrivés à la conclusion que, en fonction de l'itinéraire emprunté pour son trajet retour, le

GPS mettra un ou deux jour(s). Chaque GPS mis en transit possède donc une durée avant

disponibilité dénie par Tv,X +1 ou Tv,X +2, suivant l'itinéraire emprunté (dans ce mémoire,

κ = 3 1).

2.1.2 Origine des données

Deux bases de données nous ont été remises pour mener à bien l'étude prévisionnelle

dont il est question dans ce mémoire. Nous disposons d'une base nommée matrice de suivi

1. itinéraire 1 := Douala-Garoua Boulai ; itinéraire 2 := Douala-Kousseri ; itinéraire 3 := Douala-Bogdibo.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PRÉSENTATION ET ANALYSE DESCRIPTIVE DES DONNÉES 15

des opérations, qui est présentée sous le format classeur Excel, et dans laquelle est reporté

l'ensemble des informations importantes relevées sur les opérations de lancement des voyages.

Nous disposons également d'une gigantesque base de données nommée voyage 2 comportant

des centaines de milliers de lignes et une centaine de colonnes, qui présente, pour chaque

voyage (ligne) eectué, un ensemble d'informations qui le caractérise.

Données sur la demande eective de GPS. Les données sur la demande de GPS

proviennent de la matrice de suivi des opérations de lancement de voyages sur les sites de

départ. Il s'agit d'un tableau de données comportant plusieurs rubriques, parmi lesquelles

la rubrique Réception des dossiers , la rubrique Man et activités autour du GPS , la

rubrique Suite réservée aux dossiers traités et la rubrique Tops départs . En fait, les

données de la demande eective concernent principalement la rubrique Réception des dos-

siers . Précisément, c'est la colonne nombre de dossiers route reçus 3 qui constituera pour

nous la variable demande eective de GPS.

Les données utilisées pour la demande eective de GPS sont simplement obtenues par ex-

traction de la colonne nombre de dossiers route reçus dans la matrice de suivi des opérations

de lancement de voyages. Nous disposons à cet eet, d'un échantillon de 129 observations

quotidiennes (exceptés les Dimanche car pas d'activité) couvrant la période de Novembre

2013 à Mars 2014.

Données sur le ux de sortie GPS. Dans la base de données voyage, nous disposons,

entre autres, d'une date de début (jour-mois-année) pour chaque voyage. Dans ce cas, à

l'aide d'une requête SQL, nous faisons une extraction des observations quotidiennes du ux

de sortie GPS. Compte tenu de certaines lacunes que comportent la base voyage lorsqu'on

remonte à l'année 2010 (instabilité dans la mise en place du système GPS), cet échantillon

est choisi pour couvrir la période allant du Lundi 03 Janvier 2011 au Samedi 17 Mai 2014.

Soit 1056 observations (pas d'activité le Dimanche).

Données sur le ux de retour GPS. Pour avoir les données sur le ux de retour GPS,

il faut disposer, ou bien de la date de retour de chaque GPS mis en transit, ou bien de sa

durée avant disponibilité. En eet, sachant la date de début d'un voyage (jour-mois-année),

l'une de ces deux informations est susante pour déduire l'autre. Or, aucune information

dans ce sens n'est disponible dans la base de données voyage. Nous ferons dans ce mé-

2. Cette base de données provient du projet Nexus+, projet consistant à la gestion et au suivi de l'ache-

minement des marchandises en transit par géo-localisation.

3. Elle est obtenue par sommation des colonnes nombre de dossiers routes reçus entre 08h-13h et nombre

de dossiers routes reçus entre 13h01-16h.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PRÉSENTATION ET ANALYSE DESCRIPTIVE DES DONNÉES 16

moire, l'hypothèse 4 simplicatrice que, une fois le voyage arrivé à destination,

la durée retour du GPS qui lui a été associé, dépend uniquement de l'itinéraire

emprunté lors du transit. En eet, nous prendrons la durée retour pour un iti-

néraire comme le mode des durées qui séparent la date de n du voyage et la

date de début du voyage suivant, utilisant le même GPS .

Ainsi, la construction des données sur le ux de retour s'est faite comme suit :

1. nous prenons tous les voyages ayant un code GPS, une date de n et un itinéraire pris

parmi les trois considérés dans cette étude ;

2. connaissant le code GPS (identiant), nous regardons le temps après lequel on revoit

le GPS sur un autre voyage ;

3. nous calculons donc la diérence entre cette date où le GPS est réutilisé et la date de

n du voyage précédent ayant utilisé la même GPS. Nous obtenons une distribution

de données de durées retour par itinéraire ;

4. nous trouvons alors que, le mode (arrondi en jours) des observations est de 1 jour pour

l'itinéraire Douala-Garoua Boulaï, 2 jours pour l'itinéraire Douala-Kousseri et, 2 jours

pour l'itinéraire Douala-Bogdibo.

Nous dénissons donc la date de retour de chaque GPS comme la date de n + 1 (ou 2)

jour(s) en fonction de l'itinéraire. Ce qui est équivalent à dénir la durée avant disponibilité

de chaque GPS comme la durée du voyage + 1 (ou 2) jour(s) en fonction de l'itinéraire, où

durée voyage = date n - date début. Finalement, les données du ux de retour GPS sont

obtenues en calculant, pour chaque date de retour donnée, le nombre total de GPS retournés

à la base portuaire. Comme précédemment, nous nous restreignons à la période allant du

Lundi 03 Janvier 2011 au Samedi 17 Mai 2014, soit une taille d'échantillon de 1056 observa-

tions.

En résumé, la gure 2.1 illustre la manière dont les échantillons de données sont répartis.

Les cercles vides font référence aux observations manquantes. Comme les données sur la

demande eective, les données sur le ux de sortie possèdent des observations manquantes

avec des proportions respectives très faibles (< 5%) par rapport à la taille de l'échantillon.

Par contre, comme on peut le constater pour les données sur le ux de retour, la période

allant de Mars 2012 à Juin 2012 est quasiment dépourvue d'observations. Ceci est causé par

des dates de n de voyages non renseignées. Pour cette période uniquement, nous avons plus

de 80% de données manquantes.

4. Hypothèse approuvée par les responsables de l'entreprise Polytech-Valor.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PRÉSENTATION ET ANALYSE DESCRIPTIVE DES DONNÉES 17

Figure 2.1 Répartition des données disponibles dans le temps, (a) ux de sortie, (b) ux

de retour, (c) demande eective.

2.1.3 Traitement des données manquantes

Le problème du traitement des données manquantes est un vaste sujet de recherche dont

l'analyse pourrait faire l'objet d'une thématique à part entière. Nous n'en ferons pas une

dissertation étendue mais seulement, nous allons les repérer, interpréter et les imputer.

Pour les données de la demande eective, nous avons 05 valeurs manquantes, soit 3.88

% de la taille de l'échantillon, tandis que pour les données du ux de sortie, nous avons 30

valeurs manquantes, soit 2.84% de la taille de l'échantillon. Après les avoir examinées, nous

nous rendons compte que les données manquantes sont dues pour la plupart aux évènements

calendaires (jours fériés notamment). Tous les échantillons de données de cette étude ont une

structure de série chronologique. Or, pour prévoir les valeurs futures d'une série chronologique

(ce qui est l'objectif visé de ce travail), l'une des contraintes est que les observations de la

série soient régulièrement espacées dans le temps. Ainsi, dans le but de conserver la régularité

des observations, les valeurs manquantes pour les données de la demande eective et du ux

de sortie GPS sont respectivement imputées par la moyenne (arrondie) des valeurs observées,

compte tenu des précisions faites dans [1].

Pour les observations du ux de retour GPS, nous nous restreignons, dans toute la suite

de cette étude, à la période allant du Lundi 31 Décembre 2012 au Samedi 17 Mai 2014.

Soit 432 observations journalières. Il n'y a pas de valeurs manquantes pour cette période

d'analyse.

2.2 Analyse descriptive des données

Décrire les données que l'on a rassemblées pour répondre à une question est une première

étape très importante en statistique appliquée. Il s'agit, grosso modo, de faire ressortir l'en-

semble des informations notables que contiennent ces données et ce, dans l'optique de se faire

une première idée sur les outils statistiques pouvant servir à la modélisation du phénomène

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PRÉSENTATION ET ANALYSE DESCRIPTIVE DES DONNÉES 18

observé.

2.2.1 Normalité, tendance et saisonnalité

Nous commençons nos analyses par une représentation graphique de chaque chrono-

gramme pour les séries chronologiques de la demande eective, du ux de sortie et du ux

de retour GPS. Pour des raisons de lisibilité et de tailles d'échantillon disponibles, nous

adoptons un pas de temps hebdomadaire pour la série du ux de sortie (176 observations)

et un pas de temps journalier pour les deux autres séries. De ce fait, les gures 2.2, 2.3 et 2.4

illustrent les prols chronologiques respectifs de : la série journalière de la demande eective

GPS, la série hebdomadaire du ux de sortie GPS et la série journalière du ux de retour

GPS.

Figure 2.2 Prol chronologique de la série journalière de la demande eective de GPS.

Normalité. Pour analyser la normalité des observations de chacune des séries chronolo-

giques sous étude, nous avons tracé (gure 2.7) les histogrammes des trois échantillons de

données considérés ici et nous y avons superposé la courbe de la loi gaussienne, de paramètres

respectifs la moyenne et la variance empirique. Ce graphique ne permet pas de repérer net-

tement l'asymétrie des observations. Pour ce faire, des tests de normalité sont nécessaires.

L'utilisation jointe des tests 5 de Shapiro-Wilk et Jarque-Bera suggère de rejeter l'hypothèse

nulle de normalité pour les séries d'observations de la demande eective et du ux de retour

GPS. Tandis que pour la série hebdomadaire du ux de sortie, ces tests nous enseignent que

nous n'avons aucune raison de rejeter l'hypothèse de normalité.

5. P-valeurs : demande = (JB=1.213e-09, SW=1.826e-05) ; ux de sortie = (JB=0.3151, SW=0.2283) ;

ux de retour = (JB=0.0008237, SW=1.901e-05).

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PRÉSENTATION ET ANALYSE DESCRIPTIVE DES DONNÉES 19

Figure 2.3 Prol chronologique de la série hebdomadaire du ux de sortie GPS.

Tendance. S'agissant du comportement global, ces graphiques montrent que la tendance

à long terme, de chacune des séries, est quasiment nulle, c'est-à-dire, ni croissante, ni décrois-

sante. En revanche, à court terme, elles admettent plus ou moins des tendances localement

monotones.

Saisonnalité. A vue d'oeil, les diérents chronogrammes présentés ne permettent pas de

détecter a priori la présence d'un éventuel comportement saisonnier. A cause de la taille de

l'échantillon de données, il nous est impossible d'examiner par une technique objective, la

saisonnalité de la série de la demande eective. Par contre, nous pouvons néanmoins le faire

pour les autres séries.

Saisonnalité du ux de sortie. Une technique intéressante qui permet de détecter

les périodes les plus pertinentes d'une chronique est l'analyse discrète de Fourier ou analyse

spectrale à travers le périodogramme (cf. Annexe A.1). Le but de cette approche est de

décomposer la série en vagues sur la base de fonctions sinusoïdales. Les vagues sont exprimées

en termes de fréquences qui représentent le nombre de cycles par unité de temps. La gure

2.5 présente le périodogramme de la série journalière du ux de sortie GPS.

Nous remarquons que la densité spectrale n'est pas plus élevée en un point plus qu'à

un autre. Autrement dit, la série hebdomadaire du ux de sortie ne possèderait pas de

saisonnalité notable.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PRÉSENTATION ET ANALYSE DESCRIPTIVE DES DONNÉES 20

Figure 2.4 Prol chronologique de la série journalière du ux de retour GPS.

Saisonnalité du ux de retour. Une autre manière d'examiner de plus près la pré-

sence ou non d'un aspect saisonnier est de faire intervenir le lag plot 6 de la série (gure 2.6).

Ces lag plots montrent des aspects typés, notamment aux décalages (ou retards) multiples

de 6 7. C'est-à-dire, pour la série du ux de retour journalier, la valeur à une date est corrélée

positivement à la valeur 6 jours avant. Toutefois, plus le décalage est grand, plus le niveau de

corrélation décroît. Ce qui laisse suggérer soit l'existence d'une simple corrélation empirique

sans pendant inférentiel, soit clairement une saisonnalité marquée. Nous trancherons dans le

chapitre 4.

2.2.2 Le calcul de quelques statistiques de base

Dans cette section, nous présentons quelques statistiques descriptives usuelles obtenues

à l'aide des échantillons de données disponibles.

Coecient de corrélation. Vu l'objectif 2 (cf. Introduction Générale) assigné pour cette

étude, et selon les réexions faites dans la revue de littérature (cf. chapitre 1), il nous semble

judicieux d'estimer le coecient de corrélation entre les deux séries chronologiques ux de

sortie et ux de retour . Pour ce faire, les diérentes séries doivent avoir non seulement

la même taille d'échantillon, mais aussi la même unité de temps. A cet eet, nous calculons

6. Un lag plot ou diagramme retardé est le diagramme de dispersion des points ayant pour abscisse la

série retardée de k instants et pour ordonnée la série non retardée. Si le diagramme retardé suggère une

corrélation entre les deux séries, on dit que la série présente une autocorrélation d'ordre k [1].

7. Cela provient de l'unité de temps pris pour les observations de la série.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PRÉSENTATION ET ANALYSE DESCRIPTIVE DES DONNÉES 21

Figure 2.5 Périodogramme de la série du ux de sortie hebdomadaire de GPS.

ce coecient pour les séries d'observations prises journalièrement (période allant du Lundi

31 Décembre 2012 au Samedi 17 Mai 2014). On trouve une valeur de -0.0067. En valeur

absolue, cette valeur est très faible par rapport à une valeur attendue qui serait proche de

0.5, voire même largement supérieure.

Autres statistiques. Comme autres statistiques calculées sur les échantillons de données

disponibles, nous avons, entre autres, le minimum (Min.), le premier quartile (1st Qu.), la

médiane (Median), la moyenne (Mean), le troisième quartile (3rd Qu.), le maximum (Max.),

et enn l'ecart-type (Std.Dev.). Nous présentons dans le tableau 2.1 un résumé de ces sta-

tistiques.

Table 2.1 Statistiques descriptives usuelles pour les trois variables d'intérêt.

Min. 1st Qu. Median Mean 3rd Qu. Max. Std.Dev.

Demande eective 12 42 60 65.06 81 182 31.007

Flux de sortie 143 279.2 332.5 334.5 387.5 565 78.65

Flux de retour 7 38 57 59.49 77 144 28.35

2.2.3 Etude statistique du délai de retour GPS

Le but de cette section est d'estimer la loi de probabilité du délai de retour GPS. Comme

mentionné à la section 2.1.2, nous disposons des données sur la durée avant disponibilité de

chaque GPS mis en transit pendant la période allant du Lundi 31 Décembre 2012 au Samedi

17 Mai 2014. Nous allons donc utiliser cet échantillon de données i.i.d. pour estimer la loi de

probabilité cherchée. Pour des raisons que nous donnerons ultérieurement (chapitre 4), nous

nous restreignons à la période du 02 Janvier 2014 au 17 Mai 2014, soit 6818 observations.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PRÉSENTATION ET ANALYSE DESCRIPTIVE DES DONNÉES 22

Figure 2.6 Lag plot du ux de retour journalier de GPS.

Avant toute chose, présentons un résumé statistique de ces durées. Ceci est reproduit dans

le tableau 2.2 (ligne Durée), où l'on remarque, entre autres, une moyenne d'environ 8 jours

avant la réutilisation du GPS mis en transit.

Table 2.2 Statistiques descriptives usuelles pour la v.a. durée avant disponibilité.

Min. 1st Qu. Median Mean 3rd Qu. Max. Std.Dev.

Durée 1 5 7 7.97 9 94 5.32

Durée après imputation 1 5 7 6.93 8 14 2.46

On remarque également une valeur maximale de 94 jours pour une durée avant disponi-

bilité. Ce qui est sans doute aberrant comme l'atteste le box plot (analyse graphique de la

distribution des données) reproduit à la gure 2.8. Nous traitons les 458 valeurs aberrantes

recensées comme des valeurs manquantes, puis nous les imputons par la moyenne empiriques

des valeurs observées. Ce qui conduit à une nouvelle distribution des données dont un résumé

est présenté à le tableau 2.2 (ligne Durée après imputation). C'est avec ce dernier échan-

tillon de données que nous estimons la loi de probabilité de la v.a. (discrète) durée avant

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PRÉSENTATION ET ANALYSE DESCRIPTIVE DES DONNÉES 23

Figure 2.7 Histogrammes des séries d'observations.

disponibilité.

Figure 2.8 Boîte à moustaches pour la variable durée avant disponibilité.

Le cadre théorique d'estimation d'une loi de probabilité est exposé dans le chapitre sui-

vant. Notons qu'on trouve dans la littérature deux types d'approches d'estimation d'une

loi de probabilité : l'approche d'estimation paramétrique et l'approche d'estimation non-

paramétrique. L'approche paramétrique suppose que les données sont issues d'une loi de

probabilité de forme connue dont seuls les paramètres sont inconnus. Dans ce cas, l'estima-

tion de la loi se résume à l'estimation des paramètres de la distribution.

En pratique, les lois de probabilité les plus utilisées pour un ensemble ni d'observations

de durées discrètes sont : la loi de Poisson, la loi géométrique, la loi binomiale négative. Nous

nous intéressons alors aux approches paramétriques. Pour cela, la gure 2.9 fait une illustra-

tion graphique de l'ajustement entre la fonction de répartition empirique et la fonction de

répartition paramétrique estimée (avec les paramètres estimés). Clairement, on voit que la loi

de Poisson de paramètre estimé λ = 6.927, semble être celle qui ajuste bien l'échantillon de

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PRÉSENTATION ET ANALYSE DESCRIPTIVE DES DONNÉES 24

données des durées observées. De manière plus objective, nous nous servons de la p-valeur 8

du test de conformité du χ2 (Chi-carré) pour conrmer cette assertion. Selon ce critère, on

trouve, eectivement, que c'est la loi de Poisson qui a la p-valeur (p-valeur = 0.8521) la plus

grande.

Figure 2.9 Ajustement par la fonction de répartition du délai de retour.

Résumé du chapitre

Ce chapitre visait à apprendre les données, c'est-à-dire comprendre l'évolution des

diérentes séries d'observations soumises à cette étude. Il visait aussi à faire une analyse

statistique du délai de retour GPS. Pour ce faire, nous avons notamment pu montrer que :

Les séries chronologiques de la demande eective et du ux de retour GPS ont toutes,

quasiment une tendance nulle à long terme (on ne tient pas compte des eets extérieurs

non prévisibles tels que les conjonctures économiques), mais qu'à court terme, les

tendances sont localement monotones ;

La série du ux de retour GPS peut être considérée comme admettant une saisonnalité

de 6 jours ;

8. Plus sa valeur est petite, plus confortable est le rejet de l'hypothèse H0 de conformité. En général,

l'hypothèse H0 est acceptée lorsque la p-value est supérieure à 5%. Et ce sera le cas dans toute la suite de

ce mémoire, quelque soit le test statistique utilisé.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PRÉSENTATION ET ANALYSE DESCRIPTIVE DES DONNÉES 25

Le coecient de corrélation estimé entre les séries du ux de sortie et du ux de retour

est -0.0067. Ce qui est inattendu par rapport à ce que l'on pourrait s'attendre, compte

tenu de la revue de littérature exposée au chapitre précédent ;

Les données observées sur le délai de retour GPS suivent une distribution de Poisson

de paramètre estimé λ = 6.927.

L'objectif de cette étude est de générer des prévisions à court terme de la demande

eective et du ux de retour GPS à la Douane Camerounaise, pour les périodes futures.

Compte tenu des informations préliminaires obtenues au terme de ce chapitre et de la revue

de littérature exposée au chapitre 1, nous bâtirons cette recherche prévisionnelle sur la base

de quatre méthodes statistiques : la méthode du lissage exponentiel de Holt-Winters, la

méthode de Box et Jenkins, une méthode de prévision non paramétrique et la méthode à

retards échelonnés. Nous eectuerons aussi une prévision en loi de la demande eective

de GPS. La suite de ce mémoire présente le cadre théorique de modélisation sur lequel nous

nous sommes appuyés pour être à même de proposer des résultats prévisionnels.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 26

Chapitre Trois

Méthodologie Statistique

En statistique, on désigne par série chronologique, ou série temporelle, la modélisa-

tion d'une suite d'évènements aléatoires et séquentiellement observés, généralement sur une

échelle temporelle. La caractéristique principale d'une série temporelle est la dépendance et

d'intérêt pratique considérable liant deux observations consécutives, à l'origine de la dyna-

mique des modèles. Parmi le panel d'applications issues de la théorie, ce sont principalement

la modélisation et la prédiction qui concentrent toutes les attentions. Alors que l'on cherche,

d'un côté, à bâtir le modèle le mieux adapté à un ensemble de données sans préjuger des

évènements ayant cours en dehors de l'intervalle d'étude, on se focalise, de l'autre, sur l'ap-

prentissage optimal des observations pour en inférer le comportement futur.

Dans ce chapitre, nous présentons de manière plus détaillée les quatre méthodes retenues

dans notre étude de prévision d'une série chronologique, ainsi que la démarche adoptée pour

les estimer. Avant de présenter ces diérents modèles, nous faisons un rappel de quelques

concepts fondamentaux.

3.1 Quelques concepts fondamentaux

Nous introduisons succinctement, en guise de préambule, certains concepts fondamentaux

que nous considérerons comme convenus tout au long de cette partie du mémoire. Ces derniers

sont, d'une manière générale, intimement liés à la modélisation chronologique.

3.1.1 Processus stochastique

Considérons un espace probabilisé (Ω,A,P), un ensemble d'indices I et un espace mé-

trique E muni de la tribu borélienne B(E).

Dénition 3.1. On appelle processus stochastique, une famille de v.a. (Yt) dénies sur

(Ω,A,P), indexées par t ∈ I et à valeurs dans E. Pour toute réalisation ω ∈ Ω, la famille

(yt = Yt(ω)) est une trajectoire du processus.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 27

C'est à la trajectoire d'un processus observé sur un sous-ensemble de I que l'on associera

la notion de série chronologique. Cependant, pour alléger les notations, nous ne distinguerons

généralement pas le processus (Yt) d'une de ses réalisations (yt = Yt(ω)), lorsqu'il n'y aura

aucune ambiguïté quant à la grandeur que l'on manipule. Nous serons par la suite amenés

à travailler sur des processus discrets indexés par N ou Z et à valeurs dans E = R. Nousferons d'ailleurs implicitement référence à cette sous-classe à travers le terme générique de

processus.

3.1.2 Prévision d'une série chronologique.

Considérons une série chronologique (y1, y2, ..., yn), où n est la taille de l'échantillon de

données observées. A partir de ces n observations, on voudrait prévoir yn+h (h est l'horizon de

prévision). Plaçons-nous donc à la date t, et notons =t = y1, y2, ..., yt, l'information connue

à cette date. On peut donner, au moins théoriquement, la loi de probabilité conditionnelle

de Yt+h sachant =t. La prévision au sens large est donc cette loi, que l'on appellera loi

de prévision . On retrouve alors la notion de prévision au sens commun comme la valeur

moyenne de la loi de prévision, mais l'on a bien plus : on connaît les uctuations autour de

cette valeur.

Dénition 3.2. La prévision en t à l'horizon h, notée Yt+h, est

Yt+h = E(Yt+h | =t).

L'erreur de prévision 1 correspondante, notée et+h, est dénie par

et+h = E((Yt+h − Yt+h)2 | =t).

La prévision et l'erreur de prévision sont des v.a., fonctions de Yt, Yt−1, ...Y1. L'erreur de

prévision est généralement insusante pour décrire les uctuations autour de la prévision

(cas d'une loi dissymétrique par exemple), sauf dans le cas gaussien. En fait, le prévisionniste

recherche aussi un intervalle de prévision.

Dénition 3.3. Un intervalle de prévision est un intervalle contenant la prévision avec une

probabilité donnée. Ainsi, It,h(α) est un intervalle de prévision au niveau 1−α de Yt+h si et

seulement si

P(Yt+h ∈ It,h(α) | =t) = 1− α.

1. Il s'agit d'un abus de langage. L'erreur de prévision désigne, à proprement parler, l'écart entre la valeur

inconnue Yt+h et la prévision Yt+h. Il faudrait parler d'erreur quadratique moyenne de prévision.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 28

3.1.3 La stationnarité

Sommairement, la stationnarité traduit la capacité d'un processus à ne pas dépendre de

l'indice temporel. Le processus est dès lors entièrement décrit par sa loi stationnaire qui,

par dénition, n'évolue plus au cours du temps. On comprend ainsi qu'une telle propriété

est certes d'intérêt pratique considérable, mais possède également un fort impact théorique

puisqu'on la retrouve comme hypothèse à la base de nombreux résultats. On distingue gé-

néralement la stationnarité au sens strict de la stationnarité au sens faible. Pour les dénir,

considérons un processus (Yt) déni sur (Ω,A,P), avec, ∀t ∈ Z, Yt ∈ L2(Ω,A,P), l'ensemble

des v.a. de carré intégrable.

Dénition 3.4. On dit que le processus (Yt) est strictement stationnaire si, pour tout k ∈ N∗

et tout décalage temporel h ∈ Z, la loi du vecteur (Y1, ..., Yk) est la même que celle du vecteur

(Y1+h, ..., Yk+h).

La stationnarité stricte est une hypothèse de travail très forte, nécessairement délicate à

vérier en pratique lorsque le processus n'est pas gaussien. C'est pourquoi l'on a introduit

une notion de stationnarité moins contraignante.

Dénition 3.5. On dit que le processus (Yt) est faiblement stationnaire si, pour tout décalage

temporel h ∈ Z, E(Yh) est constant, V(Yh) est ni, et Cov(Y0, Yh) = Cov(Ys, Ys+h) pour tout

s ∈ Z.

On dit aussi que le processus est stationnaire au second ordre, en relation avec la stabili-

sation de sa variance. C'est à cette propriété de stationnarité que nous ferons implicitement

référence par la suite. Notons que la stationnarité stricte implique bien entendu la station-

narité faible. L'exemple le plus trivial de processus stationnaire est un bruit blanc.

Dénition 3.6. Un processus (εt) est qualié de bruit blanc (faible) si, pour tous t1, t2 ∈ I,on a simultanément E(εt1) = 0, V(εt1) = σ2 < +∞ et Cov(εt1 , εt2) = 0 dès que t1 6= t2.

Si (εt) est constitué de v.a. i.i.d. centrées, on parlera de bruit blanc fort. Il est tout à

fait usuel de considérer le processus des chocs aléatoires perturbant un modèle statistique

comme formant un bruit blanc, par hypothèse. Un test de blancheur résiduelle est ainsi

considéré comme un indicateur de qualité de la modélisation, dans la mesure où l'absence de

corrélation résiduelle signie que toute l'information statistique a bien été prise en compte

dans la modélisation et que, de fait, la perturbation inobservable est de nature purement

aléatoire.

3.1.4 L'autocorrélation

L'une des principales motivations de la modélisation chronologique d'un évènement aléa-

toire est sa structure de corrélation temporelle, en d'autres termes son niveau d'autocorré-

lation. Il existe, entre autres, deux outils permettant d'évaluer l'autocorrélation d'une série

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 29

chronologique. Ces derniers sont, pour nous, d'une importance capitale puisque nous verrons

dans la section suivante qu'ils possèdent des propriétés remarquables dans le cadre du pro-

cessus ARMA stationnaire. Restons pour le moment dans le cadre plus général du processus

(Yt) stationnaire, indexé par Z et Yt ∈ L2(Ω,A,P).

La fonction d'autocorrélation Cette première fonction quantie l'inuence linéaire du

décalage temporel entre deux observations du processus par un calcul classique de corrélation.

Dénition 3.7. On appelle fonction d'autocorrélation associée au processus stationnaire

(Yt), la fonction ρ dénie, pour tout décalage temporel h ∈ N, par

ρ(h) =γ(h)

γ(0),

où γ est la fonction d'autocovariance donnée par γ(h) = Cov(Yh, Y0).

La fonction d'autocorrélation partielle Supposons désormais que l'on souhaite connaître

l'inuence exacte d'une observation passée sur la valeur courante du processus en faisant

de toutes les observations intermédiaires. Cette mesure de corrélation est plus délicate à

interpréter, mais nous pouvons malgré tout la formaliser. Nous commençons, à cet égard,

par dénir la notion de régression ane.

Dénition 3.8. Soit (Yt), un processus stationnaire. Pour tout décalage temporel h ∈ N, larégression ane de Yt sur (Yt−1, ..., Yt−h), notée Y ∗t,h, vérie la relation :

Yt = Y ∗t,h +Rt,h = λ0,h +h∑s=1

λs,hYt−s +Rt,h, (3.1)

où Rt,h est une v.a. non corrélée avec Yt−1, ..., Yt−h.

Dénition 3.9. On appelle fonction d'autocorrélation partielle associée au processus sta-

tionnaire (Yt), la fonction τ dénie par τ(0) = 1 et, pour tout décalage temporel h ∈ N∗,par

τ(h) = λh,h,

avec λh,h déni à l'équation (3.1).

3.2 Le lissage exponentiel de Holt-Winters

La prévision de valeurs à des dates futures, le présent et le passé de la série étant connus,

peut être (i) basée sur un modèle, ou bien (ii) être construite sans ajustement préalable

d'un modèle : c'est le cas du lissage exponentiel et de ses généralisations. La méthode de

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 30

Holt-Winters est une des techniques privilégiées de lissage exponentiel dans le cas de séries

d'observations présentant à la fois un terme de tendance et une saisonnalité. En eet, elle

opère le lissage simultané de trois termes correspondant respectivement à des estimations

locales du niveau de la série désaisonnalisée at, de la pente de la tendance bt et de la

saisonnalité St. On peut citer au moins deux méthodes dont l'une est adaptée aux séries

admettant une décomposition multiplicative et l'autre correspondant aux décompositions

additives. Les prévisions obtenues sont généralement assez précises et peu coûteuses (en

termes de calculs). Nous exposons succinctement dans la suite de la présente section, la

méthode du lissage de Holt-Winters (H-W) telle que présentée dans [7,11,27].

3.2.1 Méthode saisonnière

Le modèle de Holt-Winters (saisonnière), dans sa forme additive, est spécié par l'équa-

tion suivante :

Yt+h := Yt(h) = at + bth+ St, (3.2)

où les suites at, bt et St (facteur saisonnier) vérient les équations de récurrence paramétriques

suivantes : at = α(Yt − St−s) + (1− α)(at−1 + bt−1);

bt = β(at − at−1) + (1− β)bt−1;

St = γ(Yt − at) + (1− γ)St−s.

(3.3)

avec s facteur de saisonnalisation ou le nombre de saisons. Il existe, de manière analogue,

un modèle multiplicatif. Les paramètres du modèle sont les nombres α, β et γ, appartenant

tous à l'intervalle [0,1].

La prévision de la série à l'horizon h (1 ≤ h ≤ s) s'écrit :

Yn(h) = an + bnh+ Sn+h+s. (3.4)

Il se pose un problème d'initialisation pour les coecients an et bn. Ceci se fait par

minimisation de la somme des carrés des résidus, de la manière suivante :

minan,bn

n−1∑j=0

[Yn−j −

(an + bn(n− j) + Sn

)]2. (3.5)

3.2.2 Méthode non saisonnière

La construction de cette méthode est littéralement la même que la précédente, mais avec

absence du facteur saisonnier. Autrement dit, la version non saisonnière, s'écrit :

Yt+h := Yt(h) = at + bth, (3.6)

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 31

où les suites at et bt vérient les équations de récurrence paramétriques suivantes :at = αYt + (1− α)(at−1 + bt−1);

bt = β(at − at−1) + (1− β)bt−1.(3.7)

Les paramètres du modèle sont les nombres α et β.

Cette méthode est censée prédire la série à l'horizon h par :

Yn(h) = an + bnh, (3.8)

où les coecients an et bn sont solution de

minan,bn

n−1∑j=0

[Yn−j −

(an + bn(n− j)

)]2. (3.9)

Pour l'estimation des paramètres et la prévision par la méthode de lissage de Holt-

Winters, nous mettrons en pratique, respectivement, les fonctions HoltWinters() et predict()

de la librarie stats du logiciel R.

3.3 Le modèle ARIMA saisonnier

Le deuxième modèle retenu dans cette étude est le modèle ARIMA saisonnier. Rappelons

les hypothèses implicites à ce modèle :

1. existence d'une corrélation linéaire entre les observations présentes et passées de la

variable d'intérêt,

2. existence d'un eet linéaire aléatoire présent et passé sur la variable d'intérêt,

3. absence d'eet signicatif d'autres variables exogènes.

3.3.1 Le modèle ARMA stationnaire et ses propriétés usuelles

Soit (Yt), un processus de L2(Ω,A,P) stationnaire indexé par Z, et deux paramètres

p, q ∈ N.

Dénition 3.10. 1. Le processus stationnaire (Yt) admet une représentation ARMA(p, q)

si, pour tout t ∈ Z, il est donné par la relation récursive

Yt −p∑

k=1

ψkYt−k = µ+

q∑k=1

θkεt−k + εt, (3.10)

où (εt) est un bruit blanc de variance σ2 > 0, µ ∈ R, ψ = (ψ1, ..., ψp) ∈ Rp, θ =

(θ1, ..., θq) ∈ Rq, ψp 6= 0, θq 6= 0.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 32

2. Lorsque q = 0, le modèle admet la représentation AR(p) donnée, pour tout t ∈ Z par

Yt = µ+

p∑k=1

ψkYt−k + εt, (3.11)

et l'on dit que (Yt) est un processus autoregréssif d'ordre p.

3. Lorsque p = 0, le modèle admet la représentation MA(q) donnée, pour tout t ∈ Z par

Yt = µ+

q∑k=1

θkεt−k + εt, (3.12)

et l'on dit que (Yt) est une moyenne mobile d'ordre q.

Dans la dénition ci-dessus, nous pouvons, en outre, sans aucune perte de généralité,

considérer que le processus (Yt) est centré et donc que µ = 0. En eet, si l'on appelle m

l'espérance de la loi stationnaire, on a, dans (3.10) :

m =µ

1−∑p

k=1 ψk;

et l'on voit alors immédiatement que le changement de variables Zt = Yt −m nous ramène,

par simple translation, au modèle ARMA(p, q) centré, engendrant (Zt). Ainsi, dans toute la

suite, quand nous parlerons de processus ARMA, AR ou MA, nous le considérons centré,

i.e. µ = 0 dans (3.10), (3.11) et (3.12).

Pour alléger les notations, on a souvent recours à deux opérateurs chronologiques : le

retard noté B, la diérenciation notée ∆.

Dénition 3.11. On dénit l'opérateur retard, sur la classe des processus (Yt) indexés par

Z, comme associant à toute valeur courante du processus sa valeur précédente,

BYt = Yt−1.

Dénition 3.12. On dénit l'opérateur diérenciation, sur la classe des processus (Yt) in-

dexés par Z, comme associant à toute valeur courante du processus les combinaisons,

∆Yt = (1−B)Yt = Yt − Yt−1.

Nous généralisons facilement ces opérateurs pour tous h, d ∈ N par l'intermédiaire de la

convention BhYt = (B ... B)Yt = Yt−h et ∆dYt = (1−B)dYt.

Ainsi, de manière condensée, à l'aide de l'opérateur retard B, le modèle (3.10) s'écrit

encore, pour tout t ∈ Z (pour µ = 0) :

Ψ(B)Yt = Θ(B)εt, (3.13)

où l'on dénit, pour tout z ∈ C, les polynômes Ψ et Θ par

Ψ(z) = 1− ψ1z − ...− ψpzp et Θ(z) = 1 + θ1z + ...+ θqzq.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 33

Proposition 3.1. Le processus stationnaire centré (Yt) est engendré par une modélisation

minimale MA(q) si et seulement si ρ(q) 6= 0 et ρ(h) = 0 pour tout h > q.

Proposition 3.2. Le processus stationnaire centré (Yt) est engendré par une modélisation

minimale AR(p) si et seulement si τ(p) 6= 0 et τ(h) = 0 pour tout h > p.

La série intégrée : le modèle ARIMA. En bref, un processus (Yt) de L2(Ω,A,P),

indexé par Z admet la modélisation ARIMA(p, d, q), I pour integrated, si le processus doit

être diérencié d fois pour être stationnarisé sous forme d'ARMA.

La série saisonnière : le modèle ARIMA saisonnier (SARIMA). Le modèle SARIMA(p, d, q)×(P,D,Q)s a été introduit dans le but de modéliser un comportement ARMA stationnaire

sur une série éventuellement intégrée et munie d'une périodicité s ∈ N∗, ce pourquoi l'on

ajoute un S comme seasonal. Le processus est alors déni, pour tout t ∈ Z, par

Ψs(B)Ψ(B)(1−Bs)D(1−B)dYt = Θs(B)Θ(B)εt,

où, pour tout z ∈ C, Ψs(z) = 1−α1zs− ...−αP zPs et Θs(z) = 1+β1z

s+ ...+βQzQs, avec les

paramètres α = (α1, ..., αP ) ∈ RP et β = (β1, ..., βQ) ∈ RQ, et par analogie avec le modèle

ARIMA, le triplet (P,D,Q) ∈ N3.

L'opérateur de diérenciation saisonnière pour une période s, noté ∇s, déni par ∇sYt =

Yt − Yt−s, permet également d'alléger les notations en remarquant que ∇s = 1−Bs.

3.3.2 La méthodologie de Box et Jenkins

Etant donnée une série d'observations, une question essentielle est le choix d'un modèle

le mieux adapté. Box et Jenkins [4] ont proposé une démarche systématique permettant

d'aboutir, si c'est possible, au choix d'un modèle de type ARIMA saisonnier. Elle repose

sur plusieurs étapes qui peuvent être détaillées comme suit.

Etape 1 : Préparation des données (Stationnarisation). A la suite d'une éventuelle

préparation des données (étude descriptive de la série ; traitement des données manquantes,

aberrantes et d'éventuelles anomalies ; détection et élimination de la tendance et saisonnalité ;

stabilisation de la variance), cette étape consiste à se ramener à une série stationnaire, au

cas où les tests statistiques appropriés rejettent l'hypothèse de stationnarité de la série. Elle

se décompose en deux phases :

utilisation d'une transformation ;

diérentiation (simple et/ou saisonnière), éventuellement répétée.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 34

Etape 2 : Sélection d'un modèle. Il s'agit de choisir à partir des données transformées

y1, y2, ..., yn, un modèle de type SARIMA(p, d, q)×(P,D,Q)s. L'examen des fonctions d'au-

tocorrélation (ACF) et d'autocorrélation partielle (PACF) permettent souvent à lui seul de

sélectionner un bon candidat.

Compte tenu des propositions 3.1 et 3.2, on peut espérer reconnaître au moins les processus

autorégressifs ou moyenne mobile purs. Cependant, on doit se contenter d'estimations de

ρ(h) et de τ(h) (puisque les processus sont inconnus), ρ(h), τ(h). La sélection s'eectue en

examinant les corrélations signicatives (on considère qu'une valeur à l'intérieur des bornes

±1.96n−1/2 n'est pas signicative quel que soit le modèle). On préfère très souvent se limiter

à des corrélations pour h < n/5, car, lorsque h devient grand, l'estimation ρ(h) (par exemple)

devient de plus en plus mauvaise (car utilise de moins en moins de données).

Etape 3 : Estimation des paramètres. Nous considérons ici le cas d'un ARMA(p, q).

Il s'agit alors d'estimer les paramètres ψ = (ψ1, ..., ψp) ∈ Rp et θ = (θ1, ..., θq) ∈ Rq associés

à la relation condensée (3.13), ainsi que l'estimation de la variance σ2 du bruit blanc.

Sous l'hypothèse de loi (εt) ∼ N (0, σ2), on peut utiliser des méthodes du type maximum

de vraisemblance. En eet, les erreurs étant normalement distribuées et indépendantes, le

vecteur (ε1, ..., εn)′ est un vecteur gaussien. Les composantes du vecteur Y = (Y1, ..., Yn)′

étant obtenues par combinaisons linéaires des composantes du vecteur (ε1, ..., εn)′, Y sera un

vecteur gaussien. La vraisemblance est alors :

Vn(ψ, θ, σ2;Y ) =1

(2πσ2)n/2√|Σ|

exp(− 1

2σ2Y ′Σ−1Y ), (3.14)

où σ2Σ est la matrice n× n des covariances du vecteur Y .

La méthode du maximum de vraisemblance revient alors à chercher la valeur des para-

mètres qui maximise la log-vraisemblance. Lorsque l'hypothèse de normalité des erreurs n'est

pas vériée, on fait recours aux méthodes du type CSS pour Sum Squared Conditionnal, ou

la méthode de Yule-Walker lorsque la parie MA est inexistante dans le modèle [34].

Etape 4 : Validation du modèle. La validation du modèle est réalisée à l'aide de

tests. Sont à distinguer ceux qui portent sur les propriétés du résidu de l'estimation de ceux

qui portent sur la signicativité de chaque paramètre estimé (test de Student).

Les tests relatifs au résidu consistent à tester l'hypothèse de bruit blanc, c'est-à-dire,

principalement, l'hypothèse de non-corrélation (test de Ljung-Box, par exemple, ou de Box

Pierce), de normalité (test de Shapiro-Wilk, de Jarque-Bera, ou test non paramétrique de

Kolmogorov-Smirno). Parmi ces propriétés, la non corrélation est fondamentale. Ainsi, si

l'hypothèse de normalité n'est pas validée, le calcul de la vraisemblance peut être remis en

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 35

cause, mais les estimateurs peuvent néanmoins avoir de bonnes propriétés de convergence

asymptotique. En revanche, l'hypothèse de non corrélation du résidu est fondamentale, car

son rejet conduit nécessairement à revoir la spécication du modèle.

En pratique, toutes les propriétés du résidu ne sont pas testées : la non corrélation et

la normalité le sont, et, si elles sont validées, l'indépendance en est déduite. Les tests de

Student attestant de la signicativité de chaque paramètre s'eectuent en dernier, puisqu'ils

ne sont praticables que si les tests portant sur le résidu ont été concluants.

Après cette étape de validation à proprement parler, la performance empirique du modèle

est évaluée à l'aide de critères. Ceux-ci visent à évaluer la qualité d'ajustement du modèle,

ou son pouvoir de prédiction. Il existe, à cet eet, une panoplie de critères de performance

empirique (AIC, BIC, etc.). Cependant, nous nous intéresserons particulièrement au critère

AIC, qui est déni par :

AIC = −2Vn + 2×nombre de paramètres,

avec Vn la vraisemblance donnée par la méthode du maximum de vraisemblance exacte dé-

nie par l'équation (3.14).

La procédure d'estimation des paramètres du modèle est implémentée dans la fonction

arima() de la librairie stats, tandis que celle de la prévision des valeurs futures est implémentée

dans la fonction forecast() de la librairie forecast du logiciel R. On peut se référer à la partie

Annexe C pour la mise en oeuvre sur les échantillons de données disponibles.

3.4 Modèle à retards échelonnés

Dans cette quatrième section du chapitre, nous allons étudier les modèles de régression

dynamique dits à retards échelonnés. Un modèle à retards échelonnés a pour spécication

[31] :

Yt = b+k∑i=0

νiXt−i + εt, t = k + 1, ..., n, (3.15)

où Yt est la variable dépendante, Xt une variable explicative et εt ∼ N (0, σ2) le bruit. Les

coecients à estimer sont b, ν0, ν1, ..., νk. Ici, contrairement aux modèles autorégressifs, ce

sont les valeurs décalées de Xt qui entrent dans la liste des variables explicatives. Ce type

de modèle traduit l'existence d'un eet progressif de l'impact d'une augmentation de la va-

riable Xt sur la variable Yt. Le paramètre ν0 mesure l'impact de court terme de X sur Y , et

ν+ = ν0 + ν1 + ...+ νk désigne l'impact de long terme.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 36

L'estimation des paramètres du modèle (3.15) par la méthode des moindres carrés ordi-

naires pose un certain nombre de problèmes : (i) le choix du décalage maximal k n'est pas aisé

et la théorie économique ne fournit généralement aucune indication ; (ii) la multicolinéarité

existante entre les diérentes variables explicatives (Xt, Xt−1, ..., Xt−k) impacte l'estimation

et l'exercice d'inférence.

3.4.1 Méthode de Koyck

Une solution originale a été introduite par Koyck, et ceci pour l'estimation du modèle à

retards échelonnés d'ordre inni, soit :

Yt = b+∞∑i=0

νiXt−i + εt. (3.16)

La démarche adoptée par Koyck consiste à transformer le modèle à retard inni en un

modèle estimable, en supposant que les paramètres νi, i = 0, 1, 2, ... admettent la paramétri-

sation suivante :

νi = ν0βi, i = 0, 1, 2, ..., (3.17)

où 0 < β < 1 désigne le taux de décroissance des paramètres. Il s'agit d'une décroissance de

type géométrique, où les paramètres νi sont de même signe puisque β > 0.

3.4.2 Cas de la prévision du ux de retour GPS

Nous utiliserons le modèle (3.16) de Koyck pour modéliser la prévision du ux de retour

GPS, avec les notations suivantes :

Xt, ux de sortie GPS du jour t ;

Yt, ux de retour GPS du jour t.

La clé de la prévision des retours GPS est de constater que les retours Y dans un quel-

conque jour sont générés par les sorties X dans les jours précédents. Une façon courante

de modéliser ceci est de supposer que le ux de sortie le jour actuel va générer un ux de

retour i jours plus tard, avec une probabilité νi, i = 1, 2, ..., ou ne générera rien du tout.

Introduisons aussi les notations suivantes :

p, probabilité qu'un GPS en transit nira par revenir ;

ri, probabilité qu'un GPS mis en transit revienne après i jours, sachant qu'il sera

éventuellement retourné ;

νi, probabilité qu'un GPS mis en transit revienne après i jours (νi = p.ri) ;

νi(t), estimation du jour t de νi ;

Rt−i,t+j, nombre total de retours GPS du jour t+ j provenant des GPS mis en transit le

jour t− i ;

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 37

vt,t−i, nombre total de retours GPS jusqu'au jour t provenant des GPS mis en transit le

jour t− i ;I(t), ensemble des données disponibles à la n du jour t pour prévoir les retours futurs de

GPS.

Compte tenu du dispositif en vigueur à la Douane Camerounaise et de notre connaissance

des données, nous avons Y1 = 0, c'est-à-dire, parmi les X1 GPS mis en transit le jour 1, aucun

ne sera retourné au port le même jour. Ce qui est raisonnable, puisque la durée (en jours)

avant disponibilité d'un GPS est toujours supérieure à 1. De plus, nous faisons une hypothèse

de loi discrète sur le délai de retour GPS. La loi géométrique de paramètre q en l'occurrence

(i.e. ri = (1− q)i−1q). En eet, comme nous l'avons montré dans le chapitre 1, c'est cette loi

qui est largement utilisée en pratique. Signalons cependant que, d'après l'étude statistique

eectuée à la section 2.2.3, il serait plus approprié ici d'utiliser la loi de Poisson. Ainsi, nous

nous appuierons désormais sur la relation suivante :

νi = p(1− q)i−1q, i = 1, 2, ... . (3.18)

Le modèle s'écrit alors

Yt = ν1Xt−1 + ν2Xt−2 + ...+ εt, pour t = 2, 3, ..., N, (3.19)

avec N , le nombre de dates retours diérentes observées dans l'échantillon de données.

3.4.3 Estimation des paramètres du modèle

Une caractéristique particulière des données du délai de retour est qu'elles sont censu-

rées à droite : a un moment donné, si un GPS n'a pas été retourné, nous ne savons pas s'il

sera retourné ou pas. Pour estimer avec précision le modèle, il est important d'utiliser une

méthode d'estimation qui prend en compte le fait que certains éléments qui n'ont pas encore

été retournés ne le seront jamais.

On classe les modèles de prévision utilisés dans la littérature en fonction des données

qu'ils exploitent. Nous disons que l'information au niveau du jour est disponible si le total

des sorties et le volume des retours de chaque jour sont connus. Nous disons que l'information

au niveau de l'article (GPS) est disponible si les dates de sortie et de retour de chaque article

sont connues.

Information disponible au niveau du GPS. On parle d'information disponible au

niveau du GPS lorsque les GPS sont suivis sur une base individuelle. Il est alors possible

d'observer le réel délai de retour de chaque GPS retourné. Autrement dit, on connait le temps

de sortie tsortie de chaque GPS. Ainsi, à un instant t, quelques uns des GPS sont retournés.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 38

Pour ces GPS, nous connaissons exactement la durée avant disponibilité. Pour d'autres,

par contre, nous savons seulement que leur délai de retour est plus long que t − tsortie, ouinni éventuellement. Dempster et al. (1977) introduisent l'algorithme EM (Expectation-

Maximisation) pour calculer les estimations du maximum de vraisemblance des paramètres

pour des échantillons de données incomplètes. Cet algorithme peut être ecacement utilisé

pour estimer la distribution du délai de retour en utilisant les données de délais censurés

[10]. Nous décrivons d'abord cet algorithme et, par la suite, présentons sa mise en oeuvre

sur un échantillon de données.

Algorithme EM. [29,33]

Soit T = (T1, ..., Tn), n v.a. i.i.d. qui pourraient être observées s'il n'y avait pas de cen-

sure (n ici désigne le nombre de GPS en activité pendant les N dates retours diérentes

considérées.), et soit θ, le paramètre de la distribution des Ti. Soit zi, l'observation actuelle

(éventuellement censurée) de l'individu (GPS) i, et soit δi = 0 si l'observation est censurée,

et 1 sinon. Posons z = (z1, ..., zn) et δ = (δ1, ..., δn). Précisons qu'un GPS mis en transit est

dit censuré à un instant donné si, à cet instant, il n'est pas encore retourné pour être réutilisé.

Pour θ, dénissons l0(θ) = l0(θ;T), la log-vraisemblance de θ basée sur les observations

non censurées T = (T1, ..., Tn), et l(θ) = l(θ; z, δ), la log-vraisemblance pour les obser-

vations (z, δ). Dénissons Q(θ′, θ) = E(l0(θ

′;T) | z, δ; θ), l'espérance conditionnelle de la

log-vraisemblance de θ′ basée sur T, étant donné les observations (z, δ). Partant d'une va-

leur initiale θ1 pour θ, les deux étapes de l'algorithme EM sont :

• étape d'espérance : Calculer Q(θ′, θj). (Ici θ′ est une variable muette et θj est l'estimation

courante de θ).

• étape de maximisation : Chercher la valeur de θ′ qui maximise Q(θ′, θj). Ceci est la nouvelle

estimation θj+1.

Cette procédure récursive produit une séquence d'estimations, θj, j = 1, ... qui, sous cer-

taines hypothèses, converge vers l'estimateur du maximum de vraisemblance de θ basé sur

les observations (zi, δi), i = 1, ..., n.

Mise en oeuvre. Dans notre cas, les estimations de θ = (p, q) dans la relation (3.18)

obtenues par l'algorithme EM sont construites de la manière suivante.

• si = temps de sortie du GPS i, i = 1, ..., n (tous observés) ;

• ri = temps de retour du GPS i, i = 1, ...,m, où m ≤ n ;

• nous admettons que ri =∞ pour les GPS qui ne seront pas retournés ;

• soit T = (T1, ..., Tn), n v.a. i.i.d. représentant le temps écoulé de la sortie au retour au port

pour les n GPS répertoriés dans l'étude ;

• nous admettons ici que le délai de retour des GPS suit une distribution géométrique de

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 39

paramètre q, et nous notons p, la probabilité de retour pour chaque GPS.

Soit t, le temps courant. Alors zi = min(ri − si, t− si) et δi = 1ri≤t.

S'il n'y avait pas de censure (i.e. les vraies valeurs de ri, i = m + 1, ..., n sont connues),

la fonction de vraisemblance serait∏i|ri<∞

pq(1− q)ri−si∏

i|ri=∞

(1− p) = (1− p)n−apaqa(1− q)∑i|ri<∞

(ri−si), (3.20)

où a =∑n

i=1 δi, est égal au nombre de GPS éventuellement réutilisés. La log-vraisemblance

est donnée par

l0(p, q;T) = a log p+ (n− a) log(1− p) + a log q +∑

i|ri<∞

(ri − si) log(1− q).

Et son espérance conditionnelle est donnée par

Q(p′, q′, p, q) = E(l0(p

′, q′;T | z, δ; p, q))

= E(a | z, δ; p, q) log p′ − log(1− p′) + log q′+ n log(1− p′)+ E

(∑ni=1 1ri≤∞(ri − si) | z, δ; p, q

)log(1− q′),

E(a | z, δ; p, q) = m+n∑

i=m+1

p(1− q)t−si+1

1− p+ p(1− q)t−si+1, (3.21)

et

E( n∑i=1

1ri≤∞(ri−si) | z, δ; p, q)

=m∑i=1

(ri−si)+n∑

i=m+1

(t−si+

1− qq

) p(1− q)t−si+1

1− p+ p(1− q)t−si+1.

(3.22)

En prenant les dérivés de Q(p′, q′, p, q) par rapport à p′ et q′ égales à zéro et en résolvant

par rapport à p′ et q′, nous obtenons la relation récursive suivante pour les estimations p et

q.

pj+1 =1

n

[m+

n∑i=m+1

pj(1− qj)t−si+1

1− pj + pj(1− qj)t−si+1

],

qj+1 =m+

∑ni=m+1

pj(1−qj)t−si+1

1−pj+pj(1−qj)t−si+1

m+∑m

i=1(ri − si) +∑n

i=m+1(t− si +1−qjqj

) p(1−q)t−si+1

1−pj+pj(1−qj)t−si+1

.

L'on démontre que la suite de couples de nombres (pj, qj), pour j = 1, ... converge vers

l'estimation du maximum de vraisemblance (pMV , qMV ) de (p, q). Pour simplier les écritures,

notons p = p(t) et q = q(t) les estimations respectives du MV de p et q, obtenues pour le

temps courant t. Il vient que, pour i = 1, 2, ...

νi := νi(t) = p(1− qi−1)q. (3.23)

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 40

Remarque. Les formules (3.20), (3.21) et (3.22) sont démontrées en Annexe A.3.

3.4.4 Prévision

Les prévisions des valeurs futures sont calculées en utilisant les estimations des paramètres

obtenues à partir de (3.23) et l'historique de l'information [32]. Notons I(t), l'information

disponible à la n du jour t, qui sera utilisée pour prédire les valeurs futures de la v.a. Y , et

par ν(t), l'estimation du jour t du vecteur ν = (ν1, ν2, ...). Posons :

• IB(t) = ν(t), xt−i, i = 1, ..., t− 1 (estimation de ν et historique de l'information du

ux de sortie GPS au niveau de la journée) ;

• IC(t) = ν(t), xt−i, yt−i, i = 1, ..., t− 1 (estimation de ν et historique de l'information

du ux de sortie et du ux de retour GPS au niveau de la journée) ;

• ID(t) = ν(t), xt−i, vt,t−i, i = 1, ..., t− 1 (estimation de ν et historique de l'information

du ux de sortie et du ux de retour au niveau du GPS).

Théorème 3.1. Sous l'hypothèse que toutes les sorties GPS de la journée sont mutuellement

indépendantes et que les retours GPS des diérentes sorties sont non corrélées, le tableau 3.1

énumère les expressions de E(Rt−i,t+h | I(t)

)sur la base de l'un des ensembles d'informations

IB(t), IC(t), ID(t).

Table 3.1 Espérance de Rt−i,t+h, le ux de retour du jour t+ h provenant des sorties du

jour t− i, pour diérents ensembles d'informations.

Ensemble

d'informations

E(Rt−i,t+h | I(t)

)i > 1 i = 1

IB(t) νh+ixt−i

IC(t) νh+ixt−i + c(i, h) νhxt

ID(t) νh+i

1−∑i

l=1 νl(xt−i − vt,t−i) νhxt

Preuve 3.1. La preuve de ce théorème peut être retrouvée dans [18].

Dans ce tableau, c(i, h) est un facteur qui tient compte de la corrélation entre les retours

GPS observés au jour i et les retours futurs. Une expression exacte de c(i, h) n'est pas

disponible en général, mais Kelle et Silver ont développé une approximation dans [18]. La

variance des retours futurs peut aussi être calculée, même si ces expressions sont un peu

plus compliquées. Le ux de retour GPS du jour t + h est tout simplement donné comme

Yt+h =∑t−1

i=−(h−1)Rt−i,t+h. Par conséquent, connaissant tout le passé, soit les observations

de 1, ..., t, le modèle à retards échelonnés prédit le ux de retour Yt+h, pour le jour t+h, par

la relation :

Yt+h = E(Rt+h−1,t+h | I(t)

)+ ...+ E

(R1,t+h | I(t)

). (3.24)

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 41

3.5 Prévision en loi de probabilité

L'objet de cette partie est de présenter la méthode d'estimation de loi de probabilité

d'une v.a. sur laquelle on se basera pour produire des prévisions en loi de la demande

eective de GPS, en ce sens que, on utilisera plutôt la loi de probabilité estimée de la variable

pour proposer des valeurs futures.

En statistique classique, l'utilisation d'un échantillon de données pour estimer une loi de

probabilité suppose que celui-ci soit composé de valeurs indépendantes. Or, les séries chro-

nologiques ont des valeurs naturellement corrélées. De ce fait, dans le cadre de l'estimation

de loi de probabilité que nous mettrons en oeuvre dans ce mémoire, et comme cela est très

souvent fait dans la littérature académique, l'hypothèse de stationnarité et d'ergodicité d'une

série sera assimilée à l'hypothèse d'indépendance et identiquement distribué des observations

de la série.

Pour caractériser un phénomène aléatoire sous-jacent à un ensemble ni d'observations, il

est souvent pertinent d'estimer la fonction de répartition (probabilité cumulée) ou la fonction

de densité (densité de probabilité). Ces deux fonctions sont reliées par le fait que la fonction

de densité est la dérivée de la fonction de répartition. Même si les fonctions de répartition

et de densité caractérisent toutes les deux la loi de probabilité d'une v.a., la densité a un

net avantage sur le plan visuel. En fait, la forme d'une densité est beaucoup plus facile à

interpréter que celle de la fonction de répartition. Par exemple, voir la symétrie ou la mul-

timodalité de la loi d'une v.a. est beaucoup plus facile sur une fonction de densité que sur

une fonction de répartition.

On trouve dans la littérature deux types d'approches très complémentaires d'estimation

de la densité de probabilité : l'approche d'estimation paramétrique et l'approche d'estimation

non paramétrique. L'approche paramétrique suppose que les données sont issues d'une loi de

probabilité de forme connue dont seuls les paramètres sont inconnus. Si par contre, la loi de

probabilité est inconnue, ou s'il s'agit justement de trouver la forme de cette loi sans a priori

pour ensuite en réaliser une estimation paramétrique, on doit se tourner vers une méthode

non paramétrique dans laquelle les données parlent d'elles mêmes. Nous nous intéressons ici

plutôt aux approches non paramétriques. Nous présentons deux méthodes d'estimation de

la densité : la méthode d'estimation par histogramme (estimation naturelle de la densité), et

la méthode d'estimation par noyau qui peut être vue comme une extension de la méthode

d'estimation par histogramme. Les propriétés statistiques de chaque méthode d'estimation,

de même que la théorie présentée ici peuvent se retrouver dans [8].

Soit (Yt), un processus de L2(Ω,A,P), stationnaire et ergodique, indexé par N. Tout au

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 42

long de cette section, on suppose que Y1, ..., Yn sont des variables indépendantes de même loi

(i.i.d.) de densité (cas continu) ou de masse de probabilité (cas discret) f .

Dénition 3.13. La fonction de répartition de la v.a. Y , notée F , est dénie par :

∀y ∈ R, F (y) = P(Y ≤ y),

la valeur prise par la fonction de répartition au point y est la probabilité de l'évènement

]−∞, y].

Dénition 3.14. (Densité de probabilité) Soit Y une v.a. et F sa fonction de répartition.

S'il existe une fonction f positive de l'ensemble des fonctions mesurables intégrables au sens

de Lebesgue sur R, telle que

∀y ∈ R, F (y) =

∫ y

−∞f(u)du,

alors f s'appelle la densité de probabilité de la v.a. Y. De plus, f vérie :∫ +∞

−∞f(y)dy = 1.

Lorsqu'on connait la densité de probabilité f de Y , il est possible de calculer la probabilité

d'appartenance d'une v.a. Y à n'importe quel ensemble A ⊆ R :

P(Y ∈ A) =

∫A

f(y)dy.

3.5.1 Estimation par histogramme

Sans perte de généralité, nous pouvons supposer que le support de f est inclus dans

l'intervalle [a, b[. Pour commencer, on choisit une partition uniforme C1, ..., Cm de l'intervalle

[a, b[ : Cj = [αj, αj+1[, j = 1, ...,m. Si f est supposée être continue, pour m susamment

grand, elle est bien approchée par des fonctions en escalier, constantes par morceaux sur les

intervalles Cj. On pose ` = 1/m et on approche f en tout point y ∈ [a, b[ par la fonction

f `(y) =m∑j=1

pj`1Cj

(y),

où pj =∫Cjf(y)dy. On ramène ainsi le problème d'estimation de f au problème d'estimation

d'un paramètre m-dimensionnel p = (p1, ..., pm). Ceci peut se faire en utilisant, par exemple

la méthode généralisée des moments. En eet, il est évident que

pj =

∫Cj

f(y)dy = Ef [1Cj(Y1)],∀j = 1, ...,m.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 43

Par conséquent, il est naturel d'estimer le vecteur p par

p = (p1, ..., pm), avec pj =1

n

n∑i=1

1Cj(Yi).

Observons au passage que chaque pj représente la proportion des observations Yi se trou-

vant dans l'intervalle Cj. Si la taille de l'échantillon est grande, il est légitime de s'attendre à

ce que cette proportion, dite empirique, converge vers la proportion théorique correspondant

à la probabilité qu'une observation tirée au hasard selon la densité f appartient à l'intervalle

Cj. Par substitution, nous dénissons l'estimateur de f par histogramme à m classes comme

suit :

f`(y) =1

`

m∑j=1

pj1Cj(y). (3.25)

On dit que chaque Cj est une classe et la longueur des classes ` est une fenêtre. Il est

aisé de remarquer que f` est une densité de probabilité.

Exemple sur des données simulées. A titre d'exemple, considérons un échantillon de

d'observations de taille n = 400 simulé selon la loi N (0, 1). Nous avons tracé dans la gure

3.1 ci-dessous les histogrammes des données simulées basées sur 10, 110 et 250 classes et

nous y avons superposé la courbe de la loi gaussienne. On constate que ces trois graphiques

présentent des diérences très importantes. Plus précisément, le graphe qui correspond à

m = 10 est bien plus régulier que les deux autres. Dans la terminologie statistique, on dit que

l'histogramme de gauche est trop lissé (en anglais oversmoothing) alors que l'histogramme

de droite n'est pas lissé susamment (undersmoothing). Un problème crucial du point de

vue des applications est donc de trouver la fenêtre ` qui correspond au lissage optimal.

L'une des méthodes les plus utilisées fournissant une fenêtre proche de l'optimale est

la méthode de validation croisée. La dénition précise de cette méthode sera donnée dans

la suite. Notons simplement qu'elle consiste à dénir une fonction J de ` (ou, de façon

équivalente, de m) qui est une estimation du risque de l'estimateur f`. Naturellement, la

valeur de ` est choisie en minimisant ce risque estimé.

Risque de l'estimateur par histogramme. Comme on a constaté sur l'exemple des

données simulées, la qualité de l'estimateur par histogramme dépend fortement de la fenêtre

`. An de quantier cette dépendance, nous introduisons le risque quadratique de f` au point

y ∈ [a, b[ comme étant la moyenne de l'erreur quadratique :

MSEf (y, `) = Ef[(f`(y)− f(y)

)2],

où l'abréviation MSE correspond à Mean Squared Error.

An d'avoir une évaluation globale valable pour tout point y ∈ [a, b[, on considère le risque

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 44

Figure 3.1 Histogrammes et densité des données simulées correspondant aux nombres de

classes m = 10,m = 110 et m = 250.

quadratique intégré :

MISEf (`) =

∫[a,b[

MSEf (y, `)dy = Ef[ ∫ b

a

(f`(y)− f(y)

)2dy

](3.26)

Cette dernière égalité est démontrée dans [8].

L'utilisation du critère MISE permet de dénir une fenêtre optimale de l'histogramme

notée `opt. Cette valeur optimale est la valeur qui minimise ce critère pour un nombre d'ob-

servations et une loi donnée.

Choix de la fenêtre par validation croisée. An de désigner une méthode de choix de

` indépendant de f , nous commençons par estimer le risque 2 de l'estimateur f` en utilisant

uniquement les observations Y1, ..., Yn. Soit J(`, Y1, ..., Yn) un estimateur deMISEf (`)−‖f‖22.Pour que la méthode de sélection de ` conduise vers des résultats raisonnables, on demande

de l'estimateur J(`, Y1, ..., Yn) d'être sans biais 3, c'est-à-dire

Ef [J(`, Y1, ..., Yn)] = MISEf (`)− ‖f‖22.

Pour la mise en oeuvre, nous avons la proposition suivante :

Proposition 3.3. Si f est une densité de carré intégrable et si f` est l'histogramme à m =

2. En pratique, il est préférable d'estimer non pas le risque MISEf (`) de f`, mais la diérence entre le

risque de f` et celui de l'estimateur trivial ftriv ≡ 0.

3. Idéalement, il faudrait également pouvoir contrôler la variance de J(`, Y1, ..., Yn), mais cet aspect ne

sera pas évoqué dans le cadre de ce mémoire.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 45

1/` classes basé sur l'échantillon Y1, ..., Yn ayant f pour densité de probabilité, alors

J(`, Y1, ..., Yn) =2

(n− 1)`− n+ 1

(n− 1)`

m∑j=1

p2j (3.27)

est un estimateur sans biais de MISEf (`)− ‖f‖22.

Nous pouvons à présent énoncer la méthode de validation croisée basée sur la relation

(3.27). Nous allons le faire en posant a = mini Yi et b = maxi Yi et pour tout m ∈ N choisir la

fenêtre ` = (b−a)/m. On dénit alors les classes Cj = [a+(j−1)`, a+j`[ pour j = 1, ...,m−1

et Cm = [b− `, b].

Algorithme de validation croisée pour choisir la fenêtre d'un histogramme.

Entrée : Y1, ..., Yn ;

Sortie : V C ;Dénir a← mini Yi

b← maxi Yi

Initialiser

m← 1

mV C ← 1

JV C ← −1

Tant que (m < n) faire

J ← 2m

n− 1− (n+ 1)m

n− 1

m∑j=1

( 1

n

n∑i=1

1Cj(Yi)

)2Si (J < JV C) alors

mV C ← m

JV C ← J

FinSi

m← m+ 1

Fin Tant queV C ← (b− a)/mV C

Source [8]

Une fois la fenêtre V C déterminée, nous pouvons calculer et tracer la courbe de l'histo-

gramme ayant comme fenêtre V C .Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 46

3.5.2 Estimateur à noyau continu

L'estimation de la densité par histogramme est une méthode naturelle très répandue car

elle est facilement implémentable. Cependant, les histogrammes sont des fonctions qui ne

sont même pas continues. Il est naturel alors de vouloir lisser les histogrammes. On

s'attend alors à ce que le résultat du lissage améliore non seulement l'aspect visuel de l'esti-

mateur, mais produise de plus un estimateur plus proche de la vraie densité que l'estimateur

par histogramme.

L'estimateur simple de densité, appelé aussi la méthode d'estimation par les histo-

grammes mobiles, en un point y ∈ R, consiste à construire autour de y un intervalle (ou

fenêtre) de largeur ` ([y − `2, y + `

2]) et à compter le nombre d'observations dans cet inter-

valle. Partons du lien existant entre la densité de probabilité f et la fonction de répartition

F :

∀y ∈ R, F (y) =

∫ y

−∞f(u)du,

on peut écrire

f(y) = lim`→0

P(y − `2≤ yi ≤ y + `

2)

`

= lim`→0

F (y + `2)− F (y − `

2)

`.

L'estimateur simple de f , notée f`, peut alors être déni, pour tout y ∈ R par :

f`(y) =1

`

Cardi : y − `2≤ yi ≤ y + `

2

n

=1

n`

n∑i=1

1[y− `2,y+ `

2](yi)

=1

n`

n∑i=1

1[− 12, 12]

(y − yi`

). (3.28)

La relation (3.28) peut aussi s'écrire

f`(y) =1

n`

n∑i=1

$(y − yi

`

), (3.29)

où $ est une fonction de poids qui n'est autre que la densité de probabilité uniforme sur

l'intervalle [−12, 12].

L'estimateur simple de la densité donné par (3.29) peut être généralisé en remplaçant la

fonction de poids $ par une fonction de poids plus générale, notée K (qui est une densité

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 47

de probabilité quelconque). On obtient l'estimateur

f`(y) =1

n`

n∑i=1

K(y − Yi

`

),

qui est continu et même d-fois continûment diérentiable du moment où la fonction K l'est.

On arrive nalement à la dénition suivante.

Dénition 3.15. Soit K : R −→ R une fonction quelconque et soit ` un réel positif. On

appelle estimateur à noyau la fonction

f`(y) =1

n`

n∑i=1

K(y − Yi

`

). (3.30)

On dit alors que K est le noyau de cet estimateur et ` la fenêtre ou constante de lissage.

Selon cette dénition, toute fonction K peut servir comme noyau d'estimation d'une

densité f . Les noyaux les plus couramment utilisés en pratique sont

le noyau rectangulaire :

K(u) =1

21[−1,1](u);

le noyau triangulaire :

K(u) = (1− |u|)1[−1,1](u);

le noyau d'Epanechnikov :

K(u) =3

4(1− u2)1[−1,1](u);

le noyau gaussien :

K(u) =1√2π

exp(−u2

2).

Lorsqu'on dénit un estimateur à noyau, on a non seulement le choix de la fenêtre ` > 0

mais aussi celui du noyau K. Le choix du noyau n'a pas d'impact très signicatif sur la

qualité d'estimation, dans le sens où si la fenêtre est bien choisie, les diérents noyaux précités

produisent des estimateurs de qualités comparables. Par contre, le choix de ` dépend de n

et de l'échantillon.

Validation croisée. Pour désigner une méthode automatique pour le choix de la fenêtre

`, on utilise souvent la méthode de la validation croisée. Il s'agit de proposer dans un premier

temps (pour un ` xé) un estimateur J(`) sans biais de la quantité J(`) = MISE(f`)−‖f‖22et, dans un deuxième temps, de minimiser cet estimateur J(`) dans un ensemble ni de

candidats pour `. Dans [8], on trouve que

J(`) =2

n(n− 1)`

n∑i=1

n∑j=1,j 6=i

K(Yi − Yj

`

)− ‖f‖22. (3.31)

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 48

Il sut alors de minimiser cette fonction et on obtient

opt = arg min

`>0

(J(`)

). (3.32)

3.5.3 Cas de la prévision en loi de la demande GPS

On considère la v.a. De,t suivant la loi L de paramètre γt, on note De,t ∼ L(γt) (loi de

probabilité dynamique). Une manière de prévoir les réalisations futures de la demande D est

d'utiliser cette loi de probabilité.

Mise en oeuvre. Pour mettre en oeuvre cette approche prévisionnelle, il nous semble ju-

dicieux d'utiliser par exemple un pas de temps mensuel, c'est-à-dire, pour une année donnée,

nous supposons connue L(γt), t = 1, 2, ..., 12. On se place à la n d'un instant (mois) t. On

peut alors prévoir de manière ad hoc la demande GPS de l'instant suivant par la relation

suivante (déduite de l'équation (2.1), cf. chapitre 2) :

Dt+1 = Dr,t + E(De,t+1). (3.33)

En pratique, si on est à la n du mois t et qu'on connait Dr,t, prédire Dt+1 revient

tout simplement à calculer E(De,t+1), ce qui revient à trouver L(γt), soit tout simplement à

estimer γt. Par ailleurs, comme pour toute méthode de prévision, nous dénissons aussi un

intervalle de prévision It,1(α) de niveau 1− α pour Dt+1, donné par la relation suivante :

It,1(α) = [Quα/2, Qu1−α/2], (3.34)

où Quα/2 et Qu1−α/2 sont respectivement le quantile d'ordre α/2 et 1−α/2 de la distribution

des observations de la v.a. De,t, auxquelles nous ajoutons Dr,t (supposée connue).

Remarque. Dans le cadre de ce mémoire, nous prendrons un pas de temps journalier

pour les observations de la demande eective de GPS et, nous travaillerons avec

une loi de probabilité statique. Autrement dit, il s'agira non plus d'estimer estimer γt,

pour t = 1, ..., 12, mais uniquement γ ∈ R2+.

3.6 Mesure de la qualité de la prévision

La performance des prévisions dépend de l'importance des erreurs de prévision. Ainsi, on

va comparer les prévisions avec les valeurs réellement observées. Il existe diérentes mesures

de performance prévisionnelle, ou plus exactement, de la grandeur des erreurs de prévision.

Avant de les présenter, il y a lieu d'abord d'étudier les sources potentielles d'erreurs de

prévision. En eet, les erreurs de prévision peuvent provenir de diverses sources [14] :

les modèles utilisés ;

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 49

les données (indisponibilité, collecte, période d'échantillon choisie pour estimer le mo-

dèle) ;

l'interaction entre les modèles et les données ;

les chocs ne pouvant pas être anticipés.

An d'examiner et de comparer la précision des diérentes méthodes de prévision consi-

dérées, il est nécessaire de choisir une mesure particulière de précision ou de performance pré-

visionnelle. La mesure la plus fréquemment utilisée en pratique est l'erreur absolue moyenne

en pourcentage (MAPE : Mean Absolute Percentage Error) [14]. D'autres mesures d'erreurs

de prévision comportent laMAE, laMSPE et la RMSPE. Cependant, puisque ces critères

sont moins utilisés comparés à la MAPE, nous avons choisi, dans cette étude, d'évaluer la

précision des résultats prédictifs des diérents modèles selon laMAPE, qui se calcule comme

suit.

Pratiquement, on divise l'intervalle de temps en deux parties dans l'ordre chronologique :

la première détermine les données servant à la modélisation et la seconde utilisée comme zone

de test. On tronque alors la série de hmax observations, i.e. n − hmax observations pour la

modélisation, et on compare les prévisions obtenues avec les réalisations sur les hmax valeurs

restantes. La MAPE se calcule donc comme suit :

MAPE =1

hmax

n∑t=n−hmax+1

| Yt − Yt || Yt |

. (3.35)

La meilleure méthode de prévision correspond à la MAPE la plus faible.

Prévision du moment de rupture. Nous introduisons dans le contexte d'étude de ce

mémoire, un critère de choix de modèle de prévision en loi , dénommé jour GPS de rupture.

Nous donnons d'abord quelques dénitions avant d'expliciter ce critère.

on dira qu'il y a rupture de stock GPS le jour t si Vt, le ux de sortie enregistré, est

strictement inférieur à Dt, la demande totale enregistrée ;

sur une période de hmax jours, on pourra donc calculer le nombre de jours où il y a eu

rupture de stock GPS. En posant NJR cette v.a., on aura :

NJR =hmax∑h=1

1Dh>Vh. (3.36)

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

MÉTHODOLOGIE STATISTIQUE 50

En pratique, il ne sut pas de prédire le moment de rupture. En réalité, le fait de

savoir que l'évènement rupture de stock GPS aura lieu est une chose. Mais, connaître

eectivement l'impact de la rupture en est une autre 4. Raison pour laquelle, le principal

indicateur de la mesure réelle de l'ampleur de la rupture est le critère jour GPS de rupture,

que nous notons JRGPS, et il est déni par la somme des quantités manquantes lorsque

l'évènement rupture de stock GPS a lieu, c'est-à-dire :

JRGPS =hmax∑h=1

(Dh − Vh)1Dh>Vh. (3.37)

La meilleure méthode de prévision en loi de probabilité est celle dont le critère JRGPS

se rapproche le plus de la réalité.

Résumé du chapitre

En résumé, ce chapitre se voulait essentiellement une introduction sur la théorie des

séries chronologiques et quelques uns de ses modèles. À cet eet, les caractéristiques et les

principales méthodes de prévision quantitatives utilisées en pratique ont été abordées, à

savoir la méthode du lissage exponentiel de Holt-Winters, la méthode de Box et Jenkins

avec leur modèle ARIMA saisonnier, la méthode à retards échelonnés et une méthode de

prévision en loi de probabilité. Toutes ces approches sont employées pour faire les prévisions

des séries chronologiques de la demande eective et du ux de retour GPS. Nous le faisons

dans le chapitre suivant.

4. A la douane, on explique d'ailleurs que, être en rupture d'un GPS n'a pas le même impact que d'être

en rupture de 20 GPS par exemple.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

APPLICATIONS AUX DONNÉES ET RÉSULTATS 51

Chapitre Quatre

Applications aux Données et

Résultats

Ce chapitre est dédié à l'application des modèles de prévision précédemment présentés,

application qui servira à produire, comme résultats, les valeurs futures de la demande eective

et du ux de retour GPS. La mise en oeuvre et l'estimation des paramètres des modèles sont

basées sur des échantillons de données. Nous aborderons à la section 4.1, la modélisation et

la prévision de la demande eective. Ensuite, la section 4.2 portera sur la modélisation et la

prévision du ux de retour.

4.1 Modélisation et prévision de la demande eective

Le but de cette section est de construire des modèles basés sur l'échantillon de données

de la demande eective de GPS, pour prédire les valeurs futures. Pour ce faire, que ce soit le

modèle de lissage exponentiel de Holt-Winters, le modèle de Box et Jenkins ou la méthode

de prévision en loi de probabilité, nous commencerons par une phase de vérication des dif-

férentes hypothèses sous-jacentes à l'applicabilité des méthodes. Tout d'abord, représentons

à nouveau le chronogramme pour cette série de la demande eective (gure 4.1). Nous consi-

dérons tout au long de cette section, sauf mention contraire, le logarithme des observations

de la demande eective de GPS. On travaillera donc avec la série transformée. Ainsi,

quand nous parlerons de série journalière de la demande eective, il s'agira de

la série journalière transformée.

4.1.1 Application de la méthode du lissage exponentiel Holt-Winters

La gure 4.1 montre bien que la série admet une tendance locale non nulle. L'aspect

saisonnier par contre, ne peut pas être analysé du fait de la taille d'échantillon. De ce fait,

un quelconque schéma de décomposition additif ou multiplicatif n'est pas envisageable dans

le choix de la valeur du paramètre seasonal de la fonction HoltWinters() du logiciel R. En n

de compte, nous retenons la version non saisonnière du lissage de H-W présenté à la section

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

APPLICATIONS AUX DONNÉES ET RÉSULTATS 52

Figure 4.1 Prol chronologique de la série journalière de la demande eective de GPS.

3.2.2.

Notre échantillon d'estimation des paramètres du modèle de lissage exponentiel tient sur

120 observations. La prévision hors échantillon porte sur les 9 prochaines valeurs (gure

4.2). Les prévisions générées par ce modèle sont de qualité assez bonnes comme l'atteste la

valeur MAPE = 10%. Cependant, l'intervalle de prévision à 95% de la prévision à court

terme s'accroît à un niveau peu utile en pratique, bien que les valeurs prédites semble suivre

la tendance de la courbe des valeurs observées.

Figure 4.2 Demande eective GPS, prédiction Holt-Winters et bande de prédiction.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

APPLICATIONS AUX DONNÉES ET RÉSULTATS 53

4.1.2 Application de la méthode de Box et Jenkins

Nous commençons par l'étude de la stationnarité de la série telle que dénie en 3.1.3.

Pour cela, nous utilisons les tests de stationnarité évoqués en Annexe B.2 et B.3. Le test de

Pettitt indique que la série est stationnaire en moyenne. De plus, l'utilisation jointe du test

de non stationnarité de Philipps-Perron (PP) (p-valeur = 0.01) et du test de stationnarité de

KPSS (p-valeur = 0.084) permettent de conrmer la stationnarité de la série journalière la

demande eective de GPS. Par contre le test de non stationnarité de Dickey Fuller augmenté

(ADF) donne une p-valeur = 0.16, i.e. rejet de l'hypothèse de stationnarité.

Figure 4.3 Demande eective de GPS, ACF (gauche) et PACF (droite).

Jetons enn un coup d'oeil sur les fonctions estimées d'autocorrélations (ACF) et d'au-

tocorrélation partielle (PACF) pour en avoir le coeur net (gure 4.3). Cette gure montre la

persistance des liens entre le présent de la série et son passé décalé de 6 jours. Nous remar-

quons aussi que la décroissance de l'ACF de 6 en 6 est lente, symptôme de non stationnarité

dans la saisonnalité. Comme le chronogramme de la série journalière de la demande eective

de GPS ne montre pas de régularité, nous pouvons conclure que la modélisation de cette

série passe par une diérenciation saisonnière.

Nous examinons donc les ACF et PACF de la série diérenciée saisonnièrement (gure

4.4). Nous notons que les autocorrélations sont signicatives principalement au retard 6. De

plus, l'ACF semble s'atténuer un peu plus rapidement que le PACF après 6. Nous privilé-

gions donc une moyenne mobile saisonnière d'ordre 1. C'est-à-dire, nous prenons initialement

(p, d, q) = (0, 0, 0) et (P,D,Q) = (0, 1, 1).

Nous constatons (gure 4.5) qu'il reste encore de l'autocorrélation signicative principa-

lement aux retards 2. Pour y remédier, nous introduisons des termes autorégressifs jusqu'à

l'ordre 2. Les résidus ne montrent que peu d'autocorrélation (gure 4.6), et le test de blan-

cheur résiduel de Ljung-Box donne des résultats très satisfaisants (p-valeur = 0.9539). Nous

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

APPLICATIONS AUX DONNÉES ET RÉSULTATS 54

Figure 4.4 Demande eective GPS diérenciée saisonnièrement, ACF (gauche) et PACF

(droite).

Figure 4.5 Demande eective GPS diérenciée saisonnièrement, résidu estimé du modèle,

ACF (gauche) et PACF (droite).

voyons également que le terme ψ1 n'est pas signicatif. Nous pouvons le vérier en observant

les p-valeurs du test de signicativité inscrites dans le tableau 4.1.

Nous supprimons donc le terme d'autorégression d'ordre 1, en le contraignant à zéro, nous

re-estimons ensuite le modèle et examinons la blancheur du résidu. En eet, la suppression du

coecient ψ1 n'a pas diminué la qualité de l'ajustement. Les résidus demeurent tout de même

typiques d'un bruit blanc (p-value = 0.17). Tous les coecients restants sont signicatifs et,

les tests de normalité de Shapiro ou de Jarque-Bera conduisent à ne pas rejeter l'hypothèse

nulle de normalité des résidus du modèle nal retenu SARIMA(2, 0, 0)(0, 1, 1)6, où le premier

coecient ψ1 est nul.

Nous sommes donc à même de proposer des valeurs futures pour la demande eective

GPS. Ceci va se faire pour les 9 prochaines valeurs, étant donné que nous avons utilisé les

120 premières observations pour la construction du modèle SARIMA(2, 0, 0)(0, 1, 1)6. Les

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

APPLICATIONS AUX DONNÉES ET RÉSULTATS 55

Figure 4.6 Demande eective GPS diérenciée saisonnièrement, résidu estimé du modèle

après ajout des deux premiers termes autorégressifs, ACF (gauche) et PACF (droite).

Table 4.1 Série de la demande, paramètres estimés et statistiques du modèle SARIMA.

Paramètre ψ1 ψ2 sma1

Estimation 0.133 0.256 -0.846

t-Stat 1.469 2.706 -10.255

P-valeur 0.142 0.007 0.000

σ2 estimée = 0.177 ; log-vraisemblance = -66.97 ; AIC = 141.95

valeurs prédites sont reproduites à la gure 4.7, avec un intervalle de prédiction à 95%.

Nous notons (gure 4.7) que les valeurs prédites et observées sont toujours contenues dans

l'intervalle de prévision. De plus, l'évolution dans le temps des valeurs prédites et observées

paraît visuellement conforme. Pour cette méthode de Box et Jenkins, on trouve MAPE =

5.85%.

Finalement, le tableau 4.2 récapitule les valeurs du critèreMAPE pour les deux méthodes

de prévisions en valeur . Ce tableau montre que les valeurs futures de la série chronologique

de la demande eective de GPS, prédites par la méthode Box et Jenkins sont meilleures en

terme de MAPE que les prévisions données par la méthode du lissage exponentiel de Holt-

Winters (version non saisonnière).

Table 4.2 MAPE pour les deux méthodes de prévision en valeur de la demande eective

de GPS.

Lissage H-W Box-Jenkins

MAPE (%) 10 5.85

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

APPLICATIONS AUX DONNÉES ET RÉSULTATS 56

Figure 4.7 Demande eective de GPS, prédiction Box Jenkins et bande de prédiction.

4.1.3 Prévision en loi de la demande eective

Nous travaillons ici avec la série non transformée. L'objectif de cette section est

d'utiliser la loi de probabilité estimée de la variable demande eective de GPS pour prévoir ses

valeurs futures. Pour cela, nous commençons par la vérication de l'hypothèse fondamentale

à l'application de cette méthode de prévision en loi telle qu'énoncée à la section 3.5. En

eet, les conclusions tirées de la gure 4.8 permettent de ne pas rejeter l'hypothèse selon

laquelle la série d'observations de la demande eective est stationnaire et ergodique. Ainsi,

selon les précisions faites à la section 3.5, nous pouvons traiter la suite d'observations de la

v.a. demande eective GPS, comme formant une suite i.i.d de v.a., pour estimer la loi de

cette v.a..

Figure 4.8 Autocorrélogramme de la série de la demande eective.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

APPLICATIONS AUX DONNÉES ET RÉSULTATS 57

Cas où la demande est une variable continue

L'hypothèse de continuité est très souvent en relation avec une approximation de la réa-

lité. En considérant la variable demande eective de GPS comme continue, nous écartons

immédiatement un nombre conséquent de lois candidates pour la modélisation telles que les

lois discrètes. Ajoutons que, dans notre contexte, la modélisation de la demande par une loi

normale pose un problème (au moins sur le plan théorique) car une variable normale, quelles

que soient les valeurs de ses paramètres, a une probabilité non nulle de prendre des valeurs

négatives. Nous ferons l'estimation de loi selon deux approches telles que spéciées dans le

chapitre précédent.

a. Ajustement paramétrique de la loi à l'histogramme optimal

∗ Partant de notre échantillon de données d'apprentissage de taille n = 120, nous esti-

mons d'abord le nombre de classes optimale mV C par validation croisée. Nous nous servons

pour cela de la fonction VC_hist() et, on trouve mV C = 7. Ceci nous permet de représenter

l'histogramme à 7 classes pour ce jeu de données.

∗ Il s'agit désormais de trouver parmi la famille restreinte de densités standard (loi

gamma, loi log-normale, loi de Weibull, loi de Pareto, loi exponentielle négative, etc.) celle

dont la courbe de la densité estimée s'approche le mieux de cet histogramme. Après quelques

tâtonnements et éliminations, deux lois de probabilité ressortent comme potentiellement can-

didates pour la modélisation stochastique de la demande eective de GPS. Il s'agit de la loi

gamma et de la loi log-normale.

∗ En utilisant la p-valeur du test de Kolmogorov (p-valeur loi gamma = 0.9957, p-valeur

loi log-normale = 0.9218), il vient que la loi gamma de paramètre estimé γ = (4.269, 0.066)

est celle qui ajuste le mieux l'échantillon d'apprentissage. La gure 4.9 (à gauche) fait une

illustration graphique de cet ajustement, où nous superposons sur l'histogramme la courbe

de la densité estimée. Bien que bon nombre de revues scientiques font état d'une distribu-

tion normale pour la demande d'articles, ce résultat reste toutefois conforme à ceux obtenus

dans [13,30].

b. Ajustement paramétrique de la loi à l'estimateur du noyau optimal

De même, par la méthode du noyau, on se sert de la fonction VC_kern() pour obteniropt = 10.707. On reproduit également (gure 4.9, droite), l'ajustement de la densité de la loi

gamma estimée, de paramètre estimé γ = (4.269, 0.066) (qui s'est avérée la plus appropriée

suivant la p-valeur du test de Kolmogorov) et la fonction de densité estimée par la méthode

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

APPLICATIONS AUX DONNÉES ET RÉSULTATS 58

du noyau.

Figure 4.9 Ajustement par histogramme et par noyau de la loi de probabilité de la

demande eective.

c. Prévision par la loi de probabilité gamma estimée

Dans ce qui précède, nous avons utilisé un échantillon d'apprentissage de taille 120. On

va donc prédire les observations pour les 9 prochaines valeurs, puis comparer les valeurs

prédites aux valeurs réellement observées. Pour chacune de ces 9 valeurs, la prédiction sera

donnée par l'espérance de la loi de probabilité estimée. La borne inférieure (resp. supérieure)

de l'intervalle de prédiction est prise comme le quantile d'ordre 2.5% (resp. d'ordre 97.5%)

de la distribution des données d'apprentissage. Tout ceci est schématisé à la gure 4.10.

Disons aussi un mot sur la valeur réellement observée des critères NJR et JRGPS (déni

par les formules (3.36) et (3.37) respectivement) avant de donner ses valeurs estimées par la

méthode de prévision en loi exposée dans ce cadre. En eet, on connait les hmax = 9 valeurs

des données tests pour les variables demande eective et ux de sortie, soient (87, 38, 38,

48, 76, 88, 108, 41, 70) pour la demande eective et (107, 83, 9, 71, 52, 127, 87, 41, 82)

pour le ux de sortie. Par conséquent, par dénition, on trouve NJR = 3. Ceci signie que,

3 jours/9 il y a réalisation de l'évènement de rupture, soit un pourcentage de 33.33%. En

outre, par un calcul immédiat, on trouve aussi JRGPS = 74, ce qui signie par exemple,

qu'on a enregistré pendant ces 9 jours, un manque à gagner égal à 74 fois le gain qu'apporte

l'utilisation d'un GPS aux recettes scales douanières.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

APPLICATIONS AUX DONNÉES ET RÉSULTATS 59

Figure 4.10 Demande eective de GPS, prédiction en loi de probabilité et bande de

prédiction.

Regardons maintenant ce qu'on obtient pour les valeurs de ces critères, avec la prévision

en loi. En eet, la prévision des valeurs futures est constamment égale à 65. Et le tableau

4.3 montre que NJR = 3 et par suite, on trouve JRGPS = 93.

Table 4.3 Prévision en loi de la demande eective de GPS, quelques critères calculés.

h 1 2 3 4 5 6 7 8 9

Demande préd. 65 65 65 65 65 65 65 65 65

Flux de sortie obs. 107 83 9 71 52 127 87 41 82

Rupture 0 0 1 0 1 0 0 1 0

d. Cas où chaque jour de la semaine à sa loi de probabilité

La gure 4.10 montre, comme prévue, que la prévision des valeurs futures est constante

dans le temps. Une manière de nuancer ces prévisions est, de considérer les lois de probabilité

estimées pour chaque jour de la semaine. En eet, selon cette approche, on aurait non plus

une, mais 6 lois de probabilités estimées (gure 4.11). Dans ce cas, la prévision d'un jour

xé sera donnée par l'espérance de la loi estimée pour le jour correspondant.

On aura alors la valeur prédite 61.68 (soit 62) pour tous les Lundis futurs, 74.76 (soit 75)

pour les Mardis, 63.95 (soit 64) pour les Mercredis, 71 pour les Jeudis, 82.95 (soit 83) pour

les Vendredis et 36.68 (soit 37) pour les Samedis. Avec cette approche, la prévision pour les

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

APPLICATIONS AUX DONNÉES ET RÉSULTATS 60

Figure 4.11 Ajustement Gamma pour chaque jour de la semaine, demande eective GPS.

9 valeurs futures est illustrée à la gure 4.12. Comme précédemment, le tableau 4.4 montre

que NJR = 3 et par suite, on trouve JRGPS = 69.

Table 4.4 Prévision en loi (version 2) de la demande eective de GPS, quelques critères

calculés.

h 1 (Ven.) 2 3 4 5 6 7 8 9

Demande préd. 83 37 62 75 64 71 83 37 62

Flux de sortie obs. 107 83 9 71 52 127 87 41 82

Rupture 0 0 1 1 1 0 0 0 0

Finalement, la valeur 69 par rapport à la valeur 93, est celle qui s'avère la plus proche

de la valeur réelle 74. Nous pouvons donc conclure que la meilleure méthode de prévision en

loi est celle qui utilise une loi de probabilité estimée pour chaque jour de la semaine (6 lois

de probabilité).

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

APPLICATIONS AUX DONNÉES ET RÉSULTATS 61

Figure 4.12 Demande eective de GPS, prédiction en loi de probabilité suivant les jours

et bande de prédiction.

4.2 Modélisation et prévision du ux de retour

Le but de cette partie est de construire des modèles basés sur l'échantillon de données

du ux de retour GPS pris sous diérents formats (en fonction de la méthode utilisée),

pour prédire les valeurs futures. Pour cela, nous implémenterons dans cette partie, quatre

des méthodes exposées au chapitre 3 (Holt-Winters, Box et Jenkins, non paramétrique et à

retards échelonnés). Comme dans le cas précédent, nous considérons tout au long de cette

section, sauf mention contraire, le logarithme des observations du ux de retour GPS. On

travaillera donc avec la série transformée. Ainsi, quand nous parlerons de série

journalière du ux de retour, il s'agira de la série journalière transformée.

Rappelons qu'au chapitre 2, nous avons montré, à l'aide du lag plot, que la série non trans-

formée du ux de retour admettait des aspects typés, principalement aux retards multiples

de 6. Ce résultat et bien d'autres resteront valables dans ce cadre de série transformée.

4.2.1 Application de la méthode du lissage exponentiel Holt-Winters

Étant donné les précisions faites ci-dessus, et puisque la série journalière du ux de

retour (gure 4.13) montre une tendance non nulle à court terme, nous devons certainement

utiliser la version saisonnière de la méthode du lissage de H-W. Cependant, l'application de

la fonction HoltWinters() sur la série journalière du ux de retour pose un problème de taille

d'échantillon pour pouvoir prendre en compte la présence du facteur saisonnier. Selon cette

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

APPLICATIONS AUX DONNÉES ET RÉSULTATS 62

Figure 4.13 Prol chronologique de la série journalière du ux de retour GPS.

spécication, et pour un échantillon d'apprentissage de taille 401, les valeurs prédites pour les

31 prochains jours sont schématisées à la gure 4.14. Aussi, on trouve queMAPE = 20.55%.

Comme pour le cas de la demande eective, le graphique montre que cette méthode semble

bien prédire la tendance des observations futures du ux de retour GPS.

Figure 4.14 Flux de retour GPS, prédiction Holt-Winters et bande de prédiction.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

APPLICATIONS AUX DONNÉES ET RÉSULTATS 63

4.2.2 Application de la méthode de Box et Jenkins

Dans cette section, nous utilisons le même échantillon d'apprentissage que précédemment

pour prédire les valeurs futures du ux de retour GPS, prédiction basée sur la méthode de

Box et Jenkins.

Figure 4.15 Flux de retour GPS, ACF (gauche) et PACF (droite).

Premièrement, nous examinons la stationnarité de la série. Ceci est fait au moyen des

trois tests standards à savoir : le test de Philipps-Perron (p-valeur = 0.01), le test de Dickey-

Fuller augmenté (p-valeur = 0.01) dont on en déduit le rejet de l'hypothèse nulle de non

stationnarité de la série ; et le test KPSS (p-valeur > 0.1), qui suggère de rejeter l'hypothèse

nulle selon laquelle la série journalière du ux de retour est stationnaire. En outre, il est

aussi intéressant de jeter un coup d'oeil aux fonctions d'autocorrélation et d'autocorrélation

partielle de la série (gure 4.15) car elles nous indiquent la persistance des liens entre le

présent de la série et son passé décalé de 6 jours. Nous remarquons aussi que la décroissance

de l'ACF de 6 en 6 est lente, symptôme de non stationnarité dans la saisonnalité. Comme

le chronogramme de la série journalière du ux de retour de GPS ne montre pas de régula-

rité, nous pouvons conclure que la modélisation de cette série passe par une diérenciation

saisonnière.

Nous examinons donc la série diérenciée saisonnièrement, ainsi que ses ACF et PACF.

Nous observons (gure 4.16, graphique supérieur) que cette série est évidemment de moyenne

nulle. Sur les graphiques inférieurs, nous notons que les autocorrélations sont signicatives

principalement au retard 6. De plus, l'ACF semble s'atténuer un peu plus rapidement que

le PACF après 6. Nous privilégions donc une moyenne mobile saisonnière d'ordre 1. C'est-à-

dire, nous prenons initialement (p, d, q) = (0, 0, 0) et (P,D,Q) = (0, 1, 1) .

Nous constatons (gure 4.17a) qu'il reste encore de l'autocorrélation signicative princi-

palement au retard 3. Pour y remédier, nous introduisons des termes autorégressifs jusqu'à

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

APPLICATIONS AUX DONNÉES ET RÉSULTATS 64

Figure 4.16 Flux de retour GPS diérencié saisonnièrement, chronogramme et ACF.

l'ordre 3. Les résidus ne montrent que peu d'autocorrélation (gure 4.17b), et le test de

blancheur résiduel de Ljung-Box donne des résultats très satisfaisants (p-valeur = 0.8292).

Nous voyons également que le terme ψ2 n'est pas signicatif. Nous pouvons le vérier en

observant les p-valeurs du test de signicativité inscrites dans le tableau 4.5.

Table 4.5 Série du ux de retour, paramètres estimés et statistiques du modèle SARIMA.

Paramètre ψ1 ψ2 ψ3 sma1

Estimation 0.146 0.085 0.245 -0.952

t-Stat 2.96 1.706 4.899 -24.481

P-valeur 0.003 0.088 0.000 0.000

σ2 estimée = 0.151 ; log-vraisemblance = -194.72 ; AIC = 399.44

Nous supprimons donc le terme d'autorégression d'ordre 2, en le contraignant à zéro,

nous re-estimons ensuite le modèle et examinons la blancheur du résidu. En eet, la sup-

pression du coecient ψ2 n'a pas diminué la qualité de l'ajustement. Les résidus demeurent

typiques d'un bruit blanc (p-value = 0.5985, Ljung-Box). Tous les coecients restants sont

signicatifs, bien que les tests de normalité de Shapiro et de Jarque Bera conduisent à re-

jeter l'hypothèse de normalité des résidus du modèle nal SARIMA(3, 0, 0)(0, 1, 1), où le

deuxième coecient ψ2 est nul.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

APPLICATIONS AUX DONNÉES ET RÉSULTATS 65

(a) SARIMA(0, 0, 0)(0, 1, 1), résidu, ACF et

PACF.

(b) SARIMA(3, 0, 0)(0, 1, 1), résidu, ACF et

PACF.

Figure 4.17 Flux de retour GPS, diérents modèles SARIMA.

Nous sommes donc à même de proposer des valeurs futures pour le ux de retour GPS.

Ceci va se faire pour les 31 prochaines valeurs, étant donné que nous avons utilisé les 401 pre-

mières observations pour la construction du modèle SARIMA(3, 0, 0)(0, 1, 1)6. Les valeurs

prédites sont reproduites à la gure 4.18, avec un intervalle de prédiction à 95%. Nous notons

(gure 4.18) que les valeurs prédites et observées sont toujours contenues dans l'intervalle de

prévision. De plus, l'évolution dans le temps des valeurs prédites et observées paraît visuel-

lement conforme. Signalons enn que la valeur trouvée pour l'erreur de prévision absolue en

pourcentage est MAPE = 7.03%.

Au nal, le tableau 4.6 résume les valeurs du critère MAPE pour les deux méthodes de

prévision en valeur utilisant l'échantillon de données sous un même format. Il en ressort que,

pour la prévision journalière du ux de retour GPS, la méthode de Box et Jenkins s'avère

une fois de plus être la meilleure en termes de valeur MAPE.

Table 4.6 MAPE pour les deux méthodes de prévision en valeur du ux de retour GPS.

Lissage H-W Box-Jenkins

MAPE (%) 20.55 7.03

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

APPLICATIONS AUX DONNÉES ET RÉSULTATS 66

Figure 4.18 Flux de retour GPS, prédiction Box Jenkins et bande de prédiction.

4.2.3 Application de la méthode à retards échelonnés

Le but de cette section est de prédire les valeurs futures du ux de retour GPS à l'aide

du modèle à retards échelonnés. Nous nous appuyons donc sur la méthodologie présentée à

la section 3.4. Comme indiqué, les valeurs prédites dépendent fondamentalement de l'esti-

mation des paramètres νi = p(1 − q)i−1q, i = 1, 2, ... . Ce qui revient simplement à estimer

p et q. Pour y arriver, nous pouvons notamment utiliser l'algorithme EM. Ainsi, contrai-

rement aux diérents modèles de prévision présentés dans ce mémoire, l'information au

niveau du GPS est nécessaire pour l'estimation du modèle. Nous nous servons à cet eet

de l'échantillon de données comportant : un code identiant du voyage ou du GPS associé,

sa date de début (variable tsortie), sa date de retour (variable tretour) et sa durée avant dis-

ponibilité. Il s'agit des voyages dont la variable tsortie est comprise entre le 02 Janvier 2014

et 17 Mai 2014. Les observations de la v.a. durée avant disponibilité sont donc extraites de

celles utilisées dans l'analyse faite à la section 2.2.3.

Les études de cas réalisées dans la littérature sur ce modèle utilisent généralement des

petits échantillons de données. C'est le cas notamment dans [16] avec un échantillon de 60

observations (l'unité de temps était le mois) et dans [33] avec un échantillon de 22 observa-

tions (l'unité de temps était le mois). Dans le cadre de ce mémoire, nous allons construire la

prévision des valeurs futures de la manière suivante.

Nous choisissons comme temps courant, la date t = 10/05/2014. Ce choix permet égale-

ment de délimiter l'échantillon d'apprentissage de l'échantillon test. A cette date, nous avons

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

APPLICATIONS AUX DONNÉES ET RÉSULTATS 67

n = 6654 GPS enregistrés comme sortie etm = 6303 GPS déjà retournés. Il reste à mettre en

oeuvre l'algorithme EM, avec des initialisations convenables pour p, la probabilité qu'un GPS

mis en transit retourne pour être réutilisé, et q, la probabilité qu'un GPS retourne le jour

suivant (paramètre de la loi géométrique). Nous estimons alors p1 = mn

= 0.947. L'estimation

q1 se fait par maximum de vraisemblance et est donnée par q1 = m∑mi=1(ri−si)

= 630350387

= 0.125.

La gure 4.19 montre qu'eectivement l'algorithme EM converge vers les estimations p et q

cherchées. La convergence de p est obtenue à partir de la septième itération, tandis que celle

de q est obtenue à partir de la quatrième itération.

Figure 4.19 Estimation de p et q, algorithme EM.

Nous obtenons nalement (p, q) = (1, 0.064). Connaissant les estimations νi(t), nous

sommes désormais capable de proposer des valeurs futures du ux de retour GPS confor-

mément à la formule (3.24), avec I(t) = IB(t) 1. Précisons que pour la période d'étude

considérée, nous avons 116 jours d'activité. De plus, pour t = 10/05/2014 l'échantillon

d'apprentissage correspond à 110 observations. Les prédictions sont donc faites pour les 6

prochaines valeurs.

Nous remarquons (gure 4.20) que les valeurs prédites ne sont pas très satisfaisantes

contrairement à ce qu'on attendrait. Ce qu'atteste d'ailleurs la valeur du critère MAPE =

0.3%. En fait, on se serait attendu à ce que cette méthode, utilisant en plus l'information

apportée par les observations du ux de sortie, produise des résultats meilleurs que les

1. Au moment de la rédaction de ce mémoire, nous n'avons pas jusqu'à l'heure la possibilité d'utiliser

les informations IC(t) et ID(t). En eet, pour C il est impossible d'avoir une expression de c(i, h) (la revue

dans laquelle nous pouvions la trouver est payante), tandis que pour D, les données sur vt,t−i ne sont pas

disponibles.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

APPLICATIONS AUX DONNÉES ET RÉSULTATS 68

autres méthodes. Par ailleurs, ce constat pourrait s'expliquer par le fait que, d'après [9,18],

les performances en matière de prévision sont meilleures dans le cas des informations IC et

ID, que dans le cas de l'information IB. De plus, ce résultat peut aussi être attribué à la

distribution du délai de retour GPS utilisée, qui est la loi géométrique.

Figure 4.20 Flux de retour GPS, prévision par le modèle à retards échelonnés.

Résumé du chapitre

Ce chapitre visait à appliquer les méthodes statistiques présentées au chapitre précédent

sur les échantillons de données disponibles de la demande eective et du ux de retour GPS,

en vue de produire des résultats. Pour ce faire, nous avons pu montrer que : (1) pour la

prévision journalière de la série transformée des valeurs futures de la demande eective de

GPS, la méthode de prévision de Box et Jenkins s'est avérée meilleure que les méthodes

de lissage de Holt-Winters (en termes de critère MAPE). D'autre part, le critère JRGPS

semble performant dans le choix de la méthode de prédiction en loi, et ce, pour prédire

l'ampleur de la rupture de stock GPS ; (2) pour la prévision du ux de retour GPS, nous

avons également considéré un pas de temps journalier pour la série transformée. Et, la

méthode de Box et Jenkins s'est également avérée meilleure que celle de H-W, en termes

de critère MAPE. D'autre part, la méthode à retards échelonnés qui, bien que prenant en

compte le fait que les retours futurs de GPS dépendent des sorties GPS passées, ne produit

pas des résultats remarquables. Soulignons néanmoins que, comme pour la prévision de le

demande eective, la méthode de lissage exponentiel de Holt-Winters semble bien prédire la

tendance des observations futures.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

FORMALISATION DU CADRE THÉORIQUE DE LA POLITIQUE DE GESTION DESTOCK 69

Chapitre Cinq

Formalisation du Cadre Théorique

de la Politique de Gestion de Stock

L'objet de ce chapitre est de proposer une formalisation du cadre théorique d'une politique

de gestion de stock GPS adapté au contexte douanier. Il se compose de deux sections : la

section introductive 5.1, présente les politiques de gestion de stock classiques existantes dans

la littérature et les modèles associés ; la section 5.2 présente le cadre mathématique de la

politique proposée pour la gestion de stock GPS.

5.1 Introduction

5.1.1 Politiques de gestion de stock classiques

Une politique de gestion de stock peut être dénie comme étant l'ensemble des voix et

moyens mis en oeuvre pour contrôler et optimiser les ux physiques, minimiser le coût total

engendré par les activités de stockage et de transport, tout en satisfaisant les demandes du

client sur un horizon donné. Il existe, en pratique, quelques politiques de gestion de stock

classiques qui peuvent se dénir par les réponses qu'elles apportent aux deux questions de

base suivantes [2,15].

• Quand approvisionner ? La réponse à cette question réside en le choix de l'une des

trois méthodes de réapprovisionnement ci-dessous

Gestion de stock au point de commande : l'approvisionnement du stock est déclenché

lorsque le stock descend au-dessous d'un niveau xé appelé point de commande.

Gestion calendaire : l'approvisionnement du stock est déclenché à des intervalles de

temps réguliers.

Gestion calendaire conditionnelle : l'approvisionnement du stock est déclenché à des

intervalles de temps réguliers, mais uniquement lorsque le stock descend en dessous

d'un certain seuil du point de commande.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

FORMALISATION DU CADRE THÉORIQUE DE LA POLITIQUE DE GESTION DESTOCK 70

• Quelle quantité approvisionner ? Il existe deux méthodes de base qui répondent à

cette question :

Approvisionnement par quantité xe : chaque commande porte sur la même quantité

xe. C'est le cas notamment lorsqu'il y a des contraintes de conditionnement ou de

transport ou des seuils tarifaires qui impliquent un achat minimum. Ceci suppose bien

évidemment une fréquence d'approvisionnement variable.

Approvisionnement par quantité variable : lors de chaque commande, le stock théorique

est mesuré pour commander une quantité qui permet de re-compléter ce stock.

5.1.2 Modèles de politique de gestion de stock

Dans la littérature [2,15], nous retrouvons plusieurs modèles de politique de gestion de

stock prédénis. Nous présentons ci-dessous quelques politiques de gestion de stocks les plus

utilisées en pratique :

(s, S) : Dans cette politique, dès que le niveau du stock descend en dessous d'un seuil

xé s, une commande d'approvisionnement du stock est passée immédiatement pour

tenter de ramener le niveau du stock à son niveau initial S.

(R, S) : Dans cette politique, à chaque R unités de temps, une commande d'approvi-

sionnement du stock est passée pour tenter de ramener le niveau du stock à son niveau

initial S.

(R, s, S) : Dans cette politique, à chaque R unités de temps, le niveau du stock est

contrôlé et s'il est en dessous d'un seuil xé s, une commande d'approvisionnement du

stock est passée pour tenter de ramener le niveau du stock à son niveau initial S.

(s,Q) : Dans cette politique, dès que le niveau du stock est en dessous d'un seuil xé

s, une commande d'approvisionnement d'une quantité xe Q est passée.

(R, s,Q) : Dans cette politique, à chaque R unités de temps, le niveau du stock est

contrôlé et s'il est en dessous d'un seuil xé s, une commande d'approvisionnement

d'une quantité xe Q est passée.

(S − 1, S) : C'est un cas particulier de la politique (s, S) avec s = S − 1 et un contrôle

continu du niveau du stock.

Ces politiques peuvent être classées comme suit :

• Politiques avec révision continue : il s'agit des politiques (s, S), (s,Q) et (S − 1, S)

où l'état du stock est inspecté continuellement.

• Politiques avec révision périodique : il s'agit des politiques (R, s, S), (R, S) et (R,Q)

où l'état du stock est inspecté périodiquement.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

FORMALISATION DU CADRE THÉORIQUE DE LA POLITIQUE DE GESTION DESTOCK 71

Des coûts logistiques sont liés à ces politiques. Ces coûts peuvent être classés en trois

familles selon la littérature. Les coûts de commande, les coûts de possession et les coûts

de rupture. Lors de l'optimisation des décisions relatives à l'inventaire, il faut prendre en

compte tous ces coûts.

5.1.3 Cas de la gestion de stock GPS

Plusieurs incertitudes rythment le quotidien du gestionnaire de stock GPS à la Douane

Camerounaise. En eet, le système de gestion de stock est soumis à une demande aléatoire et

répétitive, une durée avant disponibilité aléatoire et, à des coûts liés aux diérentes activités.

La seule certitude se situe au niveau du délai de réapprovisionnement, qui est de deux jours à

compter de la date où une commande est eectuée. La gestion de stock de GPS à la Douane

Camerounaise est donc un problème particulier qui rend son traitement complexe par des

politiques classiques. De ce fait, nous allons proposer un cadre mathématique de formalisation

d'une politique de gestion de stock adaptée au contexte douanier. Nous proposerons aussi

une méthodologie d'estimation par simulation de la probabilité de rupture de stock. A cet

eet, nous introduisons nos propres notations et adoptons certaines utilisées dans [20,32].

Les notations retenues et harmonisées sont données dans le tableau 5.1, où une période

est comprise comme un jour, un bloc de deux jours, une semaine ou encore un mois. Nous

noterons indiéremment at ou a(t) pour la valeur en t d'une variable a variant dans le temps.

Table 5.1 Notations principales adoptées dans ce chapitre.

Dt v.a.r. (v.a. représentant) la demande de la période t

DNt v.a.r., la demande nette (demande - retour) de la période t

L Délai de réapprovisionnement

DNL(t) v.a.r., la demande nette pendant le temps L (période t+ 1, t+ 2, ..., t+ L)

Dr,t v.a.r., la demande résiduelle de la période t

De,t v.a.r., la demande eective de la période t

Vt v.a.r., le ux de sortie de la période t

Rt v.a.r., le ux de retour de la période t

k Facteur de sécurité

p Probabilité de retour

q Paramètre de la distribution du délai de retour

Qt Quantité commandée à la n de la période t

At Quantité achetée pendant la période t

IRt Indicateur de rupture de la période t

St Position de base du stock à la n de la période t

PSt Position du stock au début de la période t

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

FORMALISATION DU CADRE THÉORIQUE DE LA POLITIQUE DE GESTION DESTOCK 72

5.2 Une formalisation mathématique de la gestion de stock

GPS

Dans cette section, nous développons un modèle mathématique d'inventaire pour un stock

de GPS réutilisables dans lequel les ux de retour aléatoires dépendent explicitement de la

demande ou des ux de sortie. Une situation similaire est également discutée dans [20] mais

avec une délai de retour xe pour chaque article. Nous allons étendre cette hypothèse au

cas où le délai de retour est aléatoire, suivant une distribution de Poisson de paramètre λ.

Pour simplier, nous considérons aussi un horizon de planication ni, limité à T jours (par

exemple T = 30 pour un mois). Sans perte de généralité, nous prenons la longueur d'une

période égale à 1 et la période est numérotée par t = 1, 2, ... .

Chaque demande individuelle de GPS non satisfaite est immédiatement diérée. Dans

ce cas, une politique de gestion de stock à point de commande simple est optimale lorsque

l'espérance et la variance de la demande nette pendant le temps de réapprovisionnement,

DNL(t) = DL(t)−RL(t), sont connues pour chaque période [18,19].

• Nous utilisons des échantillons de données agrégées en bloc de deux jours 1 de la de-

mande eective et du ux de retour GPS pour la période allant du Vendredi 01 Novembre

2013 au Samedi 29 Mars 2014, pour obtenir les valeurs de la v.a. DNL. En utilisant la mé-

thode d'estimation paramétrique de densité, nous montrons que DNL suit une distribution

normale, comme le montre la gure 5.1 et le conrment les tests de Shapiro (p-valeur =

0.774) et de Kolmogorov (p-valeur = 0.941). Par conséquent, d'après [32], le niveau du stock

de base est déni par S = E(DNL) + k√

V(DNL), pour une politique de gestion de stock

GPS à point de commande, où le facteur de sécurité k est déterminé suivant le niveau de

performance souhaité.

•Dans [18] également, les auteurs développent des approximations normales deDNL(t) | I(t),

la demande nette conditionnelle sur le délai de réapprovisionnement, étant donné l'informa-

tion jusqu'à et y compris la période t. Ils utilisent notamment les quatre ensembles d'informa-

tion A,B,C et D dénis au chapitre 1. Des expressions mathématiques de E[DNL(t) | I(t)]

et V[DNL(t) | I(t)] sous ces quatre ensembles d'informations y sont mentionnées 2. Notons

par St, le niveau de stock de base à la n de la période t. Alors

St = E[DNL(t) | I(t)] + k√

V[DNL(t) | I(t)], (5.1)

1. Par exemple, pour une semaine ouvrable donnée, au lieu d'avoir 6 observations, nous en aurons 3, en

additionnant les observations de Lundi-Mardi, Mercredi-Jeudi et Vendredi-Samedi.

2. Au moment de la rédaction de ce mémoire, cette revue [18] et celles de [19],[16] n'ont pas été disponibles

car sont payantes.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

FORMALISATION DU CADRE THÉORIQUE DE LA POLITIQUE DE GESTION DESTOCK 73

Figure 5.1 Loi de probabilité estimée de la demande nette.

et la quantité commandée à la période t, Qt est donnée par

Qt =

St − St−1 +DNt si St−1 −DNt < St,

0 sinon.(5.2)

De Brito et Van Der Laan (2002) utilisent la simulation pour comparer le coût de perfor-

mance de la politique de commande donnée par l'équation (5.2) sous les ensembles d'infor-

mations A-D lorsque les estimations des paramètres sont statiques, c'est-à-dire ν(t) = ν 6= ν.

Nous adaptons cette simulation au contexte de gestion de stock GPS de la manière suivante :

dans la période t, la demande totale Dt est tirée d'une distribution gamma (les valeurs sont

arrondies au nombre entier). Nous supposons ici que toutes les demandes sont satisfaites.

Étant donné les résultats obtenus pour p et λ, la probabilité de retour est de p = 1 pour

chaque GPS de ce cumul. Le temps de retour de chaque GPS est tiré de la distribution

de Poisson de paramètre λ. Dans ce cas, νi = p exp(−λ)λi/i!. Dans chaque période, les

estimations de l'espérance et la variance de la demande nette au cours du délai de réapprovi-

sionnement peuvent être évaluées en utilisant ces paramètres dans chacun des procédés A-D.

Ces estimations sont ensuite utilisées pour calculer la taille de la commande en utilisant les

équations (5.1) et (5.2).

En supposant que la demande nette au cours du délai de réapprovisionnement est normale-

ment distribuée, la valeur optimale du coût du facteur de sécurité, k∗, satisfait (Silver and

Peterson, 1985, Ch. 7) :

F0(k∗) = 1− hs

cb, (5.3)

où F0(.) est la fonction de répartition de la loi normale standard, hs le coût de détention

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

FORMALISATION DU CADRE THÉORIQUE DE LA POLITIQUE DE GESTION DESTOCK 74

par GPS en sur-stock à la n de chaque période, et cb la peine de rupture de stock GPS

par occurrence. A la n de chaque expérience de simulation, le coût total moyen par période

peut être calculée comme le coût total de possession plus les frais de rupture de stock par

période. Plus de détails concernant la conguration de la simulation peuvent être trouvés

dans [9].

5.3 Probabilité de rupture et quantité à approvisionner

De manière formelle, l'évènement rupture de stock a lieu lorsque la demande est su-

périeure à l'ore. Dans le contexte de gestion de stock GPS, la demande sera assimilée à la

demande totale de GPS (eective plus résiduelle), tandis que l'ore est comprise comme la

quantité totale de GPS disponible en stock, y compris les GPS réapprovisionnés et les GPS

retournés. Ainsi, avec les notations du tableau 5.1, nous avons l'équivalence

rupture de stock à la période t ⇐⇒ Dt > PSt + At +Rt. (5.4)

L'objectif est de prédire le moment de rupture de stock par estimation de la probabilité

que l'évènement se réalise. Supposons qu'il n'y a pas eu de rupture pendant les

périodes t, t+ 1, ..., t+h−1 et pas de réapprovisionnement en GPS entre t et t+h.

Alors

Dénition 5.1. La probabilité de rupture de stock GPS en t+ h est dénie par

Pt,h = P(Dt+h > PSt+h +Rt+h).

Nous nous proposons de répondre aux deux questions suivantes :

1. Donner une estimation de la probabilité de rupture de stock à la période t+ h ;

2. Quelle est la quantité de GPS à approvisionner pour que cette probabilité soit inférieure

à un seuil xé α ?

5.3.1 Estimation de la probabilité de rupture à l'horizon h

La réponse à la première question revient à déterminer une estimation de Pt,h. Ceci peut

se faire par simulation. En eet, en pratique, on ne peut pas avoir de manière objective une

valeur pour Pt,h. On peut néanmoins avoir un indicateur de rupture IRt+h, donné comme

suit :

Soit t la période courante. Nous supposons disposer des observations de la variable R (resp.

V ), pour les périodes t, t+ 1, ..., t+ h. Nous les notons Rt, ..., Rt+h (resp. Vt, ..., Vt+h), obser-

vations obtenues par prédiction à l'aide de modèles statistiques. De plus, nous connaissons

PSt, et on note PSt sa valeur. On a alors

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

FORMALISATION DU CADRE THÉORIQUE DE LA POLITIQUE DE GESTION DESTOCK 75

IRt+h =

1 si Dt+h − Rt+h > PSt+h,

0 sinon.(5.5)

PSt+h = PSt + Rt + Rt+1 + ...+ Rt+h−1 − Vt − Vt+1 − ...− Vt+h−1

= PSt +h−1∑j=0

Rt+j −h−1∑j=0

Vt+j.

Approche par simulation. L'approche par simulation que nous mettons en oeuvre fait

l'hypothèse que Dt+h (resp. Rt+h) suit une loi de probabilité LD (resp. LR) de paramètres uni

ou bi-dimensionnel γD (resp. γR). Dans ce cas, une estimation de la probabilité de rupture

cherchée est :

Pt,h = P(Dt+h −Rt+h > PSt+h

)= P

(Dt+h −Rt+h > ct,h

), avec ct,h = PSt+h. (5.6)

Nous proposons dans l'encadré suivant, un algorithme de simulation de cette probabilité

de rupture de stock GPS.

Algorithme 1 de simulation de la probabilité de rupture à l'horizon h.

Entrée : h horizon choisi

ct,h valeur prédite de la position du stock au début de la période t+ h

n taille de l'échantillon de données simulées

B nombre de répétitions

Sortie : pt,h probabilité de rupture estimée

1. Connaissant les lois de probabilité respectives des v.a. Dt et Rt, tirer un n-échantillon

de données suivant chacune des lois : dt,1, ..., dt,n et rt,1, ..., rt,n

2. Calculer probh par : probh = 1n

∑ni=1 1dt,i−rt,i>ct,h

3. Répéter 1. et 2. B fois et retourner pt,h = 1B

∑Bb=1 probh,b.

Alternative. Une alternative à l'estimation de la probabilité de rupture revient à utiliser

la notion d'espérance conditionnelle pour ré-écrire la relation (5.6). Nous procédons de la

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

FORMALISATION DU CADRE THÉORIQUE DE LA POLITIQUE DE GESTION DESTOCK 76

manière suivante :

P = P(D −R > c)

= E(1D−R>c

)= E

(E(1D−R>c | R)

)= E

(ϕ(R)

),

ϕ(x) = E(1D−x>c | R = x

)= E

(1D−x>c

), car D indépendant de R

= E(1D>x+c

)=

∫ ymax

x+c+1

yfD(y)µ(dy),

où µ est considérée ici comme la mesure de comptage sur N si D est supposée discrète, ou

comme la mesure de Lebesgue sur R+ si D est supposée continue, et fD est la densité (cas

continue) ou la masse (cas discret) de probabilité de la v.a. D.

Une estimation de la probabilité de rupture est donc donnée par

P =

∫ xmax

0

∫ ymax

x+c+1

xyfD(y)fR(x)µ(dx)µ(dy), (5.7)

avec fR la densité (cas continue) ou la masse (cas discret) de probabilité de la v.a. R.

Alternative 2. Nous proposons dans l'encadré suivant un second algorithme pour simuler

la probabilité de rupture à l'horizon h, étant donné un instant xé t. On suppose ici que

toutes les demandes sont satisfaites, sinon on prendrait le ux de sortie à la place de la

demande.

Algorithme 2 de simulation de la probabilité de rupture à l'horizon h.

Entrée : h horizon choisi

nSIM nombre de simulation

γ paramètre connu de la loi de la demande

λ = (λ1, λ2, λ3) paramètres connus de la loi des durées sur chaque itinéraire

Sortie : ph probabilité de rupture estimée

1. Tirer un échantillon de taille h suivant la loi Gamma de paramètre γ, soit d1, d2, ..., dh

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

FORMALISATION DU CADRE THÉORIQUE DE LA POLITIQUE DE GESTION DESTOCK 77

2. Parmi les dj demandes (j = 1, ..., h− 1), tirer aléatoirement les itinéraires empruntés

lors du transit, itinéraires pris parmi les trois considérés dans ce mémoire

3. On connait pour chaque j = 1, ..., h− 1, le nombre de GPS lancés dans chaque

itinéraire, soit nj,k, avec k = 1, 2, 3 : on tire alors nj,k durées suivant la distribution de

Poisson de paramètre λk4. On construit la variable indicatrice δ qui prend la valeur 1 si le GPS retourne le jour

h et 0 sinon, comme suit : en posant Tij la durée avant disponibilité du GPS i lancé le

jour j et tj sa date de départ, alors

δi,h =

1 si tj + Tij = h,

0 sinon.

5. On calcule rh =∑

i δi,h, le nombre de GPS retourné le jour h

6. Calculer probh par

probh =

1 si dh − rh > 0,

0 sinon.

7. Répéter 1-6 nSIM fois, et prendre nalement ph = 1nSIM

∑nSIMb=1 probh,b.

Résumé du chapitre

En résumé, ce chapitre se veut être une première tentative dans la mise en place d'une

politique (scientiquement recevable) de gestion de stock GPS. A cet eet, nous avons mon-

tré, dans ce chapitre, qu'il était possible d'adapter une politique de gestion de stock GPS à

point de commande pour le contexte de la Douane Camerounaise. De plus, nous avons

pu proposer deux à trois techniques d'estimation de la probabilité de rupture de stock entre

deux instants t et t+h, sous l'hypothèse qu'il n'y a pas de rupture, ni de réapprovisionnement

de GPS dans cet intervalle de temps (fermé à gauche et ouvert à droite).

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

CONCLUSION GÉNÉRALE 78

Conclusion Générale

L'objet de ce mémoire était de mettre en oeuvre des modèles de prévision capables

de prédire ecacement les valeurs futures de la demande et du ux de retour GPS à la

Douane Camerounaise, d'une part. D'autre part, d'élaborer une première tentative de for-

malisation du cadre théorique de politique de gestion appropriée au contexte de la Douane.

Nous avons mis en oeuvre quatre méthodes de prévision : trois méthodes de prévision en

valeur (lissage exponentiel de Holt-Winters, Box et Jenkins, retards échelonnés) et une

méthode de prévision en loi .

Pour la demande eective de GPS, nous avons utilisé les données journalières transformées

en logarithme (période de Novembre 2013 à Mars 2014) pour tester des modèles de prévision

à court terme . Les modèles de prévision en valeur, tels que le lissage exponentiel de Holt-

Winters, le modèle de Box et Jenkins ont été appliqués, et en termes de critère MAPE, la

méthode de Box et Jenkins s'est avérée être la plus performante (MAPE = 5.85%).

Une autre approche utilisée sur les données non transformées de la demande eective

de GPS est l'approche de prévision en loi . Avec celle-ci, nous avons montré que les

résultats prévisionnels obtenus sont satisfaisants, en termes de prédiction du nombre de fois

que l'évènement rupture aura lieu et aussi grâce au critère JRGPS.

Nous en déduisons que, pour les prévisions journalières de la demande eective de GPS,

la méthode de Box et Jenkins, auquel on associera la méthode de prévision en loi de proba-

bilité semble être la recette idéale.

Pour la prévision du ux de retour GPS, nous avons également utilisé les données jour-

nalières transformées en logarithme (période de Janvier 2013 à Mai 2014) pour estimer les

trois modèles envisagés : lissage exponentiel de Holt-Winters, Box et Jenkins et à retards

échelonnés. Il en ressort que, une fois de plus que, la méthode de Box et Jenkins est celle qui

performe le mieux, en termes de critère MAPE (MAPE = 7%). La méthode de prévision à

retards échelonnés pourrait également être considérée avec intérêt au cas où des informations

supplémentaires sont disponibles.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

CONCLUSION GÉNÉRALE 79

En dénitive, pour la prévision des diérents ux physiques de GPS et compte de tenu

des résultats obtenus dans ce mémoire, nous pouvons retenir de manière uniforme et avec le

plus grand intérêt, la méthode de prévision en valeur de Box et Jenkins, qui donne des

valeurs prédites journalières plus proches de la réalité que ne l'est la méthode de lissage de

Holt-Winters, la méthode à retards échelonnés. Aussi, considérer la méthode de prévision

en loi de probabilité , notamment pour la prédiction de l'ampleur de la rupture de stock

GPS. D'autre part, en ce qui concerne la formalisation du cadre théorique de la politique

de gestion de stock au port de Douala, s'appuyant sur des études théoriques existantes dans

la littérature académique et sur nos propres connaissances, nous avons présenté tour à tour

une adaptation de la politique de point de commande , trois approches de calcul de la

probabilité de rupture de stock de GPS.

Limites. Les deux principales limites de ce travail sont : (1) la taille réduite des diérents

échantillons de données. C'est la raison pour laquelle il nous a été dicile d'appréhender

des aspects caractéristiques (comme la saisonnalité) dans la courbe d'évolution de nos deux

variables d'intérêt. En eet, pour des phénomènes liés aux conjonctures économiques tels que

ceux étudiés dans ce mémoire, il nous semble judicieux de prime abord de penser à la présence

d'une éventuelle saisonnalité trimestrielle ou annuelle. Ainsi, les analyses statistiques menées

sur ces séries chronologiques seraient plus indiquées si les observations sont mensuelles. La

preuve en est que nous avons pu repérer une saisonnalité de 4 mois dans la série du ux

de retour GPS, mais impossible de la modéliser vu la taille d'échantillon disponible ; (2)

l'indisponibilité des articles (payants) [16,18,19], ce qui a eu un impact non négligeable sur

les valeurs prédites de la série du ux de retour GPS. En eet, certains auteurs montrent que,

sous certaines hypothèses (que les données que nous disposons vérient), les informations

de type C et D présentées dans l'exposé de la méthode à retards échelonnés produisent des

valeurs prédites bien meilleures que l'information du type B utilisée dans ce mémoire.

Perspectives. Comme perspectives futures, nous pensons qu'il serait intéressant : (1) de

rendre disponible les diérents articles dont ont besoin certains travaux présentés dans ce

mémoire ; (2) pour améliorer davantage les prévisions, envisager comme dans [14] la méthode

de combinaison des prévisions, méthode qui a fait preuve d'ecacité prévisionnelle dans la

littérature générale de prévision en comparaison avec les modèles individuels, mais, qui a été

rarement utilisée dans la prédiction de la demande touristique et la demande du transport

aérien de passagers ; (3) améliorer la qualité du recueil des données et la quantité de données

disponibles, de sorte que l'on puisse mener des analyses sur une unité de temps mensuelle par

exemple ; (4) envisager un modèle de prédiction du ux de retour, non plus en considérant

uniquement une forme de loi spécique aux durées avant disponibilité de GPS (comme c'est

le cas dans ce mémoire avec la loi géométrique ou de Poisson), mais plutôt, une forme de

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

CONCLUSION GÉNÉRALE 80

distribution plus réaliste prenant en compte les co-variables qui inuencent la durée d'un

voyage.

Recommandations. A la lumière des diérentes analyses et les diérents résultats ob-

tenus au terme de cette étude, nous préconisons dans l'encadré suivant, un ensemble de

recommandations que pourront adopter le gestionnaire de stock GPS à la Douane Camerou-

naise, pour améliorer considérablement la qualité de ses services :

1. Sur les données

Tout au long de notre travail, nous avons constaté une instabilité dans l'évolution

chronologique des diérentes séries d'observations, et donc une instabilité dans les

données. Pour y faire face à l'avenir, nous préconisons de mettre en place une phase

de vérication du recueil de l'information brute, de sorte que, l'on ne retrouve plus

dans les bases de données des incohérences, du genre : un même voyage qui a deux

dates de départ diérentes. Nous préconisons également d'améliorer la qualité et la

quantité d'informations disponibles. Ce qui favorisera les agrégations de données

(en mois par exemple) et, sans doute la production des résultats prévisionnels

meilleurs.

2. Sur les méthodes de prévision

Dans ce mémoire, la méthode de prévision de Box et Jenkins semble être la plus

indiquée pour prévoir les valeurs futures des séries journalières transformées de la

demande eective et du ux de retour GPS. A cette méthode, peut être associée la

méthode de prévision en loi de probabilité pour prédire aussi l'ampleur de la rupture

de stock GPS. Nous suggérons, en cas d'observations mensuelles importantes : (i)

d'utiliser la méthode de lissage de Holt-Winters pour prédire la tendance du mois

ou des mois futurs ; (ii) d'utiliser, soit la méthode de Box et Jenkins, soit une

approche de combinaison de méthodes de prévision, pour prévoir les uctuations

journalières de la demande et du ux de retour. Cette approche de combinaison de

prévision suppose que l'on aecte un poids à chaque méthode selon le niveau de

précision souhaité.

3. Sur la politique de gestion de stock GPS

La politique de gestion de stock GPS actuelle à la Douane Camerounaise fait

face à d'énormes dicultés, notamment la gestion de ses ux de GPS. An de

s'éloigner des considérations subjectives du gestionnaire de stock et, ainsi dénir

de manière objective une politique de gestion adéquate, nous suggérons de mettre

en place une politique à point de commande adaptée au contexte douanier. En

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

CONCLUSION GÉNÉRALE 81

eet, la démarche que nous proposons est la suivante :

• considérer un horizon de planication mensuelle ;

• utiliser la méthode de prévision par lissage de Holt-Winters pour prédire la ten-

dance des observations d'un mois. Ce qui donnera une première idée sur la quantité

de GPS à commander au début du mois ; pour plus de précision, on peut ajuster

cette quantité commandée Q0 en tenant compte des prévisions journalières couplées

(données en bloc de deux jours) de la demande et du ux de retour GPS, des pré-

visions de la première semaine et éventuellement de la semaine d'après (méthode

Box et Jenkins, méthode en loi de probabilité) ;

• à un couple de jour t, si on ne prédit pas de rupture de stock GPS dans le prochaincouple de jour, on n'exécute aucune opération jusqu'à ce qu'on soit dans le couple

de jour t+ 1, et ainsi de suite. Si par contre, on prédit la rupture dans le prochain

couple de jour, alors, il est nécessaire à cet instant t, de passer une commande de

quantité Qt telle que dénie dans la formule (5.2).

comment prévoir la rupture de stock GPS ?

Pour prévoir la rupture dans le prochain couple de jour, le gestionnaire devra se

servir simultanément de tous les indicateurs de ruptures exposés dans ce mémoire,

notamment : Pt,1 donnée par la formule (5.6) ou (5.7), IRt+1 donnée par la formule

(5.5), ou encore la critère JRGPS donné par la formule (3.37).

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

COMPLÉMENTS MATHÉMATIQUES 82

Annexe A : Compléments

mathématiques

A.1. La densité spectrale [26]

La densité spectrale des processus stationnaires est une notion étroitement liée avec leurs

propriétés de corrélation. En eet, il est bien connu que les autocovariances d'un processus

stationnaire (Yt) coïncident avec les coecients de Fourier d'une mesure positive (appelée

mesure spectrale) dont on peut supposer qu'elle admet une densité par rapport à la mesure

de Lebesgue sur [−π, π]. Par souci de simplication, nous considérons ici les processus à

mémoire courte dont la fonction d'autocovariance est absolument sommable. Cela implique

par ailleurs que γ(h) tend vers zéro quand h grandit.

Dénition 5.2. Soit un processus (Yt) stationnaire de fonction d'autocovariance γ. Alors,

pour tout λ ∈ [−π, π], on appelle densité spectrale du processus, la fonction

fY (λ) =1

∑h∈Z

γ(h) exp(−iλh).

De manière réciproque par transformation de Fourier inverse, on a également, pour tout

h ∈ Z,γ(h) =

∫[−π,π]

fY (λ) exp(iλh)dλ.

Lorsqu'on représente graphiquement une densité spectrale ou un spectre, on construit un

périodogramme.

A.2. Quelques détails sur la vraisemblance complète en cas de cen-

sure à droite

D'une manière générale, en analyse de survie, la censure est représentée par une variable

aléatoire C admettant la densité q, la fonction de répartition Q et la fonction de survie Q.

Dans le contexte usuel de censure à droite, l'information disponible est

T = min(X,C) et ∆ = 1X≤C .

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

COMPLÉMENTS MATHÉMATIQUES 83

Posons

∗ C1, ..., Cn ∼ L(q,Q,Q), où q est la densité de probabilité, Q est la fonction de répartition,

Q = 1−Q est la fonction de survie ;

∗ X1, ..., Xn ∼ g, la densité de probabilité ;

∗ λz = Pθ(Z = z) ;

∗ fz(x) = Pθ(X = x | Z = z) ⇔ Fz(x) = Pθ(X ≤ x | Z = z) ⇔ F z(x) = Pθ(X > x | Z =

z).

où Z est l'observation latente (non observée), et donc le triplet (T,∆, Z) ≡ (t, δ, z) forme les

données complètes.

On a alors :

Pθ(T = t, δ = 1, Z = z) = Pθ(X = t,X ≤ C | Z = z)Pθ(Z = z)

= Pθ(X ≤ C | X = t, Z = z)Pθ(X = t | Z = z)Pθ(Z = z)

= Pθ(C ≥ t | X = t, Z = z)Pθ(X = t | Z = z)Pθ(Z = z)

= Pθ(C ≥ t | X = t)Pθ(X = t | Z = z)Pθ(Z = z)

car X = t, Z = z ≡ X = t= Pθ(C ≥ t)Pθ(X = t | Z = z)Pθ(Z = z)

car C indépendant de X (Hypothèse de censure non informative).

De même, nous avons :

Pθ(T = t, δ = 0, Z = z) = Pθ(T = t,X > C | Z = z)Pθ(Z = z)

= Pθ(C = t,X > C | Z = z)Pθ(Z = z)

= Pθ(X > C | C = t, Z = z)Pθ(C = t | Z = z)Pθ(Z = z)

= Pθ(X > t | C = t, Z = z)Pθ(C = t | Z = z)Pθ(Z = z)

= Pθ(X > t | Z = z)Pθ(C = t)Pθ(Z = z).

Comme

Pθ(t, δ, z) =[λzfz(t)Q(t)

]δ[λzq(t)F z(t)

]1−δ,

alors, la vraisemblance complète Vc s'écrit :

Vc =n∏i=1

Pθ(ti, δi, zi)

=n∏i=1

[λzifzi(ti)Q(ti)

]δi[λziq(ti)F zi(ti)]1−δi

=n∏i=1

[λzifzi(ti)

]δi[λziF zi(ti)]1−δi[Q(ti)

]δi[q(ti)]1−δi .Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

COMPLÉMENTS MATHÉMATIQUES 84

Et la log-vraisemblance devient :

logVc =n∑i=1

log[λzifzi(ti)

]δi[λziF zi(ti)]1−δi[Q(ti)

]δi[q(ti)]1−δi=

n∑i=1

log f c(ti, δi, Zi | θ),

où f c(t, δ, Z | θ) =[λzfz(t)

]δ[λzF z(t)

]1−δ × [Q(t)]δ[q(t)

]1−δ.

A.3. Preuves pour les équations (3.21) et (3.22)

E(a | z, δ; p, q) = E( n∑i=1

δi | z, δ; p, q)

=n∑i=1

P(δi | z, δ; p, q)

= m+n∑

i=m+1

P(δi | z, δ; p, q)

= m+n∑

i=m+1

P(z, δ | δi = 1; p, q)P(δi = 1; p, q)

P(z, δ; p, q)

= m+n∑

i=m+1

P(z, δ | δi = 1; p, q)P(δi = 1 | p, q)P(p, q)

P(z, δ | p, q)P(p, q)

= m+n∑

i=m+1

P(z, δ | δi = 1; p, q)P(δi = 1 | p, q)P(z, δ | p, q)

= m+n∑

i=m+1

P(z, δ | δi = 1; p, q)P(δi = 1 | p, q)P(z, δ | δi = 0; p, q) + P(z, δ | δi = 1; p, q)

= m+n∑

i=m+1

p(1− q)t−si+1

1− p+ p(1− q)t−si+1;

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

COMPLÉMENTS MATHÉMATIQUES 85

E( n∑i=1

1ri<∞(ri − si) | z, δ; p, q)

=n∑i=1

E(1ri<∞(ri − si) | z, δ; p, q

)=

m∑i=1

(ri − si) +n∑

i=m+1

E(1ri<∞(ri − si) | z, δ; p, q

)=

m∑i=1

(ri − si) +n∑

i=m+1

E(ri − si | ri <∞, z, δ; p, q

)× P(ri <∞ | z, δ; p, q) car E(X1A) = E(X | A)P(A)

=m∑i=1

(ri − si) +n∑

i=m+1

E(ri − t+ t− si | ri <∞, z, δ; p, q

)× P(ri <∞ | z, δ; p, q)

=m∑i=1

(ri − si) +n∑

i=m+1

[(ri − t) + E

(t− si | ri <∞, z, δ; p, q

)]× P(ri <∞ | z, δ; p, q)

=m∑i=1

(ri − si) +n∑

i=m+1

[(ri − t) + E

(t− si | ri <∞, z, δ; p, q

)]× P(δi | z, δ; p, q).

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

TESTS D'HYPOTHÈSES (DÉFINITIONS ET EXEMPLES) 86

Annexe B : Tests d'hypothèses

(Dénitions et Exemples)

Nous donnons, sommairement, ci-après, la dénition basique d'un test d'hypothèse, à

la suite de laquelle nous présenterons quelques exemples, notamment en rapport avec ceux

utilisés dans le cadre de ce mémoire.

B.1. Test d'hypothèse

Un test statistique est un outil pratique d'aide à la décision quand il s'agit de vérier

une hypothèse. Il nous permet de trancher entre deux hypothèses, l'une dite nulle ou

fondamentale (notée habituellement H0) et l'autre alternative (H1), au vu des résultats

d'un échantillon. La décision conduira à retenir l'une d'entre elles, en commettant un risque

de se tromper. Une fois les hypothèses formulées, la deuxième étape consiste à xer la pro-

babilité α (probabilité de rejeter H0 alors que H0 est vraie).

Ensuite, il importe de choisir une variable de décision, ou statistique de test , dont

la distribution sous H0 doit être connue, an de pouvoir y situer la valeur que prend la

statistique pour l'échantillon que l'on dispose.

B.2. Le test de Pettitt, test de rupture en moyenne

Pettitt reprend le fondement du test de Mann-Whitney en le modiant. Le test de Pettitt est

un test de rang : il est donc non paramétrique. Ce test est réputé robuste et ses performances

en termes de puissance sont supérieures à celles du test de Wilcoxon et de sa version adaptée

à l'étude de la stationnarité. Les hypothèses du test sont :

H0 : L'absence de rupture dans l'évolution moyenne de la série (yi) de taille n;

H1 : Présence de rupture dans l'évolution moyenne de la série (yi) de taille n.

La mise en oeuvre du test suppose que ∀t = 1, ..., n les séries chronologiques (yi)i=1,...,t

et (yi)t+1,...,n appartiennent à la même population. La variable à tester est le maximum en

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

TESTS D'HYPOTHÈSES (DÉFINITIONS ET EXEMPLES) 87

valeur absolue de la variable Ut,n dénie par :

U1,n =t∑i=1

n∑j=t+1

sgn(yi − yj),

sgn(y) =

1 si y > 0

0 si y = 0

−1 si y < 0

(5.8)

Si l'hypothèse nulle est rejetée, une estimation de la date de rupture est donnée par l'instant t

dénissant le maximum en valeur absolue de la variable Ut,n. On noteKn = maxt=1,...,n−1 |Ut,n|.A partir du test de rang, Pettitt montre que si kn désigne la valeur de Kn prise sur la série,

sous H0, la probabilité de dépassement de la valeur kn est donnée par :

pkn = P(Kn > kn) ≈ 2 exp(−6k2nn3 + n2

).

Au risque α, pkn < α entraine le rejet de H0.

B.3. Comment détecter en amont la présence d'une non stationnarité ?

Pour détecter en amont la présence d'une non stationnarité dans la série chronologique, une

panoplie de tests statistiques existent en pratique. Mais les plus utilisés dans le domaine

de la prévision sont : les tests de présence d'une racine unitaire (le test de Dickey-Fuller

augmenté, que l'on note communément test ADF pour augmented Dickey-Fuller et le

test de Phillips-Perron, noté test PP .) et les tests de stationnarité (le test de Kwiatkowski-

Phillips-Schmidt-Shin, noté test KPSS ). On peut retrouver toute la théorie sous-jacente

à ces diérents tests statistiques dans [1,26].

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

TESTS D'HYPOTHÈSES (DÉFINITIONS ET EXEMPLES) 88

Table 5.2 Demande eective de GPS, valeurs prédites par Box-Jenkins et bornes de

l'intervalle de prédiction à 95%.

Date val.obs. val.préd. borne inf. borne sup.

21/03/2014 87 80 35 184

22/03/2014 38 42 18 96

24/03/2014 38 58 24 137

25/03/2014 48 84 35 198

26/03/2014 76 54 23 129

27/03/2014 88 76 32 181

28/03/2014 108 83 34 200

29/03/2014 41 39 16 94

31/03/2014 70 58 24 141

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

TESTS D'HYPOTHÈSES (DÉFINITIONS ET EXEMPLES) 89

Table 5.3 Flux de retour GPS, valeurs prédites par Box-Jenkins et bornes de l'intervalle

de prédiction à 95%.

Date val.obs. val.préd. borne inf. borne sup.

12/04/2014 40 52 24 112

14/04/2014 92 91 42 199

15/04/2014 31 24 11 51

16/04/2014 124 86 39 192

17/04/2014 77 64 28 142

18/04/2014 52 52 23 116

19/04/2014 61 47 21 105

21/04/2014 91 78 35 175

22/04/2014 22 22 10 51

23/04/2014 113 83 37 187

24/04/2014 79 61 27 136

25/04/2014 57 51 23 114

26/04/2014 57 46 21 104

28/04/2014 113 77 34 173

29/04/2014 33 22 10 50

30/04/2014 133 83 37 187

01/05/2014 86 60 27 136

02/05/2014 48 51 23 114

03/05/2014 21 46 20 104

05/05/2014 112 77 34 173

06/05/2014 38 22 10 50

07/05/2014 120 83 37 187

08/05/2014 97 60 27 136

09/05/2014 77 51 22 114

10/05/2014 67 46 20 104

12/05/2014 53 77 34 173

13/05/2014 30 22 10 50

14/05/2014 93 83 37 187

15/05/2014 64 60 27 136

16/05/2014 36 51 22 114

17/05/2014 39 46 20 104

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PROGRAMMES R 90

Annexe C : Programmes R

Nous donnons, dans cette section, l'ensemble des codes R qui nous semble substantiel

pour l'implémentation ou la ré-implémentation des résultats exposés dans ce mémoire.

## chargement des packages R complémentaires

require(caschrono)

require(tseries)

require(forecast)

require(fBasics)

require(FinTS)

#############################

## Préparation des données ##

#############################

## importation des données (stringsAsFactors évite que les entiers ou les chaines

## ne soient transformés en facteurs)

donnee1.chr <- read.csv("C:/Users/FLORIAN/Desktop/donneeDemandeGPS.csv",sep=";",

stringsAsFactors=FALSE)

donnee2.chr <- read.csv("C:/Users/FLORIAN/Desktop/donneeFluxsortieGPS.csv",sep=";",

stringsAsFactors=FALSE)

donnee3.chr <- read.csv("C:/Users/FLORIAN/Desktop/donneeRetourGPS.csv",sep=";",

stringsAsFactors=FALSE)

## examen de la structure de l'objet obtenu après importation

str(donnee1.chr,width=60,strict.width="cut")

str(donnee2.chr,width=60,strict.width="cut")

str(donnee3.chr,width=60,strict.width="cut")

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PROGRAMMES R 91

## récupération de la date

date1 <- as.Date(donnee1.chr$date,"%d/%m/%Y")

donnee1.date <- data.frame(weekdays(date1),date1,donnee1.chr$nombre)

colnames(donnee1.date) <- c("jour","date","nombre")

#View(donnee1.date)

## repérage des manquants et interprétations

jour1.off <- donnee1.date$jour[which(is.na(donnee1.chr$nombre)==TRUE)]

date1.off <- donnee1.date$date[which(is.na(donnee1.chr$nombre)==TRUE)]

paste(jour1.off,date1.off,sep=" ")

## vérifions qu'il n y a pas de jours manquants

data1 <- seq(from = as.Date("01/11/2013","%d/%m/%Y"),to = as.Date("31/03/2014",

"%d/%m/%Y"),by = "day")

aa1 <- which(weekdays(data1)!= "dimanche")

c(nrow(donnee1.date),length(aa1))

## imputations des manquants

index1.off <- which(is.na(donnee1.date$nombre)==TRUE)

nb1 <- donnee1.date$nombre

donnee1.date$nombre[index1.off] <- round(mean(nb1,na.rm=TRUE),0)

## récupération de la date

date2 <- as.Date(donnee2.chr$date,"%d/%m/%Y")

donnee2.date <- data.frame(weekdays(date2),date2,donnee2.chr$nombre)

colnames(donnee2.date) <- c("jour","date","nombre")

## vérifions qu'il n y a pas de jours manquants

data2 <- seq(from = as.Date("03/01/2011","%d/%m/%Y"),to = as.Date("17/05/2014",

"%d/%m/%Y"),by = "day")

aa2 <- which(weekdays(data2)!= "dimanche")

c(nrow(donnee2.date),length(aa2))

## imputations des manquants

index2.off <- which(is.na(donnee2.date$nombre)==TRUE)

nb2 <- donnee2.date$nombre

donnee2.date$nombre[index2.off] <- round(mean(nb2,na.rm=TRUE),0)

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PROGRAMMES R 92

## récupération de la date

date3 <- as.Date(donnee3.chr$date,"%d/%m/%Y")

donnee3.date <- data.frame(weekdays(date3),date3,donnee3.chr$nombre)

colnames(donnee3.date) <- c("jour","date","nombre")

## vérifions qu'il n'y a pas de jours manquants

data3 <- seq(from = as.Date("31/12/2012","%d/%m/%Y"),to = as.Date("17/05/2014",

"%d/%m/%Y"),by = "day")

aa3 <- which(weekdays(data3)!= "dimanche")

c(nrow(donnee3.date),length(aa3))

nb1 <- donnee1.date$nombre

nb2 <- donnee2.date$nombre

nb3 <- donnee3.date$nombre

###################################################

## Section 2.2 : Analyse descriptive des données ##

###################################################

#### Chonogramme des observations ####

## série de la demande effective

y1 <- ts(nb1,start=c(2013,11+(4/7)),frequency=1)

t1 <- time(y1)

plot(y1,xlab="Temps",ylab="Demande effective",xaxt="n",lwd=2,type="o",cex.lab=1.5)

axis(1,at=c(t1[1],t1[52],t1[129]),labels=c("01-nov-2013","31-dec-2013",

"31-mars-2014"))

## série du flux de sortie

#agrégation des données en semaine

sem2 <- c()

for (i in 1:176) sem2[i] <- sum(nb2[(6*(i-1)+1):(6*(i-1)+6)])

y2 <- ts(sem2,start=c(2011,1+(1/4)),frequency=52)

t2 <- time(y2)

plot(y2,xlab="Temps",ylab="Flux de sortie",xaxt="n",lwd=2,type="o",cex.lab=1.5)

axis(1,at=c(t2[1],t2[53],t2[105],t2[157],t2[176]),

labels=c("sem.03-jan-2011","sem.02-jan-2012","sem.01-jan-2013","sem.01-jan-2014",

"sem.17-mai-2014"))

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PROGRAMMES R 93

## série du flux de retour

y3 <- ts(donnee3.date$nombre,start=c(2013,1+(2/7)),frequency=312)

t3 <- time(y3)

plot(y3,xlab="Temps",ylab="Flux de retour",xaxt="n",cex.lab=1.5,lwd=2,type="o")

axis(1,at=c(t3[1],t3[67],t3[156],t3[314],t3[431]),

labels=c("01-jan-2013","01-avr-2013","01-juil-2013","01-jan-2014","17-mai-2014"))

#### Normalité des séries d'observations ####

par(mfrow=c(1,3))

hist(y1,freq=FALSE,xlab="Observations",ylab="Densité",font.lab=4,main="Demande GPS")

curve(dnorm(x,mean(y1),sd(y1)),type="l",add=TRUE,lwd=2)

hist(y2,freq=FALSE,xlab="Observations",ylab="Densité",font.lab=4,main="Flux de sortie GPS")

curve(dnorm(x,mean(y2),sd(y2)),type="l",add=TRUE,lwd=2)

hist(y3,freq=FALSE,xlab="Observations",ylab="Densité",font.lab=4,main="Flux de retour GPS")

curve(dnorm(x,mean(y3),sd(y3)),type="l",add=TRUE,lwd=2)

layout(1)

## test de normalité

shapiro.test(y1)

shapiro.test(y2)

shapiro.test(y3)

jarqueberaTest(y1)

jarqueberaTest(y2)

jarqueberaTest(y3)

#### Etude de la saisonnalité ####

## périodogramme flux de sortie

spectrum(y2,xlab="Fréquence",ylab="Spectre",font.lab=4,lwd=2,main="")

## lag plot des observations du flux de retour

lag.plot(rev(y3),12,layout=c(4,3),pch="+",do.lines=FALSE,diag.col=1)

## périodogramme flux de retour

spectrum(y3,xlab="Fréquence",ylab="Spectre",font.lab=4,lwd=2,main="")

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PROGRAMMES R 94

#### Calcul de quelques statistiques usuelles ####

## coefficient de corrélation

cor(nb2[625:1056],nb3)

## statistiques descriptives usuelles

summary(y1)

sd(y1)

summary(y2)

sd(y2)

summary(y3)

sd(y3)

#### Loi de probabilité du délai de retour GPS ####

## importation des données

duree_avd <- read.table("C:/Users/FLORIAN/Desktop/Duree_avd.csv", quote="\"")

duree_avd <- duree_avd$V1

summary(duree_avd)

sd(duree_avd)

## distribution des données

boxplot(duree_avd,horizontal=TRUE)

Q1 <- quantile(duree_avd,probs = 0.25,na.rm = TRUE)

Q3 <- quantile(duree_avd,probs = 0.75,na.rm = TRUE)

aa <- which(duree_avd >= Q3+1.5*(Q3-Q1))

length(aa)

duree_avd[aa] <- NA

duree_avd[aa] <- round(mean(duree_avd,na.rm=TRUE),0)

## résumé statistique après imputation

summary(duree_avd)

sd(duree_avd)

## estimation paramétrique de la loi

# geometrique

q <- 1/mean(duree_avd)

# poisson

lambda <- mean(duree_avd)

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PROGRAMMES R 95

# binomiale négative

r <- mean(duree_avd)^2/(var(duree_avd) + mean(duree_avd))

p <- mean(duree_avd)/(var(duree_avd) + mean(duree_avd))

## graphique comparatif

x <- seq(1,14,length=1000)

plot(ecdf(duree_avd),verticals=TRUE,col=1,col.01line="gray70",pch = 16,lty=2,

ylab=expression(F[Y](y)),xlab="y",main=" ",lwd=2,do.points=FALSE)

F1 <- ppois(x,lambda,lower.tail=TRUE)

lines(x,F1,type="l",lwd=2,col=1,lty=1)

F2 <- pgeom(x,q,lower.tail=TRUE)

lines(x,F2,type="l",lwd=2,col=1,lty=3)

F3 <- pnbinom(x,r,p,lower.tail=TRUE)

lines(x,F3,type="l",lwd=2,col=1,lty=4)

legend(x=8,y=0.4,legend=c("empirique","Poisson","géométrique","binomiale négative"),

lwd=2,col=1,lty=c(2,1,3,4))

##########################################################

## Chapitre 4 : Applications aux Données et Résultats ##

##########################################################

# Nous présentons tout d'abord les quelques fonctions auxiliaires

# que nous avons implémenté dans le cadre de ce chapitre

################################################################

## Fonction R : test de détection d'un point de rupture en ##

## moyenne dans la série ##

##------------------------------------------------------------##

## ** Données : ##

## - y : une série d'observations ##

##------------------------------------------------------------##

## ** Résultat : ##

## - prob : probabilité critique ##

## - rupture : indicateur de rupture ##

################################################################

testdepettitt <- function (y)

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PROGRAMMES R 96

N <- length(y)

rupture <- 0

Kcal <- 0

p.min <- .05

for (t in 1:(N-1))

u <- 0

for (i in 1:t)

for (j in (t+1):N)

Dij <- sign(y[i]-y[j])

u <- u + Dij

if (abs(u) > Kcal) Kcal <- abs(u)

prob <- 2*exp(-6*Kcal*Kcal/(N*N*N+N*N))

if (prob < p.min) rupture <- 1

return(c(prob,rupture))

################################################################

## Fonction R : validation croisée pour les histogrammes [8] ##

##------------------------------------------------------------##

## ** Données : ##

## - y : échantillon d'apprentissage ##

##------------------------------------------------------------##

## ** Résultat : nombre de partition optimale ##

################################################################

VC_hist <- function(y)

n <- length(y); a <- min(y); b <- max(y); m_VC <- 1

J0 <- 2/(n-1); J <- 1:(n-1)

for (m in 2:(n-1))

l <- (b-a)/m

hatp <- 1:m

A <- (1:m)%*%t((1:n)*0+1)

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PROGRAMMES R 97

yy <- ( (1:m)*0 + 1 ) %*% t((y-a)/l)

hatp <- rowSums( ((A-1) <= yy) * (yy < A) ) / n

J[m-1] <- 2-(n+1) * sum(hatp^2)

remove(hatp)

J[m-1] <- J[m-1]/((n-1)*l)

if (J[m-1] < J0)

m_VC <- m

J0 <- J[m-1]

op <- par(mfcol=c(1,2),pty="m",omi=c(0,0,0,0))

plot(1:(n-1),J,type="l",lwd=2,col=1,xlab="nb de classes",ylab="VC",

main="La courbe de la fonction de validation croisée")

l <- (b-a)/m_VC

hatf <- 1:m_VC

n <- length(y)

m <- m_VC

for (j in 1:m)

hatf[j] <- sum( ( a + (j-1)*l <= y ) * (y < a+ j*l) ) / (n*l)

yleft <- a - l + (1:m)*l

yright <- yleft + l

ybottom <- (1:m)*0

ytop <- hatf

plot(c(a-l/n,yleft,b),c(0,hatf,0),type="n",xlab="Les classes",

ylab="Estimateur de densité",main="Histogramme avec le nb de classes optimal")

rect(yleft, ybottom, yright, ytop, border = 1, lwd = 1)

par(op)

return(m_VC)

################################################################

## Fonction R : trace le graphe de l'histogramme à m classes ##

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PROGRAMMES R 98

##------------------------------------------------------------##

## ** Données : ##

## - y : échantillon d'apprentissage ##

## - m : nombre de classe ##

##------------------------------------------------------------##

## ** Résultat : un graphique ##

################################################################

histogram <- function(y,m,add,...)

a <- min(y); b <- max(y); l <- (b-a)/m ; hatf <- 1:m ; n <- length(y)

for (j in 1:m)

hatf[j] <- sum ( ( a + (j-1)*l <= y ) * ( y < a + j*l ) ) / (n*l)

yleft <- a - l + (1:m)*l

yright <- yleft + l

ybottom <- (1:m)*0

ytop <- hatf

if (add == F)

plot(c(a-l,yleft,b),c(0,hatf,0),type="n",xlab="Les classes",

ylab="Estimateur de densité",...)

rect(yleft, ybottom, yright, ytop, border = 1, lwd = 1)

else rect(yleft, ybottom, yright, ytop, border = 1, lwd = 1)

################################################################

## Fonction R : valeur de la fenêtre optimale qui minimise ##

## le critère de validation croisée [8] ##

##------------------------------------------------------------##

## ** Données : ##

## - y : échantillon d'apprentissage ##

##------------------------------------------------------------##

## ** Résultat : valeur de la fenêtre optimale ##

################################################################

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PROGRAMMES R 99

VC_kern <- function(y)

n <- length(y) ; a <- min(y) ; b <- max(y) ; l_VC <- (b-a)/n

J0 <- 2*dnorm(0)/(n*l_VC)

yy <- ( (1:n)*0+1 ) %*% t((y)) - t( ((1:n)*0+1) %*% t((y)) )

J <- 1:n

for (m in 1:n)

l <- m*(b-a)/n

J[m] <- 2*dnorm(0)/(n*l)+(1/(n^2*l))*sum(dnorm(yy/l,0,sqrt(2))-2*dnorm(yy/l))

if (J[m] < J0)

l_VC <- l

J0 <- J[m]

op <- par(mfcol=c(1,2),pty="m",omi=c(0,0,0,0))

plot((1:n)*(b-a)/n,J,type="l",lwd=2,col=1,xlab="fenêtre",ylab="VC"

main="La courbe de la fonction de validation croisée")

n <- length(y)

a <- min(y)

b <- max(y)

tt <- ( a+(b-a)*(1:500)/500 ) %*% t((1:n)*0 + 1)

yy <- ((1:500)*0+1) %*% t(y)

z <- (yy-tt)/l_VC

hatf <- (1/(n*l_VC)) * as.vector(rowSums(dnorm(z)))

plot(a+(b-a)*(1:500)/500,hatf,type="l",col=1,lwd=2,xlab="",ylab=""

main="Estimateur à noyau avec la fenêtre optimale")

par(op)

return(l_VC)

############################################################

## Section 4.1 : Prévision de la demande effective de GPS ##

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PROGRAMMES R 100

############################################################

y11 <- ts(log(y1),start=c(2013,11+(4/7)),frequency=1)

##########################################

#### Lissage exponentiel Holt-Winters ####

hw1 <- HoltWinters(y11[1:120],alpha=NULL,beta=NULL,gamma=FALSE)

summary(hw1)

prev.hw1 <- predict(hw1,n.ahead=9,prediction.interval=TRUE)

M11 <- matrix(0,26,4)

M11[1:17,1] <- y11[104:120]

M11[18:26,1] <- y11[121:129]

M11[18:26,2] <- prev.hw1[,3]

M11[18:26,3] <- prev.hw1[,2]

M11[18:26,4] <- prev.hw1[,1]

M11[1:17,2:4] <- NA

matplot(M11,type="l",axes=F,xlab="Temps (jours)",ylab="log(Demande effective)",lwd=2,

lty=c(2,1,1,3),col=1)

axis(1,at=c(1,18,26),labels=c("01-mar-2014","21-mar-2014","31-mar-2014"))

axis(2)

legend("bottomleft",c("Valeur observée","Bande de préd. 95%","Prédiction"),lwd=2,

lty=c(2,1,3),col=1,cex=.8)

## erreur de prévision hors-échantillon

hmax <- 9

fit <- prev.hw1[,1]

mape <- abs(y11[121:129]-fit)/abs(y11[121:129])

MAPE1=sum(mape)/hmax

#####################################

##### Méthode de Box et Jenkins #####

## détection d'un point de rupture en moyenne

testdepettitt(y11)

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PROGRAMMES R 101

## test de stationnarité

PP.test(y11)

adf.test(y11)

kpss.test(y11)

## autocorrélogramme

par(mfrow=c(1,2))

acf(y11,xlab="retard",main="",lwd=2)

pacf(y11,xlab="retard",main="",lwd=2)

layout(1)

dy11 <- diff(y11,6)

xy.acfb(diff(y11,6),numer=FALSE)

## autocorrélogramme de la série différenciée

par(mfrow=c(1,2))

acf(dy11,xlab="retard",main="",lwd=2)

pacf(dy11,xlab="retard",main="",lwd=2)

layout(1)

## modèle

mod <- arima(y11[1:120],seasonal=list(order=c(0,1,1),period=6),

include.mean=FALSE,method="ML")

summary(mod)

t_stat(mod)

## autocorrélogramme des résidus estimés

par(mfrow=c(1,2))

acf(residuals(mod),xlab="retard",main="",lwd=2)

pacf(residuals(mod),xlab="retard",main="",lwd=2)

layout(1)

## modèle

modbis <- arima(y11[1:120],order=c(2,0,0),seasonal=list(order=c(0,1,1),

period=6),include.mean=FALSE,method="ML")

t_stat(modbis)

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PROGRAMMES R 102

Box.test(residuals(modbis),type="Box-Pierce")

Box.test(residuals(modbis),type="Ljung-Box")

## autocorrélogramme des résidus estimés

par(mfrow=c(1,2))

acf(residuals(modbis),xlab="retard",main="",lwd=2)

pacf(residuals(modbis),xlab="retard",main="",lwd=2)

layout(1)

summary(modbis)

modbisbis <- arima(y11[1:120],order=c(2,0,0),seasonal=list(order=c(0,1,1),period=6),

include.mean=FALSE,

fixed=c(0,NA,NA),method="ML")

summary(modbisbis)

Box.test(residuals(modbisbis),type="Box-Pierce")

Box.test(residuals(modbisbis),type="Ljung-Box")

t_stat(modbisbis)

shapiro.test(residuals(modbisbis))

jarqueberaTest(residuals(modbisbis))

## prévision

prev1 <- forecast(modbisbis,h=9,level=95)

M12 <- matrix(0,26,4)

M12[1:17,1] <- y11[104:120]

M12[18:26,1] <- y11[121:129]

M12[18:26,2] <- prev1$lower

M12[18:26,3] <- prev1$upper

M12[18:26,4] <- prev1$mean

M12[1:17,2:4] <- NA

matplot(M12,type="l",axes=F,xlab="Temps (jours)",ylab="log(Demande effective)",lwd=2,

lty=c(2,1,1,3),col=1)

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PROGRAMMES R 103

axis(1,at=c(1,18,26),labels=c("01-mar-2014","21-mar-2014","31-mar-2014"))

axis(2)

legend("topleft",c("Valeur observée","Bande de préd. 95%","Prédiction"),lwd=2,

lty=c(2,1,3),col=1,cex=.8)

## erreur de prévision hors-échantillon

hmax <- 9

mape <- abs(y11[121:129]-prev1$mean)/abs(y11[121:129])

MAPE1=sum(mape)/hmax

################################################################

## Section 4.2 : Prévision en loi de la demande effective GPS ##

################################################################

## nombre de classe optimal

mVC = CV_hist(nb1)

## histogramme avec ce nombre de partitionnement

nb <- nb1[1:120]

n <- length(nb)

m1 <- mean(nb)

a1 <- (m1^2)/var(nb)

lamb1 <- m1/var(nb)

yb <- log(nb)

mu1 <- mean(yb)

sigma1 <- sd(yb)

histogram(nb,mVC,add=F,main="ajustement Gamma",ylim=c(0,0.020))

curve(dgamma(x,a1,lamb1),type="l",col=1,add=TRUE,lwd=2)

## test de la distance de Kolmogorov pour le choix final

ks.test(nb,"pgamma",a1,lamb1)$p.value

ks.test(nb,"plnorm",mu1,sigma1)$p.value

## choix de la fenêtre par validation croisée

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PROGRAMMES R 104

lVC = CV_kern(nb1)

## trace côte à côte l'histogramme et l'estimateur à noyau optimaux

op=par(mfcol=c(1,2),pty="m",omi=c(0,0,0,0))

histogram(nb,mVC,add=F,ylim=c(0,0.02))

curve(dgamma(x,a1,lamb1),type="l",col=1,add=TRUE,lwd=2,lty=1)

legend("topleft",legend=c("ajustement gamma"),col=1,lty=1,lwd=2,cex=.9)

f=KernelEst(nb,lVC,"Gaus",ylim=c(0,0.02),lty=2)

curve(dgamma(x,a1,lamb1),col=1,add=TRUE,lwd=2,lty=1)

legend("topleft",legend=c("kernel estimator","gamma density"),col=1,lty=c(2,1),lwd=2,cex=.9)

par(op)

Q1 <- quantile(nb, probs = 0.025, na.rm = TRUE)

Q3 <- quantile(nb, probs = 0.975, na.rm = TRUE)

M14 <- matrix(0,26,4)

M14[1:17,1] <- y1[104:120]

M14[18:26,1] <- y1[121:129]

M14[18:26,2] <- rep(Q1,9)

M14[18:26,3] <- rep(Q3,9)

M14[18:26,4] <- rep(a1/lamb1,9)

M14[1:17,2:4] <- NA

matplot(M14,type="l",xaxt="n",xlab="Temps (jours)",ylab="Demande effective",lwd=2,

lty=c(2,1,1,3),col=1,main="Prévision en loi de probabilité")

axis(1,at=c(1,18,26),labels=c("01-mar-2014","21-mar-2014","31-mar-2014"))

axis(2)

legend("topleft",c("Valeur observée","Bande de préd. 95%","Prédiction"),lwd=2,

lty=c(2,1,3),col=1,cex=.8)

###################################################

## Section 4.2 : Prévision du flux de retour GPS ##

###################################################

y33 <- ts(log(y3),start=c(2013,1+(2/7)),frequency=312)

##########################################

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PROGRAMMES R 105

#### Lissage exponentiel Holt-Winters ####

hw3 <- HoltWinters(y33[1:400],alpha=NULL,beta=NULL,gamma=FALSE)

c(hw3$alpha, hw3$beta, hw3$gamma)

summary(hw3)

prev.hw3 <- predict(hw3,n.ahead=31,prediction.interval=TRUE)

M31 <- matrix(0,61,4)

M31[1:30,1] <- y33[372:401]

M31[31:61,1] <- y33[402:432]

M31[31:61,2] <- prev.hw3[,3]

M31[31:61,3] <- prev.hw3[,2]

M31[31:61,4] <- prev.hw3[,1]

M31[1:30,2:4] <- NA

matplot(M31,type="l",axes=F,xlab="Temps (jours)",ylab="log(Flux de retour)",lwd=2,

lty=c(2,1,1,3))

axis(1,at=c(1,31,61),labels=c("08-mar-2014","12-avr-2014","17-mai-2014"))

axis(2)

legend("bottomleft",c("Valeur observée","Bande de préd. 95%","Prédiction"),lwd=2,

lty=c(2,1,3),cex=.8)

## erreur de prévision hors-échantillon

hmax <- 31

fit <- prev.hw3[,1]

mape <- abs(y33[402:432]-fit)/abs(y33[402:432])

MAPE3=sum(mape)/hmax

#####################################

##### Méthode de Box et Jenkins #####

## test de stationnarité

PP.test(y33)

adf.test(y33)

kpss.test(y33)

## autocorrélogramme

par(mfrow=c(1,2))

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PROGRAMMES R 106

acf(y33,xlab="retard",main="",lwd=2)

pacf(y33,xlab="retard",main="",lwd=2)

layout(1)

dy33 <- diff(y33,6)

xy.acfb(diff(y33,6),numer=FALSE)

## modèle

mod3 <- arima(y33[1:401],seasonal=list(order=c(0,1,1),period=6),include.mean=FALSE,

method="ML")

t_stat(mod3)

xy.acfb(residuals(mod3),numer=FALSE)

mod3bis <- arima(y33[1:401],order=c(3,0,0),seasonal=list(order=c(0,1,1),period=6),

include.mean=FALSE,method="ML")

t_stat(mod3bis)

xy.acfb(residuals(mod3bis),numer=FALSE)

Box.test(residuals(mod3bis),type="Box-Pierce")

Box.test(residuals(mod3bis),type="Ljung-Box")

summary(mod3bis)

mod3bisbis <- arima(y33[1:401],order=c(3,0,0),seasonal=list(order=c(0,1,1),period=6),

include.mean=FALSE,fixed=c(NA,0,NA,NA),method="ML")

summary(mod3bisbis)

Box.test(residuals(mod3bisbis),type="Box-Pierce")

Box.test(residuals(mod3bisbis),type="Ljung-Box")

t_stat(mod3bisbis)

shapiro.test(residuals(mod3bisbis))

jarqueberaTest(residuals(mod3bisbis))

## prévision

prev3 <- forecast(mod3bisbis,h=31,level=95)

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PROGRAMMES R 107

M32 <- matrix(0,61,4)

M32[1:30,1] <- y33[372:401]

M32[31:61,1] <- y33[402:432]

M32[31:61,2] <- prev3$lower

M32[31:61,3] <- prev3$upper

M32[31:61,4] <- prev3$mean

M32[1:30,2:4] <- NA

matplot(M32,type="l",axes=F,xlab="Temps (jours)",ylab="log(Flux de retour)",lwd=2,

lty=c(2,1,1,3))

axis(1,at=c(1,31,61),labels=c("08-mar-2014","12-avr-2014","17-mai-2014"))

axis(2)

legend("bottomleft",c("Valeur observée","Bande de préd. 95%","Prédiction"),lwd=2,

lty=c(2,1,3),cex=.8)

## erreur de prévision hors-échantillon

hmax <- 31

mape <- abs(y33[402:432]-prev3$mean)/abs(y33[402:432])

MAPE3=sum(mape)/hmax

#################################################

## Section 4.3.4 : Modèle à retards échelonnés ##

#################################################

donnee4.chr <- read.csv("C:/Users/FLORIAN/Desktop/donneeMRE.csv",sep=";",

stringsAsFactors=FALSE)

str(donnee4.chr,width=60,strict.width="cut")

date4.1 <- as.Date(donnee4.chr$t_sortie,"%d/%m/%Y")

date4.2 <- as.Date(donnee4.chr$t_retour,"%d/%m/%Y")

donnee4.date <- data.frame(donnee4.chr$code_voyage,date4.1,date4.2,

donnee4.chr$duree_av_dispo)

colnames(donnee4.date) <- c("code_voyage","t_sortie","t_retour","duree_av_dispo")

## place le data frame dans l'itinéraire de recherche

attach(donnee4.date)

## période d'étude

c(min(t_sortie),max(t_sortie))

## temps courant i.e. temps à partir duquel on fera les prévisions

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PROGRAMMES R 108

#ce temps délimite également l'échantillon d'apprentissage

t_current <- as.Date("10/05/2014","%d/%m/%Y")

## valeurs de n, m et initialisations des paramètres

n <- length(which(t_sortie <= t_current))

m <- length(which(t_retour <= t_current))

p_chapo <- m/n

q_chapo <- m/sum(duree_av_dispo[which(t_retour <= t_current)])

j_max <- 29

aa <- c(); bb <- c(); cc <- c(); dd <- c()

index <- which(t_sortie <= t_current & t_retour > t_current)

for (j in 1:j_max)

aa <- t_current - t_sortie[index]

aa <- as.numeric(aa)

for (i in 1:length(index))

bb[i] <- (p_chapo[j]*(1 - q_chapo[j])^(aa[i] + 1))

cc[i] <- 1 - p_chapo[j] + bb[i]

dd[i] <- t_current - t_sortie[i] + (1-q_chapo[j])/q_chapo[j]

p_chapo[j+1] <- (m + sum(bb/cc))/n

q_chapo[j+1] <- (n*p_chapo[j+1])/(m + sum(duree_av_dispo[which(t_retour <=

t_current)]) + sum(dd*(bb/cc)))

################################################################

## Fonction R : prévision des retours futurs de GPS ##

##------------------------------------------------------------##

## ** Données : ##

## - t_current : date courante ##

## - info : information disponible pour prévoir ##

## - hmax : nombre d'observations à prédire ##

## - C : matrice des corrélations ##

## - p : probabilité qu'un GPS retourne ##

## - q : probabilité qu premier retour d'un GPS ##

##------------------------------------------------------------##

## ** Résultat : valeurs prédites ##

################################################################

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PROGRAMMES R 109

predict_retour <- function (t_current,info,hmax,C,p,q)

## position du t_current dans le data frame

pos_current <- 110

y_chapo <- list(); y_prev <- c()

for (h in 1:H)

y_chapo[[h]] <- matrix(0,1,pos_current-1)

if (info == "B")

x <- table(t_sortie)

for (i in 1:pos_current-1)

y_chapo[[h]][i] <- round(p*q*(1-q)^(h+i-1) * x[[pos_current-i]],0)

y_prev[h] <- sum(y_chapo[[h]])

else if (info == "C")

x <- table(t_sortie)

i<-1

y_chapo[[h]][i] <- round(p*q*(1-q)^(h-1) * x[[pos_current]],0)

for (i in 2:pos_current-1)

y_chapo[[h]][i] <- round(p*q*(1-q)^(h+i-1) * x[[pos_current-i]],0)

+ C[i,h]

y_prev[h] <- sum(y_chapo[[h]])

return(y_prev)

## prédiction des valeurs futures

prevMRE <- predict_retour(t_current,information="B",H=6,C,p=1,q=0.064)

## ôte le data frame de l'itinéraire de recherche

detach(donnee4.date)

table(t_retour)

valeur.obs <- c(53,30,93,64,36,39)

M34 <- matrix(0,20,2)

M34[1:14,1] <- y3[413:426]

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PROGRAMMES R 110

M34[15:20,1] <- y3[427:432]

M34[15:20,2] <- prevMRE

M34[1:14,2] <- NA

matplot(M34,type="l",axes=F,xlab="Temps",ylab="Flux de retour",lwd=2,lty=c(2,3),col=1)

axis(1,at=c(1,15,20),labels=c("25-avr-2014","12-mai-2014","17-mai-2014"))

axis(2)

legend("bottomleft",c("Valeur observée","Prédiction"),lwd=2,lty=c(2,3),col=1,cex=.8)

## erreur de prévision hors-échantillon

hmax <- 6

mape <- abs(valeur.obs-prevMRE)/abs(valeur.obs)

MAPE=sum(mape)/hmax

##########################################################

## Section 5.2 : Loi de probabilité de la demande nette ##

##########################################################

aa <- donnee1.date$nombre[1:128]

bb <- donnee3.date$nombre[263:390]

# données agrégées en bloc de deux jours

DN <- c()

for(i in 1 : 64)

DN[i] <- (aa[2*(i-1)+1] + aa[2*(i-1)+2]) - (bb[2*(i-1)+1] + bb[2*(i-1)+2])

op = par(mfrow=c(1,2),pty="m",omi=c(0,0,0,0))

hist(DN,freq=FALSE,xlab="Observations",ylab="Densité",font.lab=4,main="")

curve(dnorm(x,mean(DN),sd(DN)),type="l",add=TRUE,lwd=2)

x <- seq(-150,150,length=400)

plot(ecdf(DN),verticals=TRUE,col=1,pch = 16,lty=2,

ylab=expression(F[Y](y)),xlab="y",main="",lwd=2,do.points=FALSE)

F <- pnorm(x,mean(DN),sd(DN),lower.tail=TRUE)

lines(x,F,type="l",lwd=2,col=1,lty=1)

legend(x=-120,y=0.9,legend=c("gaussienne","empirique"),col=1,lty=1:2,lwd=2)

par(op)

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

PROGRAMMES R 111

shapiro.test(DN)

ks.test(DN,"pnorm",mean(DN),sd(DN))

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

BIBLIOGRAPHIE 112

Bibliographie

[1] Aragon Y. (2011), Séries temporelles avec R : Méthodes et cas, Université Toulouse 1 -

Capitole, Springer Paris Berlin Heidelberg New York.

[2] Bahloul K. (2011), Optimisation combinée des coûts de transport et de stockage dans un

réseau logistique dyadique, multi-produits avec demande probabiliste, Thèse de doctorat,

Ecole doctorale 512 Informatique et Mathématique de Lyon.

[3] Bourbonnais R. (2001), Prévision des ventes, Polycopié du produit multimédia, Univer-

sité de Paris-Dauphine.

[4] Box G.E.P., Jenkins G.M. and Reinsel G.C. (1976) : Time Series Analysis, Forecasting

and Control, Holden-Day, Third Edition, Series G.

[5] Carbon M. et Francq C., Estimation non paramétrique de la densité et de la régres-

sion - Prévision non paramétrique, Laboratoire de Probabilités et Statistique, Vil-

leneuve d'Ascq, France. http://www.modulad.fr/archives/numero-15/Carbon-15/

estimationnonparametrique.pdf [16/10/2014]

[6] Carrasco-Gallego R. and Ponce-Cueto E. (2009), Forecasting the returns in reusable

containers' closed-loop supply chains, A case in the LPG industry. 3rd International

Conference on Industrial Engineering and Industrial Management, Barcelona-Terrassa.

[7] Charpentier A. (2012), Modèles de prévision des séries temporelles, UQAM, ACT6420.

[8] Dalalyan A.S., Statistiques Avancées : Méthodes non-paramétriques, Ecole Centrale de

Paris. http://certis.enpc.fr/~dalalyan/Download/poly.pdf [16/10/2014]

[9] De Brito M.P. and Van Der Laan E.A. (2002), Inventory management with product

returns : the impact of (mis)information, Econometric Institute Report EI 2002-29,

Erasmus University Rotterdam, the Netherlands.

[10] Dempster A. P., Laird N. M. and Rubin D. B. (1977). Maximum Likelihood from In-

complete Data via the EM Algorithm (with Discussion).J. Royal Stat. Soc. Series B. 339

1-22.

[11] Desgraupes M. (2014), Cours de Statistiques et Économétrie, Séries temporelles avec R,

Université Paris Ouest Nanterre La Défense.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

BIBLIOGRAPHIE 113

[12] Djomgwe T.B. (2013), Moteur de Scoring pour la sélectivité en douane, Mémoire d'In-

génieur Informatique, Ecole Polytechnique, Yaoundé, Cameroun.

[13] El-Merouani M. (2010), Modélisation Stochastique de la demande pour les stocks de dis-

tribution par une loi de probabilité Log-normale, Université Abdelmalek Essaâdi, Maroc.

[14] Gasmi A. (2008), Prévision du trac aérien de passagers : cas des aéroports tunisiens,

Mastère Modélisation Economique et Econométrie, Ecole Polytechnique de Tunisie.

[15] Giard V. (2005), Gestion de la production et des ux, 3e édition Economica.

[16] Goh T.N. and Varaprasad N. (1986), A statistical methodology for the analysis of the

LifeCycle of Reusable Containers, IIETransactions, 18, pp. 42-47.

[17] Gouriéroux C. et Monfort A. (1990), Séries temporelles et modèles dynamiques Econo-

mica.

[18] Kelle P. and Silver E.A. (1989a), Forecasting the Returns of Reusable Containers, Jour-

nal of Operations Management, Vol.8, No.1, pp. 17-35.

[19] Kelle P. and Silver E.A (1989b), Purchasing Policy of New Containers Considering the

Random Returns of Previously Issued Containers, IIE Transactions, 21(4), pp.349-354.

[20] Kiesmuller G. and Van Der Laan E.A. (2001), An inventory model with dependent

product demands and returns, International Journal of Production Economics, 72 (1)

73-87.

[21] Leeux V. (2007), Modèles semi-paramétriques appliqués à la prévision des séries tem-

porelles : Cas de la consommation d'électricité, Thèse de doctorat, Ecole Doctorale -

Humanités et Sciences de l'Homme, Université de Rennes 2 - Haute Bretagne.

[22] Logamou S.L. (2012), Classication des marchandises expédiées en direction de la zone

CEMAC et transitant par le Cameroun, Mémoire de Master de Statistique Appliquée,

Ecole Polytechnique, Yaoundé, Cameroun.

[23] Nshare N.E.C. (2012), Analyse statistique de la loi des durées dans le but de proposer un

indicateur relatif aux délais de voyage sur les corridors douaniers : Douala-N'Djamena

et Douala-Bangui, Mémoire de Master de Statistique Appliquée, Ecole Polytechnique,

Yaoundé, Cameroun.

[24] Pankratz A. (1991), Forecasting With Dynamic Regression Models. New York : Wiley.

[25] Pibasso A. M. (2010), Transit Cameroun-Centrafrique et Tchad, le GPS de la discorde

http://centrafrique-presse.over-blog.com/article-transit-cameroun-centrafrique-\

\et-tchad-le-gps-de-la-discorde-42557782.html [16/10/2014]

[26] Proïa F. (2013), Autocorrélation et Stationnarité dans le Processus Autorégressif, Thèse

de doctorat, Ecole Doctorale de Mathématiques et Informatique, Université de Bordeaux

I.

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014

BIBLIOGRAPHIE 114

[27] Roustant O. (2008), Introduction aux séries chronologiques : axe méthodes statistiques

et applications, Ecole Nationale Supérieure des Mines, Saint-Etienne.

[28] Silver E.A., Peterson R. and Pyke D.F. (1998), Inventory management and production

planning and schedulling, 3rd edition, John Wiley & Sons, New York.

[29] Singh A. (2005), The EM Algorithm.

http://www.cs.cmu.edu/~awm/15781/assignments/EM.pdf [16/10/2014]

[30] Tadikamalla and Pandu R. (1984), A comparison of several approximations to the lead

time demand distribution, Omega, vol. 12, issue 6, pp. 575-581.

[31] Tokpavi S. (2011), Cours d'économétrie, les modèles dynamiques, Master 1 Economie,

Université Paris X.

[32] Toktay L.B., Van Der Laan E.A and De Brito M.P. (2003), Managing Product Returns :

The Role of Forecasting. Econometric Institure Report EI.

[33] Toktay L.B., Wein L.M. and Zenios S.A. (2000), Inventory Management of Remanufac-

turable Products. Management Science. 46 (11) 1412-1426.

[34] Toussile F.W. (2014), Cours de Séries Chronologiques, Master de Statistique Appliquée,

Ecole Polytechnique, Yaoundé, Cameroun.

[35] Verwijmeren M., Van Der Vlist P. et al. (1996), Networked inventory management in-

formation systems : Materializing supply chain management. International Journal of

Physical Distribution and Logistics Management vol. 26, n 6 : pp. 16-31.

[36] R Core Team (2013). R : A language and environment for statistical computing. R

Foundation for Statistical Computing, Vienna, Austria. http://www.R-project.org/

Mémoire de Master de Statistique Appliquée. ULRICH FLORIAN SIMO c© ENSP 2012-2014