23
Vers un entrepôt de données pour le trafic routier Claudia Bauzer-Medeiros (1) , Olivier Carles (2) , Florian Devuyst (3) , Georges Hébrail (4) , Bernard Hugueney (5) , Marc Joliveau (3) , Geneviève Jomier (5) , Maude Manouvrier (5) , Yosr Naïja (5) , Gérard Scemama (1) , Laurent Steffan (5) (1)IC UNICAMP – Université de Campinas – Brésil (2)GRETIA - INRETS (3)MAS – École Centrale de Paris (4)I3 – ENST Paris (5)LAMSADE – Université Paris-Dauphine http://norma.mas.ecp.fr/wikimas/Caddy

Vers un entrepôt de données pour le trafic routier

  • Upload
    kieve

  • View
    47

  • Download
    0

Embed Size (px)

DESCRIPTION

Vers un entrepôt de données pour le trafic routier. Claudia Bauzer-Medeiros (1) , Olivier Carles (2) , Florian Devuyst (3) , Georges Hébrail (4) , Bernard Hugueney (5) , Marc Joliveau (3) , Geneviève Jomier (5) , Maude Manouvrier (5) , Yosr Naïja (5) , Gérard Scemama (1) , Laurent Steffan (5) - PowerPoint PPT Presentation

Citation preview

Page 1: Vers un entrepôt de données pour le trafic routier

Vers un entrepôt de données pour le trafic routier

Claudia Bauzer-Medeiros(1), Olivier Carles(2), Florian Devuyst(3), Georges Hébrail(4), Bernard Hugueney(5), Marc Joliveau(3), Geneviève Jomier(5), Maude Manouvrier(5), Yosr Naïja(5),

Gérard Scemama(1), Laurent Steffan(5)

(1) IC UNICAMP – Université de Campinas – Brésil

(2) GRETIA - INRETS

(3) MAS – École Centrale de Paris

(4) I3 – ENST Paris

(5) LAMSADE – Université Paris-Dauphine

Dans le cadre de l’ACI Masses de Données CADDYhttp://norma.mas.ecp.fr/wikimas/Caddy

Page 2: Vers un entrepôt de données pour le trafic routier

Plan

1. Introduction et contexte

2. Données du trafic routier

3. Construction de l’entrepôt

4. Multi-représentation de séries temporelles

5. Architecture du système d’information

6. État de l’art

7. Conclusion et perspectives

ACI CADDY - EDA 2006 2

Page 3: Vers un entrepôt de données pour le trafic routier

IntroductionProblématique :

Entrepôt de données spatio-temporelles

Sources de données de type capteurs enregistrant périodiquement des phénomènes spécifiques

Prise en compte, pour extraire de l’information, de : la localisation des capteurs, la périodicité des prises de valeurs la variation espace-temps des valeurs

Application à la gestion de trafic urbain

ACI CADDY - EDA 2006 3

Page 4: Vers un entrepôt de données pour le trafic routier

Contexte Combinaison de travaux issus de la recherche en

entrepôt de données spatiales, en série temporelles et en modélisation mathématique

Dans le cadre d’une ACI Masses de Données CADDY (Contrôle de l’Acquisition de Données temporelles massives, stockage et modèles DYnamiques)

Collaboration avec l’INRETS (Institut National de Recherche sur les Transports et leur Sécurité)

Objectif : produire un système pour l’aide à la décision pour la gestion du trafic routier

ACI CADDY - EDA 2006 4

Page 5: Vers un entrepôt de données pour le trafic routier

Données du trafic routier (1/2) Variables macroscopiques temporelles mesurées par des

capteurs implantés sur des axes routiers

– Débit : nombre de véhicules par unité de temps (minute ou heure)

– Taux d’occupation : exprimé en pourcentage

Mesures de débit et de taux d’occupation constituant des séries temporelles

ACI CADDY - EDA 2006 5

Page 6: Vers un entrepôt de données pour le trafic routier

Données du trafic routier (2/2)Graphe modélisant le réseau routier d’une ville

ACI CADDY - EDA 2006 6

Plus de 400 capteurs

Valeurs enregistrées toutes les 3 minutes

Plus de 400 000 valeurs élémentaires par jour

Page 7: Vers un entrepôt de données pour le trafic routier

Construction de l’entrepôt (1/3) Insertion des données hors ligne dans un premier temps avec un souhait de l’étendre au temps réel Données de la base organisées selon différents axes :

– Capteurs

– Temps

– Valeurs mesurées

Mise en valeur de la corrélation de l’évolution de ces séquences temporelles avec l’activité humaine

7

Taux d’occupation d’un jour de semaine ordinaire (lundi à vendredi – non férié)

Pics entre 8h et 10h et entre 17h et 20h

Corrélation avec les valeurs de débits

ACI CADDY - EDA 2006

Page 8: Vers un entrepôt de données pour le trafic routier

Construction de l’entrepôt (2/3)

8ACI CADDY - EDA 2006

Pour analyser l’activité humaine à travers le temps

Pour une analyse spatiale selon la topologie du réseau

Pour analyser l’incidence des conditions météo et/ou des événements ayant un impact sur la circulation

Fluide ou congestionné

Page 9: Vers un entrepôt de données pour le trafic routier

Construction de l’entrepôt (3/3)

9ACI CADDY - EDA 2006

Intégrer les informations de l’entrepôt à d’autres systèmes urbains (ex. cadastre) + Faciliter la visualisation

Dériver des relations entre les valeurs mesurées et différents types d’événements temporels associés à des activités humaines

Plusieurs expérimentations pour valider ces agrégations sémantiques« Quels sont les axes fluides, les veilles de week-end de vacances scolaires

entre 15h et 17h par beau temps? »« Quelles sont les zones congestionnées d’un quartier en fin de soirée lors de manifestations sportives ? »

Page 10: Vers un entrepôt de données pour le trafic routier

Multi-représentation de séries temporelles

Utilisation de représentation compacte des séries afin de pouvoir les étudier ou les analyser Objectif : construire une représentation

– Préservant au maximum l’information présente dans les données

– Sans connaissance a priori sur cette information Deux types de résumés :

– Résumés numériques

– Résumés symboliques

10ACI CADDY - EDA 2006

Page 11: Vers un entrepôt de données pour le trafic routier

Résumés numériques (1/2)

Partition du domaine de définition temporel en épisodes Découpage régulier en épisodes ou adapté localement aux données Modèles les plus simples : modèles linéaires d’ordre 0 et d’ordre 1 Choix du modèle et choix du nombre d’épisodes généralement liés aux

données à représenter

11ACI CADDY - EDA 2006

Page 12: Vers un entrepôt de données pour le trafic routier

Résumés numériques (2/2)

12ACI CADDY - EDA 2006

Extrait de série temporelle de taux d’occupation

Modélisation par ACPA (Adaptive Piecewise

Constant Approximation)

ACPA : Chakrabarti, K., E. Keogh, S. Mehrotra, et M. Pazzani (2002). Locally adaptive dimensionality reduction for indexing large time series databases. ACM Trans. on Database Systems (TODS) 27(2), 188–228.

Page 13: Vers un entrepôt de données pour le trafic routier

Résumés symboliques (1/2) Intégration d’algorithmes de segmentation de courbes et de recherche de formes types journalières Association d’un symbole à une classe d’extraits de séries temporelles considérés comme équivalents Ex. Association de symboles à des profils typiques de circulation journalière ou à de niveaux typiques

d’encombrement dus axes routiers

Obtention d’un alphabet de symboles par classification Représentation symbolique calculée à la demande de l’utilisateur ou à l’entrée des données brutes dans le

système

13ACI CADDY - EDA 2006

Page 14: Vers un entrepôt de données pour le trafic routier

Résumés symboliques (2/2)

14ACI CADDY - EDA 2006

Extrait de série temporelle de taux d’occupation et de sa modélisation par CBSR (Clustering Based Symbolic

Representation)Hugueney, B. (2003). Représentations symboliques de longues séries temporelles. Thèse dedoctorat, Univ. Paris 6.

Page 15: Vers un entrepôt de données pour le trafic routier

Architecture du SI (1/6)

15

Public de décideurs (experts de compagnie de transports publics) et de chercheurs du domaine routier, d’hommes politiques, d’opérateurs du SI, voire plus général

ACI CADDY - EDA 2006

Page 16: Vers un entrepôt de données pour le trafic routier

Architecture du SI (2/6)

16ACI CADDY - EDA 2006

Plusieurs sources de données : Données spatio-temporelles fournies par les capteurs Annotations textuelles et fichiers de documentation

Données géographiques (associées principalement au tracés urbains)

Informations météorologiques

Nettoyage préalable des données

Stockage des données dans un Entrepôt de données appartenant à la couche Stockage

Page 17: Vers un entrepôt de données pour le trafic routier

Architecture du SI (3/6)

17ACI CADDY - EDA 2006

Ensemble d’ontologies : Pour organiser les définitions et la terminologie utilisée dans le domaine

d’application Plusieurs dimensions ou axes de connaissance fournis par différentes demandes ou

profils utilisateurs Magasins de données :

Contenant des « vues matérialisées » sur l’entrepôt Créés au fur et à mesure de l’apparition de nouvelles demandes sur un sous-

ensembles des données

Couche Stockage

Page 18: Vers un entrepôt de données pour le trafic routier

Architecture du SI (4/6)

18

Responsable des interactions des utilisateurs avec le système

Prévision de différentes formes de visualisations interactives

Actuellement : visualisation sous la forme de carte, de table de données, ou de courbes

Couche Interface

ACI CADDY - EDA 2006

Debrégeas A., Hébrail G., Interactive interpretation of Kohonen maps applied to curves, Int. Conf. on Knowledge Discovery and Data Mining (KDD’98), New-York, Août 1998

Page 19: Vers un entrepôt de données pour le trafic routier

Architecture du SI (5/6)

19

Ensemble de composants intervenant dans le traitement des demandes utilisateurs

Aide à la transformation d’une demande utilisateur depuis l’Interface dans un ensemble d’accès à la couche Stockage

Responsable du traitement des données depuis la couche Stockage et de leur transformation en vue de leur visualisation

Couche Modules Dédiés

ACI CADDY - EDA 2006

Page 20: Vers un entrepôt de données pour le trafic routier

Architecture du SI (6/6)

20

Modules d’Analyse : Recherche de motifs dans les séries temporelles

Module Requêtes : Intégration des résultats partiels des requêtes envoyées à l’entrepôt et aux magasins et correspondance entre Stockage et Interface

Module Systèmes : Opérations de maintenance du système utilisées exclusivement par les opérateurs du SI (ex. nettoyage des données)

Module Ontologies : Construction et mise à jour des ontologies

Couche Modules Dédiés

ACI CADDY - EDA 2006

Page 21: Vers un entrepôt de données pour le trafic routier

État de l’art Couplage SIG, bases de données, outils d’aide à la décision et outils de

visualisation pour déterminer des itinéraires

Utilisation des SOLAP à des fins de stockage et de visualisation Bertini, R., S. Matthews, S. Hansen, A. Delcambre, et A. Rodriguez (2005). ITS Archived Data User

Service in Portland, Oregon : Now and Into the Future. In 8th Int. IEEE Conf. On Intel. Transport. Sys., Vienna (Austria),

Bédard, Y., M. J. Proulx, et S. Rivest (2005). Enrichissement du OLAP pour l’analyse géographique : exemples de réalisation et différentes possibilités technologiques. In 1ère journée francophone EDA 2005, Lyon (France)

Lu, C., L. Sripada, S. Shekhar, et R. Liu (2005). Transportation Data Visualization and Mining for Emergency Management. Int. Journal of Critical Infrastructures (Inderscience) 1(2/3)

Rivest, S., P. Gignac, J. Charron, et Y. Bédard (2004). Développement d’un système d’exploration spatio-temporelle interactive des données de la Banque d’information corporative du ministère des Transports du Québec. In Colloque Géomatique - Un choix stratégique !, Montréal (Canada)

Pas de prise en compte de l’activité humaine

ACI CADDY - EDA 2006 21

Page 22: Vers un entrepôt de données pour le trafic routier

Conclusion Démarche multidisciplinaire pour le traitement de masses de données

spatio-temporelles dans le domaine du trafic routier Intégration d’un entrepôt de données à des fonctionnalités d’analyse

et et de représentation multi-échelles numériques et symboliques Mécanismes d’agrégation permettant de répondre à des requêtes telles

que : « Quel est le débit moyen par capteur les lundis de 2005 entre 10h et

12h? » « Quels sont les états (fluides ou saturés) du trafic sur un ensemble de

capteurs pour les jeudis du premier semestre de 2005 entre 17h et 20h ? »

ACI CADDY - EDA 2006 22

Page 23: Vers un entrepôt de données pour le trafic routier

Perspectives Étendre les mécanismes pour répondre à des requêtes plus complexes telles que :

« Étant donné un événement (ex. match de rugby) devant avoir lieu à un endroit (ex. Stade Charlety à Paris), à une date d et une heure h, quel est l’état prévu du trafic dans la zone z aux heures h-i ou h+i ? »

« La rue r est-elle bouchée le dimanche entre 14h et 16h ? » Découverte et visualisation de motifs spatio-temporels Analyse en ligne multi-échelle et multi-représentation Restitution de l’information adaptée à l’utilisateur (décideur, exploitant, usager) Apprentissage Après CADDY :

Acquisition et traitement temps réel des flux de données, simulation et prévision Étude d’autres systèmes complexes avec corrélations spatio-temporelles entre les flux de

données : hydrologie au Sahel (AGRHYMET, CIRAD), consommation d’électricité (EDF), collaboration avec le CEA …

ACI CADDY - EDA 2006 23