Upload
acsg-section-montreal
View
521
Download
5
Embed Size (px)
DESCRIPTION
Les systèmes géodécisionnels de type SOLAP (Spatial On-Line Analytical Processing) sont dédiés à l’analyse spatio-temporelle des données ainsi qu’à leur exploration interactive selon une approche dite multidimensionnelle. Cette approche exploite le croisement d’axes d’analyse (ex. produit, région, année) organisés en hiérarchies (ex. région : pays-province-région-MRC-ville) afin d’offrir plusieurs niveaux de détails d’information. Cette information ainsi obtenue se doit d’être pertinente et significative afin de servir le processus décisionnel. Il est donc primordial de s’assurer, dès la définition de ces systèmes, de leur adéquation avec les besoins identifiés. Pour obtenir les différents niveaux d’information synthèse, il est nécessaire d’agréger les données qui proviennent des systèmes opérationnels. Les exemples d’agrégation issus du monde OLAP appartiennent généralement à un monde déterministe où tout est parfaitement défini par des règles administratives et sans ambiguité, réalité à laquelle les phénomènes géographiques ne correspondent que rarement. L’agrégation de données géospatiales ne se résume pas seulement à simplement appliquer un opérateur d’agrégation sur un jeu de données comme on le fait pour les applications en comptabilité, en gestion des ventes ou en marketing. Ce processus s’avère plus complexe puisqu’il doit typiquement prendre en considération la nature géométrique et sémantique de la donnée géospatiale, les caractéristiques spatiales et sémantiques des axes d’analyse, les propriétés des opérateurs d’agrégation, le contexte de l’application, les besoins décisionnels, etc. La clé du succès repose alors sur l’expérience du concepteur d’application SOLAP puisqu’il doit effectuer plusieurs choix ayant des impacts sur les résultats et les types d’analyses possibles. Cette présentation portera donc sur les réflexions nécessaires à la définition d’un processus d’agrégation de données géospatiales approprié lors de la définition d’une application SOLAP. Elle traitera également des impacts potentiels des choix effectués sur l’information synthèse résultante, sur sa qualité et sur le type de décision escompté. Ces notions seront principalement présentées à l’aide d’exemples concrets de plusieurs domaines d’application.
Citation preview
L’agrégation de données géodécisionnelles :
questions pour mieux la définir
Eve GrenierUniversité Laval
Yvan BédardUniversité Laval
Nicholas ChrismanRéseau GEOIDE, Université Laval
Géomatique 201113 octobre 2011
Plan de la présentation
Approche analytique
Agrégation de données
Questions
Approche analytique
Date et heure
Position
Type de véhicule
Cause
Secteur
Nb depassagers
Nb deblessés
Nb dedécès
Approche analytique
Date et heure
Position
Type de véhicule
Cause
Secteur
Nb depassagers
Nb deblessés
Données recherchées
Axes d’analyse
Nb dedécès
Approche analytique
• Axes d’analyse– Thématique– Temporel
Causes
Mécanique Météo
Panne Neige Pluie
…
Crevaison … …
2005 – 2010
Année
Mois
Jour
Heure
Approche analytique
• Axes d’analyse– Spatial géométrique
Province
Régions administratives
MRC
Québec
01 – Bas-St-Laurent 17 – Centre-du-Québec
140 - Kamouraska
Kamouraska Saint-Carmel
…
070 – La Matapédia …
…Municipalités
487 68 4
Approche analytique
• Données recherchées– Données numériques ou géométriques– Opérateurs d’agrégation
1- Requête transactionnelle
2- Requête multi-niveaux
DécèsPassagers Blessés Position
Somme Somme Somme Regroupement
2 1 0
Agrégation de données
• Processus d’agrégation– Donnée recherchée– Opérateur d’agrégation– Axes d’analyse
• Spécificités de l’agrégation géodécisionnelle– Type de géométrie– Définition sémantique– Interrelations spatiales– Comportement temporel
Blessés
Somme
Moyenne
• Validation du résultat
Agrégation de données
Années Occupation Age Région
Population SommeSomme (A2, A3, A4)Moyenne (A1)
Option 1 Option 2
?
Question – Donnée recherchée
• Données géospatiales– Données géométriques– Données descriptives– Métadonnées
• Représentation multiple
Superficie : 15 haSuperficie estimée en ha
Jour 1 Jour 2 Jour 3 Étendue totale
Feu no 325
?
Question – Donnée recherchée
• Données géospatiales– Données géométriques– Données descriptives– Métadonnées
• Représentation multiple
Superficie : 15 haSuperficie estimée en ha
Jour 1 Jour 2 Jour 3 Étendue totale
Feu no 325
Quelle représentation géométrique doit-on choisir?
Convient-elle pour l’échelle de l’affichage souhaitée?
Doit-on privilégier la donnée descriptive ou géométrique?
Question – Opérateur d’agrégation
Position d’accident routier
Enveloppe convexe Ellipse de distribution?
Question – Opérateur d’agrégation
Quel opérateur/algorithme peut-on choisir pourmettre en valeur les données et répondre aux besoins?
Est-ce que la nature de l’opérateur implique de traiter seulement les données détaillées?
Est-ce que le résultat de l’agrégation est significatif?
Question – Axe d’analyse
Maladie
Option 1
Option 2
Option 3
1 maladie/personne
règle d’agrégation spécifique par niveau
toutes les maladies nb personnes
Région socio-sanitaire Médecin
Règle d’agrégationspécifique
?
Question – Axe d’analyse
Est-ce qu’il existe une relation unique entre la donnée recherchée et l’axe d’analyse?
Est-ce que le type d’axe d’analyse nécessite des règles spécifiques afin d’agréger correctement?
Conclusion
• Agrégation de données géodécisionnelles adéquate– Pas de solution unique– Traitement des données géospatiales plus
complexe– Réflexions nécessaire– Impacts directs sur les décisions
Remerciements
• Chaire industrielle CRSNG en bases de données géospatiales décisionnelles
• CRSNG pour son financement
Merci de votre attention!
Questions?
Types de donnée recherchée
• Types de données numériques [Lenz et Shoshani, 1997]
– Inventaire (stock ) : inventaire d’auto, nombre de citoyens– Cumul (flow ) : naissance mensuelle, revenu annuel– Valeur par unité (value-per-unit ) : coût par unité produite,
taux de change
• Types de données géospatiales– Phénomène ponctuel : position accident routier– Phénomène durable : segment de travaux routiers– Instantané de phénomène évolutif à fréquence temporelle
fixe : feux de forêt évalué quotidiennement– Instantané de phénomène évolutif à fréquence temporelle
variable suivant l’évolution
Classes opérateurs d’agrégation
• 3 classes d’opérateurs [Gray et al., 1997]
– DistributivePeut diviser les données à traiter en plusieurs ensembles disjoints sans affecter le résultat finalEx. somme, minimum, maximum
– AlgébriquePeut être exprimé comme une fonction d’opérateurs distributifsEx. moyenne (somme / dénombrement)
– HolistiqueDoit absolument être utilisé sur la totalité des données à évaluer pour obtenir le bon résultatEx. médiane
Catégories opérateur agrégation
• Opérateurs mathématiques(somme, moyenne, minimum, maximum)
• Opérateurs géométriques(fusion, intersection, centroïde, enveloppe convexe)
• Opérateurs combinant un opérateur mathématiques avec un opérateur d’analyse géospatiale(moyenne superficie, maximum intersection, somme-distance, densité surfacique)
Références
• [Gray et al., 1997]Gray, J., S. Chaudhuri, et al. (1997). Data Cube: A relational aggregation operator generalizing group-by, cross-tab, and sub-totals, Data Mining and Knowledge Discovery, 1(1), pp. 29-53.
• [Lenz et Shoshani, 1997]Lenz, H. & A. Shoshani (1997). Summarizability in OLAP and Statistical Data Bases. Proceedings of the 9th International Conference on Scientific and Statistical Database Management, Olympia, USA, pp. 132-143.