22
L’agrégation de données géodécisionnelles : questions pour mieux la définir Eve Grenier Université Laval Yvan Bédard Université Laval Nicholas Chrisman Réseau GEOIDE, Université Laval Géomatique 2011 13 octobre 2011

L'agrégation de données géodécisionnelles : questions pour mieux la définir

Embed Size (px)

DESCRIPTION

Les systèmes géodécisionnels de type SOLAP (Spatial On-Line Analytical Processing) sont dédiés à l’analyse spatio-temporelle des données ainsi qu’à leur exploration interactive selon une approche dite multidimensionnelle. Cette approche exploite le croisement d’axes d’analyse (ex. produit, région, année) organisés en hiérarchies (ex. région : pays-province-région-MRC-ville) afin d’offrir plusieurs niveaux de détails d’information. Cette information ainsi obtenue se doit d’être pertinente et significative afin de servir le processus décisionnel. Il est donc primordial de s’assurer, dès la définition de ces systèmes, de leur adéquation avec les besoins identifiés. Pour obtenir les différents niveaux d’information synthèse, il est nécessaire d’agréger les données qui proviennent des systèmes opérationnels. Les exemples d’agrégation issus du monde OLAP appartiennent généralement à un monde déterministe où tout est parfaitement défini par des règles administratives et sans ambiguité, réalité à laquelle les phénomènes géographiques ne correspondent que rarement. L’agrégation de données géospatiales ne se résume pas seulement à simplement appliquer un opérateur d’agrégation sur un jeu de données comme on le fait pour les applications en comptabilité, en gestion des ventes ou en marketing. Ce processus s’avère plus complexe puisqu’il doit typiquement prendre en considération la nature géométrique et sémantique de la donnée géospatiale, les caractéristiques spatiales et sémantiques des axes d’analyse, les propriétés des opérateurs d’agrégation, le contexte de l’application, les besoins décisionnels, etc. La clé du succès repose alors sur l’expérience du concepteur d’application SOLAP puisqu’il doit effectuer plusieurs choix ayant des impacts sur les résultats et les types d’analyses possibles. Cette présentation portera donc sur les réflexions nécessaires à la définition d’un processus d’agrégation de données géospatiales approprié lors de la définition d’une application SOLAP. Elle traitera également des impacts potentiels des choix effectués sur l’information synthèse résultante, sur sa qualité et sur le type de décision escompté. Ces notions seront principalement présentées à l’aide d’exemples concrets de plusieurs domaines d’application.

Citation preview

Page 1: L'agrégation de données géodécisionnelles : questions pour mieux la définir

L’agrégation de données géodécisionnelles :

questions pour mieux la définir

Eve GrenierUniversité Laval

Yvan BédardUniversité Laval

Nicholas ChrismanRéseau GEOIDE, Université Laval

Géomatique 201113 octobre 2011

Page 2: L'agrégation de données géodécisionnelles : questions pour mieux la définir

Plan de la présentation

Approche analytique

Agrégation de données

Questions

Page 3: L'agrégation de données géodécisionnelles : questions pour mieux la définir

Approche analytique

Date et heure

Position

Type de véhicule

Cause

Secteur

Nb depassagers

Nb deblessés

Nb dedécès

Page 4: L'agrégation de données géodécisionnelles : questions pour mieux la définir

Approche analytique

Date et heure

Position

Type de véhicule

Cause

Secteur

Nb depassagers

Nb deblessés

Données recherchées

Axes d’analyse

Nb dedécès

Page 5: L'agrégation de données géodécisionnelles : questions pour mieux la définir

Approche analytique

• Axes d’analyse– Thématique– Temporel

Causes

Mécanique Météo

Panne Neige Pluie

Crevaison … …

2005 – 2010

Année

Mois

Jour

Heure

Page 6: L'agrégation de données géodécisionnelles : questions pour mieux la définir

Approche analytique

• Axes d’analyse– Spatial géométrique

Province

Régions administratives

MRC

Québec

01 – Bas-St-Laurent 17 – Centre-du-Québec

140 - Kamouraska

Kamouraska Saint-Carmel

070 – La Matapédia …

…Municipalités

Page 7: L'agrégation de données géodécisionnelles : questions pour mieux la définir

487 68 4

Approche analytique

• Données recherchées– Données numériques ou géométriques– Opérateurs d’agrégation

1- Requête transactionnelle

2- Requête multi-niveaux

DécèsPassagers Blessés Position

Somme Somme Somme Regroupement

2 1 0

Page 8: L'agrégation de données géodécisionnelles : questions pour mieux la définir

Agrégation de données

• Processus d’agrégation– Donnée recherchée– Opérateur d’agrégation– Axes d’analyse

• Spécificités de l’agrégation géodécisionnelle– Type de géométrie– Définition sémantique– Interrelations spatiales– Comportement temporel

Blessés

Somme

Page 9: L'agrégation de données géodécisionnelles : questions pour mieux la définir

Moyenne

• Validation du résultat

Agrégation de données

Années Occupation Age Région

Population SommeSomme (A2, A3, A4)Moyenne (A1)

Option 1 Option 2

?

Page 10: L'agrégation de données géodécisionnelles : questions pour mieux la définir

Question – Donnée recherchée

• Données géospatiales– Données géométriques– Données descriptives– Métadonnées

• Représentation multiple

Superficie : 15 haSuperficie estimée en ha

Jour 1 Jour 2 Jour 3 Étendue totale

Feu no 325

?

Page 11: L'agrégation de données géodécisionnelles : questions pour mieux la définir

Question – Donnée recherchée

• Données géospatiales– Données géométriques– Données descriptives– Métadonnées

• Représentation multiple

Superficie : 15 haSuperficie estimée en ha

Jour 1 Jour 2 Jour 3 Étendue totale

Feu no 325

Quelle représentation géométrique doit-on choisir?

Convient-elle pour l’échelle de l’affichage souhaitée?

Doit-on privilégier la donnée descriptive ou géométrique?

Page 12: L'agrégation de données géodécisionnelles : questions pour mieux la définir

Question – Opérateur d’agrégation

Position d’accident routier

Enveloppe convexe Ellipse de distribution?

Page 13: L'agrégation de données géodécisionnelles : questions pour mieux la définir

Question – Opérateur d’agrégation

Quel opérateur/algorithme peut-on choisir pourmettre en valeur les données et répondre aux besoins?

Est-ce que la nature de l’opérateur implique de traiter seulement les données détaillées?

Est-ce que le résultat de l’agrégation est significatif?

Page 14: L'agrégation de données géodécisionnelles : questions pour mieux la définir

Question – Axe d’analyse

Maladie

Option 1

Option 2

Option 3

1 maladie/personne

règle d’agrégation spécifique par niveau

toutes les maladies nb personnes

Région socio-sanitaire Médecin

Règle d’agrégationspécifique

?

Page 15: L'agrégation de données géodécisionnelles : questions pour mieux la définir

Question – Axe d’analyse

Est-ce qu’il existe une relation unique entre la donnée recherchée et l’axe d’analyse?

Est-ce que le type d’axe d’analyse nécessite des règles spécifiques afin d’agréger correctement?

Page 16: L'agrégation de données géodécisionnelles : questions pour mieux la définir

Conclusion

• Agrégation de données géodécisionnelles adéquate– Pas de solution unique– Traitement des données géospatiales plus

complexe– Réflexions nécessaire– Impacts directs sur les décisions

Page 17: L'agrégation de données géodécisionnelles : questions pour mieux la définir

Remerciements

• Chaire industrielle CRSNG en bases de données géospatiales décisionnelles

• CRSNG pour son financement

Page 18: L'agrégation de données géodécisionnelles : questions pour mieux la définir

Merci de votre attention!

Questions?

Page 19: L'agrégation de données géodécisionnelles : questions pour mieux la définir

Types de donnée recherchée

• Types de données numériques [Lenz et Shoshani, 1997]

– Inventaire (stock ) : inventaire d’auto, nombre de citoyens– Cumul (flow ) : naissance mensuelle, revenu annuel– Valeur par unité (value-per-unit ) : coût par unité produite,

taux de change

• Types de données géospatiales– Phénomène ponctuel : position accident routier– Phénomène durable : segment de travaux routiers– Instantané de phénomène évolutif à fréquence temporelle

fixe : feux de forêt évalué quotidiennement– Instantané de phénomène évolutif à fréquence temporelle

variable suivant l’évolution

Page 20: L'agrégation de données géodécisionnelles : questions pour mieux la définir

Classes opérateurs d’agrégation

• 3 classes d’opérateurs [Gray et al., 1997]

– DistributivePeut diviser les données à traiter en plusieurs ensembles disjoints sans affecter le résultat finalEx. somme, minimum, maximum

– AlgébriquePeut être exprimé comme une fonction d’opérateurs distributifsEx. moyenne (somme / dénombrement)

– HolistiqueDoit absolument être utilisé sur la totalité des données à évaluer pour obtenir le bon résultatEx. médiane

Page 21: L'agrégation de données géodécisionnelles : questions pour mieux la définir

Catégories opérateur agrégation

• Opérateurs mathématiques(somme, moyenne, minimum, maximum)

• Opérateurs géométriques(fusion, intersection, centroïde, enveloppe convexe)

• Opérateurs combinant un opérateur mathématiques avec un opérateur d’analyse géospatiale(moyenne superficie, maximum intersection, somme-distance, densité surfacique)

Page 22: L'agrégation de données géodécisionnelles : questions pour mieux la définir

Références

• [Gray et al., 1997]Gray, J., S. Chaudhuri, et al. (1997). Data Cube: A relational aggregation operator generalizing group-by, cross-tab, and sub-totals, Data Mining and Knowledge Discovery, 1(1), pp. 29-53.

• [Lenz et Shoshani, 1997]Lenz, H. & A. Shoshani (1997). Summarizability in OLAP and Statistical Data Bases. Proceedings of the 9th International Conference on Scientific and Statistical Database Management, Olympia, USA, pp. 132-143.