45
OLAP et SOLAP Notions avancées de bases de données SIG Yvan Bédard

OLAP et SOLAP - complet avec explication - ppt univ laval

Embed Size (px)

Citation preview

Page 1: OLAP et SOLAP - complet avec explication - ppt univ laval

OLAP et SOLAPOLAP et SOLAP

Notions avancées de bases de données SIG

Yvan Bédard

Page 2: OLAP et SOLAP - complet avec explication - ppt univ laval

OLAPOLAP

« Il s’agit d’une catégorie de logiciels axés sur l’exploration et l’analyse rapide des données selon une approche multidimensionnelle à plusieurs niveaux d’agrégation » (Caron, 1998)

Page 3: OLAP et SOLAP - complet avec explication - ppt univ laval

OLAPOLAP

Catégorie de logiciels : S’exprime par une grande quantité de produits

logiciels disponibles sur le marché Exploration et analyse rapide :

OLAP vise à assister l’usager dans son analyse en lui facilitant l’exploration de ses données et en lui donnant la possibilité de le faire rapidement Rapidité et facilité

Page 4: OLAP et SOLAP - complet avec explication - ppt univ laval

OLAPOLAP

Facilité L’usager n’a pas à maîtriser des langages d’interrogation

et des interfaces complexes L’usager interroge directement les données, en

interagissant avec celles-ci Rapidité

OLAP exploite une dénormalisation maximale des données, sous la forme d’une pré-agrégation stockée

L’usager devient opérationnel en très peu de temps L’usager peut se concentrer sur son analyse et non

sur le processus (les moyens utilisés pour l’analyse)

Page 5: OLAP et SOLAP - complet avec explication - ppt univ laval

OLAPOLAP

Approche multidimensionnelle : Basée sur des thèmes d’analyse (dimensions) Plus intuitive

Plusieurs niveaux d’agrégation : Les données peuvent être groupées à différents

niveaux de granularité (les regroupements sont pré-calculés, par exemple, le total des ventes pour le mois dernier calculé à partir de la somme de toutes les ventes du mois).

Granularité : niveau de détail des données emmagasinées dans une base de données.

Page 6: OLAP et SOLAP - complet avec explication - ppt univ laval

Vocabulaire OLAPVocabulaire OLAP

Dimension : Une dimension peut être définie comme un thème, ou un axe

(attributs), selon lequel les données seront analysées (en fonction de …) Ex. Temps, Découpage administratif, Produits

Une dimension contient des membres organisés en hiérarchie, chacun des membres appartenant à un niveau hiérarchique (ou niveau de granularité) particulier Ex. Pour la dimension Temps, les années, les mois et les jours

peuvent être des exemples de niveaux hiérarchiques. 1998 est un exemple de membre du niveau Année

Page 7: OLAP et SOLAP - complet avec explication - ppt univ laval

Vocabulaire OLAPVocabulaire OLAP

Mesure : Une mesure est un élément de donnée sur

lequel portent les analyses, en fonction des différentes dimensions Ex. coût des travaux, nombre d’accidents, ventes,

dépenses

Page 8: OLAP et SOLAP - complet avec explication - ppt univ laval

Vocabulaire OLAPVocabulaire OLAP

Fait : Un fait représente la valeur d’une mesure, mesurée

ou calculée, selon un membre de chacune des dimensions (ex. ce qui est recueilli par les systèmes transactionnels).

Ex. « le coût des travaux en 1995 pour la région 02 est 250 000 $ » est un fait qui exprime la valeur de la mesure « coût des travaux » pour le membre « 1995 » du niveau « année » de la dimension « temps » et le membre « 02 » du niveau « région » de la dimension « découpage administratif ».

Page 9: OLAP et SOLAP - complet avec explication - ppt univ laval

Vocabulaire OLAPVocabulaire OLAP

Cube : Un ensemble de mesures organisées selon un

ensemble de dimensions (aussi hypercube) Ex. Un cube de ventes qui comprend :

Les dimensions Temps, Produit, Magasin La mesure Ventes en $

Page 10: OLAP et SOLAP - complet avec explication - ppt univ laval

Cube multidimensionnelCube multidimensionnel

Ce cube multidimensionnel présente les profits d’entreprises agricoles par propriété, par exploitation et par année.

Cas 1: visualisation des profits des propriétés > = 0.05 km2 pour toutes les exploitations durant les 4 années.

Cas 2: visualisation des profits des propriétés >= 1.5 km2 pour l’exploitation de légumes pour l’année 1993.

Page 11: OLAP et SOLAP - complet avec explication - ppt univ laval

Composantes OLAPComposantes OLAP

L’architecture OLAP consiste en trois services :Base de données : Doit supporter les données agrégées ou résumées Peut provenir d’un entrepôt ou d’un marché de données* Doit posséder une structure multidimensionnelle (SGDB

multidimensionnel ou relationnel)Serveur OLAP : Gère la structure multidimensionnelle dans le SGBD Gère l’accès aux données de la part des usagersModule client : Permet aux usagers de manipuler et d’explorer les données Affiche les données sous forme de graphiques statistiques et de

tableaux Selon le type de base de données accédé, plusieurs configurations sont

possibles : multidimensionnelle, relationnelle ou hybride

Page 12: OLAP et SOLAP - complet avec explication - ppt univ laval

MOLAP(OLAP Multidimensionnel)

MOLAP(OLAP Multidimensionnel)

Les données détaillées de base ainsi que les données agrégées de l’entrepôt sont stockées dans une base de données multidimensionnelle (souvent appelée cube ou hypercube)

Une base de données multidimensionnelle utilise une structure propriétaire au logiciel utilisé ( matrice)

Le serveur MOLAP extrait les données de l’hypercube et les présente directement au module client

Page 13: OLAP et SOLAP - complet avec explication - ppt univ laval

MOLAP(OLAP Multidimensionnel)

MOLAP(OLAP Multidimensionnel)

Base de données multidimensionnelle (hypercube)

Serveur MOLAP Client OLAP

Page 14: OLAP et SOLAP - complet avec explication - ppt univ laval

ROLAP (OLAP Relationnel)ROLAP (OLAP Relationnel)

Les données détaillées de base ainsi que les données agrégées de l’entrepôt sont stockées sous forme de tables dans une base de données relationnelle

La base de données relationnelle doit être structurée selon un modèle particulier (étoile, flocon, …)

Le serveur extrait les données par des requêtes SQL et interprète les données selon une vue multidimensionnelle avant de les présenter au module client

Page 15: OLAP et SOLAP - complet avec explication - ppt univ laval

ROLAP (OLAP Relationnel)ROLAP (OLAP Relationnel)

Base de données relationnelle (étoile ou flocon)

Serveur ROLAP

Vue multidimensionnelle

Client OLAP

Page 16: OLAP et SOLAP - complet avec explication - ppt univ laval

HOLAP (OLAP Hybride)HOLAP (OLAP Hybride)

Architecture qui consiste en un croisement des architectures MOLAP et ROLAP

Les données détaillées de base de l’entrepôt sont stockées dans une base de données relationnelle et les données agrégées sont stockées dans une base de données multidimensionnelle

Le serveur HOLAP accède deux bases de données et les présente au module client, selon une vue multidimensionnelle dans le cas des données de la BD relationnelle

Page 17: OLAP et SOLAP - complet avec explication - ppt univ laval

HOLAP (OLAP Hybride)HOLAP (OLAP Hybride)

Page 18: OLAP et SOLAP - complet avec explication - ppt univ laval

BD relationnelle

MOLAP HOLAP

MOLAP vs ROLAP vs HOLAPMOLAP vs ROLAP vs HOLAP

Critère de comparaison

ROLAP

Stockage des données de base (détaillées)

BD relationnelle BD multidimensionnelle

BD relationnelle

Stockage des agrégations

BD multidimensionnelle

BD multidimensionnelle

Performance des requêtes (habituellement)

Le moins performant

Le plus performant Performance moyenne

Page 19: OLAP et SOLAP - complet avec explication - ppt univ laval

Structure multidimensionnelleStructure multidimensionnelle

Pour une configuration ROLAP ou HOLAP, il est nécessaire de simuler une structure multidimensionnelle dans un SGBD relationnel à l’aide de modèles particuliers qui permettent de mieux répondre aux besoins multidimensionnels :– Modèle en étoile (Star Schema)– Modèle en flocon (Snowflake Schema)– Modèle mixte (Mixed Schema)– Modèle en constellation (Fact Constellation Schema)

Page 20: OLAP et SOLAP - complet avec explication - ppt univ laval

Modèle en étoileModèle en étoile

Le schéma en étoile tire son nom de sa configuration: Objet central, nommé table des faits Connecté à un certain nombre d’objets de manière radiale,

les tables de dimension La table des faits, comme son nom l’indique, contient

les faits Les tables de dimensions contiennent les attributs

définissant chacun des membres des dimensions. Elles sont dénormalisées.

Page 21: OLAP et SOLAP - complet avec explication - ppt univ laval

Modèle en étoileModèle en étoile

Un niveau=1 couple (id +nom)

3 niveau=3 couples (id +nom)

Un niveau=1 identifiant

Page 22: OLAP et SOLAP - complet avec explication - ppt univ laval

Modèle en étoileModèle en étoile

DIMENSION 1

DIMENSION 5

DIMENSION 3

DIMENSION 2

DIMENSION 4

FAITS

Mesures

DIMENSION N

Page 23: OLAP et SOLAP - complet avec explication - ppt univ laval

Modèle en floconModèle en flocon

Le schéma en flocon est dérivé du schéma en étoile où les tables de dimension sont normalisées (la table des faits reste inchangée)

Avec ce schéma, chacune des dimensions est décomposée selon sa ou ses hiérarchie(s)

Page 24: OLAP et SOLAP - complet avec explication - ppt univ laval

Modèle en floconModèle en flocon

Page 25: OLAP et SOLAP - complet avec explication - ppt univ laval

Modèle en floconModèle en flocon

Page 26: OLAP et SOLAP - complet avec explication - ppt univ laval

Modèle mixteModèle mixte

Il s’agit d’une structure qui résulte de la meilleure combinaison des deux types de modèles précédents– Seules quelques dimensions seront normalisées,

souvent il s’agit des plus grandes tables et celles contenant le plus de redondance

Page 27: OLAP et SOLAP - complet avec explication - ppt univ laval

Modèle mixteModèle mixte

Page 28: OLAP et SOLAP - complet avec explication - ppt univ laval

Modèle en constellationModèle en constellation

Le schéma en constellation est en fait composé de plusieurs schémas en étoile qui partagent des tables de dimension

Page 29: OLAP et SOLAP - complet avec explication - ppt univ laval

Modèle en constellationModèle en constellation

Page 30: OLAP et SOLAP - complet avec explication - ppt univ laval

Modèle en constellationModèle en constellation

Page 31: OLAP et SOLAP - complet avec explication - ppt univ laval

Opérations OLAPOpérations OLAP

Les outils OLAP utilisent des opérateurs particuliers afin de « naviguer » dans les cubes multidimensionnels :– Pivoter (pivot, swap) : Permet d’interchanger deux dimensions – Forer (drill-down) : Permet de descendre dans la hiérarchie de la

dimension. Ex. visualiser le nombre d’accidents par mois au lieu de par année.

– Remonter (drill-up, roll-up) : Permet de remonter dans la hiérarchie de la dimension. Ex. visualiser le nombre d’accidents par année au lieu de par mois.

– Forer latéralement (drill-across) : – Permet de passer d’une mesure à l’autre. Ex. visualiser le coût des

travaux au lieu du nombre d’accidents– Permet de passer d’un membre de dimension à un autre. Ex. visualiser

les données de Montréal au lieu de celles de Québec

Page 32: OLAP et SOLAP - complet avec explication - ppt univ laval

OLTP vs OLAPOLTP vs OLAP

OLTP (On-line transaction processing)

OLAP (On-line analytical processing)

Priorité à la sécurité et l’intégrité des données.

Optimisation du rapport “espace de stockage vs. quantité de données” (non-redondance des données).

BD mise à jour fréquemment (transactions).

Priorité à l’analyse et l’exploration des données

Optimisation du temps de réponse aux requêtes (redondance encouragée s’il y a gain de performance)

Gestion de données pré-agrégées, en mode lecture (mise à jour contrôlée)

Page 33: OLAP et SOLAP - complet avec explication - ppt univ laval

OLTP vs OLAPOLTP vs OLAP

OLTP (On-line transaction processing)

OLAP (On-line analytical processing)

Outil de requête tributaire de la structure de données (un usager doit connaître la structure de la base de données pour l’interroger efficacement).

Requêtes “non-agrégatives” i.e. visitent peu d’enregistrements, mais mettent à contribution les techniques d’indexation pour retourner un nombre relativement restreint d’enregistrements répondant à certains critères.

Absence d’outil de requête i.e. l’usager interagit directement avec les données

Requêtes principalement du type

“agrégatif” i.e. calculs de totaux, variance, maxima et minima, etc…

Page 34: OLAP et SOLAP - complet avec explication - ppt univ laval

SOLAPSOLAP

Page 35: OLAP et SOLAP - complet avec explication - ppt univ laval

SOLAPSOLAP

Environ 80% des données ont une composante spatiale qui est souvent inexploitée

Besoin de nouveaux outils d’analyse spatio-temporelle pour exploiter cette composante

123, rue St-Jean

Québec

G1K 7P4Route 138

Amérique du Nord

Sainte-Foy

Page 36: OLAP et SOLAP - complet avec explication - ppt univ laval

SOLAPSOLAP

SIG ? : Il est bien connu que les SIG seuls ne présentent pas l’efficacité requise par les applications analytiques (langages d’interrogation, interfaces complexes, temps de traitement longs)

OLAP ? : L’intérêt d’OLAP pour l’analyse spatio-temporelle a été démontré [Caron, 1997]. Cependant, sans volet cartographique, il est impossible de visualiser la composante géométrique des données

SIG + OLAP ? : Une solution pourrait être de combiner des technologies spatiales et non-spatiales : SIG et OLAP

Page 37: OLAP et SOLAP - complet avec explication - ppt univ laval

SOLAPSOLAP

Quelques logiciels combinant des fonctionnalités SIG et OLAP ont été mis sur le marché : Cognos Visualizer ProClarity MapX AC OLAP Map

Ils offrent un sous-ensemble seulement des fonctionnalités d’un outil SOLAP idéal

Page 38: OLAP et SOLAP - complet avec explication - ppt univ laval

SOLAPSOLAP

SOLAP : Une plate-forme visuelle supportant l’exploration et l’analyse spatio-temporelle faciles et rapides des données selon une approche multidimensionnelle à plusieurs niveaux d’agrégation via un affichage cartographique, tabulaire ou en diagramme statistique.

Page 39: OLAP et SOLAP - complet avec explication - ppt univ laval

SOLAPSOLAP

3 types de dimensions spatiales : Descriptive Géométrique Mixte

2 types de mesures : Descriptive numérique Spatiale :

ensemble de coordonnées résultat d’une opération de mesure spatiale ou topologique ensemble de pointeurs vers une structure géométrique externe

Page 40: OLAP et SOLAP - complet avec explication - ppt univ laval

SOLAPSOLAP

CB…

Dimension spatiale descriptive

Canada

Québec

Montréal Québec

NB

Mesure numérique

Ventes en $

Mesure spatiale

L’intersection géometrique d’une dimension de peuplements forestiers et d’une dimension de bassins versants

Dimension spatiale mixte

Canada

Dimension spatiale géométrique

Page 41: OLAP et SOLAP - complet avec explication - ppt univ laval

SOLAPSOLAP

Plusieurs architectures possibles (SGBDM, SGBDR, SIG, serveur OLAP, client OLAP, logiciel de visualisation, DAO, logiciel statistique, …)

Exemples : ICEMSE = Access + SoftMap + VB MSSS = SQL Server + JMap + Java MTQ routier = SQL Server (Analysis Services) + ProClarity +

Geomedia + VB

Page 42: OLAP et SOLAP - complet avec explication - ppt univ laval

SOLAPSOLAP

Caractéristiques souhaitables : Visualisation des données :

Plusieurs types d’affichage (cartographique, tabulaire, diagrammes statistiques)

Gestion flexible des affichages Représentation de plusieurs mesures à la fois Affichage de données de contexte Modification de la sémiologie graphique Légende interactive

Exploration des données : Opérations d’exploration disponibles dans tous les affichages Fonctions d’analyse spatio-temporelle (métriques et topologiques) Gestion de la dimension temporelle à l’aide d’une ligne du temps Ajout de mesures calculées Filtrage sur les membres des dimensions Affichage des agrégations significatives seulement

Page 43: OLAP et SOLAP - complet avec explication - ppt univ laval

SOLAPSOLAP

Caractéristiques souhaitables : Structure des données :

Support pour plusieurs dimensions spatiales géométriques à la fois Support pour toutes les primitives géométriques et leurs complexes (ISO) Support pour la généralisation automatique et la représentation multiple Support pour le stockage des données géométriques historiques Support pour différentes sources de données

Page 44: OLAP et SOLAP - complet avec explication - ppt univ laval

SOLAPSOLAP

Des recherches très actives sont en cours à ce sujet au CRG

Projets SOLAP en cours : Ministère des Transports : transport hors-

norme SOLAP 3D

À moyen terme : SOLAP 3D, temps réel, sans-fil

Page 45: OLAP et SOLAP - complet avec explication - ppt univ laval

Liens intéressantsLiens intéressants

Entrepôts de données : Data warehouse.com : http://www.datawarehouse.com Data warehousing Information Center :

http://www.dwinfocenter.org/

OLAP : OLAP Council : http://www.olapcouncil.org/ OLAP Report : http://www.olapreport.com/ Dm Review : http://www.dmreview.com OLAP Information : http://www.olapinfo.de/

SOLAP : http://sirs.scg.ulaval.ca/YvanBedard/