OLAP et SOLAP - complet avec explication - ppt univ laval

Preview:

Citation preview

OLAP et SOLAPOLAP et SOLAP

Notions avancées de bases de données SIG

Yvan Bédard

OLAPOLAP

« Il s’agit d’une catégorie de logiciels axés sur l’exploration et l’analyse rapide des données selon une approche multidimensionnelle à plusieurs niveaux d’agrégation » (Caron, 1998)

OLAPOLAP

Catégorie de logiciels : S’exprime par une grande quantité de produits

logiciels disponibles sur le marché Exploration et analyse rapide :

OLAP vise à assister l’usager dans son analyse en lui facilitant l’exploration de ses données et en lui donnant la possibilité de le faire rapidement Rapidité et facilité

OLAPOLAP

Facilité L’usager n’a pas à maîtriser des langages d’interrogation

et des interfaces complexes L’usager interroge directement les données, en

interagissant avec celles-ci Rapidité

OLAP exploite une dénormalisation maximale des données, sous la forme d’une pré-agrégation stockée

L’usager devient opérationnel en très peu de temps L’usager peut se concentrer sur son analyse et non

sur le processus (les moyens utilisés pour l’analyse)

OLAPOLAP

Approche multidimensionnelle : Basée sur des thèmes d’analyse (dimensions) Plus intuitive

Plusieurs niveaux d’agrégation : Les données peuvent être groupées à différents

niveaux de granularité (les regroupements sont pré-calculés, par exemple, le total des ventes pour le mois dernier calculé à partir de la somme de toutes les ventes du mois).

Granularité : niveau de détail des données emmagasinées dans une base de données.

Vocabulaire OLAPVocabulaire OLAP

Dimension : Une dimension peut être définie comme un thème, ou un axe

(attributs), selon lequel les données seront analysées (en fonction de …) Ex. Temps, Découpage administratif, Produits

Une dimension contient des membres organisés en hiérarchie, chacun des membres appartenant à un niveau hiérarchique (ou niveau de granularité) particulier Ex. Pour la dimension Temps, les années, les mois et les jours

peuvent être des exemples de niveaux hiérarchiques. 1998 est un exemple de membre du niveau Année

Vocabulaire OLAPVocabulaire OLAP

Mesure : Une mesure est un élément de donnée sur

lequel portent les analyses, en fonction des différentes dimensions Ex. coût des travaux, nombre d’accidents, ventes,

dépenses

Vocabulaire OLAPVocabulaire OLAP

Fait : Un fait représente la valeur d’une mesure, mesurée

ou calculée, selon un membre de chacune des dimensions (ex. ce qui est recueilli par les systèmes transactionnels).

Ex. « le coût des travaux en 1995 pour la région 02 est 250 000 $ » est un fait qui exprime la valeur de la mesure « coût des travaux » pour le membre « 1995 » du niveau « année » de la dimension « temps » et le membre « 02 » du niveau « région » de la dimension « découpage administratif ».

Vocabulaire OLAPVocabulaire OLAP

Cube : Un ensemble de mesures organisées selon un

ensemble de dimensions (aussi hypercube) Ex. Un cube de ventes qui comprend :

Les dimensions Temps, Produit, Magasin La mesure Ventes en $

Cube multidimensionnelCube multidimensionnel

Ce cube multidimensionnel présente les profits d’entreprises agricoles par propriété, par exploitation et par année.

Cas 1: visualisation des profits des propriétés > = 0.05 km2 pour toutes les exploitations durant les 4 années.

Cas 2: visualisation des profits des propriétés >= 1.5 km2 pour l’exploitation de légumes pour l’année 1993.

Composantes OLAPComposantes OLAP

L’architecture OLAP consiste en trois services :Base de données : Doit supporter les données agrégées ou résumées Peut provenir d’un entrepôt ou d’un marché de données* Doit posséder une structure multidimensionnelle (SGDB

multidimensionnel ou relationnel)Serveur OLAP : Gère la structure multidimensionnelle dans le SGBD Gère l’accès aux données de la part des usagersModule client : Permet aux usagers de manipuler et d’explorer les données Affiche les données sous forme de graphiques statistiques et de

tableaux Selon le type de base de données accédé, plusieurs configurations sont

possibles : multidimensionnelle, relationnelle ou hybride

MOLAP(OLAP Multidimensionnel)

MOLAP(OLAP Multidimensionnel)

Les données détaillées de base ainsi que les données agrégées de l’entrepôt sont stockées dans une base de données multidimensionnelle (souvent appelée cube ou hypercube)

Une base de données multidimensionnelle utilise une structure propriétaire au logiciel utilisé ( matrice)

Le serveur MOLAP extrait les données de l’hypercube et les présente directement au module client

MOLAP(OLAP Multidimensionnel)

MOLAP(OLAP Multidimensionnel)

Base de données multidimensionnelle (hypercube)

Serveur MOLAP Client OLAP

ROLAP (OLAP Relationnel)ROLAP (OLAP Relationnel)

Les données détaillées de base ainsi que les données agrégées de l’entrepôt sont stockées sous forme de tables dans une base de données relationnelle

La base de données relationnelle doit être structurée selon un modèle particulier (étoile, flocon, …)

Le serveur extrait les données par des requêtes SQL et interprète les données selon une vue multidimensionnelle avant de les présenter au module client

ROLAP (OLAP Relationnel)ROLAP (OLAP Relationnel)

Base de données relationnelle (étoile ou flocon)

Serveur ROLAP

Vue multidimensionnelle

Client OLAP

HOLAP (OLAP Hybride)HOLAP (OLAP Hybride)

Architecture qui consiste en un croisement des architectures MOLAP et ROLAP

Les données détaillées de base de l’entrepôt sont stockées dans une base de données relationnelle et les données agrégées sont stockées dans une base de données multidimensionnelle

Le serveur HOLAP accède deux bases de données et les présente au module client, selon une vue multidimensionnelle dans le cas des données de la BD relationnelle

HOLAP (OLAP Hybride)HOLAP (OLAP Hybride)

BD relationnelle

MOLAP HOLAP

MOLAP vs ROLAP vs HOLAPMOLAP vs ROLAP vs HOLAP

Critère de comparaison

ROLAP

Stockage des données de base (détaillées)

BD relationnelle BD multidimensionnelle

BD relationnelle

Stockage des agrégations

BD multidimensionnelle

BD multidimensionnelle

Performance des requêtes (habituellement)

Le moins performant

Le plus performant Performance moyenne

Structure multidimensionnelleStructure multidimensionnelle

Pour une configuration ROLAP ou HOLAP, il est nécessaire de simuler une structure multidimensionnelle dans un SGBD relationnel à l’aide de modèles particuliers qui permettent de mieux répondre aux besoins multidimensionnels :– Modèle en étoile (Star Schema)– Modèle en flocon (Snowflake Schema)– Modèle mixte (Mixed Schema)– Modèle en constellation (Fact Constellation Schema)

Modèle en étoileModèle en étoile

Le schéma en étoile tire son nom de sa configuration: Objet central, nommé table des faits Connecté à un certain nombre d’objets de manière radiale,

les tables de dimension La table des faits, comme son nom l’indique, contient

les faits Les tables de dimensions contiennent les attributs

définissant chacun des membres des dimensions. Elles sont dénormalisées.

Modèle en étoileModèle en étoile

Un niveau=1 couple (id +nom)

3 niveau=3 couples (id +nom)

Un niveau=1 identifiant

Modèle en étoileModèle en étoile

DIMENSION 1

DIMENSION 5

DIMENSION 3

DIMENSION 2

DIMENSION 4

FAITS

Mesures

DIMENSION N

Modèle en floconModèle en flocon

Le schéma en flocon est dérivé du schéma en étoile où les tables de dimension sont normalisées (la table des faits reste inchangée)

Avec ce schéma, chacune des dimensions est décomposée selon sa ou ses hiérarchie(s)

Modèle en floconModèle en flocon

Modèle en floconModèle en flocon

Modèle mixteModèle mixte

Il s’agit d’une structure qui résulte de la meilleure combinaison des deux types de modèles précédents– Seules quelques dimensions seront normalisées,

souvent il s’agit des plus grandes tables et celles contenant le plus de redondance

Modèle mixteModèle mixte

Modèle en constellationModèle en constellation

Le schéma en constellation est en fait composé de plusieurs schémas en étoile qui partagent des tables de dimension

Modèle en constellationModèle en constellation

Modèle en constellationModèle en constellation

Opérations OLAPOpérations OLAP

Les outils OLAP utilisent des opérateurs particuliers afin de « naviguer » dans les cubes multidimensionnels :– Pivoter (pivot, swap) : Permet d’interchanger deux dimensions – Forer (drill-down) : Permet de descendre dans la hiérarchie de la

dimension. Ex. visualiser le nombre d’accidents par mois au lieu de par année.

– Remonter (drill-up, roll-up) : Permet de remonter dans la hiérarchie de la dimension. Ex. visualiser le nombre d’accidents par année au lieu de par mois.

– Forer latéralement (drill-across) : – Permet de passer d’une mesure à l’autre. Ex. visualiser le coût des

travaux au lieu du nombre d’accidents– Permet de passer d’un membre de dimension à un autre. Ex. visualiser

les données de Montréal au lieu de celles de Québec

OLTP vs OLAPOLTP vs OLAP

OLTP (On-line transaction processing)

OLAP (On-line analytical processing)

Priorité à la sécurité et l’intégrité des données.

Optimisation du rapport “espace de stockage vs. quantité de données” (non-redondance des données).

BD mise à jour fréquemment (transactions).

Priorité à l’analyse et l’exploration des données

Optimisation du temps de réponse aux requêtes (redondance encouragée s’il y a gain de performance)

Gestion de données pré-agrégées, en mode lecture (mise à jour contrôlée)

OLTP vs OLAPOLTP vs OLAP

OLTP (On-line transaction processing)

OLAP (On-line analytical processing)

Outil de requête tributaire de la structure de données (un usager doit connaître la structure de la base de données pour l’interroger efficacement).

Requêtes “non-agrégatives” i.e. visitent peu d’enregistrements, mais mettent à contribution les techniques d’indexation pour retourner un nombre relativement restreint d’enregistrements répondant à certains critères.

Absence d’outil de requête i.e. l’usager interagit directement avec les données

Requêtes principalement du type

“agrégatif” i.e. calculs de totaux, variance, maxima et minima, etc…

SOLAPSOLAP

SOLAPSOLAP

Environ 80% des données ont une composante spatiale qui est souvent inexploitée

Besoin de nouveaux outils d’analyse spatio-temporelle pour exploiter cette composante

123, rue St-Jean

Québec

G1K 7P4Route 138

Amérique du Nord

Sainte-Foy

SOLAPSOLAP

SIG ? : Il est bien connu que les SIG seuls ne présentent pas l’efficacité requise par les applications analytiques (langages d’interrogation, interfaces complexes, temps de traitement longs)

OLAP ? : L’intérêt d’OLAP pour l’analyse spatio-temporelle a été démontré [Caron, 1997]. Cependant, sans volet cartographique, il est impossible de visualiser la composante géométrique des données

SIG + OLAP ? : Une solution pourrait être de combiner des technologies spatiales et non-spatiales : SIG et OLAP

SOLAPSOLAP

Quelques logiciels combinant des fonctionnalités SIG et OLAP ont été mis sur le marché : Cognos Visualizer ProClarity MapX AC OLAP Map

Ils offrent un sous-ensemble seulement des fonctionnalités d’un outil SOLAP idéal

SOLAPSOLAP

SOLAP : Une plate-forme visuelle supportant l’exploration et l’analyse spatio-temporelle faciles et rapides des données selon une approche multidimensionnelle à plusieurs niveaux d’agrégation via un affichage cartographique, tabulaire ou en diagramme statistique.

SOLAPSOLAP

3 types de dimensions spatiales : Descriptive Géométrique Mixte

2 types de mesures : Descriptive numérique Spatiale :

ensemble de coordonnées résultat d’une opération de mesure spatiale ou topologique ensemble de pointeurs vers une structure géométrique externe

SOLAPSOLAP

CB…

Dimension spatiale descriptive

Canada

Québec

Montréal Québec

NB

Mesure numérique

Ventes en $

Mesure spatiale

L’intersection géometrique d’une dimension de peuplements forestiers et d’une dimension de bassins versants

Dimension spatiale mixte

Canada

Dimension spatiale géométrique

SOLAPSOLAP

Plusieurs architectures possibles (SGBDM, SGBDR, SIG, serveur OLAP, client OLAP, logiciel de visualisation, DAO, logiciel statistique, …)

Exemples : ICEMSE = Access + SoftMap + VB MSSS = SQL Server + JMap + Java MTQ routier = SQL Server (Analysis Services) + ProClarity +

Geomedia + VB

SOLAPSOLAP

Caractéristiques souhaitables : Visualisation des données :

Plusieurs types d’affichage (cartographique, tabulaire, diagrammes statistiques)

Gestion flexible des affichages Représentation de plusieurs mesures à la fois Affichage de données de contexte Modification de la sémiologie graphique Légende interactive

Exploration des données : Opérations d’exploration disponibles dans tous les affichages Fonctions d’analyse spatio-temporelle (métriques et topologiques) Gestion de la dimension temporelle à l’aide d’une ligne du temps Ajout de mesures calculées Filtrage sur les membres des dimensions Affichage des agrégations significatives seulement

SOLAPSOLAP

Caractéristiques souhaitables : Structure des données :

Support pour plusieurs dimensions spatiales géométriques à la fois Support pour toutes les primitives géométriques et leurs complexes (ISO) Support pour la généralisation automatique et la représentation multiple Support pour le stockage des données géométriques historiques Support pour différentes sources de données

SOLAPSOLAP

Des recherches très actives sont en cours à ce sujet au CRG

Projets SOLAP en cours : Ministère des Transports : transport hors-

norme SOLAP 3D

À moyen terme : SOLAP 3D, temps réel, sans-fil

Liens intéressantsLiens intéressants

Entrepôts de données : Data warehouse.com : http://www.datawarehouse.com Data warehousing Information Center :

http://www.dwinfocenter.org/

OLAP : OLAP Council : http://www.olapcouncil.org/ OLAP Report : http://www.olapreport.com/ Dm Review : http://www.dmreview.com OLAP Information : http://www.olapinfo.de/

SOLAP : http://sirs.scg.ulaval.ca/YvanBedard/