10
Bases de Données OLAP Hiver 2011/2012 Melanie Herschel [email protected] Université Paris Sud, Groupe Bases de Données, LRI Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud Architecture d’un Entrepôt de Données 2 Nach Wolfgang Lehner, Datenbanktechnologie für Data Warehouse Systeme, dpunkt.verlag, 2003 Méta- données DB2 Oracle XML Data Mart 1 Data Mart 2 Data Mart 3 Datenquellen Data Warehouse (DW) Basisrelationen Teilsichten über DW Data-Warehouse-System Procuration de données & transformation (staging area) Consolidation de données Mise à disposition de données Analyse de données données de base données consolidées données dispositives Data Marts transformation données détaillées données agrégées . . . Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud Modélisation Multidimensionnelle et Représentation Relationnelle 3 Europe North America BDs opérationnelles Entrepôt de données Evitent redondance / anomalies Schéma en 3FN Schéma conçu indépendamment des requêtes Modèle utilisant des dimensions et mesures, basées sur les requêtes analytiques envisagées. Redondance possible voir désirée Modèle multidimensionnel groupe de produit région année Asia ... 2002 2003 2004 2005 2006 2007 Books CDs DVDs ... Chapitre 3 Modélisation 4 • Concepts & Définitions • Modélisation Relationnelle • Processus de Modélisation

03 modelisation (1)

Embed Size (px)

Citation preview

Page 1: 03 modelisation (1)

Bases de Données OLAP

Hiver 2011/2012

Melanie [email protected]

Université Paris Sud, Groupe Bases de Données, LRI

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Architecture d’un Entrepôt de Données

2Nach Wolfgang Lehner, Datenbanktechnologie fürData Warehouse Systeme, dpunkt.verlag, 2003

Méta-données

DB2 Oracle XML

DataMart 1

DataMart 2

DataMart 3

Datenquellen

Data Warehouse (DW)

Basisrelationen

Teilsichten über DW

Data-Warehouse-System

Procuration de données

& transformation(staging area)

Consolidation dedonnées

Mise à dispositionde données

Analyse dedonnées

données de base

données consolidées

données dispositives

Data Marts

transformation

données détaillées

données agrégées

. . .

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Modélisation Multidimensionnelle et Représentation Relationnelle

3

Europe

North America

BDsopérationnelles

Entrepôtde données

• Evitent redondance / anomalies

• Schéma en 3FN

• Schéma conçu indépendamment des requêtes

• Modèle utilisant des dimensions et mesures, basées sur les requêtes analytiques envisagées.

• Redondance possible voir désirée

• Modèle multidimensionnelgroupe de produit

région

année

Asia

...

2002

2003

2004

2005

2006

2007

Books CDs DVDs ...

Chapitre 3Modélisation

4

• Concepts & Définitions

• Modélisation Relationnelle

• Processus de Modélisation

Page 2: 03 modelisation (1)

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Point de départ: Tableur à 2 Dimensions

5

RomansLivres Enfants

SciencesCD

médias DVDBlueRay

20102010 201120111. trimestre1. trimestre1. trimestre 2. trimestre2. trimestre2. trimestre 3. trimestre3. trimestre3. trimestre trimestretrimestretrimestre 1. trimestre1. trimestre

jan fev mars avr mai juin jui août sept oct nov dec jan ...5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 4 3 2 2 4 3 ...

2 2 2 2 2 2 2 3 2 2 2 1 2 ...

5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 3 3 2 2 4 3 ...

2 2 2 3 4 2 2 2 4 2 ...

Ventes par période et produit

dimension temporelle

dimension des produits

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Combinaison de 3 Dimensions

6

Ventes par période et produit à Berlin

Ventes par période et produit à Stuttgart

RomansLivres Enfants

SciencesCD

Médias DVDBlueRay

20102010 201120111. quartier1. quartier1. quartier 2. quartier2. quartier2. quartier 3. quartier3. quartier3. quartier 4. quartier4. quartier4. quartier 1. quartier1. quartier

jan fev mars avr mai juin jui août sept oct nov dec jan ...5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 4 3 2 2 4 3 ...

2 2 2 2 2 2 2 3 2 2 2 1 2 ...

5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 3 3 2 2 4 3 ...

2 2 2 3 4 2 2 2 4 2 ...

Berlin

RomansLivres Enfants

SciencesCD

Médias DVDBlueRay

20102010 201120111. quartier1. quartier1. quartier 2. quartier2. quartier2. quartier 3. quartier3. quartier3. quartier 4. quartier4. quartier4. quartier 1. quartier1. quartier

jan fev mars avr mai juin jui août sept oct nov dec jan ...5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 4 3 2 2 4 3 ...

2 2 2 2 2 2 2 3 2 2 2 1 2 ...

5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 3 3 2 2 4 3 ...

2 2 2 3 4 2 2 2 4 2 ...

Stuttgart

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Combinaison de 3 Dimensions

7

RomansLivres Enfants

SciencesCD

Médias DVDBlueRay

20102010 201120111. quartier1. quartier1. quartier 2. quartier2. quartier2. quartier 3. quartier3. quartier3. quartier 4. quartier4. quartier4. quartier 1. quartier1. quartier

jan fev mars avr mai juin jui août sept oct nov dec jan ...5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 4 3 2 2 4 3 ...

2 2 2 2 2 2 2 3 2 2 2 1 2 ...

5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 3 3 2 2 4 3 ...

2 2 2 3 4 2 2 2 4 2 ...

Berlin

RomansLivres Enfants

SciencesCD

Médias DVDBlueRay

20102010 201120111. quartier1. quartier1. quartier 2. quartier2. quartier2. quartier 3. quartier3. quartier3. quartier 4. quartier4. quartier4. quartier 1. quartier1. quartier

jan fev mars avr mai juin jui août sept oct nov dec jan ...5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 4 3 2 2 4 3 ...

2 2 2 2 2 2 2 3 2 2 2 1 2 ...

5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 3 3 2 2 4 3 ...

2 2 2 3 4 2 2 2 4 2 ...

Stuttgart

RomansLivres Enfants

SciencesCD

Médias DVDBlueRay

20102010 201120111. quartier1. quartier1. quartier 2. quartier2. quartier2. quartier 3. quartier3. quartier3. quartier 4. quartier4. quartier4. quartier 1. quartier1. quartier

jan fev mars avr mai juin jui août sept oct nov dec jan ...5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 4 3 2 2 4 3 ...

2 2 2 2 2 2 2 3 2 2 2 1 2 ...

5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 3 3 2 2 4 3 ...

2 2 2 3 4 2 2 2 4 2 ...

Paris

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Combinaison de 3 Dimensions

8

RomansLivres Enfants

SciencesCD

Médias DVDBlueRay

20102010 201120111. quartier1. quartier1. quartier 2. quartier2. quartier2. quartier 3. quartier3. quartier3. quartier 4. quartier4. quartier4. quartier 1. quartier1. quartier

jan fev mars avr mai juin jui août sept oct nov dec jan ...5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 4 3 2 2 4 3 ...

2 2 2 2 2 2 2 3 2 2 2 1 2 ...

5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 3 3 2 2 4 3 ...

2 2 2 3 4 2 2 2 4 2 ...

Berlin

RomansLivres Enfants

SciencesCD

Médias DVDBlueRay

20102010 201120111. quartier1. quartier1. quartier 2. quartier2. quartier2. quartier 3. quartier3. quartier3. quartier 4. quartier4. quartier4. quartier 1. quartier1. quartier

jan fev mars avr mai juin jui août sept oct nov dec jan ...5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 4 3 2 2 4 3 ...

2 2 2 2 2 2 2 3 2 2 2 1 2 ...

5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 3 3 2 2 4 3 ...

2 2 2 3 4 2 2 2 4 2 ...

Stuttgart

RomansLivres Enfants

SciencesCD

Médias DVDBlueRay

20102010 201120111. quartier1. quartier1. quartier 2. quartier2. quartier2. quartier 3. quartier3. quartier3. quartier 4. quartier4. quartier4. quartier 1. quartier1. quartier

jan fev mars avr mai juin jui août sept oct nov dec jan ...5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 4 3 2 2 4 3 ...

2 2 2 2 2 2 2 3 2 2 2 1 2 ...

5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 3 3 2 2 4 3 ...

2 2 2 3 4 2 2 2 4 2 ...

Paris

RomansLivres Enfants

SciencesCD

Médias DVDBlueRay

20102010 201120111. quartier1. quartier1. quartier 2. quartier2. quartier2. quartier 3. quartier3. quartier3. quartier 4. quartier4. quartier4. quartier 1. quartier1. quartier

jan fev mars avr mai juin jui août sept oct nov dec jan ...5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 4 3 2 2 4 3 ...

2 2 2 2 2 2 2 3 2 2 2 1 2 ...

5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 3 3 2 2 4 3 ...

2 2 2 3 4 2 2 2 4 2 ...

Lyon

Page 3: 03 modelisation (1)

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Combinaison de 3 Dimensions

9

RomansLivres Enfants

SciencesCD

Médias DVDBlueRay

20102010 201120111. quartier1. quartier1. quartier 2. quartier2. quartier2. quartier 3. quartier3. quartier3. quartier 4. quartier4. quartier4. quartier 1. quartier1. quartier

jan fev mars avr mai juin jui août sept oct nov dec jan ...5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 4 3 2 2 4 3 ...

2 2 2 2 2 2 2 3 2 2 2 1 2 ...

5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 3 3 2 2 4 3 ...

2 2 2 3 4 2 2 2 4 2 ...

Berlin

RomansLivres Enfants

SciencesCD

Médias DVDBlueRay

20102010 201120111. quartier1. quartier1. quartier 2. quartier2. quartier2. quartier 3. quartier3. quartier3. quartier 4. quartier4. quartier4. quartier 1. quartier1. quartier

jan fev mars avr mai juin jui août sept oct nov dec jan ...5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 4 3 2 2 4 3 ...

2 2 2 2 2 2 2 3 2 2 2 1 2 ...

5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 3 3 2 2 4 3 ...

2 2 2 3 4 2 2 2 4 2 ...

Stuttgart

RomansLivres Enfants

SciencesCD

Médias DVDBlueRay

20102010 201120111. quartier1. quartier1. quartier 2. quartier2. quartier2. quartier 3. quartier3. quartier3. quartier 4. quartier4. quartier4. quartier 1. quartier1. quartier

jan fev mars avr mai juin jui août sept oct nov dec jan ...5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 4 3 2 2 4 3 ...

2 2 2 2 2 2 2 3 2 2 2 1 2 ...

5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 3 3 2 2 4 3 ...

2 2 2 3 4 2 2 2 4 2 ...

Paris

RomansLivres Enfants

SciencesCD

Médias DVDBlueRay

20102010 201120111. quartier1. quartier1. quartier 2. quartier2. quartier2. quartier 3. quartier3. quartier3. quartier 4. quartier4. quartier4. quartier 1. quartier1. quartier

jan fev mars avr mai juin jui août sept oct nov dec jan ...5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 4 3 2 2 4 3 ...

2 2 2 2 2 2 2 3 2 2 2 1 2 ...

5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 3 3 2 2 4 3 ...

2 2 2 3 4 2 2 2 4 2 ...

Lyon

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Combinaison de 3 Dimensions

10

3émé dimension:lieu

Produkt

Belletristik

Kinder

Fachliteratur

Musik

DVD

BlueRay

Zeit

Ort

BerlinStuttgartParisLyon

...

Jan.

Feb.

Mär

zAp

rilM

ai ...

RomansLivres Enfants

SciencesCD

Médias DVDBlueRay

20102010 201120111. quartier1. quartier1. quartier 2. quartier2. quartier2. quartier 3. quartier3. quartier3. quartier 4. quartier4. quartier4. quartier 1. quartier1. quartier

jan fev mars avr mai juin jui août sept oct nov dec jan ...5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 4 3 2 2 4 3 ...

2 2 2 2 2 2 2 3 2 2 2 1 2 ...

5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 3 3 2 2 4 3 ...

2 2 2 3 4 2 2 2 4 2 ...

Berlin

RomansLivres Enfants

SciencesCD

Médias DVDBlueRay

20102010 201120111. quartier1. quartier1. quartier 2. quartier2. quartier2. quartier 3. quartier3. quartier3. quartier 4. quartier4. quartier4. quartier 1. quartier1. quartier

jan fev mars avr mai juin jui août sept oct nov dec jan ...5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 4 3 2 2 4 3 ...

2 2 2 2 2 2 2 3 2 2 2 1 2 ...

5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 3 3 2 2 4 3 ...

2 2 2 3 4 2 2 2 4 2 ...

Stuttgart

RomansLivres Enfants

SciencesCD

Médias DVDBlueRay

20102010 201120111. quartier1. quartier1. quartier 2. quartier2. quartier2. quartier 3. quartier3. quartier3. quartier 4. quartier4. quartier4. quartier 1. quartier1. quartier

jan fev mars avr mai juin jui août sept oct nov dec jan ...5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 4 3 2 2 4 3 ...

2 2 2 2 2 2 2 3 2 2 2 1 2 ...

5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 3 3 2 2 4 3 ...

2 2 2 3 4 2 2 2 4 2 ...

Paris

RomansLivres Enfants

SciencesCD

Médias DVDBlueRay

20102010 201120111. quartier1. quartier1. quartier 2. quartier2. quartier2. quartier 3. quartier3. quartier3. quartier 4. quartier4. quartier4. quartier 1. quartier1. quartier

jan fev mars avr mai juin jui août sept oct nov dec jan ...5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 4 3 2 2 4 3 ...

2 2 2 2 2 2 2 3 2 2 2 1 2 ...

5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 3 3 2 2 4 3 ...

2 2 2 3 4 2 2 2 4 2 ...

Lyon

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Cube de données (data cube)• Nous avons vu comment

• représenter deux dimensions à l’aide d’un tableur

• représenter trois dimensions par un empilement de tableurs à deux dimensions! cube de données à trois dimensions

• En général, plus de trois dimensions peuvent être considérées (mais difficile à représenter graphiquement.

• Une structure ayant plus de trois dimensions est tout de même nommée cube.

11

(Hyper)cube

Un cube de données (aussi hypercube, cube) est une structure de données multidimensionnelle qui permet le stockage et l’analyse de données suivant ces n dimensions.

Le schéma d’un cube à n dimensions CS se compose d’un ensemble DS de n schémas dimensionnels et d’un ensemble M de m mesures (définies au poly suivant), c.a.d.

CS = (DS, M) = ({D1, ..., Dn}, {M1, ..., Mm})

Un cube C est une instance d’un schéma de cube CS = (DS, M), où

C = dom(DS) x dom(M)

• Remarque: les valeurs de dom(DS) indiquent les coordonnées des valeurs de dom(M).

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

• Deux objectifs d’une dimension:

• Sélection des données descriptives

• Regroupement des données descriptives au au degré de détail désiré

• Une dimension est définie par une hiérarchie de sous-ensembles (containment-hierarchy).

• Cette hiérarchie a plusieurs niveaux (levels), dont chacun décrit un degré de détail pertinent aux analyses.

• Le niveaux le plus élevé (la racine) décrit la dimension entière.

• Certaines hierarchies stockent également des propriétés à différents niveaux (level properties) représentant de simples informations non-hiérarchiques (par exemple le nombre d’habitants par ville dans la dimension du lieu).

Dimensions

12

Page 4: 03 modelisation (1)

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Hierarchie (Schema und Instanz) der Produktdimension

Dimensions

13

produit

type

catégorie

produits

livres médias

romans enfants sciences CD DVD BlueRay

Schéma d’une dimension

Le schéma d’une dimension D consiste en une collection partiellement ordonnée d’attributs de catégories ({D1, ..., Dn, TopD; "}), où

• " désigne la dépendance fonctionnelle

• TopD représente l’élément générique maximal par rapport à ", ainsi TopD dépend (fonctionnellement) de tous les attributs:

∀ i (1 ! i ! n), Di " TopD.

De plus, il existe exactement un Di déterminant tous les autres attributs de catégories et qui décrit ainsi la granularité la plus fine d’une dimension, c.a.d.

∃ i (1 ! i ! n) ∀ j (1 ! j ! n, i " j): Di " Dj

grossière

fine

Granularität

schéma instance

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Hiérarchie (schéma et instance) de la dimension temporelle

Dimensions

14

RomansLivres Enfants

SciencesCD

médias DVDBlueRay

20102010 201120111. trimestre1. trimestre1. trimestre 2. trimestre2. trimestre2. trimestre 3. trimestre3. trimestre3. trimestre trimestretrimestretrimestre 1. trimestre1. trimestre

jan fev mars avr mai juin jui août sept oct nov dec jan ...5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 4 3 2 2 4 3 ...

2 2 2 2 2 2 2 3 2 2 2 1 2 ...

5 3 5 4 4 6 5 4 4 3 3 7 4 ...

2 2 3 3 2 2 3 3 3 2 2 4 3 ...

2 2 2 3 4 2 2 2 4 2 ...

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

• En général, il n’existe pas d’ordre spécifique des valeurs dimensionnelles.

• Y font exception par exemple la dimension temporelle

• Seule structuration nécessaire est le respect de la relation d’inclusion des valeurs au niveau i dans les valeurs du niveau i+1.

• par exemple, CD, DVD, BlueRay au niveau 1 ∈ médias au niveau 2

• Sont en principe possibles plusieurs hiérarchies par dimension.

• par exemple année du calendrier et année de bilan

• Ces hiérarchies peuvent se partager un ou plusieurs niveaux du bas (niveau 1, niveau 1+2, niveau 1+2+3, ...) et définir des niveaux supérieurs différents.

Dimensions

15

Beispielschema einer Zeitdimension mit mehreren Hierarchien

mois

jour

trimestre calendrier trimestre de bilan

année du calendrier année de bilan

période

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

• Hypothèses fréquentes:

• Utilisation de hiérarchies équilibrées

• Chaque chemin de la racine vers un noeud feuille à la même longueur.

• Les données de l’instance d’une hiérarchie ne peuvent pas omettre de niveaux, que des liens parent-enfant sont possibles.

• Si l’hierarchie dicte qu’une ville doit être attribuée à un état, une ville comme Washington DC (n’appartenant à aucun état américain) ne peux être modelée correctement.

• Il existe exactement une valeur parent pour chaque valeur enfant dans une hiérarchie (à l’exception de la racine, voir définition d’arbres en général).

• Une instance d’un produit ne peut pas être associée à deux instances de catégorie.

• En pratique, il existe des moyens de relâcher ces hypothèses, mais que nous ne discuterons pas dans ce cours. Nous admettons que ces hypothèses soient satisfaites.

Dimensions

16

Page 5: 03 modelisation (1)

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Cellules (cells), Faits (facts), Mesures (measures)Vue d’ensemble

17

LivresRomans

Livres EnfantsLivresSciences

MédiasCD

Médias DVDMédiasBlueRay

20102010 201120111. quartier1. quartier1. quartier 2. quartier2. quartier2. quartier 3. quartier3. quartier3. quartier 4. quartier4. quartier4. quartier 1. quartier1. quartier

jan fev mars avr mai juin jui août sept oct nov dec jan ...5 3 5 4 4 6 5 4 4 3 3 7 4 ...2 2 3 3 2 2 3 4 3 2 2 4 3 ...2 2 2 2 2 2 2 3 2 2 2 1 2 ...

5 3 5 4 4 6 5 4 4 3 3 7 4 ...2 2 3 3 2 2 3 3 3 2 2 4 3 ...

2 2 2 3 4 2 2 2 4 2 ...

Berlin

produit

romans

enfants

sciences

CD

DVD

BlueRay

période

lieu

BerlinStuttgartParis

Lyon...

jan

fev.

mar

s

avr

mai ...

5 3 5 4 4 ...

2

2

5

2

2 3 3 2 ...

2 2 2 2 ...

3 5 4 4 ...

2 3 3 2 ...

2 2 ...

Des cellules sont aux intersections

des valeurs dimensionnelles

Des faits sont des cellules remplies

Des mesures sont des valeurs numériques

associées aux cellules

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Cellules (cells), Faits (facts), Mesures (measures)Vue d’ensemble

18

Interprétation de faits & interprétation de cellules vides

produit

romans

enfants

sciences

CD

DVD

BlueRay

période

lieu

BerlinStuttgartParis

Lyon...

jan

fev.

mar

s

avr

mai ...

5 3 5 4 4 ...

2

2

5

2

2 3 3 2 ...

2 2 2 2 ...

3 5 4 4 ...

2 3 3 2 ...

2 2 ...

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Cellules (cells), Faits (facts), Mesures (measures)Faits

19

• Les faits représentent les entités faisant l’objet d’analyses

• Par exemple le chiffre d’affaire, chiffre de ventes, ...

• Ils sont définis implicitement par la combinaison de leurs dimensions

• Par exemple ventes par mois, catégorie (de produit) et lieu

• Un fait a une granularité décrivant le degré de détail de l’information représentée.

• La granularité est dictée par l’association d’un fait avec un niveau des hiérarchies dimensionnelles.

• La granularité devient plus fine en descendant les niveaux (vers les feuilles)Par exemple catégorie par mois par ville

• La granularité devient plus grossière en montant vers la racinePar exemple produit par année par pays

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Cellules (cells), Faits (facts), Mesures (measures)Faits

20

fait évènement (event fact)

•Représente des évènements du monde réel(au niveau de granularité les plus fin).

• Il existe exactement un fait pour chaque évènement du procès réel.

•Les évènements peuvent en principe survenir indépendamment les uns des autres et à chaque instant.

Exemple de faits évènement

•Un fait pour chaque vente d’un livre particulier (granularité fine)

•Un fait pour chaque jour où au moins une copie d’un livre particulier à été vendu (granularité grossière)

•Une vente (fait) est lié à un lieu, un instant, et un produit précis.

fait instantanné (snapshot fact)

•Représente le statut actuel d’un processus.

•Le même objet (auquel se consacre le processus) peut apparaître dans plusieurs faits à des instants différents

•Est souvent relevé régulièrement.

Exemples de faits instantannés

•Stock par produit et entrepôt

•Le même produit peut participer à plusieurs faits, par exemple le même CD non vendu est en stock, et donc compté, en mai et en juin.

Page 6: 03 modelisation (1)

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Cellules (cells), Faits (facts), Mesures (measures)Mesures

21

• Une mesure décrit un fait et peut baser sur des mesures d’autres faits.

• Une mesure a deux composantes

• Une propriété numérique du fait décritpar exemple profit, prix de vente, ...

• Une fonction afin de combiner plusieurs mesures

• Fonctions scalaires, par exemple fraction de l'impôt sur le chiffre d’affaire = quantité x prix x taux d’imposition

• Fonctions d'agrégation, par exemple SUM, AVG, écart-type

• Fonctions basées sur l’ordre, par exemple cumulation, top-k

• Une mesure est toujours de type numérique.

• En général, plus d’une mesure par cellule peut être stockée, ou aucune.

• par exemple nombre des ventes et chiffre d’affaire par mois, catégorie et ville

• par exemple existence d’une vente d’un produit à une heure précise dans un magasin ne nécessite pas de mesure.

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Cellules (cells), Faits (facts), Mesures (measures)Mesures

22

• Comme un fait, une mesure possède une granularité.

• Question: comment dériver une mesure pour une autre granularité (= mesure d’un fait d’une autre granularité)?

• Réponse: utilisation de la fonction associée à la mesure.

• Mais: Ceci n’est pas toujours possible, trois cas sont distingués:

• Mesure additive: peut être agrégée le long de chaque dimension.Par exemple, il est possible d’additionner le nombre de tous les lieux, toutes les périodes et tous les produits (en résulte le nombre de ventes total).

• Mesure semi-additive: ne peut être agrégée le long d’une ou plusieurs dimensions (mais il en reste où cela est possible.Souvent le cas pour des faits snapshot, par exemple faire la somme des stocks le long de la dimension temporelle n’est pas raisonnable (le résultat ne correspond pas à un fait).

• Mesure non-additive: agrégation impossible le long de toutes les dimensions.Par exemple, la moyenne au niveau i ne peut être calculée en fonction des valeurs moyennes an niveau i+1, indépendamment de la dimension considérée.

Chapitre 3Modélisation

23

• Concepts & Définitions

• Modélisation Relationnelle

• Processus de Modélisation

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Hypothèses

24

• L‘objectif est de représenter un cube de données, les faits et mesures associés en utilisant le modèle de données relationnel.

• Sont donnés:

• Le schéma d‘un cube de données CS = (DS, M), où

• DS = {D1, ..., Dn} est l‘ensemble de n schémas dimensionnels

• M = {N1, ..., Mm} est l‘ensemble des mesures

Page 7: 03 modelisation (1)

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Schéma en Etoile (Star Schema)Définition

25

Schéma étoile (star schema)

•Un schéma en étoile est défini par un ensemble de relations dimensionnelles (dimension tables) et une relation des faits (fact table).

•Relations dimensionnelles: Pour chaque dimension Di ⊆ DS de schéma (D1, ..., Dk, TopD) il existe une relation de schéma

Di(PK, D1, ..., Dk)

PK étant une clé et chaque Dj correspondant à un niveau du schéma de la hiérarchie dimensionnelle Di (excepté le niveau de la racine TopD).

•Relation des faits: la relation des faits F a le schéma

F(FK1 " D1.PK, ..., FKn " Dn.PK, M1, ..., Mm)

qui se compose de clés étrangères FKi vers chacune des n relations dimensionnelles et d‘un attribut supplémentaire par mesure. La combinaisons de toutes les clés étrangères forme la clé primaire de la relation des faits.

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Schéma en Etoile (Star Schema)Exemple

26

Exemple d‘un schéma en étoile

Produit

Romans

Enfants

Sciences

CD

DVD

BlueRay

Temps

Lieu

BerlinStuttgartParisLyon

...

jan.

fev.

mar

sav

rm

ai ...

Fact_Table

PID catégorie type

1 Romans Livres

2 Enfants Livres

3 Sciences Livres

4 CD Médias

5 DVD Médias

6 BlueRay Médias

Produit_Dimension

TID mois trimestre année

1 jan10 Q1 2010 2010

2 fev10 Q1 2010 2010

... ... ... ...

Temps_Dimension

LID ville

1 Berlin

2 Stuttgart

3 Paris

4 Lyon

Lieu_Dimension

Mesures (ventes & chiffre d‘affaire) pour des romans en janvier 2010

PID TID LID #ventes CD

1 1 1 5 30

1 1 2 5 37

1 1 3 5 45

1 1 4 5 20

2 1 1 2 33

2 1 2 2 35

2 1 3 2 40

2 1 4 2 35

... ... ... ... ...

1 2 1 3 22

... ... ... ... ...

Toutes les autres combinaisons de catégories et de villes en janvier 2010.

Ici commencent les combinaisons pour février 2010 (suivies par celles des autres mois de l‘année).

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Schéma en Etoile (Star Schema)Remarques

27

• Redondance dans les relations dimensionnelles, qui sont typiquement en 2FN.

• Comparées à la relation des faits, les relations dimensionnelles contiennent peu de tuples. Ainsi, la redondance ne nécessite pas un supplément de place de stockage significatif.

• La relation des faits est en 3FN.

• Aucun attribut n‘est nécessaire pour la dimension racine TopD, car les valeurs de tous les tuples de la relation dimensionnelle correspondante seraient tous identiques.

• Les valeurs clés d‘une relation dimensionnelle sont typiquement des valeurs générées (surrogate keys) sans sémantique précise.

• Moins de place de stockage nécessaire (comparé par exemple à ISBN).

• Traitement de requêtes plus efficace.

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Schéma en Flocon (Snowflake Schema)Définition

28

Schéma en flocon (snowflake schema)

•Un schéma en flocon est défini par un ensemble de relations dimensionnelles et une relation des faits.

•Relations dimensionnelles: Pour chaque dimension Di ⊆ DS de schéma (D1, ..., Dk, TopD) il existe k relations de schéma

Dij(PK, A1, ..., Am, FKj+1 " Dj+1) pour 1 ! j < k

Dik = (PK, A1, ..., Am)

où PK est une clé primaire et chaque Dij correspont à un niveau de la hiérarchie dimensionnelle Di.

FKj est une clé étrangère vers la relation Dij, pour 1 < j ! k. A1, ..., Am sont des attributs textuels

descriptifs des données importantes du niveau correspondant.

•Relation des faits: la relation des faits F est de schéma

F(FK1 " D11.PK, ..., FKn " Dn

1.PK, M1, ..., Mm)

possédant une clé étrangère FKi vers chacune des n relations dimensionnelles de plus fine granularité ainsi qu‘un attribut pour chaque mesure. La combinaison de toutes les clés étrangères forme la clé primaire de cette relation.

Page 8: 03 modelisation (1)

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Schéma en Flocon (Snowflake Schema)Exemple

29

Exemple d‘un schéma en flocon

Fact_Table

Produit_CatégorieTemps_Mois

Lieu

PID MID LID #ventes CD

1 1 1 5 30

1 1 2 5 37

1 1 3 5 45

1 1 4 5 20

2 1 1 2 33

2 1 2 2 35

2 1 3 2 40

2 1 4 2 35

... ... ... ... ...

1 2 1 3 22

... ... ... ... ...

Produit_TypePID catégorie TID

1 romans 1

2 enfants 1

3 sciences 1

4 CD 2

5 DVD 2

6 BlueRay 2

TID type

1 livres

2 médias

LID ville

1 Berlin

2 Stuttgart

3 Paris

4 Lyon

AID année

1 2010

... ...

Temps_Trimestre

Temps_année

MID mois TID

1 jav10 1

2 fev10 1

... ... ...

TID trimestre AID

1 Q1 2010 1

2 Q2 2010 1

... ... ...

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Schéma en Flocon (Snowflake Schema)Remarques

30

• Redondances dans les relations dimensionnelles évitée par la normalisation.

• Traitement de requêtes plus difficile, car plus de jointures sont nécessaires.

• Plusieurs relations par dimension reflètent explicitement la hierarchie de la dimension représentée.

• Le choix de modélisation (schéma en étoile ou en flocon) dépend surtout des exigences de l‘application.

• Il existe également une forme hybride entre le schéma en étoile et le schéma en flocon (starflake schema) où certaines dimensions sont en 3FN et d‘autres en 2FN.

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Starflake SchemaExemple

31

Exemple d‘un starflake schema

Faktentabelle

Produit_Categorie

Lieu

PID TID LID #ventes CD

1 1 1 5 30

1 1 2 5 37

1 1 3 5 45

1 1 4 5 20

2 1 1 2 33

2 1 2 2 35

2 1 3 2 40

2 1 4 2 35

... ... ... ... ...

1 2 1 3 22

... ... ... ... ...

Produit_TypePID catégorie TID

1 Romans 1

2 Enfants 1

3 Sciences 1

4 CD 2

5 DVD 2

6 BlueRay 2

TID type

1 livres

2 médias

LID ville

1 Berlin

2 Stuttgart

3 Paris

4 Lyon

TID mois trimestre année

1 Jan10 Q1 2010 2010

2 Feb10 Q1 2010 2010

... ... ... ...

Temps_Dimension

Tous les niveaux de la hiérarchie dimensionnelle en une relation --> propriété d‘un schéma en étoile Une relation par niveau de la

hiérarchie --> propriété d‘un schéma en flocon

Chapitre 3Modélisation

32

• Concepts & Définitions

• Modélisation Relationnelle

• Processus de Modélisation

Page 9: 03 modelisation (1)

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Principes de Conception

33

• Deux différences principales entre la modélisation d‘un DW et la modélisation relationnelle „classique“.

• Le modèle doit éviter de représenter toutes les données possibles / existantes et les relations entre ces données. Sont à modeler les informations importantes pour les analyses uniquement.

• La redondance est acceptable en de rares circonstances sélectionnées (relations dimensionnelles).

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Processus de Conception

34

Processus de conception (d‘après Kimball) en 4 étapes:

1.Sélectionner les processus à modeler.

2.Sélectionner la granularité des processus.

3.Développer les dimensions.

4.Choisir les mesures.

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Processus de ConceptionExemple

35

Processus de conception dans le cas d‘un marchand de livres

•Etape 1

•Il existe deux processus: (i) vente de livres à des clients et (ii) achat de livres auprès d‘éditeurs.

•Objectif: augmenter le chiffre d‘affaires.

# Potentiel d‘optimisation surtout au niveau des ventes, donc choix du processus (i)

•Etape 2

•(i) Granularité vente unitaire par livre par magasin vs. (ii) granularité ventes totales par livre par magasin par jour.

•Granularité (ii) semble suffisante pour estimer la performance de magasins et la popularité de livres, économise également la place de stockage et accélère le traitement de requêtes pertinentes.

# Choix de la granularité plus grossière (ii)

•Etape 3: Spécification des dimensions pour les magasins, livres et dates.

•Etape 4: Définition de mesures appropriées, par exemple nombre de ventes, bénéfice

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Processus de ConceptionExemple

36

Définition des hiérarchies dimensionnelles et conception d‘un schéma en flocon

Page 10: 03 modelisation (1)

Bases de Données OLAP | Hiver 2011/12 | Melanie Herschel | Université Paris Sud

Récapitulatif

• Concepts fondamentaux

• Cube

• Dimension

• Fait

• Mesure

• Modélisation relationnelle

• Schéma en étoile

• Schéma en flocon

• Processus de conception en 4 étapes

37