41
1 Le Data Le Data Warehouse Warehouse et les Systèmes et les Systèmes Multidimensionnels Multidimensionnels Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 2 1. Définition d’un Data warehouse (DW) • Le Data warehouse (entrepôt de données) est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d ’un processus d ’aide à la décision (Inmon, 94).

Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

Embed Size (px)

Citation preview

Page 1: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

1

1

Le Data Le Data WarehouseWarehouse

et les Systèmes et les Systèmes

MultidimensionnelsMultidimensionnels

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 2

1. Définition d’un Data warehouse (DW)

• Le Data warehouse (entrepôt de données) est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d ’un processus d ’aide à la décision (Inmon, 94).

Page 2: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

2

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 3

1. Définition d’un Data warehouse

1. 1 Données orientées sujet

• Données structurées par thèmes (sujets majeurs de l’entreprise) et non suivant les processus fonctionnels.

• Le sujet est transversal aux structures fonctionnelles et organisationnelles de l’entreprise. On peut accéder aux données utiles sur un sujet.

• L’intégration des différents sujets se fait dans une structure unique.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 4

1. Définition d’un Data warehouse

1. 1 Données orientées sujet

• Il n ’y a pas de duplication des informations communes à plusieurs sujets.

• La base de données est construite selon les thèmes qui touchent aux métiers de l’entreprise (clients, produits, risques, rentabilité, …).

• Les données de base sont toutefois issues des Systèmes d’Information Opérationnels (SIO).

Page 3: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

3

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 5

1. Définition d’un Data warehouse

1. 2. Données intégrées

• Les données, issues de différentes applications de production, peuvent exister sous toutes formes différentes.

• Il faut les intégrer afin de les homogénéiser et de leur donner un sens unique, compréhensible par tous les utilisateurs.

• Elle doivent posséder un codage et une description unique.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 6

1. Définition d’un Data warehouse

1. 2 Données intégrées

• La phase d’intégration est longue et pose souvent des problèmes de qualification sémantique des données à intégrer (synonymie, homonymie, etc…).

• Ce problème est amplifié lorsque des données externes sont à intégrer avec les données du SIO.

Page 4: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

4

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 7

1. Définition d’un Data warehouse

1. 3 Données non-volatiles• Une information est considérée volatile quand les

données sont régulièrement mises à jour comme dans les Systèmes d’Information Opérationnels.

• Dans un SIO, les requêtes portent sur les données actuelles. Il est difficile de retrouver un ancien résultat.

• Dans un DW, il est nécessaire de conserver l’historique de la donnée. Ainsi, une même requête effectuée à deux mois d’intervalle en spécifiant la date de référence de la donnée, donnera le même résultat.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 8

1. Définition d’un Data warehouse

1. 4 Données historisées

• Dans un SIO, les transactions se font en temps réel, et les données sont mises à jour constamment. L ’historique des valeurs de ces données n ’est généralement pas conservé car il est inutile.

• Dans un DW, la donnée n’est jamais mise à jour.

• Les données du DW s ’ajoutent aux données déjà engrangées.=> ajout de couches de données successives, à la manière des strates géologiques

Page 5: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

5

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 9

1. Définition d’un Data warehouse

• Le DW stocke donc l’historique des valeurs que la donnée aura prises au cours du temps.

• Un référentiel de temps est alors associé à la donnée afin d’être capable d’identifier une valeur particulière dans le temps.

• Les utilisateurs possèdent un accès aux données courantes ainsi qu’à des données historisées.

1. 4 Données historisées

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 10

1. Définition d’un Data warehouse1. 5 Support d ’un processus d ’aide à la décision

• Un DW est un système d ’information dédié aux applications décisionnelles dont les principales contraintes sont :

• des requêtes complexes à plusieurs niveaux d ’agrégation

• la nécessité de disposer d ’informations synthétiques (« reporting » de gestion, analyse des ventes, gestion de la masse salariale, etc)

• le stockage des données sous une forme multi-dimensionnelle

• des mises à jour périodiques

Page 6: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

6

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 11

2. Objectifs d’un Data warehouse• permet le développement d ’applications décisionnelles et de

pilotage de l ’entreprise et de ses processus

• joue un rôle de référentiel pour l ’entreprise puisqu ’il permet de fédérer des données souvent éparpillées dans différentes bases de données

• offre une vision globale et orientée métier de toutes les données que manipule l ’entreprise

• permet de faire face aux changements du marché et de l ’entreprise

• offre une information compréhensible, utile , rapide et à jour

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 12

3. Architecture d’un Data warehouse

Basesmultidimensionnelles Datamarts

Outil frontalOLAP

Outilsmultidimensionnels

MOLAP

Requeteurou tableau

Outil ROLAP

Bases deproduction Extraction

TransformationChargement

Rafraîchissement

Bases externes

Data WarehouseDictionnaire

Outils d’administration

Page 7: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

7

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 13

3. Architecture d’un Data warehouse3. 1 Les Bases de Données

• Bases de données internes:

•Bases de production de l’entreprise

•Bases créées par les utilisateurs

• Bases de données externes à l’entreprise qui nécessitent leur identification, leur rapatriement et leur intégration.

•Données achetées à des fournisseurs de données (Nielsen, INSEE, …)

•Données récupérées sur Internet

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 14

3. Architecture d’un Data warehouse

3. 2 Opérations sur les données

• Extraire les données de leur environnement d’origine (bases de données relationnelles, fichiers plats, …).

• Utiliser une technique appropriée pour n ’extraire que les données nécessaires : données créées ou modifiées depuis la dernière opération d’extraction.

EXTRACTION

Page 8: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

8

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 15

3. Architecture d’un Data warehouse

3. 2 Opérations sur les données

• Une même donnée peut avoir une structure ou une valeur différente en fonction de la base (production, externe, utilisateurs) dont elle provient.

• On peut être confronté à des redondances (un même client peut apparaître avec différents attributs et propriétés selon la source consultée).

TRANSFORMATION

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 16

3. Architecture d’un Data warehouse

3. 2 Opérations sur les données

• Il faut supprimer certaines données aberrantes qui risqueraient de fausser les analyses.

• Il faut donc épurer et transformer les données.

TRANSFORMATION

Page 9: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

9

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 17

3. Architecture d’un Data warehouse

3. 2 Opérations sur les données

• Effectuer sur les données des opérations de calcul et d’agrégation.

• Remplacer certaines bases si aucune solution d’extraction satisfaisante n’est possible.

CHARGEMENT/RAFRAICHISSEMENT

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 18

3. Architecture d’un Data warehouse

3. 2 Opérations sur les données

• Mettre en place des procédures de chargement et de restauration (en cas de problème).

• Typiquement, la fréquence du chargement est quotidienne et il est effectué en tout début de matinée.

• Si la disponibilité du système ne peut être interrompue, envisager la mise en place de systèmes redondants.

CHARGEMENT/RAFRAICHISSEMENT

Page 10: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

10

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 19

3. Architecture d’un Data warehouse

3. 2 Opérations sur les données

• On peut automatiser tout ou partie des opérations décrites.

• Des outils sont disponibles : Extract d’ETI, Genio de Leonard ’s Logic, SAS/Warehouse Administrator de SAS…

• Le développement d’outils spécifiques est envisageable mais risque d ’alourdir les tâches.

LES OUTILS

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 20

3. Architecture d’un Data warehouse

3. 3 Dictionnaire de Données

• Le dictionnaire de données regroupe les méta-données.

• Une méta-donnée représente une donnée sur les données. Il s’agit de l’ensemble des informations qui permettent de qualifier une donnée, notamment par sa sémantique, sa règle de calcul, sa provenance, sa qualité, etc…

• les méta-données permettent de préciser de quelle table provient la donnée, à quelles dates et heures elle en a été extraite, l’état de la base à cet instant, etc...

Page 11: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

11

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 21

3. Architecture d’un Data warehouse

3. 3 Dictionnaire de Données• Une méta-donnée permet de « remonter la chaîne » et de

reconstituer l’ensemble d’événements et données qui ont servi à obtenir l’information associée.

• Le dictionnaire de données contient toutes les informations permettant d’exploiter les données.

• C’est un référentiel destiné aux utilisateurs et à l’administrateur du DW.

• A ce jour, il n’existe pas de normes en ce qui concerne la structure et la gestion des dictionnaires de données. Chaque outil propose sa solution et son approche.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 22

3. Architecture d’un Data warehouse3. 4 Les Data Marts

• Un data mart (magasin de données) est un DW focalisé sur un sujet particulier, souvent au niveau départemental ou métier.

• C ’est donc un mini DW lié à un métier particulier de l ’entreprise (finance, commercial, …).

• Un DW est souvent volumineux (plusieurs centaines de Go voire quelques To ) avec des performances inappropriées (temps de réponse trop longs). Un Data mart, quant à lui, comporte moins de 50 Go, ce qui permet des performances acceptables.

• La création d’un data mart peut être un moyen de débuter un projet de DW (projet pilote).

Page 12: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

12

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 23

3. Architecture d’un Data warehouse

3. 5 Les bases multidimensionnelles et les outils OLAP3.5.1 Les modèles de

données

Modèles de présentation

Modèles de diffusion

Modèles d’intégration

Bases de données opérationnelles

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 24

3. Architecture d’un Data warehouse

3. 5 Les bases multidimensionnelles et les outils OLAP

3.5.1 Les modèles de données

• Le modèle d ’intégration unifie les données opérationnelles.

• Le modèle de diffusion représente le modèle conceptuel des données. Il correspond aux bases multidimensionnelles (serveur OLAP).

• Le modèle de présentation est un complément au modèle conceptuel. C’est à travers ce modèle que l’utilisateur voit lesdonnées. Il correspond à différents outils physiques : les tableurs, les requêteurs, les outils clients OLAP, etc...

Page 13: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

13

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 25

3. Architecture d’un Data warehouse

3. 5 Les bases multidimensionnelles et les outils OLAP

3.5.2 Les outils OLAP (On-Line Analytical Processing)

• OLAP caractérise l’architecture nécessaire à la mise en place d ’un système d’information décisionnel (SID).

• OLAP s’oppose à OLTP (On-Line Transactional Processing) qui caractérise les SIO.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 26

3. Architecture d’un Data warehouse3. 5 Les bases multidimensionnelles et les outils OLAP

3.5.2 Les outils OLAP (On-Line Analytical Processing)

• OLAP constitue l’ensemble des outils multidimensionnels nécessaires à l’accès, stockage et à la manipulation des donnéesutiles pour un SIAD ou pour un EIS.

• OLAP désigne les outils d ’analyse s’appuyant sur les bases de données multidimensionnelles.

Page 14: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

14

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 27

3. Architecture d’un Data warehouse3. 5 Les bases multidimensionnelles et les outils OLAP

3.5.3 Les 12 règles de E.F. CODD (1993)

Vue multidimensionnelle : Les données sont structurées en dimensions métiers.Transparence : L ’utilisateur doit pouvoir utiliser les logiciels habituels (tableurs, …) sans percevoir la présence d ’un outil OLAP.Accessibilité : L ’outil doit se charger d ’accéder aux données stockées dans n ’importe quel type de bases de données (interne + externe) et lefaire simultanément.Performance continue dans les restitutions : A mesure que le nombre de dimensions ou la taille de la base augmente, l’utilisateur ne doit pas subir de baisse sensible de performance.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 28

3. Architecture d’un Data warehouse3. 5 Les bases multidimensionnelles et les outils OLAP

3.5.3 Les 12 règles de E.F. CODD (1993)

Architecture client-serveur : Tout produit OLAP doit fonctionner en mode C/S avec une répartition des traitements.Dimension générique : Chaque dimension (avec l’analyse) doit être équivalent aux autres à la fois dans sa structure et dans ses capacités opérationnelles. Une seule structure logique dans l’ensemble desdimensions.Gestion dynamique des matrices creuses : OLAP doit gérer les cellules non renseignées de manière optimale.Support multi-utilisateurs : OLAP doit assurer un accès simultané aux données, gérer l’intégrité et la sécurité de ces données.

Page 15: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

15

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 29

3. Architecture d’un Data warehouse3. 5 Les bases multidimensionnelles et les outils OLAP

3.5.3 Les 12 règles de E.F. CODD (1993)

Opérations entre les dimensions : OLAP doit gérer des calculs associés entre les dimensions sans faire appel à l ’utilisateur pour définir le contenu de ces calculsManipulation intuitive : Minimiser le recours à des menus ou les allers et retours avec l ’interface utilisateurFlexibilité des restitutions : convivialité des états de gestion ou des états de sortie - ergonomieNombre de dimensions et niveaux de hiérarchie illimité : l ’outil doit gérer au moins quinze dimensions et ne pas limiter le nombre de niveaux hiérarchiques.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 30

3. Architecture d’un Data warehouse3. 5 Les bases multidimensionnelles et les outils OLAP3.5.4 Fast Analysis of Shared Multidimensional Information (FASMI)

Analyse : fournir des possibilités d ’analyse (statistiques et autres)Rapide : l ’essentiel des réponses doit être rendu dans un délai de moins de cinq secondesInformation : accéder à l ’ensemble des données indépendamment de leur localisationMultidimensionnelle :fournir une vue conceptuelle multidimensionnellePartagée : être accessible à un grand nombre d ’utilisateurs et ne pas limiter le nombre de niveaux hiérarchiques.

Page 16: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

16

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 31

3. Architecture d’un Data warehouse3. 5 Les bases multidimensionnelles et les outils OLAP3.5.5 Les outils relationnels OLAP

Outils relationnels : requêteurs, infocentres, jointures complexesexemple : Business Objects (anciennes versions)

Hypercubes relationnels : les données sont stockées dans une BD relationnelle, mais avec une structure adaptée aux données multi-dimensionnelles

exemple : SGBD relationnelsOLAP relationnel (ROLAP) : ces outils utilisent directement le modèle relationnel. Au travers des méta-données, ils permettent de transformer l ’analyse multidimensionnelle en requêtes SQL : distinguent les axes d ’analyse et les faits à observer (modèles en étoile ou en flocon)

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 32

3. Architecture d’un Data warehouse3. 5 Les bases multidimensionnelles et les outils OLAP3.5.5 Les outils relationnels OLAP

Hypercube virtuel

Interface deprésentation

Base de donnéesrelationnelle

Page 17: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

17

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 33

3. Architecture d’un Data warehouse3. 5 Les bases multidimensionnelles et les outils OLAP3.5.6 Intégration Infocentre Hypercube

Principe proche de l ’OLAP relationnelIntégration d ’un outil d ’infocentre et d ’un outil d ’analyse multidimensionnelle dans une même interface située sur le poste clientL ’outil d ’infocentre assure la gestion d ’un référentiel commun, la sélection des données et leur valorisationL ’outil multidimensionnel assure la création d ’un hypercube, l ’implémentation des fonctionalités OLAP (consolidation, zoom avant, glisser-déplacer, gestion des seuils, etc.)

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 34

3. Architecture d’un Data warehouse3. 5 Les bases multidimensionnelles et les outils OLAP

Hypercubes clients

Serveur relationnel

Table de dimensionTable de

Faits

Table de dimension

Table de dimension

Table de dimension

Table de dimension

3.5.6 Intégration Infocentre Hypercube

Page 18: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

18

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 35

3. Architecture d’un Data warehouse3. 5 Les bases multidimensionnelles et les outils OLAP3.5.7 Les outils multidimensionnels MOLAP

Les BD multidimensionnelles sont propriétaires (pas de standard)Les données sont dynamiquement structurées et compressées (optimisation de l ’espace disque)Les données sont organisées en dimensions et hiérarchiesLes formules de calcul sont généralement complexesLes temps de réponse sont constants

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 36

3. Architecture d’un Data warehouse3. 5 Les bases multidimensionnelles et les outils OLAP

Interface deprésentation

Serveur matriciel

3.5.7 Les outils multidimensionnels MOLAP

Page 19: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

19

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 37

3. Architecture d’un Data warehouse3. 5 Les bases multidimensionnelles et les outils OLAP3.5.7 Les outils multidimensionnels MOLAP

La constitution de la base se fait selon le processus suivantextraction des données provenant des SGBD ou fichiersdécomposition des données en dimensions, attributs et variablescalcul des consolidationschargement de l ’hypercube selon la structure dimensionnelle choisie

L ’interrogation de la base possède les caractéristiques suivantes :interface graphique (drill down, slice and dice, etc)gestion des seuils et des alertes (codage couleurs)temps de réponse court et constantSQL non implémentéExemple : Oracle Express

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 38

3. Architecture d’un Data warehouse3. 6 Les limites du multidimensionnel

Format et langage propriétaireStructure figée (l’hypercube doit être construit à chaque modification)Accès au détail difficilePeu d ’outils disponiblesOutils d ’administration insuffisantsDifficulté de réaliser des sélections sur un hypercubePas de standard ni pour la structure physique ni pour l ’interrogationManque de souplesse et absence de gestion de méta-données

Page 20: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

20

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 39

3. Architecture d’un Data warehouse3. 7 Conclusion

Un marché florissantnombreux outils (ROLAP,MOLAP,..)concentration du nombre d ’éditeurs de logiciels

Nécessité de méthodologie de conceptiondémarchemodélisation conceptuelle et logiqueimplication des utilisateurs

Un avenir réell’informatique opérationnelle est maturela demande des utilisateurs est importantela technologie est disponible.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 40

4. Le Marché du Data warehouse

Le marché du décisionnel regroupe une trentaine d’acteursLes éditeurs peuvent être regroupés en quatre catégories

solutions applicativesbases de données multidimensionnellesclient ROLAPclient OLAP

Page 21: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

21

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 41

4. Le Marché du Data warehouse

L’offre la plus anciennel’offre verticale (spécialisée dans un secteur tel que la banque ou la grande distribution)l’offre horizontale (consacrée à une fonction précise)l’offre fondée sur un progiciell’éditeur intègre généralement dans sa solution une base de données multidimensionnelle

4. 1 Les solutions applicatives

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 42

4. Le Marché du Data warehouse

exemples de produits :

4. 1 Les solutions applicatives

Editeur Produit Fonction

Boost sales analysis Analyse des ventes

Commander budget Elaboration budgétaire

Commander FDC Reporting, consolidation

Hyperion Software Hyperion entreprise Reporting, consolidation

Hyperion Pilar Elaboration budgétaire

Oracle Oracle financial analyser Elaboration budgétaire

Oracle sales analyser

SAS Institute CFO Vision Reporting

Analyse des ventes

Comshare Boost sales and marging planning Prévision, planification

Page 22: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

22

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 43

4. Le Marché du Data warehouse

Quatre acteurs principaux répartis en deux catégories :les spécialistes qui fournissent une technologie multidimensionnelle performante

les fournisseurs de solutions complètes capables de fourniren plus de la base de données, un environnement dedéveloppement, d’interrogation et d’administration.

4. 2 Bases de données multidimensionnelles

Catégorie Editeur Produit

Spécialistes Arbor SoftwareAplix

EssbaseTMI

Autres(environnement intégré)

OracleGentia Software

ExpressGentia

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 44

4. Le Marché du Data warehouse

Offre la plus récente sur le marchél ’information est stockée dans une base de données relationnelle et un dictionnaire permet de faire apparaître l ’information sous forme multidimensionnellel ’administrateur offre à l ’utilisateur un point de vue multidimensionnel sur une base relationnelleles principaux acteurs sont :

4. 3 Client ROLAP

Editeur Produit

Microstrategy DSS Agent

Information Advantage Decision Suite

Informix MetaCube

Platinum Technology Info Beacon

Business Objects Business Objects

Page 23: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

23

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 45

4. Le Marché du Data warehouse

Utilisation d ’un outil d’infocentre pour interroger les données relationnelles, puis représenter l’information récupérée sous forme multidimensionnellesolution proposée par les éditeurs d’infocentredeux outils sont utilisés : l’analyse multidimensionnelle et l’infocentre relationnelinconvénients :

pour alimenter l’outil multidimensionnel, il faut rapatrier unvolume de données important de la base relationnelle versl’outil

le stockage physique des données multidimensionnelless’effectue sur le poste de travail, ce qui entraîne uneredondance des données

4. 4 Client OLAP

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 46

4. Le Marché du Data warehouse

ces systèmes sont appelés DOLAP, pour Desktop OLAPprincipaux acteurs :

4. 4 Client OLAP

Editeur Editeur Fonction

Andyne GQLPablo

RequêteurAnalyse OLAP

Cognos ImpromptuPowerplay

RequêteurAnalyse OLAP

Page 24: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

24

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 47

5. Développement d’un Data warehouse5. 1 Introduction

5.1.1 Caractéristiques d ’un data warehouse à prendre en compte• 4 caractéristiques du data warehouse jouent un rôle fondamental

dans les projets de ce type:•Les évolutions technologiques: client-serveur et systèmes ouverts permettent de construire le data warehouse par intégration des composants les + adaptés.•Le lien implicite à la stratégie de l ’entreprise: data warehouses + proches de la stratégie de l ’entreprise que les systèmes transactionnels.•Une logique d ’amélioration continue (évolution des demandes des utilisateurs, nouveaux objectifs de l ’entreprise)•Un niveau de maturité (acquis décisionnel) différent selon les entreprises.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 48

5. Développement d’un Data warehouse5. 1 Introduction

5.1.2 Phases du processus de développement• Démarche proposée=démarche incrémentale: le data warehouse

est construit application par application (décomposition en sous-projets ou « initiatives »).

• 3 grandes phases dans un projet de data warehouse:•« Découvrir et définir les initiatives »: niveau entreprise; distinction de 2 sous-phases: étude stratégique et élaboration du plan d ’action.•Définition de l ’infrastructure technique et organisationnelle du data warehouse, conduite du changement: niveau entreprise.•Mise en œuvre incrémentale des applications: niveau projet.

Page 25: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

25

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 49

5. Développement d’un Data warehouse5. 2 Phase 1: découvrir et définir les initiatives

5.2.1 Etude stratégique• Rôle fondamental.

• Etape 1: sensibilisation, « sponsorship », préparation au changement.

•Chaque acteur doit être convaincu de la nécessité et de l ’importance du projet de data warehouse, et de la nécessité de son implication.•Rôle du sponsor du projet.

• Etape 2: identification des objectifs métier/entreprise assignés au data warehouse.

•Effectuée par collaboration entre management, équipes opérationnelles et équipes informatiques.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 50

5. Développement d’un Data warehouse5. 2 Phase 1: découvrir et définir les initiatives

5.2.1 Etude stratégique

• Etape 3: identification des sous-projets (initiatives) permettant d ’atteindre les objectifs précédemment identifiés.

•Les initiatives sont ordonnancées par priorité.•Les initiatives sont indépendantes, bien délimitées, et leur mise en œuvre est relativement courte (moins de 6 mois en général).

Page 26: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

26

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 51

5. Développement d’un Data warehouse5. 2 Phase 1: découvrir et définir les initiatives

5.2.2 Elaboration du plan d ’action• Etape 1: étude de faisabilité (existence et qualité des données,

contraintes techniques et organisationnelles).

• Etape 2: analyse coûts/bénéfices. •Exemples: coût de développement, coût du matériel et du logiciel…•Estimations ne sont pas détaillées.•Estimations sont de moins en moins détaillées selon le niveau de priorité de l ’initiative.

• Etape 3: séquencement et planification des projets.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 52

5. Développement d’un Data warehouse5. 3 Phase 2: définition de l ’infrastructure

5.3.1 Infrastructure technique• Choix du ou des fournisseur(s) de technologies: choix entre un

unique fournisseur et plusieurs fournisseurs…• Choix des outils: construire, acheter ou faire avec l ’existant?• Choix de l ’architecture du data warehouse:

centralisée/distribuée/répliquée, Intranet…• Choix de la structure de stockage: relationnelle,

multidimensionnelle…• Choix du matériel• Choix des infrastructures destinées à l ’administration des

systèmes, à la gestion de la sécurité…• …

Page 27: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

27

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 53

5. Développement d’un Data warehouse5. 3 Phase 2: définition de l ’infrastructure

5.3.2 Infrastructure organisationnelle

• Organisation typique des équipes de développement et d ’exploitation:

•Un 1er centre de compétences responsable de l ’alimentation du data warehouse à partir des systèmes de production.•Un second centre de compétences responsable de la gestion et du support du data warehouse proprement dit. Rôle des administrateurs de bases de données.•Un 3è centre de compétences responsable des flux d ’informations entre les utilisateurs et leur poste de travail d ’une part, et le data warehouse d ’autre part.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 54

5. Développement d’un Data warehouse5. 3 Phase 2: définition de l ’infrastructure

5.3.3 Conduite du changement

• Rôle de la formation.

• Rôle des sponsors. Il est souvent souhaitable d ’identifier un sponsor par initiative, chaque sponsor étant généralement associé à une entité opérationnelle (marketing, finance, ressources humaines…).

Page 28: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

28

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 55

5. Développement d’un Data warehouse5. 4 Phase 3: mise en œuvre des applications

5.4.1 Les 5 étapes• Etape 1: étude préalable

•Définition et planification des étapes suivantes de manière plus précise et détaillée que dans les phases précédentes.•Analyse de l ’existant•Etude des besoins.

• Etape 2: étude détaillée (cf. parties 6 et 7 + loin)•Modélisation conceptuelle des données•Modélisation logique multidimensionnelle•Modélisation mathématique: définition des agrégations et des formules.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 56

5. Développement d’un Data warehouse5. 4 Phase 3: mise en œuvre des applications

5.4.1 Les 5 étapes• Etape 3: réalisation

•Définition de l ’interface homme-machine•Implémentation physique•Intégration.

• Etape 4: déploiement

• Etape 5: mesures•Bilan de la mise en œuvre de l ’application de data warehouse(capitalisation d ’expérience)•Mesures doivent être effectuées régulièrement.

Page 29: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

29

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 57

5. Développement d’un Data warehouse5. 4 Phase 3: mise en œuvre des applications

5.4.2 Démarche itérative• Mise en œuvre des applications peut s ’effectuer selon une

approche itérative, de type RAD (Rapid Application Development).

• Phase de mise en œuvre des applications découpée en deux sous-phases, avec déroulement des 5 étapes à chaque fois:

•Développement d ’un prototype (pilote)•Déploiement, généralisation du pilote.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 58

5. Développement d’un Data warehouse5. 5 Conclusion: schéma général du processus

PI P2 P3

Projet 1(pilote)

Itéra

tive

inte

r-pr

ojet

s

Projet 1(déploiement)

Projet 2(pilote)

Projet 2(déploiement)

Projet 3(pilote)

Projet 3(déploiement)

Incrémentale : multi projet

Itéra

tive

inte

r-pr

ojet

s

Itéra

tive

inte

r-pr

ojet

s

Vision

d’entrepr iseV

isiond’entrepr ise

Vision

projet

Page 30: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

30

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 59

6. Modélisation des données d’un Data warehouse6. 1 Introduction6.1.1 Nécessité de techniques de modélisation spécifiques

Système transactionnel Data warehouse

RedondancesA minimiser pour préserver la fiabilitéet la cohérence du système (normalisation).

Autorisées.

Mises à jour OuiNon. Pas de mises à jour en ligne. Mise à jour dans la phase de chargement/rafraîchissement.

Modèle de données Utilisateur n ’accède pas directement au modèlede données.

Utilisateur a un accès direct au modèlede données.

Volumes de données Résultats des transactions : volumes limités. Requêtes manipulent souvent de grosvolumes de données.

Nombre de tables manipulées dans lesrequêtes

Faible en général Elevé en général.

Requêtes prévisibles Oui Non dans de nombreux cas.

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 60

• 3 concepts fondamentaux:

•Les faits mesurent l ’activité. Les faits sont toujours numériques. Les faits les plus importants et les plus utiles sont valorisés de façon continue et additifs.

•Les dimensions sont les axes d ’analyse. Elles peuvent être organisées en hiérarchies telles que la géographie, le temps…

•Les attributs des dimensions qualifient celles-ci. Typiquement, les attributs sont textuels et discrets (par opposition aux faits).

6. Modélisation des données d’un Data warehouse6. 1 Introduction6.1.2 Modèle multidimensionnel

Page 31: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

31

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 61

• Opérations fondamentales sur des bases multidimensionnelles:

•Drill-down (une donnée agrégée est visualisée à un niveau de détail plus fin) et consolidation (les données sont visualisées à un niveau plus agrégé). Le drill-down et la consolidation se fondent sur l utilisation des hiérarchies entre dimensions, et des fonctions agrégées (somme, nombre, min, max, moyenne).

•Slicing and dicing: visualisation des données selon différentes perspectives.

6. Modélisation des données d’un Data warehouse6. 1 Introduction6.1.2 Modèle multidimensionnel

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 62

ANN

EE

TRIM

E STR

E

MO

IS

JOU

R

PRODUIT- libellé- prix unitaire

TYPE DE PRODUIT

VILLE

- nombre d’habitants

- pouvoir d’achat m

oyen

REGION

- taux de chômage

CADIMENSIONAttribut de dimensionFait

Un cube d’analyse des ventes

6. Modélisation des données d’un Data warehouse6. 1 Introduction6.1.2 Modèle multidimensionnel

Page 32: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

32

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 63

La plupart des démarches proposées aujourd’hui font l’impasse sur cette phaseSeuls Thomsen (Building Multidimensional Information Systems, Wiley, 1997) et Akoka-Prat (Modélisation logique des systèmes multidimensionnels, Revue des Systèmes de Décision, 1997) proposent une phase conceptuelle.Principe :

établir un modèle conceptuel entité-associationtraduire ce modèle sous forme logique multidimensionnellepar des règles de mapping

transformations décrites plus loin

6. 2 Modélisation Conceptuelle des données

6. Modélisation des données d’un Data warehouse

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 64

Exemple : SIAD de média-planning CONSOMMATEUR

code_consoCSPagerevenusexevilleetat_civil

PRODUIT

code_produitnom_produitunite_produit

ACHETE

unites_par_sem

MEDIA

code_medianom_mediaprix_insertionproduction_mediapourcent_limite

UTILISE

utilisat_media

EST DU

TYPE_MEDIA

type_mediainsertionunite_media

NN

N

N

N

1

6. Modélisation des données d’un Data warehouse6. 2 Modélisation Conceptuelle des données

Page 33: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

33

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 65

LES CONCEPTSLES CONCEPTSUne dimension est une donnée élémentaire permettant d’identifier un objet (ex : code d ’un produit). C’est l ’axe d ’analyseUne variable permet de gérer les données multidimensionnelles. Elle représente une quantité mesurable, un fait observé. Elle peut être monodimensionnelle ou multidimensionnelle (ex : des unités consommées peuvent être dimensionnées par un consommateur, un produit...)Une relation caractérise un lien existant entre les dimensions, deux ou plus (ex : lien entre le code d ’un média et le type du média correspondant)

6. 3.1 L’approche MAP (Akoka-Prat)

6. Modélisation des données d’un Data warehouse6. 3 Modélisation logique des données

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 66

LA DEMARCHELA DEMARCHEeffectuer la modélisation conceptuelle à l ’aide du modèle entité-associationsimplifier le schéma entité-association ainsi obtenu en :

éliminant les associations d’ordre supérieur à 3éliminant les associations réflexives

traduire le schéma ainsi simplifié en schéma multidimensionnel àl’aide des règles de transformation suivantes :

l’identifiant de chaque entité E-A devient une dimension dans le schéma logique multidimensionnel

les propriétés portées par une entité (autres que son identifiant) deviennent des variables monodimensionnelles liées à la dimension de cette entité

6. 3.1 L’approche MAP (Akoka-Prat)

6. Modélisation des données d’un Data warehouse6. 3 Modélisation logique des données

Page 34: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

34

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 67

LA DEMARCHELA DEMARCHEles propriétés portées par les associations du schéma conceptueldeviennent des variables multidimensionnelles dont les dimensions sont les identifiants des entités liées à l’association(un lien d’héritage entre deux entités est traduit par une relation dans le schéma logique multidimensionnel)

6. 3.1 L’approche MAP (Akoka-Prat)

6. Modélisation des données d’un Data warehouse6. 3 Modélisation logique des données

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 68

LA DEMARCHELA DEMARCHEune association dont une des cardinalités maximales au moins estégale à 1 est traduite par une relation dans le modèle logique multidimensionneltoute autre association est traduite au moyen d’une variable multidimensionnelle liée à l’identifiant de chacune des entités impliqués dans l ’association, sauf si l ’association est porteuse d ’au moins une propriété dont la valeur est toujours définie.

6. 3.1 L’approche MAP (Akoka-Prat)

6. Modélisation des données d’un Data warehouse6. 3 Modélisation logique des données

Page 35: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

35

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 69

Le modèle en étoile se compose de deux type de table :les tables de dimensions qui représentent les axes d ’analyse.Chaque table de dimension possède un ensemble d’attributs

permettant de décrire les aspects importants de cettedimension. Chaque table est identifiée par une clé

la table de faits concerne l’ensemble des mesures del’activité. Les enregistrements de cette table sont identifiéspar une clé composée de la concaténation des clés des tablesde dimension

6. 3 Modélisation Logique des données6.3.2 Le modèle en étoile

6. Modélisation des données d’un Data warehouse

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 70

Il s ’agit d ’un modèle dénormalisé. Les tables de dimension sont plates. Il existe une grande redondance des données

6.3 Modélisation Logique des données6.3.2 Le modèle en étoile

Clé Dimension 1 (D1)Attribut

Dimension 1

Clé Dimension 2 (D2)Attribut

Dimension 2

Clé D1Clé D2Clé D3Mesure

Faits

Clé Dimension 3 (D3)Attribut

Dimension 3

6. Modélisation des données d’un Data warehouse

Page 36: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

36

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 71

Exemple: SIAD de média-planning

On distingue 2 étoiles (structure multiétoile)les relations entre étoiles sont possibles par le biais de dimensions communes à deux ou plusieurs étoiles (ex : la dimension consommateur est commune aux 2 étoiles)

CONSOMMATEUR

code_consoCSPagerevenusexevilleetat_civil

PRODUIT

code_produitnom_produitunite_produit

ACHETE

code_consocode_produitunites_par_sem

MEDIA

code_medianom_mediaprix_insertionproduction_mediapourcent_limitetype_mediainsertionunite_media

UTILISE

code_consocode_mediautilisat_media

CONSOMMATEUR

code_consoCSPagerevenusexevilleetat_civil

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 72

Règles de passage ER modèle en étoile

•Règle 1 : Toute association binaire M-N ou ternaire ou plus porteuse de propriétés devient une table de faits identifiée par les clés des entités participantes.

•Règle 2 : Toute entité participant à une association de la règle 1 devient une table de dimensions reliée à la table de faits.

•Règle 3 : Toute entité E1 reliée à une entité E2 de la règle 2 par une relation 1:N est transcrite dans la table de dimension de E2.

•Règle 4 : Toute entité E1 reliée à une entité E2 de la règle 2 par un chemin de relations 1:N est transcrite dans la table de dimensions de E2.

Page 37: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

37

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 73

Ce modèle est dérivé de celui en étoile. Toutefois, les tables de dimensions sont normalisées et les redondances éliminéesexemple : Cas média-planning (partiel)

6. 3 Modélisation Logique des données6.3.3 Le modèle en flocon

6. Modélisation des données d’un Data warehouse

TYPE_MEDIA

type_mediainsertionunite_media

MEDIA

code_medianom_mediaprix_insertionproduction_mediapourcent_limitetype_media

UTILISE

code_consocode_mediautilisat_media

CONSOMMATEUR

code_consoCSPagerevenusexevilleetat_civil

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 74

Règles de passage ER modèle en flocon

•Règle 1 : Toute association binaire M-N ou ternaire ou plus porteuse de propriétés devient une table de faits identifiée par les clés des entités participantes.

•Règle 2 : Toute entité participant à une association de la règle 1 devient une table de dimensions reliée à la table de faits.

•Règle 3 : Toute entité E1 reliée à une entité E2 de la règle 2 par une relation 1:N devient une sous-table de dimensions reliée à la table issue de la règle 2.

•Règle 4 : Toute entité E1 reliée à une entité E2 traduite en une sous-table de dimension en devient une sous-table de dimensions.

Page 38: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

38

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 75

Le modèle en flocon offre une vue plus claire de la structure del’information permettant notamment de déceler une hiérarchiela normalisation de ce modèle permet de plus de diminuer la redondance, en réduisant la taille des tables de dimension. A noter que Kimball a évalué le gain de place disque à 1 % de l’espace disque totalKimball préfère le modèle en étoile sur la base de deux arguments :

la dénormalisation permet d ’améliorer les performances dusystème lors de l ’exécution des requêtes

le modèle est plus facile à apprendre par l ’utilisateur noninformaticien

6. 3 Modélisation Logique des données6.3.4 Comparaison des modèles en étoile et en flocon

6. Modélisation des données d’un Data warehouse

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 76

Formules : Quatre types de formulesFormules : Quatre types de formulesDescriptive : pour le choix d’alternative (ex : réparer un pont ou en construire un nouveau)Prédictive : pour prédire des valeurs non mesurées (ex : si le taux d’intérêt est corrélé avec une augmentation des ventes domestiques, la formule prédictive déduira d ’une diminution des taux d ’intérêt l ’augmentation future des ventes)Exploratoire : représentant les relations entre données (ex : l’analyse de régression statistique)Prescriptive : ce sont de simples descriptions, ne comportant pas de comparaisons (ex : les agrégations)

7. Modélisation mathématique. Agrégations et formules

Page 39: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

39

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 77

Agrégations :Agrégations :Formules d’agrégations : composante clé du modèle multidimensionnel (ex : sommes, moyennes, équations pondérées conditionnelles)Formules non agrégatives : formules les plus couramment utilisées (ex : ratios, produits, différences)Fonctions attachées aux dimensions ou aux règles : dans le cas de ratios ou de formules à opérations multiples, il est préférable de passer par des règles. Dans le cas d’une fonction à appliquer par défaut avec des exceptions, il est préférable d’attacher la fonction à la dimension

7. Modélisation mathématique. Agrégations et formules

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 78

Agrégations :Agrégations :Qualifications : lors de la rédaction de formules, il faut vérifier si celles-ci sont justes pour la totalité de la hiérarchiePrécédence des calculs : préciser l’ordre des calculs entre différentes dimensions lorsque ceux-ci peuvent produire un résultat différentFormules conditionnelles : utilisées dans le cas d’exceptions connues

7. Modélisation mathématique. Agrégations et formules

Page 40: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

40

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 79

Le data warehouse est probablement, avec Internet, l ’une des tendances récentes que les entreprises exploiteront de + en + dans les années à venir. Sujet « brûlant ».Le data warehouse est le cœur, l ’ossature du système d ’information décisionnel.% des investissements informatiques consacrés à la production et à la gestion devrait s ’inverser d ’ici 2003 au profit de l ’informatique décisionnelle (source: Meta Group).Systèmes d ’information décisionnels = élément de différentiation entre les entreprises (par opposition aux systèmes transactionnels avec les ERP).

8. Conclusion et perspectives

8. 1 Conclusion

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 80

Agents « intelligents »:Un agent agit pour un utilisateur sans solliciter son

intervention explicite.Un agent « intelligent » est capable d ’apprendre en fonction

d ’événements extérieurs.Technique de « push » (≠ « pull »): L ’utilisateur est averti

des événements remarquables (CA en-dessous d ’un seuil prédéfini…).

8. Conclusion et perspectives

8. 2 Quelques perspectives

Page 41: Le Data Warehouse et les Systèmes Multidimensionnelsmaths.cnam.fr/IMG/pdf/wattiau_09-10_3.pdf · donnée aura prises au cours du temps. • Un référentiel de temps est alors associé

41

Copyright J. Akoka - I. Comyn-Wattiau - N.Prat 81

Internet:Complémentarité Internet/data warehouse.Internet=moyen d ’acquisition de données externes.Intranet/Extranet=moyen d ’accès au data warehouse.

CRM:Customer Relationship Management (Gestion de la Relation

Client)Un des domaines d ’application privilégiés du data

warehouse.

8. Conclusion et perspectives

8. 2 Quelques perspectives