Chapitre Préliminaire Entrepôts de données

Preview:

DESCRIPTION

Chapitre Préliminaire Entrepôts de données. Christelle Scharff IFI Juin 2004. Plan et objectifs. Informatique de production Transactions Informatique décisionnelle Entrepôts de données Datamarts Construction des entrepôts Opérations OLAP Problèmes. Informatique de production. - PowerPoint PPT Presentation

Citation preview

1

Chapitre Préliminaire

Entrepôts de données

Christelle ScharffIFI

Juin 2004

2

Plan et objectifs Informatique de production Transactions Informatique décisionnelle Entrepôts de données Datamarts Construction des entrepôts Opérations OLAP Problèmes

3

Informatique de production Interrogations et modifications fréquentes

des données par de nombreux utilisateurs Nécessité de conserver la cohérence des

données Les systèmes transactionnels (OLTP)

garantissent la cohérence des données L’informatique de production est optimisée

pour les tâches répétitives et planifiées Exemples:

Factures, commandes…

4

Transactions Programmes informatiques qui

inter-agissent avec les bases de données ayant les propriétés suivantes: A - Atomicité C - Consistance I - Isolation D - Durée

5

Informatique décisionnelle

Chargement périodique des données Pas de modifications des données Interrogations non régulières, planifiées, parfois

longues des systèmes d’information décisionnels Exemples de questions:

Quelles sont les ventes du produit X pendant le trimestre A de l'année B dans la région C ?

Comment se comporte le produit X par rapport au produit Y?

Quel type de client peut acheter le produit X? Exemple: OLAP (Codd)

6

OLTP OLAP

Utilisateurs Lambda Spécialisés

Fonctions Journalier Décision

Design DB Oriente application Oriente sujet

Données Courantes, détaillées, plates, à jour

Historiques, résumées, multi-dimensionnelles, intégrées, consolidées

Utilisation Répétitive Ad hoc

Accès Écrire/LireIndex / Hachage sur les clés primaires

Lire

Transactions/Requêtes

Transaction courte et simple

Requêtes complexes

# lignes accédées Dizaines Millions

# utilisateurs Milliers Centaines

Taille DB 100 MG-GB 100 GB-TB

Métriques # Transactions Réponses, # requêtes

7

Entrepôt de données (1) Contient de grandes quantités de

données provenant de diverses sources, sauvées sous un schéma de données unique,

et résidant à un endroit unique

Construit par: Nettoyage, transformation, intégration,

chargement et rafraîchissement périodiques des données

8

Entrepôt de données (2) Organisés suivant des thèmes précis (clients,

activités, items…) Organisés suivant une chronologie historique Résument les données Plus lisibles et plus simples que les données

initiales Introduction de redondance éventuelle Cohérence globale des données Les données / informations des entrepôts ne

sont pas modifiees

9

Datamarts

Versions simplifiées, car plus ciblées, des entrepôts des données

10

Nettoyage des données

Erreurs de saisie Intégrité des domaines

Exemple: Les dates Données manquantes

11

Transformations des données Format

Exemple: Type des données Consolidation

Exemple: Choix des unités et des représentations

Uniformisation d’échelle Exemple: Homogénéisation des

échelles

12

Requêtes sur les entrepôts de données

Extraire des données: Les outils OLAP Le progiciel SAS

Un progiciel est un logiciel de gestion Outils de création de rapports Outils dans les SGBD Un language (Exemple: DMQL)

13

Représentation conceptuelle des entrepôts de données* Souvent représentés par une structure à

plusieurs dimensions Une dimension est un attribut ou un

ensemble d’attributs Les cellules sauvent des données agrégées

appelées faits Représentations: Relations, cube de

données, hyper-cube de données Utilisation d’un language (Exemples: SQL

ou DMQL) pour peupler les entrepôts

14

Exemple Total des ventes à un client dans

une tranche horaire d'un jour précis, pour un produit choisi

15

Représentation logique des entrepôts de données* Implantation classique: Modèle en étoile:

Au centre la table des faits Les dimensions comme autant de branches à

l'étoile. Les branches de l'étoile sont des relations de 1 à

plusieurs La table des faits est énorme contrairement aux

tables des dimensions Le modèle est très dissymétrique en

comparaison avec les modèles relationnels des bases de production

L’étoile est un modèle simple

16

Exemple Un enregistrement dans la table des

faits Ventes correspond à un total des ventes à un client dans une tranche horaire d'un jour précis, pour un produit choisi.

17

Autres modèles

Le modèle en flocon de neige Les tables des dimensions sont

normalisées Le modèle de la constellation des

faits Une table de faits peut être partagée

par plusieurs tables de dimension

18

Hiérarchies* Hiérarchies de schémas

Ordre total ou partiel sur les attributs des schémas Décrivent des relations sémantiques entre les

attributs Exemple: Rue < Ville < État_ou_Province < Pays

Hiérarchies de groupes Organise les valeurs d’attributs ou de dimensions

en groupes Un ordre total ou partiel peut être défini entre les

groupes Exemples: {0…45} Jeune, {46…150} Agé ,

{Jeune, Agé} all(age)

19

Opération: Navigation ou Forage*

Pour obtenir plus de détails sur la signification d'un résultat en affinant une dimension ou en ajoutant une dimension

Exemple: Supposons qu'un utilisateur final demande les chiffres

d'affaires par produit, et s'étonne d'un résultat pour un produit donné. Il aura sûrement l'envie d'en analyser les raisons. Une solution consisterait à ajouter la dimension temps, dans l'unité de temps trimestrielle pour trouver une variation saisonnière, dans l'unité hebdomadaire pour envisager l'effet week-end ou encore la dimension magasin pour mettre en évidence un effet géographique.

20

Opération: Agrégats* Pour obtenir moins de détails Élimination d’une dimension ou

regroupement des éléments d’une dimension

Exemple: Ville < Etat < Province < Pays Au lieu de regrouper les données par

ville, elles sont regroupées par pays

21

Autres opérations*

Sélection sur une dimension ou plusieurs dimensions (tranche du cube)

Rotation / pivot du cube D’autres opérations impliquent

plus d’une table des faits

22

Problèmes Supports physiques

Peupler l’entrepôt Calcul des valeurs de la table des faits

Structure creuse La valeur est 0 Exemple: 300 des 3000 produits sont vendus

chaque jour Problèmes des clés et des indexes

Organisation physique importante du point de vue des performances

Les tables de dimension sont souvent indexées suivant tous leurs champs

23

Exercice*

Exercice du magasin d’électronique

24

Références http://www.grappa.univ-lille3.fr/pol

ys/fouille/

J. Han, and M. Kamber. Data Mining Concepts and Techniques. Morgan Kaufmann.

Recommended