24
1 Chapitre Préliminaire Entrepôts de données Christelle Scharff IFI Juin 2004

Chapitre Préliminaire Entrepôts de données

  • Upload
    manchu

  • View
    45

  • Download
    0

Embed Size (px)

DESCRIPTION

Chapitre Préliminaire Entrepôts de données. Christelle Scharff IFI Juin 2004. Plan et objectifs. Informatique de production Transactions Informatique décisionnelle Entrepôts de données Datamarts Construction des entrepôts Opérations OLAP Problèmes. Informatique de production. - PowerPoint PPT Presentation

Citation preview

Page 1: Chapitre Préliminaire Entrepôts de données

1

Chapitre Préliminaire

Entrepôts de données

Christelle ScharffIFI

Juin 2004

Page 2: Chapitre Préliminaire Entrepôts de données

2

Plan et objectifs Informatique de production Transactions Informatique décisionnelle Entrepôts de données Datamarts Construction des entrepôts Opérations OLAP Problèmes

Page 3: Chapitre Préliminaire Entrepôts de données

3

Informatique de production Interrogations et modifications fréquentes

des données par de nombreux utilisateurs Nécessité de conserver la cohérence des

données Les systèmes transactionnels (OLTP)

garantissent la cohérence des données L’informatique de production est optimisée

pour les tâches répétitives et planifiées Exemples:

Factures, commandes…

Page 4: Chapitre Préliminaire Entrepôts de données

4

Transactions Programmes informatiques qui

inter-agissent avec les bases de données ayant les propriétés suivantes: A - Atomicité C - Consistance I - Isolation D - Durée

Page 5: Chapitre Préliminaire Entrepôts de données

5

Informatique décisionnelle

Chargement périodique des données Pas de modifications des données Interrogations non régulières, planifiées, parfois

longues des systèmes d’information décisionnels Exemples de questions:

Quelles sont les ventes du produit X pendant le trimestre A de l'année B dans la région C ?

Comment se comporte le produit X par rapport au produit Y?

Quel type de client peut acheter le produit X? Exemple: OLAP (Codd)

Page 6: Chapitre Préliminaire Entrepôts de données

6

OLTP OLAP

Utilisateurs Lambda Spécialisés

Fonctions Journalier Décision

Design DB Oriente application Oriente sujet

Données Courantes, détaillées, plates, à jour

Historiques, résumées, multi-dimensionnelles, intégrées, consolidées

Utilisation Répétitive Ad hoc

Accès Écrire/LireIndex / Hachage sur les clés primaires

Lire

Transactions/Requêtes

Transaction courte et simple

Requêtes complexes

# lignes accédées Dizaines Millions

# utilisateurs Milliers Centaines

Taille DB 100 MG-GB 100 GB-TB

Métriques # Transactions Réponses, # requêtes

Page 7: Chapitre Préliminaire Entrepôts de données

7

Entrepôt de données (1) Contient de grandes quantités de

données provenant de diverses sources, sauvées sous un schéma de données unique,

et résidant à un endroit unique

Construit par: Nettoyage, transformation, intégration,

chargement et rafraîchissement périodiques des données

Page 8: Chapitre Préliminaire Entrepôts de données

8

Entrepôt de données (2) Organisés suivant des thèmes précis (clients,

activités, items…) Organisés suivant une chronologie historique Résument les données Plus lisibles et plus simples que les données

initiales Introduction de redondance éventuelle Cohérence globale des données Les données / informations des entrepôts ne

sont pas modifiees

Page 9: Chapitre Préliminaire Entrepôts de données

9

Datamarts

Versions simplifiées, car plus ciblées, des entrepôts des données

Page 10: Chapitre Préliminaire Entrepôts de données

10

Nettoyage des données

Erreurs de saisie Intégrité des domaines

Exemple: Les dates Données manquantes

Page 11: Chapitre Préliminaire Entrepôts de données

11

Transformations des données Format

Exemple: Type des données Consolidation

Exemple: Choix des unités et des représentations

Uniformisation d’échelle Exemple: Homogénéisation des

échelles

Page 12: Chapitre Préliminaire Entrepôts de données

12

Requêtes sur les entrepôts de données

Extraire des données: Les outils OLAP Le progiciel SAS

Un progiciel est un logiciel de gestion Outils de création de rapports Outils dans les SGBD Un language (Exemple: DMQL)

Page 13: Chapitre Préliminaire Entrepôts de données

13

Représentation conceptuelle des entrepôts de données* Souvent représentés par une structure à

plusieurs dimensions Une dimension est un attribut ou un

ensemble d’attributs Les cellules sauvent des données agrégées

appelées faits Représentations: Relations, cube de

données, hyper-cube de données Utilisation d’un language (Exemples: SQL

ou DMQL) pour peupler les entrepôts

Page 14: Chapitre Préliminaire Entrepôts de données

14

Exemple Total des ventes à un client dans

une tranche horaire d'un jour précis, pour un produit choisi

Page 15: Chapitre Préliminaire Entrepôts de données

15

Représentation logique des entrepôts de données* Implantation classique: Modèle en étoile:

Au centre la table des faits Les dimensions comme autant de branches à

l'étoile. Les branches de l'étoile sont des relations de 1 à

plusieurs La table des faits est énorme contrairement aux

tables des dimensions Le modèle est très dissymétrique en

comparaison avec les modèles relationnels des bases de production

L’étoile est un modèle simple

Page 16: Chapitre Préliminaire Entrepôts de données

16

Exemple Un enregistrement dans la table des

faits Ventes correspond à un total des ventes à un client dans une tranche horaire d'un jour précis, pour un produit choisi.

Page 17: Chapitre Préliminaire Entrepôts de données

17

Autres modèles

Le modèle en flocon de neige Les tables des dimensions sont

normalisées Le modèle de la constellation des

faits Une table de faits peut être partagée

par plusieurs tables de dimension

Page 18: Chapitre Préliminaire Entrepôts de données

18

Hiérarchies* Hiérarchies de schémas

Ordre total ou partiel sur les attributs des schémas Décrivent des relations sémantiques entre les

attributs Exemple: Rue < Ville < État_ou_Province < Pays

Hiérarchies de groupes Organise les valeurs d’attributs ou de dimensions

en groupes Un ordre total ou partiel peut être défini entre les

groupes Exemples: {0…45} Jeune, {46…150} Agé ,

{Jeune, Agé} all(age)

Page 19: Chapitre Préliminaire Entrepôts de données

19

Opération: Navigation ou Forage*

Pour obtenir plus de détails sur la signification d'un résultat en affinant une dimension ou en ajoutant une dimension

Exemple: Supposons qu'un utilisateur final demande les chiffres

d'affaires par produit, et s'étonne d'un résultat pour un produit donné. Il aura sûrement l'envie d'en analyser les raisons. Une solution consisterait à ajouter la dimension temps, dans l'unité de temps trimestrielle pour trouver une variation saisonnière, dans l'unité hebdomadaire pour envisager l'effet week-end ou encore la dimension magasin pour mettre en évidence un effet géographique.

Page 20: Chapitre Préliminaire Entrepôts de données

20

Opération: Agrégats* Pour obtenir moins de détails Élimination d’une dimension ou

regroupement des éléments d’une dimension

Exemple: Ville < Etat < Province < Pays Au lieu de regrouper les données par

ville, elles sont regroupées par pays

Page 21: Chapitre Préliminaire Entrepôts de données

21

Autres opérations*

Sélection sur une dimension ou plusieurs dimensions (tranche du cube)

Rotation / pivot du cube D’autres opérations impliquent

plus d’une table des faits

Page 22: Chapitre Préliminaire Entrepôts de données

22

Problèmes Supports physiques

Peupler l’entrepôt Calcul des valeurs de la table des faits

Structure creuse La valeur est 0 Exemple: 300 des 3000 produits sont vendus

chaque jour Problèmes des clés et des indexes

Organisation physique importante du point de vue des performances

Les tables de dimension sont souvent indexées suivant tous leurs champs

Page 23: Chapitre Préliminaire Entrepôts de données

23

Exercice*

Exercice du magasin d’électronique

Page 24: Chapitre Préliminaire Entrepôts de données

24

Références http://www.grappa.univ-lille3.fr/pol

ys/fouille/

J. Han, and M. Kamber. Data Mining Concepts and Techniques. Morgan Kaufmann.