Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
Data WareHouse
Plan
• Introduction• Eléments de la théorie des systèmes d'informations
• Les entrepôts de données (Datawarehouse)• Les datamart• Architecture• Modélisation
2
Présentation• Besoin: prise de décisions stratégiques et tactiques• Quoi: productivité de l'entreprise, réactivité des hommes, clients• Qui: le système de pilotage de l'entreprise (Décideurs)
3
Eléments de la théorie des SI
• Référentiel des complexités croissantes• L'entreprise système.
4
Référentiel des complexités croissantes
Objectif: fournir une échelle pour mesurer la complexité d'un système• Niveau 1 : objet passif (une pierre)• Niveau 2 : actif (ampoule électrique)• Niveau 3 : actif et régulé, (l’objet refuse certains comportements)
L’objet est doté d’un autre processeur chargé de cette régulation (la cocotte‐minute).• Niveau 4 : l’objet s’informeLe processeur de régulation s’informe sur l’activité du processeur actif. Ce modèle représente le schéma de base de la cybernétique
5
Référentiel des complexités croissantes
6
Référentiel des complexités croissantes
• Niveau 5: L’objet décide de son activitéOn passe d’un comportement programmé à un comportement imprévisible
•Processeur•décisionnel
•Processeur•actif
•Information représentation
•Information Décision
.
7
Référentiel des complexités croissantes
• Niveau 6: L’objet à une mémoireLe processeur décisionnel fait appel aux
informations non seulement de l’état actuel, mais aussi aux informations des états passés.
•Mémorisation
•Processeur•Décisionnel
•Processeur•actif
•Mémoire
8
Référentiel des complexités croissantes
• Niveau 7: L’objet se coordonneLe processeur actif devient une fédération
de processeurs coordonnés (système opérant).
9
Référentiel des complexités croissantes
• Niveau 8: L’objet imagine et s’auto organise :• Elaborer des plans d’actions• Imaginer l’organisation de ses sous systèmes
10
Référentiel des complexités croissantes
Niveau 9 : l’objet est capable de définir ses objectifs.•Objectifs :
•Système finalisation (le SP est capable de changer ses objectifs)
•Système imagination conception
•SD
•SP
11
L'entreprise système
• Définition: Le SI est une représentation de l’activité du SO et/ou du SP, et de ses échanges avec l’environnement
12
Typologie des systèmes d'information• SIP: Systèmes d’information de production:
Dans ces SI l’information est gérée par le SO de l’entreprise.
• SIO (systèmes d'information opérationnels):Information de représentation et de coordination de l’activité du SO destiné au sous système de régulation dans le SP.SO
SIO
SP SD SIC SF
• SID (Systèmes d’information décisionnels).• SIS : SI à portée stratégique • SSI: SI d’aide à la stratégie • Autre notation :(Tardieu : Le triangle stratégique, structure et
technologie de l’information)• Systèmes d’information‐stratégiques SI‐S• Systèmes‐d’informations stratégiques S‐IS
13
Informatisation d'un SI
• SIO: Système d'informatisation organisationnel, résultat de l’activité de l’entreprise (Informations, tâches humaines/Informatisées)
• SII: Système d'information informatisé.
SIO
SII
• Sciences de la gestion SIO (naturel)• Disciplines du génie logiciel SII (artificiel)• L’état actuel des connaissances ne nous permet pas d’avoir une
méthode de complexité 8 ou 9 (SI auto adaptatif ‐ SI auto exécutif) donc les méthodes de conception actuelles modélisent l’entreprise uniquement au niveau 7 de complexité. (À organisation stabilisée).
14
Les données pertinentes
• Sources de données– Sources internes
• Bases de données de production• Bases créées par les utilisateurs (bases relationnelles, fichiers plats).
– Sources externes• Internet.• Organismes
• Caractéristiques de ces données:– Dispersées et hétérogènes– Détaillées– Peu/pas adaptées à l’analyse– Volatiles: pas d’historisation systématique
• Données pertinents– informations dont la variation permet de dévoiler des dysfonctionnements ou même
prévoir des problèmes futurs– Types d'indicateurs
• Indicateurs internes: produits, services, fonctionnement, Personnel • Indicateurs entrants/sortants: relations clients/fournisseurs• Indicateurs externes: pouvoir d'achat des consommateurs, Réglementation,
conjoncture du marché, concurrence, tendance technologique…
15
Le processus de prise de décision
Définir les objectifs
Collecter les données Analyser Elaborer des
SolutionsAction de décision
16
Définition d’un DW• Le Data warehouse (entrepôt de données) est Une collection de données orientées sujet, intégrées, non volatiles et qui varie dans le temps, organisées pour le support d’un processus d’aide à la décision (Définition: [W. H. Inmon] )
– Sujet• Les données sont structurées par sujet ou par thème (clients, produits, personnel…)
– Données intégrées • Les données sont issues du SIO de l'entreprise et éventuellement de sources externes à l'entreprise.
• Les différents données provenant de sources différentes (BDR, XML, fichiers plats,…) et hétérogènes sont intégrés et homogénéisées dans une structure unique.
17
Définition d’un DW• Homogénéisation:
– Synonymie :Par exemple deux attributs nom_salarié et nom_employe dans deux sources différentes désignent la même entité.
– Homonomie: deux noms identiques qui désignent des entités différentes.– Une même information peut être exprimée dans deux sources avec des
types ou des unités différentes.
• Les données sont non volatiles et historisées: la portée temporelle des données dans un DW et plus longue que celle des BDO.
• BDO: valeur courante des données . Les autres données sont soit détruites soit archivées.
• DW: les données sont historisées• En général , dans un DW chaque donnée fait référence au temps.
18
Domaines d'applications• Déterminer et contrôler la performance de l’entreprise• Mesurer et gérer les risques financiers.• Planifier la stratégie Achat.• Banque
– Risques d’un prêt, prime plus précise• Assurance
– Risque lié à un contrat d’assurance (voiture)• Santé
– Épidémiologie– Risque alimentaire
• Marketing– Améliorer la connaissance client– Ciblage de clientèle – Déterminer des promotions
• Logistique– Adéquation demande/production
19
Data Marts ou magasins de données
• C'est un DW spécialisé dans un sujet ou un métier particulier (Finance, Marketing,…).
• Intérêt d'un DataMart– Moins de données à gérer– Amélioration des temps de réponse– Plus simple à mettre en œuvre qu'un DW
20
Modèles de données• Le modèle
d'intégration unifie les données
• Le modèle de diffusion modélise la structure de l'entrepôt de données (Serveur OLAP).
• Le modèle de présentation définit la manière dont les données seront présentées à l'utilisateur.
Modèle d'intégration
Poste1 Poste2 Poste 3
Base1:Base de données de production
Base 2:Base de données de production
Base3:Base de données de production
Modèle de diffusion
Modèle de présentation
21
Les outils OLAP
• OLAP (On‐Line Analytical Processing): Ensemble des outils nécessaires pour la mise en place d'un Système d'information décisionnel (SID)
22
Les 12 règles OLAP• Un système OLAP doit respecter les 12 règles suivantes (Edgar Frank Codd en
1993).– Transparence: l'utilisateur doit accéder à la base par des outils standards– Accessibilité: les sources qui servent à alimenter le système, doivent être
facilement accessible à travers la structure logique de l'entrepôt– Vue Dimensionnelle: les données sont structurées en dimensions métiers– Dimension générique: Toutes les dimensions doivent avoir la même structure– Architecture client serveur– Gestion des matrices creuses– Multi‐utilisateurs– Simplicité d'utilisation– Rapports de sortie ergonomiques– Temps de réponse stable: le nombre de dimensions et la taille de la base peuvent
augmenter sans influencer les performances du système.– Nombre illimité de dimension et de niveaux d'agrégation: – Croisement des dimensions: le système doit être capable de gérer les calculs
associés entre les dimensions sans faire appel à l'utilisateur
23
Les outils OLAP• Les outils relationnels OLAP (ROLAP)
– Les données sont stockées dans une base de données relationnelle, moteur OLAP permet de simuler le comportement d’un SGBD multidimensionnel
– .• Les outils MOLAP
– Utilisent un système multidimensionnel « pur » qui gère les structures multidimensionnelles natives (les cubes)
– Accès direct aux données dans le cube• Les outils HOLAP (Hybrid OLAP)
– tables de faits et tables de dimensions stockées dans SGBD relationnel (données de base)
– données agrégées stockées dans des cubes
24
Le cube• Modélisation multidimensionnelle des données facilitant
l’analyse d’une quantité selon différentes dimensions:– Temps– Localisation géographique– Produits– Fournisseurs– Clients– …
• Les calculs sont réalisés lors du chargement ou de la mise à jour du cube
• Un cube permet de visualiser les données selon plusieurs dimensions
• Un cuboïde est un cube de dimension n
25
treillis des cuboïdes
26
Exemple de cube
27
Treillis correspondant
28
Opérations typiques de l’OLAP
• Roll up : consolider (résumer) les données : Passer à un niveau supérieur dans la hiérarchie d’une dimension
• Drill down : l’inverse du Roll‐up : descendre dans la hiérarchie d’une dimension
• Slice et Dice (tranche et extraction): Projection et sélection du modèle relationnel
• Pivot (rotate): Réoriente le cube pour visualisation
29
Modélisation d'un DW • Inconvénients du modèle Entité/Relation
– Schéma très/trop complet pour l'analyse des données– Inapproprié pour l’analyse
• Le modèle multidimensionnelle– Concepts
• Les faits: mesurent l'activité ( exemple: quantité vendue) • Dimensions: Axes d'analyse • Attributs des dimensions
– Opérations sur les données• Drill Down: une donnée agrégée est visualisée à un niveau de détail plus fin• Consolidation: les données sont visualisées à un niveau plus agrégé• Slicing and Dicing : visualisation des données selon différentes perspectives.
– Principe• Ne pas trop normaliser les tables
30
Table de faits
• Table principale du modèle dimensionnel• Contient les données observables (les faits) sur le sujet étudié
selon divers axes d’analyse (les dimensions)
Table de faits des ventesClé Vendeur Clé produitClé MoisClé zone Quantité vendueMontant des ventes
Clés étrangères vers les dimensions
Faits
31
Types des faits
• Fait additif: additionnable suivant toutes les dimensions (ex: chiffre d’affaire)
• Fait semi additif: additionnable seulement suivant certaines dimensions – Exemple : nombre de clients, dimension produit (un même client peut
acheter plusieurs produits) .
• Fait non additif: non additionnable quelque soit la dimension (comptage des faits ou affichage 1 par 1, ex: prix unitaire d'un produit)
32
Granularité ou finesse la table de faits
• La granularité définit le niveau de détails de la table de faits– mois, jour, heure du jour– région ,magasin , rayonnage
33
Table de dimension• Axe d’analyse selon lequel vont être étudiées les faits• Contient le détail sur les faits• Dimension = axe d’analyse
– Client, produit, temps…• Granularité d’une dimension : nombre de niveaux hiérarchiques (ex:
continent, pays, région, ville)
Dimension produitClé produit (CP)Code produitDescription du produitFamille du produitsMarqueEmballagePoids
Clé primaire
Attributs de la dimension
34
Hiérarchie des dimensions
Année
Semestre
Trimestre
Mois
Saison
Date
Semaine
Hiérarchie multiple
Continent
Pays
Région
Ville
Quartier
Rue
Hiérarchie simple
35
La dimension Date
• Commune à l’ensemble du DW
• Reliée à toute table de faits
Dimension DateID Date (CP)Jour de la semaineJour du moisMoisTrimestreSemestre AnnéeNum_jour_dans_annéeNum_semaine_ds_année
36
Exemple de modèle en étoileDimension Temps
ID tempsannéemoisjour…Dimension Magasin
ID magasindescription
villesurface
…
Dimension RegionID régionpays
descriptiondistrict vente
….
Di i d it
…
Dimension produitID produit
nomcodeprixpoidsgroupefamille
…
Dimension ClientID clientnom
prénomadresse
…
bl d f i h
Montant des achats
Table de faits AchatID clientID tempsID magasinID régionID produit
Quantité achetéeMontant des achats
37
Le modèle en flocon• Dérivé du modèle en étoile• Les tables de dimension sont normalisées et le
redondances sont éliminées.• Comparaison étoile/flocon
– Flocon• Le modèle en flocon permet de montrer les hiérarchies entre dimensions
• La normalisation dans le modèle en flocon permet de réduire la taille des tables.
– Etoile• La dé‐normalisation du modèle permet d'améliorer les performances d'exécution des requêtes.
• Le modèle est plus facile à comprendre par l'utilisateur non informaticien
• Nombre de jointures limité.
38
Modèle en flocon
• Une table de fait et des dimensions décomposées en sous hiérarchies
• On a un seul niveau hiérarchique dans une table de dimension • La table de dimension de niveau hiérarchique le plus bas est
reliée à la table de fait. On dit qu’elle a la granularité la plus fine• Avantages:
– Normalisation des dimensions– Économie d’espace disque
• Inconvénients:– Modèle plus complexe (jointure)– Requêtes moins performantes
39
Modèle en floconDimension Temps
ID tempsanneemoisjour…
Dimension MagasinID magasindescription
villesurface
…
i i d i
…
Dimension produitID produitID groupe
nomcodeprixpoids…
Dimension ClientID clientnom
prénomadresse
…
Dimension groupeID groupeID famillenom…
Dimension FamilleID famille
nom…
Dimension Division venteID division vente
descriptionContinent
Dimension RegionID région
ID division ventepays
description….
bl d f i h
Montant des achats
Table de faits AchatID clientID tempsID magasinID régionID produit
Quantité achetéeMontant des achats
40
Etapes de modélisation d'un DW
• Choisir les processus métiers à modéliser : – Exemple : le processus "vente" .
• Définir la granularité de chaque processus:– Définir ce que représente chaque enregistrement dans la table des faits (exemple : une ligne de ticket de caisse).
• Choisir les dimensions – Exemple: date, produit, magasin, promotion
• Identifier les faits numériques:– Les faits ayant des granularités différentes doivent appartenir à des tables de fais différentes.
41
Exemple
MagasinID magasindescription
villesurface
…
PromotionID régionpays
descriptiondistrict vente
….
ProduitID produit
nomcodeprixpoidsgroupefamille
…
DateID clientnom
prénomadresse
…
VentesID Date
ID magasinID PromotionID produit
ID transaction POSQuantitéMontantCoût
Bénéfice brut
42
Exemple
MagasinID magasindescription
villesurface
…
PromotionID régionpays
descriptiondistrict vente
….
ProduitID produit
nomCatégorieMarque
Départementgroupefamille
…
DateID DateDate
Date complètejour de la semaine
MoisAnnée
Mois fiscalFérié
Week End
VentesID DateID tempsID magasinID PromotionID produit
ID transaction POSQuantitéMontantCoût
Bénéfice brut
43
Types de dimension
• Dimension dégénérée• Dimension à évolution lente• Dimension à évolution rapide
44
Dimension dégénérée (Degeneratedimension)
• La dimension dégénérée est une clé de dimension dans la ‘’table’’ des faits et qui n'est pas associée à une table dimension (exemples: numéro de POS, numéro de commande).
45
Dimensions à évolution lente
• Les attributs d'une dimension peuvent subir des changements.– Un client peut changer d’adresse, avoir des enfants, ...
– Un produit peut changer de noms, de composition;
3 solutions possibles:– Écrasement de l’ancienne valeur– Versionnement– Valeur d’origine / valeur courante.
46
Dimensions à évolution lenteSolution 1: Écrasement de l’ancienne valeur
– Avantage: • Facile à mettre en œuvre
– Inconvénients:• Perte de la trace des valeurs antérieures des attributs
Solution 2: Ajout d’un nouvel enregistrement.– Avantages:
• Permet de suivre l’évolution des attributs• Permet de segmenter la table de faits en fonction de l’historique
– Inconvénient:• Accroit le volume de la table
Solution 3: Ajout d’un nouvel attribut– Avantages:
• Avoir deux visions simultanées des données :– Inconvénient:
• Inadapté pour suivre plusieurs valeurs d’attributs intermédiaires
47
Dimension à évolution rapide• Subit des changements très fréquents (tous les mois) dont on veut préserver
l’historique• Solution: isoler les attributs qui changent rapidement et créer une mini‐dimension
48
Mini Dimension
Clé
Revenus
Nb_enfants
Dim client
Clé_client
Nom
Prénom
Adresse
…
Revenus
Nb_enfants
Dictionnaire de données
• C'est un référentiel de métadonnées destiné aux utilisateurs et à l'administrateur du DW– Une métadonnée permet de qualifier une données: sémantique, règle de calcul, provenance, qualité…
Alimentation d'un DW
• Opérations sur les données– Extraction
• Cette étape consiste à extraire d'une manière sélective les données appropriées.
– Transformation• Filtrer, trier, homogénéiser, nettoyer• Une même donnée peut avoir une structure ou une valeur différente selon la source (production, utilisateurs, externe).
• Une même entité peut apparaître plusieurs fois avec différents attributs selon les sources consultées.
50
Alimentation d'un DW
– Chargement dans l'entrepôt• Opérations de calcul et d'agrégation.• Définir la fréquence de chargement ( en général quotidiennement en début ou en fin de journée)
• ETLOutil permettant d’automatiser les chargements dans l’entrepôt
51