Upload
whitley
View
54
Download
6
Embed Size (px)
DESCRIPTION
Chapitre 1 :. Le Système d’information décisionnel : SID. Enjeux des entreprises. Objectifs stratégiques Améliorer les performances décisionnelles de l’entreprise. Identifier les tendances du marché. Connaître le passé pour anticiper sur le futur. Simuler des situations. - PowerPoint PPT Presentation
Citation preview
1
Chapitre 1 :
Le Système d’information décisionnel : SID
2
Enjeux des entreprises Objectifs stratégiques
Améliorer les performances décisionnelles de l’entreprise.
Identifier les tendances du marché. Connaître le passé pour anticiper sur le futur. Simuler des situations. Augmenter le rendement des actions commerciales. Augmenter les services fournis. Fidéliser sa clientèle.
Transformer les données du si en informations cohérentes et de qualités.
Meilleure connaissance de son activité. Disposer d’un pilotage fiable. Réaliser des analyses. Présenter des statistiques. Forer les informations.
3
Enjeux des entreprises Comment ?
En répondant aux demandes d’analyse des décideurs.
Réponses correctes et rapides
Exemple : Clientèle : Qui sont mes clients ? Comment les
conserver , les fidéliser ou les faire revenir ? Qui sont mes meilleurs clients depuis 5 ans.
Marketing : comment améliorer le ciblage de mes actions commerciales ? Ou placer ce produit dans les rayons.
Simuler les risques
4
Enjeux des entreprises Défi :
Transformer leur système d’information qui avait une vocation de production à un SI décisionnel dont la vocation de pilotage devient majeure:
Évoluer d’un SI production à un SI production + un SI décisionnel.
( Si = système d’information ).
5
Problématique Une grande masse de donnée :
Éparpillées Volatiles Incohérentes Pas ou peu de données externes.
Pour une utilisation par : Décideur
Pilotage par agrégats , investigations, analyses transversales Gestionnaire
Préparation de décision, simulation… Opérationnel
Accès à l’information élémentaires, requêtes adhoc
= utilisation par des NON INFORMATICIENS
6
Problématique Utilisation par des NON INFORMATICIENS :
Informations fiables et documentées. Accès à l’information via des outils conviviaux et
intuitifs. Des temps de réponses acceptables.
7
Métiers du décisionnel SPM : Strategic performance management.
Déterminer et controler les indicateurs clé de la performance de l’entreprise.
FI : Finance intelligence. Planifier, analyser et diffuser l’information financière. Mesurer et gérer les risques.
CRM : Customer relationship management. Améliorer la connaissance client. Identifier et prévoir la
rentabilité client. Accroître l’efficacité du marketing client.
SRM : Supplier relationship management. Classifier et évaluer l’ensemble des fournisseurs. Planifier et piloter la stratégie Achat.
8
la solution : Le sid L’ information courante et passée devient vitale
pour l’ entreprise.
Toutes les données utiles , qu’ elles proviennent du système de production de l’entreprise ou qu’elles soient achetées vont devoir être :
Organisées dans un ensemble cohérent. Intégrées. Stockées.
Pour constituer la mémoire de l’entreprise. Modèle d’intégration
Pour donner à l’utilisateur une vue intégrée et orientée métier de ces informations.
9
la solution : le data warehouse
Le système d’information décisionnel :
est un système d’information dédié aux applications décisionnelles :
En aval des bases de production ( des bases opérationnelles )
En amont des prises de décision
sid = data warehouse
10
chapitre 2 :
Définitions et objectifs du data warehouse.
11
L’entrepot de données : data warehouse
Définition de Bill Inmon (1996) : Le data warehouse est une collection de données
orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision.
Définition utilisateur : Un ensemble de données organisées spécifiquement et
utilisées pour l’aide à la décision. Une transformation et une représentation intelligente des
données en informations. Un pole d’informations détaillées, fiables,historisées et
facilement accessible et compréhensible.
12
L’entrepot de données : data warehouse
Des données aux informations :
Exemple : Le profil client à partir des données : - Emprunts - Épargne
- Carte de crédit
13
Les notions fondamentales : Les données du data warehouse sont :
Orientées sujet. Intégrées. Non volatiles. Agrégées en fonction du temps. Documentées.
Mémoire de l’entreprise
14
orientées sujets Disposer de l’ensemble des informations utiles sur
un sujet le plus souvent transversal aux structures fonctionnelles et organisationnelles de l’entreprise.
Le data warehouse est organisé autour des sujets majeurs de l’entreprise.
Client ; contrat ; contrôle de gestion ; salariés ..ect
Structuration par thème.
A noter : les données des différents sujets seront intégrées dans un modèle de données unique.
15
Données intégrées Divers sources de données.
A noter : possibilité de source externe. Il faut les collecter.
Elles ne sont pas structurées à l’identique. Il faut les filtrer, les transformer,les contrôler,les synchroniser.
Chaque donnée doit avoir : une seule définition. Un seul codage. Pas de redondance dans le modèle de donnée :
un attribut unique
Afin de garantir : Qualité de la donnée. Cohérence des résultats.
16
Données non volatiles Ne pas supprimer les données du DW. Les données sont datées. Pas d’annule et remplace. Historique :
On conserve les données détaillées avec un historique de plusieurs années
Objectif : analyser les tendances. La nouvelle valeur d’une donnée fait passer
l’ancienne en historique Objectif : analyser à périmètre fonctionnel stable.
il faudra choisir les données à historiser.
17
données agrégées en fonction du temps
Les données sont historisées pour suivre leurs évolutions.
Les données récentes : sont disponibles en ligne. Sont détaillées au niveau le plus fin. Concernent des utilisateurs experts et peu
nombreux. Les données anciennes :
Ne sont plus disponibles en ligne au niveau détail le plus fin, mais néanmoins archivées.
Sont disponibles en lignes consolidées, agrégées. Concernent la plupart des utilisateurs.
18
données documentées : les metadonnées
Les métadonnées ou dictionnaire des données :
Description technique des processus. Collecte : source et transformation des données.
Description technique des données. Description utilisateurs des données.
Sémantique des données. Règle de gestion. Localisation.
Les métadonnées sont mises à disposition dans un ou des référentiels.
19
données documentées : les metadonnées
Pour chaque colonne de chaque table : L’origine ( en production ). L’évolution : processus de transformation. L’historique : date des changements. La signification.
Ce référentiel sert : Aux processus d’alimentation. Aux utilisateurs.
20
Sio / sid : des objectifs différents
SIOpérationnel SIDécisionnelActivité au quotidien Analyse et aide à la
décision
Orienté mise à jour Lecture uniquement
Requêtes simples Requêtes évoluées
Faible volume manipulé (par transaction )
Gros volume manipulé ( par requêtes )
Consommation maîtrisée
Consommation aléatoire
Temps de réponse en seconde
Temps de réponse en minutes ou heures
Critique stratégique
21
Chapitre 3 :
Architecture du data warehouse
22
Systèmes intermédiaires L’ exploitation informationnelle des données
de production est antérieure à l’apparition du sid.
Mise a disposition des décideurs, de données assimilées à des informations de pilotage via des systèmes intermédiaires :
Tableaux de bord opérationnels à partir du sio. Outils de requêtes sur les données du sio. Outils de requêtes sur des données dédiées et
copiées à partir du sio. Outils de requêtes sur des données dédiées,
organisées à partir des données du sio ne sont pas un sid.
23
Systèmes intermédiaires Tableaux de bord opérationnels à
partir du sio. L’ application de production ne dispose que de
ses propres données et n’ offre pas de vision informationnelle adaptée au périmètre du domaine d’analyse.
Toute nouvelle requête informationnelle : Maintenance difficile, voir sur la structure
des données. Délai d’attente prohibitifs.
24
Systèmes intermédiaires outils de requêtes sur les données du
sio.
Données hétérogènes et incohérentes. Données non préparées à l’analyse
décisionnelle. Dépendance aux contraintes de la production. Temps de réponse élevés.
correspond à un outil de présentation adossé aux données de production.
25
Systèmes intermédiaires Outils de requêtes sur des données dédiées
et copiées à partir du sio. Avantage:
Données séparées entre les bases de production et les bases d’analyse.
Inconvénients : Données hétérogènes et incohérentes. Données non intégrées , non unifiées, non
documentées Difficulté d’écriture des requêtes.
correspond à une organisation de type infocentre.
26
Systèmes intermédiaires Outils de requêtes sur des données dédiées et
partiellement organisées. Avantages:
Données séparées entre les bases de production et les bases d’analyse.
Bribes de modèle de données unifiées et organisées pour une analyse métier.
Inconvénients : Pas de modèle de donnée complet. Pas ou peu de transformation des données. Pas ou peu de documentation. Difficulté d’écriture des requêtes.
correspond à une organisation de type infocentre évolué.
27
architecture de référence du sid
Nécessite deux dispositifs distincts :
Entrepôt ou data warehouse : Stockage des informations en un point unique.
Magasin de données ou Datamart : Stockage des données nécessaires à l’analyse d’un
thème (sujet ).
Un entrepôt unique. N Datamart suivant les thèmes à analyser.
28
architecture de référence du sid
Données de production
Entrepôt de données
datamart datamart …… datamart
sci
Outils de présentation
sdp
Utilisateurs finaux
29
architecture de référence du sid
Deux dispositifs distincts :
1. Le système de collecte et d’intégration :
La Fonction de collecte assure l’ approvisionnement des données du sid à partir des données de production.
La Fonction d’intégration des données assure la cohérence globale et le stockage en un point unique.
stocke les données dans l’entrepôt de données.
30
architecture de référence du sid
Deux dispositifs distincts : 2. Le système de diffusion et de présentation :
La Fonction de diffusion met à disposition des applications décisionnelles les données sous une forme dimensionnelle.
stocke les données orientées sujet dans un magasin de données.
La Fonction de présentation gère l’accès de l’utilisateur final aux données stockées sous forme dimensionnelle.
puise les données dans les magasins de données ( datamart ).
Fonction assurée par les outils de présentation.
31
l’entrepôt de données Mémoire de l’entreprise. Stockage des données en un point
unique. Données unifiées et documentées.
Modèle conceptuel de données classique :
Type entité/association. Normalisé en 3éme forme normale.
32
l’entrepôt de données Partie la plus complexe et difficile du sid.
En autres : Capture des données sans impacter le sio. Mode d’alimentation globale. Mode d’alimentation incrémentale. Modèle conceptuel évolutif. (gestion du temps) Volumétrie très importantes. Charge de recette importantes. Contrôle qualité des données avant chargement. Temps de chargement. Documentation Procédure de reprise des données ….
33
datamart Base de données thématique :
Stocke les données nécessaires à l’analyse du sujet.
Modéliser l’activité que l’on souhaite analyser.
Modélisation sous forme multidimensionnelle. Modèle en étoile. Modèle en Flocon. Cube multidimensionnel.
Orienté utilisateur finale : Compréhensible par l’utilisateur. Temps de réponse acceptable.
34
Architecture du sid Dans un sid :
Un entrepôt de données unique.
Un ensemble de datamart par sujet à traiter.
35
Chapitre 4 :
Construction du data warehouse
36
le système de Collecte et d’intégration : le sci
Objectif : alimenter le socle sur lequel repose le sid :
Socle = entrepôt de données.
L’ entrepôt de données est la base de données unique pour toutes les applications du système de diffusion et de présentation.
Le système sci : La partie du sid la plus complexe. Nombre de traitement important et lourd. Prototypage de la solution finale difficile. Ne doit pas perturber le système de production. Architecture propre à chaque entreprise.
37
le système de Collecte et d’intégration : le sci
Fonctions : Extrait, transforme, unifie et charge les données à
partir des sites de production. Génération des niveaux d’agrégation. Génération des règles de correspondance des
méta données. Génération des fichiers d’audit.
Technologie utilisée : Code manuel. Outils d’ extraction automatique : ETL
Etl = extract transformation loading
38
le système de Collecte et d’intégration : sci
Conception : Pour chaque table de l ’entrepôt :
Création de l’identifiant : Les identifiants sont propres à l’entrepôt.
Pour chaque donnée de la table : Recherche de la ou les données source dans le
sio. Définition des règles de transformation. Définition des règles d’agrégation. Définition de la périodicité de rafraîchissement.
Définition des règles et mode de contrôle des données avant intégration dans l’entrepôt de données.
39
le système de Collecte et d’intégration : sci
Architecture technique : Choix du mode de capture des données. Localisation des traitements :
Machine sio et/ou machine sid Procédure de contrôle des données. Procédure de réfection des données.
40
le système de Collecte et d’intégration : sci
Solution de collecte via un ods:
Ods : opérationnel data store : Les applications de production « déversent « les
données nécessaires au data warehouse dans un ensemble de fichiers normalisés.
L’ods sera la source de l’alimentation de l’entrepôt de données.
permet une indépendance entre le monde de la production et le monde du décisionnel.
simplifie la synchronisation des données entre les applications de production.
41
le système de présentation Le sdp est un ensemble d’applications
destiné à répondre aux demandes d’information des utilisateurs :
États prédéfinis. Requêtes paramétrables. Requêtes adhoc ( non connues à l’avance). Manipulation main libre. Simulation. Recherche de connaissance (corrélation des
données; data mining) Alertes. Applications verticales.
42
la modélisation dimensionnelle
Les Datamarts se modélisent sous forme multidimensionnelle :
Contient les informations destinées à répondre aux requêtes des utilisateurs.
objectifs datamart : Accessibilité des informations :
Facile à comprendre, donc facile à utiliser. Informations cohérentes :
Une seule réponse possible.(un seul chemin sql)
Incomplétude signalée. Temps de réponse acceptable.
43
la modélisation dimensionnelle
Différentes formes de modélisation.
Modèle en étoile. Modèle en flocon. Cube multidimensionnelle : olap
44
Modèle en étoile Datamart analyse des frais de
déplacement des commerciaux par région et véhicule :
Clé_employé
NomPrénomfonction Clé_employé
Clé_régionClé_véhiculeClé_mois
Frai_deplacKilométrage
Clé_véhicule
ImmatriculaPuissanceMarque
Clé_région
Régionpays
Clé_mois
MoisTrimestreSemestre
annéé
Table de Faits
Dimension employé
Dimensionvéhicule
Dimensionrégion
Dimensionmois
0,N
0,N
0,N
0,N
45
Modèle en étoile Une association unique et des entités.
La Table de fait = Association unique. Contient les faits ( mesure , indicateur ).
Une information déterminée par la combinaison de deux ou plusieurs entités.
Les Tables entités = les Dimensions. Contiennent les conditions :
caractéristique d’ une entité susceptible d’intervenir comme critère de définition d’une requête.
46
Modèle en étoile Les questions :
Quels ont été les frais de déplacement et le kilométrage des commerciaux de la région pays de la loire ayant des véhicules de 12 à 14 cv en juillet 1996.
La liste des noms des commerciaux de la région pays de la loire ayant des véhicules de 12 à 14 cv avec, pour chacun, les frais de déplacement, le kilométrage, et la marque de véhicule pour juillet 1996.
La liste des régions avec, pour chacune, les frais de déplacements de l’année en cours.
La liste des véhicules ayant parcouru plus de 50 000 km cette année.
47
Modèle en étoile hiérarchies:
Exemple : Département,région,pays Représente pour l’utilisateur des chemins de
consolidations d’indicateurs. Sont stockées dans les dimensions.
Résister à une normalisation sous forme entité association.
Modèle en flocon. Une dimension peut comporter plusieurs
hiérarchies.
48
Modèle en étoile le grain :
Le grain d’une dimension est le niveau de sélection le plus fin possible de cette dimension.
Le grain d’un datamart est le niveau de détail pouvant être obtenu par la requête la plus sélective et la plus fine possible mettant en jeu toutes les dimensions.
49
Modèle en étoile Propriété d’ additivité des faits :
Fait additif. Additionnable suivant toutes les
dimensions. Fait semi-additif.
Additionnable seulement suivant certaines dimensions.
Fait non additif. Non additionnable quelque soit la
dimension.
50
Modèle en étoile Les règles de base :
Règle 1 : il ne doit pas y avoir de dépendance fonctionnelle entre deux entités appartenant à des dimensions différentes.
Règle 2 : Tous les faits doit etre définis d’une maniére cohérente pour toutes les combinaisons dimensionnelles.
Règle 3 : Tous les faits doivent etre définis pour le grain.
Règle 4 : le graphe de chaque dimension doit être acyclique.
51
Modèle en flocon Datamart analyse des frais de
déplacement des commerciaux par région et véhicule :
Clé_employé
NomPrénomFonction # Clé_employé
Clé_régionClé_véhiculeClé_mois
Frai_deplacKilométrage
Clé_véhicule
ImmatriculaPuissanceMarque #
Clé_région
Région Pays #
Clé_mois
MoisTrimestre #
Table de Faits
Dimension employé
Dimensionvéhicule
Dimensionrégion
Dimensionmois
0,N
0,N
0,N
0,N
Clé_fonction
Gradesal_minSal_max
Clé_pays
PaysContinentDevise
Clé_marque
ConstructeurPays_contruc
….
Clé_trimestre
Lib_trimSemestre #
Clé_semestre
Lib_semAnnée #
trimestre semestre
marque
pays
fonction
Clé_Année
Typ_année
Année
52
Modèle en flocon Modèle en flocon = modèle en étoile +
normalisation des dimensions Lorsque les tables sont trop volumineuses. Avantages :
Réduction du volume Inconvénients :
Nombreuses jointures. Performances dégradées.
Règles : Préférer le modèle en étoile au modèle en flocon.
53
les faits Faits dynamiques et faits statiques.
Un fait dynamique représente un flux affectant le système observé.
Ex : montant d’un dépôt, d’un retrait Sont généralement additif. Peuvent se produire un nombre quelconque de fois
au cours d’une période.
Un fait statique est un élément descriptif de l’état du système à un instant donné.
Ex : solde d’un compte courant. Sont généralement semi-additif ( excepté sur la
dimension temps )
54
Les faits. Faits dynamiques et faits statiques.
En théorie : un fait statique peut être reconstitué à partir de l’histoire d’un fait dynamique.
Ne nécessite pas de stockage.
En pratique : le stockage des faits statiques peut apporter une valeur ajoutée :
Pas de nécessité de stocker l’ensemble des faits dynamiques.
L’utilisateur peut s’intéresser uniquement aux faits statiques.
55
Les faits. Faits dynamiques et faits statiques.
coexistence de faits statiques et dynamiques dans le datamart.
Implique des comportements différents des faits dans les hiérarchies.
Implique présentation des méthodes de consolidation des faits aux utilisateurs.
Les méthodes de consolidation des faits doivent faire partie intégrante des méta-données.
56
Les formes dimensionnelles complexes.
Dérives dimensionnelles : Dérive de contenu. Dérive de périmètre.
Les indicateurs qualifiés. Dimension douteuse. Dimension dégénérée. Dimension causale. Dimension temps. Inégalité temporelle. Les grandes dimensions. Les entités hétérogènes. Table de faits sans fait. Les agrégats.
57
Dérive de contenu Modification des attributs des
dimensions : L’ écoulement du temps :
Ajoute de nouveaux faits. Modifie les attributs des dimensions :
changement de situation de famille changement de condition de log
Ces dérives dimensionnelles doivent être prises en compte dés la conception du modèle dimensionnel.
58
Dérive de contenu Dimensions à évolution lente :
Dimension presque constante mais dont certains attributs changent de valeurs dans le temps.
Solutions : 1 type : Perdre les valeurs anciennes. 2 type : Créer un nouveau enregistrement. 3 type : Créer des champs actuels et
historiques à l’intérieur de l’enregistrement d’origine.
Ne pas tout mettre dans la table de faits.
59
Dimension à évolution lente du 2 éme type
Créer un nouveau enregistrement.
Nécessite une extension de la clé primaire. Clé étendue = Clé primaire + suffixe de
version Clé étendue gérée par l’équipe de l’entrepôt.
Deux possibilités : Attributs permanents et mouvants dans la
table de dimension. (modèle en étoile ) Création d’une table avec uniquement les
attributs changeants. ( modèle en flocon )
60
Dimension à évolution lente du 2 éme type
Partitionne l’historique :
la table de faits assurera la relation à l’enregistrement actuel ou historique de la dimension à évolution lente.
Pas de nécessité de gérer des dates d’effet dans la dimension à évolution lente.
Ne permet pas le what if sur l’histoire. (ce que l’histoire aurait été si la situation avait été celle-là depuis le début).
Tous les changements sont conservés.
61
Dimension à évolution du 3éme
type Créer des champs actuels et historiques à
l’intérieur de l’enregistrement d’origine. Attribut actuel et attribut d’origine + date
effet de l’attribut actuel. Pas de partitionnement de l’historique dans la
table de fait. Nécessite d’utiliser la date effet pour
partitionner l’historique. Les valeurs intermédiaires sont perdues.
Permet de suivre à la fois l’ancienne et la nouvelle valeur.
62
Dérive de périmètre Les dérives de périmètre sont des
changements de dimension liés généralement à des mutations que traversent les entreprises ( fusions, cessions, réorganisations internes).
Elles sont parfois assimilables à des dérives de contenu et peuvent être traitées selon cette méthode.
63
Dérive de périmètre exemple
Changement de périmètre d’une région commerciale :
Ajout du département de la Loire atlantique. Les analyses peuvent s’intéresser au périmètre de la
région tel qu’il était au début de la période analysée,ou tel qu’il est aujourd’hui.
Si ce besoin d’analyse à périmètre variable est vérifié alors nécessité de représenter cette dérive dans le datamart.
Autre Solution possible : la méthode des indicateurs qualifiés
64
Les indicateurs qualifiés Plusieurs indicateurs d’un domaine d’analyse
peuvent correspondre en réalité à plusieurs façons de représenter un même indicateur fonctionnel.
Un même montant peut ainsi être exprimé : hors taxes et taxes incluses. en euros, en dollars. selon plusieurs unité de mesure.
Ce sont des faits différemment qualifiés,différemment représentés ou encore exprimés selon des métriques différents.
Ne spécifier comme faits que les indicateurs véritablement distincts.
65
Les indicateurs qualifiés Implémentation :
Le fait qualifié ( fondamental ) est présent une seule fois en tant que fait dans la table des faits.
Toutes ses qualifications possibles sont définies par des dimensions supplémentaires d’un type particulier, pouvant se combiner avec les autres dimensions.
Ce sont des dimensions qualificatives.
Exemple : avoir plusieurs indicateurs correspondants chacun à un certain découpage régional passé ou actuel.
66
Dimension douteuse Dimension contenant :
De nombreux doublons. Des informations douteuses.
Exemple : une dimension client dans laquelle la même personne peut apparaître de nombreuses fois, éventuellement avec des orthographes de nom légèrement différentes, et d’autres attributs.
Liée à une qualité médiocre des informations en production.
Si dimension douteuse alors étudier la possibilité de nettoyer les données de production.
La qualité d’un sid repose sur la qualité des données en production.
« Le sid ne doit pas masquer les problèmes de production. »
67
Dimension dégénérée Une clé de dimension, tel qu’un numéro
de facture, un numéro de ticket qui n’a pas d’ attribut, et donc n’a pas de table de dimension.
Exemple : un modèle dimensionnel avec une table de fait contenant la clé date et sans table de dimension temps.
68
Dimension Causale
Dimension qui provoque le fait.
Ex : Dans une analyse des ventes liée au suivi des promotions d’un magasin, la dimension promotion est supposée avoir provoquée le fait.
69
Dimension temps Commune à tout datamart. (sauf exception)
2 choix d’implantation :
Type sql date sans dimension temps. Jour,mois,trimestre calculés à partir de la
clé date de la table de fait.
Dimension temps. Jours fériés, vacances, période fiscale…. Événement ( match de finale de coupe du
monde)
70
Inégalité du temps Forte inégalité du grain temporel
invoqué par les utilisateurs. Fréquemment, les utilisateurs analysent :
Les données journalières du mois en cours. Les données agrégées sur les mois de
l’année en cours. (ou la photo des données à fin de mois)
Les données agrégées sur l’année des années précédentes. (ou la photo des données au 31/12).
Ces fortes différences temporelles d’analyse seront à traiter dans l’ analyse des agrégats.
71
Les grandes dimensions Les minidimensions :
Objectifs : Améliorer les temps de réponse.
Dans une dimension : Bon nombre de champs ne sont presque
jamais la source de contraintes. Souvent, les champs source de contraintes
sont parfaitement connus.
Exemple : soit une dimension client :les champs fortement utilisés
sont les champs démographiques, tels que l’age, le sexe, le nombre d’enfants, le niveau de ressources, le niveau d’éducation et des mesures de comportement en matière d’achat et de crédits.
72
Les grandes dimensions Solution : créer des minidimensions
En regroupant dans une minidimension des attributs choisis pour ne comporter qu’un nombre limité de combinaison de valeurs.
Les attributs type age seront des fourchettes de valeurs.
Soit directement liée à la table de fait, soit liée à la table de dimension « mère « .
A noter : possible d’ intégrer la clé primaire de la minidimension dans la table mère.
Conseil : moins de 100 000 combinaisons distinctes des attributs choisis.
73
Les entités hétérogènes Dans un contexte d’analyse ou les attributs
des dimensions et des faits sont hétérogènes Il est recommandé de :
Créer une table de faits réduite et une table de dimension réduite permettant aux requêtes de naviguer dans les types disparates.
Créer une table de fait particularisée et une table de dimension particularisée pour faire des requêtes en profondeur sur chaque type particulier.
Exemple : dans une banque : - table de faits et dimensions réduites de tous les comptes. - table de faits et dimension particularisée des comptes de chèques - table de faits et diemension particularisée des comptes épargne
- …ect
74
Table de faits réduites et particularisées.
Application avec des produits hétérogènes Des attributs et faits commun. De nombreux Attributs et faits valables pour un
seul produit. Compte de chèque, compte d’ épargne, compte
titre… Police et sinistre automobile, habitation…
Objectifs : Permettre une analyse globale. Permettre une analyse détaillée. En veillant :
Compréhension du datamart Économie de place.
75
Table de faits réduites et particularisées.
Solution: Créer un datamart générique avec :
Table de fait réduite Table de dimension réduite.
Créer des datamarts spécialisés métiers : Table de fait particularisé. Table de dimension particularisé.
A noter : tous les faits du datamart générique sont présents dans la table de fait particularisée.
76
Table de faits sans fait Table de faits composée uniquement de
clés sur les dimensions. Absence de faits mesurés.
Deux principales variétés de table de fait sans fait :
Tables de suivi d’événement Tables de couverture
77
Table de faits sans fait Tables de suivi d’événement
Exemple : Analyse de la fréquentation journalière dans une université.
Dimension Cours , Étudiant, heure/date, professeur,
salle de cours. Table de fait : Clé cours,clé étudiant, clé heure/date,
clé professeur, clé salle de cours.
78
Table de faits sans fait Tables de couverture : des tables
d’événement qui n’ont pas eu lieu. Exemple : quels articles étaient en promotion
et ne se sont pas vendus : Dimension Temps, magasin, produit, promotion. Table de couverture : indique quels produits étaient ou sont en
promotion.
79
Les agrégats Gestion des agrégats dans le système de collecte et
d’intégration. Objectifs :
Réduire le volume de l’entrepôt et simplifier sa structure.
Comment : Éliminer les données opérationnelles détaillées et
les remplacer par des données plus synthétiques. Les valeurs détaillées ne sont pas enregistrées dans
l’entrepôt ( attention au reprise ! ). Seules les valeurs synthétiques sont stockées dans
l’entrepôt. Remarques :
N’introduit pas de dénormalisation. A effectuer le plus en amont des traitements.
80
Les agrégats Gestion des agrégats dans le système de diffusion et
de présentation. ( au niveau datamart ) Objectifs :
Améliorer de façon significative les temps de réponse. Réduire le volume des données.
Comment : Créer des datamarts agrégés dans lesquels seront pré
calculer les informations très utilisées par les utilisateurs à partir des données élémentaires.
Conserver les données élémentaires.
Remarques : Introduit de la redondance des données. Les données élémentaires sont toujours disponibles.
81
Les agrégats Gestion des agrégats dans le système de diffusion
et de présentation. ( au niveau datamart )
Exemples : Cumul des ventes par mois et vendeur à partir
des données journalières. Cumul des ventes par année et vendeur à partir
des données journalières. Les données ventes journalières sont
disponibles sur trois mois glissants.
Détention contrat d’un foyer à partir des détentions contrats des membres du foyer.
82
olap Objectifs :
Permettre à l’utilisateur une navigation main libre dans les données.
Manipulation libres et intuitives. Pas de nécessité d’ écrire ou de lancer une
requête pour continuer l’analyse. Temps de réponse très courts.
Les agrégats sont pré-calculés. S’appuie sur un stockage des données sous
forme d’hypercube. ( structure matricielle ).
83
olap Contraintes :
Temps de construction du cube. Temps de calcul des combinaisons
dimensionnelles. Base de stockage est « souvent « propriétaire.
La pré agrégation génère des volumes de données totales importantes.
Ajout d’axes peut s’avérer difficile. Temps de chargement prohibitifs.
Maintenance peut s’avérer difficile. Le périmètre d’analyse est figé.
84
olap Quand utiliser l’ olap :
Intéressant lorsque les angles d’analyse sont parfaitement connus.
Généralement, correspond à des applications mises à disposition d’utilisateur presse bouton devant naviguer facilement et rapidement dans un ensemble de données importants :
Navigation main libre : Drill down : zoom sur les données Slice and dice : changement d’axe
d’analyse
85
olap : les architectures Deux architectures : se distinguent sur le mode
de stockage des données. Molap : Multidimensionnel Olap
Logiciel de manipulation des données adossé à une base de donnée matricielle de type propriétaire.
Hypercube local ou partagé. Coût élevé des licences en général.
Rolap : Relationnel Olap Logiciel de manipulation des données adossé à une
base de données relationnelles Présentation multidimensionnelle.(hypercube
virtuelle). Peut autoriser l’utilisateur à passer « à travers «
l’hypercube pour exécuter des requêtes directes.
86
Chapitre 5 :
La démarche
87
La démarche Comment procéder : deux étapes
fondamentales.
1ére étape :
Définition des objectifs stratégiques du sid. Priorisation des objectifs stratégiques. Choix de l’architecture technique globale.
88
La démarche 2éme étape : Pour chaque projet :
L’étude préalable. Réalisation entrepôt :
Alimentation de l’entrepôt. Dictionnaire des données. Recette données entrepôt.
Réalisation datamart : Création des datamarts. Dictionnaire des données. Recette données datamart.
Mise en œuvre outil de restitution. Dictionnaire utilisateur. Recette utilisateurs finaux. Déploiement. Formation.
89
Définition des objectifs stratégiques du sid.
Identifier la stratégie globale du sid : Synergie entre les objectifs du datawarehouse et la
stratégie de l’entreprise. Projet d’entreprise validé par la direction générale,
construit par itération. Identifier le sponsor :
Fonctionnel, surtout pas technique. Mandaté par le management. Connaissance de l’entreprise. Chargé de mettre en place une équipe
motivée,écoutée et connaissant le métier à modéliser
Gestionnaire du projet globale. Définir les objectifs fondamentaux. Estimer Budget et calendrier de réalisation.
90
Priorisation des objectifs La démarche de mise en œuvre est :
Itérative Incrémentale
« Fonctionner par lot «
Un data warehouse réussi n’est jamais terminé.
Il faut prioriser les objectifs.
91
Choix de l’architecture technique globale
Objectifs : Avant le démarrage du premier projet, choisir
l’architecture globale de votre datawarehouse. En particulier :
Règles de capture et transformation des données. Règle d’impact sur la production
Modèle conceptuel de votre entrepôt. Le modèle devra être évolutif.
Vision des outils nécessaires à la diffusion et présentation des données.
Machines.
92
l’étude préalable Mise en place du groupe d’utilisateurs
pilotes. Expressions des besoins.
Réunions difficiles à organiser. Recherche des données sources. Choix des datamarts. Etude de faisabilité Coût et délai
93
Facteur de succès : Un projet d’entreprise. Une équipe pluri-disciplinaire.
La direction générale. Le sponsor du projet (connaissance métier) Le chef de projet La direction informatique (étude et exploitation) Les spécialistes technique
Choisir le bon sponsor utilisateur. Choisir un « premier « projet visible et utile. Procéder par étapes. Documenter les données en amont (informatique)
et en aval (utilisateur ). Communiquer.
94
Éviter les écueils : Choisir un chef de projet technologique. Faire trop de promesses au début. Raisonner données et non informations Faire l’impasse sur les métadonnées. Surcharger l’entrepôt d’informations. Privilégier l’approche pharaonique.
95
Référentiel Le dictionnaire ou référentiel de
données est l’ensemble des méta-données.
Renferme des informations : Technique :
Modèle de l’entrepôt. Règles d’alimentation et de transformation
des données Utilisateurs :
Définition des datamarts. Définition des données. Règles d’ utilisation des données.
96
Chapitre 6 :
Les outils
97
les outils Rappel : l’important est de disposer d’une architecture,
une base décisionnelle autour de laquelle greffer les outils les mieux adaptés à chaque besoin.
Envisageable de disposer de plusieurs outils.(la suite décisionnelle).
L’ architecture doit être indépendante du choix de ces outils.
L’ approbation de l’outil par les utilisateurs est cependant un prérequis.
98
panorama des outils Les outils d’infocentre ( les Requeteurs )
Business Objects : www.businessobjects.com
Cognos : impromptu www.cognos.com
Ibf information builders : focus www.ibi.com
Sas : Enterprise reporter www.sas.com
Oracle : discoverer www.oracle.com
99
panorama des outils Les outils multidimensionnels
(Analyse main libre ) Cognos : Powerplay Oracle : Express Hyperion : Essbase Discoverer Microstrategy : Dss server Sas : sas mddb Microsoft plato
100
panorama des outils Les outils datamining : Recherche de
tendances ou corrélations entre les données.
Ibm : intelligent miner Sas : Enterprise Miner. Isoft : Alice Neural connection :Spss
101
Chapitre 7 :
Divers
102
Critères de choix du sgbr/r
Mécanisme de fragmentation des tables. Partitionnement d’une table.
Chargement et indexation rapides des données. Compression des tables et des indexs. Exécution des requêtes en mode parallèle. Réplication des données.
Technique d’index adaptée aux requêtes décisionnelles.
Index bit map Technique de chemin d’accès adaptée aux requêtes
décisionnelles. Arrêt automatique des requêtes.
103
vocabulaire :
Drill down : aller vers les données détaillées ( forer vers le bas )
Drill up : aller du détail vers le global. Drill across : changer de dimension d’analyse Slice and dice : couper en tranches et couper en
dés. vocable regroupant drill down, drill accross. Eis : executive information system :
Système d’information des décideurs sous forme de tableau de bord automatisé.
Siad : système interactif d’aide à la décision : Outil de représentation interactive des données
permettant une navigation libre dans les données.