Chapitre 1 :

1

Chapitre 1 :

Le Système d’information décisionnel : SID

2

Enjeux des entreprises Objectifs stratégiques

Améliorer les performances décisionnelles de l’entreprise.

Identifier les tendances du marché. Connaître le passé pour anticiper sur le futur. Simuler des situations. Augmenter le rendement des actions commerciales. Augmenter les services fournis. Fidéliser sa clientèle.

Transformer les données du si en informations cohérentes et de qualités.

Meilleure connaissance de son activité. Disposer d’un pilotage fiable. Réaliser des analyses. Présenter des statistiques. Forer les informations.

3

Enjeux des entreprises Comment ?

En répondant aux demandes d’analyse des décideurs.

Réponses correctes et rapides

Exemple : Clientèle : Qui sont mes clients ? Comment les

conserver , les fidéliser ou les faire revenir ? Qui sont mes meilleurs clients depuis 5 ans.

Marketing : comment améliorer le ciblage de mes actions commerciales ? Ou placer ce produit dans les rayons.

Simuler les risques

4

Enjeux des entreprises Défi :

Transformer leur système d’information qui avait une vocation de production à un SI décisionnel dont la vocation de pilotage devient majeure:

Évoluer d’un SI production à un SI production + un SI décisionnel.

( Si = système d’information ).

5

Problématique Une grande masse de donnée :

Éparpillées Volatiles Incohérentes Pas ou peu de données externes.

Pour une utilisation par : Décideur

Pilotage par agrégats , investigations, analyses transversales Gestionnaire

Préparation de décision, simulation… Opérationnel

Accès à l’information élémentaires, requêtes adhoc

= utilisation par des NON INFORMATICIENS

6

Problématique Utilisation par des NON INFORMATICIENS :

Informations fiables et documentées. Accès à l’information via des outils conviviaux et

intuitifs. Des temps de réponses acceptables.

7

Métiers du décisionnel SPM : Strategic performance management.

Déterminer et controler les indicateurs clé de la performance de l’entreprise.

FI : Finance intelligence. Planifier, analyser et diffuser l’information financière. Mesurer et gérer les risques.

CRM : Customer relationship management. Améliorer la connaissance client. Identifier et prévoir la

rentabilité client. Accroître l’efficacité du marketing client.

SRM : Supplier relationship management. Classifier et évaluer l’ensemble des fournisseurs. Planifier et piloter la stratégie Achat.

8

la solution : Le sid L’ information courante et passée devient vitale

pour l’ entreprise.

Toutes les données utiles , qu’ elles proviennent du système de production de l’entreprise ou qu’elles soient achetées vont devoir être :

Organisées dans un ensemble cohérent. Intégrées. Stockées.

Pour constituer la mémoire de l’entreprise. Modèle d’intégration

Pour donner à l’utilisateur une vue intégrée et orientée métier de ces informations.

9

la solution : le data warehouse

Le système d’information décisionnel :

est un système d’information dédié aux applications décisionnelles :

En aval des bases de production ( des bases opérationnelles )

En amont des prises de décision

sid = data warehouse

10

chapitre 2 :

Définitions et objectifs du data warehouse.

11

L’entrepot de données : data warehouse

Définition de Bill Inmon (1996) : Le data warehouse est une collection de données

orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision.

Définition utilisateur : Un ensemble de données organisées spécifiquement et

utilisées pour l’aide à la décision. Une transformation et une représentation intelligente des

données en informations. Un pole d’informations détaillées, fiables,historisées et

facilement accessible et compréhensible.

12

L’entrepot de données : data warehouse

Des données aux informations :

Exemple : Le profil client à partir des données : - Emprunts - Épargne

- Carte de crédit

13

Les notions fondamentales : Les données du data warehouse sont :

Orientées sujet. Intégrées. Non volatiles. Agrégées en fonction du temps. Documentées.

Mémoire de l’entreprise

14

orientées sujets Disposer de l’ensemble des informations utiles sur

un sujet le plus souvent transversal aux structures fonctionnelles et organisationnelles de l’entreprise.

Le data warehouse est organisé autour des sujets majeurs de l’entreprise.

Client ; contrat ; contrôle de gestion ; salariés ..ect

Structuration par thème.

A noter : les données des différents sujets seront intégrées dans un modèle de données unique.

15

Données intégrées Divers sources de données.

A noter : possibilité de source externe. Il faut les collecter.

Elles ne sont pas structurées à l’identique. Il faut les filtrer, les transformer,les contrôler,les synchroniser.

Chaque donnée doit avoir : une seule définition. Un seul codage. Pas de redondance dans le modèle de donnée :

un attribut unique

Afin de garantir : Qualité de la donnée. Cohérence des résultats.

16

Données non volatiles Ne pas supprimer les données du DW. Les données sont datées. Pas d’annule et remplace. Historique :

On conserve les données détaillées avec un historique de plusieurs années

Objectif : analyser les tendances. La nouvelle valeur d’une donnée fait passer

l’ancienne en historique Objectif : analyser à périmètre fonctionnel stable.

il faudra choisir les données à historiser.

17

données agrégées en fonction du temps

Les données sont historisées pour suivre leurs évolutions.

Les données récentes : sont disponibles en ligne. Sont détaillées au niveau le plus fin. Concernent des utilisateurs experts et peu

nombreux. Les données anciennes :

Ne sont plus disponibles en ligne au niveau détail le plus fin, mais néanmoins archivées.

Sont disponibles en lignes consolidées, agrégées. Concernent la plupart des utilisateurs.

18

données documentées : les metadonnées

Les métadonnées ou dictionnaire des données :

Description technique des processus. Collecte : source et transformation des données.

Description technique des données. Description utilisateurs des données.

Sémantique des données. Règle de gestion. Localisation.

Les métadonnées sont mises à disposition dans un ou des référentiels.

19

données documentées : les metadonnées

Pour chaque colonne de chaque table : L’origine ( en production ). L’évolution : processus de transformation. L’historique : date des changements. La signification.

Ce référentiel sert : Aux processus d’alimentation. Aux utilisateurs.

20

Sio / sid : des objectifs différents

SIOpérationnel SIDécisionnelActivité au quotidien Analyse et aide à la

décision

Orienté mise à jour Lecture uniquement

Requêtes simples Requêtes évoluées

Faible volume manipulé (par transaction )

Gros volume manipulé ( par requêtes )

Consommation maîtrisée

Consommation aléatoire

Temps de réponse en seconde

Temps de réponse en minutes ou heures

Critique stratégique

21

Chapitre 3 :

Architecture du data warehouse

22

Systèmes intermédiaires L’ exploitation informationnelle des données

de production est antérieure à l’apparition du sid.

Mise a disposition des décideurs, de données assimilées à des informations de pilotage via des systèmes intermédiaires :

Tableaux de bord opérationnels à partir du sio. Outils de requêtes sur les données du sio. Outils de requêtes sur des données dédiées et

copiées à partir du sio. Outils de requêtes sur des données dédiées,

organisées à partir des données du sio ne sont pas un sid.

23

Systèmes intermédiaires Tableaux de bord opérationnels à

partir du sio. L’ application de production ne dispose que de

ses propres données et n’ offre pas de vision informationnelle adaptée au périmètre du domaine d’analyse.

Toute nouvelle requête informationnelle : Maintenance difficile, voir sur la structure

des données. Délai d’attente prohibitifs.

24

Systèmes intermédiaires outils de requêtes sur les données du

sio.

Données hétérogènes et incohérentes. Données non préparées à l’analyse

décisionnelle. Dépendance aux contraintes de la production. Temps de réponse élevés.

correspond à un outil de présentation adossé aux données de production.

25

Systèmes intermédiaires Outils de requêtes sur des données dédiées

et copiées à partir du sio. Avantage:

Données séparées entre les bases de production et les bases d’analyse.

Inconvénients : Données hétérogènes et incohérentes. Données non intégrées , non unifiées, non

documentées Difficulté d’écriture des requêtes.

correspond à une organisation de type infocentre.

26

Systèmes intermédiaires Outils de requêtes sur des données dédiées et

partiellement organisées. Avantages:

Données séparées entre les bases de production et les bases d’analyse.

Bribes de modèle de données unifiées et organisées pour une analyse métier.

Inconvénients : Pas de modèle de donnée complet. Pas ou peu de transformation des données. Pas ou peu de documentation. Difficulté d’écriture des requêtes.

correspond à une organisation de type infocentre évolué.

27

architecture de référence du sid

Nécessite deux dispositifs distincts :

Entrepôt ou data warehouse : Stockage des informations en un point unique.

Magasin de données ou Datamart : Stockage des données nécessaires à l’analyse d’un

thème (sujet ).

Un entrepôt unique. N Datamart suivant les thèmes à analyser.

28


Données de production

Entrepôt de données

datamart datamart …… datamart

sci

Outils de présentation

sdp

Utilisateurs finaux

29


Deux dispositifs distincts :

1. Le système de collecte et d’intégration :

La Fonction de collecte assure l’ approvisionnement des données du sid à partir des données de production.

La Fonction d’intégration des données assure la cohérence globale et le stockage en un point unique.

stocke les données dans l’entrepôt de données.

30


Deux dispositifs distincts : 2. Le système de diffusion et de présentation :

La Fonction de diffusion met à disposition des applications décisionnelles les données sous une forme dimensionnelle.

stocke les données orientées sujet dans un magasin de données.

La Fonction de présentation gère l’accès de l’utilisateur final aux données stockées sous forme dimensionnelle.

puise les données dans les magasins de données ( datamart ).

Fonction assurée par les outils de présentation.

31

l’entrepôt de données Mémoire de l’entreprise. Stockage des données en un point

unique. Données unifiées et documentées.

Modèle conceptuel de données classique :

Type entité/association. Normalisé en 3éme forme normale.

32

l’entrepôt de données Partie la plus complexe et difficile du sid.

En autres : Capture des données sans impacter le sio. Mode d’alimentation globale. Mode d’alimentation incrémentale. Modèle conceptuel évolutif. (gestion du temps) Volumétrie très importantes. Charge de recette importantes. Contrôle qualité des données avant chargement. Temps de chargement. Documentation Procédure de reprise des données ….

33

datamart Base de données thématique :

Stocke les données nécessaires à l’analyse du sujet.

Modéliser l’activité que l’on souhaite analyser.

Modélisation sous forme multidimensionnelle. Modèle en étoile. Modèle en Flocon. Cube multidimensionnel.

Orienté utilisateur finale : Compréhensible par l’utilisateur. Temps de réponse acceptable.

34

Architecture du sid Dans un sid :

Un entrepôt de données unique.

Un ensemble de datamart par sujet à traiter.

35

Chapitre 4 :

Construction du data warehouse

36

le système de Collecte et d’intégration : le sci

Objectif : alimenter le socle sur lequel repose le sid :

Socle = entrepôt de données.

L’ entrepôt de données est la base de données unique pour toutes les applications du système de diffusion et de présentation.

Le système sci : La partie du sid la plus complexe. Nombre de traitement important et lourd. Prototypage de la solution finale difficile. Ne doit pas perturber le système de production. Architecture propre à chaque entreprise.

37

le système de Collecte et d’intégration : le sci

Fonctions : Extrait, transforme, unifie et charge les données à

partir des sites de production. Génération des niveaux d’agrégation. Génération des règles de correspondance des

méta données. Génération des fichiers d’audit.

Technologie utilisée : Code manuel. Outils d’ extraction automatique : ETL

Etl = extract transformation loading

38

le système de Collecte et d’intégration : sci

Conception : Pour chaque table de l ’entrepôt :

Création de l’identifiant : Les identifiants sont propres à l’entrepôt.

Pour chaque donnée de la table : Recherche de la ou les données source dans le

sio. Définition des règles de transformation. Définition des règles d’agrégation. Définition de la périodicité de rafraîchissement.

Définition des règles et mode de contrôle des données avant intégration dans l’entrepôt de données.

39


Architecture technique : Choix du mode de capture des données. Localisation des traitements :

Machine sio et/ou machine sid Procédure de contrôle des données. Procédure de réfection des données.

40


Solution de collecte via un ods:

Ods : opérationnel data store : Les applications de production « déversent « les

données nécessaires au data warehouse dans un ensemble de fichiers normalisés.

L’ods sera la source de l’alimentation de l’entrepôt de données.

permet une indépendance entre le monde de la production et le monde du décisionnel.

simplifie la synchronisation des données entre les applications de production.

41

le système de présentation Le sdp est un ensemble d’applications

destiné à répondre aux demandes d’information des utilisateurs :

États prédéfinis. Requêtes paramétrables. Requêtes adhoc ( non connues à l’avance). Manipulation main libre. Simulation. Recherche de connaissance (corrélation des

données; data mining) Alertes. Applications verticales.

42

la modélisation dimensionnelle

Les Datamarts se modélisent sous forme multidimensionnelle :

Contient les informations destinées à répondre aux requêtes des utilisateurs.

objectifs datamart : Accessibilité des informations :

Facile à comprendre, donc facile à utiliser. Informations cohérentes :

Une seule réponse possible.(un seul chemin sql)

Incomplétude signalée. Temps de réponse acceptable.

43

la modélisation dimensionnelle

Différentes formes de modélisation.

Modèle en étoile. Modèle en flocon. Cube multidimensionnelle : olap

44

Modèle en étoile Datamart analyse des frais de

déplacement des commerciaux par région et véhicule :

Clé_employé

NomPrénomfonction Clé_employé

Clé_régionClé_véhiculeClé_mois

Frai_deplacKilométrage

Clé_véhicule

ImmatriculaPuissanceMarque

Clé_région

Régionpays

Clé_mois

MoisTrimestreSemestre

annéé

Table de Faits

Dimension employé

Dimensionvéhicule

Dimensionrégion

Dimensionmois

0,N

0,N

0,N

0,N

45

Modèle en étoile Une association unique et des entités.

La Table de fait = Association unique. Contient les faits ( mesure , indicateur ).

Une information déterminée par la combinaison de deux ou plusieurs entités.

Les Tables entités = les Dimensions. Contiennent les conditions :

caractéristique d’ une entité susceptible d’intervenir comme critère de définition d’une requête.

46

Modèle en étoile Les questions :

Quels ont été les frais de déplacement et le kilométrage des commerciaux de la région pays de la loire ayant des véhicules de 12 à 14 cv en juillet 1996.

La liste des noms des commerciaux de la région pays de la loire ayant des véhicules de 12 à 14 cv avec, pour chacun, les frais de déplacement, le kilométrage, et la marque de véhicule pour juillet 1996.

La liste des régions avec, pour chacune, les frais de déplacements de l’année en cours.

La liste des véhicules ayant parcouru plus de 50 000 km cette année.

47

Modèle en étoile hiérarchies:

Exemple : Département,région,pays Représente pour l’utilisateur des chemins de

consolidations d’indicateurs. Sont stockées dans les dimensions.

Résister à une normalisation sous forme entité association.

Modèle en flocon. Une dimension peut comporter plusieurs

hiérarchies.

48

Modèle en étoile le grain :

Le grain d’une dimension est le niveau de sélection le plus fin possible de cette dimension.

Le grain d’un datamart est le niveau de détail pouvant être obtenu par la requête la plus sélective et la plus fine possible mettant en jeu toutes les dimensions.

49

Modèle en étoile Propriété d’ additivité des faits :

Fait additif. Additionnable suivant toutes les

dimensions. Fait semi-additif.

Additionnable seulement suivant certaines dimensions.

Fait non additif. Non additionnable quelque soit la

dimension.

50

Modèle en étoile Les règles de base :

Règle 1 : il ne doit pas y avoir de dépendance fonctionnelle entre deux entités appartenant à des dimensions différentes.

Règle 2 : Tous les faits doit etre définis d’une maniére cohérente pour toutes les combinaisons dimensionnelles.

Règle 3 : Tous les faits doivent etre définis pour le grain.

Règle 4 : le graphe de chaque dimension doit être acyclique.

51

Modèle en flocon Datamart analyse des frais de

déplacement des commerciaux par région et véhicule :

Clé_employé

NomPrénomFonction # Clé_employé

Clé_régionClé_véhiculeClé_mois

Frai_deplacKilométrage

Clé_véhicule

ImmatriculaPuissanceMarque #

Clé_région

Région Pays #

Clé_mois

MoisTrimestre #

Table de Faits

Dimension employé

Dimensionvéhicule

Dimensionrégion

Dimensionmois

0,N

0,N

0,N

0,N

Clé_fonction

Gradesal_minSal_max

Clé_pays

PaysContinentDevise

Clé_marque

ConstructeurPays_contruc

….

Clé_trimestre

Lib_trimSemestre #

Clé_semestre

Lib_semAnnée #

trimestre semestre

marque

pays

fonction

Clé_Année

Typ_année

Année

52

Modèle en flocon Modèle en flocon = modèle en étoile +

normalisation des dimensions Lorsque les tables sont trop volumineuses. Avantages :

Réduction du volume Inconvénients :

Nombreuses jointures. Performances dégradées.

Règles : Préférer le modèle en étoile au modèle en flocon.

53

les faits Faits dynamiques et faits statiques.

Un fait dynamique représente un flux affectant le système observé.

Ex : montant d’un dépôt, d’un retrait Sont généralement additif. Peuvent se produire un nombre quelconque de fois

au cours d’une période.

Un fait statique est un élément descriptif de l’état du système à un instant donné.

Ex : solde d’un compte courant. Sont généralement semi-additif ( excepté sur la

dimension temps )

54

Les faits. Faits dynamiques et faits statiques.

En théorie : un fait statique peut être reconstitué à partir de l’histoire d’un fait dynamique.

Ne nécessite pas de stockage.

En pratique : le stockage des faits statiques peut apporter une valeur ajoutée :

Pas de nécessité de stocker l’ensemble des faits dynamiques.

L’utilisateur peut s’intéresser uniquement aux faits statiques.

55

Les faits. Faits dynamiques et faits statiques.

coexistence de faits statiques et dynamiques dans le datamart.

Implique des comportements différents des faits dans les hiérarchies.

Implique présentation des méthodes de consolidation des faits aux utilisateurs.

Les méthodes de consolidation des faits doivent faire partie intégrante des méta-données.

56

Les formes dimensionnelles complexes.

Dérives dimensionnelles : Dérive de contenu. Dérive de périmètre.

Les indicateurs qualifiés. Dimension douteuse. Dimension dégénérée. Dimension causale. Dimension temps. Inégalité temporelle. Les grandes dimensions. Les entités hétérogènes. Table de faits sans fait. Les agrégats.

57

Dérive de contenu Modification des attributs des

dimensions : L’ écoulement du temps :

Ajoute de nouveaux faits. Modifie les attributs des dimensions :

changement de situation de famille changement de condition de log

Ces dérives dimensionnelles doivent être prises en compte dés la conception du modèle dimensionnel.

58

Dérive de contenu Dimensions à évolution lente :

Dimension presque constante mais dont certains attributs changent de valeurs dans le temps.

Solutions : 1 type : Perdre les valeurs anciennes. 2 type : Créer un nouveau enregistrement. 3 type : Créer des champs actuels et

historiques à l’intérieur de l’enregistrement d’origine.

Ne pas tout mettre dans la table de faits.

59

Dimension à évolution lente du 2 éme type

Créer un nouveau enregistrement.

Nécessite une extension de la clé primaire. Clé étendue = Clé primaire + suffixe de

version Clé étendue gérée par l’équipe de l’entrepôt.

Deux possibilités : Attributs permanents et mouvants dans la

table de dimension. (modèle en étoile ) Création d’une table avec uniquement les

attributs changeants. ( modèle en flocon )

60

Dimension à évolution lente du 2 éme type

Partitionne l’historique :

la table de faits assurera la relation à l’enregistrement actuel ou historique de la dimension à évolution lente.

Pas de nécessité de gérer des dates d’effet dans la dimension à évolution lente.

Ne permet pas le what if sur l’histoire. (ce que l’histoire aurait été si la situation avait été celle-là depuis le début).

Tous les changements sont conservés.

61

Dimension à évolution du 3éme

type Créer des champs actuels et historiques à

l’intérieur de l’enregistrement d’origine. Attribut actuel et attribut d’origine + date

effet de l’attribut actuel. Pas de partitionnement de l’historique dans la

table de fait. Nécessite d’utiliser la date effet pour

partitionner l’historique. Les valeurs intermédiaires sont perdues.

Permet de suivre à la fois l’ancienne et la nouvelle valeur.

62

Dérive de périmètre Les dérives de périmètre sont des

changements de dimension liés généralement à des mutations que traversent les entreprises ( fusions, cessions, réorganisations internes).

Elles sont parfois assimilables à des dérives de contenu et peuvent être traitées selon cette méthode.

63

Dérive de périmètre exemple

Changement de périmètre d’une région commerciale :

Ajout du département de la Loire atlantique. Les analyses peuvent s’intéresser au périmètre de la

région tel qu’il était au début de la période analysée,ou tel qu’il est aujourd’hui.

Si ce besoin d’analyse à périmètre variable est vérifié alors nécessité de représenter cette dérive dans le datamart.

Autre Solution possible : la méthode des indicateurs qualifiés

64

Les indicateurs qualifiés Plusieurs indicateurs d’un domaine d’analyse

peuvent correspondre en réalité à plusieurs façons de représenter un même indicateur fonctionnel.

Un même montant peut ainsi être exprimé : hors taxes et taxes incluses. en euros, en dollars. selon plusieurs unité de mesure.

Ce sont des faits différemment qualifiés,différemment représentés ou encore exprimés selon des métriques différents.

Ne spécifier comme faits que les indicateurs véritablement distincts.

65

Les indicateurs qualifiés Implémentation :

Le fait qualifié ( fondamental ) est présent une seule fois en tant que fait dans la table des faits.

Toutes ses qualifications possibles sont définies par des dimensions supplémentaires d’un type particulier, pouvant se combiner avec les autres dimensions.

Ce sont des dimensions qualificatives.

Exemple : avoir plusieurs indicateurs correspondants chacun à un certain découpage régional passé ou actuel.

66

Dimension douteuse Dimension contenant :

De nombreux doublons. Des informations douteuses.

Exemple : une dimension client dans laquelle la même personne peut apparaître de nombreuses fois, éventuellement avec des orthographes de nom légèrement différentes, et d’autres attributs.

Liée à une qualité médiocre des informations en production.

Si dimension douteuse alors étudier la possibilité de nettoyer les données de production.

La qualité d’un sid repose sur la qualité des données en production.

« Le sid ne doit pas masquer les problèmes de production. »

67

Dimension dégénérée Une clé de dimension, tel qu’un numéro

de facture, un numéro de ticket qui n’a pas d’ attribut, et donc n’a pas de table de dimension.

Exemple : un modèle dimensionnel avec une table de fait contenant la clé date et sans table de dimension temps.

68

Dimension Causale

Dimension qui provoque le fait.

Ex : Dans une analyse des ventes liée au suivi des promotions d’un magasin, la dimension promotion est supposée avoir provoquée le fait.

69

Dimension temps Commune à tout datamart. (sauf exception)

2 choix d’implantation :

Type sql date sans dimension temps. Jour,mois,trimestre calculés à partir de la

clé date de la table de fait.

Dimension temps. Jours fériés, vacances, période fiscale…. Événement ( match de finale de coupe du

monde)

70

Inégalité du temps Forte inégalité du grain temporel

invoqué par les utilisateurs. Fréquemment, les utilisateurs analysent :

Les données journalières du mois en cours. Les données agrégées sur les mois de

l’année en cours. (ou la photo des données à fin de mois)

Les données agrégées sur l’année des années précédentes. (ou la photo des données au 31/12).

Ces fortes différences temporelles d’analyse seront à traiter dans l’ analyse des agrégats.

71

Les grandes dimensions Les minidimensions :

Objectifs : Améliorer les temps de réponse.

Dans une dimension : Bon nombre de champs ne sont presque

jamais la source de contraintes. Souvent, les champs source de contraintes

sont parfaitement connus.

Exemple : soit une dimension client :les champs fortement utilisés

sont les champs démographiques, tels que l’age, le sexe, le nombre d’enfants, le niveau de ressources, le niveau d’éducation et des mesures de comportement en matière d’achat et de crédits.

72

Les grandes dimensions Solution : créer des minidimensions

En regroupant dans une minidimension des attributs choisis pour ne comporter qu’un nombre limité de combinaison de valeurs.

Les attributs type age seront des fourchettes de valeurs.

Soit directement liée à la table de fait, soit liée à la table de dimension « mère « .

A noter : possible d’ intégrer la clé primaire de la minidimension dans la table mère.

Conseil : moins de 100 000 combinaisons distinctes des attributs choisis.

73

Les entités hétérogènes Dans un contexte d’analyse ou les attributs

des dimensions et des faits sont hétérogènes Il est recommandé de :

Créer une table de faits réduite et une table de dimension réduite permettant aux requêtes de naviguer dans les types disparates.

Créer une table de fait particularisée et une table de dimension particularisée pour faire des requêtes en profondeur sur chaque type particulier.

Exemple : dans une banque : - table de faits et dimensions réduites de tous les comptes. - table de faits et dimension particularisée des comptes de chèques - table de faits et diemension particularisée des comptes épargne

- …ect

74

Table de faits réduites et particularisées.

Application avec des produits hétérogènes Des attributs et faits commun. De nombreux Attributs et faits valables pour un

seul produit. Compte de chèque, compte d’ épargne, compte

titre… Police et sinistre automobile, habitation…

Objectifs : Permettre une analyse globale. Permettre une analyse détaillée. En veillant :

Compréhension du datamart Économie de place.

75

Table de faits réduites et particularisées.

Solution: Créer un datamart générique avec :

Table de fait réduite Table de dimension réduite.

Créer des datamarts spécialisés métiers : Table de fait particularisé. Table de dimension particularisé.

A noter : tous les faits du datamart générique sont présents dans la table de fait particularisée.

76

Table de faits sans fait Table de faits composée uniquement de

clés sur les dimensions. Absence de faits mesurés.

Deux principales variétés de table de fait sans fait :

Tables de suivi d’événement Tables de couverture

77

Table de faits sans fait Tables de suivi d’événement

Exemple : Analyse de la fréquentation journalière dans une université.

Dimension Cours , Étudiant, heure/date, professeur,

salle de cours. Table de fait : Clé cours,clé étudiant, clé heure/date,

clé professeur, clé salle de cours.

78

Table de faits sans fait Tables de couverture : des tables

d’événement qui n’ont pas eu lieu. Exemple : quels articles étaient en promotion

et ne se sont pas vendus : Dimension Temps, magasin, produit, promotion. Table de couverture : indique quels produits étaient ou sont en

promotion.

79

Les agrégats Gestion des agrégats dans le système de collecte et

d’intégration. Objectifs :

Réduire le volume de l’entrepôt et simplifier sa structure.

Comment : Éliminer les données opérationnelles détaillées et

les remplacer par des données plus synthétiques. Les valeurs détaillées ne sont pas enregistrées dans

l’entrepôt ( attention au reprise ! ). Seules les valeurs synthétiques sont stockées dans

l’entrepôt. Remarques :

N’introduit pas de dénormalisation. A effectuer le plus en amont des traitements.

80

Les agrégats Gestion des agrégats dans le système de diffusion et

de présentation. ( au niveau datamart ) Objectifs :

Améliorer de façon significative les temps de réponse. Réduire le volume des données.

Comment : Créer des datamarts agrégés dans lesquels seront pré

calculer les informations très utilisées par les utilisateurs à partir des données élémentaires.

Conserver les données élémentaires.

Remarques : Introduit de la redondance des données. Les données élémentaires sont toujours disponibles.

81

Les agrégats Gestion des agrégats dans le système de diffusion

et de présentation. ( au niveau datamart )

Exemples : Cumul des ventes par mois et vendeur à partir

des données journalières. Cumul des ventes par année et vendeur à partir

des données journalières. Les données ventes journalières sont

disponibles sur trois mois glissants.

Détention contrat d’un foyer à partir des détentions contrats des membres du foyer.

82

olap Objectifs :

Permettre à l’utilisateur une navigation main libre dans les données.

Manipulation libres et intuitives. Pas de nécessité d’ écrire ou de lancer une

requête pour continuer l’analyse. Temps de réponse très courts.

Les agrégats sont pré-calculés. S’appuie sur un stockage des données sous

forme d’hypercube. ( structure matricielle ).

83

olap Contraintes :

Temps de construction du cube. Temps de calcul des combinaisons

dimensionnelles. Base de stockage est « souvent « propriétaire.

La pré agrégation génère des volumes de données totales importantes.

Ajout d’axes peut s’avérer difficile. Temps de chargement prohibitifs.

Maintenance peut s’avérer difficile. Le périmètre d’analyse est figé.

84

olap Quand utiliser l’ olap :

Intéressant lorsque les angles d’analyse sont parfaitement connus.

Généralement, correspond à des applications mises à disposition d’utilisateur presse bouton devant naviguer facilement et rapidement dans un ensemble de données importants :

Navigation main libre : Drill down : zoom sur les données Slice and dice : changement d’axe

d’analyse

85

olap : les architectures Deux architectures : se distinguent sur le mode

de stockage des données. Molap : Multidimensionnel Olap

Logiciel de manipulation des données adossé à une base de donnée matricielle de type propriétaire.

Hypercube local ou partagé. Coût élevé des licences en général.

Rolap : Relationnel Olap Logiciel de manipulation des données adossé à une

base de données relationnelles Présentation multidimensionnelle.(hypercube

virtuelle). Peut autoriser l’utilisateur à passer « à travers «

l’hypercube pour exécuter des requêtes directes.

86

Chapitre 5 :

La démarche

87

La démarche Comment procéder : deux étapes

fondamentales.

1ére étape :

Définition des objectifs stratégiques du sid. Priorisation des objectifs stratégiques. Choix de l’architecture technique globale.

88

La démarche 2éme étape : Pour chaque projet :

L’étude préalable. Réalisation entrepôt :

Alimentation de l’entrepôt. Dictionnaire des données. Recette données entrepôt.

Réalisation datamart : Création des datamarts. Dictionnaire des données. Recette données datamart.

Mise en œuvre outil de restitution. Dictionnaire utilisateur. Recette utilisateurs finaux. Déploiement. Formation.

89

Définition des objectifs stratégiques du sid.

Identifier la stratégie globale du sid : Synergie entre les objectifs du datawarehouse et la

stratégie de l’entreprise. Projet d’entreprise validé par la direction générale,

construit par itération. Identifier le sponsor :

Fonctionnel, surtout pas technique. Mandaté par le management. Connaissance de l’entreprise. Chargé de mettre en place une équipe

motivée,écoutée et connaissant le métier à modéliser

Gestionnaire du projet globale. Définir les objectifs fondamentaux. Estimer Budget et calendrier de réalisation.

90

Priorisation des objectifs La démarche de mise en œuvre est :

Itérative Incrémentale

« Fonctionner par lot «

Un data warehouse réussi n’est jamais terminé.

Il faut prioriser les objectifs.

91

Choix de l’architecture technique globale

Objectifs : Avant le démarrage du premier projet, choisir

l’architecture globale de votre datawarehouse. En particulier :

Règles de capture et transformation des données. Règle d’impact sur la production

Modèle conceptuel de votre entrepôt. Le modèle devra être évolutif.

Vision des outils nécessaires à la diffusion et présentation des données.

Machines.

92

l’étude préalable Mise en place du groupe d’utilisateurs

pilotes. Expressions des besoins.

Réunions difficiles à organiser. Recherche des données sources. Choix des datamarts. Etude de faisabilité Coût et délai

93

Facteur de succès : Un projet d’entreprise. Une équipe pluri-disciplinaire.

La direction générale. Le sponsor du projet (connaissance métier) Le chef de projet La direction informatique (étude et exploitation) Les spécialistes technique

Choisir le bon sponsor utilisateur. Choisir un « premier « projet visible et utile. Procéder par étapes. Documenter les données en amont (informatique)

et en aval (utilisateur ). Communiquer.

94

Éviter les écueils : Choisir un chef de projet technologique. Faire trop de promesses au début. Raisonner données et non informations Faire l’impasse sur les métadonnées. Surcharger l’entrepôt d’informations. Privilégier l’approche pharaonique.

95

Référentiel Le dictionnaire ou référentiel de

données est l’ensemble des méta-données.

Renferme des informations : Technique :

Modèle de l’entrepôt. Règles d’alimentation et de transformation

des données Utilisateurs :

Définition des datamarts. Définition des données. Règles d’ utilisation des données.

96

Chapitre 6 :

Les outils

97

les outils Rappel : l’important est de disposer d’une architecture,

une base décisionnelle autour de laquelle greffer les outils les mieux adaptés à chaque besoin.

Envisageable de disposer de plusieurs outils.(la suite décisionnelle).

L’ architecture doit être indépendante du choix de ces outils.

L’ approbation de l’outil par les utilisateurs est cependant un prérequis.

98

panorama des outils Les outils d’infocentre ( les Requeteurs )

Business Objects : www.businessobjects.com

Cognos : impromptu www.cognos.com

Ibf information builders : focus www.ibi.com

Sas : Enterprise reporter www.sas.com

Oracle : discoverer www.oracle.com

99

panorama des outils Les outils multidimensionnels

(Analyse main libre ) Cognos : Powerplay Oracle : Express Hyperion : Essbase Discoverer Microstrategy : Dss server Sas : sas mddb Microsoft plato

100

panorama des outils Les outils datamining : Recherche de

tendances ou corrélations entre les données.

Ibm : intelligent miner Sas : Enterprise Miner. Isoft : Alice Neural connection :Spss

101

Chapitre 7 :

Divers

102

Critères de choix du sgbr/r

Mécanisme de fragmentation des tables. Partitionnement d’une table.

Chargement et indexation rapides des données. Compression des tables et des indexs. Exécution des requêtes en mode parallèle. Réplication des données.

Technique d’index adaptée aux requêtes décisionnelles.

Index bit map Technique de chemin d’accès adaptée aux requêtes

décisionnelles. Arrêt automatique des requêtes.

103

vocabulaire :

Drill down : aller vers les données détaillées ( forer vers le bas )

Drill up : aller du détail vers le global. Drill across : changer de dimension d’analyse Slice and dice : couper en tranches et couper en

dés. vocable regroupant drill down, drill accross. Eis : executive information system :

Système d’information des décideurs sous forme de tableau de bord automatisé.

Siad : système interactif d’aide à la décision : Outil de représentation interactive des données

permettant une navigation libre dans les données.

Documents

Chapitre 1 :