32
FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données 1 1 Département des Sciences de l’Informatique Conception des Entrepôts de Données 2012/2013 Mohamed Ali BEN HASSINE Faculté des Sciences de Tunis [email protected] Section: 5ème année Ingénieurs (IF5) FST© Med Ali Ben Hassine 2012 2 Plan Chapitre 1 : Introduction à l'informatique décisionnelle Chapitre 2 : Les Entrepôts de données Chapitre 3 : Modélisation multidimensionnelle Chapitre 4 : L'algèbre multidimensionnelle Chapitre 5 : Les SGBD décisionnels et Extension de SQL Chapitre 6 : Les techniques d'optimisation dans les ED Chapitre 7 : Le cycle de vie dimensionnel Chapitre 8 : La fouille de données Bibliographie Kimball R, Reeves L, Concevoir et déployer un data warehouse Guide de conduite de projet, Eyrolles, 2000. Kimball R, Margy Ross, The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling, 2nd Edition, Wiley Computer Publishing, 2002 . Inmon, W.H. : What is a Data Warehouse? Prism Solutions. Volume 1. 1995. Jiawei Han and Micheline Kamber: Data Mining : Concepts and Technics, Morgan Kaufmann Publishers, Elsevier, 2006. Ladjel Bellatreche, Techniques d'optimisation des requêtes dans les data warehouses, Sixth International Symposium on Programming and Systems, pp. 81-98, 2003 3 Chapitre 1 Introduction à l'informatique décisionnelle 4 FST© Med Ali Ben Hassine 2012 Plan 1. Contexte 2. L’information et la prise de décision 3. Informatique décisionnelle 4. Système d'information décisionnel 4.1 Système d'information 4.2 SID 4.3 OLAP et ROLAP 4.4 Architecture d’un SID 4.5 Historique des SID 5. Conclusion

Chap1 2 dw (1)

Embed Size (px)

Citation preview

Page 1: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

1

1

Département des Sciences de l’Informatique

Conception des Entrepôts de Données

2012/2013

Mohamed Ali BEN HASSINEFaculté des Sciences de Tunis

[email protected]

Section: 5ème année Ingénieurs (IF5)

FST© Med Ali Ben Hassine 20122

Plan

Chapitre 1 : Introduction à l'informatique décisionnelle

Chapitre 2 : Les Entrepôts de données

Chapitre 3 : Modélisation multidimensionnelle

Chapitre 4 : L'algèbre multidimensionnelle

Chapitre 5 : Les SGBD décisionnels et Extension de SQL

Chapitre 6 : Les techniques d'optimisation dans les ED

Chapitre 7 : Le cycle de vie dimensionnel

Chapitre 8 : La fouille de données

Bibliographie

● Kimball R, Reeves L, Concevoir et déployer un data warehouse Guide deconduite de projet, Eyrolles, 2000.

● Kimball R, Margy Ross, The Data Warehouse Toolkit: The Complete Guide toDimensional Modeling, 2nd Edition, Wiley Computer Publishing, 2002 .

● Inmon, W.H. : What is a Data Warehouse? Prism Solutions. Volume 1. 1995.

● Jiawei Han and Micheline Kamber: Data Mining : Concepts and Technics,Morgan Kaufmann Publishers, Elsevier, 2006.

● Ladjel Bellatreche, Techniques d'optimisation des requêtes dans les datawarehouses, Sixth International Symposium on Programming and Systems, pp.81-98, 2003

3

Chapitre 1 Introduction à l'informatique décisionnelle

4FST© Med Ali Ben Hassine 2012

Plan 1. Contexte2. L’information et la prise de décision3. Informatique décisionnelle4. Système d'information décisionnel

4.1 Système d'information4.2 SID4.3 OLAP et ROLAP4.4 Architecture d’un SID4.5 Historique des SID

5. Conclusion

Page 2: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

2

● Besoin Prise de décisions stratégiques et tactiques Réactivité

● Qui? les décideurs (non informaticiens, non statisticiens)

● Comment Répondre aux demandes d’analyse de données Dégager des informations qualitatives nouvelles

Contexte

5

Quels tunisiens consomment beaucoup de poisson?

Qui sont mes meilleurs clients?

Pourquoi et comment le chiffre d’affaire a baissé?

A combien s’élèvent mes ventes journalières?

Entreprise■ une organisation dotée d’une mission et d’un objectif métier. Elle doit gérer

sa raison d’être et/ou sa pérennité au travers de différents objectifs(sécurité, développement, rentabilité). Par voie de conséquence, cetteorganisation humaine est dotée d’un centre de décision.

Objectifs d’une entreprise■ Améliorer ses performances■ Faire face à la concurrence■ Développer sa part de marché■ Etre plus entreprenante

Prendre des risques, remettre en cause certain choix, se recentrer surdes secteurs d’activité ou au contraire s’élargie sur des nouveaux.

Besoins des entreprises

6

Décision : action mentale volontaire qui vise à modifier ou déformer un état de choses en vue d’atteindre un certain objectif.

(Courbon, 1982)

Objectifs (suite)■ Meilleure connaissance de ses clients, de son environnement

« profiler » ses clients pour mieux les satisfaire, voir même créer un nouveau besoin chez eux.

■ Anticiper des événements de plusieurs types : évolution du marché, fluctuation de consommation, etc.

■ Prendre des décisions stratégiques ayant une forte répercussion sur la santé financière de l’entreprise.

Besoins des entreprises

7

peut-être le responsable de l’entreprise, d’une fonction ou d’un secteur. engage la pérennité ou la raison d’être de l’entreprise. doit s’entourer de différents moyens lui permettant une prise de décision

la plus pertinente.

Qui?■ le décideur (non informaticien, non statisticien) :

Besoins des entreprises

8

Besoins importants■ Maîtriser ses données

■ Accéder à toutes les données de l’entreprise■ Regrouper les informations disséminées

■ Exploiter ses données■ Analyser rapidement les données pour prendre les bonnes décisions

Problèmes

■ Masse importante de données collectées■ Nombreux systèmes d’information, souvent hétérogènes■ Information surabondante, non organisée, éparpillée■ Difficulté d’accéder à l’information■ L’information brute n’a aucun sens ou une valeur ajoutée limitée.■ Codification différente selon les services.

Page 3: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

3

Besoins des entreprises

9

Solutions :■ Sélectionner et transformer les données en informations fiables,

homogènes, utiles et accessibles par un traitement rapide, efficace etproductif.

■ La BI recouvre l’ensemble des technologies permettant de gérer etd’exploiter les informations disponibles, en particulier le DW qui permetde stocker ces informations stratégiques.

Années 70 : début de l’informatique de gestion :■ Entrée de l'informatique de gestion dans les grandes entreprises.

Années 80 : informatique opérationnelle centralisée :■ Arrivée dans beaucoup d’entreprises des BDR, des progiciels de

gestion, des premiers micro-ordinateurs.■ Informatisation d’applications traitant des données directement liées à

l'activité quotidienne des organisations : paie, comptabilité, commandes,facturation (informatique de production ou opérationnelle).

■ Architecture maître-esclave : maître = puissant ordinateur en site centralet esclaves = terminaux passifs en mode texte.

Evolution de l’informatique dans l’entreprise

10

Années 90 : informatique opérationnelle décentralisée :■ Apparition des ordinateurs personnels et des réseaux locaux.■ Développement d’application bureautiques : traitement de textes, tableurs,

petites BD, …■ Architecture client-serveur permet de décloisonner la bureautique et

l’informatique opérationnelle et s’impose conduisant à une nouvelleinformatique orientée vers les utilisateurs et les centres de décision desentreprises.

Années 2000 : Développement de l’Informatique Décisionnelle (ID) :■ Développement de Systèmes d'Information Décisionnels (orientés décision).■ Architecture client-serveur multi-niveaux (multi-tiers).■ Entrepôt de données (Data Warehouse) : restructurer et exploiter des

quantités très grande de données historisées selon différentes dimensions.■ Fouille de données (Data Mining) : extraction de connaissances à partir de

données, en général stockées dans ces entrepôts.

Evolution de l’informatique dans l’entreprise

11

■ Disposer de l’information pertinente était réservée aux managers.■ L’information était centralisée.■ Les décideurs n’avaient pas la maîtrise de l’ensemble des

informations de l’entreprise.

Avant les SID

■ Dans tous les secteurs économiques, dans toutes les entreprises,l’information est devenue “le nerf de la guerre”.

■ L’information est omniprésente; la difficulté n’est plus de la recueillir, maisde la rendre disponible sous la bonne forme, au bon moment et à labonne personne, qui saura l’exploiter et en tirer de la valeur ajoutée.

■ L’information devient un capital en temps.■ L’information est une source de valeur pour l’entreprise.

Maintenant

L’information et la prise de décision

Page 4: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

4

Les principaux aspects du décisionnel

13

■ Stratégie: appropriation et partage d'objectifs.

■ Organisation: institutionnalisation du dialogue de gestion, positionnement ducontrôle de gestion.

■ Finances et comptabilité: mesure de coûts, outils d'analyse économique.

■ Ergonomie et contenu : choix d'indicateurs, mise au point de tableaux de bord.

■ Système d'information : données, outils, infrastructures, intégration dans le SI.

■ L’information est la matière première de la décision : le décideur se déterminesur la base des informations dont il dispose sur les éléments ayant un impact sur leproblème à résoudre.

■ L’identification des informations dont la connaissance est nécessaire est unedécision en soit.

■ Processus de décision : Selon H. Simon, le processus de prise de décision se faitselon un modèle dit : Intelligence - Design - Choice (IDC)

La prise de décision

Contrôle

Choix

Conception

Renseignement Identifier et formuler le problème (constatation d’une différence entre la réalité et ce qui est souhaité)

Imaginer des solutions alternatives possibles et en déterminer les conséquences potentielles

Choisir une solution parmi les alternatives

Vérifier que la solution est conforme aux attentes

Modèle IDC

■ Décisions structurées :Une décision est dite structurée quand :

Les informations nécessaires à son élaboration sont disponibles Les alternatives possibles sont énumérables Les mécanismes d’évaluation des solutions sont connus

Exemples Gestion de stock, Planification de fabrication en raffinerie

Les décisions structurées sont programmables.

Types de décisions : structurées ou non structurées

Les décisions sont de deux types :1. Décisions structurées2. Décisions faiblement ou non structurées

■ Décisions faiblement ou non structurées :Une décision est dite faiblement ou non structurée quand : Les informations nécessaires à son élaboration sont plus ou moins

disponibles, sujette à interprétation ou suspectes. Les alternatives possibles sont non énumérables (explosion combinatoire). Les critères à satisfaire sont contradictoires.

Exemples Décisions faiblement structurées : Ordonnancement de fabrication,

préparation de budget, lancement d’un produit. Décisions non structurées : Gestion de projet, publicité, R&D

En la simplifiant, une décision faiblement structurée peut devenir structurée et donc programmable.

Types de décisions : structurées ou non structurées

Page 5: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

5

■ Les décisions structurées sont exécutables via des procédures automatisées.Elles constituent le Système d’Information Transactionnel (SIT). [voir plus loin]

■ Le système informatisé correspondant est composé d’applications de typeOLTP (On Line Transaction Processing).

■ Les décisions peu ou pas structurées ne peuvent pas être totalement prises ense basant uniquement sur le SIT.

Nécessité d’un autre système d’information au dessus du SITsusceptible d’apporter une aide à ces décisions. C’est le Systèmed’Information d’Aide à la Décision (SIAD). [voir plus loin]

■ Le SIAD a les caractéristiques suivantes :● Utilise les données du SIT.● Dispose en plus d’informations propres.● Fournit un accès aisé aux informations pour les décideurs.● Offre des possibilités de modélisation et de simulation.● Laisse une place plus ou moins importante à l’informel.

Types de décisions et SI L'Informatique décisionnelle

Processus de décision humain:

18

Stim

uli e

xter

nes

Stimuli internes

● Je reconnais une personne quand je la vois parce que je l’ai déjà vue Je vois la personne Je compare cette vision avec ma

mémoire qui a stocké l’image des personnes que je connais (image + nom)

● J’ai chaud S’il fait chaud dehors => c’est normal,

je vais me mettre au frais S’il ne fait pas chaud => j’ai de la fièvre

=> je vais chez le médecin

=> une information isolée a peu de valeur. Elle n’a de sens que comparée à d’autres informations Contexte Mémoire

L'Informatique décisionnelle

Système d’aide à la décision:

19

■ une information isolée a peu de valeur.

On compare un chiffre à un objectif(référentiel)

On suit l’évolution d’un indicateurdans le temps

On fédère des données provenant deplusieurs systèmes pour obtenir uneinformation à valeur ajoutée

Syst

èmes

opé

rant

s

L'Informatique décisionnelle

■ Terme anglais : Business Intelligence (BI)

■ Définition 1: c’est la branche de l’informatique qui permet l'exploitation desdonnées de l'entreprise dans le but de faciliter la prise de décision. C'est-à-dire,la compréhension du fonctionnement actuel et l'anticipation des actions pour unpilotage éclairé de l'entreprise.

20

■ Définition 2: désigne les moyens, les outils et les méthodes qui permettent decollecter, consolider, modéliser et restituer les données, matérielles ouimmatérielles, d'une entreprise en vue d'offrir une aide à la décision et depermettre aux responsables de la stratégie d'entreprise d’avoir une vued’ensemble de l’activité traitée.

■ Objectifs■ Vision globale de l’activité■ Aide à la décision

■ Basée sur un entrepôt de données pour stocker des données transverses provenantde plusieurs sources hétérogènes.

Page 6: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

6

L'Informatique décisionnelle

■ Le flux informationnel lié au processus de la BI

21

Définir le problème

Rassembler les données

Analyser les données

Etablir les solutions Décider

Temps de prise de décision

Champs d’application des systèmes décisionnels

■ Processus de prise de la BI

L'Informatique décisionnelle

22

23

Aide à la décision : Quelques notions à préciser

■ Pilotage

■ Indicateur

■ Tableau de bord

■ Reporting

24

■ Pilotage / décision Piloter : prendre des décisions pour réaliser des objectifs (qui sont

censés découler d'une stratégie). Décision: acte ponctuel, le pilotage étant une démarche permanente.

■ Pilotage stratégique / opérationnel Deux différences : niveau et horizon temporel de la décision Stratégique : direction, horizon à moyen – long terme

Par ex. création d'une nouvelle unité, recrutement de médecin, etc. Opérationnel : niveau du service, de l'unité 'médicale'

Horizon plus court (peut être mensuel, peut être aussi quotidien) Décisions concrètes de fonctionnement : par ex. planning infirmières

■ Performance d’une organisation : se caractérise par sa capacité àatteindre les objectifs qu’elle s’est fixés, dans le cadre de sa stratégie"

■ Pilotage de la performance définir et quantifier le niveau de performance à atteindre, suivre et projeter l’atteinte de la cible, évaluer et analyser les résultats pour adapter sa stratégie. ge

stio

n d'

un h

ôpita

l

Pilotage

Page 7: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

7

25

■ Indicateur : Information qui doit aider un acteur à évaluer le cours d’une action vers

l’atteinte d’un objectif ou son résultat. C’est un élément d’alerte, d’analyse, et de décision.

■ Indicateur : à un domaine d’utilisation : dépend de l’objectif et de l’utilisateur, suppose l’existence d’une question qu’il contribue à éclairer, n’a pas de sens sans éléments d’interprétation, doit pouvoir être comparé dans l’espace et le temps, Indicateur de pilotage : n’est pertinent que s’il peut susciter une action.

■ Il se caractérise par : un libellé, une définition un champ : période de référence, établissement ou service une formule ou procédure de calcul les référentiels qu’il emploie une documentation (guide de lecture)

Indicateur

26

■ Tableau de bordOutil destiné à un responsable pour lui permettre, grâce à desindicateurs, présentés de façon synthétique et en référence à desobjectifs fixés, de contrôler le fonctionnement de son système, enanalysant des écarts significatifs, afin de prévoir, décider, agir.

Tableau de bord

■ Nécessité de tableaux de bord multi-niveaux Tableau de bord très synthétique pour la direction, puis

possibilités d’approfondissements service, par activité,…

27Modèle conducteur/automobile/ tableau de bord

■ Analogie avec la conduite d’un véhicule :un tableau de bord est constitué d’indicateurs et de témoins Lisibles, rassemblés sur une surface réduite, de signification claire Importance de la forme et de la notion de zone de validité

Perturbations

Tableau de bord

Perception

Mesure

Action

Objectif

Contraintes

Tableau de bord

28

■ En résumé, un tableau de bord

ne fournit pas de solution prête à l’emploi. Il utilise des sondes et des alertes. fournit des informations précises et vérifiées, nécessitant toutefois une analyse favorise le dialogue sur des bases communes pour maîtriser l’action collective décloisonne les services institue une culture de résultat

Tableau de bord

Page 8: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

8

29

désigne l’ensemble des informations (rapports et bilansanalytiques) relatives aux réalisations d’une périodepréparé pour un niveau de responsabilité supérieur

Reporting

Reporting / Tableau de bord

Tableau de bord

Pendant l’action

Reporting

Après l’action (pour la hiérarchie)

Outil de mesure de performances et de contrôle

Contextes économique et informationnel de l’informatique décisionnelle

Contexte économique :■ Mondialisation de l'économie, ouverture de nouveaux marchés■ Concurrence toujours plus accrue■ Besoin d'obtenir des informations pour prises de décisions de plus

en plus rapides

Contexte informationnel :■ Décentralisation des données vers les utilisateurs■ Difficulté d'accès à l'information qui est en trop grande quantité■ Un enjeu stratégique d’entreprise■ Les informations, une source de revenu et de compétitivité

Contexte informatique :■ Puissance de calcul croissante■ Capacité de stockage croissante■ Bases de données de plus en plus importantes■ SGBD de plus en plus performants (parallélisme, …)■ Ouverture sur le Web,

30

31FST© Med Ali Ben Hassine 2012

Système d’Information Décisionnel (SID)Système d’InformationSystème

Système :

32

■ est un tout constitué d'éléments en interaction dynamique, ceséléments sont organisés et coordonnés en vue d'atteindre un objectif,qui évolue dans un environnement.

FST© Med Ali Ben Hassine 2012

■ peut être considéré comme une « boîte noire » qui, soumise à desentrées imposées par l’environnement du système, les transforme ensorties satisfaisant des critères de performances que le systèmes’efforce à atteindre par un mécanisme de régulation.

SYSTÈMEEntrées Sorties

ObjectifsRégulation

Système d’Information Décisionnel (SID)

Page 9: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

9

• Information

Système d’ Information Décisionnel (SID)

33

: une donnée qui a un sens, et ce sens vientd'un certain modèle d'interprétation.

Information = Donnée + Modèle d'interprétation

■ Une même donnée peut avoir plusieurs sens selon le modèle d'interprétation qui lui est associé.

■ Exemple : la donnée `12101995' peut être aussi interprétée - par un anglo-saxon-comme la date du 10 décembre 1995 (et non pas 12 octobre 1995).

■ Donnée : une description élémentaire, souvent codée, d'une réalité (chose,transaction, événement, etc.). Elle peut revêtir plusieurs formes :expression, caractère, papier, numérique, images, sons, etc.

34

Les informations sont des données traitées ou transformées qui aidentquelqu'un à prendre une décision ou à tirer des conclusions.

SI : Données, Information et Connaissance

Les données sont des faits qui n'ont pas encore été traités et dont on ne peut, à cestade, tirer aucun renseignement.

Données(entrées)

Informations(sorties)Traitement

■ L’information se rapporte à un problème pour le sujet, donc à un contexte bien précis.C’est cette caractéristique qui permet de distinguer entre connaissance et information.

■ La connaissance est l’ensemble d’informations interprétées par l’individus en luipermettant de tirer des décisions.

35

■ La comparaison entre les paiements effectués et le calendrier desversements nous renseigne sur la situation du prêt et sa chronologie -informations qui peuvent être utilisées pour prendre une décisionconcernant le suivi ou le provisionnement du prêt en question.

Une institution peut être noyée sous les données, sans pour autantavoir beaucoup d'informations.

Exemple

■ une simple opération de paiement ne nous dit pas si le paiement a étéeffectué en temps voulu et ne nous éclaire pas sur la situation du prêt.

SI : Données vs Information SI : Type d’Information

36

■ Niveau d'agrégation brutes élaborées

■ Flux Logistique Monétaire de personnel de l'actif

■ Utilisation Prise de décision planification stratégique gestion administrative régulation opérationnelle

■ Nature du support oral documentaire informatique

● L'information décisionnelle sort du système● elle est instantanée ou historique● elle est livrée à l'utilisateur à des fins de

reporting, d'analyse, de prévision

● L'information opérationnelle est liée aufonctionnement immédiat de l'organisation

● elle évolue en temps réel● elle est transactionnelle

Page 10: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

10

SI : l'information utile

37

■ L'information n'est pas bonne ou mauvaise, elle est simplement

appropriée ou non.

une information est « appropriée » quand elle est livrée à la bonne destination, au bon moment et sous une forme directement exploitable par le destinataire.

Système d’Information Décisionnel (SID)

38

Définition 1: Le SI est un ensemble organisé de ressources (matériels,logiciels, personnels, données et procédures) qui permet de regrouper, declassifier, de traiter et de diffuser de l'information d’une organisation.

Système d’Information

Définition 2: Le SI est le système de couplage entre le système opérantet le système de pilotage.

Systèmes d’information

Système de pilotage

Système opérant

Flux d’informations en provenance de l’environnement

Flux entrant des biens et services

Flux d’informations à destination de l’environnement

Flux sortant des biens et services

À ne pas confondre avec système informatique : ensemble d'équipements destinéau traitement automatique de l'information.

39

C’est un système dans lequel s’effectuent les transformationsphysiques ou intellectuelles sur les flux qui traversentl’entreprise en vue de produire des sorties valorisées.

Système OpérantFlux en Entrée :

■ Matières■ Argent■ équipements■ ressources humaines■ informations

Sorties :

■ Produits

■ Services

Système Opérant Système Opérant et BD pour la prise de décision

■ Les données des opérations de tous les jours : source importante d'informations richesse importante pour l'entreprise il faut les utiliser au mieux

■ Idée :

exploiter au mieux cette masse d'informations (BD existantes, applications de production :OLTP ),

rendre possible l'accès à toutes ces données accumulées dans le temps,

analyser ces données pour produire de nouvelles informations permettant de : résumer et d'analyser l'importance de certains facteurs dégager des tendances générales

40

Page 11: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

11

Système de Pilotage

41

« On ne peut améliorer que ce qu’on sait mesurer »

les informations fournies par mon système comptable m’indiquent si je gagne ou si je perds globalement de l’argent, mais ne m’en explique pas les causes et ne me suggère aucun axe d’amélioration

j’ai besoin d’outils m’aidant à formaliser mes projets stratégiques, à suivre leur avancement

Système de pilotage = outils d'analyse + outils de suivi

je connais mal la rentabilité réelle de mes actes, de mes patients, de mes filières de soins

je ne dispose pas des informations synthétiques, pertinentes et fiables me permettant de prendre les bonnes décisions au bon moment

je ne dispose pas des informations synthétiques, pertinentes et fiables me permettant de prendre les bonnes décisions au bon moment

je souhaite placer mon personnel dans un contexte d’amélioration continue de la performance (objectifs individuels clairs, suivi de leur réalisation ...)

Système de Pilotage

42

Système dans lequel les décisions sont prises concernant :■ les objectifs assignés au système opérant.■ l’affectation des ressources au système opérant.■ le contrôle des résultats obtenus du SO.■ la régulation.■ l’évolution de l’organisation.

Système de Pilotage Objectifs,affectation des ressources,régulation

Résultats dusystème opérant

Informations externes

43

Parallèlement au flux physique, il y a un flux de décisions

L'information va permettre de prendre les bonnes décisions.

1. Niveau stratégique (planification)2. Niveau de pilotage3. Niveau opérationnel (régulation)

Les différents niveaux d’un SI d’une organisation

Opérant Flux physique

Pilotage

ContraintesContraintes

Flux de décisions

Stra-tegique

Les différents niveaux d’un SI d’une organisation:

44

3. Niveau opérationnel (régulation)C’est le niveau hiérarchique le plus bas. Il agit sur les flux qui traversent l’organisation en se basant sur les directives du niveau supérieur.

2. Niveau de pilotageC’est le niveau hiérarchique moyen mettant en œuvre les objectifs élaborés par le niveau supérieur. Il détermine les moyens d’atteindre les objectifs globaux :● en les décomposant en sous-objectifs,● en allouant les ressources nécessaires,● en mettant en place les moyens de contrôle et● en prenant les initiatives correction en cas de besoin.

1. Niveau stratégique (planification)C’est le niveau le plus haut hiérarchiquement. Il consiste à :● définir les objectifs de l’entreprise,● définir les moyens et les scénarios pour parvenir aux objectifs, dans une vision à long terme.● fournir au niveau inférieur un cadre d’objectifs à atteindre et une orientation pour les mettre en œuvre.

Opérant Flux physique

Pilotage

ContraintesContraintes

Flux de décisions

Stra-tegique

Page 12: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

12

Système Opérant, Système de Pilotage et SI

45commandesdonnées Modèle systémique des organisations

SI

SP Système de Pilotage

Infos externes

Infos vers extérieur

SOSystème Opérant

Flux entrant

Flux sortant

SI décisionnel

(SID)

analyse + prise de décisions

SI opérationnel

(SIO)

activités courantes

Zone de décisions

Système Opérant, Système de Pilotage et SI

46

Système d’Informations

Opérant

Système d’information opérationnel (SIO)

Stra-tegique

Pilotageanalyse + prise de décisions

commandes

données

Zone de décisions

Système d’information décisionnel (SID)

activités courantes

Modèle systémique des organisations

47

Systèmes d’aide stratégique

Prévision des ventes à moyen terme

Plan à 5 ansPrévision budgétaires à moyen et long terme

Planification de la force de travail

Systèmes d’aide à la décision

Gestion des ventes

Analyse des ventes

Contrôled’inventaire

Echéancier de production

Budget annuel Analyse des investissements

Analyse prix/profit

Analyse des localisations

Analyse des coûts

Systèmes transactionnels

Suivi des commandes

Traitements des commandes

Contrôle des machines

Ordonnancement des usines

Contrôle des flux de matériels

Paie

Gestion des comptes débiteurs

Gestion des comptes créditeurs

Audit

Reportingfiscal

Gestion de la trésorerie

Compensation

Formation

Gestion des carrières

Vente Production Comptabilité Finance Personnel

Exemple de SI

48

Système d’Information Décisionnel (SID)

Définition 1 : Un SID est un système capabled'agréger les données internes ou externes et deles transformer en informations servant à uneprise de décision.

Définition 2 : Un SID est un ensemble de technologies destinées àpermettre aux collaborateurs d’accéder et comprendre les données depilotage plus rapidement, de telle sorte qu’ils prennent des décisionsmeilleures et plus rapides pour atteindre les objectifs de son organisation.

Connaissances

Informations

Données

Page 13: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

13

49

SID

Les SID, dans leur version la plus complète, permettent de répondreaux questions suivantes :

■ Que s’est-il passé ?■ Pourquoi cela s’est-il passé ?■ Que va-t-il se passer ?■ Que vient-il se passer ?

Différentes questions :■ Quel est le volume des ventes par produit et par région durant le troisième

trimestre de 2011 ?■ Quels sont les produits dont le volume des ventes baisse constamment

durant les 6 derniers mois de l'année ?■ Est ce qu'une baisse de prix de 10% par rapport à la concurrence ferait

redémarrer les ventes du produit p ?

50

■ Les décideurs doivent :● prendre rapidement des décisions● prendre de "bonnes décisions"● faire des prévisions pour orienter les choix de l'entreprise

SID

■ Un SID bien conçu doit donc :● Fournir un accès à des données fiables.● Présenter l’information de manière cohérente.● Être acceptable et accepté par tous les utilisateurs.● Faciliter la prise de décision. Connaître la signification d’une information

c’est bien, savoir quoi en faire c’est mieux.● Aider à la diffusion de l’information et à la mise en œuvre des actions.

51

Comment faciliter la prise de décision ?

■ utiliser les données produites par l'entreprise dans la gestion quotidienne■ produire régulièrement des données nécessaires au processus de décision

(résumés, synthèses, etc.)■ disposer d'outils d'analyse de données

SID

La valeur ajoutée du décisionnel réside dans :■ l’apport fonctionnel■ la performance■ la capacité à traiter de grands volumes de données■ la capacité à évoluer■ l’accessibilité

52

SID : Applications typiques

■ Banque et assurance● Détermination de profils de clients (risques de prêt, nouveaux services)● Suivi des clients, gestion de portefeuilles● Mailing ciblés pour le marketing …

■ Econométrie● Prévisions de trafics routiers● Prévisions de mouvements boursiers …

■ Santé● Etudes épidémiologiques● Recherche de nouveaux médicaments …

■ Grande distribution● Ciblage de clientèle, habitudes d’achat, secteurs géographiques …● Opportunités de promotions, produits à succès, modes …● Agencements de magasins (sur la base de corrélations entre produits).

Page 14: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

14

Architecture d’un SID

53

Trois couches : alimentation, stockage, restitution

■ ETL (Extract Transform Load) ● Récupère des données hétérogènes, les transforme et les charge.

■ Entrepôt de données ● Stockage intelligent de l’information, associé à des outils de «navigation»

dans les données.

■ Outils de restitution ● Rapports prédéfinis, outils de requêtage, reporting de masse, tableaux de

bord dynamiques, …

■ Un «portail» pour fédérer l’ensemble● Point d’entrée unique pour l’ensemble des applications.● Gestion des droits d’accès en fonction du profil de l’utilisateur.

54

Architecture d’un SID

55

Fonctions d’un SID

● Collecte des données brutes dans leurs environnements d'origine, ce qui implique des activités plus ou moins élaborées de détection et de filtrage;

● Intégration des données, c-à-d leur regroupement en un ensemble technique, logique et sémantique homogène approprié aux besoins de l'organisation ;

● Diffusion, ou distribution d'informations élaborées à partir des données dans des contextes appropriés aux besoins des utilisateurs ;

● Administration, qui gère le dictionnaire de données et le processus d'alimentation de bout en bout, (le SID doit lui-même être piloté).

● Présentation se charge de présenter les informations à valeur ajoutée de telle sorte qu'elles apparaissent de la façon la plus lisible possible dans le cadre de l’aide à la décision

Historique de l’informatique décisionnelle

56

L’usage de l’informatique pour supporter des décisions n’est pas nouveau :

Années 70-80 : débuts de l’Informatique Décisionnelle :● Développement d'outils d'édition de rapports, de statistiques, exploitant les BD du

Système d’information Opérationnel.● Développement de petits systèmes d’aide à la décision à base de tableurs

(simulation budgétaire, …).● Développement de systèmes experts (IA) systèmes à base de règles, conçus par

extraction de la connaissance d'un ou plusieurs experts :■ bons résultats obtenus pour certains domaines d'application tels que la médecine, la

géologie, la finance, ...■ mais formalisation sous forme de règles de la prise de décision est difficile voire

impossible dans de nombreux domaines.● Développement de SIAD (DSS Decision Support Systems) : basés sur des

techniques de Recherche Opérationnelle (RO), la simulation, l’optimisation, …

Systèmes en général mal intégrés au système d'information opérationnel, etdevant être développés par des informaticiens.

Page 15: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

15

Historique de l’informatique décisionnelle

57

Années 90-2000 : essor de l’informatique décisionnelle :

■ technologie informatique permettant le développement d’environnementsspécialisés pour l'aide à la décision notamment des entrepôts de données.

■ de nombreux algorithmes, souvent issus des statistiques et de l’IA,permettant d'extraire des informations à partir de données brutes sont arrivés àmaturité.

■ ces algorithmes sont regroupés dans des logiciels de fouille de données etpermettent la recherche d'informations nouvelles ou cachées à partir de données.

■ de plus en plus ces données sont issues du Web, aussi la recherched’information et la fouille de données sur le Web (ou "Web Mining") sont deplus en plus d’actualité.

Infocentre

58

■ Concept apparu au début des années 80.■ Réponse à la difficulté des services informatiques de satisfaire les besoins

variés, nombreux et imprévisibles des décideurs.■ L'infocentre peut être vu comme une interface entre un utilisateur (non

informaticien) et une BD de production ou privée (agrégation de données).Cette interface permet à l'utilisateur d'accéder aux données facilement etsans recourir à un langage.

Différence entre Infocentre et DataWarehouse

59

■ L’infocentre est une collection de données orientées sujet, intégrées, volatiles,actuelles, organisées pour le support d’un processus de décision ponctuel.

■ Le DW est une collection de données orientées sujet, intégrées, non volatiles,historisées, organisées pour le support d’un processus d’aide à la décision.

■ L’infocentre une solution décisionnelle qui consiste en une mise à dispositionsimple des données de production.

■ Le DW complète l'infocentre par une 'Préparation' intelligente des données misesà disposition :● Mise en conformité et uniformisation des codes utilisés● Choix des données à présenter : Mesures et Axes d'analyse, ainsi que du degré

d'historisation nécessaire● Nettoyage des données présentés avant chargement● Pré-agrégations répondant à des problématiques de performance, choix du degré

de finesse des mesures présentées.

Executive Information System (EIS)

60

■ Un EIS (ou encore système d'information pour dirigeants) est un systèmedestiné aux dirigeants qui ont besoin d'un outil d'aide à la décision mais qui nedisposent pas de temps pour l'apprentissage.

■ Il s'agit en quelque sorte du « tableau de bord » informatisé des cadressupérieurs, qui sert à la planification stratégique et à partir duquel on peutproduire des rapports, des graphiques, etc., faciles à consulter rapidement.

■ Un EIS permet de générer à partir d'une ou plusieurs bases de production unensemble d'informations agrégées (indicateurs) et de les présenter sous formede tableau de bord aux utilisateurs.

■ À la différence d’un SAD, l’EIS ne permet pas à l’utilisateur final de poser unequestion qui n’aurait pas été prévue initialement.

Page 16: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

16

61

SIO / SID OLTP / OLAPBDR / BDMD

Systèmes d’informations

Système de pilotage

Système d’information opérationnel (SIO)

Système opérant

Entrepôt de données

BPBPBP

OLAP

OLTP

Système d’information décisionnel (SID)

ETL

Base de production

62

SID et SIO

Opérationnel et Décisionnel sont deux technologies complémentaires et indissociables, et il est vain de vouloir faire sans l’une ou l’autre.

63

SID / SIO

■ système de production■ Informatique opérationnelle■ représente aujourd'hui la majeure partie du SI■ focalisé sur le fonctionnement courant (gestion des patients par exemple)■ procédures répétitives■ transactions■ données élémentaires■ Utilisation des bases de données relationnelles normalisées

SIO

Limites du SIO■ données détaillées surabondantes et peu lisibles, absence de synthèses■ mauvaise qualité informationnelle■ compartimentage, absence de sémantique commune, incohérences■ manque de recul historique

contenu très riche,faible valeur informationnelle 64

SID / SIO

■ Informatique décisionnelle■ destiné uniquement à produire de l'information et non à automatiser des opérations■ découplé du SIO mais alimenté par le SIO■ transforme les données pour améliorer leur valeur informationnelle■ potentiellement concerné par tous les types de données■ Modélisation dimensionnelle■ Entrepôts de données, magasin de données

SID

Limites du SID■ distinction SIO/SID artificielle■ aller-retour SIO-SID malcommodé■ besoins flous et changeants■ prédominance des données internes■ manque de données instantanées■ périmètre limité aux structures de données les plus simples■ Dénormalisation des bases de données

Page 17: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

17

OLTP / OLAP

65

Les applications informatiques peuvent être classées en deux catégories :■ Applications OLTP (On-Line Transactional Processing)■ Applications OLAP (On-Line Analytical Processing)

OLTP / OLAP

Applications OLTP :■ L'intégrité et la sécurité des données sont privilégiées.■ Requêtes simples■ Utilisées par des services de production : commerciaux, administratifs, production, etc..■ Nécessitent la connaissance des structures des données.■ Utilisent des bases de données de production (relationnelles)■ Manipulent des données homogènes.■ Nombre d'utilisateurs simultanés important.■ Applications critiques.

Exemples d'applications :■ Gestion bancaire■ Systèmes de réservation■ Gestion commerciale, personnel, production, etc.

66

Exemple de requête : ■ Le 15/01/2002 à 13h12, le client X a retiré 500DT du compte Y

OLTP / OLAP

67

Exemple de requête : ■ Quel est le volume des ventes par produit et par région durant le troisième

trimestre de 2002?

Applications OLAP :■ Catégorie de traitements dédiés à l’ide à la décision dont des requêtes interactives

complexes sur des gros volumes de données.■ L'analyse et la manipulation des données sont privilégiées.■ Requêtes complexes■ Applications d'aide à l'élaboration de stratégies■ Utilisées par les DG, les services marketing, financiers, contrôleurs de gestion, etc..■ Ne nécessitent pas la connaissance des structures des données.■ Utilisent des entrepôts de données (modèle multidimensionnel)■ Manipulent des données hétérogènes.■ Nombre d'utilisateurs simultanés faible.

Exemples d'applications :■ Analyse des tendances■ Analyse des comportements

68

BD relationnelles / BD multidimensionnelles

Pays

France

Espagne

Allemagnepommes

poiresoranges

janvierfévrier

avril

Temps

Produits

Vente de pommes en Allemagne

en avril

AchatPK id_achat

FK id_clientid_produit

Quantité

clientPK id_client

Nomadresse

ProduitPK id_produit

LibelléFamille

Les données nécessaires pour effectuer des analyses et en déduire des orientations stratégiques peuvent être stockées dans des structures :

■ relationnelles ou■ multidimensionnelles.

Page 18: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

18

69

BD relationnelles / BD multidimensionnelles

Bases de données relationnelles■ Structure tabulaire.■ Croisement des données à l'aide des jointures.■ Pas de redondance (doublons, agrégation).■ Les résultats de requêtes sont sous forme de listes.■ Opérations : Sélectionner, ajouter, mettre à jour et supprimer des tuples. Structures peu adaptées aux applications de type OLAP.

■ Les données sont organisées selon des axes.■ Hypercube comprend autant de dimensions que d'axes d'analyse.■ Possibilité de redondance des données.■ Les requêtes peuvent exploiter toutes les combinaisons d'axes.■ Temps d'accès stable.■ Moins de risque d'erreurs dans la formulation des requêtes.■ Langage MDX = Multidimensional Expressions (de Microsoft "OLE DB for OLAP") Structures bien adaptées aux applications de type OLAP.

Bases de données multidimensionnelles

Différences entre OLTP et OLAP

OLTP OLAP

Conception orientée application (Application de 

production, Facturation ) structure statique  (E/R) 

orientée sujet (Client, Produit, Vendeur) structure évolutive (en étoile, flocon)

Données

détaillées, non agrégées récentes, mise à jour accessibles de façon individuelle normalisées

Résumées, recalculées, agrégées. Historiques accessibles de façon ensembliste dénormalisées

Vue relationnelle multidimensionnelle

Requêtes / Utilisation

simples, nombreuses, régulières, prévisibles, répétitives

sensibles aux performances (réponses immédiates)

accès à beaucoup de données

complexes, peu nombreuses, irrégulières, non prévisibles

non sensibles aux performances (réponses moins rapides)

accès à beaucoup d'information

Utilisateurs agents opérationnels nombreux (des milliers) concurrents

managers / analystes peu  (dizaines voir centaines) non concurrents

Accès lectures, insertions, m‐à‐j, suppressions lectures, insertions, mises à jour,

Taille 100MB à qcqs Go 100GB à qcqs To 70

Charge du serveur de données

opérationneldécisionnelopér. + décis.

taux d’occupation

temps

Source: H.E.C. Liège - U.E.R. Systèmes d'Information (F. Fontaine)

71

Besoins décisionnels

Data Warehousedonnées opérationnelles

contrôle d’info. détaillées et récentes, rapports

standardisés

« interrogation et rapports »

fichiers du logiciel DM

BUSINESS INTELLIGENCEBUSINESS INTELLIGENCEanalyse ad-hoc, info. globalisées, prise de

décisions

« OLAP - EIS»

découverte de connaissance

« Data Mining »

En synthèse

72

Page 19: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

19

Chapitre 2 Entrepôt de données

73

Plan 1. Introduction2. Objectifs3. Définition4. Architecture5. Processus ETL6. Implementation

FST© Med Ali Ben Hassine 2012

■ La réponse tient en un mot : Entrepôt de données (data warehouse) !

■ Il ne faut pas être inquiet,... nous sommes tous fichés dans ces immensesentrepôts de données : toutes actions liées à l’activité d’une entreprise sontstockées dans un Data Warehouse (DW) pour en être analysées, via des outils dedatamining afin de nous étudier. Ceci dans un but bien précis :

celui de nous connaître afin de mieux identifier nos besoins

Introduction

c’est par pur « feeling » du responsable ou bien par une stratégie de marketing bien plus

élaborée?

Par quel moyen, la publicité nominative (postal ou par mail) est bien souvent en relation directe avec nos

habitudes de consommations ?

Comment choisir l’emplacement des produits dans une grande

surface ?

74

Introduction - Problématique

Une grande masse de données :– Distribuée– Hétérogène– Très détaillée

À traiter :– Synthétiser / Résumer– Visualiser– Analyser

Pour une utilisation par :– Des experts et des analystes d'un métier– NON informaticiens– NON statisticiens

75

Introduction – Problématique

Comment répondre aux besoins de décideurs afin d’améliorer les performances décisionnelles de l’entreprise?

■ En donnant un accès rapide et simple à l’information stratégique.

■ En donnant du sens aux données.

■ En donnant une vision transversale des données de l’entreprise (intégration de différentes bases de données).

■ En extrayant, groupant, organisant, corrélant et transformant (résumé, agrégation) les données.

76

Page 20: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

20

Introduction – Solution

● Mettre en place un SI dédié aux applications décisionnelles : un

entrepôt de données (datawarehouse).

● Transformer des données de production en informations stratégiques.

77

Le DW est un système d’information dédié aux applications décisionnelles situé en :

■ Aval des bases de production (bases opérationnelles)■ Amont des prises de décision basées sur des indicateurs (Key Business Indicators (KBI))

78

Entrepôt de Données

Entrepôt de Données (Définition)

Bill Inmon (1996)

79

Principe■ base de données utilisée à des fins d’analyse.■ récolte, stocke et gère efficacement des gros volumes données

pour la prise de décision.■ assure un regroupement homogène et exploitable de données

hétérogènes, très nombreuses et distribuées.

" Un Entrepôt de Données est une collection de données orientées sujet,intégrées, non volatiles et historisées, organisées pour la prise dedécision ".

Caractéristiques : orientées sujet

● orientées sujet («métiers») : Les données des entrepôts sontorganisées par sujet plutôt que par application. Par exemple, unechaîne de magasins d’alimentation organise les données de sonentrepôt par rapport aux ventes qui ont été réalisées par produit etpar magasin, au cours d’un certain temps.

Production

Employé

Facturation

DonnéesProduction

Données Employé

DonnéesFacturation

80

Page 21: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

21

Caractéristiques : Données intégrées

● intégrées : Les données provenant des différentes sources doiventêtre intégrées, avant leur stockage dans l’entrepôt de données.L’intégration (mise en correspondance des formats, par exemple),permet d’avoir une cohérence de l’information.

Production

Employés

Facturation

Données Client

81

Caractéristiques : Données non volatiles

● non volatiles : à la différence des données opérationnelles, celles del’entrepôt sont permanentes et ne peuvent pas être modifiées. Lerafraîchissement de l’entrepôt, consiste à ajouter de nouvelles données,sans modifier ou perdre celles qui existent.

82

Ajout

Modification

Suppression

Accès

Chargement

Bases de production Entrepôts de données

Caractéristiques : Données et historisées

● historisées : La prise en compte de l’évolution des données estessentielle pour la prise de décision qui, par exemple, utilise destechniques de prédiction en s’appuyant sur les évolutions passéespour prévoir les évolutions futures.

Ventes Données client

83

Pourquoi ne pas utiliser une BD?

BD et DW :■ ont des objectifs différents et font des traitements différents■ stockent des données différentes■ font l'objet de requêtes différentes

BD et DW ont besoin d'une organisation différente des données BD et DW doivent être physiquement séparés.

84

Page 22: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

22

Processus de l’entreprise : Un exemple

85

Les clients

Les fournisseurs L’entreprise Les salariés

Gestion de la relation client,optimisation des ventes

Gestion de la relation client,optimisation des ventes

Optimisation des achats Gestion des RHprocessus opérationnelsOptimisation des

processus opérationnels

Les actionnaires

Enterprise ManagementFinances, Strategic

Enterprise Management

Exemple 1/3

Consolidation financière Analyse des coûts et de la profitabilité Gestion des risques Budget, planning, simulation, prévision Gestion de la relation actionnaires Management de la valeur

■ Gestion du temps de travail■ Formation, recrutement■ Fidélisation des salaries■ Salaires et rémunération

■ Profitabilité client■ Satisfaction client■ Analyse comportementale, ciblage■ Opportunités de ventes croisées■ Efficacité de forces de ventes, canaux de distribution■ Efficacité des opérations commerciales (promotion, publicité, etc.)

■ Performance du fournisseur■ Optimisation des délais■ Coûts et qualité du service

(interne et prestataires)

■ Performance de la production et de la logistique(Coûts, Qualité, Délai)

■ Analyse des affectations, coût du temps travaille

Objectifs, enjeux

■ Retour sur investissement (RSI, en anglais Return Of Investment 'ROI')

■ Réduction des coûts et contrôle des limites

■ Avoir une vision de l’entreprise qui aide à sa gestion, à son pilotage.

■ Répondre à des questions auxquelles les progiciels orientés métier nepeuvent faire face.

■ Les ERP ont apporté des solutions pour gérer les données del’entreprise selon un modèle unifié et cohérent, la Business Intelligenceles rentabilise.

86

Exemple 2/3

■ Quel a été l’impact de la dernière promotion sur cette gamme d’articles?■ Quel a été le secteur d’activité le plus rentable dans cette région?■ Quelle est la période où l’absentéisme est le plus fort ? Quelle est la catégorie de

personnel la plus touchée et quel est l’impact sur la production?■ … Autant de questions auxquelles il est difficile de répondre, voire impossible si

elles mettent en jeu des données de plusieurs compartiments de l’entreprise.

■ Exemple de problème rencontré lors du passage d’une logique de compte à unelogique de client : Le client apparaît en de multiples endroits ; dans : La base marketing La base commerciale Le système de facturation Le système après vente

■ Toutes ces données doivent être homogénéisées, organisées et intégrées au seindu Datawarehouse.

Requêtes

87

Exemple 3/3 Entrepôt de Données : Objectifs

Principaux objectifs :1. regrouper, organiser des informations provenant de sources diverses,2. les intégrer et les stocker pour donner à l’utilisateur une vue orientée métier,3. retrouver et analyser l’information facilement et rapidement.

En plus:4. Transformer un SI qui avait une vocation de production en un SI décisionnel.

Transformation des données de production en informations stratégiques.

5. Les informations d'un DW doivent être cohérentes.

6. Les données du DW doivent pouvoir être séparées et combinées au moyen detoutes les mesures possibles de l'activité.

7. Le DW ne comporte pas seulement des données mais aussi un ensembled'outils de requêtes, d'analyse et de présentation d'information.

88

Page 23: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

23

8. Gestion et visualisation des données doit être rapide et intuitive

visualisation multidimensionnelle des données:

9. La qualité de l'information d'un DW est l'un des ressorts de la réorganisationdes données (Business Reengineering).

Entrepôt de Données : Objectifs (suite)

Comment Fédérer/Regrouper l'ensemble des données de l'entreprise ?89

Entrepôt de Données (Fonctions)

La construction d’un entrepôt revient à faire correspondre les besoins des utilisateurs avec la réalité des informations disponibles.

Trois fonctions essentielles :

■ collecte de données de différentes bases existantes■ Stockage de données (historisées)■ Mettre à disposition les données pour : Interrogation Visualisation Analyse

90

Architecture

91

Différence entre un DW et un datamart

Un DW et un datamart se distinguent par le spectre qu'il recouvre :● Le DW recouvre l'ensemble des données et problématiques d'analyse visées par

l'entreprise.● Le datamart recouvre une partie des données et problématiques liées à un métier

ou un sujet d'analyse en particulier (finance, commercial, …) Mini DW lié à un métier particulier de l ’entreprise

● Un DW est souvent volumineux (plusieurs centaines de Go voire qcqs To ) avec desperformances inappropriées (temps de réponse trop longs).

● Un Data mart comporte moins de 50 Go, ce qui permet des performancesacceptables.

● La création d’un datamart peut être un moyen de débuter un projet de DW (projetpilote).

92

Datamarts du service Marketing

Datamart du service Ressources HumainesDW de l’entreprise

Page 24: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

24

Différence entre un DW et un datamart

Pourquoi des datamarts ?Les datamarts sont destinés à pré-agréger des données disponibles defaçon plus détaillée dans les DW, afin de traiter plus facilement certainesquestions spécifiques, critiques, etc.

93

Exemple : Ticket de caisseSi un DW enregistre un ensemble de ventes d'articles avec un grain trèsfin, un datamart peut faciliter une analyse dite de ticket de caisse (co-occurrence de ventes de produits par exemple) en adoptant un grainplus grossier (le ticket plutôt que l'article).

Catégories des données stockées

■ Données dans un DW : données du SIO + BD externes (ETL).

■ Quatre catégories de données :

Les données de détail : issues des systèmes transactionnels de l’entreprise"socle de l’entreprise". Leur stockage permet d’offrir aux utilisateurs du SID lesdétails des chiffres affichés, par exemple, sur un tableau de bord.

Les données agrégées : correspondent à des éléments d’analyse représentantles besoins des utilisateurs. Elles constituent déjà un résultat d’analyse et unesynthèse de l’information contenue dans le système décisionnel, et doivent êtrefacilement accessibles et compréhensibles..

Les méta données : décrivent les caractéristiques des données stockées :origine, date de dernière m-à-j, mode de calcul, procédure de transformation.Elles sont utiles aussi bien aux utilisateurs (comprendre les données) qu’auxadministrateurs (fournir des moyens d’exploitation et de maintenance du DW).

Les données historisées : Couches de données dans lesquelles chaquenouvelle insertion de données provenant du SIO ne détruit pas les anciennesvaleurs, mais créée une nouvelle occurrence de la donnée.

94

Processus ETL

95

■ L’ETL est une couche logicielle responsable de l’alimentation d’une BD à partir de sources de données.

■ Dans un SID, l’ETL sert à alimenter l’ED ou bien les magasins de données .■ L’ETL fait partie des middlewares (intergiciels)

Importance de l’ETL

96

■ Constitue 70 à 80% du temps passé dans un projet décisionnel.

■ La qualité de l’ED dépend de la qualité de l’ETL :

Temps de chargement

Fréquence de chargement

Qualité des données (QoD)

Qualité des services (QoS)

Page 25: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

25

Processus ETL

Outils d’alimentation pour

■ Extraire

■ Transformer

■ Charger dans un DW

97

donnéessources

ETL = Extracteur+IntégrateurExtract + Transform + Load

Objectif ● Obtenir des informations consolidées et stables dans l’entrepôt.● Tache difficile à mettre en œuvre

ETL – Extraction

■ Objectif : Identifier et localiser les données sources pertinentes (BDR,fichiers, …) puis les collecter et les extraire des différents systèmesopérationnels.

■ Fonctionnalités : Traiter différents formats (XML, HTML, TXT, CSV, DB2, Oracle…). Gérer les connexions aux sources (ODBC, JDBC...). Extraire le dictionnaire des sources (propriété des colonnes, clés…). Extraire les données de manière performante et sans perturber les

environnements de production. Détecter les données qui ont été modifiées dans les sources. Ajouter des contrôles (fichier de rejets, audits…). Stocker l’ensemble des règles d’extraction dans le référentiel.

98

ETL – Extraction

99

Extraction logique

Traite la quantité des données à extraire

Extraction

Extraction physique

Traite l’aspect technique de l’opération de l’extraction

■ totale : extraire toutes les données dans un seul coup

■ incrémentale(partielle) : à chaque fois, extraire une partie des données

■ directe (Charger les données directement au DW)

■ indirecte (passer par stagingarea)

100

Deux principales possibilités

■ Extraction des changements:■ Que les parties des données ayant été modifiées depuis la dernière

procédure d’extraction sont transmises au système DW.■ Modifications peuvent être des insertions de tuples (insert), des effacements

de tuples (delete). Des modifications de tuples existants (update) sont typiquement implémentés par une suite insert+delete.

■ Copie intégrale des données source (snapshot)■ S’utilise lorsque le nombre de changements individuels est trop important ou

si l’extraction des changements n’est pas possible due à des raisons techniques.

■ Conflit d’intérêt: Extraction de données cohérentes vs. restriction du fonctionnement opératif causé par l’accès exclusif des données, nécessaire durant l’extraction.

ETL – Extraction

Page 26: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

26

ETL –Transformation

Problématique■ Existence de plusieurs sources■ non conformité des représentations■ découpages géographiques différents■ 5 à 30 % des données des BD commerciales sont erronées■ une centaine de type d’inconsistances ont été répertoriées

données erronées analyse erronée !

DWBP

BP

BP

■ Transformation : Étape importante garantissant que les données intégrées dans le DW seront cohérentes et fiables.

101

■ Objectif Transformer les données sources selon les

unités de mesure et les formats de l’ED. Homogénéiser les données sources. Nettoyer les données. Suppression des incohérences sémantiques. Dater les données. Créer des clés. 102

Suppression des incohérences sémantiques entre les sources pouvant survenir lors de l’intégration :

■ des schémas : problème de modélisation : différents modèles de données sont utilisés problèmes de terminologie : un objet est désigné par 2 noms différents, un même

nom désigne 2 objets différents incompatibilités de contraintes : 2 concepts équivalents ont des contraintes

incompatibles conflit sémantique : choix de différents niveaux d’abstraction pour un même concept conflits de structures : choix de différentes propriétés pour un même concept conflits de représentation : 2 représentations différentes choisies pour les mêmes

propriétés d’un même objet

■ des données : Equivalence de champs Equivalence d’enregistrements : fusion d’enregistrements

ETL –Transformation

103

Objectif : Résoudre le problème de consistance des données au sein de chaque source.

ETL – Transformation

■ présence de données fausses dès leur saisie faute de frappe différent format dans une même colonne

(jj/mm/aa, mm/jj/aa, jj-mois jj/mm/aaaa) texte masquant de l’information (e.g., “N/A”) valeurs nulles et valeurs incohérentes

9999, xxxx, non renseignée, inc, inconnue Traiter les valeurs manquantes et les valeurs incohérentes (ignorer, remplacer,

saisir manuellement ces valeurs manquantes) incompatibilité entre la valeur et la description de la colonne duplication d’information (Référence des produits, des clients dans

différentes sources)

Types d’inconsistances

Nettoyage

104

■ persistance de données obsolètes■ confrontation de données sémantiquement équivalentes mais

syntaxiquement différentes (Problèmes de codage et de nommage) Employé, Personnes, Salariés, Personnel Employés Boulvd, Bd, Boulevard Boulevard

Types d’inconsistances (suite)

un outil de nettoyage comprend

■ des fonctions d’analyse■ des fonctions de normalisation■ des fonctions de conversion■ des dictionnaires de synonymes ou d’abréviations

ETL – Transformation Nettoyage

Page 27: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

27

105

Définition de table de règlesremplacer valeur par

Mr Mmonsieur Mmnsieur Mmasculin MM MMsieur MM. MMonseur M

normalisation, conversion, dictionnaires, ...

Exemple de conversions :

utilisation d’expression régulière, suppression de doublons, de valeur nulle, ...

ETL – Transformation Nettoyage

106

■ 5 étapes de nettoyage de données:

1. Décomposition des données source en éléments (elementizing)Par exemple adresse rue, numéro, code postal, ville

2. Adaptation des éléments à un format standard (standardizing) : par exemple, adoption d’un même format pour les dates (jj/mm/aaaa), "1ST AVE" "First Avenue"

3. Vérification de la plausibilité de données (vérification) : par exemple le conflit entre code postal = «91400» et ville = «Paris» est identifié et résolu

4. Alignement des données (matching) : par exemple vérification de l’existence d’un produit (tuple provenant d’une source) dans la BD intégrée. Si un produit y existe déjà, sa représentation intégrée est adaptée.

5. Formation de groupes (householding)Vérification de l’appartenance de nouveau tuples à un groupe de tuples de la BD intégrée intéressant au niveau application (bénéfique lors des analyses).Par exemple, formation / élargissement du groupe «type de consommateur».

ETL – Transformation Nettoyage

ETL – Chargement Données nettoyées et transformées

■ Fonctionnalités :

Traiter les messages reçus du système de transformation des données. Insérer de nouvelles données et archivage de données anciennes. Ordre de chargement :

1. Tables de Dimensions2. Tables de Faits

Mettre à jour périodiquement les tables de faits (selon le grain). Gérer les gros volumes de données (index, partitionnement,

parallélisation, chargement en blocs…). Ajouter des contrôles (fichier de rejets, audits…). Stocker l’ensemble des règles de chargement dans le référentiel

■ Objectif : Charger les données transformées dans l’entrepôt.

107

ETL – Chargement Techniques

■ Basées SQL Interface standard: embedded SQL, JDBC, ... Opération / extension propriétaire: Array Insert Considération et activation de toutes les méthodes BD: déclencheurs,

actualisation d’indexes, concurrence, ...■ Chargement de masse (bulk load): Extension spécifique d’un système

BD dédiée au chargement de larges volumes de données.■ Utilisation d’interfaces d’application: nécessaire chez certains vendeurs

(SAP)

108

Page 28: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

28

Cycle de vie de l’ETL

■ La mise en place de l’ETL passe par les étapes suivantes :

1. Conception de l’ETL : Identification des sources de données Correspondance des données Définition des transformations Structure de la zone d’attente

2. 1er chargement : Chargement de toutes les données sources

3. Rafraichissement de l’ED : Chargement périodique des données

■ Mise à jour de l’ETL lorsque les structures sources ou cibleschangent

109

Fréquence de l’ETL

■ Dépend de : la granularité de la dimension Temps la disponibilité des données sources la fréquence d’utilisation de l’ED

■ Dans certains cas, pour gagner du temps, on peut avoir unefréquence de chargement inférieure à celle de la granularité de ladimension temps.

■ Exemple : Granularité Temps = mois Fréquence de chargement = jour

110

La méthode pull et la méthode push

■ Techniques de détection des mises à jour effectuées sur la BDopérationnelle et son envoi à l ’entrepôt pour sa mise à niveau ultérieure.

avec la méthode pull, c’est le SID qui recherche périodiquement lesdonnées dans les BD opérationnelles. Cette méthode alimente le SIDen temps différé, cependant la quantité volumineuse de données àchaque transfert peut être coûteuse en temps.

avec la méthode push, c’est le SIO qui au fil de l’eau de sestransactions alimente le SID. Cette méthode alimente le SID en tempsdirect ce qui oblige à revoir le code des applications opérationnelles.

111

Outils ETL

■ Sans outils : Commandes SQL et utilitaires du SGBD source et cible Programmation (PL/SQL)

■ Outils propriétaires : Oracle Warehouse Builder IBM DB2 Warehouse Manager Microsoft Integration Services …

■ Open source : Talend Open studio Pentaho Data Integration …

■ Comparatif des outils ETL open source http://alma.univ-nantes.fr/promotions/2007-08/stages/08-obs-francheteau.pdf http://www.atolcd.com/fileadmin/Publications/Atol_CD_Livre_Blanc_ETL_Open_Source.pdf

112

Page 29: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

29

Modélisation d'un DW

• Les BD relationnelles ne sont pas adaptées à l'OLAP car :

Pas les mêmes objectifs

Pas les mêmes données: Les données nécessaires à l'OLAP sont multidimensionnelles (i.e.

ventes par vendeur, par date, par ville, …). Les tables en représententune vue aplatie.

Pas les mêmes traitements et requêtes: Non seulement perte de performances mais aussi nécessité pour les

utilisateurs de savoir comment trouver les liens entre les tables pourrecréer la vue multidimensionnelle.

• Il est donc nécessaire de disposer d'une structure de stockage adaptée à l'OLAP,i.e. permettant de : représenter les données dans plusieurs dimensions, manipuler les données facilement et efficacement.

Nécessité d'une structure multidimensionnelle

(Chapitre 3)

113

Implémentation d'un data warehouse

3 possibilités:

1. Relational OLAP (ROLAP)

2. Multidimensional OLAP (MOLAP)

3. Hybrid OLAP (HOLAP)

[Ces concepts seront détaillés dans le chapitre 5]

114

115

ROLAP

Idée:● Données stockées en relationnel.● La conception du schéma est particulière: schéma en étoile, en flocon.● Des vues (matérialisées) sont utilisées pour la représentation

multidimensionnelle.● Un moteur ROLAP permet de simuler le comportement d’un SGBD

multidimensionnel (Traduction des requêtes OLAP (slice, rollup…) en SQL)● Utilisation d'index spéciaux: bitmap.● Administration (tuning) particulière de la base.

Avantages/inconvénients● Souplesse, évolution facile, moins

cher à mettre en place stockage de gros volumes.

● Mais peu efficace pour les calculs complexes. 115

MOLAP

Idée:● Utilise un système multidimensionnel pour gérer les structures multidimensionnels● Modélisation directe du cube.● Ces cubes sont implémentés comme des matrices à plusieurs dimensions.

● CUBE [1:m, 1:n, 1:p…] (mesure)● Le cube est indexé sur ses dimensions.

Avantages/inconvénients● rapide● formats propriétaires● ne supporte pas de très gros volumes de données

116

Page 30: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

30

HOLAP

Idée:● MOLAP + ROLAP● Données stockées dans des tables relationnelles● Données agrégées stockées dans des cubes.● Les requêtes vont chercher les données dans les tables et les cubes.● Solution hybride entre MOLAP et ROLAP● Bon compromis au niveau coût et performance

117

Administration d'un ED

■ L'ED est un aspect physique du SI de l'entreprise. Il doit être par conséquent évolutif. Les données doivent donc changer. On doit procéder à d'autres alimentations et donc gérer l'actualisation des données.

■ Il existe des outils qui prennent en charge les tâches de rafraîchissement des données.

■ Ils procèdent par réplication pour propager les m-à-j effectuées dans les BD sources, dans l'ED.

■ Le mécanisme de réplication et une opération de copie de données d'une BD vers une ou plusieurs BD.

■ Les réplications sont alors asymétriques synchrones ou asynchrones ou alors symétriques synchrones ou asynchrones.

■ Le rafraîchissement des données peut se faire également par des processus de transformation qui exploitent les méta-données.

118

Administration d'un ED

■ La fonction d'administration porte sur un aspect fonctionnel (qualité et la pérennité des données) mais aussi sur un aspect technique (maintenance, optimisation, sécurisation,...)

■ Elle concerne l'ensemble des tâches du processus d'entreposage de la sélection des données de production à la mise à disposition pour construire les espaces d'analyse.

■ L'administrateur de l'ED doit maîtriser la gestion des données (données, provenance des données, méta-données).

■ Les données agrégées sont aussi une production (information) de l'entreprise comme les données de production (ERP), doivent être entreposées.

■ Ainsi le développement de l'ED témoignera, aussi bien de la production de base que de l'activité informationnelle (pilotage de l'entreprise).

■ Les requêtes portent plus souvent sur les agrégats que sur les données de base (80% - 20%)

119

Rôles et responsabilités

Kimball (2004) a définit 8 rôles dont les plus sont :

1. Gestionnaire ETL■ Gérer quotidiennement l’équipe ETL.■ Définir les standards et procédures de l’environnement de développement

ETL (Règles de nomenclature, Meilleures pratiques…)■ Superviser le développement, les tests et l’assurance qualité

2. Architecte ETL■ Concevoir l’architecture et l’infrastructure de l’environnement ETL.■ Concevoir le mappage logique de données.■ Livrer les routines ETL en production.■ Appréhender les besoins d’affaire.■ Connaître les systèmes source.■ Résoudre les problèmes techniques complexes.

120

Page 31: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

31

Rôles et responsabilités

3. Développeur ETL■ Développer les routines ETL.■ Tester les routines ETL.■ S’assurer que les résultats du processus ETL répondent aux besoins

d’affaire (Collaboration étroite avec l’architecte ETL)

4. Analyste système■ Rassembler des besoins d’affaire.■ Documenter les besoins d’affaire.■ Travailler en collaboration avec toute l’équipe du DW (Non seulement celle

du système ETL).

121

Rôles et responsabilités

5. Spécialiste qualité de données■ S’assurer de la qualité des données dans l’entrepôt de données en entier.■ S’assurer que les règles d’affaire sont bien implantées par les processus

ETL (en collaboration avec l’analyste système et l’architecte ETL)

6. DBA■ Installer, configurer, migrer et maintenir la base de données.■ Traduire le modèle logique de données en modèle physique.

122

Annexe :Méthode générale de conception de l’ETL sous Oracle

1. Récupération des données sources dans la zone d'extraction Création de vues pour les données stockées dans des BDR Création de tables externes pour les fichiers CSV Transformation XSLT des fichiers XML en instructions SQL et ajout

manuel des données XML. Une table classique correspondant au schéma XML doit donc être créée dans le zone d'extraction.

123

2. Création des tables de traitement● Créer une table pour chaque vue, table externe et table classique de la zone

d'extraction selon la syntaxe SQL3 du modèle RO pour pouvoir accepter desméthodes ultérieurement. Déclarer ensuite une méthode pour chaque attribut àexporter dans le modèle dimensionnel.

● Ajouter un attribut booléen pour chaque table afin de discriminer ultérieurement lesdonnées nouvelles des données anciennes.

● Pour chaque hypothèse de "propreté" des données sources, on poser une contrainteassociée. Par exemple si une donnée doit être une clé primaire et que l'on pense queles sources sont correctes de ce point de vue, on ajoute la clause PRIMARY KEY. Parcontre il ne faut pas ajouter les contraintes lorsque l'on sait que les données sourcessont "sales", sans quoi ces données seront refusées au chargement et ne pourrontjamais être nettoyées.

● Pour chaque hypothèse de "nettoyage" des données sources, on pose un trigger quiva traquer les erreurs et les rapporter dans une table de log.

● On note enfin qu'il est parfois utile de donner des tailles de champs plus grandes quecelle attendues afin de ne pas bloquer ou tronquer d'enregistrement. C'est une autrefaçon de "relâcher" les Contraintes.

Annexe :Méthode générale de conception de l’ETL sous Oracle

124

Page 32: Chap1 2 dw (1)

FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données

32

3. Transfert des données de la zone d'extraction vers la zone de transformation● Toutes les données doivent passer, l'analyse des triggers et le non blocage par

les contraintes posées permettent de valider les hypothèses de propreté.● On utilise l'instruction Oracle MERGE pour les imports. Les données nouvelles

sont marquées en utilisant l'attribut de discrimination ajouté à cet effet.● Les sources de données importées manuellement de la zone d'import sont

remises à zéro (DELETE).

Annexe :Méthode générale de conception de l’ETL sous Oracle

4. Création des méthodes de transformation● On implémente une méthode pour chaque attribut que l'on souhaite exporter

dans le modèle dimensionnel. Cette méthode permet de réaliser dynamiquementles transformations et vérifications adéquates.

125

5. Préparation du chargement● Désactivation des contraintes des tables dimensionnelles.● Suppression des index des tables dimensionnelles.

6. Chargement dans les tables dimensionnelles● Seule l'API fournie par les méthodes est utilisée pour accéder aux données.● On peut choisir une mise à jour complète : la base dimensionnelle est vidée

puis remplie à nouveau ; ou bien une mise à jour partielle : les donnéesnouvelles (marquées comme telles) sont ajoutées mais les modifications surles données préalables ne sont pas prises en compte.

7. Post-chargememnt● Réactivation des contraintes, en cas d'erreur procéder aux corrections ad hoc

dans les méthodes de transformation et recommencer.● Recréer les index.

Annexe :Méthode générale de conception de l’ETL sous Oracle

126

Attention : Passage● Le passage d'une zone à l'autre doit toujours laisser passer toutes les

données.● Lors du passage de la zone d'extraction à la zone de transformation, les

contraintes qui bloquent doivent être levées pour laisser passer les données etlors du passage de la zone de transformation à la zone d'exploitation, lesméthodes doivent gérer tous les cas de figure problématiques.

Rappel : Particularités Oracle à mobiliser● Tables externes : ORACLE LOADER● Triggers : CREATE TRIGGER● Instruction d'ajout et mise à jour de données : MERGE● Méthodes relationnel-objet : CREATE TYPE et CREATE TYPE BODY● Désactivation et réactivation de contraintes : ALTER TABLE nom_table

[ENABLE | DISABLE] CONSTRAINT nom_contrainte;

Annexe :Méthode générale de conception de l’ETL sous Oracle

127128

Annexe :Méthode générale de conception de l’ETL sous Oracle

Résumé en image

128