View
970
Download
0
Category
Preview:
Citation preview
Module :
Informatique décisionnelle
(Business Intelligence)
Aouatef ROUAHIaouatef.rouahi@laposte.net
ISG – Master en Informatique Appliquée à la Gestion 12/04/2023
Université de TunisInstitut Supérieur de Gestion de Tunis
Syllabus du cours
Objectifs Sensibiliser les étudiants à l’importance du décisionnel; Se familiariser avec les technologies de l'informatique
décisionnelle; Appréhender les enjeux et les problématiques de la gestion et
du traitement de données.
Pré-requis Algorithmique, Programmation, Statistiques, et Bases de
données.
12/04/2023
2
Organisation du cours Data Warehouse
(10h) : cours 6h, TP 4h; Rédaction en binôme d'un rapport d'étude.
Analyse de données (8h) : cours 4h, TP 4h; Évaluation individuelle écrite 1h.
Data Mining (8h) : cours 4h, TP 4h; Évaluation individuelle écrite 1h.
Visualisation de données (10h): cours 5h, TP 5h; Projet individuel de programmation.
12/04/2023
3
Data Warehouse
12/04/2023
4
Module : Informatique décisionnelle (Business Intelligence)
Les Entrepôts de Données
(Data Warehouse)
PLAN Veuillez nous suivre…
12/04/2023
5
Introduction Définition DW
Domaines d’application
Architecture Préparation Stockage Présentation Actualités &
PerspectivesConclusion Références
Editeurs&
Outils
Introduction
1Bruno Chaudet, « Introduction à la communication organisationnelle »
12/04/2023
6
Donnée
Information
Connaissance
Décision
« Une donnée est un élément brut, qui n’a pas encore été interprété, mis en contexte.»1
«Une information est par définition une donnée interprétée. »1
«La connaissance comme une information comprise.»1
«Une action réalisée en fonction des connaissances disponibles.»
Cycle Décisionnel Enjeux et Difficultés Données de Production VS
Données Décisionnelles
Introduction Une pression concurrentielle continue; Une explosion des données;
Distribuées, Détaillées, Hétérogènes.
12/04/2023
7
Comment prendre des décisions dans un
environnement parfaitement hétérogène?
Cycle Décisionnel Enjeux et Problématique Données de Production VS
Données Décisionnelles
Informatique de production Un mode d’exploitation de données tourné vers la saisie, le
stockage, la mise à jour, la sécurité et l’intégrité des données. l'informatique décisionnelle Un mode d’exploitation de données visant à fournir à tout
utilisateur reconnu et autorisé, les informations nécessaires à son métier. Une vision analytique de l'activité de l'entreprise; Un suivi du fonctionnement de l'entreprise; Un suivi de la performance de l’entreprise; Une prédiction des tendances prospectives; Etc.
Introduction
12/04/2023
8
Cycle Décisionnel Enjeux et Difficultés Données de Production VS
Données Décisionnelles
Introduction
12/04/2023
9
Données Opérationnelles Données décisionnelles
Orientées application Orientées activité
Volumes limités Gros volumes
Vue instantanée Vue historisée
Cohérence atomique Cohérence globale
Structure rigide Structure flexible
Usage répété Usage ad-hoc
… …
Cycle Décisionnel Enjeux et Difficultés Données de Production VS
Données Décisionnelles
Définition
12/04/2023
10
«Un entrepôt de données est une collection de données
orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision.» Bill Inmon (1991).
Orienté Sujet Intégré Non Volatile Historisé Un support du processus d’AAD
Définition
12/04/2023
11
«Un entrepôt de données est une collection de données
orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision.» Bill Inmon (1991).
Données orientées sujet: Une vue synthétique permettant de réaliser des analyses
transversales aux structures fonctionnelles et organisationnelles de l'entreprise.
Orienté Sujet Intégré Non Volatile Historisé Un support du processus d’AAD
Définition
12/04/2023
12
«Un entrepôt de données est une collection de données
orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision.» Bill Inmon (1991).
Données intégrées: Un besoin d’ homogénéisation des données hétérogènes afin
de parfaire la cohérence globale de l’entrepôt de données.
Orienté Sujet Intégré Non Volatile Historisé Un support du processus d’AAD
Définition
12/04/2023
13
«Un entrepôt de données est une collection de données
orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision.» Bill Inmon (1991).
Données non volatiles: Seulement les actions d’ajout et de lecture qui sont autorisées
et aucune opération de mise à jour n’est permise.
Orienté Sujet Intégré Non Volatile Historisé Un support du processus d’AAD
Définition
12/04/2023
14
«Un entrepôt de données est une collection de données
orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision.» Bill Inmon (1991).
Données historisées: L'historisation est nécessaire pour suivre dans le temps
l'évolution des différentes valeurs des indicateurs à analyser.
Un référentiel temps doit être associé à toute structure « clé » dans le data warehouse.
Orienté Sujet Intégré Non Volatile Historisé Un support du processus d’AAD
Définition
12/04/2023
15
«Un entrepôt de données est une collection de données
orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision.» Bill Inmon (1991).
Un support d’un processus d’aide à la décision :
Le data warehouse est un élément essentiel dans le processus d’extraction de connaissances à partir de données (KDD).
Orienté Sujet Intégré Non Volatile Historisé Un support du processus d’AAD
Domaines d’application
12/04/2023
16
Domaines d’application du Data
Warehousing
…
Commerce
Econométrie
Santé
Banque
Assurance
Web
Logistique
Architecture
12/04/2023
17
L’acquisition de données;
Le pré-traitement des données ;
L’alimentation de l’entrepôt;
L’analyse de données.
Zone Préparation Zone Stockage Zone Présentation
Une zone de préparation: une zone temporaire de stockage des données extraites pour la réalisation des transformations.
Une zone de présentation: l’accès aux données contenues dans le DW à l’aide d’une palette des outils d’analyse dont l'information est visualisée à travers des interfaces interactives.
Architecture
12/04/2023
18
ETLExtraction
Transformation
Chargement
Zone de Préparation
Zone de Stockage
Zone de Présentation
RequêteursEIS
Data Mining
…
Une zone de stockage: le stockage permanent des données nettoyées.
Zone Préparation Zone Stockage Zone Présentation
Donnée Information
Architecture
12/04/2023
19
ETL : Extract – Transform – Load Découvrir et extraire les données brutes; Transformer les données extraites; Charger les données nettoyées dans l’entrepôt de données.
M, F
1, 0
Male, FemaleTND
USD
EUR
M, F
EUR
Zone Préparation Zone Stockage Zone Présentation
12/04/2023
20
Modélisation Multidimensionnelle
Une méthode de conception logique qui vise à présenter les données
sous une forme standardisée intuitive permettant des accès hautement performants en se
basant sur les notions Fait - Dimension.
Architecture
Zone Préparation Zone Stockage Zone Présentation
12/04/2023
21
Fait - Dimension: Une mesure économique (Quantités achetées, montant des achats, etc.). La table de faits contient les indicateurs de performances. Les enregistrements sont identifiés par une clé multiple composée de la concaténation des clés des tables de dimensions. La granularité définit le niveau de détails de la table de faits = nombre de dimensions liées. Exemple: une ligne de commande par :
Produit; + client; + jour.
-
+
Architecture
Zone Préparation Zone Stockage Zone Présentation
12/04/2023
22
Fait - Dimension: Un axe d’analyse (Client, Produit, Temps, etc.). La table de dimensions est identifiée par une clé primaire unique correspondant à l’un des composants de la clé multiple de la table de faits et un ensemble d’attributs permettant de décrire les aspects intéressants de cette dimension.
Une organisation hiérarchique (Temps, Région, etc.). La granularité d’une dimension = nombre des niveaux hiérarchiques. Une dimension temps est obligatoire dans tout modèle.
Architecture
Zone Préparation Zone Stockage Zone Présentation
12/04/2023
23
Le schéma en étoile
Architecture
Zone Préparation Zone Stockage Zone Présentation
12/04/2023
24
Le schéma en flocon
Architecture
Zone Préparation Zone Stockage Zone Présentation
12/04/2023
25
Exercice L’ED doit fournir le CA des ventes d’un produit, par date, client,
et vendeur, ainsi que toutes les sommations possibles de chiffre d’affaires dans une année donnée.
Une vente est caractérisée par: produit, client, vendeur, date, prix de vente. Produit : code produit, code famille, libellé Client : code client, type client Vendeur : code vendeur, nom, code service Date : jour, semaine, mois Donner le schéma en étoile, en flocon de cet entrepôt?
Architecture
Zone Préparation Zone Stockage Zone Présentation
12/04/2023
26
Réponse
Modèle en étoile
Architecture
Zone Préparation Zone Stockage Zone Présentation
12/04/2023
27
Réponse
Modèle en flocon
Architecture
Zone Préparation Zone Stockage Zone Présentation
12/04/2023
28
Data Mart Un data Mart est un sous-ensemble de données extrait du data
warehouse et ciblé sur un sujet unique, destiné à répondre aux besoins d’un secteur ou d’une fonction particulière de l’entreprise.
Un modèle réduit du data warehouse: Facilement compréhensible; Facilement manipulable.
Data Mart Service Marketing
Data Mart Service GRH
Architecture
Zone Préparation Zone Stockage Zone Présentation
12/04/2023
29
Restitution de l’information« Les données ne naissent pas pertinentes, elles le deviennent».
Requêtes : Donner une réponse à une question plus ou moins complexe (type SQL);
EIS (Executive Information Systems): Outils de visualisation et de navigation dans les données statistiques avec un interfaçage graphique;
Applications spécialisées (ad-hoc) : Applications développées spécialement pour les besoins décisionnels de l’entreprise;
Data Mining : Outils et techniques évolués de prédiction, simulation, etc.
Architecture
Zone Préparation Zone Stockage Zone Présentation
Outils et Editeurs
12/04/2023
30 Editeurs Outils
Outils et Editeurs
12/04/2023
31
Préparation
Warehouse Manager (Prism), Access (SAS), DataStage (VMark), InfoRefiner (Platinum), PASSPORT & NATURAL (Software AG), etc.
Stockage
Oracle, Sybase, Informix, Ingres (CA), DB2 (IBM), Tandem, Teradata, etc.
Présentation
Discoverer (Oracle), ESPERANT (Software AG), Explorer (Business Objects), etc.
Editeurs Outils
Octopus, Kettle, CloverETL, etc.
MySQL, Postgresql, Biz gres, etc.
Mondarian, Palo, etc.
Actualités : l’enquête Decideo sur le décisionnel en entreprise pour l’année 2011
Le nombre d'applications décisionnelles;
Le décisionnel pour métiers.
Actualités et Perspectives
12/04/2023
32 Actualités Perspectiv
es
Perspectives : Axes de recherche Extraction automatique des données; Auto administration des entrepôts de données; Le data warehouse distribué; Entreposage et analyse en ligne de données non-structurées et semi-
structurées; Entreposage et analyse en ligne de données spatiales et spatio-
temporelles; Entreposage et analyse en ligne de données en flots; Real-time business intelligence; Sécurité des entrepôts de données; Gestion et maintenance des entrepôts de données; Data warehouse et Grid computing; Data warehouse et Cloud computing.
Actualités et perspectives
12/04/2023
33 Actualités Perspectiv
es
Un projet du Data Warehousing Un pari à gagner
Ne pas sous-estimer la complexité d’un projet du Data Warehousing;
La mise en place d’une démarche rigoureuse;
Une équipe compétente et expérimentée;
Des partenaires influents;
La conscience de l’importance du projet.
Conclusion
12/04/2023
34
Travail à faire
12/04/2023
35
Un rapport d’étude d’un entrepôt de données
l'entrepôt de données transport de Rennes Métropole http://data.keolis-rennes.com/,
la collection des manuscrits numérisées de la Bibliothèque Nationale de France http://www.bnf.fr/
Etc.
Bibliographie
12/04/2023
36
Bibliographie – Livres Rob Mattison, «Data Warehousing -Strategies, Technologies and
Technics», IEEE Computer Society, 1996.
J.-M. Franco, «Le Data Warehouse -Le Data Mining», Eyrolles, 1997.
W. H. Inmon, «Managing the Data Warehouse», Wiley, 1997.
Bédard, Y., et al., Data Warehousing for Spatial Data: Research Issues, Proceedings of the International Symposium: Geomatics in the Era of Radarsat (GER'97), May 25-30, 1997.
Ralph Kimball et al., « The Data Warehouse Lifecycle Toolkit: Expert Methods for Designing, Developing, and Deploying Data Warehouses », Wiley, 1998.
J.-M. Franco, S. De Lignerolles, «Piloter l'entreprise grâce au data warehouse», Eyrolles, 2000.
Livres WWW Recherche
Bibliographie
12/04/2023
37
Bibliographie – Livres W. H. Inmon, «Building the Data Warehouse», Wiley, 2e: 2000.
Ralph Kimball, Richard Merz, «The Data Webhouse Toolkit: Building the Web-Enabled Data Warehouse», Wiley, 2000.
Ralph Kimball, Margy Ross. «The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling», Vuibert, 2e: 2003.
Laura Reeves, «A Manager's Guide to Data Warehousing», Wiley, 2009.
Robert Laberge, «The Data Warehouse Mentor: Practical Data Warehouse and Business Intelligence Insights», McGraw-Hill Osborne Media, 2011.
W.H. Inmon, Krish Krishnan, «Building the Unstructured Data Warehouse», Technics Publications, LLC, 2011.
Livres WWW Recherche
Bibliographie
12/04/2023
38
Bibliographie – WWW http://inmoninstitute.com/ : The Inmon Institute
http://www.tdwi.org : The Data Warehousing Institute
http://www.cait.wustl.edu/cait/papers/prism/ : Société Prism Solutions fondée par W.H. Inmon
http://www.dwinfocenter.org/ : The Data Warehousing Information Center
http://www.olapcouncil.org/ : Outils OLAP
http://www.mediatid.fr/datawarehouse : Forum
http://www.datawarehouse.com/
http://www.datawarehousing.com/
Livres WWW Recherche
Bibliographie
12/04/2023
39
Bibliographie – Recherche ACM SIGMOD : The ACM Special Interest Group on Management of Data
http://www.sigmod.org/
VLDB : The International conference on Very Large Data Bases 37th conference: Seattle, Washington, August 29 -
September 3, 2011 http://www.vldb.org/
DaWaK : Data Warehousing and Knowledge Discovery 13th International Conference on Data Warehousing and
Knowledge Discovery -DaWaK '11 http://www.dexa.org
Livres WWW Recherche
Bibliographie
12/04/2023
40
Bibliographie – Recherche ACM SIG KDD : The ACM Special Interest Group on Knowledge Discovery
and Data Mining Conférence scientifique spécialisée http://www.sigkdd.org/
BIDW: Business Intelligence and Data Warehousing 2nd Annual International Conference on BIDW, 27 - 28 June
2011, Singapore http://www.bizintelligenceconf.org/
Livres WWW Recherche
12/04/2023 41
Merci Pour Votre
Attention
Recommended