MEMOIRE DE MASTER - | MOOC UVCI

1

No························

UNIVERSITE FELIX HOUPHOUET BOIGNY UFR de Mathématiques et Informatique

Laboratoire de Mathématiques Appliquées et Informatique

MEMOIRE DE MASTER Présenté à

l'UNIVERSITÉ FELIX HOUPHOUËT BOIGNY

Mention: Informatique

Spécialité: Base de Données et Génie Logiciel

par ASSIE BROU IDA

Année académique

2013-2014

TITRE DU MEMOIRE:

ETUDE D'UNE PLATEFORME DECISIONNELLE POUR LA GESTION DES INFORMATIONS MEDICALES:

Cas des consultations médicales

Soutenu publiquement le jeudi 18 Décembre 2014

Le jury

~ Président : I

, Directeur : '

Pr. ADOU KABLAN JEROME

Dr. SEKA LOUIS PAUL

Professeur Titulaire UFRMI, UFHB Abidjan

Assistant UFRMl, UFHB Abidjan

Thème: Etude d'une plateforme décisionnelle

pour la gestion des informations médicales :

Cas des consultations médicales

Sommaire

Remerciements........................................................................................ v

Dédicace. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi

Abréviations.......................................................................................... vii

Liste des tableaux.................................................................................... v11 Listes des figures.................................................................................... ix

lntroduction générale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1- Contexte de l'étude........................................................................ 2 2- Problématique.............................................................................. 3 3- Présentation du thème..................................................................... 3 4- Objectif du mémoire....................................................................... 5

Partie 1 : Aspects théoriques de la Business Intelligence................................... 7

Chapitre 1: Approche générale de la Business Intelligence.................................... 8 A- Présentation de la Business Intelligence.............................................. 9

l- Historique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2- ETL (Extract-Transform-Load).................................................... 11 3- Entrepôts de données ou Data_Warebouse..... .. .. .. . 12 4- Architecture d'un système décisionnel............................................ 12 5- Data mining.. .. .. . .. .. . 14

8- Informatique décisionnel vs lnformatique de production.......................... 15 1- lnformatique de production........................................................ 15 2- informatique décisionnel........................................................... 16

Chapitre 2 : Data Warehouse...................................................................... 18

1- Approche définitionnelle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2- Historique des data warehouse.... .. .. .. .. .. . .. .. .. .. 19 3- Structure des données d'un data warehouse...... .. .. . 20 4- Modélisation d'un data warebouse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4.1. Schéma relationnel... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 4.1.1. Schéma en étoile....................................................... 22 4.1.2. Schéma en flocon de neige (Snowflake)............ .. 22 4.1.3. Schéma en constellation.............................................. 23

4.2. Schéma multidimensionnel (Cube)......................................... 24

5- Serveurs O LAP.............................. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 5.1. ROLAP (Relational OLAP)................................................. 26 5.2. MOLAP (Multidimensional OLAP)....................................... 27 5.3. HOLAP (Hybrid OLAP)........................... 27

6- Démarche de construction d'un data warehouse...... .. . .. .. 28 6.1. Modélisation et conception du data warehouse.... .. .. .. .. 28

ii

6.2. Alimentation du data warehouse. .. .. . . . . .. .. . . .. . 30 6.3. Mise en œuvre du data warehouse. 30 6.4. Maintenance et expansion............................................................ 32

Partie Il: Etat de l'art de Système Décisionnel existant dans le domaine médical... 34

l- Différences entre les deux approches.......................................... 35 2- Les éditeurs des différentes solutions.......................................... 36

2.1. Solutions blanches........................................................... 36 2.2. Solutions pré-packagées.................................................. .. 38

3- Choix et justification........ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

Partie Ill: Modélisation- Réalisation - Exploration du système........................... 44

Chapitre 1 : Modélisation du Système........................................................... 45

1- Techniques de modélisation..................................................... 45 l.l. Méthode MERISE........................................................... 47 l.2. Langage UML............................................................... 47

2- Modèle Conceptuel des données du système................................. 48 2.l. Activité « Consultation médicale»........................................ 49 2.2. Dimensions participantes du modèle...................................... 50

2.2.1. Dimension« Time 1 ».. .. . . . . .. . . . . . .. . . .. .. . .. .. .. 50 2.2.2. Dimension «DWDIMPROFESSION». .. .. . .. .. .. .. 51 2.2.3. Dimension «DWDIMSEXE»............... 52 2.2.4. Dimension «DWDlMMALADIE»............................. 52 2.2.5. Dimension «DWDIMHABIT ATION»........................ 53

2.3. Mesures........................................................................ 54 2.4. Schéma en étoile de la consultation médicale............................. 54

Chapitre 2: Réalisation et alimentation de l'entrepôt de données.......................... 55

1- Etude et planification.............................................................. 56 1.1. Sources de données et emplacement.............................. 56

1.2. Périodicité du chargement.......................................... 56

2- Conception des processus de chargement...................................... 57 2.1. Chargement des tables de la zone de transit . .. . . . . . . . . . . . . ..... 58 2.2.Chargement des tables de l'entrepôt de données................. 58 2.3.Chargement de la table des faits.................................... 60

Chapitre 3 : Exploration des données du système............................................ 62

1- Conception du cube muldimensionnel......... . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 2- Exploration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

iii

Conclusion générale............................................................................... 70 Annexes............................................................................................. 73 Bibliographie....................................................................................... 78

iv

Remerciements

Au moment où prend forme ce mémoire, nos remerciements et reconnaissances vont à :

DIEU, l'auteur de toute vie, inspirateur et réalisateur de tout projet. Tous nos professeurs et encadreurs du département de Mathématiques et lnformatique, pour l'enseignement que vous nous avez dispensé avec abnégation et pour les conseils que vous ne cessez de nous prodiguer. Docteur SEKA Louis Paul, notre encadreur, nous rendons un sincère hommage, car il a veillé avec rigueur à la réalisation de ce travail, pour ses remarques pertinentes, mais aussi pour son écoute et ses conseils bienveillants. Nos familles, qui ont sus nous supporter et encourager tout au long de notre vie, ainsi que pour leur aide inestimable, leur patience et leur soutien indéfectible. En particulier, à Docteur ASSIE Abou Marthe, pour le modèle de travail qu'elle a été pour nous. Messieurs les membres du jury d'avoir accepté d'évaluer ce travail. Tous ceux qui nous sont chers, qui de près ou de loin nous ont apporté leur soutien. Merci.

V

Dédicace

A mes parents, pour leur soutien indéniable et leur aide précieuse. « Powrais-jejamais vous dire tout mon amour».

vi

Abréviations

Bl: Business Intelligence

DW: Data Warehouse

DlPE: Direction de l'Information, de la Planification et de l'Evaluation

ED: Entrepôt de Données

ETL: Extract Transform Loading

ERP : Enterprise Ressources Planning

GMSIH : Groupement pour la Modernisation du Système d'lnformation Hospitalier

HOLAP : Hybrid OLAP

Sl: Système d'lnformation

SIAD: Système d'lnformation d'Aide à la Décision

SIH: Système d'lnformation Hospitalier

SGBD: Système de Gestion de Base de Données

OLTP: On-Line Transactional Processing

OLAP: On-Line Analytical Processing

ROLAP: Relational OLAP

MOLAP : Multidimensional OLAP

MCD: Modèle Conceptuel des Données

SSIS: SQL Server Integration Services

SSAS: SQL Server Analysis Services

SSRS: SQL Server Report Services

SSMS: SQL Server Management Studio

SSBIDS: SQL Server Business Intelligence Development Studio

SA: Staging Area

vii

Liste des tableaux

Tableaul. Tableau de comparaison des processus OLTP et OLAP

Tableau2. Tableau comparatif des avantages et inconvénients des solutions blanches et pré- packagées.

Tableau3. Tableau de l'étude descriptive des solutions BI médicales

Tableau4. Tableau descriptif de la dimension «DWDIMPROFESSION»

Tableau5. Tableau descriptif de la dimension «DWDIMSEXE»

Tableau6. Tableau descriptif de la dimension «DWDIMMALADIE»

Tableau7. Tableau descriptif de la dimension «DWDIMHABITATION»

Tableau8. Tableau du coût du matériel et de logiciel de la mise en place de la solution

viii

Listes des figures

Figure 1. Le décisionnel au sein du système décisionnel

Figure2. Architecture d'un système décisionnel

Figure3. Structure d'un neurone artificiel

Figure4. Evolution des bases de données décisionnelles

Figures. Structure de données d'un data warehouse

Figure6. Exemple de modélisation en étoile

Figure7. Exemple de modélisation en flocon

Figures. Exemple de modélisation en constellation

Figure9. Exemple de schéma multidimensionnel

Figureto. MCD du système

Figurell. Dimension « DWDIMPROFESSION»

Figure12. Dimension « DWDIMSEXE»

Figure13. Dimension « DWDIMMALADIE»

Figure14. Dimension« DWDIMHABITATION»

FigurelS. Schéma en étoile de la consultation médicale

Figure16. Architecture de chargement des données

Figure17. Diagramme d'activité du processus de chargement

Figure18. Exemple de package SSIS

Figure19. Package TableProfession dans SSIS

Figure20. Package SACONSULTATION dans SSIS

Figure21. Package DWDIMHABlTA TION dans SSIS

Figure22. Package DWDIMPROFESSION dans SSIS

Figure23. Package DWFAlTCONSULTATION dans SSIS

Figure24. Création du projet SSASTemps

63~ix

Figure25. Création d'une dimension Time 1 à l'aide de l'assistant SSAS

Figure 26. Définition de la période

Figure 27. Sélection du type de calendrier

Figure 28. Génération des attributs

Figure 29. Visualisation des données de la table Time _ l

Figure 30. Cube multidimensionnel de la consultation médicale

Figure 31. Rapport de la consultation médicale

Figure 32. Rapport Nombre de Cas par maladie de la consultation médicale

X

Introduction générale

1

1- Contexte de l'étude

C'est dans un environnement fortement complexe et hautement concurrentiel qu'évolue la

majeure partie, si ce n'est la totalité, des entreprises. Ce climat de forte concurrence exige

de ces entreprises une surveillance très étroite du marché afin de ne pas se laisser distancer

par les concurrents et cela en répondant, le plus rapidement possible, aux attentes du

marché, de leur clientèle ainsi que leurs partenaires. Pour ce faire, les dirigeants de

l'entreprise, quel que soit leur domaine d'activité, doivent être en mesure de mener à bien

les missions qui leur incombent en la matière. lis devront prendre, à cet effet, les décisions

les plus opportunes. Ces décisions, qui influeront grandement sur la stratégie de

l'entreprise et sur son devenir, ne doivent être prises ni à la légère, ni de manière trop

hâtive, compte tenu de leurs conséquences sur la survie de l'entreprise. li s'agit de prendre

des décisions fondées ou basées sur des informations claires, fiables et pertinentes.

Le problème est donc de savoir comment identifier et présenter ces informations à qui de

droit, sachant par ailleurs que les entreprises croulent d'une part sous une masse

considérable de données et d'autre part que les systèmes opérationnels ou « transactionnels

» s'avèrent limités voire inaptes à fournir de telles informations et constituer par la même

occasion un support appréciable à la prise de décision.

C'est dans ce contexte que les systèmes décisionnels ont vu le jour. Ces systèmes offrent

aux décideurs des informations de qualité sur lesquelles ils pourront s'appuyer pour arrêter

leur choix décisionnel. Pour ce faire, ces systèmes utilisent un large éventail de

technologies et de méthodes parmi lesquelles nous pouvons noter les entrepôts de données

(ou Data Warehouse (DW) en anglais) qui représentent l'élément principal et

incontournable pour la mise en place d'un bon système décisionnel.

De nos jours, il devient ainsi possible pour une structure de s'évaluer et d'anticiper grâce à

l'informatique décisionnelle (ou Business Intelligence (BI) en anglais). C'est d'ailleurs ce

qui justifie le thème de notre mémoire : « Etude d'une plateforme décisionnelle pour la

gestion des informations médicales»

1 2

2- Problématique de l'étude

Les entrepôts de données ont été conçus pour l'aide à la décision. Us intègrent les

informations en provenance des différents systèmes transactionnels de l'entreprise.

L'ensemble des données, y compris leur historique, est utilisé pour faire des calculs

prévisionnels, des statistiques ou pour établir des stratégies de développement et d'analyses

des tendances.

Dans le cadre de notre recherche, nous nous proposons d'adapter notre savoir-faire au

problème de la gestion de données médicales qui constituent un cadre applicatif

particulièrement intéressant. En effet, ces données se trouvent reparties dans plusieurs

sources qu'il faut, dans un premier temps, fédérer pour constituer un entrepôt de données

pertinentes pour l'application visée. Cette étape est importante dans la mesure où elle doit

non seulement identifier les sources, mais aussi déterminer comment extraire de ces

sources les données désirées. Nous devons alors déterminer si les données doivent être

extraites telles quelles ou bien s'il faut les traiter au préalable en leur appliquant des

fonctions spécifiques. Cela suppose qu'il faut déterminer l'adaptation de ces données soit

au niveau de l'application d'extraction, soit au niveau des agrégats soit au niveau de

l'application d'analyse. Cette problématique est générale à la constitution de tout entrepôt, mais nous devons ici

tenir compte de la nature particulière des données sur lesquelles portent l'étude à savoir le

type, le format, la sémantique, les informations manquantes ou incomplètes etc.

En somme, il s'agit de constituer un entrepôt de données qui contient des données

pertinentes et de qualité sur lesquelles seront basés l'outil d'interrogation et le processus

d'aide à la décision médicale. Cette application aidera au mieux les professionnels de la

santé en charge des décisions à avoir une vue sur l'ensemble des activités menées dans

leurs établissements hospitaliers respectifs afin d'aboutir à des prises de décisions

optimales.

3- Présentation du thème

Le thème de notre mémoire est: « Etude d'une plateforme décisionnelle pour la gestion des informations médicales ». A travers ce thème, nous voulons approfondir nos

3

connaissances sur le sujet du système d'information décisionnel afin de l'adapter au

domaine spécifique d'activités médicales où la gestion des données demande une attention

particulière. Mais, qu'entendons-nous par information médicale?

~ Information médicale

Selon le site Wikipédia, une information médicale est une spécialité d'origine récente

fondée sur l'analyse de données informatiques relatives aux patients et aux services de

santé pour disposer d'éléments chiffrés sur l'activité du centre de santé. Par ailleurs en Côte d'Ivoire, l'information médicale se définit comme étant l'ensemble

des données recueillies sur un malade au cours d'une consultation et auprès des différents

services de l'hôpital. Ces données comprennent en général:

• une analyse des temps d'attente (par exemple par département).

• une analyse de la durée du séjour des patients (par département, par âge, par

traitement, etc.).

• une analyse du comportement de prescription des médecins.

• une gestion des stocks des matériaux et de la pharmacie.

• une réduction des coûts opérationnels en analysant l'utilisation des matériaux. la

gestion des ressources (achat basé sur la demande ou le besoin en ce moment) et les

fournisseurs (des livraisons à temps, de bon prix).

• un suivi mensuel, trimestriel ou annuel des différents départements, médecins,

patients ou traitements.

• un accès aux dossiers médicaux des patients.

• une combinaison des informations provenant du système de planification, du

système financier et du système des ressources humaines.

• un suivi des paiements.

• une analyse des coûts et des rendements par département, médecin ou patient etc.

Dans le cadre de notre recherche, nous avons focalisé notre travail sur le dossier médical

des patients et celui des maladies dont ceux-ci pourront éventuellement être atteints.

4

)il, Sources de données réelles

11 existe deux types de sources réelles qui sont la base de données « BDPatients » et la

base de données « BD _Maladie ». Ces sources de données ont été conçues à partir des

informations recueillies auprès des spécialistes de la santé que nous avons rencontrés au

cours de notre travail.

Ces sources seront fournies en annexe (à la page 73).

4- Obiectif du mémoire

Notre objectif consiste à la conception et à la réalisation d'un entrepôt de données pour

l'aide à la décision médicale. C'est pourquoi nous proposons:

la récupération des données en provenance de sources multiples des différents

services de l'hôpital;

la consolidation et le traitement de ces données en vue de les rendre exploitables;

le développement et le suivi des indicateurs pour mesurer la qualité des soins;

l'envoi périodique ou généralement par mail, des tableaux de bord au grand nombre

d'utilisateurs en vue de décisions prévisionnelles.

)il, Les utilisateurs

Ce sont: le Ministère de la Santé et de Lutte contre le Sida

les Directeurs régionaux de la santé

les Directeurs des centres hospitaliers,

les Médecins.

De ce qui précède, nous pouvons retenir que les progrès techniques dans le domaine

médical sont une solution aux difficultés que connaissaient autrefois les gestionnaires et

analystes médicaux ainsi que les médecins dans leur pratique. Ces progrès, il faut le

souligner, relèvent de la Business Intelligence (Bl) dont le cœur repose sur l'entrepôt de

5

données (ED) qui est alimenté par les ETL (Extract-Transform-Load); les informations

contenues dans l'ED sont récupérées par de nombreux outils qui permettent de répondre

aux divers problèmes.

Dans le souci d'une meilleure présentation de notre travail, nous avons mis principalement

l'accent sur l'entrepôt de données (ED) dans le domaine médical. Toutefois, pour mieux

appréhender notre préoccupation nous avons articulé notre travail en quatre parties

essentielles qui sont :

• introduction générale

• Aspects théoriques de la Business intelligence

• Etat de l'art du système décisionnel existant dans le domaine médical

• Modélisation-Alimentation-Exploration du système

Après une introduction générale dans laquelle nous avons présenté le contexte général du

projet ainsi que la problématique et les objectifs visés, la première partie consistera à

présenter les aspects théoriques du domaine des systèmes d'information d'aide à la

décision (SlAD), en évoquant leurs définitions et les concepts de bases relatifs aux «

entrepôts de données » et à la BI.

Dans la deuxième partie, nous présenterons l'état de l'art du système décisionnel existant

dans le domaine médical. La troisième partie, quant à elle, décrit l'architecture globale de La solution; cela en

présentant les différents outils intégrés et les volets de la solution développés. Elle décrit

aussi la manière dont se passe le déploiement de la solution.

Une conclusion générale est proposée afin de synthétiser le travail réalisé et de citer les

perspectives du projet.

6

Partie I: Aspects théoriques de la Business Intelligence

7

Chapitre!: Approche générale de la Business Intelligence

Par le passé, les décisions dans les structures telles que les établissements sanitaires et

même en entreprise étaient prises selon l'intuition du pôle exécutif sans l'aide de

l'informatique. Cela était dû au fait que les outils informatiques de l'époque ne le

permettaient pas. Autrement dit, il était difficile d'accéder à l'outil informatique compte

tenue de la non maitrise de la chose et du coût exorbitant. L'informatique, était l'apanage

de quelques riches (aussi bien les hommes que les entreprises ou les structures). Ainsi, les

informations étaient sauvegardées tant bien que mal. En effet, toutes les entreprises du

monde disposent d'une masse de données plus ou moins considérable. Ces informations

proviennent soit de sources internes (générées par leurs systèmes opérationnels au fil des

activités journalières) soit de sources externes (web, partenaire, etc.). Cette surabondance

de données et l'impossibilité des systèmes opérationnels de les exploiter à des fins

d'analyse conduit, inévitablement, l'entreprise à se tourner vers une nouvelle informatique

dite décisionnelle qui met l'accent sur la compréhension de 1 'environnement de l'entreprise

et l'exploitation de ces données à bon escient. L'informatique décisionnelle (Business Intelligence (BI) en anglais) désigne l'ensemble

des moyens, des outils et des méthodes qui permettent de collecter, de consolider, de

modéliser et de restituer les données internes ou externes d'une entreprise en vue d'offrir

une aide à La décision. Elle est à l'usage des décideurs et des dirigeants. Ainsi, à l'aide de

cet outil, le décideur peut à tout moment avoir une vue sur l'activité traitée dans sa

structure. Toutefois, cela ne peut se faire qu'en mettant en place des indicateurs« business

» clairs et pertinents qui permettent la sauvegarde, l'utilisation de la mémoire de

l'entreprise et en offrant aux décideurs la possibilité de se reporter à ces indicateurs pour

une bonne prise de décision. Le data warehouse (DW) ou entrepôt de données en français constitue dans ces

conditions une structure informatique et une fondation des plus incontournables pour la

mise en place des applications décisionnelles. Le concept de DW, tel que connu

aujourd'hui, est apparu pour la première fois en 1980; l'idée consistait à réaliser une base

de données destinée exclusivement au processus décisionnel. Les nouveaux. besoins de

l'entreprise, les quantités importantes de données produites par les systèmes opérationnels

8

et l'apparition des technologies aptes à sa mise en œuvre ont effectivement contribué à

l'apparition du concept« data warebouse » comme support aux systèmes décisionnels.

De nos jours, il devient ainsi possible pour une structure de s'évaluer et d'anticiper grâce à

la Business Intelligence.

A- Présentation de la Business intelligence

La raison d'être d'un entrepôt de données, comme évoqué précédemment, est la mise en

place d'une informatique décisionnelle au sein d'une structure. C'est pourquoi il serait

assez intéressant pour nous de définir quelques concepts clés relatifs au concept de

décisionnel. Par ailleurs, pour mieux comprendre la finalité des systèmes décisionnels

nous essaierons de les placer dans leurs contextes et rappellerons ce que c'est qu'un

système d'information.

Le système d'information (SI) est l'ensemble des méthodes et moyens de recueil, de

contrôle et de distribution des informations nécessaires à l'exercice de l'activité en tout

point de l'organisation. 11 a pour fonction de produire et de mémoriser les informations, de

1 'activité du système opérant (système opérationnel), puis de les mettre à la disposition du

SIAD (système de pilotage).

1- Historique

La notion de Business Intelligence est apparue à la fin des années 1970 avec les premiers

infocentres. Les infocentres sont des systèmes qui envoyaient des requêtes directement sur

les serveurs de production, mais cela se révélait plutôt dangereux pour ces derniers. Dans

les années 1980, l'arrivée des bases de données relationnelles et du mode client/serveur a

permis par contre d'isoler l'informatique de production des dispositifs décisionnels.

Toutefois, dans la foulée, des acteurs spécialisés se sont lancés dans la définition de

couches d'analyse "métier", dans le but de masquer la complexité des structures de

données. Dès lors, la 81 n'est plus l'affaire des équipes techniques, dans la mesure où. elle

est directement accessible aux responsables opérationnels que sont les décideurs et les

dirigeants des entreprises.

9

C'est d'ailleurs ce que soutenait Goglin J.-F quand il dit que « le système d'information

décisionnel est un ensemble de données organisées de façon spécifique, facilement

accessible et appropriées à la prise de décision. la finalité d'un système décisionnel est

donc le pilotage d'entreprise ».1 [ 4]

Dit autrement, la Business Intelligence (BI), également appelée "intelligence

d'affaires" ou "informatique décisionnelle" englobe les solutions informatiques qui

apportent une aide à la décision. Plus simplement, elle est la transformation de

données brutes en information puis la transformation de l'information en savoir;

elle permet aussi de mettre en œuvre des moyens pour collecter. consolider et

restituer des données afin :

de prédire et/ou gérer les ventes,

d'évaluer le risque-client (par exemple pour les banques et assurances)

de définir des comportements des populations afin d'aider les entreprises à

définir leur cible-client.

En somme, l'entrepôt de données est le cœur de La Business Intelligence. Il est alimenté

par les ETL (Extrat-Transform-Load) et ses données sont récupérées par de nombreux

outils permettant de répondre aux problèmes.

~ Quelle est donc la place du décisionnel en entreprise ?

PUotag

omprabUlcé anaJ;n:lque

Anal~ - de ~e-,tlon

:::SoYou noœ-.olf:,,é

TIF

ProducHon

~I

Figure 1. Le décisionnel au sein du système décisionnel 14]

1 La construction du datawarehouse: Du datamart au dataweb. Hermes, 2ème édition 2001, pp21-22.

10

La figure ci-dessus illustre parfaitement la place qui revient au décisionnel au sein d'une

entreprise. Cette place, comprend plusieurs fonctions clés de l'entreprise. Les finalités

décisionnelles, étant différentes selon le poste et La fonction occupée ont pour but

d'engendrer plusieurs composantes.

Pour analyser les données, il est indispensable de les rassembler en un seul endroit. Or, les

données d'une entreprise se trouvent dans de multiples endroits et ne sont pas souvent

cohérentes. Pour les rassembler et afin de les nettoyer, nous utilisons un logiciel de type

ETL.

2- ETL (Extraa-Transform-Loadï

L'ETL est le processus qui permet de charger un data warehouse (entrepôt de données) à

partir de données externes généralement issues de sources différentes. Son rôle est de

récupérer ces données et de les traiter pour qu'elles correspondent aux besoins du modèle

dimensionnel.

Selon Kimball R. et Caserta J, « 70% de l'effort consacré à un projet de Bi est dépensé

dans l'ETL ».2 [6]

En ce qui concerne la nécessité de nettoyer et transformer les données extraites, un ETL

vise:

• à les homogénéiser, c'est-à-dire définir un format commun pour les données.

Prenant l'exemple des dates, si certains utilisent le format français 12/01/2012 et

d'autres Le format us 01/12/2012, on risque une confusion de l'information.

• soit à nettoyer les données, soit à supprimer les données anciennes ou celles

incohérentes, ou encore agir doublement c'est à dire nettoyer et supprimer (les

données). C'est l'exemple des produits sans nom ni prix.

Pour résumer ce passage relatif aux ETLs, nous sommes partis de données brutes que nous

avons nettoyées et transformées. mais où et comment les stocker? Nous allons stocker ces

2 ln The Data Warehouse ETL Toolkit. Wiley Publishing. (2004).

11

données dans une base de données particulière, appelée data warehouse ou entrepôt de

données.

3- Entrepôts de données ou Data Warehouse

La raison d'être d'un entrepôt de données, comme évoqué précédemment. est la mise en

place d'une informatique décisionnelle au sein de l'entreprise. Les entrepôts de données

sont apparus vers les années 1990 en réponse à la nécessité de rassembler toutes les

informations de l'entreprise en une base de données unique destinée aux analystes et aux

gestionnaires. L'ensemble des données, y compris leur historique sont utilisés dans de

nombreux domaines, tels que l'analyse de données et l'aide à la décision (gestion et

analyse de marché, gestion et analyse du risque, gestion et détection des fraudes etc ... ),

ainsi que dans certaines autres applications (recherches dans des textes, dans les documents

web etc ... ).

De ce qui précède, nous pouvons dire que le data warehouse est fait pour stocker les

données selon les besoins actuels et futurs de l'entreprise et répondre à tous les utilisateurs.

Dans ce chapitre, où nous analysons aussi bien les caractéristiques des entrepôts que leurs

aspects temporels, nous présenterons d'abord l'architecture d'un système décisionnel qui

se constitue de trois composantes à savoir les sources, l'entrepôt de données et les outils

pour l'interrogation de l'ensemble de données. Nous décrirons aussi les caractéristiques

des entrepôts et les bases de données relationnelles.

4- Architecture d'un système décisionnel

L'architecture d'un système décisionnel repose sur un SGBD (data warehouseï séparé du

système de production de l'entreprise qui contient les données de l'entrepôt. Le processus

d'extraction des données (les outils ETL) permet d'alimenter périodiquement ce SGBD.

Néanmoins avant d'exécuter ce processus, une phase de transformation est appliquée aux

données opérationnelles. Celle-ci consiste à les préparer (mise en correspondance des

12

formats de données), les nettoyer, les filtrer, pour finalement aboutir à leur stockage dans

l'entrepôt ou data warehouse. La Figure suivante nous présente cette architecture:

Data Ma Generate.ir d'~ta

BD Interne

BD E,;terne

Cube OLAP Analyse Multidimens,onnette

En.. Data Wareho.ise

Data M1mng

Fichiers rxr, csv ...

Data Mart f-,-

Source de Donnée

Extraction Stockage

Tableaux de bord

Restitution

Figure 2. Architecture d'un système décisionnel

Source: ADULLACT (Association des Développeurs et des Utilisateurs de Logiciels

Libres pour les Administrations et les Collectivités Territoriales), Etat de l'art: Solutions

Open Source de Business Intelligence, pl 7. 2008.

ll existe trois grandes parties qui sont : les sources de données, l'entrepôt ou le data

warehouse et les outils d'interrogation existants sur le marché.

a / Les sources de données proviennent de différentes bases de données complexes. Il

existe deux types de sources de données: les données internes et externes à l'organisation.

b / L'entrepôt de données ou data warehouse. Il existe plusieurs types de données dans

un entrepôt qui correspondent à diverses utilisations. Chaque donnée se présente sur deux

axes l'un synthétique et l'autre historique.

• L'axe synthétique établit une hiérarchie d'agrégation comprenant:

13

les données détaillées qui représentent les événements les plus récents au bas

de la hiérarchie et

les données agrégées, qui, elles, synthétisent les données détaillées. les

données fortement agrégées synthétisant à un niveau supérieur les données

agrégées.

• L'axe historique comprend les données détaillées historisées représentant les

événements passés.

La description de toutes ces données (provenance, structure, méthode utilisées pour

l'agrégation) constitue les métadonnées de l'entrepôt.

c / Les outils. il existe sur le marché différents outils pour l'aide à la décision. comme les

outils de fouille de données ou data mining (pour découvrir des liens sémantiques), les

outils d'analyse en ligne OLAP "On-Line Analytical Processing" (pour la synthèse et

l'analyse des données multidimensionnelles), les outils d'interrogation (pour faciliter

l'accès aux données en fournissant une interface conviviale au langage de requêtes).

5. Data mining

Le data mining ou fouille de données est un ensemble de techniques tirées des mathématiques permettant le forage de données, c'est-à-dire la recherche d'informations

dans de grands volumes de données. C'est l'art d'extraire des connaissances à partir des

données. Nous pouvons citer à ce sujet les réseaux de neurones, l'analyse en composant

principal, l'analyse du discrimant linéaire, les chaînes de Markov etc ...

L'un des principaux modèles utilisés est le réseau de neurones.

)- Le réseau de neurones

Un réseau de neurones est un modèle de calcul dont le fonctionnement schématique est

inspiré du fonctionnement des neurones biologiques. Chaque neurone fait une somme pondérée de ses entrées et retourne une valeur en fonction de sa fonction d'activation.

Cette valeur peut être utilisée soit comme une des entrées d'une nouvelle couche de

14

neurones, soit comme un résultat dont il appartient à l'utilisateur d'interpréter (classe,

résultat d'un calcul, etc.).

La phase d'apprentissage d'un réseau de neurones permet de régler le poids associé à

chaque synapse d'entrée; on parle également de coefficient synaptique. C'est un processus

long qui doit être réitéré à chaque modification structurelle de la base de données traitées.

DoidS valeurs ,, .

\ .. ., Il /}

\ 1 •

/

O"IC: O"I '1 ;,n '"' '•'

~,t,tttUtl• V>'-'!'·•' I ., nrt . Il, 1 /' ~) ; ··__!J . ,_,,., ln,i, •1•• 1111,t.ll •) • .,,,

,,

IJ 'tt. •.,.1--,1

Figure 3. Structure d'un neurone artificiel

Source: Guillaume CALAS, Études des principaux algorithmes de data mining, [SCIA]

EPITA 2009, ppl-20, 2009.

B- informatique décisionnel vs Informatique de production

Dans l'environnement des entrepôts de données, les opérations, l'organisation des

données, les critères de performance, la gestion des métadonnées, la gestion des

transactions et le processus de requêtes sont très différents des systèmes de bases de

données opérationnels. Par conséquent, les SGBD relationnels orientés vers

l'environnement opérationnel ne peuvent pas être directement transplantés dans un

système d'entrepôt de données.

l. Informatique de production

Les bases de données ou SGBD relationnels sont utilisées dans les entreprises pour gérer

les volumes importants d'informations contenus dans leurs systèmes opérationnels. Ces

15

données sont gérées selon des processus transactionnels en ligne (OLTP "On-Une

Transactional Processing") qui se caractérisent de la manière suivante :

- ils sont nombreux au sein d'une entreprise

- ils concernent essentiellement la mise à jour des données,

- ils traitent un nombre d'enregistrements réduits,

- ils sont définis et exécutés par de nombreux utilisateurs.

L'exploitation de l'information contenue dans les systèmes opérationnels étant devenue

une préoccupation essentielle pour les dirigeants des entreprises, la prise de décisions

stratégiques qui leur incombe nécessite le recours et le croisement de multiples

informations. C'est pourquoi il faut penser à l'informatique décisionnelle.

2. Informatique décisionnelle

A l'inverse de l'informatique de production, le décisionnel fournit les informations pour

définir la stratégie, piloter les opérations et analyser les résultats. Ainsi, le data warehouse

qui est le cœur de cette informatique intègre ces informations qui ont pour objectif de

fournir une vue globale de l'information aux analystes et aux décideurs. Ces applications

utilisent des processus d'analyse en ligne de données (OLAP : "On-Line Analytical

Processing") qui se caractérisent de la manière suivante:

- ils sont peu nombreux mais leurs données et traitements sont complexes.

- il s'agit uniquement de traitements semi-automatiques visant à interroger. visualiser et

synthétiser les données. - ils concernent un nombre d'enregistrements importants aux structures hétérogènes.

- ils sont définis et mis en œuvre par un nombre réduit d'utilisateurs qui sont les décideurs.

On résume tout ceci dans le tableau suivant :

16

Processus OLTP Processus OLAP

Données exhaustives, courantes, résumées, historisées,

dynamiques, orientées statiques, orientées sujets,

applications, mises à jour et interrogation

interrogation

Utilisateurs Nombreux, variés (employés Peu nombreux, uniquement

et directeurs), les directeurs et décideurs

Mode accès Concurrent, lecture/ écriture Lecture seule

Temps de réponse Réponse immédiate Réponse moins rapide

Requêtes prédéfinies Imprévisibles et complexes

Tableaul.Tableau de comparaison des processus OLTP et OLAP

Pour mieux appréhender le thème soumis à notre travail, il convient de revenir plus en

détail sur le concept du data warehouse en ce sens qu'un système décisionnel o' existe que

par ce dernier.

17

Chapitre 2: Data Warebouse

1. Approche définitionnelle

Considéré comme étant la référence dans le domaine "Building the Data Warebouse", Bill

ln.mon définit le data warehouse, dans son livre en ses propres termes :

« Le data warehouse est une collection de données orientées sujet, intégrées, non

volatiles et évolutives dans le temps, organisées pour le support d'un processus d'aide à

la décision». 3[5]

Les paragraphes suivants illustrent les caractéristiques citées dans la définition d'Inmon,

Orientées sujet: le DW est organisé autour des sujets majeurs de l'entreprise,

contrairement à l'approche transactionnelle utilisée dans les systèmes opérationnels, qui

sont conçus autour des applications et des fonctions comme les cartes bancaires. la

solvabilité client etc. Les DW sont organisés autour de sujets majeurs de l'entreprise tels

que la clientèle, les ventes, les produits etc. Cette organisation, il faut le dire, affecte

forcément la conception et l'implémentation des données contenues dans l'entrepôt de

données ; de même que le contenu en données et en relations. Dans un système

opérationnel, les données sont essentiellement destinées à satisfaire un processus

fonctionnel en obéissant à des règles de gestion, alors que celles d'un DW sont destinées à

un processus analytique.

Intégrées : le data warehouse va intégrer les données en provenance de différentes

sources. Mais cela nécessite la gestion de toute incohérence.

Evolutives dans le temps. Dans un système décisionnel, il est important de conserver les

différentes valeurs d'une donnée, cela permet les comparaisons et le suivi de l'évolution

3 « Building the Data Warehouse Third Edition»; Wiley Computer Publishing 2002

18

des valeurs dans le temps alors que dans un système opérationnel la valeur d'une donnée

est simplement mise à jour. Dans un DW, chaque valeur est associée à un moment.

« Every lœy structure in the data warehouse contains - implicitly or explicitly -an

element of lime »4[5] disait lnmon.

Non volatiles : c'est ce qui est, en quelque sorte la conséquence de l'historisation décrite

précédemment. Une donnée dans un environnement opérationnel peut être mise à jour ou

supprimée; cependant, une telle opération n'existe pas dans un environnement DW.

Organisées pour le support d'un processus d'aide à la décision. Les données du DW

sont organisées de manière à permettre l'exécution des processus d'aide à la décision

(Reporting, Data Mining).

2- Historique des data warehouses

L'origine du concept d'entrepôt de données remonte aux années 1980 durant lesquelles

un intérêt croissant au système décisionnel a vu le jour; cela se justifie essentiellement par

l'émergence des SGBD relationnels, la simplicité du modèle relationnel et la puissance

offerte par le langage SQ L.

Au début, en effet, le data warehouse n'était rien d'autre qu'une copie des données du

système opérationnel prise de façon périodique; cette dernière étant dédiée à un

environnement de support à la prise de décision. Ainsi, les données étaient extraites du

système opérationnel et stockées dans une nouvelle base de données «concept d'infocentre

» dont le motif principal est de répondre aux requêtes des décideurs sans toutefois altérer

les performances des systèmes opérationnels.

Le data warehouse, tel qu'on le connaît actuellement, n'est plus vu comme une copie ou

un cumul de copies prises de façon périodique des données du système opérationnel. Il est

devenu une nouvelle source d'informations. alimenté avec des données recueillies et

consolidées des différentes sources internes et externes.

4 « Building the Data Warehouse Third Edition»; Wiley Computer Publisbing 2002

19

Figure 4. Evolution des bases de données décisionnelles

3- Structure des données d'un data warehouse

Le data warehouse a une structure bien définie, selon différents niveaux d'agrégation et de

détails des données. Comme nous l'avons souligné plus haut, chaque donnée se présente

sur deux axes; l'un synthétique et l'autre historique. Ce que nous pouvons résumer dans le

diagramme suivant :

1 Données '""'-"-"' \! B\ / Données agrégées CJ ô d)

;::l .2 - '0 ..c

~ Cl)

Cl)

~ Données détaillées I î \ LI Données détaillées historisées 0 0 0

Axe historique > Figure 5. Structure de données d'un datawarehouse

La description de toutes ces données, c'est-à-dire la provenance, la structure et la méthode

utilisée pour l'agrégation, etc, constitue les métadonnées de l'entrepôt.

20

4- Modélisation d'un data warehouse

La construction d'un modèle approprié pour un entrepôt de données nécessite de choisir,

soit un schéma relationnel ou dimensionnel (le schéma en étoile, en flocon de neige ou en

constellation), soit un schéma multidimensionnel.

Les données sont organisées de manière à mettre en évidence le sujet (le fait) et les

différentes perspectives de l'analyse (les dimensions).

~ Le fait représente le sujet d'analyse. Il est composé d'un ensemble de mesures qui

représentent les différentes valeurs de l'activité analysée.

Une table de faits assure les liens plusieurs à plusieurs entre les dimensions. Elles

comportent des clés étrangères qui ne sont autres que les clés primaires des tables

de dimension.

~ Une dimension modélise une perspective de l'analyse. Elle se compose de

paramètres (ou attributs) qui servent à enregistrer les descriptions textuelles. C'est

d'ailleurs grâce à cette table que l'entrepôt de données est compréhensible et

utilisable.

~ Une hiérarchie représente les paramètres d'une dimension selon leur niveau de

granularité ou de détail.

4.1- Schéma relationnel

Il existe deux types de schémas relationnels. Les premiers sont des schémas qui répondent

fort bien aux processus de type OLTP qui ont été décrits précédemment, alors que les

secondes, que nous appelons des schémas pour le décisionnel, ont pour but de proposer des

schémas adaptés pour des applications de type OLAP. Nous décrivons les différents types

des schémas relationnels pour le décisionnel.

21

4.1.1- Schéma en étoile

C'est un schéma dans lequel il existe une table pour les faits et plusieurs tables pour les

différentes dimensions autour de celle-ci. La table de faits contient les différentes mesures

et des clés étrangères de chacune de leurs tables de dimensions.

La figure 6 (ci-dessous) montre le schéma en étoile en décrivant les consultations

réalisées par différents patients exerçant une profession particulière au cours d'un jour.

1 ~:,:rr.tSEXE i ,.,,_,,.,. •• a ~-v•. c..o

,1u1'.1Fi'Of'ESSIOI,

tg!)!\'Pr;1tu::P:" ~ ~ ~;"' N•"tl"~.!5j

Figure 6. Exemple de modélisation en étoile

Dans ce cas, nous avons une étoile centrale avec une table de faits appelée

DWFAlTCONSULTATION et autour ses diverses dimensions DWTEMPS,

DWD1MSEXE, DWDIMMALADIE, DWD1MPR0FESS10N et DWDIMHAB1TAT10N.

4.1.2- Schéma en flocon de neige (Snowflake)

Ce schéma dérive du précédent avec une table centrale autour de laquelle les différentes

dimensions, sont éclatées ou décomposées en sous hiérarchies. L'avantage du schéma en

flocon de neige est de formaliser une hiérarchie au sein d'une dimension, ce qui pourrait

faciliter L'analyse. Un autre avantage est représenté par la normalisation des dimensions

22

1

lorsque nous réduisons leur taille. Cette normalisation rend plus complexe la lisibilité et la

gestion dans ce type de schéma. En ce sens, ce type de schéma augmente le nombre de

jointures à réaliser dans l'exécution d'une requête.

La figure 7, elle, montre le schéma en flocon de neige avec les dimensions Temps et

Magasin éclatées en sous hiérarchies des ventes réalisées dans les différents magasins

pendant un certain jour. Pl'O(hlll

Tc-tnp~

Clf T Jour :\ IQi

T_~Joh

~Joh A.1u,~

ale

~I Rc-i:.lon

:\I_Dc-partc-mc-nt

Dép:1rtrmc-n1 Rf;glou

Figure 7. Exemple de modélisation en flocon

Source : http :/ /business-intelligence.developpez.com/

Dans l'exemple ci-dessus, la dimension Temps a été éclatée en deux tables: la table

Temps et la table T _Mois. Quant à la deuxième à savoir la dimension Magasin, elle, a été

décomposée en trois tables: la table Magasin, la table M_Departement et la table

M_Région.

4.1.3- Schéma en constellation

Le schéma en constellation représente plusieurs tables de faits qui partagent des

dimensions communes. Ces différentes tables de faits composent une famille qui partage

des dimensions mais où chacune a ses propres dimensions.

La figure 8 montre le schéma en constellation qui est composé de deux relations de faits.

La première s'appelle Ventes et enregistre les quantités de produits vendus dans les

23

différents magasins pendant un certain jour tandis que la deuxième gère les différents

produits achetés aux fournisseurs pendant un certain temps.

ProduJ•

ÇJÉ' "\Ing R.a, .• on ..ociole Adre-c..,e

·onunw1e I:>,:pn~en,enl Reglon P:1)."5

,oie

Figure 8. Exemple de modélisation en constellation

Source: http://business-intelligence.developpez.com/

La table de faits Ventes partage les dimensions Temps et Produits avec la table Achats.

Cependant, la dimension Magasin appartient seulement à Ventes et la dimension

Fournisseur est liée uniquement à la relation Achats.

4.2- Schéma multidimensionnel (Cube)

La modélisation multidimensionnelle se base sur un sujet analysé considéré comme un

point dans un espace à plusieurs dimensions.

Le cube représente le concept central du modèle multidimensionnel, lequel est constitué

des éléments appelés cellules qui peuvent contenir une ou plusieurs mesures. La

localisation de la cellule est faite à travers les axes qui correspondent chacun à une

dimension composée de membres représentant les différentes valeurs. La reprise d'une

partie du schéma en flocon de neige de la figure 7 permet de construire le schéma

multidimensionnel suivant :

24

l,13ga5ln

1/: Pnxnl • ~

t lVR CSCPM ,tJgasl =ya,, ~ ·' "" fi hm il Temps

~~c:=:=:r=:;,--. • .,.,

1.,.,,,.. ,. "' "' ,.. .. î

•• Te~ 01ml/21m l--4~--tl--11.-~--- m0IS

<W- •• î Jeu

P:t;s

î Regon

î v,

Figure 9. Exemple de schéma multidimensionnel

Source: http://business-intelligence.developpez.com/

La figure 9 présente un schéma multidimensionnel pour les ventes qui ont été réalisées

dans les magasins pour les différents produits pendant un temps donné (jour). Par exemple,

nous avons la quantité de 100 Téléviseurs vendus dans le magasin d'Annecy le 1er janvier

2000.

ll est important de noter que la construction d'un cube se fait par l'utilisation d'un serveur

OLAP (voir ci-dessous).

~ Manipulation des données multidimensionnelles

Pour visualiser les données multidimensionnelles, nous pouvons utiliser la représentation

sous forme d'une table de données lorsque le nombre de dimensions est inférieur ou égal à

deux. L'augmentation de ce nombre crée des problèmes à l'utilisateur.

Pour résoudre ce problème, nous devons disposer d'opérations afin de manipuler les

données et rendre possible la visualisation. Nous présentons ici, quelques opérations de la

manipulation des données multidimensionnelles :

25

• Opérations classiques

Ces opérations correspondent aux opérations relationnelles de manipulation des données

comme la sélection. la projection, la jointure et les opérations ensemblistes.

• Opérations agissant sur la structure

Les opérations agissant sur la structure visent à présenter une vue (face du cube)

différente en fonction de leur analyse c'est-à-dire la rotation, La permutation, la division,

L'emboîtement (nest), L'enfoncement (push), Le retrait (pull) et L'opération Cube.

• Opérations agissant sur la granularité

Les opérations agissant sur La granularité des données analysées permettent de hiérarchiser

la navigation entre les différents niveaux de détail d'une dimension c'est-à-dire le forage

vers Le haut (drill-up ou roll-up) et le forage vers le bas (drill-down ou roll-down ou scale

down).

5- Serveurs OLAP

Les systèmes décisionnels reposent sur les processus OLAP conçus pour répondre aux

besoins d'analyse des applications de gestion. A ce sujet, nous exposerons sur les divers

types de stockage des informations dans Les systèmes décisionnels.

5.1- ROLAP (Relatiooal OLAP)

Dans Les systèmes relationnels OLAP, l'entrepôt de données utilise une base de données

relationnelle. Le stockage et La gestion de données sont relationnels. Ces systèmes sont en mesure de simuler le comportement d'un SGBD multidimensionnel en exploitant un

SGBD relationnel. L'utilisateur aura ainsi L'impression d'interroger un cube

multidimensionnel alors qu'en réalité, il ne fait qu'adresser des requêtes sur une base de

données relationnelles. Par ailleurs, ROLAP n'agrège rien dans le mesure où les règles d'agrégations sont créées au préalable et représentées dans une table relationnelle; cela

cause une lourdeur administrative tout en conférant une certaine performance et un gage de

cohérence lors de l'utilisation. Cette structure est généralement adoptée dans le but de se

dispenser de l'acquisition d'un SGBD relationnel. Toutefois, le modèle relationnel requiert

des extensions pour supporter les requêtes d'analyses multidimensionnelles du niveau

26

d'application. En outre, Les stratégies d'optimisation représentent le point principal qui

distingue les systèmes ROLAP.

La technologie ROLAP a deux avantages principaux :

elle permet la définition de données complexes et multidimensionnelles

en utilisant un modèle relativement simple,

elle réduit le nombre de jointures à réaliser dans l'exécution d'une

requête.

L'inconvénient est que le langage de requêtes tel qu'il existe, n'est pas assez puissant ou

flexible pour supporter de vraies capacités d 'OLAP.

5.2- MOLAP (Multidimensional OLAP)

Les systèmes multidimensionnels OLAP utilisent une base de données

multidimensionnelle pour stocker les données de l'entrepôt et les applications analytiques

sont construites directement sur elle. Dans cette architecture, le système de base de

données multidimensionnel sert tant au niveau de stockage qu'au niveau de la gestion des

données. Les données des sources sont conformes au modèle multidimensionnel; et dans

toutes Les dimensions, les différentes agrégations sont recalculées pour des raisons de

performance. Les avantages des systèmes MOLAP sont basés sur les désavantages des systèmes

ROLAP et représentent la raison de leur création. D'un côté, Les requêtes MOLAP sont très

puissantes et flexibles en termes du processus OLAP, tandis que de L'autre, le modèle

physique correspond plus étroitement au modèle multidimensionnel. Néanmoins, il existe des désavantages au modèle physique MOLAP. Le plus important

c'est qu'il n'existe pas de standard du modèle physique.

5.3-HOLAP (Hybrid OLAP)

Un système HOLAP est un système qui supporte et intègre un stockage des données

multidimensionnel et relationnel d'une manière équivalente pour profiter des

caractéristiques de correspondance et des techniques d'optimisation.

Les caractéristiques principales d'un système HOLAP sont:

27

1

• la transparence du système. lei, en ce qui concerne le processus de la localisation

et l'accès aux données, il n'est pas utile de connaître si celles-ci (données) sont

stockées dans un SGBD relationnel ou dimensionnel.

• le modèle de données générales et un schéma multidimensionnel global. Pour

aboutir à la transparence du premier point, il faut noter qu'aussi bien Le modèle de

données général que le Langage de requête uniforme doit être fournis. Etant donné

qu'il n'existe pas un modèle standard, cette condition est difficile à réaliser.

• l'allocation optimale dans le système de stockage. Le système HOLAP doit

bénéficier des stratégies d'allocation qui existent dans Les systèmes distribués tels

que le profil de requêtes, le temps d'accès, l'équilibrage de chargement, etc.

• La réallocation automatique. Toutes les caractéristiques traitées ci-dessus

changent dans le temps. Toutefois, ces changements peuvent provoquer la

réorganisation de la distribution des données dans le système de stockage

multidimensionnel et relationnel afin d'assurer des performances optimales.

De ce qui précède, nous pouvons remarquer qu'actuellement, la plupart des systèmes

commerciaux utilisent une approche hybride. Cette approche permet, en effet, de

manipuler des informations de l'entrepôt de données avec un moteur ROLAP. Pour la

gestion des datamarts, les systèmes commerciaux utilisent L'approche

multidimensionnelle.

6- Démarche de construction d'un data warehouse

Plusieurs chercheurs ou équipes de recherche ont essayé de proposer des démarches pour

la réalisation d'un projet data warehouse; celles-ci se croisent essentiellement dans les

étapes suivantes :

• la modélisation et la conception du data warehouse,

• l'alimentation du data warehouse,

• la mise en œuvre du data warehouse,

• l'administration et la maintenance du data warehouse.

28

6.1. Modélisation et conception du data warebouse

Les deux approches les plus connues clans la conception des data warebouse sont :

• l'approche basée sur les besoins d'analyse et

• l'approche basée sur les sources de données.

Aucune des deux approches citées n'est ni parfaite ni applicable à tous les cas. Mais toutes

deux doivent être étudiées pour choisir celle qui s'adapte le mieux à notre cas. Quel que

soit l'approche adoptée pour la conception d'un data warehouse, la définition de ce dernier

reste la même.

~ Approche« Besoins d'analyse»

Le contenu du data warehouse sera déterminé selon les besoins de l'utilisateur final.

Cette approche appelée aussi« approche descendante» (Top-Down Approach en anglais) a

été conçue par R. Kimball, En ce qui concerne les avantages de cette approche, il n'y a pas de risque de concevoir

une solution obsolète avant d'être opérationnelle.

Par contre, nombreux sont ses inconvénients: Aucune prise en compte de l'évolution des besoins de

l'utilisateur. Nécessité d'une modification de la structure du data warehouse en

cas de nouveau besoin.

Négligence du système opérationnel.

Difficulté de déterminer les besoins des utilisateurs.

~ Approche « Source de données »

Le contenu du data warehouse est déterminé selon les sources de données. Cette approche

est appelée« approche ascendante» (Bottom-up Approach en anglais) et est illustrée par B.

lnmon.

29

Inmon considère que l'utilisateur ne peut jamais déterminer ses besoins dès le départ,

parce que ses besoins sont en constante évolution. Il traduit cela en ces termes:

« Donnez-moi ce que je vous demande, et je vous direz ce dont j'ai vraiment besoin ». 5[5]

L'un des avantages est la meilleure prise en charge de l'évolution des besoins. Quant aux

inconvénients, ce sont : le risque de concevoir une solution obsolète avant qu'elle soit

opérationnelle l'évolution du schéma des données sources,

la complexité de source de données.

).> Approche mixte

Une combinaison des deux approches appelée hybride ou mixte peut s'avérer efficace

dans La mesure où elle prend en considération les sources de données et les besoins des

utilisateurs. Cette approche consiste à construire des schémas dimensionnels à partir des

structures des données du système opérationnel en les validant par rapport aux besoins

analytiques. Par ailleurs, elle cumule les avantages et quelques inconvénients des deux

approches déjà citées telles que la complexité des sources de données et la difficulté

relative à la détermination des besoins analytiques.

6.2- Alimentation du data warehouse

L'alimentation du data warehouse se fait par l'utilisation d'outils ETL décrits dans le

chapitre précédent.

6.3- Mise en œuvre du data warehouse

C'est la dernière étape du projet data warebouse c'est-à-dire son exploitation.

L'exploitation de l'entrepôt de données se fait par le biais d'un ensemble d'outils

analytiques développés autour de ce dernier. Cette étape nécessite donc l'achèvement du

5 "Give me what l tell you 1 want, then l can tell you wbat l really want."(lomon, 2002]

30

développement ou de la mise en place de ces outils qui peuvent accomplir les fonctions

suivantes:

• le requêtage ad-hoc Le requêtage ad-hoc reste très fréquent dans ce type de projet. En effet, les utilisateurs de

l'entrepôt de données et spécialement les analystes, seront amenés à interagir avec le DW

via des requêtes dans le but de faire les analyses requises par leurs métiers et d'élaborer

aussi des rapports ainsi que des tableaux de bords spécifiques. L'accès à ce genre de

service peut se faire à travers différentes méthodes et outils. Cependant, les spécialistes en

la matière préconisent de laisser la possibilité à l'utilisateur de choisir les outils qui lui

paraissent les plus adéquats.

• le reporting Destiné essentiellement à la production de rapports et de tableaux de bord, il est la

présentation périodique de rapports sur les activités et résultats d'une organisation, d'une

unité de travail ou du responsable d'une fonction, destinée à en informer ceux chargés de

les superviser en interne ou en externe, ou tout simplement concernés par ces activités ou

résultats. Ces outils de reporting ne sont pas, à proprement parler, des instruments d'aide à la

décision; mais, lorsqu'ils sont utilisés de manière appropriée, ils peuvent fournir une

précieuse vue d'ensemble. Les rapports sont alors crées par le biais d'outils de reporting

qui permettent de leur donner un format prédéterminé. Les requêtes, elles, sont constituées

lors de l'élaboration des rapports qui seront ensuite diffusés périodiquement en

automatique ou ponctuellement à la demande.

• les tableaux de bord Les tableaux de bord sont un outil de pilotage qui donne une vision sur l'évolution d'un

processus, afin de permettre aux responsables de mettre en place des actions correctives.

C'est ce que soutient Bouquin en ses termes :

« Le tableau de bord est un ensemble d'indicateurs peu nombreux conçus pour permettre

aux gestionnaires de prendre connaissance de l'état et de l'évolution des systèmes qu'ils

31

pilotent el d'identifier les tendances qui les influenceront sur un horizon cohérent avec la

nature de leurs fonctions »6 [l].

6.4- Maintenance et expansion

La mise en service du DW ne signifie pas la fin du projet en ce sens qu'un projet DW

nécessite un suivi constant compte tenu des besoins d'optimisation de performance et /ou

d'expansion. li est donc nécessaire d'investir dans les domaines comme le support, la

formation et le management de l'évolution. Ces travaux d'expansion sont à prévoir de façon à faciliter l'évolution du schéma du DW.

Conclusion partielle:

Le concept« Data Warebouse » est apparu comme une réponse à des besoins grandissants

dans le domaine décisionnel. Son adaptabilité et sa capacité de fournir les données

nécessaires à une bonne analyse ont fait de lui un atout majeur et incontournable pour toute

entreprise soucieuse du suivi de ces performances. Toutefois, la mise en place de ce genre de système nécessite le choix et l'adoption d'une

démarche précise qui doit tenir compte des réalités de l'entreprise et des contraintes du

projet. L'alimentation en données constitue l'étape à laquelle il faut accorder le plus d'attention et

de temps. En effet, elle est le garant de contenance de l'entrepôt en données fiables et

correctes. Une fois l'alimentation terminée, l'exploitation des données peut alors se faire

par différentes méthodes. L'utilisation d'outil OLAP reste, cependant, l'aspect le plus

intéressant dans cette exploitation qui favorise la navigation dans les données de l'entrepôt

à la demande.

6 « Le contrôle de gestion»; P.U.F; 2003.

32

Au cours de la troisième partie de cette étude, nous essayerons d'utiliser les concepts

présentés ici, afin de mettre en œuvre notre système.

33

Partie II: Etat de l'art de Système Décisionnel existant dans

le domaine médical

34

Dans le marché des établissements de santé, les besoins d'outils décisionnels commencent

à émerger. Malheureusement bon nombre en sont à leur premier projet ou pas du tout.

Néanmoins, au vu de l'intérêt de ce marché, les éditeurs et les intégrateurs de solutions

logiciels tendent à se développer.

Contrairement à certains qui sont très répandus et faciles à référencer d'autres se font

beaucoup plus discrets sur la toile. Les outils proposés par ces acteurs peuvent être classés

selon deux grandes catégories :

• les suites logicielles dites « blanches». il s'agit des outils du marché qui s'adresse

à n'importe quel domaine d'activité pour lesquels une modélisation spécifique des

données au niveau médical est nécessaire.

• les solutions dites «pré-packagées ». Il s'agit de solutions déjà modélisées selon

une logique choisie par l'éditeur spécialiste santé. li s'agira seulement de les

paramétrer et les « brancher » sur le SIH. Les solutions dites «pré-packagées »

comprennent en général un choix de tableaux de bord, un ensemble d'indicateurs

pré formatés et des fonctionnalités diverses qui sont très variables d'un éditeur à

l'autre.

NB: A côté de ces solutions citées, nous avons le monde Open Source avec des acteurs tel

que Pentaho qui propose des suites décisionnelles complètes. Les systèmes Open Sources

ont le même fonctionnement que les solutions dites blanches.

1. Différences entre les deux approches

Pendant que les éditeurs de solutions blanches souhaitent entrer sur ce nouveau marché où

des besoins existent, les éditeurs spécialistes santé, eux, tentent de développer un avantage

concurrentiel en proposant des solutions décisionnelles. On observe ainsi :

une orientation vers le développement de solutions pré packagées Santé ;

des tarifs qui commencent à s'adapter à la taille de l'établissement (nombre

d'utilisateurs, budget).

Le tableau ci-dessous synthétise les avantages et les inconvénients des deux catégories de

solutions:

35

Avantaaes SolutJon blanche Forte évolutlvlté

Richesse des fonctionnalités

Budget elevé (investissement disproportionné si le périmétre du projet est trop restreint)

Solution pré-packagée

Foc1hte de mise en ceuvr

Peut repondre aux besoins reglementasres ( comptabrht analyttque. T2A ) de manier utomotique

Budget limité (sous réserve de l'intégration)

01fficulle a creer des rapports d1fferents de ceux predefims (nouveaux développements - coüt+déh)o

Risque de statu quo (voie sans issue du SID)

t,lodeles de donnees plus ou moins ouverts

Flexibilité souvent très réduite

Tableau 2. Tableau comparatif des avantages et inconvénients des solutions blanches

et pré-packagées.

Source: GMSIH, Systèmes d'information Décisionnels dans les établissements de santé:

analyse de l'offre éditeur au 31/07/2007, pp9/163.

2. Les éditeurs des différentes solutions

Nous allons présenter brièvement Les plateformes de quelques éditeurs ou prestataires

d'outils décisionnels en milieu médical. Cette liste, il faut le dire, n'est pas exhaustive; elle

n'a pas, non plus, la prétention d'être critique. Elle permet tout juste de renseigner sur

l'existant du marché mondial. Selon une étude effectuée par le GMSIH (Groupement pour la Modernisation du Système

d'information Hospitalier) en 2007, on peut identifier les plateformes de quelques éditeurs

des différentes solutions citées plus haut.

2.1- Solutions blanches

Elles comprennent entre autres Business Objects, Cognos, Microsoft et Oracle qui sont les

leaders du décisionnel.

36

• Business Objects

Leader des solutions de progiciel intégré (ERP, Enterprise Ressources Planning), SAP

AG était curieusement quasi absent du monde de La Business Intelligence. Mais, avec Le

rachat de Business Object en 2008, SAP AG a suivi Le mouvement de concentration mis en

action par les autres éditeurs majeurs comme Oracle ou IBM. Au titre des produits de

référence pour le domaine médical, il n'existe pas de modèle spécifique santé, mais ces

produits peuvent être utilisés pour La conception d'application en ce domaine.

• Cognos Avec le rachat du canadien Cognos en 2008, IBM Corp. est devenu un acteur majeur du

secteur de La Business Intelligence car Cognos était un Leader des solutions de reporting.

Avec ce rachat, IBM peut enfin proposer une gamme complète de solutions performantes

orientées post-utilisateur (reporting, analyse, planning, budgétisation ... ).

Au titre des produits de référence pour le domaine médical, aussi, il n'existe pas de

modèle spécifique santé; par contre on peut utiliser ces produits pour concevoir des

applications 81 pour le domaine médical.

• Oracle Hyperion Solution, éditeur historique de la Business Intelligence, spécialiste des

solutions de gestion financière et de planification a été racheté par Oracle Corp. en 2007.

D'ailleurs, les solutions technologiques d'Oracle Corp. couvrent aujourd'hui l'ensemble du

processus d'aide à la décision et de management de la performance.

Produits de référence pour le domaine médical, il en existe, mais ceux-ci sont

développés en partenariat avec Keyrus et All Sbare, qui sont des prestataires indépendants

supportant plusieurs socles décisionnels.

• Microsoft Malgré l'arrivée tardive de Microsoft Corp. sur le marché de la Business Intelligence,

Microsoft Excel reste encore aujourd'hui l'outil le plus utilisé pour les applications

décisionnelles.

37

Produits de référence pour le domaine médical, il n'existe pas de modèle spécifique

santé, mais on peut utiliser ces produits pour concevoir des applications BI pour le

domaine médical.

2.2- Solutions pré-packagées

La vision produit considérée en 2.1 ne suffit plus à répondre au besoin de pilotage. Ce

changement explique l'arrivée sur le marché de nouveaux acteurs offrant des services

autour de l'informatique décisionnelle en santé. On peut citer entre autres KEYRUS, en Santé, QlikView. SPlH.

• KEYRUS Présent sur le marché depuis plus de 15 ans, Keyrus est identifié comme le partenaire le

plus reconnu parmi les plus grands éditeurs du marché de la BI tels SAP, Oracle,

Microsoft, IBM ainsi que les nouveaux acteurs comme QlikTech et Open source.

L'approche ici n'est plus autour d'une solution, mais elle s'inscrit dans le cadre d'une

mutualisation autour de diverses solutions.

• CTJ Santé

Société de services créée en 2004, en Santé s'est spécialisée dans la création de logiciels de pilotage d'établissements de santé. Sa stratégie BI consiste à proposer un infocentre

basé sur les technologies Web standards et à forte valeur ajoutée« métier». Quoi qu'il en

soit, cette approche est à l'inverse de ce que propose la solution Qlik.View.

• Qlikview

La plate-forme Qlikview de QlikTech est une véritable expérience de 81 libre qui permet

de prendre des décisions innovantes. Elle est celle qui connaît aujourd'hui. le

développement le plus fort sur le marché du décisionnel de santé. En effet, sa popularité est

liée à son mode de diffusion via un partenaire tel que Maya Business Solutions qui ne

compte pas moins de deux cent cinquante (250) références en quatre (04) ans d'existence

(source: magasine MySih, num 004 pl2).

38

• SPIH

Le SPlH (Système de Pilotage Hospitalier) est la solution par laquelle Le produit

LiveDashBoard de Prelytis s'est fait connaître. C'est une solution pré-paramétrée conçue

par trois (03) partenaires apportant leur expertise «métier» au setvice des établissements

de santé; ce sont Stream Consulting, Prelytis et IBM.

•!• Etude descriptive

Aux vues des avantages et inconvénients des différentes solutions présentées en l. (à la

page 3 5), notre étude s'est basée sur la présentation des produits de références pour chaque

éditeur. Cela est consigné dans le tableau suivant:

Editeurs Produits de références

• SAP Crystal Reports Dashboard

Business Objects Design ( anciennement Xcelsius)

permet la création de rapports de

type dashboard.

• OLAP Analyse

• Webl permet aux utilisateurs, à

travers des environnements

prédéfinis, de créer leur rapport et

tableaux de bord de façon autonome.

• Cognos Business Intelligence

Cognos Fonctionnalités traditionnelles de la

BI+ fonctions de planification, de

modélisation, de scénario et

d'analyse prévisionnelle. C'est un

outil collaboratif.

Gamme complète de produits de

Reporting, Analyse, Scorecard et

39

tableaux de bord BI

• Cognos Express

Spécial PME : Solution complète et

modulaire de pilotage de la

performance

• Cognos lnsight

Tableaux de bord universels

• Cognos TMl Planification, Elaboration de

budgétaire, Modélisation,

Simulation. Analyse en temps réel.

• Cognos FSR

Reporting rfinancier, ( officiel)

• Oracle Essbase

Oracle Serveur multi dimensionnel de

données, un produit historique en

matière d'analyse dimensionnelle

conçu à l'origine par Arbor Software

avant d'être racheté par hyperion

Solution.

• Oracle Business Intelligence Suite

Enterprise Edition

Connu sous l'acronyme OBI EE

Plus, ce nom générique ne couvre

l'ensemble des solutions de Business

Intelligence issues principalement

des gammes Siebel et Hyperion.

• Oracle Hyperion Financial

Management

Application Web de consolidation

financière, analyse et reporting.

40

• Oracle Enterprise Performance

Management (EPM)

Disponible aussi en mode "Cloud",

délivre les fonctions d'aide au

pilotage stratégique, budget,

planning, prévision, reporting,

gestion des coûts ...

• SQLServer

Microsoft I Le serveur de base de données

SGBD phare de la marque. Un

virage radical a été pris dès la

version SQL 7, avec l'intégration

d'outils d'analyse

multidimensionnelle de type OLAP

au sein même du produit de

référence.

• Office Performancel'oint Server

• SharePoint Server

• PowerBlforO.lfice365

• Excel

Au fil des versions, Excel devient un

véritable outil de Business

Intelligence, tout à fait à même de

gérer de grandes quantités de

données.

Le groupe Keyrus a développé deux

Keyrus I solutions pour répondre aux besoins des

établissements de santé :

• K@PRlM : composant standard

d'origine centré sur l'activité

41

PMSI

Les utilisateurs réalisent leurs propres

interrogations des données PMSI via

des univers d'indicateurs métiers et

des rapports préétablis : répartition

par GHM, valorisation des séjours par Unité Médicale, par CCAM, par

GHS, Case mix, CIM 10 ...

• K@PRIM + : composant étendu

traitant la comptabilité analytique

et budgétaire

Cette offre comporte deux modules

compatibles et autonomes : l'un pour

la comptabilité analytique hospitalière

(CAH), l'autre pour l'élaboration et la

planification budgétaire.

CTI Santé • CTI-Santé

Prelytis

• LiveDashBoard

• SPIH (Système de Pllotage

Hospitalier) basé sur le produit

généraliste LiveDashboard en

partenariat avec lBM et Stream

Consulting

QlikTech

• Qlikview:

une véritable expérience de BI en

libre-service qui permet de prendre

des décisions innovantes.

Tableau 3. Etude descriptive des solutions BI médicales

42

Une fois l'alimentation des différentes tables terminée, nous pouvons faire des analyses et

naviguer dans les données.

61

Chapitre 3 : Exploration des données du système

Pour faciliter l'analyse et la navigation dans les données, il est important de concevoir des

cubes dimensionnels pour une utilisation intuitive.

La conception des cubes dimensionnels passe par la définition des mesures, des

dimensions et des hiérarchies présentes au sein des dimensions, ainsi que les différents

niveaux de détails de chaque hiérarchie. Le but de la mise en place de ces cubes est d'offrir

une représentation abstraite d'informations multidimensionnelles à des fins d'analyse.

L'outil de la suite Microsoft qui nous permettra de faire ce travail est l'outil d'analyse

SSAS.

)il> Outil d'analyse SSAS

SSAS (SQL Server Analysis Services) est l'outil qui permet de créer et gérer des

structures multidimensionnelles et des modèles d'exploration de données.

1. Conception du cube muJtidimensionnel

• Génération de la dimension Time_l dans SSAS

Nous utilisons l'assistant de dimension de SSAS en observant les étapes suivantes:

Créer le projet SSASTemps

62

Typos de ptoJ.U:

84.dinHs lntdlfg~nCJt Project'i Autlü ~'ll~ M prCJd:s:

Modcld: tJlc.dd6 V,su•I St:uct.o ,nsu!lu

Anoiys,<5e,v,cos Pr"Ojttt

4 lntegrat,on S.Cr..n.c~ (c,uo,tdtOJ"K. PrcJ• ,..J R.rport s«rva ProJttt 'llf,:Md

Repo.rt Se~r ProJ«ct

••. ..,Jlmpcrt A.nt~-' ~tees Oeta.tu~ ,:;\lntc-gubcn S..V..c.,ç P,c,ect 7JR.~port Modrl ProJe<t

Solutton:

Nom de wlubcn:

C:\Use,sV.SSŒ\Oec<kloP'l.1:uTER\Bd

§ une nouvdfc. S,.Olùl.t0n -- - •} .J Cree, I• ,.,p...,cu·e pou, I• l-Clut,on

An•lyus s~M«S: ProJectl

• \ PMC,DW'ÏI-

Figure 24. Création du projet SSASTemps

Sélectionner la méthode de création l

s.i.ct Creatlon Method Vou c•n b-•-.c- thor d•mc-ns,o~ on.,., ~-,st•ns, t•bhr or 51._..,..••••• • ne- t•blir es the ~ourc:c-

HDYY would you h.k.c lo cr~•tir the d,mtrut.onl

Ge_ner.et111 • ttme t•bf• on the :[email protected]

T~mpl•te-:

[<None}

O.esc,.,pt:10.n: C nit.•t.• • n-cw t.,m• d1mens:Îon t•ble ,n t.h:e: und«.rty,ng d.at.e s.ource.. "Th• d,men"1ion w,11 cont..ln det.• for t.he d.ale r.ngt,. att:nbut~ .• and cal•nd.•rs. you s-pe:c,fy, Vau must hav• per·rn,~s,on to ctt.•lr• obJect.s. ,,, 1:he undcrlyu"Sf d.-t• $-out<e .•

~~ [ Suw·ent > ] Annulet-

Figure 25. Création d'une dimension Time_l à l'aide de l'assistant SSAS

Définir les périodes

63

Defln• Tlm• Periods Sele<t. the: time pfflod.s to use ~he-n gtnarating the h1•r•rchies..

F,rst d.y of the- wee_lc:

jeudi 31 dé-ce.tnbte 2015

Timc pfflod.s.:

ILJ

l,J

v •• , H•H Ve•r Qu•rter T r1mest a Month Ten Oays

J \."Veck J Oat·e

Lengu•gc. for timc. mvnbe:r n..ames: 1 Français {fr-ence) • J

< Précédent ] ( Surv•nl > ~nule:r

Figure 26. Définition de la période

Sélectionner le calendrier

Il contient plusieurs types de calendrier en fonction de l'activité gérée. Dans notre cas,

notre choix est le calendrier régulier.

Select Calend•rs Select the calend•rs for '°""hich yo..,. v.,ant to cre.•tc h1cr•rchies.

J Regul .•. r c.alenda.fo

Report1n9 (or m•rlcct,ng) c.•lend•r

.. . tSO 8601 c.•lc:nd•t

• P,,Ec:bt.,..1 ) ( s..iv- > 1 Annulet' J

Figure 27. Sélection du type de calendrier

64

1

Générer les attributs

Completing the Wiurd Type: a name. for the neow d,me.rn;,cn .. v~rtfy the. d,mens,on !ôtructute., and then chclc. f,n,sh to savt the- dime..n,ion.

Name

Tom~ . .l

P-rev1evw.

-. k:: Time_l - ...J Attributes

.,. D•t-e •• Ve•r

Tnmuter Wttk .. Day Of Yeu .. Day Of Tnmutcr

•• OayOfWcek :: Weck Of Yur

L •• Tnmcste-rOfYur

k:: H,crarc.h, es • ::~ Yur • T rrmestcr • Date • • ... :,. Vear • We~k • D•te

Figure 28. Génération des attributs

A travers les différentes étapes ci-dessus citées, nous pouvons dire que la dimension

time_l est remplie automatiquement. Par ailleurs, une requête sur cette table générée dans

l'entrepôt de données« DataWarehouse » permet de voir les enregistrements suivants:

- AS'ilE-PC.Ollll'll-1),q.wnSEXIMOO SQ!.~l.sql · (LE-~ Oll)' AS.SŒ·~ ~ SQIQ,,o,y~ · IU·l'OASSII CS4ll' .ol•:t t:a,: !I.U - ~

. )( _j

"'

Yu

Tltnè>/. J.inJ.yl Œ Ziil 1 .Jrur,-C-2!:ll

Sm.da)· JoN.,yCl2011 Su-.:.,y Jaow-,CS1G11

y..,,_,,.,,,, r ••••....•• Cdcrda, XII û1end,, 2011 Cai,ndy 2CII c.ien;,xn Colw,c!r1'11 c...r.dY~l ùi<nia-2CII c.:.,,.;,..z;11 Cè-dY2ll11

Tlll!>eler_llr.>t Wt:t!< 11 2011~1<1 !X oooc OC')

2011~1-CHlCOOOOOOO W·

::..i.2 2:111 ::..,;,.2.1.ill

0 l'/oekl~\I -

Figure 29. Visualisation des données de la table Time_l

65

• Présentation du cube multidimensionnel de la consultation médicale

iJ tJ Mu,i,,s )0.IIW•lhut

C,,•,f.urtaiSU.UT!OI

. ti ,f

'~ J o.r.a l~•dll1&t • l[ 0-,',ll~ffl.mATial • ll !Y,',llW.JUOJ: ' l[ Ol'l!ru , l[Tnl • ÜDM'lt0"5S l0!1

.J

, . ~ _.•......-..

- •. ,,,,.flllWI'_~ ·- ..• ,... ~,_r:;_, ••. ~O'_fw_t.r. •

:.00-6 .• u:·,·:.o·, C-i.A'1.U 1~

1 :.sof 1

..l; ~ SSASTtmps - ..J D,u Scurc,s

•: .• O~WardkMt..ik ,:, Dat,W,11thcas<l.ds Diu Scum v~.1 •)Dot1W11thc-.ci,,, (uh,s

Dot, l'l•ch-..n.et ..JD,m..,,,cns

O't.OU.tlUSITA TIOtl~ _ T-Ldim (l [M'DlMMAlAllŒ,d,m le: 00,Wf'.Ofill!C)tl d:m Il OU.IDE.dom

~ "1'"'"9 Sauc!urcs Pd,s

D•ta Wartho<M Cubt • A • I

H,nw Q,u ~·1.m~, Pro1a,. tC,ct,a (n<,, PrcetssmgMod ~ Prccffll!J9Pnc1 0 Scnpl(Jd!tl'n1F.~ ScnptfmltHlnc ~-.Nuit

Figure 30. Cube multidimensionnel de la consultation médicale

NB: Le cube dimensionnel est une étape très importante dans tout projet DW. C'est grâce

à cet élément que l'utilisateur final pourra utiliser et exploiter au mieux les données

contenues dans l'entrepôt de données de manière correcte et intuitive.

2. Exploration des données

Les données contenues dans le DW sont explorées pour produire les rapports à l'aide de

l'outil SSRS de la suite Microsoft.

)- SSRS (SQL Server Reporting Services)

Reporting Services est un outil permettant de concevoir des reports ou des modèles de

reports. Ce service est intégré à Visual Studio et SQL server. Un report est créé depuis

66

Visual Studio, ou par le générateur de report. Le report est publié sur un serveur Reporting

Services et les utilisateurs pourront visionner ces rapports selon 3 possibilités :

- Directement depuis le portail Reporting Services,

- Depuis des pages WEB appelant les WebServices.

N'ayant pas de licence Sql Server, les utilisateurs auront accès aux rapports directement

depuis le portail Reporting Services. C'est pourquoi nous presentons ces exemples de

rapports dont un qui affiche par Commune et Ville, le genre, le nombre de personnes

atteintes du paludisme et de la fièvre jaune et l'autre celui des nombres de cas par maladie:

Nombre de personnes atteintes par le lieu d'habitation

Fièvre Jaune Paludisme •1alad1es 1den1Jfiëes

Figure 31. Rapprot de la consultation médicale

67

Nombre de Cas pa,- maladie -2 5

F,êv-e _s,un

ladre 1dent1fiée

Figure 32. Rapport Nombre de Cas par maladie de Ja consultation médicale

3. Coût du proiet

Lorsqu'une entreprise se lance dans le décisionnel, celui-ci enclenche un processus

interminable dans la mesure où les besoins évoluent tout le temps ce qui conduit à la concurrence avec l'arrivée de tout ce qui constitue le cycle de vie d'une entreprise. Le

pilotage de l'entreprise gouvernée par les données devient alors une réalité et il n'y a pas

de retour possible. C'est-à-dire si on se lance dans le décisionnel et qu'on souhaite estimer

son coût, on ne regarde pas le coût sur une année mais sur plusieurs années.

Pour notre travail, les dépenses effectuées sont consignées dans le tableau suivant:

68

Désignation Quantité Pu Montant ( en CFA)

(en CFA)

Machine serveur 1 750000 750000

Licence SQL Server 2008r2 1 l 800 000 1800000

Licence Windows Server 1 244300 244300

Licence Microsoft office 1 86 000 86000

Connexion Internet ADSL 1 mois 30000 30000

MTN

Total 2 910 300

Tableau 8.Tableau du coût du matériel et de logiciel de la mise en place de la solution

69

Conclusion générale

70

Exploiter les données à la disposition des établissements sanitaires afin de leur donner de

la valeur ajoutée, tel est le défi que nous voulons relever à travers le thème de notre

mémoire.

Tout au long de notre travail de conception et de réalisation de l'entrepôt de données, nous

avons essayé de suivre une démarche mixte, alliant Les deux approches connues dans le

domaine du D W, à savoir l'approche « Besoins d'analyse » et l'approche « Sources de

données ». Cette démarche a permis de répondre aux attentes et besoins des utilisateurs

tout en exploitant au mieux les données générées par les systèmes opérationnels de

manière à anticiper sur des besoins non exprimés.

Bien que n'ayant pas des sources de données mises à notre disposition par les systèmes

hospitaliers, la méthode des entretiens avec les différents agents de la santé nous a permis

de constituer les sources de données avec lesquelles nous avons travaillé. Ces entretiens

ont favorisé l'identification de quelques indicateurs qui ont permis de répondre aux besoins

des utilisateurs finaux.

La modélisation de la zone de stockage des données s'est faite à partir des principes de la

modélisation dimensionnelle. Cette modélisation offre une vision claire et une

compréhension intuitive des modèles proposés. C'est pourquoi nous avons proposé un

modèle en étoiles de la consultation médicale.

Quant à la partie d'alimentation de la zone de stockage, il faut reconnaître qu'elle a été,

sans doute, la partie du projet la plus fastidieuse et consommatrice en temps. En effet nous

avons expérimenté les dires des pères fondateurs du DW (Kimball et lnmon) selon lesquels

il faut nécessairement consacrerpLus de 70% du temps de réalisation d'un DW. Cette étape

nous a permis de concevoir et de réaliser à partir de La suite décisionnelle de Microsoft les

étapes d'extraction, de La transformation et du chargement des données.

En absence de Licence Sql Server, le déploiement du cube multidimensionnel pour une

optimisation de données et l'envoi périodique par mail, des tableaux de bord au grand

nombre d'utilisateurs en vue de décisions prévisionnelles n'ont pas été possibles.

71

De tout ce qui précède, nous pouvons dire que ce travail nous a permis d'acquérir une

bonne connaissance de l'environnement médical et de mettre en pratique nos

connaissances théoriques du data warehouse ou des systèmes décisionnels.

Cependant, comme un projet DW n'est jamais complètement terminé, nous pouvons

proposer quelques perspectives et développements notamment : Suivre le déploiement actuel, recueillir les correctifs et les remarques des

utilisateurs. Etendre le déploiement de manière à couvrir, à terme, la totalité du territoire

national.

72

Annexes

1gncstJqueiM.iladie ·tkllCom 1•

CodeUfl.l• llbreûs

Dffli.ind!!&amenlkdic ~ IUll(ons 'l Codef.tf,l!d

&Jmenl,Wol CodeW.ltd llbtU!Exl,lt(I

Mtdt<tn Y IAilnclAtf,led

llolll.lt<I Sptcaltt 8uluu

ttabhoonentHosp ,-.,,----,, Y CodtftHos

R.arsonSo<illt ltllrtllt

Cansulution H1111Con1 DàtCons Motteons •• stonlr.r (~

CoOtllill ~WnCIMMtd Codtflltos

PresairtMfdicamtnt YlllllCons

Codef.l!d Hbrtlo11PrtSl,ltd

l

'= Mtdioment l Codel.ltd t;i,d.11<1

• A·,t"Anle<tdtnt

llul!Cons (odt,\ntl.ltd

-l •

l Ptbtnts ,. Profes~on 1, 1 CodtPi

"'1- y COOtlil'olt11to11 n floll

~dt!t,b PloftSIIGn , I Plenoms i~ O.dlaru 'l Ditll Sm

Dolloolt TollMII"'

Schéma de la base de données BDPatients sous Access

73

TI raltement ,~htere,t ~Tra!ar61'

TAvoir vc~ TSituiGeo

Tiralter Î Crté1~ f C~hlatc,eo

V ~Tramt ,, 1 ZettCto

9C~ 1 1 ~

i '(JJ

-~ 1 IlOOlliser 'Modelrans u:= TMaladie - V C~Trw V~m ~ÎIW t~

~.

Schéma de la base de données BD Maladie sous SOL Server

74

SAHABITATION V COOEHA8JTATION

COMMl..f'E vtU..E

TablePallent5 9 CodeP•l>ff'lt

Sexe Codel>rofus>on

TableConsultationMedlcale V NumCons

O.teCons Co<S&at>er>t Sexe ProfHsaon H.t>otabOn

Malade A9CAnnee

TableProfession 9 CodeProfession

Professaon

Il

\CX>

TableMALADIE 9 COOEMALAOŒ

NOt+IAI.AOlE

Base de données StagingArea

ASSll-PC.OabW- DiagnmSEXlMOO SQL~249' - (L..IE-PC\ASSIE (!lW DWDIMMAI.ADIE 9 100\'.'MAI.ADIE

DIMSEXE 9 IDO\'ISEXE

Sex~

DWOIMHABITATION 9 100','IHABITATTON

Cc:ir+!U'E

YU.Lf

DWFAITCONSULTATION 1DOY,1'R~Ofl IDO\ 'n,IALADIE

IOOWT8"'5 IDOWSElŒ IOOWHA8lTATION

AGE.Ali&

AGEMOlS

DIMPROFESSION 9 CodePl'or,,sSIOn

Pro~ 1 l

Base de données Data Warehouse

75

O.H8 (crnr,nl

Exemples de package de mise à jour

76

•!• Définitions

./ Data mart: Un Data mart (littéralement en anglais magasin de données) est un sous-ensemble d'un DW destiné à fournir des données aux utilisateurs, et souvent spécialisé vers un groupe ou un type d'affaire. Techniquement, c'est une base de données relationnelle utilisée en informatique décisionnelle et exploitée en entreprise pour restituer des informations ciblées sur un métier spécifique, constituant pour ce dernier un ensemble d'indicateurs utilisés pour le pilotage de l'activité et l'aide à la décision.

./ Indicateur : Un indicateur est l'association de plusieurs paramètres clés

représentant l'évolution d'une activité. Il est toujours choisi en fonction des

objectifs futurs de l'entreprise.

77

Bibliographie

Ouvrages - [1] Bouquin Henry; « Le contrôle de gestion»; P.U.F; 2003.

- [2] H. Dresner; « Bi, Making the Data Make Sens»; Gartner Group 2001.

- [3] Jean-Michel Franco;« Le Data Warehouse, le Data Mining »; Eyrolles 1997.

- [4] J.F. Goglin; «La Construction du Datawarehouse: du Datamart au Dataweb »;

Hermes 1998.

- [5] W. H. Inmon; « Building the Data Warehouse Third Edition»; Wiley Computer

Publishing 2002.

- [6] R. Kimball et J. Caserta; « The Data warehouse ETL Toolkit»; Wiley Publisshing,

INC 2004

- [7] R. Kimball et M. Ross; « Entrepôts de Données : Guide Pratique de Modélisation

Dimensionnelle 2ème édition » ; Vuibert 2002.

- [8] R. Kimball; « Entrepôts de données : Guide pratique du concepteur de Data

Warehouse » ;Wiley Computer Publishing 1996.

- [9] Le Moigne J.L., « La théorie du système général, théorie de la modélisation», P.U.F.,

1977.

-[10] Didier Nakache; « Data Warehouse et Data Mining »; Conservatoire National des

Arts et Métiers de Lille; Version 1.1; 15 juin 1998.

Articles et Thèses - [ l l] Abdenour Bouzghoub; « Modélisation des Entrepôts de données XML : Application

au domaine de la sécurité sociale» ; Thèse de Magistère

Option : SlSCSD ; Institut National de Formation en

Informatique (I.N .1) 2008.

- [12] Lamri Chouder; « Entrepôt Distribué de Données»: Thèse de Magistère Option:

SI; institut National de Formation en Informatique (1.N.l) 2007.

- [ 13] Chuck Ballard, Dirk Herreman, Don Schau, Rbonda Bell, Eunsaeng Kim, Ann

Valencic; Data Modeling Techniques for Data Warehousing; International

Technical Support Organization; http://www.redbooks.ibm.com; février 1998.

78

- [14] E. F. Codd; « Providing OLAP (On-Une Analytical Processing) to User-Analysts:

an JT mandate.»; Technical report; E.F. Codd &Associates; 1993.

- (15] Cécile Favre; «Évolution de schémas dans les entrepôts de données»; Thèse de

doctorat; Université Lumière Lyon 2 «École Doctorale Informatique

et Information pour la Société» ; Décembre 2007.

- (16] B. ln.mon;« What is a Data Warehouse»; Article; http://www.billiomon.com; 2000.

- (17] Y .Soler; « Planification et Suivi d'un Projet»; Centre national de la recherche

scientifique Direction des systèmes d'information ;

- [ 18] http:/ /sante-medecine.commentcamarche.net/faq/27828-consultation-medicale-

definition.

- [19] magasine MySib, num 004pl2.

- [20] Maria Trinidad Sema Encinas ; «Entrepôts de données pour/ 'aide à la décision

médicale : conception et expérimentation » ; Thèse de doctorat Spécialité :

Informatique; Université Joseph Fourier« École Doctorale Mathématiques,

Sciences et Technologies de l'Information»; 27 Juin 2005.

- [21] Sébastien FANTINI, FRANK GAVAND, Business Intelligence avec SQL Server

2012 - Maitrisez les concepts et réaliser un système décisionnel, Editions ENI, 600 pages,

2012. - [22] Guillaume CALAS, Études des principaux algorithmes de data mioing, [SCIA]

EPITA 2009, ppl-20, 2009.

79

Documents

MEMOIRE DE MASTER - | MOOC UVCI