Decision Nel

DONFACK GUEFACK Sidoine Rennes le 20 janvier 2013

Le décisionnel

1


Aspects théoriques

2


Introduction

L’objectif de ce document est de présenter dans les détails comment mener un projet de développement d’un outil décisionnel. Il présente les étapes partant de l’idée de projet à l’outil. Les outils de mises en place du système décisionnel sont les outils de la suite Microsoft Business Intelligence. Mais qu’est-ce qu’un projet ? Qu’est que manager un projet ? qu’est que l’informatique décisionnelle ? Pourquoi avoir recours à une solution décisionnelle dans une entreprise quand on sait que ce sont des projets très couteux ? Toutes ces questions seront traitées dans les détails dans ce document.

1 Projet : C’est un effort temporaire exercé dans le but de créer un produit, un service ou un

résultat unique. La nature temporaire des projets implique un commencement et une fin déterminée. La fin est atteinte lorsque les objectifs sont satisfaits ou lorsque le projet est arrêté parce que ses objectifs ne seront pas atteints ou ne peuvent l’être, ou lorsque le projet n’est plus utile.

2 Manager un projetC’est l’application des compétences, d’outils et de techniques aux activités d’un projet

afin d’en satisfaire les exigences. Il consiste à

identifier les exigences. aborder pendant la planification et l’exécution du projet, les divers besoins,

soucis et attentes des parties prenantes. Pondérer les contraintes concurrentes du projet provoquées, entre autres par

o Le contenu

o La qualité

o L’échéancier

o Le budget

o Les ressources

o Les risques etc.

3 Informatique décisionnelle ?C’est une discipline qui recouvre tous les moyens informatiques destinés à améliorer

la prise de décision des décideurs d’une organisation. Elle doit répondre progressivement à trois attentes :

Améliorer l’accès et la qualité des données Gagner en finesse d’analyse et de compréhension de données Gérer les performances de l’organisation et de ses politiques

3


Dans ses débuts, l’informatique décisionnelle s’est contentée tout d’abord de dupliquer les bases de données des systèmes de gestion, afin d’isoler les requêtes d’analyse de données des requêtes opérationnelles. Les requêtes d’analyse étant souvent très lourdes, l’objectif était surtout de préserver les performances des systèmes opérationnels. Ensuite cette base de données dédiée aux requêtes et à l’analyse a progressivement muté et s’est organisée. Partant du constat qu’il était difficile de croiser des données contenues dans des bases de données distinctes, le plus simple a été de regrouper ces données éparses. Le concept de la base unique pour centraliser les données de l’entreprise est plus que jamais d’actualité. Il s’agit du concept d’entrepôt de données (ou Data Warehouse).

S’il est plus simple d’analyser ces données une fois qu’elles sont dans l’entrepôt de données, il n’en reste pas moins qu’il faut tout de même remplir l’entrepôt de données. L’extraction et le croisement des données différents systèmes opérationnels puis le chargement dans l’entrepôt de données, ont fait émerger des outils dédiés à cette tâche, avec des concepts métiers qui leur sont propres : les outils d’ETL (Extract Transform Load).

Si au début, les requêtes d’analyses portaient sur une base relationnelles (dites OLPT pour OnLine Transaction Processing), le concept de base multidimensionnelle (dites OLAP pour OnLine Analitical Processing) s’est démocratisé fin des années 90. Ce concept de bases de données offrait des performances très largement supérieures aux bases OLPT pour répondre à des requêtes d’analyse. Ces bases OLAP se sont alors couplées avantageusement avec l’utilisation de l’entrepôt de données. En effet, elles offraient à la fois un environnement plus performant, mais permettaient également aux utilisateurs finaux de bénéficier d’une interface simplifiée d’accès aux données, beaucoup plus intuitive d’une base de données OLPT. On parle alors de méta-modèle. L’informatique décisionnelle est en général constituée de deux pans :

La préparation et le stockage des données, soit dans sa forme la plus aboutie, la construction et l’alimentation d’un entrepôt de données, le Data Warehouse (DW). Cette activité est parfois nommée le Data Warehousing. Elle comprend la création de bases de données normalisées et dénormalisée, ainsi que l’alimentation de ces bases grâce à des outils dédiés : les ETL (Extract, Transform and Load, soit en français, Extraire, Transformer et Charger). Ce pan est la back end du système décisionnel. Les objectifs étant d’archiver dans une même entité les données métiers des différentes chaines transactionnelles avec une profondeur d’historique plus importante que dans leurs sources, de nettoyer ces données des éléments inutiles ou incohérentes, d’identifier et de créer des liens entre les différents référentiels utilisés dans l’entreprise, de proposer un socle dédié aux opérations d’analyse.

La distribution des données aux utilisateurs métier. Ce domaine est souvent désigné par l’expression spécifique d’applications de BI (Business Intelligence) (BI). Il couvre la création des axes métier, les dimensions, qui serviront d’axes d’analyse, le traitement des données en vue de créer de la valeur ajoutée métier, et la mise à disposition des indicateurs métier aux utilisateurs finaux. C‘est le font end. Le mot clé est Business (métier) : il s’agit

4


de mettre à la portée des experts métier l’information cachée dans les systèmes informatiques.

4 Du transactionnel vers le décisionnelAvec l’apparition de l’informatique de gestion, les années 60 ont vu naitre les

premières bases de données. Des entreprises essayent de comprendre comment fonctionnent nos sociétés, et ce que l’informatique peut leur apporter. Faire entrer les registres, les fichiers, les transactions dans la mémoire de l’ordinateur permet à l’entreprise d’aller plus vite, de gérer plus de volume d’activité, d’augmenter ses profits. En 1970, Edgar Frank CODD chercheur au sein d’IBM, énonce 8 formes normales pour concevoir un système transactionnel robuste. Il vient d’inventer le SGBDR (Système de Gestion de Base de Données Relationnelles, RDBMS en anglais) qui va rapidement devenir le socle indispensable de l’OLPT (On Line Transaction Processing, soit en français : processus de transaction en ligne). Toutes les opérations de gestion de l’entreprise peuvent être modélisées comme des transactions : encaisser un article en magasin, ajouter un client au fichier, saisir un inventaire, enregistrer les congés d’un salarié etc. Une transaction est atomique : c’est un ensemble indivisible. Une transaction est cohérente : elle modifie les objets de la base de données de telle manière qu’ils soient dans un état cohérent fonctionnellement à sa fin. Une transaction est isolée des autres : elle ne les voit pas et les autres ne le voient pas tant qu’elle est en cours. Enfin, une transaction est durable : l’état du système à sa fin est mémorisé.

Les systèmes OLPT et les SGBDR ont littéralement envahi l’entreprise moderne qui ne peut fonctionner sans ERP (Enterprise Ressource Planning ou Progiciel de Gestion Intégré), CRM (Customer Relationship Management ou Gestion de la Relation Client), gestion des stocks, comptabilité, caisses électroniques etc. Toutes ces applications remplissent des bases de données transactionnelles : des millions d’enregistrements, des milliards de transactions, dans des milliers de tables parfois liées les unes aux autres par un schéma complexe, dit normalisé, qui répond parfaitement au besoin de gestion de l’activité, mais qui reste opaque pour les gestionnaires de l’entreprise.

Et si à partir de cette mine d’informations, on essayait d’augmenter notre connaissance sur le fonctionnement de l’entreprise ? sur les actions qui ont été profitables ? sur les produits en forte croissance ? sur les gouts des clients ? sur la qualité de la production ? sur les niveaux de stock ? augmenter la connaissance pour améliorer le processus de prise de décision : décider mieux et plus vite.

Le décisionnel ou l’informatique décisionnelle est l’ensemble des réponses à ces question. Il concentre les différentes techniques qui permettent à une organisation de disposer de l’information juste et à temps pour prendre des décisions et mesurer leurs résultats.

Son principe de base est la modélisation OLAP (On Line Analytical Processing, soit en français : processus d’analyse en ligne), formalisée de nouveau par Edgar Frank CODD, à la fin de l’année 1993. Son objectif est d’apporter aux utilisateurs finaux de l’informatique l’information cachée dans les systèmes de l’entreprise, « d’être capable de distribuer les données aux utilisateur sans les obliger à apprendre des langages de programmation,

5


d’interrogation ou même qu’ils aient à programmer des tableurs ». Elle repose sur une remise à plat du schéma normalisé, la dénormalisation, création d’axe d’analyse simple et orientés métier : les dimensions.

Le second principe est la distribution ou la mise à disposition de l’information qui doit être accessible facilement à un utilisateur non initié. Les données sont soit poussée vers lui soit retirées par lui. L’analyse est soit statique soit dynamique. Comme l’OLPT a peu à peu envahi notre univers, l’OLAP est aisément accessible ou vient à l’utilisateur. Il faut progressivement son apparition dans notre quotidien : les clients qui ont commandé tel produit ont aussi commandé ceux là etc.

Le troisième principe est de conserver les données produites par les transactions dans une base de données isolée des systèmes de production : l’entrepôt ou le magasin de données. Il permet de conserver un historique plus important, de fusionner dans une même unité, les données de différents systèmes. Il constitue un socle pour réaliser toutes les analyses souhaitées sans gêner et être incommodé par les milliers de transactions qui touchent le cœur des systèmes de gestion de l’entreprise. Enfin, il est la source unique d’information des différents décideurs de l’entreprise. Cela permet de mettre tout le monde d’accord sur les chiffres, et d’éviter qu’une analyse soit lancée autant de fois qu’il y a de personnes concernées par son résultat.

5 Pourquoi a-t’on besoin de l’informatique décisionnelle ?En effet, sous le modèle du taylorisme1 et jusque dans les 80-90, les organisations

étaient organisées de manière pyramidale selon une approche verticale. Les décisions étaient prises au sommet de la pyramide et les ordres étaient transmis de manière descendante et unilatérale à tous les niveaux opérationnels. Dans ce type d’organisation, les décideurs étaient seulement les dirigeants de l’organisation. L’efficacité de ce type d’organisation reposait sur le fait que le marché était localisé et il suffisait juste de produire pour vendre. Mais avec la complexité grandissante du marché liée :

A la mondialisation : les concurrents sont plus nombreux, plus innovants, mieux armés. A une modification des comportements d’achats : l’organisation se doit d’être centrée

client. En effet, les produits sont de plus en plus personnalisés (on parle de one-to-one). Au fait que le monde va de plus en plus vite : le critère de délai de livraison ou de

disponibilité de l’information 7 jours sur 7, 24h sur 24 associé à la mondialisation et la personnalisation du besoin client, démultiplie la complexité de l’écosystème de l’organisation.

D’autres approches ont été mises en œuvre vers la fin des années 90 et les années 2000 avec l’avènement du web. Ces approches ont fait en sorte que les cadres opérationnels sont devenus des décideurs de terrain. En fait, dans les entreprises modernes la prise de décision ne peut plus être centrale, celle ci doit être déléguée. De fait, tout cadre devient un décideur de

1 Les explications sur ce modèle sont données plus bas. On y donne sa structure, ses avantages et ses limites.

6


terrain et dispose d’une autonomie relative. Cette explosion du nombre de décideurs cause un gros problème à :

L’informatique, qui se voit démultiplier le nombre de demandes de rapports et d’extraction d données.

La direction, qui a besoin d’outils pour manager ses décideurs : de la cohérence est nécessaire afin que les décisions prises à tous les niveaux de l’entreprise, le soient en accord avec la stratégie d’entreprise.

6 Taylorisme

6.1 définitionLe taylorisme est une méthode de travail qui tire son nom de son inventeur,

l'ingénieur américain Frederick Winslow Taylor (1856-1915). Apparue vers 1880, elle préconise l'organisation scientifique du travail au moyen d'une analyse détaillée des modes et techniques de production (gestes, rythmes, cadences, etc.) visant à établir « the one best way », c'est-à-dire la meilleure façon de produire (définition, délimitation et séquençage des tâches), de rémunérer (passage du salaire à la tâche au salaire horaire), et finalement d'obtenir des conditions propres à fournir le rendement maximum.

Taylor conduit en réalité une double clarification , car le travail d'organisation pour être complet doit se déployer selon son point de vue sous deux dimensions complémentaires :

La dimension verticale , pour établir une stricte distinction entre d'une part les tâches de conception du travail et de formation et d'autre part celles d'exécution : « Les ingénieurs pensent le travail et les ouvriers doivent l'exécuter conformément aux instructions et à la formation que les premiers leur fournissent ».

La dimension horizontale , pour décomposer le processus de production d'un bien en une suite de tâches simples confiées chacune à un ouvrier spécialisé. L'objectif est d'identifier la manière la plus efficace de découper le travail. Doivent être chargés de cette mission des ingénieurs qui de manière scientifique vont chronométrer chaque mouvement élémentaire, éliminer les temps inutiles, étudier les meilleurs outils pour réaliser chaque mouvement, définir un temps optimal pour chaque stade de production, rédiger les recettes de fabrication.

6.2 Limites du TaylorismeLes tâches répétitives sont aliénantes et posent parfois aux ouvriers des problèmes

de santé au travail ou d'attention (pouvant se traduire par une augmentation du taux de malfaçon). Dès les années 1960, les protestations se font plus vives et l« l'absentéisme » augmente. Les ouvriers les plus cultivés, les moins pauvres ou les plus organisés sont lassés d'un métier sans place pour l'initiative et la créativité ou se révoltent.

7


6.3 Au-delà du Taylorisme

Si l'organisation dite « scientifique » du travail, telle que pratiquée par Taylor et ses disciples est considérée encore aujourd'hui comme utile dans certains cas de figure ou certaines activités, elle n'a plus du tout aujourd'hui le monopole de la réflexion en matière d'organisation du travail.

Les méthodes venues du Japon en particulier, et décrites par Kiyoshi Suzaki dans son ouvrage Le nouveau défi industriel8 ont ouvert des perspectives nouvelles :

Le paradigme d'une production de masse organisé selon un cadre strict, répétitif et continu, n'est qu'un mode d'organisation parmi d'autres, et ne garantit plus l'atteinte des meilleures performances.

La division verticale du travail selon laquelle il y a des gens qui pensent et d'autres qui exécutent représente une véritable mutilation sociale : d'une part elle enferme une foule de personnes dans un cadre déshumanisé, d'autre part elle méprise la capacité d'évaluation et de proposition qui existe chez n'importe quel participant à une action ou processus déterminé.

La division horizontale du travail, qui délimite strictement les périmètres d'intervention de chaque opérateur, ne paraît plus pouvoir être justifiée :

dans le cadre d'activités de service ou de production qui impliquent une forte

différenciation

dès qu'un certain degré de flexibilité et d'adaptation est nécessaire pour comprendre et

délivrer le livrable attendu par le client.

7 Décideur ?Un décideur est un individu qui a le pouvoir de décision. Les décideurs sont classés en

trois catégories :

Les décideurs stratégiques 2 ( par exemple la direction générale dans une entreprise ) : Ces décideurs impulsent une politique, définissent les valeurs de l’organisation et donnent les moyens aux ambitions de l’organisation. Leur périmètre de travail s’étend à tous les services, tous les territoires et leur horizon de travail est le long terme.

Les décideurs tactiques ( par exemple sur un axe horizontal on aura la direction financière, la direction des ventes, la direction des achats, la direction de la logistique, sur un axe vertical on aura un responsable de filiale, un responsable régional etc. ) : Ces décideurs sont les relais des caps stratégiques, fixés par les décideurs stratégiques. Ce sont eux qui fixent les objectifs de leur direction ou de leur territoire, qui élaborent et choisissent la meilleure tactique3 pour atteindre ces objectifs. Leur périmètre de travail s’étend à un service ou un territoire. Leur horizon de travail est le moyen terme.

Les décideurs opérationnels ( par exemple un commercial, un acheteur, un responsable de magasin, l’agent de maitrise d’une ligne de production ou d’un atelier ) : Ces décideurs sont ceux qui prennent les décisions à chaud sur le terrain. Ils

2 Politique, art de diriger et de coordonnées des actions pour atteindre un objectif, manœuvre3 Procédé, moyen, art de mener une opération

8


font face à la réalité du terrain, ils gèrent le quotidien. Leur périmètre de travail est un service ou un territoire. Leur horizon de travail est le court terme.

A ces trois catégories il faut ajouter les analystes. L’analyste est chargé de récolter et de travailler l’information, fiabiliser les données, expliquer les résultats. Leur rôle est d’aider à la prise de décision des décideurs. Les analystes varient suivant le type d’organisation (industrie, négoce, service public etc.) et le service auquel ils appartiennent.

Par exemple, les analystes de la direction financière sont des contrôleurs de gestion, ceux du service marketing peuvent être des statisticiens, dans une société industrielle l’analyste peut être aussi un qualiticien ou un gestionnaire des stocks etc. Dans beaucoup d’entreprises, ce sont les secrétaires de direction qui récoltent les chiffres et les consolident pour leur directeur de rattachement.

8 Les facteurs d’amélioration de la prise de décision ?Trois facteurs de prise de décision existent :

La connaissance et l’analyse du passé. La représentation du présent. L’anticipation du futur

Les informations permettant d’appréhender ces facteurs peuvent être de deux natures différentes :

Les informations quantitatives : ce sont toutes les données chiffrées telles que les montants, quantités, pourcentages, délais etc.

Les informations qualitatives : ce sont toutes les informations non quantifiables telles qu’un commentaire accompagnant un rapport, des mécontentements, un sentiment, une directive, une nouvelle procédure etc.

Les décideurs stratégiques ont besoin d’une vision à 360° de leur organisation. S’ils ont besoin d’une évaluation régulière de leur politique, ils travaillent surtout sur l’anticipation de l’avenir. Ils ont besoin de projections chiffrées internes et externes à l’organisation (données quantitatives), mais aussi de beaucoup de données qualitatives remontant du terrain : commentaires, comptes rendus. La conviction repose sur des chiffres, mais aussi sur l’appréhension et la compréhension d’un contexte et d’un climat interne et externe à l’organisation.

Les décideurs tactiques sont souvent es plus grands demandeurs d’outils décisionnels, car ils sont les intermédiaires entre des décideurs stratégiques qui leur demandent des évaluations de leur politique, et des décideurs de terrain, parfois très nombreux, qu’il faut cadrer et suivre. Ces décideurs tactiques ont besoin d’une parfaite compréhension du passé, travaillent peu avec le présent, mais se doivent de travailler avec des prévisions pour recadrer leur politique. Les données chiffrées sont bien évidemment essentielles, encore faut-il que les différents systèmes s’accordent entre eux.

9


Les décideurs opérationnels travaillent surtout avec le présent : il leur faut des données opérationnelles brutes instantanées. L’analyse du passé relève surtout d’un suivi opérationnel pour vérifier l’adéquation avec les objectifs. L’anticipation de l’avenir relève de la fourniture de données opérationnelles en amont du service. Par exemple, s’il y a beaucoup de prises de commandes lors d’une journée, le responsable d’un centre logistique sait que le lendemain ou la semaine suivante la charge de son service va augmenter.

Pour les décideurs tactiques et opérationnels, les informations qualitatives quant à elles ne sont pas dans les systèmes informatiques traditionnels : elles sont dans les mails et circulent de vive voix.

9 Architecture décisionnelle

9.1 GénéralitésC’est une structuration d’un système d’exploitation de données informatiques en termes

de composants et d’organisation de ses fonctions. Cette architecture est la base des systèmes informatiques dits « système décisionnel ». Depuis les premières requêtes sur les sources de données OLPT consolidées dans un tableur, les systèmes décisionnels se sont développés et ont pris maintes formes Mais si la constitution d’un Data WareHouse (DW) d’entreprise est considérée comme le must, cette solution est souvent surdimensionnées. L’informatique décisionnelle a pour but de mettre l’information métier cachée dans les systèmes opérationnels à la portée des décideurs, fussent-ils eux même opérationnels. Le système décisionnel doit être adapté au besoin des utilisateurs. Si le système opérationnel est loin d’être surchargé, et que la structure de stockage des données est connue, créer un simple outil d’extraction métier peut suffire. Si les clients de cet outil sollicitent trop la base, c’est souvent qu’ils sont plusieurs à demander la même information au même moment, juste avant une réunion par exemple. Dans ce cas publier cette information sur l’intranet, ou la pousser dans leur boite aux lettres, permet de diminuer cette sollicitation. Lorsque les extractions deviennent trop longues ou qu’elles provoquent un ralentissement de l’activité, une simple réplication synchrone ou asynchrone de la base opérationnelle de données peut servir de source aux analyses et supprimer la surcharge. Et certaines solutions préfèrent embarquer avec le schéma dédié au reporting automatiquement maintenu à jour. Si cette réplication n’est pas optimale car plusieurs bases de données sont concernées, la mise en place d’un Operational Data Store (ODS) est envisageable.

L’ODS est une base de données dans laquelle plusieurs bases opérationnelles sont répliquées. La réplication comporte une valeur ajoutée : identification des liens entre les différentes sources, suppression des données aberrantes etc. Elle est utile pour le reporting opérationnel et sert de sources aux systèmes décisionnels. Au sein de l’ODS les donnes sont volatiles : elles ont la même profondeur d’historique que dans les systèmes répliqués. Si cet historique ne suffit pas aux yeux des décideurs, ils peuvent lancer un projet de DW opérationnel. L’ODS est aussi souvent appelé SAS de données et représente une structure intermédiaire qui stocke les données issues des systèmes opérationnels dans un format proche de ces derniers. C’est un stockage tampon avant l’intégration dans un DataWareHouse

10


proprement dit. L’ODS assure l’isolation entre le monde opérationnel (performance) et le monde décisionnel (exploitabilité) et permet de reconstituer tout ou une partie du DataWareHouse à partir de données élémentaire (par exemple sur de nouveaux critères d’agrégation etc.).

L’entrepôt de données opérationnel est proche de l’ODS, mais la profondeur d’historique y est plus conséquente. Le DW opérationnel isole les systèmes sources des traitements analytiques, mais du fait de sa structure proche de celle des systèmes OLPT il n’apporte pas de réponse à la complexité des lectures. Une couche applicative, parfois nommée univers, peut suffire à masquer cette complexité au travers d’objets métier familiers aux utilisateurs finaux. Mais pour certains utilisateurs finaux, les volumes de données à traiter sont tels qu’une couche logique métier seule ne suffit pas. Pour ceux-là, il est possible de créer un Data Mart (DM), ou un cube, voire les deux.

Le DM est un ensemble de tables de données organisées dans une structure qui favorise le reporting analytique, la lecture, et sur un historique plus important que celui conservé en production. Le DM est réellement orienté vers l’utilisateur final et les données et les axes d’analyses sont préparés selon son besoin. Le cube est très proche du DM, mais il contient en plus des données pré-agrégées sur les divers niveaux des axes d’analyses. Ces agrégats constitués à l’avance permettent de réduire considérablement les temps de réponse aux demandes des utilisateurs. Il existe plusieurs types d’agrégat, le plus courant étant la somme. Toute donnée qui peut être sommée sur n’importe quel axe d’analyse tirera un grand avantage du cube, à partir du moment où vous en avez plusieurs millions de lignes. Le cube peut être construit à partir du DM ou directement à partir d’une autre source. La réunion dans une même base de plusieurs DM prend souvent le nom de DW décisionnel (Data Warehouse décisionnel). Enfin certains appellent la réunion de plusieurs cubes un hypercube.

9.2 Data Mart (DM) et Data Warehouse (DW)Une des premières choses à réaliser quand un projet BI est lancée, est de clarifier le sens

des termes DM et DW. Les définitions de ces deux expressions donnent lieu à d’incessants débats. A l’origine des confusions de vocabulaires, il y a deux grands maitres de la BI dont les théories sont opposées.

Pour Bill Inmon, le DW consolide les données détaillées de toute l’entreprise. Les DM sont ensuite construits selon les demandes des utilisateurs métier à partir de cette source complète.

Pour Ralph Kimball, le DW est l’ensemble des DM ; chaque nouveau Data Mart vient enrichir le DW.

9.3 Sardines et baleines au sujet des DM et DWCes deux écoles n’ont jamais trouvé de point d’entente, si ce n’est la notion de DM.

Lorsque Kimball dit « le DW n’est rien d’autre que l’union de tous les DW », Inmon lui répond que : « Vous avez beau pêcher toutes les sardines de l’océan, et les rassembler, vous n’obtiendra jamais une baleine etc. ».

11


L’approche Inmon nécessite de créer en premier ce fameux DW, pour ensuite pouvoir délivrer des DM. L’inconvénient est que la création du DW est un travail conséquent, la livraison du premier DM se fera donc attendre. L’avantage est qu’une fois le DW complet crée, n’importe quel DM peut être rapidement construit, y compris sur des besoins qui n’ont pas été exprimés au démarrage du projet.

L’approche Kimball permet de réduire la durée globale du projet décisionnel, donc de diminuer son coût. Les utilisateurs voient plus rapidement arriver les premiers tableaux. Par contre, les données non intégrées aux DM ne sont pas historisées dans l’entrepôt.

9.4 Data MartUn DM est un ensemble de données isolé des systèmes opérationnels, dédié à l’aide à la

prise de décision, et son périmètre fonctionnel est généralement focalisé sur un point précis de l’activité de l’entreprise. Les données du DM sont entre autres exprimées sur un axe temporel, avec une profondeur définie. Par exemple l’expression des ventes aux grossistes en Europe par jour pour les trois dernières années est un DM. Il intéressera d’autant plus les utilisateurs s’il contient des informations sur les produits vendus, les promotions accordées, les régions des clients etc. Autre exemple de DM, les quantités de SMS passés le mois dernier heure par heure.

Comme le DM est créé pour être lu par des outils de décision, les données y sont structurées d’une manière adaptée à la lecture. Les créateurs du système OLPT normalisent les tables. Ceux des systèmes décisionnels effectuent l’opération inverse : la dénormalisation. Le DM peut consolider plusieurs sources de données OLPT pour ce faire les données sont préalablement nettoyées et rapprochées.

9.5 Data WarehouseS’il y a généralement un consensus autour du DM, les choses se compliquent avec le

DM. Il existe des DW opérationnels et des DW décisionnels. Le périmètres du DW définit également deux catégorie : le DW d’entreprise et le DW d’application etc. Le DW opérationnel est normalisé logiquement comme les applications sources dont il conserve l’historique des données. Il est précieux comme source de construction des DM. Le DW décisionnel est dénormalisé. C’est un ensemble cohérent de DM. Le DW d’entreprise a pour périmètre l’ensemble des opérations de l’entreprise : les activités commerciales, les ressources humaines, la comptabilité, la gestion du parc automobile etc. Gérer un DW d’entreprise n’a pas de fin, car l’entreprise évolue. Le DW d’application n’a qu’une source de données, par exemple un ERP.

Plus généralement, de nombreux DW possèdent un périmètre fonctionnel limité soit à une application, soit à une activité, soit à une entité juridique etc.

12


10 Méthodologie de conception

10.1 La démarche itérativeConstruire un DW d’entreprise et les applications qui vont avec est un projet colossal. Il

est souvent conseillé de le découper en itérations par domaine fonctionnel. Cette démarche a plusieurs avantages : découper le projet en lots de plus petite taille, satisfaire au plus tôt une partie des utilisateurs finaux, avoir une montée en charge progressive du système décisionnel.

10.2 Les étapes de la conception du Data MartChaque itération débute par la modélisation du DM. Cette opération peut être menée en

suivant les étapes suivantes.

Choisir le processus métier à analyser :

Il faut commercer par choisir le périmètre fonctionnel du DM à créer. Certaines informations sont plus vitales que d’autres pour l’entreprise ou intéressent un plus grand nombre d’utilisateurs finaux. Certains utilisateurs finaux sont plus stratégiques que d’autres : il est important de cibler leurs besoins dès la première itération. Par exemple, le DM sur les commandes clients.

Définir le grain du DM :

Le grain du DM est le niveau de détail des données archivées dans la table de faits. Dans un projet de DW décisionnel, en l’absence de DW opérationnel, il est conseillé de choisir le niveau atomique des faits du système opérationnel source. Par exemple, le DM des commandes clients contient les lignes de commandes.

Définir les dimensions :

Les axes d’analyses utiles aux décideurs sont définis. Pour chaque dimension, les attributs et les hiérarchies sont listés. Il convient de distinguer les attributs utilisés pour l’analyse des informations, comme l’adresse. Pour l’exemple des commandes client, les dimensions suivantes sont indispensables pour mener une analyse : le calendrier organisé en deux hiérarchies Jour – Mois – Année et Jour - Semaine – Année, les clients contenant une hiérarchie géographique Ville – Région – Pays et les produits par sous catégories et catégories. Comme chaque produit peut avoir plusieurs fournisseurs, une dimension fournisseur est également demandée.

Définir les mesures des faits :

Les mesures des faits enregistrés dans la table des faits sont définies. Chaque ligne de commande client a une quantité et un montant. Les informations retenues pour l’instant ne permettent pas de calculer un montant moyen de commande. Il faut ajouter une mesure nombre distinct de commande. Pour cela une colonne identifiant la commande doit être ajoutée à la table de faits.

Définir la fréquence et le mode d’alimentation :

13


Quelle est la fraicheur des données attendues par les utilisateurs. Est-ce du temps réel, les données de la veille ? Et quelles sont les possibilités pour alimenter votre schéma en étoile à partir des sources ? Une alimentation différentielle est-elle possible ?

Définir la profondeur d’historique en ligne :

La profondeur d’historique se mesure en nombre d’unités de temps : nombre d’années, nombre de mois etc. Il est important de la définir avec les utilisateurs tôt dans le processus afin d’estimer la volumétrie des données traitées.

11 Modélisation OLAPLe DM est construit en dénormalisant les données OLPT pour obtenir une structure

lisible et proche du métier.

11.1 Modélisation en étoile et en floconLe modèle de référence pour les DM est le modèle dit en étoile. Le cœur du schéma est

la table de faits. Les faits sont les opérations à analyser qui sont enregistrées par els transactions des systèmes OLPT et qui sont soit quantifiables numériquement, soit dénombrables, soit les deux. Chaque enregistrement de la table de faits représente un fait. La finalité du DM est de permettre l’analyse des faits au travers d’axes d’analyse, nommés dimensions. Dans le schéma en étoile, chaque dimension se réduit à une table et chaque enregistrement de la table de faits est lié à chaque dimension. Prenons l’exemple des commandes chez un marchand. Pour chaque ligne de commande présente dans le système OLPT, il est possible de définir le client qui a passé commande, la date de la commande, le produit ainsi que le fournisseur du produit. Et pour chaque ligne, le montant et la quantité sont connus. La table de faits contient ces six informations : le client, la date, le produit, le fournisseur, la quantité et le montant. La dimension client contient les informations utiles du client pour les analyses.

14


La caractéristique du schéma en étoile, le fait d’aplatir chaque dimension dans une table unique est le résultat de la dénormalisation. Dans le système OLPT, la dimension fait l’objet d’une multitude de tables normalisées. Par exemple, le produit est modélisé, au minimum, avec trois tables.

La modélisation OLPT normalisée est conçue pour l’écriture, la modélisation en étoile est conçue pour la lecture. Seulement le DM doit être créé et mis à jour. Lorsqu’une sous-catégorie A de produits est déplacée sous une nouvelle catégorie dans le système opérationnel, la mise à jour du schéma en étoile doit être effectuée sur tous les produits de la sous-catégorie A.

Dans le cas d’un DM périodiquement mis à jour, la dénormalisation n’est pas sans poser de problèmes. Un schéma semi-dénormalisé est souvent préféré. Il porte le nom de schéma en flocon.

15


La quantité et le montant sont les mesures de faits. Chaque ligne de commande représentant un fait, il est possible de compter les lignes de commande : le nombre de lignes de commande est également une mesure.

11.2 DimensionLa dimension est la fondation du système décisionnel. Il convient d’apporter le plus

grand soin à sa conception. La dimension stocke les attributs qui décrivent les faits.

11.2.1 Dimensions classiques

11.2.2 Dimensions fourre-tout

11.2.3 AttributsUne dimension est constituée d’attributs. Le nom du client, son adresse, sa ville, son

département, sa tranche d’âge sont les attributs de la dimension client. Quand un attribut est le père d’un autre, comme pour le département et la ville, le terme de hiérarchie est utilisé. Une hiérarchie peut être constituée de plus de 2 attributs. C’est le cas de la hiérarchie calendrier : Année, Semestre, Trimestre, Mois, Jour. Enfin parmi les attributs de la

16


dimension, il faut bien distinguer ceux qui serviront à l’analyse, comme la ville, le département, de ceux qui sont uniquement des informations comme l’adresse.

11.2.4 ClésLa dimension contient au minimum une clé commune avec le système OLPT. La clé

fonctionnelle ou opérationnelle est utilisée pour mettre à jour la dimension. Elle identifie de manière unique chaque ligne de la dimension dans la source et dans la dimension.

Une pratique courante veut qu’une autre clé primaire propre à l’environnement décisionnel soit substituée à cette clé fonctionnelle. Cette clé est souvent générée par une séquence du moteur de base de données : elle n’a aucun sens fonctionnel. Elle est désignée comme clé technique, clé de substitution ou surrogate key. Elle demeure inconnue des utilisateurs du DM. Parmi les nombreux intérêts de la clé de substitution, retenez :

Ces clés sont des nombres entiers donc de petite taille. Les jointures entre les tables de faits et les dimensions s’en trouvent considérablement optimisées.

Lorsqu’une dimension possède un attribut évolutif, cette clé permet de suivre cette évolution. Par exemple, dans la dimension des clients, un client peut déménager. Ses premières commandes doivent rester liées à sa ville d’origine alors que ses nouvelles commandes seront liées à sa nouvelle ville. Le client doit être scindé en deux clients, chacun avec une clé propre, forcément différente de la clé fonctionnelle : la clé de substitution.

La clé de substitution est indépendante de la source donc ne varie pas si la source change. Lorsqu’il y a plusieurs sources pour la même dimension, ces sources peuvent avoir des clés communes pour des enregistrements différents.

La clé de substitution a également des avantages :

Elle est souvent accompagnée d’un index supplémentaire. Le modèle est plus complexe et les requêtes sont également plus complexes et parfois

moins performantes.

La clé de substitution est normalement une séquence. Cependant, il est admis dans certains cas que la clé de substitution peut être calculée, ou le résultat d’une conversion à partir de la clé fonctionnelle. Par exemple, dans la dimension calendrier, la clé fonctionnelle est la date, la clé technique retenue pourrait être une valeur entière au format AAAAMMJJ.

11.2.5 Variation des dimensions La dimension est constituée d’attributs. Les attributs peuvent évoluer dans le temps. La

date de naissance du client fait l’objet d’une correction, le client déménage, ces informations doivent être reportées dans le système décisionnel. Pour chaque attribut, il faut déterminer la fréquence d’évolution et la manière dont les analyses doivent restituer cette évolution : lorsqu’un client déménage de Brest à Nice, si l’attribut ville de la dimension client est simplement mis à jour, tous les faits antérieurs se retrouvent brutalement rattachés à la ville de Nice. Ce n’est peut-être pas ce que souhaitent les utilisateurs métier. Lors de la modification d’un attribut, le système décisionnel peut :

17


Ne pas en tenir compte, l’ignorer. Les faits seront alors automatiquement attribués à la première valeur de l’attribut.

Tracer la modification de telle sorte que les faits soient comptabilisés sur la valeur juste de l’attribut.

Dans ce cas, il faut s’intéresser à la fréquence des modifications de l’attribut :

Les modifications sont rares : on parle de dimensions à variation lente (Slow Changing Dimension), la solution est de créer à chaque occurrence un nouvel enregistrement dans la dimension qui va mémoriser la modification. Les nouveaux faits seront rattachés à ce nouvel enregistrement. L’attribut est dit de type 2.

Les modifications sont courantes : il convient de créer une ou plusieurs nouvelles dimensions avec les attributs concernés et de modéliser le lien directement dans la table de faits.

Ecraser l’ancienne valeur de l’attribut, pour ne conserver que la dernière, ou la valeur courante. Les faits seront alors comptabilisés sur la dernière valeur prise par l’attribut. Peu importe la fréquence des modifications, on parle d’attributs de type 1.

L’évolution d’un attribut de type 1 nécessite une simple mise à jour de la dimension. L’évolution d’un attribut de type 2 est plus compliquée. Considérons le client suivant dans la dimension Client :

Clé Client Clé fonctionnelle Nom Ville Tranche d’âge4556 QJ45 Jean Quimper 30-60 ans

Ce client a passé plusieurs commandes enregistrées dans la table de faits des Commandes :

Clé Client Date Clé Produit Qté Montant4556 10/10/2005 15865 2 1.804556 05/01/2009 25424 2 36.40

Au cours de sa dernière commande, le client signale qu’il a déménagé à Toulouse. Un nouveau client est créé dans la dimension à partir de l’ancien.

Clé Client

Clé fonct. Nom Ville Tranche d’âge

Validité début

Validité fin

4556 QJ45 Jean Quimper 30-60 ans 10/10/2005 02/04/20109755 QJ45 Jean Toulouse 30-60 ans 03/04/2010 31/12/9999

Et sa nouvelle commande est enregistrée dans la table de faits :

Clé Client Date Clé Produit Qté Montant4556 10/10/2005 15865 2 1.804556 05/01/2009 25424 2 36.409755 03/04/2010 5468 3 33.00

18


Pour gérer les attributs de type 2, il est nécessaire d’ajouter une ou plusieurs colonnes dédiées dans la table de dimension. Dans l’exemple, ValiditeDebut et ValiditeFin déterminent l’intervalle de temps durant lequel l’enregistrement est valide. Il est facile de trouver l’enregistrement courant en recherchant la clé fonctionnelle et l’intervalle de temps comprenant la date du jour.

11.3 Faits, agrégation et cubesLe niveau des faits dans le système source opérationnel est appelé le niveau atomique

ou granulaire. Par exemple, dans la table de faits des commandes présentées plus haut, le niveau des faits est le niveau atomique : la ligne de commande. Une table de faits n’est pas nécessairement au niveau atomique, elle peut être créée à un niveau déjà agrégé.

Le schéma en étoile permet de lire des faits selon des axes d’analyse, dans l’objectif des agrégats au niveau de certains attributs, notamment ceux qui constituent des hiérarchies. Un agrégat est une valeur obtenue par la combinaison de plusieurs valeurs selon un opérateur mathématique. Dans le cas d’une table de faits atomique qui contient des milliards de lignes, calculer une mesure agrégée, par exemple le CA (Chiffre d’affaires) commandé au premier trimestre 2010 par les clients de la Seine-Maritime, peut prendre un certain temps, même si ce type schéma est optimisé pour la lecture, et que le temps nécessaire au même calcul sur le système OLPT serait beaucoup plus long. Pour calculer le CA, il suffit de parcourir les dizaines de milliers de lignes de faits correspondants aux journées des trois premiers mois de 2010 pour tous les clients ayant déclaré leur adresse de facturation en Seine-Maritime, et de faire le cumul des montants etc.

Si le système avait pré-calculé les CA mensuels des villes, le même calcul serait beaucoup plus rapide.

Un cube est schéma en étoile ou en flocon dans lequel un certain nombre d’agrégats ont été pré-calculés. Le cube offre aussi une couche métier au-dessus des données stockées dans le schéma en étoile.

19


Le cube est particulièrement performant dans certaines conditions. Tout d’abord, il doit être utilisé lorsque le besoin est d’extraire, de lire des résultats agrégés et non des faits détaillés atomiques, comme les lignes de factures. Ensuite l’apport du cube dépend des mesures métier à analyser. Pour chaque mesure un opérateur d’agrégat est à définir par le métier : par exemple pour le CA, l’agrégat peut être le minimum, pour un taux aucun agrégat ne convient, pour un niveau de stock la somme est adaptée sauf sur la dimension calendrier. Cela n’a pas de sens d’additionner le niveau de stock de mars avec celui d’avril. Le cube est préconisé pour des mesures de type somme ou dénombrement (nombre d’enregistrements) sur l’ensemble des axes d’analyse.

Un cube peut bien sur avoir plus de 3 dimensions : le terme de base de données multidimensionnelle est également employé.

11.4 Analyse multidimensionnelleElle consiste à modéliser des données selon plusieurs axes. Voici l’exemple le plus

classique : le calcul du chiffre d’affaires par catégorie de client sur une gamme de produits donnée qui combine trois axes (le chiffre réalisé, la catégorie de clients et la ligne de produits). De nombreux autres axes supplémentaires peuvent être définis : zone géographique ou équipe commerciale en charge des opérations par exemple. Le cube OLAP (Onligne Analytical Processing) désigne la technologie analytique qui s’applique à ce modèle de représentation.

11.5 Base de données multidimensionnelleElle stocke les données de manière à permettre une recherche rapide d’indicateurs en

fonction de plusieurs axes d’analyse. Dans cette base de données, l’information est modélisée sous forme de cubes permettant d’optimiser l’accès aux informations suivant des requêtes non prévues lors de la création de la base.

11.6 Base de productionDans un contexte d’exploitation de données, on appelle souvent base de production (ou

systèmes opérationnels) les bases de données utilisées par les applications non décisionnelles de l’entreprise. On y trouve ainsi les systèmes comptables, les bases de gestion commerciales, les systèmes de paie, etc.

11.7 DimensionC’est un axe d’analyse, chaque information dans la base de données décisionnelle est

liée à une ou à plusieurs dimensions. Pra exemple, une dimension « temps » peut prendre en compte l’année, le semestre, le trimestre, le mois, la semaine ; une dimension « géographie » peut inclure le pays, la région, la ville.

11.8 Drill down, drill up« Drill down » désigne le processus d’exploration qui part d’une donnée agrégée vers

une donnée plus détaillée. Par exemple, un utilisateur peut observer un chiffre d’affaires par pays, puis procéder à une analyse du chiffre d’affaires par région, puis par ville. Le « drill up » est l’opération inverse qui part du détail vers les données agrégées.

20


11.9 IndicateurInstrument de mesure issu de plusieurs sources déterminées par l’entreprise pour étudier

les évolutions d’un évènement par rapport à des objectifs fixés.

11.10 ReportingExtraction de données en vue d’une représentation synthétique sous forme de rapport, tableau de bord.

11.11 Cube multidimensionnelleStructure de données à plusieurs dimensions permettant de visualiser les mesures (axes

d’analyse) extraites d’une base de données multidimensionnelles.

12 La solution Microsoft BI 2008L’offre BI ne Microsoft est structurée autour de trois promesses du décisionnel :

améliorer l’accès et la qualité des données : on y retrouve tous les outils destinés à concevoir un entrepôt de données bien modélisé, performant et contenant des données fiabilisées.

Gagner en finesse d’analyse et de compréhension de données : on y retrouve tous les outils qui permettent aux utilisateurs finaux d’analyser et de naviguer dans leurs données en toute autonomie, sans avoir à recourir au service informatique.

Gérer les performances de l’organisation et de ses politiques : on y retrouve tous les outils destinés à partager, à communiquer et à organiser les performances de l’organisation tels que les outils de tableaux de bord et les outils d’intranet.

Sur la forme, l’offre Microsoft BI est structurée au sein de trois licences. Chacune de ces licences contient de nombreux outils à usage décisionnel correspondant aux tâches énoncées plus haut :

Sql Server 2008 R2: Integration Services, Master Data Services, Analysis Services, Reporting Services.

Office 2010 : Excel 2010, PowerPivot SharePoint Server 2010 : Excel Services, PerfomancePoint Services.

12.1 SQL Server 2008 R2Si à l’origine, la licence SQL Server correspond uniquement à une base de données

relationnelle (OLPT), assez rapidement la licence s’étoffe pour couvrir l’ensemble des outils dédiés au stockage et au traitement de données. Dans le langage courant, SQL server évoque la base de données relationnelle. Il existe néanmoins d’autres outils ou services couverts par cette même licence, dont la plupart trouve un usage dans le cadre de la mise en œuvre d’un système décisionnel.

Pour bâtir notre système d’aide à la décision, nous aurons besoin de :

SQL Server Integration Services : l’ETL.

21


SQL Server Master Data Services : le gestionnaire de données de référence. SQL Server Analysis Services : la base de données multidimensionnelle (OLAP) et le

métamodèle SQL Server Reporting Services : l’outil de reporting opérationnel et de reporting de

masse .

Le terme « reporting » désigne une famille d'outils de Business intelligence destinés à assurer la réalisation, la publication et la diffusion de rapports d'activité selon un format prédéterminé. Ils sont essentiellement destinés à faciliter la communication de résultats chiffrés ou d'un suivi d'avancement.

12.2 SQL Server Integration Services (SSIS) : l’ETL.Une des grandes valeurs ajoutées du décisionnel est l’accès confortable aux données

contenues dans l’entrepôt de données, il n’en reste pas moins que la majeure partie d’un projet décisionnel se situe dans l’alimentation de l’entrepôt de données. En effet, l’alimentation d’un entrepôt de données représente généralement près de 80% de la charge du projet. De prime à bord, beaucoup de services informatiques qui découvrent le décisionnel ont largement tendance à sous-estimer le temps nécessaire à récupérer l’information, mais aussi à la croiser.

SSIS est l’ETL de Microsoft et il permet de découper un flux d’alimentation en une multitude de petites tâches de transformation de données distinctes et ordonnancées. SSIS permet aussi de suivre très précisément le déroulement du flux de données. Entre chaque tâche de transformation de données, il est possible de visualiser les valeurs, ainsi que les transformations qui leur ont été appliquées.

12.3 SQL Server Master Data Services (SSMDS): MDM, Master Data ManagementMDM est un système de gestion des données de référence. C’est une pratique

d’urbanisation des systèmes d’information qui contribue sensiblement à la qualité de l’information dans les entreprises. Les données de référence sont les données transversales de l’entreprise. Ce sont les éléments clés qui décrivent et définissent un domaine de l’entreprise : clients, produits, fournisseurs, sites, organisations, services, employés. Dans une organisation efficiente, ces données de références sont la source de vos principales tables de dimensions : client, produit, fournisseur, organisation etc.

Le MDM regroupe les pratiques et les outils permettant de rassembler, gérer et partager les données pour lesquelles il est primordial qu’il ne subsiste aucune erreur. Le rôle du MDM est de fournir aux différents systèmes des données de référence exactes, complètes et actualisées. Le MDM crée une ressource centralisée, indépendante des applications et des processus métier, qui gère le cycle de vie des données de référence. Avec la mise en place d’une telle pratique impliquant les services fonctionnels et le service informatique, la cohérence des données dans les divers systèmes de transactions et d’analyses est ainsi garantie. Ainsi, les problèmes de qualité des données peuvent être résolus de manière proactive, plutôt qu’après coup, dans l’entrepôt de données.

22


12.4 SQL Server Analysis Services (SSAS)SSAS est la base multidimensionnelle (OLAP) de la licence SQL Server et de data

mining. Elle est souvent présentée comme étant la solution de cubes de Microsoft. Avec l’augmentation des volumes des données, les bases de données OLAP s’imposent progressivement comme des solutions incontournables pour représenter les données contenues dans l’entrepôt de données. A l’opposé des bases OLPT, plus les requêtes utilisateurs portent sur les données globales et agrégées, plus la réponse est rapide. A l’inverse, plus la requête porte sur les données de détail, moins la requête est performante. Il ne faut donc pas considérer Analysis Services (AS) comme une base de données permettant des extractions de données. Les modèles AS doivent être conçus pour fournir la finalité de l’analyse attendue par l’utilisateur. Les données détaillées de l’entrepôt de données sont contenues dans la base relationnelle, mais c’est AS qui les agrège et les présente aux utilisateurs finaux. Etant la partie émergée de l’entrepôt de données, il offre ainsi la possibilité de gérer véritablement de très grands volumes de données avec des temps de réponse de l’ordre de la seconde. Les résultats sont souvent assez bluffants pour les utilisateurs habitués à travailler avec des bases de données OLPT. SSAS ne craint pas de gros volumes de données, il est taillé pour cela. Attention toutefois à conserver une modélisation appropriés, car la performance de son moteur OLAP est directement liée à la modélisation de la base de données sous-jacente. Les données de l’entrepôt de données sont manipulées directement et exclusivement par le biais d’AS, celui-ci offre aux utilisateurs une interface simplifiée et intuitive d’accès aux données. Dans les faits, les utilisateurs n’accèdent pas directement à AS. Ce sont les outils de restitution qui proposent et consomment les données du cube. Il est donc indispensable lorsque vous mettez en place SSAS de proposer en parallèle aux utilisateurs des outils de restitution adaptés (par exemple Excel).

12.4.1 OLAPLe serveur OLAP de SSAS4 est une brique fondamentale du système décisionnel. Il

assume les rôles suivants :

o Il réunit dans un même modèle des données hétérogènes. L’architecture

classique veut que toutes les données soient déjà agrégées dans le DW, mais ce n’est pas toujours le cas et la construction d’un DW est une tâche lourde et couteuse. SSAS permet de lire de nombreuses sources de données. Des outils comme ceux de SSIS permettent également d’écrire des données directement dans la base SSAS.

o Il offre des objets métier aux utilisateurs pour consulter le contenu des

données. Il propose un système de navigation dans les données sur les axes métier : l’interrogation dynamique des résultats est très intuitive.

o Il calcule et stocke des agrégations. Cette fonctionnalité permet aux utilisateurs

d’accéder à des résultats hebdomadaires, mensuels, trimestriels avec les mêmes temps de réponse que s’ils interrogent les résultats quotidiens.

4 Le critère déterminant de choix d’un SSAS doit être le besoin d’agrégats. C’est lorsque les utilisateurs interrogent à 90% des données agrégées que le moteur SSAS est intéressant. Si les utilisateurs ne demandent que de la donnée atomique, SSAS n’arrivera jamais à égaler les performances de SQL Server.

23


o Il centralise une intelligence métier au travers des dimensions, mais aussi des

formules de calcul et des indicateurs de performances clés (KPI).

Une base de données OLAP peut comprendre comme une base de données SQL Server plusieurs Data Mart (DM). Les dimensions sont liées aux DM avec plusieurs types de relations offrant ainsi une souplesse de modélisation de la base multidimensionnelle.

12.4.2 OLAP temps réel5

Dans les entreprises le besoin de tableau de bord de gestion en temps réel est de plus en plus fort, pour réassortir au plus juste, prendre les décisions le plus rapidement possible. La possibilité de se passer d’un magasin de données et de son alimentation ETL permet d’envisager des scénarios de BI quasi temps réel, puisque le moteur OLAP est directement branché sur la source avec la technologie de mise en cache proactive (proactive caching). SQL Server 2008 R2 propose une nouvelle technologie pour se rapprocher encore plus du temps réel, StreamInsight. StreamInsight est dédiée à l’analyse temps réel d’un flux de données avant même qu’ils aient été traités par le reste du SI. (Faudra penser à ajouter MOLAP et HOLAP)

12.4.3 Data mining6

Le Data Mining s’adresse aux statisticiens. Sa présence a un sens dans une solution BI car il prend en entrée les données de l’entreprise, si possible déjà préparées, et donne en sortie des informations utiles pour améliorer les processus de l’entreprise. Le moteur de Data Mining SSAS utilise des algorithmes reconnus pour identifier dans vos données des groupes homogènes (segmentation automatique) ou prédire une donnée (analyse prédictive).

La segmentation automatique permet de regrouper les membres des dimensions, par exemple les clients ou les produits, afin de faciliter par la suite leur gestion, car le groupe identifie un comportement homogène. De plus, cette segmentation est utilisable dans le cube comme un axe d’analyse.

L’analyse prédictive est utilisée pour prédire une donnée manquante. Par exemple, quels sont les prospects qui potentiellement achèteront tel produit ? Combien de produits seront vendus le mois prochain ?

Une force du moteur de data mining de SSAS est de pouvoir utiliser la puissance du moteur OLAP pour lire les données.

12.4.4 PowerPivotLa grande nouveauté de SQL Server 2008 R2 est la capacité ajoutée au moteur OLAP SSAS de gérer le OLAP en mémoire (In Memory OLAP). Cette technologie présente des performances sidérantes sans commune mesure avec le MOLAP (Multidimensionnal OLAP), mais ne permet de travailler sur des volumes de données aussi importants.

5 Plus les volumes de données traités seront faibles et plus le modèle sera proche du temps réel. Le système de partitionnement permet de sélectionner une partition en temps réel et les autres en normal.6 Couplé avec le composant SSIS Transformation d’extraction de terme, le data mining permet d’implémenter une solution de text mining

24


Si cette nouveauté est intégrée à la technologie SSAS, sous le nom de VertiPaq, son emploi est bridé à l’utilisation du Powerpivot. L’ancêtre du Powerpivot est le tableau croisé dynamique dans Excel (PivotTable). Powerpivot permet de gérer des volumes de données importants allant jusqu’à des centaines de millions de lignes de faits.

12.4.5 SQL Server Reporting Services (SSRS)Enfin, la suite SQL Server dispose d’un serveur de rapports permettant d’afficher et de

diffuser des informations. SSRS est avant tout un produit destiné à un public d’informaticiens. Sa parfaite intégration avec l’environnement .net, sa capacité de mise en page, ses possibilités de diffusion en font un excellent outil de reporting opérationnel. SSRS est l’outil parfait pour mettre en page une facture, un bon de livraison, un suivi de commande, un inventaire, un catalogue produit, la liste des clients à relancer etc. Tous les états, dont une application de gestion a besoin, sont parfaitement réalisables avec SSRS.

SSRS n’est pas un outil d’analyse destiné à des utilisateurs finaux. En revanche, il a totalement sa place dans la diffusion de rapports de masse, c’est-à-dire dans les rapports décisionnels destinés à de nombreux décideurs opérationnels. Par exemple, la diffusion par mail au format PDF, du rapport mensuel de suivi des ventes à tous les commerciaux de l’entreprise.

12.4.6 Office 2010Microsoft Excel (ME) est surement et de loin, le premier outil décisionnel dans le

monde et ce, depuis de nombreuses années. Il répond aux besoins d’analyse de tous les services, de toutes les organisations et sert à toutes les tâches : stockage de données, traitement de l’information et restitution. Si ME seul répond assez bien à des problématique sectorielles (pour le service Marketing ou pour le service contrôle de gestion uniquement), il atteint toutefois ses limites lorsque :

Il s’agit de croiser les données de référence de plusieurs applications : les fichiers Excel deviennent alors de véritables usines à GAZ très difficiles à maintenir.

Il s’agit de réduire les délais de production des tableaux de bord : il est difficile d’automatiser le traitement de données dans Excel. On peut toujours y arriver par le biais de macro, mais on augmente alors sensiblement la difficulté de maintenance des rapports.

Les données à traiter deviennent trop importantes : Excel 2003 gère quelque 65000 lignes, Excel 2007 jusqu’à un peu plus de 1 million. Mais les systèmes produisent toujours plus de données et les demandes des décideurs ont aussi tendance à se complexifier.

Il s’agit de sécurité : un fichier Excel diffusé par mail contient l’intégralité des données détaillées qu’il affiche et ses données sont potentiellement modifiables.

Il s’agit d’automatiser la diffusion des rapports : les fichiers sont de plus en plus volumineux. La limite admise par le serveur de messagerie est parfois atteinte.

Pour toutes ces raisons et bien d’autres encore, Excel a besoin de s’adosser à un système décisionnel. Au sein de la solution BI de Microsoft, Excel est l’outil d’analyse des utilisateurs finaux. Toutefois, Excel n’est utilisé que pour accéder, manipuler et naviguer dans

25


les données d’Analysis Services. Les données ne sont plus contenues directement dans le fichier, mais sur un serveur. Et ces données ne sont plus traitées directement par les utilisateurs fonctionnels mais par le service informatique par le biais d’ETL. Excel conserve toutefois toutes ses capacités de représentation graphique, de mise en page et de personnalisation à l’aide de formules.

12.4.7 MicroSoft Office Sharepoint WorskSpace 2010Accédez facilement à vos ressources et partagez-les en ligne avec vos collaborateurs

grâce à Microsoft Office SharePoint Workspace 2010. Vos fichiers, vos listes de tâches, vos calendriers, vos discussions, etc. sont stockés sur un serveur SharePoint et accessibles à partir de n'importe quel poste de travail via un simple navigateur Internet. Chaque modification effectuée sur un document est automatiquement synchronisée, même lorsque vous êtes déconnecté du serveur - les modifications sont alors mises en cache en attendant la reconnexion. Microsoft Office SharePoint Workspace 2010 permet, notamment, de créer des espaces de travail pour partager vos documents, travaillé simultanément sur un même fichier avec des collaborateurs situés à l'autre bout du monde et de trouver vos documents en un clic grâce à l'intégration de Windows Search !

12.4.8 Sharepoint 2010Sharepoint est une plate forme de services de portail. Sharepoint est notamment utilisé

pour réaliser des portails Intranet/Extranet et des plates formes d’espaces collaboratifs et documentaires. Sharepoint est une solution très vaste regroupant de très nombreux services, tels que :

Le moteur de recherche de l’entreprise ; La gestion documentaire ; La gestion des processus métier par le biais des flux de travail (WorkFlows) ; La gestion de contenus (Content Management Services ou CMS) L’affichage des données applicatives.

Sharepoint se veut être le point de convergence de tous les contenus de l’entreprise. Les informations décisionnelles font bien évidemment partie de ce contenus. Comme nous l’avons plus haut, le décisionnel a pour but de mettre à disposition des décideurs, tous les éléments nécessaires à la prise de décision. Les contenus nécessaires à la prise de décision sont très vastes et ne se limitent pas uniquement aux informations quantitatives mises à disposition par l’entrepôt de données. L’intranet, c’est à dire Sharepoint dans la solution Microsoft, est le relais idéal du système décisionnel pour toucher les décideurs et concevoir des espaces de décision complets, contenant :

Rapports et analyses chiffrées ; Commentaires et analyses des analystes métier ; Bibliothèques de documents Word et Excel ; Lien direct pour contacter un collaborateur et engager une action ; Lien direct vers le moteur de recherche pour une ouverture sur des informations

internes ou externes à l’organisation, etc.

26


Sharepoint est véritablement l’outil idéal pour s’adresser aux décideurs de l’entreprise. Sharepoint dispose de deux solutions pour réaliser de véritables tableaux de bord :

Excel Services PerformancePoint Services Ect.

12.4.9 Excel Services (ES)ES est un serveur offrant la possibilité de transformer tout ou partie du contenu d’une

feuille Excel en une page web au format HTML. La grande force des services Excel est de rendre dynamique ce contenu. Cela signifie que l’utilisateur qui publie sur Sharepoint un tableau croisé dynamique basé sur l’Analysis Services verra le contenu de celui-ci, sur son portail Sharepoint, actualisé pour afficher dynamiquement les toutes dernières données. Le tableau croisé dynamique publié conserve aussi ses capacités de navigation et de filtre comme le tableau croisé dynamique du fichier Excel originel. Le fonctionnement est simple : l’utilisateur conçoit ses analyses sous Excel 2010. Puis il publie le fichier sur une liste Sharepoint (un répertoire virtuel). Le contenu de ce fichier publié est alors calculé par le serveur Excel pour être restitué à l’aide d’une webpart Sharepoint.

12.4.10 PerformancePoint Services (PS)PS est destiné aux utilisateurs métier (type contrôleurs de gestion), est un outil destiné

à élaborer et à gérer la performance de l’entreprise. Ce service s’inscrit totalement dans une approche de Management de la performance, appelée aussi Business Performance Management (BPM) ou Corporate Performance Management (CPM).

PS permet, à la solution BI de Microsoft de répondre à la dernière attente de l’informatique décisionnelle :

Gérer les performances de l’organisation et de ses politiques ;

PS est une des toutes meilleures solutions sur ce sujet et il est aussi le seul outil de la suite Microsoft à s’ouvrir sur cette démarche. La management de la performance a pour l’objectif l’alignement et la mise en cohérence des objectifs des décideurs tactiques et opérationnels sur les objectifs stratégiques de l’organisation. Cette démarche favorise l’émergence de tableaux de bord pensés et construits autour d’indicateurs clés (KPI pour key Performance Indicator).

PS offre aux utilisateurs métier non-informaticiens la possibilité de :

Créer et gérer des espaces de décision complets ; Créer et gérer des tableaux de bords dynamiques constitués d’indicateurs clés ; Créer et gérer des indicateurs clés, modifier les seuils d’atteinte ainsi que les visuels de

météo (feux vert en cas d’atteinte d’un objectif par exemple, flèche rouge vers le bas lors de tendance à la baisse, etc.)

Créer des analyses de données plus dynamiques que nele permettent les services d’Excel. C’est en ce sens un bon complément au service Excel.

27


Référencer et gérer les ressources officielles complémentaires aux tableaux de bord : tableau de bord croisé dynamique Excel Services, graphique d’analyse en mode web, commentaires, ressources documentaires etc.

PS délivre aux décideurs des espaces de décision en mode web, complets, riches et dynamiques.

12.4.11 PowerPivot pour SharePointIl permet de distribuer les classeurs Excel avec Powerpivot. En effet, un utilisateur

Excel peut créer une petite solution BI dans Excel, en utilisant les ressources de son poste local, grâce au OLAP en mémoire. Le classeur Excel devient une petite base Analysis Services comme un cube mais avec des performances extrêmement couplées à une interface graphique Excel qui constitue une application de BI. Le classeur peut être distribué comme un simple fichier mais il peut également être publié sur le PowerPivot pour SharePoint. Le serveur SharePoint prend alors en charge la gestion complète de cette application BI, crée une base sur le serveur SSAS, assure son actualisation, fournit des statistiques d’utilisation etc. le tout sans passer par le service informatique.

13 Déroulement du projetDe par mon expérience, je constate généralement que la première intention d’un

service informatique, souhaitant réaliser un système décisionnel, est de partir des données à leur disposition. Si ce reflexe est parfaitement compréhensible, il est l’opposé de ce que qu’il faut faire si l’on souhaite mener à bien un projet et obtenir des résultats. Un projet décisionnel nécessite, tout d’abord et forcément, d’être mené en duo avec un service fonctionnel. Ce projet doit si possible s’inscrire dans un projet d’entreprise, disposant du sponsoring ou du moins de la bénédiction d’un membre influant de la direction. Ce mode de fonctionnement est essentiel, car il est indispensable de mener chaque étape du projet du haut vers le bas, c’est à dire du besoin global, le plus stratégique, vers la donnée la plus détaillée.

Pour débuter, on commence par s’assurer le périmètre projet auprès des décideurs stratégiques. Mener l’ensemble du périmètre en un seul bloc projet mènerait inévitablement le projet à sa perte. Un projet décisionnel doit être vivant. Ne pouvant pas mener tout le périmètre d’un seul tenant, le projet sera mené par itération successive. Le périmètre projet initial est alors factionné en lots que l’on va prioriser et étaler dans le temps. On dit alors que l’on lotit le projet. Un lot est généralement un sujet fonctionnel, ni trop petit, afin d’apporter une cohérence et une valeur ajoutée, ni trop gros, afin d’obtenir des itérations projet courtes de l’ordre de quelques mois au maximum. L’ordre de priorité d’un lot est défini suivant deux critères : la facilité de réalisation et la valeur ajoutée.

En fait, on commence toujours si possible par le périmètre le plus simple à réaliser (disponible de l’information, disponibilité du service, réflexion déjà bien avancée etc.) et par le périmètre qui apporte le plus de valeur ajoutée (criticité de la qualité de l’information, transversalité fonctionnelle du lot, orientation stratégique majeure etc.).

28


Pour mener à bien un projet, de DM, de DW ou de cube, il faut dès son initialisation penser à distribuer la donnée analytique vers les utilisateurs. Les interactions entre le Back-End et le Front-End sont souvent plus importantes que prévu. Il faudra définir différentes catégories d’utilisateurs, définir leurs profils, leur besoins, et l’outil qu’ils utiliseront. Certains demandent à creuser en profondeur la base de données décisionnelle pour y découvrir des modèles statistiques (data mining), d’autres attendent un graphique sur leur smartphone, sans parler de ceux qui désirent manipuler les chiffres dans leur tableur favori etc. Le système s’appuie sur les applications de Business Intelligence (BI application) utilisées pour distribuer les informations stockées dans le système.

14 Découverte des outils SQL ServerPour l’ensemble des outils, SQL Server dispose de deux consoles de gestion principales :

La console SQL Server Management Studio (SSMS) est la console destinée aux administrateurs. Vous pouvez y créer des bases de données relationnelles, programmer vos sauvegardes, y faire vos restaurations etc.

La console Business Intelligence developpement Studio (BIDS) est la console des tinée aux développeurs. Vous pouvez y développer des flux ETL, des rapports ou des cubes.

14.1 SQL server Management Studio (SSMS)

Cette fenêtre vous permet de vous connecter à un serveur, quel que soit son type :

Moteur de base de données Analysis Services Reporting Services Integration Services

29


Pour se connecter à Analysis Services.

Pour désactiver l’empêchement des modifications des tables via l’interface graphiques.

14.2 Business Intelligence Developpement Studio (BIDS)L’interface de développement BIDS n’est autre en fait que Visual Studio 2008.

L’interface de développement décisionnel bénéficie donc de la richesse de tous les compléments et outils de productivité complémentaires existants sur le marché pour Visual Studio 2008.

30

Décochez cette case.


BIDS est une version allégée de Visual Studio 2008, vous ne bénéficiez pas de la possibilité de créer des projets de développement .Net. en revanche, il vous est offert la possibilité de créer des projets :

Analysis Services, pour créer des bases multidimensionnelles Integration Services, pour réaliser les flux d’alimentation ETL Reporting Service, pour créer des rapports

31


Aspects pratiques

32


Introduction

Dans cette partie on se focalisera sur une entreprise commerciale en traitant de l’analyse des factures qui permettra d’analyser le chiffre d’affaires (CA), ses marges et ses couts. L’analyse des factures est primordiale pour deux raisons :

Raison technique : généralement le système de facturation est assez bien maitrisé par le service informatique et les données sont structurées, présentes et accessibles dans le système d’informations de l’entreprise.

Raison métier : les données de facturation intéressent la plupart des services tels que la direction générale, la direction des ventes, la finance, le marketing et la mise à disposition d’un système d’analyse des factures est souvent assez riche en informations et donc en valeur ajoutée.

Les données de facturation seront analysables par les utilisateurs suivant quatre axes principaux :

L’axe produit, L’axe client, L’axe site, qui permettra de connaitre le site à l’origine de la vente, L’axe temps

L’approche utilisée est celle de Kimball, on créera des Data Marts.

1 Création table de faits et de dimension

1.1 Création de l’entrepôt de donnéesCréation d’une base de données de manière classique dans SSMS avec un nom suffixé par DW. Pour ça on doit utiliser le mode de recouvrement simple car une base décisionnelle ne doit pas enregistrer les logs de transaction. D’une part parce que les logs seraient trop volumineux, d’autre part parce que le système de recouvrement au quotidien sera géré par le système d’audit. Cette explication sera plus détaillée au niveau de l’alimentation de l’entrepôt via l’ETL SSIS. Les tables de faits seront préfixées par « Fact » et les tables de dimension par « Dim ».

Une table de fait ne doit jamais contenir de clé primaire.

1.2 Création d’une table de faitsLa création des tables de faits se fait en trois blocs :

1. Le premier bloc Création du bloc contenant les liaisons avec les tables de dimension. Ces champs de

liaison sont en réalité des clés étrangères. Les clés étrangères de la table de faits ne doivent pas accepter les valeurs nulles.

33


Les quatre axes pour analyser les factures sont les suivants :

DateFacturation_FK permettra d’identifier la date de facturation et fera la liaison avec la dimension Temps.

Site_FK permettra d’identifier le site de facturation et fera la liaison avec la dimension Site.

Produit_FK permettra d’identifier le produit facturé et fera la liaison avec la dimension Produit.

Client_FK permettra d’identifier le client facturé et fera la liaison avec la dimension Client.

Ces champs définissent la granularité de notre table faits. Dans ce cas la granularité de la table de faits FactFacture correspond à une ligne : par jour (date de facturation), par site de facture, par produit et par client. Cela signifie que, potentiellement, nous pourrons regrouper et sommer en une seule ligne, les lignes de facture ayant les mêmes critères.

Ce regroupement est appelé un agrégat.

2. Le deuxième bloc Création du bloc contenant les mesures de la table de faits. Les mesures de la table de

faits ne doivent pas accepter les valeurs nulles.

Ces mesures sont issues d’un travail conjoint avec le service contrôle de gestion de Distrisy. La facture est l’occasion de redéfinir les termes et le découpage des différents montants. Suite à l’atelier nous avons posé les relations suivantes entre ces différentes mesures :

Prix catalogue = CA TTC + Remise CA TTC = CA HT + TVA CA HT = Cout Indirect + Cout Direct main d’œuvre + Cout Direct matière + Marge

Les mesures de la table de faits sont tous de type numeric (9,2) afin de gérer les nombres réels compris entre – 1 000 000,00 et 1 000 000,00. La précision 9, représentant le nombre de

34


chiffre total et 2, le nombre de chiffres après la virgule. Pour mieux comprendre le fonctionnement du type numérique, veuillez-vous reporter au tableau ci-dessous :

Mini Maxi Cout en octetNumeric (9,1) -10 000 000,0 10 000 000,0 5Numeric (9,2) -1 000 000,00 1 000 000,00 5Numeric (9,3) -100 000,000 100 000,000 5

Le type numeric (9,x) coute donc 5 octets. Ce type de données représente le stockage de la valeur réelle, le moins couteux en octets.

3. Le troisième bloc Création du bloc contenant les champs dits de dimensions dégénérées :

Ces champs n’ont pas d’utilité dans l’analyse. Ils représentent généralement une référence au grain de la table de faits. Ces champs permettront de faire le lien entre le système décisionnel et le système source.

En effet, les factures ne seront jamais analysées par le numéro de facture. En revanche, nos utilisateurs souhaiteront peut être connaitre la liste des numéros de factures qui compose les ventes du mois d’un produit, pour un client et pour un site en particulier.

Attention, des champs sont assez couteux en espace, car ils sont généralement en type varchar : 1 octet par caractères. Un varchar (6) coute jusqu’à 6 octets par ligne dans la table de faits.

1.3 Création des tables de type dimensionNous allons donc créer les tables de type dimension suivantes :

DimProduit, pour la dimension produit,

35


DimSite, pour la dimension site, DimClient, pour la dimension client

Nous commencerons par la table de dimension Produit. Comme pour les tables de faits, la table de dimension Produit est construite en deux blocs. Ces deux blocs devront se retrouver dans chacune de nos tables de type dimension.

1. Le premier bloc, identifie le champ de clé technique de la table de dimension Produit.

Cette clé technique ne doit pas être issue de votre système source. Elle ne doit pas non plus être une codification métier. Il est important que votre entrepôt de données utilise et gère ses propres identifiants de table de dimension. Nous aurons donc dans toutes les tables de dimension, une clé technique de type int, en incrémentation automatique.

2. Le deuxième bloc de colonnes liste les attributs de la dimension Produit.

Nous remarquons que les attributs sont tous de type varchar, pour supporter une valeur sous forme de chaine de caractères. Le nombre spécifié entre parenthèses correspondant au nombre de caractères maximum du champ.

La dimension Produit se décomposera en trois niveaux :

Le niveau Famille, Le niveau Sous Famille, Le niveau Produit.

Chacun des attributs Famille, Sous famille et Produit est décomposé en deux champs au sein de la table de dimension de l’entrepôt de données. Le champ suffixé de Code (ProduitCode par exemple) servira de clé d’identification unique de l’attribut, tandis que l’autre champ (Produit par exemple) correspondra à sa désignation : la valeur affichée pour l’utilisateur.

Par exemple, pour le champ ProduitCode LL1100, le champ produit correspondant est LAGON LL 1100.

Cette façon de procéder est nécessaire dans le cas des attributs disposant déjà d’une codification ou des attributs générant de nombreuses valeurs comme les produits, les clients, les fournisseurs, les actions commerciales ….

36


La valeur unique que prend chaque attribut est appelée un membre. Ainsi, dans notre exemple, l’attribut produit dispose de dix membres. De même l’attribut Famille dispose de deux membres : Gros Ménager et Petit Ménager. Le nombre de lignes de la dimension est appelé la cardinalité de la dimension. Dans notre exemple, la dimension Produit a une cardinalité de 10.

2 La dimension tempsDans un système décisionnel, la dimension temps revêt une importance particulière et doit faire l’objet de la plus grande attention. La table Temps est unique et sa présence est obligatoire dans toute table de faits, quelle qu’elle soit. La présence de la dimension Temps dans une table de faits est une des caractéristiques d’un système décisionnel par rapport à un système transactionnel.

La table de dimension Temps a une granularité au jour.

Dans certains cas, vous aurez besoin de faire des analyses à l’heure : il s’agira alors de créer une dimension Heure. Nous n’intégrerons jamais les heures au sein de la dimension Temps.

Dans d’autres cas, vous aurez une table de faits à la granularité mois : il s’agira alors de considérer le premier jour du mois, comme étant représentatif du mois.

Pour créer la dimension Temps via l’assistant, démarrer BIDS et sélectionnez un projet type « Projet Analysis Services » :

2.1 Création de la source de donnéesCréer une nouvelle source de données :

37


Ensuite suivre les instructions de l’assistant. Créer une nouvelle référence à une source de données « Nouveau »

38

Cliquez sur Nouveau


La dernière étape créer la source de données.

39


2.2 Création d’une nouvelle dimensionCréer une nouvelle dimension :

40


Dans notre cas, nous n’aurons besoin que du calendrier régulier. Dans la réalité, il est très probable que des services tels que le service financier, les ventes ou les services production et logistique aient chacun leur propre calendrier qui diffère du calendrier standard. Le calendrier standard commence le 1er janvier et finit le 31 décembre. Le calendrier fiscal d’une entreprise peut par exemple commencer le 1er septembre et terminer le 31 aout de l’année suivante.

41


42


Ce procédé crée automatiquement la dimension Temps dans la base de données.

Il est recommandé d’utiliser une clé Temps_PK de type int au format aaaaammjj. Cette clé sert à éviter de nombreux écueils lors du chargement de vos données. Les champs de type « Date » étant souvent sources de problèmes d’alimentation. D’autre part, ce type de clé vous permettra d’obtenir de meilleures performances.

Cette codification au format aaaaammjj devra être généralisée à tous les niveaux de notre axe temps : année, semestre, trimestre, mois, semaine etc.

43


Il est suggéré que chaque niveau (année, semestre, trimestre, mois, semaine, jour) soit composé de trois attributs distincts :

Code Date Nom

Par exemple, le mois devra être composé des attributs suivants :

Attribut Type Valeur exemple CommentaireMoisCode Int 20091101 Format aaaammjj, par

défaut doit toujours se référer à la 1ere date de la période

MoisDate SmallDateTime 2009-11-01 00 :00 :00 Format dateMoisNom Varchar(50) Novembre 2009 Valeur au format affichée

3 Création des étoilesNous avons créé une table de faits et les tables de dimensions associées. Le schéma en étoile permet de mettre la table de fait au centre d’un réseau de table de dimension.

44


4 Génération du jeu de testLe jeu de test permet de valider le modèle et surtout d’avoir une vision des futurs résultats.

A demander à Bertand.

45


5 Créer et utiliser simplement un cube brutCette partie consiste à rendre l’information contenue dans l’entrepôt de données de manière simple, présentable et rapide.

Simple et présentable : Cela signifie que l‘utilisateur qui accède à l’information ne doit pas voir la complexité du traitement de l’information.

Rapide signifie qu’un utilisateur qui accède à des informations mises à disposition, doit avoir un temps d’attente de l’ordre de la seconde. Attendre 10 secondes peut déjà être considéré comme long.

Créer une vue pour la source de données.

46


Créer un nouveau diagramme.

Créer le cube.

Déployer le cube

47


Exécuter ou traiter le cube

Concrètement, traiter le cube revient à alimenter et à calculer les agrégats dans la structure déployée à l’étape précédente. Plus vous aurez de données, plus le temps de traitement va s’allonger. Ce n’est pas une tâche anodine, son optimisation relève du travail de l’administrateur Analysis Services.

48


Explorer le cube

Il faut aller dans l’onglet « Navigateur ». Pour que le système affiche les informations relatives au cube, il faut installer au préalable « Office Web Components7 ou Web office ». Les composants Web Office sont un ensemble de contrôles COM (Component Object Model) conçus pour la publication de feuilles de calcul, de graphiques et de bases de données sur le Web.

Cette visualisation est aussi possible depuis SSMS.

7 Téléchargeable à cette adresse http://www.microsoft.com/downloads/details.aspx?FamilyID=7287252c-402e-4f72-97a5-e0fd290d4b76&DisplayLang=en

49

http://www.microsoft.com/downloads/details.aspx?FamilyID=7287252c-402e-4f72-97a5-e0fd290d4b76&DisplayLang=en

http://www.microsoft.com/downloads/details.aspx?FamilyID=7287252c-402e-4f72-97a5-e0fd290d4b76&DisplayLang=en


6 Peaufiner le cube

6.1 Dimensions : hiérarchies et attributsCette section consiste à présenter comment améliorer l’affichage de données d’un cube pour que ce dernier soit facilement accessible pour un utilisateur donné. Pour cela il faut juste retravailler les dimensions de ce cube.

Dans un premier temps nous modifions la dimension Temps

L’objectif est de modifier la donnée affichée, au lieu d’avoir la clé technique (de type entier), on va lui demander d’afficher le jour de l’année à l’utilisateur.

Dans cette fenêtre nous allons spécifier le champ à afficher à la place de la clé technique.

50


Une fois cela fait, il faut traiter la dimension.

Après cela il faut définir la hiérarchie des attributs de la dimension Temps.

6.2 Mise en forme des mesuresCette section traite des finitions au niveau des mesures d’un cube comme le CA, la remise etc. pour chaque mesure on peut définir son format d’affichage comme suit :

51


6.3 Organisation des mesuresLes mesures peuvent être rangées dans des répertoires afin d’en faciliter la lecture et la présentation pour l’utilisateur final.

52


6.4 Mesures calculéesLes mesures et les valeurs sont définies au niveau de a base de données et agrégées lors du traitement du cube. Néanmoins certaines mesures relatives, comme un calcul de poids (pourcentage) ou de rang, ne peuvent être stockées en base de données au sein de la table de faits. Ces mesures devront être déduites (ou calculées) en fonction du contexte de présentation. On parle alors de mesures calculées.

Les mesures calculées vont nous permettre d’effectuer toutes sortes de calculs arithmétiques entre mesures (addition, soustraction, division, multiplication etc.) ou d’utiliser des fonctions proposées en standards par Analysis services. On parle alors de fonction MDX. Pour cela il faut aller dans l’onglet « Calcul ».

6.5 Le cube et la matrice dimensionnelleLes sections précédentes ont présenté comment construire des cubes sur les entrepôts de données. Dans cette section, nous allons aborder la notion de matrice dimensionnelle. La matrice dimensionnelle est la manière la plus efficace de modéliser et de représenter un

53


entrepôt de données. Dans la matrice, les lignes sont les dimensions et les colonnes les Tables de faits. L’intersection d’une dimension avec la table de faits spécifie si les mesures de la table de faits sont analysables par cette dimension.

7 La modélisation dimensionnelle

7.1 La matrice dimensionnelleLa matrice dimensionnelle est la description des processus stratégiques ou du moins les plus important de l’organisation. Ces descriptions de processus apparaissent en colonnes dans la matrice dimensionnelle sous forme de groupes de mesures (ou tables de faits). Il faut savoir qu’il existe trois types de tables faits :

Les tables de faits de type transaction, il s’agit de décrire en détail l’étape d’un processus (l’évènement).

Les tables de faits de type bilan, il s’agit de faire le récapitulatif de certaines étapes du déroulement d’un processus.

Les tables de faits de type photo, il ; s’agit de faire l’état des lieux d’un processus en un instant T (l’inventaire).

Pour illustrer ces types de tables de faits, nous allons extraire un exemple tiré de [référence du livre].

« Prenons l’exemple d’un situation de la vie quotidienne, comme l’acte d’achat d’un article sur Internet. Le client navigue sur un site Internet, il détecte le produit qui lui plairait, il commande cet article. Trois jours plus tard, n’ayant toujours pas reçu le colis, il contacte le support qui le rassure. Le lendemain, en effet, le client reçoit son colis, il signe un bon de réception. Son colis est accompagné de la facture et d’un bon de livraison.

Voyons maintenant du côté de l’entrepôt de données de l’entreprise comment serait traduite cette situation :

Tout d’abord, chacune des pages vues du site Internet pourrait faire l’objet d’une ligne (de faits) dans la table de faits de Navigation du Site Internet (transaction). En fin de session Internet, une ligne de faits, dans la table de faits, Session Site Internet, pourrait faire le bilan du temps passé par l’internaute. Elle pourrait également comptabiliser le nombre de pages totales vues, le nombre d’articles consultés et pourrait noter si le client potentiel a acheté. Il s’agit alors d’une table de fait de type Bilan.

La commande de l’article par le client ajouterait une ligne de faits à la table de faits Commande (Transaction).

Au sein de l’entreprise, la commande serait préparée, la facture éditée (transaction), l’article serait sorti du stock (transaction) et, au moment du départ vers le livreur, le bon de livraison serait édité (transaction).

54


Pendant ce temps, le client appelle le support de l’entreprise : ajout d’une ligne de faits dans la table des appels entrants du support (transaction).

Puis, le livreur fait signer au client un bon de réception électronique, acte qui permet d’ajouter une ligne de faits dans la table de faits des réceptions (transaction).

A la réception du colis, une nouvelle ligne de faits est ajoutée à la table de faits de bilan de commande, permettant de savoir comment s’est déroulé le processus de vente : délai écoulé, retard, nombre d’incidents, temps passé avec le support, couts additionnels etc. (Bilan).

En fin de mois, un inventaire des stocks est réalisé tant en quantité qu’en valeur (Photo). Une photo des clients est également faite afin de comptabiliser leur nombre sous différents aspects : segmentation, comportement d’achat, localisation géographique etc. il s’agit là aussi d’une table de faits de type Photo. »

Tout élément d’un processus peut être sujet à mesure, et dans une entreprise, les processus peuvent être très nombreux. En effet, nous souhaitons une vision globale du projet mais également obtenir les grandes orientations de l’entreprise afin de nous concentrer sur les processus les plus stratégiques. Des documents complémentaires tels que le plan stratégique ou la cartographie des processus de l’entreprise sont des documents majeurs pour nous aider lors de cette étape. Cette vision globale est très importante car elle permet :

De se concentrer sur les processus les plus importants et donc d’aider à prioriser la réalisation du projet. En effet, si la modélisation doit être globale, la réalisation de l’entrepôt de données doit se faire étape par étape.

D’établir la matrice dimensionnelle et ainsi d’avoir une vision exhaustive des dimensions qui doivent croiser un processus.

Un processus n’est pas la propriété d’une activité. L’évaluation des stocks intéresse autant le service de gestion des stocks, que le service financier, de vente, d’achat, de production etc. même s’il est presque certain que ces différents services n’analyseront pas les stocks avec le même angle de vue. Néanmoins, pour la bonne marche de l’entreprise, aucun de ces services ne peut avoir une vision prépondérante sur ces voisins.

« Par exemple il n’est pas rare de voir des responsables marketing, production, achat ou de service financier parler d’un axe produit qui n’a de commun, au premier abord, que le nom…

Une des grandes tâches du projet sera alors de travailler de concert, afin que la remontée d’un même processus puisse permettre à tous les services de faire les analyses spécifiques de leur activité, tout en retrouvant et comprenant les analyses de l’activité voisine. »

L’exemple extrait de [référence du livre] présente une matrice dimensionnelle couvrant les domaines fonctionnels suivants :

Activité commerciale : facture entête, facture, budget vente, bilan commande client. Les stocks : Stock photo et Stock Mouvement.

55


Le service achat : Facture fournisseur, Bilan Commande Achat, Commande Achat en transit et Retour fournisseur.

L’intérêt d’une telle démarche est d’ores et déjà d’annoncer que les principaux axes Temps, Produit, Site, Client et Fournisseur, permettront une analyse commune de processus parfois très éloignés ou difficiles à rapprocher.

7.2 Modélisation et schéma en étoile Dans l’onglet « Navigateur » on peut observer le résultat. On peut donc visualiser les données de deux tables de faits différentes via les mêmes dimensions.

On peut ensuite créer deux nouvelles mesures calculées : panier Moyen et le Nombre Moyen Article Facture.

On constate aussi qu’une mesure calculée comme « Panier Moyen » peut être produite à partir de deux mesures provenant chacune, de deux tables de faits distinctes.

7.3 Tests sur les bilans des commandes

56


Lorsqu’on glisse la dimension Temps en ligne dans le tableau croisé dynamique, on remarque que la mesure Nb Commande livrée affiche uniquement la valeur total : cela signifie que le groupe de mesures Bilan Commande Client n’est pas analysable par l’axe Temps. Sur la figure suivante on peut le constater. A l’intersection du groupe de mesures « Bilan Commande Client » et la dimension « Temps » on constate que la case est grisée et vide.

Pour que le système puisse analyser selon l’axe temps, il faut lui dire quelle date prendre en compte, comme fait ci-après. Analysis Services gère plusieurs type de relation, dont les plus communes sont les relations : Normale, Plusieurs à plusieurs et Référencé.

57


7.4 Création des perspectivesLa perspective est simplement une vue simplifiée de la matrice dimensionnelle : une vue cohérente pour un sujet d’analyse donné. L’idée d’une perspective est de donner aux utilisateurs finaux une vue cohérente entre groupes de mesures et dimensions, et donc entre mesures et attributs. Les perspectives se travaillent et s’affinent en contact des utilisateurs de votre cube. Attention, il ne s’agit pas d’un élément de sécurité permettant de restreindre l’accès à des informations cruciales à certains utilisateurs. Il s’agit seulement d’un élément de confort d’utilisation fort utile. L’importance de la perspective va croissant avec le développement du périmètre fonctionnel de l’entrepôt de données. Toutes les tables de faits et de dimensions ne se croisent pas. De nombreuses intersections se retrouvent vides. L’idée d’une perspective est de montrer une vue orientée métier. Pour créer une perspective allez dans l’onglet « Perspective » et cliquez sur « Nouvelle perspective ».

58


Une fois les perspectives crées, allez dans l’onglet « Navigateur » et faite comme ci-après :

7.5 Création des actionsToujours dans un esprit de finalisation du périmètre des ventes, nous allons mettre en œuvre une fonctionnalité vraiment appréciée des utilisateurs : la fonctionnalité d’audit. Au sein de SSAS, l’audit de données se traduit par la possibilité donnée à l’utilisateur, à tout moment, d’obtenir un extrait des lignes qui compose une cellule d’un tableau croisé dynamique. Pour cela allez dans l’onglet « Action » et puis cliquez sur « Nouvelle action d’extraction ».

59


Une fois l’action crée, allez dans l’onglet « Navigateur » et cliquez sélectionnez la cellule concernée et faite clic droit sur la cellule et vous sélectionnez l’action que vous venez de créer.

Résultat de l’action d’extraction.

En fait, l’objectif des actions n’est pas de transformer le cube en extracteur de données, mais juste d’auditer les lignes et de donner la possibilité aux utilisateurs de faire la passerelle entre

60


les données du système décisionnel et celles du système opérationnel (source). A partir de cela, on voit bien l’intérêt d’intégrer dans nos modèles ou les tables de faits les dimensions dégénérées, comme « NumFacture ».

7.6 Introduction au MDXAu même titre que le langage SQL est un langage de requêtes d’une base de données relationnelle, le MDX est le langage permettant de faire des requêtes sur un cube.

7.6.1 La requête MDX

7.6.2 Comparaison de valeurs à date, utilisation de la fonction ParallelPeriod

7.6.3 La somme cumulée, utilisation de la fonction PeriodsToDate

7.7 Modélisation des mouvements de stocksCette modélisation permet d’avoir une valorisation historisée du stock en permanence.

7.7.1 Les mouvements de stock

7.7.2 La photo de stockLes types de mesures :

Additives, ce sont celles qui se somment sur tous les axes, et semi additives sont celles qui ne se somment pas sur la dimension Temps.

Pour caractériser les mesures semi additive dans Analysis Service faites comme suit : vous allez dans l’onglet « Structure du Cube » et vous sélectionnez la mesure concernée et vous allez dans ses propriétés. Changez la valeur de la propriété « AggregateFunction » à « LastNonEmpty ».

61


8 Découverte de SSISDans cette section nous allons apprendre et comprendre comment va se réaliser la remontée des données du système source vers un entrepôt de données. La principale difficulté est que celui-ci dispose d’une modélisation dimensionnelle conforme, très éloignée de la structure de vos données actuelles.

Dans la gamme SQL Server, l’outil qui va permettre de réaliser le chargement de ces données est SQL Server Integration Services (SSIS).

SSIS a deux aspects :

Un aspect classique avec une logique de flux de tâches, organisées par des règles de précédence. Cet aspect est appelé Flux de contrôles.

Un aspect plus spécifiques au décisionnel, avec une logique purement E-T-L. cet aspect est appelé Flux de données.

On peut utiliser SSIS sans pour autant faire de l’ETL. Par exemple, vous pouvez vous servir de SSIS pour exécuter des tâches de maintenance de bases de données, pour lancer une suite de batch un peu complexe ou pour réaliser de la réplication de données.

Les tâches disponibles donnent une assez bonne idée du rôle que l’on pourrait faire jouer à SSIS et de ses possibilités : connexion à un service web, exécution de requête SQL, exécution d’application, écriture et exécution de scripts, connexion à un serveur FTP, tâche de traitement de SSAS, tâche de sauvegarde de la base de données etc.

62


Dans le flux décisionnel, les tâches de flux de contrôle vont avoir des fonctions de support et d’orchestration, mais ce ne sont pas ces tâches qui vont faire à proprement dit le chargement des données. Le flux de contrôle permet de piloter l’exécution d’un flux de données et doit, autant que possible, ne pas avoir d’influence directe sur les données. Le flux de données réalise l’extraction et le chargement. Il n’a d’influence que sur les données elles-mêmes.

Le chargement de données va se réaliser avec la tâche de flux de données. La barre d’outils de SSIS est organisée autour de trois thématiques :

Sources de flux de données Transformations du flux de données Destination du flux de données

L’acronyme ETL signifie que le flux va être organisé en trois grandes phases :

La phase E signifie qu’une tâche va se connecter à une source, pour en Extraire des lignes de données.

La phase T signifie que ces lignes vont passer par des tâches de Transformation pour subir des tests, des validations ou des modifications.

La phase L signifie que ces lignes, une fois traitées et transformées, vont être chargées (Load en anglais) dans la base de données destination.

L’ensemble de ces phases va se dérouler uniquement en mémoire, d’où des gains de performance qui peuvent être substantiels par rapport au SQL, si on exploite correctement l’outil.

8.1 Réaliser son premier flux SSIS

8.1.1 Réaliser le chargement des données à partir d’un seul siteDans tous les flux de données SSIS, on doit avoir au minimum trois tâches (composants) :

E : une source qui peut de nature fichier plat, fichier Excel, table, vue etc. T : une transformation qui peut être la mise à jour d’une colonne particulière au moyen

d’une expression

63


L : destination qui peut être de nature table dans une base de données, un fichier plat, un fichier Excel, etc.

8.1.2 Réaliser le chargement des données à partir de plusieurs fichiers ExcelCette partie consiste à montrer comment agencer un ensemble de flux de contrôle et aussi comment charger les données en prenant en compte un répertoire de fichiers sources. Nous avons montré précédemment comment mettre ne place un flux de données. Pour exécuter un flux on va sur le package et on procède comme suit :

8.2 Développer des flux ETL pour le décisionnel

8.2.1 Déroulement de l’exécution d’un processus ETLCette partie consiste à présenter les différents types de flux qu’on peut utiliser pour alimenter un entrepôt de données dans un projet décisionnel.

Dans les faits, les données ne vont pas transiter directement des systèmes sources vers l’entrepôt de données. Les données vont transiter par au moins un palier : le sas de données appelé en anglais Staging Area (SA). Le SA à plusieurs rôles :

64


Rapatrier les informations émanant de sources multiples, en garantissant qu’il n’y ait pas de pertes de données lors du processus.

Faire une zone mémoire tampon d’un état brut de la source à un instant passé et ainsi, faciliter la mise en œuvre d’un processus de reprise de données.

La mise en place d’un SA est une étape indispensable à la bonne mise en œuvre de vos flux ETL. Les rôles peuvent être répartis comme suit :

Les flux entre les systèmes sources et le SA seront des flux de copie de données (EL). Nous éviterons donc, dans le SA, toute contrainte d’intégrité, et dans les flux, toute règle de gestion et autre requête avec jointure interne, qui peut provoquer une déperdition de données sources. Les tables du SA ne sont pas soumises à une modélisation. Le SA est simplement à but pratique afin de simplifier la seconde étape.

Les flux entre le SA et le DW seront de véritables flux ETL. Nous utiliserons alors pleinement l’onglet Flux de données de SSIS ainsi que les tâches de transformation. C’est à cette étape-ci, que nous réaliserons un audit précis de nos flux.

On peut lister les flux en décisionnel comme suit :

Les flux de copie des données sources vers le SA Les flux de gestion et de mise à jour des dimensions du DW Les flux de chargement des tables de faits du DW

8.2.2 Réaliser un flux pour charger le SAS de données

65


66


67

Documents

Decision Nel