Cours #1 (Data Warehouse)

Master M2 (Option F3I)Master M2 (Option F3I)

Les entrepôts de donnéesLes entrepôts de données

Data Mining et Apprentissage AutomatiqueCours de Master F3I

2008-2009

Plan

IntroductionLes entrepôts de donnéesLes datamartArchitectureModélisation Alimentation Les bases de données multidimensionnellesLe marché du décisionnelDémonstration

29/11/2009 Master F3I (Data Mining et Apprentissage Automatique) 2

I f ti d P d tiInformatique de Production

Données opérationnelles (de prod ction)Données opérationnelles (de production)activité constante composée de modifications et d'interrogations fréquentes des bases de données par de

b tili t j t d difi nombreux utilisateurs : ajouter une commande, modifier une adresse de livraison, rechercher les coordonnées d'un client, etc. i é i é é é il'intégrité des données est nécessaire pour ce genre

d'applications (il faut par exemple, interdire la modification simultanée d'une même donnée par deux

tili t diffé t ) utilisateurs différents). La cohérence assurée par les systèmes de production est toute relative. Elle se contrôle au niveau de la transaction élé t i i i l b l t d ti ité d élémentaire mais pas au niveau global et des activités de l'organisation.

29/11/2009 3Master F3I (Data Mining et Apprentissage Automatique)

I f ti d P d tiInformatique de Production

Données opérationnelles (de prod ction)Données opérationnelles (de production)Basée sur Les systèmes transactionnels temps réel, OLTP (On-line Transaction Processing) garantissent l'intégrité des d é données. Les utilisateurs accèdent aux données de la base par de très courtes transactions atomiques et isolées. La priorité est donnée en premier lieu à l'enregistrement rapide, sûr et efficace des données. L'un des formalismes les plus utilisés pour la représentation L un des formalismes les plus utilisés pour la représentation conceptuelle des systèmes d'information est le modèle EntiteAssociation


S tè Dé i i lSystèmes Décisionnels

Définition : Informatiq e décisionnelle (M t d tè Définition : Informatique décisionnelle (Management du système d'information, en anglais : DSS pour Decision Support System ou encore BI pour Business Intelligence) :

les moyens, les outils et les méthodes qui permettent de collecter, consolider, modéliser et restituer les données, matérielles ou immatérielles d'une entreprise en vue matérielles ou immatérielles, d une entreprise en vue d'offrir une aide à la décision et de permettre aux responsables de la stratégie d'entreprise d’avoir une vue d’ensemble de l’activité traitée d ensemble de l activité traitée..


C té i ti d S tè Dé i i lCaractéristiques des Systèmes Décisionnels

Possibilité de poser une grande variété de questions au système, certaines prévisibles et planifiées comme des tablea de bord et d'a tres impré isiblestableaux de bord et d'autres imprévisibles.permettre à l'utilisateur d'effectuer les requêtes qu'il souhaite, par lui-même, sans l'intervention de programmeur.Il sera souvent nécessaire de filtrer, d'agréger, de compter, sommer et de réaliser des statistique (moyenne, écrat-

)type, ….)



La str ct re logiq e doit être pré e po r rendre a ssi La structure logique doit être prévue pour rendre aussi efficace que possible toutes ces requêtes. Pour y parvenir, il est nécessaire d'introduire de la redondance dans les informations Stockées en mémorisant des calculs informations Stockées en mémorisant des calculs intermédiaires. On rompt donc avec le principe de non redondance des bases de production.la cohérence requise doit être interprétable par la cohérence requise doit être interprétable par l'utilisateur. Les systèmes d'informatique décisionnelle doivent donc

l tôt hé l b l d d é P assurer plutôt une cohérence globale des données. Pour ce faire, leur alimentation doit être une opération réfléchie et planifiée dans le temps.



Les transferts de données d s stème opérationnel Vers le Les transferts de données du système opérationnel Vers le système décisionnel seront réguliers avec une périodicité bien choisie dépendante de l'activité de l'entreprise. Chaque transfert sera contrôlé avant d'être diffusé Chaque transfert sera contrôlé avant d être diffusé. Aucune information n'y est jamais modifiée. On mémorise toutes les données sur une période déterminée, les données ne seront jamais remises à jour car toutes les données ne seront jamais remises à jour car toutes les vérifications utiles à la cohérence globale sont procédées lors de l'alimentation.L' tili ti é d à h t é i di L'utilisation se résume donc à un chargement périodique, puis à des interrogations non régulières, non prévisibles, parfois longues à exécuter.


F ti ti ll d l’I f ti Dé iFonctions essentielles de l’Informatique Décis.

To t s stème d'information décisionnel (SID) telle q e le Tout système d'information décisionnel (SID) telle que le sont les datawarehouses assurent quatre fonctions fondamentales, à savoir la

ll t collecte, l'intégration, la diffusion etla présentation des données. À ces quatre fonctions s'ajoute une fonction de contrôle du SID lui-même l'administrationcontrôle du SID lui-même, l administration.



L ll tLa collecteLa collecte des données (parfois appelée data pumping) est l'ensemble des tâches consistant à détecter, à sélectionner, à extraire et à filtrer les données brutes issues des environnements pertinents compte tenu du périmètre du SID.Les sources de données internes et/ou externes étant souvent hétérogènes tant sur le plan technique que sur le plan sémantique (données complexes)

cette fonction est la plus délicate à mettre en place dans un système décisionnel complexe, car un excédent de un système décisionnel complexe, car un excédent de données, un défaut de fiabilité ou un trop mauvais rapport signal/bruit sont pires que l'absence de données.



Elle s'app ie notamment s r des o tils d'ETL (e tractElle s'appuie notamment sur des outils d'ETL (extract-transform-load pour extraction-transformation-chargement).

La fonction de collecte joue également, au besoin, un rôle de recodage. Une donnée représentée différemment

à i id'une source à une autre impose le choix d'une représentation unique pour les futures analyses.



L’i té tiL’intégrationL’intégration des données, c'est-à-dire leur regroupement en un ensemble technique, logique et sémantique homogène approprié aux besoins de l'organisation ; elle consiste à concentrer les données collectées dans un espace unifié, dont le socle informatique essentiel est l' t ôt d d é Élé t t l d di itif il l'entrepôt de données. Élément central du dispositif, il permet aux applications décisionnelles de bénéficier d'une source d'information commune, homogène,

li é t fi bl tibl d l di ité normalisée et fiable, susceptible de masquer la diversité de l'origine des données.



L diff iLa diffusionLa diffusion, ou la distribution d'informations élaborées à partir des données dans des contextes appropriés aux besoins des individus ou des groupes de travail utilisateurs. c'est-à-dire elle met les données à la disposition des utilisateurs, selon des schémas correspondant au profil ou

éti d h h t l' è di t à au métier de chacun, sachant que l'accès direct à l'entrepôt de données ne correspondrait généralement pas aux besoins d'un décideur ou d'un analyste.

29/11/2009 Ecole Doctorale (Data Mining et ...) 13


L é t tiLa présentationCette quatrième fonction, la plus visible pour l'utilisateur, régit les conditions d'accès de l'utilisateur aux informations. Elle assure le fonctionnement du poste de travail, le contrôle d'accès, la prise en charge des requêtes, la visualisation des résultats sous une forme ou une autre. Elle

tili t t l t h i d i ti ibl utilise toutes les techniques de communication possibles (outils bureautiques, requêteurs et générateurs d'états spécialisés, infrastructure web, télécommunications

bil t )mobiles, etc.).



L’ d i i t tiL’administrationL’administration, qui gère le dictionnaire de données et le processus d'alimentation de bout en bout, car le système d’information décisionnelle doit être lui-même piloté. C'est la fonction transversale qui supervise la bonne exécution de toutes les autres. Elle pilote le processus de mise à jour d d é l d t ti l d é (l ét des données, la documentation sur les données (les méta données), la sécurité, les sauvegardes, la gestion des incidents.



RRemarqueEn pratique, les fonctions de collecte et d'intégration sont étroitement liées entre elles, et sont généralement associées au datawarehouse. De même, diffusion et présentation sont des fonctions fortement "orientées sujet", tournées vers l'utilisateur et son jmétier, manipulant des contenus à forte valeur ajoutée informationnelle et non des données brutes; elles sont donc fortement imbriquées logiquement et techniquement


Le contexte

Besoin: prise de décisions stratégiques et politiquesBesoin: prise de décisions stratégiques et politiquesPourquoi: besoin de réactivité face à la concurrenceQui: les décideurs (non informaticiens)Comment: en répondant aux demandes d’analyseComment: en répondant aux demandes d analyse

Qui sont mes Où placer ceQmeilleurs clients?

Où placer ce produit dans les rayons?

A combien ’élè t

Quelle catégorie s’élèvent mes

ventes journalières?

de clients achètent un

types de produit

29/11/2009 17

?

Master F3I (Data Mining et Apprentissage Automatique)

L d é tili bl l dé idLes données utilisables par les décideurs

Données opérationnelles (de prod ction)Données opérationnelles (de production)Bases de données (Oracle, SQL Server)Fichiers, …P ti d RH ti d dPaye, gestion des RH, gestion des commandes…

Caractéristiques de ces données:Distribuées: systèmes éparpillésHétérogènes: systèmes et structures de données différentsDétaillées: organisation des données selon les processus fonctionnels, d é b d t l’ ldonnées surabondantes pour l’analysePeu/pas adaptées à l’analyse : les requêtes lourdes peuvent bloquer le système transactionnelVolatiles: pas d’historisation systématiqueVolatiles: pas d historisation systématique


Problématique

C é d d d d dé id ?Comment répondre aux demandes des décideurs?En donnant un accès rapide et simple à l’information stratégique

Mettre en place un système d’information dédié aux applications décisionnelles:

un data warehouse


Le processus de prise de décision

Champs d’application desChamps d application des systèmes décisionnels

Définir le problème

Rassembler les données

Analyser les données

Établir des solutions

Décider

Temps de prise d’une décision

p

p p


Le processus de prise de décision

Prise de dé i idécision

Bases de production

Data warehouse

Base multi -dimensionnelle

Prédiction / simulation


Domaines d’utilisation des DW

BBanqueRisques d’un prêt, prime plus précise

SantéÉ idé i l iÉpidémiologieRisque alimentaire

CommerceCibl d li tèl Ciblage de clientèle Déterminer des promotions

LogistiqueAdé ti d d / d tiAdéquation demande/production

AssuranceRisque lié à un contrat d’assurance (voiture)

…


Quelques métiers du décisionnel

St t i P f M tStrategic Performance ManagementDéterminer et contrôler les indicateurs clé de la performance de l’entreprise

Finance IntelligencePlanifier, analyser et diffuser l’information financière. Mesurer et gérer les risques

Human Capital Management (gestion de la relation avec les employés)

Aligner les stratégies RH, les processus et les technologies. g g p gCustomer Relationship Management (gestion de la relation client)

Améliorer la connaissance client, identifier et prévoir la rentabilité client, accroitre l’efficacité du marketing clientclient, accroitre l efficacité du marketing client

Supplier Relationship Management (gestion de la relation fournisseur)Classifier et évaluer l’ensemble des fournisseurs. Planifier et piloter la stratégie Achat

29/11/2009 23

stratégie Achat.


Plan



Définition d’un DW

W. H. Inmon (1996): « Le data Warehouse est une collection de données

i té j t i té é l til t hi t i é orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision »la décision »

Principe: mettre en place une base de données Principe: mettre en place une base de données utilisée à des fins d’analyse


Les 5 caractéristiques des data warehouse

5 caractéristiques des DW :

Orientées sujetDonnées intégréesDonnées non volatilesDonnées datées ou archivées historiséesDonnées datées ou archivées historiséesDonnées multidimensionnelles



1. Données orientées sujet (métiers ou business): Regroupe les informations des différents métiers Ne tiens pas compte de l’organisation fonctionnelle des donnéesdonnées

Ass. Vie Ass. Auto Ass. Santé

Client

PolicePolice



L’objectif d’un datawarehouse est la prise de décisions autour des activités majeures de l’entreprise.

Dans un datawarehouse, les données sont ainsi structurées par thèmes par opposition à celles organisées, dans les systèmes de production, par processus fonctionnel. y p , p p

L’intérêt de cette organisation est de disposer de l’ensemble des informations utiles sur un sujet le plus l ensemble des informations utiles sur un sujet le plus souvent transversal aux structures fonctionnelles et organisationnelles de l’entreprise.



On peut ainsi passer d’une vision verticale de l’entreprise à une vision transversale beaucoup plus riche en informations. On dit que le Datawarehouse est orienté « métier », en réponse aux différents métiers de l’entreprise qu’il est censé préparer à l’analyse



é i é é2. Données intégrées:Normalisation des donnéesDéfinition d’un référentiel uniqueDéfinition d un référentiel unique

h,f

1,0

homme femme

h,f

homme, femme

DA

FFEUR

29/11/2009 30

FS



Les données en provenance de sources hétérogènes ou d'origines diverses (y compris des fichiers externes de cotation ou de scoring).Il s’agit alors d’intégrer les données en provenance de diverse sources afin de les homogénéiser et de leur donner un sens unique, compréhensible par tous les utilisateurs.La transversalité recherchée sera d’autant plus efficiente que le système d’information sera réellement intégré.Cette intégration nécessite une forte normalisation, une Cette intégration nécessite une forte normalisation, une bonne gestion des référentiels et de la cohérence, une parfaite maîtrise de la sémantique et des règles de gestion s’appliquant aux données manipulées.pp q pCe n’est qu’au prix d’une intégration « réussie » que l’on peut offrir une vision homogène et cohérente de l’entreprise via ses indicateurs

29/11/2009 31

p



3 Données non volatiles3. Données non volatilesTraçabilité des informations et des décisions prisesCopie des données de production

Ajout

Bases de production Entrepôts de données

Suppression

Accès

Modification Chargement



stables, en lecture seule, non modifiables.Afin de conserver la traçabilité des informations et des décisions prises, les informations stockées au sein du pDatawarehouse ne doivent pas disparaître.Une même requête lancée plusieurs fois, et ce à des mois d’intervalle, sur une même population doit restituer les , p pmêmes résultats.dès lors qu’une donnée a été qualifiée pour être introduite au sein du Datawarehouse, elle ne peut ni être altérée, ni au sein du Datawarehouse, elle ne peut ni être altérée, ni modifiée, ni supprimée (ou en tout cas en deçà d’un certain délai de purge). Elle devient, de fait, partie prenante de l’historique de l’entreprise.p q p



4 Données datées ou archivées historisées4. Données datées ou archivées historiséesLes données persistent dans le tempsMise en place d’un référentiel temps

Ali Alger Ali M’silaImage de la base en Mai 2005 Image de la base en Juillet 2006

Base de Ali Alger

Samir SétifAli M’sila

Samir SétifBase de production

1 2005 M i1 Ali Alger

Entrepôt 1 2005 Mai

2 2006 Juillet1 Samir Sétif

2 Ali M’sila

pde données

29/11/2009 34

2 Ali M sila



Avec une conservation de l'historique et de son évolution pour permettre les analyses comparatives (par exemple, d'une année sur l'autre, etc.). La non-volatilité permet l’historisation. D’un point de vue fonctionnel, cette propriété permet de suivre dans le temps l’évolution des différentes valeurs des indicateurs à analyser. De fait, dans un Datawarehouse un référentiel de temps est nécessaire. C’est l’axe temps ou période



5 Données mutidimentionnelles5. Données mutidimentionnellesprésentées selon différents axes d'analyse ou « dimensions » (par exemple : le temps, les types ou segments de clientèle, les différentes gammes de produits les différents secteurs les différentes gammes de produits, les différents secteurs régionaux ou commerciaux, etc.).Le Datawarehouse est conçu pour contenir les données en dé ti l b i t l t f t d adéquation avec les besoins actuels et futurs de

l’organisation, et répondre de manière centralisée à tous les utilisateurs.


SGBD et DW

Servicecommercial

ServiceFinancier

Servicelivraison

BD prod BD prod BD prod

OLTP: On-Line Transactional BD prod BD prod BD prod

ClientèleProcessing

HI

Data WarehouseISTOOLAP: On-Line

ClientèleRIQ

O O eAnalitical Processing

29/11/2009 37

UE


OLTP VS DW

OLTP DWOrienté transaction Orienté analyse

Orienté application Orienté sujet

Données courantes Données historisées

Données détaillées Données agrégées

Données évolutives Données statiquesDonnées évolutives Données statiques

Utilisateurs nombreux, administrateurs/opérationnels

Utilisateurs peu nombreux, manager

Temps d’exécution: court Temps d’exécution: long


Plan



Datamart

Sous-ensemble d’un entrepôt de données Destiné à répondre aux besoins d’un secteur ou d’une fonction particulière de l’entreprisePoint de vue spécifique selon des critères

étimétiers

Datamarts du service Marketing

Datamart du i R

29/11/2009 40

service Ressources Humaines

DW de l’entreprise


Intérêt des datamart

é éNouvel environnement structuré et formaté en fonction des besoins d’un métier ou d’un usage particulierparticulierMoins de données que DW

Plus facile à comprendre à manipulerPlus facile à comprendre, à manipulerAmélioration des temps de réponse

Utilisateurs plus ciblés: DM plus facile à définirU sa eu s p us c b és: p us ac e à dé


Plan



Architecture générale

Zone de préparationZone de

présentationZone de stockage

E

RequêtesTransformations:

CHA

EXTR

Data warehouse

RequêtesRapports

VisualisationData Mining

Transformations:Nettoyage

Standardisation

RGE

ACTI Data Mining

…

Sources de

…

Datamart

MENT

ION

Sources de données

DatamartT


Les flux de données

Flux entrantExtraction: multi-source, hétérogèneTransformation: filtrer trier homogénéiser nettoyerTransformation: filtrer, trier, homogénéiser, nettoyerChargement: insertion des données dans l’entrepôt

Flux sortant:Flux sortant:Mise à disposition des données pour les utilisateurs finaux


Les différentes zones de l’architecture

Z d é ti (St i ) Zone de préparation (Staging area) Zone temporaire de stockage des données extraitesRéalisation des transformations avant l’insertion dans le DW:

N ttNettoyageNormalisation…

Données souvent détruites après chargement dans le DWZone de stockage (DW DM)Zone de stockage (DW, DM)

On y transfère les données nettoyéesContient les données de l’entreprise

Zone de présentationZone de présentationZone d’accès aux données contenues dans le DWPeut contenir des outils d’analyse programmés:

RapportsRapportsRequêtes…


1- Architecture à deux niveaux


1- Architecture à deux niveaux

Dans cette architecture nous retrouvons :Dans cette architecture nous retrouvons :Le staging area : Le staging area est temporaire il sert à stocker les données extraites (E) des systèmes sources. C'est dans le staging area que l'on effectue les différentes dans le staging area que l on effectue les différentes transformations (T) à savoir : Le nettoyage des données, le merge, la standardisation, le déduplication... des données. Les données dans le staging area sont détruites une fois le g gchargement des data marts terminé en succès.Le Datawarehouse : Les données du staging area sont transférées vers le datawarehouse (L). Il est important de transférées vers le datawarehouse (L). Il est important de noter que le méta data est aussi stocké dans le datawarehouse. Le datawarehouse est centrale et devrait être contenir toutes les données de l'entreprise.pLa zone présentation : Une fois les données chargées dans le datawarehouse, les utilisateurs peuvent y accéder pour exécuter leurs requêtes Ad hoc, programmer les rapports,

29/11/2009 47

e écu e eu s equê es d oc, p og a e es appo s, analyser et visualiser l'information


2- Les DataMarts Indépendants



Dans cette architecture nous retrouvons : L'architecture prônée Dans cette architecture nous retrouvons : L architecture prônée par Kimball :

Le staging area : Le staging area est temporaire il sert à stocker les données extraites (E) des systèmes sources. C'est stocker les données extraites (E) des systèmes sources. C est dans le staging area que l'on effectue les différentes transformations (T) à savoir : Le nettoyage des données, le merge, la standardisation, le déduplication... des données. g , , pLes données dans le staging area sont détruites une fois le chargement des data marts terminé en succès.Les data marts indépendants : Les données du staging area Les data marts indépendants : Les données du staging area sont transférées vers le datamart concerné (L). Il est important de noter que le méta data est aussi stocké dans le datamart. Les data marts sont indépendants ce qui veut p qdire qu'il n'existe aucune intégration (Communication) entre ces derniers.



Dans cette architecture nous retrouvons : L'architecture prônée Dans cette architecture nous retrouvons : L architecture prônée par Kimball :

La zone présentation : Une fois les données chargées dans les Data marts, les utilisateurs peuvent y accéder pour les Data marts, les utilisateurs peuvent y accéder pour exécuter leurs requêtes Ad hoc, programmer les rapports, analyser et visualiser l'information en provenance des data marts, analyser et visualiser l'information, y



Avantages:Avantages:permet de répondre rapidement à des besoins extrêmement urgents dans des départements où la gestion est décentraliséeest décentraliséeutile lorsque le budget alloué pour le déploiement de l'architecture ne permet pas la construction d'un système global intégréglobal intégrépermet de voir des résultats à court termepermet de justifier la poursuite des développements plus globauxglobauxnécessite des coûts moindres en termes d’équipements et autres ressources à court termepeut être utilisée lorsque la gestion des données est déjà décentralisée et que les données gérées sont propres à chacun des groupes de l’organisation



Inconvénients :Inconvénients :peut entraîner des problèmes d’évolutivité vers une architecture plus robustedoit faire partie d’un processus global pour être réussidoit faire partie d un processus global pour être réussides problèmes de redondance et d’inconsistances sont possibles


3- Datamarts dépendants avec ODS

L'ODS : L'ODS est l'acronyme pour Operational Data Store



Dans cette architecture nous retrouvons : L'architecture prônée Dans cette architecture nous retrouvons : L architecture prônée par Bill Inmon :

L'ODS : L'ODS est l'acronyme pour Operational Data Store ou Magasin de données opérationnelles. Il joue deux rôles : ou Magasin de données opérationnelles. Il joue deux rôles : Le rôle du staging area qui sert à stocker les données extraites (E) des systèmes sources. On y effectue aussi les différentes transformations (T) à savoir : Le nettoyage des ( ) y gdonnées, le merge, la standardisation, le déduplication... des données. Par contre les données dans l'ODS ne sont détruites Par contre les données dans l ODS ne sont détruites qu'après la durée de vie des opérations qui est un facteur définit par l'organisation et dépend de plusieurs critères.Le deuxième rôle d'un ODS et c'est surtout sa raison d'être Le deuxième rôle d un ODS et c est surtout sa raison d être c'est d'intégrer les données sources dans le but de présenter toute l'information nécessaire à prendre des décisions tactiques

29/11/2009 54

déc s o s ac ques



L'Entreprise Datawarehouse : Les données de l'ODS sont L Entreprise Datawarehouse : Les données de l ODS sont transférées vers le datawarehouse (L). Le Datawarehouse est centrale, c'est d'ailleurs la raison de l'appellation Entreprise Datawarehouse (EDW), et devrait être contenir p ( )toutes les données de l'entreprise.Les data marts dépendants : Ces data marts peuvent être alimentés soit de L'EDW soit de l'ODS. Ces data marts sont dépendants.La zone présentation : Une fois les données chargées dans le Datawarehouse et les data marts dépendants, les le Datawarehouse et les data marts dépendants, les utilisateurs peuvent y accéder pour exécuter leurs requêtes Ad hoc, programmer les rapports, analyser et visualiser l'information...



Avantages:Avantages:définition des données intégrée et très consistantefonctionne habituellement bien lorsque la gestion des données est déjà centralisée à un certain niveaudonnées est déjà centralisée à un certain niveau

Inconvénients :demande des efforts très importants de planification demande des efforts très importants de planification, d’analyse et de conception au début du projetcoût de réalisation significatif

é t d dél i t l’i l t ti fi l i présente des délais avant que l’implantation finale puisse être fonctionnelleretour d’investissement et bénéfices visibles seulement à l tlong termedemande une bonne coordination entre les différents groupes de l’organisation et les consensus peuvent être

à


difficiles à obtenir

4- Datamarts logiques avec datawarehouse actif

• Les datamarts ne sont pas des bases de donnéesséparées mais des vues logiques des datawarehouses.


4 C t ti d’ DW4- Construction d’un DW



Les composants fonctionnels d'un entrepôt de données s'observent sur trois Les composants fonctionnels d un entrepôt de données s observent sur trois niveaux : l'acquisition des données, leur stockage, leur exploitation (restitution des informations décisionnelles)

PREMIER NIVEAU:ACQUISITION DES DONNEES QLe premier niveau est celui de l'acquisition des données qui vont alimenter l'entrepôt de données. L'hétérogénéité des supports d'où sont issues les données à extraire a pour corollaire la complexité de la phase d'alimentation de l'entrepôt de données. En effet, les systèmes d’information opérationnels sont, le plus souvent, composés d’applications y p , p , p ppmultiples, destinées chacune à traiter un domaine d’activité spécifique (approvisionnement, production, vente,…). Le composant d'acquisition des données a donc pour vocation d'unifier les données opérationnelles qui, à la base, ne sont pas normalisées. Il est important de porter une grande attention à la nature et à la qualité des p p g qdonnées avant de les extraire à destination du système d'information décisionnel. Après avoir identifié, parmi toutes les données présentes dans les systèmes d'information opérationnels ou issues de bases de données externes, celles utiles à l'aide à la décision, il est nécessaire d'analyser leur qualité tant en termes de capacités de rapprochement y q p ppd'un même référentiel lors de leur arrivée dans l'entrepôt de données, qu'en termes de nettoyage. Si l'on souhaite conserver une cohérence entre les données visualisées du côté transactionnel et du côté décisionnel, leur nettoyage s'effectuera à la source plutôt que dans l'entrepôt de données.

29/11/2009 59

q p



A) ALIMENTATION DE L'ENTREPOT DE DONNEESL'alimentation des données à partir des bases de production est une phase primordiale d'un datawarehouse. Des outils logiciels sont alors nécessaires pour intégrer les données d l d t h O l d' til ETL (E t t T f L d)dans le datawarehouse. On parle d'outil ETL (Extract, Transform, Load).Extract-Transform-Load est connu sous le terme ETL, ou Extracto-Chargeur, (ou parfois : datapumping). Il s'agit d'une technologie informatique permettant d'effectuer des synchronisations massives d'information d'une base de données vers une autre. Selon le conte te on trad ira par alimentation e traction transformation constit tion contexte, on traduira par « alimentation », « extraction », « transformation », « constitution » ou « conversion », souvent combinés. Elle repose sur des connecteurs servant à exporter ou importer les données dans les applications (Ex : connecteur Oracle), des transformateurs qui manipulent les données (agrégations, filtres, conversions...), et des mises en correspondance (mappages) L'objectif est l'intégration par l'entreprise de ces mises en correspondance (mappages). L'objectif est l'intégration par l'entreprise de ces données.



A l'origine, les solutions d'ETL sont apparues pour le chargement régulier de donnéesagrégées dans les entrepôts de données (ou datawarehouse), avant de se diversifier vers g g p ( )les autres domaines logiciels. Ces solutions sont largement utilisées dans le monde bancaire et financier, ainsi que dans l'industrie, au vu de la multiplication des nombreuses interfaces.



Actuellement il existe trois catégories d’outils ETL :

Engine-based : les transformations sont exécutées sur un serveur ETL, disposant en général d’un référentiel. Ce genre d’outil dispose d’un moteur de transformation ;Database-embedded : les transformations sont intégrées dans la base de données. Cette fonctionnalité est très consommatrice de ressource

l b d d ésur la base de données.Code-generators : les transformations sont conçues et un code est généré. Ce code est déployable indépendamment de la base de donnéesdonnées.



Les phases de l'alimentation d'un datawarehouse sont les suivantes :

1- Découverte des données : Il s'agit d'identifier dans les systèmes sources les données à importer dans le datawarehouse. Il faut prendre les données les plus judicieuses. Un mauvais choix peut considérablement compliquer les phases suivantes de l'alimentation.2- Extraction des données : Il s'agit de collecter les données utiles dans l tè d d ti ( ) Il f t id tifi l d é t les systèmes de production(sources). Il faut identifier les données ayant été modifiées afin d'importer le minimum de données dans le datawarehouse. Et pour ce faire on pourrait s'entendre avec le

bl d tè j t it fl d responsable du système source pour ajouter soit un flag ou encore des dates dans chacune des tables extraites, au moins deux dates : Date de création de l'enregistrement dans la table et la date de mise à jour (En général la plupart des systèmes sources disposent de ces deux dates) général la plupart des systèmes sources disposent de ces deux dates). Par ailleurs pour ne pas perdre des données suites à des problèmes d'extraction, il est important de s'assurer que le système source ne purge pas les données avant que l'entrepôt ne les ait extraits

29/11/2009 63

pas les données avant que l entrepôt ne les ait extraits.




3- Transformation des données : est la tâche la plus complexe et qui demande beaucoup de réflexion.Voici les grandes fonctionnalités de transformation :_ Nettoyage des données_ Standardisation des données. C f ité d d é_ Conformité des données.

_ Gestion des tables de fait_ Gestion des dimensions t_ ……etc.

Il faut rendre les données cohérentes avec la structure du datawarehouse. On d'applique alors des filtres sur les données Il peut être nécessaire de convertir le format des données alors des filtres sur les données. Il peut être nécessaire de convertir le format des données (EBCDIC vers ASCII par exemple) ou d'harmoniser les formats de dates (jj/mm/aaaa). Il faut également associer les champs source avec les champs cibles. Un champ source « adresse » pourra ainsi par exemple être décomposé en « numéro », « rue », « code postal », « ville » ou l'inverse Enfin des données des systèmes de production doivent être agrégées ou calculées

29/11/2009 64

l inverse. Enfin des données des systèmes de production doivent être agrégées ou calculées avant leur chargement.




4- Chargement des données : C'est la dernière phase de l'alimentationd'un datawarehouse. Il s'agit d'insérer les données au sein dudatawarehouse. C'est une phase délicate car les quantités de donnéessont souvent très importantes.Il permet de transférer les données versleur destination finale.

3 cas de figures se présentent, selon l’architecture mise en place

1) d h l d é d l' t ôt d d é1) de charger les données dans l'entrepôt de données:Si la politique retenue a été de construire un entrepôt de données avecune base de données, alors les données seront chargées dans l'entrepôt.Cette approche est proche à celle de Bill Inmon Il sera dés lors possibleCette approche est proche à celle de Bill Inmon. Il sera dés lors possibled’utiliser des fonctionnalités analytiques (comme , permis par, Oracle).




2) de les charger dans des cubes de données :La deuxième possibilité est de charger les données directement dans des cubes de données sans les stocker dans un DW.Cette approche est certainement la plus proche à celle de Ralph Kimball. Un bon exemple est l'utilisation directe des cubes de données.

3) le mode hybride:La troisième possibilité est celle offre le plus d’avantages mais demande

t l d' ff t L h t d d é ’ ff t à l f i par contre plus d'effort. Le chargement des données s’effectue à la fois sur le datawarehouse et les datamarts :- Un premier chargement des données dans un entrepôt de données.

Un deuxième chargement dans des cubes de données- Un deuxième chargement dans des cubes de données.

Par contre cette approche ajoute une charge de travail très considérable pour l'équipe de développement (Aucun impact sur les utilisateurs) :

Une base de données à créer et à maintenir

29/11/2009 66

- Une base de données à créer et à maintenir.- Un exercice de réflexion sur le modèle de données du datawarehouse.-Un autre exercice de réflexion sur le modèle des métas donnés.




DEUXIEME NIVEAU: STOCKAGE DES DONNEESLe second niveau est celui de la gestion des données. Sa principale vocation est d'assurer leur stockage dans une base décisionnelle souvent sous un SGBDR. Les données sont structurées en contexte d'analyse décisionnelle et sont orientées vers l'utilisateur décisionnel ;les données sont le plus souvent structurées selon des modèles en étoile.C’est à ce niveau que l’on construit des cubes multidimensionnels. Le composant de gestion des données permet ainsi de réaliser au travers des cubes des interrogations sur plusieurs dimensions (diffé t i t d ) d d é t d l' t ôt(différents points de vue) des données contenues dans l'entrepôt..



Classes de données : Le datawarehouse se structure en quatre Classes de données : Le datawarehouse se structure en quatre classes de données, organisées selon un axe historique et un axe synthétique.

1-Les données détaillées : Elles reflètent des évènements les plus récents. Les données provenant des systèmes de production sont intégrées à ce niveau. Elles présentent des avantages évidents ég ées à ce eau. es p ése e des a a ages é de s (profondeur et niveau de détail, possibilité d'appliquer de nouveaux axes d'analyse et même de revenir a posteriori sur le « passé ») mais représentent un plus grand volume et nécessitent donc des matériels p p gplus performants.

.



2-Les données agrégées : Elles correspondent à des éléments d'analyse représentatifs des besoins des utilisateurs. Ce sont donc des y pdonnées déjà traitées par le système et représentant un premier résultat d'analyse et de synthèse des données contenues dans les systèmes de production. Elles présentent d'autres avantages (facilité y p p g (d'analyse, rapidité d'accès, moindre volume) mais il n'est pas toujours possible de retrouver le détail et la profondeur des indicateurs une fois ceux-ci agrégés et figés : on prend le risque de figer les donnéesdans une certaine vue, selon les axes d'agrégation retenus, et de ne plus pouvoir revenir plus tard sur ces critères si l'on n'a pas conservé le détail (par exemple, si l'on a agrégé les résultats par mois, il ne sera

t êt l ibl d f i l j é )peut-être plus possible de faire une analyse par journée).et de celles du datawarehouse.



3-Les données historisées : Chaque nouvelle insertion dans le datawarehouse ne détruit pas les anciennes valeurs mais crée une nouvelle insertion.

4 L ét d é Il ' it d d é l d é Ell 4- Les méta données : Il s'agit « de données sur les données ». Elles décrivent les règles ou processus attachés aux données du système. Les méta données permettront notamment de connaître:

• quelles sont les données entreposées, leurs formats, leurs significations, leurs degrés d'exactitude.• les processus de récupération/extraction dans les bases sources• les processus de récupération/extraction dans les bases sources.• la date du dernier chargement du datawarehouse.• l'historique des données sources et de celles du datawarehouse.



Stockage de données : Le stockage au sein d'un Stockage de données : Le stockage au sein d un datawarehouse a un besoin de synthèse (agrégation des données) et un besoin de détails (conservation des données détaillées). Ce stockage peut être réalisé de trois manières détaillées). Ce stockage peut être réalisé de trois manières différentes : structure directe simple, structure de cumul simple, par résumé déroulant.



1-Structure directe simple: On fait des mises à jour du datawarehouse 1-Structure directe simple: On fait des mises à jour du datawarehouse avec des laps de temps important.


4 C t ti d’ DW4- Construction d’un DW2- Structure de cumul simple : on stocke les données de chaque mise à j l i à j ét t f é t ( l t l j ) jour, les mises à jour étant fréquentes (par exemple tous les jours) on a un espace occupé important, mais on ne perd pas d’information


4 C t ti d’ DW4- Construction d’un DW3-Structure par résumé déroulant : à chaque mise à jour, on stocke des d é dét illé t théti l i d é f ti données détaillées, et on synthétise les anciennes données en fonction de leur age. Plus une donnée est vieille, moins elle est détaillée




TROISIEME NIVEAU:RESTITUTION DES INFORMATIONS DECISIONNELLESLe troisième niveau est celui des restitutions des informations décisionnelles dans des applications pouvant se greffer sur la base décisionnelle. Cette fonction est assurée par des outils décisionnels variés comme des outils de reporting des outils de tableaux de bord des outils de Balanced Scorecardreporting, des outils de tableaux de bord, des outils de Balanced Scorecardou des outils de fouille de données. Pour un même outil, le type d'utilisation est également de différents ordres. Ainsi, pour un outil de requêtage, l'utilisateur peut vouloir accéder à des p q g prapports prédéfinis fixes, modifier les paramètres de rapports prédéfinis ou créer son propre rapport. De la même manière, un rapport peut être exécuté directement par l'utilisateur ou le résultat envoyé dans sa messagerie». Les personnes qui produisent les tableaux de bord n'auront pas à saisir des personnes qui produisent les tableaux de bord n auront pas à saisir des données alimentant leurs tableaux. Ce qui a pour effet d'augmenter les qualités des tableaux de bord au niveau notamment de la fiabilité et de la rapidité d'obtention des informations.

29/11/2009 75

p



En bref :

En conclusion Un entrepôt de données est une collection de données orientées sujet intégrées non volatiles et historisées organisées pour orientées sujet, intégrées, non volatiles et historisées, organisées pour supporter un processus d'aide à la décision. Typiquement ce processus est mené par l'intermédiaire de requêtes de type OLAP (On-line Analytical processing). Ces requêtes sont généralement (On line Analytical processing). Ces requêtes sont généralement complexes car elles contiennent de nombreuses opérations de jointure et de regroupement et induisent des temps de réponse très élèves.


Plan

IntroductionLes entrepôts de donnéesLes datamartArchitectureModélisationAlimentation Les bases de données multidimensionnellesLe marché du décisionnelDémonstration


Modélisation Entité/Association

A t Avantages: Normalisation:

Éliminer les redondancesÉliminer les redondancesPréserver la cohérence des données

Optimisation des transactionsRéduction de l’espace de stockage

Inconvénients pour un utilisateur final:Schéma très/trop complet:Schéma très/trop complet:

Contient des tables inutiles pour l’analysePas d’interface graphique capable de rendre utilisable le g p q pmodèle E/AInadapté pour l’analyse


Exemple

M dMode d’expéditionTransporteur

Produit Commande client

Contrat

Groupe de produits

clientType de contrat Client

Famille de d i

Magasin

E l é produitsRégion de ventes

EmployéStock

29/11/2009 79

Division de ventes

Fonction FournisseursMaster F3I (Data Mining et Apprentissage Automatique)

Modélisation des DW

éNouvelle méthode de conception autour des concepts métiers

Ne pas normaliser au maximumNe pas normaliser au maximumIntroduction de nouveaux types de table:

Table de faitsTable de faitsTable de dimensions

Introduction de nouveaux modèles:oduc o de ou eau odè es:Modèle en étoileModèle en flocon


Table de faits

Table principale du modèle dimensionnelTable principale du modèle dimensionnelContient les données observables (les faits) sur le sujet étudié selon divers axes d’analyse (les dimensions)

Table de faits des ventesClé date (CE)Clé produit (CE)

Clés étrangères vers les

Clé magasin (CE)Quantité vendueCoût

vers les dimensions

CoûtMontant des ventes

Faits


Table de faits (suite)

Fait: Ce que l’on souhaite mesurer

Quantités vendues montant des ventesQuantités vendues, montant des ventes…Contient les clés étrangères des axes d’analyse (dimension)

Date, produit, magasin, p , gTrois types de faits:

AdditifSemi additifNon additif


Typologie des faits

Additif: additionnable suivant toutes les dimensions Additif: additionnable suivant toutes les dimensions Quantités vendues, chiffre d’affairePeut être le résultat d’un calcul:

Bénéfice = montant vente coûtBénéfice = montant vente - coûtSemi additif: additionnable suivant certaines dimensions

Solde d’un compte bancaire: P d d’ dditi l d t l Pas de sens d’additionner sur les dates car cela représente des instantanés d’un niveauΣ sur les comptes: on connaît ce que nous possédons en banquebanque

Non additif: fait non additionnable quelque soit la dimension Prix unitaire: l’addition sur n’importe quelle dimension donne un nombre dépourvu de sensnombre dépourvu de sens


Granularité de la table de faits

Répondre à la question :Que représente un enregistrement de la table de faits?

l i é défi i l i d dé il d l bl La granularité définit le niveau de détails de la table de faits:

Exemple: une ligne de commande par produit par client Exemple: une ligne de commande par produit, par client et par jour

Précision des analyses- + FinesseTaille de l’entrepôt

Finesse


Table de dimension

Axe d’analyse selon lequel vont être étudiées les Axe d analyse selon lequel vont être étudiées les données observables (faits)Contient le détail sur les faits

Dimension produitClé produit (CP)Code produit

Clé de substitution

Description du produitGroupe de produitsMarqueAttributs de la MarqueEmballagePoids

Attributs de la dimension


Table de dimension (suite)

Dimension = axe d’analyseClient, produit, période de temps…

Contient souvent un grand nombre de colonnesContient souvent un grand nombre de colonnesL’ensemble des informations descriptives des faits

Contient en général beaucoup moins Co e e gé é a beaucoup o s d’enregistrements qu’une table de faits


La dimension Temps

Di i T

Commune à l’ensemble du DW

Dimension TempsClé temps (CP)Jourdu DW

Reliée à toute table de faits

JourMoisTrimestrees eSemestre AnnéeN j d éNum_jour_dans_annéeNum_semaine_ds_année


Granularité d’une dimension

Une dimension contient des membres organisés en hiérarchie :

Ch d b ti t à i hié hi Chacun des membres appartient à un niveau hiérarchique (ou niveau de granularité) particulierGranularité d’une dimension : nombre de niveaux hiérarchiquesTemps :

année semestre trimestre moisannée – semestre – trimestre - mois


ÉÉvolution des dimensions

Dimensions à évolution lenteUn client peut se marier, avoir des enfants…Un produit peut changer de noms ou de formulation:Un produit peut changer de noms ou de formulation:

« Somam » en « Danon »« yaourt à la vanille » en « yaourt saveur vanille »

G ti d l it ti 3 l tiGestion de la situation, 3 solutions:Écrasement de l’ancienne valeurAjout de nouvel enregistrementj gValeur d’origine / valeur courante

Dimensions à évolution rapideS bit d h t t è f é t (t l i ) d t t Subit des changements très fréquents (tous les mois) dont on veut préserver l’historiqueSolution: isoler les attributs qui changent rapidement


Dimensions à évolution lente (1/3)

ÉÉcrasement de l’ancienne valeur :Correction des informations erronées

Avantage: Avantage: Facile à mettre en œuvre

Inconvénients:Perte de la trace des valeurs antérieures des attributsPerte de la cause de l’évolution dans les faits mesurés

Clé produit Description du produit Groupe de produitsp p p p p12345 Intelli-Kids Logiciel

Jeux éducatifs

29/11/2009 90

Jeux éducatifs



Ajout d’un nouvel enregistrement:Utilisation d’une clé de substitution

Avantages:Avantages:Permet de suivre l’évolution des attributsPermet de segmenter la table de faits en fonction de l’historique

Inconvénient:Accroit le volume de la table

Clé produit Description du produit Groupe de produitsClé produit Description du produit Groupe de produits12345 Intelli-Kids Logiciel25963 Intelli Kids Jeux éducatifs

29/11/2009 91

25963 Intelli-Kids Jeux éducatifs



Ajout d’un nouvel attribut:Valeur origine/valeur courante

Avantages:Avantages:Avoir deux visions simultanées des données :

Voir les données récentes avec l’ancien attributVoir les données anciennes avec le nouvel attributVoir les données anciennes avec le nouvel attribut

Voir les données comme si le changement n’avait pas eu lieu

Inconvénient:é i i i i é i iInadapté pour suivre plusieurs valeurs d’attributs intermédiaires

Clé d it D i ti d G d NClé produit Description du produit

Groupe de produits

12345 Intelli Kids Logiciel

Nouveau groupe de produitsJeux éducatifs

29/11/2009 92

12345 Intelli-Kids Logiciel Jeux éducatifs


Dimensions à évolution rapide

Changements fréquents des attributs dont on veut garder l’historiquel’historique

Clients pour une compagnie d’assuranceIsoler les attributs qui évoluent viteq


Dimensions à évolution rapide (suite)Dim clientClé client

Dim clientClé_clientNom

Clé_clientNomPrénom

FaitsClé_client…Nom

PrénomAdresse

AdresseDate_naissance

…Faits

Clé_client

Clé dé

Dim_démographique

Date_nais…Revenus

… Clé_démog

Clé_démogRevenusNiveau étude

RevenusNiveau_étudeNb_enfants

Niveau_étude

Nb_enfants

Statut_marital

Statut_maritalProfil_financierProfil achat

29/11/2009 94

Profil_financier

Profil_achat

Profil_achat


Les types de modèles

Modèle en étoile Modèle en flocon


Modèle en étoile

Une table de fait centrale et des dimensionsLes dimensions n’ont pas de liaison entre ellesAvantages:

Facilité de navigationN b d j i t li itéNombre de jointures limité

Inconvénients: Redondance dans les dimensionsRedondance dans les dimensionsToutes les dimensions ne concernent pas les mesures


Modèle en étoileDimension Temps

ID tempsID tempsannéemoisjour Dimension produitj…

Dimension MagasinID magasindescription

Dimension produitID produit

nomcode

iT bl d f it A h tpville

surface…

prixpoids

groupefamille

Table de faits AchatID clientID temps

ID magasin

Dimension Region

famille…

Dimension Client

gID régionID produit

Quantité achetéeMontant des achatsg

ID régionpays

descriptiondistrict ente

ID clientnom

prénomadresse

Montant des achats

29/11/2009 97

district vente….

adresse…


Modèle en flocon

é éUne table de fait et des dimensions décomposées en sous hiérarchiesOn a un seul niveau hiérarchique dans une table de dimension La table de dimension de niveau hiérarchique le plus bas est reliée à la table de fait. On dit qu’elle a la granularité la plus fineAvantages:Avantages:

Normalisation des dimensionsÉconomie d’espace disque

Inconvénients:Inconvénients:Modèle plus complexe (jointure)Requêtes moins performantes


Modèle en floconDimension Temps

ID temps

Dimension produitID produitID groupe

nomID tempsanneemoisjourDimension Magasin

nomcodeprix

poids Dimension groupe…ID magasin

descriptionville

surface

…Dimension groupe

ID groupeID famille

nomTable de faits AchatID clientsurface

……

Dimension FamilleDimension Region

ID région

ID clientID temps

ID magasinID région Dimension Famille

ID famillenom…

ID régionID division vente

paysdescription

ID produitQuantité achetée

Montant des achats

Dimension ClientID client

nom

Dimension Division vente

ID di i i t

p….

29/11/2009 99

prénomadresse

…

ID division ventedescription

….Master F3I (Data Mining et Apprentissage Automatique)

Méthodologie: 9 étapes de Kimball

Ch i i l j t1. Choisir le sujet2. Choisir les faits3 Choisir la granularité des faits3. Choisir la granularité des faits4. Identifier et adapter les dimensions5 Stocker les pré-calculs5. Stocker les pré-calculs6. Établir les tables de dimensions7 Choisir la durée de la base7. Choisir la durée de la base8. Suivre les dimensions lentement évolutives9. Décider des requêtes prioritaires, des modes de q p ,

requêtes


Plan

IntroductionLes entrepôts de donnéesLes datamartArchitectureModélisation AlimentationLes bases de données multidimensionnellesLe marché du décisionnelDémonstration


Alimentation/ mise à jour de l’entrepôt

Entrepôt mis à jour régulièrementBesoin d’un outil permettant d’automatiser les chargements dans l’entrepôt

Utilisation d’outils ETL (Extract, Transform, Load)


Définition d’un ETL

Offre un environnement de développementOffre des outils de gestion des opérations et de maintenancemaintenancePermet de découvrir, analyser et extraire les données à partir de sources hétérogènespartir de sources hétérogènesPermet de nettoyer et standardiser les donnéesPermet de charger les données dans un entrepôtg p


Extraction

Extraire des données des systèmes de productionDialoguer avec différentes sources:

B d d é Base de données, Fichiers,Bases propriétaires

Utilise divers connecteurs :ODBC, SQL tif SQL natif, Fichiers plats


Transformation

Rendre cohérentes les données des différentes sourcesTransformer, nettoyer, trier les donnéesExemple: unifier le format des dates Exemple: unifier le format des dates (MM/JJ/AA JJ/MM/AA)

Etape très importante, garantit la cohérence et la fiabilité édes données


Chargement

Insérer ou modifier les données dans l’entrepôtUtilisation de connecteurs:

ODBC, SQL natif SQL natif, Fichiers plats


Aperçu d’un ETL


Plan

IntroductionLes entrepôts de donnéesLes datamartArchitectureModélisation Alimentation Les bases de données multidimensionnellesAccès à l’informationDémonstration


OLTP VS OLAP

PaysProduits PaysEspagne

poiresoranges

Produits

ProduitPK id produit

Algériepommes

A h t

PK id_produitLibelléFamille

FranceAchatPK id_achatFK id_client

janvier avrilVente de

pommes en

_id_produit

Quantitéclientid li t

jfévrier

TempsAlgérie en

avrilPK id_client

Nomadresse


ROLAP

Relational OLAPDonnées stockées dans une base de données relationnellesrelationnellesUn moteur OLAP permet de simuler le comportement d’un SGBD multidimensionnel

Plus facile et moins cher à mettre en placeMoins performant lors des phases de calculExemples de moteurs ROLAP:

MetaCube (Informix)DSS Agent (MicroStrategy)


MOLAP

M lti di i l OLAPMulti dimensional OLAP:Utiliser un système multidimensionnel « pur » qui gère les structures multidimensionnelles natives (les cubes)Accès direct aux données dans le cube

Plus difficile à mettre en placeFormats souvent propriétairesFormats souvent propriétairesConçu exclusivement pour l’analyse multidimensionnelleExemples de moteurs MOLAP:Exemples de moteurs MOLAP:

Microsoft Analysis ServicesEssbaseH iHyperion


HOLAP

Hybride OLAP:tables de faits et tables de dimensions stockées dans SGBD relationnel (données de base)relationnel (données de base)données agrégées stockées dans des cubes

Solution hybride entre MOLAP et ROLAPyBon compromis au niveau coût et performance


Le cube

é éModélisation multidimensionnelle des données facilitant l’analyse d’une quantité selon différentes dimensions:dimensions:

TempsLocalisation géographiqueg g p q…

Les calculs sont réalisés lors du chargement ou de la mise à jour du cube


Manipulation des données multidimensionnelles

é i iOpération agissant sur la structureRotation (rotate): présenter une autre face du cube

05 06 07 05 06 07

Œuf 221 263 139

Viande 275 257 116

Idf 101 120 52

QA 395 400 203



Opération agissant sur la structureOpération agissant sur la structureTranchage (slicing): consiste à ne travailler que sur une tranche du cube. Une des dimensions est alors réduite à une seule valeurune seule valeur

06

Œ f Idf 26505 06 07

Œ f Idf 220 265 284 Œuf Idf 265

QA 245Œuf Idf 220 265 284

QA 225 245 240Viande Idf 152

QA 174Viande Idf 163 152 145

QA 187 174 184



Opération agissant sur la structurep gExtraction d’un bloc de données (dicing): ne travailler que sous un sous-cube

05 06 07

Œ f Idf 220 265 284 05 06 07Œuf Idf 220 265 284

QA 225 245 24005 06 07

Œuf Idf 220 265 284Viande Idf 163 152 145

QA 187 174 184QA 225 245 240



Opération agissant sur la granularitéForage vers le haut (roll-up): « dézoomer »

Obtenir un niveau de granularité supérieurObtenir un niveau de granularité supérieurUtilisation de fonctions d’agrégation

Forage vers le bas (drill-down): « zoomer »Obt i i d l ité i fé iObtenir un niveau de granularité inférieurDonnées plus détaillées


Drill-up, drill-down

05 06 07Alim. 496 520 255

Roll upDimension TempsRoll up

05-07 1S05 2S05 1S06 2S06 1S0705 06 07

Tempsp

Œuf 623

Viande

648

Œuf 100 121 111 152 139Viande

134 141 120 137 116Œuf 221 263 139Viande

275 257 116

05 06 07Bœuf 20 19 22 Drill down

… … … …Omelette 40 43 48

Drill down

29/11/2009 118

Dimension Produit


MDX (Multidimensional Expressions)

Langage permettant de définir, d'utiliser et de récupérer des données à partir d'objets multidimensionnelsdes données à partir d'objets multidimensionnels

Permet d’effectuer les opérations décrites précédemmentEquivalent de SQL pour le monde OLAPq pOrigine: Microsoft


MDX, exemple

Fournir les effectifs d’une société pendant les années 2004 Fournir les effectifs d une société pendant les années 2004 et 2005 croisés par le type de paiement

SELECT {([Time].[2004]), ([Time].[2005])} ON COLUMNS,

{[Pay] [Pay Type] Members} ON ROWSDimensions,

axes d’analyse

{[Pay].[Pay Type].Members} ON ROWS

FROM RH Cubea es d a a yse

WHERE ([Measures].[Count])

2004 2005Heure 3396 4015

29/11/2009 120

Jour 3678 2056


Plan



Le marché du décisionnel


Quelques solutions commerciales


Quelques solutions open source

ETL Entrepôt de données

OLAP Reporting Data Mining

OctopusKettleCloverETL

MySqlPostgresqlGreenplum/Biz

MondrianPalo

BirtOpen ReportJasper Report

WekaR-ProjectOrangeCloverETL

TalendGreenplum/Biz

gresJasper ReportJFreeReport

OrangeXelopes

Intégré

Pentaho (Kettle, Mondrian, JFreeReport, Weka)S BISpagoBI


Plan

IntroductionLes entrepôts de donnéesLes datamartArchitectureModélisation Alimentation Les bases de données multidimensionnellesAccès à l’informationDémonstration


Description du cas d’étude

Société de la grande distributiongMode d’expéditionTransporteur

Produit

Commande clientContrat

Produit

Groupe de MagasinType de contrat

Client

produits

Famille deRégion de EmployéSt k Famille de

produits

Division

ventes

Fonction

Stock

F i

29/11/2009 126

Division de ventes

Fonction Fournisseurs


Les tables qui vont nous servir

ModeTransporteur Mode d’expédition

Transporteur

ProduitProduit

Groupe de

Commande client

T d

Contrat

Groupe de produits

Magasin

Type de contrat Client

Famille de produitsRégion de

tEmployés

St k

Division de

ventes

Fonction

Stock

F i

29/11/2009 127

Division de ventes

Fournisseurs


Modèle en flocon


Références

J H d M K b D t Mi i C tJ. Han, and M. Kamber. Data Mining Conceptsand Techniques. Morgan Kaufmann.

29/11/2009 Ecole Doctorale (Data Mining et ...) 129Master F3I (Data Mining et Apprentissage Automatique)

Documents

Cours #1 (Data Warehouse)