129
Master M2 (Option F3I) Les entrepôts de données Les entrepôts de données Data Mining et Apprentissage Automatique Cours de Master F3I 2008-2009

Cours #1 (Data Warehouse)

Embed Size (px)

Citation preview

Page 1: Cours #1 (Data Warehouse)

Master M2 (Option F3I)Master M2 (Option F3I)

Les entrepôts de donnéesLes entrepôts de données

Data Mining et Apprentissage AutomatiqueCours de Master F3I

2008-2009

Page 2: Cours #1 (Data Warehouse)

Plan

IntroductionLes entrepôts de donnéesLes datamartArchitectureModélisation Alimentation Les bases de données multidimensionnellesLe marché du décisionnelDémonstration

29/11/2009 Master F3I (Data Mining et Apprentissage Automatique) 2

Page 3: Cours #1 (Data Warehouse)

I f ti d P d tiInformatique de Production

Données opérationnelles (de prod ction)Données opérationnelles (de production)activité constante composée de modifications et d'interrogations fréquentes des bases de données par de

b tili t j t d difi nombreux utilisateurs : ajouter une commande, modifier une adresse de livraison, rechercher les coordonnées d'un client, etc. i é i é é é il'intégrité des données est nécessaire pour ce genre

d'applications (il faut par exemple, interdire la modification simultanée d'une même donnée par deux

tili t diffé t ) utilisateurs différents). La cohérence assurée par les systèmes de production est toute relative. Elle se contrôle au niveau de la transaction élé t i i i l b l t d ti ité d élémentaire mais pas au niveau global et des activités de l'organisation.

29/11/2009 3Master F3I (Data Mining et Apprentissage Automatique)

Page 4: Cours #1 (Data Warehouse)

I f ti d P d tiInformatique de Production

Données opérationnelles (de prod ction)Données opérationnelles (de production)Basée sur Les systèmes transactionnels temps réel, OLTP (On-line Transaction Processing) garantissent l'intégrité des d é données. Les utilisateurs accèdent aux données de la base par de très courtes transactions atomiques et isolées. La priorité est donnée en premier lieu à l'enregistrement rapide, sûr et efficace des données. L'un des formalismes les plus utilisés pour la représentation L un des formalismes les plus utilisés pour la représentation conceptuelle des systèmes d'information est le modèle EntiteAssociation

29/11/2009 4Master F3I (Data Mining et Apprentissage Automatique)

Page 5: Cours #1 (Data Warehouse)

S tè Dé i i lSystèmes Décisionnels

Définition : Informatiq e décisionnelle (M t d tè Définition : Informatique décisionnelle (Management du système d'information, en anglais : DSS pour Decision Support System ou encore BI pour Business Intelligence) :

les moyens, les outils et les méthodes qui permettent de collecter, consolider, modéliser et restituer les données, matérielles ou immatérielles d'une entreprise en vue matérielles ou immatérielles, d une entreprise en vue d'offrir une aide à la décision et de permettre aux responsables de la stratégie d'entreprise d’avoir une vue d’ensemble de l’activité traitée d ensemble de l activité traitée..

29/11/2009 5Master F3I (Data Mining et Apprentissage Automatique)

Page 6: Cours #1 (Data Warehouse)

C té i ti d S tè Dé i i lCaractéristiques des Systèmes Décisionnels

Possibilité de poser une grande variété de questions au système, certaines prévisibles et planifiées comme des tablea de bord et d'a tres impré isiblestableaux de bord et d'autres imprévisibles.permettre à l'utilisateur d'effectuer les requêtes qu'il souhaite, par lui-même, sans l'intervention de programmeur.Il sera souvent nécessaire de filtrer, d'agréger, de compter, sommer et de réaliser des statistique (moyenne, écrat-

)type, ….)

29/11/2009 6Master F3I (Data Mining et Apprentissage Automatique)

Page 7: Cours #1 (Data Warehouse)

C té i ti d S tè Dé i i lCaractéristiques des Systèmes Décisionnels

La str ct re logiq e doit être pré e po r rendre a ssi La structure logique doit être prévue pour rendre aussi efficace que possible toutes ces requêtes. Pour y parvenir, il est nécessaire d'introduire de la redondance dans les informations Stockées en mémorisant des calculs informations Stockées en mémorisant des calculs intermédiaires. On rompt donc avec le principe de non redondance des bases de production.la cohérence requise doit être interprétable par la cohérence requise doit être interprétable par l'utilisateur. Les systèmes d'informatique décisionnelle doivent donc

l tôt hé l b l d d é P assurer plutôt une cohérence globale des données. Pour ce faire, leur alimentation doit être une opération réfléchie et planifiée dans le temps.

29/11/2009 7Master F3I (Data Mining et Apprentissage Automatique)

Page 8: Cours #1 (Data Warehouse)

C té i ti d S tè Dé i i lCaractéristiques des Systèmes Décisionnels

Les transferts de données d s stème opérationnel Vers le Les transferts de données du système opérationnel Vers le système décisionnel seront réguliers avec une périodicité bien choisie dépendante de l'activité de l'entreprise. Chaque transfert sera contrôlé avant d'être diffusé Chaque transfert sera contrôlé avant d être diffusé. Aucune information n'y est jamais modifiée. On mémorise toutes les données sur une période déterminée, les données ne seront jamais remises à jour car toutes les données ne seront jamais remises à jour car toutes les vérifications utiles à la cohérence globale sont procédées lors de l'alimentation.L' tili ti é d à h t é i di L'utilisation se résume donc à un chargement périodique, puis à des interrogations non régulières, non prévisibles, parfois longues à exécuter.

29/11/2009 8Master F3I (Data Mining et Apprentissage Automatique)

Page 9: Cours #1 (Data Warehouse)

F ti ti ll d l’I f ti Dé iFonctions essentielles de l’Informatique Décis.

To t s stème d'information décisionnel (SID) telle q e le Tout système d'information décisionnel (SID) telle que le sont les datawarehouses assurent quatre fonctions fondamentales, à savoir la

ll t collecte, l'intégration, la diffusion etla présentation des données. À ces quatre fonctions s'ajoute une fonction de contrôle du SID lui-même l'administrationcontrôle du SID lui-même, l administration.

29/11/2009 9Master F3I (Data Mining et Apprentissage Automatique)

Page 10: Cours #1 (Data Warehouse)

F ti ti ll d l’I f ti Dé iFonctions essentielles de l’Informatique Décis.

L ll tLa collecteLa collecte des données (parfois appelée data pumping) est l'ensemble des tâches consistant à détecter, à sélectionner, à extraire et à filtrer les données brutes issues des environnements pertinents compte tenu du périmètre du SID.Les sources de données internes et/ou externes étant souvent hétérogènes tant sur le plan technique que sur le plan sémantique (données complexes)

cette fonction est la plus délicate à mettre en place dans un système décisionnel complexe, car un excédent de un système décisionnel complexe, car un excédent de données, un défaut de fiabilité ou un trop mauvais rapport signal/bruit sont pires que l'absence de données.

29/11/2009 10Master F3I (Data Mining et Apprentissage Automatique)

Page 11: Cours #1 (Data Warehouse)

F ti ti ll d l’I f ti Dé iFonctions essentielles de l’Informatique Décis.

Elle s'app ie notamment s r des o tils d'ETL (e tractElle s'appuie notamment sur des outils d'ETL (extract-transform-load pour extraction-transformation-chargement).

La fonction de collecte joue également, au besoin, un rôle de recodage. Une donnée représentée différemment

à i id'une source à une autre impose le choix d'une représentation unique pour les futures analyses.

29/11/2009 11Master F3I (Data Mining et Apprentissage Automatique)

Page 12: Cours #1 (Data Warehouse)

F ti ti ll d l’I f ti Dé iFonctions essentielles de l’Informatique Décis.

L’i té tiL’intégrationL’intégration des données, c'est-à-dire leur regroupement en un ensemble technique, logique et sémantique homogène approprié aux besoins de l'organisation ; elle consiste à concentrer les données collectées dans un espace unifié, dont le socle informatique essentiel est l' t ôt d d é Élé t t l d di itif il l'entrepôt de données. Élément central du dispositif, il permet aux applications décisionnelles de bénéficier d'une source d'information commune, homogène,

li é t fi bl tibl d l di ité normalisée et fiable, susceptible de masquer la diversité de l'origine des données.

29/11/2009 12Master F3I (Data Mining et Apprentissage Automatique)

Page 13: Cours #1 (Data Warehouse)

F ti ti ll d l’I f ti Dé iFonctions essentielles de l’Informatique Décis.

L diff iLa diffusionLa diffusion, ou la distribution d'informations élaborées à partir des données dans des contextes appropriés aux besoins des individus ou des groupes de travail utilisateurs. c'est-à-dire elle met les données à la disposition des utilisateurs, selon des schémas correspondant au profil ou

éti d h h t l' è di t à au métier de chacun, sachant que l'accès direct à l'entrepôt de données ne correspondrait généralement pas aux besoins d'un décideur ou d'un analyste.

29/11/2009 Ecole Doctorale (Data Mining et ...) 13

Page 14: Cours #1 (Data Warehouse)

F ti ti ll d l’I f ti Dé iFonctions essentielles de l’Informatique Décis.

L é t tiLa présentationCette quatrième fonction, la plus visible pour l'utilisateur, régit les conditions d'accès de l'utilisateur aux informations. Elle assure le fonctionnement du poste de travail, le contrôle d'accès, la prise en charge des requêtes, la visualisation des résultats sous une forme ou une autre. Elle

tili t t l t h i d i ti ibl utilise toutes les techniques de communication possibles (outils bureautiques, requêteurs et générateurs d'états spécialisés, infrastructure web, télécommunications

bil t )mobiles, etc.).

29/11/2009 14Master F3I (Data Mining et Apprentissage Automatique)

Page 15: Cours #1 (Data Warehouse)

F ti ti ll d l’I f ti Dé iFonctions essentielles de l’Informatique Décis.

L’ d i i t tiL’administrationL’administration, qui gère le dictionnaire de données et le processus d'alimentation de bout en bout, car le système d’information décisionnelle doit être lui-même piloté. C'est la fonction transversale qui supervise la bonne exécution de toutes les autres. Elle pilote le processus de mise à jour d d é l d t ti l d é (l ét des données, la documentation sur les données (les méta données), la sécurité, les sauvegardes, la gestion des incidents.

29/11/2009 15Master F3I (Data Mining et Apprentissage Automatique)

Page 16: Cours #1 (Data Warehouse)

F ti ti ll d l’I f ti Dé iFonctions essentielles de l’Informatique Décis.

RRemarqueEn pratique, les fonctions de collecte et d'intégration sont étroitement liées entre elles, et sont généralement associées au datawarehouse. De même, diffusion et présentation sont des fonctions fortement "orientées sujet", tournées vers l'utilisateur et son jmétier, manipulant des contenus à forte valeur ajoutée informationnelle et non des données brutes; elles sont donc fortement imbriquées logiquement et techniquement

29/11/2009 16Master F3I (Data Mining et Apprentissage Automatique)

Page 17: Cours #1 (Data Warehouse)

Le contexte

Besoin: prise de décisions stratégiques et politiquesBesoin: prise de décisions stratégiques et politiquesPourquoi: besoin de réactivité face à la concurrenceQui: les décideurs (non informaticiens)Comment: en répondant aux demandes d’analyseComment: en répondant aux demandes d analyse

Qui sont mes Où placer ceQmeilleurs clients?

Où placer ce produit dans les rayons?

A combien ’élè t

Quelle catégorie s’élèvent mes

ventes journalières?

de clients achètent un

types de produit

29/11/2009 17

?

Master F3I (Data Mining et Apprentissage Automatique)

Page 18: Cours #1 (Data Warehouse)

L d é tili bl l dé idLes données utilisables par les décideurs

Données opérationnelles (de prod ction)Données opérationnelles (de production)Bases de données (Oracle, SQL Server)Fichiers, …P ti d RH ti d dPaye, gestion des RH, gestion des commandes…

Caractéristiques de ces données:Distribuées: systèmes éparpillésHétérogènes: systèmes et structures de données différentsDétaillées: organisation des données selon les processus fonctionnels, d é b d t l’ ldonnées surabondantes pour l’analysePeu/pas adaptées à l’analyse : les requêtes lourdes peuvent bloquer le système transactionnelVolatiles: pas d’historisation systématiqueVolatiles: pas d historisation systématique

29/11/2009 18Master F3I (Data Mining et Apprentissage Automatique)

Page 19: Cours #1 (Data Warehouse)

Problématique

C é d d d d dé id ?Comment répondre aux demandes des décideurs?En donnant un accès rapide et simple à l’information stratégique

Mettre en place un système d’information dédié aux applications décisionnelles:

un data warehouse

29/11/2009 19Master F3I (Data Mining et Apprentissage Automatique)

Page 20: Cours #1 (Data Warehouse)

Le processus de prise de décision

Champs d’application desChamps d application des systèmes décisionnels

Définir le problème

Rassembler les données

Analyser les données

Établir des solutions

Décider

Temps de prise d’une décision

p

p p

29/11/2009 20Master F3I (Data Mining et Apprentissage Automatique)

Page 21: Cours #1 (Data Warehouse)

Le processus de prise de décision

Prise de dé i idécision

Bases de production

Data warehouse

Base multi -dimensionnelle

Prédiction / simulation

29/11/2009 21Master F3I (Data Mining et Apprentissage Automatique)

Page 22: Cours #1 (Data Warehouse)

Domaines d’utilisation des DW

BBanqueRisques d’un prêt, prime plus précise

SantéÉ idé i l iÉpidémiologieRisque alimentaire

CommerceCibl d li tèl Ciblage de clientèle Déterminer des promotions

LogistiqueAdé ti d d / d tiAdéquation demande/production

AssuranceRisque lié à un contrat d’assurance (voiture)

29/11/2009 22Master F3I (Data Mining et Apprentissage Automatique)

Page 23: Cours #1 (Data Warehouse)

Quelques métiers du décisionnel

St t i P f M tStrategic Performance ManagementDéterminer et contrôler les indicateurs clé de la performance de l’entreprise

Finance IntelligencePlanifier, analyser et diffuser l’information financière. Mesurer et gérer les risques

Human Capital Management (gestion de la relation avec les employés)

Aligner les stratégies RH, les processus et les technologies. g g p gCustomer Relationship Management (gestion de la relation client)

Améliorer la connaissance client, identifier et prévoir la rentabilité client, accroitre l’efficacité du marketing clientclient, accroitre l efficacité du marketing client

Supplier Relationship Management (gestion de la relation fournisseur)Classifier et évaluer l’ensemble des fournisseurs. Planifier et piloter la stratégie Achat

29/11/2009 23

stratégie Achat.

Master F3I (Data Mining et Apprentissage Automatique)

Page 24: Cours #1 (Data Warehouse)

Plan

IntroductionLes entrepôts de donnéesLes datamartArchitectureModélisation Alimentation Les bases de données multidimensionnellesLe marché du décisionnelDémonstration

29/11/2009 24Master F3I (Data Mining et Apprentissage Automatique)

Page 25: Cours #1 (Data Warehouse)

Définition d’un DW

W. H. Inmon (1996): « Le data Warehouse est une collection de données

i té j t i té é l til t hi t i é orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision »la décision »

Principe: mettre en place une base de données Principe: mettre en place une base de données utilisée à des fins d’analyse

29/11/2009 25Master F3I (Data Mining et Apprentissage Automatique)

Page 26: Cours #1 (Data Warehouse)

Les 5 caractéristiques des data warehouse

5 caractéristiques des DW :

Orientées sujetDonnées intégréesDonnées non volatilesDonnées datées ou archivées historiséesDonnées datées ou archivées historiséesDonnées multidimensionnelles

29/11/2009 26Master F3I (Data Mining et Apprentissage Automatique)

Page 27: Cours #1 (Data Warehouse)

Les 5 caractéristiques des data warehouse

1. Données orientées sujet (métiers ou business): Regroupe les informations des différents métiers Ne tiens pas compte de l’organisation fonctionnelle des donnéesdonnées

Ass. Vie Ass. Auto Ass. Santé

Client

PolicePolice

29/11/2009 27Master F3I (Data Mining et Apprentissage Automatique)

Page 28: Cours #1 (Data Warehouse)

Les 5 caractéristiques des data warehouse

L’objectif d’un datawarehouse est la prise de décisions autour des activités majeures de l’entreprise.

Dans un datawarehouse, les données sont ainsi structurées par thèmes par opposition à celles organisées, dans les systèmes de production, par processus fonctionnel. y p , p p

L’intérêt de cette organisation est de disposer de l’ensemble des informations utiles sur un sujet le plus l ensemble des informations utiles sur un sujet le plus souvent transversal aux structures fonctionnelles et organisationnelles de l’entreprise.

29/11/2009 28Master F3I (Data Mining et Apprentissage Automatique)

Page 29: Cours #1 (Data Warehouse)

Les 5 caractéristiques des data warehouse

On peut ainsi passer d’une vision verticale de l’entreprise à une vision transversale beaucoup plus riche en informations. On dit que le Datawarehouse est orienté « métier », en réponse aux différents métiers de l’entreprise qu’il est censé préparer à l’analyse

29/11/2009 29Master F3I (Data Mining et Apprentissage Automatique)

Page 30: Cours #1 (Data Warehouse)

Les 5 caractéristiques des data warehouse

é i é é2. Données intégrées:Normalisation des donnéesDéfinition d’un référentiel uniqueDéfinition d un référentiel unique

h,f

1,0

homme femme

h,f

homme, femme

DA

FFEUR

29/11/2009 30

FS

Master F3I (Data Mining et Apprentissage Automatique)

Page 31: Cours #1 (Data Warehouse)

Les 5 caractéristiques des data warehouse

Les données en provenance de sources hétérogènes ou d'origines diverses (y compris des fichiers externes de cotation ou de scoring).Il s’agit alors d’intégrer les données en provenance de diverse sources afin de les homogénéiser et de leur donner un sens unique, compréhensible par tous les utilisateurs.La transversalité recherchée sera d’autant plus efficiente que le système d’information sera réellement intégré.Cette intégration nécessite une forte normalisation, une Cette intégration nécessite une forte normalisation, une bonne gestion des référentiels et de la cohérence, une parfaite maîtrise de la sémantique et des règles de gestion s’appliquant aux données manipulées.pp q pCe n’est qu’au prix d’une intégration « réussie » que l’on peut offrir une vision homogène et cohérente de l’entreprise via ses indicateurs

29/11/2009 31

p

Master F3I (Data Mining et Apprentissage Automatique)

Page 32: Cours #1 (Data Warehouse)

Les 5 caractéristiques des data warehouse

3 Données non volatiles3. Données non volatilesTraçabilité des informations et des décisions prisesCopie des données de production

Ajout

Bases de production Entrepôts de données

Suppression

Accès

Modification Chargement

29/11/2009 32Master F3I (Data Mining et Apprentissage Automatique)

Page 33: Cours #1 (Data Warehouse)

Les 5 caractéristiques des data warehouse

stables, en lecture seule, non modifiables.Afin de conserver la traçabilité des informations et des décisions prises, les informations stockées au sein du pDatawarehouse ne doivent pas disparaître.Une même requête lancée plusieurs fois, et ce à des mois d’intervalle, sur une même population doit restituer les , p pmêmes résultats.dès lors qu’une donnée a été qualifiée pour être introduite au sein du Datawarehouse, elle ne peut ni être altérée, ni au sein du Datawarehouse, elle ne peut ni être altérée, ni modifiée, ni supprimée (ou en tout cas en deçà d’un certain délai de purge). Elle devient, de fait, partie prenante de l’historique de l’entreprise.p q p

29/11/2009 33Master F3I (Data Mining et Apprentissage Automatique)

Page 34: Cours #1 (Data Warehouse)

Les 5 caractéristiques des data warehouse

4 Données datées ou archivées historisées4. Données datées ou archivées historiséesLes données persistent dans le tempsMise en place d’un référentiel temps

Ali Alger Ali M’silaImage de la base en Mai 2005 Image de la base en Juillet 2006

Base de Ali Alger

Samir SétifAli M’sila

Samir SétifBase de production

1 2005 M i1 Ali Alger

Entrepôt 1 2005 Mai

2 2006 Juillet1 Samir Sétif

2 Ali M’sila

pde données

29/11/2009 34

2 Ali M sila

Master F3I (Data Mining et Apprentissage Automatique)

Page 35: Cours #1 (Data Warehouse)

Les 5 caractéristiques des data warehouse

Avec une conservation de l'historique et de son évolution pour permettre les analyses comparatives (par exemple, d'une année sur l'autre, etc.). La non-volatilité permet l’historisation. D’un point de vue fonctionnel, cette propriété permet de suivre dans le temps l’évolution des différentes valeurs des indicateurs à analyser. De fait, dans un Datawarehouse un référentiel de temps est nécessaire. C’est l’axe temps ou période

29/11/2009 35Master F3I (Data Mining et Apprentissage Automatique)

Page 36: Cours #1 (Data Warehouse)

Les 5 caractéristiques des data warehouse

5 Données mutidimentionnelles5. Données mutidimentionnellesprésentées selon différents axes d'analyse ou « dimensions » (par exemple : le temps, les types ou segments de clientèle, les différentes gammes de produits les différents secteurs les différentes gammes de produits, les différents secteurs régionaux ou commerciaux, etc.).Le Datawarehouse est conçu pour contenir les données en dé ti l b i t l t f t d adéquation avec les besoins actuels et futurs de

l’organisation, et répondre de manière centralisée à tous les utilisateurs.

29/11/2009 36Master F3I (Data Mining et Apprentissage Automatique)

Page 37: Cours #1 (Data Warehouse)

SGBD et DW

Servicecommercial

ServiceFinancier

Servicelivraison

BD prod BD prod BD prod

OLTP: On-Line Transactional BD prod BD prod BD prod

ClientèleProcessing

HI

Data WarehouseISTOOLAP: On-Line

ClientèleRIQ

O O eAnalitical Processing

29/11/2009 37

UE

Master F3I (Data Mining et Apprentissage Automatique)

Page 38: Cours #1 (Data Warehouse)

OLTP VS DW

OLTP DWOrienté transaction Orienté analyse

Orienté application Orienté sujet

Données courantes Données historisées

Données détaillées Données agrégées

Données évolutives Données statiquesDonnées évolutives Données statiques

Utilisateurs nombreux, administrateurs/opérationnels

Utilisateurs peu nombreux, manager

Temps d’exécution: court Temps d’exécution: long

29/11/2009 38Master F3I (Data Mining et Apprentissage Automatique)

Page 39: Cours #1 (Data Warehouse)

Plan

IntroductionLes entrepôts de donnéesLes datamartArchitectureModélisation Alimentation Les bases de données multidimensionnellesLe marché du décisionnelDémonstration

29/11/2009 39Master F3I (Data Mining et Apprentissage Automatique)

Page 40: Cours #1 (Data Warehouse)

Datamart

Sous-ensemble d’un entrepôt de données Destiné à répondre aux besoins d’un secteur ou d’une fonction particulière de l’entreprisePoint de vue spécifique selon des critères

étimétiers

Datamarts du service Marketing

Datamart du i R

29/11/2009 40

service Ressources Humaines

DW de l’entreprise

Master F3I (Data Mining et Apprentissage Automatique)

Page 41: Cours #1 (Data Warehouse)

Intérêt des datamart

é éNouvel environnement structuré et formaté en fonction des besoins d’un métier ou d’un usage particulierparticulierMoins de données que DW

Plus facile à comprendre à manipulerPlus facile à comprendre, à manipulerAmélioration des temps de réponse

Utilisateurs plus ciblés: DM plus facile à définirU sa eu s p us c b és: p us ac e à dé

29/11/2009 41Master F3I (Data Mining et Apprentissage Automatique)

Page 42: Cours #1 (Data Warehouse)

Plan

IntroductionLes entrepôts de donnéesLes datamartArchitectureModélisation Alimentation Les bases de données multidimensionnellesLe marché du décisionnelDémonstration

29/11/2009 42Master F3I (Data Mining et Apprentissage Automatique)

Page 43: Cours #1 (Data Warehouse)

Architecture générale

Zone de préparationZone de

présentationZone de stockage

E

RequêtesTransformations:

CHA

EXTR

Data warehouse

RequêtesRapports

VisualisationData Mining

Transformations:Nettoyage

Standardisation

RGE

ACTI Data Mining

Sources de

Datamart

MENT

ION

Sources de données

DatamartT

29/11/2009 43Master F3I (Data Mining et Apprentissage Automatique)

Page 44: Cours #1 (Data Warehouse)

Les flux de données

Flux entrantExtraction: multi-source, hétérogèneTransformation: filtrer trier homogénéiser nettoyerTransformation: filtrer, trier, homogénéiser, nettoyerChargement: insertion des données dans l’entrepôt

Flux sortant:Flux sortant:Mise à disposition des données pour les utilisateurs finaux

29/11/2009 44Master F3I (Data Mining et Apprentissage Automatique)

Page 45: Cours #1 (Data Warehouse)

Les différentes zones de l’architecture

Z d é ti (St i ) Zone de préparation (Staging area) Zone temporaire de stockage des données extraitesRéalisation des transformations avant l’insertion dans le DW:

N ttNettoyageNormalisation…

Données souvent détruites après chargement dans le DWZone de stockage (DW DM)Zone de stockage (DW, DM)

On y transfère les données nettoyéesContient les données de l’entreprise

Zone de présentationZone de présentationZone d’accès aux données contenues dans le DWPeut contenir des outils d’analyse programmés:

RapportsRapportsRequêtes…

29/11/2009 45Master F3I (Data Mining et Apprentissage Automatique)

Page 46: Cours #1 (Data Warehouse)

1- Architecture à deux niveaux

29/11/2009 46Master F3I (Data Mining et Apprentissage Automatique)

Page 47: Cours #1 (Data Warehouse)

1- Architecture à deux niveaux

Dans cette architecture nous retrouvons :Dans cette architecture nous retrouvons :Le staging area : Le staging area est temporaire il sert à stocker les données extraites (E) des systèmes sources. C'est dans le staging area que l'on effectue les différentes dans le staging area que l on effectue les différentes transformations (T) à savoir : Le nettoyage des données, le merge, la standardisation, le déduplication... des données. Les données dans le staging area sont détruites une fois le g gchargement des data marts terminé en succès.Le Datawarehouse : Les données du staging area sont transférées vers le datawarehouse (L). Il est important de transférées vers le datawarehouse (L). Il est important de noter que le méta data est aussi stocké dans le datawarehouse. Le datawarehouse est centrale et devrait être contenir toutes les données de l'entreprise.pLa zone présentation : Une fois les données chargées dans le datawarehouse, les utilisateurs peuvent y accéder pour exécuter leurs requêtes Ad hoc, programmer les rapports,

29/11/2009 47

e écu e eu s equê es d oc, p og a e es appo s, analyser et visualiser l'information

Master F3I (Data Mining et Apprentissage Automatique)

Page 48: Cours #1 (Data Warehouse)

2- Les DataMarts Indépendants

29/11/2009 48Master F3I (Data Mining et Apprentissage Automatique)

Page 49: Cours #1 (Data Warehouse)

2- Les DataMarts Indépendants

Dans cette architecture nous retrouvons : L'architecture prônée Dans cette architecture nous retrouvons : L architecture prônée par Kimball :

Le staging area : Le staging area est temporaire il sert à stocker les données extraites (E) des systèmes sources. C'est stocker les données extraites (E) des systèmes sources. C est dans le staging area que l'on effectue les différentes transformations (T) à savoir : Le nettoyage des données, le merge, la standardisation, le déduplication... des données. g , , pLes données dans le staging area sont détruites une fois le chargement des data marts terminé en succès.Les data marts indépendants : Les données du staging area Les data marts indépendants : Les données du staging area sont transférées vers le datamart concerné (L). Il est important de noter que le méta data est aussi stocké dans le datamart. Les data marts sont indépendants ce qui veut p qdire qu'il n'existe aucune intégration (Communication) entre ces derniers.

29/11/2009 49Master F3I (Data Mining et Apprentissage Automatique)

Page 50: Cours #1 (Data Warehouse)

2- Les DataMarts Indépendants

Dans cette architecture nous retrouvons : L'architecture prônée Dans cette architecture nous retrouvons : L architecture prônée par Kimball :

La zone présentation : Une fois les données chargées dans les Data marts, les utilisateurs peuvent y accéder pour les Data marts, les utilisateurs peuvent y accéder pour exécuter leurs requêtes Ad hoc, programmer les rapports, analyser et visualiser l'information en provenance des data marts, analyser et visualiser l'information, y

29/11/2009 50Master F3I (Data Mining et Apprentissage Automatique)

Page 51: Cours #1 (Data Warehouse)

2- Les DataMarts Indépendants

Avantages:Avantages:permet de répondre rapidement à des besoins extrêmement urgents dans des départements où la gestion est décentraliséeest décentraliséeutile lorsque le budget alloué pour le déploiement de l'architecture ne permet pas la construction d'un système global intégréglobal intégrépermet de voir des résultats à court termepermet de justifier la poursuite des développements plus globauxglobauxnécessite des coûts moindres en termes d’équipements et autres ressources à court termepeut être utilisée lorsque la gestion des données est déjà décentralisée et que les données gérées sont propres à chacun des groupes de l’organisation

29/11/2009 51Master F3I (Data Mining et Apprentissage Automatique)

Page 52: Cours #1 (Data Warehouse)

2- Les DataMarts Indépendants

Inconvénients :Inconvénients :peut entraîner des problèmes d’évolutivité vers une architecture plus robustedoit faire partie d’un processus global pour être réussidoit faire partie d un processus global pour être réussides problèmes de redondance et d’inconsistances sont possibles

29/11/2009 52Master F3I (Data Mining et Apprentissage Automatique)

Page 53: Cours #1 (Data Warehouse)

3- Datamarts dépendants avec ODS

L'ODS : L'ODS est l'acronyme pour Operational Data Store

29/11/2009 53Master F3I (Data Mining et Apprentissage Automatique)

Page 54: Cours #1 (Data Warehouse)

3- Datamarts dépendants avec ODS

Dans cette architecture nous retrouvons : L'architecture prônée Dans cette architecture nous retrouvons : L architecture prônée par Bill Inmon :

L'ODS : L'ODS est l'acronyme pour Operational Data Store ou Magasin de données opérationnelles. Il joue deux rôles : ou Magasin de données opérationnelles. Il joue deux rôles : Le rôle du staging area qui sert à stocker les données extraites (E) des systèmes sources. On y effectue aussi les différentes transformations (T) à savoir : Le nettoyage des ( ) y gdonnées, le merge, la standardisation, le déduplication... des données. Par contre les données dans l'ODS ne sont détruites Par contre les données dans l ODS ne sont détruites qu'après la durée de vie des opérations qui est un facteur définit par l'organisation et dépend de plusieurs critères.Le deuxième rôle d'un ODS et c'est surtout sa raison d'être Le deuxième rôle d un ODS et c est surtout sa raison d être c'est d'intégrer les données sources dans le but de présenter toute l'information nécessaire à prendre des décisions tactiques

29/11/2009 54

déc s o s ac ques

Master F3I (Data Mining et Apprentissage Automatique)

Page 55: Cours #1 (Data Warehouse)

3- Datamarts dépendants avec ODS

L'Entreprise Datawarehouse : Les données de l'ODS sont L Entreprise Datawarehouse : Les données de l ODS sont transférées vers le datawarehouse (L). Le Datawarehouse est centrale, c'est d'ailleurs la raison de l'appellation Entreprise Datawarehouse (EDW), et devrait être contenir p ( )toutes les données de l'entreprise.Les data marts dépendants : Ces data marts peuvent être alimentés soit de L'EDW soit de l'ODS. Ces data marts sont dépendants.La zone présentation : Une fois les données chargées dans le Datawarehouse et les data marts dépendants, les le Datawarehouse et les data marts dépendants, les utilisateurs peuvent y accéder pour exécuter leurs requêtes Ad hoc, programmer les rapports, analyser et visualiser l'information...

29/11/2009 55Master F3I (Data Mining et Apprentissage Automatique)

Page 56: Cours #1 (Data Warehouse)

3- Datamarts dépendants avec ODS

Avantages:Avantages:définition des données intégrée et très consistantefonctionne habituellement bien lorsque la gestion des données est déjà centralisée à un certain niveaudonnées est déjà centralisée à un certain niveau

Inconvénients :demande des efforts très importants de planification demande des efforts très importants de planification, d’analyse et de conception au début du projetcoût de réalisation significatif

é t d dél i t l’i l t ti fi l i présente des délais avant que l’implantation finale puisse être fonctionnelleretour d’investissement et bénéfices visibles seulement à l tlong termedemande une bonne coordination entre les différents groupes de l’organisation et les consensus peuvent être

à

29/11/2009 Ecole Doctorale (Data Mining et ...) 56

difficiles à obtenir

Page 57: Cours #1 (Data Warehouse)

4- Datamarts logiques avec datawarehouse actif

• Les datamarts ne sont pas des bases de donnéesséparées mais des vues logiques des datawarehouses.

29/11/2009 57Master F3I (Data Mining et Apprentissage Automatique)

Page 58: Cours #1 (Data Warehouse)

4 C t ti d’ DW4- Construction d’un DW

29/11/2009 58Master F3I (Data Mining et Apprentissage Automatique)

Page 59: Cours #1 (Data Warehouse)

4 C t ti d’ DW4- Construction d’un DW

Les composants fonctionnels d'un entrepôt de données s'observent sur trois Les composants fonctionnels d un entrepôt de données s observent sur trois niveaux : l'acquisition des données, leur stockage, leur exploitation (restitution des informations décisionnelles)

PREMIER NIVEAU:ACQUISITION DES DONNEES QLe premier niveau est celui de l'acquisition des données qui vont alimenter l'entrepôt de données. L'hétérogénéité des supports d'où sont issues les données à extraire a pour corollaire la complexité de la phase d'alimentation de l'entrepôt de données. En effet, les systèmes d’information opérationnels sont, le plus souvent, composés d’applications y p , p , p ppmultiples, destinées chacune à traiter un domaine d’activité spécifique (approvisionnement, production, vente,…). Le composant d'acquisition des données a donc pour vocation d'unifier les données opérationnelles qui, à la base, ne sont pas normalisées. Il est important de porter une grande attention à la nature et à la qualité des p p g qdonnées avant de les extraire à destination du système d'information décisionnel. Après avoir identifié, parmi toutes les données présentes dans les systèmes d'information opérationnels ou issues de bases de données externes, celles utiles à l'aide à la décision, il est nécessaire d'analyser leur qualité tant en termes de capacités de rapprochement y q p ppd'un même référentiel lors de leur arrivée dans l'entrepôt de données, qu'en termes de nettoyage. Si l'on souhaite conserver une cohérence entre les données visualisées du côté transactionnel et du côté décisionnel, leur nettoyage s'effectuera à la source plutôt que dans l'entrepôt de données.

29/11/2009 59

q p

Master F3I (Data Mining et Apprentissage Automatique)

Page 60: Cours #1 (Data Warehouse)

4 C t ti d’ DW4- Construction d’un DW

A) ALIMENTATION DE L'ENTREPOT DE DONNEESL'alimentation des données à partir des bases de production est une phase primordiale d'un datawarehouse. Des outils logiciels sont alors nécessaires pour intégrer les données d l d t h O l d' til ETL (E t t T f L d)dans le datawarehouse. On parle d'outil ETL (Extract, Transform, Load).Extract-Transform-Load est connu sous le terme ETL, ou Extracto-Chargeur, (ou parfois : datapumping). Il s'agit d'une technologie informatique permettant d'effectuer des synchronisations massives d'information d'une base de données vers une autre. Selon le conte te on trad ira par alimentation e traction transformation constit tion contexte, on traduira par « alimentation », « extraction », « transformation », « constitution » ou « conversion », souvent combinés. Elle repose sur des connecteurs servant à exporter ou importer les données dans les applications (Ex : connecteur Oracle), des transformateurs qui manipulent les données (agrégations, filtres, conversions...), et des mises en correspondance (mappages) L'objectif est l'intégration par l'entreprise de ces mises en correspondance (mappages). L'objectif est l'intégration par l'entreprise de ces données.

29/11/2009 60Master F3I (Data Mining et Apprentissage Automatique)

Page 61: Cours #1 (Data Warehouse)

4 C t ti d’ DW4- Construction d’un DW

A l'origine, les solutions d'ETL sont apparues pour le chargement régulier de donnéesagrégées dans les entrepôts de données (ou datawarehouse), avant de se diversifier vers g g p ( )les autres domaines logiciels. Ces solutions sont largement utilisées dans le monde bancaire et financier, ainsi que dans l'industrie, au vu de la multiplication des nombreuses interfaces.

29/11/2009 61Master F3I (Data Mining et Apprentissage Automatique)

Page 62: Cours #1 (Data Warehouse)

4 C t ti d’ DW4- Construction d’un DW

Actuellement il existe trois catégories d’outils ETL :

Engine-based : les transformations sont exécutées sur un serveur ETL, disposant en général d’un référentiel. Ce genre d’outil dispose d’un moteur de transformation ;Database-embedded : les transformations sont intégrées dans la base de données. Cette fonctionnalité est très consommatrice de ressource

l b d d ésur la base de données.Code-generators : les transformations sont conçues et un code est généré. Ce code est déployable indépendamment de la base de donnéesdonnées.

29/11/2009 62Master F3I (Data Mining et Apprentissage Automatique)

Page 63: Cours #1 (Data Warehouse)

4 C t ti d’ DW4- Construction d’un DW

Les phases de l'alimentation d'un datawarehouse sont les suivantes :

1- Découverte des données : Il s'agit d'identifier dans les systèmes sources les données à importer dans le datawarehouse. Il faut prendre les données les plus judicieuses. Un mauvais choix peut considérablement compliquer les phases suivantes de l'alimentation.2- Extraction des données : Il s'agit de collecter les données utiles dans l tè d d ti ( ) Il f t id tifi l d é t les systèmes de production(sources). Il faut identifier les données ayant été modifiées afin d'importer le minimum de données dans le datawarehouse. Et pour ce faire on pourrait s'entendre avec le

bl d tè j t it fl d responsable du système source pour ajouter soit un flag ou encore des dates dans chacune des tables extraites, au moins deux dates : Date de création de l'enregistrement dans la table et la date de mise à jour (En général la plupart des systèmes sources disposent de ces deux dates) général la plupart des systèmes sources disposent de ces deux dates). Par ailleurs pour ne pas perdre des données suites à des problèmes d'extraction, il est important de s'assurer que le système source ne purge pas les données avant que l'entrepôt ne les ait extraits

29/11/2009 63

pas les données avant que l entrepôt ne les ait extraits.

Master F3I (Data Mining et Apprentissage Automatique)

Page 64: Cours #1 (Data Warehouse)

4 C t ti d’ DW4- Construction d’un DW

Les phases de l'alimentation d'un datawarehouse sont les suivantes :

3- Transformation des données : est la tâche la plus complexe et qui demande beaucoup de réflexion.Voici les grandes fonctionnalités de transformation :_ Nettoyage des données_ Standardisation des données. C f ité d d é_ Conformité des données.

_ Gestion des tables de fait_ Gestion des dimensions t_ ……etc.

Il faut rendre les données cohérentes avec la structure du datawarehouse. On d'applique alors des filtres sur les données Il peut être nécessaire de convertir le format des données alors des filtres sur les données. Il peut être nécessaire de convertir le format des données (EBCDIC vers ASCII par exemple) ou d'harmoniser les formats de dates (jj/mm/aaaa). Il faut également associer les champs source avec les champs cibles. Un champ source « adresse » pourra ainsi par exemple être décomposé en « numéro », « rue », « code postal », « ville » ou l'inverse Enfin des données des systèmes de production doivent être agrégées ou calculées

29/11/2009 64

l inverse. Enfin des données des systèmes de production doivent être agrégées ou calculées avant leur chargement.

Master F3I (Data Mining et Apprentissage Automatique)

Page 65: Cours #1 (Data Warehouse)

4 C t ti d’ DW4- Construction d’un DW

Les phases de l'alimentation d'un datawarehouse sont les suivantes :

4- Chargement des données : C'est la dernière phase de l'alimentationd'un datawarehouse. Il s'agit d'insérer les données au sein dudatawarehouse. C'est une phase délicate car les quantités de donnéessont souvent très importantes.Il permet de transférer les données versleur destination finale.

3 cas de figures se présentent, selon l’architecture mise en place

1) d h l d é d l' t ôt d d é1) de charger les données dans l'entrepôt de données:Si la politique retenue a été de construire un entrepôt de données avecune base de données, alors les données seront chargées dans l'entrepôt.Cette approche est proche à celle de Bill Inmon Il sera dés lors possibleCette approche est proche à celle de Bill Inmon. Il sera dés lors possibled’utiliser des fonctionnalités analytiques (comme , permis par, Oracle).

29/11/2009 65Master F3I (Data Mining et Apprentissage Automatique)

Page 66: Cours #1 (Data Warehouse)

4 C t ti d’ DW4- Construction d’un DW

Les phases de l'alimentation d'un datawarehouse sont les suivantes :

2) de les charger dans des cubes de données :La deuxième possibilité est de charger les données directement dans des cubes de données sans les stocker dans un DW.Cette approche est certainement la plus proche à celle de Ralph Kimball. Un bon exemple est l'utilisation directe des cubes de données.

3) le mode hybride:La troisième possibilité est celle offre le plus d’avantages mais demande

t l d' ff t L h t d d é ’ ff t à l f i par contre plus d'effort. Le chargement des données s’effectue à la fois sur le datawarehouse et les datamarts :- Un premier chargement des données dans un entrepôt de données.

Un deuxième chargement dans des cubes de données- Un deuxième chargement dans des cubes de données.

Par contre cette approche ajoute une charge de travail très considérable pour l'équipe de développement (Aucun impact sur les utilisateurs) :

Une base de données à créer et à maintenir

29/11/2009 66

- Une base de données à créer et à maintenir.- Un exercice de réflexion sur le modèle de données du datawarehouse.-Un autre exercice de réflexion sur le modèle des métas donnés.

Master F3I (Data Mining et Apprentissage Automatique)

Page 67: Cours #1 (Data Warehouse)

4 C t ti d’ DW4- Construction d’un DW

Les composants fonctionnels d'un entrepôt de données s'observent sur trois Les composants fonctionnels d un entrepôt de données s observent sur trois niveaux : l'acquisition des données, leur stockage, leur exploitation (restitution des informations décisionnelles)

DEUXIEME NIVEAU: STOCKAGE DES DONNEESLe second niveau est celui de la gestion des données. Sa principale vocation est d'assurer leur stockage dans une base décisionnelle souvent sous un SGBDR. Les données sont structurées en contexte d'analyse décisionnelle et sont orientées vers l'utilisateur décisionnel ;les données sont le plus souvent structurées selon des modèles en étoile.C’est à ce niveau que l’on construit des cubes multidimensionnels. Le composant de gestion des données permet ainsi de réaliser au travers des cubes des interrogations sur plusieurs dimensions (diffé t i t d ) d d é t d l' t ôt(différents points de vue) des données contenues dans l'entrepôt..

29/11/2009 67Master F3I (Data Mining et Apprentissage Automatique)

Page 68: Cours #1 (Data Warehouse)

4 C t ti d’ DW4- Construction d’un DW

Classes de données : Le datawarehouse se structure en quatre Classes de données : Le datawarehouse se structure en quatre classes de données, organisées selon un axe historique et un axe synthétique.

1-Les données détaillées : Elles reflètent des évènements les plus récents. Les données provenant des systèmes de production sont intégrées à ce niveau. Elles présentent des avantages évidents ég ées à ce eau. es p ése e des a a ages é de s (profondeur et niveau de détail, possibilité d'appliquer de nouveaux axes d'analyse et même de revenir a posteriori sur le « passé ») mais représentent un plus grand volume et nécessitent donc des matériels p p gplus performants.

.

29/11/2009 68Master F3I (Data Mining et Apprentissage Automatique)

Page 69: Cours #1 (Data Warehouse)

4 C t ti d’ DW4- Construction d’un DW

2-Les données agrégées : Elles correspondent à des éléments d'analyse représentatifs des besoins des utilisateurs. Ce sont donc des y pdonnées déjà traitées par le système et représentant un premier résultat d'analyse et de synthèse des données contenues dans les systèmes de production. Elles présentent d'autres avantages (facilité y p p g (d'analyse, rapidité d'accès, moindre volume) mais il n'est pas toujours possible de retrouver le détail et la profondeur des indicateurs une fois ceux-ci agrégés et figés : on prend le risque de figer les donnéesdans une certaine vue, selon les axes d'agrégation retenus, et de ne plus pouvoir revenir plus tard sur ces critères si l'on n'a pas conservé le détail (par exemple, si l'on a agrégé les résultats par mois, il ne sera

t êt l ibl d f i l j é )peut-être plus possible de faire une analyse par journée).et de celles du datawarehouse.

29/11/2009 69Master F3I (Data Mining et Apprentissage Automatique)

Page 70: Cours #1 (Data Warehouse)

4 C t ti d’ DW4- Construction d’un DW

3-Les données historisées : Chaque nouvelle insertion dans le datawarehouse ne détruit pas les anciennes valeurs mais crée une nouvelle insertion.

4 L ét d é Il ' it d d é l d é Ell 4- Les méta données : Il s'agit « de données sur les données ». Elles décrivent les règles ou processus attachés aux données du système. Les méta données permettront notamment de connaître:

• quelles sont les données entreposées, leurs formats, leurs significations, leurs degrés d'exactitude.• les processus de récupération/extraction dans les bases sources• les processus de récupération/extraction dans les bases sources.• la date du dernier chargement du datawarehouse.• l'historique des données sources et de celles du datawarehouse.

29/11/2009 70Master F3I (Data Mining et Apprentissage Automatique)

Page 71: Cours #1 (Data Warehouse)

4 C t ti d’ DW4- Construction d’un DW

Stockage de données : Le stockage au sein d'un Stockage de données : Le stockage au sein d un datawarehouse a un besoin de synthèse (agrégation des données) et un besoin de détails (conservation des données détaillées). Ce stockage peut être réalisé de trois manières détaillées). Ce stockage peut être réalisé de trois manières différentes : structure directe simple, structure de cumul simple, par résumé déroulant.

29/11/2009 71Master F3I (Data Mining et Apprentissage Automatique)

Page 72: Cours #1 (Data Warehouse)

4 C t ti d’ DW4- Construction d’un DW

1-Structure directe simple: On fait des mises à jour du datawarehouse 1-Structure directe simple: On fait des mises à jour du datawarehouse avec des laps de temps important.

29/11/2009 72Master F3I (Data Mining et Apprentissage Automatique)

Page 73: Cours #1 (Data Warehouse)

4 C t ti d’ DW4- Construction d’un DW2- Structure de cumul simple : on stocke les données de chaque mise à j l i à j ét t f é t ( l t l j ) jour, les mises à jour étant fréquentes (par exemple tous les jours) on a un espace occupé important, mais on ne perd pas d’information

29/11/2009 Ecole Doctorale (Data Mining et ...) 73

Page 74: Cours #1 (Data Warehouse)

4 C t ti d’ DW4- Construction d’un DW3-Structure par résumé déroulant : à chaque mise à jour, on stocke des d é dét illé t théti l i d é f ti données détaillées, et on synthétise les anciennes données en fonction de leur age. Plus une donnée est vieille, moins elle est détaillée

29/11/2009 Ecole Doctorale (Data Mining et ...) 74

Page 75: Cours #1 (Data Warehouse)

4 C t ti d’ DW4- Construction d’un DW

Les composants fonctionnels d'un entrepôt de données s'observent sur trois Les composants fonctionnels d un entrepôt de données s observent sur trois niveaux : l'acquisition des données, leur stockage, leur exploitation (restitution des informations décisionnelles)

TROISIEME NIVEAU:RESTITUTION DES INFORMATIONS DECISIONNELLESLe troisième niveau est celui des restitutions des informations décisionnelles dans des applications pouvant se greffer sur la base décisionnelle. Cette fonction est assurée par des outils décisionnels variés comme des outils de reporting des outils de tableaux de bord des outils de Balanced Scorecardreporting, des outils de tableaux de bord, des outils de Balanced Scorecardou des outils de fouille de données. Pour un même outil, le type d'utilisation est également de différents ordres. Ainsi, pour un outil de requêtage, l'utilisateur peut vouloir accéder à des p q g prapports prédéfinis fixes, modifier les paramètres de rapports prédéfinis ou créer son propre rapport. De la même manière, un rapport peut être exécuté directement par l'utilisateur ou le résultat envoyé dans sa messagerie». Les personnes qui produisent les tableaux de bord n'auront pas à saisir des personnes qui produisent les tableaux de bord n auront pas à saisir des données alimentant leurs tableaux. Ce qui a pour effet d'augmenter les qualités des tableaux de bord au niveau notamment de la fiabilité et de la rapidité d'obtention des informations.

29/11/2009 75

p

Master F3I (Data Mining et Apprentissage Automatique)

Page 76: Cours #1 (Data Warehouse)

4 C t ti d’ DW4- Construction d’un DW

En bref :

En conclusion Un entrepôt de données est une collection de données orientées sujet intégrées non volatiles et historisées organisées pour orientées sujet, intégrées, non volatiles et historisées, organisées pour supporter un processus d'aide à la décision. Typiquement ce processus est mené par l'intermédiaire de requêtes de type OLAP (On-line Analytical processing). Ces requêtes sont généralement (On line Analytical processing). Ces requêtes sont généralement complexes car elles contiennent de nombreuses opérations de jointure et de regroupement et induisent des temps de réponse très élèves.

29/11/2009 76Master F3I (Data Mining et Apprentissage Automatique)

Page 77: Cours #1 (Data Warehouse)

Plan

IntroductionLes entrepôts de donnéesLes datamartArchitectureModélisationAlimentation Les bases de données multidimensionnellesLe marché du décisionnelDémonstration

29/11/2009 77Master F3I (Data Mining et Apprentissage Automatique)

Page 78: Cours #1 (Data Warehouse)

Modélisation Entité/Association

A t Avantages: Normalisation:

Éliminer les redondancesÉliminer les redondancesPréserver la cohérence des données

Optimisation des transactionsRéduction de l’espace de stockage

Inconvénients pour un utilisateur final:Schéma très/trop complet:Schéma très/trop complet:

Contient des tables inutiles pour l’analysePas d’interface graphique capable de rendre utilisable le g p q pmodèle E/AInadapté pour l’analyse

29/11/2009 Ecole Doctorale (Data Mining et ...) 78

Page 79: Cours #1 (Data Warehouse)

Exemple

M dMode d’expéditionTransporteur

Produit Commande client

Contrat

Groupe de produits

clientType de contrat Client

Famille de d i

Magasin

E l é produitsRégion de ventes

EmployéStock

29/11/2009 79

Division de ventes

Fonction FournisseursMaster F3I (Data Mining et Apprentissage Automatique)

Page 80: Cours #1 (Data Warehouse)

Modélisation des DW

éNouvelle méthode de conception autour des concepts métiers

Ne pas normaliser au maximumNe pas normaliser au maximumIntroduction de nouveaux types de table:

Table de faitsTable de faitsTable de dimensions

Introduction de nouveaux modèles:oduc o de ou eau odè es:Modèle en étoileModèle en flocon

29/11/2009 80Master F3I (Data Mining et Apprentissage Automatique)

Page 81: Cours #1 (Data Warehouse)

Table de faits

Table principale du modèle dimensionnelTable principale du modèle dimensionnelContient les données observables (les faits) sur le sujet étudié selon divers axes d’analyse (les dimensions)

Table de faits des ventesClé date (CE)Clé produit (CE)

Clés étrangères vers les

Clé magasin (CE)Quantité vendueCoût

vers les dimensions

CoûtMontant des ventes

Faits

29/11/2009 81Master F3I (Data Mining et Apprentissage Automatique)

Page 82: Cours #1 (Data Warehouse)

Table de faits (suite)

Fait: Ce que l’on souhaite mesurer

Quantités vendues montant des ventesQuantités vendues, montant des ventes…Contient les clés étrangères des axes d’analyse (dimension)

Date, produit, magasin, p , gTrois types de faits:

AdditifSemi additifNon additif

29/11/2009 82Master F3I (Data Mining et Apprentissage Automatique)

Page 83: Cours #1 (Data Warehouse)

Typologie des faits

Additif: additionnable suivant toutes les dimensions Additif: additionnable suivant toutes les dimensions Quantités vendues, chiffre d’affairePeut être le résultat d’un calcul:

Bénéfice = montant vente coûtBénéfice = montant vente - coûtSemi additif: additionnable suivant certaines dimensions

Solde d’un compte bancaire: P d d’ dditi l d t l Pas de sens d’additionner sur les dates car cela représente des instantanés d’un niveauΣ sur les comptes: on connaît ce que nous possédons en banquebanque

Non additif: fait non additionnable quelque soit la dimension Prix unitaire: l’addition sur n’importe quelle dimension donne un nombre dépourvu de sensnombre dépourvu de sens

29/11/2009 83Master F3I (Data Mining et Apprentissage Automatique)

Page 84: Cours #1 (Data Warehouse)

Granularité de la table de faits

Répondre à la question :Que représente un enregistrement de la table de faits?

l i é défi i l i d dé il d l bl La granularité définit le niveau de détails de la table de faits:

Exemple: une ligne de commande par produit par client Exemple: une ligne de commande par produit, par client et par jour

Précision des analyses- + FinesseTaille de l’entrepôt

Finesse

29/11/2009 84Master F3I (Data Mining et Apprentissage Automatique)

Page 85: Cours #1 (Data Warehouse)

Table de dimension

Axe d’analyse selon lequel vont être étudiées les Axe d analyse selon lequel vont être étudiées les données observables (faits)Contient le détail sur les faits

Dimension produitClé produit (CP)Code produit

Clé de substitution

Description du produitGroupe de produitsMarqueAttributs de la MarqueEmballagePoids

Attributs de la dimension

29/11/2009 85Master F3I (Data Mining et Apprentissage Automatique)

Page 86: Cours #1 (Data Warehouse)

Table de dimension (suite)

Dimension = axe d’analyseClient, produit, période de temps…

Contient souvent un grand nombre de colonnesContient souvent un grand nombre de colonnesL’ensemble des informations descriptives des faits

Contient en général beaucoup moins Co e e gé é a beaucoup o s d’enregistrements qu’une table de faits

29/11/2009 86Master F3I (Data Mining et Apprentissage Automatique)

Page 87: Cours #1 (Data Warehouse)

La dimension Temps

Di i T

Commune à l’ensemble du DW

Dimension TempsClé temps (CP)Jourdu DW

Reliée à toute table de faits

JourMoisTrimestrees eSemestre AnnéeN j d éNum_jour_dans_annéeNum_semaine_ds_année

29/11/2009 87Master F3I (Data Mining et Apprentissage Automatique)

Page 88: Cours #1 (Data Warehouse)

Granularité d’une dimension

Une dimension contient des membres organisés en hiérarchie :

Ch d b ti t à i hié hi Chacun des membres appartient à un niveau hiérarchique (ou niveau de granularité) particulierGranularité d’une dimension : nombre de niveaux hiérarchiquesTemps :

année semestre trimestre moisannée – semestre – trimestre - mois

29/11/2009 88Master F3I (Data Mining et Apprentissage Automatique)

Page 89: Cours #1 (Data Warehouse)

ÉÉvolution des dimensions

Dimensions à évolution lenteUn client peut se marier, avoir des enfants…Un produit peut changer de noms ou de formulation:Un produit peut changer de noms ou de formulation:

« Somam » en « Danon »« yaourt à la vanille » en « yaourt saveur vanille »

G ti d l it ti 3 l tiGestion de la situation, 3 solutions:Écrasement de l’ancienne valeurAjout de nouvel enregistrementj gValeur d’origine / valeur courante

Dimensions à évolution rapideS bit d h t t è f é t (t l i ) d t t Subit des changements très fréquents (tous les mois) dont on veut préserver l’historiqueSolution: isoler les attributs qui changent rapidement

29/11/2009 Ecole Doctorale (Data Mining et ...) 89

Page 90: Cours #1 (Data Warehouse)

Dimensions à évolution lente (1/3)

ÉÉcrasement de l’ancienne valeur :Correction des informations erronées

Avantage: Avantage: Facile à mettre en œuvre

Inconvénients:Perte de la trace des valeurs antérieures des attributsPerte de la cause de l’évolution dans les faits mesurés

Clé produit Description du produit Groupe de produitsp p p p p12345 Intelli-Kids Logiciel

Jeux éducatifs

29/11/2009 90

Jeux éducatifs

Master F3I (Data Mining et Apprentissage Automatique)

Page 91: Cours #1 (Data Warehouse)

Dimensions à évolution lente (2/3)

Ajout d’un nouvel enregistrement:Utilisation d’une clé de substitution

Avantages:Avantages:Permet de suivre l’évolution des attributsPermet de segmenter la table de faits en fonction de l’historique

Inconvénient:Accroit le volume de la table

Clé produit Description du produit Groupe de produitsClé produit Description du produit Groupe de produits12345 Intelli-Kids Logiciel25963 Intelli Kids Jeux éducatifs

29/11/2009 91

25963 Intelli-Kids Jeux éducatifs

Master F3I (Data Mining et Apprentissage Automatique)

Page 92: Cours #1 (Data Warehouse)

Dimensions à évolution lente (3/3)

Ajout d’un nouvel attribut:Valeur origine/valeur courante

Avantages:Avantages:Avoir deux visions simultanées des données :

Voir les données récentes avec l’ancien attributVoir les données anciennes avec le nouvel attributVoir les données anciennes avec le nouvel attribut

Voir les données comme si le changement n’avait pas eu lieu

Inconvénient:é i i i i é i iInadapté pour suivre plusieurs valeurs d’attributs intermédiaires

Clé d it D i ti d G d NClé produit Description du produit

Groupe de produits

12345 Intelli Kids Logiciel

Nouveau groupe de produitsJeux éducatifs

29/11/2009 92

12345 Intelli-Kids Logiciel Jeux éducatifs

Master F3I (Data Mining et Apprentissage Automatique)

Page 93: Cours #1 (Data Warehouse)

Dimensions à évolution rapide

Changements fréquents des attributs dont on veut garder l’historiquel’historique

Clients pour une compagnie d’assuranceIsoler les attributs qui évoluent viteq

29/11/2009 93Master F3I (Data Mining et Apprentissage Automatique)

Page 94: Cours #1 (Data Warehouse)

Dimensions à évolution rapide (suite)Dim clientClé client

Dim clientClé_clientNom

Clé_clientNomPrénom

FaitsClé_client…Nom

PrénomAdresse

AdresseDate_naissance

…Faits

Clé_client

Clé dé

Dim_démographique

Date_nais…Revenus

… Clé_démog

Clé_démogRevenusNiveau étude

RevenusNiveau_étudeNb_enfants

Niveau_étude

Nb_enfants

Statut_marital

Statut_maritalProfil_financierProfil achat

29/11/2009 94

Profil_financier

Profil_achat

Profil_achat

Master F3I (Data Mining et Apprentissage Automatique)

Page 95: Cours #1 (Data Warehouse)

Les types de modèles

Modèle en étoile Modèle en flocon

29/11/2009 95Master F3I (Data Mining et Apprentissage Automatique)

Page 96: Cours #1 (Data Warehouse)

Modèle en étoile

Une table de fait centrale et des dimensionsLes dimensions n’ont pas de liaison entre ellesAvantages:

Facilité de navigationN b d j i t li itéNombre de jointures limité

Inconvénients: Redondance dans les dimensionsRedondance dans les dimensionsToutes les dimensions ne concernent pas les mesures

29/11/2009 96Master F3I (Data Mining et Apprentissage Automatique)

Page 97: Cours #1 (Data Warehouse)

Modèle en étoileDimension Temps

ID tempsID tempsannéemoisjour Dimension produitj…

Dimension MagasinID magasindescription

Dimension produitID produit

nomcode

iT bl d f it A h tpville

surface…

prixpoids

groupefamille

Table de faits AchatID clientID temps

ID magasin

Dimension Region

famille…

Dimension Client

gID régionID produit

Quantité achetéeMontant des achatsg

ID régionpays

descriptiondistrict ente

ID clientnom

prénomadresse

Montant des achats

29/11/2009 97

district vente….

adresse…

Master F3I (Data Mining et Apprentissage Automatique)

Page 98: Cours #1 (Data Warehouse)

Modèle en flocon

é éUne table de fait et des dimensions décomposées en sous hiérarchiesOn a un seul niveau hiérarchique dans une table de dimension La table de dimension de niveau hiérarchique le plus bas est reliée à la table de fait. On dit qu’elle a la granularité la plus fineAvantages:Avantages:

Normalisation des dimensionsÉconomie d’espace disque

Inconvénients:Inconvénients:Modèle plus complexe (jointure)Requêtes moins performantes

29/11/2009 98Master F3I (Data Mining et Apprentissage Automatique)

Page 99: Cours #1 (Data Warehouse)

Modèle en floconDimension Temps

ID temps

Dimension produitID produitID groupe

nomID tempsanneemoisjourDimension Magasin

nomcodeprix

poids Dimension groupe…ID magasin

descriptionville

surface

…Dimension groupe

ID groupeID famille

nomTable de faits AchatID clientsurface

……

Dimension FamilleDimension Region

ID région

ID clientID temps

ID magasinID région Dimension Famille

ID famillenom…

ID régionID division vente

paysdescription

ID produitQuantité achetée

Montant des achats

Dimension ClientID client

nom

Dimension Division vente

ID di i i t

p….

29/11/2009 99

prénomadresse

ID division ventedescription

….Master F3I (Data Mining et Apprentissage Automatique)

Page 100: Cours #1 (Data Warehouse)

Méthodologie: 9 étapes de Kimball

Ch i i l j t1. Choisir le sujet2. Choisir les faits3 Choisir la granularité des faits3. Choisir la granularité des faits4. Identifier et adapter les dimensions5 Stocker les pré-calculs5. Stocker les pré-calculs6. Établir les tables de dimensions7 Choisir la durée de la base7. Choisir la durée de la base8. Suivre les dimensions lentement évolutives9. Décider des requêtes prioritaires, des modes de q p ,

requêtes

29/11/2009 100Master F3I (Data Mining et Apprentissage Automatique)

Page 101: Cours #1 (Data Warehouse)

Plan

IntroductionLes entrepôts de donnéesLes datamartArchitectureModélisation AlimentationLes bases de données multidimensionnellesLe marché du décisionnelDémonstration

29/11/2009 101Master F3I (Data Mining et Apprentissage Automatique)

Page 102: Cours #1 (Data Warehouse)

Alimentation/ mise à jour de l’entrepôt

Entrepôt mis à jour régulièrementBesoin d’un outil permettant d’automatiser les chargements dans l’entrepôt

Utilisation d’outils ETL (Extract, Transform, Load)

29/11/2009 102Master F3I (Data Mining et Apprentissage Automatique)

Page 103: Cours #1 (Data Warehouse)

Définition d’un ETL

Offre un environnement de développementOffre des outils de gestion des opérations et de maintenancemaintenancePermet de découvrir, analyser et extraire les données à partir de sources hétérogènespartir de sources hétérogènesPermet de nettoyer et standardiser les donnéesPermet de charger les données dans un entrepôtg p

29/11/2009 103Master F3I (Data Mining et Apprentissage Automatique)

Page 104: Cours #1 (Data Warehouse)

Extraction

Extraire des données des systèmes de productionDialoguer avec différentes sources:

B d d é Base de données, Fichiers,Bases propriétaires

Utilise divers connecteurs :ODBC, SQL tif SQL natif, Fichiers plats

29/11/2009 104Master F3I (Data Mining et Apprentissage Automatique)

Page 105: Cours #1 (Data Warehouse)

Transformation

Rendre cohérentes les données des différentes sourcesTransformer, nettoyer, trier les donnéesExemple: unifier le format des dates Exemple: unifier le format des dates (MM/JJ/AA JJ/MM/AA)

Etape très importante, garantit la cohérence et la fiabilité édes données

29/11/2009 105Master F3I (Data Mining et Apprentissage Automatique)

Page 106: Cours #1 (Data Warehouse)

Chargement

Insérer ou modifier les données dans l’entrepôtUtilisation de connecteurs:

ODBC, SQL natif SQL natif, Fichiers plats

29/11/2009 106Master F3I (Data Mining et Apprentissage Automatique)

Page 107: Cours #1 (Data Warehouse)

Aperçu d’un ETL

29/11/2009 107Master F3I (Data Mining et Apprentissage Automatique)

Page 108: Cours #1 (Data Warehouse)

Plan

IntroductionLes entrepôts de donnéesLes datamartArchitectureModélisation Alimentation Les bases de données multidimensionnellesAccès à l’informationDémonstration

29/11/2009 108Master F3I (Data Mining et Apprentissage Automatique)

Page 109: Cours #1 (Data Warehouse)

OLTP VS OLAP

PaysProduits PaysEspagne

poiresoranges

Produits

ProduitPK id produit

Algériepommes

A h t

PK id_produitLibelléFamille

FranceAchatPK id_achatFK id_client

janvier avrilVente de

pommes en

_id_produit

Quantitéclientid li t

jfévrier

TempsAlgérie en

avrilPK id_client

Nomadresse

29/11/2009 109Master F3I (Data Mining et Apprentissage Automatique)

Page 110: Cours #1 (Data Warehouse)

ROLAP

Relational OLAPDonnées stockées dans une base de données relationnellesrelationnellesUn moteur OLAP permet de simuler le comportement d’un SGBD multidimensionnel

Plus facile et moins cher à mettre en placeMoins performant lors des phases de calculExemples de moteurs ROLAP:

MetaCube (Informix)DSS Agent (MicroStrategy)

29/11/2009 110Master F3I (Data Mining et Apprentissage Automatique)

Page 111: Cours #1 (Data Warehouse)

MOLAP

M lti di i l OLAPMulti dimensional OLAP:Utiliser un système multidimensionnel « pur » qui gère les structures multidimensionnelles natives (les cubes)Accès direct aux données dans le cube

Plus difficile à mettre en placeFormats souvent propriétairesFormats souvent propriétairesConçu exclusivement pour l’analyse multidimensionnelleExemples de moteurs MOLAP:Exemples de moteurs MOLAP:

Microsoft Analysis ServicesEssbaseH iHyperion

29/11/2009 111Master F3I (Data Mining et Apprentissage Automatique)

Page 112: Cours #1 (Data Warehouse)

HOLAP

Hybride OLAP:tables de faits et tables de dimensions stockées dans SGBD relationnel (données de base)relationnel (données de base)données agrégées stockées dans des cubes

Solution hybride entre MOLAP et ROLAPyBon compromis au niveau coût et performance

29/11/2009 112Master F3I (Data Mining et Apprentissage Automatique)

Page 113: Cours #1 (Data Warehouse)

Le cube

é éModélisation multidimensionnelle des données facilitant l’analyse d’une quantité selon différentes dimensions:dimensions:

TempsLocalisation géographiqueg g p q…

Les calculs sont réalisés lors du chargement ou de la mise à jour du cube

29/11/2009 113Master F3I (Data Mining et Apprentissage Automatique)

Page 114: Cours #1 (Data Warehouse)

Manipulation des données multidimensionnelles

é i iOpération agissant sur la structureRotation (rotate): présenter une autre face du cube

05 06 07 05 06 07

Œuf 221 263 139

Viande 275 257 116

Idf 101 120 52

QA 395 400 203

29/11/2009 114Master F3I (Data Mining et Apprentissage Automatique)

Page 115: Cours #1 (Data Warehouse)

Manipulation des données multidimensionnelles

Opération agissant sur la structureOpération agissant sur la structureTranchage (slicing): consiste à ne travailler que sur une tranche du cube. Une des dimensions est alors réduite à une seule valeurune seule valeur

06

Πf Idf 26505 06 07

Œ f Idf 220 265 284 Œuf Idf 265

QA 245Œuf Idf 220 265 284

QA 225 245 240Viande Idf 152

QA 174Viande Idf 163 152 145

QA 187 174 184

29/11/2009 115Master F3I (Data Mining et Apprentissage Automatique)

Page 116: Cours #1 (Data Warehouse)

Manipulation des données multidimensionnelles

Opération agissant sur la structurep gExtraction d’un bloc de données (dicing): ne travailler que sous un sous-cube

05 06 07

Œ f Idf 220 265 284 05 06 07Œuf Idf 220 265 284

QA 225 245 24005 06 07

Œuf Idf 220 265 284Viande Idf 163 152 145

QA 187 174 184QA 225 245 240

29/11/2009 116Master F3I (Data Mining et Apprentissage Automatique)

Page 117: Cours #1 (Data Warehouse)

Manipulation des données multidimensionnelles

Opération agissant sur la granularitéForage vers le haut (roll-up): « dézoomer »

Obtenir un niveau de granularité supérieurObtenir un niveau de granularité supérieurUtilisation de fonctions d’agrégation

Forage vers le bas (drill-down): « zoomer »Obt i i d l ité i fé iObtenir un niveau de granularité inférieurDonnées plus détaillées

29/11/2009 117Master F3I (Data Mining et Apprentissage Automatique)

Page 118: Cours #1 (Data Warehouse)

Drill-up, drill-down

05 06 07Alim. 496 520 255

Roll upDimension TempsRoll up

05-07 1S05 2S05 1S06 2S06 1S0705 06 07

Tempsp

Œuf 623

Viande

648

Œuf 100 121 111 152 139Viande

134 141 120 137 116Œuf 221 263 139Viande

275 257 116

05 06 07Bœuf 20 19 22 Drill down

… … … …Omelette 40 43 48

Drill down

29/11/2009 118

Dimension Produit

Master F3I (Data Mining et Apprentissage Automatique)

Page 119: Cours #1 (Data Warehouse)

MDX (Multidimensional Expressions)

Langage permettant de définir, d'utiliser et de récupérer des données à partir d'objets multidimensionnelsdes données à partir d'objets multidimensionnels

Permet d’effectuer les opérations décrites précédemmentEquivalent de SQL pour le monde OLAPq pOrigine: Microsoft

29/11/2009 119Master F3I (Data Mining et Apprentissage Automatique)

Page 120: Cours #1 (Data Warehouse)

MDX, exemple

Fournir les effectifs d’une société pendant les années 2004 Fournir les effectifs d une société pendant les années 2004 et 2005 croisés par le type de paiement

SELECT {([Time].[2004]), ([Time].[2005])} ON COLUMNS,

{[Pay] [Pay Type] Members} ON ROWSDimensions,

axes d’analyse

{[Pay].[Pay Type].Members} ON ROWS

FROM RH Cubea es d a a yse

WHERE ([Measures].[Count])

2004 2005Heure 3396 4015

29/11/2009 120

Jour 3678 2056

Master F3I (Data Mining et Apprentissage Automatique)

Page 121: Cours #1 (Data Warehouse)

Plan

IntroductionLes entrepôts de donnéesLes datamartArchitectureModélisation Alimentation Les bases de données multidimensionnellesLe marché du décisionnelDémonstration

29/11/2009 121Master F3I (Data Mining et Apprentissage Automatique)

Page 122: Cours #1 (Data Warehouse)

Le marché du décisionnel

29/11/2009 122Master F3I (Data Mining et Apprentissage Automatique)

Page 123: Cours #1 (Data Warehouse)

Quelques solutions commerciales

29/11/2009 123Master F3I (Data Mining et Apprentissage Automatique)

Page 124: Cours #1 (Data Warehouse)

Quelques solutions open source

ETL Entrepôt de données

OLAP Reporting Data Mining

OctopusKettleCloverETL

MySqlPostgresqlGreenplum/Biz

MondrianPalo

BirtOpen ReportJasper Report

WekaR-ProjectOrangeCloverETL

TalendGreenplum/Biz

gresJasper ReportJFreeReport

OrangeXelopes

Intégré

Pentaho (Kettle, Mondrian, JFreeReport, Weka)S BISpagoBI

29/11/2009 124Master F3I (Data Mining et Apprentissage Automatique)

Page 125: Cours #1 (Data Warehouse)

Plan

IntroductionLes entrepôts de donnéesLes datamartArchitectureModélisation Alimentation Les bases de données multidimensionnellesAccès à l’informationDémonstration

29/11/2009 125Master F3I (Data Mining et Apprentissage Automatique)

Page 126: Cours #1 (Data Warehouse)

Description du cas d’étude

Société de la grande distributiongMode d’expéditionTransporteur

Produit

Commande clientContrat

Produit

Groupe de MagasinType de contrat

Client

produits

Famille deRégion de EmployéSt k Famille de

produits

Division

ventes

Fonction

Stock

F i

29/11/2009 126

Division de ventes

Fonction Fournisseurs

Master F3I (Data Mining et Apprentissage Automatique)

Page 127: Cours #1 (Data Warehouse)

Les tables qui vont nous servir

ModeTransporteur Mode d’expédition

Transporteur

ProduitProduit

Groupe de

Commande client

T d

Contrat

Groupe de produits

Magasin

Type de contrat Client

Famille de produitsRégion de

tEmployés

St k

Division de

ventes

Fonction

Stock

F i

29/11/2009 127

Division de ventes

Fournisseurs

Master F3I (Data Mining et Apprentissage Automatique)

Page 128: Cours #1 (Data Warehouse)

Modèle en flocon

29/11/2009 128Master F3I (Data Mining et Apprentissage Automatique)

Page 129: Cours #1 (Data Warehouse)

Références

J H d M K b D t Mi i C tJ. Han, and M. Kamber. Data Mining Conceptsand Techniques. Morgan Kaufmann.

29/11/2009 Ecole Doctorale (Data Mining et ...) 129Master F3I (Data Mining et Apprentissage Automatique)