Upload
pablo-sene
View
69
Download
2
Embed Size (px)
Citation preview
Master M2 (Option F3I)Master M2 (Option F3I)
Les entrepôts de donnéesLes entrepôts de données
Data Mining et Apprentissage AutomatiqueCours de Master F3I
2008-2009
Plan
IntroductionLes entrepôts de donnéesLes datamartArchitectureModélisation Alimentation Les bases de données multidimensionnellesLe marché du décisionnelDémonstration
29/11/2009 Master F3I (Data Mining et Apprentissage Automatique) 2
I f ti d P d tiInformatique de Production
Données opérationnelles (de prod ction)Données opérationnelles (de production)activité constante composée de modifications et d'interrogations fréquentes des bases de données par de
b tili t j t d difi nombreux utilisateurs : ajouter une commande, modifier une adresse de livraison, rechercher les coordonnées d'un client, etc. i é i é é é il'intégrité des données est nécessaire pour ce genre
d'applications (il faut par exemple, interdire la modification simultanée d'une même donnée par deux
tili t diffé t ) utilisateurs différents). La cohérence assurée par les systèmes de production est toute relative. Elle se contrôle au niveau de la transaction élé t i i i l b l t d ti ité d élémentaire mais pas au niveau global et des activités de l'organisation.
29/11/2009 3Master F3I (Data Mining et Apprentissage Automatique)
I f ti d P d tiInformatique de Production
Données opérationnelles (de prod ction)Données opérationnelles (de production)Basée sur Les systèmes transactionnels temps réel, OLTP (On-line Transaction Processing) garantissent l'intégrité des d é données. Les utilisateurs accèdent aux données de la base par de très courtes transactions atomiques et isolées. La priorité est donnée en premier lieu à l'enregistrement rapide, sûr et efficace des données. L'un des formalismes les plus utilisés pour la représentation L un des formalismes les plus utilisés pour la représentation conceptuelle des systèmes d'information est le modèle EntiteAssociation
29/11/2009 4Master F3I (Data Mining et Apprentissage Automatique)
S tè Dé i i lSystèmes Décisionnels
Définition : Informatiq e décisionnelle (M t d tè Définition : Informatique décisionnelle (Management du système d'information, en anglais : DSS pour Decision Support System ou encore BI pour Business Intelligence) :
les moyens, les outils et les méthodes qui permettent de collecter, consolider, modéliser et restituer les données, matérielles ou immatérielles d'une entreprise en vue matérielles ou immatérielles, d une entreprise en vue d'offrir une aide à la décision et de permettre aux responsables de la stratégie d'entreprise d’avoir une vue d’ensemble de l’activité traitée d ensemble de l activité traitée..
29/11/2009 5Master F3I (Data Mining et Apprentissage Automatique)
C té i ti d S tè Dé i i lCaractéristiques des Systèmes Décisionnels
Possibilité de poser une grande variété de questions au système, certaines prévisibles et planifiées comme des tablea de bord et d'a tres impré isiblestableaux de bord et d'autres imprévisibles.permettre à l'utilisateur d'effectuer les requêtes qu'il souhaite, par lui-même, sans l'intervention de programmeur.Il sera souvent nécessaire de filtrer, d'agréger, de compter, sommer et de réaliser des statistique (moyenne, écrat-
)type, ….)
29/11/2009 6Master F3I (Data Mining et Apprentissage Automatique)
C té i ti d S tè Dé i i lCaractéristiques des Systèmes Décisionnels
La str ct re logiq e doit être pré e po r rendre a ssi La structure logique doit être prévue pour rendre aussi efficace que possible toutes ces requêtes. Pour y parvenir, il est nécessaire d'introduire de la redondance dans les informations Stockées en mémorisant des calculs informations Stockées en mémorisant des calculs intermédiaires. On rompt donc avec le principe de non redondance des bases de production.la cohérence requise doit être interprétable par la cohérence requise doit être interprétable par l'utilisateur. Les systèmes d'informatique décisionnelle doivent donc
l tôt hé l b l d d é P assurer plutôt une cohérence globale des données. Pour ce faire, leur alimentation doit être une opération réfléchie et planifiée dans le temps.
29/11/2009 7Master F3I (Data Mining et Apprentissage Automatique)
C té i ti d S tè Dé i i lCaractéristiques des Systèmes Décisionnels
Les transferts de données d s stème opérationnel Vers le Les transferts de données du système opérationnel Vers le système décisionnel seront réguliers avec une périodicité bien choisie dépendante de l'activité de l'entreprise. Chaque transfert sera contrôlé avant d'être diffusé Chaque transfert sera contrôlé avant d être diffusé. Aucune information n'y est jamais modifiée. On mémorise toutes les données sur une période déterminée, les données ne seront jamais remises à jour car toutes les données ne seront jamais remises à jour car toutes les vérifications utiles à la cohérence globale sont procédées lors de l'alimentation.L' tili ti é d à h t é i di L'utilisation se résume donc à un chargement périodique, puis à des interrogations non régulières, non prévisibles, parfois longues à exécuter.
29/11/2009 8Master F3I (Data Mining et Apprentissage Automatique)
F ti ti ll d l’I f ti Dé iFonctions essentielles de l’Informatique Décis.
To t s stème d'information décisionnel (SID) telle q e le Tout système d'information décisionnel (SID) telle que le sont les datawarehouses assurent quatre fonctions fondamentales, à savoir la
ll t collecte, l'intégration, la diffusion etla présentation des données. À ces quatre fonctions s'ajoute une fonction de contrôle du SID lui-même l'administrationcontrôle du SID lui-même, l administration.
29/11/2009 9Master F3I (Data Mining et Apprentissage Automatique)
F ti ti ll d l’I f ti Dé iFonctions essentielles de l’Informatique Décis.
L ll tLa collecteLa collecte des données (parfois appelée data pumping) est l'ensemble des tâches consistant à détecter, à sélectionner, à extraire et à filtrer les données brutes issues des environnements pertinents compte tenu du périmètre du SID.Les sources de données internes et/ou externes étant souvent hétérogènes tant sur le plan technique que sur le plan sémantique (données complexes)
cette fonction est la plus délicate à mettre en place dans un système décisionnel complexe, car un excédent de un système décisionnel complexe, car un excédent de données, un défaut de fiabilité ou un trop mauvais rapport signal/bruit sont pires que l'absence de données.
29/11/2009 10Master F3I (Data Mining et Apprentissage Automatique)
F ti ti ll d l’I f ti Dé iFonctions essentielles de l’Informatique Décis.
Elle s'app ie notamment s r des o tils d'ETL (e tractElle s'appuie notamment sur des outils d'ETL (extract-transform-load pour extraction-transformation-chargement).
La fonction de collecte joue également, au besoin, un rôle de recodage. Une donnée représentée différemment
à i id'une source à une autre impose le choix d'une représentation unique pour les futures analyses.
29/11/2009 11Master F3I (Data Mining et Apprentissage Automatique)
F ti ti ll d l’I f ti Dé iFonctions essentielles de l’Informatique Décis.
L’i té tiL’intégrationL’intégration des données, c'est-à-dire leur regroupement en un ensemble technique, logique et sémantique homogène approprié aux besoins de l'organisation ; elle consiste à concentrer les données collectées dans un espace unifié, dont le socle informatique essentiel est l' t ôt d d é Élé t t l d di itif il l'entrepôt de données. Élément central du dispositif, il permet aux applications décisionnelles de bénéficier d'une source d'information commune, homogène,
li é t fi bl tibl d l di ité normalisée et fiable, susceptible de masquer la diversité de l'origine des données.
29/11/2009 12Master F3I (Data Mining et Apprentissage Automatique)
F ti ti ll d l’I f ti Dé iFonctions essentielles de l’Informatique Décis.
L diff iLa diffusionLa diffusion, ou la distribution d'informations élaborées à partir des données dans des contextes appropriés aux besoins des individus ou des groupes de travail utilisateurs. c'est-à-dire elle met les données à la disposition des utilisateurs, selon des schémas correspondant au profil ou
éti d h h t l' è di t à au métier de chacun, sachant que l'accès direct à l'entrepôt de données ne correspondrait généralement pas aux besoins d'un décideur ou d'un analyste.
29/11/2009 Ecole Doctorale (Data Mining et ...) 13
F ti ti ll d l’I f ti Dé iFonctions essentielles de l’Informatique Décis.
L é t tiLa présentationCette quatrième fonction, la plus visible pour l'utilisateur, régit les conditions d'accès de l'utilisateur aux informations. Elle assure le fonctionnement du poste de travail, le contrôle d'accès, la prise en charge des requêtes, la visualisation des résultats sous une forme ou une autre. Elle
tili t t l t h i d i ti ibl utilise toutes les techniques de communication possibles (outils bureautiques, requêteurs et générateurs d'états spécialisés, infrastructure web, télécommunications
bil t )mobiles, etc.).
29/11/2009 14Master F3I (Data Mining et Apprentissage Automatique)
F ti ti ll d l’I f ti Dé iFonctions essentielles de l’Informatique Décis.
L’ d i i t tiL’administrationL’administration, qui gère le dictionnaire de données et le processus d'alimentation de bout en bout, car le système d’information décisionnelle doit être lui-même piloté. C'est la fonction transversale qui supervise la bonne exécution de toutes les autres. Elle pilote le processus de mise à jour d d é l d t ti l d é (l ét des données, la documentation sur les données (les méta données), la sécurité, les sauvegardes, la gestion des incidents.
29/11/2009 15Master F3I (Data Mining et Apprentissage Automatique)
F ti ti ll d l’I f ti Dé iFonctions essentielles de l’Informatique Décis.
RRemarqueEn pratique, les fonctions de collecte et d'intégration sont étroitement liées entre elles, et sont généralement associées au datawarehouse. De même, diffusion et présentation sont des fonctions fortement "orientées sujet", tournées vers l'utilisateur et son jmétier, manipulant des contenus à forte valeur ajoutée informationnelle et non des données brutes; elles sont donc fortement imbriquées logiquement et techniquement
29/11/2009 16Master F3I (Data Mining et Apprentissage Automatique)
Le contexte
Besoin: prise de décisions stratégiques et politiquesBesoin: prise de décisions stratégiques et politiquesPourquoi: besoin de réactivité face à la concurrenceQui: les décideurs (non informaticiens)Comment: en répondant aux demandes d’analyseComment: en répondant aux demandes d analyse
Qui sont mes Où placer ceQmeilleurs clients?
Où placer ce produit dans les rayons?
A combien ’élè t
Quelle catégorie s’élèvent mes
ventes journalières?
de clients achètent un
types de produit
29/11/2009 17
?
Master F3I (Data Mining et Apprentissage Automatique)
L d é tili bl l dé idLes données utilisables par les décideurs
Données opérationnelles (de prod ction)Données opérationnelles (de production)Bases de données (Oracle, SQL Server)Fichiers, …P ti d RH ti d dPaye, gestion des RH, gestion des commandes…
Caractéristiques de ces données:Distribuées: systèmes éparpillésHétérogènes: systèmes et structures de données différentsDétaillées: organisation des données selon les processus fonctionnels, d é b d t l’ ldonnées surabondantes pour l’analysePeu/pas adaptées à l’analyse : les requêtes lourdes peuvent bloquer le système transactionnelVolatiles: pas d’historisation systématiqueVolatiles: pas d historisation systématique
29/11/2009 18Master F3I (Data Mining et Apprentissage Automatique)
Problématique
C é d d d d dé id ?Comment répondre aux demandes des décideurs?En donnant un accès rapide et simple à l’information stratégique
Mettre en place un système d’information dédié aux applications décisionnelles:
un data warehouse
29/11/2009 19Master F3I (Data Mining et Apprentissage Automatique)
Le processus de prise de décision
Champs d’application desChamps d application des systèmes décisionnels
Définir le problème
Rassembler les données
Analyser les données
Établir des solutions
Décider
Temps de prise d’une décision
p
p p
29/11/2009 20Master F3I (Data Mining et Apprentissage Automatique)
Le processus de prise de décision
Prise de dé i idécision
Bases de production
Data warehouse
Base multi -dimensionnelle
Prédiction / simulation
29/11/2009 21Master F3I (Data Mining et Apprentissage Automatique)
Domaines d’utilisation des DW
BBanqueRisques d’un prêt, prime plus précise
SantéÉ idé i l iÉpidémiologieRisque alimentaire
CommerceCibl d li tèl Ciblage de clientèle Déterminer des promotions
LogistiqueAdé ti d d / d tiAdéquation demande/production
AssuranceRisque lié à un contrat d’assurance (voiture)
…
29/11/2009 22Master F3I (Data Mining et Apprentissage Automatique)
Quelques métiers du décisionnel
St t i P f M tStrategic Performance ManagementDéterminer et contrôler les indicateurs clé de la performance de l’entreprise
Finance IntelligencePlanifier, analyser et diffuser l’information financière. Mesurer et gérer les risques
Human Capital Management (gestion de la relation avec les employés)
Aligner les stratégies RH, les processus et les technologies. g g p gCustomer Relationship Management (gestion de la relation client)
Améliorer la connaissance client, identifier et prévoir la rentabilité client, accroitre l’efficacité du marketing clientclient, accroitre l efficacité du marketing client
Supplier Relationship Management (gestion de la relation fournisseur)Classifier et évaluer l’ensemble des fournisseurs. Planifier et piloter la stratégie Achat
29/11/2009 23
stratégie Achat.
Master F3I (Data Mining et Apprentissage Automatique)
Plan
IntroductionLes entrepôts de donnéesLes datamartArchitectureModélisation Alimentation Les bases de données multidimensionnellesLe marché du décisionnelDémonstration
29/11/2009 24Master F3I (Data Mining et Apprentissage Automatique)
Définition d’un DW
W. H. Inmon (1996): « Le data Warehouse est une collection de données
i té j t i té é l til t hi t i é orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision »la décision »
Principe: mettre en place une base de données Principe: mettre en place une base de données utilisée à des fins d’analyse
29/11/2009 25Master F3I (Data Mining et Apprentissage Automatique)
Les 5 caractéristiques des data warehouse
5 caractéristiques des DW :
Orientées sujetDonnées intégréesDonnées non volatilesDonnées datées ou archivées historiséesDonnées datées ou archivées historiséesDonnées multidimensionnelles
29/11/2009 26Master F3I (Data Mining et Apprentissage Automatique)
Les 5 caractéristiques des data warehouse
1. Données orientées sujet (métiers ou business): Regroupe les informations des différents métiers Ne tiens pas compte de l’organisation fonctionnelle des donnéesdonnées
Ass. Vie Ass. Auto Ass. Santé
Client
PolicePolice
29/11/2009 27Master F3I (Data Mining et Apprentissage Automatique)
Les 5 caractéristiques des data warehouse
L’objectif d’un datawarehouse est la prise de décisions autour des activités majeures de l’entreprise.
Dans un datawarehouse, les données sont ainsi structurées par thèmes par opposition à celles organisées, dans les systèmes de production, par processus fonctionnel. y p , p p
L’intérêt de cette organisation est de disposer de l’ensemble des informations utiles sur un sujet le plus l ensemble des informations utiles sur un sujet le plus souvent transversal aux structures fonctionnelles et organisationnelles de l’entreprise.
29/11/2009 28Master F3I (Data Mining et Apprentissage Automatique)
Les 5 caractéristiques des data warehouse
On peut ainsi passer d’une vision verticale de l’entreprise à une vision transversale beaucoup plus riche en informations. On dit que le Datawarehouse est orienté « métier », en réponse aux différents métiers de l’entreprise qu’il est censé préparer à l’analyse
29/11/2009 29Master F3I (Data Mining et Apprentissage Automatique)
Les 5 caractéristiques des data warehouse
é i é é2. Données intégrées:Normalisation des donnéesDéfinition d’un référentiel uniqueDéfinition d un référentiel unique
h,f
1,0
homme femme
h,f
homme, femme
DA
FFEUR
29/11/2009 30
FS
Master F3I (Data Mining et Apprentissage Automatique)
Les 5 caractéristiques des data warehouse
Les données en provenance de sources hétérogènes ou d'origines diverses (y compris des fichiers externes de cotation ou de scoring).Il s’agit alors d’intégrer les données en provenance de diverse sources afin de les homogénéiser et de leur donner un sens unique, compréhensible par tous les utilisateurs.La transversalité recherchée sera d’autant plus efficiente que le système d’information sera réellement intégré.Cette intégration nécessite une forte normalisation, une Cette intégration nécessite une forte normalisation, une bonne gestion des référentiels et de la cohérence, une parfaite maîtrise de la sémantique et des règles de gestion s’appliquant aux données manipulées.pp q pCe n’est qu’au prix d’une intégration « réussie » que l’on peut offrir une vision homogène et cohérente de l’entreprise via ses indicateurs
29/11/2009 31
p
Master F3I (Data Mining et Apprentissage Automatique)
Les 5 caractéristiques des data warehouse
3 Données non volatiles3. Données non volatilesTraçabilité des informations et des décisions prisesCopie des données de production
Ajout
Bases de production Entrepôts de données
Suppression
Accès
Modification Chargement
29/11/2009 32Master F3I (Data Mining et Apprentissage Automatique)
Les 5 caractéristiques des data warehouse
stables, en lecture seule, non modifiables.Afin de conserver la traçabilité des informations et des décisions prises, les informations stockées au sein du pDatawarehouse ne doivent pas disparaître.Une même requête lancée plusieurs fois, et ce à des mois d’intervalle, sur une même population doit restituer les , p pmêmes résultats.dès lors qu’une donnée a été qualifiée pour être introduite au sein du Datawarehouse, elle ne peut ni être altérée, ni au sein du Datawarehouse, elle ne peut ni être altérée, ni modifiée, ni supprimée (ou en tout cas en deçà d’un certain délai de purge). Elle devient, de fait, partie prenante de l’historique de l’entreprise.p q p
29/11/2009 33Master F3I (Data Mining et Apprentissage Automatique)
Les 5 caractéristiques des data warehouse
4 Données datées ou archivées historisées4. Données datées ou archivées historiséesLes données persistent dans le tempsMise en place d’un référentiel temps
Ali Alger Ali M’silaImage de la base en Mai 2005 Image de la base en Juillet 2006
Base de Ali Alger
Samir SétifAli M’sila
Samir SétifBase de production
1 2005 M i1 Ali Alger
Entrepôt 1 2005 Mai
2 2006 Juillet1 Samir Sétif
2 Ali M’sila
pde données
29/11/2009 34
2 Ali M sila
Master F3I (Data Mining et Apprentissage Automatique)
Les 5 caractéristiques des data warehouse
Avec une conservation de l'historique et de son évolution pour permettre les analyses comparatives (par exemple, d'une année sur l'autre, etc.). La non-volatilité permet l’historisation. D’un point de vue fonctionnel, cette propriété permet de suivre dans le temps l’évolution des différentes valeurs des indicateurs à analyser. De fait, dans un Datawarehouse un référentiel de temps est nécessaire. C’est l’axe temps ou période
29/11/2009 35Master F3I (Data Mining et Apprentissage Automatique)
Les 5 caractéristiques des data warehouse
5 Données mutidimentionnelles5. Données mutidimentionnellesprésentées selon différents axes d'analyse ou « dimensions » (par exemple : le temps, les types ou segments de clientèle, les différentes gammes de produits les différents secteurs les différentes gammes de produits, les différents secteurs régionaux ou commerciaux, etc.).Le Datawarehouse est conçu pour contenir les données en dé ti l b i t l t f t d adéquation avec les besoins actuels et futurs de
l’organisation, et répondre de manière centralisée à tous les utilisateurs.
29/11/2009 36Master F3I (Data Mining et Apprentissage Automatique)
SGBD et DW
Servicecommercial
ServiceFinancier
Servicelivraison
BD prod BD prod BD prod
OLTP: On-Line Transactional BD prod BD prod BD prod
ClientèleProcessing
HI
Data WarehouseISTOOLAP: On-Line
ClientèleRIQ
O O eAnalitical Processing
29/11/2009 37
UE
Master F3I (Data Mining et Apprentissage Automatique)
OLTP VS DW
OLTP DWOrienté transaction Orienté analyse
Orienté application Orienté sujet
Données courantes Données historisées
Données détaillées Données agrégées
Données évolutives Données statiquesDonnées évolutives Données statiques
Utilisateurs nombreux, administrateurs/opérationnels
Utilisateurs peu nombreux, manager
Temps d’exécution: court Temps d’exécution: long
29/11/2009 38Master F3I (Data Mining et Apprentissage Automatique)
Plan
IntroductionLes entrepôts de donnéesLes datamartArchitectureModélisation Alimentation Les bases de données multidimensionnellesLe marché du décisionnelDémonstration
29/11/2009 39Master F3I (Data Mining et Apprentissage Automatique)
Datamart
Sous-ensemble d’un entrepôt de données Destiné à répondre aux besoins d’un secteur ou d’une fonction particulière de l’entreprisePoint de vue spécifique selon des critères
étimétiers
Datamarts du service Marketing
Datamart du i R
29/11/2009 40
service Ressources Humaines
DW de l’entreprise
Master F3I (Data Mining et Apprentissage Automatique)
Intérêt des datamart
é éNouvel environnement structuré et formaté en fonction des besoins d’un métier ou d’un usage particulierparticulierMoins de données que DW
Plus facile à comprendre à manipulerPlus facile à comprendre, à manipulerAmélioration des temps de réponse
Utilisateurs plus ciblés: DM plus facile à définirU sa eu s p us c b és: p us ac e à dé
29/11/2009 41Master F3I (Data Mining et Apprentissage Automatique)
Plan
IntroductionLes entrepôts de donnéesLes datamartArchitectureModélisation Alimentation Les bases de données multidimensionnellesLe marché du décisionnelDémonstration
29/11/2009 42Master F3I (Data Mining et Apprentissage Automatique)
Architecture générale
Zone de préparationZone de
présentationZone de stockage
E
RequêtesTransformations:
CHA
EXTR
Data warehouse
RequêtesRapports
VisualisationData Mining
Transformations:Nettoyage
Standardisation
RGE
ACTI Data Mining
…
Sources de
…
Datamart
MENT
ION
Sources de données
DatamartT
29/11/2009 43Master F3I (Data Mining et Apprentissage Automatique)
Les flux de données
Flux entrantExtraction: multi-source, hétérogèneTransformation: filtrer trier homogénéiser nettoyerTransformation: filtrer, trier, homogénéiser, nettoyerChargement: insertion des données dans l’entrepôt
Flux sortant:Flux sortant:Mise à disposition des données pour les utilisateurs finaux
29/11/2009 44Master F3I (Data Mining et Apprentissage Automatique)
Les différentes zones de l’architecture
Z d é ti (St i ) Zone de préparation (Staging area) Zone temporaire de stockage des données extraitesRéalisation des transformations avant l’insertion dans le DW:
N ttNettoyageNormalisation…
Données souvent détruites après chargement dans le DWZone de stockage (DW DM)Zone de stockage (DW, DM)
On y transfère les données nettoyéesContient les données de l’entreprise
Zone de présentationZone de présentationZone d’accès aux données contenues dans le DWPeut contenir des outils d’analyse programmés:
RapportsRapportsRequêtes…
29/11/2009 45Master F3I (Data Mining et Apprentissage Automatique)
1- Architecture à deux niveaux
29/11/2009 46Master F3I (Data Mining et Apprentissage Automatique)
1- Architecture à deux niveaux
Dans cette architecture nous retrouvons :Dans cette architecture nous retrouvons :Le staging area : Le staging area est temporaire il sert à stocker les données extraites (E) des systèmes sources. C'est dans le staging area que l'on effectue les différentes dans le staging area que l on effectue les différentes transformations (T) à savoir : Le nettoyage des données, le merge, la standardisation, le déduplication... des données. Les données dans le staging area sont détruites une fois le g gchargement des data marts terminé en succès.Le Datawarehouse : Les données du staging area sont transférées vers le datawarehouse (L). Il est important de transférées vers le datawarehouse (L). Il est important de noter que le méta data est aussi stocké dans le datawarehouse. Le datawarehouse est centrale et devrait être contenir toutes les données de l'entreprise.pLa zone présentation : Une fois les données chargées dans le datawarehouse, les utilisateurs peuvent y accéder pour exécuter leurs requêtes Ad hoc, programmer les rapports,
29/11/2009 47
e écu e eu s equê es d oc, p og a e es appo s, analyser et visualiser l'information
Master F3I (Data Mining et Apprentissage Automatique)
2- Les DataMarts Indépendants
29/11/2009 48Master F3I (Data Mining et Apprentissage Automatique)
2- Les DataMarts Indépendants
Dans cette architecture nous retrouvons : L'architecture prônée Dans cette architecture nous retrouvons : L architecture prônée par Kimball :
Le staging area : Le staging area est temporaire il sert à stocker les données extraites (E) des systèmes sources. C'est stocker les données extraites (E) des systèmes sources. C est dans le staging area que l'on effectue les différentes transformations (T) à savoir : Le nettoyage des données, le merge, la standardisation, le déduplication... des données. g , , pLes données dans le staging area sont détruites une fois le chargement des data marts terminé en succès.Les data marts indépendants : Les données du staging area Les data marts indépendants : Les données du staging area sont transférées vers le datamart concerné (L). Il est important de noter que le méta data est aussi stocké dans le datamart. Les data marts sont indépendants ce qui veut p qdire qu'il n'existe aucune intégration (Communication) entre ces derniers.
29/11/2009 49Master F3I (Data Mining et Apprentissage Automatique)
2- Les DataMarts Indépendants
Dans cette architecture nous retrouvons : L'architecture prônée Dans cette architecture nous retrouvons : L architecture prônée par Kimball :
La zone présentation : Une fois les données chargées dans les Data marts, les utilisateurs peuvent y accéder pour les Data marts, les utilisateurs peuvent y accéder pour exécuter leurs requêtes Ad hoc, programmer les rapports, analyser et visualiser l'information en provenance des data marts, analyser et visualiser l'information, y
29/11/2009 50Master F3I (Data Mining et Apprentissage Automatique)
2- Les DataMarts Indépendants
Avantages:Avantages:permet de répondre rapidement à des besoins extrêmement urgents dans des départements où la gestion est décentraliséeest décentraliséeutile lorsque le budget alloué pour le déploiement de l'architecture ne permet pas la construction d'un système global intégréglobal intégrépermet de voir des résultats à court termepermet de justifier la poursuite des développements plus globauxglobauxnécessite des coûts moindres en termes d’équipements et autres ressources à court termepeut être utilisée lorsque la gestion des données est déjà décentralisée et que les données gérées sont propres à chacun des groupes de l’organisation
29/11/2009 51Master F3I (Data Mining et Apprentissage Automatique)
2- Les DataMarts Indépendants
Inconvénients :Inconvénients :peut entraîner des problèmes d’évolutivité vers une architecture plus robustedoit faire partie d’un processus global pour être réussidoit faire partie d un processus global pour être réussides problèmes de redondance et d’inconsistances sont possibles
29/11/2009 52Master F3I (Data Mining et Apprentissage Automatique)
3- Datamarts dépendants avec ODS
L'ODS : L'ODS est l'acronyme pour Operational Data Store
29/11/2009 53Master F3I (Data Mining et Apprentissage Automatique)
3- Datamarts dépendants avec ODS
Dans cette architecture nous retrouvons : L'architecture prônée Dans cette architecture nous retrouvons : L architecture prônée par Bill Inmon :
L'ODS : L'ODS est l'acronyme pour Operational Data Store ou Magasin de données opérationnelles. Il joue deux rôles : ou Magasin de données opérationnelles. Il joue deux rôles : Le rôle du staging area qui sert à stocker les données extraites (E) des systèmes sources. On y effectue aussi les différentes transformations (T) à savoir : Le nettoyage des ( ) y gdonnées, le merge, la standardisation, le déduplication... des données. Par contre les données dans l'ODS ne sont détruites Par contre les données dans l ODS ne sont détruites qu'après la durée de vie des opérations qui est un facteur définit par l'organisation et dépend de plusieurs critères.Le deuxième rôle d'un ODS et c'est surtout sa raison d'être Le deuxième rôle d un ODS et c est surtout sa raison d être c'est d'intégrer les données sources dans le but de présenter toute l'information nécessaire à prendre des décisions tactiques
29/11/2009 54
déc s o s ac ques
Master F3I (Data Mining et Apprentissage Automatique)
3- Datamarts dépendants avec ODS
L'Entreprise Datawarehouse : Les données de l'ODS sont L Entreprise Datawarehouse : Les données de l ODS sont transférées vers le datawarehouse (L). Le Datawarehouse est centrale, c'est d'ailleurs la raison de l'appellation Entreprise Datawarehouse (EDW), et devrait être contenir p ( )toutes les données de l'entreprise.Les data marts dépendants : Ces data marts peuvent être alimentés soit de L'EDW soit de l'ODS. Ces data marts sont dépendants.La zone présentation : Une fois les données chargées dans le Datawarehouse et les data marts dépendants, les le Datawarehouse et les data marts dépendants, les utilisateurs peuvent y accéder pour exécuter leurs requêtes Ad hoc, programmer les rapports, analyser et visualiser l'information...
29/11/2009 55Master F3I (Data Mining et Apprentissage Automatique)
3- Datamarts dépendants avec ODS
Avantages:Avantages:définition des données intégrée et très consistantefonctionne habituellement bien lorsque la gestion des données est déjà centralisée à un certain niveaudonnées est déjà centralisée à un certain niveau
Inconvénients :demande des efforts très importants de planification demande des efforts très importants de planification, d’analyse et de conception au début du projetcoût de réalisation significatif
é t d dél i t l’i l t ti fi l i présente des délais avant que l’implantation finale puisse être fonctionnelleretour d’investissement et bénéfices visibles seulement à l tlong termedemande une bonne coordination entre les différents groupes de l’organisation et les consensus peuvent être
à
29/11/2009 Ecole Doctorale (Data Mining et ...) 56
difficiles à obtenir
4- Datamarts logiques avec datawarehouse actif
• Les datamarts ne sont pas des bases de donnéesséparées mais des vues logiques des datawarehouses.
29/11/2009 57Master F3I (Data Mining et Apprentissage Automatique)
4 C t ti d’ DW4- Construction d’un DW
29/11/2009 58Master F3I (Data Mining et Apprentissage Automatique)
4 C t ti d’ DW4- Construction d’un DW
Les composants fonctionnels d'un entrepôt de données s'observent sur trois Les composants fonctionnels d un entrepôt de données s observent sur trois niveaux : l'acquisition des données, leur stockage, leur exploitation (restitution des informations décisionnelles)
PREMIER NIVEAU:ACQUISITION DES DONNEES QLe premier niveau est celui de l'acquisition des données qui vont alimenter l'entrepôt de données. L'hétérogénéité des supports d'où sont issues les données à extraire a pour corollaire la complexité de la phase d'alimentation de l'entrepôt de données. En effet, les systèmes d’information opérationnels sont, le plus souvent, composés d’applications y p , p , p ppmultiples, destinées chacune à traiter un domaine d’activité spécifique (approvisionnement, production, vente,…). Le composant d'acquisition des données a donc pour vocation d'unifier les données opérationnelles qui, à la base, ne sont pas normalisées. Il est important de porter une grande attention à la nature et à la qualité des p p g qdonnées avant de les extraire à destination du système d'information décisionnel. Après avoir identifié, parmi toutes les données présentes dans les systèmes d'information opérationnels ou issues de bases de données externes, celles utiles à l'aide à la décision, il est nécessaire d'analyser leur qualité tant en termes de capacités de rapprochement y q p ppd'un même référentiel lors de leur arrivée dans l'entrepôt de données, qu'en termes de nettoyage. Si l'on souhaite conserver une cohérence entre les données visualisées du côté transactionnel et du côté décisionnel, leur nettoyage s'effectuera à la source plutôt que dans l'entrepôt de données.
29/11/2009 59
q p
Master F3I (Data Mining et Apprentissage Automatique)
4 C t ti d’ DW4- Construction d’un DW
A) ALIMENTATION DE L'ENTREPOT DE DONNEESL'alimentation des données à partir des bases de production est une phase primordiale d'un datawarehouse. Des outils logiciels sont alors nécessaires pour intégrer les données d l d t h O l d' til ETL (E t t T f L d)dans le datawarehouse. On parle d'outil ETL (Extract, Transform, Load).Extract-Transform-Load est connu sous le terme ETL, ou Extracto-Chargeur, (ou parfois : datapumping). Il s'agit d'une technologie informatique permettant d'effectuer des synchronisations massives d'information d'une base de données vers une autre. Selon le conte te on trad ira par alimentation e traction transformation constit tion contexte, on traduira par « alimentation », « extraction », « transformation », « constitution » ou « conversion », souvent combinés. Elle repose sur des connecteurs servant à exporter ou importer les données dans les applications (Ex : connecteur Oracle), des transformateurs qui manipulent les données (agrégations, filtres, conversions...), et des mises en correspondance (mappages) L'objectif est l'intégration par l'entreprise de ces mises en correspondance (mappages). L'objectif est l'intégration par l'entreprise de ces données.
29/11/2009 60Master F3I (Data Mining et Apprentissage Automatique)
4 C t ti d’ DW4- Construction d’un DW
A l'origine, les solutions d'ETL sont apparues pour le chargement régulier de donnéesagrégées dans les entrepôts de données (ou datawarehouse), avant de se diversifier vers g g p ( )les autres domaines logiciels. Ces solutions sont largement utilisées dans le monde bancaire et financier, ainsi que dans l'industrie, au vu de la multiplication des nombreuses interfaces.
29/11/2009 61Master F3I (Data Mining et Apprentissage Automatique)
4 C t ti d’ DW4- Construction d’un DW
Actuellement il existe trois catégories d’outils ETL :
Engine-based : les transformations sont exécutées sur un serveur ETL, disposant en général d’un référentiel. Ce genre d’outil dispose d’un moteur de transformation ;Database-embedded : les transformations sont intégrées dans la base de données. Cette fonctionnalité est très consommatrice de ressource
l b d d ésur la base de données.Code-generators : les transformations sont conçues et un code est généré. Ce code est déployable indépendamment de la base de donnéesdonnées.
29/11/2009 62Master F3I (Data Mining et Apprentissage Automatique)
4 C t ti d’ DW4- Construction d’un DW
Les phases de l'alimentation d'un datawarehouse sont les suivantes :
1- Découverte des données : Il s'agit d'identifier dans les systèmes sources les données à importer dans le datawarehouse. Il faut prendre les données les plus judicieuses. Un mauvais choix peut considérablement compliquer les phases suivantes de l'alimentation.2- Extraction des données : Il s'agit de collecter les données utiles dans l tè d d ti ( ) Il f t id tifi l d é t les systèmes de production(sources). Il faut identifier les données ayant été modifiées afin d'importer le minimum de données dans le datawarehouse. Et pour ce faire on pourrait s'entendre avec le
bl d tè j t it fl d responsable du système source pour ajouter soit un flag ou encore des dates dans chacune des tables extraites, au moins deux dates : Date de création de l'enregistrement dans la table et la date de mise à jour (En général la plupart des systèmes sources disposent de ces deux dates) général la plupart des systèmes sources disposent de ces deux dates). Par ailleurs pour ne pas perdre des données suites à des problèmes d'extraction, il est important de s'assurer que le système source ne purge pas les données avant que l'entrepôt ne les ait extraits
29/11/2009 63
pas les données avant que l entrepôt ne les ait extraits.
Master F3I (Data Mining et Apprentissage Automatique)
4 C t ti d’ DW4- Construction d’un DW
Les phases de l'alimentation d'un datawarehouse sont les suivantes :
3- Transformation des données : est la tâche la plus complexe et qui demande beaucoup de réflexion.Voici les grandes fonctionnalités de transformation :_ Nettoyage des données_ Standardisation des données. C f ité d d é_ Conformité des données.
_ Gestion des tables de fait_ Gestion des dimensions t_ ……etc.
Il faut rendre les données cohérentes avec la structure du datawarehouse. On d'applique alors des filtres sur les données Il peut être nécessaire de convertir le format des données alors des filtres sur les données. Il peut être nécessaire de convertir le format des données (EBCDIC vers ASCII par exemple) ou d'harmoniser les formats de dates (jj/mm/aaaa). Il faut également associer les champs source avec les champs cibles. Un champ source « adresse » pourra ainsi par exemple être décomposé en « numéro », « rue », « code postal », « ville » ou l'inverse Enfin des données des systèmes de production doivent être agrégées ou calculées
29/11/2009 64
l inverse. Enfin des données des systèmes de production doivent être agrégées ou calculées avant leur chargement.
Master F3I (Data Mining et Apprentissage Automatique)
4 C t ti d’ DW4- Construction d’un DW
Les phases de l'alimentation d'un datawarehouse sont les suivantes :
4- Chargement des données : C'est la dernière phase de l'alimentationd'un datawarehouse. Il s'agit d'insérer les données au sein dudatawarehouse. C'est une phase délicate car les quantités de donnéessont souvent très importantes.Il permet de transférer les données versleur destination finale.
3 cas de figures se présentent, selon l’architecture mise en place
1) d h l d é d l' t ôt d d é1) de charger les données dans l'entrepôt de données:Si la politique retenue a été de construire un entrepôt de données avecune base de données, alors les données seront chargées dans l'entrepôt.Cette approche est proche à celle de Bill Inmon Il sera dés lors possibleCette approche est proche à celle de Bill Inmon. Il sera dés lors possibled’utiliser des fonctionnalités analytiques (comme , permis par, Oracle).
29/11/2009 65Master F3I (Data Mining et Apprentissage Automatique)
4 C t ti d’ DW4- Construction d’un DW
Les phases de l'alimentation d'un datawarehouse sont les suivantes :
2) de les charger dans des cubes de données :La deuxième possibilité est de charger les données directement dans des cubes de données sans les stocker dans un DW.Cette approche est certainement la plus proche à celle de Ralph Kimball. Un bon exemple est l'utilisation directe des cubes de données.
3) le mode hybride:La troisième possibilité est celle offre le plus d’avantages mais demande
t l d' ff t L h t d d é ’ ff t à l f i par contre plus d'effort. Le chargement des données s’effectue à la fois sur le datawarehouse et les datamarts :- Un premier chargement des données dans un entrepôt de données.
Un deuxième chargement dans des cubes de données- Un deuxième chargement dans des cubes de données.
Par contre cette approche ajoute une charge de travail très considérable pour l'équipe de développement (Aucun impact sur les utilisateurs) :
Une base de données à créer et à maintenir
29/11/2009 66
- Une base de données à créer et à maintenir.- Un exercice de réflexion sur le modèle de données du datawarehouse.-Un autre exercice de réflexion sur le modèle des métas donnés.
Master F3I (Data Mining et Apprentissage Automatique)
4 C t ti d’ DW4- Construction d’un DW
Les composants fonctionnels d'un entrepôt de données s'observent sur trois Les composants fonctionnels d un entrepôt de données s observent sur trois niveaux : l'acquisition des données, leur stockage, leur exploitation (restitution des informations décisionnelles)
DEUXIEME NIVEAU: STOCKAGE DES DONNEESLe second niveau est celui de la gestion des données. Sa principale vocation est d'assurer leur stockage dans une base décisionnelle souvent sous un SGBDR. Les données sont structurées en contexte d'analyse décisionnelle et sont orientées vers l'utilisateur décisionnel ;les données sont le plus souvent structurées selon des modèles en étoile.C’est à ce niveau que l’on construit des cubes multidimensionnels. Le composant de gestion des données permet ainsi de réaliser au travers des cubes des interrogations sur plusieurs dimensions (diffé t i t d ) d d é t d l' t ôt(différents points de vue) des données contenues dans l'entrepôt..
29/11/2009 67Master F3I (Data Mining et Apprentissage Automatique)
4 C t ti d’ DW4- Construction d’un DW
Classes de données : Le datawarehouse se structure en quatre Classes de données : Le datawarehouse se structure en quatre classes de données, organisées selon un axe historique et un axe synthétique.
1-Les données détaillées : Elles reflètent des évènements les plus récents. Les données provenant des systèmes de production sont intégrées à ce niveau. Elles présentent des avantages évidents ég ées à ce eau. es p ése e des a a ages é de s (profondeur et niveau de détail, possibilité d'appliquer de nouveaux axes d'analyse et même de revenir a posteriori sur le « passé ») mais représentent un plus grand volume et nécessitent donc des matériels p p gplus performants.
.
29/11/2009 68Master F3I (Data Mining et Apprentissage Automatique)
4 C t ti d’ DW4- Construction d’un DW
2-Les données agrégées : Elles correspondent à des éléments d'analyse représentatifs des besoins des utilisateurs. Ce sont donc des y pdonnées déjà traitées par le système et représentant un premier résultat d'analyse et de synthèse des données contenues dans les systèmes de production. Elles présentent d'autres avantages (facilité y p p g (d'analyse, rapidité d'accès, moindre volume) mais il n'est pas toujours possible de retrouver le détail et la profondeur des indicateurs une fois ceux-ci agrégés et figés : on prend le risque de figer les donnéesdans une certaine vue, selon les axes d'agrégation retenus, et de ne plus pouvoir revenir plus tard sur ces critères si l'on n'a pas conservé le détail (par exemple, si l'on a agrégé les résultats par mois, il ne sera
t êt l ibl d f i l j é )peut-être plus possible de faire une analyse par journée).et de celles du datawarehouse.
29/11/2009 69Master F3I (Data Mining et Apprentissage Automatique)
4 C t ti d’ DW4- Construction d’un DW
3-Les données historisées : Chaque nouvelle insertion dans le datawarehouse ne détruit pas les anciennes valeurs mais crée une nouvelle insertion.
4 L ét d é Il ' it d d é l d é Ell 4- Les méta données : Il s'agit « de données sur les données ». Elles décrivent les règles ou processus attachés aux données du système. Les méta données permettront notamment de connaître:
• quelles sont les données entreposées, leurs formats, leurs significations, leurs degrés d'exactitude.• les processus de récupération/extraction dans les bases sources• les processus de récupération/extraction dans les bases sources.• la date du dernier chargement du datawarehouse.• l'historique des données sources et de celles du datawarehouse.
29/11/2009 70Master F3I (Data Mining et Apprentissage Automatique)
4 C t ti d’ DW4- Construction d’un DW
Stockage de données : Le stockage au sein d'un Stockage de données : Le stockage au sein d un datawarehouse a un besoin de synthèse (agrégation des données) et un besoin de détails (conservation des données détaillées). Ce stockage peut être réalisé de trois manières détaillées). Ce stockage peut être réalisé de trois manières différentes : structure directe simple, structure de cumul simple, par résumé déroulant.
29/11/2009 71Master F3I (Data Mining et Apprentissage Automatique)
4 C t ti d’ DW4- Construction d’un DW
1-Structure directe simple: On fait des mises à jour du datawarehouse 1-Structure directe simple: On fait des mises à jour du datawarehouse avec des laps de temps important.
29/11/2009 72Master F3I (Data Mining et Apprentissage Automatique)
4 C t ti d’ DW4- Construction d’un DW2- Structure de cumul simple : on stocke les données de chaque mise à j l i à j ét t f é t ( l t l j ) jour, les mises à jour étant fréquentes (par exemple tous les jours) on a un espace occupé important, mais on ne perd pas d’information
29/11/2009 Ecole Doctorale (Data Mining et ...) 73
4 C t ti d’ DW4- Construction d’un DW3-Structure par résumé déroulant : à chaque mise à jour, on stocke des d é dét illé t théti l i d é f ti données détaillées, et on synthétise les anciennes données en fonction de leur age. Plus une donnée est vieille, moins elle est détaillée
29/11/2009 Ecole Doctorale (Data Mining et ...) 74
4 C t ti d’ DW4- Construction d’un DW
Les composants fonctionnels d'un entrepôt de données s'observent sur trois Les composants fonctionnels d un entrepôt de données s observent sur trois niveaux : l'acquisition des données, leur stockage, leur exploitation (restitution des informations décisionnelles)
TROISIEME NIVEAU:RESTITUTION DES INFORMATIONS DECISIONNELLESLe troisième niveau est celui des restitutions des informations décisionnelles dans des applications pouvant se greffer sur la base décisionnelle. Cette fonction est assurée par des outils décisionnels variés comme des outils de reporting des outils de tableaux de bord des outils de Balanced Scorecardreporting, des outils de tableaux de bord, des outils de Balanced Scorecardou des outils de fouille de données. Pour un même outil, le type d'utilisation est également de différents ordres. Ainsi, pour un outil de requêtage, l'utilisateur peut vouloir accéder à des p q g prapports prédéfinis fixes, modifier les paramètres de rapports prédéfinis ou créer son propre rapport. De la même manière, un rapport peut être exécuté directement par l'utilisateur ou le résultat envoyé dans sa messagerie». Les personnes qui produisent les tableaux de bord n'auront pas à saisir des personnes qui produisent les tableaux de bord n auront pas à saisir des données alimentant leurs tableaux. Ce qui a pour effet d'augmenter les qualités des tableaux de bord au niveau notamment de la fiabilité et de la rapidité d'obtention des informations.
29/11/2009 75
p
Master F3I (Data Mining et Apprentissage Automatique)
4 C t ti d’ DW4- Construction d’un DW
En bref :
En conclusion Un entrepôt de données est une collection de données orientées sujet intégrées non volatiles et historisées organisées pour orientées sujet, intégrées, non volatiles et historisées, organisées pour supporter un processus d'aide à la décision. Typiquement ce processus est mené par l'intermédiaire de requêtes de type OLAP (On-line Analytical processing). Ces requêtes sont généralement (On line Analytical processing). Ces requêtes sont généralement complexes car elles contiennent de nombreuses opérations de jointure et de regroupement et induisent des temps de réponse très élèves.
29/11/2009 76Master F3I (Data Mining et Apprentissage Automatique)
Plan
IntroductionLes entrepôts de donnéesLes datamartArchitectureModélisationAlimentation Les bases de données multidimensionnellesLe marché du décisionnelDémonstration
29/11/2009 77Master F3I (Data Mining et Apprentissage Automatique)
Modélisation Entité/Association
A t Avantages: Normalisation:
Éliminer les redondancesÉliminer les redondancesPréserver la cohérence des données
Optimisation des transactionsRéduction de l’espace de stockage
Inconvénients pour un utilisateur final:Schéma très/trop complet:Schéma très/trop complet:
Contient des tables inutiles pour l’analysePas d’interface graphique capable de rendre utilisable le g p q pmodèle E/AInadapté pour l’analyse
29/11/2009 Ecole Doctorale (Data Mining et ...) 78
Exemple
M dMode d’expéditionTransporteur
Produit Commande client
Contrat
Groupe de produits
clientType de contrat Client
Famille de d i
Magasin
E l é produitsRégion de ventes
EmployéStock
29/11/2009 79
Division de ventes
Fonction FournisseursMaster F3I (Data Mining et Apprentissage Automatique)
Modélisation des DW
éNouvelle méthode de conception autour des concepts métiers
Ne pas normaliser au maximumNe pas normaliser au maximumIntroduction de nouveaux types de table:
Table de faitsTable de faitsTable de dimensions
Introduction de nouveaux modèles:oduc o de ou eau odè es:Modèle en étoileModèle en flocon
29/11/2009 80Master F3I (Data Mining et Apprentissage Automatique)
Table de faits
Table principale du modèle dimensionnelTable principale du modèle dimensionnelContient les données observables (les faits) sur le sujet étudié selon divers axes d’analyse (les dimensions)
Table de faits des ventesClé date (CE)Clé produit (CE)
Clés étrangères vers les
Clé magasin (CE)Quantité vendueCoût
vers les dimensions
CoûtMontant des ventes
Faits
29/11/2009 81Master F3I (Data Mining et Apprentissage Automatique)
Table de faits (suite)
Fait: Ce que l’on souhaite mesurer
Quantités vendues montant des ventesQuantités vendues, montant des ventes…Contient les clés étrangères des axes d’analyse (dimension)
Date, produit, magasin, p , gTrois types de faits:
AdditifSemi additifNon additif
29/11/2009 82Master F3I (Data Mining et Apprentissage Automatique)
Typologie des faits
Additif: additionnable suivant toutes les dimensions Additif: additionnable suivant toutes les dimensions Quantités vendues, chiffre d’affairePeut être le résultat d’un calcul:
Bénéfice = montant vente coûtBénéfice = montant vente - coûtSemi additif: additionnable suivant certaines dimensions
Solde d’un compte bancaire: P d d’ dditi l d t l Pas de sens d’additionner sur les dates car cela représente des instantanés d’un niveauΣ sur les comptes: on connaît ce que nous possédons en banquebanque
Non additif: fait non additionnable quelque soit la dimension Prix unitaire: l’addition sur n’importe quelle dimension donne un nombre dépourvu de sensnombre dépourvu de sens
29/11/2009 83Master F3I (Data Mining et Apprentissage Automatique)
Granularité de la table de faits
Répondre à la question :Que représente un enregistrement de la table de faits?
l i é défi i l i d dé il d l bl La granularité définit le niveau de détails de la table de faits:
Exemple: une ligne de commande par produit par client Exemple: une ligne de commande par produit, par client et par jour
Précision des analyses- + FinesseTaille de l’entrepôt
Finesse
29/11/2009 84Master F3I (Data Mining et Apprentissage Automatique)
Table de dimension
Axe d’analyse selon lequel vont être étudiées les Axe d analyse selon lequel vont être étudiées les données observables (faits)Contient le détail sur les faits
Dimension produitClé produit (CP)Code produit
Clé de substitution
Description du produitGroupe de produitsMarqueAttributs de la MarqueEmballagePoids
Attributs de la dimension
29/11/2009 85Master F3I (Data Mining et Apprentissage Automatique)
Table de dimension (suite)
Dimension = axe d’analyseClient, produit, période de temps…
Contient souvent un grand nombre de colonnesContient souvent un grand nombre de colonnesL’ensemble des informations descriptives des faits
Contient en général beaucoup moins Co e e gé é a beaucoup o s d’enregistrements qu’une table de faits
29/11/2009 86Master F3I (Data Mining et Apprentissage Automatique)
La dimension Temps
Di i T
Commune à l’ensemble du DW
Dimension TempsClé temps (CP)Jourdu DW
Reliée à toute table de faits
JourMoisTrimestrees eSemestre AnnéeN j d éNum_jour_dans_annéeNum_semaine_ds_année
29/11/2009 87Master F3I (Data Mining et Apprentissage Automatique)
Granularité d’une dimension
Une dimension contient des membres organisés en hiérarchie :
Ch d b ti t à i hié hi Chacun des membres appartient à un niveau hiérarchique (ou niveau de granularité) particulierGranularité d’une dimension : nombre de niveaux hiérarchiquesTemps :
année semestre trimestre moisannée – semestre – trimestre - mois
29/11/2009 88Master F3I (Data Mining et Apprentissage Automatique)
ÉÉvolution des dimensions
Dimensions à évolution lenteUn client peut se marier, avoir des enfants…Un produit peut changer de noms ou de formulation:Un produit peut changer de noms ou de formulation:
« Somam » en « Danon »« yaourt à la vanille » en « yaourt saveur vanille »
G ti d l it ti 3 l tiGestion de la situation, 3 solutions:Écrasement de l’ancienne valeurAjout de nouvel enregistrementj gValeur d’origine / valeur courante
Dimensions à évolution rapideS bit d h t t è f é t (t l i ) d t t Subit des changements très fréquents (tous les mois) dont on veut préserver l’historiqueSolution: isoler les attributs qui changent rapidement
29/11/2009 Ecole Doctorale (Data Mining et ...) 89
Dimensions à évolution lente (1/3)
ÉÉcrasement de l’ancienne valeur :Correction des informations erronées
Avantage: Avantage: Facile à mettre en œuvre
Inconvénients:Perte de la trace des valeurs antérieures des attributsPerte de la cause de l’évolution dans les faits mesurés
Clé produit Description du produit Groupe de produitsp p p p p12345 Intelli-Kids Logiciel
Jeux éducatifs
29/11/2009 90
Jeux éducatifs
Master F3I (Data Mining et Apprentissage Automatique)
Dimensions à évolution lente (2/3)
Ajout d’un nouvel enregistrement:Utilisation d’une clé de substitution
Avantages:Avantages:Permet de suivre l’évolution des attributsPermet de segmenter la table de faits en fonction de l’historique
Inconvénient:Accroit le volume de la table
Clé produit Description du produit Groupe de produitsClé produit Description du produit Groupe de produits12345 Intelli-Kids Logiciel25963 Intelli Kids Jeux éducatifs
29/11/2009 91
25963 Intelli-Kids Jeux éducatifs
Master F3I (Data Mining et Apprentissage Automatique)
Dimensions à évolution lente (3/3)
Ajout d’un nouvel attribut:Valeur origine/valeur courante
Avantages:Avantages:Avoir deux visions simultanées des données :
Voir les données récentes avec l’ancien attributVoir les données anciennes avec le nouvel attributVoir les données anciennes avec le nouvel attribut
Voir les données comme si le changement n’avait pas eu lieu
Inconvénient:é i i i i é i iInadapté pour suivre plusieurs valeurs d’attributs intermédiaires
Clé d it D i ti d G d NClé produit Description du produit
Groupe de produits
12345 Intelli Kids Logiciel
Nouveau groupe de produitsJeux éducatifs
29/11/2009 92
12345 Intelli-Kids Logiciel Jeux éducatifs
Master F3I (Data Mining et Apprentissage Automatique)
Dimensions à évolution rapide
Changements fréquents des attributs dont on veut garder l’historiquel’historique
Clients pour une compagnie d’assuranceIsoler les attributs qui évoluent viteq
29/11/2009 93Master F3I (Data Mining et Apprentissage Automatique)
Dimensions à évolution rapide (suite)Dim clientClé client
Dim clientClé_clientNom
Clé_clientNomPrénom
FaitsClé_client…Nom
PrénomAdresse
AdresseDate_naissance
…Faits
Clé_client
Clé dé
Dim_démographique
Date_nais…Revenus
… Clé_démog
Clé_démogRevenusNiveau étude
RevenusNiveau_étudeNb_enfants
Niveau_étude
Nb_enfants
Statut_marital
Statut_maritalProfil_financierProfil achat
29/11/2009 94
Profil_financier
Profil_achat
Profil_achat
Master F3I (Data Mining et Apprentissage Automatique)
Les types de modèles
Modèle en étoile Modèle en flocon
29/11/2009 95Master F3I (Data Mining et Apprentissage Automatique)
Modèle en étoile
Une table de fait centrale et des dimensionsLes dimensions n’ont pas de liaison entre ellesAvantages:
Facilité de navigationN b d j i t li itéNombre de jointures limité
Inconvénients: Redondance dans les dimensionsRedondance dans les dimensionsToutes les dimensions ne concernent pas les mesures
29/11/2009 96Master F3I (Data Mining et Apprentissage Automatique)
Modèle en étoileDimension Temps
ID tempsID tempsannéemoisjour Dimension produitj…
Dimension MagasinID magasindescription
Dimension produitID produit
nomcode
iT bl d f it A h tpville
surface…
prixpoids
groupefamille
Table de faits AchatID clientID temps
ID magasin
Dimension Region
famille…
Dimension Client
gID régionID produit
Quantité achetéeMontant des achatsg
ID régionpays
descriptiondistrict ente
ID clientnom
prénomadresse
Montant des achats
29/11/2009 97
district vente….
adresse…
Master F3I (Data Mining et Apprentissage Automatique)
Modèle en flocon
é éUne table de fait et des dimensions décomposées en sous hiérarchiesOn a un seul niveau hiérarchique dans une table de dimension La table de dimension de niveau hiérarchique le plus bas est reliée à la table de fait. On dit qu’elle a la granularité la plus fineAvantages:Avantages:
Normalisation des dimensionsÉconomie d’espace disque
Inconvénients:Inconvénients:Modèle plus complexe (jointure)Requêtes moins performantes
29/11/2009 98Master F3I (Data Mining et Apprentissage Automatique)
Modèle en floconDimension Temps
ID temps
Dimension produitID produitID groupe
nomID tempsanneemoisjourDimension Magasin
nomcodeprix
poids Dimension groupe…ID magasin
descriptionville
surface
…Dimension groupe
ID groupeID famille
nomTable de faits AchatID clientsurface
……
Dimension FamilleDimension Region
ID région
ID clientID temps
ID magasinID région Dimension Famille
ID famillenom…
ID régionID division vente
paysdescription
ID produitQuantité achetée
Montant des achats
Dimension ClientID client
nom
Dimension Division vente
ID di i i t
p….
29/11/2009 99
prénomadresse
…
ID division ventedescription
….Master F3I (Data Mining et Apprentissage Automatique)
Méthodologie: 9 étapes de Kimball
Ch i i l j t1. Choisir le sujet2. Choisir les faits3 Choisir la granularité des faits3. Choisir la granularité des faits4. Identifier et adapter les dimensions5 Stocker les pré-calculs5. Stocker les pré-calculs6. Établir les tables de dimensions7 Choisir la durée de la base7. Choisir la durée de la base8. Suivre les dimensions lentement évolutives9. Décider des requêtes prioritaires, des modes de q p ,
requêtes
29/11/2009 100Master F3I (Data Mining et Apprentissage Automatique)
Plan
IntroductionLes entrepôts de donnéesLes datamartArchitectureModélisation AlimentationLes bases de données multidimensionnellesLe marché du décisionnelDémonstration
29/11/2009 101Master F3I (Data Mining et Apprentissage Automatique)
Alimentation/ mise à jour de l’entrepôt
Entrepôt mis à jour régulièrementBesoin d’un outil permettant d’automatiser les chargements dans l’entrepôt
Utilisation d’outils ETL (Extract, Transform, Load)
29/11/2009 102Master F3I (Data Mining et Apprentissage Automatique)
Définition d’un ETL
Offre un environnement de développementOffre des outils de gestion des opérations et de maintenancemaintenancePermet de découvrir, analyser et extraire les données à partir de sources hétérogènespartir de sources hétérogènesPermet de nettoyer et standardiser les donnéesPermet de charger les données dans un entrepôtg p
29/11/2009 103Master F3I (Data Mining et Apprentissage Automatique)
Extraction
Extraire des données des systèmes de productionDialoguer avec différentes sources:
B d d é Base de données, Fichiers,Bases propriétaires
Utilise divers connecteurs :ODBC, SQL tif SQL natif, Fichiers plats
29/11/2009 104Master F3I (Data Mining et Apprentissage Automatique)
Transformation
Rendre cohérentes les données des différentes sourcesTransformer, nettoyer, trier les donnéesExemple: unifier le format des dates Exemple: unifier le format des dates (MM/JJ/AA JJ/MM/AA)
Etape très importante, garantit la cohérence et la fiabilité édes données
29/11/2009 105Master F3I (Data Mining et Apprentissage Automatique)
Chargement
Insérer ou modifier les données dans l’entrepôtUtilisation de connecteurs:
ODBC, SQL natif SQL natif, Fichiers plats
29/11/2009 106Master F3I (Data Mining et Apprentissage Automatique)
Aperçu d’un ETL
29/11/2009 107Master F3I (Data Mining et Apprentissage Automatique)
Plan
IntroductionLes entrepôts de donnéesLes datamartArchitectureModélisation Alimentation Les bases de données multidimensionnellesAccès à l’informationDémonstration
29/11/2009 108Master F3I (Data Mining et Apprentissage Automatique)
OLTP VS OLAP
PaysProduits PaysEspagne
poiresoranges
Produits
ProduitPK id produit
Algériepommes
A h t
PK id_produitLibelléFamille
FranceAchatPK id_achatFK id_client
janvier avrilVente de
pommes en
_id_produit
Quantitéclientid li t
jfévrier
TempsAlgérie en
avrilPK id_client
Nomadresse
29/11/2009 109Master F3I (Data Mining et Apprentissage Automatique)
ROLAP
Relational OLAPDonnées stockées dans une base de données relationnellesrelationnellesUn moteur OLAP permet de simuler le comportement d’un SGBD multidimensionnel
Plus facile et moins cher à mettre en placeMoins performant lors des phases de calculExemples de moteurs ROLAP:
MetaCube (Informix)DSS Agent (MicroStrategy)
29/11/2009 110Master F3I (Data Mining et Apprentissage Automatique)
MOLAP
M lti di i l OLAPMulti dimensional OLAP:Utiliser un système multidimensionnel « pur » qui gère les structures multidimensionnelles natives (les cubes)Accès direct aux données dans le cube
Plus difficile à mettre en placeFormats souvent propriétairesFormats souvent propriétairesConçu exclusivement pour l’analyse multidimensionnelleExemples de moteurs MOLAP:Exemples de moteurs MOLAP:
Microsoft Analysis ServicesEssbaseH iHyperion
29/11/2009 111Master F3I (Data Mining et Apprentissage Automatique)
HOLAP
Hybride OLAP:tables de faits et tables de dimensions stockées dans SGBD relationnel (données de base)relationnel (données de base)données agrégées stockées dans des cubes
Solution hybride entre MOLAP et ROLAPyBon compromis au niveau coût et performance
29/11/2009 112Master F3I (Data Mining et Apprentissage Automatique)
Le cube
é éModélisation multidimensionnelle des données facilitant l’analyse d’une quantité selon différentes dimensions:dimensions:
TempsLocalisation géographiqueg g p q…
Les calculs sont réalisés lors du chargement ou de la mise à jour du cube
29/11/2009 113Master F3I (Data Mining et Apprentissage Automatique)
Manipulation des données multidimensionnelles
é i iOpération agissant sur la structureRotation (rotate): présenter une autre face du cube
05 06 07 05 06 07
Œuf 221 263 139
Viande 275 257 116
Idf 101 120 52
QA 395 400 203
29/11/2009 114Master F3I (Data Mining et Apprentissage Automatique)
Manipulation des données multidimensionnelles
Opération agissant sur la structureOpération agissant sur la structureTranchage (slicing): consiste à ne travailler que sur une tranche du cube. Une des dimensions est alors réduite à une seule valeurune seule valeur
06
Œ f Idf 26505 06 07
Œ f Idf 220 265 284 Œuf Idf 265
QA 245Œuf Idf 220 265 284
QA 225 245 240Viande Idf 152
QA 174Viande Idf 163 152 145
QA 187 174 184
29/11/2009 115Master F3I (Data Mining et Apprentissage Automatique)
Manipulation des données multidimensionnelles
Opération agissant sur la structurep gExtraction d’un bloc de données (dicing): ne travailler que sous un sous-cube
05 06 07
Œ f Idf 220 265 284 05 06 07Œuf Idf 220 265 284
QA 225 245 24005 06 07
Œuf Idf 220 265 284Viande Idf 163 152 145
QA 187 174 184QA 225 245 240
29/11/2009 116Master F3I (Data Mining et Apprentissage Automatique)
Manipulation des données multidimensionnelles
Opération agissant sur la granularitéForage vers le haut (roll-up): « dézoomer »
Obtenir un niveau de granularité supérieurObtenir un niveau de granularité supérieurUtilisation de fonctions d’agrégation
Forage vers le bas (drill-down): « zoomer »Obt i i d l ité i fé iObtenir un niveau de granularité inférieurDonnées plus détaillées
29/11/2009 117Master F3I (Data Mining et Apprentissage Automatique)
Drill-up, drill-down
05 06 07Alim. 496 520 255
Roll upDimension TempsRoll up
05-07 1S05 2S05 1S06 2S06 1S0705 06 07
Tempsp
Œuf 623
Viande
648
Œuf 100 121 111 152 139Viande
134 141 120 137 116Œuf 221 263 139Viande
275 257 116
05 06 07Bœuf 20 19 22 Drill down
… … … …Omelette 40 43 48
Drill down
29/11/2009 118
Dimension Produit
Master F3I (Data Mining et Apprentissage Automatique)
MDX (Multidimensional Expressions)
Langage permettant de définir, d'utiliser et de récupérer des données à partir d'objets multidimensionnelsdes données à partir d'objets multidimensionnels
Permet d’effectuer les opérations décrites précédemmentEquivalent de SQL pour le monde OLAPq pOrigine: Microsoft
29/11/2009 119Master F3I (Data Mining et Apprentissage Automatique)
MDX, exemple
Fournir les effectifs d’une société pendant les années 2004 Fournir les effectifs d une société pendant les années 2004 et 2005 croisés par le type de paiement
SELECT {([Time].[2004]), ([Time].[2005])} ON COLUMNS,
{[Pay] [Pay Type] Members} ON ROWSDimensions,
axes d’analyse
{[Pay].[Pay Type].Members} ON ROWS
FROM RH Cubea es d a a yse
WHERE ([Measures].[Count])
2004 2005Heure 3396 4015
29/11/2009 120
Jour 3678 2056
Master F3I (Data Mining et Apprentissage Automatique)
Plan
IntroductionLes entrepôts de donnéesLes datamartArchitectureModélisation Alimentation Les bases de données multidimensionnellesLe marché du décisionnelDémonstration
29/11/2009 121Master F3I (Data Mining et Apprentissage Automatique)
Le marché du décisionnel
29/11/2009 122Master F3I (Data Mining et Apprentissage Automatique)
Quelques solutions commerciales
29/11/2009 123Master F3I (Data Mining et Apprentissage Automatique)
Quelques solutions open source
ETL Entrepôt de données
OLAP Reporting Data Mining
OctopusKettleCloverETL
MySqlPostgresqlGreenplum/Biz
MondrianPalo
BirtOpen ReportJasper Report
WekaR-ProjectOrangeCloverETL
TalendGreenplum/Biz
gresJasper ReportJFreeReport
OrangeXelopes
Intégré
Pentaho (Kettle, Mondrian, JFreeReport, Weka)S BISpagoBI
29/11/2009 124Master F3I (Data Mining et Apprentissage Automatique)
Plan
IntroductionLes entrepôts de donnéesLes datamartArchitectureModélisation Alimentation Les bases de données multidimensionnellesAccès à l’informationDémonstration
29/11/2009 125Master F3I (Data Mining et Apprentissage Automatique)
Description du cas d’étude
Société de la grande distributiongMode d’expéditionTransporteur
Produit
Commande clientContrat
Produit
Groupe de MagasinType de contrat
Client
produits
Famille deRégion de EmployéSt k Famille de
produits
Division
ventes
Fonction
Stock
F i
29/11/2009 126
Division de ventes
Fonction Fournisseurs
Master F3I (Data Mining et Apprentissage Automatique)
Les tables qui vont nous servir
ModeTransporteur Mode d’expédition
Transporteur
ProduitProduit
Groupe de
Commande client
T d
Contrat
Groupe de produits
Magasin
Type de contrat Client
Famille de produitsRégion de
tEmployés
St k
Division de
ventes
Fonction
Stock
F i
29/11/2009 127
Division de ventes
Fournisseurs
Master F3I (Data Mining et Apprentissage Automatique)
Modèle en flocon
29/11/2009 128Master F3I (Data Mining et Apprentissage Automatique)
Références
J H d M K b D t Mi i C tJ. Han, and M. Kamber. Data Mining Conceptsand Techniques. Morgan Kaufmann.
29/11/2009 Ecole Doctorale (Data Mining et ...) 129Master F3I (Data Mining et Apprentissage Automatique)