15
27/11/14 1 20142015 O. Boussaid 1 Le processus d'ETL Les Entrepôts de Données (Data Warehouses) 20142015 O. Boussaid 2 1. Généralités 2. Entreposage des données (Data warehousing) 2.1. : Phase d'ETL 2.1.1. Extraction de données 2.1.2. Transformation de données 2.1.3. Alimentation d'un ED 2.1.4. Administration d'un ED 3. La modélisation multidimensionnelle 4. L'analyse multidimensionnelle (OLAP) Les Entrepôts de Données

Le Processus ETL - Datawarehousing

Embed Size (px)

DESCRIPTION

Cours sur le processus ETL

Citation preview

  • 27/11/14

    1

    2014-2015 -- O. Boussaid 1

    Le processus d'ETL

    Les Entrepts de Donnes (Data Warehouses)

    2014-2015 -- O. Boussaid 2

    1. Gnralits

    2. Entreposage des donnes (Data warehousing) 2.1. : Phase d'ETL

    2.1.1. Extraction de donnes 2.1.2. Transformation de donnes 2.1.3. Alimentation d'un ED 2.1.4. Administration d'un ED

    3. La modlisation multidimensionnelle 4. L'analyse multidimensionnelle (OLAP)

    Les Entrepts de Donnes

  • 27/11/14

    2

    2014-2015 -- O. Boussaid 3

    Aprs avoir conu le modle des donnes, comment alimenter l'ED ?

    Processus d'ETL

    ( Extracting Transforming Loading )

    Construction d'un ED

    2014-2015 -- O. Boussaid 4

    Ce travail d'homoginisation ncessite des rgles

    prcises servant de dictionnaire (ou de rfrentiel) et qui seront mmorises sous forme de mtadonnes (information sur les donnes).

    Ces rgles permettent d'assurer des tches

    d'administration et de gestion des donns entreposes.

    Alimenter un ED

    Le principe de l'entreposage des donnes est de rassembler de multiples donnes sources qui souvent sont htrognes en les rendant homognes afin de les analyser.

  • 27/11/14

    3

    2014-2015 -- O. Boussaid 5

    Extract-Transform-Load est connu sous le terme ETL (ou parfois : data pumping). Il s'agit d'une technologie informatique intergicielle permettant d'effectuer des synchronisations massives d'information d'une banque de donnes vers une autre.

    Elle est base sur des connecteurs servant exporter ou importer les donnes dans les applications, des transformateurs qui manipulent les donnes (agrgations, filtres, conversions...), et des mises en correspondance (mappages).

    Le but est l'intgration de l'entreprise par ses donnes.

    Extract Transform - Load : ETL

    2014-2015 -- O. Boussaid 6

    Un systme ETL est tout systme qui permet :

    vd'offrir un environnement de dveloppement, des outils de gestion des oprations et de maintenance.

    vde dcouvrir, analyser et extraire les donnes partir de sources htrognes;

    vde nettoyer et standardiser les donnes selon les rgles d'affaires tablies par l'entreprise;

    vde charger les donnes dans un entrept de donnes dans et/ou les propager vers les data-marts.

    Extract Transform - Load : ETL

  • 27/11/14

    4

    2014-2015 -- O. Boussaid 7

    Les entreprises, aux dbuts des EDs avaient mis beaucoup d'emphase sur la prsentation et l'utilisation finale d'un DW.

    Avec l'accroissement du volume de donnes elles se sont, ensuite, focalises sur la modlisation dimensionnelle.

    De nos jours l'accent est plutt mis sur les systmes ETL

    Extract Transform - Load : ETL

    l'ETL n'est pas un simple programme d'extraction, transformation et de chargement et ne doit pas tre trait de la sorte. Il s'agit plutt d'un systme complexe.

    2014-2015 -- O. Boussaid 8

    L'alimentation d'un ED est un processus qui s'effectue en plusieurs tapes :

    Slection des donnes sources Extraction des donnes

    Transformation Chargement

    Le processus d'ETL

  • 27/11/14

    5

    2014-2015 -- O. Boussaid 9

    Quelles sont les donnes de production qu'il faut slectionner pour alimenter l'ED ? Toutes les donnes sources ne sont forcment pas utiles.

    Doit-on prendre l'adresse complte ou sparer le code postal ? Les donnes slectionnes seront rorganises pour servir la fabrication des informations. La synthse de ces donnes sources a pour but de les enrichir. La dnormalisation des donnes cre des liens entre les donnes et permet des accs diffrents

    Slection des donnes sources

    2014-2015 -- O. Boussaid 10

    La slection des donnes utiles partir des BD de production n'est pas simple faire .

    Les donnes sont : htrognes (diffrents SGBD et diffrentes mthodes d'accs); diffuses (diffrents environnements matriels et diffrents rseaux interconnects ou non); complexes (diffrents modles logiques et physiques principalement orients vers les traitements transactionnels). La dfinition de la granularit dpend du niveau de raffinement de l'information qu'on veut obtenir.

    Slection des donnes sources (suite)

  • 27/11/14

    6

    2014-2015 -- O. Boussaid 11

    Il existe plusieurs niveaux de donnes : Les donnes sont parfois assembles avant d'tre injectes dans l'ED permettant une vision intgre et transversale de l'entreprise. Cette forme de donnes constitue le niveau le plus fin au niveau de l'ED : ceux sont les donnes de dtail. Elles peuvent tre agrges et constituent ainsi un autre niveau de dtail. Elles seront par la suite structures dans des espaces d'analyse (soit des cubes de donnes, soit des data marts). Elles seront finalement un niveau de prsentation, o elles peuvent avoir plusieurs formes (tableaux, graphiques, tableaux de bord, rgles de connaissances...).

    Slection des donnes sources (suite)

    2014-2015 -- O. Boussaid 12

    L'extraction peut se faire travers un outil d'alimentation qui doit travailler de faon native avec les SGBD qui grent les donnes sources.

    Ou alors crer des pgms extracteurs. L'inconvnient de cette approche est le risque de faire des extractions errones, incompltes et qui peuvent biaiser l'ED.

    Il faut grer les anomalies en les traitant et en gardant une trace

    Extraction des donnes

  • 27/11/14

    7

    2014-2015 -- O. Boussaid 13

    L'extraction doit se faire conformment aux rgles prcises du rfrentiel.

    Elle ne doit pas non plus perturber les activits de production. Il faut faire attention aux donnes cycliques. Celles qu'on doit

    calculer chaque priode, pour pouvoir les prendre en considration.

    L'extraction peut se faire en interne selon l'horloge interne ou par un planificateur ou par la dtection d'une donne cible (de l'ED); ou en externe par des planificateurs externes.

    Les donnes extraites doivent tre marques par horodatage afin qu'elles puissent tre pistes.

    Extraction des donnes (suite)

    2014-2015 -- O. Boussaid 14

    Exemple

    Donns sources donnes cibles Appli 1 : male, femelle m, f Appli 2 : 1, 0 m, f Appli 3 : Masculin, fminin m, f

    C'est une suite d'oprations qui a pour but de rendre les donnes cibles homognes et puissent tre traites de faon cohrente.

    Donns sources donnes cibles Appli 1 : $150,000 800 000 UAH Appli 2 : 16 000 100 000 UAH Appli 3 : 200.000 1 940 000 UAH

    Transformation des donnes (suite)

  • 27/11/14

    8

    2014-2015 -- O. Boussaid 15

    q Les donnes doivent alors filtres afin d'liminer les donnes aberrantes: donnes sans valeurs, avec des valeurs manquantes.

    q Souvent dans les bases de production, certaines donnes sont smantiquement fausses.

    q Pour avoir une alimentation de qualit, il faut avoir une bonne connaissance des donnes entreposer et des rgles qui les rgissent. Savoir corriger les donnes pour les doter d'un vrai sens smantique.

    q On peut ddoubler des donnes pour gagner au niveau de la cohrence.

    Transformation des donnes (suite)

    2014-2015 -- O. Boussaid 16

    qL'ensemble des donnes sources, aprs nettoyage ou transformation d'aprs des rgles prcises ou par application de programmes (pour un contrle de vraisemblance par des mthodes statistiques), seront restructures et converties dans un format cible.

    qIl faut synchroniser les donnes pour que les valeurs agrges obtenues soient cohrentes, avant de passer la phase de chargement.

    Transformation (suite)

  • 27/11/14

    9

    2014-2015 -- O. Boussaid 17

    C'est l'opration qui consiste charger les donnes nettoyes et prpares dans le DW.

    C'est une opration qui risque d'tre assez longue. Il faut mettre en place des stratgies pour assurer de bonnes conditions sa ralisation et dfinir la politique de rafrachissement.

    C'est une phase plutt mcanique et la moins complexe.

    Chargement des donnes (suite)

    2014-2015 -- O. Boussaid 18

    Le dictionnaire (ou rfrentiel) de donnes est constitu de l'ensemble des mtadonnes.

    Il renferme des informations sur toutes les donnes de l'ED.

    Il renferme galement des informations sur chaque tape lors de la construction du DW ; sur le passage d'un niveau de donnes un autre lors de l'exploitation du DW.

    Le rle des mtadonnes est de permettre :

    La dfinition des donnes La fabrication des donnes Le stockage des donnes L'accs aux donnes La prsentation des donnes.

    Alimenter un ED

  • 27/11/14

    10

    2014-2015 -- O. Boussaid 19

    il existe trois catgories d'outils ETL :

    1.Engine-based : les transformations sont excutes sur un serveur ETL, disposant en gnral d'un rfrentiel. Ce genre d'outil dispose d'un moteur de transformation ;

    2.Database-embedded : les transformations sont intgres dans la BD ;

    3.Code-generators : les transformations sont conues et un code est gnr. Ce code est dployabe indpendamment de la base de donnes.

    Catgories des systmes d'ETL

    2014-2015 -- O. Boussaid 20

    Avantages des suites ETL :

    Dveloppement simple, rapide et moins coteux. Les cots de l'outil seront amortis rapidement pour les projets sophistiqus ou de grandes envergures. Des ressources disposant de connaissances du domaine d'affaire et n'ayant pas de grandes comptences en programmation peuvent dvelopper avec l'outil.

    Les outils ETL intgrent des rfrentiels de gestion des mta-data, tout en permettant de synchroniser les mta-data avec les systmes sources, les BDs de l'ED et autres outils BI. Les outils ETL permettent la gnration automatique du mta-data chaque tape du processus ETL et renforcent la mise en place d'une mthodologie commune de gestion de mta-data qui doit tre respecte par tous les dveloppeurs. Les outils ETL disposent de programme intgr qui permet de faciliter la documentation, la cration et la gestion de changement. L'outil ETL doit bien grer les dpendances complexes et les erreurs qui peuvent surgir en cours d'excution.

    Catgories des systmes d'ETL

  • 27/11/14

    11

    2014-2015 -- O. Boussaid 21

    Avantages des suites ETL (suite) : Le rfrentiel de mta-data des outils ETL peut produire automatiquement des rapports de mise en correspondance des donnes et d'analyse de dpendance de donnes

    Les outils ETL disposent de connecteurs intgrs pour la plupart des sources de donnes. Ils permettent aussi d'effectuer des conversions complexes de types de donnes (selon la source et la destination)

    Les outils ETL offrent des mcanismes de cryptage de compression en ligne de donnes La plupart des outils ETL offre une trs bonne performance mme pour une grande quantit de donnes.

    Un outil ETL peut, le cas chant, grer des scnarios d'quilibrage de la charge entre les serveurs.

    Les outils ETL permettent d'effectuer des analyses d'impact automatique suite un changement.

    Un outil ETL peut tre complt ou amlior en utilisant le scripting ou la programmation.

    Catgories des systmes d'ETL

    2014-2015 -- O. Boussaid 22

    Avantages des ETL-Maison :

    Les outils de tests unitaires automatique sont disponibles seulement pour les outils dvelopp maison.

    Les techniques de programmation oriente objet permettent de rendre consistantes la gestion des erreurs, la validation et la mise jour des mta-data.

    Il est possible de grer manuellement les mta-data dans le code et de crer des interfaces pour la gestion de ces dernires

    . Disponibilit des programmeurs dans l'entreprise.

    Un outil ETL est limit aux capacits du fournisseur.

    Un outil ETL est limit l'outil de scripting propritaire.

    Un outil dvelopp maison donne une grande flexibilit et si le besoin se prsente. Il est possible de tout faire.

    Catgories des systmes d'ETL

  • 27/11/14

    12

    2014-2015 -- O. Boussaid 23

    Quelle solution ? il est conseill de dvelopper votre systme ETL en utilisant une suite ETL. (avantages d'une telle solution) :

    Dfinir une fois, appliquer plusieurs fois (partage et rutilisation) L'analyse d'impact Le rfrentiel de mta-data L'agrgation incrmentale La gestion des traitements par lot Connectivit simplifie Traitements parallles et quilibrage de la charge L'exprience et le support du fournisseur

    Catgories des systmes d'ETL

    2014-2015 -- O. Boussaid 24

    Administration d'un ED

    L'ED est un aspect physique du SI de l'entreprise. Il doit tre par consquent volutif. Les donnes doivent donc changer. On doit procder d'autres alimentations et donc grer l'actualisation des donnes.

    Il existe des outils qui prennent en charge les tches de rafrachissement des donnes.

    Ils procdent par rplication pour propager les maj effectues dans les BD sources, dans l'ED.

    Le mcanisme de rplication et une opration de copie de donnes d'une BD vers une ou plusieurs BD.

    Les rplications sont alors asymtriques synchrones ou asynchrones ou alors symtriques synchrones ou asynchrones.

    Le rafrachissement des donnes peut se faire galement par des processus de transformation qui exploitent les mta-donnes.

  • 27/11/14

    13

    2014-2015 -- O. Boussaid 25

    @La fonction d'administration porte sur un aspect fonctionnel (qualit et la

    prennit des donnes) mais aussi sur un aspect technique (maintenance, optimisation, scurisation,...)

    @ Elle concerne l'ensemble des tches du processus d'entreposage de la slection des donnes de production la mise disposition pour construire les espaces d'analyse.

    @ L'administrateur de l'ED doit matriser la gestion des donnes (donnes, provenance des donnes, mta-donnes).

    @ Les donnes agrges sont aussi une production (information) de l'entreprise comme les donnes de production (ERP), doivent tre entreposes.

    @ Ainsi le dveloppement de l'ED tmoignera, aussi bien de la production de base que de l'activit informationnelle (pilotage de l'entreprise).

    @ Les requtes portent plus souvent sur les agrgats que sur les donnes de base (80% - 20%)

    Administration d'un ED (suite)

    2014-2015 -- O. Boussaid 26

    @ La fonction de DBA est trs recherche

    @ Les DBA sont bien rmunrs (mieux que les dveloppeurs) @ Les comptences demandes chez les DBA :

    Data warehousing (trs recherch)

    Services de transformation des donnes (ETL) Environnement de rplication

    Administration d'un ED (suite)

  • 27/11/14

    14

    2014-2015 -- O. Boussaid 27

    Kimball (2004) a dfinit 8 rles dont les plus sont :

    1.Gestionnaire ETL

    Grer quotidiennement l'quipe ETL. Dfinir les standards et procdures de l'environnement de dveloppement ETL

    (Rgles de nomenclature, Meilleures pratiques) Superviser le dveloppement, les tests et l'assurance qualit

    2.Architecte ETL

    Concevoir l'architecture et l'infrastructure de l'environnement ETL. Concevoir le mappage logique de donnes. Livrer les routines ETL en production. Apprhender les besoins d'affaire. Connatre les systmes source. Rsoudre les problmes techniques complexes.

    Rles et responsabilits

    2014-2015 -- O. Boussaid 28

    3. Dveloppeur ETL

    Dvelopper les routines ETL. Tester les routines ETL. S'assurer que les rsultats du processus ETL rpondent aux besoins d'affaire

    (Collaboration troite avec l'architecte ETL)

    4. Analyste systme

    Rassembler des besoins d'affaire. Documenter les besoins d'affaire. Travailler en collaboration avec toute l'quipe du DW (Non seulement celle du

    systme ETL).

    Rles et responsabilits (suite)

  • 27/11/14

    15

    2014-2015 -- O. Boussaid 29

    5.Spcialiste qualit de donnes

    S'assurer de la qualit des donnes dans l'entrept de donnes en entier. S'assurer que les rgles d'affaire sont bien implantes par les processus ETL

    (en collaboration avec l'analyste systme et l'architecte ETL)

    6.DBA

    Installer, configurer, migrer et maintenir la base de donnes. Traduire le modle logique de donnes en modle physique.

    Rles et responsabilits (suite)

    2014-2015 -- O. Boussaid 30

    Qu'est ce que l'ETL ? Approche traditionnelle pour alimenter un entrept de donnes. Les outils qui

    s'inscrivent dans cette logique disposent en gnral d'un moteur et sont installs sur des serveurs distincts.

    Tous les traitements de transformation se font par le biais du moteur ETL.

    Qu'est ce que l'ELT ? Approche ELT (Extraction, Loading, Transformation), gnre du code SQL natif pour

    chaque moteur de BD impliqu dans les processus - sources et cibles.

    Cette approche profite des fonctionnalits de chaque BD, et les requtes de transformation doivent respecter la syntaxe spcifique au SGBD.

    ETL ou ELT

    La dirence entre les 2 approches est dans les mthodes d'alimenta>on des entrepts de donnes.