Upload
api-3750267
View
986
Download
0
Embed Size (px)
Citation preview
UNIVERSITÉ DE BRETAGNE-SUD
IUP MISRUE YVES MAINGUY
56000 VANNES
Étude comparativedes différents outils d'ETL
(Extract, Transform, Load) dumarché
ETUDE RÉALISÉE DANS LE CADRE DU COURS
DE SYSTÈME DÉCISIONNEL
CHLOÉ FRIGUET
MARIE COUSSEAU
MASTER 1 STAT
SOUTENANCE : 12 MAI 2005
Mise en contexte..............................................................................................3
1.Principe de l’alimentation.............................................................................51.1.Extraction des données......................................................................................51.2.Transformation des données.............................................................................61.3.Chargement de données....................................................................................6
2.Les outils ETL....................................................................................... .........7
3.Le marché des outils ETL.............................................................................83.1.Les leaders du marché.....................................................................................10
3.1.1.Informatica : PowerCenter....................................................................................103.1.2.SAS : ETL Serveur...............................................................................................123.1.3.Ascential : Datastage et Datastage TX.................................................................12
3.2.Les challengers................................................................................................133.2.1.DataMirror : Transformation Server......................................................................133.2.2.Cognos : DecisionStream.....................................................................................143.2.3.Microsoft : Data Transformation Services............................................................153.2.4.Oracle : Data Integration.......................................................................................153.2.5.BusinessObjects : Data Integrator........................................................................153.2.6.Hummingbird : Genio................................................................................ ............163.2.7.Sunopsis : Sunopsis ETL et Sunopsis Real-time ETL..........................................16
4.Les caractéristiques....................................................................................194.1.Transformation des données : plusieurs approches........................................19
4.1.1.Les serveurs ETL..................................................................................................194.1.2.Utilisation de fonctions intégrées..........................................................................204.1.3.Les outils générateurs de code.............................................................................204.1.4.Développement manuel d’un outil ETL.................................................................214.1.5.Comparaison des différentes approches..............................................................22
4.2.Temps réel / Batch ..........................................................................................224.2.1.Temps réel – mode synchrone.............................................................................234.2.2.Mode batch – mode asynchrone...........................................................................23
4.3.ETL et gestion des métadonnées....................................................................234.4.Autres caractéristiques.....................................................................................24
4.4.1.Architecture et environnement technique.............................................................244.4.2.Prix des outils en fonction des configurations choisies.........................................244.4.3.Interfaces graphiques............................................................................................25
Conclusion....................................................................................... ...............26
Bibliographie..................................................................................................28
Glossaire............................................................................. ............................29
Annexes...........................................................................................................30
2
Mise en contexte
Un Système d'Information Décisionnel (SID) est un outil destiné à recueillir,organiser, mettre en forme et diffuser des données de manière à en faire desinformations. Un SID est un dispositif à double face : il combine des donnéesd'origines diverses (opérationnelles ou externes) et les met à disposition desutilisateurs selon des objectifs informationnels.
Schéma 1 : Représentation schématique d'un datawarehouse
Les Systèmes Décisionnels se caractérisent par :o d'importants volumes de données qui évoluent rapidement,
o des exigences de temps d'accès,
o l'absence de mises à jour transactionnelles,
o des besoins évolutifs,
o des requêtes imprévisibles et pouvant rapprocher des données "éloignées".
En général, les données sources, qui peuvent représenter un gros volume, nesont ni cohérentes sémantiquement, ni liées entre elles d'une manière adaptée à laperspective décisionnelle. De plus, les environnements d'où proviennent cesdonnées sont conçus et organisés d'une manière qui se prête mal à l'implémentationd'applications décisionnelles. Ces contraintes sont à prendre en compte lors de lamise en place d'un entrepôt de données.
D'une manière générale, la mise à disposition des données implique quatreétapes :
o Collecte des données : approvisionnement du SID en données (à partir desbases de production (opérationnelles) ou de l'extérieur),
3
o Intégration des données : pour assurer la cohérence globale des données(modèle unifié) et leur mise à disposition en un point unique (entrepôt),
o Diffusion des données : mise à disposition des applications, sous formedimensionnelle, des données puisées dans l'entrepôt,
o Présentation des données : accès aux données organisées (formedimensionnelle) par les utilisateurs au moyen de services logiciels. Égalementappelée reporting, cette étape se charge de diffuser et de présenter lesinformations à valeur ajoutée de telle sorte qu’elles apparaissent de la façonla plus lisible possible pour le décideur. Nous allons nous intéresser plus particulièrement aux deux premières
fonctions : collecte et intégration des données. Le Système de Collecte etd'Intégration des données (SCI) est un sous système d'un SID complexe maisessentiel : c'est sur lui que repose le SID. En effet, la base d'intégration des donnéesest l'entrepôt de données lui-même. La diffusion des données se fait à partir de cetentrepôt.
Le SCI doit avoir un impact minimal sur la fonction opérationnelle mais il doit,en même temps, permettre le rafraîchissement périodique des données en fonctiondes besoins des utilisateurs. Le rôle du SCI est de collecter les données à partir dedifférentes sources et de les mettre en forme, conformément à un modèle(intégration). Un même outil peut effectuer les fonctions de collecte, detransformation et de chargement des données. C'est le cas des outils ETL.
4
1. Principe de l’alimentation
L’alimentation d’un entrepôt de données se déroule en trois étapes :l’extraction des données à partir des bases sources, leur transformation puis lechargement dans l’entrepôt.
Schéma 2 : Alimentation d'un datawarehouse
1.1.Extraction des données
La première phase de la construction d’un entrepôt de données consiste àextraire les données utiles des systèmes opérationnels, sans pour autant perturberles environnements de production. Ces données sont dans de nombreux cashétérogènes, complexes et diffuses :
o Hétérogènes : on rencontre plusieurs SGBD différents et parfois plusieursméthodes d’accès
o Complexes : les données sont organisées en vue de traitementstransactionnels
o Diffuses : les données proviennent de plusieurs environnements matériels,voire de différents sites connectés par un réseauL'extracteur est un composant logiciel simple dont le but est de prélever un
flux de données à partir des systèmes de production pour alimenter le systèmedécisionnel. Son rôle est prédominant dans la capacité du système décisionnel à sepréserver des évolutions structurelles des systèmes en amont. On réalise unextracteur par nature de flux à prélever sur les applications opérationnelles.L'extracteur met à disposition du système d'information décisionnel un flux dedonnées au format fixe, validé en phase de spécification.L'extraction peut être de deux types :
o totale : on extrait la globalité du flux à chaque traitement. Technique adaptéedans le cas d'une volumétrie réduite.
o incrémentale ou "Delta" : on ne traite que les enregistrements créés,modifiés ou supprimés depuis la dernière extraction.
5
Transform
Les données sont extraites des bases de production à la création de l’entrepôtet lors des rafraîchissements. À la création de l’entrepôt, un premier chargement esteffectué. Cela consiste à prendre une copie intégrale des données opérationnellesintéressant le SID. Le rafraîchissement périodique se fait par collecte dynamique, enne capturant que les changements qui ont eu lieu dans le système opérationneldepuis la dernière opération de collecte. Il nécessite un mécanisme de détection deschangements.
L’extraction doit être performante et doit éviter de perturber lesenvironnements de production.
1.2.Transformation des données
Les bases de production peuvent contenir des données de mauvaise qualité(données manquantes, incomplètes, aberrantes, en double, obsolètes…). Cettemauvaise qualité a plusieurs origines : manque de contrôle dans la saisie desdonnées, incident de transfert lors du processus de collecte des informations, retarddans les mises à jour…
Les conséquences de la mauvaise qualité des données peuvent êtreimportantes : remise en cause des indicateurs de performance, décrédibilisation dusystème d’information, perte financière…
La deuxième phase du processus d’alimentation de l’entrepôt consiste donc àtransformer les données extraites de manière à obtenir un ensemble homogène. Lesdonnées subissent un filtrage, pour éliminer les données manquantes ou aberrantespar exemple, et un formatage afin de normaliser les informations (unification ducodage). Les doublons doivent être détectés pour assurer la cohérence del’entrepôt.
Les données de l'entrepôt ne sont pas simplement copiées depuis les basesde production mais sont même en général créées par agrégation ou calcul.
1.3.Chargement de données
Cette phase consiste à injecter en une seule fois les informations collectéesdans l’entrepôt. Elle permet aussi de stocker les informations de manière correctedans les tables de faits correspondantes du datawarehouse, dans le but de rendreles données disponibles pour l’analyse et le reporting.
6
2. Les outils ETL
Afin d’effectuer ces différentes opérations, un outil appelé ETL (Extract,Transform, Load) est apparu, chargé d’automatiser les traitements et de les rendrefacilement paramétrables. Il doit être capable d’extraire des données décrites sousdes formats susceptibles de changer dans le temps et stockées sur des systèmesamenés à évoluer. Contrairement aux EII (Enterprise Information Integration) quiinterrogent plusieurs sources en temps réel mais sans déplacer les données, lesoutils ETL les déplacent en général en mode asynchrone vers une nouvelle base.
L’outil ETL fait parti d’un sous-ensemble des EAI (Enterprise ApplicationIntegration), domaine plus général regroupant toutes les formes d'intégration entredes applications, des processus ou/et des interfaces. L'ETL se positionne surl'intégration des données.
Après avoir été paramétré suivant les besoins du décisionnel, avec lesdonnées en entrée, les données en sortie et les processus de transformation àeffectuer, l’ETL effectue l’alimentation généralement en mode batch1. Les mêmesprocessus de transformation sont appliqués de manière récurrente lors de chaquealimentation.
EAI EII ETL
Des
cri
pti
on •Bus inter applicatif qui
orchestre les échangesentre les applications.
•Hub de données pourinterroger des sourceshétérogènes, doté defonction de mapping.
•Extrait les données sourceshétérogènes, les transforme et lesréinjecte dans une nouvelle base.
Ava
nta
ge
s •Fonctionne en modesynchrone.
•Traite des chargesimportantes.
•Fonctionne en modesynchrone.
•Centralise l’accès à dessources hétérogènes.
•Nettoyage et transformation desdonnées.
•Une seule source de donnéesinterrogée par l’outil de restitution,gage de performance.
Inc
on
vén
ien
ts
•Pas de fonctions detransformation.
•Coûts d’acquisition etde mise en œuvreélevés.
•Pas de fonctions detransformation.
•Peu performant sur lesrequêtes complexes.
•Fonctionne en modeasynchrone.
•Flexibilité moindre sur lesmodifications.
Tableau 1 : Trois méthodes phares du décisionnel - source : 01Informatique (03/05)
1 Syn. traitement par lots. Un batch est un fichier contenant un ensemble de commandes qui seront traitées automatiquementcomme si elles étaient entrées au clavier par l'utilisateur, les unes après les autres.
7
3. Le marché des outils ETL
Le marché des outils ETL se compose de plusieurs éditeurs qui ontdéveloppé des solutions aux caractéristiques variées.
Schéma 3 : Marché mondial des outils ETL - source : Forrester (mars 2005)
Les principaux outils sont :
Éditeur Solution ETL Version dateInformatica PowerCenter 7.1.1 08/2004
SAS ETL Server 9.1.3 08/2004Ascential (IBM) DataStage 7.5 07/2004
DataMirror Transformation Server 5.1 04/2003Cognos DecisionStream ? ?
MicrosoftSQL Server module DTS
(Data TransformationServices)
2000 SP3 08/2000
Oracle Warehouse Builder 10.1.0.2.0 05/2004Business Objects ActaWorks – Data Integrator 6.5 04/2004
Hummingbirg Genio 5.1 09/2004Sunopsis Sunopsis ETL 3.2 06/2003
ELT Solutions Ltd Transformation Manager(TM)
? ?
Tableau 2 : Les principaux éditeurs et leur solution ETL
8
Schéma 4 : La performance des outils ETL - Source : Forrester
Nous allons présenter les outils des principaux éditeurs du marché : lesleaders Informatica, Ascential et SAS mais aussi certains outils en pleine évolutioncomme DataMirror, Cognos, Microsoft, Oracle, Business Objects et Sunopsis.
3.1.Les leaders du marché
3.1.1. Informatica : PowerCenter2
Informatica PowerCenter fournit une plate-forme d’intégration de données àl’échelle de l’entreprise qui permet d’accéder aux données d’une large gamme desystèmes, de les transformer, de les intégrer et de les mettre à disposition d’autressystèmes transactionnels, processus métiers temps réel et collaborateurs del’entreprise. En rendant possible la création un référentiel d’information unique,cohérent et partagé par toute l’organisation, PowerCenter aide les entreprises àréduire les coûts et la complexité de leurs systèmes d’information, facilite l’adoptionde nouvelles technologies et contribue à l’amélioration globale de leursperformances.
2 http://www.informatica.com/fr/products/powercenter/default.htm
9
Mo
ins
OF
FR
EP
lus
Moins STRATEGIE Plus
Présence sur le marché
Grâce à Informatica PowerCenter, il est possible de :o Intégrer les données pour offrir aux utilisateurs métiers un accès exhaustif aux
données de l’entreprise – des données complètes, exactes et disponibles entemps voulu.
o Monter en charge de façon à répondre aux besoins croissants d’informationdes équipes métiers – Les données sont distribuées dans un environnementsécurisé et évolutif, garantissant un accès immédiat aux données d’unnombre illimité de sources hétérogènes.
o Simplifier la conception, la collaboration et la réutilisation pour réduire lesdélais de livraison des équipes de développement - Une gestion inégalée desmétadonnées renforce la capacité des équipes à satisfaire des besoins enconstante évolution et toujours plus complexes.
PowerCenter est disponible en deux éditions :o PowerCenter Standard Edition : Logiciel permettant l'accès, l'intégration et la
distribution de données, PowerCenter Standard Edition est une solutionéconomique pour exploiter les données issues de tous systèmes vers tousautres systèmes. PowerCenter Standard Edition peut être installé en moinsde 30 minutes.
o PowerCenter Advanced Edition : En plus des fonctionnalités de PowerCenterStandard Edition, PowerCenter Advanced Edition couvre tous les besoinsd’intégration de données de l’entreprise avec une seule plate-forme, incluantde solides fonctionnalités d’analyse de métadonnées et de reporting, desfonctions économiques de grid computing et des capacités avancées dedéveloppement collaboratif. Avec PowerCenter Advanced Edition, lesentreprises bénéficient pleinement des avantages résultant de l’utilisationd’une plate-forme unique pour gérer la totalité du cycle de l’intégration dedonnées : gains de productivité, réduction des coûts de maintenance etéconomies substantielles liées à une prise en main immédiate. PowerCenterAdvanced Edition peut être installé en moins d’une heure.
Caractéristiques et fonctionnalitésPowerCenter StandardEdition
PowerCenterAdvancedEdition
Plate-forme principale X X
PowerCenter Data Server (serveur de données) X X
Référentiel de métadonnées X X
Outils de conception et de gestion X X
Librairie complète d’objets de transformation X X
Serveur de référentiel avec import/export XML X X
Outils de sécurité (rôles et authentification) et intégration LDAP X X
Planification et contrôle centralisés de workflows X X
Traitement des données relationnelles natives, XML ethiérarchiques
X X
Extensibilité totale des transformations personnalisées X X
Clients développeurs et administrateurs à usage illimité X X
Ensemble d’API ouvertes pour l’intégration avec des outils tiers X X
Intégration totale avec Informatica PowerExchange X X
Support des sources XML et fichiers plats X X
10
Caractéristiques et fonctionnalitésPowerCenter StandardEdition
PowerCenterAdvancedEdition
Documentation complète sur la plate-forme X X
Connecteurs pour sources standards (2) X X
Connecteurs pour cibles standards (2) X X
Reporting prêt à l’emploi (PowerAnalyzer) : X• Création de rapports X• Mesures et alertes en temps réel X• Reporting ad hoc et rapports pré-configurés X• Intégration avec Excel X
Analyse des métadonnées (SuperGlue) : X• Généalogie intelligente de l'information au niveau du
champ X
• Reporting interactif sur l’utilisation des métadonnées X• Fonctions de recherche et options de personnalisation
web X
• Métamodèle extensible et ouvert basé sur le standardOMG/CWM X
• Connectivité préconfigurée pour un grand nombre demétadonnées X
Développement collaboratif X
Grid computing X
Fonctionnalités supplémentaires
Data Cleansing (nettoyage de données) Option Option
Data Profiling (profilage de données) Option Option
Metadata Exchange Option Option
Partitioning (partitionnement) Option Option
PowerCenter Connect Option Option
Real-time (temps réel) Option Option
Tableau 3 : Caractéristiques de PowerCenter - source : Informatica
3.1.2. SAS : ETL Serveur3
Le serveur ETL de SAS permet de concevoir, développer et exploiter lestraitements d’alimentation périodique des systèmes décisionnels et se compose :
o d’un environnement de développement ETL intégrant les phases dedéveloppement, test et production,
o d’un générateur de traitement réduisant la programmation au stricte minimum,
o d’un langage décisionnel spécialisé comportant plusieurs milliers de fonctions,
o d’un environnement de métadonnées pour conserver la traçabilité desdonnées,
o de connecteurs natifs aux SGBD/R et fichiers séquentiels indexés, texte,bureautique, log web, etc. soit plusieurs dizaines de sources de données,
o de connecteurs natifs et de dictionnaire métier des principaux ERP,
3 http://www.sas.com/offices/europe/france/software/technologies/etl.html
11
o de fonctions paramétrables de détection et de correction de la qualité desdonnées,
o d’un ordonnanceur intégré avec gestion événementielle permettant d’exploiterles traitements sur plusieurs serveurs.
Le serveur ETL de SAS a été spécialement conçu pour supporter des chargesde traitements lourdes et s’appuie sur la technologie « multithreading » du serveurSAS pour l’extraction, la transformation et la préparation des grandes bases dedonnées décisionnelles.
Il intègre directement des fonctions de vérification et standardisation desinformations, qui assurent leur exactitude et leur qualité. Cette étape du traitementdes données, souvent négligée, s’avère fondamentale pour pouvoir créer une réellevaleur à partir des données.
Il a été spécialement conçu pour supporter l’alimentation des données desapplications analytiques comme la connaissance du comportement des clients ou lereporting dynamique des ventes qui nécessitent des transformations spécifiquestelles que la transposition ou l’agrégation des données transactionnelles.
3.1.3. Ascential : Datastage et Datastage TX4
DataStage
DataStage, le module de gestion des mouvements de données de la Suited’Intégration de données, est totalement adapté à la problématique d'extraction, detransformation, d'intégration et de chargement de données (ETL) car il est fondé surdes composants ouverts, optimisés et réutilisables permettant :
o Le développement de processus de mouvement et de transformation des fluxde données par modélisation graphique ;
o La réutilisation naturelle des environnements existants (modèles, flux,programmes, etc.) La famille de produits DataStage constitue une solution ETL performante aux
capacités de montée en charge illimitées.Elle est offre des fonctions de gestion de métadonnées et d’assurance de la
qualité des données pour la gestion et l’intégration des applications stratégiques.
Avantages de DataStage
o Les décisions business sont basées sur des données complètes etpertinentes.
o Les temps de développement et le retour sur investissement des applicationsd’entreprise sont accélérés.
o L'intégration de grands volumes de données quelle que soit la complexité desstructures de ces données est assurée. Cette offre ETL s'appuie sur une expérience réussie auprès de plus de 2200
clients dans le monde et plus de 350 en France.Ascential est capable de simplifier et d’assurer le déploiement réussi
d’applications d’entreprise intensives en données en intégrant la gamme complètede profiling et de nettoyage de données, de gestion des metadonnées et
4 http://www.ascential.fr/produits/datastage.html
12
d’intégration des données, au sein d’une suite unique de produits, totalementintégrée.
DataStage TX
Ascential DataStage® TX supporte les standards du marché et répond à desexigences de connectivité, en permettant de résoudre les problèmes stratégiques entemps réel. L'architecture orientée solutions de DataStage TX est ouverte etévolutive. La mise en oeuvre est accélérée, les risques réduits et l'efficacité accrue.DataStage TX permet d'automatiser facilement et de façon transparente de grosvolumes de transactions complexes sans codage additionnel.Grâce à son architecture ouverte et extrêmement évolutive, DataStage TX 6.7 offreun retour sur investissement beaucoup plus rapide.
Avantages de DataStage TX
o Intégration rapide et transparente d'un grand nombre des applications, basesde données et systèmes de messagerie les plus utilisés ;
o Prise en compte rapide et souple des exigences de gestion stratégiques àévolution rapide ;
o Exploitation de la valeur de vos systèmes et applications d'entreprise ;
Respect des besoins en matière de solutions d'intégration complètes ou basées surdes projets.
3.2.Les challengers
3.2.1. DataMirror : Transformation Server5
Elément central d’Intégration Suite de DataMirror, Transformation Server™est une solution d’intégration de données hautement performante et « Peer-to-Peer» qui permet aux entreprises de gagner du temps et d’économiser des ressources enleur fournissant l’intégration de données sans aucun besoin de programmation, danstous leurs systèmes informatiques. Transformation Server étend la fonctionnalitéETL en permettant aux entreprises de capturer, de transformer et de transférer desdonnées commerciales et d’entreprise, en temps réel, entre DB2 UDB, MicrosoftSQL Server, Oracle, PointBase, Sybase, Teradata et XML vers de multiples plates-formes informatiques.
La technologie de Transformation Server pour la capture, la transformation etle transfert des données (CTF) améliore l’efficacité opérationnelle et fait gagner dutemps et des ressources en supprimant les transferts de données redondants et enéconomisant la bande passante du réseau. Que les données soient intégrées entemps réel ou à intervalles réguliers, seules les données modifiées sont capturéespuis transférées du système source vers le système cible. Supportant en natif lesprincipales bases de données, Transformation Server est idéal pour mettre enoeuvre des applications de gestion en temps réel et ‘on demand’, telles que ladistribution de données, l’intégration d’applications d’entreprise, l’e-Business, labusiness intelligence, le CRM (Customer Relationship Management) et le BAM(Business Activity Monitoring).
5 http://www.datamirror.com/fr/products/tserver/default.aspx
13
Avantages de Transformation Server
o Intégration de données sûre et dynamique, sans aucune programmation,
o Solution souple et adaptable à presque tous les environnementsinformatiques,
o Partage dynamique des informations en temps réel, à travers toutel’entreprise et au-delà,
o Visualisation et surveillance faciles des réseaux d’intégration complexes, àl’aide de représentations graphiques,
o Identification et résolution rapides des problèmes de réseau, grâce à unesurveillance centralisée,
o Performances et efficacité opérationnelles accrues, grâce à un solidegestionnaire des communications,
o Optimisation du retour sur investissement, grâce à une mise en place rapideet des coûts de maintenance réduits.
3.2.2. Cognos : DecisionStream6
Le logiciel ETL (extraction, transformation et chargement) DecisionStreamrassemble des données disparates en une base unifiée de Business Intelligencepour exécuter rapidement rapports et analyses à partir des données d'exploitationdisponibles.
Les entrepôts de données dimensionnels constituent une base cohérente,précise et réutilisable en rendant conformes les principales dimensions del'entreprise (temps, produit, client, etc.) pour autoriser le reporting à l'échelle desdifférents services de l'entreprise.
Un environnement visuel intuitif vous permet de concevoir rapidement etfacilement le cadre de vos données sans programmation. Cognos DecisionStreamoffre un accès rapide aux données BI en générant toutes les métadonnées requisespour développer un environnement de Business Intelligence et le maintenir.
Avantages de DecisionStream
o Les entrepôts de données dimensionnels organisent les données parsujet/service (ventes, finances) et par catégorie (client, produit).
o Le moteur ETL, basé sur serveur et multi plate-forme, traite de gros volumesde données dans des fenêtres de mise à jour, sans investissement matérielimportant.
o L'interface graphique intuitive rend les processus de transformation simples etrapides pour l'utilisateur.
o Le cadre dimensionnel flexible s'adapte aux changements et peut évoluerd'une solution dédiée à un département, par exemple, à un service de plate-forme d'entreprise.
o Intégration parfaite des meilleurs logiciels de Business Intelligence au monde,les logiciels Cognos d'analyse, de reporting, de tableau de bord et descorecarding.
6 http://www.cognos.com/fr/products/business_intelligence/data_preparation/
14
3.2.3. Microsoft : Data Transformation Services
Les Services de Transformation des Données (DTS) permettent d’importer etd’exporter des clés primaires et étrangères entre des produits de base de donnéespris en charge, de programmer la récupération de données en plusieurs étapes etd’enregistrer des lots DTS sous forme de code Visual Basic.
Cet outil ETL est uniquement intégré à SQL Server.
3.2.4. Oracle : Data Integration
L’architecture de Warehouse Builder génere du code pour la base dedonnées cible Oracle9i. Le code généré garantit une haute performance duprocessus de chargement des données et offre les fonctionnalités d’un outil ETLévolutif. Warehouse Builder dispose d’un environnement graphique pour créer lestransformations à appliquer aux données (Mapping Editor).
Cet outil ETL est uniquement intégré au SGBD Oracle9i.
3.2.5. BusinessObjects : Data Integrator7
BusinessObjects Data Integrator est une plate-forme d’intégration de donnéesproductive et évolutive. Avec Data Integrator, un outil ETL complet, il est facilementpossible d’explorer, d’extraire et d’alimenter les bases décisionnelles avec lafréquence de son choix. Data Integrator garantit que les utilisateurs disposenttoujours d’informations précises et fiables au jour le jour.
L'intégration des processus ETL et des fonctions BI permet de disposerd'avantages essentiels en matière de gestion des métadonnées, d'analyse d'impacts, d'optimisation des cycles de vie des systèmes décisionnels et de réductiondes coûts de maintenance. Les utilisateurs peuvent se fier à leurs rapports BI dansla mesure où ils peuvent en établir l'origine et obtenir une traçabilité jusqu'ausystème source.
Data Integrator permet de définir très facilement des process de traitementsdes données à l’aide d’une interface graphique et de puissantes fonctions detransformation. Cet ETL se connecte à l’ensemble des sources de données etpossède des connecteurs natifs sur des ERP tels que SAP.
Data Integrator propose une riche interface graphique à partir de laquelle il estpossible de définir les processus ETL d'extraction, de transformation et dechargement, d’assurer l'intégrité des données, de collaborer avec les développeurset de déployer des applications dans tous les types d'environnement.
Business Objects Data Integrator est un outil d'intégration de données batchet temps réel conçu pour simplifier et accélérer les flux de données et leur partagedans toute l'entreprise.
3.2.6. Hummingbird : Genio8
Hummingbird ETL est une solution d'intégration de données recouvrant lesdomaines fonctionnels de l'ETL (extraction, transformation, chargement de données)et de l'EAI (intégration des applications d'entreprise). Cette solution permet detransformer, nettoyer et enrichir l'information pour ensuite la diriger à travers toutl'éventail des systèmes décisionnels et des applications stratégiques de l'entreprise -
7 http://www.france.businessobjects.com/produits/dataintegration/dataintegrator/default.htm8 http://www.hummingbird.com/international/france/products/etl/overview.htm
15
et ce dans le cadre d'une grande variété de projets du type datawarehouses,datamarts, etc.
Hummingbird ETL est capable d'assurer toutes les opérations d'échange dedonnées quels que soient le format, la syntaxe, la source ou la cible de ces données(depuis le support XML jusqu'à la connectivité mainframe, depuis les SGBDrelationnels jusqu'à l'OLTP multidimensionnel).
Dans tous les types de projets ETL, Hummingbird ETL garantit une étroiteintégration avec n'importe quel environnement d'entreprise, offrant un support et uneconnectivité en natif, c'est-à-dire sans aucune programmation ni préparation desdonnées. Cette solution permet ainsi à l'entreprise d'économiser du temps et desressources en pérennisant son environnement informatique hétérogène.
Hummingbird ETL permet de connecter n'importe quelle source de données àn'importe quel système cible à travers toute l'entreprise, aidant ainsi lesorganisations à exploiter plus efficacement leurs données en vue d'accélérer etd'optimiser leur processus stratégique de prise de décision.
3.2.7. Sunopsis : Sunopsis ETL et Sunopsis Real-time ETL
ETL9
Sunopsis ETL permet une distribution optimisée des processus et offred'excellentes performances sur les gros volumes, même avec des transformationscomplexes. Comparé aux approches ETL traditionnelles, typiquement des scriptsmanuels ou des outils à moteur centralisé, Sunopsis ETL permet d'économiserjusqu'à 90% du temps et des coûts d'implémentation et de maintenance. Avec lesupport, par défaut, de toutes les sources de données grâce aux standards deconnectivité, Sunopsis ETL couvre tous les besoins avec la même flexibilité.
L'architecture distribuée de Sunopsis ETL génère du code natif SQL pour tirerparti des composants existants du système d'information, comme les moteurs debases de données sur lesquels les applications et les data warehouses sontinstallés. Cette architecture apporte un double avantage à l'entreprise : en l'absencede serveur dédié et de moteur de transformation à installer, les coûts de la solutionETL sont considérablement réduits. Et parce que les moteurs de base de donnéessont extrêmement fiables et optimisés pour traiter de larges volumes de données etdes transformations complexes, les processus ETL bénéficient de ces mêmesavantages.
9 http://www.sunopsis.com/corporate/fr/products/sunopsisv3/default_etl.htm
16
Real-Time ETL10
Sunopsis Real-Time ETL est une solution pour l'ETL en batch et en tempsréel. Grâce à son architecture innovante qui optimise l'exécution des processus demanière distribuée, l’outil est performant même pour des transformations complexes,sans compromettre sa facilité d'utilisation. Parce que seules certaines informations -et non toutes - doivent être analysées et restituées en temps réel, l'approche deSunopsis Real-Time ETL permet de gérer les processus de transfert de données àla fois en batch et en temps réel.
Avec la fonction intégrée "Changed Data Capture", cet outil ETL détecte leschangements en temps réel sur toutes les bases sources. Les transformations surles données sont effectuées à la volée. L'information est propagée en temps réel surles systèmes cibles, via une connectivité directe ou en utilisant le MOM intégréSunopsis MQ.
Sunopsis Real-Time ETL s'appuie sur le code natif SQL qu'il génère pour lesmoteurs de base de données déployés dans le système d'information pour exécuterles processus ETL, et utilise pleinement les fonctionnalités de manipulation dedonnées de ces moteurs. Ceci donne un avantage unique à Sunopsis ETL : desagrégations aux statistiques en passant par les outils de chargement natifs, il utiliseentièrement les fonctions les plus appropriées pour chaque processus à réaliser.
10 http://www.sunopsis.com/corporate/fr/products/sunopsisv3/default_rte.htm
17
4. Les caractéristiques11
4.1.Transformation des données : plusieurs approches
Les différents outils ETL du marché peuvent être classés en plusieurscatégories. Nous allons en présenter trois, qui sont celles retenues par les principauxéditeurs :
o Les transformations sont exécutées sur un serveur ETL de manièrecentralisée (engine-based),
o Les transformations sont réalisées à l’aide de fonctions intégrées dans labase de données (database- embedded),
o Une description des transformations est utilisée afin de générer du code quipourra être déployé sur tout autre système (code-generators).Les entreprises peuvent aussi choisir de développer elles-mêmes leur propre
outil ETL.
4.1.1. Les serveurs ETL
Cette approche est l’approche traditionnelle, utilisée dès les années 90. Avecce type d’architecture, l’information est extraite des sources de production,transformée, ligne par ligne, sur un serveur en utilisant un langage propriétaire puischargée dans la base de données cible.
Schéma 5 : transformation des données - approche traditionnelle
11 Voir annexe 1 : Tableau récapitulatif – classement des éditeurs d'outils ETL en fonction desdifférentes caractéristiques.
18
Tous les processus ont lieu sur le serveur et non sur les systèmes sources. Ilpeut donc être nécessaire d’acheter un serveur pour héberger l’application, ce quiaugmente les coûts. Cependant, l’apprentissage est très rapide.
Pourtant, cette architecture n'apporte pas la flexibilité ou la liberté de créerd'autres transformations sur les données, nécessitées par certains projets.
4.1.2. Utilisation de fonctions intégrées
Plusieurs éditeurs de SGBD intègrent des fonctions ETL dans leurs produits,ce qui réduit les coûts, et permet de simplifier l'environnement décisionnel. Le SGBDest utilisé comme moteur pour effectuer les transformations et les agrégations.
On peut donc se demander pourquoi acheter un outil ETL alors que le SGBDpeut réaliser les mêmes fonctions à moindre coût. En effet, les éditeurs de SGBDproposent des fonctions qui, à la fois, concurrencent et appuient les outils ETLindépendants.
Il y a encore quelques années, les SGBD ne permettaient que destransformations basiques. Depuis le milieu des années 90, les éditeurs ontconsidérablement augmenté le nombre et amélioré les fonctions ETL des SGBD.Ces outils ETL fonctionnent comme des générateurs de code et montrent que SQLpeut suffire pour exécuter les transformations, même les plus complexes.
Il faut cependant noter que toutes les fonctions des outils ETL ne font pasforcément partie de cette solution même si les nouvelles versions incluent toujoursplus de fonctions. De plus, ces outils demandent du codage manuel et l'évolutionentre deux versions successives reste faible : la productivité et les possibilitéstechniques ne sont donc pas optimisées. Le défaut le plus important de cettesolution est que le code ne peut être utilisé que sur le SGBD de l'éditeur lui-même.
4.1.3. Les outils générateurs de code
Cette solution s'appuie sur le principe que l'outil ETL peut utiliser le SGBDcomme moteur mais en résolvant le principal problème des fonctions intégrées :l'utilisation de l'outil indépendamment du SGBD lui-même.
La description des processus d'alimentation aboutit à la générationautomatique de code qui sera ensuite intégrée dans les chaînes d'exploitation. Uneinterface graphique permet de créer un diagramme qui représente l'extraction depuisla source, les transformations pertinentes puis le chargement dans les tables cibles.
La génération de code est l’approche la plus flexible car le code ainsi générépeut s’intégrer dans toutes les architectures, ne requiert pas de serveur additionnelet est indépendante de toute base de données propriétaire. En général, le codegénéré est du code SQL : ce langage s'est beaucoup développé ces dernièresannées et permet aujourd'hui d'effectuer plus de tâches en étant plus riche et plusperformant. L'avantage de cette architecture est qu'il n’y a pas besoin de codermanuellement, ni d’installer de serveur dédié ou de moteur de transformations. Lescoûts engendrés par le choix d'une telle solution sont donc moindres.
Par ailleurs, les outils générateurs de code permettent l’intégration desdonnées en batch ou en temps réel.
Cette approche supporte des processus plus complexes que les serveurs ETLet peut donc effectuer des traitements eux aussi plus complexes. Cependant,l'utilisation de ces outils est moins intuitive que ceux utilisant l'approchetraditionnelle.
19
Les outils ETL générateurs de code s'orientent vers un fonctionnement TELou ELT, c'est-à-dire que la phase de transformation à lieu avant ou après cellesd’extraction et de chargement des données.
Avec un outil ELT, le SGBD sert de moteur des transformations : les donnéessources sont chargées en masse directement des bases de production versl'entrepôt de données et les transformations sont exécutées en bloc par le SGBDcible de l'entrepôt. Les transformations de données se font à l'aide d'outilsgraphiques, puis l'outil génère du code SQL contenant les instructions destransformations et qui sera exécuté par le SGBD de l'entrepôt de données.
Schéma 6 : une autre approche (Approche ELT par Sunopsis)
4.1.4. Développement manuel d’un outil ETL
Avant les outils ETL spécialisés, des solutions de transformation de donnéesexistaient déjà, développées au sein même des services informatiques del'entreprise.
Cette solution, aujourd'hui, est généralement choisie lorsque le projet neconcerne qu’un volume de données peu important (jusqu’à 20 tables environ). Pourcette tâche, l’achat d’un outil ETL représenterait un coût financier important, ainsique des coûts de formation.
Cependant, le développement manuel d’un outil ETL prend du temps etdemande des compétences spécifiques en programmation (développement duprogramme, maintenance et mise à jour du code…). De plus, le code manuel nepermet pas toujours d'effectuer les transformations les plus complexes et de gérerun contrôle de qualité des données.
Le codage manuel reste néanmoins un moyen qui perdure, malgré la maturitéatteinte par les outils ETL du marché.
20
4.1.5. Comparaison des différentes approches
OutilETL
Avantages Inconvénients
Gén
éra
teu
r d
e c
od
e
•Prise en charge detransformations complexes
•Production de code compilécompatible avec de nombreusesplateformes
•Pas d’achat de matériel ni deformation sur un logicielpropriétaire
•Coût moindre
•Environnement graphique moinsintuitif
Se
rve
ur
•Possibilité de configurer leserveur pour optimiser lesperformances
•Pas d’interférence avec d’autresapplications
•Interface graphique intuitive
•Nécessité d'acheter un serveur plusperformant
•Le serveur peut être un goulotd’étranglement
•Utilisation de langages et de logicielspropriétaires
Fo
nc
tio
n E
TL
in
tég
rée •Pas d’achat de matériel
•Coûts réduits
•Environnement simplifié
•Qualités et fonctionnalités variables
•Transformations de complexitémoindre
•Utilisation limitée au SGBD del'éditeur
•Nécessité de codage manuel
Tableau 4 : Comparaison des différentes approches
4.2.Temps réel / Batch
L’approche en temps réel montre peu d’impact sur la phase de restitution(reporting, tableau de bord…), qui se contente de croiser les données qui lui sontfournies. Tout se joue au niveau du processus d’interrogation des données.L’analyse se pratique en général en mode asynchrone, pour des raisons deperformance et de cohérence des données.
Les outils ETL fonctionnent principalement en mode asynchrone (batch), etsouvent la nuit pour ne pas avoir d'impact sur les ressources machine et réseaupendant les heures de bureau. Ils sont capables d’apporter de la cohérence auxinformations et de consolider les données dans un entrepôt, en garantissant lesperformances.
Cependant, l’évolution des architectures permet aux outils ETL de détecter lesmodifications survenues dans les bases de production afin d’alimenter l’entrepôt aufur et à mesure.
21
Ainsi, la plupart des outils ETL fonctionnent en mode asynchrone maisproposent des modules de traitement des données en temps réel.
Les outils ETL peuvent donc fonctionner en deux modes : temps réel(synchrone) ou batch (asynchrone).
4.2.1. Temps réel – mode synchrone
Aujourd'hui, les besoins d'analyse et de reporting en temps réel restentmarginaux alors que la demande d’application en temps réel est de plus en plusimportante, particulièrement dans des domaines tels que les télécoms ou le secteurbancaire, par exemple. Cependant, les outils de requêtes multi-sources en tempsréel (EAI par exemple) ne gèrent pas la qualité des données (cohérence,transformation…) par manque d’un référentiel global.
Ce mode de traitement des données se base sur un détecteur demodification, qui propage à l'entrepôt de données les changements des bases deproduction.
Le raccourcissement des délais de rafraîchissement des données impliquedes serveurs plus robustes, donc plus chers. De plus, les différentes couches del’architecture décisionnelle doivent dialoguer en permanence pour fonctionner enmode synchrone.
Malgré la complexité et le surcoût entraîné par le fonctionnement en tempsréel, les éditeurs d’ETL intègrent des modules de traitement des données en modesynchrone dans leur outil.
4.2.2. Mode batch – mode asynchrone
Les outils asynchrones sont ceux permettant de faire transiter l’information aufil de l’eau entre les applications sans impliquer leur disponibilité immédiate mais engarantissant le traitement de l’événement.
Les outils batch, qui effectuent le traitement des données par lot, sont conçuspour traiter de gros volumes de données.
4.3.ETL et gestion des métadonnées
Les outils ETL orientés métadonnées permettent de s'assurer que lesdonnées lues et écrites répondent aux contraintes de l'intégrité des données. Celapermet de constituer une architecture particulièrement adaptée aux environnementsmulti-utilisateurs. L'objectif est de concevoir un environnement unique avec undictionnaire unique. Les rapports d'analyses se basant sur un entrepôt de donnéesconstruit à l'aide d'un outil orienté métadonnées sont fiables, puisque on peut établirl'origine des données et effectuer une traçabilité jusqu'au système source.
Le dictionnaire des métadonnées comporte des informations sur les donnéessources / cibles, sur les transformations…:
o Description des données sources et cibles (description technique,fonctionnelle, métier, administrative…)
o Description des processus d'alimentation
o Règles de gestion (contrôles qualitatifs, calculs d'indicateurs, règles detransformation…)
o Comptes-rendus d'exécution (historique des alimentations …)
22
Ce dictionnaire des métadonnées à pour vocation de devenir le dictionnairede référence pour l'ensemble des outil d'analyse et de restitution.
Pour assurer la performance des outils, certaines caractéristiques dudictionnaire de métadonnées sont importantes, parmi lesquelles :
o Personnalisation : possibilité d’ajouter des modifications, que l’éditeur n’avaitpas prises en compte.
o Format de stockage libre pour pouvoir intégrer des informations avec d’autresproduits.
o Partage des métadonnées avec d’autres applications…
La stratégie du dictionnaire de métadonnées étendu à toute l'entreprise nes'appuie pas sur une alimentation en temps réel. Il deviendrait une sorte d'interfaceentre tous les dictionnaires de métadonnées des applications du systèmed'information. Son rôle serait alors de coordonner et de donner une vision cohérentedes concepts présents dans l'entreprise, en facilitant le dialogue entre lesapplications.
4.4.Autres caractéristiques
4.4.1. Architecture et environnement technique
Les outils disposent d’architecture compatible avec celle des donnéesexistantes. Ils sont compatibles avec les plateformes serveur et de conception, lesbases de données sources/cibles usuelles.
4.4.2. Prix des outils en fonction des configurations choisies
Le prix d’un outil ETL est important, d’autant plus qu’il est difficile d’évaluer legain réel qu’il va apporter à l’entreprise. Il s’agit donc de déterminer l’outil ETL dontle prix correspondra au budget et dont les performances seront adaptées au projet,c’est-à-dire celui qui aura le meilleur rapport performance/prix. On peut donc classerles outils ETL du marché en fonction de leur configuration (solution plus ou moinscomplète) et de leur prix :
Prix faible Prix moyen Prix élevé
Configurationcomplète
De $80K à $150K
Business Objects
Hummingbird
IBM
Pervasive
Sunopsis
De $200K à $450K
DataMirror
ETI
Group 1
iWay
Microsoft
De $8000K à $1.4M
Ascential
Informatica
Oracle
SAS
Configurationintermédiaire
De $40K à $90K
Business Objects
DataMirror
Hummingbird
IBM
Microsoft
Pervasive
Sunopsis
De $100K à $255K
Ascential
ETI
Group 1
iWay
Oracle
De $350K à $500K
Informatica
SAS
23
Prix faible Prix moyen Prix élevé
Petiteconfiguration
Moins de $40K
Business Objects
DataMirror
IBM
iWay
Microsoft
Oracle
Pervasive
Sunopsis
De $50K à $90K
Ascential
Group 1
Hummingbird
Oracle
De $105K à $360K
ETI
Informatica
SAS
Tableau 5 : Prix des outils ETL en fonction de leur configuration – source : Forrester
4.4.3. Interfaces graphiques
La plupart des outils ETL disposent d’interfaces graphiques pour que lesutilisateurs puissent effectuer les transformations des données sources de façonplus intuitive, rapide et conviviale, en utilisant le principe du glisser-déposer. Desassistants automatisés peuvent guider les développeurs tout au long du processusde création de l’entrepôt et de l’intégration des données dans celui-ci.
Interface graphique – PowerCenter (Informatica)
24
Conclusion
Avantages de l’ETL
Les grandes forces des ETL sont :o leur souplesse : ils sont fortement paramétrables
o leur facilité d’utilisation : utilisables par des non informaticiens après formation
o leur facilité de maintenance et leur pérennité
Les bases de données comprennent souvent des outils d’alimentation quipeuvent extraire des données, effectuer des transformations basiques et chargerdes données. Mais ces outils n’ont pas les avantages d’un ETL et sont souventdifficilement paramétrables, pas ergonomiques et n’offrent pas beaucoup depossibilité de transformation de données.
Limites de l’ETL
Coûts en ressources matérielles et en temps : Ils font subir différents traitements à de gros volumes de données. Un outil
ETL nécessite donc un fort besoin en machines, débit et maintenance. Lestraitements étant très gourmands, l’alimentation s’exécute souvent la nuit, pour nepas impacter les ressources machine et réseau pendant les heures de bureau.
Temps réel :La durée des traitements et le temps machine consommé est tel que cela est
difficilement compatible avec des traitements en temps réel. La plupart des éditeursd'ETL essaye d’évoluer dans ce sens en développant leur propres outils, ou enpassant des accords avec des acteurs du marché de l'EAI. Cependant, au-delà desconsidérations stratégiques et technologiques, on peut se demander si uneapplication décisionnelle gagnerait en pertinence avec un datawarehouse actualiséen permanence.
Évolution de l’ETL
Au cours de ces dernières années, le marché de l'ETL a considérablementévolué.
Le créneau des ETL pourrait avoir à subir une nouvelle révolution dans lesannées qui viennent à la faveur de l’émergence de trois nouveaux concepts touchantau traitement des données :
o la création d'un référentiel de métadonnées commun à l'ensemble desapplications du système d'information, sans nécessiter la centralisation aupréalable des contenus à traiter : le MDM12 (Master Data Management).
o les technologies d'intégration en temps réel et l’EAI. En effet, dans uncontexte où la plupart les responsables seront aidés dans leurs prises de
12 Voir annexe 3 : Master Data Management (MDM)
25
décision, les entreprises gagnantes seront celles capables de réagir au plusvite. La plupart des outils ETL ne fonctionnent pas en temps réel mais leséditeurs intègrent les fonctionnalités des EAI afin de pouvoir prendre encompte les données en temps réel. La tendance sera donc plutôt de fusionnerles outils ETL et EAI en un seul produit.
26
Bibliographie
Ouvrages
La construction du datawarehouse – Du datamart au datawebJF Goglin, Hermès - 2ème édition (2001)
Publications
Le Monde Informatique (dec 2004 – janv 2005)
Pages Internet
LE LIVRE BLANC EAI - MEDIADEVhttp://www.dsi.cnrs.fr/ref-partage/Documents/EAI/livre_blancMEDIADEV.pdf
01Informatique – plusieurs articles sur le thème du décisionnelhttp://www.01net.com/
Les sites des différents outils ETL étudiésSunopsis : www.sunopsis.com
Informatica : www.informatica.com
Ascential : www.ascential.fr/
Hummingbird : www.hummingbird.com/international/france
SAS : www.sas.com
Cognos : www.cognos.com/fr/
Business Objects : www.france.businessobjects.com/
…
The Evolution of ETL - Wayne Eckersonhttp://tdwi.org/research/display.aspx?ID=6716
Will SQL become the industry standard language for ETL? – John Rauscherhttp://databasedadvisor.com/doc/14213
Panorama des outils d'ETLhttp://solutions.journaldunet.com/0208/020827_bi_panorama1.shtml
[JargonF - dictionnaire informatique] Définition de ETLhttp://www.linux-france.org/prj/jargonf/E/ETL.html
Formation : Présentation et panorama des outils ETLhttp://formation.journaldunet.com/formation/827/presentation_et_panorama_des_outils_etl/
How to evaluate enterprise ETL – P. Russom (12/2004)http://eu.informatica.com/AAFB/mailer.asp
27
Glossaire
DATA WAREHOUSE ou ENTREPOT DE DONNÉES
Le Data Warehouse, ou Entrepôt de Données, est une base spécifiquementconstituée pour procéder à des analyses décisionnelles. Il est constitué puisalimenté à l'aide d'outils ETL qui y chargent les données de production régulièrementremises à jour. Les datamarts ou magasins sont des sous ensembles du DWH (ED)qui rassemblent les données spécifiques à un métier dans l'entreprise. Ces basessont interrogées et manipulées à l'aide d'outils de requête et d'analysemultidimensionnelle.
DÉCISIONNEL
Ce terme regroupe les outils ou techniques permettant de trier, de croiser etde manipuler à des fins d'analyse les données gérées par le systèmes d'informationde l'entreprise. L'analyse décisionnelle soutient les prises de décision stratégiquesen permettant de visualiser les données notamment à l'aide d'indicateurs métier.
EAI (Enterprise Application Integration)
Intégration des applications dans l'entreprise. Le but est de faire fonctionnerensemble (en particulier en matière d'échange transparent de données) lesprogrammes existant dans une entreprise, en vérifiant leur interopérabilité, et gérerl'hétérogénéité générale. Ce sont des logiciels qui permettent la compatibilité entredes applications déjà existantes, non compatibles à l’origine.
ETL (Extract Transform Load)
Les outils ETL sont utilisés pour la constitution des entrepôts de données. Ilsservent à extraire les données des différentes bases de production, à leur donnerune présentation homogène et fiable pour l'analyse (nettoyage des données,suppression des doublons…) et à les charger dans l'entrepôt de données.
MÉTADONNÉE
Information sur une information. Les métadonnées sont cruciales pour lefonctionnement et la maintenance d'un datawarehouse.
SID (Système d’Information Décisionnel)
Le système d'information décisionnel est un ensemble de données organiséesde façon spécifique, facilement accessible et appropriées à la prise de décision ouencore une représentation intelligente de ces données au travers d'outils spécialisés.La finalité d'un système décisionnel est le pilotage de l'entreprise.
28
Annexes
Annexe 1.Tableau récapitulatif......................................................................31
Annexe 2.Principaux outils ETL du marché.................................................32
Annexe 3.Master Data Management (MDM).................................................34
29
Annexe 1.Tableau récapitulatif
ÉditeurGénérateur de code
Serveur
Fonction
intégrée
Tempsréel
Modebatch
Gestion desmétadonnée
s
Informatica x x x x
SAS x x x
Ascential(IBM)
x x x
DataMirror x x x ?
Cognos x x x
Microsoft x
Oracle x
BusinessObjects
x x x x
Sunopsis x x x x
ELTSolutions
Ltdx x
30
Annexe 2.Principaux outils ETL du marché
Éditeur Produit CaractéristiquesPrix
(à partir de...)
Microsoft DataTransformationServices
Alimentation en mode batch interprété (moinsrapide).
Intégré à l'offre SQLServer (100euros/utilisateur +5000 euros)
Informatica PowerCenter
Éditeur indépendant, Informatica aprogressivement développé une offre de BI(outils de restitution) et évolue aujourd'huivers le dictionnaire de métadonnées.
PowerCenter est également capable de seconnecter sur le bus EAI de WebMethodspour récupérer des informations en tempsréel.
155 000 euros parserveur deproduction
Sunopsis Sunopsis v3.2
Petit dernier arrivé sur le marché de l'ETL,Sunopsis propose un kit de développementplus qu'un moteur d'ETL proprement dit.
Il permet de générer les processusd'alimentation qui sont ensuite exécutés parun serveur d'application J2EE
30 000 euros
Ascential DataStage
Leader sur le marché de l'ETL, Ascentialévolue vers le dictionnaire de métadonnéesavec le rachat des technologies MetaRecon(analyse et documente les données avec desmetadonnées) et Integrity (nettoyage etqualification des données par matching,scoring, etc.). Offre déclinée en plusieursmodules capables de s'interfacer avec lesMOM et bus EAI du marché.
250 000 euros pourl'offre complète(50 000 euros parmodule environ)
CognosDecisionStream
Apparu il y a environ un an, DecisionStream aclairement été conçu pour la suite BI deCognos. Accords avec Iway sur laconnectivité
Hummingbird
Genio(HummingbirdETL)
Spécialiste de la connectivité, Hummingbird adéveloppé une offre de BI basée sur le rachatdu produit Genio côté ETL. La V8 prévue versla fin de l'année s'interfacera avec la plate-forme de Tibco et MQSeries. Genio gère undictionnaire de métadonnées étendu.
46 000 euros parCPU
OracleOracle9iDatawarehouse Builder
Conçu pour la suite BI d'Oracle, Oracle9iDatawarehouse Builder bénéficie destechnologies de clustering du leader dumarché de la base de données. Apparu avecla restructuration de l'offre BI d'Oracle,Datawarehouse Builder a été classé commele meilleur ETL pour la transformation desdonnées par le MetaGroup.
4985 euros parutilisateur
31
Éditeur Produit CaractéristiquesPrix
(à partir de...)
BusinessObjects
Business DataIntegrator
Intégré à Business Objects Enterprise Suite6, l'ETL de BO est issu du rachat de lasociété Acta qui disposait d'une technologieoriginale basée sur un serveur de cache; cedernier nettoie les données avant de lesinjecter dans un datamart.
nc
Tableau 6 : Principaux outils ETL du marché 13
13 http://www.zdnet.fr/techupdate/infrastructure/imprimer.htm?AT=2135959-39020938t-39000766c
32
Annexe 3.Master Data Management (MDM)
MDM pour Master Data Management14
Gérer la qualité et la cohérence des données contenues dans les bases et systèmes del’entreprise, telle est la vocation de cette méthode applicative.
29 Novembre 2004 > Que recouvre le concept de Master Data Management ?En général, une entreprise dispose de plusieurs bases de données rangées chacuneau sein d'un système d'information ou derrière une application métier particulière(gestion comptable, ventes, gestion des ressources humaines, serveur de suivi deproduction, etc.). C'est notamment le cas pour des structures ayant opté pour uneapproche best-of-breed à l'inverse d'une politique technologique articulée autour d'unprogiciel de gestion intégrée.Dans cette logique, les processus de mise à jour de données sont réalisésparallèlement par des équipes différentes par le biais d'outils hétérogènes. Uncontexte structurel qui engendre des risques d'incohérences entre applicatifs. D'oùl'importance de s'attacher à l'harmonisation des données. C'est bien là l'objectif de laméthode de "Gestion des données de base" (MDM - pour Master Data Managementen anglais).> Comment fonctionne cette méthode ?Comme son nom l'indique, elle consiste à regrouper l'ensemble des données dites"de base" de l'entreprise (Master Data). Un référentiel standardisé qui a pour but dejouer le rôle de pré requis lors de la mise à jour de tel ou tel système.Concrètement, ce référentiel contient l'ensemble des objets essentiels à la vie del'entreprise et décrit les liens qu'ils entretiennent entre eux : numéros de référenceclients, fournisseurs, partenaires, etc. Grâce à cette couche généralement associéeà des mécanismes de contrôle et de validation, les objets sont modifiés de façoncohérente et les doublons évités. Au final, ce dispositif a pour but de garantir laqualité des données métier en phase de production.> Quels sont les champs d'intervention du Master Data Management ?Cette démarche présente un intérêt dans de nombreux domaines. Ici, on peutnotamment évoquer la mise en oeuvre d'une démarche de communicationmulticanal. Une approche qui nécessite de bénéficier d'une certaine cohérence entrecontenus diffusés quel que soit le moyen de communication utilisé (site Internet,centre de contacts, etc.). Autre champ généralement évoqué : celui de l'analysedécisionnelle et du reporting qui peut impliquer des fonctions de contrôle desdonnées manipuler pour assurer la régularité des rapports de résultats.> Quelle différence avec les fonctions d'ETL et d'EII ?Comme on l'a vu, le Master Data Management fournit une brique de référence pourcontrôler l'homogénéité des données du système d'information. De leur côté, lesmécanismes d'ETL (pour extraction, transfert et chargement de données) et d'EII (ouintégration des informations d'entreprise) prennent en charge leur manipulation.
14 http://solutions.journaldunet.com/0411/041129_mdm.shtml
33