talend

Embed Size (px)

DESCRIPTION

talend

Citation preview

Le business intelligence au service de lentreprise

THEORIE ET ENJEUX DE LA BI:

1. La prise de dcision en entreprise:

Dans toute entreprise ou organisation, la fonction la plus importante de l'administrateur rside dans la prise de dcision. Pour ce faire, il doit choisir, consciemment, entre plusieurs solutions afin datteindre un objectif. Le processus dcisionnel se dcompose en 5 tapes : Dfinir le problme rsoudre / objectif atteindre Rassembler les faits et donnes Evaluer et interprter Etablir plusieurs solutions Choisir une solution / dciderLes tapes 2 et 3 sont particulirement cruciales car dans le monde de lentreprise actuel, les donnes sont : Quantifies en Giga (milliard) et Tra (billion ou millier de milliard) chaque jour De formats htrognes Hberges dans plusieurs bases oprationnelles diffrentesDe manire assez intuitive, les enjeux du processus dcisionnels se sont donc articuls autour de : La qualit de linformation et de la connaissance extraite de cette information La fiabilit de cette connaissance La quantit toujours grandissante de linformation traiter Le dlai dinterprtation de linformation en connaissance VERSUS le dlai de la prise de dcision

Figure 1 : La BI en support la prise de dcision

2. Concepts de base de la BI:1.1. Elments logiciels:

Les lments de la chane dcisionnelle se rpartissent en 4 catgories remplissant chacune une fonction prcise du processus de dcision.a) Les ETL :

Extract pour extraction des donnes, Transform pour transformation des donnes et Load pour chargement des donnes. Cet outil se charge de collecter les donnes de lensemble des bases de production de lentreprise, vrifier leur cohrence (doublons, valeurs nulles, formatages, transcodification, contrles dintgrit des donnes), les organiser et les insrer dans lentrept.Lutilisation des ETL permet de rsoudre les problmatiques suivantes: Traabilit des donnes Gestion des diffrents flux alimentant le systme dcisionnel Automatisation des traitements de formatage, nettoyage et consolidation des donnes

b) Le DataWareHouse:

Une fois collectes et consolides par lETL, les donnes sont stockes dans un entrept appel DataWareHouse ou DWH. Ces donnes sont : Orientes sujet : Les donnes dans lentrept sont rparties par sujet et non par application. Historises : La prise en compte de lvolution des donnes est essentielle pour la prise de dcision. Non volatiles : Le rafrachissement de lentrept consiste uniquement rajouter de nouvelles donnes sans perdre ou modifier celles qui existent dj. Intgres : Les donnes du DWH sont cohrentes (mise en correspondance des formats, etc)c) Le portail dcisionnel:

Il a pour objectif de distribuer linformation auprs de lensemble des partenaires et de banaliser laccs au DataWareHouse. En effet, un simple navigateur web est suffisant pour accder aux informations de lentreprise. Lutilisateur une fois connect, peut exploiter ses tableaux de bords, consulter ses sources dinformation etc.d) Les outils de reporting et danalyse :

Hbergs dans le portail dcisionnel, les outils permettent de restituer linformation aux utilisateurs sous forme dindicateurs, de tableaux de bord, de rapports ... Ces outils interrogent lentrept dcisionnel par le biais de requtes spcifiques dfinies pour les besoins de lanalyse mene.

1.2. Architecture d'un systme d'information dcisionnel:

Figure 2 Architecture type d'un systme d'information dcisionnelDans les systmes relationnels, lentrept est une base de donnes relationnelle. Toutefois, le modle relationnel requiert des extensions pour supporter les requtes danalyses multidimensionnelles des applications danalyse. La technologie ROLAP rpond ce besoin.Un modle adapt lentrept dcisionnel est un modle qui organise les donnes de manire : Optimiser lexcution de requtes multidimensionnelles, complexes et spcifiques Fournir une vue globale des donnes et oriente sujetPour cela la modlisation multidimensionnelle sattache considrer un sujet analys comme un point dans un espace plusieurs dimensions. Les donnes sont organises de manire mettre en vidence le sujet ou fait (ex : montant des ventes) et les diffrentes perspectives de lanalyse appeles dimensions (ex : temps, clients, produits vendus). Cette modlisation peut tre mise en uvre par deux types de modles : relationnel et multidimensionnel.La plupart des outils ROLAP[footnoteRef:1] ncessitent que la donne soit structure en utilisant un schma en toile ou en flocon de neige. [1: ROLAP: acronyme de Relational On-Line Analytical Processing, cest une technique de modlisation et de stockage des donnes base sur une structure relationnelle.]

Catgories doutils:

Il existe sur le march plusieurs offres doutils dcisionnels qui se regroupent souvent en 5 grandes catgories : Les outils ETL Les outils ODS, DW et DM Les outils de Reporting et Requteurs Les outils danalyse Les outils de DataminingDans la partie suivante, une liste non exhaustive des outils leader dans le march du dcisionnel.Liste des outils:

Outils payants:

Editeur : IBMNom : InfoSpere DataStage et DB2Catgories : ETL, ODS, Datawarehouse, Datamart, Analyse, DataminingDescription :IBM WebSphere DataStage est un ETL et fait partie de la plateforme dIBM WebSphere Data Intgration Suite. Cette suite se base sur une interface graphique pour construire une solution dintgration de donnes qui est disponible dans plusieurs ditions telles que ldition Server ou Entreprise. IBM InfoSphere DataStage, composant essentiel de la suite IBM WebSphere Data Integration Suite, permet dintgrer toutes les informations de lentreprise, quels que soient le nombre de sources/cibles et les dlais. La suite dispose dun grand nombre de modules qui permettent de sinterfacer avec des produits dautres socits tels que : Oracle Applications ou SAP R/3 ou encore PeopleSoft Entreprise. DB2 est un systme de gestion de base de donnes utilisant le langage SQL tout comme (par exemple) Oracle, PostgreSQL ou bien encore MySQL. Cette base de donnes est un systme propritaire appartenant IBM dploy sur les mainframes, systmes UNIX, Windows et Linux. Il existe une version allge pour les ordinateurs type Palm. De nombreux outils rendent ce systme de base de donnes volutif. La version 9.5 nomme Viper est la dernire mouture sortie ce jour.

Editeur : IBM (Ancien Cognos)Nom : CognosCatgories : ETL, Reporting, Requteurs, Analyse, DataminingDescription :Cognos est une compagnie canadienne dinformatique base Ottawa (Ontario). Fonde en 1969, la compagnie sappelle dabord Quasar et adopte son nom actuel en 1982. Cognos dite des solutions dcisionnelles et propose des services permettant aux entreprises de piloter, superviser et comprendre leur performance. Dans le second semestre de lanne 2007, un mouvement de fusions-acquisitions a lieu sur le march des outils dcisionnels : le 25 octobre 2007, il a t annonc que Cognos rachetait Applix, une socit dinformatique amricaine, en dcembre 2007, Cognos annonce son rachat par IBM, en rponse lOPA de SAP sur Business Objects (OPA russie le 5 fvrier 2008).

Editeur : MicrosoftNom : SQL Server 2008Catgories : ODS, Datawarehouse, DatamartDescription :SQL Server est un Systme de gestion de base de donnes (SGBD) dvelopp et commercialis par Microsoft. Initialement Co-dvelopp par Sybase et Microsoft, Ashton-Tate ayant aussi t associ la premire version qui est sortie en 1989. Cette version est sortie sur les plateformes Unix et OS/2; Depuis Microsoft a port ce systme de base de donnes sous Windows et il est maintenant uniquement support sur ce systme. En 1994, le partenariat entre les 2 socits ayant t rompu, Microsoft sortit la version 6.0 puis 6.5 seul, sur la plateforme Windows NT. Microsoft continua commercialiser le moteur de base de donnes sous le nom de SQL Server et Sybase, pour viter toute confusion, a renomm Sybase SQL Server en Sybase Adaptive Server Enterprise. Microsoft SQL Server fait dsormais partie de la stratgie technique de Microsoft en matire de base de donnes. Le moteur MSDE qui est la base de SQL Server doit terme remplacer le moteur Jet (celui qui gre les bases Access) dans les applications telles que Exchange et Active Directory. La version 2005 de SQL Server est sortie le 3 novembre 2005 en mme temps que Visual Studio 2005. Le support de Windows Vista et de Windows Server 2008 na t ajout qu partir du Service Pack 2 (SP2). La version 2008 de SQL Server (nom de code Katmai) est disponible depuis 2008 en version RC0 (Release Candidate 0). Elle est disponible en 9 langues, dont le franais.

Editeur : OracleNom : Oracle Business Intelligence Enterprise Edition PlusCatgories : ETL, ODS, Datawarehouse, Datamart, AnalyseDescription :Oracle Business Intelligence Enterprise Edition Plus, aussi appele OBI EE Plus, est la suite doutils dcisionnel de la socit Oracle. Elle est constitue des offres de Siebel business intelligence et dHyperion business intelligence. Les produits Siebel taient initialement commercialiss par Oracle dans la suite Oracle Business Intelligence Enterprise Edition et le "Plus" a t ajout lorsque les outils de la socit Hyperion ont t ajouts en 2007. Loutil ETL se nomme Oracle Warehouse Builder (OWB), une version de cet outil est disponible lIUP SID et jai ralis des TP au cours de la premire anne de Master sur cet outil qui nest pas trs intuitif et qui plante assez frquemment. Cependant, cet outil sintgre bien avec une base Oracle (heureusement) et permet de faire des "mapping" des donnes sources relativement rapidement.

Editeur : Oracle (Ancien Peoplesoft)Nom : PeopleSoft 9Catgorie : ERPDescription :PeopleSoft est un diteur de progiciels de gestion intgrs et de gestion de la relation client destins aux entreprises. PeopleSoft fait partie de la BSA. PeopleSoft a achet JD Edwards en 2003. En 2003, cest Oracle qui a lanc une offre publique dachat hostile sur PeopleSoft, qui a abouti en 2004. Depuis 2006, PeopleSoft est utilis par la SNCF et dans les ministres franais. Oracle a annonc en 2004 que Peoplesoft sera maintenu jusquen 2013. La version 9 (sortie en 2007) sera a priori la dernire.

Editeur : Oracle (Ancien Teradata)Nom : Teradata CRMCatgorie : ERPDescription :Age ERP X3 est un progiciel de gestion intgr destin aux PME-PMI et filiales de grands groupes. Son diteur dorigine, la socit Adonix (cre en 1979), a t rachet par Sage en octobre 2005. A ce jour, la dernire version annonce par lditeur Sage est la version 5.1, annonce en Fvrier 2008, avec une dclinaison en deux ditions diffrentes : ldition Standard, plus particulirement destine aux entreprises du bas du march (50 500 personnes), qui souhaitent une mise en place rapide et des moyens de mise en uvre rduits et matriss et ldition Premium, destine aux entreprises franaises et internationales partir de 500 salaris, organises en multi-socits, multi-sites, souhaitant intgrer leur systme dinformation les filiales trangres, avec une forte personnalisation des processus mtiers dans les secteurs ngoce, services, industriels.

Editeur : SageNom : Sage ERP X3Catgories : ETL, ODS, Datawarehouse, Datamart, Analyse, DataminingDescription :SAP est le nom dune grande solution de Business Intelligence, ou dcisionnel, danalyse et de reporting pour lentreprise, dit par SAP AG. Aujourdhui, son nom a lgrement chang pour devenir SAP Netweaver BI. Il contient un outil de paramtrage de solution dcisionnel (Data Warehouse Workbench) avec des possibilits tendues analytiques, une suite de logiciels de reporting (Bex) et un outil de simulation et de planification avec Integrated Planning (anciennement BPS pour Business Planning and Simulation. SAP acheter Business Objects le 15 Janvier 2008 pour 4.8 milliards deuros.

Editeur : SAPNom : SAP Netweaver BI (Ancien SAP BW)Catgories : ETL, ODS, Datawarehouse, Datamart, Analyse, DataminingDescription :SAP est le nom dune grande solution de Business Intelligence, ou dcisionnel, danalyse et de reporting pour lentreprise, dit par SAP AG. Aujourdhui, son nom a lgrement chang pour devenir SAP Netweaver BI. Il contient un outil de paramtrage de solution dcisionnel (Data Warehouse Workbench) avec des possibilits tendues analytiques, une suite de logiciels de reporting (Bex) et un outil de simulation et de planification avec Integrated Planning (anciennement BPS pour Business Planning and Simulation. SAP acheter Business Objects le 15 Janvier 2008 pour 4.8 milliards deuros.The minimum hardware requirements for SAPNetWeaver Gateway are as follows:RequirementsSpecification

ProcessorDual Core (2 logical CPUs) or higher, 2 GHz or higher

Random Access Memory (RAM)8 GB or higher

Hard Disk Capacity80 GB primary, or higher

Editeur : SAP (Ancien Business Objects)Nom : Business Objects XICatgories : ETL, Reporting, Requteurs, Analyse, DataminingDescription :Business Objects (frquemment abrge en B.O. ou encore BOBJ) est une entreprise informatique franaise. Elle est leader mondial dans son domaine dactivit. Le 15 janvier 2008 lallemand SAP, le numro 1 mondial des progiciels, annonce la russite de son OPA amicale sur Business Objects suite une offre 42 Euros par action valorisant lachat environ 4,8 milliards deuros. Business Objects est un diteur de logiciels ou progiciels offrant des solutions dans le domaine de lintelligence conomique, comme le benchmarking, le reporting, les datawarehouses, lETL et le data mining.

Editeur : SASNom : SASCatgories: ETL, Reporting, Requteurs, Analyse, DataminingDescription :Le langage de commande de SAS est un langage de programmation de quatrime gnration (L4G) dit par le SAS Institute. Lacronyme SAS vient de "Statistical Analysis System". Il existe depuis plus de trente ans. Actuellement (depuis 2004), SAS en est la version 9, ce qui correspond une volution majeure dans le logiciel car il intgre une nouvelle brique conceptuelle destine simplanter dans le monde des logiciels dinformatique dcisionnelle. Loffre SAS 9 permet SAS de fournir des applicatifs ETL et de reporting WEB. Dans tous les cas, lapplicatif consiste en une interface graphique (atelier). SAS Data Integration Studio est une offre sur la brique ETL de la chane dcisionnelle. Latelier permet de concevoir un ensemble de tches pour la cration dun systme dinformation. SAS Web Report Studio permet de concevoir un ensemble de reporting accessible par le Web.

Outils Open Source:

Editeur : PentahoNom : Pentaho BI SuiteCatgories : ETL, ODS, Datawarehouse, Datamart, Analyse, DataminingDescription :Pentaho est un projet global de la chaine dcisionnelle. Il comporte les briques suivantes : reporting, analyse, tableau de bord, data mining et workflow. Il a t lanc par des vtrans du dcisionnel : des ex de Business Objects, Cognos, Hyperion, IBM, Oracle, et SAS. Ce projet rellement ambitieux est suivre de prs. Selon les propos des fondateurs, leur objectif nest pas uniquement de proposer une alternative Open Source mais bien de dpasser en termes de fonctionnalits les offres du march. Ils nattendent pas que lon choisisse cette solution parce quelle est Open Source mais bien parce que cest la meilleure.

Editeur : TalendNom : Talend Open StudioCatgories : ETLDescription :Talend Open Studio est un ETL open source, dvelopp par la socit franaise Talend. Il permet de crer graphiquement des processus de manipulation et de transformation de donnes puis de gnrer lexcutable correspondant sous forme de programme Java ou Perl. Talend est notamment lETL utilis ou embarqu par les solutions dcisionnelles SpagoBI et JasperSoft. Mais Talend peut tre utilis trs largement au-del des projets dcisionnels, dans lintgration oprationnelle de donnes entre applicatifs et systmes divers. Talend utilise un modle graphique base de glisser/dposer pour crer les processus de manipulation de donnes. De nombreux types dtapes sont disponibles pour se connecter aux principales bases de donnes ainsi que pour traiter diffrents types de fichiers (CSV, Excel, XML). On notera que Talend facilite la construction des requtes dans les bases de donnes en dtectant les relations entre tables. Il est galement possible dajouter simplement de nouvelles fonctions et composants afin de raliser des processus plus complexes.

Editeur : Spago BINom : Spago BICatgories : ETL, ODS, Datawarehouse, Datamart, Analyse, DataminingDescription :Spago BI est une plateforme dcisionnelle dveloppe par la socit italienne Engineering Ingegneria Informatica. Cette plate-forme est uniquement distribue sous licence open source. Il ny a donc pas de fonctionnalits volontairement absentes et rserves pour une version commerciale. Spago BI permet la gnration dtats, simples ou paramtrs en utilisant les gnrateurs Jasper Reports et BIRT. Il permet galement lanalyse de donnes avec JPivot/Mondrian. SpagoBI intgre un composant daide la cration de requtes SQL (Query By Example) qui permet lutilisateur de slectionner graphiquement les donnes extraire de lentrept de donnes puis deffectuer des tris, groupements, slections et dexporter le rsultat. Linterface graphique utilise un ensemble de portlets pour afficher graphiques, tats et indicateurs lintrieur du portail. Certains indicateurs et graphiques permettent dactualiser leurs donnes sans intervention de lutilisateur, comme le trac dune courbe au fur et mesure de lcoulement des secondes. Les donnes sont stockes dans un rfrentiel utilisant la norme JCR (Java Content Repository) ce qui le rend librement interchangeable.

Editeur : JaspersoftNom : Jaspersoft v3Catgories : ETL, ODS, Datawarehouse, Datamart, Analyse, DataminingDescription :La suite JasperSoft Business Intelligence (BI) fournit un outil intgr dintgration de donnes, danalyse et de reporting. JasperSoft repose sur une architecture ouverte et sur un support multi-langage, notamment Perl, PHP, Python, et Java (sur lequel il repose 100%), ainsi que sur la possibilit de connexion via les services web, notamment via SOAP. Il est possible dintgrer les notions de groupes dutilisateurs multi-niveau et dauthentification la gnration de rapports (au format PDF, Excel, Word et HTML).

Parts de march en France des principaux diteurs de B.I.