of 29 /29
Christophe Bertin Avant-Vente IBM MDM [email protected] +33 676756751 La Gouvernance : clé pour le succès des initiatives Analytics

IBM Data lake

Embed Size (px)

DESCRIPTION

Concept du Data Lake présenté par Christophe BERTIN

Citation preview

Page 1: IBM Data lake

Christophe Bertin Avant-Vente IBM [email protected] +33 676756751

La Gouvernance : clé pour le succès des initiatives Analytics

Page 2: IBM Data lake

Les données font la richesse métier de demain“We will look back on this time and look at data as a natural resource that powered the 21st century”

Ginni RommetyIBM CEOFebruary 2014

Page 3: IBM Data lake

80% des données existantes sont des données non structurées

Page 4: IBM Data lake

80% des données existantes sont des données non structurées

 h

12% des données sont utilisées

Page 5: IBM Data lake

80% des données existantes sont des données non structurées

 h

12% des données sont utilisées

 h

20% de ces données sont considérées comme fiables

Page 6: IBM Data lake

Une nouvelle façon de gérer des données avec le“BIG DATA”Tout type de données

Beaucoup de volume

Des informations précieuses mais difficiles à extraire

Souvent très sensibles au temps

Page 7: IBM Data lake

Quels sont les apports d'une plate-forme Big Data?

Analyser des informations en mouvement

Utiliser le streaming dans les analyses

Lancer des analyses sur des données en mouvement

Analyser des informations variées

Intégrer dans de nouvelles analyses des informations qui ne l'étaient pas avant

Découvrir et & Expérimenter

Utiliser l'analyse Ad­hoc, la recherche dans les données existantes et l'expérimentation

Analyser de fort volume d'information

Lancer des analyses sur des volumes gigantesques d'information en réduisant le coût de ce processus

Gérer et analyser de forts volumes de données structurées et relationnelles

Gérer & Planifier

Identifier la structure des données, l'intégrité et le contrôle pour assurer la cohérence des requêtes répétitives

Page 8: IBM Data lake

L'apport de IBM avec InfoSphere BigInsights

� Scalable• De nouveaux nœuds peuvent être

ajoutés au fil de l'eau

� Abordable • Traitement massivement parallèle

sur des serveurs standards

� Flexible • Hadoop ne nécessite pas de schéma

de données et peut donc stocker tout type de données

� Tolérant à la panne• A l'aide d'un framework de traitement

parallèle MapReduce

+ IBM Innovation

� Performance & fiabilité• Adaptive MapReduce, Compression,

BigIndex, Scheduler flexible

� Accélérateurs pour l'analytique

� Accélérateurs pour la productivité• Écran de gestion Web• Outils de gestion évolués• Écran de visualisation métier

� Intégration dans l'Enterprise• Pour étendre et enrichir la chaine

d'information

Page 9: IBM Data lake

Les nouveaux scénarios métiers qui émergentLes experts métiers veulent un accès souple aux informations générées par leurs organisations au travers d'outils d'exploration, de sélection et d'annotation aux informations tout en utilisant leur propre terminologie et en appliquant un contrôle plus strict dans cette information. Par exemple :

Les Data Scientists recherchent des données pour identifier de nouveaux modèles analytiques

Les Marketeurs recherchent des données pour de nouvelles campagnes

Les Gestionnaires de Fraude recherchent des données pour mieux comprendre les activités suspectes

• Activité au jour le jour.

• Donner un accès spécifique sur une grande variété de sources d'information

• Améliorer les analyses et les prises de

décision

• Utiliser les terminologies métiers.

Mettre à disposition un tableur capable d'évoluer à grands volumes, avec une grande variété de types d'informations tout en protégeant les informations sensibles et en optimisant le stockage et l'alimentation des données.

Mettre à disposition un tableur capable d'évoluer à grands volumes, avec une grande variété de types d'informations tout en protégeant les informations sensibles et en optimisant le stockage et l'alimentation des données.

Page 10: IBM Data lake

Data Lake

Un data lake, par opposition à un data warehouse, contient un ensemble de données non structurées ou multi­structurées qui pour la plupart non pas encore été reconnues comme données de valeur pour l 'entreprise et qui sont stockées sous une forme brute. A l'opposé des données du data warehouse qui sont censés avoir été nettoyées et converties à des fins d'analyse ou pour des applications spécifiques, les données brutes résidant dans les Data Lake sont en attente d'application ou d'analyse pour découvrir leur valeur.

Un data lake, par opposition à un data warehouse, contient un ensemble de données non structurées ou multi­structurées qui pour la plupart non pas encore été reconnues comme données de valeur pour l 'entreprise et qui sont stockées sous une forme brute. A l'opposé des données du data warehouse qui sont censés avoir été nettoyées et converties à des fins d'analyse ou pour des applications spécifiques, les données brutes résidant dans les Data Lake sont en attente d'application ou d'analyse pour découvrir leur valeur.

Les utilisateurs métiers veulent➢ Des outils d'analyse et de visualisation plus puissants➢ Un accès ouvert à plus d'informations

L'équipe IT s'inquiète ➢ des coûts induits

➢ De la gouvernance et des exigences réglementaires

La mise en place du concept du Data Lake

Page 11: IBM Data lake

La notion de Data Réservoir� Un Data reservoir est un data lake qui met à

disposition de l'information à une organisation pour permettre la mise en place de plusieurs typologie d'analyse :• Découverte et exploration des données• Analyses complexes pour la prise de décision• Reporting• Analyse temps réel

� Il est possible de déclencher de nouvelles analyses depuis les données du Data Reservoir pour créer de nouvelles valeurs métier.

� Un data reservoir met en place la notion de référentiel d'information partagées.

� Chaque Référentiel du Data Reservoir est optimisé pour un certain type de traitement.• Analyses en temps réel, d'analyse complexe

(comme le data mining), les analyses exploratoires, OLAP, reporting, ...

� Les données de valeur peuvent être répliquées dans plusieurs référentiels du data reservoir. Cependant, le data reservoir doit s'assurer que cette données copiée ou modifiée est correctement gérée et gouvernée .

� L'information contenue dans le data reservoir doit être rendue accessible via différents types d'interfaces ) travers des Data

Reservoir Services.

Data Reservoir

Information Management and Governance Fabric

Data Reservoir Services

Data Reservoir Repositories

Page 12: IBM Data lake

Schéma logique du Data reservoir

Line of BusinessApplications

Decision ModelManagement

Governance, Risk andCompliance Team

Simple, Ad Hoc

Discoveryand

Analytics

Reporting

E v e nts to E v a lua te

Inform a tionS e rv ic e C a lls

D ata Fe e dOut

D a ta Fe e d In

Inform a tionS e rv ic e C a lls

S e a rc hRe que s ts

Unde rs ta ndInform a tion

S ourc e s

Unde rs ta ndInform a tion

S ourc e s

D e ployD e c is ionMode ls

Unde rs ta ndC om plia nc e

Re portC om plia nc e

Inform a tionS e rv ic e C a lls

D a taE x port

Adv e rtis eInform a tion

S ourc e

InformationCurator

Inform a tionFe dera tion

C a lls

D e p loyRe a l-tim e

D e c is ionMode ls

D e p loyRea l-tim e

D e c is ion

Mode ls

OtherData ReservoirsOther

Data Lakes

Inte r-la keE x c ha ng e

Data Reservoir Operations

C ura tionIntera ction

Ma na g e m e nt

Notif ic a tions

D a taIm port

Enterprise IT

System of RecordApplications

Front OfficeApplications

Back OfficeApplications

Enterpr ise S

ervice Bus

New Sources

Third Party Feeds

Third Party Services

SupportServices

Mobile and other Channels

Internal Sources

10001

01011

01101

Data Reservoir

Page 13: IBM Data lake

La problématique de la gouvernance de l'information

� Au moment de la collecte :• Peut-on préserver la validité de

l'information?• Sait-on identifier ce que l'on collecte?• Peut-on identifier l'information dont

on aura besoin?

� Comment peut-on introduire de la confiance dans le Data Lake?• Connait-on vraiment l'usage des

données?

� Ne crée-t-on pas un marais?

Page 14: IBM Data lake

Schéma logique du Data reservoir

Line of BusinessApplications

Decision ModelManagement

Governance, Risk andCompliance Team

Simple, Ad Hoc

Discoveryand

Analytics

Reporting

E v e nts to E v a lua te

Inform a tionS e rv ic e C a lls

D ata Fe e dOut

D a ta Fe e d In

Inform a tionS e rv ic e C a lls

S e a rc hRe que s ts

Unde rs ta ndInform a tion

S ourc e s

Unde rs ta ndInform a tion

S ourc e s

D e ployD e c is ionMode ls

Unde rs ta ndC om plia nc e

Re portC om plia nc e

Inform a tionS e rv ic e C a lls

D a taE x port

Adv e rtis eInform a tion

S ourc e

InformationCurator

Inform a tionFe dera tion

C a lls

D e p loyRe a l-tim e

D e c is ionMode ls

D e p loyRea l-tim e

D e c is ion

Mode ls

OtherData ReservoirsOther

Data Lakes

Inte r-la keE x c ha ng e

Data Reservoir Operations

C ura tionIntera ction

Ma na g e m e nt

Notif ic a tions

D a taIm port

Enterprise IT

System of RecordApplications

Front OfficeApplications

Back OfficeApplications

Enterpr ise S

ervice Bus

New Sources

Third Party Feeds

Third Party Services

SupportServices

Mobile and other Channels

Internal Sources

10001

01011

01101

Data Reservoir

Data Reservoir

Re portQue rie s

CatalogInterfaces

Raw DataInteraction

Data Refineries

View-based

Interaction

Information Integration & Governance

D a taE x port

D ataIm port

Data ReservoirRepositories

Page 15: IBM Data lake

L'intégration des données est une opération critique dans le succès d'un projet Hadoop

Extract, Transform, and Load Big Data With Apache Hadoop - White Paperhttps://software.intel.com/sites/default/files/article/402274/etl-big-data-with-hadoop.pdf

“Pour la plupart

des comptes

80%de l'effort de développement d'un grand projet de données va dans l'intégration de données

Va vers l'analyse des données.”

…et seulement 20%

La plupart des initiatives Hadoop impliquent la collecte, le déplacement, la transformation, le nettoyage, l'intégration, l'exploration et l'analyse d'un volume important de sources et des types de données disparates.

Page 16: IBM Data lake

Que mettre en œuvre pour résoudre ce problème d'intégration ?

Hadoop n'est pas une plate-forme

d'intégration de données, 80% des

travaux concernent l'intégration pour lequel

MapReduce est lent

Pour passer en production,

vous avez besoin de vous

assurer d'avoir pris en

compte tous les besoins

d'intégration : Le codage

manuel ne permet pas

d'atteindre l'objectif de

scalabilité, flexibilité, ou de

performance

Les facteurs clés de succès d'un projet

d'intégration dans le big data

L'ELT seul n'est pas suffisant pour répondre à la plupart

des exigences d’intégration, parce que vous ne pouvez

pas pousser toute la logique de l'intégration de données dans l'entrepôt de données

ou dans Hadoop

Page 17: IBM Data lake

Nous avons adapté notre catalogue de gestion de la gouvernance de l'information au périmètre du Big Data

Page 18: IBM Data lake

� Adaptable

Est capable de panacher son 

approche d'intégration en utilisant 

les capacités natives d'ETL, d'ELT 

ainsi que déployer des jobs dans 

Hadoop

� Dynamique et extensible

Gagne instantanément de la 

performance dès qu'une ressource 

matérielle supplémentaire lui est 

allouée

� Partitionnement des données

En vrai gestion parallèle (comme 

Hadoop), la donnée est maintenue 

dans l'outil d'intégration et stockée en 

parallèle pour permettre la scalabilité

� Intégration Hadoop

Poussez tout ou partie du processus 

vers Hadoop pour profiter de son 

évolutivité en mode ELT.

DiskDisk

CPUCPU

MemoryMemory

Sequential

DiskDisk

CPUCPU

Shared Memory

Shared Memory

CPUCPUCPUCPU CPUCPU

4-way Parallel 64-way Parallel

Uniprocessor SMP System MPP Clustered System

SourceSourceDataData

SourceSourceDataData

TransformTransform CleanseCleanse EnrichEnrichEDWEDWEDWEDW

InfoSphere DataStage est une plate-forme sûre pour s'intégrer dans le Big Data

Page 19: IBM Data lake

Comprendre & Collaborer…donner du contexte et de la pertinence aux informations du data lake

Permet à tout utilisateur de

trouver des sources de données

contextualisées et d'explorer les détails pour identifier les

données les plus pertinentes

Shop for Data

Voir instantanément un

sommaire d'information sur

les données

Smart Hover

Organiser les données en

«collections», y ajouter du

contexte, et les partager avec

d'autres utilisateurs

Collect & Share

Nouvel outil de linéage graphique

pour rendre les flux d'entreprise plus opérationnels et

lisibles

Lineage@Scale

Réduction de la complexitéMeilleure supervision

AgilitéCompréhension

Réduction de la complexitéMeilleure supervision

AgilitéCompréhension

Information Governance

Catalog

Page 20: IBM Data lake

IBM Infosphere, les clefs de la construction d'un Data Reservoir

� Le data reservoir a besoin d'une gouvernance et d'une gestion du changement pour s'assurer que l'information est protégée et gérée de manière efficace.

� La première étape dans la création du reservoir est d'établir les règles

d'intégration et de gouvernance, de mettre en place les staging areas, le catalogue des métadonnées et une terminologie commune.

� La construction s'opère ensuite de manière itérative :• Établissement de la gouvernance autour d'un sujet métier.• Mise en place de la gestion des sources d'information• Mise en place des vues métiers• Etablissement des premières analyses• Mise en place des règles de gestion opérationnelles

InformationIntegration &Governance

InformationBroker

Operational Governance Hub

CodeHub

Mon itor Work f lowS ta g in g Are a s

Page 21: IBM Data lake

● Etablir les principes de la gouvernance (rôles, règles, acteurs...)

● Etablir le dictionnaire métier

Exemple d'utilisation classique de notre approche sur la gouvernance

● Travailler les métadonnées (Création, regroupement, classification, annotation et surtout lien avec le dictionnaire métier)

● Lier les métadonnées et le dictionnaire aux différents jobs d'extraction

Information Governance

Catalog

Page 22: IBM Data lake

● Identifier des assets en utilisant une terminologie métier● Utiliser des requêtes pour localiser des sources d'information● Identifier des sources d'informations en utilisant des tags● Identifier des sources d'informations en utilisant des collections● Explorer et accéder rapidement à l'information

Récupérer rapidement des données dans des sandbox en utilisant le dictionnaire métier pour identifier les sources d'information à utiliser

Les bénéfices courts et long termes apportés

Page 23: IBM Data lake

Pour aller plus loin dans la compréhension des informations

Comment éviter la confusion et bien cerner le sens de l'information en travaillant la notion de contexte

Page 24: IBM Data lake

Comment redonner du sens 

aux données à forte valeur 

ajoutée :

Clients, Produits, Contrats,

Assets, Employés, Partenaires,

sous-traitants …

Connector FrameworkIdentifier les similitudes à l'aide d'algorithmes probabilistes et y associer des données de contexte :•Les flux web RSS

•Les données sociales

•Les CMS

•Les documents non structurés

•Emails / Conversations…

Page 25: IBM Data lake

Annexe

Page 26: IBM Data lake

Prochains Bootcamps

● 7/10 Octobre : Data Quality Fund. Bootcamp

– http://www­304.ibm.com/events/idr/idrevents/register.action?meid=16615&ieid=11789

● 3/7 Novembre : Data Governance with InfoSphere Information Server Bootcamp 

– http://www­304.ibm.com/events/idr/idrevents/register.action?meid=4614&ieid=12019

Page 27: IBM Data lake

� Une overview de l'architecture de référence Big Data et Analytique

http://www.redbooks.ibm.com/Redbooks.nsf/RedbookAbstracts/redp5012.html?Open

Page 28: IBM Data lake

Détail des approches disponibles pour faciliter la scalabilité de l'intégration dans du Big DataDans une BDD

Avantages:� Exploite le moteur MPP de la BDD� Minimise le transfert de données� Utilise la capacité de liens et d'agrégation 

des BDD� Marche très bien avec des données 

propres� Libère de la ressource ETL� Utilise au mieux les ressources de la 

BDD� Le moteur de BDD est plus rapide sur 

certains processus

Inconvénients:� Matériel et stockage très cher� Peu nécessité 100% de recours à l'ELT� Dégradation des SLA des query� Toute la logique d'un ETL ne peut être 

reproduite au travers des BDD  

(nécessite l'utilisation d'un outil d'ETL ou 

de requêtes SQL codées à la main) � Ne peut utiliser des serveurs standards� Necessite de la programmation� Est limité pour les transformations 

complexes� Est limité pour les opérations de 

nettoyage� Le moteur de BDD est moins performant 

sur certains processus� L'ELT peut consommer des ressources 

BDD (il est difficile de planifier l'allocation 

des ressources)

En dehors d'une BDD 

ou d'Hadoop

Avantages :� Exploite le moteur MPP de l'ETL� Exploite des serveurs standards� Exploite des grilles de serveurs� Permet des transformations complexes (data

cleansing)� Libère les ressources des BDD� Travaille sur des sources de données hétérogènes

(non stockées dans des BDD)� Le moteur ETL est plus rapide sur certains 

processus de transformation

Inconvénients:� Le moteur ETL est moins performant sur certains 

processus (données stockées dans des bases 

relationnelles)� Peu nécessité de la ressource supplémentaire

Dans Hadoop avec ou sans 

MapReduce

Avantages:� Exploite le moteur MPP MapReduce � Exploite des serveurs standards� Libère les ressources des BDD� Supporte le traitement des données non 

structurées� Exploite les possibilité d'Hadoop pour la 

persistance des données (update et indexation)

� Coût réduit pour l'archivage et l'historisation

Inconvénients:� Toute la logique d'un ETL ne peut être 

reproduite au travers des BDD (nécessite 

l'utilisation d'un outil d'ETL ou de requêtes SQL 

codées à la main) � Peu nécessiter de la programmation complexe� MapReduce est généralement moins rapide 

qu'un moteur de BDD parallélisé ou un ETL en 

cluster� Hadoop est une jeune technologie par encore 

arrivée à maturité

Run and scale anywhere

Design Job Once

Page 29: IBM Data lake

Governor; appoint an individual to coordinate the definition of policies related to information governance and their implementation.

Information Steward; appoint an individual to coordinate the manual activity necessary to monitor and verify that an information collection is meeting agreed quality levels. Create user interfaces and access rights to involve this individual in information quality processes such as the exception management process.

Quality Analyst; appoint an individual to monitor and analyze the state of the information flowing through the information supply chain.

Integration Developer; maintaining the data movement functionality in, around and out of the data lake.

Infrastructure Operator; appoint an individual responsible for starting, maintaining, and monitoring the systems thatsupport the information supply chain.

10001

01011

01101

Data Scientist; appoint an individual to analyze the information that the organization is collecting in order to understand patterns of success.

Business Analyst; appoint an individual to analyze the way people are working, understand where the processes can be improved, and define new procedures, rules, and requirements for the IT systems.

Information Owner; appoint an individual to be the owner of the information collection who is responsible and accountable for ensuring it is capable of supporting the organization’s activities.

Auditor; appoint an individual or team of individuals to review key aspects of how the organization is actually operating and compare it with agreed processes.

Information Worker; appoint individuals who are responsible for the manual steps in the core business activity. Create user interfaces and access rights to provide these individuals access to the information supply chain through the information processes.

Les acteurs embarqués dans le Data Reservoir