Christophe Bertin Avant-Vente IBM [email protected] +33 676756751
La Gouvernance : clé pour le succès des initiatives Analytics
Les données font la richesse métier de demain“We will look back on this time and look at data as a natural resource that powered the 21st century”
Ginni RommetyIBM CEOFebruary 2014
80% des données existantes sont des données non structurées
80% des données existantes sont des données non structurées
h
12% des données sont utilisées
80% des données existantes sont des données non structurées
h
12% des données sont utilisées
h
20% de ces données sont considérées comme fiables
Une nouvelle façon de gérer des données avec le“BIG DATA”Tout type de données
Beaucoup de volume
Des informations précieuses mais difficiles à extraire
Souvent très sensibles au temps
Quels sont les apports d'une plate-forme Big Data?
Analyser des informations en mouvement
Utiliser le streaming dans les analyses
Lancer des analyses sur des données en mouvement
Analyser des informations variées
Intégrer dans de nouvelles analyses des informations qui ne l'étaient pas avant
Découvrir et & Expérimenter
Utiliser l'analyse Adhoc, la recherche dans les données existantes et l'expérimentation
Analyser de fort volume d'information
Lancer des analyses sur des volumes gigantesques d'information en réduisant le coût de ce processus
Gérer et analyser de forts volumes de données structurées et relationnelles
Gérer & Planifier
Identifier la structure des données, l'intégrité et le contrôle pour assurer la cohérence des requêtes répétitives
L'apport de IBM avec InfoSphere BigInsights
� Scalable• De nouveaux nœuds peuvent être
ajoutés au fil de l'eau
� Abordable • Traitement massivement parallèle
sur des serveurs standards
� Flexible • Hadoop ne nécessite pas de schéma
de données et peut donc stocker tout type de données
� Tolérant à la panne• A l'aide d'un framework de traitement
parallèle MapReduce
+ IBM Innovation
� Performance & fiabilité• Adaptive MapReduce, Compression,
BigIndex, Scheduler flexible
� Accélérateurs pour l'analytique
� Accélérateurs pour la productivité• Écran de gestion Web• Outils de gestion évolués• Écran de visualisation métier
� Intégration dans l'Enterprise• Pour étendre et enrichir la chaine
d'information
Les nouveaux scénarios métiers qui émergentLes experts métiers veulent un accès souple aux informations générées par leurs organisations au travers d'outils d'exploration, de sélection et d'annotation aux informations tout en utilisant leur propre terminologie et en appliquant un contrôle plus strict dans cette information. Par exemple :
Les Data Scientists recherchent des données pour identifier de nouveaux modèles analytiques
Les Marketeurs recherchent des données pour de nouvelles campagnes
Les Gestionnaires de Fraude recherchent des données pour mieux comprendre les activités suspectes
• Activité au jour le jour.
• Donner un accès spécifique sur une grande variété de sources d'information
• Améliorer les analyses et les prises de
décision
• Utiliser les terminologies métiers.
Mettre à disposition un tableur capable d'évoluer à grands volumes, avec une grande variété de types d'informations tout en protégeant les informations sensibles et en optimisant le stockage et l'alimentation des données.
Mettre à disposition un tableur capable d'évoluer à grands volumes, avec une grande variété de types d'informations tout en protégeant les informations sensibles et en optimisant le stockage et l'alimentation des données.
Data Lake
Un data lake, par opposition à un data warehouse, contient un ensemble de données non structurées ou multistructurées qui pour la plupart non pas encore été reconnues comme données de valeur pour l 'entreprise et qui sont stockées sous une forme brute. A l'opposé des données du data warehouse qui sont censés avoir été nettoyées et converties à des fins d'analyse ou pour des applications spécifiques, les données brutes résidant dans les Data Lake sont en attente d'application ou d'analyse pour découvrir leur valeur.
Un data lake, par opposition à un data warehouse, contient un ensemble de données non structurées ou multistructurées qui pour la plupart non pas encore été reconnues comme données de valeur pour l 'entreprise et qui sont stockées sous une forme brute. A l'opposé des données du data warehouse qui sont censés avoir été nettoyées et converties à des fins d'analyse ou pour des applications spécifiques, les données brutes résidant dans les Data Lake sont en attente d'application ou d'analyse pour découvrir leur valeur.
Les utilisateurs métiers veulent➢ Des outils d'analyse et de visualisation plus puissants➢ Un accès ouvert à plus d'informations
L'équipe IT s'inquiète ➢ des coûts induits
➢ De la gouvernance et des exigences réglementaires
La mise en place du concept du Data Lake
La notion de Data Réservoir� Un Data reservoir est un data lake qui met à
disposition de l'information à une organisation pour permettre la mise en place de plusieurs typologie d'analyse :• Découverte et exploration des données• Analyses complexes pour la prise de décision• Reporting• Analyse temps réel
� Il est possible de déclencher de nouvelles analyses depuis les données du Data Reservoir pour créer de nouvelles valeurs métier.
� Un data reservoir met en place la notion de référentiel d'information partagées.
� Chaque Référentiel du Data Reservoir est optimisé pour un certain type de traitement.• Analyses en temps réel, d'analyse complexe
(comme le data mining), les analyses exploratoires, OLAP, reporting, ...
� Les données de valeur peuvent être répliquées dans plusieurs référentiels du data reservoir. Cependant, le data reservoir doit s'assurer que cette données copiée ou modifiée est correctement gérée et gouvernée .
� L'information contenue dans le data reservoir doit être rendue accessible via différents types d'interfaces ) travers des Data
Reservoir Services.
Data Reservoir
Information Management and Governance Fabric
Data Reservoir Services
Data Reservoir Repositories
Schéma logique du Data reservoir
Line of BusinessApplications
Decision ModelManagement
Governance, Risk andCompliance Team
Simple, Ad Hoc
Discoveryand
Analytics
Reporting
E v e nts to E v a lua te
Inform a tionS e rv ic e C a lls
D ata Fe e dOut
D a ta Fe e d In
Inform a tionS e rv ic e C a lls
S e a rc hRe que s ts
Unde rs ta ndInform a tion
S ourc e s
Unde rs ta ndInform a tion
S ourc e s
D e ployD e c is ionMode ls
Unde rs ta ndC om plia nc e
Re portC om plia nc e
Inform a tionS e rv ic e C a lls
D a taE x port
Adv e rtis eInform a tion
S ourc e
InformationCurator
Inform a tionFe dera tion
C a lls
D e p loyRe a l-tim e
D e c is ionMode ls
D e p loyRea l-tim e
D e c is ion
Mode ls
OtherData ReservoirsOther
Data Lakes
Inte r-la keE x c ha ng e
Data Reservoir Operations
C ura tionIntera ction
Ma na g e m e nt
Notif ic a tions
D a taIm port
Enterprise IT
System of RecordApplications
Front OfficeApplications
Back OfficeApplications
Enterpr ise S
ervice Bus
New Sources
Third Party Feeds
Third Party Services
SupportServices
Mobile and other Channels
Internal Sources
10001
01011
01101
Data Reservoir
La problématique de la gouvernance de l'information
� Au moment de la collecte :• Peut-on préserver la validité de
l'information?• Sait-on identifier ce que l'on collecte?• Peut-on identifier l'information dont
on aura besoin?
� Comment peut-on introduire de la confiance dans le Data Lake?• Connait-on vraiment l'usage des
données?
� Ne crée-t-on pas un marais?
Schéma logique du Data reservoir
Line of BusinessApplications
Decision ModelManagement
Governance, Risk andCompliance Team
Simple, Ad Hoc
Discoveryand
Analytics
Reporting
E v e nts to E v a lua te
Inform a tionS e rv ic e C a lls
D ata Fe e dOut
D a ta Fe e d In
Inform a tionS e rv ic e C a lls
S e a rc hRe que s ts
Unde rs ta ndInform a tion
S ourc e s
Unde rs ta ndInform a tion
S ourc e s
D e ployD e c is ionMode ls
Unde rs ta ndC om plia nc e
Re portC om plia nc e
Inform a tionS e rv ic e C a lls
D a taE x port
Adv e rtis eInform a tion
S ourc e
InformationCurator
Inform a tionFe dera tion
C a lls
D e p loyRe a l-tim e
D e c is ionMode ls
D e p loyRea l-tim e
D e c is ion
Mode ls
OtherData ReservoirsOther
Data Lakes
Inte r-la keE x c ha ng e
Data Reservoir Operations
C ura tionIntera ction
Ma na g e m e nt
Notif ic a tions
D a taIm port
Enterprise IT
System of RecordApplications
Front OfficeApplications
Back OfficeApplications
Enterpr ise S
ervice Bus
New Sources
Third Party Feeds
Third Party Services
SupportServices
Mobile and other Channels
Internal Sources
10001
01011
01101
Data Reservoir
Data Reservoir
Re portQue rie s
CatalogInterfaces
Raw DataInteraction
Data Refineries
View-based
Interaction
Information Integration & Governance
D a taE x port
D ataIm port
Data ReservoirRepositories
L'intégration des données est une opération critique dans le succès d'un projet Hadoop
Extract, Transform, and Load Big Data With Apache Hadoop - White Paperhttps://software.intel.com/sites/default/files/article/402274/etl-big-data-with-hadoop.pdf
“Pour la plupart
des comptes
80%de l'effort de développement d'un grand projet de données va dans l'intégration de données
Va vers l'analyse des données.”
…et seulement 20%
La plupart des initiatives Hadoop impliquent la collecte, le déplacement, la transformation, le nettoyage, l'intégration, l'exploration et l'analyse d'un volume important de sources et des types de données disparates.
Que mettre en œuvre pour résoudre ce problème d'intégration ?
Hadoop n'est pas une plate-forme
d'intégration de données, 80% des
travaux concernent l'intégration pour lequel
MapReduce est lent
Pour passer en production,
vous avez besoin de vous
assurer d'avoir pris en
compte tous les besoins
d'intégration : Le codage
manuel ne permet pas
d'atteindre l'objectif de
scalabilité, flexibilité, ou de
performance
Les facteurs clés de succès d'un projet
d'intégration dans le big data
L'ELT seul n'est pas suffisant pour répondre à la plupart
des exigences d’intégration, parce que vous ne pouvez
pas pousser toute la logique de l'intégration de données dans l'entrepôt de données
ou dans Hadoop
Nous avons adapté notre catalogue de gestion de la gouvernance de l'information au périmètre du Big Data
� Adaptable
Est capable de panacher son
approche d'intégration en utilisant
les capacités natives d'ETL, d'ELT
ainsi que déployer des jobs dans
Hadoop
� Dynamique et extensible
Gagne instantanément de la
performance dès qu'une ressource
matérielle supplémentaire lui est
allouée
� Partitionnement des données
En vrai gestion parallèle (comme
Hadoop), la donnée est maintenue
dans l'outil d'intégration et stockée en
parallèle pour permettre la scalabilité
� Intégration Hadoop
Poussez tout ou partie du processus
vers Hadoop pour profiter de son
évolutivité en mode ELT.
DiskDisk
CPUCPU
MemoryMemory
Sequential
DiskDisk
CPUCPU
Shared Memory
Shared Memory
CPUCPUCPUCPU CPUCPU
4-way Parallel 64-way Parallel
Uniprocessor SMP System MPP Clustered System
SourceSourceDataData
SourceSourceDataData
TransformTransform CleanseCleanse EnrichEnrichEDWEDWEDWEDW
InfoSphere DataStage est une plate-forme sûre pour s'intégrer dans le Big Data
Comprendre & Collaborer…donner du contexte et de la pertinence aux informations du data lake
Permet à tout utilisateur de
trouver des sources de données
contextualisées et d'explorer les détails pour identifier les
données les plus pertinentes
Shop for Data
Voir instantanément un
sommaire d'information sur
les données
Smart Hover
Organiser les données en
«collections», y ajouter du
contexte, et les partager avec
d'autres utilisateurs
Collect & Share
Nouvel outil de linéage graphique
pour rendre les flux d'entreprise plus opérationnels et
lisibles
Lineage@Scale
Réduction de la complexitéMeilleure supervision
AgilitéCompréhension
Réduction de la complexitéMeilleure supervision
AgilitéCompréhension
Information Governance
Catalog
IBM Infosphere, les clefs de la construction d'un Data Reservoir
� Le data reservoir a besoin d'une gouvernance et d'une gestion du changement pour s'assurer que l'information est protégée et gérée de manière efficace.
� La première étape dans la création du reservoir est d'établir les règles
d'intégration et de gouvernance, de mettre en place les staging areas, le catalogue des métadonnées et une terminologie commune.
� La construction s'opère ensuite de manière itérative :• Établissement de la gouvernance autour d'un sujet métier.• Mise en place de la gestion des sources d'information• Mise en place des vues métiers• Etablissement des premières analyses• Mise en place des règles de gestion opérationnelles
InformationIntegration &Governance
InformationBroker
Operational Governance Hub
CodeHub
Mon itor Work f lowS ta g in g Are a s
● Etablir les principes de la gouvernance (rôles, règles, acteurs...)
● Etablir le dictionnaire métier
Exemple d'utilisation classique de notre approche sur la gouvernance
● Travailler les métadonnées (Création, regroupement, classification, annotation et surtout lien avec le dictionnaire métier)
● Lier les métadonnées et le dictionnaire aux différents jobs d'extraction
Information Governance
Catalog
● Identifier des assets en utilisant une terminologie métier● Utiliser des requêtes pour localiser des sources d'information● Identifier des sources d'informations en utilisant des tags● Identifier des sources d'informations en utilisant des collections● Explorer et accéder rapidement à l'information
Récupérer rapidement des données dans des sandbox en utilisant le dictionnaire métier pour identifier les sources d'information à utiliser
Les bénéfices courts et long termes apportés
Pour aller plus loin dans la compréhension des informations
Comment éviter la confusion et bien cerner le sens de l'information en travaillant la notion de contexte
Comment redonner du sens
aux données à forte valeur
ajoutée :
Clients, Produits, Contrats,
Assets, Employés, Partenaires,
sous-traitants …
Connector FrameworkIdentifier les similitudes à l'aide d'algorithmes probabilistes et y associer des données de contexte :•Les flux web RSS
•Les données sociales
•Les CMS
•Les documents non structurés
•Emails / Conversations…
Annexe
Prochains Bootcamps
● 7/10 Octobre : Data Quality Fund. Bootcamp
– http://www304.ibm.com/events/idr/idrevents/register.action?meid=16615&ieid=11789
● 3/7 Novembre : Data Governance with InfoSphere Information Server Bootcamp
– http://www304.ibm.com/events/idr/idrevents/register.action?meid=4614&ieid=12019
� Une overview de l'architecture de référence Big Data et Analytique
http://www.redbooks.ibm.com/Redbooks.nsf/RedbookAbstracts/redp5012.html?Open
Détail des approches disponibles pour faciliter la scalabilité de l'intégration dans du Big DataDans une BDD
Avantages:� Exploite le moteur MPP de la BDD� Minimise le transfert de données� Utilise la capacité de liens et d'agrégation
des BDD� Marche très bien avec des données
propres� Libère de la ressource ETL� Utilise au mieux les ressources de la
BDD� Le moteur de BDD est plus rapide sur
certains processus
Inconvénients:� Matériel et stockage très cher� Peu nécessité 100% de recours à l'ELT� Dégradation des SLA des query� Toute la logique d'un ETL ne peut être
reproduite au travers des BDD
(nécessite l'utilisation d'un outil d'ETL ou
de requêtes SQL codées à la main) � Ne peut utiliser des serveurs standards� Necessite de la programmation� Est limité pour les transformations
complexes� Est limité pour les opérations de
nettoyage� Le moteur de BDD est moins performant
sur certains processus� L'ELT peut consommer des ressources
BDD (il est difficile de planifier l'allocation
des ressources)
En dehors d'une BDD
ou d'Hadoop
Avantages :� Exploite le moteur MPP de l'ETL� Exploite des serveurs standards� Exploite des grilles de serveurs� Permet des transformations complexes (data
cleansing)� Libère les ressources des BDD� Travaille sur des sources de données hétérogènes
(non stockées dans des BDD)� Le moteur ETL est plus rapide sur certains
processus de transformation
Inconvénients:� Le moteur ETL est moins performant sur certains
processus (données stockées dans des bases
relationnelles)� Peu nécessité de la ressource supplémentaire
Dans Hadoop avec ou sans
MapReduce
Avantages:� Exploite le moteur MPP MapReduce � Exploite des serveurs standards� Libère les ressources des BDD� Supporte le traitement des données non
structurées� Exploite les possibilité d'Hadoop pour la
persistance des données (update et indexation)
� Coût réduit pour l'archivage et l'historisation
Inconvénients:� Toute la logique d'un ETL ne peut être
reproduite au travers des BDD (nécessite
l'utilisation d'un outil d'ETL ou de requêtes SQL
codées à la main) � Peu nécessiter de la programmation complexe� MapReduce est généralement moins rapide
qu'un moteur de BDD parallélisé ou un ETL en
cluster� Hadoop est une jeune technologie par encore
arrivée à maturité
Run and scale anywhere
Design Job Once
Governor; appoint an individual to coordinate the definition of policies related to information governance and their implementation.
Information Steward; appoint an individual to coordinate the manual activity necessary to monitor and verify that an information collection is meeting agreed quality levels. Create user interfaces and access rights to involve this individual in information quality processes such as the exception management process.
Quality Analyst; appoint an individual to monitor and analyze the state of the information flowing through the information supply chain.
Integration Developer; maintaining the data movement functionality in, around and out of the data lake.
Infrastructure Operator; appoint an individual responsible for starting, maintaining, and monitoring the systems thatsupport the information supply chain.
10001
01011
01101
Data Scientist; appoint an individual to analyze the information that the organization is collecting in order to understand patterns of success.
Business Analyst; appoint an individual to analyze the way people are working, understand where the processes can be improved, and define new procedures, rules, and requirements for the IT systems.
Information Owner; appoint an individual to be the owner of the information collection who is responsible and accountable for ensuring it is capable of supporting the organization’s activities.
Auditor; appoint an individual or team of individuals to review key aspects of how the organization is actually operating and compare it with agreed processes.
Information Worker; appoint individuals who are responsible for the manual steps in the core business activity. Create user interfaces and access rights to provide these individuals access to the information supply chain through the information processes.
Les acteurs embarqués dans le Data Reservoir