View
120
Download
1
Category
Preview:
Citation preview
Comment intégrer les Big Data à votre Système d’Information
et gérer leur qualité ?Jeudi 1er décembre 2016
Fateh Naili
Enterprise Solutions Manager, Information Builders
90%Of all the data in the
world has been generated
over the last 2 years
Data Output is growing rapidly
2009 2010 2011 2012 2013 2014 2015
A quelle vitesse vos données augmentent ?
Avec les réseaux sociaux…
5
Cisco SystemsD’ici 2020, le traffic
généré sur le web
667 ExaBytes / an
Google+1 mille milliards
de pages indéxées
24 PetaBytes / jour
Facebook2,7 milliards
de “J’aime”
+500 TB / jour
Twitter400 millions
de tweets
12 TB / jour
… mais pas seulement !
6
TransactionsD’ici 2020, les transactions
B2B et B2C sur le web
450 milliards / jour
NASALes données météo et
climatiques stockées
32 PetaBytes
BoeingUn Boeing 737
génère en moyenne
240 TeraBytes / vol
Walmart+1 million
de transactions
2,5 PetaBytes / heure
Volumes plus importants de transactions issues d’Internet,
des machines...
Impact sur l’ensemble des technologies et déploiements
• Cloud, Business Intelligence, Data Warehouse
• Faire toujours plus, plus rapidement et à moindre coût
Ensembles de données volumineux, difficiles à gérer en
utilisant des bases de données relationnelles:
• Stockage/Coût
• Recherche/Performance
• Analyse et visualisation
Traitements parallèles sur des centaines de machines qui ne
peuvent pas être réalisés dans un délai raisonnable
• Outils traditionnels (ETL,...)
Les enjeux du Big Data
Transition vers des technologies innovantes
9
Données d’entreprise et données non structurées
Fewer
use cases
More
use cases
ModernTraditional
OLTP
OLAP
Data warehouses
Data marts
Point-to-point
Integration
EII
Architecture Big Data de Information Builders
10
Sq
oo
p, F
lum
e…
Av
ro, JS
ON
…
Applicationstraditionnelleset data stores
iWay Big Data Integrator
Intégration native, innovanteet simplifiée à Hadoop
Big Data Apache Hadoop
Toute distribution,tout type de données
BI & Analytics Plateforme de BI & Analytique WebFOCUS
Self-service for Everyone
WebFOCUS access, ETL, metadata
WebFOCUS access, ETL, metadata
1. Data Hub/Data Lake.
2. Augmentation du Data Warehouse.
3. Archives de données/
Capacité de stockage supplémentaire.
4. Qualité des données.
5. Data Discovery.
6. Business Intelligence.
7. Optimisation.
8. Modèles prédictifs.
11
InterfaceSimplifiée
Génération native de script Hadoop
Gouvernance et gestion des processus
Sq
oo
p, F
lum
e…
Av
ro, JS
ON
…
Data Sources
Big DataNative: Runs in Hadoop cluster
Purpose-built: Fully Exploits all Hadoop Services
Simple: Replaces coding with mapping
� Simplified, easy-to-use interface to integrate in Hadoop
� Marshals Hadoop resources and standards
� Takes advantage of performance and resource negotiation
� Includes sophisticated process management & governance
iWay Big Data Integrator
iWay Big Data Integrator
12
• Interface Utilisateur basée sur Eclipse.
• Ingestion des données utilisant l’abstraction au-dessus de Sqoop, Flume, Hive, Spark,
et tout contenu de canal de streaming propriétaire.
• Transformation & Mapping – MapReduce et Spark.
• Nettoyage, mise en correspondance et fusion.
• Publication aux sources de données non-Hadoop.
• Scripts auto-générés/Tâches et code compilés pour soumission de tâches.
• Déploiement d’intégration, tests, création Spark de bout-en-bout.
• Adapté à Kerberos.
• Sécurité basée sur la gestion des rôles via l’intégration de Apache Sentry.
L’impact de la qualité des données sur votre business
14
Faits et chiffres
• La mauvaise qualité des données coûte aux entreprises au moins 10% de leur chiffre d'affaires;
20% est probablement une meilleure estimation. DM Review
• Pour les assurances, le coût (des mauvaises données) est estimé entre 15 et 20% de leur
revenu d'exploitation. Insurance Data Management Association
• Gartner estime que plus de 25% des données critiques au sein des grandes entreprises sont
inexactes ou incomplètes. InformationWeek
• 50% des projets de Data Warehouse échoueront pour ne pas avoir traité de façon proactive les
problèmes de qualité des données. Thomas Redman – Data-Driven
Avec le Big Data, le problème ne va pas disparaître mais s’amplifier ...
Qu’est ce que la qualité des données?
15
Des données exactes, complètes, cohérentes, uniques, à jour, valides...
Sur cette base, une stratégie de qualité des donnée s doit être définie et appliquée!
Exacte
Complète
Cohérente
Unique
A jour
Valide
Solution iWay Data Quality Edition
� Une solution conçue pour optimiser
l’intégrité de l’information au sein
de l’entreprise ou d’un département.
�Mise à disposition de règles
de gestion entièrement
personnalisées et d’un portfolio
de dictionnaires de données.
ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
� Règles de validation
� Analyses statistiques
�Minimum
�Maximum
�Moyenne
� Nombre d’occurrences
� Rapport et recommandations:
� Rapport statistique
détaillé sur la qualité de vos données
� Actions nécessaires à mettre en place.
Etape 1: Profilage de la qualité des données
� Parsing des données
� Validation des règles métier.
� Fonctions de Scoring et d’explication
des traitements natifs.
� Traitements en temps réel et en différé.
� Dictionnaires intégrés.
ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
Etape 2: Nettoyage des données
Etape 3: Enrichissement des données
� Utilisation de librairies prêtes a l’emploi
� Utilisation de librairies personnalisées
� Utilisation de référentiels (Look up)
� Référentiel de société
� Nom standard de la société
� Numéro SIREN
� Adresse officielle
� Compte bancaire
� Classification
� Loqate
� Référentiel et validation d’adresse
Ajout d’informations manquantes:
� Rue
� Code Postal
� Ville
� Validation d’adresses existantes
� Ajout de noms, prénoms, titres…
ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
Etape 4: Réconciliation et Fusion des données
�Objectif
� Identifier des groupes
d’enregistrements de nature
identique provenant de
différentes sources
pour homogénéiser les données.
� Remarque
� Exercice assez complexe.
� Gestion des données manquantes,
erronées, en conflit.
� Solution
� Le Matching est un algorithme
en deux étapes:
� Groupes Candidats
Tous les enregistrements sont assemblés
en groupes selon des règles au sens large.
� Groupes Clients
Consiste à diviser les groupes candidats
en utilisant des règles à granularité
plus fine.
ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
Réconciliation
Etape 4: Réconciliation et Fusion des donnéesFusion
� Utilisation des règles métier pour déterminer
le meilleur champ ou enregistrement.
� Exemples
� Enregistrement provenant d’un système de référence.
� Enregistrement le plus récent.
� Enregistrement de meilleure qualité (Scoring).
� Utilisation de fonctions d’agrégation.
� SQL-like: count, sum, minimum, maximum, average.
� L’objectif… Créer le Golden Record!
ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
Etape 5: Suivi et contrôle de la qualité de l’information
ProfilingProfiling CleansingCleansing EnrichmentEnrichment Match & MergeMatch & Merge MonitoringMonitoring
La qualité des données dans le contexte Big DataData Preparation
Unstructured
Semi-Structured
Structured
External
23
Data Lake
Raw Data
Data Ponds
BI Apps
Raw Data Actionable Data World Class Analytics
Data Marts
Operational System
Operational System
Data Marts
Profile, cleanse, master, etc.
Profile, cleanse, master, etc.
Ingest withoutcoding
Ingest withoutcoding
Create w/relevant data
Create w/relevant data
Data Swamp
Architecture Technique
Data in Motion
Data at Rest
Flume
Other Process
Sqoop
Agent 2
Agent 1
Agent 3
Producers Data
Preparation
Data
QualityHDFS
Hive
RDBMSData
Kafka
Topics
0 1 2
0 1 2
0 1 2
Job 1
Job 2
Job 3
Streaming
Content, IoT,
Application Data
Spark ProcessingData
Storing
Information Builders, en quelques chiffres
41ans d’innovation
60bureaux
1 400collaborateurs
30 000clients
Aider nos clients à développer leur activité,grâce à la puissance de l’information !
Gerry Cohen, Président Fondateur, Information Builders Inc.
Aider nos clients à développer leur activité,grâce à la puissance de l’information !
Gerry Cohen, Président Fondateur, Information Builders Inc.
Plateforme 3i complète et modulaire
Portal Embedded InfoApps™
ApplicationsLegacy Systems Relational/Cubes Big Data Columnar/In Memory Unstructured Social Media Web Services Trading Partners
Intégration
Mobile Write-Back
Data Discovery Reporting Dashboards
High-PerformanceData Store
DataQuality
Data Governance
Master DataManagement
BatchETL
Real-TimeESB
Intégrité
Intelligence
Location Analytics
In-DocumentAnalytics
Casting and Archiving
SearchPredictive Analytics
Sentiment and Word Analytics
Performance Management
SSSSocialocialocialocialHotHotHotHot
BBBBadadadadFFFFeedbackeedbackeedbackeedback
Big Data Integrator
En conclusion
Une intégration des Big Data:
� Rapide, facile, sécurisée.
� Capitalisant sur les technologies Hadoop.
� Certifiée par les acteurs majeurs Big Data.
Gestion de la qualité des données de bout-en-bout:
� Analyse et profilage des données.
� Validation, enrichissement et fusion.
� Monitoring.
� Architecture et processus intégrés à la plateforme Hadoop.
29
Recommended