Upload
nicolas-desachy
View
1.048
Download
0
Embed Size (px)
DESCRIPTION
Sur une planète toujours plus intelligente, instrumentée et interconnectée, la masse d\'information explose. Il n\'y a pas de prise de décision de qualité sans une information fiable, pertinente, à la bonne personne au bon moment. Lors des Tendances Logicielles New Intelligence, Dan Benouaisch, IBM, a développé les concepts et présenté l\'offre IBM InfoSpere qui répond à ces impératifs.
Citation preview
1
Disposer d'informations fiables, à l'instant voulu, pour prendre de meilleures décisions
Matthieu MauriceDan Benouaisch
2
Agenda
Introduction et enjeu autour de la qualité de donnée
Gestion de la qualité des données : Démarche outillée
Gestion de la qualité des données en mode projet
Apport de notre offre qualité de donnée
Q&A ?
4
Solution IBM InfoSphere – End to End
Cognos
Data Integration Data Quality Data Delivery
Operational Source SystemsStructured/ Unstructured Data
InfoSphere MDM Server
COMMON
METADATA
Data Glossary
Spreadsheets
Applications
Information Server
Federated Data
Cubing Services
IndustryModels
Data RepositoryMultidimensional
Analysis Data Mining
Data DefinitionGlossary
SOA Web Service
InfoSphere Warehouse
Common Definition
ManagementDeployment
6
Pourquoi analyser ces données ?
Constituer un socle de pilotage pour l’entreprise
Traiter, comparer, croiser les données issues de différents métier de l’entreprise
Améliorer la performance de l’entreprise, être compétitif, anticiper le risque
Intégrer des données de nouveaux systèmes(Fusion, Acquisition)
Améliorer la gestion stratégique et prévisionnelle
Améliorer le reporting des filiales vers les maisons mères
Répondre à des contraintes légales, e.g marché boursiers/financiers(Sarbanne Oaxley, Bale II, HIPAA, etc…)
Constitution de référentiel d’entreprise, MDM
Améliorer la qualité des entrepôts de données
Améliorer la productivité des développements
8
Vos problématiques de qualité …
Sources of Data Quality Problems
12%
25%
26%
34%
46%
48%
53%
76%
Other
Data entry by customers
System errors
External data
Mixed expectations by users
Data migration or conversion projects
Changes to root/source systems
Data entry by employees
Based on 286 respondents who could select multiple answers.
11
Une seule plateforme, un seul outil : le Serveur d’Information
Exécution performante quelque soit la volumétrie
Connectivité étendue aux applications, données et contenu
Comprendre
Cartographier, définir, découvrir et
modéliser et maîtriser qualité et structure
de l’information
Nettoyer
Standardiser, fusionner et
corriger l’information
Transformer
Transformer, enrichir, déplacer et
synchroniser l’information
Fédérer
Virtualiser et simplifier l’accès à
l’information
Déployer la logique d’intégration sous forme de Service
Gérer de façon unique et simple toutes vos métadonnées
Vos projets d’intégration de l’information …
13
IBM Information ServerDelivering information you can trust
Comprendre
Nettoyer Transformer Fédérer
QualityStageInformation Analyzer Federation ServerDataStageBusiness Glossary
Information Services Director
Metadata Server
Exécution paralléliséeConnectivité aux applications, données et
contenu
Information Server
Metadata Workbench
14
Comprendre
Problèmes critiques : Connaissez-vous réellement les données de votre SI ?
Vous avez certainement de nouvelles sources de données ou d’autres encore inconnues …
Pourquoi ? Vos données et leurs relations sont incohérentes et divergent par
rapport aux règles métier
La documentation, si elle existe est incomplète, obsolète ou pire … fausse !
Les sources de données ne sont jamais statiques … elles évoluent sans prévenir.
Stratégies adoptées Travail Manuel intensif
Impossible de passer en revue tous les éléments travail souvent approximatif …
Sans infrastructure : comment rejouer une analyse ?
Manque d’approche standardisée
Canaux externes
Sources Exogènes
Filiales
Liste externe
Distribution
Référentiels
Contacts
Protocoles
@
15
Business
Glossary
Comprendre vos données - Information Analyzer
IBM Information Analyzer
Analyse de colonnes Analyse de Table Analyse Inter-Table
Fréquences de distribution
Analyse des Classe, propriétés, format, domaine/complétude
Annotations & Marquage pour revue
Analyse des dépendancesAnalyse de clé primaire
Validation de règles Rapports
Cartographie détaillée et exhaustive de contenu, structure et qualité des données existantes Contrôle conformité par rapport à un modèle, règle Permet une mesure continue et la production de documentation sur les données
17
Analyse de la table EMPL:Élément employeur chèques emploi service
Fréquence de distribution : Zoom sur la colonne Empl Per Ext
Résultats :
• 6 Valeurs différentes
•Pourcentage de valeur par rapport à l’échantillon globale
• Nombre d’enregistrements par valeur
Point Intéressant :
•Red flag pour indiquer que l’enregistrement doit être validé
•Colonne Position pour indiquer le positionnement du champ dans la création de la table
•Inferred pour signaler une différence entre le contenu et le contenant notamment au niveau « taille » de structure
•Visualisation du format de la donnée
18
Plus de 60 rapports disponibles
Sous différents formats : HTML, XML, Word, etc.
Export vers une base externe pour un reporting 3rd party.
Exemple : rapports pour documenter les analyses
19
Points de valeur de la Solution :IBM Information Analyzer
Utilisation d’un outil de profilage de données : 50 % de gain par rapport à une solution développé « maison » Anticipation
Accès & visualisation unifiées de l’information très rapidement, très précisément Prise en compte plus rapide des nouveaux codes échéances, qualifications, etc…
Visualiser l’impact sur les différentes catégories existantes ou à venir….
Identification très rapide des anomalies
Analyse/Croisement de colonne illimitées
Automatisation du processus
Suivi, remontées des résultats dans le temps
Publication et diffusion
Outil non intrusif et non pénalisant pour les systèmes de production
20
IBM Information ServerDelivering information you can trust
Comprendre
Nettoyer Transformer Fédérer
QualityStageInformation Analyzer Federation ServerDataStageBusiness Glossary
Information Services Director
Metadata Server
Exécution paralléliséeConnectivité aux applications, données et
contenu
Information Server
Metadata Workbench
21
Nettoyer
Experts Sujets Analystes
IBM QualityStageGarantir la qualité et la pertinence de vos données
Standardiser vos données … Tout type de données : Noms, Titre, Adresses,
Description Produits, … Algorithmes de Phonétisation (NYSIIS et Soundex) Ex. Standardisation et Validation postale
prédéfinies pour plusieurs pays (240 Pays)
Rapprocher les données similaires ou en doublon
Proposer de nombreux algorithmes de rapprochements
– Comparaison exacte ou floue de chaînes de caractères
– Distance, Pourcentage, Dates Aucune limite dans le nombre de critères
utilisés pour effectuer le rapprochement Algorithme probabiliste Entièrement personnalisable Validation d’adresse à l’internationale (Translitération) Certification d’adresse postale (Plug-in)
Consolider les doublons, reformuler la donnée
Algorithmes prédéfinis et personnalisables Gestion des références croisées
Standardisation des données et mise en
correspondance avec toutes les autres sources
afin de définir une information unique
22
23
Vues Consolidées
Le processus de Nettoyage des données
1. Standardiser
2. Rapprocher
3. Consolider
Clients
Transactions
Vendeurs / Fournisseurs
Cible
Produits / Matériels
24
Comment identifier et consolider des données quand le nombre d’enregistrement s’élève a plusieurs millions/milliards d’enregiqtrement ?
Un exemple de données “non propres”
90328574 IBM 187 N.Pk. Str. Salem NH 01456 8,494.00
90328575 I.B.M. Inc. 187 N.Pk. St. Salem NH 01456 3,432.00
90238495 Int. Bus. Machines 187 No. Park St Salem NH 04156 2,243.00
90233479 International Bus. M. 187 Park Ave Salem NH 04156 5,900.00
90233489 Inter-Nation Consults 15 Main Street Andover MA 02341 6,800.00
90234889 Int. Bus. Consultants PO Box 9 Boston MA 02210 10,243.00
90345672 I.B. Manufacturing Park Blvd. Bostno MA 04106 15,999.00
Pas de clés communes
Anomalies
Erreurs de traduction
Pas de standard
25
Analyse lexicale:Détermination de la signification métier de chaque composant
Mise en contexte:Identification de la structure variable des données et de leur signification
^ Repetition Street Common + Index Type Word
3 | BIS | RUE | DE | PARIS
melle Morognier Françoise 3 bis, r. de Paris 72000 Le Mans
House Repetition Street Street Number Index Type Name
3 | B | RUE | DE PARIS
FRADDR
3 | BIS | R. | DE | PARISDécomposition:Détermination de la signification métier de chaque composant
Étape 1 : La standardisation (exemple adresses)
26
Description Dimension IC/IV Monte Type Voiture Pression
AV AR
Pneu Energy 195/65R15 91/H Ssérie Audi A4 TDI 115ch 2.0 2.0
Pneu Pilot Primacy 205/55R16 91/H Option Audi A4 TDI 2.2 2.2
Pneu Pilot Exalto 205/55R16 91/V Option Audi A4 TDI 130ch 2.2 2.2
Pneu Pilot Sport 225/45ZR17
91/Y Serie Audi A4 TDI Quatro
2.5 2.3
Pneu Energy Serie Audi A4 TDI 115ch 2.0 2.0
Pneu Pilot Primacy 205/55R16 Audi A4 91/H
Pneu Exalto Option AudiA4 130ch 2.2
Pneu Pilot Sport Serie Audi A4 TDi quattro 2.5 2.3 91/Y
Étape 1 : La standardisation (exemple produits)
27
Prénom 2ème Prénom Nom Fonction
ALEXANDRE J DEMARIA DGALEXANDRE JEAN DEMARA DG
+7 +1 +10 +5 = 23
Les CUTOFF sont les scores
au dessus et en dessous desquels
un rapprochement est considéré comme bon ou non
0
500
1000
1500
2000
2500
3000
3500
4000
-50 -40 -30 -20 -10 0 10 20 30 40 50 60
Nb
re P
air
es
Non rapprochées
Rapprochées
Le score d’un poids est une mesure relative de probabilité de match
Le score d’un poids est une mesure relative de probabilité de match
Étape 2 : Le Rapprochement
29
•Des enregistrements rapprochés correspondent alors :
à des vrais doublons
15,32 MLE MIREILLE BARBIERA LE PERCHOIR 119 AV DE LA BASTIDE 06130 GRASSE
10,59 MME MIRIELLE BARBIERA 42 CHEMIN DU BAMBOU 06130 GRASSE
à un historique client (CRM : mariage,déménagement,…)
36,10 C IBM 29 RUE DU CHAMOINE DE MOREL 13000 MARSEILLE
26,85 C I.B.M 29 RUE DU MOINE DE MOREL 16000 MARSEILLE
ou permet d’identifier la notion de groupe (filiales/corporation, foyer…)
36,36 C IBM SOFTWARE PARIS LA DEFENSE CEDEX
14,09 C IBM SOFTWARE CORP. BOSTON MASSACHUSSET
Étape 2 : Le Rapprochement
30
Détermine la meilleure donnée à garder “Best of Breed” La plus fraîche La plus fréquente Selon la source La plus complète….
Résoud les conflits de valeur et complète les valeurs manquantes
Crée les formats de sortie: Tables relationnelles avec clés Transactions pour mettre à jour les bases de données Fichiers de références croisées, tables de synonymes Pistes d’audit, rapports divers
555 36,36 MME Isabelle DURAND 3 RUE DE LA BERGERIE 34000 MONTPELLIER 23976
555 14,09 M Robert DURAND 3 RUE DE LA BERGERIE 34000 MONTPELLIER 23830
Groupe Legacy
555 23976
555 23830
Groupe Nom No Type Nom Code Ville Rue Rue Postal
555 DURAND 3 RUE DE LA BERGERIE 34000 MONTPELLIER
Étape 3 : La consolidation
31
Operation Work Instructions in a free text field
WNG ASSY DRL 3 HOLE USE HEXBOLT ¼ INCHWING ASSEMBY, HEX BOLT .25” - DRILL FOUR, USE 5J868-AUSE 4 5J868A BOLTS (HEX .25) - DRILL HOLES FOR EACH ON WING ASSEMRUDER, TAP 6 WHOLES, SECURE W/KL2301 RIVETS (10 CM)
Assembly Instruction QTY Type Part Size Unit Measure SKU
WING DRILL 3 HOLES HEXBOLT .25 INCHWING DRILL 4 HEXBOLT .25 INCH 5J868AWING DRILL 4 HOLES HEXBOLT .25 5J868ARUDDER TAP 6 HOLES RIVET 10 CM KL2301
STANDARDISATION
Assembly Instruction QTY Type Part Size Unit Measure SKU
WING DRILL 3 HOLES HEXBOLT .25 INCHWING DRILL 4 HEXBOLT .25 INCH 5J868AWING DRILL 4 HOLES HEXBOLT .25 5J868ARUDDER TAP 6 HOLES RIVET 10 CM KL2301
RAPPROCHEMENT
MATCH
Assembly Instruction QTY Type Part Size Unit Measure SKU
WING DRILL 4 HOLES HEXBOLT .25 INCH 5J868ARUDDER TAP 6 HOLES RIVET 10 CM KL2301
CONSOLIDATION
Un exemple d’harmonisation (produits)DONNEES EN ENTREE
33
Développer avec QualityStage
Un développement entièrement graphique et simple !
Une connectivité étendue Glisser / Déposer des colonnes
sources vers cibles 300+ fonctions de transformation
Un environnement de développement adapté à la qualité
Atelier de développement defonctions Métier
Appel de fonctions externes …
36
VSC Technologies – Filiale de la Sncf :
Fournisseur de solutions technologiques de Voyages-SNCF
Voyages-sncf.com : 1ère agence de voyages en ligne française, 2,5 millions de réservations par mois, 300 TGV remplis par jour, jusqu’à 3 réservations par seconde
InfoSphere® QualityStage™.
• Vérifie que les adresses postales sont complètes et que les adresses électroniques sont exactes.
• Elimine les enregistrements dupliqués
• Assure que des informations correctes et précises sont associées à chaque client et utilisables avec tous les programmes de prise de contact et de fidélisation de Voyages-SNCF.
• Transformer et fournir des informations fiables dans le cadre d'un projet stratégique de gestion de la relation client (CRM)
Problème Solution Résultat
VSC Technlogies – Voyages-sncf.com
« Aujourd'hui, nos clients attendent de recevoir des informations qui répondent précisément à leurs besoins, qu'il s'agisse de vacances sur mesure ou de bonnes affaires de dernière minute, » souligne Frédéric Falkoff, responsable décisionnel de VSC Technologies. « IBM Information Server nous garantit que les informations que nous utilisons sont précises, fiables et complètes. Cela nous permet d'apporter à nos clients des contenus pertinents pour une meilleure personnalisation de nos services. »
InfoSphere® QualityStage™ simplifie les initiatives d’e-commerce et de publication de l'entreprise en rapprochant les informations clients, qui sont nettoyées et tenues à jour pour améliorer les ventes et le marketing
40
41
Etape Suivante ?
Seriez vous intéressé par une démarche « Mini DQA » ? 3 à 5 tables 5000 enregistrements par table sous format texte délimité(.csv ou .txt) Au moins 2 tables avec des données communes Structure des tables(DDL) Problématique que vous cherchez à mettre en avant(si possible des tables ayant
potentiellement des données de piètre qualité) Expert Métier pour les échanges Mode projet ? Accompagnement ?
42
Démarche proposée :DQA (Data Quality Assesment)
Illustration des bénéfices d’un DQA appliquée à un sous-ensemble de données réelles de production.
Résultats : Rapports apportant la connaissance des données existantes Rapports soulignant les cas d’anomalies détectées Analyse de la qualité des données de l’échantillon traité Identification des groupes d’enregistrements similaires Construction d’un enregistrement consolidé Illustration de la méthodologie d’analyse technique et métier
43
Thank You
MerciGrazie
GraciasObrigad
oDanke
Japanese
French
Russian
GermanItalian
Spanish
Brazilian Portuguese
Arabic
Traditional Chinese
Simplified Chinese
Hindi
Tamil
Thai
Korean
44
45
Techniques d’implémentation
L’analyse des besoins
La chargement initial
Le chargement incrémental et le temps réel
46
L’analyse des besoins
Etude de votre problématique
Définition des objectifs à atteindre MOE / MOA
Organisation Projet et Méthodologie
Planning
Rédaction d’un document de spécification
Phase 1 Phase 2 Phase 3 Phase 4
Spécifications techniques,Architecture
DéveloppementsIntégration, recette
Mise en production, support
Transfert de connaissance
47
Le chargement initial
Cette partie consiste à construire le référentiel
De nouveaux champs fonctionnels et techniques seront stockés
48
Le chargement incrémental
Il consiste à mettre à jour de façon quotidienne, hebdomadaire ou mensuel le référentiel
Très rapide à mettre en œuvre; il utilise les algorithmes validés lors de la reprise d’historique
Très rapide en exécution, il ne traite que peu d’enregistrements
49
Le chargement incrémental
Phase de Standardisation: Seule les nouvelles données sont standardisées
– Le référentiel contient déjà les informations nécessaires au matching
Phase de Matching Seule les données candidates au matching sont récupérées du référentiel
pour traitement dans le flux
Execution en parallèle de toutes les phases
50
Le chargement incrémental
Les clés de la performance:
Le référentiel stocke les champs qui seront utiles au matching (dynamisme des critères)
Du fichier Delta, on dé doublonne les champs utilisé lors du blocking (automatiquement en parallèle avec QS)
On extrait du référentiel que les données qui seront de réel candidats pour le matching avec le fichier delta (on analyse une volumétrie minimale)