36
1 Disposer d'informations fiables, à l'instant voulu, pour prendre de meilleures décisions Matthieu Maurice Dan Benouaisch

IBM Information Management - Pas de décision de qualité sans informations de qualité

Embed Size (px)

DESCRIPTION

Sur une planète toujours plus intelligente, instrumentée et interconnectée, la masse d\'information explose. Il n\'y a pas de prise de décision de qualité sans une information fiable, pertinente, à la bonne personne au bon moment. Lors des Tendances Logicielles New Intelligence, Dan Benouaisch, IBM, a développé les concepts et présenté l\'offre IBM InfoSpere qui répond à ces impératifs.

Citation preview

Page 1: IBM Information Management - Pas de décision de qualité sans informations de qualité

1

Disposer d'informations fiables, à l'instant voulu, pour prendre de meilleures décisions

Matthieu MauriceDan Benouaisch

Page 2: IBM Information Management - Pas de décision de qualité sans informations de qualité

2

Agenda

Introduction et enjeu autour de la qualité de donnée

Gestion de la qualité des données : Démarche outillée

Gestion de la qualité des données en mode projet

Apport de notre offre qualité de donnée

Q&A ?

Page 3: IBM Information Management - Pas de décision de qualité sans informations de qualité

4

Solution IBM InfoSphere – End to End

Cognos

Data Integration Data Quality Data Delivery

Operational Source SystemsStructured/ Unstructured Data

InfoSphere MDM Server

COMMON

METADATA

Data Glossary

Spreadsheets

Applications

Information Server

Federated Data

Cubing Services

IndustryModels

Data RepositoryMultidimensional

Analysis Data Mining

Data DefinitionGlossary

SOA Web Service

InfoSphere Warehouse

Common Definition

ManagementDeployment

Page 4: IBM Information Management - Pas de décision de qualité sans informations de qualité

6

Pourquoi analyser ces données ?

Constituer un socle de pilotage pour l’entreprise

Traiter, comparer, croiser les données issues de différents métier de l’entreprise

Améliorer la performance de l’entreprise, être compétitif, anticiper le risque

Intégrer des données de nouveaux systèmes(Fusion, Acquisition)

Améliorer la gestion stratégique et prévisionnelle

Améliorer le reporting des filiales vers les maisons mères

Répondre à des contraintes légales, e.g marché boursiers/financiers(Sarbanne Oaxley, Bale II, HIPAA, etc…)

Constitution de référentiel d’entreprise, MDM

Améliorer la qualité des entrepôts de données

Améliorer la productivité des développements

Page 5: IBM Information Management - Pas de décision de qualité sans informations de qualité

8

Vos problématiques de qualité …

Sources of Data Quality Problems

12%

25%

26%

34%

46%

48%

53%

76%

Other

Data entry by customers

System errors

External data

Mixed expectations by users

Data migration or conversion projects

Changes to root/source systems

Data entry by employees

Based on 286 respondents who could select multiple answers.

Page 6: IBM Information Management - Pas de décision de qualité sans informations de qualité

11

Une seule plateforme, un seul outil : le Serveur d’Information

Exécution performante quelque soit la volumétrie

Connectivité étendue aux applications, données et contenu

Comprendre

Cartographier, définir, découvrir et

modéliser et maîtriser qualité et structure

de l’information

Nettoyer

Standardiser, fusionner et

corriger l’information

Transformer

Transformer, enrichir, déplacer et

synchroniser l’information

Fédérer

Virtualiser et simplifier l’accès à

l’information

Déployer la logique d’intégration sous forme de Service

Gérer de façon unique et simple toutes vos métadonnées

Vos projets d’intégration de l’information …

Page 7: IBM Information Management - Pas de décision de qualité sans informations de qualité

13

IBM Information ServerDelivering information you can trust

Comprendre

Nettoyer Transformer Fédérer

QualityStageInformation Analyzer Federation ServerDataStageBusiness Glossary

Information Services Director

Metadata Server

Exécution paralléliséeConnectivité aux applications, données et

contenu

Information Server

Metadata Workbench

Page 8: IBM Information Management - Pas de décision de qualité sans informations de qualité

14

Comprendre

Problèmes critiques : Connaissez-vous réellement les données de votre SI ?

Vous avez certainement de nouvelles sources de données ou d’autres encore inconnues …

Pourquoi ? Vos données et leurs relations sont incohérentes et divergent par

rapport aux règles métier

La documentation, si elle existe est incomplète, obsolète ou pire … fausse !

Les sources de données ne sont jamais statiques … elles évoluent sans prévenir.

Stratégies adoptées Travail Manuel intensif

Impossible de passer en revue tous les éléments travail souvent approximatif …

Sans infrastructure : comment rejouer une analyse ?

Manque d’approche standardisée

Canaux externes

Sources Exogènes

Filiales

Liste externe

Distribution

Référentiels

Contacts

Protocoles

@

Page 9: IBM Information Management - Pas de décision de qualité sans informations de qualité

15

Business

Glossary

Comprendre vos données - Information Analyzer

IBM Information Analyzer

Analyse de colonnes Analyse de Table Analyse Inter-Table

Fréquences de distribution

Analyse des Classe, propriétés, format, domaine/complétude

Annotations & Marquage pour revue

Analyse des dépendancesAnalyse de clé primaire

Validation de règles Rapports

Cartographie détaillée et exhaustive de contenu, structure et qualité des données existantes Contrôle conformité par rapport à un modèle, règle Permet une mesure continue et la production de documentation sur les données

Page 10: IBM Information Management - Pas de décision de qualité sans informations de qualité

17

Analyse de la table EMPL:Élément employeur chèques emploi service

Fréquence de distribution : Zoom sur la colonne Empl Per Ext

Résultats :

• 6 Valeurs différentes

•Pourcentage de valeur par rapport à l’échantillon globale

• Nombre d’enregistrements par valeur

Point Intéressant :

•Red flag pour indiquer que l’enregistrement doit être validé

•Colonne Position pour indiquer le positionnement du champ dans la création de la table

•Inferred pour signaler une différence entre le contenu et le contenant notamment au niveau « taille » de structure

•Visualisation du format de la donnée

Page 11: IBM Information Management - Pas de décision de qualité sans informations de qualité

18

Plus de 60 rapports disponibles

Sous différents formats : HTML, XML, Word, etc.

Export vers une base externe pour un reporting 3rd party.

Exemple : rapports pour documenter les analyses

Page 12: IBM Information Management - Pas de décision de qualité sans informations de qualité

19

Points de valeur de la Solution :IBM Information Analyzer

Utilisation d’un outil de profilage de données : 50 % de gain par rapport à une solution développé « maison » Anticipation

Accès & visualisation unifiées de l’information très rapidement, très précisément Prise en compte plus rapide des nouveaux codes échéances, qualifications, etc…

Visualiser l’impact sur les différentes catégories existantes ou à venir….

Identification très rapide des anomalies

Analyse/Croisement de colonne illimitées

Automatisation du processus

Suivi, remontées des résultats dans le temps

Publication et diffusion

Outil non intrusif et non pénalisant pour les systèmes de production

Page 13: IBM Information Management - Pas de décision de qualité sans informations de qualité

20

IBM Information ServerDelivering information you can trust

Comprendre

Nettoyer Transformer Fédérer

QualityStageInformation Analyzer Federation ServerDataStageBusiness Glossary

Information Services Director

Metadata Server

Exécution paralléliséeConnectivité aux applications, données et

contenu

Information Server

Metadata Workbench

Page 14: IBM Information Management - Pas de décision de qualité sans informations de qualité

21

Nettoyer

Experts Sujets Analystes

IBM QualityStageGarantir la qualité et la pertinence de vos données

Standardiser vos données … Tout type de données : Noms, Titre, Adresses,

Description Produits, … Algorithmes de Phonétisation (NYSIIS et Soundex) Ex. Standardisation et Validation postale

prédéfinies pour plusieurs pays (240 Pays)

Rapprocher les données similaires ou en doublon

Proposer de nombreux algorithmes de rapprochements

– Comparaison exacte ou floue de chaînes de caractères

– Distance, Pourcentage, Dates Aucune limite dans le nombre de critères

utilisés pour effectuer le rapprochement Algorithme probabiliste Entièrement personnalisable Validation d’adresse à l’internationale (Translitération) Certification d’adresse postale (Plug-in)

Consolider les doublons, reformuler la donnée

Algorithmes prédéfinis et personnalisables Gestion des références croisées

Standardisation des données et mise en

correspondance avec toutes les autres sources

afin de définir une information unique

Page 15: IBM Information Management - Pas de décision de qualité sans informations de qualité

22

Page 16: IBM Information Management - Pas de décision de qualité sans informations de qualité

23

Vues Consolidées

Le processus de Nettoyage des données

1. Standardiser

2. Rapprocher

3. Consolider

Clients

Transactions

Vendeurs / Fournisseurs

Cible

Produits / Matériels

Page 17: IBM Information Management - Pas de décision de qualité sans informations de qualité

24

Comment identifier et consolider des données quand le nombre d’enregistrement s’élève a plusieurs millions/milliards d’enregiqtrement ?

Un exemple de données “non propres”

90328574 IBM 187 N.Pk. Str. Salem NH 01456 8,494.00

90328575 I.B.M. Inc. 187 N.Pk. St. Salem NH 01456 3,432.00

90238495 Int. Bus. Machines 187 No. Park St Salem NH 04156 2,243.00

90233479 International Bus. M. 187 Park Ave Salem NH 04156 5,900.00

90233489 Inter-Nation Consults 15 Main Street Andover MA 02341 6,800.00

90234889 Int. Bus. Consultants PO Box 9 Boston MA 02210 10,243.00

90345672 I.B. Manufacturing Park Blvd. Bostno MA 04106 15,999.00

Pas de clés communes

Anomalies

Erreurs de traduction

Pas de standard

Page 18: IBM Information Management - Pas de décision de qualité sans informations de qualité

25

Analyse lexicale:Détermination de la signification métier de chaque composant

Mise en contexte:Identification de la structure variable des données et de leur signification

^ Repetition Street Common + Index Type Word

3 | BIS | RUE | DE | PARIS

melle Morognier Françoise 3 bis, r. de Paris 72000 Le Mans

House Repetition Street Street Number Index Type Name

3 | B | RUE | DE PARIS

FRADDR

3 | BIS | R. | DE | PARISDécomposition:Détermination de la signification métier de chaque composant

Étape 1 : La standardisation (exemple adresses)

Page 19: IBM Information Management - Pas de décision de qualité sans informations de qualité

26

Description Dimension IC/IV Monte Type Voiture Pression

AV AR

Pneu Energy 195/65R15 91/H Ssérie Audi A4 TDI 115ch 2.0 2.0

Pneu Pilot Primacy 205/55R16 91/H Option Audi A4 TDI 2.2 2.2

Pneu Pilot Exalto 205/55R16 91/V Option Audi A4 TDI 130ch 2.2 2.2

Pneu Pilot Sport 225/45ZR17

91/Y Serie Audi A4 TDI Quatro

2.5 2.3

Pneu Energy Serie Audi A4 TDI 115ch 2.0 2.0

Pneu Pilot Primacy 205/55R16 Audi A4 91/H

Pneu Exalto Option AudiA4 130ch 2.2

Pneu Pilot Sport Serie Audi A4 TDi quattro 2.5 2.3 91/Y

Étape 1 : La standardisation (exemple produits)

Page 20: IBM Information Management - Pas de décision de qualité sans informations de qualité

27

Prénom 2ème Prénom Nom Fonction

ALEXANDRE J DEMARIA DGALEXANDRE JEAN DEMARA DG

+7 +1 +10 +5 = 23

Les CUTOFF sont les scores

au dessus et en dessous desquels

un rapprochement est considéré comme bon ou non

0

500

1000

1500

2000

2500

3000

3500

4000

-50 -40 -30 -20 -10 0 10 20 30 40 50 60

Nb

re P

air

es

Non rapprochées

Rapprochées

Le score d’un poids est une mesure relative de probabilité de match

Le score d’un poids est une mesure relative de probabilité de match

Étape 2 : Le Rapprochement

Page 21: IBM Information Management - Pas de décision de qualité sans informations de qualité

29

•Des enregistrements rapprochés correspondent alors :

à des vrais doublons

15,32 MLE MIREILLE BARBIERA LE PERCHOIR 119 AV DE LA BASTIDE 06130 GRASSE

10,59 MME MIRIELLE BARBIERA 42 CHEMIN DU BAMBOU 06130 GRASSE

à un historique client (CRM : mariage,déménagement,…)

36,10 C IBM 29 RUE DU CHAMOINE DE MOREL 13000 MARSEILLE

26,85 C I.B.M 29 RUE DU MOINE DE MOREL 16000 MARSEILLE

ou permet d’identifier la notion de groupe (filiales/corporation, foyer…)

36,36 C IBM SOFTWARE PARIS LA DEFENSE CEDEX

14,09 C IBM SOFTWARE CORP. BOSTON MASSACHUSSET

Étape 2 : Le Rapprochement

Page 22: IBM Information Management - Pas de décision de qualité sans informations de qualité

30

Détermine la meilleure donnée à garder “Best of Breed” La plus fraîche La plus fréquente Selon la source La plus complète….

Résoud les conflits de valeur et complète les valeurs manquantes

Crée les formats de sortie: Tables relationnelles avec clés Transactions pour mettre à jour les bases de données Fichiers de références croisées, tables de synonymes Pistes d’audit, rapports divers

555 36,36 MME Isabelle DURAND 3 RUE DE LA BERGERIE 34000 MONTPELLIER 23976

555 14,09 M Robert DURAND 3 RUE DE LA BERGERIE 34000 MONTPELLIER 23830

Groupe Legacy

555 23976

555 23830

Groupe Nom No Type Nom Code Ville Rue Rue Postal

555 DURAND 3 RUE DE LA BERGERIE 34000 MONTPELLIER

Étape 3 : La consolidation

Page 23: IBM Information Management - Pas de décision de qualité sans informations de qualité

31

Operation Work Instructions in a free text field

WNG ASSY DRL 3 HOLE USE HEXBOLT ¼ INCHWING ASSEMBY, HEX BOLT .25” - DRILL FOUR, USE 5J868-AUSE 4 5J868A BOLTS (HEX .25) - DRILL HOLES FOR EACH ON WING ASSEMRUDER, TAP 6 WHOLES, SECURE W/KL2301 RIVETS (10 CM)

Assembly Instruction QTY Type Part Size Unit Measure SKU

WING DRILL 3 HOLES HEXBOLT .25 INCHWING DRILL 4 HEXBOLT .25 INCH 5J868AWING DRILL 4 HOLES HEXBOLT .25 5J868ARUDDER TAP 6 HOLES RIVET 10 CM KL2301

STANDARDISATION

Assembly Instruction QTY Type Part Size Unit Measure SKU

WING DRILL 3 HOLES HEXBOLT .25 INCHWING DRILL 4 HEXBOLT .25 INCH 5J868AWING DRILL 4 HOLES HEXBOLT .25 5J868ARUDDER TAP 6 HOLES RIVET 10 CM KL2301

RAPPROCHEMENT

MATCH

Assembly Instruction QTY Type Part Size Unit Measure SKU

WING DRILL 4 HOLES HEXBOLT .25 INCH 5J868ARUDDER TAP 6 HOLES RIVET 10 CM KL2301

CONSOLIDATION

Un exemple d’harmonisation (produits)DONNEES EN ENTREE

Page 24: IBM Information Management - Pas de décision de qualité sans informations de qualité

33

Développer avec QualityStage

Un développement entièrement graphique et simple !

Une connectivité étendue Glisser / Déposer des colonnes

sources vers cibles 300+ fonctions de transformation

Un environnement de développement adapté à la qualité

Atelier de développement defonctions Métier

Appel de fonctions externes …

Page 25: IBM Information Management - Pas de décision de qualité sans informations de qualité

36

VSC Technologies – Filiale de la Sncf :

Fournisseur de solutions technologiques de Voyages-SNCF

Voyages-sncf.com : 1ère agence de voyages en ligne française, 2,5 millions de réservations par mois, 300 TGV remplis par jour, jusqu’à 3 réservations par seconde

InfoSphere® QualityStage™.

• Vérifie que les adresses postales sont complètes et que les adresses électroniques sont exactes.

• Elimine les enregistrements dupliqués

• Assure que des informations correctes et précises sont associées à chaque client et utilisables avec tous les programmes de prise de contact et de fidélisation de Voyages-SNCF.

• Transformer et fournir des informations fiables dans le cadre d'un projet stratégique de gestion de la relation client (CRM)

Problème Solution Résultat

VSC Technlogies – Voyages-sncf.com

« Aujourd'hui, nos clients attendent de recevoir des informations qui répondent précisément à leurs besoins, qu'il s'agisse de vacances sur mesure ou de bonnes affaires de dernière minute, » souligne Frédéric Falkoff, responsable décisionnel de VSC Technologies. « IBM Information Server nous garantit que les informations que nous utilisons sont précises, fiables et complètes. Cela nous permet d'apporter à nos clients des contenus pertinents pour une meilleure personnalisation de nos services. »

InfoSphere® QualityStage™ simplifie les initiatives d’e-commerce et de publication de l'entreprise en rapprochant les informations clients, qui sont nettoyées et tenues à jour pour améliorer les ventes et le marketing

Page 26: IBM Information Management - Pas de décision de qualité sans informations de qualité

40

Page 27: IBM Information Management - Pas de décision de qualité sans informations de qualité

41

Etape Suivante ?

Seriez vous intéressé par une démarche « Mini DQA » ? 3 à 5 tables 5000 enregistrements par table sous format texte délimité(.csv ou .txt) Au moins 2 tables avec des données communes Structure des tables(DDL) Problématique que vous cherchez à mettre en avant(si possible des tables ayant

potentiellement des données de piètre qualité) Expert Métier pour les échanges Mode projet ? Accompagnement ?

Page 28: IBM Information Management - Pas de décision de qualité sans informations de qualité

42

Démarche proposée :DQA (Data Quality Assesment)

Illustration des bénéfices d’un DQA appliquée à un sous-ensemble de données réelles de production.

Résultats : Rapports apportant la connaissance des données existantes Rapports soulignant les cas d’anomalies détectées Analyse de la qualité des données de l’échantillon traité Identification des groupes d’enregistrements similaires Construction d’un enregistrement consolidé Illustration de la méthodologie d’analyse technique et métier

Page 29: IBM Information Management - Pas de décision de qualité sans informations de qualité

43

Thank You

MerciGrazie

GraciasObrigad

oDanke

Japanese

French

Russian

GermanItalian

Spanish

Brazilian Portuguese

Arabic

Traditional Chinese

Simplified Chinese

Hindi

Tamil

Thai

Korean

Page 30: IBM Information Management - Pas de décision de qualité sans informations de qualité

44

Page 31: IBM Information Management - Pas de décision de qualité sans informations de qualité

45

Techniques d’implémentation

L’analyse des besoins

La chargement initial

Le chargement incrémental et le temps réel

Page 32: IBM Information Management - Pas de décision de qualité sans informations de qualité

46

L’analyse des besoins

Etude de votre problématique

Définition des objectifs à atteindre MOE / MOA

Organisation Projet et Méthodologie

Planning

Rédaction d’un document de spécification

Phase 1 Phase 2 Phase 3 Phase 4

Spécifications techniques,Architecture

DéveloppementsIntégration, recette

Mise en production, support

Transfert de connaissance

Page 33: IBM Information Management - Pas de décision de qualité sans informations de qualité

47

Le chargement initial

Cette partie consiste à construire le référentiel

De nouveaux champs fonctionnels et techniques seront stockés

Page 34: IBM Information Management - Pas de décision de qualité sans informations de qualité

48

Le chargement incrémental

Il consiste à mettre à jour de façon quotidienne, hebdomadaire ou mensuel le référentiel

Très rapide à mettre en œuvre; il utilise les algorithmes validés lors de la reprise d’historique

Très rapide en exécution, il ne traite que peu d’enregistrements

Page 35: IBM Information Management - Pas de décision de qualité sans informations de qualité

49

Le chargement incrémental

Phase de Standardisation: Seule les nouvelles données sont standardisées

– Le référentiel contient déjà les informations nécessaires au matching

Phase de Matching Seule les données candidates au matching sont récupérées du référentiel

pour traitement dans le flux

Execution en parallèle de toutes les phases

Page 36: IBM Information Management - Pas de décision de qualité sans informations de qualité

50

Le chargement incrémental

Les clés de la performance:

Le référentiel stocke les champs qui seront utiles au matching (dynamisme des critères)

Du fichier Delta, on dé doublonne les champs utilisé lors du blocking (automatiquement en parallèle avec QS)

On extrait du référentiel que les données qui seront de réel candidats pour le matching avec le fichier delta (on analyse une volumétrie minimale)