Mise en place d'un Data Warehouse

Preview:

DESCRIPTION

Projet de fin d'études

Citation preview

Présenté par: FILALI Abderrahmane Date: 06/07/2010

KEDJNANE Sofiane Durée: 30min

Ecole nationale Supérieure d’Informatique

Introduction Préambule Organisme d’accueil

Problématique

Définitions Systèmes

décisionnels

Décisionnel VS

opérationnel

Data Warehouse

Présentation de la

solution

Démarche adoptée

Conception de la solution

Conclusion et

perspectives

Mise en œuvre

3

Introduction Définitions Présentation de la solution Conclusion

•1947, Création de « EGA »

•1969, Création de SONELGAZ

•1991, SONELGAZ devient un « EPIC »

• Juin 2002, Le statut de SPA

4

Introduction Définitions Présentation de la solution Conclusion

5

Introduction Définitions Présentation de la solution Conclusion

Le métier de la distribution:

Agence 2

Direction de Distribution 1

6

Introduction Définitions Présentation de la solution Conclusion

Le métier de la distribution:

Direction de Distribution N …

Agence 1

Agence N

Direction de Distribution 2

7

Introduction Définitions Présentation de la solution Conclusion

Quantité de

données

Besoin d’un support

De décision

Insuffisances

de

la méthode actuelle

Opportunités

pour un tel projet

8

Introduction Définitions Présentation de la solution Conclusion

Extraction

Consolidation ELIT ou SD

9

Introduction Définitions Présentation de la solution Conclusion

Envoie

10

SQL

Introduction Définitions Présentation de la solution Conclusion

SGC

11

Introduction Définitions Présentation de la solution Conclusion

Rendre les données accessibles,

Présenter les données d’une façon cohérente et

fiable,

Minimiser le coût d’élaboration de rapport en

ressources (temps et argent),

Assurer une indépendance fonctionnelle vis-à-vis

du système opérationnel, 12

Introduction Définitions Présentation de la solution Conclusion

13

Introduction Définitions Présentation de la solution Conclusion

DD1

DD2

DD58

Présentation de la solution Introduction

14

Définitions Conclusion

15

Présentation de la solution Introduction Définitions Conclusion

bases de données opérationnelles

Infocentre

Entrepôt de données

1970 1980 1990

Évolution des bases de données décisionnelles

« Le Data Warehouse est une collection de données

orientées sujet, intégrées, non volatiles et évolutives dans

le temps, organisées pour le support d’un processus

d’aide à la décision. »[Inmon, 2002]

16

Présentation de la solution Introduction Définitions Conclusion

Usage

17

Présentation de la solution Introduction Définitions Conclusion

Données L’orientation des

données

La situation reflétée

Le stockage des données

La Finalité

Les manipulations

Les utilisateurs

• Les systèmes décisionnels et opérationnels

sont appelés, de part leurs finalités et leurs

usages, à la cohabitation.

• Les systèmes opérationnels représentent la

première source de données pour les

systèmes décisionnels.

18

Présentation de la solution Introduction Définitions Conclusion

Architecture et environnement du DW

19

Extraction Chargement Présentation

Présentation de la solution Introduction Définitions Conclusion

On-Line Analytical Processing (O.L.A.P.) est un style

d’interrogation spécifiquement dimensionnel. Définit par E.

Codd (Père des BDD relationnelles).

On trouve les types suivants de serveurs :

La zone de présentation:

21

Présentation de la solution Introduction Définitions Conclusion

Entrepôt Traitement Présentation

22

Définition

des besoins

Conception de

la zone

d’entreposage

Étude

technique

Conception de

la zone

d’alimentation

Conception

des cubes

dimensionnels

Mise en

route

Introduction Définitions Conclusion Présentation de la solution

23

Présentation de la solution Introduction Définitions Conclusion

Etude des

besoins

Modélisation

dimensionnelle

Gestion et

planification du

projet

Définition de

l’architecture

technique

Conception

physique

Construction

de la zone

d’alimentation

Portail de

restitution

Planification

du

déploiement

Maintenance

et croissance

Étude des besoins dans un projet Data

Warehouse.[Kimball, 96]

Démarche :

Buttom up (sources de données)

Top Down (besoins utilisateurs)

24

Audit de la

base de

données et

SO

Entretiens Supports

existants

Démarche mixte

Présentation de la solution Introduction Définitions Conclusion

25

Cette étude a abouti à :

L’Identification des postes utilisateur (DCM, DCF, PDG, …ETC.)

La Détection des besoins,

La classification des besoins en quatre volets, qui sont :

Ventes,

Suivi des abonnés,

Suivi des affaires,

Recouvrement,

Présentation de la solution Introduction Définitions Conclusion

Analyse des priorités :

Intérêt

Facilité

GA

Ventes

SA

Rec

GA: Gestion des affaires.

Ventes: Suivi des ventes

SA: Suivi des abonnés Rec: Recouvrement

26

Présentation de la solution Introduction Définitions Conclusion

Nouveaux besoins

Nouveaux objectifs

Nouvelle modélisation

27

Présentation de la solution Introduction Définitions Conclusion

Table de fait

-Clé temps

-Clé produit

-Clé magasin

-….

-Montant

-…

Dimension produit

-Clé produit

-Désignation produit

-Type produit

Dimension Temps

-Clé temps

-Année

-Mois

-Jours

-

28

La Modélisation dimensionnelle:

Présentation de la solution Introduction Définitions Conclusion

Dimension magasin

-Clé magasin

-Année

-Mois

-Jours

-

Modélisation

dimensionnelle

Fait

Dimension

Dimension

Dimension

Dimension Dimension Dimension

Dimension

Fait

Fait

Dimension Dimension

29

Présentation de la solution Introduction Définitions Conclusion

Avantages :

Performant,

Simple et intuitif,

Réutilisation des dimensions,

Réduction des temps de chargement,

30

Présentation de la solution Introduction Définitions Conclusion

31

Présentation de la solution Introduction Définitions Conclusion

Le Processus de Modélisation:

Choix de l’activité

Définition de la granularité

Détection des

mesurables

Détection des

dimensions

Construction des agrégats

32

Présentation de la solution Introduction Définitions Conclusion

Structure de la zone d’entreposage:

META DATA

ZONE AGRÉGÉE

ZONE DÉTAILLÉE

Extraire

• Lire

• Interpréter

• Copier

Transformer

• Nettoyer

• Intégrer

Charger

• Charger

• Indexer

• agréger

33

Présentation de la solution Introduction Définitions Conclusion

Extract. Transform. Load (E.T.L.):

34

Processus ETL

Être sûr Être rapide

Être correctif

Être transp

arent

Présentation de la solution Introduction Définitions Conclusion

Qualité de données

35

Etude des sources

Elaboration de stratégie d’extraction

Mise en place d’une architecture

Présentation de la solution Introduction Définitions Conclusion

Etapes de la construction:

ETL

Réseau

Quantité de données

Structure de

l’entreprise

Qualité de données

36

Contraintes

Présentation de la solution Introduction Définitions Conclusion

37

Etude des sources

• SGBD : INGRES 2006,

•452 Tables,

• Open ROAD

• 35 applications

• 2900 utilisateurs,

• 6 millions de clients,

• 70000 factures / jour

Présentation de la solution Introduction Définitions Conclusion

•Gestion des Travaux (Raccordements BT/BP)

•Relève et facturation BT/BP, MT, MP

• Recouvrement

• Trésorerie et comptabilité

38

Etude des sources

Présentation de la solution Introduction Définitions Conclusion

Stratégie d’extraction:

Processus de chargement

Dimensions

Faits

Particulières 39

Présentation de la solution Introduction Définitions Conclusion

Données prêtes a

être chargées

Processus de

chargement

40

Serveur ELIT Système source

Tire Pousse

Base de données

intermédiaire

Architecture de la zone d’alimentation:

Présentation de la solution Introduction Définitions Conclusion

La méthode Push and Pull

Direction regionale

Direction regionale

Direction regionale

SGC

Tra

nsfo

rmation

Staging

SGC

Tra

nsfo

rmation

Staging

SGC

Tra

nsfo

rmation

Staging

Extraction

Extraction

Extraction

Serveur ETL ElitDW

Meta-Data

41

FTP

Architecture globale de la zone d’alimentation:

Présentation de la solution Introduction Définitions Conclusion

En cas de problèmes?

Rôle des METADATA

Solution secours numéro une:

Lancement du chargement paramétré

Solutions secours numéro deux:

Recourt au fichiers historiques.

42

Présentation de la solution Introduction Définitions Conclusion

Outre un chargement sûr, Cette architecture permet :

• Une réduction importante des temps de chargement,

grâce au chargement parallèle

• Facilité de recours à la solution secours en cas d’échec

d’un chargement

• L’impact réduit d’un chargement échoué

Avantages:

43

Présentation de la solution Introduction Définitions Conclusion

44

Présentation de la solution Introduction Définitions Conclusion

Définition des

dimensions

Construction

des

hiérarchies

Définition des

mesurables

45

Présentation de la solution Introduction Définitions Conclusion

Architecture technique:

« QBE »

Entreposage

de données

Alimentation

de l’entrepôt

Serveur

R-OLAP

Outil de

reporting

48

Présentation de la solution Introduction Définitions Conclusion

Data Warehouse

Expansion

Support

Support technique

Formation

46

Présentation de la solution Introduction Définitions Conclusion

47

Meta Data Gestion des utilisateurs

Suivi de l’alimentation

Constitution zone de

restitution

Présentation de la solution Introduction Définitions Conclusion

Présentation de la solution

49

Introduction Définitions Conclusion

Une démarche spécifique.

Présentation de la solution a un « comité de projet »

Déploiement sur des sites pilotes.

Intégration dans une équipe pour étendre la solution.

Offrir un rapport comme support à la solution.

Evolution dans un milieu fort intéressant.

Conclusion Présentation de la solution

50

Introduction Définitions

Suivre le déploiement actuel et recueillir les correctifs et remarques des

utilisateurs.

Etendre le déploiement de manière à couvrir, à terme la, totalité du territoire

national.

Etendre la solution vers d’autres systèmes opérationnels notamment les

systèmes de la HP/HT.

Utilisation des méthodes et algorithmes de Data Mining pour une meilleure

exploitation des données.

Continuer le développement du portail de restitution.

51

Recommended