39
02/04/2018 1 2017-2018 O. Boussaid Introduction aux Systèmes d'Information Décisionnels 2017-2018 O. Boussaid Plan : 1. Généralités 1.1. Les systèmes d’information décisionnels 1.2. Les différentes phases du processus décisionnel 2. Modélisation des entrepôtsde données 2.1. Modèles en étoile 2.2. Modèles en flocons de neige 2.3. Modèles en étoile en constellation 2.4. Représentation des données 2.5. Les différentes approches (ROLAP, MOLAP, HOLAP) 2.6. Alimentation des entrepôts de données 3. L'analyse en ligne (OLAP) 3.1. Approche OLTP contre Approche OLAP 3.2. L’analyse en ligne : principes 3.3. Les magasins et les cubes de données 3.5. Les différentes opérations d'OLAP

Introduction aux Systèmes d'Information Décisionnels

  • Upload
    others

  • View
    10

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

1

2017-2018O. Boussaid

Introduction aux Systèmes d'Information Décisionnels

2017-2018O. Boussaid

Plan :

1. Généralités1.1. Les systèmes d’information décisionnels1.2. Les différentes phases du processus décisionnel

2. Modélisation des entrepôts de données2.1. Modèles en étoile2.2. Modèles en flocons de neige2.3. Modèles en étoile en constellation2.4. Représentation des données2.5. Les différentes approches (ROLAP, MOLAP, HOLAP)2.6. Alimentation des entrepôts de données

3. L'analyse en ligne (OLAP)3.1. Approche OLTP contre Approche OLAP3.2. L’analyse en ligne : principes3.3. Les magasins et les cubes de données3.5. Les différentes opérations d'OLAP

Page 2: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

2

2017-2018O. Boussaid

Les entreprises passent à l'ère de l'information.

F Défi : Transformer leur système d'informationqui avait une vocation de production en un SIdécisionnel dont la vocation de pilotage devientmajeure.

G Le décisionnel ?

2017-2018O. Boussaid

v Système de production

Ø Transaction fréquentes des données sous forme de modifications (Écriture/Lecture)

Ø Les systèmes de production (OLTP) garantissent la cohérence des données

Ø Les systèmes de production sont conçus pour les tâches répétitives et planifiées

Les Systèmes d’informations Décisionnels

Page 3: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

3

2017-2018O. Boussaid

• Un système d'information décisionnel est un ensemble dedonnées organisé de façon spécifique, approprié à la prise dedécision.

Outils : Data warehouses(Entrepôt de données)

OLAP(Analyse en ligne)

• Connaître l'environnement dans lequel on évolue

• Finalité d'un système décisionnel : pilotage de l'entreprise

Les Systèmes d’informations Décisionnels

2017-2018O. Boussaid

Entrepôt de Données

Système d'Info. de Production

Orientation : GestionSystème d'Info. Décisionnel

Orientation : Pilotage

BD Magasins

BD Clients

BD Produits

BD Compta

BD DRH

BD Marketing

BD Fournisseurs

Flux de données externes

Flux de données externes

Page 4: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

4

2017-2018O. Boussaid

Les bases de production : toutes les sources de données(légales, juridiques, fiscales, politiques, techniques, marketing)

Comment organiser ces différentes données dans unensemble cohérent afin de procéder à toutes les analysesnécessaires pour construire les indicateursindispensables au pilotage de l'entreprise ?

Par un processus d'entreposage de données

Entreposage de données(Data Warehousing)

Les Systèmes d’informations Décisionnels

2017-2018O. Boussaid

G Qu'est ce qu'un Entrepôt de Données ?D'après BILL Inmon :

“Un ED est une collection de données thématiques, intégrées, non volatiles et historisées, organisées pour la prise de décision.”

Thématiques : thèmes par activités majeures ;Intégrées : divers sources de données ;Non volatiles : ne pas supprimer les données du DW ;Historisées : trace des données, suivre l'évolution des indicateurs.

Pb de volumétrie, de stockage, d'accès.

Les Systèmes d’informations Décisionnels

Page 5: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

5

2017-2018O. Boussaid

v Architecture d’un SID

Entrepôt de données

Méta donnée

s

Data Marts

Administrateur

OLAP

Data Mining

Analyses statistiques

Bases de

production

OLAP Reporting

ETL

Les Systèmes d’informations Décisionnels

2017-2018O. Boussaid

Data Mining

Analyses statistiques

OLAP Reporting

Phase OLAP

Entrepôt de données

Méta donnée

s

Data Marts

Administrateur

OLAP

Phase Structuration

Les différentes phases

Bases de

production

ETL

Phase ETL

v Architecture d’un SIDLes Systèmes d’informations Décisionnels

Page 6: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

6

2017-2018O. Boussaid

Phase ETL Phase Structuration Phase OLAP

Ü Conception

Ü Modélisation

Ü Structuration

Ü Administration

Ü Extraction

Ü Transformation

Ü Alimentation

Ü Administration

Ü Analyse

Ü Restitution

Ü Administration

Les différentes phases

v Architecture d’un SIDLes Systèmes d’informations Décisionnels

2017-2018O. Boussaid

GQu'est ce que l'Entreposage des données ?

Ü Structuration et Stockage

Ü ETL

Ü Analyse & Restitution

Les 3 phases :

Les Systèmes d’informations Décisionnels

Page 7: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

7

2017-2018O. Boussaid

Il s'agit de définir la finalité de l'ED :

♠ Piloter quelle activité de l'entreprise ; ♠ Déterminer et recenser les données à entreposer ; ♠ Définir les aspects techniques de la réalisation ;♠ Construire les modèles de données ; ♠ Mettre au point les démarches d'alimentation (ETL) ; ♠ Définir les stratégies d'administration ; ♠ Définir des espaces d'analyse ; ♠ Définir le mode de restitution…

v Conception

Les Systèmes d’informations Décisionnels

2017-2018O. Boussaid

Travail technique. ♠ Extraction des données des différentes BD de production

(internes ou externes)

♠ Nettoyage des données, règles d'homogénéisation des données sous formes de métadonnées.

♠ Techniques d'alimentation :û Chargement des données dans l'EDû Fréquences de rafraîchissement :

ü par applications d' interfaces entre les sources de données et l'EDü par serveurs de réplication du SGBD ou par outils spécialisés

v E T L

Les Systèmes d’informations Décisionnels

Page 8: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

8

2017-2018O. Boussaid

♠ C'est le but du processus d'entreposage des données.

♠ Elle conditionne le choix de l'architecture de l'ED et de sa construction.

♠ Elle doit permettre toutes la analyses nécessaires pour la construction des indicateurs recherchés.

v Analyse et Restitution

Les Systèmes d’informations Décisionnels

2017-2018O. Boussaid

Elle est constituée de plusieurs tâches pour assurer :

♠ la qualité et la pérennité des données aux différents applicatifs ; ♠ la maintenance ;♠ la gestion de configuration ;♠ les mises à jour ;♠ l'organisation, l'optimisation du SI ;♠ la mise en sécurité du SI.

v AdministrationLes Systèmes d’informations Décisionnels

Page 9: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

9

2017-2018O. Boussaid

Proportionsdelachargeduprojetdécisionnel

Alimenter 50%

Fabriquer 15%

Administrer 15%

Restituer 20%

Les Systèmes d’informations Décisionnels

2017-2018O. Boussaid

MODELISATION

Page 10: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

10

2017-2018O. Boussaid

COMMANDEN° CdeDate Cde

PRODUITCode produitNom ProduitDescription Produit

Catégorie

Description catégoriePrix unitaireCLIENT

N° ClientNom Client

Adresse ClientVille

DATE Clef dateDate

MoisAnnée

VENDEURCode vendeurNom Vendeur

Ville VendeurQuota

VILLENom VilleRégion

Pays

TABLE DE FAITS

QuantitéPrix total

N° Cde

Code vendeurN° Client

Clef dateCode produit

Nom Ville

F Modélisation des ED : Le modèle en étoile

2017-2018O. Boussaid

Le modèle en étoileÄ Une table de faits : identifiants des tables de dimension ; une ou

plusieurs mesures .

Ä Plusieurs tables de dimension : descripteurs des dimensions.

Ä Une granularité définie par les identifiants dans la table des faits.

Avantages :♦ Facilité de navigation♦ Performances : nombre de jointures limité ; gestion des données creuses.♦ Gestion des agrégats♦ Fiabilité des résultats

Inconvénients :♦ Toutes les dimensions ne concernent pas les mesures♦ Redondances dans les dimensions♦ Alimentation complexe.

Page 11: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

11

2017-2018O. Boussaid

Dans la grande distribution :Quelques tables de faits : détaillées et volumineusesTables de dimensions :

Classiques : produits, fournisseurs, temps, établissements (structure géographique, fonctionnelle)...

Stratégiques : Clients, Promotions, ....

Rq : Obtenir le plus d'enregistrements possibles.

Dans le secteur des banques :Tables de faits : nombreuses, dédiées à chaque produit, peudétaillées et peu volumineuses.Tables de dimensions :

Classiques : produits, temps, établissement (structure géographique, fonctionnelle), ...Stratégiques : Clients, ....

Rq : Obtenir le plus de données (champs) possibles.

Exemples de modèles

2017-2018O. Boussaid

Le modèle de l' ED doit être simple à comprendre.On peut augmenter sa lisibilité en regroupant certaines dimensions. On définit ainsi des hiérarchies.

Celles-ci peuvent être géographiques ou organisationnelles.

Le modèle en flocons de neige

Exemple : Commune, Département, Région, Pays, Continent

Client Commune Département Region Pays ContinentPepone Lyon 1° Rhône Rhône-Alpes France EuropeTestut Lyon 2° Rhône Rhône-Alpes France EuropeSoinin Lyon 3° Rhône Rhône-Alpes France EuropeVepont Paris 1° Paris Ile-de-France France EuropeMartin Paris 2° Paris Ile-de-France France EuropeElvert Versailles Yvelines Ile-de-France France Europe

Page 12: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

12

2017-2018O. Boussaid

PRODUITCOMMANDE Code produit

N° Cde Nom ProduitDate Cde Description Produit

TABLE DE FAITS CatégorieN° Cde Description catégorie

CLIENT N° Client Prix unitaireN° Client Code vendeurNom Client Code produit DATE Adresse Client Clef date Clef dateVille Nom Ville Date

Quantité MoisVENDEUR Prix total Année

Code vendeurNom Vendeur VILLEVille Vendeur Nom VilleQuota Région

Pays

PRODUIT CATEGORIECOMMANDE Code produit Catégorie

N° Cde Nom Produit Desc. CatDate Cde Desc. Produit

TABLE DE FAITS CatégorieN° Cde Prix unitaire

CLIENT N° ClientN° Client Code vendeur ANNEENom Client Code produit DATE MOIS AnnéeAdresse Client Clef date Clef date MoisVille Nom Ville Date Année

Quantité MoisVENDEUR Prix total

Code vendeurNom Vendeur VILLE REGION PAYSVille Vendeur Nom Ville Région PaysQuota Région Pays

Pays

Le modèle en flocons de neige

2017-2018O. Boussaid

Lorsque les tables sont trop volumineuses

Avantages :• réduction du volume,• permettre des analyse par pallier (drill down) sur la

dimension hiérarchisée.

Inconvénients :• navigation difficile ;• nombreuses jointures.

Modèle en flocons de neige =

Modèle en étoile + normalisation des dimension

Le modèle en flocons de neige

Page 13: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

13

2017-2018O. Boussaid

Le modèle en constellation (Fact-flaked)

La modélisation en constellation consiste à fusionnerplusieurs modèles en étoile qui utilisent des dimensionscommunes.

Un modèle en constellation comprend donc plusieurstables de faits et des tables de dimensions communes ounon à ces tables de faits.

2017-2018O. Boussaid

Lemodèle en constellation (ou en flocons de faits)

Page 14: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

14

2017-2018O. Boussaid

Lemodèle en constellation (ou en flocons de faits)Autre représentation

2017-2018O. Boussaid

Calculer ou estimer le nombre d'enregistrements

Prendre en compte :

Ø La table des faits

Ø Les dimensions significatives

Ø Les agrégats

Ø Les index

Ø Saisonnalité des ventes

Ø Croissance du CA, des encours, du nombre de points de ventes

Estimer le volume du DW

Page 15: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

15

2017-2018O. Boussaid

Exemples :Grandes distribution :

CA annuel : 80 000 M$Prix moyen d'un article d'un ticket : 5$Nbre d'articles vendus pour un an : 80 * 109 / 5 = 16 * 109

Volume du DW :

16*109 *3 ans * 24 octets = 1,54 To (1,54*1012 = 1 540 Go)

Téléphonie :Nbre d'appels quotidiens : 100 millionsHistorique : 3 ans * 365 jours= 1 095 joursVolume du DW :

100 millions * 1 095 jours * 24 octets = 3,94 To

Cartes de crédit :Nbre de clients : 50 millionsNbre moyen mensuel de transactions : 30Volume :

50 millions * 26 mois * 30 transactions * 24 octets = 1,73 To

2017-2018O. Boussaid

Evolution des unités de volumétrie des données :

Unité Symbole

Valeur Observation

Octet Octet 1oreprésenteuncaractère d'imprimerie(8bits)

KiloOctet Ko 1000(1024)

30Ko:unepagedetexte100Ko :imagenumériquebasserésolution

MegaOctet Mo 106 5Mo:unmorceaudemusique500Mo :unCD-Rom

GigaOctet Go 109 1Go:1filmde2heures500Go àunHDdePC

TeraOctet To 1012 1To:6millionsdelivres;lamoitiésducataloguedelaBNdeFrance10To: presquelavolumétriedelabibliothèqueduCongrèsAméricain

PetaOctet Po 1015 1Po :2milliardsdephotosnumériquesderésolutionmoyenne8Po:trèsgrandepartiedel'informationsurInternet

ExaOctet Eo 1018 5Eo :Toutes lesinformations produites jusqu’à 2003

ZettaOctet Zo 10 21 1,8Zo : Latotalitédesinformationsproduitesjusqu’à2011

YottaOctet Yo 1024 1Yo : C’estcequepourratraiterundatacentersimultanément

v Volumétrie des données massives

Page 16: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

16

2017-2018O. Boussaid

Les données sont perçues à travers plusieurs dimensions. Elles sont qualifiées de multidimensionnelles, indépendamment de leur support (tables relationnelles ou tableaux multidimensionnels)

Produit Region VentesClous Est 50Clous Ouest 60Clous Centre 100Vis Est 40Vis Ouest 70Vis Centre 80Boulons Est 90Boulons Ouest 120Boulons Centre 140Nettoyeurs Est 20Nettoyeurs Ouest 10Nettoyeurs Centre 30

Es t O u e s t Ce n t r e

Clo u s 50 60 100V is 40 70 80Bo u lo n s 90 120 140N e t t o y e u r s 20 10 30

Représentation des données dans une table relationnelle

Représentation des données dans un tableau multidimensionnel

v Représentation des données

2017-2018O. Boussaid

les requêtes décisionnelles sont de type :

“ Quelle est le total des ventes dans la région Est ?”

On peut calculer divers totaux.

Ø Tables relationnelles : on peut traiter quelques centaines de tuples par seconde.

Ø Tableau multidimensionnel : on peut rajouter en lignes et en colonnes plus de 10 000 valeurs par seconde.

Pour accélérer les temps de réponses, il est préférable de pré-calculer des sous totaux.

v Représentation des données

Page 17: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

17

2017-2018O. Boussaid

Produit Region Ventes

Clous Est 50Clous Ouest 60Clous Centre 100Clous Total 210

Vis Est 40Vis Ouest 70Vis Centre 80Vis Total 190

Boulons Est 90Boulons Ouest 120Boulons Centre 140Boulons Total 350

Nettoyeurs Est 20Nettoyeurs Ouest 10Nettoyeurs Centre 30Nettoyeurs Total 60

Total Est 200Total Ouest 260Total Centre 350

Total Total 810

Est Ouest Centre Total

Clous 50 60 100 210Vis 40 70 80 190Boulons 90 120 140 350Nettoyeurs 20 10 30 60Total 200 260 350 810

Pour le calcul de ces totaux : 28 accès en lecture et 8 accès en écriture.

Un SGBDR lit 200 enregist/s et en écrit environ 20/s.

OLAP consolide entre 20 et 30000 cellules/s

v Représentation des données

2017-2018O. Boussaid

La valeur ALL remplace une colonne ou une valeur d'agrégats.

Magasin Date Rayon CA Ventes Mag1 1/2/96 010 3500 Mag1 6/2/96 010 2500 Mag1 10/2/96 010 2900 Mag1 ALL 010 8900 Mag2 … … …

v Représentation des données

Page 18: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

18

2017-2018O. Boussaid

S'il y a N attributs concourant à la construction du cube, il y aura :

Dans la tables VENTES si on a 2*3*3 = 18 enregist. dans le cube on aura 3*4*4* = 48 enregist.

Soit C1, C2, … ,CN les cardianlités des N attributs, le cube aura :

∏(Ci +1) enregistrements

2N-1 agrégations

v Représentation des données

2017-2018O. Boussaid

L'ensemble des données est stocké dans une BDR. Les données sont sous forme d'enregistrements (tuples).

VENTES (Magasin, Rayon, Date, CA Ventes, Nb Client)

Select Magasin, Date , Sum(CA Ventes)From VENTESGroup By Magasin, Date

Nouveaux opérateurs d'agrégation : cube , rollup.

FJ.Gray, A. Bosworth, A. Leyman, H. Pirahesh, “Data Cube : A relationnalAggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Total”, inData Mining and Knowledge Discovery Journal, 1(1), 1997]

F L'approche relationnelle (ROLAP)

v Les différentes approches d'OLAP

Page 19: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

19

2017-2018O. Boussaid

Select ALL, ALL, ALL, Sum(CA Ventes)From VENTESUNION Select Magasin, ALL, ALL, Sum(CA Ventes)From VENTESGroup-By Magasin ;UNION Select Magasin, Date, ALL, Sum(CA Ventes)From VENTESGroup-By Magasin, Date ;UNION Select Magasin, Date, Rayon, Sum(CA Ventes)From VENTESGroup-By Magasin, Date, Rayon ;

Select Magasin, date, Rayon, Sum(CA Ventes)From VENTESGroup-By Cube Magasin, Date, Rayon ;

L'opérateur cube est une généralisation N-dimensionnelle de fonctions d'agrégations simples . C'est un opérateur relationnel.

L'union de plusieurs group-by donne naissance à un cube :

F L'approche relationnelle (ROLAP)

2017-2018O. Boussaid

Il s'agit de stocker les données dans des tableaux multidimensionnels. Ces tableaux peuvent être éparses.

On y stocke dans les cellules les mesures (valeurs à observer), les données représentant les dimensions sont les coordonnéesde ces valeurs :

f = (d1, d2, …, dn, m1, m2, …, mp)

[Zhao Yihong, Deshpande Prasad M., Naughton Jeffrey F., «An Array-BasedAlgorithm for Simultaneous Multidimensional Aggregates», in SIGMOD Record n° 26, Vol 2, 1997.]

F L'approche multidimensionnelle (MOLAP)

Page 20: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

20

2017-2018O. Boussaid

Ø Plus on a de dimensions plus on a de cellules. Seulement une partie des produits peut être vendue ð des cellules sans valeur : données éparse.

BD éparse

Ø Une BD est considérée comme éparse si elle a moinsde 40% de ses cellules “ peuplées ”.

Ø Techniques de compression des données

Exemple :On dispose de 100 000 données (eq. tuples)4 dimensions ayant une cardinalité de 30 modalités chacune:

30 * 30 * 30 * 30 = 810 000 cellules (dont 710 000 vides : 12,3% seulement sont pleines)

F L'approche multidimensionnelle (MOLAP)

2017-2018O. Boussaid

F L'approche hybride (HOLAP)

50 000 Clients

500 Villes

5 Régions

1 Pays

BDR

BDM

Approche relationnelle : 30% du temps est consacré aux I/O.

Approche multidimensionnelle : 20%. (70% calculs et 10% décompression)

La 3° voie préconisée consiste à utiliser les tables comme structure permanente de stockage des données et les tableaux comme structure alors des requêtes.

La démarche consisterait en 3 étapes:

1. Charger les données d'une table vers un tableau.

2. Calculer le cube de ce tableau selon les méthodes initialement présentées.

3. Stocker les résultats (données agrégées) dans un table.

Page 21: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

21

2017-2018O. Boussaid

§ Simples “magasins de données” (Data Marts), on y stockera des données portant sur une seule des activités de l'entreprise.

§ Ceux sont en quelque sorte des vues métier.

§ Exemple Data mart Comptabilité, Data mart RH,.....

§ Ces mini ED peuvent alors être considérés comme des espaces d'analyse, du fait que les données sont bien moins nombreuses et surtout qu'elles sont thématiques.

§ Ils peuvent également servir de bases de construction à des cubes de données.

v Les magasins de données (data marts)

2017-2018O. Boussaid

Entrepôts, Magasins et Cubes de données

Data Mining

Analyses statistiques

OLAP Reporting

Entrepôt de

données

Magasins de données

MD

MD

MD

MD

MD

MD

Cube

Cube

Cube

Cubes de données

Page 22: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

22

2017-2018O. Boussaid

INTEGRATION

2017-2018O. Boussaid

Après avoir conçu le modèle des données, comment alimenter l'ED ?

Processus d'ETL (Extracting – Transforming – Loading)

F Construction d'un ED

Page 23: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

23

2017-2018O. Boussaid

þ Ce travail d'homogénéisation nécessite des règlesprécises servant de dictionnaire (ou de référentiel)et qui seront mémorisées sous forme demétadonnées (information sur les données).

þ Ces règles permettent d'assurer des tâchesd'administration et de gestion des donnésentreposées.

Alimenter un ED…þ Le principe de l'entreposage des données est de

rassembler de multiples données sources quisouvent sont hétérogènes en les rendant homogènesafin de les analyser.

2017-2018O. Boussaid

Ø Le dictionnaire (ou référentiel) de données est constitué de l'ensemble des métadonnées.

Ø Il renferme des informations sur toutes les données de l'ED.

Ø Il renferme également des informations sur chaque étape lors de la construction de l'ED ; sur le passage d'un niveau de données à un autre lors de l'exploitation de l'ED .

Le rôle des métadonnées est de permettre :

♣ La définition des données♣ La fabrication des données♣ Le stockage des données♣ L'accès aux données♣ La présentation des données.

Le dictionnaire

Page 24: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

24

2017-2018O. Boussaid

L'alimentation d'un ED est un processus qui s'effectue en plusieursétapes :

Ù Sélection des données sources

Ù Extraction des données

Ù Transformation

Ù Chargement

Processus d'ETL

2017-2018O. Boussaid

Quelles données de production faut-il sélectionner pour alimenterl'ED ?

Toutes les données sources ne sont forcément pas utiles.Doit-on prendre l'adresse complète ou séparer le code postal ?

Les données sélectionnées seront réorganisées pour servir à lafabrication des informations.

La synthèse de ces données sources a pour but de les enrichir.

v Sélection des données sources

Page 25: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

25

2017-2018O. Boussaid

La sélection des données utiles à partir des BD de production n'est passimple à faire .

Les données sont :

F hétérogènes (différents SGBD et différentes méthodes d'accès)

F diffuses (différents environnements matériels et différents réseaux interconnectés ou non)

F complexes (différents modèles logiques et physiques principalement orientés vers les traitements transactionnels)

.

v Sélection des données sources (suite)

La définition de la granularité dépend du niveau de raffinement de l'information qu'on veut obtenir

2017-2018O. Boussaid

ØL'extraction peut se faire à travers un outil d'alimentation qui doittravailler de façon native avec les SGBD qui gèrent les donnéessources.

ØOu alors créer des programmes extracteurs. L'inconvénient decette approche est le risque de faire des extractions erronées,incomplètes et qui peuvent biaiser l'ED.

Ø Il faut gérer les anomalies en les traitant et en gardant une trace

v Extraction des données

Page 26: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

26

2017-2018O. Boussaid

q L'extraction doit se faire conformément aux règles précises du référentiel.

q Elle ne doit non plus perturber les activités de production.q Il faut faire attention aux données cycliques. Celles qu'on doit

calculer à chaque période, pour pouvoir les prendre en considération.

q L'extraction peut se faire en interne selon l'horloge interne ou par un planificateur ou par la détection d'une donnée cible (de l'ED) ; ou en externe par des planificateurs externes.

q Les données extraites doivent être marquées par “horodatage”afin qu'elles puissent être pistées.

v Extraction des données (suite)

2017-2018O. Boussaid

Exemple

Donnés sourcesdonnées cibles

Appli 1 : male, femelle m, fAppli 2 : 1, 0 m, fAppli 3 : Masculin, féminin m, f

C'est une suite d'opérations qui a pour but de rendreles données cibles homogènes et puissent être traitéesde façon cohérente.

Donnés sourcesdonnées cibles

Appli 1 : $150,000 139 587 €.Appli 2 : 16 000 CHF 14 757 €.Appli 3 : 200.000£ 273 094 €.

v Transformations

Page 27: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

27

2017-2018O. Boussaid

v Chargement

þ C'est l'opération qui consiste à charger les données nettoyées et préparées dans le DW.

þ C'est une opération qui risque d'être assez longue. Il faut mettre en place des stratégies pour assurer de bonnes conditions à sa réalisation et définir la politique de rafraîchissement.

þ C'est une phase plutôt mécanique et la moins complexe.

2017-2018O. Boussaid

F Administration d'un ED

Ë L'ED est un aspect physique du SI de l'entreprise. Il doit être par conséquent évolutif. Les données doivent donc changer. On doit procéder à d'autres alimentations et donc gérer l'actualisation des données.

Ë Il existe des outils qui prennent en charge les tâches de rafraîchissement des données.

Ë Ils procèdent par réplication pour propager les m.a.j. effectuées dans les BD sources dans l'ED.

Ë Le mécanisme de réplication et une opération de copie de données d'une BD vers une ou plusieurs BD.

Ë Les réplications sont alors asymétriques synchrones ou asynchrones ou alors symétriques synchrones ou asynchrones.

Ë Le rafraîchissement des données peut se faire également par des processus de transformation qui exploitent les méta-données.

Page 28: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

28

2017-2018O. Boussaid

@ La fonction d'administration porte sur un aspect fonctionnel (qualité et pérennité des données) mais aussi sur un aspect technique (maintenance, optimisation, sécurisation...)

@ Elle concerne l'ensemble des tâches du processus d'entreposage de la sélection des données de production à la mise à disposition pour construire les espaces d'analyse.

@ L'administrateur de l'ED doit maîtriser la gestion des données (données, provenance des données, méta-données).

@ Les données agrégées sont aussi une production (information) de l'entreprise comme les données de production (ERP), doivent être entreposées.

@ Ainsi le développement de l'ED témoignera aussi bien de la production de base que de l'activité informationnelle (pilotage de l'entreprise).

@ Les requêtes portent plus souvent sur les agrégats que sur les données de base. (80% - 20%)

F Administration d'un ED (suite)

2017-2018O. Boussaid

@ La fonction de DBA est très recherchée

@ Les DBA sont bien rémunérés (mieux que les développeurs)

@ Les compétences demandées chez les DBA :

Ø Data warehousing (très recherché)

Ø Services de transformation des données (ETL)

Ø Environnement de réplication

F Administration d'un ED (suite)

Page 29: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

29

2017-2018O. Boussaid

OLAP

2017-2018O. Boussaid

OLTP (On-Line Transactional Processing)

• Les applications conçues pour des opérations quotidiennes dans les BD.• Ces transactions nécessitent des données détaillées et actualisées. • Les BD vont de quelques milliers de Mo à des Go..

OLAP (On-Line Analytical Processing)

• Les données sont historisées, résumées, consolidées.• Les EDs contiennent des données sur une longue période de temps.• Les EDs vont de centaines de Go à des To (Téra octets).

G l'analyse multidimensionnelle (OLAP)

Approche Transactionnelle contreApproche Analytique

Page 30: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

30

2017-2018O. Boussaid

OLAP (On-Line Analytical

Processing)

Les préconisations de Codd

2017-2018O. Boussaid

Les 12 règles d'OLAP1°) une vue multidimensionnelle des données.

2°) La transparence vis à vis de l'utilisateur qui doit accéder à la BD par l'intermédiaire d'outils

simples (tableur, par ex).

3°) La BD doit disposer d'un modèle et d'outils permettant d'accéder à de multiples sources,

d'effectuer les conversions et extractions nécessaire pour alimenter la Base OLAP.

4°) Le modèle de données, le nombre de dimensions ou le nombre de niveaux d'agrégation doivent

pouvoir changer, sans remettre en cause le fonctionnement de la base.

5°) Architecture Client/Serveur.

6°) Toutes les dimensions définies dans le modèle de données doivent être accessibles pour chacune

des données.

7°) Gestion des matrices creuses. Les parties vides du cube multidimensionnel doivent être stockées

de manière à ne pas détériorer les temps d'accès.

8°) Accessibilité simultanément par plusieurs utilisateurs.

9°) Toutes les données stockées ou calculées dans le cube doivent être accessibles et les règles de

gestion doivent toujours s'y appliquer. Toutes les tranches de cube doivent être visualisées.

10°) Navigation aisée dans les données pour les utilisateurs, de manière intuitive.

11°) Outil de présentation des données.

12°) Nombre illimité de dimensions et de niveaux d'agrégation.

Page 31: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

31

2017-2018O. Boussaid

v Les différentes techniques de restitution :

F La représentation cartographique ou par color coding

F Les requêteurs• Les outils graphiques d'interrogations• Les outils utilisant un modèle avec schéma renommé• Les outils EIS/SIAD

F Les Outils statistiques et le Data Mining

§ d'analyse exploiratoire (techniques statistiques, visualisation, recherche d'associations, typologies, réseaux de neurones)

§ d'analyse confirmatoire (techniques de régressions, de segmentations, réseaux de neurones)

§ d'analyse de modèles prédictifs (techniques de régressions, de segmentations, réseaux de neurones).

Tous les outils pouvant synthétiser, explorer, confirmer, expliquer , prédire les données sont des outils de restitution

2017-2018O. Boussaid

1. Opérateurs liés à la structure2. Opérateurs liés à la granularité3. Opérateurs ensemblistes

Opérateurs OLAP

Page 32: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

32

2017-2018O. Boussaid

Fonctiond'agrégation

CatégorieProduits

Cat.1 Cat.2 Cat.3

Produits App.Photo Lect. DVD App.Photo

Homecine Lect.DVD

Homecine

Lect. DVD

Villes Lyon Paris Lyon Marseille Paris Paris Marseille

Trim

estre

T1

Mois

m1

Dates

d1

m2 d2

m3 d3

T2

m4 d4

m5 d5

m6 d6

T3

m7 d7

m8 d8

m9 d9

L'analyse en ligne (O.L.A.P.)v Table dimensionnelleducubeVentes

2017-2018O. Boussaid

• CUBE :VENTES• FAIT :LecteurDVD,LYON,01/02/15,100•RÉFÉRENCE:LecteurDVD,LYON,01/02/15•MESURE :100•MEMBRE/PARAMÈTRE :LYON•DIMENSION :VILLES•NIVEAU :VILLES

v Multi-représentationsduCubeVentes

L'analyse en ligne (O.L.A.P.)

Page 33: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

33

2017-2018O. Boussaid

v Cube des ventesL'analyse en ligne (O.L.A.P.)

VILLES Lyon Marseille Paris

Mesures CA Qté vendue CA Qté vendue CA Qté vendue

PRODUITS

HomeCinéma

DATES

01/02/2015 20 000,00€ 21 6 000,00€ 4 14 000,00€ 2204/02/2015 6 000,00€ 13 1 600,00€ 7 7 500,00€ 1708/03/2015 1 200,00€ 4 16 000,00€ 7 2 000,00€ 1409/03/2015 5 500,00€ 4 1 200,00€ 4 1 500,00€ 115/04/2015 800,00€ 316/04/2015 1 700,00€ 11 1 870,00€ 6 1 600,00€ 317/04/2015 1 900,00€ 9 600,00€ 122/04/2015 2 000,00€ 323/04/2015 650,00€ 224/04/2015 500,00€ 2

App.Photonum

01/02/2015 16 000,00€ 30 10 140,00€ 10 9 000,00€ 2504/02/2015 2 600,00€ 5 2 000,00€ 6 13 800,00€ 1608/03/2015 2 000,00€ 7 20 000,00€ 8 5 000,00€ 2109/03/2015 7 500,00€ 5 1 000,00€ 3 1 720,00€ 115/04/2015 1 200,00€ 416/04/2015 5 000,00€ 30 1 330,00€ 4 3 000,00€ 617/04/2015 1 100,00€ 4 400,00€ 122/04/2015 1 200,00€ 223/04/2015 850,00€ 324/04/2015 400,00€ 3

LecteursDVD

01/02/2015 15 400,00€ 20 4 000,00€ 6 7 000,00€ 1504/02/2015 2 900,00€ 5 6 000,00€ 14 1 700,00€ 408/03/2015 4 000,00€ 13 14 000,00€ 5 1 000,00€ 509/03/2015 7 000,00€ 5 3 000,00€ 7 1 780,00€ 115/04/2015 4 000,00€ 816/04/2015 2 000,00€ 10 2 300,00€ 2 2 400,00€ 317/04/2015 2 200,00€ 10 400,00€ 122/04/2015 400,00€ 123/04/2015 500,00€ 324/04/2015 600,00€ 5

2017-2018O. Boussaid

Roll up sur la dimension ''Produits'’ (forage vers le haut)v Lesdifférentesopérations d'agrégation: Rollup

Villes Lyon Marseille Paris

Mesures CA Qtévendue CA Qté

vendue CA Qtévendue

Dates

01/02/15 54 100,00€ 71 20 140,00€ 20 30 000,00€ 62

04/02/15 11 500,00€ 23 9 600,00€ 27 23 000,00€ 37

08/03/15 7 200,00€ 24 50 000,00€ 18 8 000,00€ 40

09/03/15 20 000,00€ 14 5 200,00€ 14 5 000,00€ 3

15/04/15 6 000,00€ 15

16/04/15 8 700,00€ 51 5 500,00€ 13 7 500,00€ 12

17/04/15 5 200,00€ 23 1 400,00€ 3

22/04/15 3 600,00€ 6

23/04/15 2 000,00€ 6

24/04/15 1500,00€ 3

L'analyse en ligne (O.L.A.P.)

Page 34: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

34

2017-2018O. Boussaid

Roll up sur les 2 dimensions ''Produits'' et ''Dates''

Villes Lyon Marseille Paris

Mesures CA Qtévendue CA Qtévendue CA Qtévendue

107500,00€ 198 101240,00€ 130 74900,00€ 157

Villes

Mesures CA Qtévendue

283640,00€ 485

Roll up sur les 3 dimensions ''Produits'', ''Dates'' et ''Villes''

v Lesdifférentesopérations d'agrégation: RollupL'analyse en ligne (O.L.A.P.)

2017-2018O. Boussaid

Drill down sur la mesure ''CA'' selon la dimension ''Villes'' (forage vers le bas)

Villes Lyon Marseille Paris

Mesures CA Qtévendue CA Qtévendue CA Qtévendue

107500,00€ 198 101240,00€ 137 74900,00€ 157

Villes

Mesures CA Qtévendue

283640,00€ 492

Le résultat duDrill down donne :

???

v Lesdifférentesopérations d'agrégation: DrilldownL'analyse en ligne (O.L.A.P.)

Page 35: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

35

2017-2018O. Boussaid

Drill down sur la mesure ''CA'' selon la valeur ''Lyon'' de la dimension ''Villes'' endéveloppant la dimension ''Dates''

Villes Lyon Marseille Paris

Mesures CA Qté vendue CA Qté vendue CA Qtbiévendue

107500,00€ 198 101240,00€ 137 74900,00€ 157

Le résultat du Drill down donne :???

Villes LyonMesures CA Qté vendue

107500,00€ 198

Dates

01/02/2008 54100,00€ 7104/02/2008 11500,00€ 2308/03/2008 7200,00€ 2409/03/2008 20000,00€ 1415/04/2008 6000,00€ 1516/04/2008 8700,00€ 51

v Lesdifférentesopérations d'agrégation: DrilldownL'analyse en ligne (O.L.A.P.)

2017-2018O. Boussaid

L'opérationduDrillpeutsedéclinerenplusieursautresopérations :

q Drillaccross :Drilllatéral,comparaisonsurdesmesuresdansplusieurstablesdefaits

q Drill through :voirl'informationàtraversplusieursdimensions

q Reach through :voirl'informationenprofondeur,jusqu'auxdonnéesdebase

Ø Permet d'obtenir des détails sur la signification d'un résultat en affinant une dimensionou en ajoutant une dimension.

Ø Opération coûteuse d'où son intégration dans le système.Ø Exemple : un chiffre d'affaire suspect pour un produit donné :

• ajouter la dimensionMois : envisager l'effet week-end

• ajouter la dimension Villes : envisager l'effet géographique

v Lesdifférentesopérations d'agrégation: Drilldown

L'analyse en ligne (O.L.A.P.)

Page 36: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

36

2017-2018O. Boussaid

Opérationdesélection etdeprojection desdonnées :

Ville=''Paris'' etDates< 10/03/2008

v Lesdifférentesopérations d'agrégation:Slice&Dice

L'analyse en ligne (O.L.A.P.)

2017-2018O. Boussaid

Opérationdesélection etdeprojection desdonnées :

v Lesdifférentesopérations d'agrégation:Slice&Dice

L'analyse en ligne (O.L.A.P.)

Page 37: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

37

2017-2018O. Boussaid

Ø Rotate(Pivot)

consisteàfaireunerotationàuncubeautourd'undesesaxes,demanièreàprésenterunensembledefacesdifférent.Unesortedesélectiondefacesetnondesmembres.

Ø Switch(Permutation)

consisteàinter-changerlapositiondesmembresd'unedimension.

Ø Split(Division )

consisteàprésenterchaquetrancheducubeetdepasserd'uneprésentationmultidimensionnelled'uncubeàsaprésentationsouslaformed 'unensemblede tables.Sagénéralisationpermetdedécouperunhypercube dedimension4encubesdedimension3,parexemple.

Ø Nest(Emboîtement)

permetd'imbriquerlesmembresd’unedimensiondansuneautredimension.L'intérêtdecetteopérationestqu'ellepermet degroupersurunemêmereprésentationbi-dimensionnelle touteslesinformations(mesuresetmembres)d'uncubequelquesoitlenombredesesdimensions.

Ø Push(Enfoncement)

consisteàcombinerlesmembresd'unedimensionauxmesuresducube,i.e.de fairepasserdesmembresdedimensioncommecontenudecellules (mesure),etréciproquement.

v OpérateursliésàlastructureL'analyse en ligne (O.L.A.P.)

2017-2018O. Boussaid

v Lesdifférentesopérations OLAP:ROTATE

L'analyse en ligne (O.L.A.P.)

Page 38: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

38

2017-2018O. Boussaid

v Lesdifférentesopérations OLAP:SWITCH

L'analyse en ligne (O.L.A.P.)

2017-2018O. Boussaid

v Lesdifférentesopérations OLAP:SPLIT

L'analyse en ligne (O.L.A.P.)

Page 39: Introduction aux Systèmes d'Information Décisionnels

02/04/2018

39

2017-2018O. Boussaid

v Lesdifférentesopérations OLAP:NESTING

L'analyse en ligne (O.L.A.P.)