30
Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoir e Article présentée par : Ahlem SOUSSI Ingénieur en informatique & Étudiante en 2ème année mastère F.S.T. Tunisie Directeurs de Mastère M.A. Jamel FEKI M.C. Faiez GARGOURI 10 Juin 2005 10 Juin 2005

Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

Embed Size (px)

Citation preview

Page 1: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

Approche semi-automatisée de

conception de schémas multidimensionnels valides

Laboratoire

Article présentée par :

Ahlem SOUSSI

Ingénieur en informatique &Étudiante en 2ème année

mastère F.S.T. Tunisie

Directeurs de Mastère

M.A. Jamel FEKIM.C. Faiez GARGOURI

10 Juin 200510 Juin 2005

Page 2: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

2

Plan

Introduction État de l’art Approche proposée

• Architecture fonctionnelle

• Modules Conclusion et perspectives

Page 3: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

3

Systèmes décisionnels

Deux espaces de stockage :

• l’entrepôt de données (ED)

• les magasins de données (MD)

Systèmes transactionnels => production

Système décisionnel => pilotageED

MD

MD

SOURCES

DE DONNEES

Page 4: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

4

Modèles Multidimensionnels

Page 5: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

5

Plan

Introduction État de l’art Approche proposée

Architecture fonctionnelle Modules

Conclusion et perspectives

Page 6: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

6

Etat de l’art

Guidée par les besoins

Guidée par la source Mixte

Basée surrequêtes

décisionnelsSource

de donnéesrequêtes et source

Participation des utilisateurs dans la conception de l’ED

forte limitée forte

Structuration de l’approche

non oui oui

Automatisation manuellesemi-

automatiquesemi-

automatique

Adopté par KimballGolfarelli,

Cabibbo, Moody, Hüsemann

Bonifati, Phipps

Types d’approche

Propriété

Page 7: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

7

Plan

Introduction État de l’art Approche proposée

Architecture fonctionnelle Modules

Conclusion et perspectives

Page 8: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

8

Approche proposée

Limite des approche mixtes : •Générer et gérer un grand nombre de schémas candidats inutiles

Approche proposée : •Mixte•Privilégie les besoins OLAP / aux besoins offerts par les sources

Page 9: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

9

Architecture fonctionnelle

Génération de schémas en constellation

Génération de schémas

en étoile

Correspondance et validation des

schémas en étoile

Dictionnaire Schémas des Sources de Données

Schémas en étoile idéaux des MD

Schémas en étoile valides des MD

Acquisition graphique

des besoins OLAP

Génération de schémas

de MD

Générationd’un schéma

d’ED

Besoins OLAP semi-structurés

Schéma de l’EDBesoins OLAP

exprimés

BD de spécification des besoins décisionnels

Schémas valides des MD

Génération de schémas

de MD

Page 10: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

10

Structure des besoins OLAP

Nom du Domaine

Paramètre 1 {Attributs faibles}

Paramètre 2 {Attributs faibles}

Paramètre 1 {Attributs faibles}

Paramètre 2 {Attributs faibles}

Condition de sélection

Dimension D2 /

Hiérarchie H_D2

NOM DU FAIT ( Mesure 1, …, Mesure k)

Dimension D1 / Hiérarchie H_D1

Valeurs

des

mesures

Valeurs

des

paramètres

Valeurs des

paramètres

D3 D4 Dn Dimensions masquées :

ATTRIBUT

NomATypeA

Params

NiveauA_FAIBLE A_FORT1..*

FaibleH

1..*

MESURE

NomMFormule

DOMAINE

NomDomDescriptDom

FAIT

NomF DIMENSION

NomDTABLEAU

NomTAgentDate_spécifDescriptTab

1..*

1..*

1..*

1..*1..*1..*

1..*1..*

2..*1..*

2..*1..*

HIERARCHIE

NomH

1..*1..*

ParamsH

1..*1..*

1..*

2..*

1..*

2..*

Page 11: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

11

Génération des étoiles

Enrichissement des tableaux de besoins Tableaux spécifiés => Tableaux enrichis Construction des étoiles

Tableaux enrichis ===> schémas en étoiles

GENETOILE

DOM 1 DOM 2

DOM 3

f1f2

f3

Page 12: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

12

SECTION

Code_ Section

Libellé_ Section

Année_Univ

Numéro_ Semestre

H-Semestre

H-AU

ENCADREMENT

Charge_horaire_encadrement

SEMESTRE

ANNÉE UNIVERSITAIRE

ENSEIGNANT

H-Section

Code_ Enseignant

Grade_Enseignant

Prénom_Enseignant

Nom _Enseignant

H2-Enseig

Type_ Enseignant

H1-Enseig

Année_Univ

Numéro_ Semestre

Code_ Enseignant

Grade_ Enseignant

Prénom_Enseignant

Nom _Enseignant

H-Semestre

H-AU

H2-Enseig

ENCADREMENT

Charge_horaire_encadrement

SEMESTRE

ANNÉE UNIVERSITAIRE

ENSEIGNANT

Sch : Schéma en étoile équivalent au tableau T1

T1

Année_Univ

Grade_Enseigant

Code_Enseignant {Nom_Enseig, Prénom_Enseig}

Répartition des enseignements

ENCADREMENT ( Charge_horaire_encadrement )

Année_Universitaire / H_AU

Enseignant /

H2_Enseig

Numéro_semestre = 2

Semestre

Exemple

Code_Section {Libellé_Section}

Type_EnseigantCode_Enseignant {Nom_Enseig, Prénom_Enseig}

Répartition des enseignements

ENCADREMENT ( Charge_horaire_encadrement )

Section / H_Section

Enseignant /

H1_Enseig

Année_Univ = 2002/2003 AND Numéro_semestre = 2

Année_Universitaire Semestre

T2

Sch1 : Schéma en étoile résultant de l’ajout de T2 à Sch

Page 13: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

13

Correspondance étoiles/Source

Correspondance des :Faits, Mesures, Dimensions,

Hiérarchies

Deux étapes :

– Extraction des termes potentiels sources

– Correspondance

Correspondance étoile idéale / source (E/R)

Validation des correspondances effectuées

Page 14: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

14

Exemple d’une source E/R

1,n 1,n

1,n

0,n

1,n

0,n

0,n

0,n

0,n

0,n

1,n

1,n

0,n

0,n

0,n

0,n

0,n1,n

1,1

1,n 1,1

0,n

1,n

1,n

1,11,n

1,n

1,n

1,1

SECTION

COD_SECINT_SEC

CYCLE

NUM_CYC

SEMESTRE

NUM_SEM

ANNEE_UNIV

AN_UNIV

AUDITOIRE

COD_AUDINT_AUD

MATIERE

COD_MATINT_MATVOL_HOR_MAT

GRADE

GRAD_ENS

ETUDIANT

NUM_ETUDNOM_ETUDPRENOM_ETUD

NATURE_ENSMT

NAT_ENSMT ENSEIGNANT

NUM_ENSNOM_ENSPRE_ENSNUM_TEL_FNUM_TEL_ME_MAIL

TYPE_ENSEIGNANT

TYP_ENS

CONCERNECONCERNE_AUD

INSCRIT_DANS

TYPE_ENS

GRADE_ENS

PEUT_ENSEIGNER

COMPORTE_GRP

NBR_GRPCONTIENT_HEUR

VOL_HOR_ENS_NAT

REGROUPE_ETUD

NBR_ETUD

ENSEIGNEMENT_ASS

NBR_GRP_ENS

CHARGE_EXIGEE

CHARG_HOR_EXI

Page 15: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

15

faits potentiels ?

Entités ou associations n-aires

contenant au moins un attribut numérique non-clé.

Correspondance du fait

DIM 1

DIM 2

faitmesures

Identifiant

H1_DIM1 H2_DIM1

Param 1

Param N

Enseignement

1,n 1,n

1,n

0,n

1,n

0,n

0,n

0,n

0,n

0,n

1,n

1,n

0,n

0,n

0,n

0,n

0,n1,n

1,1

1,n 1,1

0,n

1,n

1,n

1,11,n

1,n

1,n

1,1

SECTION

COD_SECINT_SEC

CYCLE

NUM_CYC

SEMESTRE

NUM_SEM

ANNEE_UNIV

AN_UNIV

AUDITOIRE

COD_AUDINT_AUD

MATIERE

COD_MATINT_MATVOL_HOR_MAT

GRADE

GRAD_ENS

ETUDIANT

NUM_ETUDNOM_ETUDPRENOM_ETUD

NATURE_ENSMT

NAT_ENSMT ENSEIGNANT

NUM_ENSNOM_ENSPRE_ENSNUM_TEL_FNUM_TEL_ME_MAIL

TYPE_ENSEIGNANT

TYP_ENS

CONCERNECONCERNE_AUD

INSCRIT_DANS

TYPE_ENS

GRADE_ENS

PEUT_ENSEIGNER

COMPORTE_GRP

NBR_GRPCONTIENT_HEUR

VOL_HOR_ENS_NAT

REGROUPE_ETUD

NBR_ETUD

ENSEIGNEMENT_ASS

NBR_GRP_ENS

CHARGE_EXIGEE

CHARG_HOR_EXI

Page 16: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

16

Mesures potentielles d’1 fait F ?

Si F-ass est une association n-aire :

Les attributs numériques non-clés appartenant au(x) : Fait F-ass Associations parallèles à F-ass Entités directement liées par F-ass

Si F-ass est une entité :

Les attributs numériques non-clés appartenant au(x) : F-ass Entités ou association porteuse de données (Ent ou

Apd) liées à F-ass par un lien (1,1) Entités liées à F-ass par un lien (1,n)

Correspondance des mesures

DIM 1

DIM 2

Identifiant

H1_DIM1 H2_DIM1

Param 1

Param N

faitmesuresNbre_ groupe_

enseignés, …

Enseignement

1,n 1,n

1,n

0,n

1,n

0,n

0,n

0,n

0,n

0,n

1,n

1,n

0,n

0,n

0,n

0,n

0,n1,n

1,1

1,n 1,1

0,n

1,n

1,n

1,11,n

1,n

1,n

1,1

SECTION

COD_SECINT_SEC

CYCLE

NUM_CYC

SEMESTRE

NUM_SEM

ANNEE_UNIV

AN_UNIV

AUDITOIRE

COD_AUDINT_AUD

MATIERE

COD_MATINT_MATVOL_HOR_MAT

GRADE

GRAD_ENS

ETUDIANT

NUM_ETUDNOM_ETUDPRENOM_ETUD

NATURE_ENSMT

NAT_ENSMT ENSEIGNANT

NUM_ENSNOM_ENSPRE_ENSNUM_TEL_FNUM_TEL_ME_MAIL

TYPE_ENSEIGNANT

TYP_ENS

CONCERNECONCERNE_AUD

INSCRIT_DANS

TYPE_ENS

GRADE_ENS

PEUT_ENSEIGNER

COMPORTE_GRP

NBR_GRPCONTIENT_HEUR

VOL_HOR_ENS_NAT

REGROUPE_ETUD

NBR_ETUD

ENSEIGNEMENT_ASS

NBR_GRP_ENS

CHARGE_EXIGEE

CHARG_HOR_EXI1,n 1,n

1,n

0,n

1,n

0,n

0,n

0,n

0,n

0,n

1,n

1,n

0,n

0,n

0,n

0,n

0,n1,n

1,1

1,n 1,1

0,n

1,n

1,n

1,11,n

1,n

1,n

1,1

SECTION

COD_SECINT_SEC

CYCLE

NUM_CYC

SEMESTRE

NUM_SEM

ANNEE_UNIV

AN_UNIV

AUDITOIRE

COD_AUDINT_AUD

MATIERE

COD_MATINT_MATVOL_HOR_MAT

GRADE

GRAD_ENS

ETUDIANT

NUM_ETUDNOM_ETUDPRENOM_ETUD

NATURE_ENSMT

NAT_ENSMT ENSEIGNANT

NUM_ENSNOM_ENSPRE_ENSNUM_TEL_FNUM_TEL_ME_MAIL

TYPE_ENSEIGNANT

TYP_ENS

CONCERNECONCERNE_AUD

INSCRIT_DANS

TYPE_ENS

GRADE_ENS

PEUT_ENSEIGNER

COMPORTE_GRP

NBR_GRPCONTIENT_HEUR

VOL_HOR_ENS_NAT

REGROUPE_ETUD

NBR_ETUD

ENSEIGNEMENT_ASS

NBR_GRP_ENS

CHARGE_EXIGEE

CHARG_HOR_EXI

Page 17: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

17

Identifiant

H1_DIM1 H2_DIM1

DIM 2

DIM 1

Param 1

Param N

faitmesures

Correspondance des dimensions (1)

identifiants potentiels de dimensions ?

Les attributs appartenant au(x) : Fait F-ass Ent ou Apd appartenant à la

fermeture transitive de F-ass ( c. à d. directement ou transitivement liées à F-ass par un lien (1,1) ou (1,n))

Nbre_ groupe_ enseignés, …

Enseignement

MATIERE

Code_Matière

1,n 1,n

1,n

0,n

1,n

0,n

0,n

0,n

0,n

0,n

1,n

1,n

0,n

0,n

0,n

0,n

0,n1,n

1,1

1,n 1,1

0,n

1,n

1,n

1,11,n

1,n

1,n

1,1

SECTION

COD_SECINT_SEC

CYCLE

NUM_CYC

SEMESTRE

NUM_SEM

ANNEE_UNIV

AN_UNIV

AUDITOIRE

COD_AUDINT_AUD

MATIERE

COD_MATINT_MATVOL_HOR_MAT

GRADE

GRAD_ENS

ETUDIANT

NUM_ETUDNOM_ETUDPRENOM_ETUD

NATURE_ENSMT

NAT_ENSMT ENSEIGNANT

NUM_ENSNOM_ENSPRE_ENSNUM_TEL_FNUM_TEL_ME_MAIL

TYPE_ENSEIGNANT

TYP_ENS

CONCERNECONCERNE_AUD

INSCRIT_DANS

TYPE_ENS

GRADE_ENS

PEUT_ENSEIGNER

COMPORTE_GRP

NBR_GRPCONTIENT_HEUR

VOL_HOR_ENS_NAT

REGROUPE_ETUD

NBR_ETUD

ENSEIGNEMENT_ASS

NBR_GRP_ENS

CHARGE_EXIGEE

CHARG_HOR_EXI

Page 18: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

18

1,n 1,n

1,n

0,n

1,n

0,n

0,n

0,n

0,n

0,n

1,n

1,n

0,n

0,n

0,n

0,n

0,n1,n

1,1

1,n 1,1

0,n

1,n

1,n

1,11,n

1,n

1,n

1,1

SECTION

COD_SECINT_SEC

CYCLE

NUM_CYC

SEMESTRE

NUM_SEM

ANNEE_UNIV

AN_UNIV

AUDITOIRE

COD_AUDINT_AUD

MATIERE

COD_MATINT_MATVOL_HOR_MAT

GRADE

GRAD_ENS

ETUDIANT

NUM_ETUDNOM_ETUDPRENOM_ETUD

NATURE_ENSMT

NAT_ENSMT ENSEIGNANT

NUM_ENSNOM_ENSPRE_ENSNUM_TEL_FNUM_TEL_ME_MAIL

TYPE_ENSEIGNANT

TYP_ENS

CONCERNECONCERNE_AUD

INSCRIT_DANS

TYPE_ENS

GRADE_ENS

PEUT _ENSEIGNER

COMPORT E_GRP

NBR_GRPCONT IENT _HEUR

VOL_HOR_ENS_NAT

REGROUPE_ET UD

NBR_ET UD

ENSEIGNEMENT _ASS

NBR_GRP_ENS

CHARGE_EXIGEE

CHARG_HOR_EXI

Attributs faibles potentiels de l’dentifiant d’une dimension ?

Les attributs appartenant au(x) : Fait F-ass Ent ou Apd liées à F-ass par un

lien (1,1)

Correspondance des dimensions (2)

Libellé_MatièreIdentifiant

H1_Matière

DIM 2

DIM 1

Cycle

faitmesuresNbre_ groupe_

enseignés, …

Enseignement

MATIERE

Code_Matière

Code_Auditoire

Attributs_faibles

Page 19: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

19

Libellé_Section

CodeSection

CodeMatière

CodeAuditoire

Libellé Matière

Volume horaire

MATIERE

Libellé_Auditoire

H1_Matière

Correspondance des hiérarchies (1)

identifiants potentiels de dimensions ?

Les attributs appartenant au(x) : Fait F-ass Ent ou Apd appartenant à la fermeture

transitive de F-ass ( c. à d. directement ou transitivement liées à F-ass par un lien (1,1) ou (1,n))

Page 20: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

20

Correspondance des hiérarchies (2)

AUDITOIRE

COD_AUDINT_AUD

Matière

Libellé_Auditoire

Code_Auditoire

Code_Matière

Code_Section

Libellé_Matière

Volume_horaire

Extraction des attributs faibles potentiels de P ?

Les attributs non-clés appartenant à :

L’élément E contenant P-ass

Ent ou Apd liées à E par un lien (1,1)

Page 21: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

21

Validation des correspondances

Ajustement des correspondances effectuées

• corriger/supprimer les correspondances incorrectes

• Compléter les correspondance manquantes Choix de la correspondance la plus appropriée

Amélioration de la correspondance retenue

• éliminer les éléments sans correspondant• ajouter des mesures calculables valides• ajouter des dimensions et des attributs

supplémentaires

Page 22: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

22

Métrique des :• Mesures • Dimensions• Hiérarchies• Paramètres

Calculés pour chaque solution de correspondance Comptent le nombre de mesures, dimensions, hiérarchies

et paramètres (d’un schéma en étoile) ayant un correspondant dans la source

Cas de plusieurs solutions de correspondance

Fp1

:

Fpi

:

Fpn Soln

Soli

Sol1Corresp. des mesures

Corresp. des dimensions

Corresp. des hiérarchies

Corresp. des mesures

Corresp. des dimensions

Corresp. des hiérarchies

Corresp. des mesures

Corresp. des dimensions

Corresp. des hiérarchies

Comparer les n

solutions de corresp

Solj

choisiefait F

Faits potentiels associés à F

Fait Fpj

associé à F

Page 23: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

23

Génération des constellations

Entrée : des étoiles valides Sortie : des étoiles + des constellations Idée de base : similitude entre schémas multidimensionnels

Critère Sim(Si,Sj)

si p=0 0

si p=n=m 1

si p=1 1/5

si p=n et n<m 3/4

si p=n/2 et n=m 1/2

si p>=m/2 et n<m

2/3

si n/2<=p<m/2 1/3

si p<n/2 et n<=m

1/4

Soient : . Si et Sj deux schémas . Card(Dim(Si)) = n . Card(Dim(Sj)) = m . p = Card(Dim(Si) ∩ Dim(Sj))

Ordre de constellation ?

Page 24: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

24

Algorithme de principe :

•Calculer MS et son maximum Max•Consteller les schémas les plus

similaires •Mettre à jour la matrice MS •Réitérer

Génération des constellations (2)

Arrêt : - Taille(MS) =1, - valeurs de similitude faibles - sur demande.

MS S1 . . Si . . Sk

S1 - ? ? ? ?

: - ? ? ?Si - ? ?

: - ?Sk -

Page 25: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

25

Plan

Introduction État de l’art Approche proposée

• Architecture fonctionnelle

• Modules

Conclusion et perspectives

Page 26: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

26

Conclusion et perspectives

Approche de construction de MD en 3 étapes :Génération des étoilesCorrespondance et validation des étoilesGénération des constellations

Perspectives

Implémentation de la méthode de correspondance avec des sources de données relationnelles.

Intégration des schémas de MD schéma de l’ED.

Page 27: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique
Page 28: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

28

Modèles Multidimensionnels

Fait : activité analysé

Dimension : axe d’analyse

Modèle en étoile

• 1 fait central• dimensions

Modèle en constellation

• ++ faits ayant des dimensions communes Fusion de ++ schémas en étoile

Page 29: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

29

Page 30: Approche semi-automatisée de conception de schémas multidimensionnels valides Laboratoire Article présentée par : Ahlem SOUSSI Ingénieur en informatique

30

ED & MD

Entrepôt de données ("data warehouse") – lieu de stockage centralisé d'un – extrait des sources – pertinent pour les décideurs, – daté, historisé – organisé selon un modèle informatique facilitant

la gestion des données.

Magasin de données ("data mart") – extrait de l'entrepôt – adapté à une classe de décideurs (ou à un usage

particulier) – organisé selon un modèle approprié aux outils

d'analyse.