Upload
snakemanhr
View
27
Download
0
Embed Size (px)
Citation preview
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 1/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T1
Gén éra li t é s Déc i s ionn e l ?Qu ’es t ce qu e le Da t a Wara h ou s in g
Modé l isa t ion des DW
Con s t r u c t ion d ’u n DW :
Alim e n t a t io n d ’u n DWAd m in is t r a t io n d ’u n DW
La r e s t it u t io n :
Les c u bes d e do n n ée s , OLAP
Les entrepôts de donnéesLes entrepôts de données
(Data Warehouses)(Data Warehouses)
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 2/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T2
Les en trepris es pa ss en t à l’ ère de l’in fo rm at ion .
Défi : Tran sform er leu r sys tèm e d’in form a t ion qu i
a va it u n e vocat ion de p rodu ct ion à u n SI décis ion n el
don t la voca tion de pilotage devien t m a jeu re.
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 3/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T3
Qu ’e s t c e q u ’u n DW ?
D’après BILL In m on :
“Un DW es t un e collection d e d onn ées t h é m a t i q u e s , i n t é gré e s ,
n on v ola t i le s et h i s t o r i s é e s , organ is ées pou r la pris e d e d écis ion .”
Thématiques : th èm es pa r a ct ivités m ajeu res ;Intégrées : divers s ou rces de don n ées ;
Non vola t iles : n e pas su ppr im er les donn ées d u DW ;
Historisées : t race des don n ées , su ivre l’évolu t ion des in d ica teurs .
P b d e v o lu m é t r ie , d e s t o c k a ge , d ’a c c è s .
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 4/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T4
Ar chit ect ur e Décisionnelle
Basesde
product ion
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 5/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T5
Le s b a s e s d e p r o d u c t io n : tou tes les s ou rces d e don n ées
(léga les, ju ridiqu es, fis cales , politiqu es, tech n iqu es, m a rketin g)
Comment organiser ces différentes données dans un
ens em ble coh éren t a fin de procéder à tou tes les a n alyses
nécessaires pour construire les i n d i c a t e u r sin d is pen s a b les a u pilotage de l’en trep ris e ?
Pa r u n proces s u s d’en treposa ge de don n ées
Da t a Wa re h o u s in g
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 6/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T6
Le s d i ffé r e n t e s p h a s e s d u Da t a wa r e h o u s in g
C o n c e p t i o n
C o n s t r u c t i o n
A d m i n i s t r a t i o n
R e s t i t u t i o n
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 7/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T7
• Co n c e p t i o n
Il s ’a git d e défin ir la fin a lité d u DW :♠ Piloter qu elle a ctivité de l’en tr ep rise ;
♠ Déterm in er e t recen ser les don n ées à en treposer ;
♠ Défin ir les a sp ects tech n iqu es d e la réalisa t ion ;
♠ m odèle de don n ées ;♠ déma rch es d’a lim enta t ion ;
♠ s t ra tégies d’ad m in is t ra t ion ;
♠ défin it ion des espa ces d’a n alyse ;
♠ m ode de res t itu t ion , …
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 8/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T8
• C o n s t r u c t i o n
Tra va il tech n iqu e.
♠ Extra ction des don n ées des différen tes BD de produ ction
(in tern es ou extern es)
♠ Nettoya ge des d on n ées, règles d ’h om ogéin is a tion des don n ées
sou s form es d e m é t a d on n é es .
♠ Tech n iqu es d’alim en tat ion :
Ch argem en t des don n ées da n s le DW ;
Fréqu en ces de ra fraîchiss emen t : pa r a pp lications d’ in terfa ces en tre les s ou rces de
don n ées e t le DW ;
pa r serveu rs d e réplication d u SGBD ou pa r ou tils
spécialisés.
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 9/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T9
• Ad m i n i s t r a t i o n
Elle es t con s t itu ée de p lu s ieu rs tâch es pou r as su rer :
♠ la qu a lité et la péren n ité d es d onn ées au x différen ts a pp licatifs ;
♠ la m a in t en a n ce ;
♠ la gest ion de con figu rat ion ;♠ les m ises à jou r ;
♠ l’organ is a tion , l’opt im isa tion du SI ;
♠ la m ise en sécu rité du SI.
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 10/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T10
• R e s t i t u t i o n
C’est le bu t d u pr oces s u s d’en treposa ge des
données .
Elle con d ition n e le ch oix de l’a rch itectu re d u DW et
de sa con st ru ction .
Elle doit perm ettre tou tes la a n a lys es n écess a irespou r la con st ru ction des in dicateu rs rech erch és .
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 11/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T11
Dat a Warehouse
Ar chit ect ur e Décisionnelle
Basesde
product ion
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 12/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T12
• Co n c e p t i o n
Il s ’a git d e défin ir la fin a lité d u DW :
♠ m odèle de don n ées ;
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 13/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T13
Mod él isa t ion de s DW : Le m odè le en é t o ile
COMMANDE
N° Cde
Dat e Cde
PRODUI T
Code pr oduit
Nom Pr oduit
Descr ipt ion Pr oduit
Cat égorie
Descr ipt ion cat égor ie
Pr ix unit air eCLI ENT
N° Client
Nom ClientAdr esse Client
Ville
DATE
Clef dat e
Dat e
Mois
Année
VENDEUR
Code vendeur Nom Vendeur
Ville Vendeur
Quot a
VI LLE
Nom Ville
Région
Pays
TABLE DE FAI TS
Quant it é
Pr ix t ot al
N° Cde
Code vendeur
N° Client
Clef dat e
Code pr oduit
Nom Ville
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 14/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T14
Le m o dè le e n é t o ile : Un e (ou p lu s ieur s ) t ab le(s) d e fa i t s : iden tifian ts des ta bles d e
d im ens ion ; u n e ou p lu s ieu r s mesu res .
Plusieurs t a b le s d e d i m e n s io n : descr ipteu rs d es dim ens ion s.
Un e gr a nu la r i t é définie par les identif iants dans la table des
faits.
Ava n t a ges :♦ Fa cilité de n avigat ion
♦ Perform an ces : n om bre de join tu res lim ité ; ges t ion des don n ées creu ses .
♦ Gestion des a grégats
♦ Fiab ilité des rés u lta ts
In con vén ien t s :♦ Tou tes les d im ens ion s n e con cern ent p as les m esu res
♦ Redond an ces dan s les d imen sion s
♦ Alim en tat ion com plexe.
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 15/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T15
Addi t iv i té : somm e su r tou tes les m esu res
Exem ple : CA ; Qu an t ité vend u e, .. .
S e mi - a dd i t i v i t é : som m e su r cer t a in e m esu res :
Exem ple : n bre de con tact s c lien t s , Eta t s des s tocks , ...
Non-addi t iv i té : pa s de s om m e , recalcu ler
Exem ple : encou rs m oyen fin de m ois , p lu s gran d CA pou r
l’en s em ble des m a ga s in s
Pr op r i ét é s d e s m e s u r es
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 16/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T16
Da n s la gr a n d e d is t r ib u t i on :
Qu elqu es ta bles d e fa its : dét a illées et volu m in eu ses
Tab les d e dim en sion s :
Classiques : produ it , fou rn iss eu r , temp s, é tabliss emen t
(str u ctu re géogra ph iqu e, fonction n elle), . ..
Stratégiques : Clien t, Prom otion s , . .. .
Rq : Obten ir le plu s d ’en regis trem en ts p oss ibles.
Da n s le s ec t e u r d e s ba n q u e s :
Tables de faits : nombreuses , dédiées à chaque produi t , peu
déta illées et peu volu m in eu s es .
Ta bles d e dim en s ions :Classiques : produ it , temp s, é tabliss emen t (s t ru c t u re
géogra ph iqu e, fon ction n elle), ...
Stratégiques : Client, ....
Rq : Obtenir le plu s d e don n ées (cha m ps ) poss ibles .
Qu e lq u e s e x e m p le s d e m o d è le s d e DW
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 17/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T17
Le m odèle du DW doit être s im ple à com pren dre.
On peu t a u gm en ter sa lis ibilité en regrou pa n t cer ta in es
dimensions .
On défin it a in s i des h i é r a r c h i e s .
Celles-ci peu vent ê t re géograph iqu es ou organ isa t ion n elles .
Le m odè le en flocon s de n e ige
Exemp le : Com m u n e, Dépa rtem ent , Région, Pa ys, Contin en t
C li e n t C o n t in e n t P a y s R e gi o n Dé p a r t e m e n t C o m m u n e
Pep on e Eu rop e Fran ce Rh ôn eAlp es Rh ôn e Lyon 1°
Tes tu t Eu rop e Fran ce Rh ôn eAlp es Rh ôn e Lyon 2°
S oin in Eu rope Fran ce Rh ôn eAlp es Rh ôn e Lyon 3°
Vep on t Eu rop e Fran ce Ile d e Fran ce Par is Pa ris 1°
Mart in Eu rope Fran ce Ile de Fran ce Par is Pa ris 2 °
Elve rt Eu rope Fran ce Ile de Fran ce Yve lin es Versa ille s
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 18/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T18
PRODUI T
COMMANDE Code pr oduit N° Cde Nom Pr oduit
Dat e Cde Descr ipt ion Pr oduit
TABLE DE FAI TS Cat égor ie
N° Cde Descr ipt ion cat égor ie
CLI ENT N° Client Pr ix unit air e
N° Client Code vendeur
Nom Client Code pr oduit DATE
Adr esse Client Clef dat e Clef dat e
Ville Nom Ville Date
Quantité Mois
VENDEUR Pr ix t ot al Année
Code vendeur
Nom Vendeur VI LLE
Ville Vendeur Nom Ville
Quot a Région
Pays
Les valeurs des données des dimensions de niveau supérieur se répètent :
d é n o r m a l i s a t i o n ( lie n fo n c t io n n e l).
Lien fon ct ionn el ent re plu sieu rs cha m ps d’u n e dim en sion.Ces cha m ps son t sépa rés d an s u n e mêm e table (ta ille lim itée) pou r a voir u n tem ps de
répon ses rap ide .
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 19/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T19
REGION
Région
Pays
ANNEE
AnnéeMOIS
Mois
Année
CATEGORIE
Catégorie
Desc. Cat
PRODUIT
COMMANDE Code produit
N°Cde Nom Produit
Date Cde Desc. Produit
TABLE DE FAITS Catégorie
N°Cde Prix unitaire
CLIENT N° Client
N° Client Code vendeur
Nom Client Code produit DATE
Adresse Client Clef date Clef date
Ville Nom Ville Date
Quantité Mois
VENDEUR Prix total
Code vendeur
Nom Vendeur VILLE
Ville Vendeur Nom Ville
Quota Région
Pays
PAYS
Pays
Le m odè le flocon n é
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 20/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T20
Lorsqu e les ta bles s ont t rop volu m in eu ses
Ava n t a ge s :• rédu ction du volu m e,
• permet t re des an alyses pa r pa llie r (dr ill down ) su r la
dim ens ion h iérarch isée.
I n c o n v é n i e n t s :
• n a viga tion d ifficile ;
• n om b reu s es join t u r es .
Modè le flocon n é = Modè le e n é t o ile + n o r m a l i s a t i o n
d e s d im e n s io n
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 21/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T21
Calcu ler ou estim er le n omb re d’en regis trem en ts
Prend re en com pte :
La ta b le des fa its
Les d im en s ion s s ign ifica tives
Les a grégat s
Les in dex
Saisonn a lité des ventes
Croissance du CA, des encours , du nombre de points
de ven tes
E s t im e r le v olu m e d u DW
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 22/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T22
Exe m p le s :
Gra n d e s d i s t r ibu t i on :
CA a n n u el : 80 0 00 M$
Prix m oyen d ’u n a rt icle d’u n ticket : 5$
Nbre d’a r t icles vendu s pou r u n an : 80 * 10 9 / 5 = 16 * 10 9
Volu m e du DW :
16*10 9 *3 a n s * 2 4 o c t e t s = 1 ,5 4 To (1 ,5 4 *1 0 1 2 = 1 5 4 0 Go )
T é l é p h o n i e :Nbre d’appe ls qu ot id iens : 100 millions
His tor iqu e : 3 a n s * 365 jou rs= 1 09 5 jou rs
Volu me du DW :
1 0 0 m illio n s * 1 0 9 5 jo u r s * 2 4 o c t e t s = 3 , 9 4 To
Ca r t es d e créd i t :
Nb re d e clien t s : 50 m illion s
Nbr e m oyen me nsu el de t ra n sa ct ions : 30
Volu m e :5 0 m illio n s * 2 6 m o is * 3 0 t r a n s a c t io n s * 2 4 o c t e t s = 1 , 7 3 To
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 23/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T23
Le pr in cipe d e l’en treposa ge des don n ées est de ra s sem bler de
mult iples données sources qui souvent sont hétérogènes en les
r e nda n t homogènes a fin de les a n a lys er.
Ce tra va il d’h om ogéin is a tion n écess ite des règles pr écis es s erva n t
de d i c t i o n n a i r e (ou de r é f é r e n t i e l) e t qu i seront m ém orisées s ou s
form e de m é t a - d o n n é e s (in form a tion s u r les d on n ées).
Ces règles perm etten t d’a s su rer des tâ ch es d’ad m in is tra tion et de
gest ion des d on n és en treposées.
Alim e n t er u n DW : (Out i ls ETL)
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 24/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T24
Le diction n a ire (ou référen tiel) de d on n ées es t con s titu é de
l’en s em ble des m éta -don n ées .
Il ren ferm e des in form ation s s u r tou tes les donn ées du DW.
Il ren ferm e éga lem en t d es in form a tions su r ch a qu e étap e lors de la
con s t ru c tion du DW ; su r le pass age d’u n n iveau de don n ées à u n
a u tr e lors de l’exploita tion du DW.
Le rôle des m éta -donn ées es t de perm ettre :
♣ La défin ition des don n ées
♣ La fa br ication des don n ées
♣ Le s tocka ge des don n ées♣ L’a ccès a u x don n ées
♣ La présenta t ion des d on n ées .
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 25/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T25
L’a lim en ta tion d ’u n DW es t u n e p rocédu re qu i s ’effectu e en
p lu s ieu r s ét a pes :
S é le c t io n d e s d o n n é e s s o u r c e s
E xt r a c t io n d e s d o n n é e s
T r a n s f o r m a t i o n
C h a r g e m e n t
A d m i n i s t r a t i o n
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 26/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T26
• S é le c t io n d e s d o n n é e s s o u r c e s
Qu elles s ont les don n ées de p rodu ction s qu ’il fa u t s électionn er
pou r a lim enter le DW ?
Tou tes les don n ées s ou rces n e son t forcém en t pa s u t iles .
Doit-on p ren dre l’a dres s e com plète ou s épa rer le code posta l.
Les données sélectionnées seront réorganisées pour devenir d e si n f o r m a t i o n s .
La synth èse de ces donn ées sou rces a pou r bu t de les en r ichir .
La d é n o r m a l i s a t i o n des d onn ées créé des lien s en tre les don n ées
et perm et des a ccès d ifféren ts
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 27/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T27
• S é le c t io n d e s d o n n é e s s o u r c e s (s u i t e )
La sélection des données uti les à partir des BD de production
n ’est pa s s im ple à fa ire .
Les don n ées s on t :
h é t é r o g è n e s (d ifféren ts SGBD et d ifféren tes m éth odes
d’accès);
dif fuses (différen ts en viron n em en ts m a tériels et d ifféren tsréseau x in tercon n ectés ou n on );
c o m p l e x e s (d ifféren ts m odèles logiqu es et ph ys iqu es
pr in cipa lem en t orien tés vers les tra item en ts
transact ionnels) .
La défin it ion d e la gran u lar ité dépend du n iveau de raffin emen t
de l’in form a tion qu ’on veu t ob ten ir.
é
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 28/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T28
• S é le c t io n d e s d o n n é e s s o u r c e s (s u i t e )
Il exis te p lu s ieu rs n iveau x de don n ées :
• Les don n ées sont pa r fois as sem blées avan t d ’ê t re in jectéesda n s le DW perm ettan t u n e vis ion in tégrée e t t ra n sversa le de
l’entreprise.
Cette form e de d on n ées con st itu e le n ivea u le p lu s fin au n iveaudu DW : ceu x sont le s d o n n é e s d e d é t a il. Elles p eu ven t être
agrégées e t con st itu en t a in si u n au tre n iveau de déta il.
Elles s eron t p ar la su ite s t r u c t u r é e s da n s d es espa ces d ’an alyse(soit des cu bes de donn ées , soit d es da ta m a rts ).
Elles s eron t fin alem en t à u n n iv ea u d e p r és e n t a t i on , où elles
peu vent a voir plu sieu rs form es (ta bleau x, grap h iqu es, ta bleau x
de b ord, règles d e con n a is s a n ces. . . ).
ô éL ô d d é
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 29/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T29
• L’extrac t ion peu t se fa ire à t ravers u n ou t il d’a lim enta t ion qu i
doit travailler de façon native avec les SGBD qui gèrent les
donn ées sou rces .
• Ou a lor s cr éer d es p gm s ext ra cteu r s . L’in con vén ien t d e cet te
approche est le r isque de faire des extractions erronées,
in com plètes et qu i peu ven t b ia is er le DW.
• Il fau t gérer les an om alies en les t r a it an t e t en ga rdan t u ne
trace
• Ex t r a c t io n d e s d o n n é e s
L ô d d éL t ôt d d é
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 30/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T30
• L’extrac t ion doit s e fa ire con form émen t a u x règles précises du
référentiel.
• E lle n e doit non p lu s per tu rber les ac t ivités de produ ct ion .
• Il fau t fa ire a t tent ion au x don n ées cycliqu es . Celles qu ’on doit
calcu ler à ch a qu e période, pou r pou voir les pren dre en
considération.
• L’extrac t ion peu t se fa ire en in tern e selon l’h or loge in tern e ou par
u n pla n ificateu r ou pa r la d étection d ’u n e don n ée cible (du DW) ;ou en externe p ar des p lan ificateu rs externes .
• Les don nées ext r a it es doiven t êt re m arqu ées pa r “ horodatage ”
a fin qu ’elles p u is s en t être p is tées.
• E xt r a c t io n d e s d o n n é e s (s u i t e )
L t ôt d d éL t ôt d d é
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 31/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T31
Dat a Warehouse
Ar chit ect ur e Décisionnelle
Bases
deproduct ion
L t ôt d d éL t ôt d d é
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 32/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T32
Dat a Warehouse
Ar chit ect ur e Décisionnelle
Métadonnées
Bases
deproduct ion
L t ôt d d éLes entrepôts de données
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 33/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T33
Exemple
Don n é s s ou r c e s d on n é e s c ible s
• T r a n s f o r m a t i o n
C’est u n e su ite d’opérat ions qu i a pou r b u t d e rend re les d on n ées
cibles h o m o g è n e s et pu is sen t être tra itées de façon c o h é r e n t e .
App li 3 : Hom m e, femm e
App li 2 : 1 , 0
Appli 1 : m , f
m ,f
m ,f
m ,f
Les entrepôts de donnéesLes entrepôts de données T34
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 34/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T34
• Les don n ées d oiven t a lors filt rées a fin d’élim in er les données
aber ran tes : donn ées s an s va leu rs a vec des va leu rs m an qu an tes
(e x e m p le d e la v a le u r 9 9 ).
• S ou ven t da ns les ba ses de p rodu ct ion , cer ta in es donn ées son t
séma n t iqu em ent fau ss es .
• Pou r avoir u ne a limen ta t ion de qu a lit é, il fau t avoir u ne bon n e
con n a iss an ce des d on n ées à en treposer e t des règles qu i les
régis s en t. Savoir corriger les don n ées pou r les doter d’u n vrai
sens sém an t ique .
• On pe u t dédou b ler des don né es pou r ga gne r a u n ivea u de la
cohérence.
• Tr a n s fo r m a t io n (s u it e )
Les entrepôts de donnéesLes entrepôts de données T35
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 35/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T35
• L’en sem ble des donn ées s ou rces , ap rès n et toyage ou
tra n s form a tion d ’ap rès d es règles pr écis es ou pa rap plicat ion de progra m m es ( pou r un con trôle d e vra is s em blance par
des méthodes s tat is t iques ) , seront restructurées et converties
d an s u n fo rm a t c ib le .
• Il fau t synchron ise r les don n ées pou r qu e les va leu r s
agrégées obtenues soient cohérentes. Avant de passer à la
ph as e de ch argem ent .
• Tr a n s fo r m a t io n (s u it e )
Les entrepôts de donnéesLes entrepôts de données T36
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 36/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T36
• C h a r g e m e n t
C’est l’opéra tion qu i con s is te à ch a rger les don n ées
n ettoyées et p répa rées d a n s le DW.
C’est u n e opéra tion qu i ris qu e d’être a s sez lon gu e. Il
faut met t re en place des s t ra tégies pour assurer de
bon n es con ditions à s a réa lis a tion et d éfin ir la polit iqu ede rafraîchiss emen t.
C’est u n e ph as e plu tôt m écan iqu e et la m oin s com plexe.
Les entrepôts de donnéesLes entrepôts de données T37
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 37/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T37
Dat a Warehouse
Ar chit ect ur e Décisionnelle
Administ r at eur
Métadonnées
Bases
deproduct ion
Les entrepôts de donnéesLes entrepôts de données T38
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 38/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T38
Ad m in is t r a t io n d u DW
La fonction d’a dm in is tra tion p orte su r u n aspect fonctionnel (qu a lité et lapérenn ité des d on n ées) m ais au ss i su r u n as pect tech n iqu e (maintenance,
optimisation, sécurisation,. . .)
Elle con cern e l’en sem ble des tâ ch es d u pr ocess u s d ’en trep osa ge de la
sélect ion des donn ées de produ ct ion à la m ise à d isposit ion pour con stru ireles esp a ces d ’a n a lys e.
L’a dm in is tra teu r du DW doit ma îtriser la gest ion des don n ées (données ,
provenance d es d on nées , m éta-d onnées ).
Les d onn ées a grégées s ont a u s s i u n e produ ction (in form a tion) de l’en trepr ise
com m e les d onn ées d e produ ction (ERP), doiven t être en trep osées.
Ain s i le développem en t du DW tém oign era , au s s i bien de la pr odu ction d e
ba s e qu e d e l’a ctivité in form a tion n elle (p ilota ge de l’en tr epr is e).
Les requ êtes p or tent p lu s s ou vent su r les a grégats que s u r les donn ées de
bas e . (80% - 20%)
Les entrepôts de donnéesLes entrepôts de données T39
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 39/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T39
• Ad m i n i s t r a t i o n Le DW est u n as pect ph ysiqu e du SI de l’ent reprise. Il doit être pa r
conséquent évolutif . Les données doivent donc changer. On doit
pr océder à d’a u tres a lim en ta tions et don c gérer l’a ctu a lis a tion d es
données .
I l existe des outi ls qui prennent en charge les tâches de
rafraîchiss emen t des donn ées.
Ils p rocèdent par rep lica t ion pou r propager les m aj effectu ées dan sles BD sou rces, da n s le DW.
Le mécanisme de réplication et une opération de copie de données
d’u n e BD vers u n e ou plu sieu rs BD.
Les réplications sont alors asymétriques synchrones ou
as yn chrones ou alors sym étr iqu es syn chrones ou as yn chrones.
Le rafraîchissement des données peut se faire également par des
process u s de tra n sform at ion qu i exploiten t les m éta-donn ées.
Les entrepôts de donnéesLes entrepôts de données T40
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 40/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T40
Dat a Warehouse
Ar chit ect ur e Décisionnelle
Dat a Mar t s
Administ r at eur
Métadonnées
Bases
deproduct ion
Ut ilisat eur sRequêteurs
Les entrepôts de donnéesLes entrepôts de donnéesO B id O b 2000T41
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 41/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000
Les d a t a m a rt s
Sim ples “m a g a s i n s d e d o n n é e s” (Data marts), on y stockera desdon n ées portan t s u r u n e des act ivités d e l’en trepr ise .
Ceu x son t en qu elqu e sor te des vu es m étier .
Exem ple Da ta m ar t Com ptab ilit é, Da ta m ar t RH,.....
Ces m in i DW peu ven t a lors être cons idérés com m e des esp aces
d’an alyse, du fa it qu e les don n ées s ont b ien m oin s n om breu ses e t
su r tou t qu ’elles son t th ém at iqu es.
Ils peu ven t égalemen t s ervir de b as es de con stru ct ion à des cu bes
de don n ées .
La r e s t i t u t io n
Les entrepôts de donnéesLes entrepôts de donnéesO B id O t b 2000T42
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 42/60
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000
Les cu bes d on n ées e t les t ech n olog ies OLAP
OLTP
• Les a pplication s conçu es pou r des opérat ion s qu otidienn es da n s les BDs.
• Ces tra n sa ction s n écess itent des d onn ées détaillées et actu alisés .
• Les BD von t d e qu elqu es m illiers de Mo à d es Go.• .
OLAP
• Les donn ées s on t h is tor isées , résu m ées, con solidées .
• Les DW con tien n en t des don n ées su r u n e lon gu e période de temps .
• Les DW vont de cen ta in es d e Go à d es To (Téra octets ).
Les entrepôts de donnéesLes entrepôts de donnéesO Boussaid Octobre 2000T43
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 43/60
Les entrepôts de donnéeses e t epôts de do éesO. Boussaid. Octobre 2000
Dat a Warehouse
Ar chit ect ur e Décisionnelle
Dat a Mar t s
Administ r at eur
OLAP
Métadonnées
Bases
deproduct ion
Ut ilisat eur sRequêteurs
Les entrepôts de donnéesLes entrepôts de donnéesO Boussaid Octobre 2000T44
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 44/60
ppO. Boussaid. Octobre 2000
Le s 1 2 r è gle s d ’OLAP :1 °) u n e vu e mu lt idim en sion n elle des donn ées.
2 °) La t ra n s pa ren ce vis à vis d e l’u tilis a teu r qu i doit a ccéder à la BD pa r l’in term édiaire
d’ou tils s im ples (ta bleu r, p a r ex).
3 °) La BD doit disp oser d’u n m odèle et d’ou tils p erm ett a n t d’accéd er à de m u ltiplessou rces, d ’effectu er les con vers ions et extractions n écess aire pou r a lim en ter la Ba se
OLAP.
4 °) Le m odèle de don n ées, le n omb re de d im en sion s ou le n omb re de n iveau x d’a grégation
doiven t pou voir ch an ger, sa n s remettre en cau se le fon ct ion n emen t de la bas e.
5 °) Archi tectu re Clien t / Serveu r.
6 °) Tou tes les d im en sion s d éfin ies d an s le modèle de don n ées d oiven t être a ccessibles
pou r chacun e des don nées .
7 °) Gest ion d es m atrices creus es. Les pa rt ies vides du cu be m u lt idim ens ionn el doivent
être s tockées de m an ière à n e pas détériorer les tem ps d’accès.
8 °) Access ibilité s im u ltan émen t p ar plu sieu rs u t ilisa teu rs .
9 °) Tou tes les don n ées s tockées ou calcu lées da n s le cub e doiven t être access ibles et lesrègles d e gest ion d oiven t tou jou rs s‘y ap pliqu er. Tout es les tra n ch es d e cu be d oiven t être
visualisées.
10°) Na vigat ion a isée da n s les d onn ées pou r les u tilisa teu rs , de ma n ière in tu it ive.
11°) Ou til de présen tat ion d es donn ées.
12°) Nomb re illim ité de d im en s ion s et de n ivea u x d’a grégat ion .
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T45
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 45/60
ppO. Boussaid. Octobre 2000
R ep r és e n t a t io n d e s d o n n é e sLes don n ées s on t perçu es à t r avers plu sieu rs d im ens ion s. Elles son t
qu a lifiées de m u l t i d i m e n s i o n n e l l e s , in dépen dam m ent de leu r su ppor t
(ta bles rela tion n elles ou ta bleau x m u ltidim en s ionn els )
Pr oduit Region Vent es
Clous Est 50
Clous Ouest 60
Cl ous Cent r e 100Vis Est 40
Vis Ouest 70
Vis Cent r e 80
Boulons Est 90
Boulons Ouest 120
Boulons Cent r e 140Net t oyeur s Est 20
N et t oyeur s Ouest 10
N et t oyeur s Cent r e 30
Est Ouest CentreClous 50 60 100
Vis 40 70 80
Boulons 90 120 140
Nettoyeurs 20 10 30
Représenta t ion des donn ées dan s u ne
ta ble relat ionn elle
Représentat ion des donn ées dan su n t ab leau mu lt id imen s ionnel
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T46
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 46/60
ppO O
les requ êtes seron t de type : “ Qu e lle e s t le t o t a l d e s v e n t e s d a n s
l’Est? ”.
On peu t calcu ler divers totau x.
Ta b les rela tion n elles : on peu t t ra iter qu elqu es cen ta in esd’en regis trem en ts pa r secon de.
Tab leau m u lt idim en sionn el : on peu t ra jou ter en lign es et colon n es
plu s d e 10000 valeu rs pa r secon de.
Pou r a ccélérer les tem ps de r épon ses , il est préférab le de p ré-
calcu ler tou s les totau x et s ou s tota u x poss ibles .
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T47
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 47/60
pp
Produit Region Vent es
Clous Est 50Clous Ouest 60
Clous Centre 100
Clous Tot al 210
Vis Est 40
Vis Ouest 70
Vis Centre 80
Vis Tot al 190
Boulons Est 90
Boulons Ouest 120
Boulons Centre 140
Boulons Tot al 350
Net toyeurs Est 20
Net toyeurs Ouest 10
Net toyeurs Centre 30
Net t oyeurs Tot al 60
Tot al Est 200
Tot al Ouest 260
Tot al Cent re 350
Tot al Tot al 810
Est Ouest Cent re Tot al
Clous 50 60 100 210
Vis 40 70 80 190
Boulons 90 120 140 350
Nettoyeurs 20 10 30 60
Tot al 200 260 350 810
Pou r le ca lcu l de ces to tau x : 28
accès en lectur e et 8 accès en
écri ture.
Un S GBDR lit 20 0 en regist rem en ts
par secon de et en écrit en viron 20
par s econ de.
OLAP cons olide en tre 20 et 3 00 00cellu les p ar second e.
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T48
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 48/60
p
La va leu r ALL rem place u n e colon n e d ’a grégat s .
Magasin Dat e Rayon CA Vent es
Mag1 1/ 2/ 96 010 3500
Mag1 6/ 2/ 96 010 2500Mag1 10/ 2/ 96 010 2900
Mag1 ALL 010 8900
Mag1 … … …
S’il y a N a t t r ibu ts con cou ran t à la con st ru c tion du cu be : il y au ra
2 N-1 a gréga t ion s .
Dan s la tab les VENTES s i on a 2*3*3 = 18 tu ples :
da n s le cu be on au ra 3 *4*4* = 48 tu ples .
Soit C1 , C2 , … ,CN les ca rd ian lit és des N a t t r ibu t s : le cu be au ra
∏∏∏∏(Ci +1 ) e n r e gis t r e m e n t s .
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T49
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 49/60
L’ap proc h e r e la t ionn e lle .
(MicroStrategy MS ; In form ix’sMetacu be MC , In form ation Advan tage IA)
L’ens emble des donn ées est s tocké dan s u n e BDR. Les donn ées s on t sou s
form e d’en regis trem en ts .
VENTES (Magas in , Rayon , Da t e , CA Ven t es , Nb Clien t )
S e le ct Ma g a s i n , Da t e , S u m (CA Ve n t e s )
From VENTESGroup B y Ma ga s in , Da te
Nou veau x opérateu rs d’agrégat ion : c u be , r o llu p .
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T50
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 50/60
L’a pp r oc h e m u l t i d im e n s ion n e lle
Arbor Software : h yper ion (Codd & co…), Express Oracle , Ligh tSh ip (de Pilot)
Il s’a git d e s tocker les donn ées da n s des ta bleau x m u ltidim en sion n els.
Ces ta bleau x peuvent ê t re éparses .
On y stocke da n s les ce l lu les les m esu res (va leu rs à obser ver), les d onn ées
représen tan t les d im ens ion s sont les c o o r d o n n é e s de ces valeu rs .
Un tableau = {ce l lu les }
Les cellu les con ten a n t les don n ées origin elles : e n t r é e s
Les totau x calcu lés s ont les s o r t i e s
Les valeu rs des dim en sion s son t les m e m b r e sLes don n ées da n s les cellu les représenten t u n e var iable dimensionnée,
exemple: CA pa r Produ its et Région s .
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T51
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 51/60
1998
1997
1996
50
70 50
50
60
7060
30
20
50
100
40
40
40
4010
1010
20 20
60
60
30
Clous
Vis
BoulonsEst
Ouest
Sud
Nord
Représen ta t ion des don n ées dan s u n cu be
On peu t agré ge r les p r o d u i t s pa r c a t é gor i e s ou d é t a i l l e r les r é g ions
pa r vi l les .
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T52
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 52/60
Plu s on a de dim en sion p lu s on a de cellu les .
Un e pa r t ie des produ its es t vendu e des ce llu les s an s va leu r :donn ées éparse .
BD ép a rs e
Une BD est considérée comme éparse si elle a moins de 4 0 % de
ses cellu les “ peu plées ”.
Tech n iqu es de com press ion des d on n ées
Exem ple :
On d isp ose de 100 000 donn ées (eq. Tu ples)
4 dim ens ion s ayan t u n e cardin a lité de 30 m oda lités cha cu n e:30 * 30 * 30 * 30 = 810 000 cellules
(dont 710 000 vides : 1 2 , 3 % seu lemen t son t ple in es)
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T53
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 53/60
Roll up ; Drill down : Agrégat ion de don n ées ; fora ge de
don n ées :
Les d i ffér en t s op ér a t ion s d’OLAP
L’opération du Drill peu t se déclin er en p lu s ieu rs a u t res opéra t ion s :
• Dr ill a c c r o ss : Drill la téra l, compa ra ison s u r des m esu res da n s plus ieu rs ta bles
d e fa it s ;
• Dr ill t h r o u gh : voir l’in form a tion à tr a vers plu s ieu rs dime n sions• R e a ch t h r o u gh : voir l’in form at ion en pr ofond eu r, ju squ ’a u x donn ées de ba se.
50
20
70
120
90
350
10040
30
10
60
60
80
Clous
Vis
Boulons
Est
Ouest
Cent re
140
1998
1996
1997
Net t oyeurs 190
210
200
260
350
810
50
60100
210
190
350
60
810
210
Total
Total
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T54
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 54/60
50
20
70
120
90
350
10040
30
10
60
60
80
Clous
Vis
Boulons
Est
Ouest
Cent re
140
1998
1996
1997
N et t oyeurs 190
210
200
260
350
810
50
60100
210
190
350
60
810
210
Tot al
Total
Slice & Dice Sélection & pr ojection des don n ées
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T55
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 55/60
E xem p le : Villes –-> Régions –-> Pays –-> Continent .
Les dim en s ions peu ven t être orga n is ée en h iéra rch ie
Hiéra rch ies m u lt ip les dan s u n e d im en s ion :
Dim en s ion a vec d es c la s s es : h iéra rch ie
Région
District
Client
Pays
Ville
Client
Ventes Région
Ve n t e s Di s t ric t
Pays
Ville
Client
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T56
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 56/60
1996 1997 1998
Est 50 60
Ouest 60 60
Cent r e 100 110 120
Est 40 50
Ouest 70 80
Cent r e 80 90
Est 20 40 50
Ouest 10
Cent r e 30 40 50
Clous
Vis
Boulons
Nesting Em boîtemen t des d im ens ion s p ou r u n e représenta t ion en 2 -D
Pivoting
Tra n sp osit ion des d im en sion s
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T57
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 57/60
L’a p p ro c h e h ybr ide (HOLAP)
50 000 Clients
500 Villes
5 Régions
1 Pays
BDR
BDM
Appr oche relat ion n elle : 30% du tem ps est con sa cré au x I/ O.
App roche m u ltidim en s ionn elle : 20%. (70 % calcu ls et 10 % décom pres s ion)
La 3° voie p récon is ée con s is te à u tilis er les tables comme s t ruc tu re
perma nen te de stockage des don n ées et les tab leaux comme s t ruc tu re alorsdes requêtes .
La dém arch e con sisterait en 3 étap es :
1. Cha rger les don n ées d’u n e tab le vers
u n t ab leau .
2. Calcu ler le cu be de ce tab leau selon
les m éth odes in it ia lemen t p résen tées .
3 . Stocker les résu ltats (donn ées
agrégées) da n s u n tab le .
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T58
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 58/60
Dat a Warehouse
Ar chit ect ur e Décisionnelle
Dat a Mar t s
Administ r at eur
OLAP
Métadonnées
Bases
deproduct ion
Ut ilisat eurs EI S
Ut ilisat eur sRequêteurs
Ut ilisat eur s SI AD
Dat a Mining
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T59
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 59/60
Le s d iffé re n t e s t e c h n iq u e s d e r e s t i t u t io n :
La représent at ion car tograp h iqu e ou pa r color codin g
Les r equ êteu rs
Les ou tils gra ph iqu es d ’in terr oga tion s
Les ou tils EIS/ SIAD
Les Ou tils s ta tis t iqu es et le Data Min in g
d’ana lyse explo i ra to i re (techn iqu es s ta t is t iqu es, visu al isa t ion ,
rech erch e d’as s ocia tions , typologies, rés eau x de neu ron es )d ’a n a ly s e c o n fir m a t o ir e (techn iqu es de régress ions , de
segm enta t ion s , réseau x de n eurones )
d’an a lyse de m odè le s p réd ic t i fs (techn iqu es de régress ion s, de
segmen ta t ion s , réseau x de n eurones ).
Tou s les ou tils pou van t s yn th ét iser , explore r , c o n f i r m e r , exp l ique r ,
pr é d i r e les d on n ées son t d es ou tils de rest itu t ion
Les entrepôts de donnéesLes entrepôts de donnéesO. Boussaid. Octobre 2000T60
5/17/2018 dw_cours - slidepdf.com
http://slidepdf.com/reader/full/dwcours 60/60
Merci
pour vot r e at t ent ion