Upload
malough
View
216
Download
0
Embed Size (px)
Citation preview
7/29/2019 Cours_Entrepts_de_Donnes
1/45
Rpublique Tunisienne
Ministre de lEnseignement Suprieur
Institut Suprieur des Etudes Technologique de Kef
Support de Cours
Entrepts de Donnes
Mention : Technologies de lInformatique (TI)
Parcours : Dveloppement des Systmes dInformation (DSI)
Semestre : S5
Volume horaire : 22.5 h /semestre ( raison de 1.5h /semaine)
Coefficient : 1.5
Enseignante: Amira SEDIKI
Anne Universitaire 2011-2012
7/29/2019 Cours_Entrepts_de_Donnes
2/45
1
Prsentation du cours
Ce cours est conu comme une introduction linformatique dcisionnelle. Il prsente les
notions de base des entrepts de donnes ainsi que ceux de la fouille de donnes : ETL,Cube
de donnes, table de fait, table de dimension, datamarts, mta-donnes, ECD, apprentissage
supervis et non supervis. Les concepts seront illustrs par une application de la fouille de
donnes avec les arbres de dcisions.
Niveaux cibles :
tudiants de la troisime anne, Semestre 5, option DSI
Pr-requis :
Base de donnes, Mthodologies de Conception, Atelier Systme d'information
Formule pdagogique :
Expos informel
Moyens pdagogiques :
Tableau
Support de cours
Mthodologie :
Cours intgr
Travaux dirigs (ralisation et correction dexercices)
Volume Horaire :
22.5 heures de cours intgr
Objectifs Gnraux
- Dvelopper des habilets de construction d'un entrept de donnes
- Dvelopper les habilits d'analyse de donnes
Objectifs Spcifiques
- Comprendre l'importance de l'information dans les mtiers,
- analyser les limites des systmes de production existants pour les besoins en traitement de
l'information, notamment dans les applications dcisionnelles
- introduire le concept d'entrept de donnes comme une solution alternative et en dcrire les
proprits.
7/29/2019 Cours_Entrepts_de_Donnes
3/45
2
- Distinguer les diffrents niveaux de stockage de donnes qui composent une architecture
base d'entrept et comprendre les tapes de la construction de ces niveaux de stockage.
- Comprendre les concepts du modle de donnes multidimensionnel et introduire les
oprateurs sur des cubes multidimensionnels ;
- Comprendre les modles de donnes ROLAP et les difficults de cette modlisation
- Comprendre la notion d'information cache dans les donnes et les diffrents types
d'algorithmes pour fouiller les donnes et trouver de l'information.
Elments de Contenu
I- Objectifs des entrepts de donnes.
II- Architecture des systmes base d'entrepts de donnes et Technologies OLAP, ROLAP,
MOLAP
III- Modlisation multidimensionnelle et Mthodes de conception des entrepts.
IV- Objectifs de la fouille de donnes : application larbre de dcision
valuation : 1 test, 1 DS et un examen final crits
Bibliographie :
Cours de ESPINASSE B., Universit Aix-Marseille.
Han J., Kamber M., Data Mining: Concepts and Techniques , Morgan Kaufmann
Publishers, 2004.
Cours de PREU X Ph., U niversit de L ille 3.
7/29/2019 Cours_Entrepts_de_Donnes
4/45
3
T able des m atires
Chapitre 1 Introduction aux Entrepts de donnes ..................................................................51.1 Importance de linformation dans les mtiers ................................................................5
1.2 Informatique dcisionnel vs Informatique de production...............................................61.2.1. Informatique de Production...................................................................................61.2.2 Informatique Dcisionnel .......................................................................................7
1.3 Dfinition de data warehouse........................................................................................8Chapitre 2 Architecture des systmes base dentrept de donnes ......................................11
2.1. Les niveaux fonctionnels de larchitecture..................................................................112.2. Structure gnrale des donnes dun ED ....................................................................12
2.2.1 Axe historique et axe synthtique.........................................................................122.2.2 Les mta donnes .................................................................................................13
2.3. Architectures des serveurs OLAP...............................................................................162.3.1 Systmes MOLAP (Multidimensionnel OLAP)....................................................162 .3.2 Systmes ROLAP (Relationnal OLAP) ...............................................................162.3.3 Systmes HOLAP (Hybrid OLAP).......................................................................16
2.4. Alimentation dun Entrept de donnes......................................................................172.4.1. Slection des donnes sources.............................................................................172.4.2. Extraction des donnes........................................................................................172.4.3. Nettoyage et Transformation ...............................................................................182.4.4. Chargement.........................................................................................................19
2.5. Utilisation, exploitation..............................................................................................202.5.2 Agrgats et navigation..........................................................................................202.5.3 Visualisation ........................................................................................................21
Chapitre 3 Modlisation multidimensionnelle.......................................................................223.1. Concept de base de la modlisation multidimensionnelle ...........................................223.1.1 La notion de dimension ........................................................................................223.1.2. La notion de fait ..................................................................................................233.1.3 La notion de cubode............................................................................................233.1.4 Notion de Cube de donnes..................................................................................233.1.5 Notion de dimensions multi-niveaux ....................................................................243.1.6 Hirarchies de concepts dune dimension.............................................................25
3.2. Oprations sur le data cube ........................................................................................253.2.1 Opration Slice ....................................................................................................263.2.2 Lopration Dice ..................................................................................................26
3.2.3 Lopration Pivot .................................................................................................273.2.5 Lopration Drill-down ........................................................................................283.3. Conception dun entrept de donnes.........................................................................29
3.3.1 Approches de Conception.....................................................................................293.3.2 Schma Conceptuel dun entrept de donnes......................................................30
3.3.2.2 Schma en flocon ..........................................................................................323.3.2.3 Schma en constellation ................................................................................33
Chapitre 4 Introduction la fouille de donnes .....................................................................354.1 Dfinition de la fouille de donnes ? ...........................................................................354.2 Le processus ECD.......................................................................................................364.3 Mthodes de fouille de donnes ..................................................................................37
4.3.1 Apprentissage supervis et non supervis .............................................................374.3.2 Les arbres de dcision ..........................................................................................38
7/29/2019 Cours_Entrepts_de_Donnes
5/45
4
4.3.2.1 Problmes fondamentaux pour construire un arbre.........................................384.3.2.2 Lalgorithme ID3...........................................................................................404.3.2.3 Calcul de lentropie .......................................................................................404.3.2.4 Exemple de mise en oeuvre ...........................................................................41
7/29/2019 Cours_Entrepts_de_Donnes
6/45
5
Chapitre 1 I ntroduction aux E ntrepts dedonnes
Objectifs spcifiques
I ntroduire limpo rtance de linform ation dans les mtiers
Introduction des limites des systmes de production existants
I ntroduire le concept dentrept de donnes
E lments de contenu
I .Importance de linformation dans les mtiers
I I . Informatique dcisionnel vs Informatique de production
III. Dfinition de datawarehouse
Volum e H oraire :
Cours : 1,5 heures
T D : 0 heure
1.1 I mportance de linformation dans les mtiersLes socits de tlphone gardent au moins un an les positions gographiques et les
consommations de leurs abonns mobiles. Les grands magasins et les entreprises de vente par
correspondance (VPC) conservent les achats de leurs clients (tickets de caisse en grande
distribution, commandes en VPC), collectent des informations sur leurs clients grce des
systmes de cartes de fidlit ou de crdit, et achtent des bases de donnes gographiques et
dmographiques. Les sites web conservent des traces de connexions sur leurs sites marchands.
En rsum, les entreprises en secteur trs concurrentiel conservent les donnes de leur activit etachtent mme des donnes.
Les motifs qui ont prsid la conservation de ces donnes taient : des obligations lgales pour
pouvoir justifier les facturations, des raisons de scurit pour pouvoir dtecter les fraudes, des
motifs commerciaux pour suivre l'volution des clients et des marchs. Quelle que soit la raison
initiale, les entreprises se sont rendues compte que ces donnes pouvaient tre une source
d'informations leur service. Ce constat, valable pour les socits du secteur marchand, peut tre
7/29/2019 Cours_Entrepts_de_Donnes
7/45
6
tendu de nombreux domaines comme la mdecine, la pharmacologie. Il faut donc dfinir des
environnements permettant de mmoriser de grands jeux de donnes et d'en extraire de
l'information.
L es str uctures qui accueillent ce flo t im po rt ant de donnes son t des ent repts de donn es oudata
warehouse. Ils sont construits sur une nouvelle architecture bien diffrente de celle prvue pour
l'informatique de production, base elle sur des systmes de gestion de bases de donnes
relationnelles et des serveurs transactionnels.
U n entr ep t de donnes est construit en l'alim ent ant via les serveurs transactionnels de faon bien
choisie et rflchie pour permettre aux procdures d'extraction de connaissances de bien
fonctionner. L'organisation logique des donnes est particulirement conue pour autoriser des
recherches complexes.
1.2 I nformatique dcisionnel vs I nformatique de production
1.2.1. I nformatique de P roduction
Une des principales caractristiques des systmes de production est une activit constanteconstitue de modifications et d'interrogations frquentes des donnes par de nombreux
utilisateurs.
Exemple : ajouter une commande, modifier une adresse de livraison, rechercher les coordonnes
d'un client , ...
Conserver la cohrence (interdire la modification simultane d'une mme donne par deux
utilisateurs diffrents) de la base de donnes, est donc l'objectif et la difficult principale pour
l'informatique de production. Il s'agit donc de privilgier un enregistrement rapide et sr des
donnes.
Les systmes transactionnels (temps rel) OLTP (O n-L ine T ransacti on P rocessing) qui est la tche
pr incipale des SG BD , garant issent l 'in tgrit des donnes. Les ut ilisateurs accdent des lments
de la base par de trs courtes transactions indcomposables, isoles. L'isolation permet de
garantir que la transaction ne sera pas perturbe ni interrompue. La brivet garantit que les
temps de rpon se seront accept ables
7/29/2019 Cours_Entrepts_de_Donnes
8/45
7
La dernire caractristique de ces bases de donnes est qu'elles conservent l'tat instantan du
systme. D ans la plupart des cas, l'volut ion n 'est pas conserve. On conserve sim plement des
versions instantanes pour la reprise en cas de panne et pour des raisons lgales.
1.2.2 I nformatique D cisionnel
l'inverse de linformatique de production, les utilisateurs des systmes d'information de
dcision n'ont aucun besoin de modification ou d'enregistrement de nouvelles donnes. Ils vont
interroger le systme d'information et les questions poses seront par exemple de la forme
Exemple :
Q uelles son t les vent es du produit X pendant le trim estr e A de l'anne B dans la rgion C.
Comment se comporte le produit X par rapport au produit Y ?
E t p ar rappo rt l'anne dern ire ?
Quel type de client peut bien acheter mon produit Z ?
Une telle interrogation peut ncessiter des temps de calcul importants. Or, l'activit d'un serveur
transactionnel ne peut tre interrompue. Il faut donc prvoir une nouvelle organisation qui
permette de mmoriser de grands jeux de donnes et qui facilite la recherche d'informations ;
cest le systme OLAP (On-line Analytical Processing). L'existence d'un entrept simplifiera donc
la tche d'extraction de connaissances partir de donnes et permettra donc d'optimiser le temps
de dveloppement d'un p rojet de fo uille de donnes.
Il sera souvent ncessaire de filtrer, d'agrger, de compter, sommer et de raliser quelques
statistiques lmentaires (moyenne, cart-type,...). La structure logique doit tre prvue pour
rendre aussi efficace que possible toutes ces requtes. Pour y parvenir, on est amen introduire
de la redondance dans les informations stockes en mmorisant des calculs intermdiaires (dans
l'exemple, on peut tre amen stocker toutes les sommes de ventes par produit ou par anne).
O n rom pt donc avec le pr incipe de non redondance des bases de pro ductio n.
Si le critre de cohrence semble assur avec les techniques du transactionnel, cette cohrence est
toute relative. Elle se contrle au niveau de la transaction lmentaire mais pas au niveau global et
des activits de l'organisation. Pour les entrepts, on requiert une cohrence interprtable par
l'utilisateur. Par exemple, si les livraisons n'ont pas t toutes saisies dans le systme, comment
garantir la cohrence de l'tat du stock ? Autre, exemple, pour tablir un profil client ou tudier
les performances d'un magasin, toutes les donnes utiles le concernant doivent tre prsentes
dans le systme, ce que n'assure pas le serveur transactionnel mais que doit assurer le serveur
7/29/2019 Cours_Entrepts_de_Donnes
9/45
8
dcisionnel. Les entrepts de donnes assureront donc plutt une cohrence globale des
donnes.
Une dernire caractristique importante des entrepts, qui est aussi une diffrence fondamentale
avec les bases de production, est qu'aucune information n'y est jamais modifie. En effet, onmmorise toutes les donnes sur une priode donne et termine, il n'y aura donc jamais
remettre en cause ces donnes car toutes les vrifications utiles auront t faites lors de
l'alim ent ation. L 'utili satio n se rsume donc un chargement priodique, puis des interro gations
non rgulires, non prvisibles, parfois longues excuter.
En rsum, on peut justifier la construction d'un entrept de donnes par l'affirmation suivante :
Il est beaucoup plus simple de trouver une information pertinente dans une structure organisepour la recherche de connaissance.
1.3 D finition de datawarehouse
Le data warehousing dsigne les processus de construction et dutilisation des entrepts de
D onnes.
-D efin it ion : U n data warehouse est une col lection de donn es or ientes sujet, in tgres,
historises et persistantes, utilise pour le support dun processus daide la dcision. - W . H .
Inmon
7/29/2019 Cours_Entrepts_de_Donnes
10/45
9
Orientes sujets
O rganises aut ours de sujets prin cip aux (produit s, client s, ventes, etc.)
Pour la modlisation et lanalyse des donnes pour laide la dcision t raitement quot id ien des
tr ansactions ou oprations
Fournit une vue simple et concise auto ur dun sujet part iculier en excluant les don nes inut iles
pour le processus daide la dcision
Intgres
Requier t une in tgration de don nes sres, consistant es et com pltes
I nt gration de sources mult ip les et htrognes
BD relati onnelles, transactionnelles, orientes ob jets, f lat f iles, app licatio ns ddies...
D iverses sources (E x : diverses servi ces, agences, dpartement s, etc.)
T echn iques de n ett oyage et in tgration des donnes : Co nsistance ent re les diverses sources des
no ms, des uni ts de mesure, etc.
Historises
Po in t de vue de lent rept de don nes est plus tendu que celui de la BD oprationn elle
BD oprationn elle : valeur actuelle de la donne
Entrept de donnes : valeurs dune perspective historique (ex : derniers 5 ans)
T out es les struct ures de cls dun ent rept de donnes cont iennent une rfrence la date,
explicitement ou im plicitement
Persistantes
Stockage spar en mmoir e secondair e des donnes t ransfo rmes de la
BD oprationnelle
Pas de m ise jour en ligne dans un entrept de don nes
Pas besoin de mcanismes de traitement des transactions, rcupration et contrle
daccs concurrents
Oprations daccs : chargement initial des donnes, rafrachissement des donnes et
accs aux donnes
7/29/2019 Cours_Entrepts_de_Donnes
11/45
10
7/29/2019 Cours_Entrepts_de_Donnes
12/45
11
Chapitre 2 Architecture des systmes basedentrept de donnes
Objectifs spcifiques
I ntr odu ire L architecture des systmes base dentrept de donnes
Introduction des niveaux de stockage de donnes
Introduire les technologies des serveurs OLAP
E lments de contenu
I .Niveaux fonctionnels de larchitecture
I I . Structure gnrale des donnes dun ED
III. Architecture des serveurs OLAP
Volum e H oraire :
Cours : 6 heures
T D : 0 heure
2.1. Les niveaux fonctionnels de larchitecture
Les diffrents composants de larchitecture fonctionnelle dun systme base dentrept de
donnes sor ganisent en 3 n iveaux :
a. N iveau extraction de donnes :
7/29/2019 Cours_Entrepts_de_Donnes
13/45
12
Lopration dextraction de donnes concernent les bases de donnes oprationnelles (SGBD
traditionnel en OLTP) et les donnes externes. Cette opration se droule selon deux approches
possibles.
app roche push : dtect ion instantane des m ises jour sur les BD oprationnelles
pour intgration dans lentrept de donnes
app roche pul l : dtection priodique des m ises jour des BD oprat ionnelles po ur
intgration dans lED
b. N iveau fusion de donnes
L es com posant s de ce niveau permett ent de raliser essentiellement les tr ois tches suivant es
intgration des donnes provenant des diffrentes sources chargement et stockage des donn es dans la BD ent rept or ganise par sujets
rafr achissement au f ur et mesure des mises jour
c. N iveau exploitation de donnes
Cest le niveau qui permet de prsenter les donnes directement exploitables par lutilisateur final,
il offre au preneur de dcisions les oprations suivantes analyse et lexplor at ion des donnes ent reposes
formulation de requtes complexes afin de trouver des faits tudier, lanalyse de
tendance (courbes dvolution), extrapolation, dcouverte de connaissance
(rgles,cont raint es, )
pr sentations graph iques varies
2.2. Structure gnrale des donnes dun E D
2.2.1 Axe h istorique et axe synthtique
7/29/2019 Cours_Entrepts_de_Donnes
14/45
13
L es don nes dun E D se structurent selon 2 axes ; synthtique et histo rique :
A xe synthtique : tablit une hirarchie dagrgatio n comprenant :
- les donnes dtailles reprsentant les vnements les plus rcents au bas de la hirarchie
- les donnes agrges synthtisant les donnes dtailles les donnes fortement agrges
synthtisant un niveau suprieur les donnes agrges
Axe historique : comprenant les donnes dtailles historises reprsentant les vnements
passs
La description de toutes ces donnes (provenance, structure, mthode utilises pour lagrgation,
) constit ue les mta-donnes de lent rept.
2.2.2 Les mta donnes
Un annuaire spcialis conserve toutes les informations (les mtadonnes) au sujet du systme
d'information qui rgit l'entrept. Sans rfrentiel qui qualifie de faon prcise ce que signifie
chaque valeur dans la base, il n'est pas possible de conduire une analyse et interprter les rsultats.
C'est ce rle que joue l'annuaire des mtadonnes.
Cet annuaire cont ient :
D escription de la structure du D W
Schma, dimensions, hirarchies, dfinitions des donnes, et localisation et contenu des
data mart s
7/29/2019 Cours_Entrepts_de_Donnes
15/45
14
Mta-donnes dadministration
Historique de construction et transformation des donnes, statistiques dutilisation et
rapports derreurs
A lgorit hm es de gnralisatio n
Calculs des mesures, agrgations, partition, requtes et rapports prdfinis
M ta-don nes dintgration
BD s sour ces et leurs cont enus, descrip tion des passerelles, rgles dextr action , netto yage
et transformation des donnes, rgles de rafrachissement et scurit
D onnes lies aux perf ormances
Index, vues, algorithmes de compression et accs aux donnes, rgles de planification
des mises--jour
2.3. Composants logiciel dun Entrept de donnes
Sources de donnes:
- donnes sources gnralement modifies quotidiennement,
-issues de bases de donnes, fi chi ers plats, documents H T M L , bases de connai ssances,
-donnes en gnral htrognes
Serveur D W :
- L es entrep ts de donnes (D ata W arehouse):
7/29/2019 Cours_Entrepts_de_Donnes
16/45
15
Cont ient des donnes con cernant lensemb le des com posantes de l o rganisation
Plusieur s BD s oprationn els et sour ces ext rieur es ; plusieurs thmes
ncessitent de puissantes machines pour grer de trs grandes bases de donnes contenant des
donnes de dtail h istor ises
est le lieu de stockage centralis d'un ext rait des bases de production .
lorganisation des donnes est faite selon un modle facilitant la gestion efficace des donnes et
leur historisation.
- L es magasins de don nes (D ata M art s) :
U n sous-ensemble de lentrept global concernant un groupe spcif ique dutil isateurs
E x : data mart du service com mercial, data mart concernant le transpor t
sont de petits entrepts ncessitant une infrastructure plus lgre et sont mis en oeuvre plus
rapidement (6 mois environs)
conus pour laide la dcision partir de donnes ext raites dun ED plus consquent ou de
BD sources existantes
les donnes extraites sont adaptes pour laide la dcision (pour classe de dcideurs, usage
particulier, recherche de corrlation, logiciel de statistiques,...)lo rganisation des donnes est f ait e selon un m odle facilitant les tr aitements D cisionnels
- M ta donn es (M eta D ata) : donnes qui df inissent lent rept de donnes
Moteur danalyse en ligne (OLAP engine)
requtes interactives complexes sur ces volumes
catgorie de traitements ddis laide la dcision
donnes organises selon plusieurs axes danalyse et niveaux de dtail
les traitements permettent de changer interactivement de points de vue, changer de niveau de
dtail, effectuer les oprations OLTP classiques
G U I (I nterf ace util isateur) : O util s daide la dcision (analyse, requtes, rappor ts, fouille
de donn es, )
7/29/2019 Cours_Entrepts_de_Donnes
17/45
16
2.3. Architectures des serveurs O L AP
T rois types de systmes O L A P : M O LA P, RO L A P et H O L A P :
2.3.1 Systmes M O L AP (M ultidimensionnel OL AP)
-uti lisent pour stocker et grer les donnes de lED un SG BD M ultidim ensionnel ddis auxcalculs de cubes de donnes
les cub es de donnes im plant s com me des matr ices plusieurs dimensions
-ont des temps de rponse faibles du fait quils effectuent la pr-agrgation et le pr-calcul des
donnes sur tous les niveaux des hirarchies du modle de lentrept
T echn iques de com pr ession pour les m atr ices creuses
-gnrent de trs grands volumes dinfor mation
-les techniques incrmentales de rafrachissement associes sont encore limites, conduisant
reconstruire priodiquement lE D
-sont adapt s de petit s E D (quelques G o) et lo rsque le modle mult idim ensionn el ne change
pas beaucoup
A vantage : eff icacit de traitement des requtes
-produits : Essbase dAr bo Sof tware, Pilot de pilot Sof tw are, TM 1 dA pplix ,
2 .3.2 Systmes RO L AP ( Relationnal OL AP)
- utili sent pour sto cker les don nes de lE D un SG BD Relationnel le mot eur O L A P est un
lment supplmentaire fournissant une vision multidim ensionnelle de lE D (organis en toile
ou flocon)
- il ralise des calculs de donnes drivs et agrgations diffrents niveaux
- il gnre des requtes m ieux adapte au schma relationn el de lE D et qui t ire prof it des vues
matrialises existantes (facteur principal de performance)
A vantages : souplesse, volut ions faciles
A rchit ecture de loin la p lus populaire
-produit s : D SS A gent s de M icroStrategy, M etacube dI nf orm ix,
2.3.3 Systmes H O L AP (H ybrid OL AP)
- ut ili sent po ur stocker, grer les donnes dtailles un SGBD Relationnel et pour stocker, grerles don nes agrges un SG BD M ulti dim ensionnel
7/29/2019 Cours_Entrepts_de_Donnes
18/45
17
- permettent de grer de trs grande quantit de donnes et davoir des temps de rponses
acceptables en analyse OLAP
Avantages : quilibre entre la facilit dvolution et la rapidit de traitement des requtes
- pro duits : E xpress dOr acle, M icrosof t SQL Server 7.0 O L A P services, M edia/ M R deSpeedware, H olos de Seagate Technology,
2.4. Alimentation dun Entrept de donnes
L'alimentation est la procdure qui permet de transfrer des donnes du systme oprationnel
vers l'entrept de donnes en les adaptant. Comment alimenter, donc, lEntrept de Donne ?
Cest la problmatique de lETL (Extracting Transforming and Loading) quon peut rsumer
l'extraction des donnes, en accdant aux diffrentes bases et sources de donnes del'entreprise,
la transformation, en dveloppant les codifications, rsolvant les liens, changeant et
uniformisant les diffrents formats de fichiers d'origine dans un format unique
com patib le avec le datawarehouse,
le chargement, pour alimenter datawarehouses et datamarts, en contrlant la cohrence
des donnes.
E n f ait lalim ent ation de lED se droule en 4 tapes :
2.4.1. Slection des donnes sources
Q uelles don nes de pro ductio n faut-il slectionner pour alimenter lE D ?
Toutes les donnes sources ne sont forcment pas utiles E x : D oit-on pr endre l adresse complte ou
sparer le code postal ?
Les donnes slectionnes seront rorganises pour devenir des informations.
L a synthse de ces don nes sour ces a pour but de les enrichir .
L a dnorm alisation des don nes cre des liens entre les donnes et p ermet des accs dif f rent s
2.4.2. E xtraction des donnes
U n extracteur (w rapper) est associ chaque sour ce de donn es :
Il slectionne et extrait les donnes. En fait, la prparation des donnes consiste dans un premier
temps obtenir des donnes en accord avec les objectifs que l'on s'impose. Ces donnes
7/29/2019 Cours_Entrepts_de_Donnes
19/45
18
prov iennent le plus souvent de bases de production o u d'entr epts. Les donnes sont str uctures
en champs typs (dans un dom aine de df ini tio n).
Par la suite lextracteur, formate les donnes dans un format cible commun qui est en gnral le
modle Relationn el.L es interfaces comm e OD B, O CI , JD BC sont souvent ut ilises durant ce pro cessus.
2.4.3. N ettoyage et T ransformation
Objectifs du nettoyage : rsoudre le problme de consistance des donnes au
sein de chaque source
Objectifs de la transformation : Suppression des incohrences smantiques
entre les sources pouvant survenir lors de lintgration des schmas et des
donnes
L'tude des besoins a dtermin le contenu de l'entrept en partant des desiderata des
util isateurs. N anm oin s, la form e, le cont enu des donnes de production ne conv ient pas
toujours immdiatement au format choisi pour les donnes de l'entrept. Par consquent, des
transformations sont souvent ncessaires.
Format
Le format physique des donnes provenant de la production peut ne pas tre adquatavec le systme hte de l'entr ept . D es tr ansfo rm ation s de type son t parf ois ncessaires
(Systme I BM vers systme U nix ...). Les donnes pouvant pr ovenir de serveurs dif f rents
dans des services diffrents, il est ncessaire d'uniformiser les noms et les formats des
donnes manipules au niveau de l'entrept.
Consolidation
Selon les choix des units pour les dimensions, des oprations de consolidation devront
accompagner le chargement des donnes (par exemple sommer les ventes pour obtenir et
enregistrer un total par jour et non pas toutes les transactions).
U nif orm isation d'chelle
Pour viter de trop grandes dispersions dans les valeurs numriques, une
ho mognisat ion des chelles de valeurs est ut ile. N e pas la raliser peut pnaliser les
outils d'analyse et de visualisation et peut-tre simplement remplir inutilement les disques.
Autres
7/29/2019 Cours_Entrepts_de_Donnes
20/45
19
D es tr ansformations qui permettent de mieux analyser les don nes son t aussi ralises
pendant la phase de chargement. Par exemple, la transformation de la date de naissance
en ge, assure une plus grande lisibilit des donnes et permet de pallier les problmes
apparus avec l'introduct ion de la dim ension t emps.
M algr les eff or ts raliss pour assurer l'in tgrit des donnes de product ion , des erreurs peuvent
survenir, en particulier, lorsque les donnes proviennent de sources diffrentes (par exemple, il
est frquent qu'un mme client soit mmoris plusieurs fois sur diffrents serveurs). Parmi les
points vrifier, on peut citer:
Erreurs de saisie
D es doublons son t p rsents mais son t inv isibles ; cause des fautes de f rappe: (M arcel
dupont; 3,rue verte; Lille) et (Marcel dupond; 3,rue verte; Lille) sont certainement un seulet mme client ; plusieurs membres d'un mme foyer peuvent tre prsents ; ...
I ntgrit de domaine
U n cont r le sur les domaines des valeurs permet de retrouver des valeurs aberrant es. D e
faon plus gnrale, des valeurs douteuses peuvent se rencontrer, comme par exemp le des
dates au 11 novembre 1911 (11/ 11/ 11) ou 1 janvier 1901 (01/ 01/ 01).
Informations manquantes
D es champs impor tant s pour lesquels aucune valeur n 'a t saisie peuvent pnaliser le
processus de dcouvert e d'inform atio n, ou b ien encore avoi r une signif icatio n part iculire
(ex: dtection de fraudes). Il est parfois important d'insrer des valeurs par dfaut
signif icatives (com me N U LL ) plutt que de laisser ces donnes vides.
Il convient de noter que les sources des donnes alimentant un entrept peuvent tre
htrognes. Les bases de production peuvent tre nombreuses, diffrentes et dlocalises
gograph iquement. D es f ich iers peuvent tre achetes aupr s d'ent repr ises qui se son t spcialisesdans la constitution et la revente de fichiers qui vont aussi entrer dans le processus d'alimentation
de l'entrept. Les suites logicielles d'accompagnement d'entrepts de donnes contiennent des
outils susceptibles d'aider dvelopper des procdures d'alimentation qui prennent en compte ces
problmes de vrification et de normalisation.
2.4.4. Ch argem ent
Objectif : charger les donnes nettoyes et prpares dans lED
Cest une opration qui risque dtre assez longue plutt mcanique et la moins complexe.
7/29/2019 Cours_Entrepts_de_Donnes
21/45
20
Il est ncessaire de dfinir et mettre en place : des stratgies pour assurer de bonnes conditions
sa ralisation une politique de rafrachissement.
2.5. U tilisation, exploitation
L'alimentation des entrepts s'accompagne, aprs validation, de l'dition automatique destableaux de bord les plus courants. Ils sont prdfinis, raliss par le service informatique, et sont
le reflet d'un besoin explicitement demand au moment de la conception. Souvent, ils sont
insuffisants lorsqu'une anomalie est dtecte ou lorsqu'un nouveau besoin s'exprime. L'utilisateur
final doit alors pouvoir interroger les donnes en ligne l'aide d'outils simples et conviviaux. Ces
outils commencent se gnraliser. Les diteurs les nomment (ou les classent) : reporting tools,
managed queries, Executive Information Systems (EIS), OLAP tools (Online analytical
Processing), ...bien que les diffrences entre tous ces systmes ne soient pas toujours trs nettes.
2.5.1 R equtes
N ous prsentons ici les out ils destin s l'uti lisateur f inal qui perm ett ent d'extraire des donnes de
l'entrept.
L es outils de cration de rappo rt (repor ting to ols) extr aient les don nes et pr opo sent une mise en
for me destin e la diff usion : par im pression ou par des services int ernet ou int ranet. I ls sont trs
utiliss pour gnrer des tableaux de bord conventionnels, qui sont souvent composs et diffussautomatiquement et priodiquement sans demande spcifique des utilisateurs. Lorsque leur
intgration dans le systme d'information est russie, ils mettent en vidence la structure
multidimensionnelle et prsentent les agrgats, supportent la navigation. Ils sont accessibles aux
utilisateurs finals pour crer de nouveaux tableaux de bord.
Les progiciels (ex : SAS) dans ce domaine ont ralis une perce importante. Ils sont souvent
qualifis de EIS tools et ajoutent des analyses classiques et paramtrables pour les ventes, les
achats ou la finance par exemple.L es outil s les plus adapt s sont cert ainement les out ils O L A P.
2.5.2 Agrgats et navigation
L'opration de navigation (ou forage) permet d'obtenir des dtails sur la signification d'un rsultat
en affinant une dimension ou en ajoutant une dimension. Elle apparat dans de nombreux outils
et doit (parce qu'elle est souvent coteuse) tre intgre dans le systme. Pour illustrer le forage,
supposons qu'un utilisateur final demande les chiffres d'affaires par produit, et s'tonne d'un
rsultat pour un produit donn. Il aura srement l'envie d'en analyser les raisons. Une solution
7/29/2019 Cours_Entrepts_de_Donnes
22/45
21
consisterait ajouter la dimension temps, dans l'unit de temps trimestrielle pour trouver une
variation saisonnire, dans l'unit hebdomadaire pour envisager l'effet week-end, ou encore la
dim ension magasin pour m ett re en vidence un eff et gograph ique.
Pour des raisons de performance, il est utile de prcalculer et prenregistrer dans l'entrept desagrgations de donnes. On peut toutefois noter que des machines sont parfois ddies leur
excution et leur d if f usion : ce sont desserveurs d'agrgats.
Pour expliquer un rsultat, il est parfois ncessaire de le comparer avec d'autres faits. Par
exemple, la baisse des vent es pour le mois de janv ier peut s'expl iquer p ar une baisse des achats ou
une rupture de stock. Si l'entrept est conu pour suivre les ventes et les achats ou le stock, et si
les dimensions selon lesquelles ces trois faits sont suivis sont identiques, on doit pouvoir raliser
un rapport unique. On parle alors de forage transversal ou drill across. C'est une opration qu'il fautraliser avec beaucoup de soins car mett re en oeuvr e une requte sur plusieurs tables de f ait s peut
se rvler irralisable. Engage sans prcautions, la requte va gnrer une table intermdiaire
norme qui sera le produit cartsien entre les deux tables de faits.
2.5.3 Visualisation
Les outils de visualisation sont trs importants dans le processus de dcision et peuvent intervenir
plusieurs niveaux. Ils sont utiles pour
- dcouvrir de nouvelles informations, parce qu'une reprsentation permet de reprer plus
sim plement des singulari ts, des anomalies ;
- prsenter des rsultats, dans l'optique d'une large diffusion, parce qu'un graphique est plus
accessib le qu'un tableau de chif f res ;
- reprsenter un modle issu d'une opration de fouille de donnes (reprsenter un arbre de
dcision, un ensemble des rgles, un rseau de neurones...).
D ans le premier cas, ils son t int grs dans les out ils d'analyse et doivent suppor ter des opratio nscomme comparer, modifier les chelles, retrouver les donnes correspondant un point ou un
objet trac, zoomer sur des rgions ou des sous-ensembles et enfin permettre la navigation (drill-
up, drill down).
7/29/2019 Cours_Entrepts_de_Donnes
23/45
22
Chapitre 3 M odlisation m ultidim ensionnelle
Objectifs spcifiques
Comprendre les concepts du modle de donnes multidimensionnel
Introduire les oprateurs sur des cubes multidimensionnels
Introduire les schmas de Conception logique
E lments de contenu
I .Concepts de base de la Modlisation Multidimensionnelle
I I . Opration sur les data cubeIII. Schma de conception dun ED
Volum e H oraire :
Cours : 5 heures
T D : 3 heure
3.1. Concept de base de la m odlisation m ultidimensionnelle
L a modlisation multidim ensionnelle consiste considrer un sujet analys com me un po int dans
un espace plusieurs dimensions. Les donnes sont organises de manire mettre en vidence
le sujet analys et les diffrentes perspectives de l'analyse.
Cette conception est bas sur un modle multi-dimensionnel des donnes qui voit les donnes
sous la forme dun data cube (cube de donnes)
3.1.1 La notion de dimensionU n D ata cube : permet de modliser et v isualiser l es donnes selon di f f rent es dim ension s ; les
dimensions constituent donc les points de vues depuis lesquels les donnes peuvent tre
observes
Chaque dimension est reprsente par une table
E x : L ocalisation (ville, dpartement , pays, rgion ),
Produit (article, type,catgorie),
7/29/2019 Cours_Entrepts_de_Donnes
24/45
23
D ate (jour , semaine, mois, trimest re, anne)
3.1.2. La notion de fait
Le Thme central est reprsent par une table de faits.Cette Table de faits contient les valeurs des
mesures et des cls vers les tables de dimensions
- La valeur dune mesure est le rsultat dune opration dagrgation des donnes
Ex : montant_ventes, quantit_vendue
Les cls des tables de dimension sont en gnral construites automatiquement3.1.3 L a notion de cubode
Lensemble des valeurs dune mesure pour une combinaison de valeur des dimensions constitue
un cubode
Exemple:
entrept de donnes des ventes lectroniques dune socit.
Montants des ventes sur lanne par type darticle, par ville et par mois
Une valeur est associe chaque combinaison type ville mois
D im ensions : Produit (t ype), Localisatio n (vil le) et D ate (mois)
3.1.4 N otion de Cub e de donnes
Un Cube est un treillis de cubodes.
7/29/2019 Cours_Entrepts_de_Donnes
25/45
24
Exemple :
3.1.5 N otion de dim ensions multi-niveaux
Pour chaque dim ension, on dfin it dif f rent s niveaux dabstr action / spcialisation
Lors du processus OLAP, les donnes sont gnralement analyses en partant d'un faible niveau
de dtail vers des donnes plus dtailles pour "forer vers le bas". Pour dfinir ces diffrents
niveaux de dtail, chaque dimension est munie d'une (ou plusieurs) hirarchie(s) de paramtres.
L a hirarchie reprsent par les tables de dimensions :
-sert lo rs des analyses pour restr eindre ou accro tre les niveaux de dtail de l'analyse
organise les paramtres d'une dimension conformment leur niveau de dtail. Ces paramtres
seront donc ordonns par une relation hirarchique "est_plus_fin"
On dfinit donc la granularit dune dimension comme tant le nombre de niveaux dabstraction
Exemple :
7/29/2019 Cours_Entrepts_de_Donnes
26/45
25
3.1.6 H irarchies de concepts dune dimension
U n Concept est une valeur corr espon dant un n iveau dabstraction
Exemple : dimension Localisation
3.2. Oprations sur le data cube
Considron s lexemple cubode suivant ; no us pouvon s y ef fectuer plusieurs Oprations de
manipulatio n int eractive des cubodes
7/29/2019 Cours_Entrepts_de_Donnes
27/45
26
3.2.1 O pration Slice
Elle consiste en une slection sur une dimension du cube
E x : 3me tr im est re sur la d im ension D ate pour
visualiser les ventes par L ocalisatio n et Produit durant ce tr im estre
3.2.2 Lopration D ice
E lle consiste en la df init ion dun sous-cube par slectio n sur deux (ou p lus)dim ensions
7/29/2019 Cours_Entrepts_de_Donnes
28/45
27
E x : cr it re (Localisation = Paris v Rome) et (D ate = 1er t r im estre v 2metr im estr e) et (Pr oduit
= I nfor matique v T lphonie)
3.2.3 Lopration Pivot
E lle permet une prsent ation alternative du cube
T ransfor mation en une srie de plans 2D
Renversement du cube sur un ou p lus axes pour une vision alternative
E x : renversement sur l axe D ate
3.2.4 L opration R oll-up
7/29/2019 Cours_Entrepts_de_Donnes
29/45
28
Elle permet une gnralisation du cube ; elle consiste :
Supprimer une dimensionou
Rem on ter dans une hirarch ie de con cept s dune dimension
Ex : remonter du niveau
Trimestre au niveau
Semestre pour D ate
3.2.5 L opration D rill-down
Elle a pour rle la spcialisation du cube. Elle consiste
A jo ut er une dimension
E x : dimension T ypeClient
ou
D escendre dans une hirarch ie de concept s
7/29/2019 Cours_Entrepts_de_Donnes
30/45
29
Ex : descendre du niveau Catgorie au niveau Type pour Produit
3.3. Conception dun entrept de donnes
3.3.1 Approches de Conception
I l existe tr ois t ypes dapp roches : A pproche haut-b as, bas-haut ou unecombinaison des deux :
H aut-bas : dbuter par le plannin g et la concept ion du modle (matur e)
Bas-haut : dbuter p ar des essais et des pro totypes (rapide)
D u poin t de vue de lingnierie du lo giciel ceci consiste app liquer les modles decycle de vie suivants :
Cascade : analyse str uct ure et systmat ique lors de chaque tape avant de passer la suivante
Spir ale : gnrat ion rapide de systmes fonct ionnels croissants; modi f icat ions rapides et
adapt atio n du modle f acile
Le Processus de conception dun entrept de donnes inclut les tapes suivantes
7/29/2019 Cours_Entrepts_de_Donnes
31/45
30
Choix du pr ocessus modliser, ex : commandes, ventes, l iv raison
Choix du grain (niveau de dtail des donn es) po ur le p rocessus
Choix des dim ensions pour chaque table de f aits
- Choix des mesures stockes dans les tables de faits
3.3.2 Schma Conceptuel dun entrept de donnes
La conception dun entrept de donnes un modle au niveau logique qui soit concis et orient
sujet diff rent don c dumodle entits-relations. Trois types de schma existent :
3.3.2.1 Schma en toile
Caractristiques du schma en to ile :
str ucture sim ple util isant le mo dle ent it-relation
une ent it cent rale : la table des f ait s :
objets de l'analyse
taille trs importante
nombreux champs
des entit s priphriques : les tables de dim ension s :
dim ensions de l'analyse
taille peu imp ort ante
peu de champs
E x empl e 1 : V entes de mdicaments dans des pharmacies
7/29/2019 Cours_Entrepts_de_Donnes
32/45
31
Schma en toile modlisant les analyses des quantits et des montants des mdicaments dans les
pharmacies selon 3 dimensions : le temps, la catgorie et la situation gographique
Table de faits : V ente
T ables de dim ension : T emps, C atgori e, G ographie
E x emple 2 : V entes d" art icles dans un supermarch
Associ lexemple 2 :
un f ait
il a t achet 3 exemplaires 1 euro
du produit pid3
par le client cid1
la date did3
dans le magasin mid2
dans le chariot cid8
correspondant la prom otion p rid1
7/29/2019 Cours_Entrepts_de_Donnes
33/45
32
un lment de la dimension location :
stor e id m id2
stor e name ron dpoint
city blois
region centre
country France
3.3.2.2 Schma en flocon
U n m odle en f locon est une volution du schma en toi le avec :
une dcomposition des dimensions du modle en toile en sous hirarchies.
le fait est conserv et les dimensions sont clates conformment sa hirarchie des
paramtres
cela conduit une normalisation des tables de dimensions : structure hirarchique des
dim ensions et un n iveau in frieur ident if ie un n iveau suprieur
Les avantages de cette modlisation sont:
f ormaliser une hirarchie au sein d'une dim ension.
maintenance des tables de dimensions simplifie
rduction de la redondance
L es inconvnient de cett e mo dlisatio n :
induit une dnormalisation des dimensions gnrant une plus grande complexit en
termes de lisibilit et de gestion.
navigation coteuse
E x empl e : V entes de mdicament dans des phar macies
7/29/2019 Cours_Entrepts_de_Donnes
34/45
33
Chaque dimension du schma en toile prcdent est dnormalise, formant ainsi une sorte de
flocon
3.3.2.3 Schma en constellation
Peut-tre vu comme une collection dtoiles (schma en galaxie ou constellation de faits)
Un modle en constellation :
f usionne plusieurs modles en to ile qui ut ilisent des dim ensions comm unes.
comprend en consquence plusieurs faits et des dimensions communes ou non
E x empl e : V entes de mdicament dans des phar macies
7/29/2019 Cours_Entrepts_de_Donnes
35/45
34
une constellation est constitue de 2 schmas en toile :
- l'un corr espond aux ventes eff ectues dans les pharmacies et
- l'autre analyse les pr escrip t ion s des mdecins
les dimensions Temps et Geographie sont partages par les faits Prescriptions et Vente.
7/29/2019 Cours_Entrepts_de_Donnes
36/45
35
Chapitre 4 I ntroduction la fouille de donnes.
Objectifs spcifiques
Introduire les objectifs de la fouille de donnes
Introduire la mthode des arbres de dcision
E lments de contenu
I . D finiti on de la fouille de donnes
I I . Le processus E CD
III. Mthodes de fouille de donnes
Volum e H oraire :
Cours : 5,5 heures
T D : 1,5 heure
4.1 D finition de la fouille de donnes
L a fouil le de don nes consiste rechercher et ext raire de l'inf ormation (utile et incon nue) de gros
volumes de donnes stockes dans des bases ou des entrepts de donnes. Le dveloppement
rcent de la fouille de donnes (depuis le dbut des annes1990) est li plusieurs facteurs : une
puissance de calcul importante est disponible sur les ordinateurs de bureau ou mme domicile ;le volume des bases de donnes augmente normment ; l'accs aux rseaux de taille mondiale,
ces rseaux ayant un dbit sans cesse croissant, qui rendent le calcul distribu et la distribution
d'information sur un rseau d'chelle mondiale viable ; la prise de conscience de l'intrt
commercial pour l'optimisation des processus de fabrication, vente, gestion, logistique, ...
La fouille de donnes a aujourd'hui une grande importance conomique du fait qu'elle permet
d'optimiser la gestion des ressources (humaines et matrielles). Elle est utilise par exemple:
organisme de crdit : pour dcider d'accorder ou non un crdit en fonction du profil dudemandeur de crdit, de sa demande, et des expriences passes de prts
D finition
L a Fouille de donnes (D ata M ining) est:
Un ensemble de techniques d'exploration de donnes permettant d'extraire d'une base de
donnes des connaissances sous la forme de modles de descrip tion af in de :
dcrir e le compor tement actuel des donn es et/ ou prdire le comportement futur des donnes
7/29/2019 Cours_Entrepts_de_Donnes
37/45
36
4.2 Le processus E CD
Le processus dextraction de connaissances partir de donnes est reprsent par le schma ci
dessous
En fait, Le data mining est lun des maillons de la chane de traitement pour la
dcouverte des connaissances partir des donnes. Sous forme image, nous pourrions dire
que lECD est un vhicule dont le data mining est le moteur.
LECD est un processus complexe qui se droule suivant une suite doprations. Des
tapes de prtraitement ont lieu avant le data mining proprement dit. Le prtraitement
porte sur laccs aux donnes en vue de construire des datamarts , des corpus de
donnes spcifiques. Le prtraitement concerne la mise en forme des donnes entres selon
leur type (numrique, symbolique, image, texte, son), ainsi que le nettoyage des donnes, le
traitement des donnes manquantes, la slection dattributs ou la slection dinstances.
Cette premire phase est cruciale car du choix des descripteurs et de la connaissanceprcise de la population va dpendre la mise au point des modles de prdiction.
Linformation ncessaire la construction dun bon modle de prvision peut tre
disponible dans les donnes mais un choix inappropri de variables ou dchantillons
dapprentissage peut faire chouer lopration.
7/29/2019 Cours_Entrepts_de_Donnes
38/45
37
4.3 M thodes de fouille de donnes
4.3.1 Apprentissage supervis et non supervis
Lune des classifications possibles des mthodes de fouille de donnes est la classification selon le
typ e dappr ent issageT ypes d'apprent issage util iss dans les mthodes de fouille :
A pprent issage superv is - Foui lle supervise :
- processus dans lequel l'apprenant reoit des exemples d'apprentissage comprenant la fois
des donnes d'ent re et de sor t ie
- les exemples dapprentissage son t fo urn is avec leur classe (valeur de sor ti e prdit e)
- But : classer correctement un nouvel exemple (gnralisation)
- util ises prin cipalement en classif icat ion et prdiction
Apprentissage non supervis - Fouille non supervise :
- pr ocessus dans lequel l'apprenant reoit des exemples d'app rent issage ne com pr enant que des
donnes d'entre
- pas de notion de classe
- But : regrouper les exemples en paquets (clusters) dexemples similaires (on peut ensuite
don ner un nom chaque paquet)
- utilis principalement en association et segmentation
Quelques mthodes de fouille de donnes classifies selon le type dapprentissage et selon
lobjectif
7/29/2019 Cours_Entrepts_de_Donnes
39/45
38
4.3.2 Les arbres de dcision
- Objectif gnral :
A partir dun ensemble de valeurs d'attributs (variables prdictives ou variable endognes)
il sagit de prdire la valeur d'un autre attribut (variable cible ou variable exogne)
- une des mthodes supervise (apprentissage) les plus connues de classification et de
prdiction
- un arbre est quivalent un ensemble de rgles de dcision : grande explicabilit du modle
- un arbre est compos :
de noeuds = classes d'individusde plus en plus fine depuis la racine
darcs = prdicats de partitionnementde la classe source
- algorit hm es dappr ent issage darbre : I D 3 [Q uilan 79], CA RT [Br ieman et al.84],
4.3.2.1 Problmes fondamentaux pour construire un arbre
a) Critre de choix de lattribut
- Si y est l'attribut dont la valeur prdire partir des valeurs des attributs prdictifs xi : choisir
l'att ribut don t la valeur a le plus d'inf luence sur celle de y
- Plusieurs techniques provenant de la th or ie de l'inf ormation de Shannon :
Ratio du Gain ou de lEntropie (algo ID3, C5, )
7/29/2019 Cours_Entrepts_de_Donnes
40/45
39
indice de G ini (algo CA RT)
X 2
Ratio du gain / entro pie
- On parle de gain d'information ou d'entropie (concepts inverses)
- On va chercher choisir l'attribut qui va induire le gain d'information le plus lev (ou dont
l'ent ropie est la plus basse)
- I ntui ti vement, l 'ent rop ie mesure le degr de dsordr e qui restera si o n dcoupe selon cet att ribut
-> entrop ie la plus basse est la meilleure
-D onc po ur chaque att rib ut candidat, on va calculer son ent rop ie et on cho isit celui qui a
l'ent ropie la plus basse.b) Affectation d'un label une feuille : O n aff ecte la modalit la plus fr quent e.
c) Arrt de la segmentation : D if frentes techniques:
pre-pruning:
On arrte l'expansion de l'arbre selon certains critres:
- profondeur maximale
- ef fectif de chaque sous-groupe: on f ixe un seuil (souvent empir iquement)
- on calcule des mesures comme pour le choix de l'attribut de segmentation (gain
d'information, X2,...) auquel on associe un seuil en dessous duquel la segmentation sera
refuse
post-pruning:
On laisse l'arbre se construire jusqu'au bout
On lague larbre en retirant des sous-arbres :
- l'aide d'h euristiques ou
- grce l'int ervent ion d'un expert,
- l'arbre est lagu tant que l'erreur de l'arbre lagu reste infrieure celle de l'arbre non
lagu.
- le noeud duquel on a retir un sous-arbre devient une feuille et porte le label de la valeur la
plus frquente du sous-arbre
7/29/2019 Cours_Entrepts_de_Donnes
41/45
40
d) Choix des bornes de discrtisation :
- O n f ixe les valeurs cand idates com me les valeurs au m ilieu de 2 valeurs conscutives : ex: 35, 45,
52... -> 40, 48.5
- Puis on calcule vent uellement la meilleure valeur parm i celles l grce des mesures telles que :le gain, ...
4.3.2.2 L algorithme I D 3
Soit : Classe C : valeur d 'at tr ibut prdire (ex: C1: risque = lev, C2: risque = f aib le)
tuples : ensemble des tuples de l'chantillon, liste_attributs: ensemble des attributs
Pr ocdur e G nrer_ arbre_ dcision
Crer un noeud N
si tuples est vide alors
retourner une feuil le portant le label " F ail ure"
si tuples sont dans la mme classe C alors
retourner N avec comme label C
si l iste_ attri buts = vide alors
retourner N avec comme label le nom de la classe la plus
frquente dans l'chantillon
Choisir lattribut a le plus discriminant parmi liste_attributs
A ffecter le label a au noeud N
Pour chaque valeur ai de a :
crer une branche issue du noeud N avec condit ion a s= ai
Soit ti l'ensemble des lments tuples vrifiant cette condition
A tt acher le noeud retour n par
Gnrer_arbre_dcision(ti, liste_attributs a)
4.3.2.3 Calcul d e lentropie
E nt rop ie = Q uant it d'info rm atio n ncessaire pour classif ier l'exemp le
Soit S un ensemble de s tuples
7/29/2019 Cours_Entrepts_de_Donnes
42/45
41
Soit C comprenant m valeurs dif f rentes, df in issant Ci classes (i = 1,...,m)
Soit si le nombre de tuples de S appartenant Ci :
I(s1,...sm) = quantit d'information ncessaire pour classifier l'ensemble des tuples
I(s1,...sm) = - (i=1..m) pi log2(pi)
- pi: probabilit qu'un tuple appartienne Ci
- p i= si / s
E ntrop ie de l'attribut A = E(A ) :
Soit A un attr ibut candidat possdant v valeurs { a1 ,..., av} .
A perm et de part ionner l'ensemble S en v sous-ensembles { S1,..., Sv}
Si comprend les tuples ayant la valeur ai pour A
Soit sij le nombre de tuples du sous-ensemble Sj appartenant Ci
4.3.2.4 Exemple de mise en oeuvre
Entropie de l'attribut Couleur?C1: carr ; C2: triangle
E(A) (S1j...Sij). I(S1j,...,Sij)
(j
1..v)Pour couleur = rouge (i= carr ou triangle?, j=rouge) :
7/29/2019 Cours_Entrepts_de_Donnes
43/45
42
s11= scarr/rouge= 3 ; s21= striangle/rouge= 2I(s11,s21) = I(3,2) = -3/5 log23/5 - 2/5 log22/5 = 0,971
Pour couleur = vert :s12= scarr/vert= 2 ; s22= striangle/vert= 3I(s12, s22) = I(2,3) = -2/5 log22/5 - 3/5 log23/5 = 0,971
Pour couleur = jaune :s13= scarr/jaune=4 s23= striangle/jaune=0I(s13,s23)=I(4,0)= -4/4 log24/4 - 0/4 log20/4 = 0
E (couleur) = 5/14 I(s11,s21) + 5/14 I(s12, s22) + 4/14 I(s13,s23) = 0,694
Gain (couleur) = 0,940 0,694 = 0,246
E tape suivante
E tape suivante
7/29/2019 Cours_Entrepts_de_Donnes
44/45
43
E tape suivante
E tape fin ale
7/29/2019 Cours_Entrepts_de_Donnes
45/45