Cours_Entrepôts_de_Données

  • Upload
    malough

  • View
    216

  • Download
    0

Embed Size (px)

Citation preview

  • 7/29/2019 Cours_Entrepts_de_Donnes

    1/45

    Rpublique Tunisienne

    Ministre de lEnseignement Suprieur

    Institut Suprieur des Etudes Technologique de Kef

    Support de Cours

    Entrepts de Donnes

    Mention : Technologies de lInformatique (TI)

    Parcours : Dveloppement des Systmes dInformation (DSI)

    Semestre : S5

    Volume horaire : 22.5 h /semestre ( raison de 1.5h /semaine)

    Coefficient : 1.5

    Enseignante: Amira SEDIKI

    Anne Universitaire 2011-2012

  • 7/29/2019 Cours_Entrepts_de_Donnes

    2/45

    1

    Prsentation du cours

    Ce cours est conu comme une introduction linformatique dcisionnelle. Il prsente les

    notions de base des entrepts de donnes ainsi que ceux de la fouille de donnes : ETL,Cube

    de donnes, table de fait, table de dimension, datamarts, mta-donnes, ECD, apprentissage

    supervis et non supervis. Les concepts seront illustrs par une application de la fouille de

    donnes avec les arbres de dcisions.

    Niveaux cibles :

    tudiants de la troisime anne, Semestre 5, option DSI

    Pr-requis :

    Base de donnes, Mthodologies de Conception, Atelier Systme d'information

    Formule pdagogique :

    Expos informel

    Moyens pdagogiques :

    Tableau

    Support de cours

    Mthodologie :

    Cours intgr

    Travaux dirigs (ralisation et correction dexercices)

    Volume Horaire :

    22.5 heures de cours intgr

    Objectifs Gnraux

    - Dvelopper des habilets de construction d'un entrept de donnes

    - Dvelopper les habilits d'analyse de donnes

    Objectifs Spcifiques

    - Comprendre l'importance de l'information dans les mtiers,

    - analyser les limites des systmes de production existants pour les besoins en traitement de

    l'information, notamment dans les applications dcisionnelles

    - introduire le concept d'entrept de donnes comme une solution alternative et en dcrire les

    proprits.

  • 7/29/2019 Cours_Entrepts_de_Donnes

    3/45

    2

    - Distinguer les diffrents niveaux de stockage de donnes qui composent une architecture

    base d'entrept et comprendre les tapes de la construction de ces niveaux de stockage.

    - Comprendre les concepts du modle de donnes multidimensionnel et introduire les

    oprateurs sur des cubes multidimensionnels ;

    - Comprendre les modles de donnes ROLAP et les difficults de cette modlisation

    - Comprendre la notion d'information cache dans les donnes et les diffrents types

    d'algorithmes pour fouiller les donnes et trouver de l'information.

    Elments de Contenu

    I- Objectifs des entrepts de donnes.

    II- Architecture des systmes base d'entrepts de donnes et Technologies OLAP, ROLAP,

    MOLAP

    III- Modlisation multidimensionnelle et Mthodes de conception des entrepts.

    IV- Objectifs de la fouille de donnes : application larbre de dcision

    valuation : 1 test, 1 DS et un examen final crits

    Bibliographie :

    Cours de ESPINASSE B., Universit Aix-Marseille.

    Han J., Kamber M., Data Mining: Concepts and Techniques , Morgan Kaufmann

    Publishers, 2004.

    Cours de PREU X Ph., U niversit de L ille 3.

  • 7/29/2019 Cours_Entrepts_de_Donnes

    4/45

    3

    T able des m atires

    Chapitre 1 Introduction aux Entrepts de donnes ..................................................................51.1 Importance de linformation dans les mtiers ................................................................5

    1.2 Informatique dcisionnel vs Informatique de production...............................................61.2.1. Informatique de Production...................................................................................61.2.2 Informatique Dcisionnel .......................................................................................7

    1.3 Dfinition de data warehouse........................................................................................8Chapitre 2 Architecture des systmes base dentrept de donnes ......................................11

    2.1. Les niveaux fonctionnels de larchitecture..................................................................112.2. Structure gnrale des donnes dun ED ....................................................................12

    2.2.1 Axe historique et axe synthtique.........................................................................122.2.2 Les mta donnes .................................................................................................13

    2.3. Architectures des serveurs OLAP...............................................................................162.3.1 Systmes MOLAP (Multidimensionnel OLAP)....................................................162 .3.2 Systmes ROLAP (Relationnal OLAP) ...............................................................162.3.3 Systmes HOLAP (Hybrid OLAP).......................................................................16

    2.4. Alimentation dun Entrept de donnes......................................................................172.4.1. Slection des donnes sources.............................................................................172.4.2. Extraction des donnes........................................................................................172.4.3. Nettoyage et Transformation ...............................................................................182.4.4. Chargement.........................................................................................................19

    2.5. Utilisation, exploitation..............................................................................................202.5.2 Agrgats et navigation..........................................................................................202.5.3 Visualisation ........................................................................................................21

    Chapitre 3 Modlisation multidimensionnelle.......................................................................223.1. Concept de base de la modlisation multidimensionnelle ...........................................223.1.1 La notion de dimension ........................................................................................223.1.2. La notion de fait ..................................................................................................233.1.3 La notion de cubode............................................................................................233.1.4 Notion de Cube de donnes..................................................................................233.1.5 Notion de dimensions multi-niveaux ....................................................................243.1.6 Hirarchies de concepts dune dimension.............................................................25

    3.2. Oprations sur le data cube ........................................................................................253.2.1 Opration Slice ....................................................................................................263.2.2 Lopration Dice ..................................................................................................26

    3.2.3 Lopration Pivot .................................................................................................273.2.5 Lopration Drill-down ........................................................................................283.3. Conception dun entrept de donnes.........................................................................29

    3.3.1 Approches de Conception.....................................................................................293.3.2 Schma Conceptuel dun entrept de donnes......................................................30

    3.3.2.2 Schma en flocon ..........................................................................................323.3.2.3 Schma en constellation ................................................................................33

    Chapitre 4 Introduction la fouille de donnes .....................................................................354.1 Dfinition de la fouille de donnes ? ...........................................................................354.2 Le processus ECD.......................................................................................................364.3 Mthodes de fouille de donnes ..................................................................................37

    4.3.1 Apprentissage supervis et non supervis .............................................................374.3.2 Les arbres de dcision ..........................................................................................38

  • 7/29/2019 Cours_Entrepts_de_Donnes

    5/45

    4

    4.3.2.1 Problmes fondamentaux pour construire un arbre.........................................384.3.2.2 Lalgorithme ID3...........................................................................................404.3.2.3 Calcul de lentropie .......................................................................................404.3.2.4 Exemple de mise en oeuvre ...........................................................................41

  • 7/29/2019 Cours_Entrepts_de_Donnes

    6/45

    5

    Chapitre 1 I ntroduction aux E ntrepts dedonnes

    Objectifs spcifiques

    I ntroduire limpo rtance de linform ation dans les mtiers

    Introduction des limites des systmes de production existants

    I ntroduire le concept dentrept de donnes

    E lments de contenu

    I .Importance de linformation dans les mtiers

    I I . Informatique dcisionnel vs Informatique de production

    III. Dfinition de datawarehouse

    Volum e H oraire :

    Cours : 1,5 heures

    T D : 0 heure

    1.1 I mportance de linformation dans les mtiersLes socits de tlphone gardent au moins un an les positions gographiques et les

    consommations de leurs abonns mobiles. Les grands magasins et les entreprises de vente par

    correspondance (VPC) conservent les achats de leurs clients (tickets de caisse en grande

    distribution, commandes en VPC), collectent des informations sur leurs clients grce des

    systmes de cartes de fidlit ou de crdit, et achtent des bases de donnes gographiques et

    dmographiques. Les sites web conservent des traces de connexions sur leurs sites marchands.

    En rsum, les entreprises en secteur trs concurrentiel conservent les donnes de leur activit etachtent mme des donnes.

    Les motifs qui ont prsid la conservation de ces donnes taient : des obligations lgales pour

    pouvoir justifier les facturations, des raisons de scurit pour pouvoir dtecter les fraudes, des

    motifs commerciaux pour suivre l'volution des clients et des marchs. Quelle que soit la raison

    initiale, les entreprises se sont rendues compte que ces donnes pouvaient tre une source

    d'informations leur service. Ce constat, valable pour les socits du secteur marchand, peut tre

  • 7/29/2019 Cours_Entrepts_de_Donnes

    7/45

    6

    tendu de nombreux domaines comme la mdecine, la pharmacologie. Il faut donc dfinir des

    environnements permettant de mmoriser de grands jeux de donnes et d'en extraire de

    l'information.

    L es str uctures qui accueillent ce flo t im po rt ant de donnes son t des ent repts de donn es oudata

    warehouse. Ils sont construits sur une nouvelle architecture bien diffrente de celle prvue pour

    l'informatique de production, base elle sur des systmes de gestion de bases de donnes

    relationnelles et des serveurs transactionnels.

    U n entr ep t de donnes est construit en l'alim ent ant via les serveurs transactionnels de faon bien

    choisie et rflchie pour permettre aux procdures d'extraction de connaissances de bien

    fonctionner. L'organisation logique des donnes est particulirement conue pour autoriser des

    recherches complexes.

    1.2 I nformatique dcisionnel vs I nformatique de production

    1.2.1. I nformatique de P roduction

    Une des principales caractristiques des systmes de production est une activit constanteconstitue de modifications et d'interrogations frquentes des donnes par de nombreux

    utilisateurs.

    Exemple : ajouter une commande, modifier une adresse de livraison, rechercher les coordonnes

    d'un client , ...

    Conserver la cohrence (interdire la modification simultane d'une mme donne par deux

    utilisateurs diffrents) de la base de donnes, est donc l'objectif et la difficult principale pour

    l'informatique de production. Il s'agit donc de privilgier un enregistrement rapide et sr des

    donnes.

    Les systmes transactionnels (temps rel) OLTP (O n-L ine T ransacti on P rocessing) qui est la tche

    pr incipale des SG BD , garant issent l 'in tgrit des donnes. Les ut ilisateurs accdent des lments

    de la base par de trs courtes transactions indcomposables, isoles. L'isolation permet de

    garantir que la transaction ne sera pas perturbe ni interrompue. La brivet garantit que les

    temps de rpon se seront accept ables

  • 7/29/2019 Cours_Entrepts_de_Donnes

    8/45

    7

    La dernire caractristique de ces bases de donnes est qu'elles conservent l'tat instantan du

    systme. D ans la plupart des cas, l'volut ion n 'est pas conserve. On conserve sim plement des

    versions instantanes pour la reprise en cas de panne et pour des raisons lgales.

    1.2.2 I nformatique D cisionnel

    l'inverse de linformatique de production, les utilisateurs des systmes d'information de

    dcision n'ont aucun besoin de modification ou d'enregistrement de nouvelles donnes. Ils vont

    interroger le systme d'information et les questions poses seront par exemple de la forme

    Exemple :

    Q uelles son t les vent es du produit X pendant le trim estr e A de l'anne B dans la rgion C.

    Comment se comporte le produit X par rapport au produit Y ?

    E t p ar rappo rt l'anne dern ire ?

    Quel type de client peut bien acheter mon produit Z ?

    Une telle interrogation peut ncessiter des temps de calcul importants. Or, l'activit d'un serveur

    transactionnel ne peut tre interrompue. Il faut donc prvoir une nouvelle organisation qui

    permette de mmoriser de grands jeux de donnes et qui facilite la recherche d'informations ;

    cest le systme OLAP (On-line Analytical Processing). L'existence d'un entrept simplifiera donc

    la tche d'extraction de connaissances partir de donnes et permettra donc d'optimiser le temps

    de dveloppement d'un p rojet de fo uille de donnes.

    Il sera souvent ncessaire de filtrer, d'agrger, de compter, sommer et de raliser quelques

    statistiques lmentaires (moyenne, cart-type,...). La structure logique doit tre prvue pour

    rendre aussi efficace que possible toutes ces requtes. Pour y parvenir, on est amen introduire

    de la redondance dans les informations stockes en mmorisant des calculs intermdiaires (dans

    l'exemple, on peut tre amen stocker toutes les sommes de ventes par produit ou par anne).

    O n rom pt donc avec le pr incipe de non redondance des bases de pro ductio n.

    Si le critre de cohrence semble assur avec les techniques du transactionnel, cette cohrence est

    toute relative. Elle se contrle au niveau de la transaction lmentaire mais pas au niveau global et

    des activits de l'organisation. Pour les entrepts, on requiert une cohrence interprtable par

    l'utilisateur. Par exemple, si les livraisons n'ont pas t toutes saisies dans le systme, comment

    garantir la cohrence de l'tat du stock ? Autre, exemple, pour tablir un profil client ou tudier

    les performances d'un magasin, toutes les donnes utiles le concernant doivent tre prsentes

    dans le systme, ce que n'assure pas le serveur transactionnel mais que doit assurer le serveur

  • 7/29/2019 Cours_Entrepts_de_Donnes

    9/45

    8

    dcisionnel. Les entrepts de donnes assureront donc plutt une cohrence globale des

    donnes.

    Une dernire caractristique importante des entrepts, qui est aussi une diffrence fondamentale

    avec les bases de production, est qu'aucune information n'y est jamais modifie. En effet, onmmorise toutes les donnes sur une priode donne et termine, il n'y aura donc jamais

    remettre en cause ces donnes car toutes les vrifications utiles auront t faites lors de

    l'alim ent ation. L 'utili satio n se rsume donc un chargement priodique, puis des interro gations

    non rgulires, non prvisibles, parfois longues excuter.

    En rsum, on peut justifier la construction d'un entrept de donnes par l'affirmation suivante :

    Il est beaucoup plus simple de trouver une information pertinente dans une structure organisepour la recherche de connaissance.

    1.3 D finition de datawarehouse

    Le data warehousing dsigne les processus de construction et dutilisation des entrepts de

    D onnes.

    -D efin it ion : U n data warehouse est une col lection de donn es or ientes sujet, in tgres,

    historises et persistantes, utilise pour le support dun processus daide la dcision. - W . H .

    Inmon

  • 7/29/2019 Cours_Entrepts_de_Donnes

    10/45

    9

    Orientes sujets

    O rganises aut ours de sujets prin cip aux (produit s, client s, ventes, etc.)

    Pour la modlisation et lanalyse des donnes pour laide la dcision t raitement quot id ien des

    tr ansactions ou oprations

    Fournit une vue simple et concise auto ur dun sujet part iculier en excluant les don nes inut iles

    pour le processus daide la dcision

    Intgres

    Requier t une in tgration de don nes sres, consistant es et com pltes

    I nt gration de sources mult ip les et htrognes

    BD relati onnelles, transactionnelles, orientes ob jets, f lat f iles, app licatio ns ddies...

    D iverses sources (E x : diverses servi ces, agences, dpartement s, etc.)

    T echn iques de n ett oyage et in tgration des donnes : Co nsistance ent re les diverses sources des

    no ms, des uni ts de mesure, etc.

    Historises

    Po in t de vue de lent rept de don nes est plus tendu que celui de la BD oprationn elle

    BD oprationn elle : valeur actuelle de la donne

    Entrept de donnes : valeurs dune perspective historique (ex : derniers 5 ans)

    T out es les struct ures de cls dun ent rept de donnes cont iennent une rfrence la date,

    explicitement ou im plicitement

    Persistantes

    Stockage spar en mmoir e secondair e des donnes t ransfo rmes de la

    BD oprationnelle

    Pas de m ise jour en ligne dans un entrept de don nes

    Pas besoin de mcanismes de traitement des transactions, rcupration et contrle

    daccs concurrents

    Oprations daccs : chargement initial des donnes, rafrachissement des donnes et

    accs aux donnes

  • 7/29/2019 Cours_Entrepts_de_Donnes

    11/45

    10

  • 7/29/2019 Cours_Entrepts_de_Donnes

    12/45

    11

    Chapitre 2 Architecture des systmes basedentrept de donnes

    Objectifs spcifiques

    I ntr odu ire L architecture des systmes base dentrept de donnes

    Introduction des niveaux de stockage de donnes

    Introduire les technologies des serveurs OLAP

    E lments de contenu

    I .Niveaux fonctionnels de larchitecture

    I I . Structure gnrale des donnes dun ED

    III. Architecture des serveurs OLAP

    Volum e H oraire :

    Cours : 6 heures

    T D : 0 heure

    2.1. Les niveaux fonctionnels de larchitecture

    Les diffrents composants de larchitecture fonctionnelle dun systme base dentrept de

    donnes sor ganisent en 3 n iveaux :

    a. N iveau extraction de donnes :

  • 7/29/2019 Cours_Entrepts_de_Donnes

    13/45

    12

    Lopration dextraction de donnes concernent les bases de donnes oprationnelles (SGBD

    traditionnel en OLTP) et les donnes externes. Cette opration se droule selon deux approches

    possibles.

    app roche push : dtect ion instantane des m ises jour sur les BD oprationnelles

    pour intgration dans lentrept de donnes

    app roche pul l : dtection priodique des m ises jour des BD oprat ionnelles po ur

    intgration dans lED

    b. N iveau fusion de donnes

    L es com posant s de ce niveau permett ent de raliser essentiellement les tr ois tches suivant es

    intgration des donnes provenant des diffrentes sources chargement et stockage des donn es dans la BD ent rept or ganise par sujets

    rafr achissement au f ur et mesure des mises jour

    c. N iveau exploitation de donnes

    Cest le niveau qui permet de prsenter les donnes directement exploitables par lutilisateur final,

    il offre au preneur de dcisions les oprations suivantes analyse et lexplor at ion des donnes ent reposes

    formulation de requtes complexes afin de trouver des faits tudier, lanalyse de

    tendance (courbes dvolution), extrapolation, dcouverte de connaissance

    (rgles,cont raint es, )

    pr sentations graph iques varies

    2.2. Structure gnrale des donnes dun E D

    2.2.1 Axe h istorique et axe synthtique

  • 7/29/2019 Cours_Entrepts_de_Donnes

    14/45

    13

    L es don nes dun E D se structurent selon 2 axes ; synthtique et histo rique :

    A xe synthtique : tablit une hirarchie dagrgatio n comprenant :

    - les donnes dtailles reprsentant les vnements les plus rcents au bas de la hirarchie

    - les donnes agrges synthtisant les donnes dtailles les donnes fortement agrges

    synthtisant un niveau suprieur les donnes agrges

    Axe historique : comprenant les donnes dtailles historises reprsentant les vnements

    passs

    La description de toutes ces donnes (provenance, structure, mthode utilises pour lagrgation,

    ) constit ue les mta-donnes de lent rept.

    2.2.2 Les mta donnes

    Un annuaire spcialis conserve toutes les informations (les mtadonnes) au sujet du systme

    d'information qui rgit l'entrept. Sans rfrentiel qui qualifie de faon prcise ce que signifie

    chaque valeur dans la base, il n'est pas possible de conduire une analyse et interprter les rsultats.

    C'est ce rle que joue l'annuaire des mtadonnes.

    Cet annuaire cont ient :

    D escription de la structure du D W

    Schma, dimensions, hirarchies, dfinitions des donnes, et localisation et contenu des

    data mart s

  • 7/29/2019 Cours_Entrepts_de_Donnes

    15/45

    14

    Mta-donnes dadministration

    Historique de construction et transformation des donnes, statistiques dutilisation et

    rapports derreurs

    A lgorit hm es de gnralisatio n

    Calculs des mesures, agrgations, partition, requtes et rapports prdfinis

    M ta-don nes dintgration

    BD s sour ces et leurs cont enus, descrip tion des passerelles, rgles dextr action , netto yage

    et transformation des donnes, rgles de rafrachissement et scurit

    D onnes lies aux perf ormances

    Index, vues, algorithmes de compression et accs aux donnes, rgles de planification

    des mises--jour

    2.3. Composants logiciel dun Entrept de donnes

    Sources de donnes:

    - donnes sources gnralement modifies quotidiennement,

    -issues de bases de donnes, fi chi ers plats, documents H T M L , bases de connai ssances,

    -donnes en gnral htrognes

    Serveur D W :

    - L es entrep ts de donnes (D ata W arehouse):

  • 7/29/2019 Cours_Entrepts_de_Donnes

    16/45

    15

    Cont ient des donnes con cernant lensemb le des com posantes de l o rganisation

    Plusieur s BD s oprationn els et sour ces ext rieur es ; plusieurs thmes

    ncessitent de puissantes machines pour grer de trs grandes bases de donnes contenant des

    donnes de dtail h istor ises

    est le lieu de stockage centralis d'un ext rait des bases de production .

    lorganisation des donnes est faite selon un modle facilitant la gestion efficace des donnes et

    leur historisation.

    - L es magasins de don nes (D ata M art s) :

    U n sous-ensemble de lentrept global concernant un groupe spcif ique dutil isateurs

    E x : data mart du service com mercial, data mart concernant le transpor t

    sont de petits entrepts ncessitant une infrastructure plus lgre et sont mis en oeuvre plus

    rapidement (6 mois environs)

    conus pour laide la dcision partir de donnes ext raites dun ED plus consquent ou de

    BD sources existantes

    les donnes extraites sont adaptes pour laide la dcision (pour classe de dcideurs, usage

    particulier, recherche de corrlation, logiciel de statistiques,...)lo rganisation des donnes est f ait e selon un m odle facilitant les tr aitements D cisionnels

    - M ta donn es (M eta D ata) : donnes qui df inissent lent rept de donnes

    Moteur danalyse en ligne (OLAP engine)

    requtes interactives complexes sur ces volumes

    catgorie de traitements ddis laide la dcision

    donnes organises selon plusieurs axes danalyse et niveaux de dtail

    les traitements permettent de changer interactivement de points de vue, changer de niveau de

    dtail, effectuer les oprations OLTP classiques

    G U I (I nterf ace util isateur) : O util s daide la dcision (analyse, requtes, rappor ts, fouille

    de donn es, )

  • 7/29/2019 Cours_Entrepts_de_Donnes

    17/45

    16

    2.3. Architectures des serveurs O L AP

    T rois types de systmes O L A P : M O LA P, RO L A P et H O L A P :

    2.3.1 Systmes M O L AP (M ultidimensionnel OL AP)

    -uti lisent pour stocker et grer les donnes de lED un SG BD M ultidim ensionnel ddis auxcalculs de cubes de donnes

    les cub es de donnes im plant s com me des matr ices plusieurs dimensions

    -ont des temps de rponse faibles du fait quils effectuent la pr-agrgation et le pr-calcul des

    donnes sur tous les niveaux des hirarchies du modle de lentrept

    T echn iques de com pr ession pour les m atr ices creuses

    -gnrent de trs grands volumes dinfor mation

    -les techniques incrmentales de rafrachissement associes sont encore limites, conduisant

    reconstruire priodiquement lE D

    -sont adapt s de petit s E D (quelques G o) et lo rsque le modle mult idim ensionn el ne change

    pas beaucoup

    A vantage : eff icacit de traitement des requtes

    -produits : Essbase dAr bo Sof tware, Pilot de pilot Sof tw are, TM 1 dA pplix ,

    2 .3.2 Systmes RO L AP ( Relationnal OL AP)

    - utili sent pour sto cker les don nes de lE D un SG BD Relationnel le mot eur O L A P est un

    lment supplmentaire fournissant une vision multidim ensionnelle de lE D (organis en toile

    ou flocon)

    - il ralise des calculs de donnes drivs et agrgations diffrents niveaux

    - il gnre des requtes m ieux adapte au schma relationn el de lE D et qui t ire prof it des vues

    matrialises existantes (facteur principal de performance)

    A vantages : souplesse, volut ions faciles

    A rchit ecture de loin la p lus populaire

    -produit s : D SS A gent s de M icroStrategy, M etacube dI nf orm ix,

    2.3.3 Systmes H O L AP (H ybrid OL AP)

    - ut ili sent po ur stocker, grer les donnes dtailles un SGBD Relationnel et pour stocker, grerles don nes agrges un SG BD M ulti dim ensionnel

  • 7/29/2019 Cours_Entrepts_de_Donnes

    18/45

    17

    - permettent de grer de trs grande quantit de donnes et davoir des temps de rponses

    acceptables en analyse OLAP

    Avantages : quilibre entre la facilit dvolution et la rapidit de traitement des requtes

    - pro duits : E xpress dOr acle, M icrosof t SQL Server 7.0 O L A P services, M edia/ M R deSpeedware, H olos de Seagate Technology,

    2.4. Alimentation dun Entrept de donnes

    L'alimentation est la procdure qui permet de transfrer des donnes du systme oprationnel

    vers l'entrept de donnes en les adaptant. Comment alimenter, donc, lEntrept de Donne ?

    Cest la problmatique de lETL (Extracting Transforming and Loading) quon peut rsumer

    l'extraction des donnes, en accdant aux diffrentes bases et sources de donnes del'entreprise,

    la transformation, en dveloppant les codifications, rsolvant les liens, changeant et

    uniformisant les diffrents formats de fichiers d'origine dans un format unique

    com patib le avec le datawarehouse,

    le chargement, pour alimenter datawarehouses et datamarts, en contrlant la cohrence

    des donnes.

    E n f ait lalim ent ation de lED se droule en 4 tapes :

    2.4.1. Slection des donnes sources

    Q uelles don nes de pro ductio n faut-il slectionner pour alimenter lE D ?

    Toutes les donnes sources ne sont forcment pas utiles E x : D oit-on pr endre l adresse complte ou

    sparer le code postal ?

    Les donnes slectionnes seront rorganises pour devenir des informations.

    L a synthse de ces don nes sour ces a pour but de les enrichir .

    L a dnorm alisation des don nes cre des liens entre les donnes et p ermet des accs dif f rent s

    2.4.2. E xtraction des donnes

    U n extracteur (w rapper) est associ chaque sour ce de donn es :

    Il slectionne et extrait les donnes. En fait, la prparation des donnes consiste dans un premier

    temps obtenir des donnes en accord avec les objectifs que l'on s'impose. Ces donnes

  • 7/29/2019 Cours_Entrepts_de_Donnes

    19/45

    18

    prov iennent le plus souvent de bases de production o u d'entr epts. Les donnes sont str uctures

    en champs typs (dans un dom aine de df ini tio n).

    Par la suite lextracteur, formate les donnes dans un format cible commun qui est en gnral le

    modle Relationn el.L es interfaces comm e OD B, O CI , JD BC sont souvent ut ilises durant ce pro cessus.

    2.4.3. N ettoyage et T ransformation

    Objectifs du nettoyage : rsoudre le problme de consistance des donnes au

    sein de chaque source

    Objectifs de la transformation : Suppression des incohrences smantiques

    entre les sources pouvant survenir lors de lintgration des schmas et des

    donnes

    L'tude des besoins a dtermin le contenu de l'entrept en partant des desiderata des

    util isateurs. N anm oin s, la form e, le cont enu des donnes de production ne conv ient pas

    toujours immdiatement au format choisi pour les donnes de l'entrept. Par consquent, des

    transformations sont souvent ncessaires.

    Format

    Le format physique des donnes provenant de la production peut ne pas tre adquatavec le systme hte de l'entr ept . D es tr ansfo rm ation s de type son t parf ois ncessaires

    (Systme I BM vers systme U nix ...). Les donnes pouvant pr ovenir de serveurs dif f rents

    dans des services diffrents, il est ncessaire d'uniformiser les noms et les formats des

    donnes manipules au niveau de l'entrept.

    Consolidation

    Selon les choix des units pour les dimensions, des oprations de consolidation devront

    accompagner le chargement des donnes (par exemple sommer les ventes pour obtenir et

    enregistrer un total par jour et non pas toutes les transactions).

    U nif orm isation d'chelle

    Pour viter de trop grandes dispersions dans les valeurs numriques, une

    ho mognisat ion des chelles de valeurs est ut ile. N e pas la raliser peut pnaliser les

    outils d'analyse et de visualisation et peut-tre simplement remplir inutilement les disques.

    Autres

  • 7/29/2019 Cours_Entrepts_de_Donnes

    20/45

    19

    D es tr ansformations qui permettent de mieux analyser les don nes son t aussi ralises

    pendant la phase de chargement. Par exemple, la transformation de la date de naissance

    en ge, assure une plus grande lisibilit des donnes et permet de pallier les problmes

    apparus avec l'introduct ion de la dim ension t emps.

    M algr les eff or ts raliss pour assurer l'in tgrit des donnes de product ion , des erreurs peuvent

    survenir, en particulier, lorsque les donnes proviennent de sources diffrentes (par exemple, il

    est frquent qu'un mme client soit mmoris plusieurs fois sur diffrents serveurs). Parmi les

    points vrifier, on peut citer:

    Erreurs de saisie

    D es doublons son t p rsents mais son t inv isibles ; cause des fautes de f rappe: (M arcel

    dupont; 3,rue verte; Lille) et (Marcel dupond; 3,rue verte; Lille) sont certainement un seulet mme client ; plusieurs membres d'un mme foyer peuvent tre prsents ; ...

    I ntgrit de domaine

    U n cont r le sur les domaines des valeurs permet de retrouver des valeurs aberrant es. D e

    faon plus gnrale, des valeurs douteuses peuvent se rencontrer, comme par exemp le des

    dates au 11 novembre 1911 (11/ 11/ 11) ou 1 janvier 1901 (01/ 01/ 01).

    Informations manquantes

    D es champs impor tant s pour lesquels aucune valeur n 'a t saisie peuvent pnaliser le

    processus de dcouvert e d'inform atio n, ou b ien encore avoi r une signif icatio n part iculire

    (ex: dtection de fraudes). Il est parfois important d'insrer des valeurs par dfaut

    signif icatives (com me N U LL ) plutt que de laisser ces donnes vides.

    Il convient de noter que les sources des donnes alimentant un entrept peuvent tre

    htrognes. Les bases de production peuvent tre nombreuses, diffrentes et dlocalises

    gograph iquement. D es f ich iers peuvent tre achetes aupr s d'ent repr ises qui se son t spcialisesdans la constitution et la revente de fichiers qui vont aussi entrer dans le processus d'alimentation

    de l'entrept. Les suites logicielles d'accompagnement d'entrepts de donnes contiennent des

    outils susceptibles d'aider dvelopper des procdures d'alimentation qui prennent en compte ces

    problmes de vrification et de normalisation.

    2.4.4. Ch argem ent

    Objectif : charger les donnes nettoyes et prpares dans lED

    Cest une opration qui risque dtre assez longue plutt mcanique et la moins complexe.

  • 7/29/2019 Cours_Entrepts_de_Donnes

    21/45

    20

    Il est ncessaire de dfinir et mettre en place : des stratgies pour assurer de bonnes conditions

    sa ralisation une politique de rafrachissement.

    2.5. U tilisation, exploitation

    L'alimentation des entrepts s'accompagne, aprs validation, de l'dition automatique destableaux de bord les plus courants. Ils sont prdfinis, raliss par le service informatique, et sont

    le reflet d'un besoin explicitement demand au moment de la conception. Souvent, ils sont

    insuffisants lorsqu'une anomalie est dtecte ou lorsqu'un nouveau besoin s'exprime. L'utilisateur

    final doit alors pouvoir interroger les donnes en ligne l'aide d'outils simples et conviviaux. Ces

    outils commencent se gnraliser. Les diteurs les nomment (ou les classent) : reporting tools,

    managed queries, Executive Information Systems (EIS), OLAP tools (Online analytical

    Processing), ...bien que les diffrences entre tous ces systmes ne soient pas toujours trs nettes.

    2.5.1 R equtes

    N ous prsentons ici les out ils destin s l'uti lisateur f inal qui perm ett ent d'extraire des donnes de

    l'entrept.

    L es outils de cration de rappo rt (repor ting to ols) extr aient les don nes et pr opo sent une mise en

    for me destin e la diff usion : par im pression ou par des services int ernet ou int ranet. I ls sont trs

    utiliss pour gnrer des tableaux de bord conventionnels, qui sont souvent composs et diffussautomatiquement et priodiquement sans demande spcifique des utilisateurs. Lorsque leur

    intgration dans le systme d'information est russie, ils mettent en vidence la structure

    multidimensionnelle et prsentent les agrgats, supportent la navigation. Ils sont accessibles aux

    utilisateurs finals pour crer de nouveaux tableaux de bord.

    Les progiciels (ex : SAS) dans ce domaine ont ralis une perce importante. Ils sont souvent

    qualifis de EIS tools et ajoutent des analyses classiques et paramtrables pour les ventes, les

    achats ou la finance par exemple.L es outil s les plus adapt s sont cert ainement les out ils O L A P.

    2.5.2 Agrgats et navigation

    L'opration de navigation (ou forage) permet d'obtenir des dtails sur la signification d'un rsultat

    en affinant une dimension ou en ajoutant une dimension. Elle apparat dans de nombreux outils

    et doit (parce qu'elle est souvent coteuse) tre intgre dans le systme. Pour illustrer le forage,

    supposons qu'un utilisateur final demande les chiffres d'affaires par produit, et s'tonne d'un

    rsultat pour un produit donn. Il aura srement l'envie d'en analyser les raisons. Une solution

  • 7/29/2019 Cours_Entrepts_de_Donnes

    22/45

    21

    consisterait ajouter la dimension temps, dans l'unit de temps trimestrielle pour trouver une

    variation saisonnire, dans l'unit hebdomadaire pour envisager l'effet week-end, ou encore la

    dim ension magasin pour m ett re en vidence un eff et gograph ique.

    Pour des raisons de performance, il est utile de prcalculer et prenregistrer dans l'entrept desagrgations de donnes. On peut toutefois noter que des machines sont parfois ddies leur

    excution et leur d if f usion : ce sont desserveurs d'agrgats.

    Pour expliquer un rsultat, il est parfois ncessaire de le comparer avec d'autres faits. Par

    exemple, la baisse des vent es pour le mois de janv ier peut s'expl iquer p ar une baisse des achats ou

    une rupture de stock. Si l'entrept est conu pour suivre les ventes et les achats ou le stock, et si

    les dimensions selon lesquelles ces trois faits sont suivis sont identiques, on doit pouvoir raliser

    un rapport unique. On parle alors de forage transversal ou drill across. C'est une opration qu'il fautraliser avec beaucoup de soins car mett re en oeuvr e une requte sur plusieurs tables de f ait s peut

    se rvler irralisable. Engage sans prcautions, la requte va gnrer une table intermdiaire

    norme qui sera le produit cartsien entre les deux tables de faits.

    2.5.3 Visualisation

    Les outils de visualisation sont trs importants dans le processus de dcision et peuvent intervenir

    plusieurs niveaux. Ils sont utiles pour

    - dcouvrir de nouvelles informations, parce qu'une reprsentation permet de reprer plus

    sim plement des singulari ts, des anomalies ;

    - prsenter des rsultats, dans l'optique d'une large diffusion, parce qu'un graphique est plus

    accessib le qu'un tableau de chif f res ;

    - reprsenter un modle issu d'une opration de fouille de donnes (reprsenter un arbre de

    dcision, un ensemble des rgles, un rseau de neurones...).

    D ans le premier cas, ils son t int grs dans les out ils d'analyse et doivent suppor ter des opratio nscomme comparer, modifier les chelles, retrouver les donnes correspondant un point ou un

    objet trac, zoomer sur des rgions ou des sous-ensembles et enfin permettre la navigation (drill-

    up, drill down).

  • 7/29/2019 Cours_Entrepts_de_Donnes

    23/45

    22

    Chapitre 3 M odlisation m ultidim ensionnelle

    Objectifs spcifiques

    Comprendre les concepts du modle de donnes multidimensionnel

    Introduire les oprateurs sur des cubes multidimensionnels

    Introduire les schmas de Conception logique

    E lments de contenu

    I .Concepts de base de la Modlisation Multidimensionnelle

    I I . Opration sur les data cubeIII. Schma de conception dun ED

    Volum e H oraire :

    Cours : 5 heures

    T D : 3 heure

    3.1. Concept de base de la m odlisation m ultidimensionnelle

    L a modlisation multidim ensionnelle consiste considrer un sujet analys com me un po int dans

    un espace plusieurs dimensions. Les donnes sont organises de manire mettre en vidence

    le sujet analys et les diffrentes perspectives de l'analyse.

    Cette conception est bas sur un modle multi-dimensionnel des donnes qui voit les donnes

    sous la forme dun data cube (cube de donnes)

    3.1.1 La notion de dimensionU n D ata cube : permet de modliser et v isualiser l es donnes selon di f f rent es dim ension s ; les

    dimensions constituent donc les points de vues depuis lesquels les donnes peuvent tre

    observes

    Chaque dimension est reprsente par une table

    E x : L ocalisation (ville, dpartement , pays, rgion ),

    Produit (article, type,catgorie),

  • 7/29/2019 Cours_Entrepts_de_Donnes

    24/45

    23

    D ate (jour , semaine, mois, trimest re, anne)

    3.1.2. La notion de fait

    Le Thme central est reprsent par une table de faits.Cette Table de faits contient les valeurs des

    mesures et des cls vers les tables de dimensions

    - La valeur dune mesure est le rsultat dune opration dagrgation des donnes

    Ex : montant_ventes, quantit_vendue

    Les cls des tables de dimension sont en gnral construites automatiquement3.1.3 L a notion de cubode

    Lensemble des valeurs dune mesure pour une combinaison de valeur des dimensions constitue

    un cubode

    Exemple:

    entrept de donnes des ventes lectroniques dune socit.

    Montants des ventes sur lanne par type darticle, par ville et par mois

    Une valeur est associe chaque combinaison type ville mois

    D im ensions : Produit (t ype), Localisatio n (vil le) et D ate (mois)

    3.1.4 N otion de Cub e de donnes

    Un Cube est un treillis de cubodes.

  • 7/29/2019 Cours_Entrepts_de_Donnes

    25/45

    24

    Exemple :

    3.1.5 N otion de dim ensions multi-niveaux

    Pour chaque dim ension, on dfin it dif f rent s niveaux dabstr action / spcialisation

    Lors du processus OLAP, les donnes sont gnralement analyses en partant d'un faible niveau

    de dtail vers des donnes plus dtailles pour "forer vers le bas". Pour dfinir ces diffrents

    niveaux de dtail, chaque dimension est munie d'une (ou plusieurs) hirarchie(s) de paramtres.

    L a hirarchie reprsent par les tables de dimensions :

    -sert lo rs des analyses pour restr eindre ou accro tre les niveaux de dtail de l'analyse

    organise les paramtres d'une dimension conformment leur niveau de dtail. Ces paramtres

    seront donc ordonns par une relation hirarchique "est_plus_fin"

    On dfinit donc la granularit dune dimension comme tant le nombre de niveaux dabstraction

    Exemple :

  • 7/29/2019 Cours_Entrepts_de_Donnes

    26/45

    25

    3.1.6 H irarchies de concepts dune dimension

    U n Concept est une valeur corr espon dant un n iveau dabstraction

    Exemple : dimension Localisation

    3.2. Oprations sur le data cube

    Considron s lexemple cubode suivant ; no us pouvon s y ef fectuer plusieurs Oprations de

    manipulatio n int eractive des cubodes

  • 7/29/2019 Cours_Entrepts_de_Donnes

    27/45

    26

    3.2.1 O pration Slice

    Elle consiste en une slection sur une dimension du cube

    E x : 3me tr im est re sur la d im ension D ate pour

    visualiser les ventes par L ocalisatio n et Produit durant ce tr im estre

    3.2.2 Lopration D ice

    E lle consiste en la df init ion dun sous-cube par slectio n sur deux (ou p lus)dim ensions

  • 7/29/2019 Cours_Entrepts_de_Donnes

    28/45

    27

    E x : cr it re (Localisation = Paris v Rome) et (D ate = 1er t r im estre v 2metr im estr e) et (Pr oduit

    = I nfor matique v T lphonie)

    3.2.3 Lopration Pivot

    E lle permet une prsent ation alternative du cube

    T ransfor mation en une srie de plans 2D

    Renversement du cube sur un ou p lus axes pour une vision alternative

    E x : renversement sur l axe D ate

    3.2.4 L opration R oll-up

  • 7/29/2019 Cours_Entrepts_de_Donnes

    29/45

    28

    Elle permet une gnralisation du cube ; elle consiste :

    Supprimer une dimensionou

    Rem on ter dans une hirarch ie de con cept s dune dimension

    Ex : remonter du niveau

    Trimestre au niveau

    Semestre pour D ate

    3.2.5 L opration D rill-down

    Elle a pour rle la spcialisation du cube. Elle consiste

    A jo ut er une dimension

    E x : dimension T ypeClient

    ou

    D escendre dans une hirarch ie de concept s

  • 7/29/2019 Cours_Entrepts_de_Donnes

    30/45

    29

    Ex : descendre du niveau Catgorie au niveau Type pour Produit

    3.3. Conception dun entrept de donnes

    3.3.1 Approches de Conception

    I l existe tr ois t ypes dapp roches : A pproche haut-b as, bas-haut ou unecombinaison des deux :

    H aut-bas : dbuter par le plannin g et la concept ion du modle (matur e)

    Bas-haut : dbuter p ar des essais et des pro totypes (rapide)

    D u poin t de vue de lingnierie du lo giciel ceci consiste app liquer les modles decycle de vie suivants :

    Cascade : analyse str uct ure et systmat ique lors de chaque tape avant de passer la suivante

    Spir ale : gnrat ion rapide de systmes fonct ionnels croissants; modi f icat ions rapides et

    adapt atio n du modle f acile

    Le Processus de conception dun entrept de donnes inclut les tapes suivantes

  • 7/29/2019 Cours_Entrepts_de_Donnes

    31/45

    30

    Choix du pr ocessus modliser, ex : commandes, ventes, l iv raison

    Choix du grain (niveau de dtail des donn es) po ur le p rocessus

    Choix des dim ensions pour chaque table de f aits

    - Choix des mesures stockes dans les tables de faits

    3.3.2 Schma Conceptuel dun entrept de donnes

    La conception dun entrept de donnes un modle au niveau logique qui soit concis et orient

    sujet diff rent don c dumodle entits-relations. Trois types de schma existent :

    3.3.2.1 Schma en toile

    Caractristiques du schma en to ile :

    str ucture sim ple util isant le mo dle ent it-relation

    une ent it cent rale : la table des f ait s :

    objets de l'analyse

    taille trs importante

    nombreux champs

    des entit s priphriques : les tables de dim ension s :

    dim ensions de l'analyse

    taille peu imp ort ante

    peu de champs

    E x empl e 1 : V entes de mdicaments dans des pharmacies

  • 7/29/2019 Cours_Entrepts_de_Donnes

    32/45

    31

    Schma en toile modlisant les analyses des quantits et des montants des mdicaments dans les

    pharmacies selon 3 dimensions : le temps, la catgorie et la situation gographique

    Table de faits : V ente

    T ables de dim ension : T emps, C atgori e, G ographie

    E x emple 2 : V entes d" art icles dans un supermarch

    Associ lexemple 2 :

    un f ait

    il a t achet 3 exemplaires 1 euro

    du produit pid3

    par le client cid1

    la date did3

    dans le magasin mid2

    dans le chariot cid8

    correspondant la prom otion p rid1

  • 7/29/2019 Cours_Entrepts_de_Donnes

    33/45

    32

    un lment de la dimension location :

    stor e id m id2

    stor e name ron dpoint

    city blois

    region centre

    country France

    3.3.2.2 Schma en flocon

    U n m odle en f locon est une volution du schma en toi le avec :

    une dcomposition des dimensions du modle en toile en sous hirarchies.

    le fait est conserv et les dimensions sont clates conformment sa hirarchie des

    paramtres

    cela conduit une normalisation des tables de dimensions : structure hirarchique des

    dim ensions et un n iveau in frieur ident if ie un n iveau suprieur

    Les avantages de cette modlisation sont:

    f ormaliser une hirarchie au sein d'une dim ension.

    maintenance des tables de dimensions simplifie

    rduction de la redondance

    L es inconvnient de cett e mo dlisatio n :

    induit une dnormalisation des dimensions gnrant une plus grande complexit en

    termes de lisibilit et de gestion.

    navigation coteuse

    E x empl e : V entes de mdicament dans des phar macies

  • 7/29/2019 Cours_Entrepts_de_Donnes

    34/45

    33

    Chaque dimension du schma en toile prcdent est dnormalise, formant ainsi une sorte de

    flocon

    3.3.2.3 Schma en constellation

    Peut-tre vu comme une collection dtoiles (schma en galaxie ou constellation de faits)

    Un modle en constellation :

    f usionne plusieurs modles en to ile qui ut ilisent des dim ensions comm unes.

    comprend en consquence plusieurs faits et des dimensions communes ou non

    E x empl e : V entes de mdicament dans des phar macies

  • 7/29/2019 Cours_Entrepts_de_Donnes

    35/45

    34

    une constellation est constitue de 2 schmas en toile :

    - l'un corr espond aux ventes eff ectues dans les pharmacies et

    - l'autre analyse les pr escrip t ion s des mdecins

    les dimensions Temps et Geographie sont partages par les faits Prescriptions et Vente.

  • 7/29/2019 Cours_Entrepts_de_Donnes

    36/45

    35

    Chapitre 4 I ntroduction la fouille de donnes.

    Objectifs spcifiques

    Introduire les objectifs de la fouille de donnes

    Introduire la mthode des arbres de dcision

    E lments de contenu

    I . D finiti on de la fouille de donnes

    I I . Le processus E CD

    III. Mthodes de fouille de donnes

    Volum e H oraire :

    Cours : 5,5 heures

    T D : 1,5 heure

    4.1 D finition de la fouille de donnes

    L a fouil le de don nes consiste rechercher et ext raire de l'inf ormation (utile et incon nue) de gros

    volumes de donnes stockes dans des bases ou des entrepts de donnes. Le dveloppement

    rcent de la fouille de donnes (depuis le dbut des annes1990) est li plusieurs facteurs : une

    puissance de calcul importante est disponible sur les ordinateurs de bureau ou mme domicile ;le volume des bases de donnes augmente normment ; l'accs aux rseaux de taille mondiale,

    ces rseaux ayant un dbit sans cesse croissant, qui rendent le calcul distribu et la distribution

    d'information sur un rseau d'chelle mondiale viable ; la prise de conscience de l'intrt

    commercial pour l'optimisation des processus de fabrication, vente, gestion, logistique, ...

    La fouille de donnes a aujourd'hui une grande importance conomique du fait qu'elle permet

    d'optimiser la gestion des ressources (humaines et matrielles). Elle est utilise par exemple:

    organisme de crdit : pour dcider d'accorder ou non un crdit en fonction du profil dudemandeur de crdit, de sa demande, et des expriences passes de prts

    D finition

    L a Fouille de donnes (D ata M ining) est:

    Un ensemble de techniques d'exploration de donnes permettant d'extraire d'une base de

    donnes des connaissances sous la forme de modles de descrip tion af in de :

    dcrir e le compor tement actuel des donn es et/ ou prdire le comportement futur des donnes

  • 7/29/2019 Cours_Entrepts_de_Donnes

    37/45

    36

    4.2 Le processus E CD

    Le processus dextraction de connaissances partir de donnes est reprsent par le schma ci

    dessous

    En fait, Le data mining est lun des maillons de la chane de traitement pour la

    dcouverte des connaissances partir des donnes. Sous forme image, nous pourrions dire

    que lECD est un vhicule dont le data mining est le moteur.

    LECD est un processus complexe qui se droule suivant une suite doprations. Des

    tapes de prtraitement ont lieu avant le data mining proprement dit. Le prtraitement

    porte sur laccs aux donnes en vue de construire des datamarts , des corpus de

    donnes spcifiques. Le prtraitement concerne la mise en forme des donnes entres selon

    leur type (numrique, symbolique, image, texte, son), ainsi que le nettoyage des donnes, le

    traitement des donnes manquantes, la slection dattributs ou la slection dinstances.

    Cette premire phase est cruciale car du choix des descripteurs et de la connaissanceprcise de la population va dpendre la mise au point des modles de prdiction.

    Linformation ncessaire la construction dun bon modle de prvision peut tre

    disponible dans les donnes mais un choix inappropri de variables ou dchantillons

    dapprentissage peut faire chouer lopration.

  • 7/29/2019 Cours_Entrepts_de_Donnes

    38/45

    37

    4.3 M thodes de fouille de donnes

    4.3.1 Apprentissage supervis et non supervis

    Lune des classifications possibles des mthodes de fouille de donnes est la classification selon le

    typ e dappr ent issageT ypes d'apprent issage util iss dans les mthodes de fouille :

    A pprent issage superv is - Foui lle supervise :

    - processus dans lequel l'apprenant reoit des exemples d'apprentissage comprenant la fois

    des donnes d'ent re et de sor t ie

    - les exemples dapprentissage son t fo urn is avec leur classe (valeur de sor ti e prdit e)

    - But : classer correctement un nouvel exemple (gnralisation)

    - util ises prin cipalement en classif icat ion et prdiction

    Apprentissage non supervis - Fouille non supervise :

    - pr ocessus dans lequel l'apprenant reoit des exemples d'app rent issage ne com pr enant que des

    donnes d'entre

    - pas de notion de classe

    - But : regrouper les exemples en paquets (clusters) dexemples similaires (on peut ensuite

    don ner un nom chaque paquet)

    - utilis principalement en association et segmentation

    Quelques mthodes de fouille de donnes classifies selon le type dapprentissage et selon

    lobjectif

  • 7/29/2019 Cours_Entrepts_de_Donnes

    39/45

    38

    4.3.2 Les arbres de dcision

    - Objectif gnral :

    A partir dun ensemble de valeurs d'attributs (variables prdictives ou variable endognes)

    il sagit de prdire la valeur d'un autre attribut (variable cible ou variable exogne)

    - une des mthodes supervise (apprentissage) les plus connues de classification et de

    prdiction

    - un arbre est quivalent un ensemble de rgles de dcision : grande explicabilit du modle

    - un arbre est compos :

    de noeuds = classes d'individusde plus en plus fine depuis la racine

    darcs = prdicats de partitionnementde la classe source

    - algorit hm es dappr ent issage darbre : I D 3 [Q uilan 79], CA RT [Br ieman et al.84],

    4.3.2.1 Problmes fondamentaux pour construire un arbre

    a) Critre de choix de lattribut

    - Si y est l'attribut dont la valeur prdire partir des valeurs des attributs prdictifs xi : choisir

    l'att ribut don t la valeur a le plus d'inf luence sur celle de y

    - Plusieurs techniques provenant de la th or ie de l'inf ormation de Shannon :

    Ratio du Gain ou de lEntropie (algo ID3, C5, )

  • 7/29/2019 Cours_Entrepts_de_Donnes

    40/45

    39

    indice de G ini (algo CA RT)

    X 2

    Ratio du gain / entro pie

    - On parle de gain d'information ou d'entropie (concepts inverses)

    - On va chercher choisir l'attribut qui va induire le gain d'information le plus lev (ou dont

    l'ent ropie est la plus basse)

    - I ntui ti vement, l 'ent rop ie mesure le degr de dsordr e qui restera si o n dcoupe selon cet att ribut

    -> entrop ie la plus basse est la meilleure

    -D onc po ur chaque att rib ut candidat, on va calculer son ent rop ie et on cho isit celui qui a

    l'ent ropie la plus basse.b) Affectation d'un label une feuille : O n aff ecte la modalit la plus fr quent e.

    c) Arrt de la segmentation : D if frentes techniques:

    pre-pruning:

    On arrte l'expansion de l'arbre selon certains critres:

    - profondeur maximale

    - ef fectif de chaque sous-groupe: on f ixe un seuil (souvent empir iquement)

    - on calcule des mesures comme pour le choix de l'attribut de segmentation (gain

    d'information, X2,...) auquel on associe un seuil en dessous duquel la segmentation sera

    refuse

    post-pruning:

    On laisse l'arbre se construire jusqu'au bout

    On lague larbre en retirant des sous-arbres :

    - l'aide d'h euristiques ou

    - grce l'int ervent ion d'un expert,

    - l'arbre est lagu tant que l'erreur de l'arbre lagu reste infrieure celle de l'arbre non

    lagu.

    - le noeud duquel on a retir un sous-arbre devient une feuille et porte le label de la valeur la

    plus frquente du sous-arbre

  • 7/29/2019 Cours_Entrepts_de_Donnes

    41/45

    40

    d) Choix des bornes de discrtisation :

    - O n f ixe les valeurs cand idates com me les valeurs au m ilieu de 2 valeurs conscutives : ex: 35, 45,

    52... -> 40, 48.5

    - Puis on calcule vent uellement la meilleure valeur parm i celles l grce des mesures telles que :le gain, ...

    4.3.2.2 L algorithme I D 3

    Soit : Classe C : valeur d 'at tr ibut prdire (ex: C1: risque = lev, C2: risque = f aib le)

    tuples : ensemble des tuples de l'chantillon, liste_attributs: ensemble des attributs

    Pr ocdur e G nrer_ arbre_ dcision

    Crer un noeud N

    si tuples est vide alors

    retourner une feuil le portant le label " F ail ure"

    si tuples sont dans la mme classe C alors

    retourner N avec comme label C

    si l iste_ attri buts = vide alors

    retourner N avec comme label le nom de la classe la plus

    frquente dans l'chantillon

    Choisir lattribut a le plus discriminant parmi liste_attributs

    A ffecter le label a au noeud N

    Pour chaque valeur ai de a :

    crer une branche issue du noeud N avec condit ion a s= ai

    Soit ti l'ensemble des lments tuples vrifiant cette condition

    A tt acher le noeud retour n par

    Gnrer_arbre_dcision(ti, liste_attributs a)

    4.3.2.3 Calcul d e lentropie

    E nt rop ie = Q uant it d'info rm atio n ncessaire pour classif ier l'exemp le

    Soit S un ensemble de s tuples

  • 7/29/2019 Cours_Entrepts_de_Donnes

    42/45

    41

    Soit C comprenant m valeurs dif f rentes, df in issant Ci classes (i = 1,...,m)

    Soit si le nombre de tuples de S appartenant Ci :

    I(s1,...sm) = quantit d'information ncessaire pour classifier l'ensemble des tuples

    I(s1,...sm) = - (i=1..m) pi log2(pi)

    - pi: probabilit qu'un tuple appartienne Ci

    - p i= si / s

    E ntrop ie de l'attribut A = E(A ) :

    Soit A un attr ibut candidat possdant v valeurs { a1 ,..., av} .

    A perm et de part ionner l'ensemble S en v sous-ensembles { S1,..., Sv}

    Si comprend les tuples ayant la valeur ai pour A

    Soit sij le nombre de tuples du sous-ensemble Sj appartenant Ci

    4.3.2.4 Exemple de mise en oeuvre

    Entropie de l'attribut Couleur?C1: carr ; C2: triangle

    E(A) (S1j...Sij). I(S1j,...,Sij)

    (j

    1..v)Pour couleur = rouge (i= carr ou triangle?, j=rouge) :

  • 7/29/2019 Cours_Entrepts_de_Donnes

    43/45

    42

    s11= scarr/rouge= 3 ; s21= striangle/rouge= 2I(s11,s21) = I(3,2) = -3/5 log23/5 - 2/5 log22/5 = 0,971

    Pour couleur = vert :s12= scarr/vert= 2 ; s22= striangle/vert= 3I(s12, s22) = I(2,3) = -2/5 log22/5 - 3/5 log23/5 = 0,971

    Pour couleur = jaune :s13= scarr/jaune=4 s23= striangle/jaune=0I(s13,s23)=I(4,0)= -4/4 log24/4 - 0/4 log20/4 = 0

    E (couleur) = 5/14 I(s11,s21) + 5/14 I(s12, s22) + 4/14 I(s13,s23) = 0,694

    Gain (couleur) = 0,940 0,694 = 0,246

    E tape suivante

    E tape suivante

  • 7/29/2019 Cours_Entrepts_de_Donnes

    44/45

    43

    E tape suivante

    E tape fin ale

  • 7/29/2019 Cours_Entrepts_de_Donnes

    45/45