Objectifs des entrepôts de données - ?· 1 2-1 Objectifs des entrepôts Objectifs des entrepôts de…

  • Published on
    12-Sep-2018

  • View
    212

  • Download
    0

Embed Size (px)

Transcript

  • 1

    22--11 Objectifs des entrepts

    Objectifs des entreptsde donnes

    22--22 Objectifs des entrepts

    Objectifs du cours

    Comprendre l importance de l information dans les mtiers

    Analyser les limites des systmes de production existants pour les besoins en traitement de l information

    Introduire le concept d entrept de donnes comme une solution alternative

    Introduire les proprits des entrepts

  • 2

    22--33 Objectifs des entrepts

    Structure du cours

    Importance de l information

    Inadquation des systmes OLTP

    Concept d entrept

    proprits d un entrept

    Comparaisons entrept/production

    22--44 Objectifs des entrepts

    L enjeu de l information

    L information occupe un rle croissant dans tous les mtiers

    qualit de service

    traitement personnalit des clients, offres comptitives

    Gestion

    rduction des cots, gestion des profits

    Prospective

    analyse des comportements des clients, du march

    Communication

    informer les individus

  • 3

    22--55 Objectifs des entrepts

    Aide la dcision

    L information est la base du cycle

    information - analyse - prise de dcision

    La prise de dcision ncessite une information

    prcise

    fiable

    actualise

    pertinente

    22--66 Objectifs des entrepts

    Information vs donnes

    Donnes

    montant total des ventes pour rgion Paris

    vendeur ayant ralis le meilleur chiffre ce mois

    Information

    volution des ventes pour rgion Paris au cours des 5 dernires annes

    sur quels produits faire des offres promotionnelles

    quelle est la profitabilit d une activit

    Quelles differences voyez vous ?

  • 4

    22--77 Objectifs des entrepts

    Gestion des donnes

    Systmes Online Transaction Processing (OLTP)

    comptabilit, achats, rservation, tlcommunications,

    systmes stratgiques, haute performance et disponibilit

    Multitude de systmes spcialiss

    fichiers Excel, bases personnelles, documents,

    systmes autonomes, non stratgiques

    22--88 Objectifs des entrepts

    Systmes OLTP

    Priorities Performance, high availability

    Processor Use Predictable

    Response Time Sub-seconds to seconds

    Data Store Hierarchical, network, relational,flat files

    Data Content Organized by application

    Nature of Data Dynamic, constantly changing,current state of the business

    Processing Highly structured, repetitive

    End Users Clerks, data entry, administrators

  • 5

    22--99 Objectifs des entrepts

    Limites des systmes OLTP

    Les systmes OLTP sont mal adapts la gestion d information pour l aide la dcision

    Problmes :

    Accs aux donnes difficile

    Extractions de donnes non productives

    qualit des donnes incertaine

    22--1010 Objectifs des entrepts

    Accs aux donnes

    Donnes structures pour applications

    tables normalises (performance transactionnelle)

    valeurs d attributs codes

    attributs spcifiques pour la production

    Donnes dans des systmes indpendants

    systmes htrognes (protocoles rseau, systmes de gestion, modles de donnes)

    Requtes simples

    incompatibilit (performances) avec requtes dcisionnelles

  • 6

    22--1111 Objectifs des entrepts

    Exemple OLTP : base de donnes TPC-C

    Application: gestion, vente et distribution de produits ou services (www.tpc.org/bench.descrip.html)

    Customers

    Company

    Warehouse-1

    District-10

    Warehouse-W

    District-1 District-2

    3k1 2 30k

    22--1212 Objectifs des entrepts

    Vue d ensemble du schmaVue d ensemble du schma

    WarehouseWarehouseWW

    LegendLegendTable NameTable Name

    oneone--toto--manymanyrelationshiprelationship

    secondary indexsecondary index

    DistrictDistrictW*10W*10

    1010

    CustomerCustomerW*30KW*30K

    3K3K

    HistoryHistoryW*30K+W*30K+

    1+1+

    ItemItem100K (fixed)100K (fixed)

    StockStockW*100KW*100K100K100K WW

    OrderOrderW*30K+W*30K+1+1+

    OrderOrder--LineLineW*300K+W*300K+

    1010--1515

    NewNew--OrderOrderW*5KW*5K00--11

  • 7

    22--1313 Objectifs des entrepts

    Une vue dtaille du schma

    CUSTOMER ORDER

    ORDER-LINE

    C_IDC_D_IDC_W_IDC_FIRSTC_MIDDLEC_LASTC_STREET_1C_STREET_2C_CITYC_STATEC_ZIPC_PHONEC_SINCEC_CREDITC_CREDIT_LIMC_DISCOUNTC_BALANCEC_YTD_PAYMENTC_PAYMENT_CNTC_DELIVERY_CNTC_DATA

    O_IDO_D_IDO_W_IDO_C_IDO_ENTRY_DO_CARRIER_IDO_OL_CNTO_OL_CNTO_ALL_LOCAL

    OL_O_IDOL_D_IDOL_C_IDOL_NUMBEROL_I_IDOL_SUPPLY_W_IDOL_DELIVERY_DOL_QUANTITYOL_AMOUNTOL_DIST_INFO

    22--1414 Objectifs des entrepts

    Transactions et requtes

    Transactions TPC-C :

    New-order: enter a new order from a customer

    Payment: update customer balance to reflect a payment

    Delivery: deliver orders (done as a batch transaction)

    Order-status: retrieve status of customers most recent order

    Stock-level: monitor warehouse inventory

    Exercice : exprimer des requtes dcisionnelles sur ce schma et discuter les problmes rencontrs

  • 8

    22--1515 Objectifs des entrepts

    Requtes dcisionnelles

    Extraites de TPC-D:

    Retrieve the 10 unshipped orders with the highest value.

    report the amount of business that was billed, shipped, and returned.

    determines how well the order priority system is working and gives an assessment of customer satisfaction. That is, count the number of orders ordered in a given quarter of a given year in which at least one lineitem was shipped by the customer later than its committed date. The query lists the count of such orders for each order priority sorted in ascending priority order.

    22--1616 Objectifs des entrepts

    Extraction de donnes

    Extraire les donnes pour applis dcisionnelles

    problmes

    duplication d effort dans extractions multiples

    versions incohrentes, obsoltes

    ExtractionsExtractionssystmes systmes oprationelsoprationels dcideursdcideurs

  • 9

    22--1717 Objectifs des entrepts

    Exemple d extraction : TPC-D schemaExemple d extraction : TPC-D schema

    CustomerCustomerSF*150KSF*150K

    LineItemLineItemSF*6000KSF*6000K

    OrderOrderSF*1500KSF*1500K

    SupplierSupplierSF*10KSF*10K

    NationNation2525

    RegionRegion55

    PartSuppPartSuppSF*800KSF*800K

    PartPartSF*200KSF*200K

    Time2557

    Legend: Arrows point in the direction of one-to-many relationships. The value below each table name is its cardinality. SF is the Scale Factor.

    22--1818 Objectifs des entrepts

    Vue dtaille du schma

    LINEITEM (L_)ORDERKEY

    PARTKEY

    SUPPKEY

    LINENUMBER

    QUANTITY

    EXTENDEDPRICE

    DISCOUNT

    TAX

    RETURNFLAG

    LINESTATUS

    SHIPDATE

    COMMITDATE

    RECEIPTDATE

    SHIPINSTRUCT

    SHIPMODE

    COMMENT

    CUSTOMER (C_)CUSTKEY

    NAME

    ADDRESS

    NATIONKEY

    PHONE

    ACCTBAL

    MKTSEGMENT

    COMMENT

    NATION (N_)CUSTKEY

    NAME

    REGIONKEY

    COMMENT

    ORDERS (O_)ORDERKEY

    CUSTKEY

    ORDERSTATUS

    TOTALPRICE

    ORDERDATE

    ORDER-PRIORITY

    CLERCK

    SHIP-PRIORITY

    COMMENT

    REGION (R_)REGIONKEY

    NAME

    COMMENT

  • 10

    22--1919 Objectifs des entrepts

    Analyse du schma

    Quelles informations ont t extraites de TPC-C, quelles transformations ont t apportes ?

    Comparer l expression des requtes dcisionnelles prcdentes avec TPC-C

    Que peut-on dire de ce schma pour les applications dcisionnelles ?

    22--2020 Objectifs des entrepts

    Qualit des donnes

    L intgration de donnes extraites de sources multiples et htrognes pose des problmes de qualit des donnes

    absence de cl universelle

    standardisation limite

    donnes de saisie libre

    champs valeurs htrognes

    Quelles notions de qualit sont affectes ?

  • 11

    22--2121 Objectifs des entrepts

    Concept d entrept de donnes

    Vaste collection centralise de donnes

    thmatiques

    historises

    dates

    intgres

    qui offre un niveau de qualit suffisant aux applis dcisionnelles

    22--2222 Objectifs des entrepts

    Donnes thmatiques

    Les donnes sont organises par sujets mtier et non par application de production

    Exemples :

    client (contrats assurance, prts, comptes, plans detc.)

    produit (gamme, ventes, achats, cots de production, etc.)

  • 12

    22--2323 Objectifs des entrepts

    Donnes intgres

    Toutes les donnes relatives un sujet mtier sont prsentes de faon pertinente, cohrente et nonredondante

    L intgration s effectue via des processus de transformation des donnes :

    consolidation

    agrgation

    interprtation

    Ces processus doivent tre documents (via mta-donnes)

    22--2424 Objectifs des entrepts

    Donnes dates

    Les donnes de l entrept reprsentent des clichs successifs du monde rel.

    granularit de temps

    granularit de rafrachissement

    cohrence des clichs

  • 13

    22--2525 Objectifs des entrepts

    Donnes historises

    Les donnes rsident dans l entrept pour une large priode de temps.

    Ajout successif d incrments de donnes

    mises jour ou suppression rares

    chargements successifs

    archivage des donnes trop anciennes

    22--2626 Objectifs des entrepts

    Clichs vs sries chronologiques

    Time Time

    Les systmes oprationnels donnent des clichs successifs.

    Les entrepts offrent une srie chronologique.

    T1T1 T2T2 T3T3 T4T4 T5T5 T6T6

  • 14

    22--2727 Objectifs des entrepts

    OLTP vs entrept

    Property Operational Warehouse

    Response Time Sub seconds Seconds, to

    to seconds hours

    Operations DML Read only

    Nature of Data 30-60 days Historical 2-10 years

    Data Organization Application Subject, time

    Size Small to Large to very

    large large

    Data Sources Operational, Operational,

    Internal Internal, External

    Activities Processes Analysis

Recommended

View more >