Upload
aboulfadl-mustapha
View
42
Download
3
Embed Size (px)
CONCEPT&
ARCHITECTUREDU DATAMINING& WAREHOUSINGABDELLAH DAISSAOUI
1
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
2
… Mon problème est de pouvoir disposer de la bonne information au bon moment pour être en mesure de prendre la meilleure décision.
Je n’ai pas un problème de manque de données…
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
PROBLÉMATIQUE
Ex1 : prédire le changement de loyauté des clients par rapport à un marché très compétitif
Ex2 : quelles sont les vaches à garder dans la ferme et celles à vendre à un abattoir
Ex3 : quels sont les clients susceptibles de s’intéresser à un nouveau produit
Ex4: Anticiper les changements de comportement Ex5: Gestion de la date limite de conservation Ex6: le WinBack
3
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
POURQUOI FOUILLER LES DONNÉES ?De nombreuses données sont collectées et
entreposées Données du Web, e-commerce Achats dans les supermarchés Transactions de cartes bancaires Capteurs : RFID, supervision de procédé Télescopes Puces à ADN générant des expressions de gènes Simulations générant de téraoctets de données …..
4
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
POURQUOI FOUILLER LES DONNÉES ?
Les ordinateurs deviennent de moins en moins chers et de plus en plus puissants.
La pression de la compétition est de plus en plus forte.Une absence de réaction : une entreprise qui perd 10 %
de ses stocks réagit, mais, lorsqu’elle perd 10 % de ses clients au profit de ses concurrents, elle n’est souvent pas capable de le voir !
Une absence de suivi : alors que 87 % des entreprises mentionnent la satisfaction client comme un des points essentiels dans la réussite de l’entreprise, moins de 18 % ont mis en place une méthode de mesure de cette satisfaction !
Fournir de meilleurs services, s’adapter aux besoins des clients CRM. 5
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
POURQUOI FOUILLER LES DONNÉES ?
La gestion de la relation client (GRC<=>CRM) est la capacité à identifier, à acquérir et à fidéliser les meilleurs clients dans l’optique d’augmenter le chiffre d’affaires et les bénéfices.
Le terme de gestion de la relation client est devenu le fédérateur de nombreux fournisseurs de solutions informatiques. Des logiciels d’automatisation de la force de vente aux outils de data mining, de centres d’appels ou de géomarketing, tout le monde fait de la gestion de la relation client ou du capital client. Il est évident que le discours marketing arrive à donner un côté neuf à des préoccupations anciennes et constantes des entreprises. 6
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
CALCULE DE STOCKAGE DES DONNÉES
1 byte = 8 bits 1 kilobyte (K/KB) = 2 ^ 10 bytes = 1,024 bytes 1 megabyte (M/MB) = 2 ^ 20 bytes = 1,048,576 bytes 1 gigabyte (G/GB) = 2 ^ 30 bytes = 1,073,741,824 bytes 1 terabyte (T/TB) = 2 ^ 40 bytes = 1,099,511,627,776 bytes 1 petabyte (P/PB) = 2 ^ 50 bytes = 1,125,899,906,842,624 bytes 1 exabyte (E/EB) = 2 ^ 60 bytes = 1,152,921,504,606,846,976
bytes 1 zettabyte (Z/ZB) =1 000 000 000 000 000 000 000 bytes 1 yottabyte (Y/YB) =1 000 000 000 000 000 000 000 000 bytes
7
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
POURQUOI FOUILLER LES DONNÉES ?
Les techniques traditionnelles ne sont plus adaptées Volume de données trop grands (trop de tuple,trop d’attributs)« Comment explorer des millions d’enregistrements avec des milliers
d’attributs ? » Besoins de répondre rapidement aux opportunités Requêtes traditionnelles (SQL) impossibles« Rechercher tous les enregistrements indiquant une fraude » Croyance dans la présence de données importantes
8
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
RÉSULTAT
Clients et leurs comportements
Croissance dramatique des données
DATA RICH but INFORMATION POOR 9
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
DONNÉE VS INFORMATION
« Une donnée décrit des exemples ou des événementsprécis, elle peut être recueillie de manière automatiqueou par écrit, son exactitude peut être vérifiée parréférence au monde réel »
Ex: le détail des achats d’un client tels qu’ils apparaissent sur son ticket de caisse illustre ce concept de donnée.
« une information décrit une catégorie abstraite, chaquecatégorie peut couvrir plusieurs exemples, des expertsont nécessaire pour recueillir et formaliser cetteinformation »
Ex: l’interprétation des données relatives à un client peut conduire à le classer comme bon ou client à risque; ces deux qualités illustrent ce concept de catégorie abstraite. 10
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
DATAWAREHOUSE Le data warehouse est une collection de données orientées sujet,
intégrées, non volatiles et historisées, organisées pour le supportd’un processus d’aide à la décision
Désigne une BD utilisée pour collecter et stocker de manièredéfinitive des informations volatiles provenant d'autres bases dedonnées.
Chaque information collectée se voit affecter une date, ou unnuméro de version.
les informations des différentes bases de données d'une entreprisesont collectées dans un seul entrepôt de données.
On dit que le datawarehouse est orienté « métier » Le datawarehouse est conçu pour contenir les données en
adéquation avec les besoins actuels et futurs de l’organisation, etrépondre de manière centralisée à tous les besoins des utilisateursen terme d’information d’aide à la décision. 11
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
OLTP VS DATAWAREHOUSE
OLTP DW
Orienté transaction Orienté analyse
Orienté application Orienté sujet
Données courantes Données historisées
Données détaillées Données agrégées
Données évolutives Données statiques
Utilisateurs nombreux Utilisateurs peu nombreux
Temps d’exécution : court Temps d’exécution : long
12
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
DATAWAREHOUSE : CONCEPTS
présentées selon différents axes d'analyse ou« dimensions » (par exemple : le temps, les types ousegments de clientèle, les différentes gammes deproduits, les différents secteurs régionaux oucommerciaux, etc.).
non volatiles : stables, en lecture seule, nonmodifiables.
intégrées en provenance de sources hétérogènes oud'origines diverses
archivées et donc datées
13
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
DATAMART
Le DataMart est un ensemble de données ciblées, organisées, regroupées et agrégées pour répondre à un besoin spécifique à un métier ou un domaine donné.
Un DataMart (littéralement en anglais magasin de données) est un sous-ensemble d’un Datawarehouse
utiliser via des logiciels d’interrogation de bases de données (notamment des outils de reporting) afin de renseigner ses utilisateurs sur l’état de l’entreprise à un moment donné (stock) ou sur son activité (flux). 14
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
PLACE DU DATAMART
15
Gestion de stock CRM Etc…
Outils de gestion de la production
Datamartcommercial
DatamartRH Etc…
DB décisionnelle
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
ARCHITECTURE GÉNÉRALE
Sources de données 16
EXTRACTION
Transformation
Nettoyage
Normalisation
CHARGEMENT
DATAWAREHOUSE
DataMart
Requêtes(OLAP)
Rapports(BI)
Datamining
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
MODÉLISATION DW
Nouvelle méthode de conception autour des concepts métiers.
Introduction de nouveaux types de table:Table de faitsTable de dimensions
Introduction de nouveaux modèlesModèle en étoileModèle en flocon
17
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
TABLE DE FAIT
Table principale du modèle dimensionnel Contient les données observables (les faits) sur le
sujet étudié selon divers axes d’analyse (dimension)
Clé étrangèresvers les dimensions
FAITS18
Table de faits des ventes
Clé date (CE)Clé produit (CE)Clé magasin (CE)Quantité vendueCoûtMontant des ventes
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
TABLE DE DIMENSION
Axe d’analyse selon lequel vont être étudiées les données observables (faits)
Contient le détail sur les faits
19
Dimension produitClé produit (CP)Code produitDescription de produitGroupe de produitMarqueEmballagePoids
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
ALIMENTATION DU DW Un data warehouse est mis à jour réguliérement Besoin d’un outils permettant d’automatiser les
chargements des données dans le DW.
ETL => Extract, Transform, Load
Permet de découvrir, analyser et extraire les données à partir e sources hétérogènes.
Permet de nettoyer et standardiser les données. Permet de charger les données dans un DW.
20
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
21
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
ARCHITECTURE : INTRODUCTION Il ya un éventail d'opinions en ce qui concerne
l'architecture optimale des entrepôts de données. tout le monde sera d'accord à ceci: une architecture
des d'entrepôt de données varient considérablement. Certaines architectures place de lourd accent sur le
schéma en étoile, tandis que d'autres l'utilise dans une capacité limitée.
Les principes de conception dimensionnelle sont les mêmes, partout où ils sont mis à utiliser. Ce chapitre est concerné par ces principes.cependant, avec la diversité des architectures, vient
une confusion. Les mêmes termes sont utilisés pour décrire des
choses différentes. Différents termes sont utilisés pour décrire la même
chose.
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
OBJECTIF Trois catégories d’approche. Les deux premiers sont souvent appelés architectures
d’entrepôt de données , et sont étroitement associés àBill Inmon et Ralph Kimball, respectivement. Letroisième n'a pas une figure de proue bien connus.
Bien que ces architectures diffèrent de façonfondamentale, il ya une place pour le schéma en étoiledans chacun d'eux.
«Quel la meilleures architecture d'entrepôt dedonnées?.
les objectifs de ce chapitre sont simples:
1.Comprendre l'approche à un niveau élevé de détail2.Comprendre la place du schéma en étoile danschaque architecture.3.Eliminer certaines idées fausses
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
FEUILLE DE ROUTE
Chaque mise en œuvre dans le monde réel est différente.
Vous devriez faire un effort pour comprendre les solutions de rechange.
Cela vous donnera une meilleure idée de ce qui est et sur ce n'est pas vrai sur la conception dimensionnelle.
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
APPROCHE 1 : INFORMATION CORPORATE FACTORY
... Si je devais concevoir un entrepôt de données de demain, je ne serais pas envisager d'utiliser une autre approche.
Bien que ce n'est pas une surprise pour les gens qui suivent l'approche Inmon à l'entreposage de données, ces paroles ne cessent jamais d'étonner les adeptes d'autres approches.
Inmon est un écrivain prolifique et un contributeur à l'entreposage de données communautaires.Grâce à des centaines d'articles et des dizaines de livres, il a développé et partagé une approche à l'entreposage de données qu'il appelle la Information Corporate Factory .
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
APPROCHE 2 :ARCHITECTURE KIMBALL Ralph Kimball a apporté de nombreuses contributions
importantes dans le monde de l'entreposage de données, et ses deux meilleurs contributions à la fois liées à la conception tridimensionnelle. Tout d'abord, dans les années 1990, il a été en grande partie responsable pour avoir popularisé la conception avec le schéma en étoile.
Par ses écrits, Kimball a synthétisé et systématisé une série de techniques qui avaient été en usage dès les années 1960. Il a expliqué comment la conception dimensionnelle fournies une manière compréhensible et puissante pour développer des bases de données analytiques.
Deuxièmement, Kimball a développé une architecture pour les entrepôts de données, fondée sur le concept de la conception tridimensionnelle.
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
29
Avantages du modèle Dimensionnel
• Conçu pour un requêteur : performances;• Peut être modifié sans peine (faits nouveaux, dimensions nouvelles ,attributs dimensionnels nouveaux, granularité variable);• Doit être capable d’intégrer de nouvelles sources.
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
30
Cube de données
Dans un modèle dimensionnel, on cherche à représenter les données dans un cube (ou hypercube).• analyse ascendante : « synthétiser »• analyse descendante : « détailler »
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
31
• Construction de l’ED datamart par datamart, pouréviter une trop grande complexité
• Eviter les « tuyaux de poêle »
• élaborer un « bus décisionnel » grâce auxdimensions conformes
Planification
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
32
• Une table de dimension en relation avec plusieurstables de fait est dite conforme
• Cohérence des interfaces utilisateurs et descontenus
• Cohérence de l’interprétation des attributs
Grande importance dans la conception
Dimension conforme
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
33
1 - voyages aériens
Quel est le chiffre d’affaires (CA) par client, par datede voyage (et par mois, trimestre et année), parcompagnie aérienne, par ville de destination ? Lestableaux de bord doivent pouvoir présenter lestotaux et sous totaux de CA : tous clients confondus,et/ou toutes dates, et/ou toutes compagnies, et/outoutes destinations.
Exemple de l’agence de voyage
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
34
Exemple de l’agence de voyage
Fact_AVcc, ca, cv, ct,
PrixDim_Client
Dim_CompAer Dim_Temp
Dim_Ville
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
35
2 – location de voiture
Dans le cas de la location de voiture, on souhaiteéditer le CA, le nombre de jours de location, et lekilométrage pour chaque :client, date de réservation, ville, loueur, et catégoriede véhicule, ainsi que toutes les sommations de lamême manière que pour les déplacements.
Exemple de l’agence de voyage
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
36
Schéma dimensionnelDimension Dimension
client ville
Code clientLoueur
Ville de locationDate de location
Dimension Prix payé Dimensionloueur Date Distance parcourue
Exemple de l’agence de voyage
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
37
3 - hôtel
Dans le cas de l’hôtellerie, on veut des tableaux debord par client, hôtel, ville, date de début de séjour,faisant apparaître le nombre de nuitées et le prixtotal payé .
Exemple de l’agence de voyage
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
38
Schéma dimensionnelDimension Dimension
client villeCode clientHôtelier
Ville de séjourDate de début
Nombre de nuitées Dimension Prixpayé Dimension
Hôtelier Date
Exemple de l’agence de voyage
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
39
RegroupementOn veut maintenant regrouper ces trois ED en un seul, afinde répondre aux questions supplémentaires suivantes :Quel est le CA total induit par un déplacement en avion ?Quelle est la durée du séjour ? Quel est le CA en location devoiture ? En hôtellerie ?On veut pouvoir éditer les détails de CA par période detemps et par client, ville, compagnie aérienne, loueur ethôtelier, et faire tous les regroupements utiles.Figurer le modèle dimensionnel d’un tel ED, en montrant enparticulier comment l’on peut retrouver location de voitureet/ou hôtellerie, si elles existent, à partir d’un déplacement enavion. Un voyage en avion n’implique pas forcément locationde voiture et/ou hôtellerie, et inversement.
Exemple de l’agence de voyage
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
40
• On privilégie le niveau le plus fin
Evolutivité
Puissance
Efficacité du Data mining
Niveau de détail
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
41
• Définition : dimension dont les champs àfaible cardinalité sont dans des tablesséparées, reliées à la table d’origine aumoyen de clés artificielles.
• Non recommandé : performances,complexité
• Gain en espace disque non déterminant
Floconnage
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
LES DIMENSIONS CONFORMES
L'entrepôt de données dimensionnel n'est pas nécessairement centralisées dans une base de données unique.
La notion de conformité est utilisé pour assurer la capacité du data warehouse.
provenant de fournisseurs différents. Le terme ETL sera utilisé au sens large, se référant à
une activité qui déplace les données d'une base de données à un autre.
De même, des outils et des applications qui accèdent aux données analytiques, y compris outils emballés de business intelligence, outils de reporting, et les applications analytiques, seront regroupés sous le terme d'outils de business intelligence.
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
KDD – DATA MINING
Gregory Piatetsky-Shapiro et Christopher J. Matheus ‘Data Mining, or Knowledge Discovery in Databases
(KDD) as it is also known, is the nontrivial extraction of implicit, previously unknown, and potentially useful information from data’.
Arno Siebes ‘Data mining is the search for relationships and global patterns that exist in large databases but are ‘hidden’ among the vast amount of data, such as a relationship between patient data and their medical diagnosis’.
43
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
OUTILS DU DATA MINING
IBM DB2
INFORMIX-On Line XPS
ORACLE 9i, 10g et 11g.
Clementine SPSS.
Intelligent Miner.
SYBASE Sys. 44
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
EMERGENCE ECD :DOMAINES D’APPLICATIONS
Banque : Identifier les clients fidèles. Prédire les clients qui peuvent changer leur affiliation
de carte de crédit. Prédire si un client remboursera sont prés ou nonVente & Marketing Identifier les habitudes d’achat des clients Prédire la réponse au mail des compagnes de COM Constitution des rayonnagesAssurance analyse des risques (caractérisation des clients à
hauts risques, etc.) automatisation du traitement des demandes 45
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
EMERGENCE KDD :DOMAINES D’APPLICATIONS
46
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
TYPES D’APPRENTISSAGE
Apprentissage simple => SQLEx : la somme totale des ventes d’un produits en
2008.
Apprentissage multidimensionnel => OLAPEx: le produit le plus vendu, dans le pays P, la
région R, le département D, en mois 12, dans les 5 derniers années.
Apprentissage cacher => DATA MININGEx: le produit qui sera le mieux vendu en mois 12,
dans le pays P, la région R, le département D. 47
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
PRÉ-PROCESSUS
Avant de s’engager dans un processus de data mining,il faut exposer le problème et définir les objectifs, lerésultat attendu ainsi que les moyens permettent demesurer le succès. Il s’agit de comprendre le contextede la recherche et recueillir les intuitions et lesconnaissances des experts afin d’orienter le processus.1- formulation du problème2- définir la typologie du problème3- définir les résultats
48
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
PRÉ-PROCESSUS
Formulation du problème: Cette étape consiste à formuler le problème sous une forme qui
peut être traitée avec les outils de modélisation. Est-ce qu’ils’agit d’un problème de détection de fraude, diagnostic depannes…
Découper le problème complexe on sous problème de complexitémoindre, et à collecter les données en relation avec chaque souspartie.
Définir la typologie du problème: Vise à comprendre un phénomène précis et identifiable, c-à-d
est ce que c’est un problème d’affectation ou structuration.Définir les résultats définir les attentent, les individus qui utilisent les résultat et
les décision à prendre.
49
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
PROCESSUS DU DATA MINING
50
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
RECHERCHE ET SÉLECTION DES DONNÉES
51
Il s’agit de déterminer la structure générale des données, identifierles données exploitables et vérifier la qualité et la facilité d’accès.1- investigation : définir les attributs les plus aptes àdécrire la problème2- Etudier l’exhaustivité des données ou bien un échantillon. leniveau de précision, le budget alloué et la puissance des outils.
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
NETTOYAGE DES DONNÉES
52
Corriger et/ou contourner les inexactitudes ou les erreurs qui sont glissées dans les données, imposent une phase de nettoyage.En générale c’est le problème des valeurs aberrantes,manquantes et nulle.
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
ENRICHISSEMENT DES DONNÉES
53
C’est la phase responsable d’ajout d’autre attributs , soit à partir dessources externes, ou le calcul d’autre attributs pour trouver l’attributmanquant.
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
EXEMPLE DU PROCESSUS
54
transformation des données
Données finales
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
LES TECHNIQUES DU DATAMINING
il existe plusieurs méthodes permettentl’élaboration d’un concept datamining, cesméthodes implique l’utilisation d’algorithmesspécifiques.Les méthodes datamining peuvent être divisées en deux grandes familles
DESCRIPTIVE vs PREDECTIVE
55
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
MÉTHODES DESCRIPTIVES
Ces méthodes visent à mettre en évidence des informations présentes mais cachées par le volume des données, On parle de la classification non supervisée « eng: Clustering »
recherche des groupes « clusters » dans un ensemble de données avec la plus grande similarité possible intra-groupe et la plus grande dissimilarité possible inter-groupe.
Ex : c’est le cas de segmentation de la clientèle et de recherche d’association des produits sur les tickets de caisse.
56
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
MÉTHODES DESCRIPTIVES
Le clustering admet deux types de méthodes :
méthode non hiérarchique « par partitionnement » elle regroupe en K groupes ‘classes’ toutes les observations simultanément « algorithme k-means »
Méthode hiérarchique procède séquentiellement à regrouper les observation les plus semblable comme premier pas « algorithme d’agglomération », ou le résultat est représenté sous forme d’une structure arborescente que l’on appelle dendrogramme
57
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)
MÉTHODES PRÉDICTIVE
Elles visent à extrapoler de nouvelles informations à partir des informations existantes c’est le cas du SCORING, on parle ici du classement ou bien classification supervisée.
Classement : utilise des algorithmes disponibles dans l’ensemble des environnements de fouille de données, produisons des graphes avec des règles qui sont interprétable facilement par les utilisateurs.
58
Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)