ETL et Data Mining
Présenté par : Marc Catudal-Gosselin Présenté par : Marc Catudal-Gosselin
Université de Sherbrooke Université de Sherbrooke automne 2004automne 2004
Les 5 phases de mise à jour (ETL)
1. Vérification de la source
2. Altération de la source
3. Échange
4. Détermination de la cible de chargement
5. Aggrégation
Processus standard ETL (1)
Source: www.cognos.com
Processus standard ETL (2)
Source: www.cognos.com
Processus standard ETL (3)
Source: www.cognos.com
Processus standard ETL (4)
Source: www.cognos.com
Processus standard ETL (5)
Source: www.cognos.com
Processus standard ETL (6)
Source: www.cognos.com
Processus standard ETL (7)
Source: www.cognos.com
Processus standard ETL (8)
Source: www.cognos.com
Qu’est-ce que le Data Mining?
L’extraction automatique d’informations prédictives cachées à partir de larges bases de données.
« Data Mining as the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns from data »(Fayyad et al.(2000))
11
Le forage de données fonctionne principalement avec…
Arbres de décisions
« Nearest Neighbor Classification »
Réseaux neutres
Règles d’induction
K-means et analyses de groupement
Adapté de : http://www.thearling.com/dmintro/dmintro_frame.htm
Plus spécifiquement avec …
Neural networks are highly evolved systems that provide predictive modeling. These systems are very complex, and it takes time to train the system to perform human-like thinking.
Induction is a data mining technique that induces rules inherent within the data. The rules are used to understand the relationships that exist.
Statistics is the basis of all data mining techniques and requires individuals highly skilled in mathematics to build and interpret the results.
Visualization displays the data in a graphical or three-dimensional map, thereby allowing the user to identify trends, patterns and relationships.
13 Source: www.dmreview.com
Les principales applications
• La personnalisation de sites Web
• La détection de fraude (carte de crédit)
• L’analyse de texte (sas lie detector)
• « Market basket analysis » (bières et couches)
Les différents types d’analyses
• Analyses statistiques
• Découverte de données/informations [knowledge discovery]
— Analyses et algorithmes à partir de la reconnaissance de pattern, réseau neutre.
• Applications spécialisées
Exemple d’un logiciel
Clementine de SPSS
Source: www.SPSS.com
Exemple d’un logiciel
Source: www.SPSS.com
Exemple d’un logiciel
Source: www.SPSS.com
Exemple d’un logiciel
Source: www.SPSS.com
Exemple d’un logiciel
Source: www.SPSS.com
Exemple d’un logiciel
Source: www.SPSS.com
Exemple d’un logiciel
Source: www.SPSS.com
Bibliographie
Livre Berson A., Smith S., Thearling K..Building Data Mining applications for
CRM, Montréal, McGraw-Hill, 1999, 509 p.
White paper Jenning, M. (2001), Strategies for Custom Data Warehouse ETL
Processing. (document consulté en ligne le 26 octobre 2004), [en ligne], www.dmreview.com/article_sub.cfm?articleId=3603
Sites Web www.spss.com www.sas.com www.cognos.com www.thearling.com/dmintro/dmintro_frame.htm www.buzzle.com/editorials/text9-11-2004-59166.asp www.dmreview.com/article_sub.cfm?articleId=2582