Upload
lykhuong
View
219
Download
0
Embed Size (px)
Citation preview
Informatique décisionnelle et data mining
Juan-Manuel [email protected]
LIA/Université d’Avignon
www.lia.univ-avignon.fr/chercheurs/torres/cours/dm
Information du cours
• Cours/TP partagés• Juan-Manuel Torres / LIA Université
d’Avignon– [email protected]
• Francois Lentin / Autoroutes du Sud de la France
• Peter Peinl / Université de Fulda (Allemagne)
Data Mining
3 séances théorie– Total ……………………………….. 4.5h
5 séances de TP’s – Total ……………………………….. 7.5h
1 Examen ...................................... 1h30
Total ………………………………….. 14h
Information du cours
• Cours : 16 Octobre (IMOD) 18 Octobre (TAIM)• Cours : 23 Octobre (IMOD) 19 Octobre (TAIM)• Cours : 24 Octobre (IMOD 8 Novembre (TAIM) • EXAMEN : 28 Novembre
• TP1 Introduction a WEKA• 26 Octobre (TAIM) 29 Nov (IMOD)
• TP2 Arbres de décision I• 28 Nov (TAIM) 6 Dec (IMOD)
• TP3 Arbres de décision II• 7 Dec (TAIM) 11 Dec (IMOD)
• TP4 Clusterisation• 13 Dec (TAIM) 13 Dec (IMOD)
• TP5 Prédiction • 14 Dec (TAIM) 20 Dec (IMOD)
EVALUATION DU COURS
• Examen Torres ................................. 18%• TP’s Torres (binôme)……………….. 15%
– 3 % chaque TP x 5
• 1 Examen Lentin……….……………. 33%– décembre (à confirmer)
• Examen + TP Peinl ........................... 33 %
Data mining (fouille de données)
Introduction
2004.09 - Transp 7RA Eté 2004
Datawarehouse
• Lieu de stockage intermédiaire des différentes données en vue de la constitution du système d'information décisionnel est appelé entrepôt de données (datawarehouse).
• Lieu unique de consolidation de l'ensemble des données de l'entreprises
2004.09 - Transp 8RA Eté 2004
Datawarehouse
2004.09 - Transp 9RA Eté 2004
DataWareHouse (Bill Inmon)
• «Collection de données thématiques, intégrées, non volatiles et historisées pour la prise de décisions»
• Caractéristiques : – Orienté sujets. Les données collectées sont être orientées
«métier» : triées par thème – Données intégrées. "Nettoyage" préalable des données est
nécessaire : rationnalisation et de normalisation – Données non volatiles. Une donnée entrée n'a pas vocation a
être supprimée – Les données historisées : datées
• OLAP On-Line Analytical ProcessingConcept à mi-chemin entre le système
d'information pur et les utilisateurs, permettant de faire des simulations
• OLTP On-Line Transactional Processing
Permettre une analyse multidimensionnelle sur des bases de données volumineuses afin de mettre en évidence une analyse particulière des données (il est l'objet d'un questionnement particulier)
2004.09 - Transp 11RA Eté 2004
Informatique décisionnelle "Business intelligence"
• (parfois appelé "le décisionnel") Exploitation des données de l'entreprise dans le but de faciliter la prise de décision par les décideurs
• Compréhension du fonctionnement actuel et l'anticipation des action pour un pilotage éclairé de l'entreprise
2004.09 - Transp 12RA Eté 2004
Les outils décisionnels
• Basés sur l'exploitation d'un système d'information décisionnel alimenté grâce à l'extraction de données diverses à partir des données de production, d'informations concernant l'entreprise ou son entourage et de données économiques
• ETL (Extract, Transform and Load) est chargé d'extraire les données dans différentes source, de les nettoyer et de les charger dans un entrepôt de données
• Des outils d'analyse décisionnelle permettent de modéliser des représentations à base de requêtes afin de constituer des tableaux de bord : reporting
2004.09 - Transp 13RA Eté 2004
Le multidimensionnel
2004.09 - Transp 14RA Eté 2004
Le n-cube des dimensions
2004.09 - Transp 15RA Eté 2004
La granularité des dimensions
2004.09 - Transp 16RA Eté 2004
Navigation multidimensionnelle
2004.09 - Transp 17RA Eté 2004
Les vues d’un n-cube
2004.09 - Transp 18RA Eté 2004
2004.09 - Transp 19RA Eté 2004
Bilan multidimensionnel DATA MINING (1)
• Le Datamining ("fouille de données") contrairement à l'analyse multidimensionnelle a pour but de – mettre en évidence des corrélations
éventuelles dans un volume important de données
– dégager des tendances
2004.09 - Transp 21RA Eté 2004
DATA MINING (2)
• Le datamining s'appuie sur des techniques d'intelligence artificielle afin de mettre en évidence des liens cachés entre les données
• Apprentissage de Machine– Arbres de décision– Réseaux de neurones– Support Vector Machines (SVM)– Méthodes de regroupement et clusterisation
2004.09 - Transp 22RA Eté 2004
2004.09 - Transp 23RA Eté 2004
Domaines d’utilisation
2004.09 - Transp 24RA Eté 2004
Mécanismes de base