5
Informatique décisionnelle et data mining Juan-Manuel Torres [email protected] LIA/Université d’Avignon www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Information du cours Cours/TP partagés • Juan-Manuel Torres / LIA Université d’Avignon [email protected] • Francois Lentin / Autoroutes du Sud de la France [email protected] • Peter Peinl / Université de Fulda (Allemagne) Data Mining 3 séances théorie – Total ……………………………….. 4.5h 5 séances de TP’s – Total ……………………………….. 7.5h 1 Examen ...................................... 1h30 Total ………………………………….. 14h Information du cours Cours : 16 Octobre (IMOD) 18 Octobre (TAIM) Cours : 23 Octobre (IMOD) 19 Octobre (TAIM) Cours : 24 Octobre (IMOD 8 Novembre (TAIM) EXAMEN : 28 Novembre TP1 Introduction a WEKA 26 Octobre (TAIM) 29 Nov (IMOD) TP2 Arbres de décision I 28 Nov (TAIM) 6 Dec (IMOD) TP3 Arbres de décision II 7 Dec (TAIM) 11 Dec (IMOD) TP4 Clusterisation 13 Dec (TAIM) 13 Dec (IMOD) TP5 Prédiction 14 Dec (TAIM) 20 Dec (IMOD) EVALUATION DU COURS Examen Torres ................................. 18% TP’s Torres (binôme)……………….. 15% 3 % chaque TP x 5 1 Examen Lentin……….……………. 33% décembre (à confirmer) Examen + TP Peinl ........................... 33 % Data mining (fouille de données) Introduction

data mining –j u a n-m el .t o rs@ iv g f - lia.univ-avignon.frlia.univ-avignon.fr/fileadmin/documents/Users/Intranet/chercheurs/... · • Cours/TP partagés • J ua n-M el To

Embed Size (px)

Citation preview

Informatique décisionnelle et data mining

Juan-Manuel [email protected]

LIA/Université d’Avignon

www.lia.univ-avignon.fr/chercheurs/torres/cours/dm

Information du cours

• Cours/TP partagés• Juan-Manuel Torres / LIA Université

d’Avignon– [email protected]

• Francois Lentin / Autoroutes du Sud de la France

[email protected]

• Peter Peinl / Université de Fulda (Allemagne)

Data Mining

3 séances théorie– Total ……………………………….. 4.5h

5 séances de TP’s – Total ……………………………….. 7.5h

1 Examen ...................................... 1h30

Total ………………………………….. 14h

Information du cours

• Cours : 16 Octobre (IMOD) 18 Octobre (TAIM)• Cours : 23 Octobre (IMOD) 19 Octobre (TAIM)• Cours : 24 Octobre (IMOD 8 Novembre (TAIM) • EXAMEN : 28 Novembre

• TP1 Introduction a WEKA• 26 Octobre (TAIM) 29 Nov (IMOD)

• TP2 Arbres de décision I• 28 Nov (TAIM) 6 Dec (IMOD)

• TP3 Arbres de décision II• 7 Dec (TAIM) 11 Dec (IMOD)

• TP4 Clusterisation• 13 Dec (TAIM) 13 Dec (IMOD)

• TP5 Prédiction • 14 Dec (TAIM) 20 Dec (IMOD)

EVALUATION DU COURS

• Examen Torres ................................. 18%• TP’s Torres (binôme)……………….. 15%

– 3 % chaque TP x 5

• 1 Examen Lentin……….……………. 33%– décembre (à confirmer)

• Examen + TP Peinl ........................... 33 %

Data mining (fouille de données)

Introduction

2004.09 - Transp 7RA Eté 2004

Datawarehouse

• Lieu de stockage intermédiaire des différentes données en vue de la constitution du système d'information décisionnel est appelé entrepôt de données (datawarehouse).

• Lieu unique de consolidation de l'ensemble des données de l'entreprises

2004.09 - Transp 8RA Eté 2004

Datawarehouse

2004.09 - Transp 9RA Eté 2004

DataWareHouse (Bill Inmon)

• «Collection de données thématiques, intégrées, non volatiles et historisées pour la prise de décisions»

• Caractéristiques : – Orienté sujets. Les données collectées sont être orientées

«métier» : triées par thème – Données intégrées. "Nettoyage" préalable des données est

nécessaire : rationnalisation et de normalisation – Données non volatiles. Une donnée entrée n'a pas vocation a

être supprimée – Les données historisées : datées

• OLAP On-Line Analytical ProcessingConcept à mi-chemin entre le système

d'information pur et les utilisateurs, permettant de faire des simulations

• OLTP On-Line Transactional Processing

Permettre une analyse multidimensionnelle sur des bases de données volumineuses afin de mettre en évidence une analyse particulière des données (il est l'objet d'un questionnement particulier)

2004.09 - Transp 11RA Eté 2004

Informatique décisionnelle "Business intelligence"

• (parfois appelé "le décisionnel") Exploitation des données de l'entreprise dans le but de faciliter la prise de décision par les décideurs

• Compréhension du fonctionnement actuel et l'anticipation des action pour un pilotage éclairé de l'entreprise

2004.09 - Transp 12RA Eté 2004

Les outils décisionnels

• Basés sur l'exploitation d'un système d'information décisionnel alimenté grâce à l'extraction de données diverses à partir des données de production, d'informations concernant l'entreprise ou son entourage et de données économiques

• ETL (Extract, Transform and Load) est chargé d'extraire les données dans différentes source, de les nettoyer et de les charger dans un entrepôt de données

• Des outils d'analyse décisionnelle permettent de modéliser des représentations à base de requêtes afin de constituer des tableaux de bord : reporting

2004.09 - Transp 13RA Eté 2004

Le multidimensionnel

2004.09 - Transp 14RA Eté 2004

Le n-cube des dimensions

2004.09 - Transp 15RA Eté 2004

La granularité des dimensions

2004.09 - Transp 16RA Eté 2004

Navigation multidimensionnelle

2004.09 - Transp 17RA Eté 2004

Les vues d’un n-cube

2004.09 - Transp 18RA Eté 2004

2004.09 - Transp 19RA Eté 2004

Bilan multidimensionnel DATA MINING (1)

• Le Datamining ("fouille de données") contrairement à l'analyse multidimensionnelle a pour but de – mettre en évidence des corrélations

éventuelles dans un volume important de données

– dégager des tendances

2004.09 - Transp 21RA Eté 2004

DATA MINING (2)

• Le datamining s'appuie sur des techniques d'intelligence artificielle afin de mettre en évidence des liens cachés entre les données

• Apprentissage de Machine– Arbres de décision– Réseaux de neurones– Support Vector Machines (SVM)– Méthodes de regroupement et clusterisation

2004.09 - Transp 22RA Eté 2004

2004.09 - Transp 23RA Eté 2004

Domaines d’utilisation

2004.09 - Transp 24RA Eté 2004

Mécanismes de base

2004.09 - Transp 25RA Eté 2004

Exemple : analyse linéaire

2004.09 - Transp 26RA Eté 2004

Méthodes

2004.09 - Transp 27RA Eté 2004

Classification

2004.09 - Transp 28RA Eté 2004

Reglès associatives

2004.09 - Transp 29RA Eté 2004

Lexique…

2004.09 - Transp 30RA Eté 2004

SEMMA (SAS)