Upload
flavie-grand
View
110
Download
0
Embed Size (px)
Citation preview
28/04/2003 ©PEPITe S.A. Page 2
« Data Mining »En bref…
Techniques informatiques d’exploration automatique de donnéesExtraction de connaissances à partir de données assistée par ordinateurLes piliers:
Visualisation d’informationLa statistiqueL’apprentissage automatique:
• Réseaux de neurones• Arbres d’induction (décision, régression,..)
L’intelligence artificielle
28/04/2003 ©PEPITe S.A. Page 4
CRISP-DM
28/04/2003 ©PEPITe S.A. Page 5
Statistique
Synthétiser l’information (moyenne, écart-type, etc.)Sélection MANUELLE des modèlesTests d’hypothèses pour valider les choix des modèlesMieux adapté pour des petites bases de donnéesMéthodes plus complexes demandant une grande expertise pour une utilisation efficace
28/04/2003 ©PEPITe S.A. Page 6
Visualisation
28/04/2003 ©PEPITe S.A. Page 7
Apprentissage Automatique
Extraction de la Connaissance
Construction de modèles à partir d’observations (ou de simulations) d’un systèmeDans le but de:
Expliquer le comportement du systèmePrédire le comportement du système
Pas d’hypothèses sur les modèles de départMAIS, nécessité d’un minimum d’observations
28/04/2003 ©PEPITe S.A. Page 8
IA : Systèmes ExpertsModélisation de la Connaissance
La machine imite le comportement de l’être humainCapacité d’apprendre et de raisonner Capacité de proposer des solutions déduites de prédicatsIntroduction préable des règles (IF…THEN…) et de faits par l’expertOutils d’inférence : PROLOG, CLIPS, JESS, LISP, OPENCYC,…Gestion d’alarmes, jeux,…
28/04/2003 ©PEPITe S.A. Page 9
Apprentissage Automatique Supervisé
Entrées Xi : données du débiteurSortie Y : solvabilitéConstruction du modèle Y = F(X1,…XN)Diviser la BD en un ensemble d’apprentissage et un ensemble de testApprendre avec EAValider quantitativement le modèle avec ETValider qualitativement le modèle avec expertExploitation du modèle
28/04/2003 ©PEPITe S.A. Page 10
SuperviséClassement & Régression
Sortie Y continue : régressionTaux de rebuts
Sortie Y discrète : classementTaux de rebuts acceptable/non acceptable
28/04/2003 ©PEPITe S.A. Page 11
Apprentissage Automatique
Non-SuperviséApprendre les relations entre variablesPas de distinction entre variables d’entrées et de sortiesExemple :
Retrouver des journées de productions similairesRetrouver des corrélations entre attributs (mesures similaires)
Méthodes :Dendrogramme, K-MEANS
28/04/2003 ©PEPITe S.A. Page 12
SuperviséArbres de Décision
Apprentissage automatique supervisé pour le classementConstruction
A chaque noeud recherche de la meilleure entrée et de la bonne questionSéparation du noeud en deux fils en fonction de la réponse à la questionArrêt du développement
Utilisation Propagation d’un nouvel objet dans l’arbre, le noeud terminal indique la classe de l’objet
28/04/2003 ©PEPITe S.A. Page 13
Arbre de DécisionConstruction
T° > 54°CT° > 54°CYY
NYY
N
28/04/2003 ©PEPITe S.A. Page 14
Atouts des Arbres
Interprétable :Lecture facile des règlesPlus facile pour la validation qualitative
Sélection des paramètres relevantsConstruction très rapideDifférentes variantes :
Arbres de régression (sortie continue)Arbres flous (sortie continue et discrète)Ensemble d’arbres
28/04/2003 ©PEPITe S.A. Page 15
Problématique des Données
Qualité:erreurs d’encodagebruits valeurs manquantes
Quantité:taille minimum requise de la BD imprévisible (dépend de la complexité du problème)
28/04/2003 ©PEPITe S.A. Page 16
Types de Données
ImagesSonsDonnées symboliques (grand, petit, chaud, froid,…)Données numériquesDonnées temporelles
28/04/2003 ©PEPITe S.A. Page 17
Méthodes
Régression multivariéeArbres (régression, classif., flous,…)Réseaux de neuronesRéseaux baysiensAnalyse Composantes Principales (ACP – PCA)Machines à support vectoriel…
28/04/2003 ©PEPITe S.A. Page 18
La Meilleure Méthode ?
Toutes et aucuneDépend du type de problèmeDépend des besoins
Précision : réseau de neuronesInterprétabilité : arbres de décison
Nécessité de disposer d’une boîte à outils robuste, flexible et adaptable
28/04/2003 ©PEPITe S.A. Page 19
Manufacturing Industry
ERP: planning, scheduling, supply and logistics ERP: planning, scheduling, supply and logistics
MES: plant-wide optimization &management MES: plant-wide optimization &management
Automation, advanced process control,abnormality management
Automation, advanced process control,abnormality management
Basic control, rectification, statistical analysis Basic control, rectification, statistical analysis
Measurement and sensing, on-line monitoring Measurement and sensing, on-line monitoring
11
22
33
44
55
28/04/2003 ©PEPITe S.A. Page 20
PROCESSPROCESS
DATADATA
EXPERTEXPERT
KNOWLEDGKNOWLEDGEE
28/04/2003 ©PEPITe S.A. Page 21
Applications en Économie
eCRM analytique : analyse du comportement des clients, des interactions & optimisation de métriques de satisfaction
Détection de fraudeStratégies de tradingOptimisation de portfolioBâle II : mesure et analyse du risque dans le gestion des fonds propres des banques
Page 22 ©PEPITe S.A. 28/04/2003
Links2go
http://www.cwu.edu/~borisk/financehttp://www.aaai.orghttp://www.aaai.org/AITopicshttp://www.kdnuggets.comhttp://www.crisp-dm.orghttp://www.montefiore.ulg.ac.be/services/stochastic
28/04/2003 ©PEPITe S.A. Page 23
Slides et logiciel disponibles sur www.pepite.beLogin : EAA / Mot de passe AA_1000