Fouille de données - Institut de Recherche en...

Fouille de donnéesApproches supervisées

Plan du cours

1. Le pré-traitement des données

2. Méthodes non supervisées

3. Méthodes supervisées

4. Méthodes semi-supervisées

5. Fouille de données Web

Approches supervisées

Exemple d’applicationSociété de créditPour chaque client qui veut emprunter :

- Age - Statut marital - Salaire annuel - Dettes contractées - …

Faut-il accorder le crédit ?

Apprentissage supervisé

- On apprend des expériences passées

- Un ordinateur n’a pas d’expérience

- Il apprend à partir des données

- Objectif: apprendre une fonction objectif pour prédire la

valeur d’une classe

- Plusieurs noms possibles: classification, apprentissage

supervisé, machine learning

Un processus en deux étapes1. Apprentissage du modèle sur un jeu de données d’apprentissage

2. Test du modèle sur un jeu de données test

X Y Z ClasseA C E 1B D E 2A C E 1A D F 2

X Y Z ClasseB D E ?A C F ?A D E ?B D F ?

X Y Z Classeprédite

B D E 2A C F 1A D E 1B D F 2

Données d’apprentissage Modèle

Données de test Modèle Prédiction

Hypothèse fondamentaleHypothèse

Distribution des classes identique entre le jeu d’apprentissage et le jeu de test

Remarques

- Ce n’est jamais vraiment le cas en pratique

- Si la distribution est vraiment différente alors la classification sera de mauvaise qualité

- Le jeu d’apprentissage doit être suffisamment représentatif du jeu de test

Jeu de données Choix des jeux de données de test et d’apprentissage

Principes

Soit le jeu de données. On note le jeu d’apprentissage et le jeu de test. On a :

Objectif

- Etre représentatif de l’ensemble du jeu de donnée

- Eviter l’overfitting (sur-apprentissage)

Jeu de données Validation simple

PrincipesDécoupe du jeu de données en 2 : apprentissage et test A appliquer lorsque le jeu de données est large Répartition courante :

- 50 % apprentissage - 50% test - 2/3 apprentissage - 1/3 test

Tirage aléatoire ou en fonction de la temporalité de la donnée

Jeu de données Tirage multiple aléatoire

PrincipesApplicable si le jeu de données est petit Application n fois de la validation simple Obtention de n indicateurs de performance Efficacité moyenne = la moyenne des n indicateurs de performance

Jeu de données Validation croisée

PrincipesDécoupe du jeu de données en k (5 ou 10 généralement) parties On apprend sur k-1 parties et on teste sur la k ème partie Processus répété k fois (chaque partie sert de jeu de données de test) Calcul de l’efficacité globale identique au tirage multiple aléatoire

Apprentissage Test

Round 1

Round 2

Round 3

Round 4

Evaluation des méthodes- Efficacité de la classification

- Temps de calcul - Passage à l’échelle: - Interprétabilité - Compacité

Efficacité n’est qu’une mesure Erreur = 1 - efficacité Pas toujours valide sur jeux de données déséquilibrés

- Fouille de texte - Détection d’intrusion - Détection de fraude

Communément : - Classe d’intérêt : classe positive - Autre classe : classe négative

Mesures

- Très utilisé en recherche d’information - Utilisation d’une matrice de contingence

Précision et rappel

+ VP FN

- FP VN

Classe prédite

+ VP FN

- FP VN

Classe prédite

Precision

Rappel

F-mesure

+ 1 99

- 0 1000

Classe prédite

Precision

Rappel

F-mesure Remarques 1. Précision et rappel ne s’occupent

que de la classe positive 2. Peut facilement être étendu au

cas où nbClasses > 2

- Communément utilisé pour évaluer les performances d’un classifieur bi-classe

- Nécessité d’ordonner les instances selon la vraisemblance d’appartenir à la classe positive

Courbe ROC Receiver Operating Characteristic

Ratio Vrai Positif (RVP)

Ratio Faux Positif (RFP)

Sensitivité

1 - spécificité

Courbe ROC Receiver Operating Characteristic

Exploitation de la courbe

- Calcul de l’aire sous la courbe (AUC)

- AUC = 1 équivaut à un tirage aléatoire

- AUC = 1 équivaut à un classifieur parfait

Courbe ROC Construction

Rang 1 2 3 4 5 6 7 8 9 10Classe + + - - + - - + - -

VP 0 1 2 2FP 0 0 0 1VN 6 6 6 5FN 4 3 2 2

RVP 0 0,25 0,5 0,5RFP 0 0 0 0,17

Courbe ROC Construction

Rang 1 2 3 4 5 6 7 8 9 10Classe + + - - + - - + - -

VP 0 1 2 2 2 3 3 3 4 4 4FP 0 0 0 1 2 2 3 4 4 5 6VN 6 6 6 5 4 4 3 2 2 1 0FN 4 3 2 2 2 1 1 1 0 0 0

RVP 0 0,25 0,5 0,5 0,5 0,75 0,75 0,75 1 1 1RFP 0 0 0 0,17 0,33 0,33 0,50 0,67 0,67 0,83 1

- Une des techniques les plus utilisées - Efficacité compétitive - Rapide à construire - Résultat facile à interpréter

Arbres de décision

Chaque instance du jeu d’apprentissage est

couverte une et une seule fois

Arbres de décision Algorithme C4.5 [Quinlan J.,1993]

Quilan J. C4.5: programs for machine learning. 1993: Morgan Kaufmann Publishers.

Arbres de décision Gestion d’attributs numériques

- Ne gère pas nativement les attributs numériques - Nécessité de discrétiser - Deux classes sont souvent suffisantes (valeur qui maximise le gain) - Nécessite de modifier légèrement l’algorithme initial (on garde

l’attribut numérique) - Impact négatif sur la complexité temporelle

Arbres de décision Elagage de l’arbre

- Arbre potentiellement très profond - Bruit, complexité des données, caractère aléatoire - L’arbre produit ne généralise pas bien les données (sur-

apprentissage) - Elagage nécessaire (pré ou post traitement) - Si l’erreur estimée d’un noeud est inférieure ou proche de l’erreur

estimée moyenne du sous-arbre alors on élague

Arbres de décision Données manquantes et classes non-équilibrées

Situation très courante si pré-traitement mal effectué Plusieurs manières d’aborder le problème

- Remplacement par une valeur joker - Remplacement par la valeur la plus fréquente ou la moyenne

Données manquantes

Une classe apparaît significativement plus qu’une autre (alarmes) Plusieurs manières d’aborder le problème

- Augmenter la proportion de la classe sous-représentée - Echantillonner la classe sur-représentée

Classes non-équilibrées

Arbres de décision Résumé

AVANTAGES

Inconvénients

INCONVÉNIENTS

- Très utilisé- Efficacité compétitive

- Rapide à construire

- Attributs numérique ou

catégoriel- Résultats interprétables

- Données manquantes- Classes non-équilibrées

Point de vue probabiliste de l’apprentissage Soit A1,…,Ak des attributs discrets et C la classe à prédire

On cherche la classe c telle que : Pr(C=c | A1=a1,…,Ak=ak) soit maximale

Fonctionne sur données catégorielles

Classification naive bayésienne

Articles fondateursDomingos, P., & Pazzani, M. (1997). On the optimality of the simple Bayesian classifier under zero-one loss. Machine learning, 29(2-3), 103-130.

Kohavi, R., Becker, B., & Sommerfield, D. (1997). Improving simple bayes.

Langley, P., Iba, W., & Thompson, K. (1992, July). An analysis of Bayesian classifiers. In AAAI (Vol. 90, pp. 223-228).

Probabilité a priori

Inutile à des fins de classification

Par le théorème de Bayes on a :

Hypothèse d’indépendance conditionnelle

et de façon similaire pour les autres attributs

Sous l’hypothèse d’indépendance conditionnelle, on a :

Classe prédite

Classification naive bayésienne Exercice

A = m, B = q, C = ?

A B Cm b fm s fg q fh s fg q fg q tg s th b th q tm b t

Classification naive bayésienne Attributs numériques,valeurs absentes et valeurs

manquantes

Situation très courante On peut utiliser une technique de discrétisation vue précédemment

Attributs numériques

Valeurs absentesProblème si une valeur apparaît uniquement dans le jeu de test On utilise un facteur correcteur : où nij le nombre d’instances avec ai et cj, nj le nombre d’instances avec cj, mi le nombre de valeurs d’Ai et (n est la taille du jeu)

Valeurs manquantesElles sont ignorées dans le calcul

Classification naive bayésienne Résumé

AVANTAGES

Inconvénients

INCONVÉNIENTS

- Implémentation aisée

- Efficacité compétitive

- Indépendance- Attributs numériques- Valeurs absentes- Valeurs manquantes

Classification naive bayésienne sur les textes

[McCallum A. et Nigam K., 1998]

ConstatMéthode précédente assez peu efficace sur des textes

Classification de textesAssigner un document à une classe (e.g., Sports, Politique, Finance, …)

AméliorationsCadre probabiliste pour les textes Idées similaires à l’approche précédente

McCallum, A., & Nigam, K. (1998, July). A comparison of event models for naive bayes text classification. In AAAI-98 workshop on learning for text categorization (Vol. 752, pp. 41-48).

CNB sur les textes Cadre probabiliste pour les textes

- Modèle génératif probabiliste - Chaque document est généré par une distribution paramétrique - Estimation des paramètres via le jeu de données d’apprentissage

Suppositions du modèle génératif probabiliste1. Les données (ou les textes) sont générés par un modèle de

mixture 2. Correspondance une à une entre les composants de la mixture et

les classes

CNB sur les textes Cadre probabiliste pour les textes

Notations

Génération de di

Probabilité que di soit généré par le modèle de mixture

CNB sur les textes Quelques hypothèses sur les textes

Hypothèses

Génération de di

- Chaque mot d’un document est généré indépendamment de son contexte, i.e., des autres mots du document et de la classe

- La probabilité d’un mot est indépendante de sa position dans le texte - La longueur des documents est indépendante de la classe

Modélisation d’un texteLes textes sont représentés comme des sacs de mots (comme en Recherche d’Information)

Par une distribution multinomiale k tirages avec k la taille du document

Le nombre d’apparitions de wt dans di

CNB sur les textes Calcul de la probabilité conditionnelle

Application de la fonction de probabilité d’une distribution mulinomiale

Indépendant de la classe

CNB sur les textes Estimation des paramètres

Estimation à partir du jeu d’apprentissage

L’estimation de wt sachant cj est simplement le nombre de fois que wt apparaît dans un document de la classe cj

Cas des valeurs absentes

CNB sur les textes Probabilités a priori et classification

Probabilités a priori = poids des mixturesProbabilités a priori

Classification

Classification naive bayésienne Résumé

AVANTAGES

Inconvénients

INCONVÉNIENTS

- Efficace même si violation des

hypothèses (indépendance des

mots et correspondance une à

une entre classes et

composants de la mixture)

SVM Support Vector Machine

Séparateur à Vaste Marge [Vapnik V., 2013]

Classification binaire Attributs réels

Quand ?

PrincipeTrouver un séparateur dont la marge est maximale

Séparateur

Vapnik, V. (2013). The nature of statistical learning theory. Springer Science & Business Media.

SVM Pré-requis mathématiques

Optimisation non-linéaire- Méthode de Lagrange, lagrangien, multiplicateur de Lagrange - Problèmes primal et dual - Problèmes convexes et leurs résolution

Analyse fonctionnelle- Espaces de Hilbert - Espace de Hilbert à noyau reproduisant

SVM Formulation mathématique du problème

Minimiser ce terme maximise la séparabilité

Formulation

SVM Difficultés

Séparateur rarement linéaire

Séparation rarement parfaite

Séparateur

SVM SVM non linéaire

« Dans une tâche de classification supervisée, plus la dimension des données est grande, i.e., plus ils ont d’attributs linéairement indépendants, plus la probabi l i té que les c lasses soient l inéairement séparables est grande » [Théoreme de Cover, 1965]

PrincipePulvérisation des données dans un espace potentiellement infini Problème : produit scalaire en grandes dimensions est coûteux Astuce du noyau : noyau symétrique défini positif pour calculer le produit scalaire des données pulvérisées dans l’espace de représentation d’origine

Noyaux usuelsNoyau polynomial

Noyau gaussien

SVM Cas linéairement non séparable

PrincipeIntroduction de nouvelles contraintes Nouveau problème de minimisation avec contraintes

SVM Multi-classes

Un contre tousConstruction

Construction de M classifier binaires (classe + pour une classe et - pour toutes les autres)

Test Le classifieur donnant la marche la plus élevée remporte le vote et sa décision sera suivie

Un contre unConstruction

Construction de M(M-1)/2 classifieurs Test

Vote majoritaire

SVM Données catégorielles

Solutions possiblesCréation d’une variable prenant n valeurs numériques Création de n variables binaires

RemarquesMeilleures performances des variables binaires Très utilisé pour la classification de documents Fonctionne très bien pour de grandes dimensions

SVM Résumé

AVANTAGES

Inconvénients

INCONVÉNIENTS

- Solides fondations théoriques

- Très bonnes performances

- Supporte les grandes

dimensions

- Attributs réels- Classification binaire- Modèle difficilement interprétable

- Pas de construction de modèle (lazy learning vs eager learning) - Nécessite une fonction de distance - Compte la classe majoritaire dans le voisinage

K plus proches voisins

1 plus proche voisin2 plus proches voisins

3 plus proches voisins

- La classe majoritaire est élue - Possibilité de pondérer en fonction de la distance

K plus proches voisins Classification

1 plus proche voisin2 plus proches voisins

3 plus proches voisins

Très sensible au paramètre k

K plus proches voisins Résumé

AVANTAGES

Inconvénients

INCONVÉNIENTS

- Simplicité- Efficacité- Gestion des multi-classes

- Classification lente- Non gestion des données manquantes

Classification supervisée Approches ensemblistes

QuestionsNe peut on pas construire de nombreux modèles puis les combiner ? Comment les combiner ?

SolutionsGénériques :

- Bagging - Boosting

Spécifique: - Random forest

ConstatClassifieurs isolés peuvent peiner à résoudre un problème de classification Mais ils peuvent chacun être efficaces sur une partie de l’espace de données

Approches ensemblistes Bagging (Bootstrap Aggregating)

[Breiman L., 1996]

NotationsUn jeu de données D avec n exemples et un algorithme d’apprentissage M

Apprentissage1. Création de k jeu d’apprentissage, S1 à Sk, par tirage aléatoire avec remise

de n exemples 2. Création de k modèles construites sur S1 … Sk avec le même algorithme M

Test- Système de vote (poids égaux) - Election de la classe majoritaire

Breiman, L. (1996). Bagging predictors. Machine learning, 24(2), 123-140.

Bagging Forces et faiblesses

AVANTAGES

Inconvénients

INCONVÉNIENTS

Peut significativement augmenter

les performances des méthodes

instables (arbres de décision)

Peut dégrader les résultats des méthodes stables (KPP et c lass ificat ion bayésienne)

Approches ensemblistes Boosting

[Schapire R., 1990]

Idée généraleUn classifieur dit « faible » est exécuté à plusieurs reprises sur le jeu de données repondéré.

MécanismeA chaque itération t :

1. Pondération de chaque exemple selon s’il a été bien classé précédemment (fort poids si mal classé)

2. Apprentissage d’un modèle noté ht

3. Affection d’une force à ce modèle noté Sortie

Combinaison linéaire du vote des différents modèles pondéré par leur force

Schapire, R. E. (1990). The strength of weak learnability. Machine learning, 5(2), 197-227.

Boosting Pondération du jeu de données

Les exemples ne sont pas égauxPlus un exemple est dur à classer plus celui-ci devrait être « sur-représenté » dans le jeu de données

Jeu de données pondéréOn note D(i) le poids du ième exemple (xi, yi) Interprétation :

- Le ième exemple compte pour D(i) exemples - Si on doit « resampler » le jeu de données, les exemples ayant un fort

poids seront plus présents

Boosting AdaBoost

Références

- Data Mining - Concepts and Techniques par J. Han et M.Kamber (ed. Morgan Kauffman)

- Web Data Mining - ExploringHyperlink, Contents and Usage Data par B. Liu (ed. Springer)

- Statistiques Exploratoires Multidimensionnelles par L. Lebart et al. (ed. Dunod)

Ces ouvrages pointent vers de nombreuses références d’articles scientifiques décrivant les approches vues en cours ou des variantes de celles-ci

Fouille de données - Institut de Recherche en...

Documents

Arbresudsmed.u-strasbg.fr/labiostat/IMG/pdf/V_diffusion_Arbres.pdf · – Croissance de l'arbre – Elagage ... – Décision – Prédiction • Arbres de régression ... C4.5 1988

Oedipe et les fouille-merde - OpenEdition

Le réseau de transport de gaz naturel en Francecpdp.debatpublic.fr/.../20091022-diapos-.pdf · 2014. 7. 23. · Nantes. Mise en fouille 2. Mise en fouille 3. Mise en fouille 4. Mise

Thème : Méthodes de fouille de donnéesoptim-sesstim.univ-amu.fr/.../methodesfouilledatawarehouse.pdf · recours à des techniques de fouille de ... recherche d’associations entre

Fouille de données Cours 5 : La classification ...evrymiage.free.fr/M2/Fouille de donnees/cours5MIAGE_ArbresDecision... · – Par la communauté d’IA : ID3, C4.5 (Quinlan

Arbres de décision - GRAPPA -- Page d'accueil · Objectif : inférer un arbre de décision à partir d'exemples. ... C4.5 [Quinlan, 1993], CART; dimension de Vapnik-Chervonenkis?

Fouille des données - mma.perso.eisti.frmma.perso.eisti.fr/HTML-DM/Cours/Cours1/datamining.pdf · utiles et compréhensibles [Fayyad et al., 1995] Fouille des donnees – p. 2/´

Rapport intermédiaire sur la fouille du gisementns2014576.ovh.net/files/original/120b6fdc5b2c7d6b...PLOUHINEC, FINISTERE Rapport intermédiaire sur la fouille du gisement paléolithique

La fouille archéologique (2)

Fouille de données Web

fouille des données

Fouille d'images géoréférencées avec RapidMinergeoimagermp.gforge.inria.fr/SAGEO_2013_RapidMiner.pdf · Fouille d'images géoréférencées avec RapidMiner Thomas Guyet1,3, Hervé

LES SOINS Arbres À PRODIGUER n° AUX ARBRES

fouille de E.D.F. de Ferrières-sur-Arièse)

Fouille de données: Analyse de clusters

Arbres Reconnaitre Les Arbres Sans Peines Keith Rushforth Nathan

Fouille de Données Processus ECD, fouille de motifs, clustering

FOUILLE DE GRANDES BASES DE DONNEES …archimer.ifremer.fr/doc/00213/32413/30882.pdf · "FOUILLE DE GRANDES BASES DE DONNEES OCEANIQUES: NOUVEAUX DEFIS ET ... le stockage et la fouille

Fouille de Texte (Text Mining)

Fouille de données complexes