36
EGC-03. Nouveaux résultats Nouveaux résultats en en classification classification à l’aide d’un codage à l’aide d’un codage par par motifs fréquents motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard (LIMSI) CNRS - Université de Paris-Sud, Orsay

EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Embed Size (px)

Citation preview

Page 1: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

EGC-03.

Nouveaux résultats Nouveaux résultats

en en classificationclassification

à l’aide d’un codageà l’aide d’un codage par par motifs fréquentsmotifs fréquents

S. Jouteau, A. Cornuéjols, M. Sebag (LRI)

Ph. Tarroux & J-S. Liénard (LIMSI)

CNRS - Université de Paris-Sud, Orsay

Page 2: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 2/36

Données en grandes dimensionsDonnées en grandes dimensions

Définies par un très grand nombre d’attributs(Note : l’un des 10 pbs soulevés lors du congrès mondial de

mathématiques en 2000)

Exemples : Puces ADN

E.g. 6400 gènes,

organismes sains ou irradiés

Images E.g. 256*256*(256 niveaux de gris)

Formes présentes dans l’image

Page 3: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

3/36Journée « Fouille d’images » 01/04/03

L’objectifL’objectif

Apprentissage supervisé multi-classes

Beaucoup de dimensions + peu d’exemples

= Difficulté pour distinguer vraies régularités et coïncidences

Identifier des régularités dans des données de très grandes dimensions

Page 4: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 4/36

PrétraitementsPrétraitements

Réduction de dimension

Sélection d’attributs

Élimination des redondances (ACPACP, …)

Recherche de corrélations (attribut-classe)

Modélisation : hypothèses sur la statistique du signal

Analyse de FourrierFourrier

Analyse en ondelettesondelettes

Page 5: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 5/36

Cas de l’analyse de scènesCas de l’analyse de scènes

Scènes naturelles ≠ scènes artificielles

Observations neurobiologiques : codage clairsemé

Hypothèse : signal résultant d’une superposition de « formes

latentes »

Analyse en composantes indépendantes (ACI)

Page 6: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 6/36

L’analyse en composantes indépendantesL’analyse en composantes indépendantes

Mais : Inapplicable en grande dimension

Hypothèse de linéarité

( Introduite en 1984. Développée dans les 90s )

Hyp. de base : les données résultent d’une combinaison linéaire de formes latentes

Recherche de ces formes latentes

Page 7: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 7/36

L’ACI en analyse de scènesL’ACI en analyse de scènes

Les scènes sont décomposées en imagettes …

… codées par des superpositions linéaires de formes latentes

Page 8: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 8/36

Le projetLe projet

Peut-on rechercher directement un codage clairsemé ?Peut-on rechercher directement un codage clairsemé ?

Idée : adapter des techniques de fouilles de donnéesadapter des techniques de fouilles de données

Recherche de motifs fréquents

Page 9: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 9/36

Les motifs fréquentsLes motifs fréquents

Le problème Étant donné une base de données consistant en tuples,

trouver des règles d’association prédisant avec confiance quels items se trouvent souvent ensemble (Frequent ItemSets)

Exemple canonique (mais mythique) Les caddys dans les supermachés Un tuple = ensemble d’items achetés ensemble

En général : Beaucoup de motifs fréquents Mais peu qui soient vérifiés ensemble

Codage clairseméCodage clairsemé

Page 10: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 10/36

Contraintes sur les motifsContraintes sur les motifs

Représentativité Chaque image correspond à un nombre suffisantsuffisant de motifs

Codage clairsemé Chaque image correspond à un nombre limitélimité de motifs

Orthogonalité des motifs Chaque couple de motifs a peu d’images en communpeu d’images en commun

+ Contraintes sémantiquesContraintes sémantiques E.g. : motifs connexesconnexes (zones de l’image) E.g. : motifs en ligneen ligne (contours) …

Page 11: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 11/36

Les donnéesLes données

Base d’images tirées de la base COREL

12 classes différentes de scènes

Base de 1080 images (90 images / classe)

128 x 128 = 16384 en 128 niveaux de gris

ou : 64 x 64 = 4096 en 32 ou 16 niveaux de gris

On utilise 540 images pour chercher 1000 motifs fréquents

Page 12: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 12/36

La base d’imagesLa base d’images

Page 13: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 13/36

ConstatConstat

L’application directe de APRIORI est impossible

Il y a trop de motifs fréquents

Pour images 32 x 32 en 64 niveaux de gris

Il faut adapter l’algorithme et faire une Il faut adapter l’algorithme et faire une recherche stochastique recherche stochastique et et

non plus exhaustivenon plus exhaustive

Nb. élts / motif 1 2 3 4 5 6

Nb motifs 2 103 110 103 3,8 106 80 106 1,15 109 12,5 109

Page 14: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 14/36

Adaptation de l’algorithmeAdaptation de l’algorithme

Recherche itérative et stochastique de motifs fréquents

Paramètres : taux de couverture . Nombre de motifs cherchés = N Nombre de motifs trouvés = n

Tant que n ≤ N faire

Choix dans un exemple xi encore peu couvert d’un premier atome a0 présent dans au moins

des exemples

motif <- a0

Tant que taux de couverture de motif > faire

Tirer au hasard un atome a de xi couvrant au moins des exemples et peu utilisé dans les motifs existants et satisfaisant les contraintes sémantiques

Si motif+a couvre au moins des exemple alors

motif <- motif +a

fin si

Fin tant que

Fin tant que

Page 15: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 15/36

Les expériencesLes expériences

Nouvelles contraintes (choix des pixels) Min : les moins présents dans les motifs

Connexe : touchant les précédents

Ligne : formant des lignes

Paramètres Taille image : 64 x 64 x 16 (niveaux de gris)

Taux de couverture : 1, 2, 5, 10 %

Page 16: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 16/36

Codage clairsemé Codage clairsemé Nb de FIS / imagesNb de FIS / images

10 20 30 40 50

= 1%

= 2%

= 5%= 5%

Page 17: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 17/36

Codage clairsemé Codage clairsemé Nb de FIS / imagesNb de FIS / images

= 1%

= 2%

= 5%= 5%

Page 18: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 18/36

Orthogonalité Orthogonalité Nb images par couple de motifsNb images par couple de motifs

= 1%

= 2%

= 5%= 5%

Page 19: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 19/36

FIS : min_1%FIS : min_1%

Page 20: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 20/36

FIS : min_1%FIS : min_1%

Page 21: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 21/36

FIS : connexe_1%FIS : connexe_1%

Page 22: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 22/36

FIS : connexe_1%FIS : connexe_1%

Page 23: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 23/36

FIS : ligne_1%FIS : ligne_1%

Page 24: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 24/36

FIS : ligne_1%FIS : ligne_1%

Page 25: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 25/36

AnalyseAnalyse

Difficilement interprétables !!

Pas de contours, même quand contraintes dans ce sens

Malheureusement pas de comparaison possible avec ACI

puisque ACI non praticable

Page 26: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 26/36

La classification : La classification : le protocolele protocole

Apprentissage d’une base de 1000 motifs sur 540 images

Les paramètres : Taille image (32 x 32, 64 x 64 ou 128 x 128)

Niveaux de gris (16, 32 ou 64)

Taux de couverture (1%, 2%, 5% ou 10%)

Note : Tous les résultats sont disponibles sur :

http://www.eleves.iie.cnam.fr/jouteau

Test sur les 540 images restantes (répété 10 fois)

Page 27: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 27/36

La classification : la méthodeLa classification : la méthode

Chaque exempleexemple (dans X) est décrit par ses motifsdécrit par ses motifs (dans (X))

Un nouvel exemple est classé par une méthode de plus proches voisinsclassé par une méthode de plus proches voisins

(dans l’espace de redescription (X) ) 1-ppv

ou k-ppv avec pondération en fonction de la distance

X (X)

xx

Page 28: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 28/36

Performances (Performances ( = 5%) = 5%)

Page 29: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 29/36

Avec un réseau de neurones RBFAvec un réseau de neurones RBF

Page 30: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 30/36

ComparaisonComparaison

Page 31: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 31/36

Performances en classificationPerformances en classification

Résultats Meilleurs résultats pour = 2 ou 5 %

Assez comparable : min, connexe, ligne

Bien meilleurs que méthode RN

Peut mieux faire … Avec un appariement plus souple

Page 32: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 32/36

AnalyseAnalyse

Pourquoi ça marche (si bien) ?

Recodage non supervisé !!

Puis une méthode de plus proche(s) voisin(s)

Quelles sont les propriétés de ce recodage ?Quelles sont les propriétés de ce recodage ?

X (X)

x x

Page 33: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 33/36

Codage d’une imageCodage d’une image

QuickTime™ et un décompresseurBMP sont requis pour visualiser

cette image.

Image

Motifsprésents

dansl’image

Partie de l’imagecouverte parles motifs

Page 34: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 34/36

Approches classiquesApproches classiques

Analyse fonctionnelle

+/-

PCA

Apprent. artificiel

ICA

Réducti

on

Approximatio

n

Orthogonalité

Indép.

des données

… et moins classiques

Page 35: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 35/36

Ne permet pas la reconstruction des entrées

Les motifs sont orthogonaux : mais par rapport aux exemples d’apprentissage !!

Espace

Tous les points d’apprentissage sont orthogonaux dans cet espace

Le codage par motifs fréquentsLe codage par motifs fréquents

C100010

Page 36: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard

Journée « Fouille d’images » 01/04/03 36/36

ConclusionConclusion

Analyse théorique en cours

Expérimentations

sur les scènes naturelles (poursuite du travail)

sur les puces ADN

sur la classification de textes de NewsGroups

Peut-être un nouveau type de traitement du signalPeut-être un nouveau type de traitement du signal