41
Apprentissage semi- supervisé Extrait de : http://www.public.asu.edu/~jye0 2

Apprentissage semi-supervisé Extrait de : jye02 jye02

Embed Size (px)

Citation preview

Page 1: Apprentissage semi-supervisé Extrait de : jye02 jye02

Apprentissage semi-supervisé

Extrait de : http://www.public.asu.edu/~jye02

Page 2: Apprentissage semi-supervisé Extrait de : jye02 jye02

Position du Problème

m

n

Labels des données(0 ou 1)

Données avec labels

Données sans labels

But : prédire les labels des données sans labels

X y

Page 3: Apprentissage semi-supervisé Extrait de : jye02 jye02

Apprentissage semi-supervisé

Apprentissage semi-supervisé pour améliorer les performances en combinant les données avec labels (peu) et sans labels (beaucoup)

Classification semi-supervisée (discrimination) : entraîner sur des données avec labels et exploiter les données (beaucoup) sans labels pour améliorer les performances

Clustering semi-supervisé : clustering des données sans labels en s'aidant des données avec labels ou paires de contraintes

ClusteringApprentissageSemi-supervisé

Classification

Page 4: Apprentissage semi-supervisé Extrait de : jye02 jye02
Page 5: Apprentissage semi-supervisé Extrait de : jye02 jye02

Hypothèse de classe

Hypothèse de base pour la plupart des algorithmes d'apprentissage semi-supervisés Points proches ont probablement le même label de classe Deux points qui sont connectés par un chemin traversant des régions

de forte densités doivent avoir le même label. Autrement dit les frontières de décision doivent appartenir à des régions de faible densité.

Page 6: Apprentissage semi-supervisé Extrait de : jye02 jye02

Classification Inductive vs.Transductive

Transductive : Fournit le label uniquement pour les données disponibles non labellisées

La sortie de la méthode n'est pas un classifieur

Inductive: Produit non seulement des labels pour données non labellisées, mais aussi produit un classifieur

Page 7: Apprentissage semi-supervisé Extrait de : jye02 jye02

Exemple de Classification Semi-Supervisée

.

..

.

Page 8: Apprentissage semi-supervisé Extrait de : jye02 jye02

.

Exemple de Classification Semi-Supervisée

.

...

. .. ..

.

.

....

.

...

Page 9: Apprentissage semi-supervisé Extrait de : jye02 jye02

.

Exemple de Classification Semi-Supervisée

.

...

. .. ..

.

.

....

.

...

Page 10: Apprentissage semi-supervisé Extrait de : jye02 jye02

Deux approches algorithmiques

Méthodes à base de classifieur. On part de l'état initial d'un classifieur et on l'améliore d'une manière itérative : EM semi-supervisé Co-Training Mélange d'information complet ou incomplet de données

Méthodes à base de données. Découvrir la géométrie inhérente dans les données et l'exploiter pour rechercher un bon classifieur : Algorithmes à base de graphes Régularisation manifold Mélange harmonique Régularisation d'information

hypothèses: Connu : un ensemble de classes de données avec labels But : améliorer la classification des exemples dans ces catégories

connues

Page 11: Apprentissage semi-supervisé Extrait de : jye02 jye02

Clustering Semi-Supervisé

Connaissance du domaine Information partielle Appliquer certaines contraintes (must-links et cannot links)

Approches Search-based Semi-Supervised Clustering

Modifier l'algorithme clustering en y intégrant les contraintes (must-links, cannot-links)

Similarity-based Semi-Supervised Clustering Modifier la mesure de similarités basée sur les contraintes

Combinaison des deux.

Page 12: Apprentissage semi-supervisé Extrait de : jye02 jye02

.

Clustering Semi-Supervisé : Exemple 1

.

...

. .. ..

.

.

....

.

...

Page 13: Apprentissage semi-supervisé Extrait de : jye02 jye02

.

Clustering Semi-Supervisé : Exemple 1

.

...

. .. ..

.

.

....

.

...

Page 14: Apprentissage semi-supervisé Extrait de : jye02 jye02

.

Clustering Semi-Supervisé : Exemple 2

.

...

. .. ..

.

.

....

.

...

Page 15: Apprentissage semi-supervisé Extrait de : jye02 jye02

.

Clustering Semi-Supervisé : Exemple 2

.

...

. .. ..

.

.

....

.

...

Page 16: Apprentissage semi-supervisé Extrait de : jye02 jye02

Clustering semi-supervisé :

Entrée : Un ensemble d'objets sans labels, chacun est décrit par un

ensemble d'attributs (numériques ou catégoriels) Une faible connaissance du domaine

Sortie : Partitionnement des objets en k classes

Objectif : Similarité intra-cluster maximum Similarité inter-cluster minimum Une grande consistance entre partition et connaissances du

domaine

Page 17: Apprentissage semi-supervisé Extrait de : jye02 jye02

Pourquoi clustering semi-supervisé ?

Pourquoi clustering seul insuffiant ? Les classes obtenues peuvent ne pas être ceux demandées Parfois, il y a plusieurs choix de groupements

Pourquoi discrimination seule insuffisante ? Parfois on n'a pas assez de données avec labels

Applications potentielles Bioinformatique (clustering gêne et protéine) Construction de hiérarchies de documents Catégorisation de News/email catégorisation d'Images

Page 18: Apprentissage semi-supervisé Extrait de : jye02 jye02

Classification semi-supervisée c'est quoi ?

Utilise un faible nombre de données avec labels pour labelliser un grand nombre de données sans labels Labelliser est coûteux

Idée de base Données similaires doivent avoir le même label de classe

Exemples Classification pages Web Classification de documents Classification de protéines

Page 19: Apprentissage semi-supervisé Extrait de : jye02 jye02
Page 20: Apprentissage semi-supervisé Extrait de : jye02 jye02

K-Means Semi-Supervisé Seeded K-Means:

Labeled data provided by user are used for initialization: initial center for cluster i is the mean of the seed points having label i.

Seed points are only used for initialization, and not in subsequent steps.

Constrained K-Means: Labeled data provided by user are used to initialize K-Means

algorithm. Cluster labels of seed data are kept unchanged in the cluster

assignment steps, and only the labels of the non-seed data are re-estimated.

Page 21: Apprentissage semi-supervisé Extrait de : jye02 jye02

Seeded K-Means

Use labeled data to find the initial centroids andthen run K-Means.

The labels for seeded points may change.

Page 22: Apprentissage semi-supervisé Extrait de : jye02 jye02

Constrained K-Means

Use labeled data to find the initial centroids andthen run K-Means.

The labels for seeded points will not change.

Page 23: Apprentissage semi-supervisé Extrait de : jye02 jye02

Constrained K-Means Example

Page 24: Apprentissage semi-supervisé Extrait de : jye02 jye02

Constrained K-Means ExampleInitialize Means Using Labeled Data

xx

Page 25: Apprentissage semi-supervisé Extrait de : jye02 jye02

Constrained K-Means ExampleAssign Points to Clusters

xx

Page 26: Apprentissage semi-supervisé Extrait de : jye02 jye02

Constrained K-Means ExampleRe-estimate Means and Converge

xx

Page 27: Apprentissage semi-supervisé Extrait de : jye02 jye02

COP K-Means COP K-Means [Wagstaff et al.: ICML01] is K-Means with must-link

(must be in same cluster) and cannot-link (cannot be in same cluster) constraints on data points.

Initialization: Cluster centers are chosen randomly, but as each one is chosen any must-link constraints that it participates in are enforced (so that they cannot later be chosen as the center of another cluster).

Algorithm: During cluster assignment step in COP-K-Means, a point is assigned to its nearest cluster without violating any of its constraints. If no such assignment exists, abort.

Page 28: Apprentissage semi-supervisé Extrait de : jye02 jye02

Illustration

xx

Must-link

Determineits label

Assign to the red class

Page 29: Apprentissage semi-supervisé Extrait de : jye02 jye02

Illustration

xx

Cannot-link

Determineits label

Assign to the red class

Page 30: Apprentissage semi-supervisé Extrait de : jye02 jye02

Illustration

xx

Cannot-link

Determineits label

The clustering algorithm fails

Must-link

Page 31: Apprentissage semi-supervisé Extrait de : jye02 jye02

COP K-Means Algorithm

Page 32: Apprentissage semi-supervisé Extrait de : jye02 jye02

Other search-based algorithms

Kernel-based semi-supervised clustering, Kulis, et al.

Kernel K-Means

PC K-Means, Basu, et al.

w is the penalty matrix

reward

Page 33: Apprentissage semi-supervisé Extrait de : jye02 jye02

Overview of spectral clustering

1. Compute the similarity matrix W and D.2. Form 3. Form the matrix Y consisting of the first K

eigenvectors of 4. Normalize Y so that all the rows have unit

lengths.5. Run K-Means on the rows to get the K

clusters. (Ng, Jordan, and Weiss , NIPS’02) or Apply an iterative optimization to get the

partition matrix. (Yu and Shi, ICCV’03)

5.05.0 WDD

5.05.0 WDD

Page 34: Apprentissage semi-supervisé Extrait de : jye02 jye02

Semi-supervised spectral clustering

0 jiij WW

1 jiij WW

5.05.0 WDD

1. Compute the similarity matrix W and D.2. For each pair of must-link (i,j), assign 3. For each pair of cannot-link (i,j), assign 4. Form the matrix5. Form the matrix Y consisting of the first K

eigenvectors of 6. Normalize Y so that all the rows have unit

lengths.7. Run K-Means on the rows to get the K clusters.

(Ng, Jordan, and Weiss , NIPS’02) or Apply an iterative optimization to get the

partition matrix. (Yu and Shi, ICCV’03)

5.05.0 WDD

Page 35: Apprentissage semi-supervisé Extrait de : jye02 jye02

Harmonic approach

Paper: Semi-Supervised Learning Using Gaussian Fields and Harmonic functions. Zhu and et al.

Basics Build the weighted graph The labels on the labeled data are fixed Determine the labels of the unlabeled data based on the cluster

Assumption

Page 36: Apprentissage semi-supervisé Extrait de : jye02 jye02

Intuition

Define a real-valued function f: V R on G with certain properties. Goal: determine the label of unlabeled data by f.

Intuition: Nearby points in the graph have the same label.

ijwLarge weight )()( jfif is small

Optimization problem: Compute optimal f such that E(f) is minimized,subject to the constraint that the values of f on labeled data are fixed.

Page 37: Apprentissage semi-supervisé Extrait de : jye02 jye02

Intuition

ji

jfifjiwfE,

)()(),()(

1,0:

)()(),()(,

2

Vf

jfifjiwfEji

]1,0[:

)()(),()(,

2

Vf

jfifjiwfEji

Non-differentiable

f: discrete

Determine the labels via thresholding

The values of f on labeled data are fixed.

Page 38: Apprentissage semi-supervisé Extrait de : jye02 jye02

Main idea

Define a real-valued function f: V R on G with certain properties. Goal: determine the label of unlabeled data by f.

Intuition: Nearby points in the graph have the same label.

ijwLarge weight )()( jfif is small

Optimization problem: Compute optimal f such that E(f) is minimized,subject to the constraint that the values of f on labeled data are fixed.

Page 39: Apprentissage semi-supervisé Extrait de : jye02 jye02

Harmonic function

0)()(

)()(

fWDfEdf

d

fWDffE T

The optimization problem: The optimal solution f is harmonic:

0f

)(minarg | fEflL ff

WD where is the combinatorial laplacian.

on unlabeled points

Page 40: Apprentissage semi-supervisé Extrait de : jye02 jye02

Optimal solution in matrix form

uuul

lull

WW

WWW

uu

ll

D

DD

0

0

u

l

f

ff

luluuuuu

uuuuulul

u

l

uuuuul

lullll

fWDWf

fDWfW

f

f

DWW

WDWfDW

1)(

0)(

0)(

Page 41: Apprentissage semi-supervisé Extrait de : jye02 jye02

Conclusion

Domaine assez vaste : Clustering : K-means, Mixture, HMRF, Kernel K-means Projection : LLE, ISOMAP, Kernel PCA, ...

On doit se consacrer à un champ particulier selon sa sensibilité

Passer aux applications pour mettre en exergue la validité des approches