Construction de modèles visuels. Motivation On veut décrire –une classe dobjets (visages,...

Preview:

Citation preview

Construction de modèles visuels

Motivation

• On veut décrire – une classe d’objets (visages, piétons, montagnes etc.)– un objet (en tenant compte de ses différents aspects)

visages

non-visages

visages

non-visages

Motivation

• Décrire – une classe d’objets (visages, piétons, montagnes etc.)– un objet (en tenant compte de ses différents aspects)

• Déterminer la classe d’appartenance

modèle visuel =

description d’image +

apprentissage

Motivation

• Construction d’un modèle visuel – à partir d’un ensemble d’images (positives / négatives)– choix de la description de l’image

• descripteur global ou plusieurs descripteurs locaux

• descripteurs discriminants, sélection des descripteurs appropriés

• descripteurs invariants aux transformations image

• hiérarchie des descripteurs locaux

Motivation

• Construction d’un modèle visuel – à partir d’un ensemble d’images (positives / négatives)– choix des descripteurs– description des variations d’apparence

• déterminer la fonction discriminante (SVM, réseau neuronaux)

visages

non-visages

Motivation

• Construction d’un modèle visuel – à partir d’un ensemble d’images (positives / négatives)– choix des descripteurs– description des variations d’apparence

• déterminer la fonction discriminante

• décrire la distribution (histogramme, clustering, mélange de Gaussiennes)

objet A

objet B

objet C

Motivation

• Construction d’un modèle visuel – à partir d’un ensemble d’images (positives / négatives)– choix des descripteurs– description des variations d’apparence

• déterminer la fonction discriminante

• décrire la distribution (histogrammes, clustering, mélange de Gaussiennes)

• apprentissage supervisé ou "faiblement'' supervisé

Définition de classes d’objets - exemples

• Apprentissage supervisé pour la classe des visages

• Apprentissage  »faiblement » supervisé pour des objets texturés

• Apprentissage supervisé pour la classe des piétons

Détection de visages

• Représentation des visages :– descripteurs locaux génériques– contraintes spatiales entre les

descripteurs

• Apprentissage supervisé– extraction manuelle des éléments

caractéristiques

x

xx

x

x

Apprentissage du modèle de visage

À partir d’un ensemble d’images d’apprentissage– sélection des caractéristiques et calcul des descripteurs locaux

– apprentissage de descripteurs génériques pour chaque

caractéristique (yeux, nez, commissures des lèvres)

– apprentissage des incertitudes pour les contraintes spatiales

Descripteurs génériques

• La distribution est représentée par un mélange de Gaussiennes estimé par EM et MDL

• EM (expectation maximization) : estimation des paramètres

• MDL (minimum description length) : sélection du modèle )|(ln),,|(

11

n

kkn xfLavec xx

Algorithme de détection

MAP

1) Calcul d’un descripteur pour chaque pixel

2) Classifier chaque descripteur (maximum a posteriori))()|( ii DpDXp

)),(|()|(1

ijij

jiji

XpK

DXpi

w avec

Choix d’un descripteur générique )|(maxargˆ XDpD iDi

X

Algorithme de détection

contraintes

spatiales

1) Calcul d’un descripteur pour chaque pixel

2) Classifier chaque descripteur (maximum a posteriori)

3) Vérification de contraintes spatiales

Résultats de la détection de visages

Définition d’une classe d’objets

• Apprentissage supervisé pour la classe des visages

• Apprentissage  »faiblement » supervisé pour des objets texturés

• Apprentissage supervisé pour la classe des piétons

Approche

• Apprentissage non supervisé– pas d’extraction manuelle des caractéristiques/objets– images étiquetées comme positives et négatives

• Modèles non rigides– représentation à deux niveaux

• un ensemble de descripteurs génériques

• des fréquences de voisinage comme contraintes spatiales

– invariant à la rotation

Construction d’un modèle

• Extraction de descripteurs génériques

• Contraintes spatiales, fréquences dans un voisinage

• Sélection de l’information discriminante

Extraction de descripteurs génériques

• Calcul de descripteurs locaux en chaque pixel – invariance à une rotation image

• Utilisation des répétitions de structure de niveaux de gris – texture et répétitions de structures visuellement similaires– dans l’image – entre images

• Agglomération des descripteurs similaires– clustering (k-means) kCC 1

Exemple de descripteurs génériques

Contraintes spatiales

• Affectation de chaque pixel au cluster le plus similaire

• Calcul des fréquences dans un voisinage

)|(maxarg)( lil dCPpC

)|(

)|(

)|(

2

1

lk

l

l

l

wCP

wCP

wCP

v

avec fenêtre

autour de lw

lp

Contraintes spatiales

• Probabilité jointe des fréquences du voisinage et du descripteur générique

• Distribution multi-modale

• Calcul des clusters de fréquence spatiale

))(|( ill CpCvP

ijV

Sélection de structures significatives

• Sélection des clusters caractéristiques, discriminants• Apparaissent surtout dans des images positives

• Significance est définie par

}){|(}){|( negijposij IVPIVP

}){|(}){|(

}){|()|(

negijposij

posijij IVPIVP

IVPMVSig

Recherche d’images

• Calcul d’un score probabiliste pour chaque pixel– Calcul du descripteur et sélection du cluster le plus similaire– Calcul de la probabilité jointe – Rejet des pixels ayant une probabilité jointe peu significative

• Moyenne des scores => reconnaissance

• Sélection des pixels ayant un score important => localisation

)ˆ()|ˆ()|ˆ()|( VSigdvVPdCPpMP

Résultats de reconnaissance

exemples positifs (5) et négatifs (10)

images les plus similaires (base contenant 600 images)

Localisation d’un modèle

localisation d’un modèle dans une image reconnue

Précision / Rappel (zèbre)

Précision / Rappel (guépard)

Localisation d’un modèle

localisation d’un modèle sur une image retrouvée

Précision / Rappel (visages)

Définition d’une classe d’objets

• Apprentissage supervisé pour la classe des visages

• Apprentissage  »faiblement » supervisé pour des objets texturés

• Apprentissage supervisé pour la classe des piétons

Approche

• Description globale du motif

• Classification avec support vector machine

Images d’apprentissage

Descripteurs

Support vector

machine

Apprentissage

13

12

11

d

d

d

23

22

21

d

d

d

33

32

31

d

d

d

Support vector machine

On a exemple

avec où donne la classe

l ),( ii yx

1et in

i yxiy

(xi,+1)

y = +1

y = -1

(xj,-1)

Apprentissage

• Descripteurs – ondelettes de Haar d’échelles 16x16 et 32x32– Gaussiennes d’échelle 17x17 et 34x34

• Noyau linéaire : séparation linéaire des données– détection en temps linéaire par rapport à la dimension de l’espace

des descripteurs

différence moyenne

byfi

iii xxx ).( i

iii y x est précalculé

Détection

Support vector

machine

Détection multi-échelle

Résultats

Test