Thèse de l’Université de Lyontheses.univ-lyon2.fr/.../ali_i_resume_lg_fr.pdf · Numéro d’ordre : 2012- Année 2012 Université Lumière Lyon 2 Laboratoire d’InfoRmatique

Numéro d’ordre : 2012- Année 2012

Université Lumière Lyon 2

Laboratoire d’InfoRmatique en Image et Systèmes

d’information

École Doctorale Informatique et Mathématiques de Lyon

Thèse de l’Université de Lyon

Présentée en vue d’obtenir le grade de Docteur,

spécialité Informatique

par

Imtiaz ALI

Détection d’objets dans un fond dynamique

Thèse encadrée par :

Co-directeur Julien Mille Maître de Conférences, Université Claude Bernard Lyon 1

Directrice Laure Tougne Professeure, Université Lumière Lyon 2

Laboratoire d’InfoRmatique en Image et Systèmes d’information

UMR 5205 CNRS - Université Lumière Lyon 2 - Bât. C

69676, Bron cedex - France

Tel: +33 (0) 4 78 77 43 77 - Fax: +33 (0)4 78 77 23 38

Résumé

Détecter et reconnaître des objets de manière automatique dans des vidéos

numériques est un défi majeur en analyse de vidéos. Dans le cadre de cette

thèse, nous nous sommes confrontés au problème difficile de la segmenta-

tion d’objets dans des vidéos dont le fond est en mouvement permanent. Il

s’agit de situations qui se produisent lorsque, par exemple, l’on filme des

cours d’eau, le ciel, ou encore une scène contenant de la fumée, de la pluie,

etc. C’est un sujet peu étudié dans la littérature car très souvent les scènes

traitées sont plutôt statiques et seules quelques parties bougent, comme par

exemple les feuillages à cause du vent. Une autre source de mouvements

concerne les changements de luminosité. La principale difficulté, dans le cas

de scènes ayant un fond en mouvement, est de pouvoir différencier les mou-

vements de l’objet de ceux du fond qui peuvent parfois être très similaires.

En effet, par exemple, un objet dans une rivière peut se déplacer à la même

allure que l’eau. Les algorithmes de la littérature extrayant des champs

de déplacement échouent alors et ceux basés sur des modélisations de fond

génèrent de très nombreuses erreurs. C’est donc dans ce cadre compliqué

que nous avons tenté d’apporter des solutions.

1 Contexte

La détection d’objets est classiquement effectuée en segmentant la scène

surveillée en avant-plan (les objets d’intérêts) et arrière-plan (le fond : le reste

de la scène). Chaque pixel dans l’image courante, est classé dans premier plan

ou dans le fond en fonction de ses différentes caractéristiques. Pour effectuer

cette tâche de classification, une technique classique consiste à construire une

représentation du fond et/ou du premier plan. Il est à noter qu’une méthode

de détection d’objets doit être suffisamment robuste pour être efficace y

compris dans des environnements complexes. Par exemple, en extérieur, les

objets et le fond peuvent avoir les mêmes couleurs ou les mêmes mouvements

; les objets peuvent traverser des zones d’ombre ; l’illumination globale peut

changer rapidement etc.

Dans cette thèse, nous nous concentrons sur des vidéos contenant un fond

dynamique. Plus précisément, nous étudions des vidéos contenant un mouve-

ment continu et global du fond, les objets étant eux-mêmes en mouvements.

Les situations traitées sont, par exemple, des objets flottants en rivière, des

1

objets à détecter en présence de feu ou de fumée, des objets sur des escaliers

mécaniques, etc. Par ailleurs, nous considérons les vidéos acquises avec une

caméra statique, de sorte que tout mouvement apparent naît d’un mouve-

ment réel de l’objet d’intérêt ou, de tout ou d’une partie de l’arrière-plan.

Du point de vue de la vision par ordinateur, la couleur/texture, la forme et

le mouvement sont parmi les caractéristiques importantes utilisées dans de

nombreux algorithmes de détection d’objets. Dans certains cas, nous pou-

vons obtenir des connaissances a priori sur ces caractéristiques, telles que le

sens on la vitesse approximative du déplacement des bagages sur un tapis

roulant ou, les endroits où le mouvement est censé se produire dans le cas

d’un mouvement piétonnier etc. Cette information peut être utilisée pour la

détection d’objets. Dans d’autres cas, nous pouvons avoir une connaissance

a priori sur l’apparence ou la couleur des objets. L’utilisation du modèle de

couleur de peau dans les applications de détection de visages est un exemple

de cette catégorie, où chaque pixel d’image est classé "peau" ou "non peau".

Enfin, dans certains cas, nous pouvons avoir une connaissance a priori sur

les formes d’objets (par exemple dans la détection de véhicules, la détec-

tion de feuilles, etc.). l’utilisation de cette information permet d’améliorer la

segmentation des objets. Dans certaines parties de ce travail, nous prenons

en compte quelques unes de ses connaissances priori et montrons qu’elles

permettent d’améliorer significativement les résultats.

Dans un premier temps, travail est spécialisé dans la détection et le comp-

tage des bois morts dans des rivières. Il s’agit d’un exemple concret de détec-

tion d’objets dans un fond en mouvement où de forts a priori sur la couleur

sont disponibles. Ce problème nous a été apporté par des géographes de

l’UMR 5600 Environnement Villes & Société avec qui nous avons collaboré

dans le cadre du projet DADEC (Détection Automatique de Débris pour

l’Aide à l’Etude des Crues). Le projet vise à étudier le transport des bois

morts (de petites et grandes pièces d’arbres) tombés et emportés par des

inondations et des écoulements d’eau en utilisant l’analyse vidéo. La surveil-

lance à distance des rivières est réalisée depuis plusieurs années et les vidéos

ainsi obtenues ont été annotées manuellement par les géographes, presque

image par image, afin de compter le nombre de morceaux de bois passant

dans la scène observée; deux images extraites de ses séquences sont don-

nées en Figure 1. L’enregistrement manuel de chaque passage de bois est

extrêmement fastidieux et limite ainsi l’étude à un faible nombre de vidéos.

2

Figure 1: Deux images des vidéos filmées sous le projet DADEC.

Par conséquent, la détection automatique du bois morts utilisant la vision

par ordinateur peut permettre d’accélérer le processus et d’élargir l’étude à

de plus grandes échelles.

Dans un deuxième temps, supposant la connaissance a priori du mou-

vement des objets, dans un contexte quelconque, nous avons proposé un

modèle de mouvement de l’objet et avons montré que la prise en compte de

cet a priori de mouvement permettait d’améliorer nettement les résultats

des segmentations obtenus par les principaux algorithmes de modélisation

de fond que l’on trouve dans la littérature.

Enfin, dans un troisième temps, en s’inspirant des méthodes utilisées

pour caractériser des textures 2D, nous avons proposé un modèle de fond

basé sur une approche fréquentielle. Plus précisément, le modèle prend en

compte non seulement le voisinage spatial d’un pixel mais également le voisi-

nage temporel de ce dernier. Nous avons appliqué la transformée de Fourier

locale au voisinage spatio-temporel d’un pixel pour construire un modèle de

fond. Nous avons appliqué nos méthodes sur plusieurs vidéos, notamment

les vidéos du projet DADEC, les vidéos de la base DynTex, des vidéos syn-

thétiques et des vidéos que nous avons faites afin de comparer nos résultats

à ceux de la littérature.

2 Détection d’objets basée couleur

De nombreuses méthodes s’appuyant sur des représentations statistiques

de la couleur/texture, du mouvement ou de la forme sont utilisées pour

l’extraction d’objets. L’approche probabiliste est un moyen pour modélisa-

tion la classe d’un pixel en fonction des valeurs de ces caractéristiques et de la

3

classe des pixels voisins aux instants précédents, permettant alors de décider

si le pixel considéré appartient au fond ou au premier plan. Ces représenta-

tions peuvent aussi être construites de manière à combiner la connaissance

de plusieurs caractéristiques sur chaque pixel. Une des méthodes fréquem-

ment utilisées dans la littérature est la modélisation du fond, pour lequel une

représentation statistique de la couleur est construite pour chaque pixel en

prenant en compte la valeurs du pixel à différents instants. Les modèles de

fond mémorisent en effet les couleurs qui restent longtemps dans la scène.

Les GMM (Gaussian Mixture Model) [Stauffer and Grimson, 2000] sont l’une

des méthodes les plus connues et les plus utilisées pour modéliser le fond.

Grâce à cette méthode, il est possible de modéliser les différentes couleurs

qui peuvent apparaître à chaque pixel du fond. Si un fond est modélisé par

mélange de Gaussiennes, alors la probabilité qu’un pixel x d’intensité I(x)

soit un pixel de fond est donnée par :

Pbackground(I(x), µ(x),Σ(x)) =K∑

i=1

ωi(x) ∗ η(I(x), µi(x),Σi(x))

=K∑

i=1

ωi(x)

(2π)D2 |Σi(x)|

1

2

e−1

2(I(x)−µi(x))

TΣ−1

i (x)(I(x)−µi(x))

(1)

où K est le nombre total de Gaussiennes et ωi(x) est le poids associé à

chaque Gausienne (∑K

i=1 ωi(x) = 1). µi(x) et Σi(x) sont respectivement la

valeur moyenne et matrice de covariance de la iéme Gaussienne pour le pixel

courant. Dans la méthode basée sur le mélange des Gaussiennes proposée

par [Stauffer and Grimson, 2000], un pixel est considéré comme un pixel de

fond si sa valeur correspond à l’une des B premières distributions calculé par

l’équation suivante :

B = argminb

b∑

i=1

ωi(x) > T

où i exprime l’indice de la Gaussienne. Plus précisèment, la détection d’objet

est obtenue en comparant la valeur de chaque pixel avec le pixel du modèle

de fond correspondant et en le classant comme premier plan ou fond.

Dans la méthode utilisant les Codebook, proposée par [Kim et al., 2005],

à chaque pixel est associé un ou plusieurs mots stockés dans un dictionnaire.

4

Le nombre de mots pour un pixel dépend de la variation de la couleur de

fond au pixel considéré. Par conséquent, tous les pixels n’ont pas le même

nombre de mots. Avec cette méthode, durant l’apprentissage, un modèle de

fond est construit pour chaque pixel. Ainsi, un pixel est alors classé comme

un pixel objet, si sa valeur ne correspond à aucun mot du dictionnaire.

Une autre méthode non paramétrique pour la modélisation du fond basée

couleur, se VuMeter et a été proposée par [Goyat et al., 2006]. Cette méth-

ode enregistre les différentes couleurs possibles d’un pixel à l’aide d’un his-

togramme. Ainsi une discrétisation de la fonction de densité de probabilité

Pbackground est réalisée suivant N valeurs. Après quelques temps, c’est-à-dire

après plusieurs images, les valeurs qui modélisent le fonds ont grandes alors

que les autres restent faibles ou quasi-nulles. Un pixel dans l’image courante

est classé comme fond si ses valeurs correspondantes sont inférieures à un

seuil fixé empiriquement, sinon le pixel est classé comme appartenant au

premier plan.

De faibles coûts de calcul et aucune connaissance a priori des objets

d’intérêts sont les deux caractéristiques importantes qui font de ces tech-

niques de modélisation de fond très populaires. Ces approches sont efficaces

lorsque la scène à modéliser est statique ou quasi-statique c’est-à-dire avec

des perturbations limitées. Cependant, le fond que nous étudions dans le

cadre du projet DADEC, et plus généralement dans le contexte de cette

theèse, contient beaucoup de variations d’intensité et des mouvements qui

compliquent la modélisation de fond basée uniquement sur la couleur. Les

modèles classiques de fond basés sur la couleur produisent beaucoup de

fausses détections dans de telles situations (voir la Figure 7). Pour essayer

de pallier à ces problèmes nous proposons deux méthodes, l’une dite "naïve"

basée sur l’intensité des objets à détecter et sur leur mouvement et l’autre,

basée sur une approche probabiliste mettant en oeuvre une modélisation de

la couleur de l’objet et de son déplacement.

2.1 Approche naïve

L’approche naïve est basée sur la couleur, les caractéristiques spatiales et

temporelles des pixels de l’image. L’organigramme de l’approche est présenté

en Figure 2. Chaque image est traitée par deux processus de segmentation.

Les résultats de ces deux processus sont des images segmentées binaires. L’un

est appelé le masque d’intensité (MI) et l’autre le masque de gradient (MG);

5

Frame 1 Frame 2

Temporal difference(dT)

Intensity Mask

(MI)

Gradient Mask

(MG)

Frame 3

Resulting segmentation

MI∩MG∩dT

Temporal difference(dT)

Intensity Mask

(MI)

Gradient Mask

(MG)

MI∩MG∩dT

Resulting segmentation

Figure 2: Organigramme de l’approche naïve.

ce sont les résultats de segmentation basés respectivement sur le seuillage

d’histogramme d’intensités et la technique du gradient spatial. L’eau dans

la rivière et le bois ont des niveaux d’intensité assez différents, et le bois est

plus sombre que l’eau comme le montre la Figure 1.

Pour obtenir le masque d’intensité, nous utilisons l’analyse discriminante

linéaire de Fisher qui permet de trouver automatiquement le seuillage le plus

adéquat. Ce seuil optimal est obtenu en supposant l’ensemble de couleurs

de l’image modèlisé par deux distributions Gaussienne. Si la valeur d’un

pixel est dessous de ce seuil, le pixel est étiquêté 1 sinon 0 dans le masque

d’intensité. Pour obtenir le masque de gradient, nous utilisons le filtre de

Sobel. Un seuil est fixé empiriquement pour obtenir ce masque binaire.

Par ailleurs, la différence entre deux images (dT) pour chaque couple

d’images est calculée afin d’inclure les changements temporels. Grâce à un

seuil, nous construisons donc un troisième masque binaire. Nous combinons

ces trois masques binaires pour l’extraction d’objets. Nous montrons un

exemple des résultats obtenus avec cette approche naïve dans la figure 3.

Les résultats obtenus avec cette méthode sont plutôt bons contexte compte

tenu du contexte (fond dynamique). Pour comparaison, la figure 7 montre

les résultats obtenus sur la même scène avec plusieurs techniques de modéli-

sation de fond que l’on trouve dans la littérature. Cependant, cette méthode

présente plusieurs inconvénients. En particulier, les larges morceaux de bois

posent problème, leur coeur n’est pas segmenté correctement, il subsiste

de nombreuses fausses détections (des vagues considérées comme des bois

morts). Une des raisons possibles de ces dernières provient des seuils qui

sont difficiles à ajuster quelque soit les conditions météorologiques. Deux-

ièmement, l’analyse du gradient d’intensité fonctionne bien avec d’objets qui

peuvent ressembler à des bâtons (c’est-à-dire les petits morceaux ou longs ar-

6

Image MI MG F

Figure 3: Un exemple d’image d’entrée, le masque d’intensité MI, le masquede gradient MG et l’image de premier plan F associés.

bres), mais pour des pièces avec beaucoup de feuilles, la méthode ne donne

pas de bons résultats. Ainsi, il est possible de rater certaines régions in-

térieures appartenant a des bois larges. Pour résoudre ces problèmes, nous

proposons une méthode basé sur une approche probabilité de la détection

d’objets, qui s’appuie sur les caractéristiques basé couleur et sur le mouve-

ment des objets.

2.2 Approche probabiliste

Contrairement à l’approche précédente qui utilise des masques binaires, nous

introduisons ici des cartes de probabilités (valeurs entre 0 à 1) qui peuvent

ensuite être combinées par multiplication. Cela permet de repousser l’étape

de seuillage à la fin du processus, ce qui est théoriquement plus robuste que

l’application de plusieurs seuils.

Plus précisément, l’objectif de la segmentation est de créer une image

de premier plan F(t) pour chaque image I(t) au temps t. Un pixel spa-

tiotemporel dans l’image est notée par I(x, t). Un pixel x dans l’image de

premier plan F(t) peut avoir la valeur 1 ou 0 en fonction de son apparte-

nance au premier plan ou au fond de l’image, respectivement. Notez que

au temps t, en plus de l’image courante I(t), l’ensemble d’images précé-

dentes I(t− 1) = I(i)1≤i≤t−1 sont disponibles ainsi que les segmentations

F(t − 1) = F(i)1≤i≤t−1. La segmentation d’image basée pixel à l’instant

t peut alors être formulée par seuillage d’une probabilité a posteriori pour

chaque pixel x [Li et al., 2004], qui peut s’exprimer :

P (F(x, t)|I(x, t), I(t− 1),F(t− 1)) > s′

Dans un cadre très général, la probabilité a posteriori est conditionnée à

l’ensemble des images et des segmentations précédentes. En utilisant la règle

7

de Bayes, nous pouvons écrire :

P (I(x, t)|F(x, t), I(t− 1),F(t− 1))︸︷︷︸

Image term

P (F(x, t)|I(t− 1),F(t− 1))︸︷︷︸

Prior term

> s

Le terme "image" (ou un modèle image) est la probabilité que le pixel x ait

une certaine valeur d’intensité dans l’image I à l’instant t conditionnée par

le fait qu’il appartiente au premier plan. Ceci est lié à la distribution des

intensités à l’intérieur des objets ou dans le fond. Le terme "prior" dans

l’équation ci-dessus est la probabilité qu’un pixel x appartienne à un objet,

connaissant les images et les segmentations précédentes, indépendamment

de l’image courante.

Dans la suite, le terme "image" sera notée Pimage(x, t) et le terme "prior"

Pmov(x, t). La combinaison, notée Pobj(x, t), peut s’exprimer :

Pobj(x, t) = Pimage(x, t) · Pmov(x, t) (2)

2.3 Le modèle "image" pour les bois morts

Dans l’application de détection des bois morts, le modèle image utilise la

distribution des intensités du bois. Ainsi, nous proposons une approche

probabiliste basée sur l’intensité et sur sa variation temporelle au niveau

pixel. Ceci peut s’exprimez comme suit:

Pimage(x, t) = Pi(x, t) · Pt(x, t)

où Pi(x, t), nommée carte probabiliste des intensités contient la probabilité

d’un pixel d’être un pixel objet en fonction de sa luminosité, tandis que la

carte de probabiliste temporelle Pt(x, t) est calculée en fonction des varia-

tions de luminosité du pixel dans le temps. Nous observons dans les vidéos

que l’intensité des bois morts est inférieure à celle de l’eau, même dans les

zones d’ombres dues aux arbres environnants. Par ailleurs, cela ne change

pas significativement en présence de soleil. A titre d’exemple, la figure 4

montre les histogrammes de quelques morceaux de bois morts. Il est à tester

qu’il semble pertinent d’approximer la distribution des intensités du bois par

une distribution gaussienne avec une valeur fixée pour la moyenne et la vari-

ance (i.e. µwood, σ2wood). Pour trouver les valeurs pour µwood et σ2wood, nous

avons conduit des expériences sur différents morceaux de bois sous différentes

8

3.0

1.5

0

1.5

0

3.0

0

4.0

8.0

50 100 150 200 250

50 100 150 200 250

50 100 150 200 250

(a)

(b)

(c)

Figure 4: Un morceau de bois mort; (a) la partie de pixels de bois zooméeet des histogramme d’intensité correspondants marqué en rouge, (b) vert et(c) bleu rectangle.

conditions de luminosité.

Dans la figure 6, nous montrons un exemple de la carte de probabilité Piobtenue. Il a des valeurs élevées dans les régions contenant des bois mort,

mais aussi dans les régions ombragées car certains objets comme les piliers de

ponts ou les ombres des arbres environnants peuvent avoir la même intensité

que le bois mort. Par conséquent, des bois morts ne peuvent être extrait

et comptés uniquement sur l’intensité. Pour résoudre ce problème, nous

proposons de calculer une carte de probabilité temporelle noté Pt, qui est

basé sur la différence inter-trame ∆tI. On peut exprimer Pt de la mainère

suivante :

Pt(x, t) = Pt(x, t− 1) +H(∆tI(x, t))

où H ∈ [−1, 1] est une fonction pondération. Pour gérer le bruit et ignorer

les petites variations d’intensité en raison de la non uniformité du bois ou de

l’eau, H(∆tI) est nulle pour des valeurs relativement faibles de |∆tI|. Au

lieu d’utiliser un seuillage "dur" qui impliquerient un passage brusque de 0

9

−τ − B2 −τ −τ + B

2 τ − B2 τ τ + B

2

1

−1

H(∆tI)

∆tI

Figure 5: Représentation de la fonction pondération utilisée H(∆tI).

à 1 ou −1, nous utilisons la fonction linéaire par morceaux suivante :

H(∆tI) =

1 if ∆tI ∈ [−1,−τ − B2 ]

α∆tI + β if ∆tI ∈ [−τ − B2 ,−τ +

B2 ]

0 if ∆tI ∈ [−τ + B2 , τ −

B2 ]

α∆tI − β if ∆tI ∈ [τ − B2 , τ +

B2 ]

−1 if ∆tI ∈ [τ + B2 , 1]

où α = −1B

et β = 12 −

τB

. La définition de H nécessite cependant de fixer un

seuil τ et la valeur de B. Nous avons représenté graphiquement la fonction

H(∆tI) dans la figure 5.

La figure 6 montre un exemple de la carte de probabilité Pt d’un bois

mort. On constate que les valeurs de Pt sont plus élevées pour les pixels de

bois mort que pour ceux de l’eau.

Puisque nous nous attendons à ce que les morceaux de bois soient sombres

et en mouvement, les pixels de bois devraient avoir à la fois de hautes valeurs

de probabilités dans la carte Pi et dans la carte Pt. Il est donc pertinent de

multiplier les deux cartes de probabilité. On ignore ici le terme "prior" de

l’equation 2 et cette dernière devient :

Pobj(x, t) = Pimage(x, t) = Pi(x, t) · Pt(x, t)

et, l’image de premier plan F est obtenue par seuillage de la probabilité

combinée comme suit :

F(x, t) =

1 if Pimage(x, t) ≥ GTh

0 otherwise

où GTh est un seuil qui doit être choisi afin de limiter le nombre de fausses

10

Input frame I(t)1.0

0.8

0.6

0.4

0.2

1.0

0.8

0.6

0.4

0.2

Pi(t) Pt(t)> 1.0× 10

−2

8× 10−3

6× 10−3

4× 10−3

2× 10−3

Pimage(t) F(t)

Figure 6: Un exemple d’un bois mort avec les cartes de probabilité Pi, Pt,le modèle image Pimage et l’image de premier plan F obtenue.

détections sans négliger les parties importantes des morceaux de vrai-bois

morts.

Dans la figure 7, nous montrons les résultats obtenus avec ce modèle im-

age appliqué aux vidéos de bois morts. Pour comparaison, nous montrons

également les résultats obtenus avec quelques méthodes de modélisant de

fond de la littérature, notamment les GMM [Stauffer and Grimson, 2000],

le codebook [Kim et al., 2005], le VuMeter [Goyat et al., 2006] et notre ap-

proche naïve. On peut remarquer que les résultats des méthodes existantes

contiennent beaucoup de fausses détections. Les résultats obtenus avec notre

modèle image ont moins de fausses détections. Une des raisons est que nous

utilisons la distribution des intensités des bois dans notre modèle image.

11

CBGMMI(t) VuMeter NM IM

Figure 7: Deux morceaux de bois morts image originale I(t) avec les résultatscorrespondant obtenus avec le GMM [Stauffer and Grimson, 2000], le code-book [Kim et al., 2005] (CB), le VuMeter [Goyat et al., 2006], l’approchenaïve (NM) et le modèle d’image (IM).

C’est une information qui n’est pas utilisée dans le GMM, le codebook et le

Vumeter, par conséquent, ces modèles de fond détectent un grand nombre

de vagues.

3 Modèle basé mouvement

Pour avoir une bonne segmentation du fond en mouvement, nous pouvons

également inclure l’information mouvement. Les méthodes basées sur le

mouvement s’appuient généralement sur le mouvement observé dans la scène

surveillée. La détection d’objets peut être basée sur une différence entre le

mouvement des objets et le mouvement du fond. Cependant, la couleur et

le mouvement sont liés dans un fond en mouvement: les modèles de couleur

sont différents spatialement et peuvent être répétitifs dans le temps. Par

conséquent, ni la couleur ni le mouvement ne peuvent seuls être utilisé pour

Figure 8: Des bagages sur un tapis roulant, une voiture se déplaçant sur laroute et une bouteille flottant dans un rivière sont quelques exemples danslesquels le mouvement des objets a priori peut être obtenu.

12

réaliser une bonne détection d’objets dans un fond en mouvement. Ceci nous

conduit par conséquent vers une approche combinée, fondée sur la couleur

et le mouvement. Nous supposons qu’une information a priori sur les mou-

vements des objets sont disponible. Nous proposons qu’un modèle de mou-

vement permette d’apprendre, dans un processus hors ligne, les paramètres

du modèle adéquat pour chaque applications. Le modèle de mouvement est

conçu de sorte qu’il peut être utilisé en conjonction avec n’importe quelle

méthode de la soustraction de fond. De cette façon, pour détecter les objets,

nous mélangeons les informations de mouvement au niveau des objets avec

les informations de couleur au niveau pixel en utilisant un modèle Bayésien.

Nous rappelons ce modèle :

Pobj(x, t) = Pimage(x, t) · Pmov(x, t)

où Pimage(x, t) est modèle image et Pmov(x, t) est le terme d’a priori lié au

mouvement. Nous proposons un modèle pour ce terme d’a priori, qui est

basé sur les connaissances disponibles sur les déplacements d’objets, indépen-

damment des images précédentes. Nous ne considérons en effet que l’image

à l’instant précédent; ce qui revient à considérer le "premier ordre" dans le

temps de ce terme. Cela nous permet de modéliser le mouvement global

de l’ensemble des objets plutôt que le mouvement local de pixels considérés

indépendamment.

Le terme d’a priori de mouvement peut s’exprimer comme suit:

Pmov(x, t) = P (F(x, t)|I(t− 1),F(t− 1))

Nous considérons un modèle de mouvement probabiliste, en supposant que la

fonction de probabilité de transformation de l’objet Ptrans(θ,d) (c’est-à-dire

à la fois le mouvement en rotation et en translation) est connue a priori. Plus

précisement, notre modèle rigide de mouvements d’objets peut être exprimé

par l’équation suivante :

Pmov(x, t) =∑

ψ∈C(t−1)

∑

x′∈ψ

∑

(θ,d)|Tθ,c,d(x′)=x

Ptrans(θ,d)

où ψ est un objet de l’ensemble des objets C(t−1) considéré à l’instant t−1

comme étant dans le premier plan F . Nous supposons, que la rotation et la

13

translation des objets sont statistiquement indépendantes :

Ptrans(θ,d) = Protation(θ) · Ptranslation(d)

Ptranslation(d) est la probabilité de translation des objets apprise et nous

avons choisi de la modéliser par une Gaussienne N (µd,Σd). Protation(θ) est

la probabilité de rotation d’objets appris et nous choisir de modéliser ça par

un Gaussienne N (µθ, σθ). Après avoir combiné modèle d’image avec modèle

de mouvements nous obtenons une image de premier plan F par la seuillage

de la probabilité combinée comme :

F(x, t) =

1 if Pobj(x, t) ≥ s

0 otherwise

Dans la suite, nous combinons ce modèle de mouvement avec deux modèles

d’image. Dans un premier temps, nous utilisons la méthode basée sur un

mélange de Gaussiennes que nous modifions afin qu’il soit exploitable modèle

image. Plus précisement,

Pimage(x, t) = 1− PBG(x, t)

où PBG(x, t) correspond à la probabilité que le pixel x appartienne au fond

étant donné sa couleur, en utilisant le modèle basé sur Gaussienne. Nous

gardons le même nombre de Gaussiennes pour chaque pixel. Par ailleurs,

le modèle est appris hors ligne et n’est pas remis à jour dans le temps.

L’adéquation entre une valeur de pixel et le modèle testé est donné par la

Frame t1 Frame t1 − 1 Frame t2 Frame t2 − 1

I(t)

F without

neighborhood

F with p = 5

F with PMO

Figure 9: (a) Deux objets flottants à deux instants différents et les résultatscorrespondant obtenus avec (b) les GMM (c) les GMM modifiées et (d) lesGMM modifiées combinées avec notre modèle de mouvement.

14

Frame t1 Frame t1 + 10 Frame t2 Frame t2 + 10

(a) Originalimages

(b) F without

(c) F with

(d) Ground

︸︷︷︸

object 1

︸︷︷︸

object 2

Pmov

Pmov

truth

Figure 10: (a) Deux exemples de bois morts à deux instants différents et lesimages de premier plan correspondantes (b) sans modèle de mouvement (c)avec modèle de mouvement et (d) les vérités terrain correspondantes.

distance à la Gaussienne qui correspond le mieux. Ainsi, la probabilité est

calculée comme suit:

PBG(x, t) = max1≤i≤K

ωi(x)η(I(x, t), µi(x),Σi(x))

Dans un deuxième temps, nous utilisons le modèle image dédié au bois morts

et le combinons avec notre modèle de mouvement. Les paramètres du modèle

de mouvement sont appris hors ligne.

Nous appliquons notre méthode à des vidéos réelles. Dans la figure 9,

nous montrons les résultats obtenus avec la méthode basée sur les GMM et

les GMM modifiées avec et sans modèle de mouvement. On peut observer

que les résultats avec notre modèle de mouvement sont bons par rapport à

ceux obtenus avec les GMM [Stauffer and Grimson, 2000]. Dans la figure 10,

nous montrons que les résultats de détection des bois morts sont améliorés

lorsque nous combinons le modèle image avec le modèle de mouvement.

15

4 Modèle de fond basé fréquence

Dans de nombreuses situations, les mouvements du fond peuvent être consid-

érés comme périodiques. Les motifs produits par les couleurs peuvent varier

spatialement et apparaître périodiquement. De tels motifs sont référencés

sous le nom " texture dynamique " dans la littérature. Contrairement à la

couleur, la texture n’est pas la propriété d’un seul pixel, mais plutôt celle

d’un voisinage spatial autour d’un pixel donnée. C’est la raison pour laquelle

de telles situations sont difficilement modélisables par les méthodes de mod-

élisation du fond existante. En effet, dans de tels algorithmes, non seulement

chaque pixel est considéré indépendamment de ses voisins (pas de prise en

compte spatiale) mais également, d’évolution temporelle des pixels n’est pas

considérées.

Pour modéliser les textures spatio-temporelles formées par ces types de

fond, nous proposons donc d’utiliser un modèle fondé sur les fréquences

d’apparitions des couleurs du fond dans un voisinage autour de chaque pixel.

L’idée principale derrière notre approche est de modéliser les motifs spatio-

temporels de la couleur de la scène et d’utiliser ce modèle pour détecter les

objets. À notre connaissance, aucune approche basée sur la fréquence n’a

été précédemment utilisée pour la modélisation de fond.

4.1 La transformée de Fourier locale

D’abord, nous donnons quelques notations nécessaires dans la suite. Soit p

pixel dans l’espace-temps : p = (x, t). Un parallélépipède rectangle spa-

tiotemporel centré à un pixel peut dénoté :

Ω(p)=Ω(x,y,t)=[x−Nx2,··,x+Nx

2]×

[

y−Ny

2,··,y+

Ny

2

]

×[

t−Nt2,··,t+

Nt2

]

Il est important de noter que Nx, Ny et Nt doivent être choisis en fonc-

tion de la période maximale (spatiales et temporelles, respectivement) qui

est attendue dans les données. Soit u = (u, v, w) un vecteur dans la do-

maine fréquentielle. Prenons une séquence d’images en niveaux de gris à

chaque pixel p on considère la fonction f à valeur réelle qui associe une

couleur. Soit F (u,p) la fonction à valeurs complexes (u,p), correspondant

à la transformée de Fourier calculée au pixel p en prenant en compte le

16

xy

tt = 1 t1 t2 t3 t = τ

︸︷︷︸︸︷︷︸︸︷︷︸

Ny

Nx

Nt Nt Nt

Figure 11: Un exemple de séquence d’images contenant τ images pourl’apprentissage du fond. Trois spectre (n = 3) sont appris aux instants t1, t2et t3 au cours de la période d’apprentissage (i.e. t = 1 · · · τ). L’emplacementdu pixel considéré est représenté par des points rouges dans la fenêtre spatio-temporelle de taille ω = Nx ×Ny ×Nt.

voisinage spatio-temporel de p:

F (u,p) =∑

p′∈Ω(p)

f(p′)ω(p− p′)e−i2π((p−p′)·u)

où (·) représente un produit scalaire (p · u = ux+ vy + wt)

ω(x, y, t) =1

√

2πσ2xσ2yσ

2t

e(− x2

2σ2x− y2

2σ2y− t2

2σ2t

)

ω est la fonction Gaussienne tronquée au-delà de 3 fois l’écart type dans

chaque dimension. Dans notre méthode, nous prenons en couple l’amplitude

des coefficients de Fourier. Ces derniers sont données par :

S(u,p) = |F (u,p)|

Compte tenu du voisinage spatio-temporel, Nx × Ny × Nt coefficients sont

considérés. Un vecteur de caractéristiques appelé spectre v(p) est alors

construit pour chaque pixel p, en concaténant les valeurs des coefficients de

Fourier dans un vecteur 1D:

v(p) = [S(u1,p),S(u2,p) · · · S(uM ,p)]

17

4.2 Modèle de fond basé sur la transformée de Fourier locale

Le processus d’apprentissage du modèle de fond est le suivant : nous con-

sidérons en entrée τ images d’apprentissage pour calculer la transformée de

Fourier locale. Sur ces τ images, nous apprenons n spectres par emplace-

ment spatial x pendant cette période d’apprentissage. Nous supposons que la

durée τ est suffisamment importante, telle que n spectres distincts de durée

Nt puissent être calculés. Le modèle de base de fréquence à un emplacement

spatial x donné peut être exprimé comme l’ensemble des vecteurs spectre

appris :

M(x) =vibackground(x)

i=1···n

La figure 11 montre les voisinages spatiotemporels sur lesquels les spectres

d’apprentissagesont calculés (dans cet exemple, n = 3).

4.3 La détection d’objets

Pour la détection d’objets, nous stockons Nt d’images en mémoire. Nous

prenons des données spatio-temporelles autour de chaque pixel de ces images.

Pour chaque pixel p, le vecteur de caractéristiques spectrales v(x, t) est

comparé à l’ensemble des n vecteurs appris pour la position spatiale p. La

fonction d représente la dissimilarité entre v(x, t) et le modèle associé au

pixel x, à savoir M(x). Nous pouvons l’écrire:

d((x, t),M(x)) = mini=1···n

D(v(x, t),vibackground(x))

Nous considérons qu’un pixel x appartient à un objet en mouvement si d est

supérieur à un seuil ǫ. Par conséquent, l’ image de premier plan F(x, t) est

produite en utilisant l’équation suivante:

F(x, t) =

1 if d((x, t),M(x)) ≥ ǫ

0 otherwise

De cette façon, les perturbations dans la scène, qui génèrent des motifs spa-

tiotemporels différents de ceux du fond, sont identifiées et utilisées pour la

détection d’objets.

Nous avons appliqué notre méthode sur plusieurs vidéos, notamment les

vidéos de la base DynTex, les objets flottants dans la rivière. La Figure 12

montre une image extraite de chaque séquence. Nous avons comparé nos

18

Original images

GMM results

Modified GMM

Our results

Figure 12: Une image de chaque vidéo et les résultats obtenus avec le GMM[Stauffer and Grimson, 2000], le GMM modifié et notre modèle basé fréquen-tielle.

résultats avec les résultats obtenus avec le modèle basé sur les mélanges de

Gaussiennes. On peut noter que dans toutes les vidéos, il y a des fonds

dynamiques et le mélange de Gaussiennes génère de nombreuses fausses dé-

tections.

5 Conclusion et perspectives

Dans notre thèse, nous nous sommes concentrés sur les vidéos obtenues en

utilisant des caméras fixes filmant des scènes avec des fonds dynamiques.

Plus précisément, nous avons étudié des vidéos contenant des objets et

un fond animés de mouvements continus. Nous avons abordé la question

fondamentale de la segmentation d’objets dans les fonds en mouvement.

L’approche que nous avons choisie consiste en une soustraction de fond.

Dans notre travail, nous avons cherché à détecter des objets avec une

information a priori sur leur mouvement et leur apparence. En effet, dans

certaines applications, nous disposons d’informations a priori sur la couleur

des objets quand le type d’objets recherchés est connu à l’avance. Il peut

19

être utile d’utiliser ces informations dans la détection des objets. Nous avons

développé une approche dédié à la détection des bois morts flottants sur des

cours d’eau, dans laquelle nous utilisons la distribution de l’intensité des

bois morts. Le modèle obtenu est utilisé conjointement avec l’information

temporelle partiellement basée sur les différences inter-trame. Le modèle a

été testé pour les bois morts, mais nous pensons qu’il peut être appliqué à

d’autres cas où la distribution de couleur des objets recherchés est connue.

Nous avons comparé les résultats obtenus avec notre modèle d’image avec

les résultats des modèles de fond existants de la littérature.

Il est à noter que le modèle d’image que nous avons développé est dédié à

la détection de bois, qui est une application relativement restreinte. La méth-

ode est dépendante de la distribution d’intensité de bois dans l’environnement

étudié. Comme travaux futurs, une estimation non paramétrique de la prob-

abilité pourra être considérée, afin de traiter une plus large classe d’objets.

Une autre extension consisterait à considérer la distribution de la texture au

lieu de la couleur seule.

Par ailleurs, les objets peuvent être détectés en utilisant leurs caractéris-

tiques de mouvement. Lorsque l’information de mouvement est disponible

a priori, nous pouvons l’utiliser pour améliorer de la soustraction du fond.

En particulier, nous avons proposé un modèle de mouvement rigide. Nous

avons utilisé les connaissances a priori apprises d’une séquence d’images

par une méthode hors ligne.Nous avons montré que la détection d’objets est

améliorée en utilisant les connaissances de mouvement a priori. De cette

façon, les fausses détections dans le premier plan ont été réduites.

On peut remarquer que notre approche est basée sur un type très simple

de mouvement en l’occurrence une combinaison d’une translation et d’une ro-

tation. Comme travail futur, nous pourrions envisager un type plus général

de déplacements de l’objet qui pourrait, par exemple, contenir une com-

posante déformable ou un changement d’échelle. Une autre extension pour-

rait être la détection d’objets basé sur un 3D.

D’autre part, certains fonds sont composés de régions en mouvement qui

évoluent localement et périodiquement. Ces régions en mouvement créent

des textures dynamiques, des motifs spatiotemporels. Pour extraire ces mo-

tifs, nous avons développé une méthode basée sur une analyse fréquentielle,

qui puise son inspiration dans la segmentation de texture 2D. L’idée prin-

cipale derrière notre approche est de modéliser la couleur spatio-temporelle

20

des motifs présents dans la scène et d’utiliser le modèle pour la détection

d’objets. Notre modèle de fond repose sur la transformée de Fourier locale,

calculée sur la région spatio-temporelle autour de chaque pixel. Dans cette

méthode, un spectre est associé à chaque pixel. Un pixel est affecté au pre-

mier plan si son spectre est suffisamment différent des spectres de fond, qui

sont extraits pendant une période d’apprentissage.

Nous avons appliqué cette méthode sur plusieurs vidéos de la base Dyn-

Tex. Notre méthode produit de très bonnes segmentations en présence de

mouvements répétitifs des couleurs du fond. Nous avons comparé les résul-

tats de notre méthode avec le GMM et le GMM modifié. L’analyse compar-

ative montre qu’avec le modèle de fond basé sur la fréquence, nous obtenons

de meilleures détections d’objets dans des fonds complexes et très agités.

Cependant, notre modèle fréquentiel a quelques limitations. L’intervalle

de temps entre les périodes d’apprentissage et de détection ne doit pas être

trop long, ce qui peut être considéré comme une contrainte. En fait, si les

conditions de luminosité changent entre la phase d’apprentissage et la phase

de détection, les motifs spatiotemporels de couleur de fond ne seront pas

similaires à ceux appris, ce qui générera des fausses détections. En perspec-

tive, un modèle adaptatif pourrait être développé pour régler ces problèmes.

Par ailleurs, les textures spatiotemporelles pourraient être modélisées par un

mécanisme adaptatif selon que les zones de fond ont des mouvements lents

ou rapides. Il conviendrait alors d’étudier l’étendue temporelle de la texture

de chaque région. Cela pourrait être couplé avec un nombre de spectres

adaptatif, pour les zones se déplaçant lentement ou rapidement dans le fond.

References

Y. Goyat, T. Chateau, L. Malaterre, and L. Trassoudaine. Vehicle trajecto-

ries evaluation by static video sensors. In 9th IEEE International Confer-

ence on Intelligent Transportation Systems, pages 864–869, 2006. 5, 11,

12

K. Kim, T. Thanarat, H. Chalidabbhognse, D. Harwood, and L. Davis. Real

time foreground-background segmentation using codebook model. Real-

Time Imaging, 11(3):172–185, 2005. 4, 11, 12

21

L. Li, W. M. Huang, I.Y. H. Gu, and Q. Tian. Statistical modeling of

complex background for foreground object detection. IEEE Transactions

on Image Processing, 13(11):1459–1472, 2004. 7

C. Stauffer and W. Grimson. Learning patterns of activity using real-time

tracking. IEEE Transactions Pattern Analysis Machine Intelligence, 22

(8):747–757, 2000. 4, 11, 12, 15, 19

22

Documents

Thèse de l’Université de Lyontheses.univ-lyon2.fr/.../ali_i_resume_lg_fr.pdf · Numéro d’ordre : 2012- Année 2012 Université Lumière Lyon 2 Laboratoire d’InfoRmatique