Download pdf - THÈSE - u-bordeaux.frori-oai.u-bordeaux1.fr › pdf › 2008 › MIKRAM_MOUNIA_2008.pdfMerci également à M. Noureddine Zahid Professeur à la faculté des Science de Rabat, pour

N° d’ordre : 3736

THÈSE PRÉPARÉE À

L’UNIVERSITÉ DE BORDEAUX I

Par Mounia MIKRAM

POUR OBTENIR LE GRADE DE

DOCTEUR

SPÉCIALITÉ : AUTOMATIQUE, PRODUCTIQUE, SIGNAL ET IMAGE

INFORMATIQUE ET TÉLÉCOMMUNICATIONS

-----------------------------

Suivi d'objets dans une séquence d'images par modèle

d'apparence : conception et évaluation. ------------------------------

Soutenue le 15 Décembre 2008.

Après avis de : Vincent Charvillat Maître de Conférences HDR à l’ENSEEIHT Rapporteur Rachid Oulad Haj Thami Professeur habilité à l’ENSIAS, Rabat Rapporteur

Devant la commission d’examen formée de : Mohamed Najim Professeur à l'ENSEIRB, Bordeaux Président Vincent Charvillat Maître de Conférences HDR à l’ENSEEIHT Rapporteur Rachid Oulad Haj Thami Professeur à l’ENSIAS, Rabat Rapporteur Noureddine Zahid Professeur à la faculté des Science de Rabat Examinateur Driss Aboutajdine Professeur à la faculté des Science de Rabat Examinateur Rémi Mégret Maître de Conférences à l'ENSEIRB, Bordeaux Examinateur

-- 2008 --

2

Résumé

Le travail présenté dans ce mémoire s’inscrit dans le cadre du suivi d'objets dans des vidéos, et plus

particulièrement, sur l'utilisation de représentations par modèle d'apparence pour le suivi. Un système

de suivi basé sur des modèles d'apparence peut être schématiquement décomposé en un modèle

d’apparence d'objet, des contraintes spatio-temporelles de position et un algorithme de recherche de

position qui prenne en compte les deux aspects précédents. Le modèle d'apparence est une composante

centrale des performances d'un tel système, et nous focalisons notre attention dessus.

La notion de modèle d'apparence est précisée sur la base de l'extraction de descripteurs visuels

comparés à l'aide de similarités à une référence. De nouvelles techniques pour évaluer les

performances vis à vis du suivi sont présentées. Les approches classiques d’évaluation considèrent

uniquement la qualité des trajectoires finales estimées. Les métriques proposées dans ce mémoire s’en

distinguent par le fait qu’elles quantifient la performance intrinsèque des modèles d’apparence utilisés

au sein du système. Deux axes sont ainsi développés : d’une part, un ensemble de mesures de la

précision spatiale d’un modèle couplées à la mesure de la robustesse vis-à-vis d’une initialisation

spatiale approximative, et d’autre part, la proposition d’une méthodologie permettant de mesurer la

stabilité d’un modèle du point de vue temporel sur des données vidéos naturelles. Ces techniques

seront utilisées dans la suite du mémoire pour évaluer les méthodes existantes ainsi que celles

présentées.

Deux nouveaux modèles d'apparence sont ensuite introduits. Le premier modèle dénommé

l’histogramme multi-échelles permet de limiter les ambigüités liées à la représentation par

histogramme de couleurs. Ceci est réalisé en injectant une information spatiale implicite permettant de

différencier des objets ayant des distributions de couleur identiques, bien que distribuées différemment

d’un point de vue spatial. Le deuxième modèle, fondé sur une extension de la métrique de Matusita

pour la comparaison de distributions de couleurs, prend en compte les variations possibles des

couleurs des objets liées aux conditions de prises de vues afin de rendre le suivi plus robuste à ce

phénomène.

Enfin, le lien entre modèle d'apparence et technique de recherche de la position optimale est abordé

dans le contexte du suivi multi-noyaux à travers la proposition d'un nouvel algorithme de suivi basé

sur une approche compositionnelle inverse. Celui-ci offre un temps de calcul fortement réduit pour

une qualité de suivi similaire aux algorithmes existants.

3

Remerciements

Les travaux présentés dans le mémoire ont été menés au sein du Laboratoire Automatique

Productique et Signal de Bordeaux et plus particulièrement dans l’équipe Signal et Image (ESI) dirigé

par M. Mohamed Najim.

Ces travaux ont été effectués en cotutelle avec le Laboratoire de Recherche en Informatique et

Télécommunications (LRIT) dirigé mar M. Driss Aboutajdine à la faculté des sciences de Rabat

Merci à Mohamed Najim et Driss Aboutajdine, pour avoir accepté de diriger cette thèse et dont

l’aide précieuse m’a été indispensable sur le plan scientifique. Je tiens également à les remercier pour

la confiance et la sympathie qu’ils m’ont témoignées au cours de ces années de thèse.

Je tiens à exprimer mes remerciements aux membres du jury, qui ont accepté d’évaluer mon travail

de thèse.

Merci à M. Mohamed Najim, Professeur à l'ENSEIRB, Bordeaux, d’avoir accepté de présider le

jury de cette thèse, et à Rachid Oulad Haj Thami Professeur habilité à l’ENSIAS et à M. Vincent

Charvillat Maître de Conférences HDR à l’ENSEEIHT, d’avoir accepté d’être les rapporteurs de ce

manuscrit. Leurs remarques et suggestions lors de la lecture de mon rapport m’ont permis d’apporter

des améliorations à la qualité de ce dernier.

Merci également à M. Noureddine Zahid Professeur à la faculté des Science de Rabat, pour avoir

accepté d’examiner mon mémoire et de faire partie de mon jury de thèse.

Je tiens à remercier aussi Rémi Mégret, dont l’aide sur le plan technique et les grandes qualités

humaines ont permis de mener à bout cette thèse. Son soutien s’est avéré déterminant pour mener ce

travail à terme.

Merci également à Yannick Berthoumieu, qui m’a permis d’effectuer cette thèse dans de très

bonnes et très agréables conditions de travail.

Je tiens à remercier l’ensemble de l’équipe et plus particulièrement Christelle pour sa gentillesse et

son efficacité lors des difficultés administratives ou logistiques que j’ai rencontrées.

Je tiens enfin à remercier les amis, thésards ou non qui m’ont aidé au cours des ces années de cette

thèse.

Finalement j’adresse un grand merci à toute ma famille qui a toujours été présente lorsque j’en ai

eu besoin, en particulier à ma mère.

4

Sommaire

Introduction............................................................................................................................... 7

1 Motivation................................................................................................................................. 7

2 Principe du suivi d’objet.......................................................................................................... 8

3 Problématique traitée .............................................................................................................. 9

Chapitre 1 Étude des approches existantes pour les modèles d’apparence et évaluation des performances de suivi.............................................................................................................. 13

1.1 Représentation des objets.................................................................................................. 14 1.1.2 Points............................................................................................................................................. 15 1.1.3 Contour et silhouette ..................................................................................................................... 15 1.1.4 Modèle d’apparence sur une région .............................................................................................. 16

1.2 Modèles d’apparence pour le suivi ................................................................................... 18 1.2.1 Attributs ........................................................................................................................................ 18 1.2.2 Approches pour la description d’apparence .................................................................................. 20 1.2.3 Descripteurs statistiques de la couleur .......................................................................................... 24 1.2.4 Mesures de similarité .................................................................................................................... 30

1.3 Evaluation des systèmes de suivi d’objet ......................................................................... 38 1.3.2 Paradigme standard ....................................................................................................................... 39 1.3.3 Benchmarks pour le suivi vidéo .................................................................................................... 41 1.3.4 Outils d’annotations ...................................................................................................................... 42 1.3.5 Métriques d’évaluation des performances..................................................................................... 43

1.4 Performance de modèles d’apparence en indexation ..................................................... 44 1.4.1 Motivation..................................................................................................................................... 44 1.4.2 Evaluation d’un système d’indexation et de recherche d’images par le contenu ..........................46 1.4.3 Mesures de performance d’un modèle d’apparence ...................................................................... 47

1.5 Conclusion .......................................................................................................................... 49

Chapitre 2 Evaluation des performances de modèles d’apparence pour le suivi ................. 51

2.1 Généralités.......................................................................................................................... 51

2.2 Performance spatiale d’un modèle d’apparence............................................................. 52 2.2.2 Evaluation des surfaces de similarité ............................................................................................ 54 2.2.3 Caractérisation topographique....................................................................................................... 55 2.2.4 Illustration des méthodes d’évaluation.......................................................................................... 59

2.3 Performance temporelle d’un modèle d’apparence........................................................63 2.3.1 Modélisation d’un système de suivi .............................................................................................. 63 2.3.2 Mise en place d’un corpus d’évaluation........................................................................................ 64 2.3.3 Critères d’évaluation des performances ........................................................................................ 67

2.4 Conclusion .......................................................................................................................... 74

Chapitre 3 Nouveaux modèles d’apparence pour le suivi ..................................................... 75

3.1 Histogramme multi-échelles.............................................................................................. 75 3.1.1 Principe ......................................................................................................................................... 75 3.1.2 Intérêt de la nouvelle approche ..................................................................................................... 77 3.1.3 Suivi robuste par Mean Shift via l’histogramme multi-échelles ................................................... 81 3.1.4 Expérimentation et évaluation....................................................................................................... 84

3.2 Suivi robuste via une mesure de similarité inter-bins..................................................... 85 3.2.1 Effets des changements d’illumination ......................................................................................... 85 3.2.2 Distance fondée sur la distance de Matusita modifiée .................................................................. 86

5

3.2.3 Application au suivi par Mean Shift.............................................................................................. 89 3.2.4 Expérimentations et évaluation ..................................................................................................... 91

3.3 Conclusion .......................................................................................................................... 95

Chapitre 4 Evaluation des modèles d’apparence ................................................................... 97

4.1 Modèles d’apparence évalués............................................................................................ 97 4.1.1 Données expérimentales................................................................................................................ 97 4.1.2 Corpus d’évaluation ...................................................................................................................... 98

4.2 Performances globales des modèles d’apparence.......................................................... 100 4.2.1 Résultats ...................................................................................................................................... 100 4.2.2 Discussion ................................................................................................................................... 101

4.3 Choix du descripteur ....................................................................................................... 103 4.3.1 Effet de la pondération spatiale des histogrammes ..................................................................... 103 4.3.2 Comparaison des approches par histogramme et template.......................................................... 108

4.4 Performances des métriques ........................................................................................... 112 4.4.1 Métriques bin-à-bin ..................................................................................................................... 112 4.4.2 Métriques inter-bins .................................................................................................................... 113

4.5 Conclusion ........................................................................................................................ 117

Chapitre 5 Composition inverse pour le suivi d’objet par approche multi-noyaux............ 119

5.1 Estimation paramétrique du mouvement ...................................................................... 120 5.1.1 Définition .................................................................................................................................... 120 5.1.2 Modèles classiques...................................................................................................................... 120 5.1.3 Suivi paramétrique d’objet par distributions couleurs................................................................. 121

5.2 Approche compositionnelle multi-noyaux ..................................................................... 124 5.2.1 Cadre formel................................................................................................................................ 124 5.2.2 Optimisation compositionnelle inverse ....................................................................................... 125 5.2.3 Calcul du Jacobien ...................................................................................................................... 126

5.3 Expérimentation et discussion ........................................................................................ 127 5.3.1 Performance calculatoire............................................................................................................. 128 5.3.2 Propriétés de convergence........................................................................................................... 129

5.4 Conclusion ........................................................................................................................ 132

Conclusion générale et perspectives ..................................................................................... 135

Annexe A Algorithme de suivi par Mean Shift .................................................................... 137

A.1 Utilisation de la procédure Mean Shift ................................................................................ 138

A.2 Densité estimée du modèle..................................................................................................... 138

A.3 Densité estimée du candidat .................................................................................................. 138

A.4 Mesure de similarité entre distributions .............................................................................. 139

A.5 Algorithme de suivi ................................................................................................................ 139

Annexe B Benchmarks pour le suivi d’objets ...................................................................... 141

Annexe C Détails des performances sur les séquences du corpus ...................................... 143

Références.............................................................................................................................. 146

7

Introduction

1 Motivation

Le travail présenté dans ce mémoire s’inscrit dans le cadre du traitement numérique de séquences

d’images. Il s’agit par exemple, d’applications de vidéo surveillance où l’on utilise des caméras et

d'autres sources d’information pour surveiller les activités d’un site sensible. Actuellement, les

systèmes de surveillance les plus courants archivent des volumes gigantesques de vidéo pour

d’éventuelles inspections hors ligne par un opérateur humain. Il apparaît donc que la détection

automatique d’événements en faciliterait l'archivage et l'annotation. Par ailleurs, l’automatisation de

l’analyse du contenu pourrait être utilisée pour diriger l'attention d’opérateurs humains vers des

problèmes potentiels. De même, la détection automatique d’événements réduirait nettement la largeur

de bande exigée pour la transmission vidéo et le stockage car seuls des éléments d’intérêt seraient

transmis ou stockés.

Généralement, les sites concernés des lieux publics tels que des stations qui accueillent des

voyageurs (gare, métro, etc) soit des centres commerciaux. La compréhension sémantique (de haut

niveau) des événements se produisant dans ces sites s’appuie sur certaines tâches de bas niveau de la

vision artificielle telles que la détection des mouvements inhabituels, l’établissement de la trajectoire

des personnes visibles, la compréhension des interactions entre personnes, la reconnaissance de gestes,

etc. Chacune de ces tâches nécessite le suivi d’objets au cours du temps.

L’implémentation d’un procédé automatique de suivi d’objet est un problème central pour de

nombreuses applications. Principalement utilisé à l’origine dans un contexte militaire (suivi des cibles

ou guidage de missiles), ce type de traitement est aujourd’hui au cœur de nombreuses applications

multimédia (compression,…) en télésurveillance et en robotique mobile. Tout objet peut être

potentiellement amené à être suivi, en fonction de son intérêt, pour une analyse ultérieure. Par

exemple, dans une application concernant l’étude du comportement animal, comme celui de poissons

dans la mer [Zhou et al, 2006], le suivi d’objet aide les biologistes marins à recueillir des informations

concernant les comportements, les habitudes, les mouvements et la distribution globale et locale de

certaines espèces de poissons. Cela est également utile en matière de prévention d’accidents entre

véhicules sur autoroute [Veeraraghavan et al, 2003], pour avertir le conducteur d’un risque de collision

[Ji et al, 2004] ou pour détecter la présence de piétons se trouvant sur la trajectoire de véhicules

[Checchin et al, 2008].

8

2 Principe du suivi d’objet

Le suivi d’objet dans des séquences d’images est, depuis ces dernières décennies, un thème de

recherche très actif en vision par ordinateur. Le suivi correspond à l’estimation de la localisation de

l’objet dans chacune des images d’une séquence vidéo, la caméra et/ou l’objet pouvant être

simultanément en mouvement. Le procédé de localisation se fonde sur la reconnaissance de l’objet

d’intérêt à partir d’un ensemble de caractéristiques visuelles telles que la couleur, la forme, la vitesse,

etc.

Plus formellement, le but d’une méthode de suivi d’objet est d’estimer, dans chaque image de la

séquence, les paramètres de l’objet ou des objets présents dans le champ de vision de la caméra. Les

paramètres à estimer peuvent être divers, mais comprennent principalement une composante

géométrique, indiquant la position dans l’image du centre de l’objet [Comaniciu et al, 2003] [Lucas et

al, 1981] à laquelle peuvent s’ajouter de nombreux degrés de liberté en fonction de l’application. Pour

des objets rigides ou modélisés comme tels, les paramètres les plus fréquents sont l’échelle [Collins et

al, 2005], l’orientation [Alper et al, 2007], ou des paramètres de perspective. Pour des objets articulés,

il s’agit d’angles articulaires [Aggarwal et al, 1999]. Pour des objets déformables, les paramètres à

estimer se basent soit sur une modélisation du contour [Revéret et al, 1998], soit sur une modélisation

de l’apparence à l’aide de modèles surfaciques déformables tels que les modèles d’apparence actifs

[Edwards et al, 1998]. Dans certaines approches, l’estimation ne se limite pas à la composante

géométrique mais estime simultanément des paramètres relatifs à l’apparence de l’objet à partir d’un

ensemble d’apparences a priori possibles [Mughadam et al, 1997] [Black et al, 1998]. L’ensemble de

ces caractéristiques constitue l’état de l’objet et est défini pour chaque image de la séquence.

Le problème du suivi d’objet peut s’exprimer en termes de détection de l’objet au sein de chaque

image. Nous ferons la distinction entre les notions de suivi par mise en correspondance et suivi par

mise à jour. Le suivi par mise en correspondance est classiquement utilisé pour la construction de

trajectoires de caractéristiques de l’objet telles que des points d’intérêt [Chetverikov et al, 2000]

détectés préalablement. Cette approche s’attache à détecter un objet dans chaque image puis à

agglomérer temporellement les objets détectés de façon à obtenir des trajectoires cohérentes au cours

du temps. Le suivi par mise à jour détecte ou localise l’objet au sein d’une image en fonction de l’état

de l’objet à l’instant précédent. Dans ce dernier cas, le vecteur d’état est mis à jour sur chaque

nouvelle image, à partir d’une initialisation définie manuellement ou automatiquement sur l’une des

images de la séquence.

D’un point de vue fonctionnel, le suivi par mise à jour se décompose en deux parties principales :

la représentation et la localisation.

9

L’étape de représentation consiste à associer à l’objet suivi des caractéristiques de forme et/ou

d’apparence permettant de le reconnaître dans des images successives. Les caractéristiques

sélectionnées sont destinées à former le modèle de référence ; il s’agit d’une description numérique ou

symbolique qui permet de caractériser l’apparence visuelle de l’objet dans l’image ou la séquence.

Ceci peut être accompli de façon classique par l’initialisation du modèle sur une image de référence

(Fig. 1.a) bien que certaines méthodes prennent en compte plusieurs images de référence afin de

transcrire une plus grande variabilité dans l’apparence de l’objet [Black et al, 1996].

L’étape de localisation est le procédé numérique réalisant le suivi qui a pour but de fournir la

position de l’objet dans l’image courante de la séquence, sur la base de son modèle de représentation

et de son état dans l’image précédente (Fig. 1.b).

(a) (b)

Fig. 1 Processus de suivi : (a) : étape de représentation. (b) : étape de localisation.

3 Problématique traitée

Les méthodes fondées sur des modèles d’apparence cherchent à déterminer les localisations

successives des objets suivis en maximisant diverses mesures de similarité fondées sur des critères de

couleur, de forme et/ou de texture.

Considérons la boîte englobante notée n,tb associée à un objet n dans une image à l’instant t. Le

contenu visuel de cette région est pris en compte pour décider si la boîte est bien positionnée. Le

modèle d’apparence cible est typiquement calculé d’après l’apparence de l’objet sur une image

d’initialisation. Dans chaque image de la séquence, on cherche la région n,tb qui possède le contenu le

plus semblable à celui de la cible. À toute boîte englobante in,tb est associé un vecteur de

(a)

Choisir un modèle de référence forme,

couleur…

Rechercher dans le voisinage du

modèle dans la prochaine image

Commencer la recherche à partir de la position du modèle dans l’image courante

… …

Modèle Candidat

image courante

10

caractéristiques appelé descripteur iMtnv ,

, calculé à partir du contenu visuel de cette boîte et dépendant

du modèle d’apparence M utilisé pour représenter numériquement le contenu visuel. En particulier, le

modèle de référence correspond à un descripteur de référence *,

Mtrefnv calculé sur une image tref avec

une boîte correctement positionnée (Fig. 2). Il est alors possible de quantifier la vraisemblance d’une

boîte englobante au sens du descripteur par une mesure de similarité entre le modèle cible et les

hypothèses calculées sur l’image t notée :

)( *,,,

Mn,tref

iMn,t

iMtn ,vvss = (1)

Le principe général du suivi consiste à rechercher une boîte présentant une forte similarité avec le

modèle.

Fig. 2 Suivi d’objet par modèle d’apparence

Le modèle d’apparence de l’objet est un élément essentiel, qui conditionne pour beaucoup la

performance d’un système de suivi d’objets. Les techniques d’estimation fondées sur les densités à

noyau ont été proposées par [Comaniciu et al, 2003] et par [Georgescu et al, 2004] pour construire des

représentations statistiques de l’apparence de l’objet. Leur avantage est de proposer une description

relativement flexible et générique de l’apparence applicable au suivi d’objets non rigides sans

nécessiter de modèles trop complexes. Ce type d’approche permet une mise en œuvre rapide, en

temps-réel dans certains cas.

Les travaux que nous présentons dans ce document s’inscrivent plus particulièrement parmi les

méthodes fondées sur l’apparence de l’objet.

Ce mémoire est organisée en cinq chapitres: Tout d’abord, dans le premier chapitre, nous

présentons un état de l’art des méthodes de suivi d’objets fondées sur des modèles utilisant des

*trefb

Image tref

itb

Image t

,*Mtrefv iM

tv ,

Modèle d’Apparence M

Descripteur référence

Similarité

hypothèse de localisation

Descripteur hypothèse

Mesure de l’adéquation de l’hypothèse par rapport au

modèle d’apparence

11

descripteurs, en distinguant formellement les concepts de descripteur, de similarité et de technique

d’optimisation.

Les performances peuvent être définies du point de vue de la qualité des résultats de localisation de

l’objet ou de leur robustesse. Plusieurs questions doivent être soulevées lorsqu’on se penche sur la

performance d’un système de suivi :

• Comment évaluer la pertinence du choix d’un modèle d’apparence particulier?

De nouvelles techniques pour évaluer les performances vis à vis du suivi sont présentées. Les

approches classiques d’évaluation considèrent uniquement la qualité des trajectoires finales estimées.

Les métriques proposées se distinguent par le fait qu’elles quantifient la performance intrinsèque des

modèles d’apparence utilisés au sein du système. Deux axes sont ainsi développés dans le deuxième

chapitre : d’une part, un ensemble de mesures de la précision spatiale d’un modèle, couplées à la

mesure de la robustesse vis-à-vis d’une initialisation spatialement approximative et d’autre part, la

proposition d’une méthodologie permettant de mesurer la stabilité d’un modèle du point de vue

temporel sur des données vidéos naturelles. Ces techniques seront utilisées dans la suite du mémoire

pour évaluer les méthodes existantes, ainsi que celles présentées.

• Quel descripteur utiliser de sorte qu’un objet puisse être efficacement discriminé par rapport

au fond de l’image, tout en ayant un modèle invariant aux changements environnementaux ?

De nouveaux modèles d’apparence sont proposées dans le troisième chapitre. Le premier modèle

dénommé l’histogramme multi-échelle permet de limiter les ambigüités liées à la représentation par

histogramme de couleurs, en injectant une information spatiale implicite permettant de différencier des

objets ayant des distributions de couleur identiques, bien que distribuées différemment d’un point de

vue spatial. Le deuxième modèle, fondé sur une extension de la métrique de Matusita pour la

comparaison de distributions de couleurs, prend en compte les variations possibles des couleurs des

objets liées aux conditions de prises de vues afin de rendre le suivi plus robuste à ce phénomène. Leurs

performances sont étudiées et comparées à celles des approches existantes au sein du quatrième

chapitre.

• Enfin, comment lier le modèle d’apparence et les techniques de recherche de la position

optimale pour l’estimation de mouvements complexes ?

L’extension du suivi à des modèles de mouvement plus complexes que les translations est étudiée dans

le cinquième chapitre dans le contexte de suivi multi-noyaux à travers la proposition d’un nouvel

algorithme de suivi fondé sur une approche compositionnelle inverse. Celui-ci offre un temps de

calcul fortement réduit pour une qualité de suivi similaire aux algorithmes existants.

Chapitre 1

Étude des approches existantes pour les modèles

d’apparence et évaluation des performances de

suivi

Deux aspects indissociables et duaux coexistent dans le problème du suivi d’objets : la

représentation de l’apparence de l’objet connaissant sa localisation et la localisation de l’objet

connaissant son apparence. Le premier concerne la représentation informatique des objets tandis que le

second concerne l’utilisation de cette représentation dans un objectif de localisation. Les approches de

suivi fondées sur l’apparence d’objet diffèrent principalement entre elles par la manière d’aborder les

questions suivantes : quelle représentation d’objet convient pour le suivi ? quelles primitives doivent

être utilisées ? comment modéliser le mouvement, l’apparence et la forme de l’objet? quelles mesures

de similarité doivent être utilisées pour reconnaître l’objet le long de la séquence ? Les réponses

possibles à ces questions dépendent du contexte dans lequel le suivi est réalisé.

Le choix d’un modèle d’apparence est un des problèmes centraux du suivi d’objet visuel. Il

consiste à choisir une représentation pertinente de l’objet, donnant naissance à des primitives visuelles

significatives et fiables qui décrivent le contenu visuel de l’objet tout en permettant de reconnaître cet

objet au cours du temps, malgré des changements des conditions environnementales et des variations

de l’apparence de l’objet le long de la séquence vidéo. Les primitives visuelles sont souvent basées sur

la couleur, la forme, la texture, le mouvement ou une combinaison de ces attributs. L’un des

principaux facteurs qui limite la performance des algorithmes de suivi visuel est la capacité du modèle

d’apparence à rester valide lorsque l’apparence change rapidement. L’absence de cette adaptation peut

en effet entrainer une localisation erronée.

Ce chapitre est organisé de la façon suivante. Après un tour d’horizon des méthodes de suivi

d’objet (section 1.1), nous nous focalisons sur la modélisation de l’apparence de l’objet (section 1.2)

qui est au centre de notre étude. Cette présentation des méthodes de suivi existantes est complétée par

un état de l’art des méthodes d’évaluation des performances. L’évaluation des systèmes de suivi est

abordée à la section 1.3. L’évaluation des modèles d’apparence, thème largement traité dans le

14

contexte de l’indexation d’image, est présentée à la section 1.4. L’ensemble de ces rappels

préliminaires est l’occasion de présenter et d’organiser les travaux antérieurs sur lesquels se basent nos

propositions détaillées dans les chapitres suivants.

1.1 Représentation des objets

De nombreuses méthodes de suivi des objets existent. Ces méthodes se distinguent par la

représentation de la forme et de l’apparence de l’objet. Dans une étude récente [Alper et al, 2006] les

représentations par forme sont classées en trois familles : représentation par points, représentation par

silhouettes et représentation par fenêtres englobantes (Fig. 1.1). Dans chacune de ces méthodes, l’objet

est représenté différemment en utilisant sa forme et son apparence. Dans ce qui suit, nous allons

décrire ces méthodes comme illustré dans la taxonomie (Fig. 1.2), présentée ci-dessous.

Fig. 1.1 Représentation d’objet. (a) centroïde, (b) ensemble de points, (c) fenêtre englobante rectangulaire, (d) fenêtre englobante elliptique, (e) contour.

Fig. 1.2 Taxonomie des méthodes de suivi.

a b c d e

Suivi d’objet

Points Contour

Explicite Implicite Probabiliste Déterministe

Boîte englobante

Statistique Directe

Non-Paramétrique

Paramétrique

15

1.1.2 Points

L’objet est représenté par un point qui est son centroïde [Veenman et al, 2001] ou par un ensemble

de points [Serby et al, 2004]. Généralement, cette représentation par points convient pour suivre des

objets qui occupent de petites régions dans une image.

Dans le cas où, à chaque instant, toutes les cibles visibles peuvent être détectées de façon fiable et

rapide, le problème de suivi peut être défini comme un problème d’appariement de détections entre

images successives. Dans cette catégorie, les approches peuvent être déterministes ou probabilistes.

1.1.2.1 Approches déterministes

Dans les méthodes déterministes, le suivi s’effectue en minimisant une distance calculée sur

certaines caractéristiques de l’objet. Les caractéristiques couramment utilisées sont l’apparence

(similarité de forme et/ou de contenu photométrique et/ou de mouvement). Les modèles d’objet basés

sur l’apparence peuvent être des densités (histogrammes de couleur ou de contour), une carte de

contours (contour ouvert ou fermé de l’objet) ou une combinaison de ces modèles, [Haritaoglu et al,

2000], [Koller et al, 1993]. La mise en correspondance peut aussi être basée sur le mouvement, calculé

par des méthodes de flot optique [Sato et al, 2004].

1.1.2.2 Approches probabilistes

Le mouvement ou l’apparence d’un objet peut légèrement varier au cours du temps. De plus, les

cibles candidates obtenues par un algorithme de détection sont très souvent corrompues par du bruit.

Les méthodes probabilistes permettent de gérer ces fluctuations en ajoutant une incertitude au modèle

de l’objet et aux modèles des cibles candidates. Le suivi d’une cible est alors obtenu par des méthodes

de filtrage (filtrage de Kalman, filtrage particulaire) [Smith et al, 2005].

L’ensemble des méthodes décrites dans cette section ont un faible coût calculatoire qui dépend du

temps de calcul de la phase de détection. Certaines ne peuvent cependant pas être appliquées en ligne

et traitent les séquences hors ligne. L’inconvénient majeur de ces méthodes est qu’elles dépendent

exclusivement de la qualité de la détection. En cas de fausse détection, le suivi est détérioré.

1.1.3 Contour et silhouette

La représentation par contour définit les frontières d’un objet. La région à l'intérieur du contour se

nomme silhouette de l'objet. Ces représentations conviennent pour suivre des formes non rigides

complexes.

Les méthodes de suivi par contour sont utilisées lorsque l’on souhaite extraite la silhouette de

l’objet et que celle-ci se déforme au cours du temps. Ces approches reposent sur une succession de

16

segmentations. Elles font généralement évoluer le contour de l’objet à l’instant précédent jusqu’à sa

nouvelle position à l’instant courant. Ce type de suivi peut se réaliser avec des méthodes utilisant des

modèles d’état ou avec des méthodes minimisant des fonctions d’énergie sur le contour dont le terme

d’attache aux données favorise le positionnement du contour estimé le long des zones à fort gradient

dans l’image.

1.1.3.1 Approches explicites

Un certain nombre de méthodes de suivi par contour cherche à représenter le contour par un

ensemble de paramètres et à le suivre par une méthode de filtrage appropriée. Les paramètres du

contour jouent le rôle du modèle d’état de l’algorithme de filtrage. Les paramètres de mouvement de

son contour sont mis à jour à chaque instant en maximisant l’énergie englobant l’attache aux données

et les a priori de régularisation [Terzopoulos et al, 1993], [Isard et al, 1998], [MacCormick et al,

2000].

1.1.3.2 Approches implicites

Les méthodes décrites ci-dessus utilisent une représentation explicite du contour, qui peuvent être

mises en œuvre avec un coût calculatoire assez faible. Elles peuvent en revanche plus difficilement

suivre les changements topologiques, la division ou la fusion des régions. Des méthodes fondées sur la

minimisation d’une fonctionnelle d’énergie permettent de suivre un contour ou une région malgré des

changements de topologie. La région occupée par la cible peut être définie par un masque binaire

[Paragios et al, 1999]. La fonction d’énergie est définie en utilisant l’information sous la forme de

gradient temporel (flot optique) [Bertalmio et al, 2000] [Mansouri et al, 2002], [Cremers et al, 2003]

ou en se basant sur l’apparence de l’objet [Ronfard et al, 1994], [Alper et al, 2004].

Ces méthodes permettent de suivre tous types d’objets de formes diverses et s’adaptent

relativement bien aux objets déformables. Les méthodes fondées sur une représentation implicite sont

robustes aux changements de topologie des objets mais la minimisation des fonctions d’énergie est

généralement plus coûteuse et la convergence vers un minimum global n’est pas nécessairement

assurée.

1.1.4 Modèle d’apparence sur une région

La forme de l’objet est représentée par une région bornée, telle qu’un rectangle ou une ellipse

[Comaniciu et al, 2003]. Les techniques de suivi considérées dans cette section sont fondées sur la

conservation de l’apparence (généralement couleur et/ou luminance) de l’objet pendant au moins deux

instants consécutifs. Sous l’hypothèse de mouvement rigide, des modèles de transformation d’image

17

par une translation, une transformation affine ou une transformation projective peuvent également être

imposées.

Dans un système de suivi fondé sur une représentation par boîte englobante, cette représentation

géométrique est souvent utilisée. Il permet de se ramener à une boîte rectangulaire dont les côtés sont

parallèles aux bords de l’image. Dans ce cas, on peut définir l’état θ de l’objet comme étant le vecteur

composé du centre de la boîte (xc, yc) et du vecteur (xcs, ycs, xci, yci) où (xcs, ycs) est le coin supérieur

gauche de la boîte et (xci, yci) le coin inférieur droit. L’objet à suivre dans une image de référence Iref

est représenté par une boîte *n,tb . A l’intérieur de cette boîte englobante est calculé un descripteur

caractérisant l’apparence de l’objet. Pour accomplir la tâche de suivi le long de la séquence, le système

de suivi est généralement muni d’une architecture qui comprend trois parties :

• le modèle d’apparence (MA) qui décrit ce à quoi un objet doit ressembler dans une image.

Ce modèle peut être représenté par un couple (descripteur, similarité) ;

• l’algorithme d'optimisation, qui tente d'estimer la position de l’objet en optimisant la

correspondance entre l'apparence courante et le modèle d'apparence de référence ;

• les contraintes spatio-temporelles sur le mouvement de l’objet. Ces contraintes sont

utilisées pour simplifier le suivi. Par exemple, la plupart des algorithmes de suivi supposent

que le mouvement de l’objet suivi est régulier et sans changements brusques. On peut

contraindre le mouvement de l’objet pour se placer à vitesse ou à accélération constante en

se basant sur des informations a priori.

Fig. 1.3 Le suivi d'objets vu comme un problème d'optimisation

fonctionnelle à optimiser f(x,y)=f(q,p(x,y))

Descripteur référence q

Descripteurs hypothèses p(x,y)

Frame tref

Surface de similarité

Frame t

18

Dans le cadre de cette thèse nous nous intéressons plus particulièrement aux modèles d’apparence

et aux algorithmes d’optimisation. Le problème des contraintes spatio-temporelles a beaucoup été

étudié au niveau des méthodes de mise en correspondance de points d’intérêts, où elles jouent un rôle

majeur. L’apparence des points ne permet pas dans certains contextes, de les différencier [Veenman et

al, 2001]. Dans le cas où l’apparence de l’objet permet à la fois de le reconnaître et de le localiser, de

telles contraintes apparaissent moins centrales et servent dans les cas les plus simples à prédire

uniquement une initialisation pertinente de la position de l’objet dans une nouvelle image [Sigal et al,

2004] ou bien à améliorer le suivi dans des contextes complexes présentant des occultations

temporaires des objets considérés [Bennett et al, 2008].

1.2 Modèles d’apparence pour le suivi

Etant donnée une approche par boîte englobante, la qualité d’un système de suivi est fortement

conditionnée par le choix d’un modèle d’apparence adapté. Il ne s’agit pas de coder toute

l’information véhiculée par l’objet mais de se concentrer sur l’information qui permet de définir un

critère objectif efficace pour déterminer la position réelle de l’objet suivi dans l’image. Sans dissocier

l’extraction des attributs de la structuration de l’information sous forme de descripteurs et de

l’utilisation de cette représentation pour la localisation, une des clés de la représentation efficace est

l’identification de caractéristiques primaires en accord avec le type et le but du suivi visé par le

système.

1.2.1 Attributs

Une littérature abondante existe sur les attributs destinés à la représentation d’objets, de telle sorte

qu’il est difficile d’en extraire une revue exhaustive. L’analyse du signal se focalise généralement

autour de caractéristiques simples, intuitives et génériques telles que la couleur, la texture, la forme, la

géométrie et la topologie. La structuration de cette information sous forme de descripteurs est étudiée

au paragraphe 2.3.

1.2.1.1 Caractéristiques de couleur

La couleur, de par son pouvoir discriminant, est un des attributs les plus utilisés en représentation

d’objets.

Les auteurs se concentrent autour de quelques grands thèmes tels que l’identification de l’espace

couleur le plus discriminant [Allen et al, 2004], l’étude des problèmes d’invariance aux conditions

19

d’illumination [Lee et al, 2001] ainsi que la combinaison avec des attributs complémentaires tels que

la texture [Takala et al, 2007] ou l’information spatiale [Zhao et al, 2005].

Le premier point concerne le choix de l’espace colorimétrique. La littérature dense sur cet aspect

montre qu’il n’a y a pas d’espace couleur idéal pour la représentation. Si certains auteurs [Comaniciu

et al, 2003] [Georgescu et al, 2004] utilisent l’espace RGB, d’autres font le choix de projeter les

images dans des espaces colorimétriques alternatifs caractérisés par des propriétés différentes. Ainsi,

l’espace HSV séparant l’information relative à la teinte, la saturation et l’intensité est communément

utilisé [Allen et al, 2004]. Les espaces définis comme perceptiblement uniformes tels que CIELab sont

aussi considérés [Haoting et al, 2006]. Certains travaux se singularisent par l’utilisation de

composantes isolées des espaces précédents et par l’utilisation combinée de celles-ci [Collins et al,

2003].

La représentation d’objets peut nécessiter une invariance à l’illumination. Les variations induites

entre deux prises de vue du même objet dépendent de contraintes dites internes et de contraintes dites

externes à la source de lumière [Gros et al, 1997]. Dans le premier cas, il s'agit de variations d'intensité

et/ou de couleur de la lumière émise par la source alors que dans le second cas, il s'agit de

changements de position de la source par rapport à la scène photographiée. Alors que l'espace RGB est

sensible à ces changements d'illumination, la composante Hue de l'espace HSV offre une meilleure

invariance.

1.2.1.2 Caractéristiques de texture

Il n’existe pas de définition unique de ce qu’est une texture. Cependant, l’information qu’elle

véhicule concerne la manière dont les couleurs sont organisées sur la surface d’un objet en répétition

d’éléments. Une texture est généralement modélisée comme « une structure spatiale constituée de

l’organisation de primitives ayant chacune un aspect aléatoire » [Gagalowicz et al, 1983]. Une texture

peut avoir un aspect périodique ou aléatoire. La prise en compte de ce type de caractéristiques pour

représenter un objet est courante et discriminante dans de nombreux cas. A titre d’exemple, ce type

d’information est utilisé pour le suivi d’objet dans les travaux de [Takala et al, 2007]. Le problème de

l’utilisation de la texture est le coût calculatoire qu’elle engendre : en général les algorithmes proposés

ne fonctionnent pas en temps réel.

De nombreuses méthodes sont référencées dans la littérature pour la décomposition de l'image et le

calcul de caractéristiques texturales. Parmi les plus connues, on trouve la décomposition en ondelettes

utilisée par [Chang et al, 2001]. Les modèles multi-échelles sont également couramment utilisés, ainsi

que les filtres de Gabor [Stamou et al, 2005].

20

1.2.1.3 Caractéristiques de forme

Au même titre que pour la texture, l’information de forme est complémentaire de celle de la

couleur. Elle nécessite au préalable une segmentation, dont les caractéristiques sont dépendantes de

l’application visée. Une fois un masque de segmentation obtenu sur la région d’intérêt, la forme de ce

masque peut être caractérisée afin d’associer un descripteur à la région qui a donné lieu à ce masque.

Les descripteurs fondés sur l’intérieur du masque de segmentation caractérisent l’intégralité de la

forme d’une région, par exemple à travers les moments invariants [Hu et al, 1962]. Ces attributs sont

robustes aux transformations géométriques comme la translation, la rotation et le changement

d’échelle. Les descripteurs fondés sur le contour du masque font référence aux descripteurs de Fourier

[Persoon et al, 1977].

1.2.1.4 Caractéristiques hybrides

Pour gagner en robustesse, certains combinent des primitives de type contour et d’autres de type

texture pour effectuer le suivi. Ainsi, par exemple [Takala et al, 2007] utilisent un modèle hybride

pour réaliser le suivi en temps réel : des primitives de type mouvement sont combinées à des

primitives texturées pour assurer un suivi de meilleure qualité que s’il était effectué avec un seul des

deux types de primitives.

1.2.2 Approches pour la description d’apparence

Nous distinguons deux approches : l’approche utilisant une représentation directe qui fait

l’hypothèse de la conservation locale de l’apparence (en chaque point de l’objet) et l’approche fondée

sur une représentation statistique utilisant une caractérisation globale de la cible (hypothèse globale de

conservation de l’apparence). Ces deux approches peuvent être potentiellement combinées au sein

d’un même algorithme hybride, mais la plupart des méthodes peuvent être classées dans l’une ou

l’autre de ces catégories.

1.2.2.1 Approches directes

La première catégorie d’approches regroupe celles qui consistent à utiliser directement les valeurs

des intensités engendrées par la surface de l’objet. Les valeurs des intensités sont extraites à partir des

points de l’image appartenant à l’objet. Ces points forment la région de référence R=(x1, x2,…, xn)T,

où xi= (xi, yi) est un point 2D et n est le nombre de pixels de la région R. L’intensité en niveaux de gris

d’un point x à l’instant t est donnée par la fonction I (x, t). Le vecteur I (R, t) qui contient les intensités

de la région entière R à l’instant t est nommé template.

21

Un avantage des templates est qu'ils incorporent l'information spatiale et l’information sur

l'apparence des objets. Certaines variantes utilisent des représentations dans un domaine transformé

déduites de la représentation template permettant de conserver ces propriétés, tout en diminuant la

taille du descripteur. Ainsi, [Château et al, 2002] se fondent sur les coefficients d’ondelettes de Haar.

Ces modèles considèrent l’apparence de l’objet à partir d’un seul point de vue. Ainsi, ils sont

seulement appropriés pour suivre des objets dont la pose ne change pas considérablement pendant le

suivi. Pour pallier cette limite, plusieurs auteurs proposent des représentations construites à partir de

différentes vues d'un objet. Une approche pour représenter un objet consiste à générer un sous-espace

de l’apparence par apprentissage à partir d’un ensemble de vues. Des approches par sous-espaces,

comme l'analyse en composantes principales (ACP) ou l'analyse en composantes indépendantes (ACI),

ont été utilisées pour cette tâche [Mughadam et al, 1997] [Black et al, 1996].

Une autre approche pour prendre en considération les différentes vues d'un objet est l’apprentissage

d'un ensemble de classifieurs fondés par exemple sur les machines à vecteur de support [Avidan,

2001] ou les réseaux bayésiens [Park et al, 2004]. Toutefois, ces modèles d'apparence multi-vues

nécessitent un nombre important de vues de référence afin de modéliser correctement l’ensemble des

variations d’apparence possible du template.

Ces méthodes font l’hypothèse de la conservation de luminance. L’approche la plus simple consiste

à chercher dans l’image courante, la portion d’image la plus proche de celle qui a été retrouvée à

l’instant précédent. La recherche s’effectue souvent autour de la position de l’objet à l’instant

précédent. Ces approches sont appelées "block matching" ou "template matching". Elles font appel à

une mesure de similarité telle que la corrélation ou la SSD ("sum of square differences"). Le coût de

calcul de ce type de méthodes peut être élevé. Il dépend de la taille du voisinage dans lequel le

template est recherché.

Plus formellement, Le template à l’instant t0 est désigné comme template de référence. La mise en

correspondance de templates peut être décrite en tant que calcul des paramètres de mouvement θθθθ (t)

qui minimisent la différence d’intensité au sens des moindres-carrés entre le template de référence et

le template courant :

( ) ( ) ( )( )20

* ,,,minarg tgtt θRIRIθθ

−= (1.1)

La fonction g(R,θθθθ) produit une transformation géométrique 2D de la région, paramétrée par le

vecteur θ. Plusieurs transformations peuvent être considérées, par exemple, allant d’un déplacement

uniforme (translation), aux transformations affines ou projectives (incluant rotations, zoom et

cisaillement). [Baker et al, 2001]. Les modèles actifs d’apparence (AAM) utilisent une approche très

similaire, où la transformation paramétrique est plus complexe, impliquant la déformation d’un

maillage [Baker et al, 2004].

22

La minimisation de l’équation 1.1 a un coût calculatoire élevé si elle s’effectue par une recherche

exhaustive. Des algorithmes de recherche sous-optimaux ont ainsi été très largement étudiés,

notamment dans le contexte de la compression vidéo par compensation du mouvement par blocs. Ces

algorithmes diminuent le nombre d’hypothèses à évaluer en formulant des hypothèses sur la régularité

spatiale ou temporelle des vecteurs de mouvement, ou sur la régularité de la fonctionnelle à minimiser.

Cette approche comprend notamment la recherche en diamant, en trois pas ou adaptative [Zhu et al,

1997].

Pour réduire d’avantage la complexité calculatoire, d’autres algorithmes utilisent une approche

ascendante, en effectuant une optimisation locale de l’erreur d’alignement. Ainsi, plusieurs méthodes

estiment le paramètre θ par une résolution de système linéaire :

( ) ( ) ( ) ( ) ( )( )( )( )ttgftfttt ,,, 1ˆ1ˆ0 θRRAθθ −++=+ (1.2)

La matrice A peut être calculée par une approche des moindres carrés. Il est à noter que A peut être

estimée indépendamment du temps [Baker et al, 2004] pour des implémentations temps réel [Jurie et

al, 2002]. Une approche analytique pour calculer la matrice A est proposée par [Hager et al, 2004].

Les templates sont conçus en utilisant des formes géométriques simples. Un avantage des templates

est qu'ils comportent l'information spatiale et l’information d'apparence. Cependant, ils codent

seulement l'apparence d’un objet générée à partir d'une vue unique. Ainsi, ils sont essentiellement

appropriés pour suivre des objets dont l’aspect ne se modifie pas considérablement durant le suivi. En

conséquence, cette approche est généralement utilisée pour un suivi court-terme.

1.2.2.2 Approches statistiques

La seconde catégorie d’approches par représentation de l’apparence d’un objet regroupe les

méthodes statistiques où cette apparence est modélisée par une variable aléatoire dans un espace des

attributs (couleur, texture, information spatile, …) avec une fonction de densité de probabilité

associée.

Les estimations de la densité de probabilité de l'apparence d'un objet peuvent être paramétriques, par

exemple des gaussiennes [Wern et al, 1997] ou un mélange de gaussiennes [Paragios et al, 2002], ou

non paramétriques, telles les fenêtres de Parzen [Elgammal et al, 2000] et les histogrammes

[Comaniciu et al, 2003].

La recherche de la cible à l’instant courant se base sur des distributions (histogrammes ou mélange

de gaussiennes) des couleurs dans une boîte englobante. Une méthode très populaire dans cette

catégorie est le suivi par Mean Shift [Comaniciu et al, 2003] (Annexe A). La distribution est

représentée par un histogramme de couleurs. L’algorithme consiste alors à déplacer une fenêtre

23

d’analyse (noyau spatial) de manière à déterminer la fenêtre dont l’histogramme coïncide le mieux

avec l’histogramme de référence. La similarité entre l’histogramme de référence et l’histogramme

candidat est mesurée par le coefficient de Battacharyya. Le déplacement du noyau est controlé par une

montée de gradient itérative. Plus récemment, une méthode permettant le suivi de distributions sans

calculer explicitement les distributions a été proposée dans [Boltz et al, 2007]. Elle consiste à ajouter,

en plus de la couleur, une information sur la géométrie des objets. L’estimation des densités de

probabilité en grande dimension n’étant pas triviale, les auteurs proposent une méthode permettant de

calculer une distance de Kullback-Leibler entre deux densités de probabilités sans estimer

explicitement ces densités.

Plus formellement, l’objet cible est identifié par une région d’image R(θθθθ(t)), où θθθθ(t) contient les

paramètres temporels de la région, également désigné sous le nom d’état de la région. Un exemple

simple pour la région R(θθθθ(t)) est un rectangle à dimensions fixes. L’état de la région θθθθ(t)= (mx (t),

my(t))T est le centre de ce rectangle à tout instant t. Avec ce simple modèle, la translation d’une région

de la cible peut être facilement décrite en estimant θθθθ(t), c'est-à-dire le centre de gravité du rectangle, à

tout instant t. Si la taille de la région est également incluse dans l’état, l’estimation de l’échelle est

possible.

L’information contenue dans la région est utilisée pour modéliser l’objet suivi, mais au lieu de se

concentrer sur les valeurs des différents pixels, une distribution est utilisée. L’information peut

comprendre la couleur, l’intensité, ou d’autres attributs comme le gradient. A chaque instant t et pour

chaque état θθθθ(t), la représentation de l’objet suivi se compose d’une fonction de densité de probabilité

p(θθθθ(t)) des attributs choisis à l’intérieur de la région R(θθθθ(t)). Dans la pratique, cette fonction de densité

doit être estimée à partir des données issues de l’image. Pour des raisons de performance, un

histogramme pondéré de m classes est utilisé comme une estimation non-paramétrique de la densité

effective :

( )( ) ( )( ) ( )( ) ( )( )[ ]tqtqtqtq N θθθθ ,,, 21 K= (1.3)

Le suivi d’objet se définit alors comme un problème d’optimisation. En commençant par une

région initiale cible, - par exemple définie manuellement ou automatiquement dans la première image

à l’insatnt t=t0 - un histogramme initial q(θθθθ(t0)) peut être calculé . Pour t>t0, la région correspondante

est définie par :

( ) ( )( ) ( )( )( )ttDtt

θqθqθθ

,minargˆ0

)(= (1.4)

• avec D(.,.) une fonction de distance appropriée définie sur des histogrammes.

De plus, les algorithmes de type Mean Shift sont peu coûteux. Cependant, la description d’une

cible par des distributions n’est pas adaptée aux objets de petite taille.

24

1.2.3 Descripteurs statistiques de la couleur

Nous nous focaliserons ici sur les modèles se fondant sur la représentation statistique de la couleur,

pour lesquels nous proposerons des améliorations dans la suite du mémoire, visant à en améliorer la

prise en compte de l’information spatiale, tout en conservant une approche de description globale.

1.2.3.1 Histogramme

L'histogramme couleur d'un objet est l’une des représentations décrivant son apparence. Il permet

de représenter statistiquement la distribution des couleurs des pixels, c'est-à-dire la proportion de

pixels répartis sur un ensemble de classes de couleurs, comme illustré sur la figure (Fig. 1.4).

L’histogramme a été fréquemment utilisé pour la reconnaissance d'objets [Swain et al, 1991]. C’est

aussi un outil privilégié dans les systèmes de recherche d’images et de séquences dans des bases de

données visuelles [Bach et al, 1996]. C’est enfin un outil primordial dans les systèmes de suivi

[Comaniciu et al, 2003], [Bradski et al, 1998].

Le succès des approches par histogramme provient de leur faible complexité calculatoire associée à

une bonne robustesse vis-à-vis du bruit et de leur invariance aux rotations et aux changements

d’échelle.

Dans la plupart des applications, l’histogramme est calculé sur une région d’intérêt définie par une

forme géométrique simple (rectangle, ellipse) englobant un objet. Soit R=(x1, x2,…, xn)T cette région.

Soit I (xi) la couleur du pixel i. Soit U un ensemble de m classes de l'espace de couleur utilisé (RVB,

HSV, LUV, etc.), card(U)=m, la uième classe est caractérisée par sa fonction indicatrice δu(c) qui vaut 1

pour une couleur c associée au bin1 u et 0 sinon.

• Avec ces définitions, l’histogramme pour un bin u est défini par :

( )∑=

=n

iuu Cp

1)( ixIδ (1.5)

• où C est un facteur de normalisation tel que ∑=

=m

uup

11 .

Ainsi, nous pouvons représenter un m-histogramme des couleurs d'un objet par la concaténation

des valeurs des bins :

mupu ,,1| K=≡p (1.6)

1 Ici et par la suite, le vocable bin est utilisé en tant que synonyme de classe.

25

(a) (c)

(b) (d)

Fig. 1.4 Histogramme : (a) : image RGB, (b) : histogramme RGB, (c) : image en niveaux de gris, (d) : histogramme en niveau de gris.

1.2.3.2 Histogramme pondéré

La région d’intérêt peut dans certains cas englober l’objet d’intérêt et des éléments du fond. Pour

limiter l’influence du fond et privilégier l’information pertinente, il est possible de calculer un

histogramme pondéré. Plus les pixels sont loin du centre de l’objet, plus le poids pris en compte dans

l’histogramme final est faible.

L’histogramme pour un bin u est défini par :

( )∑=

=n

iiuiu Cq

1)( )( xIxK δ (1.7)

Où K est un noyau spatial associant un poids à chaque position spatiale xi : les noyaux typiques

sont le noyau uniforme sur la région d’intérêt, le noyau d’Epanechnikov, utilisé dans [Comaniciu et al.

2003], ou le noyau gaussien (Fig. 1.5). Dans la suite de ce mémoire, on parlera d’histogramme de

couleurs (CH) et d’histogramme de niveaux de gris (GH) pour les histogrammes utilisant un noyau

uniforme, et d’histogramme de couleurs pondéré (WCH) ou d’histogramme de niveaux de gris

pondéré (WGH) si un autre type de noyau est utilisé.

26

Fig. 1.5 Exemple de construction d’un histogramme pondéré par un noyau gaussien d’une image en niveau de gris. l’intensité est quantifiée en 4 niveaux

Cependant, l’histogramme présente la caractéristique de ne coder aucune information spatiale, sauf

le choix implicite de la région d’intérêt.

Ceci présente l’avantage de donner une représentation invariante aux transformations spatiales

affines et relativement peu sensible aux transformations non rigides qui modifient peu les surfaces

apparentes relatives aux différentes parties d’un objet. Le caractère discriminant du descripteur risque

cependant de s’affaiblir en raison de cette invariance, ce qui nous confronte au dilemme

robustesse/sensibilité.

L’histogramme tend alors à donner des résultats insuffisants pour le processus de suivi lorsque les

couleurs ou les niveaux de gris de l’objet ne sont pas suffisamment contrastés par rapport au fond.

Deux objets peuvent être différents, tout en ayant des histogrammes semblables. Ils peuvent en effet

n’être différenciés que par des différences d’arrangement des pixels dans les fenêtres (Fig. 1.6).

Le deuxième inconvénient est que le choix du nombre de classes (bins) d’un histogramme est

délicat. Un trop faible nombre de classes détruit de l’information et aboutit à supprimer les contrastes

pouvant exister entre certains objets de la scène étudiée ; à l’inverse, un trop grand nombre de classes

aboutit à des graphiques incohérents où toutes les classes sont faiblement représentées. Cette

0.25 0.5 0.25

0.5 1 0.5

0.25 0.5 0.25

3 2 0

2 1 0

0 3 1

Noyau gaussienne au centre Image

Masque du noyau au centre de l’image

Image quantifiée

P0=(0.25+0.5+0.25)/C

P1=(0.5+0.5)/C

P2=(0.25+1)/C

P3=(0.5+0.25)/C

P0+ P1+ P2+ P3=1

C=0.25×4+0.5× 2+1=4

27

problématique de la détermination d’un nombre optimal de classes pour un histogramme a été étudiée

dans les travaux de [Birgé et al, 2002].

De plus, en cas de perturbation des données, l’histogramme d’un objet peut se trouver translaté

d’une classe par rapport à un histogramme modèle du même objet calculé par exemple sur la première

image de la scène, les deux histogrammes ne seront alors plus similaires. La discrétisation en un

nombre de classes trop important rend ce dernier phénomène plus fréquent, et aboutit notamment à un

manque de robustesse vis-à-vis des changements d’illumination de la scène ou des changements

d’apparence de l’objet. L’utilisation d’une mesure de similarité intégrant une comparaison inter-bins

entre les histogrammes permet d’être moins sensible à de tels phénomènes.

Fig. 1.6 Deux objets différents ayant le même histogramme.

En outre, pour compenser l’incapacité des histogrammes à rendre compte de l’information de

structure spatiale, plusieurs auteurs ont proposé une description statistique d'ordre supérieur

incorporant cette information. Dans ce qui suit, nous présentons des descripteurs couleur intégrant des

contraintes spatiales.

1.2.3.3 Spatiogramme

Le spatiogramme présenté par [Birchfield et al, 2005] dans le contexte du suivi d'objets étend

l'histogramme en incluant une composante spatiale. Un spatiogramme enregistre pour chaque bin la

moyenne et la covariance des positions des pixels qui contribuent à ce bin (Fig. 1.7). Nous définissons

le spatiogramme d'un objet comme ( )Uuuuu ,,pp ∈><= Σµ 2 où pu est proportionnel au nombre de

pixels qui appartiennent au uième bin, µu et Σu sont respectivement les vecteurs moyens des

coordonnées des pixels participant à ce bin et leur matrice de covariance. Ces paramètres sont calculés

comme suit :

( )∑=

=n

iiuu Cp

1)(xIδ (1.8)

( ))(

))((

1

1

1

iu

n

iin

jju

u xIx

xI

µ δδ

∑∑ =

=

= (1.9)

Objet 1 Objet 2

28

( )( ) ( ))(

))((

1

1

1

iu

n

i

Tuiuin

jju

u xIµxµx

xI

Σ δδ

∑∑ =

=

−−= (1.10)

• où C est une constante de normalisation telle que 11 =∑ =mu up .

Fig. 1.7 Spatiogramme

Le spatiogramme comparé à l’histogramme traditionnel contient une description plus riche de

l’objet et peut donc augmenter la robustesse du suivi aussi longtemps que la description spatiale des

couleurs de l’objet suivi demeure relativement stable. Cependant, le spatiogramme est également plus

vulnérable à la grande variabilité spatiale de la distribution des couleurs. Le spatiogramme est aussi

très sensible aux changements d’illuminations, surtout avec l’utilisation d’une mesure de similarité

non adéquate entre deux spatiogrammes [Conaire et al, 2007].

1.2.3.4 Histogrammes régionaux

L’histogramme étant une distribution de premier ordre, il ne peut donc pas distinguer des surfaces

couleur de distribution équivalente mais avec des repartions spatiales différentes (Fig. 1.6). Pour

pallier ce problème, plusieurs méthodes proposent de décomposer l’image en sous-images afin

d’incorporer l’information spatiale, même partiellement.

Après décomposition, à chaque sous-image est associé son histogramme couleur. Les descripteurs

ci-dessous comportent plusieurs sous-régions. Le calcul d’histogramme sur des régions prend en

compte une description plus fine de la répartition géométrique des couleurs dans une image que dans

le cas de l’histogramme traditionnel.

Ainsi, un histogramme pondéré est défini par la formule suivante :

( )∑=

=n

iuiu Cp

1)( ixIδωω

ω (1.11)

• où ωup est la valeur d’un bin u dans l’histogramme, pondéré par la mesure ωi. Les méthodes

diffèrent par le choix des modalités de pondération et le nombre de modalités utilisées.

29

L’histogramme multipartite fournit une représentation d'un objet fondée sur plusieurs

histogrammes de couleur calculés sur différentes régions de l’objet. La région de support de l’objet

étant divisée en N sous-régions, un histogramme multipartite peut être défini comme :

,N,kk K1| == pp (1.12)

• où pk est l'histogramme calculé sur la kième sous-région défini par le vecteur

mupku

k ,,1| K==p .

Par exemple, [Maggio et al, 2005] calculent sept histogrammes sur différentes régions d’un objet

représenté par une ellipse (Fig. 1.8).

Fig. 1.8 Représentation multipartite utilisée par [Maggio et al, 2005]. (a) entière, (b) division sensible à la rotation, (c) division sensible à la taille.

Alternativement, [Fang et al, 2003] proposent une division en cinq sous-régions pour détecter le

visage humain dans une image (Fig. 1.9).

Fig. 1.9 une image de visage est divisée en plusieurs régions avec recouvrement (d’après [Fang et al. 2003]).

Cette approche est également utilisée pour le suivi multi-noyaux [Georgescu et al, 2004] [Hager et

al, 2004] [Guskov et al, 2006], où la pondération ωi représente un noyau spatial lisse, afin que

l’expression de la distribution estimée soit dérivable par rapport à la position du noyau. Ceci est

nécessaire pour pouvoir mettre en œuvre des techniques d’optimisation locale itératives efficaces. De

1

a b c

2 3

4 5 6 7

30

plus, plusieurs noyaux sont utilisés, ce qui permet l’estimation non seulement d’une translation, mais

également de paramètres supplémentaires tels que rotation et changement d’échelle

L’histogramme cumulé [Boujemaa et al, 2001] est utilisé dans le contexte de l’indexation. Il adopte

l’approche de découpage en sous-régions, sur lesquelles des histogrammes sont calculés puis cumulés

afin de produire une distribution unique de description.

Une autre possibilité consiste à distinguer les sous-régions à partir de critères locaux calculés sur le

contenu de l’image. Ainsi, chaque pixel i est pondéré par une mesure ωi quantifiant son appartenance à

un type de structure. Les critères incluent la distinction en région uniforme ou non uniforme, en

pondérant par la probabilité d’occurrence dans un voisinage [Ferecatu, 2005], le laplacien de l’image

[Boujemaa et al, 2001], ou la cohérence de couleur [Pass et al, 1996].

1.2.4 Mesures de similarité

La définition d’une similarité est la deuxième face de la définition d’un modèle d’apparence. En

effet, une fois l’apparence de l’objet représentée numériquement sous la forme d’un descripteur, il faut

pouvoir comparer un tel descripteur à un modèle de référence afin de quantifier s’il s’agit bien de

l’objet cible ou pas. Cette comparaison doit être robuste aux altérations dues au bruit, de distorsions

spatiales, ou d’autres phénomènes physiques. Le but est de définir une mesure de similarité (ou de

dissimilarité) permettant au système d’effectuer une telle évaluation à la fois de façon fiable et rapide.

La définition commune de la similarité perçue en psychologie est celle d’une fonction de distance d

évaluant la dissimilarité entre les objets dans un espace psychologique.

Soient O1, O2 et O3 trois objets, SO1, SO2 et SO3 les apparences de tels objets dans un espace

perceptuel, les propriétés usuelles de la fonction d sont les suivantes (axiomes de métrique) :

)similarité-(auto ),(),( 2211 OOOO SSdSSd = (1.13)

é)(minimalit ),(),( 1121 OOOO SSdSSd ≥ (1.14)

(symétrie) ),(),( 1221 OOOO SSdSSd = (1.15)

ire) triangula(inégalité ),(),(),( 313221 OOOOOO SSdSSdSSd ≥+ (1.16)

Chacune de ces quatre propriétés a été largement analysée, étudiée et critiquée par différentes

théories de la similarité [Patella, 1999]. Un modèle de similarité doit être suffisamment objectif (dans

le sens où il imite efficacement le comportement perceptuel humain) et efficace (dans le sens où il

permette de calculer rapidement une mesure de similarité)

31

Dans la suite, nous abordons les problèmes de mesure de similarité (ou de dissimilarité) entre

l’objet cible représenté par p=(p1, p2, …, pm) et les objets candidats q=(q1,q2, …, qm). Nous ne dressons

pas la liste exhaustive des diverses mesures possibles. Parmi celles-ci, nous distinguerons plusieurs

catégories de mesures :

• les mesures dans un espace vectoriel générique, adaptées à des représentations vectorielles

directes, telles que les templates,

• les mesures adaptées à des représentations de la distribution statistique des attributs, parmi

lesquelles nous distinguerons les approches bin-à-bin (pour lesquelles les fonctions de

densité de distribution sont comparées pour des valeurs d’attribut correspondant

exactement) et les approches inter-bins (pour lesquelles une certaine flexibilité est

autorisée dans la mise en correspondance de valeurs d’attribut voisines).

1.2.4.1 Mesures dans un espace vectoriel

Distance de Minkowski d’ordre k

La métrique de Minkowski est une famille de mesures de distance qui est une généralisation de la

distance euclidienne.

( ) km

u

kuukL qpd ∑

=−=

1,qp (1.17)

La distance la plus connue et la plus largement utilisée dans cette famille est la distance euclidienne

dL2. D’autres distances fréquemment utilisées dans ce groupe sont dL1 qui est connue sous le nom de la

distance de Manhattan et dL∞ sous le nom de la distance maximale. Ces distances sont facilement

calculables en O(m). Elles ne sont pas limitées aux histogrammes. Lorsque le descripteur est une

imagette, on retrouve ainsi la distance L1 sous le nom de SAD (Sum of Absolute Difference) et la

distance L2 sous le nom de SSD (Sum of Square Difference), couramment utilisées dans la

compensation de mouvement par bloc (Bloc Matching Algorithms). La SSD est à la base de la

technique de suivi de [Lucas et al, 1998]. La distance de Minkowski est également la métrique la plus

répandue dans les systèmes de la recherche d’images par le contenu.

Mesures robustes

Les mesures robustes prennent en compte la possibilité de présence de certaines valeurs aberrantes

et tentent de limiter leur influence sur la mesure d’écart.

En particulier les distances robustes associées aux M-estimateurs [Scott, 1992] prennent la forme :

( ) ( )∑=

−=m

uuu qpd

1, ρρ qp (1.18)

• où ρ est une fonction de pondération des erreurs qui limite l’influence des erreurs trop

importantes, à l’image de la fonction biweight de Tukey (Fig. 1.10).

32

Fig. 1.10 Fonction de poids ρρρρ pour différents M-estimateurs.

1.2.4.2 Mesures bin à bin pour distributions

Les descripteurs de distribution (de couleurs notamment) ont, par rapport à un vecteur de

description générique, la propriété additionnelle d’être à valeurs positives, et de pouvoir être

normalisés sous la forme Σu pu =1. Les mesures bin à bin de distributions prennent en compte cette

spécificité, tout en conservant le point de vue vectoriel sur le descripteur, c'est-à-dire en comparant

seulement les bins de même indice des histogrammes cible et candidat.

Les mesures de comparaison bin à bin pour des histogrammes sont souvent rapides à calculer mais

étant donné qu’elles comparent seulement les bins de même indice elles sont mal adaptées pour

capturer des similarités inter-classes.

Par exemple, sur la figure (Fig. 1.11) la distance entre les histogrammes (a) et (b) est la même que

la distance entre les histogrammes (a) et (c), alors que intuitivement (a) et (b) devraient être plus

similaires, compte tenu d’une possible variation des couleurs dues à des évolutions de l’éclairage de

l’objet.

(a) (b) (c) Fig. 1.11 Trois histogrammes équidistants pour toute mesure bin à bin, bien que (a) et (b) correspondent à deux distributions de couleurs intuitivement plus similaires que (a) et (c).

0

0,2

0,4

0,6

0,8

1

1,2

1 2 3 4 5 6 7

couleur

Pro

babi

lité

0

0,2

0,4

0,6

0,8

1

1,2

1 2 3 4 5 6 7

couleur

Pro

babi

lité

0

0,2

0,4

0,6

0,8

1

1,2

1 2 3 4 5 6 7

couleur

Pro

babi

lité

33

Distance de Bhattacharyya

Le coefficient de Bhattacharyya [Kailath, 1967] est défini par :

( ) ( ) 1,0 ,, ,1

≤≤∀= ∑=

qpqp ρρ qpqpm

uuu (1.19)

Le coefficient de Bhattacharyya a une interprétation géométrique directe par rapport aux deux

distributions. Pour deux vecteurs m-dimensionnels unitaires Tmpp ),,(' 1 K=p et

Tmqq ),,(' 1 K=q ( 1''

22== qp ). Ce coefficient est égal au cosinus de l'angle θ entre les vecteurs

'p et 'q .

∑=

===m

uuu

Tqp

122' '

''cos

qp

qpθρ (1.20)

La distance de Bhattacharyya entre deux histogrammes peut s'évaluer en utilisant l'expression :

ρ−= 1Bhad . (1.21)

Cette distance est utilisée plus particulièrement dans les travaux de [Comaniciu et al, 2003] pour

mesurer la similarité entre deux histogrammes dans le contexte du suivi d’objet.

Distance de Matusita

La distance de Matusita est définie par l’équation suivante :

( ) 2

12

1),(

−= ∑=

m

uuuMat qpd qp (1.22)

Lorsque p et q sont normalisés, notons que la distance de Bhattacharyya et la distance de Matusita

sont équivalentes à un coefficient près :

10 avec 2 <<= MatBhaMat ddd (1.23)

La distance de Matusita est notamment utilisée dans les travaux de [Hager et al, 2004] pour du

suivi d’objets à partir de distributions de couleurs multiples.

Intersection d’histogrammes

Si les objets sont décrits par des histogrammes, les distances géométriques peuvent être utilisées.

Cependant, il est possible de définir des mesures de similarité propres à cette représentation. Ainsi

l’intersection d’histogrammes est une mesure de distance particulièrement bien adaptée pour comparer

34

des histogrammes. Elle a été proposée par [Sawain et al, 1991] dans le cadre de l’indexation couleur

selon la formule suivante :

( )( )

∑

∑

=

==m

uu

m

uuu

q

qp

1

1,min

,Intersec qp (1.24)

Cette fonction est une mesure de similarité : deux images qui présentent des histogrammes dont

l’intersection est proche de 1 sont considérées similaires.

La mesure de dissimilarité est définie à partir de la mesure d’intersection par la formule suivante :

),(Interse1),( qpqp cd −=∩ (1.25)

Cette mesure d’intersection n’est pas une distance, car elle ne respecte pas l’axiome de symétrie.

Néanmoins, il est toujours possible de symétriser ce type de mesures afin de se ramener à une

distance. [Smith, 1997] propose, par exemple, la distance suivante :

),min(

),min(

1),(

11

1

∑∑

∑

==

=−=m

uu

m

uu

m

uuu

Smi

qp

qp

d qp (1.26)

Par ailleurs, [Sawain et al, 1991] ont montré l’équivalence entre d∩(p, q) et la métrique L1 dans le

cas où les histogrammes sont normalisés ( 111 == ∑∑ ==mu u

mu u qp ).

L'intersection d'histogrammes est proposée par [Sawain et al, 1991] pour la recherche d’images

couleur dans les bases de données. Les couleurs qui ne sont pas présentes dans le modèle cible ne

contribueront pas à calculer la distance. Ceci peut diminuer la contribution des couleurs du fond de

l’image.

Divergence de Kullback-Leibler et divergence de Jeffrey

La divergence de Kullback-Leibler (DKL) [Kullback, 1959] ou entropie relative est définie par :

( )u

um

uuDKL q

ppd log,

1∑=

=qp (1.27)

• Cette mesure est issue de la théorie de l'information. Elle peut être interprétée comme la

complexité qu’il y a à transformer une distribution en une autre en utilisant un livre de code.

La DKL n’est pas une distance, car elle ne vérifie pas l’axiome de symétrie (dKL(p,q)≠

dKL(q,p)). Elle est donc sensible au partitionnement de l'histogramme et peut être instable en

pratique à cause des valeurs de qu nulles ou proches de zéro. Il est plus intéressant de

considérer la divergence de Jeffrey (DJ) qui est une version symétrique de la DKL. La DJ est

numériquement stable et robuste en présence de bruit. Elle est définie par l’équation :

( )u

uu

u

um

uuDJ m

qq

m

ppd loglog,

1+= ∑

=qp (1.28)

35

où 2

uuu

pqm

+= .

1.2.4.3 Mesures inter bins pour distributions

Les distances bin à bin sont sensibles aux distorsions (changement de luminosité, bruit, …) car

elles souffrent de l’effet de la quantification. Les mesures précédentes ont l'inconvénient de comparer

uniquement les bins de même indice. Les distances inter-bins, quant à elles, permettent une

comparaison entre bins voisins et sont par conséquent plus robustes aux distorsions.

Ce problème est illustré dans la Fig. 1.12 (à gauche) qui montre deux histogrammes en niveaux de

gris. Par exemple, la distance dL1 entre les deux histogrammes de gauche est plus grande que la

distance dL1 entre les deux histogrammes de droite, contrairement à la dissimilarité perceptuelle.

Fig. 1.12 Exemple où la distance L1 ne correspond pas à la dissimilarité perceptuelle. (a). dL1(p1, q1)=2, dL1(p2, q2)=1 (b) montre la correspondance désirée pour (a).

Pour améliorer la robustesse aux changements de luminosité, la mesure de distance désirée doit

pouvoir établir des correspondances entre les bins dans les deux histogrammes comme illustré dans la

partie à droite de la Fig. 1.12.

Ces mesures sont plus complexes, mais fournissent de meilleurs résultats [Rubner et al, 2000]. Les

métriques les plus connues fondées sur les mesures de similarité inter-bins sont décrites dans les

sections suivantes.

Distance quadratique

La distance quadratique entre histogrammes est conçue pour prendre en compte la corrélation des

bins [Hafner et al, 1995]. Ces corrélations sont prises en compte par l’introduction d’une matrice de

pondération Q=[Quv] sur les différents bins (Fig. 1.13). Cette distance tient compte de la corrélation

entre bins selon l’équation suivante :

( ) ∑ ∑= =

−−=m

u

m

vvvuvuuq qpQqpd

1 1)( )( ,qp (1.29)

• Le terme Quv est interprété comme une tolérance à confondre les couleurs (bins) u et v. Cette

flexibilité permet de lisser les effets de seuil dûs au basculement d’une couleur vers un bin

a b

36

différent, à cause d’un changement d’éclairage par exemple. Pour les histogrammes couleur,

la matrice Q peut être construite de telle sorte que les similarités inter-classes se rapprochent

de la perception humaine des couleurs. Par exemple [Hafner et al, 1995] utlisent :

max

1d

dQ uv

uv −= (1.30)

• où duv est la distance Euclidienne entre les couleurs u et v de l'histogramme et dmax=max(duv).

La distance quadratique permet la mise en correspondance de chaque bin d’un histogramme avec

tous les bins de l’autre.

Fig. 1.13 Distance de Minkowski (à gauche), Distance quadratique (à droite).

Distance de correspondance

La distance de correspondance est définie par la formule [Shen et al, 1883], [Werman et al, 1985] :

∑=

−=m

uuuC qpd

1

ˆˆ),( qp (1.31)

• où ∑ ≤= uv vu pp est l'histogramme cumulatif de pu et uq est défini de même. La distance de

correspondance entre deux histogrammes de même taille est ainsi définie comme la distance

L1 entre leurs histogrammes cumulatifs correspondants. Cependant, cette distance ne peut pas

établir une correspondance partielle et n’est définie que pour des histogrammes relatifs à des

données monodimensionnelles.

Earth Mover’s Distance

La distance du cantonnier (en anglais EMD pour Earth Mover’s distance) est fondée sur la

minimisation du coût nécessaire pour transformer une distribution en une autre, ce coût s’évaluant en

fonction de la distance à parcourir pour transporter la masse de distribution d’une classe à une autre.

Le coût élémentaire entre deux bins u et v est défini classiquement comme la distance duv=|u-v|. Le

flux fuv représente un déplacement de masse de la classe pu vers la classe qv. Le coût total de

transformation est ainsi ΣuΣv duv fuv. Le coût total est minimisé sous les contraintes suivantes:

37

=

≤

≤

≤≤≤≤≥

∑∑∑∑

∑

∑

vv

uu

u vuv

vu

uv

uv

uv

uv

qpf

pf

pf

mvmuf

,min

1 ,1 ,0

(1.32)

• et la distance EMD est calculée comme suit :

∑ ∑∑ ∑=

u v uv

u v uvuvemd f

fdd ),( qp (1.33)

La distance EMD est issue d'un problème de transport [Rubner et al, 2000]. Cette approche requiert

l’utilisation de techniques d’optimisation linéaires qui rendent son utilisation potentiellement coûteuse

en temps de calcul et donc limitée à des descripteurs de petite taille.

Distance de diffusion

Dans les travaux de [Ling et al, 2006], les relations inter-bins sont simulées implicitement par la

diffusion de la masse des distributions dans les bins adjacents. La distance proposée est ainsi obtenue

par le calcul d’une similarité bin à bin sur une représentation ayant subi une diffusion. La différence

uu qpue −=)0,( entre deux histogrammes p et q est traitée comme l’état initial d’un processus de

diffusion de la chaleur e(u, t) :

),(*)0,(),( tuguetue = (1.34)

• Les auteurs utilisent un filtre gaussien g(u,t) correspondant à une diffusion simple et la

distance est ainsi définie par :

∑=u

t tueK ),(),( qp (1.35)

• qu’il est possible d’étendre à une mesure combinant plusieurs échelles de diffusion (ti)i=1…N

comme suit :

),(),(1

qpqp ∑=

=N

iit

KK (1.36)

• La complexité calculatoire de K(p, q) est en O(m), où m est le nombre de bins. Elle est alors

plus rapide que la distance EMD qui est en O(m3).

1.2.4.1 Mesures de similarité contextuelles

Dans certaines situations, utiliser une mesure de similarité définie a priori n’est pas forcément

recommandé, les distracteurs présents dans le fond pouvant en effet posséder des couleurs similaires

aux couleurs de l’objet.

38

[Comaniciu et al, 2003] [Collins et al, 2003] [Perez et al, 2002] adoptent une autre approche qui

consiste à modifier la similarité utilisée en fonction du contexte de l’objet. Dans l’approche de

[Comaniciu et al, 2003], le contexte est estimé en calculant la distribution de couleur sur une région

entourant l’objet à un instant t. Les couleurs qui y apparaissent sont ensuite sous pondérées lors du

calcul de similarité impliquant les régions candidates à l’instant suivant t+1.

L'importance de la robustesse aux distracteurs présents dans le fond a également été abordée dans

les travaux de [Collins et al, 2003], [Stern et al, 2002]. [Stern et al, 2002] considèrent plusieurs

espaces chromatiques pour construire l'histogramme de couleur d’un visage, et choisissent celui qui

permet la meilleure discrimination avec la couleur du fond. [Collins et al, 2003] étendent la méthode

au suivi général de blob. Les espaces de couleurs considérés sont des combinaisons linéaires des

canaux de couleur R, G et B, conduisant à 49 espaces au total.

1.3 Evaluation des systèmes de suivi d’objet

La diversité des systèmes existants a fait naître le besoin d’effectuer une évaluation approfondie. Se

posent alors plusieurs questions au sujet de ces systèmes, notamment au niveau de leur efficacité :

précision de localisation, complexité calculatoire,…. Des campagnes d’évaluation ont été mises en

place pour juger de l’efficacité de ces systèmes et par suite améliorer leur performance.

Une des difficultés consiste à rendre compte de la variété des situations possibles et des erreurs

pouvant entraîner un mauvais suivi des objets, comme illustré dans Fig. 1.14 et Fig. 1.15. L’approche

classique pour répondre à cette difficulté consiste à considérer le système de suivi comme une "boîte

noire", c'est-à-dire prenant en entrée une vidéo et une initialisation éventuelle, et fournissant en sortie

les positions et les trajectoires estimées des objets détectés dans la vidéo. Cette approche est ici

détaillée.

Fig. 1.14 Exemples de conditions environnementales qui peuvent perturber le processus de suivi : (a) : objet de référence, (b) : présence d’un distracteur.

a b

39

Fig. 1.15 Exemples de conditions environnementales perturbant le processus de suivi.

1.3.2 Paradigme standard

Différentes méthodes pour la mesure des performances de systèmes de suivi ont déjà été proposées

[Black et al, 2003], [Schneiders et al, 2005], [Brown et al, 2005], [Bashir et al, 2006]. Chacune de ces

méthodes évalue les performances grâce à un certain nombre de mesures sur la qualité de la

localisation estimée par le système. Ces mesures se fondent sur un corpus vidéo [CAVIAR] auquel est

associée une vérité terrain qui capture l’interprétation vraie de la scène en termes d’objets à suivre.

Une telle évaluation prend en compte uniquement la réponse fournie par le système, ce qui correspond

à une approche de type "boîte noire" (Fig. 1.16). Ce type d’évaluation, même si elle offre une

quantification utile des performances, cantonne la mesure à un niveau global et ne permet pas de

caractériser les performances intrinsèques des différents éléments composant le système.

Fig. 1.16 Paradigme standard d’évaluation des systèmes de suivi d’objet.

Séquence vidéo

Vérité terrain

Résultats d’algorithmes

Système d’évaluation

Performances des systèmes de suivi Systèmes de

suivi d’objet

Changement d’échelle

Changement de vue Changement

d’illumination et d’échelle

40

Pour permettre l’évaluation des performances des systèmes de suivi, plusieurs étapes doivent être

prises en compte. Tout d’abord, les séquences vidéo sur lesquelles l’évaluation sera effectuée doivent

être disponibles. Deuxièmement, il y a des résultats de suivi qui doivent être évalués. Troisièmement

la vérité terrain VT doit être générée et stockée. Puis, la VT doit être comparé aux résultats produits

utilisant des métriques de performance. Finalement, les résultats sont combinés pour chaque séquence

vidéo pour une présentation à l’utilisateur. Par conséquent, nous distinguerons quatre thèmes

principales pour l’évaluation comme illustré à la figure (Fig. 1.17); la création des données de vérité

terrain, les ensembles de données disponibles pour l’évaluation, les métriques de performance et la

présentation des résulta d’évaluation (Fig. 1.17).

Fig. 1.17 Evaluation de performance des systèmes de suivi.

L’évaluation de performance des systèmes de suivi exige une comparaison des résultats des

algorithmes (RA) avec des résultats “optimaux” nommés habituellement la vérité terrain (VT). Avant

la discussion de la génération de la VT, une stratégie qui n’exige pas de la VT est présentée ici.

Ainsi selon [Erdem et al, 2004] l’évaluation de performance peut s’exempter de vérité terrain,

évitant ainsi l’étape longue et coûteuse de sa construction. Ils ont ainsi appliqué des caractéristiques de

couleur et de mouvement au lieu de la VT. Ils ont formulé plusieurs hypothèses telles que les

frontières des objets coïncident toujours avec des frontières de couleur. En outre, le fond doit être

complètement stationnaire ou se déplaçant globalement. Les auteurs affirment que les mesures fondées

sur leurs approches produisent des résultats comparables aux mesures fondées sur la VT quand ces

conditions sont réunies. Cependant toutes ces hypothèses ne sont pas toujours vraies dans plusieurs

scénarios du monde réel, ce qui impose alors de recourir à des benchmarks munis d’une vérité terrain.

Algorithmes de suivi

Vérité terrain

Séquences vidéo Evaluation Présentation

41

1.3.3 Benchmarks pour le suivi vidéo

La première condition pour l’évaluation d’un algorithme de suivi est la disponibilité des données

vidéo et d’une vérité terrain associée. Pour permettre une évaluation appropriée avec différents

algorithmes, il semble raisonnable d’évaluer des algorithmes avec des séquences vidéo standards.

De plus, pour fournir une évaluation fidèle, ces données doivent être représentatives et contenir des

scénarios typiques et difficiles. L’évaluation des performances des algorithmes de suivi a donné lieu à

plusieurs projets de constitution de tels benchmarks. Un résumé de ces ensembles est donné dans le

tableau 1 et des images des séquences sont illustrées dans la figure (Annexe C).

Les premiers efforts de grande envergure dans l’évaluation des performances du suivi d’objet

proviennent des workshops PETS (Performance Evaluation of Tracking and Surveillance) organisés

par l’IEEE. En 2002 et 2001, le workshop a fourni des données de benchmarks de surveillance pour

que les participants évaluent leurs systèmes. D'autres projets d’évaluation des performances des

systèmes de suivi ont également été proposés [CAVIAR, CLEAR, CREDS, ETISEO, i-LIDS, VACE]

chacun avec un objectif spécifique.

Les workshops PETS se concentrent sur des tâches avancées d’évaluation comme la détection des

objets multiples et la reconnaissance d’événements. CAVIAR aborde la surveillance des centres

commerciaux. VACE s’intéresse à une gamme étendue de problèmes comprenant le traitement des

vidéos de réunion et des informations de radiodiffusion. CLEAR traite le suivi et l’identification des

personnes aussi bien que le suivi de visages tandis que les workshops CREDS se concentrent sur la

détection d’événements pour des problèmes de sécurité de transport public. ETISEO étudie la

dépendance entre les caractéristiques des vidéos et la segmentation, suivi et détection d’événement,

tandis que le système i-LIDS est le système de benchmark utilisé par le gouvernement britannique

pour différent scénarios comme les bagages abandonnés, l’égarement des véhicules, la surveillance

des portes.

En plus de données déjà disponibles, de nouvelles séquences ont été enregistrées dans le projet

CANDELA. Un ensemble de scénarios a été défini pour l’évaluation et décrit dans [Wijnhoven, 2004].

Les séquences vidéo seront publiquement disponibles par le site web de CANDELA.

[Black est al, 2003] présentent un cadre d’évaluation pour l’utilisation des séquences vidéos pseudo

synthétiques qui utilisent des vidéos qui ont été capturées et stockées dans une base de données. Les

auteurs ont évalué leur système en utilisant trois cent mille images vidéo qui sont créées sans

intervention humain. Les séquences en résultant sont plus réalistes que des données synthétiques, mais

il est difficile d’atteindre le niveau de réalisme d’une authentique séquence vidéo. Cependant, pour

quelques algorithmes, les séquences vidéos pseudo-synthétiques sont utiles pour l’évaluation comme

l’on montré les auteurs.

42

1.3.4 Outils d’annotations

Dans la section précédente, des ensembles de séquences vidéos ont été discutés pour utiliser ces

séquences afin d’évaluer les algorithmes de suivi, la VT doit être disponible, décrivant les vraies

propriétés des séquences. Puisque le niveau de la précision de la VT doit être très élevé, le processus

de la création de la VT peut d’être très long. Plusieurs outils pour annoter des descriptions de la VT

des scènes vidéo ont été rendus disponibles. Certains de ces outils d’annotation disponibles sont

énumérés ci-dessous :

Le « Open Development Environment Evaluation of Video Systems » (ODViS) [Jaynes et al,

2002] est un cadre qui peut être utilisé pour simplifier la tâche des utilisateurs. Il permet de créer une

description bruitée de la VT. Les utilisateurs doivent alors seulement ajuster manuellement cette

première description de la VT. A coté de la tâche d’annotation, également une évaluation à été incluse.

[Jaynes et al, 2002] expliquent que les chercheurs peuvent facilement définir des données de la VT,

visualiser le comportement de leur système de suivi et automatiquement mesurer et rapporter des

erreurs dans différents formats.

Un autre projet, permettant également l’annotation et l’évaluation des algorithmes de suivi est le «

Video Performance Evaluation Resource » (ViPER) [Mariano et al, 2002], [Doennann et al, 2000].

Des résultats de l’évaluation peuvent être visualisés. [Collins et al, 2005] proposent une open source et

un site d’évaluation. Ils ont conçu un outil d’annotation à utiliser avec Matlab.

Le projet CAVIAR fournit un outil d’annotation, écrit en JAVA. Le code source est fourni par le

site web [CAVIAR]. D’autres propositions mentionnent souvent l’utilisation des outils graphiques

d’annotation avec peu de détails. [Nacimento et al, 2004] décrivent un outil d’annotation qui fournit

une tentative de segmentation qui doit être ajustée par l’utilisateur pour éviter une annotation manuelle

complète.

Les outils mentionnés ci-dessus n’ont pas été évalués par les auteurs, ainsi aucune comparaison

objective ne peut être fournie. Cependant, la plupart des outils utilisent des formats différents pour

stocker les données annotées de la VT, introduisant des limitations pour la réutilisation de la VT.

Ces outils d’annotation écrivent les descriptions de la VT dans des fichiers. Les divers outils

emploient un formatage différant des données. Bien que la plupart utilisent une description XML. Des

détails sur le format de l’outil de CAVIAR sont expliqués dans les travaux de [List et al, 2004]. Bien

que le format standard ne soit pas obligatoire pour l’évaluation et le benchmark, il faut qu’il soit

standardisé. Par exemple, le projet CANDELA utilise un sous ensemble limité de la norme MPEG-7.

Le plus important est d’enregistrer les mêmes caractéristiques. Des boîtes englobantes de la

description XML peuvent être converties en descriptions MPEG-7 avec des outils simples, tant que les

43

deux définitions sont connues. Ces outils peuvent même être inclus dans le système d’évaluation des

performances.

Pour une comparaison, la définition de ces caractéristiques décrites à la VT est très importante. Si

l’interprétation d’une caractéristique dans les données de la VT est différente de l’interprétation dans

les algorithmes de suivi, l’évaluation n’est pas réalisable. Par exemple considérons l’évaluation du

suivi d’un objet utilisant la localisation d’un point unique qui décrit la position de l’objet au cours du

temps. Quelle est la définition exacte de ce point décrivant la position ? Est-ce que c’est le centre de la

boîte englobante d’objet, du milieu de la ligne supérieure de la boîte englobante ou de la médiane des

positions de tous les pixels dans l’objet ?

Aucune norme n’a encore défini ce que doit être stocké dans une description de la VT. Puisque la

plupart des algorithmes de suivi sont évalués pour leur performance de segmentation ou du suivi

temporel, seulement des masques de segmentation ou des boîtes englobantes sont stockés. Cependant,

pour évaluer des descriptions de haut niveau d’une scène, d’autres données doivent être fournies par

l’utilisateur pendant le processus d’annotation (par exemple la taille réelle des objets exprimée en

mètres). La norme MPEG-7 définit comment les boîtes englobantes et les descriptions de haut niveau

peuvent être définies, mais tout l’ensemble de descripteurs dans la norme est trop étendu pour évaluer

la plupart des algorithmes de suivi.

Un autre problème est l’occultation des objets [Black et al, 2003] mentionnent déjà que c’est un

facteur difficile, puisque la personne qui annote la vidéo doit décider quel est le comportement d’un

algorithme de suivi. L’algorithme doit-il continuer à suivre l’objet occulté ou partiellement occulté ?

1.3.5 Métriques d’évaluation des performances

Au cours de ces dernières années, plusieurs mesures sont proposées pour différentes tâches, [Black

et al, 2003], [Brown et al, 2005], [Schneiders et al, 2005] afin d’analyser quantitativement les

systèmes de suivi d’objet.

Ces mesures peuvent être catégorisées en deux familles : celles basées image qui ne prennent pas

en considération l’évolution temporelle de la réponse des systèmes et celles basées sur les trajectoires

entières des systèmes.

Les métriques fondées sur une image sont utilisées pour mesurer la performance des systèmes de suivi

sur différentes images d’une séquence vidéo [Bashir et al, 2006]. Ceci ne prend pas en considération la

réponse du système en fonction du temps. Malgré tout, une approche bottom-up de consolidation des

résultats peut être ajoutée. Chaque image est testée ainsi individuellement pour voir si le nombre

d'objets aussi bien que leurs tailles et les positions correspond aux données de vérité terrain de cette

image particulière. Les résultats des statistiques de différentes images sont alors moyennés pour toute

la séquence.

44

La deuxième catégorie des métriques (top-down) consiste à prendre en compte la trajectoire entière

de chaque objet [Yin et al, 2007]. Ici, les différentes trajectoires des objets fournies par le système de

suivi sont analysées en tant qu'entités séparées. Les diverses manières de trouver la meilleure

correspondance (association) entre différentes trajectoires de vérité terrain et les trajectoires de résultat

des algorithmes sont analysées. En conclusion, basé sur une association particulière, des taux de

succès et d'erreur sont calculés et accumulés pour tous les objets.

1.4 Performance de modèles d’apparence en indexation

Dans un processus du suivi, une première étape est le choix d’un modèle d’apparence qui se

constitue d’une part, d’un descripteur significatif et compact, qui sera utilisé pour représenter l’objet à

suivre et d’autre part, d’une mesure de similarité qui permet de reconnaître l’objet au cours du temps.

Ce modèle d’apparence constitue le cœur de ce processus.

1.4.1 Motivation

L’évaluation de modèles d’apparence en temps que tels a été très étudiée dans le contexte de

l’indexation d’images et de la reconnaissance d’objets. Cette section est l’occasion de rappeler les

études menées dans ce domaine connexe à notre problématique de suivi, et qui seront réutilisées et

adaptées à ce cadre. Notre motivation est ainsi de s’inspirer des mesures de performances dédiées à

l’indexation pour créer des mesures de performances des modèles d’apparences dans le contexte du

suivi d’objet.

De nombreux problèmes de vision par ordinateur peuvent être modélisés par un modèle

d’apparence. Nous trouvons ce schéma (Fig. 1.18) dans deux grands problèmes :

• Indexation et recherche d’images par le contenu visuel [Smeulders et al, 2000].

• Suivi d’objet [Alper et al, 2006]

Fig. 1.18 Schéma classique d’un algorithme de reconnaissance, pour l’indexation.

(Descripteur 2) (Descripteur 1)

Mesure de similarité

45

Dans ces deux problématiques, deux aspects indissociables coexistent, l’indexation et la recherche.

Le premier concerne le mode de représentation informatique des images et le second concerne

l’utilisation de cette représentation dans un but de recherche (Fig. 1.19).

Les N images les plus ‘ similaires’ à l’image requête

…


Extraction descaractéristiques

…


(Descripteurs) signatures

images

Image requête

…

Les N images les plus ‘ similaires’ à l’image requête

…



…


(Descripteurs) signatures

images

Image requête

…

…



…


(Descripteurs)

signatures

Imagettes dans un voisinage de l’image cible dans l’image

courante

Localisation de l’objet dans l’image courante

Objet cible

…



…


(Descripteurs)

signatures

Imagettes dans un voisinage de l’image cible dans l’image

courante

Localisation de l’objet dans l’image courante

Objet cible

Fig. 1.19 Schémas simplifiés d'un système d’indexation et de recherche d’image par le contenu (en haut) et d'un système de suivi d’objet (en bas).

Le but de l’indexation est de fournir une représentation image permettant des recherches efficaces.

Il ne s’agit pas de coder toute l’information portée par l’image mais de se concentrer sur l’information

qui permet de traduire efficacement une similarité proche des besoins exprimés par un utilisateur. La

46

recherche par similarité ou inversement dissimilarité est fondée sur l’utilisation des descripteurs pré-

calculés, elle est par conséquent contrainte par les choix lors de la phase d’indexation.

Dans la problématique de l’indexation, l’utilisateur effectue une requête sous la forme d’un

exemple et les images de la base de données sont ordonnées en fonction d’une mesure de similarité à

cette requête. La problématique qui nous intéresse est proche de l’approche de recherche d’images par

le contenu tout en possédant une spécificité fondamentale : le suivi consiste à localiser l’objet et le

distinguer du fond dans une succession temporelle d’images au lieu d’identifier une classe d’images

dans un ensemble non ordonné d’images.

1.4.2 Evaluation d’un système d’indexation et de recherche d’images par le contenu

Les systèmes d’indexation manipulent une base d'images stockées et des images faisant l'objet de

requêtes de recherche de ressemblance à l'intérieur de cette base. La phase d’extraction de descripteurs

correspond à une modélisation de l'image. La deuxième phase consiste à mesurer la ressemblance

entre une image requête et les images stockées dans la base. Cette mesure se fonde sur une métrique

entre les descripteurs. Il s’agit de retrouver une classe d’images représentant un objet particulier, un

type d’objet ou un type de scène dans une base de données, en comparant les descripteurs calculés sur

chaque image (Fig. 1.20).

Fig. 1.20 La structure d’un système de recherche d’images.

Évaluation de Similarité

Images Retrouvées

Construction D’index

Image Requête

Blobs Base de données d’images

L’espace d’attributs

47

L’évaluation des performances de modèles d’apparence a été abondamment étudiée dans le

contexte de la recherche d’images par le contenu visuel [Muler et al, 2001], [Deselaers et al, 2004].

Pour réaliser l'évaluation il est nécessaire de disposer d'une vérité-terrain sur des bases de données.

Cette vérité-terrain est construite manuellement en regroupant une liste des images pertinentes pour

chaque requête et un ensemble d’images standards et de requêtes/sujets. Le schéma générale

d’évaluation d’un système d’indexation et de recherche d’images par le contenu est résumé dans la

figure (Fig. 1.21).

Fig. 1.21 Schéma générale d’évaluation d’un système d’indexation.

1.4.3 Mesures de performance d’un modèle d’apparence

1.4.3.1 Taux moyen de bonne détection

Un critère global évalué en pourcentage et appelé le taux moyen de bonne détection (Average

Retrieval Rate). Il s'agit du pourcentage moyen de récupération des images pertinentes suite à une

requête de recherche par le contenu,

≤∈= ∑

=

TN

i c

ciqi

Tm N

Nrangclassecard

NT

1

)(),(1 III (1.37)

• où TN : le nombre total des images dans la base, cN le nombre d'images par classe et

ciqi Nrangclassecard ≤∈ )(),( III est le nombre d'images pertinentes bien classées.

• Un modèle d’apparence sera donc plus représentatif qu'un autre si son il donne un taux moyen

de bonne détection (appelé aussi taux moyen de récupération) plus élevé.

1.4.3.2 Courbes de rappel-précision

Les courbes de rappel-précision (en anglais Recall-Precision), sont très communément utilisées

comme un critère pour l’évaluation des systèmes de recherche. La précision et le rappel pour une

requête de recherche d'images sont définies par :

Collection de documents

Requêtes standards

Algorithme à tester Evaluation

Résultats standards

Résultat retrouvé

Précision et rappel

48

base la dans spertinente images des Nombre

récupérées spertinente images des Nombre=Rappel (1.38)

récupérées images des Nombre

récupérées spertinente images des Nombre=précision (1.39)

On calcule la moyenne des rappel-précision sur toute la base en considérant des requêtes de taille 1,

2, … TN , où TN est la taille de la base. La courbe de la précision en fonction du rappel peut ainsi être

construite. Un modèle d’apparence sera considéré meilleur qu'un autre si sa courbe de Rappel-

Précision est en dessus par rapport aux autres courbes de Rappel-Précision des autres modèles. Par

exemple dans la figure (Fig. 1.22) on peut conclure que le modèle d’apparence MA2 est plus

représentatif que MA1.

Fig. 1.22 Comparaison des courbes Rappel-Précision.

49

1.5 Conclusion

Dans ce chapitre, nous avons dressé un état de l'art des modèles d’apparence, des méthodes de suivi

d’objets et de l’évaluation de leurs performances.

Dans un système de suivi, le rôle d’un modèle d’apparence est de permettre une mise en

correspondance d'objets sans ambiguïté. Diverses conditions environnementales peuvent perturber le

système d’où le besoin d'évaluation des modèles utilisés pour le suivi. Des contraintes fondamentales

doivent être garanties dans le choix d’un modèle d’apparence pour assurer le succès d’un système de

suivi. La spécification de ces contraintes peut dépendre d’une part, de l’invariance possible à la

translation et à la rotation d’image, au changement de point de vue, au changement d’échelle, au

changement d’illumination et aux occultations, D’autre part, du pouvoir discriminant : un modèle

d’apparence non-discriminant est l’une des raisons principales qui peut dérouter un système de suivi

de la position correcte d’un objet. Nous avons vu que les approches d’évaluation classiques analysent

en fait un système dans son intégralité, et non le modèle d’apparence en lui-même. L’étude spécifique

des modèles d’apparence a été abordée plus largement dans le domaine de l’indexation d’images.

Les systèmes d’indexation utilisent des collections d’images statiques pour lesquelles la notion

temporelle n’est pas présente. Par contre, cette notion est très importante dans un système de suivi.

Comment adapter alors l'évaluation d’un système d’indexation et de recherche d’image dans le

contexte du suivi d'objet ? En d’autres termes, comment créer des métriques de performances

temporelles mesurant la capacité de la discrimination d’un modèle d’apparence au cours du temps en

s’inspirant des métriques d’évaluation utilisées en indexation ? Ces questions sont abordées dans le

chapitre suivant.

50

51

Chapitre 2

Evaluation des performances de modèles

d’apparence pour le suivi

Dans ce chapitre nous présentons de nouvelles approches pour l'évaluation quantitative de la

performance des modèles d’apparence formés d’un descripteur d'objet et d’une mesure de similarité

dans le contexte du suivi d'objets.

L'évaluation est menée en tirant parti de l’existence de vérités terrain issues de benchmarks pour le

suivi d'objet, qui ici sont utilisées de manière originale. Les dimensions spatiale et temporelle sont

considérées, afin de fournir des outils d’évaluation prenant en compte l’aspect spatio-temporel de la

vidéo. La première approche caractérise les performances d’un modèle d’apparence pour un couple

d’images au niveau spatial. La deuxième approche est une extension au contexte spécifique de la vidéo

des méthodes d’évaluation de modèles d'apparence utilisées en recherche d’images par le contenu

visuel. Les mesures utilisées prennent en compte la dimension temporelle en quantifiant la capacité

d’un modèle d’apparence à rester discriminant au cours du temps. Cette approche est illustrée par des

expérimentations sur des vidéos de scènes naturelles.

2.1 Généralités

Par rapport à la formulation générique du suivi par estimation paramétrique introduite au chapitre

précédent, nous focaliserons ici notre attention sur la capacité à estimer la position correcte de l’objet,

principalement liée à une composante translationnelle du mouvement. La position d’un objet sera ainsi

résumée à la boîte englobante représentée par une région rectangulaire.

• Plus formellement, le but du suivi par boîte englobante (BE) est de déterminer dans les images

successives d’une séquence vidéo, la boîte qui correspond le mieux, en termes de mesure de

similarité, à une BE définie automatiquement ou manuellement par l’utilisateur dans une

image référence.

• Soient I ref et I cib, respectivement, l’image référence dans laquelle la BE est définie et l’image

courante dans laquelle la région de la meilleure BE, en termes de mesure de similarité, doit

être recherchée. Cette recherche consiste à trouver la transformation géométrique θ* telle que :

52

( ) ( )( )( )ΩθIΩIθθ

cibrefD ,minarg* = (2.1)

• où D est une mesure de distance, entre deux ensembles de données et Ω est le domaine de la

BE. Ce domaine est un sous-ensemble de ℜ2 (ou un sous-ensemble de Ζ2 dans le cas discret),

et θθθθ(ΩΩΩΩ) représente une transformation géométrique du domaine d’intérêt.

Dans le contexte de l’évaluation de systèmes de suivi multi-objets, [Smith et al, 2005] distinguent

plusieurs aspects. D’une part, la qualité du résultat sur chaque image est évaluée par l’étude des boîtes

englobantes correspondant à chaque objet détecté et leur comparaison à une vérité terrain. Les

métriques utilisées portent sur la qualité du recouvrement spatial ainsi que sur la similarité des

configurations des boîtes. D’autre part, la capacité du système à distinguer les différents objets suivis

est évaluée par la notion de pureté des trajectoires estimées vis-à-vis de l’identité vraie des objets. Ces

métriques ne peuvent s’appliquer que sur un système complet, qui fournit un résultat sous la forme

d’un ensemble de boîtes englobantes.

Dans un tel système, le choix du modèle d’apparence approprié est l'un des facteurs cruciaux de

succès de la localisation d’un objet pour une application déterminée. Son interaction avec l’algorithme

d’optimisation (recherche exhaustive, approche ascendante, etc.) n’est pas évidente, ce qui a conduit à

proposer des analyses de performance principalement basées sur les résultats finaux des systèmes de

suivi [PEPS, CAVIAR…], qui peuvent prendre en compte des contributions provenant de divers

modules.

Une analyse plus approfondie de la performance intrinsèque du couple descripteur/similarité

pourrait cependant s’avérer intéressante pour une meilleure compréhension des raisons du succès ou

de l’échec de chaque modèle dans des situations variées et de son adéquation à différentes approches

algorithmiques. L’objectif de cette section est d’offrir des outils pour une telle analyse.

2.2 Performance spatiale d’un modèle d’apparence

A notre connaissance, très peu de travaux ont proposé une étude quantitative des performances

comparées de modèles d’apparence séparément de l’algorithme de recherche. La plupart des travaux

se limitent en effet à une illustration des performances en termes de suivi ou à l’étude qualitative de la

fonction de similarité, dans le contexte de la proposition de nouveaux algorithmes.

Pour étudier la performance de plusieurs modèles d’apparence, nous proposons d’analyser leurs

cartes de similarités. Pour générer une carte de similarité d’un modèle d’apparence (descripteur,

mesure de similarité) donné, une fenêtre rectangulaire englobant l’objet d’intérêt est positionnée sur

une image référence. Cette fenêtre est associée au modèle cible, alors qu’une autre fenêtre de

recherche dans un voisinage de l’objet d’intérêt sera déterminée dans une image cible.

53

• Plus formellement, soit 1;,,1],[ === jniTj

ij

ij

iyx Kx la région de référence (rectangle rouge Fig.

2.1) entourée d’un ensemble de F régions candidates FjniTj

ij

ij

iyx ,,1;,,1],[ KK ===x situées

dans une fenêtre de recherche (rectangle vert Fig. 2.1 a).

• Les descripteurs utilisés sont calculés pour chaque région. Les régions candidates sont

comparées de manière exhaustive avec la région référence en utilisant une mesure de

similarité générant ainsi une carte de similarité (voir Fig. 2.1 b)

(a) (b) Fig. 2.1 Processus de génération d’une carte de disimilarité (a) : la région référence est marquée en rouge et les candidats sont calculés dans la région pointillée en vert, (ici image référence = image cible). (b) : la carte de disimilarité est calculée en utilisant la distance de Bhattacharyya entre la région de référence et les régions candidates.

La performance d’une mesure de similarité dans la mise en correspondance des images en niveaux

de gris a été étudiée dans les travaux de [Khalid et al, 2005a], [Khalid et al, 2005b], [Khalid et al,

2006]. Ces auteurs ont analysé en particulier l’utilisation d’histogrammes de niveaux de gris comparés

par le coefficient de Bhattacharyya et la divergence de Kullback-Leibler. Ils ont montré que ces deux

mesures donnent des estimations biaisées sur la localisation des objets dans une séquence vidéo avec

des images en niveaux de gris.

• Dans leurs travaux, la carte de la similarité de l’erreur quadratique moyenne (EQM) (l’erreur

quadratique des différences pixel à pixel est considérée comme référence et utilisée pour

analyser les cartes de similarité du coefficient Bhattacharyya et Kullback Leibler.

• Cette analyse s’appuie sur le maximum de la carte de similarité qui fournit la position de

l’objet où la meilleure correspondance se produit. Un pic étroit et correctement positionné

54

indique une bonne mise en correspondance avec la cible, alors qu’un pic large fait apparaître

une ambigüité sur l’estimation de la position de l’objet cible, qui peut conduire à une

localisation imprécise.

• L’étude de la carte de similarité ainsi proposée s’intéresse à la précision finale obtenue en

considérant uniquement l’optimum de la surface de similarité. Ceci fournit une information

utile dans le cas d’une recherche exhaustive, mais comme nous l’avons vu précédemment, un

modèle d’apparence est destiné à être inclus dans un système plus vaste, qui peut comprendre

des algorithmes de recherche variés. Nous proposons dans la suite de compléter le paradigme

basé sur l’étude de la carte de similarité, à l’aide de plusieurs métriques qui capturent des

aspects variés de la performance d’un modèle d’apparence.

2.2.2 Evaluation des surfaces de similarité

Nous évaluons les propriétés susceptibles d’influencer les performances d’un modèle d’apparence

(composé, rappelons-le d’un couple (descripteur, mesure de similarité)). Pour ce faire, nous proposons

des critères pour définir des indicateurs de performance satisfaisants pour un processus de suivi

[Mikram et al, 2009].

• Le paradigme d’évaluation repose sur la connaissance a priori des coordonnées vraies de la

position de l’objet. Ce rôle est joué dans [Souhail et al, 2006] par le maximum de la carte de

similarité obtenue par EQM. Cette approche convient dans le cas où l’apparence de l’objet

change très peu, auquel cas l’EQM est un très bon indicateur de la position vraie. Dans

d’autres cas (objets se déformant), cette approche est moins adaptée, l’EQM pouvant alors être

considérée comme un modèle d’apparence en concurrence avec d’autres. Nous nous placerons

dans ce dernier cas, en considérant les coordonnées connues a priori et issues d’une vérité

terrain indépendante [CAVIAR].

• La performance d’un système de suivi s’exprime normalement sous la forme de l’erreur

d’estimation spatiale entre la position estimée et la position supposée vraie. Ce paradigme

recouvre en fait deux aspects, pour lesquels nous tâcherons de proposer des mesures

quantitatives adaptées, sur la base des cartes de similarité :

- Capacité à discriminer : le système risque-t-il de confondre l’objet d’intérêt avec un autre objet ?

Si tel est le cas, l’erreur risque d’être assez grande, la carte de similarité présentant un ou plusieurs

optima locaux éloignés de la vraie position.

- Précision spatiale : dans le cas où l’objet est correctement reconnu, la position retournée est-elle

précise ? La carte de similarité présente souvent un plateau autour de la position vraie, mais l’optimum

peut être légèrement délocalisé.

55

2.2.3 Caractérisation topographique

Les deux mesures précédemment introduites ne permettent pas de comparer différents types de

modèles d’apparence. Néanmoins, nous verrons un peu plus loin leur utilisation pour comparer des

modèles d’apparence similaires mais calculés à différentes échelles.

Ainsi dans le but d’enrichir « la boîte à outils » des critères quantitatifs généralisés pour étudier

finement et de manière rigoureuse la performance spatiale de plusieurs modèles d’apparence, nous

proposons une analyse de la carte de similarité fondée sur sa décomposition en lignes de niveaux,

utilisant les outils de la morphologie mathématique.

Si on considère la carte de similarité comme une surface topographique, où l’altitude correspond à

la valeur de similarité, les maxima de similarité correspondent à des pics (de façon analogue, si l’on

considère une carte de distance, les minima de distance correspondent à des vallées).

La ligne de partage des eaux [Lee et al, 1991] est un outil puissant pour la segmentation de telles

cartes d’altitude. Dans le cas d’une carte de distance, le principe est d’inonder la carte progressivement

à partir de ses minima locaux. Chaque minimum est ainsi associé à un bassin versant, qui contient

l’ensemble des pixels de la carte tels qu’un chemin de plus grande pente issu de chacun de ces pixels

aboutisse à ce minimum. Les pixels situés à la frontière entre deux bassins versants constituent une

ligne de partage des eaux (Fig. 2.2). Ce principe peut être complété par la construction d’un

dendrogramme, qui capture de façon hiérarchique les fusions entre bassins versants à mesure que le

niveau monte : deux bassins versants sont fusionnés à l’altitude correspondant au pixel le plus bas

faisant partie de la frontière commune à ces deux bassins. Une carte de distance peut ainsi être

associée à un arbre dont chaque feuille correspond au bassin versant d’un minimum et chaque nœud

capture la fusion de deux ensembles voisins de bassins versants. Si l’on considère une carte de

similarité à la place d’une carte de distances, il suffit d’inverser le sens de l’axe d’altitude : les bassins

versants sont alors associés aux maxima et l’inondation a lieu à similarité décroissante.

56

Fig. 2.2 Principe de ligne de partage des eaux et de la décomposition sous la forme d’un dendrogramme hiérarchique, dans le cas d’une carte de similarité (en haut), ou d’une carte de distance (en bas).

Dans le cadre de la segmentation d’images en niveaux de gris ou en couleurs, la carte utilisée est

généralement une carte de gradients, qui permet d’identifier les zones homogènes où le gradient est

faible, séparées par des frontières sur lesquelles le gradient est plus important. Dans le cas d’une carte

de similarité, il s’agit au contraire d’identifier la position des pics de similarité et de déterminer par

l’analyse topographique leur lien avec la position vraie à la fois en termes de position spatiale (sur

l’axe des θ) et de similarité (sur l’axe des S(θ)).

)(θS

θ

Maxima locaux

Bassins versants

Dendrogramme

Lignes de partage des eaux

Ligne de partage des eaux Bassins d’attractions

57

Fig. 2.3 Définition des éléments topographiques calculés sur la carte de similarité.

L’analyse topographique nous permet d’établir des mesures pour étudier la performance d’un

modèle d’apparence. Nous décrivons ici la teneur des éléments de cette analyse :

1) On connaît :

− La position vraie *θ

− La carte de similarité S(θ)

L’ensemble des mesures proposées ci-dessous ont pour objectif de caractériser la précision et

l’ambiguïté de l’estimation de l’optimum de la carte de similarité au voisinage de la position vraie.

Pour ce faire, nous proposons de considérer une zone de recherche R, centrée en θ*, et de rayon spatial

arbitraire r. Cette zone est considérée comme un ensemble de positions envisageables pour l’initiation

d’une recherche d’optimum. Le principe que nous allons développer pour la caractérisation de la

qualité d’un modèle d’apparence est d’étudier la forme de la carte de similarité au voisinage de cette

zone de recherche, afin d’en déduire des caractéristiques mettant en évidence la capacité de détecter de

façon précise et non ambigüe la position vraie uniquement sur la base de la similarité.

2) On peut en déduire un certain nombre d’éléments (voir Fig. 2.3)

L’optimum global sur la région )(maxarg θθθ

SR

G

∈=

) correspond à la meilleure similarité parmi toutes les

positions testées, lors d’une recherche exhaustive dans un voisinage de la position vraie.

Position vraie

)(θS

θ

Optimum global à convergence associé à R

*θ

Optimum à convergence associé à la position vraie Optimum global de R

Optimum non considéré

Zone de recherche R

58

L’optimum local θ(x) associé à une position d’origine x arbitraire est défini comme l’optimum auquel

est associé le bassin d’attraction contenant x, c'est-à-dire la position estimée par approche ascendante à

partir de x. Nous l’appellerons optimum à convergence associé à x.

Lorsqu’on considère l’ensemble des positions de la zone de recherche, celles-ci sont associées à un

ensemble θR,1 , θR,2 ,… θR,n de n≥1 optima locaux, que nous appellerons ensemble des optima à

convergence, qui correspondent aux optima dont les bassins versants ont une intersection non nulle

avec la zone de recherche.

Parmi l’ensemble des optima à convergence associés à la région R, nous nous intéresserons plus

particulièrement à deux d’entre eux :

− L’optimum à convergence au pire cas correspond à l’optimum de l’ensemble qui est situé le plus

loin en distance spatiale de la position vraie. Nous le noterons θR,P. Il correspond à la plus mauvaise

estimation possible de la position, lorsque l’on initialise un algorithme de recherche de type

ascendante sur l’une des positions de R.

− L’optimum à convergence à meilleure similarité correspond à l’optimum de l’ensemble qui a la

meilleure similarité. Nous le noterons θR,S. Il correspond à l’estimation qui serait jugée la meilleure

par une recherche locale d’optimum, en testant toute les initialisations possibles sur la région R.

Les éléments précédents fournissent pour un rayon r donné trois positions, qui permettent de

caractériser la précision de l’estimation dans trois types d’approches de recherche d’optimum

différentes. Le choix de r n’est cependant pas anodin. Si l’on considère une région de rayon r faible,

l’étude de la carte dans un tel voisinage peut renseigner principalement sur la capacité de la carte à

posséder un optimum local proche de la position vraie. Si l’on considère une région de rayon r plus

important, cette étude peut se compléter de la détection d’ambiguïtés se caractérisant par la présence

d’autres optima locaux éloignés de la position vraie, mais présentant néanmoins soit une bonne

similarité, soit un chemin de remontée de gradient depuis une position au voisinage de la position

vraie. En effet, si le point d’initialisation pour l'optimisation est situé dans un bassin d'attraction

associé à un optimum éloigné, alors la cible sera perdue puisque l'algorithme convergera vers un

optimum local incorrect qui faussera l’estimation de la position de l’objet suivi.

Fixer un unique rayon r arbitraire est difficile, la précision et la robustesse de l’estimation étant deux

notions liées. En effet, la présence d’un optimum proche de la position vraie ne garantit pas que cet

optimum soit choisi par l’algorithme de recherche, notamment dans le cas où d’autres optima sont

également présents dans un voisinage proche. Pour cette raison, nous avons choisi de représenter les

59

performances comme une fonction de r, ce qui permet de capturer à la fois la capacité à localiser avec

précision et robustesse pour r faible, ainsi que la capacité à ne pas être ambigu pour r plus important.

L’échelle d’analyse n’est ainsi pas fixée arbitrairement, mais s’adapte en fonction des données

utilisées.

D’autre part, les caractéristiques utilisées ne font pas intervenir de comparaisons entre similarités

différentes, mais seulement des mesures sur des éléments calculés indépendamment sur chaque carte

de similarité. Ceci permet de comparer deux modèles d’apparence directement au niveau des courbes

de performance générées, malgré le fait que les composantes internes au modèle que sont les

descripteurs ou la similarité utilisés soient de natures complètement différentes.

2.2.4 Illustration des méthodes d’évaluation

Afin d’illustrer les méthodes d’évaluation de performance présentées, l’ensemble des résultats

intermédiaires est présenté pour trois méthodes, sur un exemple caractéristique. Les deux images

utilisées (la référence et l’image courante) sont montrées dans la figure Fig. 2.4. Dans l’image de

référence, la boîte englobante de l’objet de référence est indiquée en rouge. Dans l’image courante,

cette boîte correspond à la région candidate pour une perturbation nulle, et est présentée en vert. Les

cartes de distance entre l’objet de référence et les régions candidates sont présentées à la figure Fig.

2.5. Trois méthodes ont été testées ici : une méthode par histogrammes de couleurs (CH), une méthode

par histogrammes de couleurs pondérés spatialement (WCH), et une méthode par imagette couleur

(CT).

Fig. 2.4 L’objet de référence est marqué avec sa boîte englobante rouge dans l’image de référence et avec sa boite englobante verte dans l’image cible. La carte de disimilarité est calculée dans la région pointillée en bleu.

60

Fig. 2.5 Carte de similarité: haut/milieu/bas: color histogramme (CH )/color histogramme avec noyau (WCH )/Color template (CT ).

Lignes de partage des eaux

Position vraie (46,46)

Optima locaux associés à la position vraie

Optima locaux associés à des distracteurs

Echelle de valeurs de la distance / similarité entre référence et candidat, spécifique à chaque modèle

61

Fig. 2.6 Interprétation des courbes de distance spatiale au meilleur point. Ces résultats sont représentatifs pour un algorithme de suivi qui recherche l’optimum sur une fenêtre de recherche.

Les cartes de dissimilarité précédentes sont résumées sous la forme des trois types de courbe

fonction du rayon r de la zone de recherche, présentées dans les Fig. 2.6 et Fig. 2.7. Les courbes de la

Fig. 2.6 sont représentatives des performances attendues pour un algorithme balayant la zone de

recherche de rayon r afin de trouver un paramètre associé à la meilleure similarité. Les courbes de la

Fig. 2.7 sont représentatives des performances attendues lorsqu’une étape de remontée de gradient

locale est utilisée.

Cette méthodologie d’évaluation de la performance de modèles d’apparence en termes de précision

et de robustesse sera utilisée dans les sections suivantes pour évaluer les performances des méthodes

proposées.

Rayons à partir desquels un premier optimum local est atteint

Distance spatiale au meilleur point de la zone de recherche

Les modèles WCH et CT sont aussi précis, mais CT est plus ambigu pour r>45 pixels

Le modèle CH est moins précis, mais moins ambigu que le modèle CT

62

Fig. 2.7 Interprétation des courbes de distance spatiale à convergence : distance à l’optimum le plus éloigné (en haut), à l’optimum le plus similaire (en bas). Ces résultats sont représentatifs pour un algorithme effectuant une recherche par optimisation itérative, caractérisant respectivement le pire cas, et le cas estimé le plus vraisemblable sur la base du modèle d’apparence uniquement.

Distance spatiale à l’optimum local associé à la position vraie

Zone pour laquelle une initialisation approximative rapproche systématiquement de la position vraie

63

2.3 Performance temporelle d’un modèle d’apparence

2.3.1 Modélisation d’un système de suivi

Pour un objet n , la vérité terrain est représentée par *n,tb la boîte englobante de celui-ci dans

l’image tI . Pour une boîte candidate n,tb , il est possible de définir une mesure d’erreur notée e entre

la boîte candidate et la vérité terrain :

)( ,*

tnn,tn,t ,ee bb= (2.2)

La méthodologie standard de type "boîte noire" [Schneiders et al, 2005], [Brown et al, 2005],

[Bashir et al, 2006], [Black et al, 2003] consiste à prendre n,tb en sortie du système de suivi et à la

comparer à la vérité terrain *n,tb dans l’image t en utilisant l’erreur e. La mesure d’erreur e sert alors de

base à la définition de métriques de performance. La méthodologie proposée dans cette thèse utilise un

paradigme différent, qui met le modèle d’apparence au premier plan.

Le modèle d’apparence M est représenté par un couple descripteur/similarité. À toute boîte

englobante i tn,b est associé un descripteur iMtnv ,, calculé sur cette boîte dans une image t.

( )tntMM

tn vv ,, ,bI= (2.3)

En particulier, toute boîte *n,trefb de la vérité terrain donne lieu à un descripteur de référence *,

Mtrefnv

calculé sur l’image de référence tref.

( )*,

*, , trefntref

MMtrefn vv bI= (2.4)

La probabilité qu'une boîte englobante correcte soit choisie par l'algorithme de suivi est évaluée par

la mesure de similarité sM entre le descripteur de référence et le descripteur courant. Une valeur grande

de similarité sM indique une grande valeur de probabilité que la boîte englobante sera choisie par

l'algorithme de suivi.

Il est alors possible de qualifier la vraisemblance d’une boîte englobante au sens du descripteur par

une mesure de similarité notée :

)( *,,,

Mn,tref

iMn,t

iMtn ,vvss = (2.5)

Quelques améliorations peuvent être envisagées à la place une similarité ),( ,*, M

tnMn,tref

iMn,t ,vvss ω= qui

prend en considération également de l'information contextuelle par exemple. [Comaniciu et al, 2003]

propose une méthode de suivi fondée sur la couleur où la distribution de couleur du fond est utilisé

pour diminuer l'influence des pixels situés dans la boîte englobante mais appartenant au fond.

Dans le cadre de notre approche, l'évaluation quantifie la capacité d'un modèle d'apparence à rester

discriminant, c'est-à-dire à distinguer les positions correctes des positions incorrectes, malgré l’écart

temporel t-tref entre l’image de référence et l’image courante.

Ce principe est illustré sur la figure (Fig. 2.8). L’évaluation consiste à tester si un descripteur de

référence ,*Mtrefv calculé sur une boîte englobante de référence *

trefb dans une image de référence tref est

64

plus similaire à un descripteur iMtv , calculé sur une boîte englobante i

tb dans une image t qui

corresponde à une position correcte ou plutôt à un descripteur jMtv , calculé sur une boîte englobante

jtb qui corresponde à une position incorrecte. L’architecture de cette évaluation est illustrée dans la

figure (Fig. 2.8) et sera plus détaillée dans les sections suivantes.

Fig. 2.8 Principe général d’évaluation

2.3.2 Mise en place d’un corpus d’évaluation

Afin de définir concrètement ce qui distingue une position correcte d’une position incorrecte, un

corpus de données est construit à partir des informations de vérité terrain utilisées dans des

benchmarks annotés à la main, tels que PETS [Schneiders et al, 2005], [Bashir et al, 2006], ou générés

de façon semi automatique [Black et al, 2003]. Les séquences vidéo utilisées dans notre évaluation et

leur vérité terrain associées sont issues du projet CAVIAR [CAVIAR].

Pour chaque objet n et chaque instant t, une base de données est constituée, à partir d’éléments

),,( ,, tntnt vI b associant un descripteur à l’image et à la boîte englobante sur lequel il a été calculé

[Mikram et al, 2007a], [Mikram et al, 2007b]. Chaque élément appartient à l’une des deux classes

suivantes définies par rapport à l’objet n : L'ensemble des boîtes englobantes correspond à un

échantillonnage de l'espace d'état des boîtes englobantes qui recouvre les boîtes englobantes que le

système de suivi peut considérer. Dans nos expériences, ceci est effectué en translatant la vraie boîte

englobante par un vecteur aléatoire. Etant donné cet échantillonnage, les items correspondants sont

assignés à une des classes suivantes, comme illustré sur la figure (Fig. 2.9) :

*trefb

Frame tref

),( * ,

ittrefttrefd bb

itb

Frame t

),( * ,

jttrefttrefd bb

<

position correcte

jtb

position incorrecte

,*Mtrefv

iMtv ,

Modèle d’Apparence M

Descripteur référence

Descripteurs hypothèses

Dissimilarité jM

tv ,

> ?

65

− Une classe des "cibles" associée à l'objet, qui contient des éléments de toutes les images où

l'objet apparaît ayant une position acceptable inn,tn,t B∈b .

− Une classe des "distracteurs" associée au fond qui contient des éléments ayant une position

incorrecte outn,tn,t B∈b .

Fig. 2.9 conception d’une base de données de boîtes englobantes pour l'objet n=1 de la séquence 1. Les boîtes cibles sont translatées d'une petite distance de la boîte vérité terrain. Les boîtes distracteurs ne recouvrent pas la boîte vérité-terrain.

La décision pour inclure un item dans la classe des cibles ou des distracteurs dépend d'un seuil sur

l'erreur de position :

( )( ) out

tntnout

tntn

intntn

intntn

eeB

eeB

>∈

<∈*,,,,

*,,,,

, si

, si

bbb

bbb (2.6)

Les valeurs des seuils ine et oute doivent être fixés selon l'application visée. Ils sont choisis avec

les directives suivantes. ine est tel que la classe des cibles correspond aux boîtes englobantes qui ont

une erreur autorisée de quelques pixels par rapport à la vérité terrain. D’autre part, oute est tel que la

classe des distracteurs forme un échantillonnage de boîtes qui ne chevauche pas l'objet d'intérêt (voir

Fig. 2.9).

Une telle base de données peut être issue des données de vérité terrain utilisées dans des

benchmarks manuellement annotés tels que PETS [Schneiders et al, 2005] [Brown et al, 2005], ViPER

[Doermann et al, 2000], CAVIAR [CAVIAR], ou des benchmarks semi synthétiques [Black et al,

2003]. Les séquences vidéo et leur vérité terrain associée utilisées dans notre évaluation proviennent

du projet de CAVIAR (Context Aware Vision using Image-based Active Recognition) (voir Fig. 2.10).

C’est jeu de données pour des applications ‘indoor’. La vérité terrain du projet [CAVIAR] comporte

28 séquences annotés manuellement et prises par une caméra de vidéo surveillance dans l’entrée du

laboratoire de recherche d’INRIA Rhône Alpes en France. Ils se composent de six scénarios des

Boîte englobante vérité-

terrain

Boîte englobante cible

Boîte englobante

distracteur

66

acteurs exerçant différentes activités telles que marche, rencontre, abandonnant des objets, combat,

fuite.

Fig. 2.10 Extrait de la vérité terrain CAVIAR, utilisée pour illustrer l'approche proposée, avec les positions de la vérité terrain pour chaque objet n.

67

2.3.3 Critères d’évaluation des performances

2.3.3.1 Mesures brutes du pouvoir de discrimination

L’évaluation est fondée sur la définition d’un critère de discrimination : étant donné un objet

requête n dont le modèle *,

Mtrefnv est estimé à l’instant tref, le modèle est discriminant à l’instant t si les

descripteurs cibles iMtnv ,, calculés en in

n,ti

tn B∈,b sont plus similaires à *,

Mtrefnv que les descripteurs

distracteurs jMtnv ,, calculés en out

n,tj

tn B∈,b .

Après classement de tous les descripteurs à l’instant t par ordre décroissant de similarité, on

considère les rangs respectifs de la cible la plus similaire noté inttrefnr ,, , de la cible la moins similaire

2,,

inttrefnr , et du distracteur le plus similaire out

ttrefnr ,, . L’utilisation d’une distance treftnd ,, au lieu d'une

similarité est possible, il faut alors classer les descripteurs par ordre croissant de distance. On notera

intreftnd ,, la distance entre le modèle et la cible la plus similaire.

Pour un couple d’instants ),( ttref donné, le pouvoir de discrimination M ttrefnc ,, d’un modèle

d’apparence M pour un objet n est quantifié en trois catégories :

- Totalement discriminant (M ttrefnc ,, =2) lorsque toutes les cibles sont mieux classées que les

distracteurs.

- Discriminant ou partiellement discriminant (Mttrefnc ,, =1) si l’une des cibles est moins similaire

qu’un distracteur.

- Non discriminant ( Mttrefnc ,, =0) lorsque le descripteur le plus similaire est un distracteur.

Il est important de noter que les valeurs de similarité ou de distance associées à différents modèles

d’apparences ne sont pas manipulées et comparées directement, mais seulement à travers la capacité à

discriminer entre cibles et distracteurs. Ainsi des types de similarité et de descripteurs différents

peuvent être comparés.

68

Fig. 2.11 Principe d’évaluation du pouvoir de discrimination.

Position de la vérité-terrain (VT)

à l’instant tref

,*Mtrefv

Référence pour le modèle d’apparence M

Cibles: positions correctes, petites perturbations de la VT à

l’instant t

Distracteurs: positions incorrectes, celles qui ne recouvrent pas la VT à

l’instant t

iMtv ,

Frame t

Hypothèses : descripteurs d’apparence

Frame tref

Distances de dissimilarité entre la référence et les hypothèses ordonnées par ordre croissant

inttrefd ,

outttrefd ,

t

tref

Best outlier distance

20 40 60 80 100 120 140 160 180

20

40

60

80

100

120

140

160

180

0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55

t

Meilleure distance à la cible Meilleure distance au distracteur

tref

Comparaison

t

20 40 60 80 100 120 140 160 180

20

40

60

80

100

120

140

160

180

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Pouvoir de Discrimination

Non discriminant Le descripteur le plus similaire est un distracteur. Discriminant Toutes les cibles sont mieux classées que les distracteurs.

tref

t

Mesures de performance brutes pour un objet, avec énumération exhaustive des couples (tref,t)

0, =Mttrefc

1, =Mttrefc

69

Les mesures précédentes sont définies pour chaque objet n et chaque image t, pour un modèle

calculé sur une image de référence tref. Elles peuvent être représentées sous la forme de matrices où

chaque ligne correspond à une image de référence tref et chaque colonne à une image testée t.

Afin d’illustrer ces mesures, nous utiliserons les modèles d’apparence suivants, désignés selon la

nomenclature suivante : H pour Histogramme ou T pour Template, G pour niveaux de gris ou C pour

couleur. Les modèles MHG et MHC correspondent à un histogramme respectivement en niveaux de

gris (256) et en couleur RVB (6×6×6), calculé sur le contenu de la boîte englobante, et associé à une

distance de Matusita. Les modèles MTG et MTC correspondent à une imagette respectivement en

niveaux de gris et en couleur RVB obtenue en redimensionnant le contenu de la boîte englobante à une

taille de 20×20 pixels, et associée à une distance Euclidienne.

Les représentations matricielles de la distance de la meilleure cible inttrefnd ,, et du pouvoir de

discrimination Mttrefnc ,, sont illustrées pour les modèles MHG et MTG sur la figure (Fig. 2.13). On peut

remarquer que la diagonale correspond à la recherche d’un objet dans la même image que celle sur

laquelle le modèle a été calculé. En s’éloignant de la diagonale, la distance temporelle |t-tref| entre

l’image courante et l’image de référence s’accroît (Fig. 2.13 à gauche), ce qui augmente les

possibilités que le modèle soit moins discriminant, à cause d’un changement d’apparence de l’objet au

cours du temps. Ainsi un modèle est toujours au moins partiellement discriminant à proximité

immédiate de la diagonale, mais peut devenir non discriminant lorsqu’un changement temporel de son

apparence rend un distracteur plus similaire à la référence que les cibles. C’est notamment le cas (Fig.

2.13 à droite) pour le modèle MHG pour tref>70 et t<70, alors que le modèle MTG reste discriminant

dans cette situation.

70

Fig. 2.12 Conception d’une base de données de boîtes englobantes pour l'objet n=7 de la séquence 1 dans les frames 40 et 100.

Fig. 2.13 la meilleure distance inttrefnd ,, (à gauche), et le pouvoir de

discrimination Mttrefnc ,, (à droite) utilisant le modèle MHG (en haut) ou

MTG (en bas), pour l’objet illustré par la boîte englobante bleu.

71

Ces premières représentations font appel à quelques commentaires. D'abord, il est clair que la

dynamique des distances est différente. Pour cette raison, la comparaison directe des similarités (resp.

distances dans l'exemple) doit être évitée. C’est pour cela seulement le classement calculé dans la

même mesure de similarité et le même descripteur sont utilisés, l'approche proposée ne fait pas

n'importe quelle hypothèse sur la dynamique des mesures de similarité. Par conséquent différents

types de descripteurs ou de similarité peuvent être comparés en se basant sur leur pouvoir

discriminant.

L'invariance temporelle du modèle d'apparence donc est implicitement évaluée par le pouvoir de

discrimination entre l'objet et de fond quand l’image de référence tref est différente de l’image test t.

En second lieu, la diagonale de la matrice inttrefnd ,, correspond à la recherche l'objet dans la même

image où la référence est calculée. Il doit être donc toujours au moins partiellement discriminant

( Mttrefnc ,, ≥ 1). En s'éloignant de la diagonale, le temps entre l’image de référence et les images testées

augmente. Ceci est associé à une augmentation de la distance à la cible, qui indique un changement de

l'apparence de l'objet lorsque l’écart temporel s’accroit.

Troisièmement, bien que les mêmes images soient représentées pour les lignes tref et les colonnes

t, les matrices ne sont pas strictement symétriques. En effet, une ligne tref correspond aux mesures

associées à la vraie boîte englobante dans l’image tref, tandis qu'une colonne t correspond aux mesures

calculées sur l'ensemble de boîtes englobantes perturbées dans l’image t. Pour la mesure de la

meilleure distance à la cible, la matrice est habituellement presque symétrique, car le descripteur

calculé sur la vraie boîte englobante est très proche du meilleur descripteur cible.

2.3.3.2 Mesures intégrées de performance

Plusieurs mesures quantitatives peuvent être extraites des matrices précédentes. En premier lieu,

une mesure du pouvoir de discrimination global peut être associée à un descripteur pour chaque objet

n en calculant la proportion de couples (tref,t) pour lesquels le modèle est discriminant:

( )

treft

cttrefD

MttrefM

n ##

1 / ,# , ≥= (2.7)

• où ttref ## = représente le nombre d’images dans lesquelles l'objet n apparaît.

L'aspect temporel est ainsi pris en considération à l'intérieur des matrices de performance, et

ensuite intégré dans une mesure globale. Sur l'exemple que nous avons utilisé précédemment, le

modèle de MHG est discriminant %877 =MHGD du temps, et le modèle de MTG est discriminant

%867 =MTGD du temps. Ces résultats globaux sont très similaires, tandis qu'il semble que les deux

approches ne présentent pas les mêmes propriétés.

72

Afin de caractériser numériquement la capacité d’un modèle d’apparence à rester discriminant au

cours du temps, nous définissons le pouvoir de discrimination en fonction de l’écart temporel ∆t, en

analysant les diagonales secondaires des matrices.

( ) ( ) ( ) /,#

et 1 / ,# ,

ttreftttref

ttreftcttreftD

MttrefM

n ∆=−∆=−≥

=∆ (2.8)

Fig. 2.14 Pouvoir de discrimination en fonction de l’écart-temporel

Ceci est illustré dans la Fig. 2.14, qui compare les performances temporelles des deux modèles de

la Fig. 2.13. Le modèle MTG semble sensible aux variations périodiques de l’apparence (dues au

mouvement des jambes). A l’opposition le modèle MHG n’est pas perturbé par ce phénomène et il

surclasse le MTG sauf pour les ∆t<60. Ceci peut être expliqué par la présence d’un distracteur entre les

frames 1 et 60 comme on peut observer pour t<60 dans la matrice de discrimination sur la figure Fig.

2.13.

Comme nous l’avons noté pour les modèles MHG et MTG, deux modèles peuvent ne pas avoir les

mêmes modes de défaillance, les valeurs de ( )ttref , qui correspondent à une situation de non

discrimination étant différentes dans les deux cas. En reprenant à la figure Fig. 2.14 la mesure ( )tDMn ∆

sur l’exemple des figures Fig. 2.13, on retrouve l’effet de la présence d’un distracteur pour t<70 sur le

modèle MHG, mais pas sur MTG, qui semble par contre plus sensible à des variations périodiques de

l’apparence (dues au mouvement des jambes).

Afin de résumer les différents cas, et de déterminer pour un couple de modèles d'apparence M1 et

M2 s'ils échouent dans les mêmes situations, ou s'ils montrent des comportements complémentaires, il

est intéressant de quantifier la proportion de couples (t, tref) pour lesquels l’un des modèles est

discriminant alors que l'autre ne l’est pas (Fig. 2.15). Le pouvoir de discrimination comparatif pour

que le modèle M1 soit supérieur au modèle M2 est défini par :

73

( )

treft

ccttrefD

Mttref

MttrefMM

n # #

0et 1 / ,# 2,

1,21

=≥=> (2.9)

Fig. 2.15 Comparaison du pouvoir de discrimination de deux modèles d’apparence.

Fig. 2.16 Comparaison de paires M1/M2 de modèles d'apparence : MHG/MTG, MHG/MHC, MTG/MTC, selon le pouvoir de discrimination global (DM1, DM2) et le pouvoir de discrimination comparatif (DM1>M2, DM2>M1). Chaque point est étiqueté par n°-séquence/n°-objet.

Quand )0,0(),( 1221 ≈>> MMn

MMn DD , les deux modèles d'apparence ont le même comportement, et

échouent dans les mêmes situations. Quand 1221 et 0 MMn

MMn DD >> ≈ est élevé, le modèle 2M est

meilleur que le modèle 1M . Quand les deux valeurs sont élevées, les deux modèles sont

complémentaires et échouent dans différentes situations.

La comparaison de deux modèles peut ainsi utiliser les mesures MnD et 21 MM

nD > , en affichant ces

mesures pour un nombre important de situations (une situation étant définie comme l’étude du suivi

d’un objet au sein d’une séquence). Dans les figures Fig. 2.16, il est ainsi montré notamment que les

modèles MHG et MTG ne réussissent pas systématiquement dans les même situations, l’un ou l’autre

des modèles étant mieux adapté en fonction des situations. Cette représentation permet par exemple

d’étudier l’apport de la couleur dans les cas étudiés : les modèles par imagette MTG et MTC ont

quasiment les mêmes situations de réussite (points concentrés autour de l’origine), alors que les

74

approches par histogramme MHG et MHC semblent réussir dans des situations plus complémentaires

(concentration moins forte des points autour de l’origine).

Ces résultats illustratifs seront développés lors de l’étude expérimentale des modèles d’apparence

présentée au Chapitre 4.

2.4 Conclusion

Ce chapitre a présenté deux approches originales pour l'évaluation des performances des modèles

d'apparence composés d’un descripteur et d’une mesure de similarité pour le suivi.

La première approche caractérise les performances spatiales du modèle en évaluant la distance

spatiale entre la position vraie de l'objet et plusieurs positions optimales au sens du modèle

d'apparence uniquement. La topographie de la carte de similarité est ainsi utilisée de manière à rendre

l'analyse des performances indépendante des échelles différentes potentiellement associées à des

modèles distincts. Ceci permet la comparaison objective des modèles.

La deuxième approche étend les approches d'évaluation de descripteurs pour la recherche d’images

par le contenu au contexte du suivi d’objets en prenant en compte spécifiquement l'aspect temporel des

séquences vidéos, au travers de la conception d'une structure spécifique du corpus d’évaluation et de la

proposition de nouvelles mesures de performance. Cette approche est complémentaire des benchmarks

de suivi d’objets utilisant la méthodologie classique d’évaluation au sens où elle se focalise sur l’étude

du modèle d’apparence, au lieu d’étudier un système « boîte noire » complet, tout en réutilisant les

bases de vérité-terrain existantes.

Ces deux méthodologies d’évaluation viennent compléter la méthodologie classique pour les

évaluations de performance qui seront menées dans les chapitres suivants.

75

Chapitre 3

Nouveaux modèles d’apparence pour le suivi

L’amélioration de la conception d’un système de suivi d’objets a des conséquences notables sur la

qualité des résultats de localisation obtenues. Dans le but d’améliorer ces performances, nous

proposons de nouvelles techniques. Dans ce chapitre, les améliorations portent sur deux axes :

Axe 1 : amélioration du caractère discriminant d’un descripteur afin de limiter les ambigüités liées

à la représentation par histogramme de couleurs.

Axe 2 : proposition d’une nouvelle approche pour la comparaison d’un descripteur à un modèle de

référence afin de rendre les modèles moins sensibles aux variations colorimétriques.

3.1 Histogramme multi-échelles

Dans le cadre de l’accroissement de la performance d’un système de suivi, nous proposons un

nouveau descripteur pour mieux représenter un objet. Ce nouveau schéma de représentation est

introduit afin de pallier l’imperfection due à la représentation habituelle par histogramme brut (HB)

dont souffre l’algorithme Mean Shift grâce à l’utilisation d’histogrammes multi-échelles (HM)

[Mikram et al, 2006]. Ce descripteur est conçu pour effectuer la discrimination entre des objets

différents qui ont pourtant le même histogramme brut. Tout d’abord, nous mettons en évidence

l’apport de l’utilisation de l’histogramme multi-échelles, puis nous présentons les résultats

expérimentaux de notre approche.

3.1.1 Principe

L’histogramme multi-échelles est une variante de la représentation d’objet qui inclut de

l'information spatiale.

3.1.1.1 Histogramme multi-échelles

L’histogramme multi-échelle est une famille d’histogrammes p élaborés à différentes échelles τ

d’une image. Pour obtenir un histogramme multi-échelles de l'image I , on effectue la convolution de

cette image avec des filtres gaussiens G (τ) [Koenderink, 1984], [Witkin, 1983] :

( )

+−=2

22

2 2exp

2

1

τπττ yx

G (3.1)

76

• où τ est l’écart type2 du filtre. L'histogramme de l’image convoluée est noté pτ (I )=p(I*G(τ))

où ∗ représente l'opérateur de convolution.

• L’histogramme multi-échelles est le vecteur défini par :

] ,,,,[ 10 −= Npp pp KK τ (3.2)

• où pτ est un vecteur correspondant à l'histogramme à l’échelle τ et N est le nombre d’échelles

considérées. Cette représentation inclut implicitement l'information spatiale de l’image (Fig.

3.1).

(a) (b) (c) (d)

Fig. 3.1 Exemples de deux histogrammes multi-échelles. Les colonnes (a) et (d) illustrent la décomposition multi-échelles de deux images. La ligne supérieure illustre les images originales. Les colonnes (b) et (c) illustrent leurs histogrammes multi-échelles respectifs. Les histogrammes originaux sont identiques mais les histogrammes multi-échelles sont distincts.

2 Terme utilisé par analogie avec la densité de probabilité d’une variable aléatoire gaussienne.

0 50 100 150 200 250 3000

500

1000

1500

2000

2500

intensity

dens

ity

0 50 100 150 200 250 3000

500

1000

1500

2000

2500

intensity

dens

ity

77

3.1.1.2 Histogramme multi-échelles cumulé

• L’histogramme multi-échelles cumulé (HMC) est un dérivé de l’histogramme multi-échelles,

c’est la moyenne d’une famille d’histogrammes à plusieurs échelles afin de créer un nouveau

descripteur. La moyenne est définie selon la relation suivante :

∑−

==

1

0

1 Ncum

N τ

τpp (3.3)

• où pτ est un vecteur correspondant à l'histogramme à l’échelle τ et N est le nombre d’échelles

considérées.

3.1.1.3 Comparaison des histogrammes multi-échelles

La comparaison de deux histogrammes multi-échelles (à N échelles) p et q peut être effectuée en

utilisant une distance moyennée des distances des histogrammes de même échelle :

( ) ∑−

==

1

0),(

1,

NHM d

Nd

τ

ττ qpqp (3.4)

• où d(pτ,qτ) est une distance entre les deux histogrammes pτ et qτ à l’échelle τ.

La comparaison de deux histogrammes multi-échelles cumulés s’effectue de façon analogue à la

comparaison d’histogrammes mono-échelle, par l’utilisation de la métrique d(pcum,qcum).

3.1.2 Intérêt de la nouvelle approche

L’objectif de ce paragraphe est d’évaluer l’apport des représentations proposées qui prennent en

compte l’information spatiale (totalement perdue lors de l’utilisation des histogrammes bruts) pour

améliorer les performances d’un système de suivi. Une série d’expérimentations a été effectuée pour

valider certains aspects de nos propositions.

3.1.2.1 Discrimination de la convergence

Nous avons comparé les résultats obtenus par les représentations proposées à ceux obtenus par

l’approche conventionnelle par histogramme. Dans ce but, nous avons mis au point un protocole pour

évaluer le bénéfice de l’utilisation de l’histogramme multi-échelles et de ses dérivés. L’évaluation a

été réalisée à l’aide d’une image synthétique simulant un scénario difficile de suivi où l’histogramme

de l’objet cible et les histogrammes candidats sont similaires. L’image synthétique est composé d’un

échiquier représentant l’objet cible associé à huit autres imagettes différentes qui l’entourent (Fig. 3.2).

Toutes les imagettes sont binaires (0 et 255) et ont le même histogramme.

78

• L’évaluation de la performance de ces représentations s’effectue sur la base du critère 1-

pq − . La carte de similarité générée par ce critère pour une gamme de translations (tx,

ty) autour du centre de l'image cible illustrée par la figure (Fig. 3.2).

• La carte de similarité est calculée dans la région marquée en vert. Le modèle cible (la région

marquée avec la boîte englobante rouge) a été comparé aux candidats obtenus en balayant

d’une manière exhaustive la région située à l’intérieur du rectangle vert.

• Nous montrons d'abord sur la figure Fig. 3.3 (a) la carte obtenue en calculant la similarité pour

la région marquée en vert en utilisant l’histogramme brut. Il est évident, à partir de cette

figure, qu'il y a beaucoup de coefficients similaires dans la surface puisque l'histogramme est

invariant par translation dans cette fenêtre de recherche. Cette surface de la similarité aplatie

ralentirait la convergence de Mean Shift ou même le ferait converger vers un maximum local

menant à une localisation imprécise de la cible.

• La carte de similarité représentée sur la figure Fig. 3.3 (b) est plus convexe. Elle montre que le

l’histogramme cumulatif proposé a un pouvoir de discrimination plus élevé que l'histogramme

conventionnel et conduit à un suivi plus robuste et plus précis.

• Du fait que toutes les imagettes autour de l’échiquier cible sont similaires en termes

d’histogramme, il est clair qu’un histogramme mono-échelle ne peut pas distinguer les

changements dûs à des translations dans toutes les directions, ce qui mène à une situation de

singularité où la même valeur optimale de la fonction objective peut être réalisée pour une

gamme continue, c’est-à-dire que n'importe quelle imagette candidate dans cette zone satisfait

notre critère de similarité. D'autre part, la surface associée à l'histogramme multi-échelles

montre une crête plus contrastée, où l'ambiguïté de l'optimum est diminuée. Par conséquent,

sur de telles données, l'histogramme multi-échelles donne les meilleurs résultats que

l’approche mono-échelle grâce à une meilleure discrimination de l'optimum.

3.1.2.1 Robustesse au bruit

Pour tester la robustesse des nouveaux descripteurs introduits vis-à-vis du bruit, une image test est

entachée d’un bruit blanc gaussien avec des écart-types différents (Fig. 3.4). Nous utilisons la

procédure décrite précédemment pour obtenir les surfaces de similarité au voisinage d’une cible. Le

résultat obtenu avec un histogramme classique montre (Fig. 3.5) que la localisation de l’objet cible est

impossible puisque la surface est aplatie.

Par contre, l’utilisation de l’histogramme multi-échelles permet une bonne discrimination ce qui

revient à estimer une localisation précise. Notons que l’histogramme multi-échelles permet une

localisation plus précise que l’histogramme multi-échelles cumulé.

79

Fig. 3.2 images multi-échelles.

Fig. 3.3 Les surfaces 1- pq − pour (a) : histogramme mono-échelle, (b) : histogramme multi-échelles cumulé, (c) : histogramme multi-échelles.

(a) (b)

(c)

80

Fig. 3.4 A gauche : image originale. A droite : image bruité avec un bruit gaussien (écart-type=1.60).

Fig. 3.5 Cartes de similarité. Haut/milieu/bas : histogrammes mono/cumulé/multi échelle. Gauche/droite : sans bruit/avec bruit.

81

Fig. 3.6 Courbes de robustesse à l’initialisation. Gauche : sans bruit. Droite : avec bruit.

3.1.3 Suivi robuste par Mean Shift via l’histogramme multi-échelles

L’approche Mean Shift (Annexe A) peut maintenant être étendue pour résoudre les ambiguïtés qui

apparaissent quand l'environnement de l’objet suivi est caractérisé par des histogrammes similaires

c'est-à-dire lorsque le modèle cible et les candidats ont des histogrammes similaires. Nous présentons

dans cette section une nouvelle conception d’un système de suivi qui utilise un histogramme multi-

échelles. Cette nouvelle représentation exploite les rapports spatiaux inhérents entre les pixels à travers

plusieurs échelles de l’image.

82

Dans la nouvelle approche proposée, les distributions du modèle de la cible et du candidat à

l’échelle τ peuvent maintenant être définies comme :

( )∑=

=n

iiuiu

cKCq1

2)( )( xx τττ δ (3.5)

( ))( ) ()(1

2

iuhn

u

ihu

ch

KCp xxy

y τττ δ∑=

−= (3.6)

Fig. 3.7 Distributions multi-échelles

A partir ces distributions multi-échelles, nous explorons plusieurs voies pour améliorer la

performance du processus Mean Shift. L’apport d’information spatiale intégré dans les nouveaux

descripteurs aura un effet favorable en ce qui concerne l’augmentation de la précision de la

localisation de la cible. Dans les paragraphes qui suivent, nous définissons formellement l’approche

envisagée pour mener à bien cet objectif.

La comparaison de deux histogrammes multi-échelles (à N échelles) peut être effectuée en utilisant

un coefficient de Bhattacharyya moyenné :

( ) ( ) ( )∑−

===

1

0

1),(

N

N τ

τρρρ yqypy (3.7)

Dans le cas de l’histogramme multi-échelles :

En utilisant un développement limité de Taylor à l’ordre 1 autour de l’histogramme p(y0) et un

noyau d’Epanchnikov on obtient une estimation de la position de la cible comme suit :

( ) ( )( )iui

ih

u u

i ch

KCp

q

Ncte x

xy

yy ττ

τ τ

τδρ ∑∑∑

−+≅

2

0)(

1 (3.8)

( )

−+≅ ∑∑

2

0)(

1

hK

q

q

CN

cte i

iu

iu

ih

xy

yy τ

τ

ττ

τ

τρ (3.9)

0

0,05

0,1

0,15

0,2

0,25

1 2 3 . . . m

color

Pro

babi

lity

échelle

Modele cible à

l’échelle N 0

0,05

0,1

0,15

0,2

0,25

0,3

1 2 3 . . . m

color

Pro

babi

lity

Modele du candidate à l’échelle N

…

0

0.05

0.1

0.15

0.2

0.25

0.3

1 2 3 . . . m

color

Pro

babi

lity

…

Modèle de la cible à l’échelle 1

0

0,05

0,1

0,15

0,2

0,25

0,3

1 2 3 . . . m

color

Pro

babi

lity Modele du

candidat à l’échelle 1

83

• avec τiu la couleur quantifiée du pixel xi à l’échelle τ.

• Si le même paramètre h est utilisé à toutes les échelles, on peut simplifier en

)( 0yτ

τ

ττ

τω

iu

iui

q

q

= (3.10)

et en utilisant un noyau d’Epanchnikov on obtient une estimation de la positon de la cible comme

suit :

∑ ∑

∑ ∑

−

= =

−

= ==1

0 1

1

0 11

N hn

ii

N hn

iii

τ

ττ

τ

ττ

ω

ω x

y (3.11)

Pour l’histogramme cumulé

( ) ( )yy

y cumu

ucumu

cumu

u

cumu

cumu p

p

qcteqyp ∑∑ +≅=

)()(

0

ρ (3.12)

or

( ))( 2

iui

ih

cumu c

hKCp x

xy τ

τ

τ δ∑∑

−= (3.13)

( )

−+≅ ∑∑

2

0)( hK

q

q

Cctey icum

iu

cum

iu

ih

xy

yτ

τ

τ

τρ (3.14)

Avec la simplification précédente ∑=τ τ

τω

)( 0ycum

iu

cum

iucumi

q

q

(3.15) :

on obtient une estimation de la position de la cible comme suit dans le cas de l’histogramme multi-

échelles cumulé :

∑

∑

=

==hn

i

cumi

hn

ii

cumi

1

11

ω

ω x

y (3.16)

84

3.1.4 Expérimentation et évaluation

Les expérimentations sur la séquence INRIA illustrent l’apport des méthodes proposées par rapport

à l’algorithme du Mean Shift classique en termes de précision (Fig. 3.8, Fig. 3.9).

Fig. 3.8 Résultat du suivi par Mean Shift. En haut : Mean Shift. Au milieu : Mean Shift avec histogramme cumulé. En bas Mean Shift avec histogramme multi-échelles

Fig. 3.9 Erreur par rapport à la vérité terrain

Err

eur

du s

uivi

85

3.2 Suivi robuste via une mesure de similarité inter-bins

L’objectif de ce paragraphe est de présenter l’adaptation des mesures de similarité inter-bins

représentées dans la section 1.2.4.3, pour le suivi d’un objet fondé sur l’approche Mean Shift. Pour

gagner en robustesse, nous proposons ainsi de combiner efficacement les avantages respectifs de

l’algorithme Mean Shift et des mesures de similarité inter-bins pour effectuer le suivi.

L’algorithme conventionnel Mean Shift repose sur la minimisation de la distance de Bhattacharyya.

Nous avons vu précédemment son équivalence avec la distance de Matusita. Nous proposons de

modifier la distance de Matusita de façon à prendre en compte des associations inter-bins. Cette

extension s’effectue par analogie à la distance quadratique, présentée à la section 1.2.4.3. Nous

présenterons ensuite comment appliquer cette distance dans le cadre de l’algorithme Mean Shift.

3.2.1 Effets des changements d’illumination

Une des principales difficultés du suivi d’objets dans une séquence vidéo réside dans la prise en

compte des changements d’illumination de la scène.

Fig. 3.10 Image originale (à gauche), image décalée (au milieu) et leurs histogrammes (à droite).

Le changement d’illumination (de la luminosité) rend la similarité avec le modèle initial de plus en

plus faible, ce qui tend à réduire les chances d’effectuer un suivi d’objet correct. Il existe plusieurs

manières d’aborder le problème :

• Adapter le modèle de l’objet au cours du temps au risque d’intégrer de la ‘fausse’ information

dans le modèle de référence, menant au problème bien connu de la dérive [Comaniciu et al, 2003].

• Trouver un espace colorimétrique adapté pour lequel la similarité est maintenue, tout en

conservant une dissociation suffisante de l’objet dans son environnement. Cette approche est bien

adaptée lorsque les attributs (couleur) de l’objet peuvent se distinguer individuellement du fond

pour lequel il est possible de connaître les caractéristiques notamment en observant le voisinage de

l’objet [Lehuger et al, 2006].

10 20 30 40 50 60 0

0.5

1

1.5

2

2.5

3 x 10

4

Histogramme image originale

Histogramme image décalée

86

• Une autre approche alternative repose sur un prétraitement, tel que Retinex [Jobson et al, 1997],

visant à compenser les variations de luminance dans l’image. Ce pré-traitement est appliqué avant

d’employer une méthode classique de suivi. Cependant, son application entraîne de nombreux

problèmes notamment lorsque les objets en mouvement sont petits (quelques pixels au carrée). Le

pré-traitement tient compte du voisinage des points et s’applique mieux à des surfaces étendues.

Nous proposons une autre approche pour aborder ce problème qui modifie la distance entre

descripteurs utilisée pour comparer le modèle de référence et les candidats dans la séquence vidéo.

3.2.2 Distance fondée sur la distance de Matusita modifiée

3.2.2.1 Rappels sur les distances utilisées

• Nous rappelons rapidement les propriétés des distances de Matusita et quadratique.

La distance de Matusita s’exprime :

( ) ( )qpqpqp −−= ),(T

Matd (3.17)

• avec q est défini pour un vecteur uuq )(=q par uuq )(=q .

• L’intérêt de cette distance consiste notamment en sa relation avec le coefficient de

Bhattacharyya ρ(p,q), qui est une mesure de similarité adaptée aux distributions. En

particulier, pour toute distribution p normalisée, on a :

1),(1

=== ∑=

m

uu

Tpppppρ (3.18)

• En développant l’expression (3.17), on obtient ainsi :

( )

( ) ),(22,

2 ,

),(

qpqp

qpqqppqp

qp

ρρ

−=

−+=

Mat

TTTMat

d

d43421 (3.19)

La distance quadratique peut être exprimée de deux façons, qui sont équivalentes lorsque la matrice

Q est symétrique positive, en la décomposant en Q=RTR.

( ) ( ) ( )qpqpqp −−= , 2 Qd TQ (3.20)

( ) ( ) ( )qpqpqp RRRRd TQ −−=2, (3.21)

Cette distance fait donc intervenir naturellement un aspect inter-bins dès que la matrice Q est non

diagonale :

( ) ( )∑∑ −−=u v

vvuvuuQ qpQqpd 2 ),( qp (3.22)

87

3.2.2.2 Extension la distance de Matusita au cas inter-bins

•••• distance Quadratique-Matusita

Nous voyons deux possibilités pour appliquer cette approche inter-bins à la distance de Matusita.

La première (notée distance Quadratique-Matusita) consiste à calculer une distance quadratique entre

p et q , ce qui peut s’exprimer :

( ) ( ) ( )qpqpqp −−= ,T

QdQM (3.23)

( ) ( ) ( )qpqpqp RRRRdQM −−= ,T

(3.24)

• Dans ce cas :

( ) ( )vvuvu v

uuQM qpQqpd −−= ∑∑ ),(2 qp (3.25)

•••• distance Matusita transformée

La deuxième (notée distance Matusita transformée) consiste à appliquer le changement de repère R

aux vecteurs p et q avant de calculer une distance de Matusita, qui remplacerait la distance euclidienne

utilisée pour comparer Rp et Rq dans le cas de la distance quadratique (eq. 3.21) :

( ) ( ) ( )qpqpqp RRRRdMR −−= ,T

(3.26)

Cette deuxième version nous semble plus adaptée au cas des distances entre distributions. En effet,

dans le cas où la matrice R est stochastique gauche (c'est-à-dire à termes positifs dont la somme sur

chaque colonne vaut 1), les vecteurs p’=Rp et q’=Rq correspondent toujours à des distributions. La

nouvelle distance inter-bins correspond alors à une distance de Matusita appliquée à des distributions

auxiliaires p’ et q’ . Il est alors possible de définir un coefficient de Bhattacharyya inter-bins, qui est lié

à la distance de Matusita inter-bins précédente :

( ) qpqp RRT

R =,ρ (3.27)

• Les justifications de ce choix sont détaillées dans la section suivante.

3.2.2.3 Choix entre les deux métriques présentées

La première métrique peut se développer sous la forme :

( )( )43421θp

qpqqppqp

,

2,

QM

TTTQM QQQd

ρ

−+= (3.28)

• Les deux premiers termes ne sont pas constants, ce qui empêche d’établir un lien entre

dQM(p,q) et ρQM(p,q), l’extension inter-bins potentielle du coefficient de Bhattacharyya. La

condition pour que les termes pp QT

soient constants quels que soient p est que R puisse

88

s’exprimer sous la forme R=aU avec U unitaire. On aurait dans ce cas dT IaRRQ 2== , ce qui

ramène en fait au cas bin-à-bin à un coefficient multiplicatif près, et n’est donc pas intéressant.

Fig. 3.11 Illustration de la perte de normalisation pour une matrice Q non proportionnelle à l’identité. Exemple pour m=2 (2 bins) avec

=

2/10

01Q .

• Dans le cas de la deuxième proposition de métrique, un développement donne :

( )4342143421

),(

2,

qp

ppqqppqp

R

TT

pC

TMR RRRRRRd

ρ

−+= (3.29)

avec pp RRCT

p = (3.30)

( )

( )muvuv

v

Tv

uuv

vv

uu

mvuvuvv

uvuu

u

RRpR

Rp

p

RRpRpRpCp

,,1,..

'

,,1,,''

2'

colonne vecteur le notant en

où et notant en

K

K

=

=

=

=

=

====

∑

∑∑

∑

∑∑ pp

Fig. 3.12 Notations pour les colonnes de la matrice R

• Dans ce cas, Cp est indépendante de p lorsque vaRu uv ∀=∑ . Sans perte de généralité, on

peut supposer a=1 : 1=∑u uvR .

v

u

R.v

R

Ruv

1

1 11

=L

p

1

1 1

2=

Lp 1p

2p2p

1p

p 1

1 1

2<

Lp 1)( pR

pR

2)( pR

p1/2

89

• Si tous les coefficients sont positifs, R est alors une matrice stochastique gauche : si p est un

vecteur correspondant à une distribution de probabilité discrète, alors Rp correspond

également à une distribution de probabilité discrète.

• Dans ce cas, on peut définir un coefficient de Bhattacharyya étendu :

( )

∑ ∑

∑ ∑∑

∑

= =

= ==

=

=

=

====

m

w

m

vuwvwuvu

m

w

m

vvwv

m

uuwu

m

www

TR

RRqp

qRpR

RRqpRR

1 1,

1 11

''

1

'' et avec , qqppqpqpρ

(3.31)

• et on a alors :

( ) ( )( )qpqp ,12, RMRd ρ−= (3.32)

Fig. 3.13 Principe du changement de repère pour la prise en compte des liens inter-bins dans le calcul de la distance de Matusita transformée.

3.2.3 Application au suivi par Mean Shift

L’algorithme de suivi par Mean Shift, présenté à l’annexe (Annexe A) repose sur la linéarisation du

coefficient de Bhattacharyya par rapport au vecteur p(y) représentant la distribution discrète. Dans le

cas du coefficient de Bhattacharyya transformé, introduit précédemment, cela donne les expressions

suivantes :

( ) ( )ttR g ppqp)) −+ ,ρ (3.33)

vp

v

wq

w'up

u

'uq

u

uwRuvR

Comparison

v w

u u

90

avec

( ) RRdiagRg

RRg

T

T

2

1

ˆ

2

1 −=

∂∂

=

pq

p

pq

p (3.34)

avec

==

qq

pp

R

R'

' (3.35)

ligne. vecteur )(notant en 2

1,...,1..'

'

muvuvvv v

v RRRp

qg === ∑ (3.36)

or ( ) ( )( )iti

it cKp xIx δ ∑ −= (3.37)

• d’où

( )

( ) ( )( )iiiivu

n

i

m

v v

v

t

m

tt

uutcKRp

qcte

pgcte

xIx

qp

==−+=

+≅

∑ ∑

∑

= =

=

avec 2

1

,

1 1 '

'

1ρ

(3.38)

• Ce résultat est à rapprocher du résultat analogue pour le coefficient de Bhattacharyya simple :

( ) ( )cKp

qcte i

m

i iu

iuR −+≅ ∑

=xqp

12

1, )ρ (3.39)

Dans les deux cas, on cherche à maximiser

( ) ( )cKf i

n

ii −= ∑

=xqp

1, ω (3.40)

avec simple cas lepour 1

u)(up

qw i

m

u u

ui −= ∑

=δ) (3.41)

et ( )( )iiivu

m

v v

vi uuR

p

qw xI== ∑

= avec

1 '

'

(3.42)

Ces équations permettent ainsi de définir les modifications à accomplir à l’algorithme classique du

Mean Shift afin de prendre en compte la distance de Matusita Transformée pour l’évaluation de la

dissimilarité à la référence.

91

3.2.4 Expérimentations et évaluation

La Fig. 3.14 illustre la robustesse apportée par l’utilisation de la distance de Matusita Transformée

lorsque les couleurs de l’objet ont subi une faible variation, due par exemple à un changement

d’illumination, ce que les distances bin-à-bin telles que la distance de Matusita ne permettent pas.

0

0,1

0,2

0,3

0,4

0,5

0,6

1 2 3 4 5 6 7 8

couleur

prob

alité

0

0,1

0,2

0,3

0,4

0,5

0,6

1 2 3 4 5 6 7 8

couleur

prob

alité

h1 h2

0

0,1

0,2

0,3

0,4

0,5

0,6

1 2 3 4 5 6 7 8

couleur

prob

alité

0

0,1

0,2

0,3

0,4

0,5

0,6

1 2 3 4 5 6 7 8

couleur

prob

alité

h1 h3 Fig. 3.14 Exemple où la distance de Matusita ne correspond pas à la dissimilarité perceptuelle, mais où la distance de Matusita Transformée s’en rapproche. En bas : dMat_Tans(h1,h3)=0.2159, dMat(h1,h3)=0.7071. En haut: dMat_Tans(h1,h2)=0.5692, dMat(h1,h2)=0.7071.

Les figures suivantes illustrent cet apport sur des vidéos naturelles dans les cas où la luminosité de

l‘objet change entre l’image de référence et l’image courante.

Fig. 3.15 Image de référence et l’image cible

92

Fig. 3.16 Cartes de similarité. Gauche/droite : Matusita/Matusita-Transformée.

Fig. 3.17 Courbes de distance spatiale au meilleur point (en haut). Courbes de distances spatiale à convergence en bas : distance à l’optimum le plus similaire. (à gauche), distance à l’optimum le plus éloigné (à droite)

Fig. 3.18 Image de référence et l’image cible

93

Fig. 3.19 Cartes de similarité. Gauche/droite : Matusita/Matusita-Transformée.

Fig. 3.20 Courbes de distance spatiale au meilleur point (en haut). Courbes de distances spatiale à convergence en bas : distance à l’optimum le plus similaire. (à gauche), distance à l’optimum le plus éloigné (à droite)

Afin de qualifier la précision du suivi, une approche boîte noire est utilisée. La précision du suivi

est quantifiée par la distance en pixels du centre de la région estimée au centre de la région de la vérité

terrain, au cours du temps. Les résultats montrent que la prise en compte d’une distance inter-bin

permet une meilleure précision dans les situations où les objets subissent de légères variations de

luminance.

94

Fig. 3.21 Résultat de suivi sur la séquence INRIA. En haut Mean Shift, en bas Mean Shift utilisant la métrique de Matusita Transformée.

Fig. 3.22 Erreur par rapport à la vérité terrain dans l’exemple de la Fig. 3.21

Fig. 3.23 Résultat de suivi sur la séquence LISBON. En haut Mean Shift, en bas Mean Shift utilisant la métrique de Matusita Transformée.

95

Fig. 3.24 Erreur par rapport à la vérité terrain dans l’exemple de la Fig. 3.23

3.3 Conclusion

Dans ce chapitre, nous avons introduit deux nouvelles représentations d’un objet visant à améliorer

la qualité de suivi. Premièrement, nous avons introduit un nouveau type de descripteur, fondé sur une

représentation multi-échelle, qui vise à compenser les limites des histogrammes classiques mono-

échelle en utilisant de l’information obtenue pour plusieurs niveaux de lissage de l’image d’origine.

Deux approches ont été étudiées : l’histogramme multi-échelles qui juxtapose les informations et

l’histogramme cumulé qui les combine.

Deuxièmement, une nouvelle similarité entre histogrammes de couleurs a été introduite, visant à

rendre le modèle moins sensible aux changements de luminosité qui peuvent apparaître dans une

séquence vidéo.

Les deux nouvelles approches ont toutes les deux été incluses dans un algorithme de suivi d’objet

efficace, en adaptant l’algorithme de Mean Shift. Leurs performances ont été illustrées par les résultats

de suivi sur des séquences issues de benchmarks standards.

97

Chapitre 4

Evaluation des modèles d’apparence

L’objectif de ce chapitre est de proposer des études comparatives entre modèles d’apparence en se

fondant sur les outils introduits au chapitre 3.

4.1 Modèles d’apparence évalués

4.1.1 Données expérimentales

Descripteur Distance Paramètres Nom

Histogramme de niveaux de gris Matusita 256 bins GH

Template de niveaux de gris L2 20×20 pixels GT

Histogramme de couleur Matusita 6×6×6 bins CH

Template de couleur L2 20×20 pixels CT

Spatiogramme couleur Bhattacharyya pondéré

[Conaire et al, 2007]

6×6×6 bins CS

Histogramme de couleur pondéré

par un noyau

Matusita 6×6×6 bins WCH

Histogramme de niveaux de gris Quadratique Hafner 256 bins GHQ

Histogramme de couleur Quadratique Hafner 6×6×6 bins CHQ


par un noyau

Divergence de Jeffrey 6×6×6 bins WCHDJ


par un noyau

Quadratique Hafner 6×6×6 bins WCHQ

Histogramme de niveaux de gris Matusita Trans 256 bins, s=10, 15, 20 GHMT s=10, 15, 20, 30

Histogramme de couleur Matusita Trans 6×6×6 bins, s=0.3, 0.4, 0.5 CHMT s=0.3, 0.4, 0.5


par un noyau

Matusita Trans 6×6×6 bins, s=0.3, 0.4, 0.5 WCHMT s=0.3, 0.4, 0.5

Tableau 5. 1 Modèles d’apparence évalués.

98

4.1.2 Corpus d’évaluation

Le corpus sur lequel sont évalués les modèles d’apparence est composé de sept séquences, issues

du benchmark CAVIAR. Chacune des séquences vidéo est lié à un fichier XML décrivant les entités

de chaque image avec leur position, mouvement, rôle (marche, laisse un objet, aucun, combattre,…).

Ces fichiers ont été créés manuellement. Les figures (Fig. 4.1, Fig. 4.2, Fig. 4.3 et Fig. 4.4) illustrent

des extraits de ces séquences associés à leur vérité terrain.

Numéro Nom de la séquence

1 ThreePastShop2cor

2 EnterExitCrossingPaths1cor

3 TwoLeaveShop1front

4 TwoLeaveShop2front

5 OneShopOneWait1cor

6 Walk1

7 OneShopOneWait2cor

Tableau 5. 2 Corpus d’évaluation.

99

Fig. 4.1 Lisbon couloir shopping center (séquences : 1 et 7 : ‘ThreePastShop2cor’ et ‘OneShopOneWait2cor’)

Fig. 4.2 Lisbon couloir shopping (séquences : 2 et 5 : ‘EnterExitCrossingPaths1cor’ et ‘OneShopOneWait1Cor’)

Fig. 4.3 Lisbon front shopping center (séquences : 3 et 4 : ‘TwoLeaveShop1fron’ et ‘TwoLeaveShop2front’)

100

Fig. 4.4 INRIA (séquence 6 : Walk1)

4.2 Performances globales des modèles d’apparence

4.2.1 Résultats

Modèle Sigle utilisé dans

la Fig. 4.5

pouvoir de discrimination

global WCH 6x6x6 JS_Divergence WCHDJ 0,4 GT 20x20 L2 GTL2 0,52 CT 20x20 L2 CTL2 0,53 GH 256 Matusita GHM 0,63 CH 6x6x6 Matusita CHM 0,65 WCH 6x6x6 Quadrati_Hafner WCHQ 0,65 WCH 6x6x6 Matusita Trans s=0.4 WCHMT 0,67 WCH 6x6x6 Matusita WCHM 0,69

Tableau 5. 3 Performances globales des modèles d'apparence

Les résultats de nos expérimentations en utilisant le pouvoir de discrimination global introduit au

chapitre 3 montrent que les modèles d’apparence fondés sur les histogrammes surpassent globalement

ceux basés sur les templates dans le contexte des séquences et pour les durées considérées. Comparons

les modèles d’apparences de type histogramme entre eux, l’histogramme pondéré avec un noyau

couplé à la distance de Matusita offre la meilleure performance globale. Nous détaillons les propriétés

des différents modèles dans les sections suivantes.

101

Fig. 4.5 Taux de discrimination moyen en fonction de l’écart-temporel sur l’ensemble du corpus.

4.2.2 Discussion

Fig. 4.6 Bases de données à t= 80 (à gauche) et à t=180 (à droite)

102

GHDiffusion CS-WBHAT WCHQ Fig. 4.7 Matrices de la distance du meilleur distracteur à la référence pour les modèles CH-Diffusion, CS-WBhat et WCHQ (WCH Quadratique Hafner)

Les matrices de la distance du meilleur distracteur sont organisées avec des distances cohérentes.

En effet, un distracteur peut être présent dans une image t mais pas dans d'autres images. Si une boîte

englobante distracteur outtnb , chevauche un distracteur celle-ci est prise en compte pour toute la colonne

t. Ceci apparaît comme une colonne avec une distance uniformément faible. Ceci peut être observé sur

la figure Fig. 4.7, pour le modèle de l’histogramme pondéré couplé à la distance quadratique de

Hafner (WCH-Hafner) : les distracteurs sont plus similaires à l’objet au début de la séquence

(colonnes t<100) qu’à la fin de la séquence (colonnes t>100). Pour le modèle de l’histogrammme en

niveaux de gris avec la distance de diffusion (GH-Diffusion), des distracteurs semblent être similaires

à la cible dans toute la séquence alors que pour le modèle spatiogramme couleur avec la distance de

Bhattacharyya pondérée (CS-WBHAT) les distracteurs semblent être peu similaires à la cible dans

toute la séquence. Ceci aura une influence sur les mesures de performances intégrées.

103

4.3 Choix du descripteur

4.3.1 Effet de la pondération spatiale des histogrammes

Fig. 4.8 Comparaison entre approche par histogramme et approche par template : modèles d’apparence CH/GT et WCH/CT comparés selon le pouvoir de discrimination global (DGH, DGT) (en haut) et selon le pouvoir de discrimination comparatif (DM1> M2, DM2> M1) (en bas).

Les deux modèles ont globalement des performances équivalentes, ce qui se traduit par le

positionnement des points (DCH, DWCH) autour de la diagonale principale, et par le partage des

situations où l’un des modèles se révèle supérieur à l’autre (DWCH>CH, DCH>WCHM) dans la Fig. 4.8.

Afin de comparer les caractéristiques qui diffèrent entre les deux modèles, nous effectuons à

présent une analyse plus fine, en étudiant le pouvoir de discrimination en fonction de l’écart-temporel

(Fig. 4.9).

Fig. 4.9 Comparaison entre les modèles CH et WCH en termes de pouvoir de discrimination en fonction de l’écart-temporel.

104

L’histogramme de couleur surpasse légèrement l’histogramme de couleur pondéré avec un noyau

pour les petits écarts temporels. Pour des écarts temporels plus grands l’histogramme pondéré a un

meilleur pouvoir de discrimination que l’histogramme brut. Ceci peut être expliqué par une

interprétation en terme d’avant-plan/arrière-plan du contenu de la boîte englobante : l’objet d’intérêt

représente l’avant-plan, la boîte contenant également une partie d’arrière plan, qui constitue du bruit.

Lorsque l’écart-temporel est faible, l’arrière plan change peu, l’avantage étant alors au modèle CH, qui

prend en compte l’ensemble du contenu. Lorsque l’écart-temporel est plus important, l’histogramme

de couleur pondéré avec un noyau spatial permet alors de diminuer l’influence de l’arrière-plan en

donnant moins de poids aux pixels périphériques des objets. Ces pixels sont moins fiables car souvent

affectés par des occultations ou interférent avec le fond surtout dans un environnement dynamique.

Ceci se traduit ainsi par une distribution WCH formée uniquement des couleurs propres à l’objet et

qui sont ainsi plus dissimilaires de celle des distracteurs qu’une distribution contenant également les

couleurs du fond. Cette interprétation est confortée par l’étude des matrices de la distance au meilleur

distracteur, qui augmente avec le modèle WCH (Fig. 4.10, Fig. 4.11).

Fig. 4.10 Matrices de la distance du meilleur distracteur à la référence (à gauche), du meilleur inlier à la référence (au milieu) et du pouvoir de discrimination (à droite) pour l’objet 6 de la séquence 1. Les résultats correspondent aux modèles CH (en haut) et WCH (en bas).

Mod

èle

WC

H M

odèl

e C

H

105

Fig. 4.11 Matrices de la distance du meilleur distracteur à la référence (à gauche), du meilleur inlier à la référence (au milieu) et du pouvoir de discrimination (à droite) pour l’objet 4 de la séquence 5 : Les résultats correspondent aux modèles CH (en haut) et WCH (en bas).

Outre la capacité à distinguer l’objet des distracteurs, l’intérêt du modèle pondéré WCH se traduit

au niveau de la carte de similarité. En effet, la régularisation de la fonction de similarité en masquant

les objets par un noyau dans le domaine spatial permet d’enlever les fluctuations locales de cette

fonction et ainsi augmenter la robustesse des méthodes qui en recherchent les optima. Ceci est illustré

pour l’exemple de la Fig. 4.12 par l’affichage de la carte de dissimilarité (Fig. 4.13) et des courbes de

distance spatiale (Fig. 4.14). On remarque ainsi que la régularisation permet une meilleure robustesse

(bassins d’attractions moins nombreux et plus larges) et précision (zone du minima global plus proche

de la position vraie).

Mod

èle

WC

H M

odèl

e C

H

106

Fig. 4.12 L’objet de référence est marqué avec sa boîte englobante rouge dans l’image de référence et avec sa boite englobante verte dans l’image cible. La carte de dissimilarité est calculée dans la région pointillée en bleu.

Modèle CH Modèle WCH

Fig. 4.13 Cartes de similarité pour l’exemple de la Fig. 4.12 et pour les modèles CH (à gauche) et WCH (à droite).

107

Fig. 4.14 Résultats pour l’exemple de la Fig. 4.12. Courbes des distances spatiales au meilleur point (en haut) : précision Courbes des distances spatiale à convergence (en bas) : distance à l’optimum le plus similaire. (à gauche), distance à l’optimum le plus éloigné (à droite) : robustesse à l’initialisation.

108

4.3.2 Comparaison des approches par histogramme et template

GH vs GT WCH vs CT

Fig. 4.15 Comparaison entre approche par histogramme et approche par template : modèles d’apparence GH/GT et WCH/CT comparés selon le pouvoir de discrimination global (DGH, DGT) (en haut) et selon le pouvoir de discrimination comparatif (DM1> M2, DM2> M1) (en bas).

109

CH vs GH CT vs GT

Fig. 4.16 Comparaison de paires CH/GH et CT/GT de modèles d’apparence selon le pouvoir global (DCH, DCT) et selon le pouvoir de discrimination comparatif (DM1> M2, DM2> M1).

La comparaison de deux modèles d’apparence template et histogramme est obtenue à partir des

mesures MnD et 21 MM

nD > , en affichant ces mesures pour un nombre important de situations (une

situation étant définie comme l’étude des performances associées à un objet au sein d’une séquence).

Dans la figure (5.18), il est ainsi montré que les modèles GH réussissent dans plus de situations que

le modèle GT. Cette représentation permet par exemple d’étudier l’apport de la couleur dans les cas

étudiés : les modèles d’apparence par template ont quasiment les mêmes situations de réussite (figure :

Fig. 4.16 points concentrés autour de l’origine), alors que les approches par histogrammes semblent

réussir dans des cas plus complémentaires (figure Fig. 4.16: concentrations moins forte des points

autour de l’origine).

110

Fig. 4.17 Performance à discriminer en fonction de l’écart temporel

La courbe du pouvoir de discrimination diminue rapidement pour des petites variations temporelles

particulièrement pour les modèles à base de template. D’après la figure (Fig. 4.17), on peut constater

l’existence d’une courbe en forme d’une cloche. Il y a alors, sans ambigüité, une limitation du pouvoir

de discrimination temporel. Ceci contredit les possibilités de l’utilisation de ce modèle d’apparence

dans des systèmes de suivi dans un environnement avec un changement d’apparence sévère. Les

modèles d’apparence de type histogramme ont une décroissance du pouvoir de discrimination plus

lente. Ceci permet d’augmenter les possibilités d’intégrer ce modèle d’apparence au sein des systèmes

de suivi dédiés à ce genre d’environnement.

Fig. 4.18 L’objet de référence est marqué avec sa boîte englobante rouge dans l’image de référence et avec sa boite englobante verte dans l’image cible. La carte de dissimilarité est calculée dans la région pointillée en bleu.

111

Fig. 4.19 Cartes de similarité : WCH : weigted color histogramme, CH : color template.

Fig. 4.20 Courbes de distance spatiale au meilleur point (en haut). Courbes de distances spatiale à convergence (en bas) : distance à l’optimum le plus similaire. (à gauche), distance à l’optimum le plus éloigné (à droite)

Les approches par histogramme possèdent une meilleure robustesse à l’initialisation, la zone de

convergence vers l’optimum correct étant plus large (Fig. 4.20) et une moindre ambiguïté les

distracteurs ayant en effet une plus grande dissimilarité que l’optimum correct.

112

4.4 Performances des métriques

4.4.1 Métriques bin-à-bin

Dans le cas d’un descripteur de type histogramme, le choix de la métrique revêt une grande

importance, comme l’illustrent les résultats de la Fig. 4.21. La similarité par intersection

d’histogramme a ainsi des performances similaires à la métrique de Matusita. La métrique de la

divergence de Jeffrey est par contre systématiquement moins discriminante que la métrique de

Matusita, et semble donc peu adaptée au cadre du suivi (Fig. 4.21 et Fig. 4.22).

WCH vs WCHI WCH vs WCHDJ

Fig. 4.21 Comparaison de paires M1/M2 de modèles d’apparence selon le pouvoir de discrimination global (DM1, DM2) (en haut) et comparaison de paires M1/M2 de modèles d’apparence selon le pouvoir de discrimination comparatif (DM1> M2, DM2> M1) (en bas).

113

Fig. 4.22 Pouvoir de discrimination en fonction de l’écart temporel pour les métriques bin-à-bin.

4.4.2 Métriques inter-bins

4.4.2.1 Etude sur corpus de vidéos naturelles

Sur les vidéos naturelles, les performances entre les modèles WCHM, WCHMT et WCHQ sont

relativement comparables : les performances globales vues précédemment sont relativement

similaires, ce qui est confirmé par les résultats de la Fig. 4.23. Les points affichés se situent à

proximité de la diagonale, ce qui signifie que les différents modèles réussissent ou échouent dans les

mêmes types de situations issues du corpus.

114

WCHM vs WCHMT WCHMT vs WCHQ Fig. 4.23 Comparaison pour un type de descripteur donné (histogramme de couleurs pondéré WCH) des modèles d’apparence utilisant les similarités inter-bins Matusita Transformée et Quadratique avec le modèle utilisant la similarité bin-à-bin de Matusita. Les comparaisons sont effectuées sur la base du pouvoir de discrimination global (DM1, DM2) (en haut) et du pouvoir de discrimination comparatif (DM1> M2, DM2> M1) (en bas).

4.4.2.2 Etude sur vidéos synthétiques

L’étude de l’effet des changements d’illumination sur les performances des modèles d’apparence

s’appuie sur la disponibilité de vidéos présentant de tels changements, ainsi que d’une vérité terrain

associée. Les vidéos tests disponibles n’étant pas pourvues de changements d’illumination marqués,

nous avons donc créé un ensemble de séquences vidéo altérées avec des variations additives de la

luminosité des pixels afin de simuler le changement d’éclairage. Le protocole introduit précédemment

est ensuite appliqué sans modification sur les vidéos ainsi obtenues, ce qui permet d’évaluer la

capacité des modèles d’apparence à être robustes à ces altérations.

Les séquences sont altérées un modèle de changement d’éclairage de -10 à +10 entre la première

image et la dernière image de la séquence. Différents types de descripteurs (GH : histogrammes de

niveaux de gris, CH : histogrammes de couleur, WCH : histogrammes de couleur avec pondération

spatiale) ainsi que différentes valeurs du paramètre s d’interaction inter-bins on été testées, sur la base

115

de la métrique de Matusita et de la métrique de Matusita Transformée. Les performances globales du

pouvoir de discrimination sont indiquées dans la table suivante :

Modèle DM

GH-MAT 0.65

GH-MAT-T10 0.67

GHMAT-T15 0.68

GHMAT-T20 0.69

GHMAT-T30 0.70

CH-MAT 0.77

CH-MAT-T0.3 0.81

CH-MAT-T0.4 0.82

CH-MAT-T0.5 0.81

WCH-MAT 0.81

WCH-MAT-T0.3 0.88

WCH-MAT-T0.4 0.89

WCH-MAT-T0.5 0.88

Tableau 5. 4 performances globales des modèles d’apparence de la en fonction du paramètre s.

Il apparaît ainsi que les mesures de similarité basées sur la métrique de Matusita classique, qui ont

de meilleures performances moyennes sur les vidéos du corpus, qui présentent peu de variations de

luminosité, sont moins performantes que les métriques inter-bins Matusita Transformée dans ce

nouveau contexte. La relative invariance aux modifications des couleurs introduite dans cette

similarité inter-bins permet ainsi d’être moins pénalisé lorsqu’un changement de luminosité apparaît.

Ceci se traduit plus précisément principalement pour des écarts-temporels plus importants (voir Fig.

4.24, Fig. 4.25 et Fig. 4.26) qui correspondent ici à des variations plus larges de la luminosité. Les

modèles avec similarité inter-bins compensent ainsi la diminution de leur caractère discriminant due à

leur plus grande invariance. On observe également que le choix du paramètre s présente une grande

importance, celui-ci devant en effet être adapté à l’échelle des variations que le modèle doit supporter.

Ainsi, une métrique telle que la métrique quadratique de Hafner, autorisant des correspondances entre

couleurs assez éloignées, présente des performances moins bonnes que la métrique de Matusita

classique, même dans cette situation de variation de luminosité. Ce n’est pas le cas de la métrique de

Matusita Transformée, lorsque le paramètre s est défini conformément à des variations plausibles de la

luminosité.

116

Fig. 4.24 Pouvoir de discrimination temporel de l’histogramme de niveaux de gris couplé à la distance de Matusita et la distance de Matusita transformée, pour plusieurs valeurs du paramètre s.

Fig. 4.25 Pouvoir de discrimination temporel de l’histogramme de couleurs de gris couplé à la distance de Matusita et la distance de Matusita transformée, pour plusieurs valeurs du paramètre s.

117

Fig. 4.26 Pouvoir de discrimination temporel de l’histogramme de couleurs pondéré couplé à la distance de Matusita et la distance de Matusita transformée, pour plusieurs valeurs du paramètre s.

4.5 Conclusion

Dans ce chapitre, l’évaluation des performances des modèles d’apparences a été présentée sur la

base des outils introduits précédemment. Les expérimentations ont été menées sur un corpus de vidéos

naturelles issu de benchmarks classiques de suivi d’objet en utilisant les nouvelles métriques

proposées afin d’obtenir un point de vue original concernant les performances des modèles lors du

suivi. Ont ainsi été étudiés l’influence de la pondération spatiale, du choix du descripteur et de la

mesure de similarité. Il a été également montré comment la méthode proposée peut également être

utilisé sur la base de vidéos semi-synthétiques afin d’étudier plus particulièrement l’influence de

perturbations spécifiques telles que les variations de luminance.

119

Chapitre 5

Composition inverse pour le suivi d’objet par

approche multi-noyaux

L’objectif de ce chapitre est d’étendre des techniques d’estimation de translation, étudiées dans les

chapitres précédents, au cas de mouvements paramétriques plus généraux.

Ces travaux se situent à la frontière entre des techniques efficaces de suivi par template proposées

récemment dans la littérature scientifique et le suivi par distribution de couleur. Il s'agit de proposer

une formulation efficace de l'estimation paramétrique du mouvement à l'aide d'un modèle d'objet

fondé sur un ensemble de distributions de couleurs calculées sur plusieurs noyaux spatiaux distincts :

méthode de suivi multi-noyaux [Georgescu et al, 2004].

[Baker et al, 2001] ont proposé une classification des approches de suivi par template selon deux

axes: les approches additives et compositionnelles d'une part, les approches directes et inverses d'autre

part. Cette classification s'applique aux techniques d'optimisation locale itératives fondées sur une

descente de gradient de la fonctionnelle d'erreur entre des images recalées. Un algorithme de recalage

consiste à trouver la transformation géométrique qui met en correspondance des images afin d’en

superposer au mieux les pixels homologues. Les auteurs ont montré en particulier que l'approche

compositionnelle inverse est la plus efficace en terme de complexité calculatoire, grâce à la possibilité

de pré-calculer le Jacobien de la fonctionnelle d'erreur.

Le suivi multi-noyaux, quant à lui, a été proposé par [Georgescu et al, 2004] ainsi que [Hager et al,

2004], comme alternative aux modèles rigides par template, permettant une meilleure robustesse aux

grands déplacements grâce à une zone de convergence plus étendue. Ceci est principalement dû à

l'intégration de l'information image sur un ensemble de noyaux spatialement étendus, qui régularisent

la fonctionnelle à optimiser et qui constituent une extension des méthodes mono-noyau présentées

dans les chapitres précédents. La technique d'optimisation qui en découle s'apparente à une remontée

de gradient pour laquelle le Jacobien doit être recalculé à chaque itération. Elle présente une forte

similarité avec la technique additive directe formalisée par [Baker et al, 2001] dans le domaine des

templates.

Ce chapitre s'attachera à montrer comment adapter la technique compositionnelle inverse plus

efficace que la technique additive directe pour suivi par template [Baker et al, 2001] au cas du suivi

120

multi-noyaux. Les techniques additives directes et compositionnelles inverses seront envisagées dans

un cadre unificateur permettant de comprendre le changement de point de vue entre ces deux

approches. La technique compositionnelle inverse qui permet l'utilisation d'un Jacobien fixe et pré-

calculé sera aussi détaillée. Il sera également montré comment définir formellement les distributions

de couleurs utilisées, afin d'obtenir l'invariance aux transformations spatiales et les problèmes

pratiques que cela pose. Une étude de complexité permettra d'évaluer le gain de performance et une

étude de stabilité assumera que la qualité de convergence n'en souffre pas.

5.1 Estimation paramétrique du mouvement

Nous définissons ici les spécificités de l’estimation de mouvement utilisant des modèles plus

complexes que ceux étudiés dans les chapitres précédents.

5.1.1 Définition

L’utilisation d’une modélisation paramétrique permet une représentation du mouvement par

régions. Ces modèles sont classiquement des fonctions qui utilisent de 2 à 8 paramètres comme les

modèles translationnels et les modèles homographiques, respectivement.

En fonction du modèle de mouvement retenu, le module d’estimation du mouvement est composé

de trois éléments principaux :

− Définition de la région servant de support à l’estimation du mouvement.

− Formulation de la fonction de coût permettant l’estimation des paramètres du modèle de

mouvement.

− Minimisation de la fonction de coût.

Dans le cas d’alignement d’images dans un processus de suivi d’objet, le mouvement est estimé

entre deux images Iref et I reliées par une transformation 2D inconnue f de paramètres *θ ,

( ) ( )( )xxx , *1 θ−=∈∀ fIID ref (5.1)

• où D représente une région d’intérêt dans l’image Iref.

5.1.2 Modèles classiques

Les modèles paramétriques du mouvement communément utilisés sont :

− Le modèle translationnel ou constant [Tekalp, 1995] défini par l’équation :

22 ,);( ℜ∈

=ℜ∈+=

y

xTW xTTxx (5.2)

• où T est le vecteur de translation 2D dans le plan d’image.

121

Ce modèle est très répandu dans les applications de type compression vidéo où il s’applique à des

blocs ou à des régions de taille relativement restreintes dans le plan image, typiquement des blocs

16×16 ou 8×8 dans les standards de compression vidéo.

− Le modèle affine est défini par l’équation :

222 , ,);,( ℜ∈ℜ∈+= × bAbAxxbAW (5.3)

Ce modèle est une généralisation du modèle précédent. Il permet de caractériser une classe

importante de mouvements 2D, comme les translations (si A=0, on retrouve le modèle translationnel),

rotations, homothéties et leurs combinaisons. En pratique le modèle affine est le modèle le plus

couramment utilisé dans les algorithmes d’analyse du mouvement.

− Le modèle homographique :

321

654

321

321 ,bybxb

ayaxady

bybxb

ayaxadx

++++

=++++

= (5.4)

Le modèle homographique est théoriquement correct lorsque la position du centre optique ne

change pas ou que la région est plane. Les modèles affines et homographiques permettent une

meilleure représentation du mouvement qu’un simple modèle de translation. Les modèles

homographiques et quadratiques prennent en compte des mouvements plus complexes que les simples

translations, zoom ou rotation 2D tels que des déformations globales dues à la projection dans le plan

de l’image d’objets en mouvement dans une scène 3D.

On admet que le modèle du mouvement présente une propriété de groupe. C’est le cas de la plupart

des modèles qui présentent un intérêt pour les applications de la vision artificielle et en particulier des

homographies non dégénérées (une homographie non dégénérée est une application bijective définie

par une matrice inversible) ou des mouvements affines [Baker et al, 2001]. Nous utilisons un modèle

affine pour représenter le mouvement. La propriété de groupe est étendue aux paramètres du

mouvement en utilisant les notations suivantes :

( ) ( ) xyfyxfxfxf ==⇔= −−− ),(|),(,, 111 θθθθ (5.5)

( ) ( )( )xffxf ,,, θθθθ ∆=∆ o (5.6)

• où 0=θ représente les paramètres de la transformation identité.

5.1.3 Suivi paramétrique d’objet par distributions couleurs

Plusieurs améliorations ont été apportées aux méthodes conventionnelles fondées sur le suivi par

noyau pour améliorer leurs performances pour l’estimation paramétrique. Dans la littérature, on trouve

deux approches générales afin d’atteindre ce but :

122

La première approche consiste à améliorer la conception de la structure du noyau en se fondant sur

des propriétés locales, telles que l’introduction d’un noyau avec une largeur variable [Comaniciu et al,

2001], l’utilisation d’un noyau anisotrope [Wang et al, 2004] ou l’emploi d’un noyau de forme

asymétrique [Alper et al, 2007].

Une autre approche consiste à utiliser plusieurs noyaux car l’utilisation d’un seul noyau peut être

insensible à certains mouvements et empêche de ce fait une récupération unique des paramètres du

mouvement [Hager et al, 2004], [Fan et al, 2005], [Fan et al, 2006], [Fan et al, 2007], [Parameswaran

et al, 2006], [Qu et al, 2006], [Ling et al, 2006], [Kallem et al, 2007] et [Yu et al, 2006].

Notre travail étudie une approche conjointe associant la description multi-noyaux de l’objet et

l’utilisation de l’approche compositionnelle inverse pour son intérêt calculatoire.

Cette section présente tout d’abord la formalisation de la notion de distribution de couleurs multi-

noyaux et des approches existantes, puis l’approche compositionnelle inverse pour le suivi de

distributions couleurs multi-noyaux.

5.1.3.1 Distribution de couleurs multi-noyaux

Le suivi d’objet par distribution de couleurs est fondé sur le calcul de la distribution de couleurs

d'une région d'image. Cette région est définie en utilisant les valeurs des noyaux qui associent un poids

positif ou nul à chaque pixel. Afin d'estimer des mouvements plus complexes que des translations, une

approche générale multi-noyaux est proposée.

On dispose d’un grand choix de fonctions de noyaux (Fig. 5.1) à utiliser dans ce cadre [Hager et al,

2004]. Dans nos travaux, nous utilisons des noyaux d'Epanechnikov. Le noyau Kk, avec le centre xk et

la matrice de covariance Bk est défini par

( ) ( ) ( )( )kkt

kk xxBxxxK −−−= −11,0max (5.7)

( ) ( ) 0où 2 1x|)( >−−=∇ − xKBxxK kk

tkxk (5.8)

Fig. 5.1 Différents profils de noyaux spatiaux

123

Etant donné :

− Un ensemble hmax de noyaux spatiaux (K1,…, Kk)max est défini par des fonctions de pondération

Kk(x) différentiables par morceaux exprimées dans les coordonnées de référence x,

− Un modèle paramétrique du mouvement f (θ ,.) avec le vecteur de paramètres θ , qui transforme

chaque point m dans les coordonnées courantes de l'image en un point x= f (θ ,m) dans les

coordonnées de référence et sa transformation inverse ),(1 xfm θ−= ,

− Une fonction indicatrice de quantification (.)uδ qui a une valeur 1 pour des couleurs

appartenant au bin de couleur u et nulle ailleurs,

La distribution de couleurs multi-noyaux de l'image I avec les paramètres θ est définie comme le

vecteur q(I, θ ) = (qk, u(I, θ ))k, u, où

( ) ( ) ( )( )( )dxxfIxKCIq ux kkuk , , 1 2, θδθ −

ℜ∈∫∫= (5.9)

• La constante de normalisation Ck est choisie de telle sorte que Σuqk,u(I, θ ) = 1 pour tous les k.

Le vecteur (qu, k(I, θ ))u représente la distribution locale de couleurs de l'image I pondérée par le

noyau spatial Kk, après qu' elle ait été alignée sur les coordonnées de référence selon les paramètres θ .

Le choix de cette expression est motivé par son invariance par rapport à n'importe quel groupe de

modèle de mouvement 2D. En effet :

( ) ( )( )( )0 ,,., 1−= θθ fIqIq (5.10)

• ou plus généralement

( ) ( )( )( )θθθθ ∆=∆ − ,,., 1fIqIq o (5.11)

5.1.3.2 Optimisation directe additive

[Georgescu et al, 2004] et [Hager et al, 2004] ont formalisé un cadre pour l’estimation

paramétrique du mouvement qui utilise les distributions de couleurs multi-noyaux. Il consiste à

minimiser l'erreur de Matusita entre la distribution multi-noyaux de référence calculée pour une

template et la distribution calculée pour l'image. L'approche additive suppose que l’estimation

courante de θ est connue et ensuite résout itérativement l’équation de l’erreur pour des incréments ∆θ

des paramètres ; ce qui revient à dire que l'expression suivante est minimisée :

[ ]2,

,, ),(),0()( ∑ −=uk

ukrefuk IpIqE θθ (5.12)

• Cette erreur peut s’exprimer comme le carré de la norme du vecteur d’erreur e(θ)=(ek,u(θ))k,u

)()( ,,, θθ ukukuk pqe −= (5.13)

( ) )()( θθθ eeE t= (5.14)

124

• Cette approche se fonde sur l'optimisation de Gauss-Newton de l'erreur )ˆ( θθ ∆+E par rapport

θ∆ , où une seule itération est réalisé en utilisant :

( ) ( )θθθ ˆ ˆ eA=∆ (5.15)

• et où )ˆ(θA est une matrice de mise à jour.

( ) ( ) tee

te

JJJA θθθθ ˆ|

1ˆ|ˆ|

ˆ −−= (5.16)

• où θ|eJ représente le Jacobien du vecteur erreur )(θe par rapport à θ , calculé en θθ ˆ= . Il peut

s’exprimé en utilisant le gradient de kue , par rapport à θ , aussi bien que les dérivées partielles

du vecteur e selon chaque coefficient mθ de θ .

∂∂=

∇= KK

M

M

θθθθ θ

θˆ

ˆ|)(,ˆ|)(

mkueee

J (5.17)

Une version d'estimation robuste est utilisée par [Georgescu et al, 2004]. [Guskov et al, 2006]

grâce à une optimisation dite quasi-Newton de E(θ ).

La mise à jour des paramètres du mouvement suit le schéma direct additif (5.18) et le processus

entier est répété jusqu'à la convergence de l’algorithme.

θθθ ∆+←+ nnˆˆ

1 (5.18)

• L'expression de θ|eJ dépend de la métrique d'erreur utilisée. En particulier, si on utilise la

métrique de Matusita de l'équation (5.23),

( )( ) θθ θ ˆ|

2/1ˆ|

ˆ2

1qe

JqdiagJ−

= (5.19)

• où θ|qJ est le Jacobian du )(θq . Ce Jacobien est étudié plus en détail dans la section 5.2.3.

5.2 Approche compositionnelle multi-noyaux

5.2.1 Cadre formel

Considérons maintenant deux images reliées par l'équation (5.1). Dans ce qui suit, p sera utilisé

pour l'image de référence Iref et q pour l'image courante I.

En associant un paramètre à la position des noyaux dans l’image de référence, il est possible de

généraliser l’approche précédente :

( ) ( ) ( ) ( )θθθθ ,et , IqqIqp ref == (5.20)

• En raison de l’équation (5.11) pour tout pθ , on a :

( ) ( )*θθθ opp qp = (5.21)

L'alignement d'image par la méthode multi-noyaux correspond à l’estimation des paramètres pθ et

qθ qui minimisent la dissimilarité entre les deux distributions )( pp θ et )( qq θ . Cette dissimilarité est

125

exprimée sous la forme d'une mesure d’erreur E( qθ , pθ ). Plusieurs fonctions d’erreur peuvent être

utilisées, comme la distance de Bhattacharyya ou la divergence de Kullback-Leibler. Suivant [Hager et

al, 2004] et [Georgescu et al, 2004], la métrique Matusita sera utilisée dans ce travail :

( ) ( )pquk

ukpq eE θθθθ ,,,

,∑= (5.22)

• Le vecteur erreur ),(, pquke θθ pour un bin spécifique est défini comme suit :

( ) )()(, ,,, pukqukpquk pqe θθθθ −= (5.23)

• En identifiant qθ et *θθ op dans l'équation 5.21, le paramètre d'alignement estimé s’écrit alors

qp θθθ o1* −= (5.24)

Cette formalisation montre le rôle central que joue la composition pour résoudre le problème

d'alignement d'image en utilisant des distributions multi-noyaux. C’est le cadre compositionnel, car le

paramètre *θ est estimé en composant les estimations qθ et pθ selon l’équation (5.24). L’optimisation

directe additive se révèle ainsi comme un cas particulier avec )0,()(et ˆ ,0 θθθθθθ EE ppq =∆+== .

5.2.2 Optimisation compositionnelle inverse

Dans l'approche précédente, les équations (5.15) et (5.16) présentent le coût calculatoire le plus

élevé de tout l’algorithme d’estimation des paramètres. En effet, la matrice de mise à jour )ˆ(θA doit

être calculée pour chaque nouvelle itération, ce qui implique en particulier le calcul de θ|eJ à chaque

itération puis son inversion.

Pour minimiser ce coût calculatoire, on propose maintenant une approche alternative qui tire profit

du cadre général de l’approche compositionnelle multi-noyaux présentée dans la section 5.2 et permet

d’utiliser une matrice de mise à jour A constante, pré-calculée une fois pour toutes pendant

l'initialisation de l’algorithme [Mikram et al, 2006].

Comme pour l'approche directe, une itération de Gauss-Newton est calculée, mais la correction des

paramètres s'applique maintenant à la position du noyau dans l'image de référence.

L'expression à minimiser devient :

( ) ( ) 2

,,, ,ˆ,),ˆ( ∑

−∆∆

ukukrefuk IqIqE θθθθ (5.25)

La mise à jour des paramètres de Gauss-Newton de ),ˆ( θθ ∆E par rapport à θ∆ satisfait la relation

suivante:

( )0,ˆ θ=θ∆ eA (5.26)

La matrice A de mise à jour est maintenant une matrice constante

( ) tee

te JJJA 0|ˆ

10|ˆ0|ˆ

−−= (5.27)

• où 0|eJ représente le Jacobien de ),ˆ( θθ ∆e par rapport à θ∆ calculé en 0=∆θ . En utilisant la

métrique de Matusita, 0|eJ ne dépend pas de θ et

126

( )( ) 0|2/1

0|ˆ 02

1pe JpdiagJ −−= (5.28)

La règle d'estimation (5.26) est identique à la règle (5.15) de l'approche directe, à part le fait que la

matrice A ne dépendu plus de θ . Ceci permet de la pré-calculer, réduisant de ce fait la complexité

calculatoire en ligne.

Dans l’approche compositionnelle inverse multi-noyaux, le paramètre de correction θ∆ représente

une mise à jour des positions du noyau par rapport à l'image de référence. Afin de le convertir en un

vecteur de paramètres de mise à jour qui caractérise le mouvement entre les deux images, le cadre

compositionnel introduit à l'équation (5.24) conduit à la règle de mise à jour suivante:

nn θθθ ˆˆ 11 o−

+ ∆← (5.29)

• L'estimation θ est itérativement mise à jour jusqu'à la convergence.

5.2.3 Calcul du Jacobien

Le calcul du Jacobien 0,pJ ou de sa forme plus générale θ,qJ n'est pas direct dans l'équation (5.9),

car uδ n'est pas facilement différentiable. Ce qui suit détaille le calcul du gradient du ukq , .

5.2.3.1 Expressions dans le domaine continu

Rappelons la définition de la distribution multi-noyaux de couleurs

( ) ( ) ( )( )( )dxxfIxKCIq ux kkuk ,, 12, θδθ −

ℜ∈∫∫= (5.30)

Une formulation équivalente de la distribution ukq , est utilisée dans [Guskov et al, 2006], qui est

fondée sur les coordonnées m dans l'image courante, obtenue après changement de variable

),(1 xfm θ−=

( ) ( )( ) ( )( ) ( )dmmjmImfKCIq um kkuk , , ,, θδθθ ∫∫= (5.31)

où |m),(),( θθ mfJmj = est la valeur absolue du déterminant du Jacobien de f par rapport à m.

Pour des transformations affines, la valeur ),( θmj est constante par rapport à m, ce qui induit une

expression simplifiée :

( ) ( )( ) ( )( )dmmImfKCIq um kkuk , , ,, δθθ θ ∫∫= (5.32)

• avec ),(, θθ mjCC kk = correspondant au paramètre de normalisation du noyau qui dépend

maintenant de θ . Cette équation est très similaire aux définitions de la distribution multi-

noyaux de couleurs ukq , utilisées dans [Hager et al, 2004] et [Georgescu et al, 2004]. Il

convient de noter que pour un mouvement non-affine cette équivalence n’est plus valable. Le

calcul du Jacobien pour des modèles plus complexes doit alors utiliser l’expression non

simplifiée (5.31).

En différenciant (5.32) et après avoir tenu compte la normalisation du noyau 1, =∑u ukq , le

gradient de qk,u peut être simplifié comme (5.33) suit :

127

( )( ) ( )( )dmqmIJC ukum mfmfxkKkkuq θδθθθθθˆ

,ˆ|),(),(|)(ˆ,ˆ|,−∇=∇ ∫∫ (5.33)

Dans le cas simple de composition inverse, le Jacobien est

( )( ) ( )( )dxpxIJC ukrefum xfxxkKkkup 0,0|),(|)(0|, −∇=∇ ∫∫ ∆ δθ (5.34)

• Le terme )ˆ(, θukq dans les équations précédentes est lié au gradient de la constante de

normalisation θ,kC par rapport à θ . Son influence est nulle pour les composantes de

translation et de rotation, mais devrait être prise en compte dans le cas de changement

d’échelle globale ou locale. Négliger ce terme, comme cela a été fait dans [Georgescu et al,

2004], correspond à une estimation biaisée du Jacobien. Ceci est illustré par la figure 3(d)

pour l’estimation du facteur d’échelle, où l’estimation biaisée mène à une sous-estimation des

paramètres de mouvement.

5.2.3.2 Calcul sur un domaine échantillonné

D'un point de vue pratique, les intégrales doivent être remplacées par des sommes discrètes, sur les

positions de nombre entier mi de l'image courante pour les équations (5.31) et (5.32), ou sur une

grille régulière xj dans les coordonnées de référence pour l’équation (5.32) :

),())(( )),((),(, iiuii

kkuk mjmImfKCIq θδθθ ∑= (5.35)

))),((( )(),( 1, iujkkuk xfIxKCIq θδθ −= (5.36)

Afin d'améliorer le temps d’exécution, cet échantillonnage a été réalisé sur le vecteur de

coordonnées x, qui permet de pré-calculer les valeurs et les gradients de noyaux aux points des

échantillons.

5.3 Expérimentation et discussion

Les propriétés de l'approche directe additive de suivi multi-noyaux ont été expérimentalement

étudiées et comparées à l'approche fondée sur le template [Georgescu et al, 2004]. Les résultats

montrent que l'approche par noyau se caractérise par une plus grande région de convergence au prix

d'un alignement légèrement moins précis. Une grande région de convergence et une bonne précision

peuvent être obtenues en combinant ces deux approches. Ces expériences ne seront pas reproduites ici.

L’approche compositionnelle inverse proposée utilise la même représentation multi-noyaux que

l’approche directe. On s'attend à ce que la méthode proposée soit plus rapide que la méthode directe en

raison de sa structure algorithmique tout en gardant des performances similaires de suivi. Cette section

sera donc consacrée à vérifier cette hypothèse.

128

5.3.1 Performance calculatoire

Les structures algorithmiques des deux approches directe additive et compositionnelle inverse sont

résumées et comparées dans la 0.

Directe Additive Compositionnelle Inverse

Pré-calculs

1 Distribution de référence p

Pré-calculs

1 Distribution de référence p

5 Jacobien 0|eJ

6 Matrice de mise à jour A

Pour chaque nouvelle image

2 Estimation initiale θ

Réitérez jusqu'à la convergence :

3 Distribution courante )ˆ(θq

4 Erreur courante )0,ˆ(θe

5 Jacobien θ|eJ

6 Matrice de mise à jour )ˆ(θA

7 Incrément θ∆

8 Nouvelle estimation : θθθ ∆+← ˆˆ

Pour chaque nouvelle image

2 Estimation initiale θ

Réitérez jusqu'à la convergence :

3 Distribution courante )ˆ(θq

4 Erreur courante )0,ˆ(θe

7 Incrément θ∆

8 Nouvelle Estimation : θθθ ˆˆ 1 o−∆←

Tableau 5. 1 Comparaison d'algorithmes. Les pré-calculs sont effectués seulement pendant l'initialisation du modèle et ne sont pas répétés pour une nouvelle image. Pour chaque étape, le calcul relatif à réaliser

est indiqué à droite du texte

Pour l'analyse de la complexité des deux algorithmes, les notations suivantes seront utilisées :

k est le nombre de noyaux,

P est le nombre moyen de pixels pour lesquels un noyau est non nul,

U est le nombre de bins de couleurs dans chaque histogramme de couleurs,

T est le nombre de degrés de liberté en θ .

Le coût calculatoire de l’algorithme compositionnel est représenté dans le tableau suivant :

Etape 1 Etape 3 Etape 4 Etape 5 Etape 6 Etape 7 Par itération

O(kP) O(kP) O(kPT) O(kUT2) O(kUT) O(kUT)

Tableau 5. 2 Coût calculatoire de l'algorithme compositionnel.

129

Étant donné que U et P sont grands comparés aux autres paramètres (de l'ordre de 100 à 1000), les

étapes 5 et 6 sont les deux étapes les plus coûteuses dans l'algorithme. Par conséquent, les

déplacer dans une phase de pré-calcul diminue la complexité globale de chaque itération de manière

significative et donc celle de l’algorithme complet.

En particulier, avec notre implémentation en Matlab, une itération pour k = 9 noyaux, où chacun

couvre P = 150 pixels. Avec la couleur quantifiée en U = 64 bins de couleurs et un modèle de

mouvement affine (T = 6), cette itération requiert 168 ms avec l'approche compositionnelle inverse, au

lieu de 359 ms avec l'approche classique directe additive. Notre approche nécessite ainsi la moitié du

temps exigé par l’approche classique.

5.3.2 Propriétés de convergence

L’approche directe additive est une optimisation de type Gauss-Newton de l'erreur )0,ˆ(θE .

L'approche compositionnelle inverse adopte un schéma hybride. En effet, le critère général

d'optimisation est toujours )0,ˆ(θE , mais chaque itération utilise le critère ),ˆ( θθ ∆E . Ces deux fonctions

expriment l'erreur de mise en correspondance comme cela a été montré dans la section 5.2. Elles ne

sont pas nécessairement identiques quand l'erreur est grande, c’est pourquoi les propriétés de

convergence des deux approches sont maintenant comparées.

5.3.2.1 Carte de retour pour mouvement pur

La Fig. 5.3 (a-d) montre les résultats obtenus par ces deux méthodes (directe additive de la section

5.2.2, compositionnelle inverse de la section 5.2.2) pour une translation pure (b), une rotation pure (c),

et une échelle pure (d) (perturbations illustrées à la Fig. 5.2. Neuf noyaux d'Epanechnikov centrés sur

une grille régulière 3×3 ont été utilisés sur l’image (a).

130

Fig. 5.2 Perturbations étudiées

D’une façon générale, les deux approches donnent des résultats similaires. En effet, les méthodes

directe et inverse approximent bien la correction pour de petites perturbations, et tendent à sous-

estimer la correction pour de plus grandes perturbations. Cette observation reflète le fait que toutes les

deux sont fondées sur une linéarisation de l'erreur autour des paramètres initiaux, qui est seulement

valide pour les petites perturbations.

L'estimation de l’échelle montre une sous-estimation systématique sur cet exemple. Ceci est

observé avec d'autres configurations classiques de noyau, mais pas en utilisant une image totalement

non ambiguë constituée de carrés avec des couleurs uniques. Les estimations sont néanmoins dans la

direction correcte même pour les grandes perturbations, qui font que l'optimisation itérative par la

suite converge vers les paramètres corrects même dans ce cas.

Iref

∆x

α

β

Perturbation par une translation ∆x

Perturbation par une rotation α

Perturbation par un changement d’échelle β

131

−40 −30 −20 −10 0 10 20 30 40

−40

−30

−20

−10

0

10

20

30

40

perturbation translation

estim

ated

tran

slat

ion

perturbationinitialisationforwardsinverse

(a) (b)

−40 −30 −20 −10 0 10 20 30 40

−40

−30

−20

−10

0

10

20

30

40

perturbation angle (degrees)

estim

ated

ang

le

perturbationinitialisationforwardsinverse

0.85 0.9 0.95 1 1.05 1.1 1.15 1.2

0.85

0.9

0.95

1

1.05

1.1

1.15

1.2

Perturbating scale

Est

imat

ed s

cale

perturbationinitialisationforwardsinverseforwards biasedinverse biased

(c) (d)

Fig. 5.3 Comparaison de l’estimation de paramètre (d'une seule itération) pour des perturbations affines contrôlées (voir la section 5.3.2). (a) les supports des neuf noyaux d'Epanechnikov superposés sur l’image test. Cartes des paramètres de correction dépendant des paramètres de perturbation: (meilleur proche de la valeur vraie de la perturbation) pour (b) un décalage horizontal, (c) une rotation autour du centre de l'image.

5.3.2.2 Perturbation générique

La qualité de l'estimation des paramètres est également évaluée dans des conditions plus générales

comme le montre la Fig. 5.4 (e-f), pour une seule itération. Les perturbations (Fig. 5.2) sont une

combinaison de translations aléatoires dans une fenêtre de [-20, 20] pixels, de rotations dans une

fenêtre de [-20, 20] degrés et de différentes échelles dans la fourchette [1.2-1, 1.2].

L'erreur spatiale moyenne D correspond à la moyenne de l'erreur spatiale des centres des noyaux,

évaluée dans les coordonnées de référence. Cette mesure rend compte de la convergence pour des

perturbations aléatoires en translation, en rotation et en changement d’échelle d'une façon unifiée.

Ces résultats montrent que l'approche inverse conduit à une erreur légèrement plus grande au

niveau de la distribution de couleurs que l'approche directe (f), ceci peut être expliqué par le fait

qu'elle n’opère pas directement sur le critère d’optimisation )0,ˆ(θE . Cette différence ne semble pas

132

affecter l'estimation des paramètres, car le paramètre estimé est également exact d'un point de vue

spatial (e).

0 20 40 60 80 1000

10

20

30

40

50

60

70

Rank

Mea

n D

ista

nce

Err

or

forwardsinverse

0 20 40 60 80 1000

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

Rank

Col

or D

istr

ibut

ion

Err

or

forwardsinverse

(e) (f) Fig. 5.4 La comparaison de la qualité d’estimation de paramètres (pour une seule itération) pour des perturbations affines aléatoires (voir la section 5.3.2). Erreur spatiale moyenne ordonnée (e) et erreur de distribution de couleurs (f).

5.3.2.3 Suivi d’objets

Dans cette section la performance calculatoire et la qualité de l’estimation sont comparées dans le

contexte du suivi d’une personne dont la taille apparente évolue au cours du temps (Fig. 1.1) et une

image présentant des déformations affines sur la Fig. 5.6. Les deux suivis utilisent 9 noyaux

d'Epanechnikov centrés sur une grille régulière 3×3. Les paramètres obtenus avec l'approche directe et

inverse sont très similaires. Ce qui est confirmé par l’analyse des erreurs spatiales moyennes similaires

D par rapport à la vérité terrain dans la Fig. 5.6-c ainsi que par les erreurs de distributions de couleurs

E de la Fig. 5.6-c. Pour cette dernière, on observe une erreur légèrement plus faible pour l'approche

directe comme il a été discuté dans la section 5.3.2. Le temps de calcul est globalement divisé par

deux en utilisant l'approche inverse au lieu de l'approche directe.

5.4 Conclusion

Ce chapitre a présenté l'adaptation et l'application de l’approche composition inverse déjà utilisée

dans le suivi par template au suivi avec de distributions de couleurs multi-noyaux. Le paradigme de

suivi multi-noyaux a été reformulé dans le but de couvrir les deux approches existantes directe

additive et une nouvelle approche compositionnelle inverse. La qualité de l’estimation des paramètres

de la nouvelle technique est similaire à l'approche multi-noyaux directe additive, tout en diminuant le

coût calculatoire de chaque itération.

133

(a)

850 900 950 1000 1050 1100 1150 1200 12500

0.5

1

1.5

2

2.5

3

Frame Id

Tot

al T

ime

(s)

ForwardsInverse

850 900 950 1000 1050 1100 1150 1200 12500

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

Frame Id

Col

or D

istr

ibut

ion

Err

or

ForwardsInverse

(b) (c)

Fig. 5.5 Suivi sur un exemple avec changement d’échelle sur la vidéo de CAVIAR pour l'approche compositionnelle inverse (a). Comparaison du coût calculatoire (b) et de l'erreur de distribution de couleur )0,(θE , après la convergence (c) pour chaque image sur la même vidéo, avec les deux approches.

(a)

0 10 20 30 40 500

2

4

6

8

10

12

14

16

Frame id

Tim

e (s

)

ForwardsInverse

0 10 20 30 40 500

2

4

6

8

10

12

14

16

18

20

Frame id

Max

imum

Spa

tial E

rror

Dm

ax

Forwards InitialisationInverse InitialisationForwardsInverse

(b) (c)

Fig. 5.6 Exemple de suivi pour une vidéo avec déformations affines, avec l’estimation des paramètres pour l'approche inverse (a). Comparaison du coût calculatoire (b). Comparaison de l'erreur spatiale moyenne (c), l'erreur pour l'initialisation à chaque image est tracée pour montrer la correction requise sur cette séquence.

134

135

Conclusion générale et perspectives

Dans ce mémoire, nous avons abordé plusieurs aspects liés au suivi d’objets dans des vidéos. Nous

avons ainsi pu définir le suivi comme la combinaison d’un modèle d’apparence, d’une approche de

recherche dans l’espace des paramètres, et de contraintes spatio-temporelles a priori. Notre travail s’est

positionné en considérant le modèle d’apparence comme un aspect central de la problématique. Nous

l’avons décomposé en deux étapes : une étape de représentation du contenu visuel d’un objet suivi,

c'est-à-dire d’extraction d’un descripteur, et une étape de confrontation de ce descripteur à un modèle

défini à partir d’une image de référence.

Sur cette base, nous avons proposé deux nouvelles méthodes d’évaluation de performances,

spécifiquement conçues pour fournir des informations quantitatives sur la capacité d’un modèle

d’apparence à distinguer l’objet d’intérêt des distracteurs. D’une part, du point de vue spatial, il s’agit

de l’étude du compromis précision spatiale/robustesse à l’initialisation. D’une autre part, du point de

vue temporel, nous avons considéré l’étude de la perte de discriminance lorsque référence et candidats

sont espacés temporellement.

Les propositions de nouveaux modèles sont fondées sur une étude préalable des modèles existants,

qui ont conduit à deux contributions. Premièrement, l’absence d’information spatiale délivrée par les

descripteurs de type histogramme de couleurs ou de niveaux de gris a été mis en évidence, et

l’histogramme multi-échelle proposé. Deuxièmement, le problème des variations de luminance au sein

d’une séquence a donné lieu à l’élaboration de mesures de similarité inter-bins permettant une certaine

flexibilité vis-à-vis des changements d’illumination dans la comparaison d’histogrammes.

Les approches d’évaluation ont été appliquées pour l’évaluation de modèles d’apparence existants,

ainsi que sur les nouveaux modèles proposés, conduisant à une étude expérimentale mettant en

évidence les variations de performances dues à plusieurs phénomènes, notamment l’utilisation de

noyaux de pondération spatiale, l’utilisation de similarités inter-bins, ou le choix de la métrique de

similarité.

L’ensemble des approches abordées dans les premiers chapitres considèrent principalement un

modèle de type translationnel. Une ouverture vers les modèles paramétriques d’ordre supérieur a

également été considérée, à travers l’approche de suivi par distributions de couleurs multi-noyaux.

Une nouvelle technique d’optimisation par approche compositionnelle inverse a été proposée, offrant

une meilleure performance que les approches classiques en termes de temps de calcul.

136

Les techniques abordées s’insèrent globalement assez naturellement dans un cadre d’analyse de

vidéos pour la vidéosurveillance, qui correspond en effet aux types de benchmarks utilisés pour les

évaluations expérimentales. L’idée sous jacente qui a guidé ces propositions a été de chercher à tirer

au maximum parti du corpus de vidéos annotées conçu pour le suivi d’objets, tout en fournissant une

estimation de performances centrée sur le modèle d’apparence. Ce faisant, le lien assez fort avec la

notion de modèles d’apparence pour la recherche en indexation d’image a été exploré, ce qui s’est

traduit dans les solutions proposées. Etendre ce principe à de nouveaux modèles représente une

perspective intéressante. Certains modèles utilisés pour le suivi sont en effet spécifiques à cette

application, et ne trouvent pas forcément de correspondants en indexation d’images. Il s’agit par

exemple des modèles possédant de nombreux paramètres, tels que les contours actifs ou les modèles

articulés. Les approches proposées (caractérisation des cartes de similarité spatiale et quantification de

la capacité à discriminer au cours du temps) pourraient s’étendre, à condition d’échantillonner de

façon pertinente l’espace des paramètres lors de la recherche de distracteurs. Un tel échantillonnage est

plus difficile à réaliser efficacement en grandes dimensions, ce qui pose de nouvelles questions pour la

mise en place de nouvelles approches d’évaluation des performances.

137

Annexe A

Algorithme de suivi par Mean Shift

Dans l’approche Mean Shift, [Comaniciu et al, 2003] utilisent un histogramme pondéré calculé sur

une région circulaire pour représenter l'objet. Au lieu de réaliser une recherche exhaustive pour

localiser l'objet, ils utilisent le procédé Mean Shift. Le système de suivi Mean Shift maximise la

similarité d'apparence itérativement en comparant les histogrammes de l'objet, q, et une fenêtre autour

de la position hypothèse d'objet, p. La similarité entre deux histogrammes est définie en termes de

coefficient de Bhattacharya, ∑ =mu uuqp1 , où m est le nombre de classes de couleurs utilisées. À

chaque itération, le vecteur Mean Shift est calculé tel que la similarité entre les histogrammes est

augmentée. Ce processus est répété jusqu'à ce que la convergence soit réalisée, qui s’effectue

habituellement cinq à six itérations. Pour la génération d'histogramme, les auteurs utilisent un schéma

de pondération défini par un noyau spatial qui donne des poids plus élevés aux pixels plus près du

centre d'objet. Un avantage évident du système de suivi Mean Shift par rapport à la mise en

correspondance standard est la suppression d'une recherche exhaustive. L’estimation de l’état de

l’objet s’effectue donc dans un nombre restreint d'itérations.

A l’origine, la procédure Mean Shift est une procédure itérative de recherche de maximum local

dans un espace ℜd, basée sur une montée de gradient. Elle a été proposée par [Fukunaga et al, 1975],

et a été utilisée pour la première fois en 1997 dans le cadre de la segmentation d’images. Elle a ensuite

été adoptée par Comaniciu pour le suivi en temps réel d’objets déformables dans une séquence

d’images [Comaniciu et al, 2003], en utilisant la densité de couleur de l’objet. Le suivi est effectué à

partir de sa position initiale dans la première image. L’initialisation s’effectue manuellement. L’objet

d’intérêt est modélisé par une ellipse, sur laquelle on calcule sa distribution de couleur. La distribution

de couleur initiale est référencée en tant que modèle, et est ensuite comparée à celle des sites candidats

pour déterminer la position la plus probable dans l’image suivante.

Le Mean Shift repose sur le fait que le mode d’un nuage de points correspond à un maximum local

de sa densité, ce qui implique que le gradient soit égal au vecteur nul. Le principe de la procédure

Mean Shift est de trouver le mode en résolvant itérativement l’équation ∇f(x)=0 sans estimer la

densité f. L’artifice algorithmique proposé par Fukunaga est d’estimer le gradient de la fonction de

densité avec l’estimation de la fonction de densité [Comanciu et al, 2003].

L’algorithme de Comanciu fonctionne de la manière suivante : pour chaque image, il utilise la

position de la cible estimée à l’image précédente comme initialisation. Il calcule la distribution de

138

couleur pondéré par un noyau dans cette ellipse. Il évalue la similarité avec le modèle de référence. Un

poids est associé à cette mesure de similarité et on peut alors calculer le vecteur Mean Shift, qui a pour

but de fournir la nouvelle position estimée de la cible dans l’image courante. On réitère ces étapes

jusqu’à trouver le maximum local.

A.1 Utilisation de la procédure Mean Shift

La technique de suivi par Mean Shift consiste à rechercher la position du modèle dans l’image

courante à partir de sa distribution de couleur.

La couleur de l’objet à suivre est supposée avoir une fonction de densité q, et celle du candidat

centré sur un point y la densité p(y). Le problème est de trouver le point y dont la densité associée p(y)

est la plus proche de q.

A.2 Densité estimée du modèle

Le modèle est représenté par une région elliptique de taille (hx, hy). Si on note xi i= 1…n l’ensemble

des coordonnées des n pixels du modèle centré en 0, et normalisé par hx et hy. On note c la fonction de

ℜ→1…m qui associe à chaque pixel xi l’indice de sa couleur dans le m-histogramme. La loi de

probabilité des couleurs u ∈1,…,m est calculée en utilisant une fonction de profil convexe,

monotone et décroissante, attribuant un poids plus faible aux coordonnées éloignées du centre du

modèle. La pondération augmente la robustesse de l’estimation, les pixels périphériques étant les

moins sûrs, car souvent affectés par les occultations ou par le bruit. Le rayon de cette fonction de

profil est égal à 1. On a alors :

( )∑=

=n

iiuiu cKCq

1

2)( )( xx δ (A. 1)

• où δ est la fonction de Kronecker et C une constante de normalisation, tel que ∑∈

=Uu

uq 1.

A.3 Densité estimée du candidat

On note xi i= 1…nh l’ensemble des coordonnées des nh pixels du candidat centré sur y dans l’image

courante. En utilisant le même profil mais avec un rayon h, la loi de probabilité de la couleur u est

donnée par :

( ))( ) ()(1

2

iu

hn

u

ihu c

h

yCyp x

x δ∑=

−= (A. 2)

• où Ch est une constante de normalisation. Le nombre de pixels nh (c’est-à-dire l’échelle) du

candidat dépend du rayon h de la fonction de profil.

139

A.4 Mesure de similarité entre distributions

Le coefficient de Bhattacharyya est utilisé comme mesure de similarité entre deux distributions q et

p(y)

∑=

==m

uuu qypqypy

1 )()),(()( ρρ (A. 3)

La distance de Bhattacharyya est définie par :

)(1)( yydBha ρ−= (A. 4)

Les itérations Mean Shift peuvent être utilisées pour maximiser (A.3) comme fonction de y dans le

voisinage d’une position donnée.

A.5 Algorithme de suivi

La localisation y la plus probable de l’objet dans l’image courante est obtenue en minimisant la

distance (A.4), ce qui est équivalent à maximiser le coefficient de Bhattacharyya ρ(y) (A. 3). Cette

maximisation peut être effectuée efficacement en utilisant les itérations Mean Shift, à l’aide de

l’algorithme suivant :

Fig.A. 1 Mean Shift standard

On dispose de l’estimation de la distribution du modèle <qu>u=1...m ainsi

que l’estimation de la position y0 de l’objet dans l’image précédente. Il faut

ensuite 1) Calculer la distribution p(y0) = <pu(y0)>u=1...m

2) Calculer ( ) ∑=

=m

uuu qypqyp

100 )(),(ρ

3) Calculer les poids ωi i=1…nh avec )(

))((01 yp

quxc

u

um

uii ∑

=−= δω

4) A partir du vecteur Mean Shift, calculer la nouvelle position de

l’objet :

)(

)(

20

1

20

11

h

xyg

h

xygx

yihn

ii

ihn

iii

−

−

=

∑

∑

=

=

ω

ω

5) Mettre à jour p(y1) = pu(y1) u=1...m puis évaluer

( ) ∑=

=m

uuu qypqyp

111 )(),(ρ

6) Tant que ρ (p(y1), q) < ρ (p(y0), q) faire 2

101

yyy

+←

7) Si ε<− 01 yy stop. Sinon 10 yy ← et retourner à l’étape 1

140

Les tests ont été effectués dans le cadre du suivi de joueurs de football dans une séquence vidéo.

L’algorithme s’exécute en temps réel, et les résultats présentés dans l’article de Comaniciu montrent

l’intérêt de l’utilisation du Mean Shift pour le suivi temps réel. Notons toutefois que l’algorithme

fonctionne bien si deux objets présentant les mêmes distributions de couleurs ne sont pas trop proches

dans les images.

141

Annexe B

Benchmarks pour le suivi d’objets

Base de données Disponible depuis

Événement Vues Annotation Format Nombre de séquences /durée

moyenne (s) PETS 20003 2000 Voitures passant dans un parking à

l’extérieur 1 CS (a) Non 768×576, 25

fps, JPEG 1/62

2001 Personnes à l’extérieur marchent et en vélo

3 CS (b) (c) (e), 1 OC (d)

XML 768×576, 25 fps, JPEG

8/1370 PETS 2001

2001 Voitures se déplacent 2 SC dans les voitures (f)

Non 768×576, 25 fps, JPEG

2/230

CAVIAR 1ere ensemble (PETS 2004) [CAVIAR)

Juin 2003 A l’intérieur, des personnes marchant, se réunissant, se combattant, laissant des objets, s’effondrant.

CS (g)

XML CAVIAR

384x288, 25 fps, MPEG-2

28/650

CAVIAR second ensemble [CAVIAR]

Janvier 2004

A l’intérieur d’un centre commercial, des personnes passent

2 CS (h) (i)

XML CAVIAR

384x288, 25 fps, MPEG-2

26/650

Nov. 2004 A l’intérieur, des objets abandonnés, des personnes marchent et interagissent entre eux

C S (j) (k)

Pas encore MPEG-7

352x288, 12 fps, Uncompr.

26/764

Nov. 2004 Situations de stationnement C S (l) Pas encore MPEG-7


5/232

CANDELA [Wijnhoven, 2004]

Nov. 2004 Situations d'intersection

C S (m) Pas encore MPEG-7


3/171

VS-PETS FOOTBALL INMOVE4

2003 A l’extérieur, des personnes marchant dans des matchs de football

3 CS (n) (o)

oui pour camera 3, XML

720x576, 25 fps, JPEG

5/380

FGnet5 (PETS-ICVS)

2003 Pièce intelligente, position de visage et des yeux, reconnaissance d'expression faciale, geste, direction du visage/tête

2 CS (p) (q) 1 OC (r)

texte 720x576, 25 fps, JPEG

4/1814

VISOR BASE6 (PETS 2002)

2002 Des personnes se déplaçant devant une fenêtre de magasin

1 CS (s) Non 640x240, 25 fps, JPEG & MPEG- 1

6/274

PETS 2005 2004 Surveillance côtière

Thermal PTZ (t)

XML CAVIAR

720x576, 25 fps, JPEG

7/696

ATON7 Route, campus et pièce intelligente

1 CS (u) (v) (w) (x)

Pièce intelligente : masque binaire

320x240, 10 fps, AVI (Cinepak codec)

4/180

Tableau B. 1 Bases de données publiquement disponibles (CS=caméra statique, OC=omni caméra, PTZ=pan tilt zoom caméra) les lettres entre parenthèses dans la colonne « vues » se référent à la figure suivante.

3 PETS test sequences: http://www.visualsurveillance.org/ 4 Project IST INMOVE (IST-2001-37422): http://www.inmove.org 5 Project IST FGnet (IST-2000-26434): http://www.fg-net.org 6 Project IST VISOR BASE (IST-1999-10808): http://www.vtools.es/visorbase/index.html 7 ATON test sequences: http://cvrr.ucsd.edu/aton/shadow/

142

(a) (b) (c) (d)

(e) (f) (g) (h)

(i) (j) (k) (l)

(m) (n) (o) (p)

(q) (r) (s) (t)

(u) (v) (w) (x)

Fig. B. 1 Exemplaires d’images issues des données vidéo disponibles

143

Annexe C

Détails des performances sur les séquences du

corpus

Fig. C. 1 Pouvoir de discrimination des modèles d’apparence en fonction de l’écart temporel pour les

séquences Lisbon couloir (2cor) (séquences 1 et 7)

144


séquences Lisbon couloir (1cor) (séquences 2 et 5)


séquences Lsisbon couloir (1cor et 2cor)

145


séquences Lisbon Front (séquences 3 et 4)

Fig. C. 5 Pouvoir de discrimination des modèles d’apparence en fonction de l’écart temporel de la séquence 6 (INRIA).

146

Références

[Aggarwal et al, 1999] Aggarwal, J.K. & Cai, Q. (1999), 'Human motion analysis: A review', Computer Vision and Image Understanding 73(3), 428–440.

[Allen et al, 2004] Allen, J.; Xu, R. & Jin, J. (2004),'Object Tracking Using CamShift Algorithm and Multiple Quantized Feature Spaces', 'In Proceedings Pan-Sydney Area Workshop on Visual Information Processing (VIP)', Sydney, Australia.

[Alper, 2007] Alper, Y. (2007),'Object Tracking by Asymmetric Kernel Mean Shift with Automatic Scale and Orientation Selection', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR )'.

[Alper et al, 2006] Alper, Y.; Javed, O. & Shah, M. (2006), 'Object Tracking: A Survey', ACM Journal of Computing Surveys 38 (4).

[Avidan, 2001] Avidan, S. (2001),'Support vector tracking', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', 184–191.

[Bach et al, 1996] Bach, J.; Fuler, C.; Gupta, A.; Hampapur, A.; Horowitz, B.; Humphrey, R.; Jain, R. & Shu, C. (1996), 'The Virage image search engine: An open framework for image management', 'SPIE Conference on Storage and Retrieval for Image and Video Databases IV', 76–87.

[Baker et al, 2004] Baker, S. & Matthews, I. (2004), 'Lucas-Kanade 20 Years On: A Unifying Framework', International Journal of Computer Vision 56 (3), 221-255.

[Baker et al, 2001] Baker, S. & Matthews, I. (2001),'Equivalence and efficiency of image alignment algorithms', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', Kauai, HI, USA, 1090–1097.

[Bashir et al, 2006] Bashir, F. & Porikli, F. (2006), 'Performance Evaluation of Object Detection and Tracking Systems', 'PETS', New-York, 7-14.

[Bennett et al, 2008] Bennett, B.; Magee, D.R.; Cohn, A.G. & Hogg, D.C. (2008), 'Enhanced tracking and recognition of moving objects by reasoning about spatio-temporal continuity', Image and Vision Computing 26(1), 67-81.

[Bertalmio et al, 2000] Bertalmio, M.; Sapiro, G. & Randall, G. (2000), 'Morphing active contours', IEEE Transactions on Pattern Analysis and Machine Intelligence 22(7), 733–737.

[Birchfield et al, 2005] Birchfield, S. & Rangarajan, S. (2005), 'Spatiograms versus histograms for region-based tracking', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)'.

[Birgé et al, 2002] Birgé, L. & Rozenholc, Y. (2002),'How many bins should be put in a regular histogram', Technical report, Laboratoire Probabilités et Modèles Aléatoires, Université Pierre et Marie Curie, Paris, France, PMA-721.

[Black et al, 2003] Black, J.; Elis, T. & Rosin, P. (2003), 'A novel method for video tracking performance evaluation', 'VS-PETS', Nice, 125–132.

147

[Black et al, 1996] Black, M.J. & Jepson, A.D. (1996), 'EigenTracking: Robust Matching and Tracking of Articulated Objects Using a View-Based Representation', 'European Conference on Computer Vision (ECCV)'.

[Boltz et al, 2007] Boltz, S.; Debreuve, E. & Barlaud., M. (2007), 'High dimensional kullback-leibler distance for region of interest tracking: Application to combining a soft geometric constraint with radiometry', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', Minneapolis.

[Boujemaa et al, 2001] Boujemaa, N.; Boughorbel, S. & Vertan, C. (2001), 'Color Soft Signature for Image Retrieval', 'EUSFLAT', 394-401.

[Bradski et al, 1998] Bradski, G. (1998), 'Computer vision face tracking for use in a perceptual user interface', Intel Technology Journal 2(2).

[Brown et al, 2005] Brown, L.; Senior, A.; Tian, Y.; Connell, J.; A.Hampapur; Shu, C.; H.Merkl & Lu, M. (2005), 'Performance Evaluation of Surveillance Systems under Varying Conditions', 'PETS', Breckenridge, Colorado, 1-8.

[Cavallaro et al, 2005] Cavallaro, A.; Steiger, O. & Ebrahimi, T. (2005), 'Tracking Video Objects in Cluttered Background', IEEE Transactions on Circuits and Systems for Video Technology 15(4), 575-584.

[CAVIAR] 'Context Aware Vision using Image-based Active Recognition', 'http ://homepages.inf.ed.ac.uk/rbf/CAVIAR/'.

[Chang et al, 1999] Chang, P. & Krumm, J. (1999),'Object Recognition with Color Cooccurrence Histograms', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', 498-504.

[Chateau et al, 2002] Chateau, T.; Jurie, F.; Dhome, M. & Clady, X. (2002), 'real time tracking using wavelet representation', 'Proceedings of the 24th DAGM Symposium on Pattern Recognition'.

[Checchin et al, 2008] Checchin (2008), 'Système de détection de piétons а bord de véhicules : approche par télémétrie laser'.

[Cheng et al, 1995] Cheng, Y. (1995), 'Mean Shift, Mode Seeking, and Clustering', IEEE Transactions on Pattern Analysis and Machine Intelligence 17, 790–799.

[Chetverikov et al, 2000] Chetverikov, D.; Nagy, M. & Verestoy, J. (2000), 'Comparison of Tracking Techniques Applied to Digital PIV', 'International Conference on Pattern Recognition (ICPR)', 4619-4622.

[Cinque et al, 1999] Cinque, L.; Levialdi, S. & Olsen, K. (1999), 'Color-based image retrieval using spatial-chromatic histogram', 'Multimedia Computing and System, IEEE International Conference on Multimedia Computing and Systems,', 969–973.

[CLEAR] 'Classification of Events, Activities and Relationships', 'http://www.clear-evaluation.org/'.

[Collins et al, 2003] Collins, R. (2003),'Mean-shift blob tracking through scale space', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', Madison,WI, 234–240.

[Collins et al, 2003] Collins, R.T. & Liu, Y. (2003), 'On-line Selection of Discriminative Tracking Features', 'International Conference on Computer Vision (ICCV)'.

148

[Collins et al, 2005] Collins, R.T.; Liu, Y. & Leordeanu, M. (2005), 'Online Selection of Discriminative Tracking Features', IEEE Transactions on pattern analysis and machine intelligence 27(10), 631-1643.

[Comaniciu et al, 2003] Comaniciu, D.; Ramesh, V. & Meer, P. (2003), 'Kernel-based object tracking', IEEE Transactions on Pattern Analysis and Machine Intelligence 25 (5), 564–577.

[Comaniciu et al, 2000] Comaniciu, D.; Ramesh, V. & Meer, P. (2000), 'Real-Time Tracking of Non-Rigid Objects using Mean Shift', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', 142-149.

[Conaire et al, 2007] Conaire, C.O.; Connor, N.E.O.; Smeaton, A. & Jones (2007), 'Organising a daily visual diary using multi-feature clustering', '19th annual Symposium on Electronic Imaging'.

[Conaire et al, 2007] Conaire, C.O.; Connor, N.E.O. & Smeaton, A.F. (2007),'An improved spatiogram similarity measure for robust object localisation', 'International Conference on Acoustics, Speech, and Signal Processing (ICASSP)'.

[Conn et al, 2000] Conn, A.; Gould, N. & Toint, P.SIAM, ed. (2000), Trust-Region Methods.

[Cootes et al, 2000] Cootes, T.; Edwards, G. & Taylor, C. (2001), 'Robust real-time periodic motion detection, analysis, and applications', IEEE Transactions on Pattern Analysis and Machine Intelligence 23(6), 681–685.

[CREDS] Ziliani, F.; Velastin, S.; Porikli, F.; Marcenaro, L.; Kelliher, T.; Cavallaro, A. & , P.B. (2005), 'Performance Evaluation of Event Detection Solutions: The CREDS Experience', 'AVSBS05'

[Deselaers et al, 2004] Deselaers, T.; Keysers, D. & Ney, H. (2004),'Features for image retrieval: A quantitative comparison', 'DAGM’04: 26th Pattern Recognition Symposium', Tubingen, 228–236.

[Doermann et al, 2000] Doermann, D. & Mihalcik, D. (2000), 'Tools and techniques for video performance evaluation', 'International Conference on Pattern Recognition', Barcelona, 4167–4170.

[Duda et al, 2000] Duda, R.O.; Stork, D.G. & Hart, P.E.Sons, J., ed. (2000), Pattern Classification, Wiley.

[[Edwards et al, 1998] Edwards, G.; Taylor, C. & T.Cootes (1998), 'Interpreting face images using active appearance models', 'International Conference on Face and Gesture Recognition', 300–305.

[Elgammal et al, 2000] Elgammal, A.; Harwood, D. & Davis, L.S. (2000),'Nonparametric background model for background subtraction' 'European Conference of Computer Vision'.

[Erdem et al, 2004] Erdem, C.; Sankur, B. & Tekalp, A. (2004), 'Performance measures for video object segmentation and tracking', IEEE Transactions on Image Processing 13(7), 937—951.

[ETISEO] 'Video Understanding Evaluation', 'http://www.silogic.fr/etiseo/'.

[Fan et al, 2005] Fan, Z. & Wu, Y. (2005),'Multiple Collaborative Kernel Tracking', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', San Diego, CA, 20-26.

149

[Fan et al, 2007] Fan, Z.; Yang, M. & Wu, Y. (2007), 'Multiple Collaborative Kernel Tracking', IEEE Transactions on Pattern Analysis and Machine Intelligence 29(7), 1268-1273.

[Fan et al, 2006] Fan, Z.; Yang, M.; Wu, Y.; Hua, G. & Yu, T. (2006),'Efficient Optimal Kernel Placement for Reliable Visual Tracking', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', New York City, NY, 17-22.

[Fang et al, 2003] Fang, J. & Qiu, G. (2003),'A Colour Histogram Based Approach to Human Face Detection' 'IEEE Visual Information Engineering'.

[Ferecatu et al, 2005] Ferecatu, M. (2005),'Image Retrieval With Active Relevance Feedback Using Both Visual and Keyword-based Descriptors', PhD thesis, University of Versailles Saint-Quentin-en-Yvelines.

[Fukunaga et al, 1975] Fukunaga, K. & Hostetler, L.D. (1975), 'The estimation of the gradient of a density function, with application in pattern recognition', IEEE Transactions on Information Theory 21(1).

[Gagalowicz et al, 1983] Gagalowicz, A. (1983),'Vers un modèle de textures', PhD thesis, université Pierre et Marie Curie, Paris V.

[Georgescu et al, 2004] Georgescu, B. & P.Meer (2004), 'Point matching under large image deformations and illumination changes', IEEE Transactions on Pattern Analysis and Machine Intelligence 26, 674–688.

[Grimson et al, 1998] Grimson, Y.; Stauffer, C.; Romano, R. & Lee, L. (1998), 'Using adaptive tracking to classify and monitor activities in a site', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)'.

[Gros et al, 1997] Gros, P.; Mclean, G.; Delon, R.; Mohr, R.; Schmid, C. & Mistler, G. (1997), 'Utilisation de la couleur pour l'appariement et l'indexation d'images', Technical report, INRIA.

[Guskov et al, 2006] Guskov, I. (2006),'Kernel-based template alignment', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', New-York, USA, 610–617.

[Hafner et al, 1995] Hafner, J.; Sawhney, H. & Equitz, W. (1995), 'Efficient color histogram indexing for quadratic form distance functions', IEEE Transactions on Pattern Analysis and Machine Intelligence 17(7), 729-736.

[Hager et al, 2004] Hager, G.D.; Dewan, M. & Stewart, C.V. (2004), 'Multiple kernel tracking with SSD''IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', Washington, DC, USA, 790-797.

[Haoting et al, 2006] Haoting, L.; Jianqun, Y. & Zhehao, W. (2006), 'Moving Object Tracking and Vision Navigation Based on Selective Attention Mechanism' 'IEEE International Conference on Robotics and Biomimetics', 1500 - 1505.

[Haralick et al, 1973] Haralick, R.M.; Shanmugam, K. & Dinstein, I. (1973), 'Textural Features for Image Classification', IEEE Transactions on Systems, Man, and Cybernetics 3(6).

[Haritaoglu et al, 2000] Haritaoglu, I.; Harwood, D. & David, L. (2000), 'Real-time surveillance of people and their activities', IEEE Transactions on Pattern Analysis and Machine Intelligence 22(8), 809–830.

150

[Hu et al, 1962] Hu, M. (1962), 'Visual pattern recognition by moment invariants', IRE Transactions on Information Theory 8, 179-187.

[Huang et al, 1997] Huang, J.; Kumar, S.; Mitra, M.; Zhu, W. & Zabih, R. (1997),'Image indexing using color correlograms', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', pages 762-768.

[i-LIDS] i-LIDS dataset''http://scienceandresearch.homeoffice.gov.uk/hosdb/cctv-imaging-technology/video-based-detectionsystems/i-lids/'.

[Isard et al, 1998] Isard, M. & Blake, A. (1998), 'Condensation – Conditional Density Propagation for Visual Tracking', International Journal of Computer Vision 29, 5–28.

[Jain et al, 1981] Jain, J. R. & Jain, A.K. (1981), 'Displacement measurement and its application in interframe image coding', IEEE Transactions on Communications COM- 29, 1799-1808.

[Jaynes et al, 2002] Jaynes, C.; Webb, S.; Steele, R.M. & Xiong, Q. (2002),'An Open Development Environment for Evaluation of Video Surveillance Systems', 'Proc. of 3rd IEEE Int. Workshop on Performance Evaluation and Tracking and Surveillance (PETS)', 32-39.

[Jepson et al, 2001] Jepson, A.; Fleet, D. & El-Maraghi, T. (2001),'Robust online appereance models for visual tracking', 'Conference on Computer Vision and Pattern Recognition (CVPR)', 415-422.

[Ji et al, 2004] Ji, Q.; Zhu, Z. & Lan, P. (2004), 'Real-Time Non intrusive Monitoring and Prediction of Driver Fatigue', IEEE Transaction on Vehicular Technology 53(4), 1052-1068.

[Jobson et al, 1997] Jobson, D.; Rahman, Z. & Woodell, G. (1997), 'Properties and performance of a center/surround retinex', IEEE Transactions on Image Processing 6, 451–462.

[Jurie et al, 2002] Jurie, F. & Dhome, M. (2002), 'Hyperplane approach for template matching', IEEE Transactions on Pattern Analysis and Machine Intelligence 24, 996–1000.

[Kailath, 1967] Kailath, T. (1967), 'The Divergence and Bhattacharyya Distance Measures in Signal Selection', IEEE Transactions on Communication Technology 15(1), 52-60.

[Kallem et al, 2007] Kallem, V.; Dewan, M.; Swensen, J.; Hager, G. & Cowan, N. (2007),'Kernel-based visual servoing', 'IEEE-RSJ Int. Conf. on Intelligent Robots and System, IROS', San Diego, USA.

[Kass et al, 1988] Kass, M. (1988), 'Snakes Active Contour Models', International Journal of Computer Vision 1, 321–332.

[Khalid et al, 2005a] Khalid, M. & Malik, M. (2005),'Biased nature of Bhattacharyya coefficient in correlation of gray-scale objects', 'Proceedings of the Fourth IEEE International Symposium on Image and Signal Processing and Analysis', 209-214.

[Khalid et al, 2005b] Khalid, M.; Malik, M.; Ilyas, M.; Sarfaraz, M. & Mahmood, K. (2005), 'Performance of a similarity measure in grayscale image matching', 'IEEE Symposium on Emerging Technologies'.

151

[Khalid et al, 2006] Khalid, M.S.; Ilyas, M.U.; Sarfaraz, M.S. & Ajaz, M.A. (2006), 'Bhattacharyya Coefficient in Correlation of Gray-Scale Objects', Journal of Multimedia 1(1), 56-61.

[Koenderink et al, 1984] Koenderink, J. (1984), 'The Structure of Images', Biological Cybernetics 50, 363-370.

[Koga et al, 1981] Koga, T. (1981),'Motion compensated interframe coding for video conferencing', 'National Telecommunications Conference', New Orleans.

[Koller et al, 1993] Koller, D.; Danilidis, K. & Nagel, H. (1993), 'Model-based object tracking in monocular image sequences of road traffic scenes', International Journal of Computer Vision, 257-281.

[Kullback, 1959] Kullback, S.Wiley, ed. (1959), Information Theory and Statistics, New York.

[Lee et al, 1991] Lee, V. & Soille, P. (1991), 'Watersheds in digital spaces: An efficient algorithm based on immersion simulations', IEEE Pattern Analysis and Machine Intelligence 13(6), 583–598.

[Lee et al, 2001] Lee, Y.; You, B. & Lee, S. (2001), 'A real time color based object tracking robust to irregular illumination variations', 'IEEE International Conference on Robotics and Automation', 1659–1664.

[Lehuger et al, 2006] Lehuger, A.; Lechat, P.; Laurent, N. & P.Pérez (2006),'Maximisation du pouvoir discriminant des espaces colorimétriques pour le suivi d'objets' 'RFIA'.

[Ling et al, 2006] Ling, H. & Okada, K. (2006), 'Diffusion Distance for Histogram Comparison' 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', 246-253.

[Ling et al, 2006] Ling, J.; Liu, E.; Yang, L. & Yang, J. (2006), 'Multi-information incorporation approach to kernel-based infrared target model construction with application to target tracking', Optical engineering 45(11).

[List et al, 2004] List, T. & Fisher, R. (2004), 'CVML – An XML-based Computer Vision Markup Language' 'International Conference for Pattern Recognition', Cambridge, UK.

[Liu et al, 2006] Liu, H.; Jiang, G. & Wang, L. (2006), 'Multiple Object Tracking based on. Snake Model and Selective Attention Mechanism', 'IEEE International Conference on Robotics and Biomimetics', 1500-1505.

[Liu et al, 2001] Liu, J.; Hwang, W.; Chen, M.; Tsai, J. & Lin, C. (2001), 'Wavelet based active contour model for object tracking', 'International Conference on Image Processing (ICIP)', 206-209.

[Liu et al, 2004] Liu, T. & Chen, H. (2004), 'Real-Time Tracking Using Trust-Region Methods', IEEE Transactions on Pattern Analysis and Machine Intelligence 26, 397–402.

[Lucas et al, 1981] Lucas, B.D. & Kanade, T. (1981), 'An iterative image registration technique with an application to stereo vision', In International Joint Conference on Artificial Intelligence 'In International Joint Conference on Artificial Intelligence', 674-679.

152

[MacCormick et al, 2000] MacCormick, J. & Blake, A. (2000), 'A probabilistic exclusion principle for tracking multiple objects', International Journal of Computer Vision 39(1), 57–71.

[Maggio et al, 2005] Maggio, E. & Cavallaro, A. (2005), 'Multi-Part target representation for colour tracking', 'IEEE International Conference on Image Processing (ICIP)', Genova.

[Mahalanobis, 1930] Mahalanobis, P. (1930), 'On tests and meassures of groups divergence', Journal of the Asiatic Society of Bengal.

[Maintz et al, 1998] Maintz, J.B.A. & Viergever, M.A. (1998), 'A Survey of Medical Image Registration', Medical Image Analysis 2(1), 1–36.

[Mansouri et al, 2002] Mansouri, A. (2002), 'Region tracking via level set pdes without motion computation', IEEE Transactions on Pattern Analysis and Machine Intelligence 24(7), 947–961.

[Mariano et al, 2002] Mariano, V. (2002),'Performance evaluation of object detection algorithms', 'International Conference on Pattern Recognition (ICPR)', 965—969.

[Matthews et al, 2004] Matthews, I. & Baker, S. (2004), 'Active Appearance Models Revisited', Int'l J. Computer Vision 60(2).

[Matthews et al, 2003] Matthews, I.; Ishikawa, T. & Baker, S.T. (2003), 'The template update problem', 'BMVA'.

[McKenna et al, 1999] McKenna, S.J.; Raja, Y. & Gong, S. (1999), 'Tracking colour objects using adaptive mixture models', Image and Vision Computing 17, 225–231.

[Meier et al, 1998] Meier, T. & Nagan, K. (1998), 'Automatic segmentation of moving objects for video plane generation', IEEE Transactions on Circuits and Systems for Video Technology 8(5), 525-538.

[Mikram et al, 2006] Mikram, M.; Megret, R.; Berthoumieu, Y. & Donias, M. (2006), 'Multi-Scale Histograms for Kernel-Based Object Tracking', 'ISCCSP'.

[Mikram et al, 2006] Mikram. M, Mégret. R, Berthoumieu. Y: 'Inverse Composition for Multi-kernel Tracking. Lecture Notes in Computer Science, LNCS 4338 pp 480-491-2006.

[Mikram et al, 2007] Mikram. M, Mégret. R, Berthoumieu. Y: 'Evaluating Descriptors Performances for Object Tracking on Natural Video Data'. Lecture Notes in Computer Science, LNCS 4678, pp 352-363- 2007.

[Mikram et al, 2007] Mikram. M, Mégret. R, Berthoumieu. Y: 'Evaluation des performances de descripteurs pour le suivi d'objets', XXI Colloque GRETSI 2007, 11-14 Septembre 2007, Troyes, France.

[Mikram et al, 2009] Mikram. M, Mégret. R, Berthoumieu. Y: 'Analyse topographique de cartes de similarité dans l’évaluation de performances pour le suivi d’objets', CORESA 2009, Toulouse.

[Mitiche et al, 1996] Mitiche, A. & Bouthemy, P. (1996), 'Computation and analysis of image motion: a synopsis of current problems and methods', International Journal of Computer Vision 19(1), 29–55.

[Mughadam et al, 1997] Mughadam, B. & Pentland, A. (1997), 'Probabilistic visual learning for object representation', IEEE Transactions on Pattern Analysis and Machine Intelligence 19(7), 696–710.

153

[Muller et al, 2001] Muller, H.; Muller, W.; Squire, D.M.; Marchand, M.S. & Pun, T. (2001), 'Performance Evaluation in Content-based Image Retrieval: Overview and Proposals', Pattern Recognition Letters 22(5), 593–601.

[Nascimento et al, 2004] Nascimento, J. & Marques, J. (2004), 'New performance evaluation metrics for object detection algorithms', '6th International Workshop on Performance Evaluation for Tracking and Surveillance (PETS 2004), ECCV', Prague, Czech Republic.

[Nicolas et al, 1993] Nicolas, H. & Labit, C. (1993), 'Motion and illumination variation estimation using a hierarchy of models: Application to image sequence coding', Technical report, IRISA.

[Noriega et al, 2006] Noriega, P.; Bascle, B. & Bernier, O. (2006),'Local kernel color histograms for background subtraction', 'INSTICC Press editor, VISAPP', 213–219.

[Odobez et al, 1995] Odobez, J. & Bouthemy, P. (1995), 'Robust multiresolution estimation of parametric motion models', International Journal of Visual Communication and Image Representation 6(4), 348–365.

[Paragios et al, 2002] Paragios, N. & Deriche, R. (2002), 'Geodesic active regions: A new framework to deal with frame partition problems in computer vision', Journal of Visual Communication and Image Representation 13, 249-268.

[Paragios et al, 1999] Paragios, N. & Deriche, R. (1999), 'Geodesic active regions for motion estimation and tracking', 'IEEE International Conference on Computer Vision (ICCV)'.

[Parameswaran et al, 2006] Parameswaran, V.; Ramesh, V. & Zoghlami, I. (2006),'Tunable Kernels for Tracking', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', New York.

[Park et al, 2004] Park, S. & Aggarwal, J.K. (2004), 'A hierarchical bayesian network for event recognition of human actions and interactions', Multimed. Syst 10(2), 164–179.

[Pass et al, 1996] Pass, G.; Zabih, R. & Miller, J. (1996), 'Comparing images using color coherence vectors', 'ACM Conference on Multimedia', Boston, USA, 65-73.

[Patella, 1999] Patella, M. (1999),'Similarity Search in Multimedia Databases', PhD thesis, University of Bologna, Italy.

[Perez et al, 2002] Perez, P.; Hue, C.; Vermaak, J. & Gangnet, M. (2002), 'Color-Based Probabilistic Tracking', 'European Conference on Computer Vision', 661–675..

[Persoon et al, 1977] Persoon, E. & Fu, K. (1977), 'Shape discrimination using fourier descriptors', IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS 7(3), 629-639.

[Qu et al, 2006] Qu, W. & Schonfeld, D. (2006), 'Robust Kernel-Based Tracking Using Optimal Control', 'IEEE International Conference on Image Processing (ICIP)', Atlanta, GA,.

[Revéret et al, 1997] Revéret, L. (1997), 'From raw images of the lips to articulatory parameters: a viseme-based prediction' 'Eurospeech', 2011-2014.

154

[Ronfard et al, 1994] Ronfard, R. (1994), 'Region-based strategies for active contour models', International Journal of Computer Vision (IJCV) 13(2), 229–251.

[Rubner et al, 2000] Rubner, Y.; C. Tomasi & L.Guibas (2000), 'The Earth Mover's Distance as a Metric for Image Retrieval', International Journal of Computer Vision 40(2), 99-121.

[Sato et al, 2004] Sato, K. & Aggarwal, J. (2004), 'Temporal spatio-velocity transform and its application to tracking and interaction', Computer Vision and Image Understanding 96(2), 100–128.

[Schneiders et al, 2005] Schneiders, S.; Jager, T.; Loos, H. & Niem, W. (2005), 'Performance Evaluation of a Real Time Video Surveillance Systems', 'VS-PETS', Beijing, 15-16.

[Scott, 1992] Scott, D.W.York:Wiley, N., ed. (1992), Multivariate Density Estimation.

[Serby et al, 2004] Serby, D.; Koller, M.S. & Gool, L.V. (2004), 'Probabilistic object tracking using multiple features', 'In IEEE International Conference of Pattern Recognition (ICPR)', 184–187.

[Shen et al, 1983] Shen, H. & Wong, A. (1983), 'Generalized texture representation and metric', 'Computer Vision, Graphics and Image Processing', 187–206.

[Shmid, 1996] Shmid, C. (1996),'Appariement d’images par invariants locaux de niveaux de gris', PhD thesis, INPG.

[Sigal et al, 2004] Sigal, Y.; Zhu; D. Comaniciu & Black, M.J. (2004),'Tracking Complex Objects using Graphical Object Models', '1st International Workshop on Complex Motion, Springer-Verlag LNCS 3417', 227-238.

[Smith, 1997] Smith, J. (1997), 'Integrated spatial and feature image systems: retrieval, analysis and compression', PhD thesis, Columbia University.

[Smith et al, 2005] Smith, K.; Perez, D.G. & Odobez, J.M. (2005), 'Using particles to track varying numbers of interacting people', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)'.

[Stern et al, 2002] Stern, H. & Efros, B. (2002), 'Adaptive color space switching for face tracking in multi-colored lighting environment', 'IEEE International Conference on Automatic Face and Gester Recognition', Washington DC, USA, 249-254.

[Swain et al, 1991] Swain, M. & Ballard, D. (1991), 'Color indexing', International Journal of Computer Vision 7, 11-32.

[Takala et al, 2007] Takala, V. & Pietikдinen, M. (2007), 'Multi-object tracking using color, texture and motion', 'Proc. Seventh IEEE International Workshop on Visual Surveillance (VS)', Minneapolis, USA.

[Tekalp et al, 1995] Tekalp, A. (1995), Digital Video Processing, Prentice Hall.

[Terzopoulos et al, 1993] Terzopoulos, D. & Szeliski, R. (1993),'Tracking with kalman snakes', 3-20.

[Ulges et al, 2006] Ulges, A.; Lampert, C. & Keysers, D. (2006), 'Spatiogram-Based Shot Distances for Video Retrieval', 'TRECVID Workshop', Gaithersburg.

155

[VACE] VAC, Video Analysis and Content Extraction''http://www.informedia.cs.cmu.edu/arda/vaceII.html'.

[Veenman et al, 2001] Veenman, C.; Reinders, M. & Backer, E. (2001), 'Resolving motion correspondence for densely moving points', IEEE Pattern Analysis and Machine Intelligence 23 (1), 54–72.

[Veeraraghavan et al, 2003] Veeraraghavan, H.; Masoud, O. & Papanikolopoulos, N. (2003), 'Computer vision algorithms for intersection monitoring', IEEE Transactions on Intelligent Transportation System 4( 2), 78-89.

[Vertan et al, 2000] Vertan, C. & Boujemaa, N. (2000), 'Color Texture Classification by Normalized Color Space Representation' 'International Conference on Pattern Recognition (ICPR)', Barcelona.

[Wang, 1998] Wang, D. (1998), 'Unsupervised video segmentation based on watersheds and temporal tracking', IEEE Transactions on Circuits and Systems for Video Technology 8(5), 539-546.

[Wang et al, 2004] Wang, J.; Thiesson, B.; Xu, Y. & Cohen, M. (2004), 'Image and video segmentation by anisotropic kernel mean shift', 'European Conference on Computer Vision (ECCV)', 238-249.

[Wang et al, 2001] Wang, Y. & Ostermann, J. (2001), Video Processing and communications, Prentice Hal.

[Werman et al, 1985] Werman, M.; Peleg, S. & Rosenfeld, A. (1985), 'A distance metric for multi-dimensional histograms', 'Computer, Vision, Graphics, and Image Processing', 328–336.

[Wijnhoven, 2004] Wijnhoven, R. (2004),'Scenario Description: Technical Document v.0.6', Technical report, CANDELA Project, Bosch Security Systems B.V., Eindhoven, The Netherlands.

[Witkin et al, 1983] Witkin, A. (1983),'Scale-Space Filtering', 'International Joint Conference on Artificial Intelligence (IJCAI)', 1019-1022.

[Wren et al, 1997] Wren, C.; Azerbayejani, A.; Darrel, T. & Pentland, A. (1997), 'Pfinder: Real time tracking of the human body', IEEE Transactions on Pattern Analysis and Machine Intelligence 19, 780-785.

[Yin et al, 2007] Yin, F.; Makris, D. & Velastin, S.A. (2007), 'Performance evaluation of object tracking algorithms', 'In 10th IEEE International Workshop on Performance Evaluation of Tracking and Surveillance (PETS)', Rio de Janeiro, Brazil.

[Yu et al, 2006] Yu, T. & Wu, Y. (2006), 'Differential Tracking based on Spatial-Appearance Model (SAM)', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', New York City, NY, 17-22.

[Zhao et al, 2005] Zhao, Q. & Tao, H. (2005),'Object Tracking using Color Correlogram', 'IEEE Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance (VS-PETS) in conjunction with ICCV', Beijing, China, 263 – 270.

[Zhou et al, 2006] Zhou, J. & Clark, C.M. (2006), 'Autonomous fish tracking by ROV using Monocular Camera', 'The 3rd Canadian Conference on Computer and Robot Vision (CRV)'.

[Zhu et al, 1997] Zhu, S. & Ma, K.K. (1997), 'A new diamond search algorithm for fast block matching motion estimation', 'International Conference Information, Communications and Signal Processing', 292 -296.

156