N° d’ordre : 3736
THÈSE PRÉPARÉE À
L’UNIVERSITÉ DE BORDEAUX I
Par Mounia MIKRAM
POUR OBTENIR LE GRADE DE
DOCTEUR
SPÉCIALITÉ : AUTOMATIQUE, PRODUCTIQUE, SIGNAL ET IMAGE
INFORMATIQUE ET TÉLÉCOMMUNICATIONS
-----------------------------
Suivi d'objets dans une séquence d'images par modèle
d'apparence : conception et évaluation. ------------------------------
Soutenue le 15 Décembre 2008.
Après avis de : Vincent Charvillat Maître de Conférences HDR à l’ENSEEIHT Rapporteur Rachid Oulad Haj Thami Professeur habilité à l’ENSIAS, Rabat Rapporteur
Devant la commission d’examen formée de : Mohamed Najim Professeur à l'ENSEIRB, Bordeaux Président Vincent Charvillat Maître de Conférences HDR à l’ENSEEIHT Rapporteur Rachid Oulad Haj Thami Professeur à l’ENSIAS, Rabat Rapporteur Noureddine Zahid Professeur à la faculté des Science de Rabat Examinateur Driss Aboutajdine Professeur à la faculté des Science de Rabat Examinateur Rémi Mégret Maître de Conférences à l'ENSEIRB, Bordeaux Examinateur
-- 2008 --
2
Résumé
Le travail présenté dans ce mémoire s’inscrit dans le cadre du suivi d'objets dans des vidéos, et plus
particulièrement, sur l'utilisation de représentations par modèle d'apparence pour le suivi. Un système
de suivi basé sur des modèles d'apparence peut être schématiquement décomposé en un modèle
d’apparence d'objet, des contraintes spatio-temporelles de position et un algorithme de recherche de
position qui prenne en compte les deux aspects précédents. Le modèle d'apparence est une composante
centrale des performances d'un tel système, et nous focalisons notre attention dessus.
La notion de modèle d'apparence est précisée sur la base de l'extraction de descripteurs visuels
comparés à l'aide de similarités à une référence. De nouvelles techniques pour évaluer les
performances vis à vis du suivi sont présentées. Les approches classiques d’évaluation considèrent
uniquement la qualité des trajectoires finales estimées. Les métriques proposées dans ce mémoire s’en
distinguent par le fait qu’elles quantifient la performance intrinsèque des modèles d’apparence utilisés
au sein du système. Deux axes sont ainsi développés : d’une part, un ensemble de mesures de la
précision spatiale d’un modèle couplées à la mesure de la robustesse vis-à-vis d’une initialisation
spatiale approximative, et d’autre part, la proposition d’une méthodologie permettant de mesurer la
stabilité d’un modèle du point de vue temporel sur des données vidéos naturelles. Ces techniques
seront utilisées dans la suite du mémoire pour évaluer les méthodes existantes ainsi que celles
présentées.
Deux nouveaux modèles d'apparence sont ensuite introduits. Le premier modèle dénommé
l’histogramme multi-échelles permet de limiter les ambigüités liées à la représentation par
histogramme de couleurs. Ceci est réalisé en injectant une information spatiale implicite permettant de
différencier des objets ayant des distributions de couleur identiques, bien que distribuées différemment
d’un point de vue spatial. Le deuxième modèle, fondé sur une extension de la métrique de Matusita
pour la comparaison de distributions de couleurs, prend en compte les variations possibles des
couleurs des objets liées aux conditions de prises de vues afin de rendre le suivi plus robuste à ce
phénomène.
Enfin, le lien entre modèle d'apparence et technique de recherche de la position optimale est abordé
dans le contexte du suivi multi-noyaux à travers la proposition d'un nouvel algorithme de suivi basé
sur une approche compositionnelle inverse. Celui-ci offre un temps de calcul fortement réduit pour
une qualité de suivi similaire aux algorithmes existants.
3
Remerciements
Les travaux présentés dans le mémoire ont été menés au sein du Laboratoire Automatique
Productique et Signal de Bordeaux et plus particulièrement dans l’équipe Signal et Image (ESI) dirigé
par M. Mohamed Najim.
Ces travaux ont été effectués en cotutelle avec le Laboratoire de Recherche en Informatique et
Télécommunications (LRIT) dirigé mar M. Driss Aboutajdine à la faculté des sciences de Rabat
Merci à Mohamed Najim et Driss Aboutajdine, pour avoir accepté de diriger cette thèse et dont
l’aide précieuse m’a été indispensable sur le plan scientifique. Je tiens également à les remercier pour
la confiance et la sympathie qu’ils m’ont témoignées au cours de ces années de thèse.
Je tiens à exprimer mes remerciements aux membres du jury, qui ont accepté d’évaluer mon travail
de thèse.
Merci à M. Mohamed Najim, Professeur à l'ENSEIRB, Bordeaux, d’avoir accepté de présider le
jury de cette thèse, et à Rachid Oulad Haj Thami Professeur habilité à l’ENSIAS et à M. Vincent
Charvillat Maître de Conférences HDR à l’ENSEEIHT, d’avoir accepté d’être les rapporteurs de ce
manuscrit. Leurs remarques et suggestions lors de la lecture de mon rapport m’ont permis d’apporter
des améliorations à la qualité de ce dernier.
Merci également à M. Noureddine Zahid Professeur à la faculté des Science de Rabat, pour avoir
accepté d’examiner mon mémoire et de faire partie de mon jury de thèse.
Je tiens à remercier aussi Rémi Mégret, dont l’aide sur le plan technique et les grandes qualités
humaines ont permis de mener à bout cette thèse. Son soutien s’est avéré déterminant pour mener ce
travail à terme.
Merci également à Yannick Berthoumieu, qui m’a permis d’effectuer cette thèse dans de très
bonnes et très agréables conditions de travail.
Je tiens à remercier l’ensemble de l’équipe et plus particulièrement Christelle pour sa gentillesse et
son efficacité lors des difficultés administratives ou logistiques que j’ai rencontrées.
Je tiens enfin à remercier les amis, thésards ou non qui m’ont aidé au cours des ces années de cette
thèse.
Finalement j’adresse un grand merci à toute ma famille qui a toujours été présente lorsque j’en ai
eu besoin, en particulier à ma mère.
4
Sommaire
Introduction............................................................................................................................... 7
1 Motivation................................................................................................................................. 7
2 Principe du suivi d’objet.......................................................................................................... 8
3 Problématique traitée .............................................................................................................. 9
Chapitre 1 Étude des approches existantes pour les modèles d’apparence et évaluation des performances de suivi.............................................................................................................. 13
1.1 Représentation des objets.................................................................................................. 14 1.1.2 Points............................................................................................................................................. 15 1.1.3 Contour et silhouette ..................................................................................................................... 15 1.1.4 Modèle d’apparence sur une région .............................................................................................. 16
1.2 Modèles d’apparence pour le suivi ................................................................................... 18 1.2.1 Attributs ........................................................................................................................................ 18 1.2.2 Approches pour la description d’apparence .................................................................................. 20 1.2.3 Descripteurs statistiques de la couleur .......................................................................................... 24 1.2.4 Mesures de similarité .................................................................................................................... 30
1.3 Evaluation des systèmes de suivi d’objet ......................................................................... 38 1.3.2 Paradigme standard ....................................................................................................................... 39 1.3.3 Benchmarks pour le suivi vidéo .................................................................................................... 41 1.3.4 Outils d’annotations ...................................................................................................................... 42 1.3.5 Métriques d’évaluation des performances..................................................................................... 43
1.4 Performance de modèles d’apparence en indexation ..................................................... 44 1.4.1 Motivation..................................................................................................................................... 44 1.4.2 Evaluation d’un système d’indexation et de recherche d’images par le contenu ..........................46 1.4.3 Mesures de performance d’un modèle d’apparence ...................................................................... 47
1.5 Conclusion .......................................................................................................................... 49
Chapitre 2 Evaluation des performances de modèles d’apparence pour le suivi ................. 51
2.1 Généralités.......................................................................................................................... 51
2.2 Performance spatiale d’un modèle d’apparence............................................................. 52 2.2.2 Evaluation des surfaces de similarité ............................................................................................ 54 2.2.3 Caractérisation topographique....................................................................................................... 55 2.2.4 Illustration des méthodes d’évaluation.......................................................................................... 59
2.3 Performance temporelle d’un modèle d’apparence........................................................63 2.3.1 Modélisation d’un système de suivi .............................................................................................. 63 2.3.2 Mise en place d’un corpus d’évaluation........................................................................................ 64 2.3.3 Critères d’évaluation des performances ........................................................................................ 67
2.4 Conclusion .......................................................................................................................... 74
Chapitre 3 Nouveaux modèles d’apparence pour le suivi ..................................................... 75
3.1 Histogramme multi-échelles.............................................................................................. 75 3.1.1 Principe ......................................................................................................................................... 75 3.1.2 Intérêt de la nouvelle approche ..................................................................................................... 77 3.1.3 Suivi robuste par Mean Shift via l’histogramme multi-échelles ................................................... 81 3.1.4 Expérimentation et évaluation....................................................................................................... 84
3.2 Suivi robuste via une mesure de similarité inter-bins..................................................... 85 3.2.1 Effets des changements d’illumination ......................................................................................... 85 3.2.2 Distance fondée sur la distance de Matusita modifiée .................................................................. 86
5
3.2.3 Application au suivi par Mean Shift.............................................................................................. 89 3.2.4 Expérimentations et évaluation ..................................................................................................... 91
3.3 Conclusion .......................................................................................................................... 95
Chapitre 4 Evaluation des modèles d’apparence ................................................................... 97
4.1 Modèles d’apparence évalués............................................................................................ 97 4.1.1 Données expérimentales................................................................................................................ 97 4.1.2 Corpus d’évaluation ...................................................................................................................... 98
4.2 Performances globales des modèles d’apparence.......................................................... 100 4.2.1 Résultats ...................................................................................................................................... 100 4.2.2 Discussion ................................................................................................................................... 101
4.3 Choix du descripteur ....................................................................................................... 103 4.3.1 Effet de la pondération spatiale des histogrammes ..................................................................... 103 4.3.2 Comparaison des approches par histogramme et template.......................................................... 108
4.4 Performances des métriques ........................................................................................... 112 4.4.1 Métriques bin-à-bin ..................................................................................................................... 112 4.4.2 Métriques inter-bins .................................................................................................................... 113
4.5 Conclusion ........................................................................................................................ 117
Chapitre 5 Composition inverse pour le suivi d’objet par approche multi-noyaux............ 119
5.1 Estimation paramétrique du mouvement ...................................................................... 120 5.1.1 Définition .................................................................................................................................... 120 5.1.2 Modèles classiques...................................................................................................................... 120 5.1.3 Suivi paramétrique d’objet par distributions couleurs................................................................. 121
5.2 Approche compositionnelle multi-noyaux ..................................................................... 124 5.2.1 Cadre formel................................................................................................................................ 124 5.2.2 Optimisation compositionnelle inverse ....................................................................................... 125 5.2.3 Calcul du Jacobien ...................................................................................................................... 126
5.3 Expérimentation et discussion ........................................................................................ 127 5.3.1 Performance calculatoire............................................................................................................. 128 5.3.2 Propriétés de convergence........................................................................................................... 129
5.4 Conclusion ........................................................................................................................ 132
Conclusion générale et perspectives ..................................................................................... 135
Annexe A Algorithme de suivi par Mean Shift .................................................................... 137
A.1 Utilisation de la procédure Mean Shift ................................................................................ 138
A.2 Densité estimée du modèle..................................................................................................... 138
A.3 Densité estimée du candidat .................................................................................................. 138
A.4 Mesure de similarité entre distributions .............................................................................. 139
A.5 Algorithme de suivi ................................................................................................................ 139
Annexe B Benchmarks pour le suivi d’objets ...................................................................... 141
Annexe C Détails des performances sur les séquences du corpus ...................................... 143
Références.............................................................................................................................. 146
7
Introduction
1 Motivation
Le travail présenté dans ce mémoire s’inscrit dans le cadre du traitement numérique de séquences
d’images. Il s’agit par exemple, d’applications de vidéo surveillance où l’on utilise des caméras et
d'autres sources d’information pour surveiller les activités d’un site sensible. Actuellement, les
systèmes de surveillance les plus courants archivent des volumes gigantesques de vidéo pour
d’éventuelles inspections hors ligne par un opérateur humain. Il apparaît donc que la détection
automatique d’événements en faciliterait l'archivage et l'annotation. Par ailleurs, l’automatisation de
l’analyse du contenu pourrait être utilisée pour diriger l'attention d’opérateurs humains vers des
problèmes potentiels. De même, la détection automatique d’événements réduirait nettement la largeur
de bande exigée pour la transmission vidéo et le stockage car seuls des éléments d’intérêt seraient
transmis ou stockés.
Généralement, les sites concernés des lieux publics tels que des stations qui accueillent des
voyageurs (gare, métro, etc) soit des centres commerciaux. La compréhension sémantique (de haut
niveau) des événements se produisant dans ces sites s’appuie sur certaines tâches de bas niveau de la
vision artificielle telles que la détection des mouvements inhabituels, l’établissement de la trajectoire
des personnes visibles, la compréhension des interactions entre personnes, la reconnaissance de gestes,
etc. Chacune de ces tâches nécessite le suivi d’objets au cours du temps.
L’implémentation d’un procédé automatique de suivi d’objet est un problème central pour de
nombreuses applications. Principalement utilisé à l’origine dans un contexte militaire (suivi des cibles
ou guidage de missiles), ce type de traitement est aujourd’hui au cœur de nombreuses applications
multimédia (compression,…) en télésurveillance et en robotique mobile. Tout objet peut être
potentiellement amené à être suivi, en fonction de son intérêt, pour une analyse ultérieure. Par
exemple, dans une application concernant l’étude du comportement animal, comme celui de poissons
dans la mer [Zhou et al, 2006], le suivi d’objet aide les biologistes marins à recueillir des informations
concernant les comportements, les habitudes, les mouvements et la distribution globale et locale de
certaines espèces de poissons. Cela est également utile en matière de prévention d’accidents entre
véhicules sur autoroute [Veeraraghavan et al, 2003], pour avertir le conducteur d’un risque de collision
[Ji et al, 2004] ou pour détecter la présence de piétons se trouvant sur la trajectoire de véhicules
[Checchin et al, 2008].
8
2 Principe du suivi d’objet
Le suivi d’objet dans des séquences d’images est, depuis ces dernières décennies, un thème de
recherche très actif en vision par ordinateur. Le suivi correspond à l’estimation de la localisation de
l’objet dans chacune des images d’une séquence vidéo, la caméra et/ou l’objet pouvant être
simultanément en mouvement. Le procédé de localisation se fonde sur la reconnaissance de l’objet
d’intérêt à partir d’un ensemble de caractéristiques visuelles telles que la couleur, la forme, la vitesse,
etc.
Plus formellement, le but d’une méthode de suivi d’objet est d’estimer, dans chaque image de la
séquence, les paramètres de l’objet ou des objets présents dans le champ de vision de la caméra. Les
paramètres à estimer peuvent être divers, mais comprennent principalement une composante
géométrique, indiquant la position dans l’image du centre de l’objet [Comaniciu et al, 2003] [Lucas et
al, 1981] à laquelle peuvent s’ajouter de nombreux degrés de liberté en fonction de l’application. Pour
des objets rigides ou modélisés comme tels, les paramètres les plus fréquents sont l’échelle [Collins et
al, 2005], l’orientation [Alper et al, 2007], ou des paramètres de perspective. Pour des objets articulés,
il s’agit d’angles articulaires [Aggarwal et al, 1999]. Pour des objets déformables, les paramètres à
estimer se basent soit sur une modélisation du contour [Revéret et al, 1998], soit sur une modélisation
de l’apparence à l’aide de modèles surfaciques déformables tels que les modèles d’apparence actifs
[Edwards et al, 1998]. Dans certaines approches, l’estimation ne se limite pas à la composante
géométrique mais estime simultanément des paramètres relatifs à l’apparence de l’objet à partir d’un
ensemble d’apparences a priori possibles [Mughadam et al, 1997] [Black et al, 1998]. L’ensemble de
ces caractéristiques constitue l’état de l’objet et est défini pour chaque image de la séquence.
Le problème du suivi d’objet peut s’exprimer en termes de détection de l’objet au sein de chaque
image. Nous ferons la distinction entre les notions de suivi par mise en correspondance et suivi par
mise à jour. Le suivi par mise en correspondance est classiquement utilisé pour la construction de
trajectoires de caractéristiques de l’objet telles que des points d’intérêt [Chetverikov et al, 2000]
détectés préalablement. Cette approche s’attache à détecter un objet dans chaque image puis à
agglomérer temporellement les objets détectés de façon à obtenir des trajectoires cohérentes au cours
du temps. Le suivi par mise à jour détecte ou localise l’objet au sein d’une image en fonction de l’état
de l’objet à l’instant précédent. Dans ce dernier cas, le vecteur d’état est mis à jour sur chaque
nouvelle image, à partir d’une initialisation définie manuellement ou automatiquement sur l’une des
images de la séquence.
D’un point de vue fonctionnel, le suivi par mise à jour se décompose en deux parties principales :
la représentation et la localisation.
9
L’étape de représentation consiste à associer à l’objet suivi des caractéristiques de forme et/ou
d’apparence permettant de le reconnaître dans des images successives. Les caractéristiques
sélectionnées sont destinées à former le modèle de référence ; il s’agit d’une description numérique ou
symbolique qui permet de caractériser l’apparence visuelle de l’objet dans l’image ou la séquence.
Ceci peut être accompli de façon classique par l’initialisation du modèle sur une image de référence
(Fig. 1.a) bien que certaines méthodes prennent en compte plusieurs images de référence afin de
transcrire une plus grande variabilité dans l’apparence de l’objet [Black et al, 1996].
L’étape de localisation est le procédé numérique réalisant le suivi qui a pour but de fournir la
position de l’objet dans l’image courante de la séquence, sur la base de son modèle de représentation
et de son état dans l’image précédente (Fig. 1.b).
(a) (b)
Fig. 1 Processus de suivi : (a) : étape de représentation. (b) : étape de localisation.
3 Problématique traitée
Les méthodes fondées sur des modèles d’apparence cherchent à déterminer les localisations
successives des objets suivis en maximisant diverses mesures de similarité fondées sur des critères de
couleur, de forme et/ou de texture.
Considérons la boîte englobante notée n,tb associée à un objet n dans une image à l’instant t. Le
contenu visuel de cette région est pris en compte pour décider si la boîte est bien positionnée. Le
modèle d’apparence cible est typiquement calculé d’après l’apparence de l’objet sur une image
d’initialisation. Dans chaque image de la séquence, on cherche la région n,tb qui possède le contenu le
plus semblable à celui de la cible. À toute boîte englobante in,tb est associé un vecteur de
(a)
Choisir un modèle de référence forme,
couleur…
Rechercher dans le voisinage du
modèle dans la prochaine image
Commencer la recherche à partir de la position du modèle dans l’image courante
… …
Modèle Candidat
image courante
10
caractéristiques appelé descripteur iMtnv ,
, calculé à partir du contenu visuel de cette boîte et dépendant
du modèle d’apparence M utilisé pour représenter numériquement le contenu visuel. En particulier, le
modèle de référence correspond à un descripteur de référence *,
Mtrefnv calculé sur une image tref avec
une boîte correctement positionnée (Fig. 2). Il est alors possible de quantifier la vraisemblance d’une
boîte englobante au sens du descripteur par une mesure de similarité entre le modèle cible et les
hypothèses calculées sur l’image t notée :
)( *,,,
Mn,tref
iMn,t
iMtn ,vvss = (1)
Le principe général du suivi consiste à rechercher une boîte présentant une forte similarité avec le
modèle.
Fig. 2 Suivi d’objet par modèle d’apparence
Le modèle d’apparence de l’objet est un élément essentiel, qui conditionne pour beaucoup la
performance d’un système de suivi d’objets. Les techniques d’estimation fondées sur les densités à
noyau ont été proposées par [Comaniciu et al, 2003] et par [Georgescu et al, 2004] pour construire des
représentations statistiques de l’apparence de l’objet. Leur avantage est de proposer une description
relativement flexible et générique de l’apparence applicable au suivi d’objets non rigides sans
nécessiter de modèles trop complexes. Ce type d’approche permet une mise en œuvre rapide, en
temps-réel dans certains cas.
Les travaux que nous présentons dans ce document s’inscrivent plus particulièrement parmi les
méthodes fondées sur l’apparence de l’objet.
Ce mémoire est organisée en cinq chapitres: Tout d’abord, dans le premier chapitre, nous
présentons un état de l’art des méthodes de suivi d’objets fondées sur des modèles utilisant des
*trefb
Image tref
itb
Image t
,*Mtrefv iM
tv ,
Modèle d’Apparence M
Descripteur référence
Similarité
hypothèse de localisation
Descripteur hypothèse
Mesure de l’adéquation de l’hypothèse par rapport au
modèle d’apparence
11
descripteurs, en distinguant formellement les concepts de descripteur, de similarité et de technique
d’optimisation.
Les performances peuvent être définies du point de vue de la qualité des résultats de localisation de
l’objet ou de leur robustesse. Plusieurs questions doivent être soulevées lorsqu’on se penche sur la
performance d’un système de suivi :
• Comment évaluer la pertinence du choix d’un modèle d’apparence particulier?
De nouvelles techniques pour évaluer les performances vis à vis du suivi sont présentées. Les
approches classiques d’évaluation considèrent uniquement la qualité des trajectoires finales estimées.
Les métriques proposées se distinguent par le fait qu’elles quantifient la performance intrinsèque des
modèles d’apparence utilisés au sein du système. Deux axes sont ainsi développés dans le deuxième
chapitre : d’une part, un ensemble de mesures de la précision spatiale d’un modèle, couplées à la
mesure de la robustesse vis-à-vis d’une initialisation spatialement approximative et d’autre part, la
proposition d’une méthodologie permettant de mesurer la stabilité d’un modèle du point de vue
temporel sur des données vidéos naturelles. Ces techniques seront utilisées dans la suite du mémoire
pour évaluer les méthodes existantes, ainsi que celles présentées.
• Quel descripteur utiliser de sorte qu’un objet puisse être efficacement discriminé par rapport
au fond de l’image, tout en ayant un modèle invariant aux changements environnementaux ?
De nouveaux modèles d’apparence sont proposées dans le troisième chapitre. Le premier modèle
dénommé l’histogramme multi-échelle permet de limiter les ambigüités liées à la représentation par
histogramme de couleurs, en injectant une information spatiale implicite permettant de différencier des
objets ayant des distributions de couleur identiques, bien que distribuées différemment d’un point de
vue spatial. Le deuxième modèle, fondé sur une extension de la métrique de Matusita pour la
comparaison de distributions de couleurs, prend en compte les variations possibles des couleurs des
objets liées aux conditions de prises de vues afin de rendre le suivi plus robuste à ce phénomène. Leurs
performances sont étudiées et comparées à celles des approches existantes au sein du quatrième
chapitre.
• Enfin, comment lier le modèle d’apparence et les techniques de recherche de la position
optimale pour l’estimation de mouvements complexes ?
L’extension du suivi à des modèles de mouvement plus complexes que les translations est étudiée dans
le cinquième chapitre dans le contexte de suivi multi-noyaux à travers la proposition d’un nouvel
algorithme de suivi fondé sur une approche compositionnelle inverse. Celui-ci offre un temps de
calcul fortement réduit pour une qualité de suivi similaire aux algorithmes existants.
Chapitre 1
Étude des approches existantes pour les modèles
d’apparence et évaluation des performances de
suivi
Deux aspects indissociables et duaux coexistent dans le problème du suivi d’objets : la
représentation de l’apparence de l’objet connaissant sa localisation et la localisation de l’objet
connaissant son apparence. Le premier concerne la représentation informatique des objets tandis que le
second concerne l’utilisation de cette représentation dans un objectif de localisation. Les approches de
suivi fondées sur l’apparence d’objet diffèrent principalement entre elles par la manière d’aborder les
questions suivantes : quelle représentation d’objet convient pour le suivi ? quelles primitives doivent
être utilisées ? comment modéliser le mouvement, l’apparence et la forme de l’objet? quelles mesures
de similarité doivent être utilisées pour reconnaître l’objet le long de la séquence ? Les réponses
possibles à ces questions dépendent du contexte dans lequel le suivi est réalisé.
Le choix d’un modèle d’apparence est un des problèmes centraux du suivi d’objet visuel. Il
consiste à choisir une représentation pertinente de l’objet, donnant naissance à des primitives visuelles
significatives et fiables qui décrivent le contenu visuel de l’objet tout en permettant de reconnaître cet
objet au cours du temps, malgré des changements des conditions environnementales et des variations
de l’apparence de l’objet le long de la séquence vidéo. Les primitives visuelles sont souvent basées sur
la couleur, la forme, la texture, le mouvement ou une combinaison de ces attributs. L’un des
principaux facteurs qui limite la performance des algorithmes de suivi visuel est la capacité du modèle
d’apparence à rester valide lorsque l’apparence change rapidement. L’absence de cette adaptation peut
en effet entrainer une localisation erronée.
Ce chapitre est organisé de la façon suivante. Après un tour d’horizon des méthodes de suivi
d’objet (section 1.1), nous nous focalisons sur la modélisation de l’apparence de l’objet (section 1.2)
qui est au centre de notre étude. Cette présentation des méthodes de suivi existantes est complétée par
un état de l’art des méthodes d’évaluation des performances. L’évaluation des systèmes de suivi est
abordée à la section 1.3. L’évaluation des modèles d’apparence, thème largement traité dans le
14
contexte de l’indexation d’image, est présentée à la section 1.4. L’ensemble de ces rappels
préliminaires est l’occasion de présenter et d’organiser les travaux antérieurs sur lesquels se basent nos
propositions détaillées dans les chapitres suivants.
1.1 Représentation des objets
De nombreuses méthodes de suivi des objets existent. Ces méthodes se distinguent par la
représentation de la forme et de l’apparence de l’objet. Dans une étude récente [Alper et al, 2006] les
représentations par forme sont classées en trois familles : représentation par points, représentation par
silhouettes et représentation par fenêtres englobantes (Fig. 1.1). Dans chacune de ces méthodes, l’objet
est représenté différemment en utilisant sa forme et son apparence. Dans ce qui suit, nous allons
décrire ces méthodes comme illustré dans la taxonomie (Fig. 1.2), présentée ci-dessous.
Fig. 1.1 Représentation d’objet. (a) centroïde, (b) ensemble de points, (c) fenêtre englobante rectangulaire, (d) fenêtre englobante elliptique, (e) contour.
Fig. 1.2 Taxonomie des méthodes de suivi.
a b c d e
Suivi d’objet
Points Contour
Explicite Implicite Probabiliste Déterministe
Boîte englobante
Statistique Directe
Non-Paramétrique
Paramétrique
15
1.1.2 Points
L’objet est représenté par un point qui est son centroïde [Veenman et al, 2001] ou par un ensemble
de points [Serby et al, 2004]. Généralement, cette représentation par points convient pour suivre des
objets qui occupent de petites régions dans une image.
Dans le cas où, à chaque instant, toutes les cibles visibles peuvent être détectées de façon fiable et
rapide, le problème de suivi peut être défini comme un problème d’appariement de détections entre
images successives. Dans cette catégorie, les approches peuvent être déterministes ou probabilistes.
1.1.2.1 Approches déterministes
Dans les méthodes déterministes, le suivi s’effectue en minimisant une distance calculée sur
certaines caractéristiques de l’objet. Les caractéristiques couramment utilisées sont l’apparence
(similarité de forme et/ou de contenu photométrique et/ou de mouvement). Les modèles d’objet basés
sur l’apparence peuvent être des densités (histogrammes de couleur ou de contour), une carte de
contours (contour ouvert ou fermé de l’objet) ou une combinaison de ces modèles, [Haritaoglu et al,
2000], [Koller et al, 1993]. La mise en correspondance peut aussi être basée sur le mouvement, calculé
par des méthodes de flot optique [Sato et al, 2004].
1.1.2.2 Approches probabilistes
Le mouvement ou l’apparence d’un objet peut légèrement varier au cours du temps. De plus, les
cibles candidates obtenues par un algorithme de détection sont très souvent corrompues par du bruit.
Les méthodes probabilistes permettent de gérer ces fluctuations en ajoutant une incertitude au modèle
de l’objet et aux modèles des cibles candidates. Le suivi d’une cible est alors obtenu par des méthodes
de filtrage (filtrage de Kalman, filtrage particulaire) [Smith et al, 2005].
L’ensemble des méthodes décrites dans cette section ont un faible coût calculatoire qui dépend du
temps de calcul de la phase de détection. Certaines ne peuvent cependant pas être appliquées en ligne
et traitent les séquences hors ligne. L’inconvénient majeur de ces méthodes est qu’elles dépendent
exclusivement de la qualité de la détection. En cas de fausse détection, le suivi est détérioré.
1.1.3 Contour et silhouette
La représentation par contour définit les frontières d’un objet. La région à l'intérieur du contour se
nomme silhouette de l'objet. Ces représentations conviennent pour suivre des formes non rigides
complexes.
Les méthodes de suivi par contour sont utilisées lorsque l’on souhaite extraite la silhouette de
l’objet et que celle-ci se déforme au cours du temps. Ces approches reposent sur une succession de
16
segmentations. Elles font généralement évoluer le contour de l’objet à l’instant précédent jusqu’à sa
nouvelle position à l’instant courant. Ce type de suivi peut se réaliser avec des méthodes utilisant des
modèles d’état ou avec des méthodes minimisant des fonctions d’énergie sur le contour dont le terme
d’attache aux données favorise le positionnement du contour estimé le long des zones à fort gradient
dans l’image.
1.1.3.1 Approches explicites
Un certain nombre de méthodes de suivi par contour cherche à représenter le contour par un
ensemble de paramètres et à le suivre par une méthode de filtrage appropriée. Les paramètres du
contour jouent le rôle du modèle d’état de l’algorithme de filtrage. Les paramètres de mouvement de
son contour sont mis à jour à chaque instant en maximisant l’énergie englobant l’attache aux données
et les a priori de régularisation [Terzopoulos et al, 1993], [Isard et al, 1998], [MacCormick et al,
2000].
1.1.3.2 Approches implicites
Les méthodes décrites ci-dessus utilisent une représentation explicite du contour, qui peuvent être
mises en œuvre avec un coût calculatoire assez faible. Elles peuvent en revanche plus difficilement
suivre les changements topologiques, la division ou la fusion des régions. Des méthodes fondées sur la
minimisation d’une fonctionnelle d’énergie permettent de suivre un contour ou une région malgré des
changements de topologie. La région occupée par la cible peut être définie par un masque binaire
[Paragios et al, 1999]. La fonction d’énergie est définie en utilisant l’information sous la forme de
gradient temporel (flot optique) [Bertalmio et al, 2000] [Mansouri et al, 2002], [Cremers et al, 2003]
ou en se basant sur l’apparence de l’objet [Ronfard et al, 1994], [Alper et al, 2004].
Ces méthodes permettent de suivre tous types d’objets de formes diverses et s’adaptent
relativement bien aux objets déformables. Les méthodes fondées sur une représentation implicite sont
robustes aux changements de topologie des objets mais la minimisation des fonctions d’énergie est
généralement plus coûteuse et la convergence vers un minimum global n’est pas nécessairement
assurée.
1.1.4 Modèle d’apparence sur une région
La forme de l’objet est représentée par une région bornée, telle qu’un rectangle ou une ellipse
[Comaniciu et al, 2003]. Les techniques de suivi considérées dans cette section sont fondées sur la
conservation de l’apparence (généralement couleur et/ou luminance) de l’objet pendant au moins deux
instants consécutifs. Sous l’hypothèse de mouvement rigide, des modèles de transformation d’image
17
par une translation, une transformation affine ou une transformation projective peuvent également être
imposées.
Dans un système de suivi fondé sur une représentation par boîte englobante, cette représentation
géométrique est souvent utilisée. Il permet de se ramener à une boîte rectangulaire dont les côtés sont
parallèles aux bords de l’image. Dans ce cas, on peut définir l’état θ de l’objet comme étant le vecteur
composé du centre de la boîte (xc, yc) et du vecteur (xcs, ycs, xci, yci) où (xcs, ycs) est le coin supérieur
gauche de la boîte et (xci, yci) le coin inférieur droit. L’objet à suivre dans une image de référence Iref
est représenté par une boîte *n,tb . A l’intérieur de cette boîte englobante est calculé un descripteur
caractérisant l’apparence de l’objet. Pour accomplir la tâche de suivi le long de la séquence, le système
de suivi est généralement muni d’une architecture qui comprend trois parties :
• le modèle d’apparence (MA) qui décrit ce à quoi un objet doit ressembler dans une image.
Ce modèle peut être représenté par un couple (descripteur, similarité) ;
• l’algorithme d'optimisation, qui tente d'estimer la position de l’objet en optimisant la
correspondance entre l'apparence courante et le modèle d'apparence de référence ;
• les contraintes spatio-temporelles sur le mouvement de l’objet. Ces contraintes sont
utilisées pour simplifier le suivi. Par exemple, la plupart des algorithmes de suivi supposent
que le mouvement de l’objet suivi est régulier et sans changements brusques. On peut
contraindre le mouvement de l’objet pour se placer à vitesse ou à accélération constante en
se basant sur des informations a priori.
Fig. 1.3 Le suivi d'objets vu comme un problème d'optimisation
fonctionnelle à optimiser f(x,y)=f(q,p(x,y))
Descripteur référence q
Descripteurs hypothèses p(x,y)
Frame tref
Surface de similarité
Frame t
18
Dans le cadre de cette thèse nous nous intéressons plus particulièrement aux modèles d’apparence
et aux algorithmes d’optimisation. Le problème des contraintes spatio-temporelles a beaucoup été
étudié au niveau des méthodes de mise en correspondance de points d’intérêts, où elles jouent un rôle
majeur. L’apparence des points ne permet pas dans certains contextes, de les différencier [Veenman et
al, 2001]. Dans le cas où l’apparence de l’objet permet à la fois de le reconnaître et de le localiser, de
telles contraintes apparaissent moins centrales et servent dans les cas les plus simples à prédire
uniquement une initialisation pertinente de la position de l’objet dans une nouvelle image [Sigal et al,
2004] ou bien à améliorer le suivi dans des contextes complexes présentant des occultations
temporaires des objets considérés [Bennett et al, 2008].
1.2 Modèles d’apparence pour le suivi
Etant donnée une approche par boîte englobante, la qualité d’un système de suivi est fortement
conditionnée par le choix d’un modèle d’apparence adapté. Il ne s’agit pas de coder toute
l’information véhiculée par l’objet mais de se concentrer sur l’information qui permet de définir un
critère objectif efficace pour déterminer la position réelle de l’objet suivi dans l’image. Sans dissocier
l’extraction des attributs de la structuration de l’information sous forme de descripteurs et de
l’utilisation de cette représentation pour la localisation, une des clés de la représentation efficace est
l’identification de caractéristiques primaires en accord avec le type et le but du suivi visé par le
système.
1.2.1 Attributs
Une littérature abondante existe sur les attributs destinés à la représentation d’objets, de telle sorte
qu’il est difficile d’en extraire une revue exhaustive. L’analyse du signal se focalise généralement
autour de caractéristiques simples, intuitives et génériques telles que la couleur, la texture, la forme, la
géométrie et la topologie. La structuration de cette information sous forme de descripteurs est étudiée
au paragraphe 2.3.
1.2.1.1 Caractéristiques de couleur
La couleur, de par son pouvoir discriminant, est un des attributs les plus utilisés en représentation
d’objets.
Les auteurs se concentrent autour de quelques grands thèmes tels que l’identification de l’espace
couleur le plus discriminant [Allen et al, 2004], l’étude des problèmes d’invariance aux conditions
19
d’illumination [Lee et al, 2001] ainsi que la combinaison avec des attributs complémentaires tels que
la texture [Takala et al, 2007] ou l’information spatiale [Zhao et al, 2005].
Le premier point concerne le choix de l’espace colorimétrique. La littérature dense sur cet aspect
montre qu’il n’a y a pas d’espace couleur idéal pour la représentation. Si certains auteurs [Comaniciu
et al, 2003] [Georgescu et al, 2004] utilisent l’espace RGB, d’autres font le choix de projeter les
images dans des espaces colorimétriques alternatifs caractérisés par des propriétés différentes. Ainsi,
l’espace HSV séparant l’information relative à la teinte, la saturation et l’intensité est communément
utilisé [Allen et al, 2004]. Les espaces définis comme perceptiblement uniformes tels que CIELab sont
aussi considérés [Haoting et al, 2006]. Certains travaux se singularisent par l’utilisation de
composantes isolées des espaces précédents et par l’utilisation combinée de celles-ci [Collins et al,
2003].
La représentation d’objets peut nécessiter une invariance à l’illumination. Les variations induites
entre deux prises de vue du même objet dépendent de contraintes dites internes et de contraintes dites
externes à la source de lumière [Gros et al, 1997]. Dans le premier cas, il s'agit de variations d'intensité
et/ou de couleur de la lumière émise par la source alors que dans le second cas, il s'agit de
changements de position de la source par rapport à la scène photographiée. Alors que l'espace RGB est
sensible à ces changements d'illumination, la composante Hue de l'espace HSV offre une meilleure
invariance.
1.2.1.2 Caractéristiques de texture
Il n’existe pas de définition unique de ce qu’est une texture. Cependant, l’information qu’elle
véhicule concerne la manière dont les couleurs sont organisées sur la surface d’un objet en répétition
d’éléments. Une texture est généralement modélisée comme « une structure spatiale constituée de
l’organisation de primitives ayant chacune un aspect aléatoire » [Gagalowicz et al, 1983]. Une texture
peut avoir un aspect périodique ou aléatoire. La prise en compte de ce type de caractéristiques pour
représenter un objet est courante et discriminante dans de nombreux cas. A titre d’exemple, ce type
d’information est utilisé pour le suivi d’objet dans les travaux de [Takala et al, 2007]. Le problème de
l’utilisation de la texture est le coût calculatoire qu’elle engendre : en général les algorithmes proposés
ne fonctionnent pas en temps réel.
De nombreuses méthodes sont référencées dans la littérature pour la décomposition de l'image et le
calcul de caractéristiques texturales. Parmi les plus connues, on trouve la décomposition en ondelettes
utilisée par [Chang et al, 2001]. Les modèles multi-échelles sont également couramment utilisés, ainsi
que les filtres de Gabor [Stamou et al, 2005].
20
1.2.1.3 Caractéristiques de forme
Au même titre que pour la texture, l’information de forme est complémentaire de celle de la
couleur. Elle nécessite au préalable une segmentation, dont les caractéristiques sont dépendantes de
l’application visée. Une fois un masque de segmentation obtenu sur la région d’intérêt, la forme de ce
masque peut être caractérisée afin d’associer un descripteur à la région qui a donné lieu à ce masque.
Les descripteurs fondés sur l’intérieur du masque de segmentation caractérisent l’intégralité de la
forme d’une région, par exemple à travers les moments invariants [Hu et al, 1962]. Ces attributs sont
robustes aux transformations géométriques comme la translation, la rotation et le changement
d’échelle. Les descripteurs fondés sur le contour du masque font référence aux descripteurs de Fourier
[Persoon et al, 1977].
1.2.1.4 Caractéristiques hybrides
Pour gagner en robustesse, certains combinent des primitives de type contour et d’autres de type
texture pour effectuer le suivi. Ainsi, par exemple [Takala et al, 2007] utilisent un modèle hybride
pour réaliser le suivi en temps réel : des primitives de type mouvement sont combinées à des
primitives texturées pour assurer un suivi de meilleure qualité que s’il était effectué avec un seul des
deux types de primitives.
1.2.2 Approches pour la description d’apparence
Nous distinguons deux approches : l’approche utilisant une représentation directe qui fait
l’hypothèse de la conservation locale de l’apparence (en chaque point de l’objet) et l’approche fondée
sur une représentation statistique utilisant une caractérisation globale de la cible (hypothèse globale de
conservation de l’apparence). Ces deux approches peuvent être potentiellement combinées au sein
d’un même algorithme hybride, mais la plupart des méthodes peuvent être classées dans l’une ou
l’autre de ces catégories.
1.2.2.1 Approches directes
La première catégorie d’approches regroupe celles qui consistent à utiliser directement les valeurs
des intensités engendrées par la surface de l’objet. Les valeurs des intensités sont extraites à partir des
points de l’image appartenant à l’objet. Ces points forment la région de référence R=(x1, x2,…, xn)T,
où xi= (xi, yi) est un point 2D et n est le nombre de pixels de la région R. L’intensité en niveaux de gris
d’un point x à l’instant t est donnée par la fonction I (x, t). Le vecteur I (R, t) qui contient les intensités
de la région entière R à l’instant t est nommé template.
21
Un avantage des templates est qu'ils incorporent l'information spatiale et l’information sur
l'apparence des objets. Certaines variantes utilisent des représentations dans un domaine transformé
déduites de la représentation template permettant de conserver ces propriétés, tout en diminuant la
taille du descripteur. Ainsi, [Château et al, 2002] se fondent sur les coefficients d’ondelettes de Haar.
Ces modèles considèrent l’apparence de l’objet à partir d’un seul point de vue. Ainsi, ils sont
seulement appropriés pour suivre des objets dont la pose ne change pas considérablement pendant le
suivi. Pour pallier cette limite, plusieurs auteurs proposent des représentations construites à partir de
différentes vues d'un objet. Une approche pour représenter un objet consiste à générer un sous-espace
de l’apparence par apprentissage à partir d’un ensemble de vues. Des approches par sous-espaces,
comme l'analyse en composantes principales (ACP) ou l'analyse en composantes indépendantes (ACI),
ont été utilisées pour cette tâche [Mughadam et al, 1997] [Black et al, 1996].
Une autre approche pour prendre en considération les différentes vues d'un objet est l’apprentissage
d'un ensemble de classifieurs fondés par exemple sur les machines à vecteur de support [Avidan,
2001] ou les réseaux bayésiens [Park et al, 2004]. Toutefois, ces modèles d'apparence multi-vues
nécessitent un nombre important de vues de référence afin de modéliser correctement l’ensemble des
variations d’apparence possible du template.
Ces méthodes font l’hypothèse de la conservation de luminance. L’approche la plus simple consiste
à chercher dans l’image courante, la portion d’image la plus proche de celle qui a été retrouvée à
l’instant précédent. La recherche s’effectue souvent autour de la position de l’objet à l’instant
précédent. Ces approches sont appelées "block matching" ou "template matching". Elles font appel à
une mesure de similarité telle que la corrélation ou la SSD ("sum of square differences"). Le coût de
calcul de ce type de méthodes peut être élevé. Il dépend de la taille du voisinage dans lequel le
template est recherché.
Plus formellement, Le template à l’instant t0 est désigné comme template de référence. La mise en
correspondance de templates peut être décrite en tant que calcul des paramètres de mouvement θθθθ (t)
qui minimisent la différence d’intensité au sens des moindres-carrés entre le template de référence et
le template courant :
( ) ( ) ( )( )20
* ,,,minarg tgtt θRIRIθθ
−= (1.1)
La fonction g(R,θθθθ) produit une transformation géométrique 2D de la région, paramétrée par le
vecteur θ. Plusieurs transformations peuvent être considérées, par exemple, allant d’un déplacement
uniforme (translation), aux transformations affines ou projectives (incluant rotations, zoom et
cisaillement). [Baker et al, 2001]. Les modèles actifs d’apparence (AAM) utilisent une approche très
similaire, où la transformation paramétrique est plus complexe, impliquant la déformation d’un
maillage [Baker et al, 2004].
22
La minimisation de l’équation 1.1 a un coût calculatoire élevé si elle s’effectue par une recherche
exhaustive. Des algorithmes de recherche sous-optimaux ont ainsi été très largement étudiés,
notamment dans le contexte de la compression vidéo par compensation du mouvement par blocs. Ces
algorithmes diminuent le nombre d’hypothèses à évaluer en formulant des hypothèses sur la régularité
spatiale ou temporelle des vecteurs de mouvement, ou sur la régularité de la fonctionnelle à minimiser.
Cette approche comprend notamment la recherche en diamant, en trois pas ou adaptative [Zhu et al,
1997].
Pour réduire d’avantage la complexité calculatoire, d’autres algorithmes utilisent une approche
ascendante, en effectuant une optimisation locale de l’erreur d’alignement. Ainsi, plusieurs méthodes
estiment le paramètre θ par une résolution de système linéaire :
( ) ( ) ( ) ( ) ( )( )( )( )ttgftfttt ,,, 1ˆ1ˆ0 θRRAθθ −++=+ (1.2)
La matrice A peut être calculée par une approche des moindres carrés. Il est à noter que A peut être
estimée indépendamment du temps [Baker et al, 2004] pour des implémentations temps réel [Jurie et
al, 2002]. Une approche analytique pour calculer la matrice A est proposée par [Hager et al, 2004].
Les templates sont conçus en utilisant des formes géométriques simples. Un avantage des templates
est qu'ils comportent l'information spatiale et l’information d'apparence. Cependant, ils codent
seulement l'apparence d’un objet générée à partir d'une vue unique. Ainsi, ils sont essentiellement
appropriés pour suivre des objets dont l’aspect ne se modifie pas considérablement durant le suivi. En
conséquence, cette approche est généralement utilisée pour un suivi court-terme.
1.2.2.2 Approches statistiques
La seconde catégorie d’approches par représentation de l’apparence d’un objet regroupe les
méthodes statistiques où cette apparence est modélisée par une variable aléatoire dans un espace des
attributs (couleur, texture, information spatile, …) avec une fonction de densité de probabilité
associée.
Les estimations de la densité de probabilité de l'apparence d'un objet peuvent être paramétriques, par
exemple des gaussiennes [Wern et al, 1997] ou un mélange de gaussiennes [Paragios et al, 2002], ou
non paramétriques, telles les fenêtres de Parzen [Elgammal et al, 2000] et les histogrammes
[Comaniciu et al, 2003].
La recherche de la cible à l’instant courant se base sur des distributions (histogrammes ou mélange
de gaussiennes) des couleurs dans une boîte englobante. Une méthode très populaire dans cette
catégorie est le suivi par Mean Shift [Comaniciu et al, 2003] (Annexe A). La distribution est
représentée par un histogramme de couleurs. L’algorithme consiste alors à déplacer une fenêtre
23
d’analyse (noyau spatial) de manière à déterminer la fenêtre dont l’histogramme coïncide le mieux
avec l’histogramme de référence. La similarité entre l’histogramme de référence et l’histogramme
candidat est mesurée par le coefficient de Battacharyya. Le déplacement du noyau est controlé par une
montée de gradient itérative. Plus récemment, une méthode permettant le suivi de distributions sans
calculer explicitement les distributions a été proposée dans [Boltz et al, 2007]. Elle consiste à ajouter,
en plus de la couleur, une information sur la géométrie des objets. L’estimation des densités de
probabilité en grande dimension n’étant pas triviale, les auteurs proposent une méthode permettant de
calculer une distance de Kullback-Leibler entre deux densités de probabilités sans estimer
explicitement ces densités.
Plus formellement, l’objet cible est identifié par une région d’image R(θθθθ(t)), où θθθθ(t) contient les
paramètres temporels de la région, également désigné sous le nom d’état de la région. Un exemple
simple pour la région R(θθθθ(t)) est un rectangle à dimensions fixes. L’état de la région θθθθ(t)= (mx (t),
my(t))T est le centre de ce rectangle à tout instant t. Avec ce simple modèle, la translation d’une région
de la cible peut être facilement décrite en estimant θθθθ(t), c'est-à-dire le centre de gravité du rectangle, à
tout instant t. Si la taille de la région est également incluse dans l’état, l’estimation de l’échelle est
possible.
L’information contenue dans la région est utilisée pour modéliser l’objet suivi, mais au lieu de se
concentrer sur les valeurs des différents pixels, une distribution est utilisée. L’information peut
comprendre la couleur, l’intensité, ou d’autres attributs comme le gradient. A chaque instant t et pour
chaque état θθθθ(t), la représentation de l’objet suivi se compose d’une fonction de densité de probabilité
p(θθθθ(t)) des attributs choisis à l’intérieur de la région R(θθθθ(t)). Dans la pratique, cette fonction de densité
doit être estimée à partir des données issues de l’image. Pour des raisons de performance, un
histogramme pondéré de m classes est utilisé comme une estimation non-paramétrique de la densité
effective :
( )( ) ( )( ) ( )( ) ( )( )[ ]tqtqtqtq N θθθθ ,,, 21 K= (1.3)
Le suivi d’objet se définit alors comme un problème d’optimisation. En commençant par une
région initiale cible, - par exemple définie manuellement ou automatiquement dans la première image
à l’insatnt t=t0 - un histogramme initial q(θθθθ(t0)) peut être calculé . Pour t>t0, la région correspondante
est définie par :
( ) ( )( ) ( )( )( )ttDtt
θqθqθθ
,minargˆ0
)(= (1.4)
• avec D(.,.) une fonction de distance appropriée définie sur des histogrammes.
De plus, les algorithmes de type Mean Shift sont peu coûteux. Cependant, la description d’une
cible par des distributions n’est pas adaptée aux objets de petite taille.
24
1.2.3 Descripteurs statistiques de la couleur
Nous nous focaliserons ici sur les modèles se fondant sur la représentation statistique de la couleur,
pour lesquels nous proposerons des améliorations dans la suite du mémoire, visant à en améliorer la
prise en compte de l’information spatiale, tout en conservant une approche de description globale.
1.2.3.1 Histogramme
L'histogramme couleur d'un objet est l’une des représentations décrivant son apparence. Il permet
de représenter statistiquement la distribution des couleurs des pixels, c'est-à-dire la proportion de
pixels répartis sur un ensemble de classes de couleurs, comme illustré sur la figure (Fig. 1.4).
L’histogramme a été fréquemment utilisé pour la reconnaissance d'objets [Swain et al, 1991]. C’est
aussi un outil privilégié dans les systèmes de recherche d’images et de séquences dans des bases de
données visuelles [Bach et al, 1996]. C’est enfin un outil primordial dans les systèmes de suivi
[Comaniciu et al, 2003], [Bradski et al, 1998].
Le succès des approches par histogramme provient de leur faible complexité calculatoire associée à
une bonne robustesse vis-à-vis du bruit et de leur invariance aux rotations et aux changements
d’échelle.
Dans la plupart des applications, l’histogramme est calculé sur une région d’intérêt définie par une
forme géométrique simple (rectangle, ellipse) englobant un objet. Soit R=(x1, x2,…, xn)T cette région.
Soit I (xi) la couleur du pixel i. Soit U un ensemble de m classes de l'espace de couleur utilisé (RVB,
HSV, LUV, etc.), card(U)=m, la uième classe est caractérisée par sa fonction indicatrice δu(c) qui vaut 1
pour une couleur c associée au bin1 u et 0 sinon.
• Avec ces définitions, l’histogramme pour un bin u est défini par :
( )∑=
=n
iuu Cp
1)( ixIδ (1.5)
• où C est un facteur de normalisation tel que ∑=
=m
uup
11 .
Ainsi, nous pouvons représenter un m-histogramme des couleurs d'un objet par la concaténation
des valeurs des bins :
mupu ,,1| K=≡p (1.6)
1 Ici et par la suite, le vocable bin est utilisé en tant que synonyme de classe.
25
(a) (c)
(b) (d)
Fig. 1.4 Histogramme : (a) : image RGB, (b) : histogramme RGB, (c) : image en niveaux de gris, (d) : histogramme en niveau de gris.
1.2.3.2 Histogramme pondéré
La région d’intérêt peut dans certains cas englober l’objet d’intérêt et des éléments du fond. Pour
limiter l’influence du fond et privilégier l’information pertinente, il est possible de calculer un
histogramme pondéré. Plus les pixels sont loin du centre de l’objet, plus le poids pris en compte dans
l’histogramme final est faible.
L’histogramme pour un bin u est défini par :
( )∑=
=n
iiuiu Cq
1)( )( xIxK δ (1.7)
Où K est un noyau spatial associant un poids à chaque position spatiale xi : les noyaux typiques
sont le noyau uniforme sur la région d’intérêt, le noyau d’Epanechnikov, utilisé dans [Comaniciu et al.
2003], ou le noyau gaussien (Fig. 1.5). Dans la suite de ce mémoire, on parlera d’histogramme de
couleurs (CH) et d’histogramme de niveaux de gris (GH) pour les histogrammes utilisant un noyau
uniforme, et d’histogramme de couleurs pondéré (WCH) ou d’histogramme de niveaux de gris
pondéré (WGH) si un autre type de noyau est utilisé.
26
Fig. 1.5 Exemple de construction d’un histogramme pondéré par un noyau gaussien d’une image en niveau de gris. l’intensité est quantifiée en 4 niveaux
Cependant, l’histogramme présente la caractéristique de ne coder aucune information spatiale, sauf
le choix implicite de la région d’intérêt.
Ceci présente l’avantage de donner une représentation invariante aux transformations spatiales
affines et relativement peu sensible aux transformations non rigides qui modifient peu les surfaces
apparentes relatives aux différentes parties d’un objet. Le caractère discriminant du descripteur risque
cependant de s’affaiblir en raison de cette invariance, ce qui nous confronte au dilemme
robustesse/sensibilité.
L’histogramme tend alors à donner des résultats insuffisants pour le processus de suivi lorsque les
couleurs ou les niveaux de gris de l’objet ne sont pas suffisamment contrastés par rapport au fond.
Deux objets peuvent être différents, tout en ayant des histogrammes semblables. Ils peuvent en effet
n’être différenciés que par des différences d’arrangement des pixels dans les fenêtres (Fig. 1.6).
Le deuxième inconvénient est que le choix du nombre de classes (bins) d’un histogramme est
délicat. Un trop faible nombre de classes détruit de l’information et aboutit à supprimer les contrastes
pouvant exister entre certains objets de la scène étudiée ; à l’inverse, un trop grand nombre de classes
aboutit à des graphiques incohérents où toutes les classes sont faiblement représentées. Cette
0.25 0.5 0.25
0.5 1 0.5
0.25 0.5 0.25
3 2 0
2 1 0
0 3 1
Noyau gaussienne au centre Image
Masque du noyau au centre de l’image
Image quantifiée
P0=(0.25+0.5+0.25)/C
P1=(0.5+0.5)/C
P2=(0.25+1)/C
P3=(0.5+0.25)/C
P0+ P1+ P2+ P3=1
C=0.25×4+0.5× 2+1=4
27
problématique de la détermination d’un nombre optimal de classes pour un histogramme a été étudiée
dans les travaux de [Birgé et al, 2002].
De plus, en cas de perturbation des données, l’histogramme d’un objet peut se trouver translaté
d’une classe par rapport à un histogramme modèle du même objet calculé par exemple sur la première
image de la scène, les deux histogrammes ne seront alors plus similaires. La discrétisation en un
nombre de classes trop important rend ce dernier phénomène plus fréquent, et aboutit notamment à un
manque de robustesse vis-à-vis des changements d’illumination de la scène ou des changements
d’apparence de l’objet. L’utilisation d’une mesure de similarité intégrant une comparaison inter-bins
entre les histogrammes permet d’être moins sensible à de tels phénomènes.
Fig. 1.6 Deux objets différents ayant le même histogramme.
En outre, pour compenser l’incapacité des histogrammes à rendre compte de l’information de
structure spatiale, plusieurs auteurs ont proposé une description statistique d'ordre supérieur
incorporant cette information. Dans ce qui suit, nous présentons des descripteurs couleur intégrant des
contraintes spatiales.
1.2.3.3 Spatiogramme
Le spatiogramme présenté par [Birchfield et al, 2005] dans le contexte du suivi d'objets étend
l'histogramme en incluant une composante spatiale. Un spatiogramme enregistre pour chaque bin la
moyenne et la covariance des positions des pixels qui contribuent à ce bin (Fig. 1.7). Nous définissons
le spatiogramme d'un objet comme ( )Uuuuu ,,pp ∈><= Σµ 2 où pu est proportionnel au nombre de
pixels qui appartiennent au uième bin, µu et Σu sont respectivement les vecteurs moyens des
coordonnées des pixels participant à ce bin et leur matrice de covariance. Ces paramètres sont calculés
comme suit :
( )∑=
=n
iiuu Cp
1)(xIδ (1.8)
( ))(
))((
1
1
1
iu
n
iin
jju
u xIx
xI
µ δδ
∑∑ =
=
= (1.9)
Objet 1 Objet 2
28
( )( ) ( ))(
))((
1
1
1
iu
n
i
Tuiuin
jju
u xIµxµx
xI
Σ δδ
∑∑ =
=
−−= (1.10)
• où C est une constante de normalisation telle que 11 =∑ =mu up .
Fig. 1.7 Spatiogramme
Le spatiogramme comparé à l’histogramme traditionnel contient une description plus riche de
l’objet et peut donc augmenter la robustesse du suivi aussi longtemps que la description spatiale des
couleurs de l’objet suivi demeure relativement stable. Cependant, le spatiogramme est également plus
vulnérable à la grande variabilité spatiale de la distribution des couleurs. Le spatiogramme est aussi
très sensible aux changements d’illuminations, surtout avec l’utilisation d’une mesure de similarité
non adéquate entre deux spatiogrammes [Conaire et al, 2007].
1.2.3.4 Histogrammes régionaux
L’histogramme étant une distribution de premier ordre, il ne peut donc pas distinguer des surfaces
couleur de distribution équivalente mais avec des repartions spatiales différentes (Fig. 1.6). Pour
pallier ce problème, plusieurs méthodes proposent de décomposer l’image en sous-images afin
d’incorporer l’information spatiale, même partiellement.
Après décomposition, à chaque sous-image est associé son histogramme couleur. Les descripteurs
ci-dessous comportent plusieurs sous-régions. Le calcul d’histogramme sur des régions prend en
compte une description plus fine de la répartition géométrique des couleurs dans une image que dans
le cas de l’histogramme traditionnel.
Ainsi, un histogramme pondéré est défini par la formule suivante :
( )∑=
=n
iuiu Cp
1)( ixIδωω
ω (1.11)
• où ωup est la valeur d’un bin u dans l’histogramme, pondéré par la mesure ωi. Les méthodes
diffèrent par le choix des modalités de pondération et le nombre de modalités utilisées.
29
L’histogramme multipartite fournit une représentation d'un objet fondée sur plusieurs
histogrammes de couleur calculés sur différentes régions de l’objet. La région de support de l’objet
étant divisée en N sous-régions, un histogramme multipartite peut être défini comme :
,N,kk K1| == pp (1.12)
• où pk est l'histogramme calculé sur la kième sous-région défini par le vecteur
mupku
k ,,1| K==p .
Par exemple, [Maggio et al, 2005] calculent sept histogrammes sur différentes régions d’un objet
représenté par une ellipse (Fig. 1.8).
Fig. 1.8 Représentation multipartite utilisée par [Maggio et al, 2005]. (a) entière, (b) division sensible à la rotation, (c) division sensible à la taille.
Alternativement, [Fang et al, 2003] proposent une division en cinq sous-régions pour détecter le
visage humain dans une image (Fig. 1.9).
Fig. 1.9 une image de visage est divisée en plusieurs régions avec recouvrement (d’après [Fang et al. 2003]).
Cette approche est également utilisée pour le suivi multi-noyaux [Georgescu et al, 2004] [Hager et
al, 2004] [Guskov et al, 2006], où la pondération ωi représente un noyau spatial lisse, afin que
l’expression de la distribution estimée soit dérivable par rapport à la position du noyau. Ceci est
nécessaire pour pouvoir mettre en œuvre des techniques d’optimisation locale itératives efficaces. De
1
a b c
2 3
4 5 6 7
30
plus, plusieurs noyaux sont utilisés, ce qui permet l’estimation non seulement d’une translation, mais
également de paramètres supplémentaires tels que rotation et changement d’échelle
L’histogramme cumulé [Boujemaa et al, 2001] est utilisé dans le contexte de l’indexation. Il adopte
l’approche de découpage en sous-régions, sur lesquelles des histogrammes sont calculés puis cumulés
afin de produire une distribution unique de description.
Une autre possibilité consiste à distinguer les sous-régions à partir de critères locaux calculés sur le
contenu de l’image. Ainsi, chaque pixel i est pondéré par une mesure ωi quantifiant son appartenance à
un type de structure. Les critères incluent la distinction en région uniforme ou non uniforme, en
pondérant par la probabilité d’occurrence dans un voisinage [Ferecatu, 2005], le laplacien de l’image
[Boujemaa et al, 2001], ou la cohérence de couleur [Pass et al, 1996].
1.2.4 Mesures de similarité
La définition d’une similarité est la deuxième face de la définition d’un modèle d’apparence. En
effet, une fois l’apparence de l’objet représentée numériquement sous la forme d’un descripteur, il faut
pouvoir comparer un tel descripteur à un modèle de référence afin de quantifier s’il s’agit bien de
l’objet cible ou pas. Cette comparaison doit être robuste aux altérations dues au bruit, de distorsions
spatiales, ou d’autres phénomènes physiques. Le but est de définir une mesure de similarité (ou de
dissimilarité) permettant au système d’effectuer une telle évaluation à la fois de façon fiable et rapide.
La définition commune de la similarité perçue en psychologie est celle d’une fonction de distance d
évaluant la dissimilarité entre les objets dans un espace psychologique.
Soient O1, O2 et O3 trois objets, SO1, SO2 et SO3 les apparences de tels objets dans un espace
perceptuel, les propriétés usuelles de la fonction d sont les suivantes (axiomes de métrique) :
)similarité-(auto ),(),( 2211 OOOO SSdSSd = (1.13)
é)(minimalit ),(),( 1121 OOOO SSdSSd ≥ (1.14)
(symétrie) ),(),( 1221 OOOO SSdSSd = (1.15)
ire) triangula(inégalité ),(),(),( 313221 OOOOOO SSdSSdSSd ≥+ (1.16)
Chacune de ces quatre propriétés a été largement analysée, étudiée et critiquée par différentes
théories de la similarité [Patella, 1999]. Un modèle de similarité doit être suffisamment objectif (dans
le sens où il imite efficacement le comportement perceptuel humain) et efficace (dans le sens où il
permette de calculer rapidement une mesure de similarité)
31
Dans la suite, nous abordons les problèmes de mesure de similarité (ou de dissimilarité) entre
l’objet cible représenté par p=(p1, p2, …, pm) et les objets candidats q=(q1,q2, …, qm). Nous ne dressons
pas la liste exhaustive des diverses mesures possibles. Parmi celles-ci, nous distinguerons plusieurs
catégories de mesures :
• les mesures dans un espace vectoriel générique, adaptées à des représentations vectorielles
directes, telles que les templates,
• les mesures adaptées à des représentations de la distribution statistique des attributs, parmi
lesquelles nous distinguerons les approches bin-à-bin (pour lesquelles les fonctions de
densité de distribution sont comparées pour des valeurs d’attribut correspondant
exactement) et les approches inter-bins (pour lesquelles une certaine flexibilité est
autorisée dans la mise en correspondance de valeurs d’attribut voisines).
1.2.4.1 Mesures dans un espace vectoriel
Distance de Minkowski d’ordre k
La métrique de Minkowski est une famille de mesures de distance qui est une généralisation de la
distance euclidienne.
( ) km
u
kuukL qpd ∑
=−=
1,qp (1.17)
La distance la plus connue et la plus largement utilisée dans cette famille est la distance euclidienne
dL2. D’autres distances fréquemment utilisées dans ce groupe sont dL1 qui est connue sous le nom de la
distance de Manhattan et dL∞ sous le nom de la distance maximale. Ces distances sont facilement
calculables en O(m). Elles ne sont pas limitées aux histogrammes. Lorsque le descripteur est une
imagette, on retrouve ainsi la distance L1 sous le nom de SAD (Sum of Absolute Difference) et la
distance L2 sous le nom de SSD (Sum of Square Difference), couramment utilisées dans la
compensation de mouvement par bloc (Bloc Matching Algorithms). La SSD est à la base de la
technique de suivi de [Lucas et al, 1998]. La distance de Minkowski est également la métrique la plus
répandue dans les systèmes de la recherche d’images par le contenu.
Mesures robustes
Les mesures robustes prennent en compte la possibilité de présence de certaines valeurs aberrantes
et tentent de limiter leur influence sur la mesure d’écart.
En particulier les distances robustes associées aux M-estimateurs [Scott, 1992] prennent la forme :
( ) ( )∑=
−=m
uuu qpd
1, ρρ qp (1.18)
• où ρ est une fonction de pondération des erreurs qui limite l’influence des erreurs trop
importantes, à l’image de la fonction biweight de Tukey (Fig. 1.10).
32
Fig. 1.10 Fonction de poids ρρρρ pour différents M-estimateurs.
1.2.4.2 Mesures bin à bin pour distributions
Les descripteurs de distribution (de couleurs notamment) ont, par rapport à un vecteur de
description générique, la propriété additionnelle d’être à valeurs positives, et de pouvoir être
normalisés sous la forme Σu pu =1. Les mesures bin à bin de distributions prennent en compte cette
spécificité, tout en conservant le point de vue vectoriel sur le descripteur, c'est-à-dire en comparant
seulement les bins de même indice des histogrammes cible et candidat.
Les mesures de comparaison bin à bin pour des histogrammes sont souvent rapides à calculer mais
étant donné qu’elles comparent seulement les bins de même indice elles sont mal adaptées pour
capturer des similarités inter-classes.
Par exemple, sur la figure (Fig. 1.11) la distance entre les histogrammes (a) et (b) est la même que
la distance entre les histogrammes (a) et (c), alors que intuitivement (a) et (b) devraient être plus
similaires, compte tenu d’une possible variation des couleurs dues à des évolutions de l’éclairage de
l’objet.
(a) (b) (c) Fig. 1.11 Trois histogrammes équidistants pour toute mesure bin à bin, bien que (a) et (b) correspondent à deux distributions de couleurs intuitivement plus similaires que (a) et (c).
0
0,2
0,4
0,6
0,8
1
1,2
1 2 3 4 5 6 7
couleur
Pro
babi
lité
0
0,2
0,4
0,6
0,8
1
1,2
1 2 3 4 5 6 7
couleur
Pro
babi
lité
0
0,2
0,4
0,6
0,8
1
1,2
1 2 3 4 5 6 7
couleur
Pro
babi
lité
33
Distance de Bhattacharyya
Le coefficient de Bhattacharyya [Kailath, 1967] est défini par :
( ) ( ) 1,0 ,, ,1
≤≤∀= ∑=
qpqp ρρ qpqpm
uuu (1.19)
Le coefficient de Bhattacharyya a une interprétation géométrique directe par rapport aux deux
distributions. Pour deux vecteurs m-dimensionnels unitaires Tmpp ),,(' 1 K=p et
Tmqq ),,(' 1 K=q ( 1''
22== qp ). Ce coefficient est égal au cosinus de l'angle θ entre les vecteurs
'p et 'q .
∑=
===m
uuu
Tqp
122' '
''cos
qp
qpθρ (1.20)
La distance de Bhattacharyya entre deux histogrammes peut s'évaluer en utilisant l'expression :
ρ−= 1Bhad . (1.21)
Cette distance est utilisée plus particulièrement dans les travaux de [Comaniciu et al, 2003] pour
mesurer la similarité entre deux histogrammes dans le contexte du suivi d’objet.
Distance de Matusita
La distance de Matusita est définie par l’équation suivante :
( ) 2
12
1),(
−= ∑=
m
uuuMat qpd qp (1.22)
Lorsque p et q sont normalisés, notons que la distance de Bhattacharyya et la distance de Matusita
sont équivalentes à un coefficient près :
10 avec 2 <<= MatBhaMat ddd (1.23)
La distance de Matusita est notamment utilisée dans les travaux de [Hager et al, 2004] pour du
suivi d’objets à partir de distributions de couleurs multiples.
Intersection d’histogrammes
Si les objets sont décrits par des histogrammes, les distances géométriques peuvent être utilisées.
Cependant, il est possible de définir des mesures de similarité propres à cette représentation. Ainsi
l’intersection d’histogrammes est une mesure de distance particulièrement bien adaptée pour comparer
34
des histogrammes. Elle a été proposée par [Sawain et al, 1991] dans le cadre de l’indexation couleur
selon la formule suivante :
( )( )
∑
∑
=
==m
uu
m
uuu
q
qp
1
1,min
,Intersec qp (1.24)
Cette fonction est une mesure de similarité : deux images qui présentent des histogrammes dont
l’intersection est proche de 1 sont considérées similaires.
La mesure de dissimilarité est définie à partir de la mesure d’intersection par la formule suivante :
),(Interse1),( qpqp cd −=∩ (1.25)
Cette mesure d’intersection n’est pas une distance, car elle ne respecte pas l’axiome de symétrie.
Néanmoins, il est toujours possible de symétriser ce type de mesures afin de se ramener à une
distance. [Smith, 1997] propose, par exemple, la distance suivante :
),min(
),min(
1),(
11
1
∑∑
∑
==
=−=m
uu
m
uu
m
uuu
Smi
qp
qp
d qp (1.26)
Par ailleurs, [Sawain et al, 1991] ont montré l’équivalence entre d∩(p, q) et la métrique L1 dans le
cas où les histogrammes sont normalisés ( 111 == ∑∑ ==mu u
mu u qp ).
L'intersection d'histogrammes est proposée par [Sawain et al, 1991] pour la recherche d’images
couleur dans les bases de données. Les couleurs qui ne sont pas présentes dans le modèle cible ne
contribueront pas à calculer la distance. Ceci peut diminuer la contribution des couleurs du fond de
l’image.
Divergence de Kullback-Leibler et divergence de Jeffrey
La divergence de Kullback-Leibler (DKL) [Kullback, 1959] ou entropie relative est définie par :
( )u
um
uuDKL q
ppd log,
1∑=
=qp (1.27)
• Cette mesure est issue de la théorie de l'information. Elle peut être interprétée comme la
complexité qu’il y a à transformer une distribution en une autre en utilisant un livre de code.
La DKL n’est pas une distance, car elle ne vérifie pas l’axiome de symétrie (dKL(p,q)≠
dKL(q,p)). Elle est donc sensible au partitionnement de l'histogramme et peut être instable en
pratique à cause des valeurs de qu nulles ou proches de zéro. Il est plus intéressant de
considérer la divergence de Jeffrey (DJ) qui est une version symétrique de la DKL. La DJ est
numériquement stable et robuste en présence de bruit. Elle est définie par l’équation :
( )u
uu
u
um
uuDJ m
m
ppd loglog,
1+= ∑
=qp (1.28)
35
où 2
uuu
pqm
+= .
1.2.4.3 Mesures inter bins pour distributions
Les distances bin à bin sont sensibles aux distorsions (changement de luminosité, bruit, …) car
elles souffrent de l’effet de la quantification. Les mesures précédentes ont l'inconvénient de comparer
uniquement les bins de même indice. Les distances inter-bins, quant à elles, permettent une
comparaison entre bins voisins et sont par conséquent plus robustes aux distorsions.
Ce problème est illustré dans la Fig. 1.12 (à gauche) qui montre deux histogrammes en niveaux de
gris. Par exemple, la distance dL1 entre les deux histogrammes de gauche est plus grande que la
distance dL1 entre les deux histogrammes de droite, contrairement à la dissimilarité perceptuelle.
Fig. 1.12 Exemple où la distance L1 ne correspond pas à la dissimilarité perceptuelle. (a). dL1(p1, q1)=2, dL1(p2, q2)=1 (b) montre la correspondance désirée pour (a).
Pour améliorer la robustesse aux changements de luminosité, la mesure de distance désirée doit
pouvoir établir des correspondances entre les bins dans les deux histogrammes comme illustré dans la
partie à droite de la Fig. 1.12.
Ces mesures sont plus complexes, mais fournissent de meilleurs résultats [Rubner et al, 2000]. Les
métriques les plus connues fondées sur les mesures de similarité inter-bins sont décrites dans les
sections suivantes.
Distance quadratique
La distance quadratique entre histogrammes est conçue pour prendre en compte la corrélation des
bins [Hafner et al, 1995]. Ces corrélations sont prises en compte par l’introduction d’une matrice de
pondération Q=[Quv] sur les différents bins (Fig. 1.13). Cette distance tient compte de la corrélation
entre bins selon l’équation suivante :
( ) ∑ ∑= =
−−=m
u
m
vvvuvuuq qpQqpd
1 1)( )( ,qp (1.29)
• Le terme Quv est interprété comme une tolérance à confondre les couleurs (bins) u et v. Cette
flexibilité permet de lisser les effets de seuil dûs au basculement d’une couleur vers un bin
a b
36
différent, à cause d’un changement d’éclairage par exemple. Pour les histogrammes couleur,
la matrice Q peut être construite de telle sorte que les similarités inter-classes se rapprochent
de la perception humaine des couleurs. Par exemple [Hafner et al, 1995] utlisent :
max
1d
dQ uv
uv −= (1.30)
• où duv est la distance Euclidienne entre les couleurs u et v de l'histogramme et dmax=max(duv).
La distance quadratique permet la mise en correspondance de chaque bin d’un histogramme avec
tous les bins de l’autre.
Fig. 1.13 Distance de Minkowski (à gauche), Distance quadratique (à droite).
Distance de correspondance
La distance de correspondance est définie par la formule [Shen et al, 1883], [Werman et al, 1985] :
∑=
−=m
uuuC qpd
1
ˆˆ),( qp (1.31)
• où ∑ ≤= uv vu pp est l'histogramme cumulatif de pu et uq est défini de même. La distance de
correspondance entre deux histogrammes de même taille est ainsi définie comme la distance
L1 entre leurs histogrammes cumulatifs correspondants. Cependant, cette distance ne peut pas
établir une correspondance partielle et n’est définie que pour des histogrammes relatifs à des
données monodimensionnelles.
Earth Mover’s Distance
La distance du cantonnier (en anglais EMD pour Earth Mover’s distance) est fondée sur la
minimisation du coût nécessaire pour transformer une distribution en une autre, ce coût s’évaluant en
fonction de la distance à parcourir pour transporter la masse de distribution d’une classe à une autre.
Le coût élémentaire entre deux bins u et v est défini classiquement comme la distance duv=|u-v|. Le
flux fuv représente un déplacement de masse de la classe pu vers la classe qv. Le coût total de
transformation est ainsi ΣuΣv duv fuv. Le coût total est minimisé sous les contraintes suivantes:
37
=
≤
≤
≤≤≤≤≥
∑∑∑∑
∑
∑
vv
uu
u vuv
vu
uv
uv
uv
uv
qpf
pf
pf
mvmuf
,min
1 ,1 ,0
(1.32)
• et la distance EMD est calculée comme suit :
∑ ∑∑ ∑=
u v uv
u v uvuvemd f
fdd ),( qp (1.33)
La distance EMD est issue d'un problème de transport [Rubner et al, 2000]. Cette approche requiert
l’utilisation de techniques d’optimisation linéaires qui rendent son utilisation potentiellement coûteuse
en temps de calcul et donc limitée à des descripteurs de petite taille.
Distance de diffusion
Dans les travaux de [Ling et al, 2006], les relations inter-bins sont simulées implicitement par la
diffusion de la masse des distributions dans les bins adjacents. La distance proposée est ainsi obtenue
par le calcul d’une similarité bin à bin sur une représentation ayant subi une diffusion. La différence
uu qpue −=)0,( entre deux histogrammes p et q est traitée comme l’état initial d’un processus de
diffusion de la chaleur e(u, t) :
),(*)0,(),( tuguetue = (1.34)
• Les auteurs utilisent un filtre gaussien g(u,t) correspondant à une diffusion simple et la
distance est ainsi définie par :
∑=u
t tueK ),(),( qp (1.35)
• qu’il est possible d’étendre à une mesure combinant plusieurs échelles de diffusion (ti)i=1…N
comme suit :
),(),(1
qpqp ∑=
=N
iit
KK (1.36)
• La complexité calculatoire de K(p, q) est en O(m), où m est le nombre de bins. Elle est alors
plus rapide que la distance EMD qui est en O(m3).
1.2.4.1 Mesures de similarité contextuelles
Dans certaines situations, utiliser une mesure de similarité définie a priori n’est pas forcément
recommandé, les distracteurs présents dans le fond pouvant en effet posséder des couleurs similaires
aux couleurs de l’objet.
38
[Comaniciu et al, 2003] [Collins et al, 2003] [Perez et al, 2002] adoptent une autre approche qui
consiste à modifier la similarité utilisée en fonction du contexte de l’objet. Dans l’approche de
[Comaniciu et al, 2003], le contexte est estimé en calculant la distribution de couleur sur une région
entourant l’objet à un instant t. Les couleurs qui y apparaissent sont ensuite sous pondérées lors du
calcul de similarité impliquant les régions candidates à l’instant suivant t+1.
L'importance de la robustesse aux distracteurs présents dans le fond a également été abordée dans
les travaux de [Collins et al, 2003], [Stern et al, 2002]. [Stern et al, 2002] considèrent plusieurs
espaces chromatiques pour construire l'histogramme de couleur d’un visage, et choisissent celui qui
permet la meilleure discrimination avec la couleur du fond. [Collins et al, 2003] étendent la méthode
au suivi général de blob. Les espaces de couleurs considérés sont des combinaisons linéaires des
canaux de couleur R, G et B, conduisant à 49 espaces au total.
1.3 Evaluation des systèmes de suivi d’objet
La diversité des systèmes existants a fait naître le besoin d’effectuer une évaluation approfondie. Se
posent alors plusieurs questions au sujet de ces systèmes, notamment au niveau de leur efficacité :
précision de localisation, complexité calculatoire,…. Des campagnes d’évaluation ont été mises en
place pour juger de l’efficacité de ces systèmes et par suite améliorer leur performance.
Une des difficultés consiste à rendre compte de la variété des situations possibles et des erreurs
pouvant entraîner un mauvais suivi des objets, comme illustré dans Fig. 1.14 et Fig. 1.15. L’approche
classique pour répondre à cette difficulté consiste à considérer le système de suivi comme une "boîte
noire", c'est-à-dire prenant en entrée une vidéo et une initialisation éventuelle, et fournissant en sortie
les positions et les trajectoires estimées des objets détectés dans la vidéo. Cette approche est ici
détaillée.
Fig. 1.14 Exemples de conditions environnementales qui peuvent perturber le processus de suivi : (a) : objet de référence, (b) : présence d’un distracteur.
a b
39
Fig. 1.15 Exemples de conditions environnementales perturbant le processus de suivi.
1.3.2 Paradigme standard
Différentes méthodes pour la mesure des performances de systèmes de suivi ont déjà été proposées
[Black et al, 2003], [Schneiders et al, 2005], [Brown et al, 2005], [Bashir et al, 2006]. Chacune de ces
méthodes évalue les performances grâce à un certain nombre de mesures sur la qualité de la
localisation estimée par le système. Ces mesures se fondent sur un corpus vidéo [CAVIAR] auquel est
associée une vérité terrain qui capture l’interprétation vraie de la scène en termes d’objets à suivre.
Une telle évaluation prend en compte uniquement la réponse fournie par le système, ce qui correspond
à une approche de type "boîte noire" (Fig. 1.16). Ce type d’évaluation, même si elle offre une
quantification utile des performances, cantonne la mesure à un niveau global et ne permet pas de
caractériser les performances intrinsèques des différents éléments composant le système.
Fig. 1.16 Paradigme standard d’évaluation des systèmes de suivi d’objet.
Séquence vidéo
Vérité terrain
Résultats d’algorithmes
Système d’évaluation
Performances des systèmes de suivi Systèmes de
suivi d’objet
Changement d’échelle
Changement de vue Changement
d’illumination et d’échelle
40
Pour permettre l’évaluation des performances des systèmes de suivi, plusieurs étapes doivent être
prises en compte. Tout d’abord, les séquences vidéo sur lesquelles l’évaluation sera effectuée doivent
être disponibles. Deuxièmement, il y a des résultats de suivi qui doivent être évalués. Troisièmement
la vérité terrain VT doit être générée et stockée. Puis, la VT doit être comparé aux résultats produits
utilisant des métriques de performance. Finalement, les résultats sont combinés pour chaque séquence
vidéo pour une présentation à l’utilisateur. Par conséquent, nous distinguerons quatre thèmes
principales pour l’évaluation comme illustré à la figure (Fig. 1.17); la création des données de vérité
terrain, les ensembles de données disponibles pour l’évaluation, les métriques de performance et la
présentation des résulta d’évaluation (Fig. 1.17).
Fig. 1.17 Evaluation de performance des systèmes de suivi.
L’évaluation de performance des systèmes de suivi exige une comparaison des résultats des
algorithmes (RA) avec des résultats “optimaux” nommés habituellement la vérité terrain (VT). Avant
la discussion de la génération de la VT, une stratégie qui n’exige pas de la VT est présentée ici.
Ainsi selon [Erdem et al, 2004] l’évaluation de performance peut s’exempter de vérité terrain,
évitant ainsi l’étape longue et coûteuse de sa construction. Ils ont ainsi appliqué des caractéristiques de
couleur et de mouvement au lieu de la VT. Ils ont formulé plusieurs hypothèses telles que les
frontières des objets coïncident toujours avec des frontières de couleur. En outre, le fond doit être
complètement stationnaire ou se déplaçant globalement. Les auteurs affirment que les mesures fondées
sur leurs approches produisent des résultats comparables aux mesures fondées sur la VT quand ces
conditions sont réunies. Cependant toutes ces hypothèses ne sont pas toujours vraies dans plusieurs
scénarios du monde réel, ce qui impose alors de recourir à des benchmarks munis d’une vérité terrain.
Algorithmes de suivi
Vérité terrain
Séquences vidéo Evaluation Présentation
41
1.3.3 Benchmarks pour le suivi vidéo
La première condition pour l’évaluation d’un algorithme de suivi est la disponibilité des données
vidéo et d’une vérité terrain associée. Pour permettre une évaluation appropriée avec différents
algorithmes, il semble raisonnable d’évaluer des algorithmes avec des séquences vidéo standards.
De plus, pour fournir une évaluation fidèle, ces données doivent être représentatives et contenir des
scénarios typiques et difficiles. L’évaluation des performances des algorithmes de suivi a donné lieu à
plusieurs projets de constitution de tels benchmarks. Un résumé de ces ensembles est donné dans le
tableau 1 et des images des séquences sont illustrées dans la figure (Annexe C).
Les premiers efforts de grande envergure dans l’évaluation des performances du suivi d’objet
proviennent des workshops PETS (Performance Evaluation of Tracking and Surveillance) organisés
par l’IEEE. En 2002 et 2001, le workshop a fourni des données de benchmarks de surveillance pour
que les participants évaluent leurs systèmes. D'autres projets d’évaluation des performances des
systèmes de suivi ont également été proposés [CAVIAR, CLEAR, CREDS, ETISEO, i-LIDS, VACE]
chacun avec un objectif spécifique.
Les workshops PETS se concentrent sur des tâches avancées d’évaluation comme la détection des
objets multiples et la reconnaissance d’événements. CAVIAR aborde la surveillance des centres
commerciaux. VACE s’intéresse à une gamme étendue de problèmes comprenant le traitement des
vidéos de réunion et des informations de radiodiffusion. CLEAR traite le suivi et l’identification des
personnes aussi bien que le suivi de visages tandis que les workshops CREDS se concentrent sur la
détection d’événements pour des problèmes de sécurité de transport public. ETISEO étudie la
dépendance entre les caractéristiques des vidéos et la segmentation, suivi et détection d’événement,
tandis que le système i-LIDS est le système de benchmark utilisé par le gouvernement britannique
pour différent scénarios comme les bagages abandonnés, l’égarement des véhicules, la surveillance
des portes.
En plus de données déjà disponibles, de nouvelles séquences ont été enregistrées dans le projet
CANDELA. Un ensemble de scénarios a été défini pour l’évaluation et décrit dans [Wijnhoven, 2004].
Les séquences vidéo seront publiquement disponibles par le site web de CANDELA.
[Black est al, 2003] présentent un cadre d’évaluation pour l’utilisation des séquences vidéos pseudo
synthétiques qui utilisent des vidéos qui ont été capturées et stockées dans une base de données. Les
auteurs ont évalué leur système en utilisant trois cent mille images vidéo qui sont créées sans
intervention humain. Les séquences en résultant sont plus réalistes que des données synthétiques, mais
il est difficile d’atteindre le niveau de réalisme d’une authentique séquence vidéo. Cependant, pour
quelques algorithmes, les séquences vidéos pseudo-synthétiques sont utiles pour l’évaluation comme
l’on montré les auteurs.
42
1.3.4 Outils d’annotations
Dans la section précédente, des ensembles de séquences vidéos ont été discutés pour utiliser ces
séquences afin d’évaluer les algorithmes de suivi, la VT doit être disponible, décrivant les vraies
propriétés des séquences. Puisque le niveau de la précision de la VT doit être très élevé, le processus
de la création de la VT peut d’être très long. Plusieurs outils pour annoter des descriptions de la VT
des scènes vidéo ont été rendus disponibles. Certains de ces outils d’annotation disponibles sont
énumérés ci-dessous :
Le « Open Development Environment Evaluation of Video Systems » (ODViS) [Jaynes et al,
2002] est un cadre qui peut être utilisé pour simplifier la tâche des utilisateurs. Il permet de créer une
description bruitée de la VT. Les utilisateurs doivent alors seulement ajuster manuellement cette
première description de la VT. A coté de la tâche d’annotation, également une évaluation à été incluse.
[Jaynes et al, 2002] expliquent que les chercheurs peuvent facilement définir des données de la VT,
visualiser le comportement de leur système de suivi et automatiquement mesurer et rapporter des
erreurs dans différents formats.
Un autre projet, permettant également l’annotation et l’évaluation des algorithmes de suivi est le «
Video Performance Evaluation Resource » (ViPER) [Mariano et al, 2002], [Doennann et al, 2000].
Des résultats de l’évaluation peuvent être visualisés. [Collins et al, 2005] proposent une open source et
un site d’évaluation. Ils ont conçu un outil d’annotation à utiliser avec Matlab.
Le projet CAVIAR fournit un outil d’annotation, écrit en JAVA. Le code source est fourni par le
site web [CAVIAR]. D’autres propositions mentionnent souvent l’utilisation des outils graphiques
d’annotation avec peu de détails. [Nacimento et al, 2004] décrivent un outil d’annotation qui fournit
une tentative de segmentation qui doit être ajustée par l’utilisateur pour éviter une annotation manuelle
complète.
Les outils mentionnés ci-dessus n’ont pas été évalués par les auteurs, ainsi aucune comparaison
objective ne peut être fournie. Cependant, la plupart des outils utilisent des formats différents pour
stocker les données annotées de la VT, introduisant des limitations pour la réutilisation de la VT.
Ces outils d’annotation écrivent les descriptions de la VT dans des fichiers. Les divers outils
emploient un formatage différant des données. Bien que la plupart utilisent une description XML. Des
détails sur le format de l’outil de CAVIAR sont expliqués dans les travaux de [List et al, 2004]. Bien
que le format standard ne soit pas obligatoire pour l’évaluation et le benchmark, il faut qu’il soit
standardisé. Par exemple, le projet CANDELA utilise un sous ensemble limité de la norme MPEG-7.
Le plus important est d’enregistrer les mêmes caractéristiques. Des boîtes englobantes de la
description XML peuvent être converties en descriptions MPEG-7 avec des outils simples, tant que les
43
deux définitions sont connues. Ces outils peuvent même être inclus dans le système d’évaluation des
performances.
Pour une comparaison, la définition de ces caractéristiques décrites à la VT est très importante. Si
l’interprétation d’une caractéristique dans les données de la VT est différente de l’interprétation dans
les algorithmes de suivi, l’évaluation n’est pas réalisable. Par exemple considérons l’évaluation du
suivi d’un objet utilisant la localisation d’un point unique qui décrit la position de l’objet au cours du
temps. Quelle est la définition exacte de ce point décrivant la position ? Est-ce que c’est le centre de la
boîte englobante d’objet, du milieu de la ligne supérieure de la boîte englobante ou de la médiane des
positions de tous les pixels dans l’objet ?
Aucune norme n’a encore défini ce que doit être stocké dans une description de la VT. Puisque la
plupart des algorithmes de suivi sont évalués pour leur performance de segmentation ou du suivi
temporel, seulement des masques de segmentation ou des boîtes englobantes sont stockés. Cependant,
pour évaluer des descriptions de haut niveau d’une scène, d’autres données doivent être fournies par
l’utilisateur pendant le processus d’annotation (par exemple la taille réelle des objets exprimée en
mètres). La norme MPEG-7 définit comment les boîtes englobantes et les descriptions de haut niveau
peuvent être définies, mais tout l’ensemble de descripteurs dans la norme est trop étendu pour évaluer
la plupart des algorithmes de suivi.
Un autre problème est l’occultation des objets [Black et al, 2003] mentionnent déjà que c’est un
facteur difficile, puisque la personne qui annote la vidéo doit décider quel est le comportement d’un
algorithme de suivi. L’algorithme doit-il continuer à suivre l’objet occulté ou partiellement occulté ?
1.3.5 Métriques d’évaluation des performances
Au cours de ces dernières années, plusieurs mesures sont proposées pour différentes tâches, [Black
et al, 2003], [Brown et al, 2005], [Schneiders et al, 2005] afin d’analyser quantitativement les
systèmes de suivi d’objet.
Ces mesures peuvent être catégorisées en deux familles : celles basées image qui ne prennent pas
en considération l’évolution temporelle de la réponse des systèmes et celles basées sur les trajectoires
entières des systèmes.
Les métriques fondées sur une image sont utilisées pour mesurer la performance des systèmes de suivi
sur différentes images d’une séquence vidéo [Bashir et al, 2006]. Ceci ne prend pas en considération la
réponse du système en fonction du temps. Malgré tout, une approche bottom-up de consolidation des
résultats peut être ajoutée. Chaque image est testée ainsi individuellement pour voir si le nombre
d'objets aussi bien que leurs tailles et les positions correspond aux données de vérité terrain de cette
image particulière. Les résultats des statistiques de différentes images sont alors moyennés pour toute
la séquence.
44
La deuxième catégorie des métriques (top-down) consiste à prendre en compte la trajectoire entière
de chaque objet [Yin et al, 2007]. Ici, les différentes trajectoires des objets fournies par le système de
suivi sont analysées en tant qu'entités séparées. Les diverses manières de trouver la meilleure
correspondance (association) entre différentes trajectoires de vérité terrain et les trajectoires de résultat
des algorithmes sont analysées. En conclusion, basé sur une association particulière, des taux de
succès et d'erreur sont calculés et accumulés pour tous les objets.
1.4 Performance de modèles d’apparence en indexation
Dans un processus du suivi, une première étape est le choix d’un modèle d’apparence qui se
constitue d’une part, d’un descripteur significatif et compact, qui sera utilisé pour représenter l’objet à
suivre et d’autre part, d’une mesure de similarité qui permet de reconnaître l’objet au cours du temps.
Ce modèle d’apparence constitue le cœur de ce processus.
1.4.1 Motivation
L’évaluation de modèles d’apparence en temps que tels a été très étudiée dans le contexte de
l’indexation d’images et de la reconnaissance d’objets. Cette section est l’occasion de rappeler les
études menées dans ce domaine connexe à notre problématique de suivi, et qui seront réutilisées et
adaptées à ce cadre. Notre motivation est ainsi de s’inspirer des mesures de performances dédiées à
l’indexation pour créer des mesures de performances des modèles d’apparences dans le contexte du
suivi d’objet.
De nombreux problèmes de vision par ordinateur peuvent être modélisés par un modèle
d’apparence. Nous trouvons ce schéma (Fig. 1.18) dans deux grands problèmes :
• Indexation et recherche d’images par le contenu visuel [Smeulders et al, 2000].
• Suivi d’objet [Alper et al, 2006]
Fig. 1.18 Schéma classique d’un algorithme de reconnaissance, pour l’indexation.
(Descripteur 2) (Descripteur 1)
Mesure de similarité
45
Dans ces deux problématiques, deux aspects indissociables coexistent, l’indexation et la recherche.
Le premier concerne le mode de représentation informatique des images et le second concerne
l’utilisation de cette représentation dans un but de recherche (Fig. 1.19).
Les N images les plus ‘ similaires’ à l’image requête
…
Mesure de similarité
Extraction descaractéristiques
…
Extraction descaractéristiques
(Descripteurs) signatures
images
Image requête
…
Les N images les plus ‘ similaires’ à l’image requête
…
Mesure de similarité
Extraction descaractéristiques
…
Extraction descaractéristiques
(Descripteurs) signatures
images
Image requête
…
…
Mesure de similarité
Extraction descaractéristiques
…
Extraction descaractéristiques
(Descripteurs)
signatures
Imagettes dans un voisinage de l’image cible dans l’image
courante
Localisation de l’objet dans l’image courante
Objet cible
…
Mesure de similarité
Extraction descaractéristiques
…
Extraction descaractéristiques
(Descripteurs)
signatures
Imagettes dans un voisinage de l’image cible dans l’image
courante
Localisation de l’objet dans l’image courante
Objet cible
Fig. 1.19 Schémas simplifiés d'un système d’indexation et de recherche d’image par le contenu (en haut) et d'un système de suivi d’objet (en bas).
Le but de l’indexation est de fournir une représentation image permettant des recherches efficaces.
Il ne s’agit pas de coder toute l’information portée par l’image mais de se concentrer sur l’information
qui permet de traduire efficacement une similarité proche des besoins exprimés par un utilisateur. La
46
recherche par similarité ou inversement dissimilarité est fondée sur l’utilisation des descripteurs pré-
calculés, elle est par conséquent contrainte par les choix lors de la phase d’indexation.
Dans la problématique de l’indexation, l’utilisateur effectue une requête sous la forme d’un
exemple et les images de la base de données sont ordonnées en fonction d’une mesure de similarité à
cette requête. La problématique qui nous intéresse est proche de l’approche de recherche d’images par
le contenu tout en possédant une spécificité fondamentale : le suivi consiste à localiser l’objet et le
distinguer du fond dans une succession temporelle d’images au lieu d’identifier une classe d’images
dans un ensemble non ordonné d’images.
1.4.2 Evaluation d’un système d’indexation et de recherche d’images par le contenu
Les systèmes d’indexation manipulent une base d'images stockées et des images faisant l'objet de
requêtes de recherche de ressemblance à l'intérieur de cette base. La phase d’extraction de descripteurs
correspond à une modélisation de l'image. La deuxième phase consiste à mesurer la ressemblance
entre une image requête et les images stockées dans la base. Cette mesure se fonde sur une métrique
entre les descripteurs. Il s’agit de retrouver une classe d’images représentant un objet particulier, un
type d’objet ou un type de scène dans une base de données, en comparant les descripteurs calculés sur
chaque image (Fig. 1.20).
Fig. 1.20 La structure d’un système de recherche d’images.
Évaluation de Similarité
Images Retrouvées
Construction D’index
Image Requête
Blobs Base de données d’images
L’espace d’attributs
47
L’évaluation des performances de modèles d’apparence a été abondamment étudiée dans le
contexte de la recherche d’images par le contenu visuel [Muler et al, 2001], [Deselaers et al, 2004].
Pour réaliser l'évaluation il est nécessaire de disposer d'une vérité-terrain sur des bases de données.
Cette vérité-terrain est construite manuellement en regroupant une liste des images pertinentes pour
chaque requête et un ensemble d’images standards et de requêtes/sujets. Le schéma générale
d’évaluation d’un système d’indexation et de recherche d’images par le contenu est résumé dans la
figure (Fig. 1.21).
Fig. 1.21 Schéma générale d’évaluation d’un système d’indexation.
1.4.3 Mesures de performance d’un modèle d’apparence
1.4.3.1 Taux moyen de bonne détection
Un critère global évalué en pourcentage et appelé le taux moyen de bonne détection (Average
Retrieval Rate). Il s'agit du pourcentage moyen de récupération des images pertinentes suite à une
requête de recherche par le contenu,
≤∈= ∑
=
TN
i c
ciqi
Tm N
Nrangclassecard
NT
1
)(),(1 III (1.37)
• où TN : le nombre total des images dans la base, cN le nombre d'images par classe et
ciqi Nrangclassecard ≤∈ )(),( III est le nombre d'images pertinentes bien classées.
• Un modèle d’apparence sera donc plus représentatif qu'un autre si son il donne un taux moyen
de bonne détection (appelé aussi taux moyen de récupération) plus élevé.
1.4.3.2 Courbes de rappel-précision
Les courbes de rappel-précision (en anglais Recall-Precision), sont très communément utilisées
comme un critère pour l’évaluation des systèmes de recherche. La précision et le rappel pour une
requête de recherche d'images sont définies par :
Collection de documents
Requêtes standards
Algorithme à tester Evaluation
Résultats standards
Résultat retrouvé
Précision et rappel
48
base la dans spertinente images des Nombre
récupérées spertinente images des Nombre=Rappel (1.38)
récupérées images des Nombre
récupérées spertinente images des Nombre=précision (1.39)
On calcule la moyenne des rappel-précision sur toute la base en considérant des requêtes de taille 1,
2, … TN , où TN est la taille de la base. La courbe de la précision en fonction du rappel peut ainsi être
construite. Un modèle d’apparence sera considéré meilleur qu'un autre si sa courbe de Rappel-
Précision est en dessus par rapport aux autres courbes de Rappel-Précision des autres modèles. Par
exemple dans la figure (Fig. 1.22) on peut conclure que le modèle d’apparence MA2 est plus
représentatif que MA1.
Fig. 1.22 Comparaison des courbes Rappel-Précision.
49
1.5 Conclusion
Dans ce chapitre, nous avons dressé un état de l'art des modèles d’apparence, des méthodes de suivi
d’objets et de l’évaluation de leurs performances.
Dans un système de suivi, le rôle d’un modèle d’apparence est de permettre une mise en
correspondance d'objets sans ambiguïté. Diverses conditions environnementales peuvent perturber le
système d’où le besoin d'évaluation des modèles utilisés pour le suivi. Des contraintes fondamentales
doivent être garanties dans le choix d’un modèle d’apparence pour assurer le succès d’un système de
suivi. La spécification de ces contraintes peut dépendre d’une part, de l’invariance possible à la
translation et à la rotation d’image, au changement de point de vue, au changement d’échelle, au
changement d’illumination et aux occultations, D’autre part, du pouvoir discriminant : un modèle
d’apparence non-discriminant est l’une des raisons principales qui peut dérouter un système de suivi
de la position correcte d’un objet. Nous avons vu que les approches d’évaluation classiques analysent
en fait un système dans son intégralité, et non le modèle d’apparence en lui-même. L’étude spécifique
des modèles d’apparence a été abordée plus largement dans le domaine de l’indexation d’images.
Les systèmes d’indexation utilisent des collections d’images statiques pour lesquelles la notion
temporelle n’est pas présente. Par contre, cette notion est très importante dans un système de suivi.
Comment adapter alors l'évaluation d’un système d’indexation et de recherche d’image dans le
contexte du suivi d'objet ? En d’autres termes, comment créer des métriques de performances
temporelles mesurant la capacité de la discrimination d’un modèle d’apparence au cours du temps en
s’inspirant des métriques d’évaluation utilisées en indexation ? Ces questions sont abordées dans le
chapitre suivant.
50
51
Chapitre 2
Evaluation des performances de modèles
d’apparence pour le suivi
Dans ce chapitre nous présentons de nouvelles approches pour l'évaluation quantitative de la
performance des modèles d’apparence formés d’un descripteur d'objet et d’une mesure de similarité
dans le contexte du suivi d'objets.
L'évaluation est menée en tirant parti de l’existence de vérités terrain issues de benchmarks pour le
suivi d'objet, qui ici sont utilisées de manière originale. Les dimensions spatiale et temporelle sont
considérées, afin de fournir des outils d’évaluation prenant en compte l’aspect spatio-temporel de la
vidéo. La première approche caractérise les performances d’un modèle d’apparence pour un couple
d’images au niveau spatial. La deuxième approche est une extension au contexte spécifique de la vidéo
des méthodes d’évaluation de modèles d'apparence utilisées en recherche d’images par le contenu
visuel. Les mesures utilisées prennent en compte la dimension temporelle en quantifiant la capacité
d’un modèle d’apparence à rester discriminant au cours du temps. Cette approche est illustrée par des
expérimentations sur des vidéos de scènes naturelles.
2.1 Généralités
Par rapport à la formulation générique du suivi par estimation paramétrique introduite au chapitre
précédent, nous focaliserons ici notre attention sur la capacité à estimer la position correcte de l’objet,
principalement liée à une composante translationnelle du mouvement. La position d’un objet sera ainsi
résumée à la boîte englobante représentée par une région rectangulaire.
• Plus formellement, le but du suivi par boîte englobante (BE) est de déterminer dans les images
successives d’une séquence vidéo, la boîte qui correspond le mieux, en termes de mesure de
similarité, à une BE définie automatiquement ou manuellement par l’utilisateur dans une
image référence.
• Soient I ref et I cib, respectivement, l’image référence dans laquelle la BE est définie et l’image
courante dans laquelle la région de la meilleure BE, en termes de mesure de similarité, doit
être recherchée. Cette recherche consiste à trouver la transformation géométrique θ* telle que :
52
( ) ( )( )( )ΩθIΩIθθ
cibrefD ,minarg* = (2.1)
• où D est une mesure de distance, entre deux ensembles de données et Ω est le domaine de la
BE. Ce domaine est un sous-ensemble de ℜ2 (ou un sous-ensemble de Ζ2 dans le cas discret),
et θθθθ(ΩΩΩΩ) représente une transformation géométrique du domaine d’intérêt.
Dans le contexte de l’évaluation de systèmes de suivi multi-objets, [Smith et al, 2005] distinguent
plusieurs aspects. D’une part, la qualité du résultat sur chaque image est évaluée par l’étude des boîtes
englobantes correspondant à chaque objet détecté et leur comparaison à une vérité terrain. Les
métriques utilisées portent sur la qualité du recouvrement spatial ainsi que sur la similarité des
configurations des boîtes. D’autre part, la capacité du système à distinguer les différents objets suivis
est évaluée par la notion de pureté des trajectoires estimées vis-à-vis de l’identité vraie des objets. Ces
métriques ne peuvent s’appliquer que sur un système complet, qui fournit un résultat sous la forme
d’un ensemble de boîtes englobantes.
Dans un tel système, le choix du modèle d’apparence approprié est l'un des facteurs cruciaux de
succès de la localisation d’un objet pour une application déterminée. Son interaction avec l’algorithme
d’optimisation (recherche exhaustive, approche ascendante, etc.) n’est pas évidente, ce qui a conduit à
proposer des analyses de performance principalement basées sur les résultats finaux des systèmes de
suivi [PEPS, CAVIAR…], qui peuvent prendre en compte des contributions provenant de divers
modules.
Une analyse plus approfondie de la performance intrinsèque du couple descripteur/similarité
pourrait cependant s’avérer intéressante pour une meilleure compréhension des raisons du succès ou
de l’échec de chaque modèle dans des situations variées et de son adéquation à différentes approches
algorithmiques. L’objectif de cette section est d’offrir des outils pour une telle analyse.
2.2 Performance spatiale d’un modèle d’apparence
A notre connaissance, très peu de travaux ont proposé une étude quantitative des performances
comparées de modèles d’apparence séparément de l’algorithme de recherche. La plupart des travaux
se limitent en effet à une illustration des performances en termes de suivi ou à l’étude qualitative de la
fonction de similarité, dans le contexte de la proposition de nouveaux algorithmes.
Pour étudier la performance de plusieurs modèles d’apparence, nous proposons d’analyser leurs
cartes de similarités. Pour générer une carte de similarité d’un modèle d’apparence (descripteur,
mesure de similarité) donné, une fenêtre rectangulaire englobant l’objet d’intérêt est positionnée sur
une image référence. Cette fenêtre est associée au modèle cible, alors qu’une autre fenêtre de
recherche dans un voisinage de l’objet d’intérêt sera déterminée dans une image cible.
53
• Plus formellement, soit 1;,,1],[ === jniTj
ij
ij
iyx Kx la région de référence (rectangle rouge Fig.
2.1) entourée d’un ensemble de F régions candidates FjniTj
ij
ij
iyx ,,1;,,1],[ KK ===x situées
dans une fenêtre de recherche (rectangle vert Fig. 2.1 a).
• Les descripteurs utilisés sont calculés pour chaque région. Les régions candidates sont
comparées de manière exhaustive avec la région référence en utilisant une mesure de
similarité générant ainsi une carte de similarité (voir Fig. 2.1 b)
(a) (b) Fig. 2.1 Processus de génération d’une carte de disimilarité (a) : la région référence est marquée en rouge et les candidats sont calculés dans la région pointillée en vert, (ici image référence = image cible). (b) : la carte de disimilarité est calculée en utilisant la distance de Bhattacharyya entre la région de référence et les régions candidates.
La performance d’une mesure de similarité dans la mise en correspondance des images en niveaux
de gris a été étudiée dans les travaux de [Khalid et al, 2005a], [Khalid et al, 2005b], [Khalid et al,
2006]. Ces auteurs ont analysé en particulier l’utilisation d’histogrammes de niveaux de gris comparés
par le coefficient de Bhattacharyya et la divergence de Kullback-Leibler. Ils ont montré que ces deux
mesures donnent des estimations biaisées sur la localisation des objets dans une séquence vidéo avec
des images en niveaux de gris.
• Dans leurs travaux, la carte de la similarité de l’erreur quadratique moyenne (EQM) (l’erreur
quadratique des différences pixel à pixel est considérée comme référence et utilisée pour
analyser les cartes de similarité du coefficient Bhattacharyya et Kullback Leibler.
• Cette analyse s’appuie sur le maximum de la carte de similarité qui fournit la position de
l’objet où la meilleure correspondance se produit. Un pic étroit et correctement positionné
54
indique une bonne mise en correspondance avec la cible, alors qu’un pic large fait apparaître
une ambigüité sur l’estimation de la position de l’objet cible, qui peut conduire à une
localisation imprécise.
• L’étude de la carte de similarité ainsi proposée s’intéresse à la précision finale obtenue en
considérant uniquement l’optimum de la surface de similarité. Ceci fournit une information
utile dans le cas d’une recherche exhaustive, mais comme nous l’avons vu précédemment, un
modèle d’apparence est destiné à être inclus dans un système plus vaste, qui peut comprendre
des algorithmes de recherche variés. Nous proposons dans la suite de compléter le paradigme
basé sur l’étude de la carte de similarité, à l’aide de plusieurs métriques qui capturent des
aspects variés de la performance d’un modèle d’apparence.
2.2.2 Evaluation des surfaces de similarité
Nous évaluons les propriétés susceptibles d’influencer les performances d’un modèle d’apparence
(composé, rappelons-le d’un couple (descripteur, mesure de similarité)). Pour ce faire, nous proposons
des critères pour définir des indicateurs de performance satisfaisants pour un processus de suivi
[Mikram et al, 2009].
• Le paradigme d’évaluation repose sur la connaissance a priori des coordonnées vraies de la
position de l’objet. Ce rôle est joué dans [Souhail et al, 2006] par le maximum de la carte de
similarité obtenue par EQM. Cette approche convient dans le cas où l’apparence de l’objet
change très peu, auquel cas l’EQM est un très bon indicateur de la position vraie. Dans
d’autres cas (objets se déformant), cette approche est moins adaptée, l’EQM pouvant alors être
considérée comme un modèle d’apparence en concurrence avec d’autres. Nous nous placerons
dans ce dernier cas, en considérant les coordonnées connues a priori et issues d’une vérité
terrain indépendante [CAVIAR].
• La performance d’un système de suivi s’exprime normalement sous la forme de l’erreur
d’estimation spatiale entre la position estimée et la position supposée vraie. Ce paradigme
recouvre en fait deux aspects, pour lesquels nous tâcherons de proposer des mesures
quantitatives adaptées, sur la base des cartes de similarité :
- Capacité à discriminer : le système risque-t-il de confondre l’objet d’intérêt avec un autre objet ?
Si tel est le cas, l’erreur risque d’être assez grande, la carte de similarité présentant un ou plusieurs
optima locaux éloignés de la vraie position.
- Précision spatiale : dans le cas où l’objet est correctement reconnu, la position retournée est-elle
précise ? La carte de similarité présente souvent un plateau autour de la position vraie, mais l’optimum
peut être légèrement délocalisé.
55
2.2.3 Caractérisation topographique
Les deux mesures précédemment introduites ne permettent pas de comparer différents types de
modèles d’apparence. Néanmoins, nous verrons un peu plus loin leur utilisation pour comparer des
modèles d’apparence similaires mais calculés à différentes échelles.
Ainsi dans le but d’enrichir « la boîte à outils » des critères quantitatifs généralisés pour étudier
finement et de manière rigoureuse la performance spatiale de plusieurs modèles d’apparence, nous
proposons une analyse de la carte de similarité fondée sur sa décomposition en lignes de niveaux,
utilisant les outils de la morphologie mathématique.
Si on considère la carte de similarité comme une surface topographique, où l’altitude correspond à
la valeur de similarité, les maxima de similarité correspondent à des pics (de façon analogue, si l’on
considère une carte de distance, les minima de distance correspondent à des vallées).
La ligne de partage des eaux [Lee et al, 1991] est un outil puissant pour la segmentation de telles
cartes d’altitude. Dans le cas d’une carte de distance, le principe est d’inonder la carte progressivement
à partir de ses minima locaux. Chaque minimum est ainsi associé à un bassin versant, qui contient
l’ensemble des pixels de la carte tels qu’un chemin de plus grande pente issu de chacun de ces pixels
aboutisse à ce minimum. Les pixels situés à la frontière entre deux bassins versants constituent une
ligne de partage des eaux (Fig. 2.2). Ce principe peut être complété par la construction d’un
dendrogramme, qui capture de façon hiérarchique les fusions entre bassins versants à mesure que le
niveau monte : deux bassins versants sont fusionnés à l’altitude correspondant au pixel le plus bas
faisant partie de la frontière commune à ces deux bassins. Une carte de distance peut ainsi être
associée à un arbre dont chaque feuille correspond au bassin versant d’un minimum et chaque nœud
capture la fusion de deux ensembles voisins de bassins versants. Si l’on considère une carte de
similarité à la place d’une carte de distances, il suffit d’inverser le sens de l’axe d’altitude : les bassins
versants sont alors associés aux maxima et l’inondation a lieu à similarité décroissante.
56
Fig. 2.2 Principe de ligne de partage des eaux et de la décomposition sous la forme d’un dendrogramme hiérarchique, dans le cas d’une carte de similarité (en haut), ou d’une carte de distance (en bas).
Dans le cadre de la segmentation d’images en niveaux de gris ou en couleurs, la carte utilisée est
généralement une carte de gradients, qui permet d’identifier les zones homogènes où le gradient est
faible, séparées par des frontières sur lesquelles le gradient est plus important. Dans le cas d’une carte
de similarité, il s’agit au contraire d’identifier la position des pics de similarité et de déterminer par
l’analyse topographique leur lien avec la position vraie à la fois en termes de position spatiale (sur
l’axe des θ) et de similarité (sur l’axe des S(θ)).
)(θS
θ
Maxima locaux
Bassins versants
Dendrogramme
Lignes de partage des eaux
Ligne de partage des eaux Bassins d’attractions
57
Fig. 2.3 Définition des éléments topographiques calculés sur la carte de similarité.
L’analyse topographique nous permet d’établir des mesures pour étudier la performance d’un
modèle d’apparence. Nous décrivons ici la teneur des éléments de cette analyse :
1) On connaît :
− La position vraie *θ
− La carte de similarité S(θ)
L’ensemble des mesures proposées ci-dessous ont pour objectif de caractériser la précision et
l’ambiguïté de l’estimation de l’optimum de la carte de similarité au voisinage de la position vraie.
Pour ce faire, nous proposons de considérer une zone de recherche R, centrée en θ*, et de rayon spatial
arbitraire r. Cette zone est considérée comme un ensemble de positions envisageables pour l’initiation
d’une recherche d’optimum. Le principe que nous allons développer pour la caractérisation de la
qualité d’un modèle d’apparence est d’étudier la forme de la carte de similarité au voisinage de cette
zone de recherche, afin d’en déduire des caractéristiques mettant en évidence la capacité de détecter de
façon précise et non ambigüe la position vraie uniquement sur la base de la similarité.
2) On peut en déduire un certain nombre d’éléments (voir Fig. 2.3)
L’optimum global sur la région )(maxarg θθθ
SR
G
∈=
) correspond à la meilleure similarité parmi toutes les
positions testées, lors d’une recherche exhaustive dans un voisinage de la position vraie.
Position vraie
)(θS
θ
Optimum global à convergence associé à R
*θ
Optimum à convergence associé à la position vraie Optimum global de R
Optimum non considéré
Zone de recherche R
58
L’optimum local θ(x) associé à une position d’origine x arbitraire est défini comme l’optimum auquel
est associé le bassin d’attraction contenant x, c'est-à-dire la position estimée par approche ascendante à
partir de x. Nous l’appellerons optimum à convergence associé à x.
Lorsqu’on considère l’ensemble des positions de la zone de recherche, celles-ci sont associées à un
ensemble θR,1 , θR,2 ,… θR,n de n≥1 optima locaux, que nous appellerons ensemble des optima à
convergence, qui correspondent aux optima dont les bassins versants ont une intersection non nulle
avec la zone de recherche.
Parmi l’ensemble des optima à convergence associés à la région R, nous nous intéresserons plus
particulièrement à deux d’entre eux :
− L’optimum à convergence au pire cas correspond à l’optimum de l’ensemble qui est situé le plus
loin en distance spatiale de la position vraie. Nous le noterons θR,P. Il correspond à la plus mauvaise
estimation possible de la position, lorsque l’on initialise un algorithme de recherche de type
ascendante sur l’une des positions de R.
− L’optimum à convergence à meilleure similarité correspond à l’optimum de l’ensemble qui a la
meilleure similarité. Nous le noterons θR,S. Il correspond à l’estimation qui serait jugée la meilleure
par une recherche locale d’optimum, en testant toute les initialisations possibles sur la région R.
Les éléments précédents fournissent pour un rayon r donné trois positions, qui permettent de
caractériser la précision de l’estimation dans trois types d’approches de recherche d’optimum
différentes. Le choix de r n’est cependant pas anodin. Si l’on considère une région de rayon r faible,
l’étude de la carte dans un tel voisinage peut renseigner principalement sur la capacité de la carte à
posséder un optimum local proche de la position vraie. Si l’on considère une région de rayon r plus
important, cette étude peut se compléter de la détection d’ambiguïtés se caractérisant par la présence
d’autres optima locaux éloignés de la position vraie, mais présentant néanmoins soit une bonne
similarité, soit un chemin de remontée de gradient depuis une position au voisinage de la position
vraie. En effet, si le point d’initialisation pour l'optimisation est situé dans un bassin d'attraction
associé à un optimum éloigné, alors la cible sera perdue puisque l'algorithme convergera vers un
optimum local incorrect qui faussera l’estimation de la position de l’objet suivi.
Fixer un unique rayon r arbitraire est difficile, la précision et la robustesse de l’estimation étant deux
notions liées. En effet, la présence d’un optimum proche de la position vraie ne garantit pas que cet
optimum soit choisi par l’algorithme de recherche, notamment dans le cas où d’autres optima sont
également présents dans un voisinage proche. Pour cette raison, nous avons choisi de représenter les
59
performances comme une fonction de r, ce qui permet de capturer à la fois la capacité à localiser avec
précision et robustesse pour r faible, ainsi que la capacité à ne pas être ambigu pour r plus important.
L’échelle d’analyse n’est ainsi pas fixée arbitrairement, mais s’adapte en fonction des données
utilisées.
D’autre part, les caractéristiques utilisées ne font pas intervenir de comparaisons entre similarités
différentes, mais seulement des mesures sur des éléments calculés indépendamment sur chaque carte
de similarité. Ceci permet de comparer deux modèles d’apparence directement au niveau des courbes
de performance générées, malgré le fait que les composantes internes au modèle que sont les
descripteurs ou la similarité utilisés soient de natures complètement différentes.
2.2.4 Illustration des méthodes d’évaluation
Afin d’illustrer les méthodes d’évaluation de performance présentées, l’ensemble des résultats
intermédiaires est présenté pour trois méthodes, sur un exemple caractéristique. Les deux images
utilisées (la référence et l’image courante) sont montrées dans la figure Fig. 2.4. Dans l’image de
référence, la boîte englobante de l’objet de référence est indiquée en rouge. Dans l’image courante,
cette boîte correspond à la région candidate pour une perturbation nulle, et est présentée en vert. Les
cartes de distance entre l’objet de référence et les régions candidates sont présentées à la figure Fig.
2.5. Trois méthodes ont été testées ici : une méthode par histogrammes de couleurs (CH), une méthode
par histogrammes de couleurs pondérés spatialement (WCH), et une méthode par imagette couleur
(CT).
Fig. 2.4 L’objet de référence est marqué avec sa boîte englobante rouge dans l’image de référence et avec sa boite englobante verte dans l’image cible. La carte de disimilarité est calculée dans la région pointillée en bleu.
60
Fig. 2.5 Carte de similarité: haut/milieu/bas: color histogramme (CH )/color histogramme avec noyau (WCH )/Color template (CT ).
Lignes de partage des eaux
Position vraie (46,46)
Optima locaux associés à la position vraie
Optima locaux associés à des distracteurs
Echelle de valeurs de la distance / similarité entre référence et candidat, spécifique à chaque modèle
61
Fig. 2.6 Interprétation des courbes de distance spatiale au meilleur point. Ces résultats sont représentatifs pour un algorithme de suivi qui recherche l’optimum sur une fenêtre de recherche.
Les cartes de dissimilarité précédentes sont résumées sous la forme des trois types de courbe
fonction du rayon r de la zone de recherche, présentées dans les Fig. 2.6 et Fig. 2.7. Les courbes de la
Fig. 2.6 sont représentatives des performances attendues pour un algorithme balayant la zone de
recherche de rayon r afin de trouver un paramètre associé à la meilleure similarité. Les courbes de la
Fig. 2.7 sont représentatives des performances attendues lorsqu’une étape de remontée de gradient
locale est utilisée.
Cette méthodologie d’évaluation de la performance de modèles d’apparence en termes de précision
et de robustesse sera utilisée dans les sections suivantes pour évaluer les performances des méthodes
proposées.
Rayons à partir desquels un premier optimum local est atteint
Distance spatiale au meilleur point de la zone de recherche
Les modèles WCH et CT sont aussi précis, mais CT est plus ambigu pour r>45 pixels
Le modèle CH est moins précis, mais moins ambigu que le modèle CT
62
Fig. 2.7 Interprétation des courbes de distance spatiale à convergence : distance à l’optimum le plus éloigné (en haut), à l’optimum le plus similaire (en bas). Ces résultats sont représentatifs pour un algorithme effectuant une recherche par optimisation itérative, caractérisant respectivement le pire cas, et le cas estimé le plus vraisemblable sur la base du modèle d’apparence uniquement.
Distance spatiale à l’optimum local associé à la position vraie
Zone pour laquelle une initialisation approximative rapproche systématiquement de la position vraie
63
2.3 Performance temporelle d’un modèle d’apparence
2.3.1 Modélisation d’un système de suivi
Pour un objet n , la vérité terrain est représentée par *n,tb la boîte englobante de celui-ci dans
l’image tI . Pour une boîte candidate n,tb , il est possible de définir une mesure d’erreur notée e entre
la boîte candidate et la vérité terrain :
)( ,*
tnn,tn,t ,ee bb= (2.2)
La méthodologie standard de type "boîte noire" [Schneiders et al, 2005], [Brown et al, 2005],
[Bashir et al, 2006], [Black et al, 2003] consiste à prendre n,tb en sortie du système de suivi et à la
comparer à la vérité terrain *n,tb dans l’image t en utilisant l’erreur e. La mesure d’erreur e sert alors de
base à la définition de métriques de performance. La méthodologie proposée dans cette thèse utilise un
paradigme différent, qui met le modèle d’apparence au premier plan.
Le modèle d’apparence M est représenté par un couple descripteur/similarité. À toute boîte
englobante i tn,b est associé un descripteur iMtnv ,, calculé sur cette boîte dans une image t.
( )tntMM
tn vv ,, ,bI= (2.3)
En particulier, toute boîte *n,trefb de la vérité terrain donne lieu à un descripteur de référence *,
Mtrefnv
calculé sur l’image de référence tref.
( )*,
*, , trefntref
MMtrefn vv bI= (2.4)
La probabilité qu'une boîte englobante correcte soit choisie par l'algorithme de suivi est évaluée par
la mesure de similarité sM entre le descripteur de référence et le descripteur courant. Une valeur grande
de similarité sM indique une grande valeur de probabilité que la boîte englobante sera choisie par
l'algorithme de suivi.
Il est alors possible de qualifier la vraisemblance d’une boîte englobante au sens du descripteur par
une mesure de similarité notée :
)( *,,,
Mn,tref
iMn,t
iMtn ,vvss = (2.5)
Quelques améliorations peuvent être envisagées à la place une similarité ),( ,*, M
tnMn,tref
iMn,t ,vvss ω= qui
prend en considération également de l'information contextuelle par exemple. [Comaniciu et al, 2003]
propose une méthode de suivi fondée sur la couleur où la distribution de couleur du fond est utilisé
pour diminuer l'influence des pixels situés dans la boîte englobante mais appartenant au fond.
Dans le cadre de notre approche, l'évaluation quantifie la capacité d'un modèle d'apparence à rester
discriminant, c'est-à-dire à distinguer les positions correctes des positions incorrectes, malgré l’écart
temporel t-tref entre l’image de référence et l’image courante.
Ce principe est illustré sur la figure (Fig. 2.8). L’évaluation consiste à tester si un descripteur de
référence ,*Mtrefv calculé sur une boîte englobante de référence *
trefb dans une image de référence tref est
64
plus similaire à un descripteur iMtv , calculé sur une boîte englobante i
tb dans une image t qui
corresponde à une position correcte ou plutôt à un descripteur jMtv , calculé sur une boîte englobante
jtb qui corresponde à une position incorrecte. L’architecture de cette évaluation est illustrée dans la
figure (Fig. 2.8) et sera plus détaillée dans les sections suivantes.
Fig. 2.8 Principe général d’évaluation
2.3.2 Mise en place d’un corpus d’évaluation
Afin de définir concrètement ce qui distingue une position correcte d’une position incorrecte, un
corpus de données est construit à partir des informations de vérité terrain utilisées dans des
benchmarks annotés à la main, tels que PETS [Schneiders et al, 2005], [Bashir et al, 2006], ou générés
de façon semi automatique [Black et al, 2003]. Les séquences vidéo utilisées dans notre évaluation et
leur vérité terrain associées sont issues du projet CAVIAR [CAVIAR].
Pour chaque objet n et chaque instant t, une base de données est constituée, à partir d’éléments
),,( ,, tntnt vI b associant un descripteur à l’image et à la boîte englobante sur lequel il a été calculé
[Mikram et al, 2007a], [Mikram et al, 2007b]. Chaque élément appartient à l’une des deux classes
suivantes définies par rapport à l’objet n : L'ensemble des boîtes englobantes correspond à un
échantillonnage de l'espace d'état des boîtes englobantes qui recouvre les boîtes englobantes que le
système de suivi peut considérer. Dans nos expériences, ceci est effectué en translatant la vraie boîte
englobante par un vecteur aléatoire. Etant donné cet échantillonnage, les items correspondants sont
assignés à une des classes suivantes, comme illustré sur la figure (Fig. 2.9) :
*trefb
Frame tref
),( * ,
ittrefttrefd bb
itb
Frame t
),( * ,
jttrefttrefd bb
<
position correcte
jtb
position incorrecte
,*Mtrefv
iMtv ,
Modèle d’Apparence M
Descripteur référence
Descripteurs hypothèses
Dissimilarité jM
tv ,
> ?
65
− Une classe des "cibles" associée à l'objet, qui contient des éléments de toutes les images où
l'objet apparaît ayant une position acceptable inn,tn,t B∈b .
− Une classe des "distracteurs" associée au fond qui contient des éléments ayant une position
incorrecte outn,tn,t B∈b .
Fig. 2.9 conception d’une base de données de boîtes englobantes pour l'objet n=1 de la séquence 1. Les boîtes cibles sont translatées d'une petite distance de la boîte vérité terrain. Les boîtes distracteurs ne recouvrent pas la boîte vérité-terrain.
La décision pour inclure un item dans la classe des cibles ou des distracteurs dépend d'un seuil sur
l'erreur de position :
( )( ) out
tntnout
tntn
intntn
intntn
eeB
eeB
>∈
<∈*,,,,
*,,,,
, si
, si
bbb
bbb (2.6)
Les valeurs des seuils ine et oute doivent être fixés selon l'application visée. Ils sont choisis avec
les directives suivantes. ine est tel que la classe des cibles correspond aux boîtes englobantes qui ont
une erreur autorisée de quelques pixels par rapport à la vérité terrain. D’autre part, oute est tel que la
classe des distracteurs forme un échantillonnage de boîtes qui ne chevauche pas l'objet d'intérêt (voir
Fig. 2.9).
Une telle base de données peut être issue des données de vérité terrain utilisées dans des
benchmarks manuellement annotés tels que PETS [Schneiders et al, 2005] [Brown et al, 2005], ViPER
[Doermann et al, 2000], CAVIAR [CAVIAR], ou des benchmarks semi synthétiques [Black et al,
2003]. Les séquences vidéo et leur vérité terrain associée utilisées dans notre évaluation proviennent
du projet de CAVIAR (Context Aware Vision using Image-based Active Recognition) (voir Fig. 2.10).
C’est jeu de données pour des applications ‘indoor’. La vérité terrain du projet [CAVIAR] comporte
28 séquences annotés manuellement et prises par une caméra de vidéo surveillance dans l’entrée du
laboratoire de recherche d’INRIA Rhône Alpes en France. Ils se composent de six scénarios des
Boîte englobante vérité-
terrain
Boîte englobante cible
Boîte englobante
distracteur
66
acteurs exerçant différentes activités telles que marche, rencontre, abandonnant des objets, combat,
fuite.
Fig. 2.10 Extrait de la vérité terrain CAVIAR, utilisée pour illustrer l'approche proposée, avec les positions de la vérité terrain pour chaque objet n.
67
2.3.3 Critères d’évaluation des performances
2.3.3.1 Mesures brutes du pouvoir de discrimination
L’évaluation est fondée sur la définition d’un critère de discrimination : étant donné un objet
requête n dont le modèle *,
Mtrefnv est estimé à l’instant tref, le modèle est discriminant à l’instant t si les
descripteurs cibles iMtnv ,, calculés en in
n,ti
tn B∈,b sont plus similaires à *,
Mtrefnv que les descripteurs
distracteurs jMtnv ,, calculés en out
n,tj
tn B∈,b .
Après classement de tous les descripteurs à l’instant t par ordre décroissant de similarité, on
considère les rangs respectifs de la cible la plus similaire noté inttrefnr ,, , de la cible la moins similaire
2,,
inttrefnr , et du distracteur le plus similaire out
ttrefnr ,, . L’utilisation d’une distance treftnd ,, au lieu d'une
similarité est possible, il faut alors classer les descripteurs par ordre croissant de distance. On notera
intreftnd ,, la distance entre le modèle et la cible la plus similaire.
Pour un couple d’instants ),( ttref donné, le pouvoir de discrimination M ttrefnc ,, d’un modèle
d’apparence M pour un objet n est quantifié en trois catégories :
- Totalement discriminant (M ttrefnc ,, =2) lorsque toutes les cibles sont mieux classées que les
distracteurs.
- Discriminant ou partiellement discriminant (Mttrefnc ,, =1) si l’une des cibles est moins similaire
qu’un distracteur.
- Non discriminant ( Mttrefnc ,, =0) lorsque le descripteur le plus similaire est un distracteur.
Il est important de noter que les valeurs de similarité ou de distance associées à différents modèles
d’apparences ne sont pas manipulées et comparées directement, mais seulement à travers la capacité à
discriminer entre cibles et distracteurs. Ainsi des types de similarité et de descripteurs différents
peuvent être comparés.
68
Fig. 2.11 Principe d’évaluation du pouvoir de discrimination.
Position de la vérité-terrain (VT)
à l’instant tref
,*Mtrefv
Référence pour le modèle d’apparence M
Cibles: positions correctes, petites perturbations de la VT à
l’instant t
Distracteurs: positions incorrectes, celles qui ne recouvrent pas la VT à
l’instant t
iMtv ,
Frame t
Hypothèses : descripteurs d’apparence
Frame tref
Distances de dissimilarité entre la référence et les hypothèses ordonnées par ordre croissant
inttrefd ,
outttrefd ,
t
tref
Best outlier distance
20 40 60 80 100 120 140 160 180
20
40
60
80
100
120
140
160
180
0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55
t
Meilleure distance à la cible Meilleure distance au distracteur
tref
Comparaison
t
20 40 60 80 100 120 140 160 180
20
40
60
80
100
120
140
160
180
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Pouvoir de Discrimination
Non discriminant Le descripteur le plus similaire est un distracteur. Discriminant Toutes les cibles sont mieux classées que les distracteurs.
tref
t
Mesures de performance brutes pour un objet, avec énumération exhaustive des couples (tref,t)
0, =Mttrefc
1, =Mttrefc
69
Les mesures précédentes sont définies pour chaque objet n et chaque image t, pour un modèle
calculé sur une image de référence tref. Elles peuvent être représentées sous la forme de matrices où
chaque ligne correspond à une image de référence tref et chaque colonne à une image testée t.
Afin d’illustrer ces mesures, nous utiliserons les modèles d’apparence suivants, désignés selon la
nomenclature suivante : H pour Histogramme ou T pour Template, G pour niveaux de gris ou C pour
couleur. Les modèles MHG et MHC correspondent à un histogramme respectivement en niveaux de
gris (256) et en couleur RVB (6×6×6), calculé sur le contenu de la boîte englobante, et associé à une
distance de Matusita. Les modèles MTG et MTC correspondent à une imagette respectivement en
niveaux de gris et en couleur RVB obtenue en redimensionnant le contenu de la boîte englobante à une
taille de 20×20 pixels, et associée à une distance Euclidienne.
Les représentations matricielles de la distance de la meilleure cible inttrefnd ,, et du pouvoir de
discrimination Mttrefnc ,, sont illustrées pour les modèles MHG et MTG sur la figure (Fig. 2.13). On peut
remarquer que la diagonale correspond à la recherche d’un objet dans la même image que celle sur
laquelle le modèle a été calculé. En s’éloignant de la diagonale, la distance temporelle |t-tref| entre
l’image courante et l’image de référence s’accroît (Fig. 2.13 à gauche), ce qui augmente les
possibilités que le modèle soit moins discriminant, à cause d’un changement d’apparence de l’objet au
cours du temps. Ainsi un modèle est toujours au moins partiellement discriminant à proximité
immédiate de la diagonale, mais peut devenir non discriminant lorsqu’un changement temporel de son
apparence rend un distracteur plus similaire à la référence que les cibles. C’est notamment le cas (Fig.
2.13 à droite) pour le modèle MHG pour tref>70 et t<70, alors que le modèle MTG reste discriminant
dans cette situation.
70
Fig. 2.12 Conception d’une base de données de boîtes englobantes pour l'objet n=7 de la séquence 1 dans les frames 40 et 100.
Fig. 2.13 la meilleure distance inttrefnd ,, (à gauche), et le pouvoir de
discrimination Mttrefnc ,, (à droite) utilisant le modèle MHG (en haut) ou
MTG (en bas), pour l’objet illustré par la boîte englobante bleu.
71
Ces premières représentations font appel à quelques commentaires. D'abord, il est clair que la
dynamique des distances est différente. Pour cette raison, la comparaison directe des similarités (resp.
distances dans l'exemple) doit être évitée. C’est pour cela seulement le classement calculé dans la
même mesure de similarité et le même descripteur sont utilisés, l'approche proposée ne fait pas
n'importe quelle hypothèse sur la dynamique des mesures de similarité. Par conséquent différents
types de descripteurs ou de similarité peuvent être comparés en se basant sur leur pouvoir
discriminant.
L'invariance temporelle du modèle d'apparence donc est implicitement évaluée par le pouvoir de
discrimination entre l'objet et de fond quand l’image de référence tref est différente de l’image test t.
En second lieu, la diagonale de la matrice inttrefnd ,, correspond à la recherche l'objet dans la même
image où la référence est calculée. Il doit être donc toujours au moins partiellement discriminant
( Mttrefnc ,, ≥ 1). En s'éloignant de la diagonale, le temps entre l’image de référence et les images testées
augmente. Ceci est associé à une augmentation de la distance à la cible, qui indique un changement de
l'apparence de l'objet lorsque l’écart temporel s’accroit.
Troisièmement, bien que les mêmes images soient représentées pour les lignes tref et les colonnes
t, les matrices ne sont pas strictement symétriques. En effet, une ligne tref correspond aux mesures
associées à la vraie boîte englobante dans l’image tref, tandis qu'une colonne t correspond aux mesures
calculées sur l'ensemble de boîtes englobantes perturbées dans l’image t. Pour la mesure de la
meilleure distance à la cible, la matrice est habituellement presque symétrique, car le descripteur
calculé sur la vraie boîte englobante est très proche du meilleur descripteur cible.
2.3.3.2 Mesures intégrées de performance
Plusieurs mesures quantitatives peuvent être extraites des matrices précédentes. En premier lieu,
une mesure du pouvoir de discrimination global peut être associée à un descripteur pour chaque objet
n en calculant la proportion de couples (tref,t) pour lesquels le modèle est discriminant:
( )
treft
cttrefD
MttrefM
n ##
1 / ,# , ≥= (2.7)
• où ttref ## = représente le nombre d’images dans lesquelles l'objet n apparaît.
L'aspect temporel est ainsi pris en considération à l'intérieur des matrices de performance, et
ensuite intégré dans une mesure globale. Sur l'exemple que nous avons utilisé précédemment, le
modèle de MHG est discriminant %877 =MHGD du temps, et le modèle de MTG est discriminant
%867 =MTGD du temps. Ces résultats globaux sont très similaires, tandis qu'il semble que les deux
approches ne présentent pas les mêmes propriétés.
72
Afin de caractériser numériquement la capacité d’un modèle d’apparence à rester discriminant au
cours du temps, nous définissons le pouvoir de discrimination en fonction de l’écart temporel ∆t, en
analysant les diagonales secondaires des matrices.
( ) ( ) ( ) /,#
et 1 / ,# ,
ttreftttref
ttreftcttreftD
MttrefM
n ∆=−∆=−≥
=∆ (2.8)
Fig. 2.14 Pouvoir de discrimination en fonction de l’écart-temporel
Ceci est illustré dans la Fig. 2.14, qui compare les performances temporelles des deux modèles de
la Fig. 2.13. Le modèle MTG semble sensible aux variations périodiques de l’apparence (dues au
mouvement des jambes). A l’opposition le modèle MHG n’est pas perturbé par ce phénomène et il
surclasse le MTG sauf pour les ∆t<60. Ceci peut être expliqué par la présence d’un distracteur entre les
frames 1 et 60 comme on peut observer pour t<60 dans la matrice de discrimination sur la figure Fig.
2.13.
Comme nous l’avons noté pour les modèles MHG et MTG, deux modèles peuvent ne pas avoir les
mêmes modes de défaillance, les valeurs de ( )ttref , qui correspondent à une situation de non
discrimination étant différentes dans les deux cas. En reprenant à la figure Fig. 2.14 la mesure ( )tDMn ∆
sur l’exemple des figures Fig. 2.13, on retrouve l’effet de la présence d’un distracteur pour t<70 sur le
modèle MHG, mais pas sur MTG, qui semble par contre plus sensible à des variations périodiques de
l’apparence (dues au mouvement des jambes).
Afin de résumer les différents cas, et de déterminer pour un couple de modèles d'apparence M1 et
M2 s'ils échouent dans les mêmes situations, ou s'ils montrent des comportements complémentaires, il
est intéressant de quantifier la proportion de couples (t, tref) pour lesquels l’un des modèles est
discriminant alors que l'autre ne l’est pas (Fig. 2.15). Le pouvoir de discrimination comparatif pour
que le modèle M1 soit supérieur au modèle M2 est défini par :
73
( )
treft
ccttrefD
Mttref
MttrefMM
n # #
0et 1 / ,# 2,
1,21
=≥=> (2.9)
Fig. 2.15 Comparaison du pouvoir de discrimination de deux modèles d’apparence.
Fig. 2.16 Comparaison de paires M1/M2 de modèles d'apparence : MHG/MTG, MHG/MHC, MTG/MTC, selon le pouvoir de discrimination global (DM1, DM2) et le pouvoir de discrimination comparatif (DM1>M2, DM2>M1). Chaque point est étiqueté par n°-séquence/n°-objet.
Quand )0,0(),( 1221 ≈>> MMn
MMn DD , les deux modèles d'apparence ont le même comportement, et
échouent dans les mêmes situations. Quand 1221 et 0 MMn
MMn DD >> ≈ est élevé, le modèle 2M est
meilleur que le modèle 1M . Quand les deux valeurs sont élevées, les deux modèles sont
complémentaires et échouent dans différentes situations.
La comparaison de deux modèles peut ainsi utiliser les mesures MnD et 21 MM
nD > , en affichant ces
mesures pour un nombre important de situations (une situation étant définie comme l’étude du suivi
d’un objet au sein d’une séquence). Dans les figures Fig. 2.16, il est ainsi montré notamment que les
modèles MHG et MTG ne réussissent pas systématiquement dans les même situations, l’un ou l’autre
des modèles étant mieux adapté en fonction des situations. Cette représentation permet par exemple
d’étudier l’apport de la couleur dans les cas étudiés : les modèles par imagette MTG et MTC ont
quasiment les mêmes situations de réussite (points concentrés autour de l’origine), alors que les
74
approches par histogramme MHG et MHC semblent réussir dans des situations plus complémentaires
(concentration moins forte des points autour de l’origine).
Ces résultats illustratifs seront développés lors de l’étude expérimentale des modèles d’apparence
présentée au Chapitre 4.
2.4 Conclusion
Ce chapitre a présenté deux approches originales pour l'évaluation des performances des modèles
d'apparence composés d’un descripteur et d’une mesure de similarité pour le suivi.
La première approche caractérise les performances spatiales du modèle en évaluant la distance
spatiale entre la position vraie de l'objet et plusieurs positions optimales au sens du modèle
d'apparence uniquement. La topographie de la carte de similarité est ainsi utilisée de manière à rendre
l'analyse des performances indépendante des échelles différentes potentiellement associées à des
modèles distincts. Ceci permet la comparaison objective des modèles.
La deuxième approche étend les approches d'évaluation de descripteurs pour la recherche d’images
par le contenu au contexte du suivi d’objets en prenant en compte spécifiquement l'aspect temporel des
séquences vidéos, au travers de la conception d'une structure spécifique du corpus d’évaluation et de la
proposition de nouvelles mesures de performance. Cette approche est complémentaire des benchmarks
de suivi d’objets utilisant la méthodologie classique d’évaluation au sens où elle se focalise sur l’étude
du modèle d’apparence, au lieu d’étudier un système « boîte noire » complet, tout en réutilisant les
bases de vérité-terrain existantes.
Ces deux méthodologies d’évaluation viennent compléter la méthodologie classique pour les
évaluations de performance qui seront menées dans les chapitres suivants.
75
Chapitre 3
Nouveaux modèles d’apparence pour le suivi
L’amélioration de la conception d’un système de suivi d’objets a des conséquences notables sur la
qualité des résultats de localisation obtenues. Dans le but d’améliorer ces performances, nous
proposons de nouvelles techniques. Dans ce chapitre, les améliorations portent sur deux axes :
Axe 1 : amélioration du caractère discriminant d’un descripteur afin de limiter les ambigüités liées
à la représentation par histogramme de couleurs.
Axe 2 : proposition d’une nouvelle approche pour la comparaison d’un descripteur à un modèle de
référence afin de rendre les modèles moins sensibles aux variations colorimétriques.
3.1 Histogramme multi-échelles
Dans le cadre de l’accroissement de la performance d’un système de suivi, nous proposons un
nouveau descripteur pour mieux représenter un objet. Ce nouveau schéma de représentation est
introduit afin de pallier l’imperfection due à la représentation habituelle par histogramme brut (HB)
dont souffre l’algorithme Mean Shift grâce à l’utilisation d’histogrammes multi-échelles (HM)
[Mikram et al, 2006]. Ce descripteur est conçu pour effectuer la discrimination entre des objets
différents qui ont pourtant le même histogramme brut. Tout d’abord, nous mettons en évidence
l’apport de l’utilisation de l’histogramme multi-échelles, puis nous présentons les résultats
expérimentaux de notre approche.
3.1.1 Principe
L’histogramme multi-échelles est une variante de la représentation d’objet qui inclut de
l'information spatiale.
3.1.1.1 Histogramme multi-échelles
L’histogramme multi-échelle est une famille d’histogrammes p élaborés à différentes échelles τ
d’une image. Pour obtenir un histogramme multi-échelles de l'image I , on effectue la convolution de
cette image avec des filtres gaussiens G (τ) [Koenderink, 1984], [Witkin, 1983] :
( )
+−=2
22
2 2exp
2
1
τπττ yx
G (3.1)
76
• où τ est l’écart type2 du filtre. L'histogramme de l’image convoluée est noté pτ (I )=p(I*G(τ))
où ∗ représente l'opérateur de convolution.
• L’histogramme multi-échelles est le vecteur défini par :
] ,,,,[ 10 −= Npp pp KK τ (3.2)
• où pτ est un vecteur correspondant à l'histogramme à l’échelle τ et N est le nombre d’échelles
considérées. Cette représentation inclut implicitement l'information spatiale de l’image (Fig.
3.1).
(a) (b) (c) (d)
Fig. 3.1 Exemples de deux histogrammes multi-échelles. Les colonnes (a) et (d) illustrent la décomposition multi-échelles de deux images. La ligne supérieure illustre les images originales. Les colonnes (b) et (c) illustrent leurs histogrammes multi-échelles respectifs. Les histogrammes originaux sont identiques mais les histogrammes multi-échelles sont distincts.
2 Terme utilisé par analogie avec la densité de probabilité d’une variable aléatoire gaussienne.
0 50 100 150 200 250 3000
500
1000
1500
2000
2500
intensity
dens
ity
0 50 100 150 200 250 3000
500
1000
1500
2000
2500
intensity
dens
ity
77
3.1.1.2 Histogramme multi-échelles cumulé
• L’histogramme multi-échelles cumulé (HMC) est un dérivé de l’histogramme multi-échelles,
c’est la moyenne d’une famille d’histogrammes à plusieurs échelles afin de créer un nouveau
descripteur. La moyenne est définie selon la relation suivante :
∑−
==
1
0
1 Ncum
N τ
τpp (3.3)
• où pτ est un vecteur correspondant à l'histogramme à l’échelle τ et N est le nombre d’échelles
considérées.
3.1.1.3 Comparaison des histogrammes multi-échelles
La comparaison de deux histogrammes multi-échelles (à N échelles) p et q peut être effectuée en
utilisant une distance moyennée des distances des histogrammes de même échelle :
( ) ∑−
==
1
0),(
1,
NHM d
Nd
τ
ττ qpqp (3.4)
• où d(pτ,qτ) est une distance entre les deux histogrammes pτ et qτ à l’échelle τ.
La comparaison de deux histogrammes multi-échelles cumulés s’effectue de façon analogue à la
comparaison d’histogrammes mono-échelle, par l’utilisation de la métrique d(pcum,qcum).
3.1.2 Intérêt de la nouvelle approche
L’objectif de ce paragraphe est d’évaluer l’apport des représentations proposées qui prennent en
compte l’information spatiale (totalement perdue lors de l’utilisation des histogrammes bruts) pour
améliorer les performances d’un système de suivi. Une série d’expérimentations a été effectuée pour
valider certains aspects de nos propositions.
3.1.2.1 Discrimination de la convergence
Nous avons comparé les résultats obtenus par les représentations proposées à ceux obtenus par
l’approche conventionnelle par histogramme. Dans ce but, nous avons mis au point un protocole pour
évaluer le bénéfice de l’utilisation de l’histogramme multi-échelles et de ses dérivés. L’évaluation a
été réalisée à l’aide d’une image synthétique simulant un scénario difficile de suivi où l’histogramme
de l’objet cible et les histogrammes candidats sont similaires. L’image synthétique est composé d’un
échiquier représentant l’objet cible associé à huit autres imagettes différentes qui l’entourent (Fig. 3.2).
Toutes les imagettes sont binaires (0 et 255) et ont le même histogramme.
78
• L’évaluation de la performance de ces représentations s’effectue sur la base du critère 1-
pq − . La carte de similarité générée par ce critère pour une gamme de translations (tx,
ty) autour du centre de l'image cible illustrée par la figure (Fig. 3.2).
• La carte de similarité est calculée dans la région marquée en vert. Le modèle cible (la région
marquée avec la boîte englobante rouge) a été comparé aux candidats obtenus en balayant
d’une manière exhaustive la région située à l’intérieur du rectangle vert.
• Nous montrons d'abord sur la figure Fig. 3.3 (a) la carte obtenue en calculant la similarité pour
la région marquée en vert en utilisant l’histogramme brut. Il est évident, à partir de cette
figure, qu'il y a beaucoup de coefficients similaires dans la surface puisque l'histogramme est
invariant par translation dans cette fenêtre de recherche. Cette surface de la similarité aplatie
ralentirait la convergence de Mean Shift ou même le ferait converger vers un maximum local
menant à une localisation imprécise de la cible.
• La carte de similarité représentée sur la figure Fig. 3.3 (b) est plus convexe. Elle montre que le
l’histogramme cumulatif proposé a un pouvoir de discrimination plus élevé que l'histogramme
conventionnel et conduit à un suivi plus robuste et plus précis.
• Du fait que toutes les imagettes autour de l’échiquier cible sont similaires en termes
d’histogramme, il est clair qu’un histogramme mono-échelle ne peut pas distinguer les
changements dûs à des translations dans toutes les directions, ce qui mène à une situation de
singularité où la même valeur optimale de la fonction objective peut être réalisée pour une
gamme continue, c’est-à-dire que n'importe quelle imagette candidate dans cette zone satisfait
notre critère de similarité. D'autre part, la surface associée à l'histogramme multi-échelles
montre une crête plus contrastée, où l'ambiguïté de l'optimum est diminuée. Par conséquent,
sur de telles données, l'histogramme multi-échelles donne les meilleurs résultats que
l’approche mono-échelle grâce à une meilleure discrimination de l'optimum.
3.1.2.1 Robustesse au bruit
Pour tester la robustesse des nouveaux descripteurs introduits vis-à-vis du bruit, une image test est
entachée d’un bruit blanc gaussien avec des écart-types différents (Fig. 3.4). Nous utilisons la
procédure décrite précédemment pour obtenir les surfaces de similarité au voisinage d’une cible. Le
résultat obtenu avec un histogramme classique montre (Fig. 3.5) que la localisation de l’objet cible est
impossible puisque la surface est aplatie.
Par contre, l’utilisation de l’histogramme multi-échelles permet une bonne discrimination ce qui
revient à estimer une localisation précise. Notons que l’histogramme multi-échelles permet une
localisation plus précise que l’histogramme multi-échelles cumulé.
79
Fig. 3.2 images multi-échelles.
Fig. 3.3 Les surfaces 1- pq − pour (a) : histogramme mono-échelle, (b) : histogramme multi-échelles cumulé, (c) : histogramme multi-échelles.
(a) (b)
(c)
80
Fig. 3.4 A gauche : image originale. A droite : image bruité avec un bruit gaussien (écart-type=1.60).
Fig. 3.5 Cartes de similarité. Haut/milieu/bas : histogrammes mono/cumulé/multi échelle. Gauche/droite : sans bruit/avec bruit.
81
Fig. 3.6 Courbes de robustesse à l’initialisation. Gauche : sans bruit. Droite : avec bruit.
3.1.3 Suivi robuste par Mean Shift via l’histogramme multi-échelles
L’approche Mean Shift (Annexe A) peut maintenant être étendue pour résoudre les ambiguïtés qui
apparaissent quand l'environnement de l’objet suivi est caractérisé par des histogrammes similaires
c'est-à-dire lorsque le modèle cible et les candidats ont des histogrammes similaires. Nous présentons
dans cette section une nouvelle conception d’un système de suivi qui utilise un histogramme multi-
échelles. Cette nouvelle représentation exploite les rapports spatiaux inhérents entre les pixels à travers
plusieurs échelles de l’image.
82
Dans la nouvelle approche proposée, les distributions du modèle de la cible et du candidat à
l’échelle τ peuvent maintenant être définies comme :
( )∑=
=n
iiuiu
cKCq1
2)( )( xx τττ δ (3.5)
( ))( ) ()(1
2
iuhn
u
ihu
ch
KCp xxy
y τττ δ∑=
−= (3.6)
Fig. 3.7 Distributions multi-échelles
A partir ces distributions multi-échelles, nous explorons plusieurs voies pour améliorer la
performance du processus Mean Shift. L’apport d’information spatiale intégré dans les nouveaux
descripteurs aura un effet favorable en ce qui concerne l’augmentation de la précision de la
localisation de la cible. Dans les paragraphes qui suivent, nous définissons formellement l’approche
envisagée pour mener à bien cet objectif.
La comparaison de deux histogrammes multi-échelles (à N échelles) peut être effectuée en utilisant
un coefficient de Bhattacharyya moyenné :
( ) ( ) ( )∑−
===
1
0
1),(
N
N τ
τρρρ yqypy (3.7)
Dans le cas de l’histogramme multi-échelles :
En utilisant un développement limité de Taylor à l’ordre 1 autour de l’histogramme p(y0) et un
noyau d’Epanchnikov on obtient une estimation de la position de la cible comme suit :
( ) ( )( )iui
ih
u u
i ch
KCp
q
Ncte x
xy
yy ττ
τ τ
τδρ ∑∑∑
−+≅
2
0)(
1 (3.8)
( )
−+≅ ∑∑
2
0)(
1
hK
q
q
CN
cte i
iu
iu
ih
xy
yy τ
τ
ττ
τ
τρ (3.9)
0
0,05
0,1
0,15
0,2
0,25
1 2 3 . . . m
color
Pro
babi
lity
échelle
Modele cible à
l’échelle N 0
0,05
0,1
0,15
0,2
0,25
0,3
1 2 3 . . . m
color
Pro
babi
lity
Modele du candidate à l’échelle N
…
0
0.05
0.1
0.15
0.2
0.25
0.3
1 2 3 . . . m
color
Pro
babi
lity
…
Modèle de la cible à l’échelle 1
0
0,05
0,1
0,15
0,2
0,25
0,3
1 2 3 . . . m
color
Pro
babi
lity Modele du
candidat à l’échelle 1
83
• avec τiu la couleur quantifiée du pixel xi à l’échelle τ.
• Si le même paramètre h est utilisé à toutes les échelles, on peut simplifier en
)( 0yτ
τ
ττ
τω
iu
iui
q
q
= (3.10)
et en utilisant un noyau d’Epanchnikov on obtient une estimation de la positon de la cible comme
suit :
∑ ∑
∑ ∑
−
= =
−
= ==1
0 1
1
0 11
N hn
ii
N hn
iii
τ
ττ
τ
ττ
ω
ω x
y (3.11)
Pour l’histogramme cumulé
( ) ( )yy
y cumu
ucumu
cumu
u
cumu
cumu p
p
qcteqyp ∑∑ +≅=
)()(
0
ρ (3.12)
or
( ))( 2
iui
ih
cumu c
hKCp x
xy τ
τ
τ δ∑∑
−= (3.13)
( )
−+≅ ∑∑
2
0)( hK
q
q
Cctey icum
iu
cum
iu
ih
xy
yτ
τ
τ
τρ (3.14)
Avec la simplification précédente ∑=τ τ
τω
)( 0ycum
iu
cum
iucumi
q
q
(3.15) :
on obtient une estimation de la position de la cible comme suit dans le cas de l’histogramme multi-
échelles cumulé :
∑
∑
=
==hn
i
cumi
hn
ii
cumi
1
11
ω
ω x
y (3.16)
84
3.1.4 Expérimentation et évaluation
Les expérimentations sur la séquence INRIA illustrent l’apport des méthodes proposées par rapport
à l’algorithme du Mean Shift classique en termes de précision (Fig. 3.8, Fig. 3.9).
Fig. 3.8 Résultat du suivi par Mean Shift. En haut : Mean Shift. Au milieu : Mean Shift avec histogramme cumulé. En bas Mean Shift avec histogramme multi-échelles
Fig. 3.9 Erreur par rapport à la vérité terrain
Err
eur
du s
uivi
85
3.2 Suivi robuste via une mesure de similarité inter-bins
L’objectif de ce paragraphe est de présenter l’adaptation des mesures de similarité inter-bins
représentées dans la section 1.2.4.3, pour le suivi d’un objet fondé sur l’approche Mean Shift. Pour
gagner en robustesse, nous proposons ainsi de combiner efficacement les avantages respectifs de
l’algorithme Mean Shift et des mesures de similarité inter-bins pour effectuer le suivi.
L’algorithme conventionnel Mean Shift repose sur la minimisation de la distance de Bhattacharyya.
Nous avons vu précédemment son équivalence avec la distance de Matusita. Nous proposons de
modifier la distance de Matusita de façon à prendre en compte des associations inter-bins. Cette
extension s’effectue par analogie à la distance quadratique, présentée à la section 1.2.4.3. Nous
présenterons ensuite comment appliquer cette distance dans le cadre de l’algorithme Mean Shift.
3.2.1 Effets des changements d’illumination
Une des principales difficultés du suivi d’objets dans une séquence vidéo réside dans la prise en
compte des changements d’illumination de la scène.
Fig. 3.10 Image originale (à gauche), image décalée (au milieu) et leurs histogrammes (à droite).
Le changement d’illumination (de la luminosité) rend la similarité avec le modèle initial de plus en
plus faible, ce qui tend à réduire les chances d’effectuer un suivi d’objet correct. Il existe plusieurs
manières d’aborder le problème :
• Adapter le modèle de l’objet au cours du temps au risque d’intégrer de la ‘fausse’ information
dans le modèle de référence, menant au problème bien connu de la dérive [Comaniciu et al, 2003].
• Trouver un espace colorimétrique adapté pour lequel la similarité est maintenue, tout en
conservant une dissociation suffisante de l’objet dans son environnement. Cette approche est bien
adaptée lorsque les attributs (couleur) de l’objet peuvent se distinguer individuellement du fond
pour lequel il est possible de connaître les caractéristiques notamment en observant le voisinage de
l’objet [Lehuger et al, 2006].
10 20 30 40 50 60 0
0.5
1
1.5
2
2.5
3 x 10
4
Histogramme image originale
Histogramme image décalée
86
• Une autre approche alternative repose sur un prétraitement, tel que Retinex [Jobson et al, 1997],
visant à compenser les variations de luminance dans l’image. Ce pré-traitement est appliqué avant
d’employer une méthode classique de suivi. Cependant, son application entraîne de nombreux
problèmes notamment lorsque les objets en mouvement sont petits (quelques pixels au carrée). Le
pré-traitement tient compte du voisinage des points et s’applique mieux à des surfaces étendues.
Nous proposons une autre approche pour aborder ce problème qui modifie la distance entre
descripteurs utilisée pour comparer le modèle de référence et les candidats dans la séquence vidéo.
3.2.2 Distance fondée sur la distance de Matusita modifiée
3.2.2.1 Rappels sur les distances utilisées
• Nous rappelons rapidement les propriétés des distances de Matusita et quadratique.
La distance de Matusita s’exprime :
( ) ( )qpqpqp −−= ),(T
Matd (3.17)
• avec q est défini pour un vecteur uuq )(=q par uuq )(=q .
• L’intérêt de cette distance consiste notamment en sa relation avec le coefficient de
Bhattacharyya ρ(p,q), qui est une mesure de similarité adaptée aux distributions. En
particulier, pour toute distribution p normalisée, on a :
1),(1
=== ∑=
m
uu
Tpppppρ (3.18)
• En développant l’expression (3.17), on obtient ainsi :
( )
( ) ),(22,
2 ,
),(
qpqp
qpqqppqp
qp
ρρ
−=
−+=
Mat
TTTMat
d
d43421 (3.19)
La distance quadratique peut être exprimée de deux façons, qui sont équivalentes lorsque la matrice
Q est symétrique positive, en la décomposant en Q=RTR.
( ) ( ) ( )qpqpqp −−= , 2 Qd TQ (3.20)
( ) ( ) ( )qpqpqp RRRRd TQ −−=2, (3.21)
Cette distance fait donc intervenir naturellement un aspect inter-bins dès que la matrice Q est non
diagonale :
( ) ( )∑∑ −−=u v
vvuvuuQ qpQqpd 2 ),( qp (3.22)
87
3.2.2.2 Extension la distance de Matusita au cas inter-bins
•••• distance Quadratique-Matusita
Nous voyons deux possibilités pour appliquer cette approche inter-bins à la distance de Matusita.
La première (notée distance Quadratique-Matusita) consiste à calculer une distance quadratique entre
p et q , ce qui peut s’exprimer :
( ) ( ) ( )qpqpqp −−= ,T
QdQM (3.23)
( ) ( ) ( )qpqpqp RRRRdQM −−= ,T
(3.24)
• Dans ce cas :
( ) ( )vvuvu v
uuQM qpQqpd −−= ∑∑ ),(2 qp (3.25)
•••• distance Matusita transformée
La deuxième (notée distance Matusita transformée) consiste à appliquer le changement de repère R
aux vecteurs p et q avant de calculer une distance de Matusita, qui remplacerait la distance euclidienne
utilisée pour comparer Rp et Rq dans le cas de la distance quadratique (eq. 3.21) :
( ) ( ) ( )qpqpqp RRRRdMR −−= ,T
(3.26)
Cette deuxième version nous semble plus adaptée au cas des distances entre distributions. En effet,
dans le cas où la matrice R est stochastique gauche (c'est-à-dire à termes positifs dont la somme sur
chaque colonne vaut 1), les vecteurs p’=Rp et q’=Rq correspondent toujours à des distributions. La
nouvelle distance inter-bins correspond alors à une distance de Matusita appliquée à des distributions
auxiliaires p’ et q’ . Il est alors possible de définir un coefficient de Bhattacharyya inter-bins, qui est lié
à la distance de Matusita inter-bins précédente :
( ) qpqp RRT
R =,ρ (3.27)
• Les justifications de ce choix sont détaillées dans la section suivante.
3.2.2.3 Choix entre les deux métriques présentées
La première métrique peut se développer sous la forme :
( )( )43421θp
qpqqppqp
,
2,
QM
TTTQM QQQd
ρ
−+= (3.28)
• Les deux premiers termes ne sont pas constants, ce qui empêche d’établir un lien entre
dQM(p,q) et ρQM(p,q), l’extension inter-bins potentielle du coefficient de Bhattacharyya. La
condition pour que les termes pp QT
soient constants quels que soient p est que R puisse
88
s’exprimer sous la forme R=aU avec U unitaire. On aurait dans ce cas dT IaRRQ 2== , ce qui
ramène en fait au cas bin-à-bin à un coefficient multiplicatif près, et n’est donc pas intéressant.
Fig. 3.11 Illustration de la perte de normalisation pour une matrice Q non proportionnelle à l’identité. Exemple pour m=2 (2 bins) avec
=
2/10
01Q .
• Dans le cas de la deuxième proposition de métrique, un développement donne :
( )4342143421
),(
2,
qp
ppqqppqp
R
TT
pC
TMR RRRRRRd
ρ
−+= (3.29)
avec pp RRCT
p = (3.30)
( )
( )muvuv
v
Tv
uuv
vv
uu
mvuvuvv
uvuu
u
RRpR
Rp
p
RRpRpRpCp
,,1,..
'
,,1,,''
2'
colonne vecteur le notant en
où et notant en
K
K
=
=
=
=
=
====
∑
∑∑
∑
∑∑ pp
Fig. 3.12 Notations pour les colonnes de la matrice R
• Dans ce cas, Cp est indépendante de p lorsque vaRu uv ∀=∑ . Sans perte de généralité, on
peut supposer a=1 : 1=∑u uvR .
v
u
R.v
R
Ruv
1
1 11
=L
p
1
1 1
2=
Lp 1p
2p2p
1p
p 1
1 1
2<
Lp 1)( pR
pR
2)( pR
p1/2
89
• Si tous les coefficients sont positifs, R est alors une matrice stochastique gauche : si p est un
vecteur correspondant à une distribution de probabilité discrète, alors Rp correspond
également à une distribution de probabilité discrète.
• Dans ce cas, on peut définir un coefficient de Bhattacharyya étendu :
( )
∑ ∑
∑ ∑∑
∑
= =
= ==
=
=
=
====
m
w
m
vuwvwuvu
m
w
m
vvwv
m
uuwu
m
www
TR
RRqp
qRpR
RRqpRR
1 1,
1 11
''
1
'' et avec , qqppqpqpρ
(3.31)
• et on a alors :
( ) ( )( )qpqp ,12, RMRd ρ−= (3.32)
Fig. 3.13 Principe du changement de repère pour la prise en compte des liens inter-bins dans le calcul de la distance de Matusita transformée.
3.2.3 Application au suivi par Mean Shift
L’algorithme de suivi par Mean Shift, présenté à l’annexe (Annexe A) repose sur la linéarisation du
coefficient de Bhattacharyya par rapport au vecteur p(y) représentant la distribution discrète. Dans le
cas du coefficient de Bhattacharyya transformé, introduit précédemment, cela donne les expressions
suivantes :
( ) ( )ttR g ppqp)) −+ ,ρ (3.33)
vp
v
wq
w'up
u
'uq
u
uwRuvR
Comparison
v w
u u
90
avec
( ) RRdiagRg
RRg
T
T
2
1
ˆ
2
1 −=
∂∂
=
pq
p
pq
p (3.34)
avec
==
pp
R
R'
' (3.35)
ligne. vecteur )(notant en 2
1,...,1..'
'
muvuvvv v
v RRRp
qg === ∑ (3.36)
or ( ) ( )( )iti
it cKp xIx δ ∑ −= (3.37)
• d’où
( )
( ) ( )( )iiiivu
n
i
m
v v
v
t
m
tt
uutcKRp
qcte
pgcte
xIx
qp
==−+=
+≅
∑ ∑
∑
= =
=
avec 2
1
,
1 1 '
'
1ρ
(3.38)
• Ce résultat est à rapprocher du résultat analogue pour le coefficient de Bhattacharyya simple :
( ) ( )cKp
qcte i
m
i iu
iuR −+≅ ∑
=xqp
12
1, )ρ (3.39)
Dans les deux cas, on cherche à maximiser
( ) ( )cKf i
n
ii −= ∑
=xqp
1, ω (3.40)
avec simple cas lepour 1
u)(up
qw i
m
u u
ui −= ∑
=δ) (3.41)
et ( )( )iiivu
m
v v
vi uuR
p
qw xI== ∑
= avec
1 '
'
(3.42)
Ces équations permettent ainsi de définir les modifications à accomplir à l’algorithme classique du
Mean Shift afin de prendre en compte la distance de Matusita Transformée pour l’évaluation de la
dissimilarité à la référence.
91
3.2.4 Expérimentations et évaluation
La Fig. 3.14 illustre la robustesse apportée par l’utilisation de la distance de Matusita Transformée
lorsque les couleurs de l’objet ont subi une faible variation, due par exemple à un changement
d’illumination, ce que les distances bin-à-bin telles que la distance de Matusita ne permettent pas.
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8
couleur
prob
alité
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8
couleur
prob
alité
h1 h2
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8
couleur
prob
alité
0
0,1
0,2
0,3
0,4
0,5
0,6
1 2 3 4 5 6 7 8
couleur
prob
alité
h1 h3 Fig. 3.14 Exemple où la distance de Matusita ne correspond pas à la dissimilarité perceptuelle, mais où la distance de Matusita Transformée s’en rapproche. En bas : dMat_Tans(h1,h3)=0.2159, dMat(h1,h3)=0.7071. En haut: dMat_Tans(h1,h2)=0.5692, dMat(h1,h2)=0.7071.
Les figures suivantes illustrent cet apport sur des vidéos naturelles dans les cas où la luminosité de
l‘objet change entre l’image de référence et l’image courante.
Fig. 3.15 Image de référence et l’image cible
92
Fig. 3.16 Cartes de similarité. Gauche/droite : Matusita/Matusita-Transformée.
Fig. 3.17 Courbes de distance spatiale au meilleur point (en haut). Courbes de distances spatiale à convergence en bas : distance à l’optimum le plus similaire. (à gauche), distance à l’optimum le plus éloigné (à droite)
Fig. 3.18 Image de référence et l’image cible
93
Fig. 3.19 Cartes de similarité. Gauche/droite : Matusita/Matusita-Transformée.
Fig. 3.20 Courbes de distance spatiale au meilleur point (en haut). Courbes de distances spatiale à convergence en bas : distance à l’optimum le plus similaire. (à gauche), distance à l’optimum le plus éloigné (à droite)
Afin de qualifier la précision du suivi, une approche boîte noire est utilisée. La précision du suivi
est quantifiée par la distance en pixels du centre de la région estimée au centre de la région de la vérité
terrain, au cours du temps. Les résultats montrent que la prise en compte d’une distance inter-bin
permet une meilleure précision dans les situations où les objets subissent de légères variations de
luminance.
94
Fig. 3.21 Résultat de suivi sur la séquence INRIA. En haut Mean Shift, en bas Mean Shift utilisant la métrique de Matusita Transformée.
Fig. 3.22 Erreur par rapport à la vérité terrain dans l’exemple de la Fig. 3.21
Fig. 3.23 Résultat de suivi sur la séquence LISBON. En haut Mean Shift, en bas Mean Shift utilisant la métrique de Matusita Transformée.
95
Fig. 3.24 Erreur par rapport à la vérité terrain dans l’exemple de la Fig. 3.23
3.3 Conclusion
Dans ce chapitre, nous avons introduit deux nouvelles représentations d’un objet visant à améliorer
la qualité de suivi. Premièrement, nous avons introduit un nouveau type de descripteur, fondé sur une
représentation multi-échelle, qui vise à compenser les limites des histogrammes classiques mono-
échelle en utilisant de l’information obtenue pour plusieurs niveaux de lissage de l’image d’origine.
Deux approches ont été étudiées : l’histogramme multi-échelles qui juxtapose les informations et
l’histogramme cumulé qui les combine.
Deuxièmement, une nouvelle similarité entre histogrammes de couleurs a été introduite, visant à
rendre le modèle moins sensible aux changements de luminosité qui peuvent apparaître dans une
séquence vidéo.
Les deux nouvelles approches ont toutes les deux été incluses dans un algorithme de suivi d’objet
efficace, en adaptant l’algorithme de Mean Shift. Leurs performances ont été illustrées par les résultats
de suivi sur des séquences issues de benchmarks standards.
97
Chapitre 4
Evaluation des modèles d’apparence
L’objectif de ce chapitre est de proposer des études comparatives entre modèles d’apparence en se
fondant sur les outils introduits au chapitre 3.
4.1 Modèles d’apparence évalués
4.1.1 Données expérimentales
Descripteur Distance Paramètres Nom
Histogramme de niveaux de gris Matusita 256 bins GH
Template de niveaux de gris L2 20×20 pixels GT
Histogramme de couleur Matusita 6×6×6 bins CH
Template de couleur L2 20×20 pixels CT
Spatiogramme couleur Bhattacharyya pondéré
[Conaire et al, 2007]
6×6×6 bins CS
Histogramme de couleur pondéré
par un noyau
Matusita 6×6×6 bins WCH
Histogramme de niveaux de gris Quadratique Hafner 256 bins GHQ
Histogramme de couleur Quadratique Hafner 6×6×6 bins CHQ
Histogramme de couleur pondéré
par un noyau
Divergence de Jeffrey 6×6×6 bins WCHDJ
Histogramme de couleur pondéré
par un noyau
Quadratique Hafner 6×6×6 bins WCHQ
Histogramme de niveaux de gris Matusita Trans 256 bins, s=10, 15, 20 GHMT s=10, 15, 20, 30
Histogramme de couleur Matusita Trans 6×6×6 bins, s=0.3, 0.4, 0.5 CHMT s=0.3, 0.4, 0.5
Histogramme de couleur pondéré
par un noyau
Matusita Trans 6×6×6 bins, s=0.3, 0.4, 0.5 WCHMT s=0.3, 0.4, 0.5
Tableau 5. 1 Modèles d’apparence évalués.
98
4.1.2 Corpus d’évaluation
Le corpus sur lequel sont évalués les modèles d’apparence est composé de sept séquences, issues
du benchmark CAVIAR. Chacune des séquences vidéo est lié à un fichier XML décrivant les entités
de chaque image avec leur position, mouvement, rôle (marche, laisse un objet, aucun, combattre,…).
Ces fichiers ont été créés manuellement. Les figures (Fig. 4.1, Fig. 4.2, Fig. 4.3 et Fig. 4.4) illustrent
des extraits de ces séquences associés à leur vérité terrain.
Numéro Nom de la séquence
1 ThreePastShop2cor
2 EnterExitCrossingPaths1cor
3 TwoLeaveShop1front
4 TwoLeaveShop2front
5 OneShopOneWait1cor
6 Walk1
7 OneShopOneWait2cor
Tableau 5. 2 Corpus d’évaluation.
99
Fig. 4.1 Lisbon couloir shopping center (séquences : 1 et 7 : ‘ThreePastShop2cor’ et ‘OneShopOneWait2cor’)
Fig. 4.2 Lisbon couloir shopping (séquences : 2 et 5 : ‘EnterExitCrossingPaths1cor’ et ‘OneShopOneWait1Cor’)
Fig. 4.3 Lisbon front shopping center (séquences : 3 et 4 : ‘TwoLeaveShop1fron’ et ‘TwoLeaveShop2front’)
100
Fig. 4.4 INRIA (séquence 6 : Walk1)
4.2 Performances globales des modèles d’apparence
4.2.1 Résultats
Modèle Sigle utilisé dans
la Fig. 4.5
pouvoir de discrimination
global WCH 6x6x6 JS_Divergence WCHDJ 0,4 GT 20x20 L2 GTL2 0,52 CT 20x20 L2 CTL2 0,53 GH 256 Matusita GHM 0,63 CH 6x6x6 Matusita CHM 0,65 WCH 6x6x6 Quadrati_Hafner WCHQ 0,65 WCH 6x6x6 Matusita Trans s=0.4 WCHMT 0,67 WCH 6x6x6 Matusita WCHM 0,69
Tableau 5. 3 Performances globales des modèles d'apparence
Les résultats de nos expérimentations en utilisant le pouvoir de discrimination global introduit au
chapitre 3 montrent que les modèles d’apparence fondés sur les histogrammes surpassent globalement
ceux basés sur les templates dans le contexte des séquences et pour les durées considérées. Comparons
les modèles d’apparences de type histogramme entre eux, l’histogramme pondéré avec un noyau
couplé à la distance de Matusita offre la meilleure performance globale. Nous détaillons les propriétés
des différents modèles dans les sections suivantes.
101
Fig. 4.5 Taux de discrimination moyen en fonction de l’écart-temporel sur l’ensemble du corpus.
4.2.2 Discussion
Fig. 4.6 Bases de données à t= 80 (à gauche) et à t=180 (à droite)
102
GHDiffusion CS-WBHAT WCHQ Fig. 4.7 Matrices de la distance du meilleur distracteur à la référence pour les modèles CH-Diffusion, CS-WBhat et WCHQ (WCH Quadratique Hafner)
Les matrices de la distance du meilleur distracteur sont organisées avec des distances cohérentes.
En effet, un distracteur peut être présent dans une image t mais pas dans d'autres images. Si une boîte
englobante distracteur outtnb , chevauche un distracteur celle-ci est prise en compte pour toute la colonne
t. Ceci apparaît comme une colonne avec une distance uniformément faible. Ceci peut être observé sur
la figure Fig. 4.7, pour le modèle de l’histogramme pondéré couplé à la distance quadratique de
Hafner (WCH-Hafner) : les distracteurs sont plus similaires à l’objet au début de la séquence
(colonnes t<100) qu’à la fin de la séquence (colonnes t>100). Pour le modèle de l’histogrammme en
niveaux de gris avec la distance de diffusion (GH-Diffusion), des distracteurs semblent être similaires
à la cible dans toute la séquence alors que pour le modèle spatiogramme couleur avec la distance de
Bhattacharyya pondérée (CS-WBHAT) les distracteurs semblent être peu similaires à la cible dans
toute la séquence. Ceci aura une influence sur les mesures de performances intégrées.
103
4.3 Choix du descripteur
4.3.1 Effet de la pondération spatiale des histogrammes
Fig. 4.8 Comparaison entre approche par histogramme et approche par template : modèles d’apparence CH/GT et WCH/CT comparés selon le pouvoir de discrimination global (DGH, DGT) (en haut) et selon le pouvoir de discrimination comparatif (DM1> M2, DM2> M1) (en bas).
Les deux modèles ont globalement des performances équivalentes, ce qui se traduit par le
positionnement des points (DCH, DWCH) autour de la diagonale principale, et par le partage des
situations où l’un des modèles se révèle supérieur à l’autre (DWCH>CH, DCH>WCHM) dans la Fig. 4.8.
Afin de comparer les caractéristiques qui diffèrent entre les deux modèles, nous effectuons à
présent une analyse plus fine, en étudiant le pouvoir de discrimination en fonction de l’écart-temporel
(Fig. 4.9).
Fig. 4.9 Comparaison entre les modèles CH et WCH en termes de pouvoir de discrimination en fonction de l’écart-temporel.
104
L’histogramme de couleur surpasse légèrement l’histogramme de couleur pondéré avec un noyau
pour les petits écarts temporels. Pour des écarts temporels plus grands l’histogramme pondéré a un
meilleur pouvoir de discrimination que l’histogramme brut. Ceci peut être expliqué par une
interprétation en terme d’avant-plan/arrière-plan du contenu de la boîte englobante : l’objet d’intérêt
représente l’avant-plan, la boîte contenant également une partie d’arrière plan, qui constitue du bruit.
Lorsque l’écart-temporel est faible, l’arrière plan change peu, l’avantage étant alors au modèle CH, qui
prend en compte l’ensemble du contenu. Lorsque l’écart-temporel est plus important, l’histogramme
de couleur pondéré avec un noyau spatial permet alors de diminuer l’influence de l’arrière-plan en
donnant moins de poids aux pixels périphériques des objets. Ces pixels sont moins fiables car souvent
affectés par des occultations ou interférent avec le fond surtout dans un environnement dynamique.
Ceci se traduit ainsi par une distribution WCH formée uniquement des couleurs propres à l’objet et
qui sont ainsi plus dissimilaires de celle des distracteurs qu’une distribution contenant également les
couleurs du fond. Cette interprétation est confortée par l’étude des matrices de la distance au meilleur
distracteur, qui augmente avec le modèle WCH (Fig. 4.10, Fig. 4.11).
Fig. 4.10 Matrices de la distance du meilleur distracteur à la référence (à gauche), du meilleur inlier à la référence (au milieu) et du pouvoir de discrimination (à droite) pour l’objet 6 de la séquence 1. Les résultats correspondent aux modèles CH (en haut) et WCH (en bas).
Mod
èle
WC
H M
odèl
e C
H
105
Fig. 4.11 Matrices de la distance du meilleur distracteur à la référence (à gauche), du meilleur inlier à la référence (au milieu) et du pouvoir de discrimination (à droite) pour l’objet 4 de la séquence 5 : Les résultats correspondent aux modèles CH (en haut) et WCH (en bas).
Outre la capacité à distinguer l’objet des distracteurs, l’intérêt du modèle pondéré WCH se traduit
au niveau de la carte de similarité. En effet, la régularisation de la fonction de similarité en masquant
les objets par un noyau dans le domaine spatial permet d’enlever les fluctuations locales de cette
fonction et ainsi augmenter la robustesse des méthodes qui en recherchent les optima. Ceci est illustré
pour l’exemple de la Fig. 4.12 par l’affichage de la carte de dissimilarité (Fig. 4.13) et des courbes de
distance spatiale (Fig. 4.14). On remarque ainsi que la régularisation permet une meilleure robustesse
(bassins d’attractions moins nombreux et plus larges) et précision (zone du minima global plus proche
de la position vraie).
Mod
èle
WC
H M
odèl
e C
H
106
Fig. 4.12 L’objet de référence est marqué avec sa boîte englobante rouge dans l’image de référence et avec sa boite englobante verte dans l’image cible. La carte de dissimilarité est calculée dans la région pointillée en bleu.
Modèle CH Modèle WCH
Fig. 4.13 Cartes de similarité pour l’exemple de la Fig. 4.12 et pour les modèles CH (à gauche) et WCH (à droite).
107
Fig. 4.14 Résultats pour l’exemple de la Fig. 4.12. Courbes des distances spatiales au meilleur point (en haut) : précision Courbes des distances spatiale à convergence (en bas) : distance à l’optimum le plus similaire. (à gauche), distance à l’optimum le plus éloigné (à droite) : robustesse à l’initialisation.
108
4.3.2 Comparaison des approches par histogramme et template
GH vs GT WCH vs CT
Fig. 4.15 Comparaison entre approche par histogramme et approche par template : modèles d’apparence GH/GT et WCH/CT comparés selon le pouvoir de discrimination global (DGH, DGT) (en haut) et selon le pouvoir de discrimination comparatif (DM1> M2, DM2> M1) (en bas).
109
CH vs GH CT vs GT
Fig. 4.16 Comparaison de paires CH/GH et CT/GT de modèles d’apparence selon le pouvoir global (DCH, DCT) et selon le pouvoir de discrimination comparatif (DM1> M2, DM2> M1).
La comparaison de deux modèles d’apparence template et histogramme est obtenue à partir des
mesures MnD et 21 MM
nD > , en affichant ces mesures pour un nombre important de situations (une
situation étant définie comme l’étude des performances associées à un objet au sein d’une séquence).
Dans la figure (5.18), il est ainsi montré que les modèles GH réussissent dans plus de situations que
le modèle GT. Cette représentation permet par exemple d’étudier l’apport de la couleur dans les cas
étudiés : les modèles d’apparence par template ont quasiment les mêmes situations de réussite (figure :
Fig. 4.16 points concentrés autour de l’origine), alors que les approches par histogrammes semblent
réussir dans des cas plus complémentaires (figure Fig. 4.16: concentrations moins forte des points
autour de l’origine).
110
Fig. 4.17 Performance à discriminer en fonction de l’écart temporel
La courbe du pouvoir de discrimination diminue rapidement pour des petites variations temporelles
particulièrement pour les modèles à base de template. D’après la figure (Fig. 4.17), on peut constater
l’existence d’une courbe en forme d’une cloche. Il y a alors, sans ambigüité, une limitation du pouvoir
de discrimination temporel. Ceci contredit les possibilités de l’utilisation de ce modèle d’apparence
dans des systèmes de suivi dans un environnement avec un changement d’apparence sévère. Les
modèles d’apparence de type histogramme ont une décroissance du pouvoir de discrimination plus
lente. Ceci permet d’augmenter les possibilités d’intégrer ce modèle d’apparence au sein des systèmes
de suivi dédiés à ce genre d’environnement.
Fig. 4.18 L’objet de référence est marqué avec sa boîte englobante rouge dans l’image de référence et avec sa boite englobante verte dans l’image cible. La carte de dissimilarité est calculée dans la région pointillée en bleu.
111
Fig. 4.19 Cartes de similarité : WCH : weigted color histogramme, CH : color template.
Fig. 4.20 Courbes de distance spatiale au meilleur point (en haut). Courbes de distances spatiale à convergence (en bas) : distance à l’optimum le plus similaire. (à gauche), distance à l’optimum le plus éloigné (à droite)
Les approches par histogramme possèdent une meilleure robustesse à l’initialisation, la zone de
convergence vers l’optimum correct étant plus large (Fig. 4.20) et une moindre ambiguïté les
distracteurs ayant en effet une plus grande dissimilarité que l’optimum correct.
112
4.4 Performances des métriques
4.4.1 Métriques bin-à-bin
Dans le cas d’un descripteur de type histogramme, le choix de la métrique revêt une grande
importance, comme l’illustrent les résultats de la Fig. 4.21. La similarité par intersection
d’histogramme a ainsi des performances similaires à la métrique de Matusita. La métrique de la
divergence de Jeffrey est par contre systématiquement moins discriminante que la métrique de
Matusita, et semble donc peu adaptée au cadre du suivi (Fig. 4.21 et Fig. 4.22).
WCH vs WCHI WCH vs WCHDJ
Fig. 4.21 Comparaison de paires M1/M2 de modèles d’apparence selon le pouvoir de discrimination global (DM1, DM2) (en haut) et comparaison de paires M1/M2 de modèles d’apparence selon le pouvoir de discrimination comparatif (DM1> M2, DM2> M1) (en bas).
113
Fig. 4.22 Pouvoir de discrimination en fonction de l’écart temporel pour les métriques bin-à-bin.
4.4.2 Métriques inter-bins
4.4.2.1 Etude sur corpus de vidéos naturelles
Sur les vidéos naturelles, les performances entre les modèles WCHM, WCHMT et WCHQ sont
relativement comparables : les performances globales vues précédemment sont relativement
similaires, ce qui est confirmé par les résultats de la Fig. 4.23. Les points affichés se situent à
proximité de la diagonale, ce qui signifie que les différents modèles réussissent ou échouent dans les
mêmes types de situations issues du corpus.
114
WCHM vs WCHMT WCHMT vs WCHQ Fig. 4.23 Comparaison pour un type de descripteur donné (histogramme de couleurs pondéré WCH) des modèles d’apparence utilisant les similarités inter-bins Matusita Transformée et Quadratique avec le modèle utilisant la similarité bin-à-bin de Matusita. Les comparaisons sont effectuées sur la base du pouvoir de discrimination global (DM1, DM2) (en haut) et du pouvoir de discrimination comparatif (DM1> M2, DM2> M1) (en bas).
4.4.2.2 Etude sur vidéos synthétiques
L’étude de l’effet des changements d’illumination sur les performances des modèles d’apparence
s’appuie sur la disponibilité de vidéos présentant de tels changements, ainsi que d’une vérité terrain
associée. Les vidéos tests disponibles n’étant pas pourvues de changements d’illumination marqués,
nous avons donc créé un ensemble de séquences vidéo altérées avec des variations additives de la
luminosité des pixels afin de simuler le changement d’éclairage. Le protocole introduit précédemment
est ensuite appliqué sans modification sur les vidéos ainsi obtenues, ce qui permet d’évaluer la
capacité des modèles d’apparence à être robustes à ces altérations.
Les séquences sont altérées un modèle de changement d’éclairage de -10 à +10 entre la première
image et la dernière image de la séquence. Différents types de descripteurs (GH : histogrammes de
niveaux de gris, CH : histogrammes de couleur, WCH : histogrammes de couleur avec pondération
spatiale) ainsi que différentes valeurs du paramètre s d’interaction inter-bins on été testées, sur la base
115
de la métrique de Matusita et de la métrique de Matusita Transformée. Les performances globales du
pouvoir de discrimination sont indiquées dans la table suivante :
Modèle DM
GH-MAT 0.65
GH-MAT-T10 0.67
GHMAT-T15 0.68
GHMAT-T20 0.69
GHMAT-T30 0.70
CH-MAT 0.77
CH-MAT-T0.3 0.81
CH-MAT-T0.4 0.82
CH-MAT-T0.5 0.81
WCH-MAT 0.81
WCH-MAT-T0.3 0.88
WCH-MAT-T0.4 0.89
WCH-MAT-T0.5 0.88
Tableau 5. 4 performances globales des modèles d’apparence de la en fonction du paramètre s.
Il apparaît ainsi que les mesures de similarité basées sur la métrique de Matusita classique, qui ont
de meilleures performances moyennes sur les vidéos du corpus, qui présentent peu de variations de
luminosité, sont moins performantes que les métriques inter-bins Matusita Transformée dans ce
nouveau contexte. La relative invariance aux modifications des couleurs introduite dans cette
similarité inter-bins permet ainsi d’être moins pénalisé lorsqu’un changement de luminosité apparaît.
Ceci se traduit plus précisément principalement pour des écarts-temporels plus importants (voir Fig.
4.24, Fig. 4.25 et Fig. 4.26) qui correspondent ici à des variations plus larges de la luminosité. Les
modèles avec similarité inter-bins compensent ainsi la diminution de leur caractère discriminant due à
leur plus grande invariance. On observe également que le choix du paramètre s présente une grande
importance, celui-ci devant en effet être adapté à l’échelle des variations que le modèle doit supporter.
Ainsi, une métrique telle que la métrique quadratique de Hafner, autorisant des correspondances entre
couleurs assez éloignées, présente des performances moins bonnes que la métrique de Matusita
classique, même dans cette situation de variation de luminosité. Ce n’est pas le cas de la métrique de
Matusita Transformée, lorsque le paramètre s est défini conformément à des variations plausibles de la
luminosité.
116
Fig. 4.24 Pouvoir de discrimination temporel de l’histogramme de niveaux de gris couplé à la distance de Matusita et la distance de Matusita transformée, pour plusieurs valeurs du paramètre s.
Fig. 4.25 Pouvoir de discrimination temporel de l’histogramme de couleurs de gris couplé à la distance de Matusita et la distance de Matusita transformée, pour plusieurs valeurs du paramètre s.
117
Fig. 4.26 Pouvoir de discrimination temporel de l’histogramme de couleurs pondéré couplé à la distance de Matusita et la distance de Matusita transformée, pour plusieurs valeurs du paramètre s.
4.5 Conclusion
Dans ce chapitre, l’évaluation des performances des modèles d’apparences a été présentée sur la
base des outils introduits précédemment. Les expérimentations ont été menées sur un corpus de vidéos
naturelles issu de benchmarks classiques de suivi d’objet en utilisant les nouvelles métriques
proposées afin d’obtenir un point de vue original concernant les performances des modèles lors du
suivi. Ont ainsi été étudiés l’influence de la pondération spatiale, du choix du descripteur et de la
mesure de similarité. Il a été également montré comment la méthode proposée peut également être
utilisé sur la base de vidéos semi-synthétiques afin d’étudier plus particulièrement l’influence de
perturbations spécifiques telles que les variations de luminance.
119
Chapitre 5
Composition inverse pour le suivi d’objet par
approche multi-noyaux
L’objectif de ce chapitre est d’étendre des techniques d’estimation de translation, étudiées dans les
chapitres précédents, au cas de mouvements paramétriques plus généraux.
Ces travaux se situent à la frontière entre des techniques efficaces de suivi par template proposées
récemment dans la littérature scientifique et le suivi par distribution de couleur. Il s'agit de proposer
une formulation efficace de l'estimation paramétrique du mouvement à l'aide d'un modèle d'objet
fondé sur un ensemble de distributions de couleurs calculées sur plusieurs noyaux spatiaux distincts :
méthode de suivi multi-noyaux [Georgescu et al, 2004].
[Baker et al, 2001] ont proposé une classification des approches de suivi par template selon deux
axes: les approches additives et compositionnelles d'une part, les approches directes et inverses d'autre
part. Cette classification s'applique aux techniques d'optimisation locale itératives fondées sur une
descente de gradient de la fonctionnelle d'erreur entre des images recalées. Un algorithme de recalage
consiste à trouver la transformation géométrique qui met en correspondance des images afin d’en
superposer au mieux les pixels homologues. Les auteurs ont montré en particulier que l'approche
compositionnelle inverse est la plus efficace en terme de complexité calculatoire, grâce à la possibilité
de pré-calculer le Jacobien de la fonctionnelle d'erreur.
Le suivi multi-noyaux, quant à lui, a été proposé par [Georgescu et al, 2004] ainsi que [Hager et al,
2004], comme alternative aux modèles rigides par template, permettant une meilleure robustesse aux
grands déplacements grâce à une zone de convergence plus étendue. Ceci est principalement dû à
l'intégration de l'information image sur un ensemble de noyaux spatialement étendus, qui régularisent
la fonctionnelle à optimiser et qui constituent une extension des méthodes mono-noyau présentées
dans les chapitres précédents. La technique d'optimisation qui en découle s'apparente à une remontée
de gradient pour laquelle le Jacobien doit être recalculé à chaque itération. Elle présente une forte
similarité avec la technique additive directe formalisée par [Baker et al, 2001] dans le domaine des
templates.
Ce chapitre s'attachera à montrer comment adapter la technique compositionnelle inverse plus
efficace que la technique additive directe pour suivi par template [Baker et al, 2001] au cas du suivi
120
multi-noyaux. Les techniques additives directes et compositionnelles inverses seront envisagées dans
un cadre unificateur permettant de comprendre le changement de point de vue entre ces deux
approches. La technique compositionnelle inverse qui permet l'utilisation d'un Jacobien fixe et pré-
calculé sera aussi détaillée. Il sera également montré comment définir formellement les distributions
de couleurs utilisées, afin d'obtenir l'invariance aux transformations spatiales et les problèmes
pratiques que cela pose. Une étude de complexité permettra d'évaluer le gain de performance et une
étude de stabilité assumera que la qualité de convergence n'en souffre pas.
5.1 Estimation paramétrique du mouvement
Nous définissons ici les spécificités de l’estimation de mouvement utilisant des modèles plus
complexes que ceux étudiés dans les chapitres précédents.
5.1.1 Définition
L’utilisation d’une modélisation paramétrique permet une représentation du mouvement par
régions. Ces modèles sont classiquement des fonctions qui utilisent de 2 à 8 paramètres comme les
modèles translationnels et les modèles homographiques, respectivement.
En fonction du modèle de mouvement retenu, le module d’estimation du mouvement est composé
de trois éléments principaux :
− Définition de la région servant de support à l’estimation du mouvement.
− Formulation de la fonction de coût permettant l’estimation des paramètres du modèle de
mouvement.
− Minimisation de la fonction de coût.
Dans le cas d’alignement d’images dans un processus de suivi d’objet, le mouvement est estimé
entre deux images Iref et I reliées par une transformation 2D inconnue f de paramètres *θ ,
( ) ( )( )xxx , *1 θ−=∈∀ fIID ref (5.1)
• où D représente une région d’intérêt dans l’image Iref.
5.1.2 Modèles classiques
Les modèles paramétriques du mouvement communément utilisés sont :
− Le modèle translationnel ou constant [Tekalp, 1995] défini par l’équation :
22 ,);( ℜ∈
=ℜ∈+=
y
xTW xTTxx (5.2)
• où T est le vecteur de translation 2D dans le plan d’image.
121
Ce modèle est très répandu dans les applications de type compression vidéo où il s’applique à des
blocs ou à des régions de taille relativement restreintes dans le plan image, typiquement des blocs
16×16 ou 8×8 dans les standards de compression vidéo.
− Le modèle affine est défini par l’équation :
222 , ,);,( ℜ∈ℜ∈+= × bAbAxxbAW (5.3)
Ce modèle est une généralisation du modèle précédent. Il permet de caractériser une classe
importante de mouvements 2D, comme les translations (si A=0, on retrouve le modèle translationnel),
rotations, homothéties et leurs combinaisons. En pratique le modèle affine est le modèle le plus
couramment utilisé dans les algorithmes d’analyse du mouvement.
− Le modèle homographique :
321
654
321
321 ,bybxb
ayaxady
bybxb
ayaxadx
++++
=++++
= (5.4)
Le modèle homographique est théoriquement correct lorsque la position du centre optique ne
change pas ou que la région est plane. Les modèles affines et homographiques permettent une
meilleure représentation du mouvement qu’un simple modèle de translation. Les modèles
homographiques et quadratiques prennent en compte des mouvements plus complexes que les simples
translations, zoom ou rotation 2D tels que des déformations globales dues à la projection dans le plan
de l’image d’objets en mouvement dans une scène 3D.
On admet que le modèle du mouvement présente une propriété de groupe. C’est le cas de la plupart
des modèles qui présentent un intérêt pour les applications de la vision artificielle et en particulier des
homographies non dégénérées (une homographie non dégénérée est une application bijective définie
par une matrice inversible) ou des mouvements affines [Baker et al, 2001]. Nous utilisons un modèle
affine pour représenter le mouvement. La propriété de groupe est étendue aux paramètres du
mouvement en utilisant les notations suivantes :
( ) ( ) xyfyxfxfxf ==⇔= −−− ),(|),(,, 111 θθθθ (5.5)
( ) ( )( )xffxf ,,, θθθθ ∆=∆ o (5.6)
• où 0=θ représente les paramètres de la transformation identité.
5.1.3 Suivi paramétrique d’objet par distributions couleurs
Plusieurs améliorations ont été apportées aux méthodes conventionnelles fondées sur le suivi par
noyau pour améliorer leurs performances pour l’estimation paramétrique. Dans la littérature, on trouve
deux approches générales afin d’atteindre ce but :
122
La première approche consiste à améliorer la conception de la structure du noyau en se fondant sur
des propriétés locales, telles que l’introduction d’un noyau avec une largeur variable [Comaniciu et al,
2001], l’utilisation d’un noyau anisotrope [Wang et al, 2004] ou l’emploi d’un noyau de forme
asymétrique [Alper et al, 2007].
Une autre approche consiste à utiliser plusieurs noyaux car l’utilisation d’un seul noyau peut être
insensible à certains mouvements et empêche de ce fait une récupération unique des paramètres du
mouvement [Hager et al, 2004], [Fan et al, 2005], [Fan et al, 2006], [Fan et al, 2007], [Parameswaran
et al, 2006], [Qu et al, 2006], [Ling et al, 2006], [Kallem et al, 2007] et [Yu et al, 2006].
Notre travail étudie une approche conjointe associant la description multi-noyaux de l’objet et
l’utilisation de l’approche compositionnelle inverse pour son intérêt calculatoire.
Cette section présente tout d’abord la formalisation de la notion de distribution de couleurs multi-
noyaux et des approches existantes, puis l’approche compositionnelle inverse pour le suivi de
distributions couleurs multi-noyaux.
5.1.3.1 Distribution de couleurs multi-noyaux
Le suivi d’objet par distribution de couleurs est fondé sur le calcul de la distribution de couleurs
d'une région d'image. Cette région est définie en utilisant les valeurs des noyaux qui associent un poids
positif ou nul à chaque pixel. Afin d'estimer des mouvements plus complexes que des translations, une
approche générale multi-noyaux est proposée.
On dispose d’un grand choix de fonctions de noyaux (Fig. 5.1) à utiliser dans ce cadre [Hager et al,
2004]. Dans nos travaux, nous utilisons des noyaux d'Epanechnikov. Le noyau Kk, avec le centre xk et
la matrice de covariance Bk est défini par
( ) ( ) ( )( )kkt
kk xxBxxxK −−−= −11,0max (5.7)
( ) ( ) 0où 2 1x|)( >−−=∇ − xKBxxK kk
tkxk (5.8)
Fig. 5.1 Différents profils de noyaux spatiaux
123
Etant donné :
− Un ensemble hmax de noyaux spatiaux (K1,…, Kk)max est défini par des fonctions de pondération
Kk(x) différentiables par morceaux exprimées dans les coordonnées de référence x,
− Un modèle paramétrique du mouvement f (θ ,.) avec le vecteur de paramètres θ , qui transforme
chaque point m dans les coordonnées courantes de l'image en un point x= f (θ ,m) dans les
coordonnées de référence et sa transformation inverse ),(1 xfm θ−= ,
− Une fonction indicatrice de quantification (.)uδ qui a une valeur 1 pour des couleurs
appartenant au bin de couleur u et nulle ailleurs,
La distribution de couleurs multi-noyaux de l'image I avec les paramètres θ est définie comme le
vecteur q(I, θ ) = (qk, u(I, θ ))k, u, où
( ) ( ) ( )( )( )dxxfIxKCIq ux kkuk , , 1 2, θδθ −
ℜ∈∫∫= (5.9)
• La constante de normalisation Ck est choisie de telle sorte que Σuqk,u(I, θ ) = 1 pour tous les k.
Le vecteur (qu, k(I, θ ))u représente la distribution locale de couleurs de l'image I pondérée par le
noyau spatial Kk, après qu' elle ait été alignée sur les coordonnées de référence selon les paramètres θ .
Le choix de cette expression est motivé par son invariance par rapport à n'importe quel groupe de
modèle de mouvement 2D. En effet :
( ) ( )( )( )0 ,,., 1−= θθ fIqIq (5.10)
• ou plus généralement
( ) ( )( )( )θθθθ ∆=∆ − ,,., 1fIqIq o (5.11)
5.1.3.2 Optimisation directe additive
[Georgescu et al, 2004] et [Hager et al, 2004] ont formalisé un cadre pour l’estimation
paramétrique du mouvement qui utilise les distributions de couleurs multi-noyaux. Il consiste à
minimiser l'erreur de Matusita entre la distribution multi-noyaux de référence calculée pour une
template et la distribution calculée pour l'image. L'approche additive suppose que l’estimation
courante de θ est connue et ensuite résout itérativement l’équation de l’erreur pour des incréments ∆θ
des paramètres ; ce qui revient à dire que l'expression suivante est minimisée :
[ ]2,
,, ),(),0()( ∑ −=uk
ukrefuk IpIqE θθ (5.12)
• Cette erreur peut s’exprimer comme le carré de la norme du vecteur d’erreur e(θ)=(ek,u(θ))k,u
)()( ,,, θθ ukukuk pqe −= (5.13)
( ) )()( θθθ eeE t= (5.14)
124
• Cette approche se fonde sur l'optimisation de Gauss-Newton de l'erreur )ˆ( θθ ∆+E par rapport
θ∆ , où une seule itération est réalisé en utilisant :
( ) ( )θθθ ˆ ˆ eA=∆ (5.15)
• et où )ˆ(θA est une matrice de mise à jour.
( ) ( ) tee
te
JJJA θθθθ ˆ|
1ˆ|ˆ|
ˆ −−= (5.16)
• où θ|eJ représente le Jacobien du vecteur erreur )(θe par rapport à θ , calculé en θθ ˆ= . Il peut
s’exprimé en utilisant le gradient de kue , par rapport à θ , aussi bien que les dérivées partielles
du vecteur e selon chaque coefficient mθ de θ .
∂∂=
∇= KK
M
M
θθθθ θ
θˆ
ˆ|)(,ˆ|)(
mkueee
J (5.17)
Une version d'estimation robuste est utilisée par [Georgescu et al, 2004]. [Guskov et al, 2006]
grâce à une optimisation dite quasi-Newton de E(θ ).
La mise à jour des paramètres du mouvement suit le schéma direct additif (5.18) et le processus
entier est répété jusqu'à la convergence de l’algorithme.
θθθ ∆+←+ nnˆˆ
1 (5.18)
• L'expression de θ|eJ dépend de la métrique d'erreur utilisée. En particulier, si on utilise la
métrique de Matusita de l'équation (5.23),
( )( ) θθ θ ˆ|
2/1ˆ|
ˆ2
1qe
JqdiagJ−
= (5.19)
• où θ|qJ est le Jacobian du )(θq . Ce Jacobien est étudié plus en détail dans la section 5.2.3.
5.2 Approche compositionnelle multi-noyaux
5.2.1 Cadre formel
Considérons maintenant deux images reliées par l'équation (5.1). Dans ce qui suit, p sera utilisé
pour l'image de référence Iref et q pour l'image courante I.
En associant un paramètre à la position des noyaux dans l’image de référence, il est possible de
généraliser l’approche précédente :
( ) ( ) ( ) ( )θθθθ ,et , IqqIqp ref == (5.20)
• En raison de l’équation (5.11) pour tout pθ , on a :
( ) ( )*θθθ opp qp = (5.21)
L'alignement d'image par la méthode multi-noyaux correspond à l’estimation des paramètres pθ et
qθ qui minimisent la dissimilarité entre les deux distributions )( pp θ et )( qq θ . Cette dissimilarité est
125
exprimée sous la forme d'une mesure d’erreur E( qθ , pθ ). Plusieurs fonctions d’erreur peuvent être
utilisées, comme la distance de Bhattacharyya ou la divergence de Kullback-Leibler. Suivant [Hager et
al, 2004] et [Georgescu et al, 2004], la métrique Matusita sera utilisée dans ce travail :
( ) ( )pquk
ukpq eE θθθθ ,,,
,∑= (5.22)
• Le vecteur erreur ),(, pquke θθ pour un bin spécifique est défini comme suit :
( ) )()(, ,,, pukqukpquk pqe θθθθ −= (5.23)
• En identifiant qθ et *θθ op dans l'équation 5.21, le paramètre d'alignement estimé s’écrit alors
qp θθθ o1* −= (5.24)
Cette formalisation montre le rôle central que joue la composition pour résoudre le problème
d'alignement d'image en utilisant des distributions multi-noyaux. C’est le cadre compositionnel, car le
paramètre *θ est estimé en composant les estimations qθ et pθ selon l’équation (5.24). L’optimisation
directe additive se révèle ainsi comme un cas particulier avec )0,()(et ˆ ,0 θθθθθθ EE ppq =∆+== .
5.2.2 Optimisation compositionnelle inverse
Dans l'approche précédente, les équations (5.15) et (5.16) présentent le coût calculatoire le plus
élevé de tout l’algorithme d’estimation des paramètres. En effet, la matrice de mise à jour )ˆ(θA doit
être calculée pour chaque nouvelle itération, ce qui implique en particulier le calcul de θ|eJ à chaque
itération puis son inversion.
Pour minimiser ce coût calculatoire, on propose maintenant une approche alternative qui tire profit
du cadre général de l’approche compositionnelle multi-noyaux présentée dans la section 5.2 et permet
d’utiliser une matrice de mise à jour A constante, pré-calculée une fois pour toutes pendant
l'initialisation de l’algorithme [Mikram et al, 2006].
Comme pour l'approche directe, une itération de Gauss-Newton est calculée, mais la correction des
paramètres s'applique maintenant à la position du noyau dans l'image de référence.
L'expression à minimiser devient :
( ) ( ) 2
,,, ,ˆ,),ˆ( ∑
−∆∆
ukukrefuk IqIqE θθθθ (5.25)
La mise à jour des paramètres de Gauss-Newton de ),ˆ( θθ ∆E par rapport à θ∆ satisfait la relation
suivante:
( )0,ˆ θ=θ∆ eA (5.26)
La matrice A de mise à jour est maintenant une matrice constante
( ) tee
te JJJA 0|ˆ
10|ˆ0|ˆ
−−= (5.27)
• où 0|eJ représente le Jacobien de ),ˆ( θθ ∆e par rapport à θ∆ calculé en 0=∆θ . En utilisant la
métrique de Matusita, 0|eJ ne dépend pas de θ et
126
( )( ) 0|2/1
0|ˆ 02
1pe JpdiagJ −−= (5.28)
La règle d'estimation (5.26) est identique à la règle (5.15) de l'approche directe, à part le fait que la
matrice A ne dépendu plus de θ . Ceci permet de la pré-calculer, réduisant de ce fait la complexité
calculatoire en ligne.
Dans l’approche compositionnelle inverse multi-noyaux, le paramètre de correction θ∆ représente
une mise à jour des positions du noyau par rapport à l'image de référence. Afin de le convertir en un
vecteur de paramètres de mise à jour qui caractérise le mouvement entre les deux images, le cadre
compositionnel introduit à l'équation (5.24) conduit à la règle de mise à jour suivante:
nn θθθ ˆˆ 11 o−
+ ∆← (5.29)
• L'estimation θ est itérativement mise à jour jusqu'à la convergence.
5.2.3 Calcul du Jacobien
Le calcul du Jacobien 0,pJ ou de sa forme plus générale θ,qJ n'est pas direct dans l'équation (5.9),
car uδ n'est pas facilement différentiable. Ce qui suit détaille le calcul du gradient du ukq , .
5.2.3.1 Expressions dans le domaine continu
Rappelons la définition de la distribution multi-noyaux de couleurs
( ) ( ) ( )( )( )dxxfIxKCIq ux kkuk ,, 12, θδθ −
ℜ∈∫∫= (5.30)
Une formulation équivalente de la distribution ukq , est utilisée dans [Guskov et al, 2006], qui est
fondée sur les coordonnées m dans l'image courante, obtenue après changement de variable
),(1 xfm θ−=
( ) ( )( ) ( )( ) ( )dmmjmImfKCIq um kkuk , , ,, θδθθ ∫∫= (5.31)
où |m),(),( θθ mfJmj = est la valeur absolue du déterminant du Jacobien de f par rapport à m.
Pour des transformations affines, la valeur ),( θmj est constante par rapport à m, ce qui induit une
expression simplifiée :
( ) ( )( ) ( )( )dmmImfKCIq um kkuk , , ,, δθθ θ ∫∫= (5.32)
• avec ),(, θθ mjCC kk = correspondant au paramètre de normalisation du noyau qui dépend
maintenant de θ . Cette équation est très similaire aux définitions de la distribution multi-
noyaux de couleurs ukq , utilisées dans [Hager et al, 2004] et [Georgescu et al, 2004]. Il
convient de noter que pour un mouvement non-affine cette équivalence n’est plus valable. Le
calcul du Jacobien pour des modèles plus complexes doit alors utiliser l’expression non
simplifiée (5.31).
En différenciant (5.32) et après avoir tenu compte la normalisation du noyau 1, =∑u ukq , le
gradient de qk,u peut être simplifié comme (5.33) suit :
127
( )( ) ( )( )dmqmIJC ukum mfmfxkKkkuq θδθθθθθˆ
,ˆ|),(),(|)(ˆ,ˆ|,−∇=∇ ∫∫ (5.33)
Dans le cas simple de composition inverse, le Jacobien est
( )( ) ( )( )dxpxIJC ukrefum xfxxkKkkup 0,0|),(|)(0|, −∇=∇ ∫∫ ∆ δθ (5.34)
• Le terme )ˆ(, θukq dans les équations précédentes est lié au gradient de la constante de
normalisation θ,kC par rapport à θ . Son influence est nulle pour les composantes de
translation et de rotation, mais devrait être prise en compte dans le cas de changement
d’échelle globale ou locale. Négliger ce terme, comme cela a été fait dans [Georgescu et al,
2004], correspond à une estimation biaisée du Jacobien. Ceci est illustré par la figure 3(d)
pour l’estimation du facteur d’échelle, où l’estimation biaisée mène à une sous-estimation des
paramètres de mouvement.
5.2.3.2 Calcul sur un domaine échantillonné
D'un point de vue pratique, les intégrales doivent être remplacées par des sommes discrètes, sur les
positions de nombre entier mi de l'image courante pour les équations (5.31) et (5.32), ou sur une
grille régulière xj dans les coordonnées de référence pour l’équation (5.32) :
),())(( )),((),(, iiuii
kkuk mjmImfKCIq θδθθ ∑= (5.35)
))),((( )(),( 1, iujkkuk xfIxKCIq θδθ −= (5.36)
Afin d'améliorer le temps d’exécution, cet échantillonnage a été réalisé sur le vecteur de
coordonnées x, qui permet de pré-calculer les valeurs et les gradients de noyaux aux points des
échantillons.
5.3 Expérimentation et discussion
Les propriétés de l'approche directe additive de suivi multi-noyaux ont été expérimentalement
étudiées et comparées à l'approche fondée sur le template [Georgescu et al, 2004]. Les résultats
montrent que l'approche par noyau se caractérise par une plus grande région de convergence au prix
d'un alignement légèrement moins précis. Une grande région de convergence et une bonne précision
peuvent être obtenues en combinant ces deux approches. Ces expériences ne seront pas reproduites ici.
L’approche compositionnelle inverse proposée utilise la même représentation multi-noyaux que
l’approche directe. On s'attend à ce que la méthode proposée soit plus rapide que la méthode directe en
raison de sa structure algorithmique tout en gardant des performances similaires de suivi. Cette section
sera donc consacrée à vérifier cette hypothèse.
128
5.3.1 Performance calculatoire
Les structures algorithmiques des deux approches directe additive et compositionnelle inverse sont
résumées et comparées dans la 0.
Directe Additive Compositionnelle Inverse
Pré-calculs
1 Distribution de référence p
Pré-calculs
1 Distribution de référence p
5 Jacobien 0|eJ
6 Matrice de mise à jour A
Pour chaque nouvelle image
2 Estimation initiale θ
Réitérez jusqu'à la convergence :
3 Distribution courante )ˆ(θq
4 Erreur courante )0,ˆ(θe
5 Jacobien θ|eJ
6 Matrice de mise à jour )ˆ(θA
7 Incrément θ∆
8 Nouvelle estimation : θθθ ∆+← ˆˆ
Pour chaque nouvelle image
2 Estimation initiale θ
Réitérez jusqu'à la convergence :
3 Distribution courante )ˆ(θq
4 Erreur courante )0,ˆ(θe
7 Incrément θ∆
8 Nouvelle Estimation : θθθ ˆˆ 1 o−∆←
Tableau 5. 1 Comparaison d'algorithmes. Les pré-calculs sont effectués seulement pendant l'initialisation du modèle et ne sont pas répétés pour une nouvelle image. Pour chaque étape, le calcul relatif à réaliser
est indiqué à droite du texte
Pour l'analyse de la complexité des deux algorithmes, les notations suivantes seront utilisées :
k est le nombre de noyaux,
P est le nombre moyen de pixels pour lesquels un noyau est non nul,
U est le nombre de bins de couleurs dans chaque histogramme de couleurs,
T est le nombre de degrés de liberté en θ .
Le coût calculatoire de l’algorithme compositionnel est représenté dans le tableau suivant :
Etape 1 Etape 3 Etape 4 Etape 5 Etape 6 Etape 7 Par itération
O(kP) O(kP) O(kPT) O(kUT2) O(kUT) O(kUT)
Tableau 5. 2 Coût calculatoire de l'algorithme compositionnel.
129
Étant donné que U et P sont grands comparés aux autres paramètres (de l'ordre de 100 à 1000), les
étapes 5 et 6 sont les deux étapes les plus coûteuses dans l'algorithme. Par conséquent, les
déplacer dans une phase de pré-calcul diminue la complexité globale de chaque itération de manière
significative et donc celle de l’algorithme complet.
En particulier, avec notre implémentation en Matlab, une itération pour k = 9 noyaux, où chacun
couvre P = 150 pixels. Avec la couleur quantifiée en U = 64 bins de couleurs et un modèle de
mouvement affine (T = 6), cette itération requiert 168 ms avec l'approche compositionnelle inverse, au
lieu de 359 ms avec l'approche classique directe additive. Notre approche nécessite ainsi la moitié du
temps exigé par l’approche classique.
5.3.2 Propriétés de convergence
L’approche directe additive est une optimisation de type Gauss-Newton de l'erreur )0,ˆ(θE .
L'approche compositionnelle inverse adopte un schéma hybride. En effet, le critère général
d'optimisation est toujours )0,ˆ(θE , mais chaque itération utilise le critère ),ˆ( θθ ∆E . Ces deux fonctions
expriment l'erreur de mise en correspondance comme cela a été montré dans la section 5.2. Elles ne
sont pas nécessairement identiques quand l'erreur est grande, c’est pourquoi les propriétés de
convergence des deux approches sont maintenant comparées.
5.3.2.1 Carte de retour pour mouvement pur
La Fig. 5.3 (a-d) montre les résultats obtenus par ces deux méthodes (directe additive de la section
5.2.2, compositionnelle inverse de la section 5.2.2) pour une translation pure (b), une rotation pure (c),
et une échelle pure (d) (perturbations illustrées à la Fig. 5.2. Neuf noyaux d'Epanechnikov centrés sur
une grille régulière 3×3 ont été utilisés sur l’image (a).
130
Fig. 5.2 Perturbations étudiées
D’une façon générale, les deux approches donnent des résultats similaires. En effet, les méthodes
directe et inverse approximent bien la correction pour de petites perturbations, et tendent à sous-
estimer la correction pour de plus grandes perturbations. Cette observation reflète le fait que toutes les
deux sont fondées sur une linéarisation de l'erreur autour des paramètres initiaux, qui est seulement
valide pour les petites perturbations.
L'estimation de l’échelle montre une sous-estimation systématique sur cet exemple. Ceci est
observé avec d'autres configurations classiques de noyau, mais pas en utilisant une image totalement
non ambiguë constituée de carrés avec des couleurs uniques. Les estimations sont néanmoins dans la
direction correcte même pour les grandes perturbations, qui font que l'optimisation itérative par la
suite converge vers les paramètres corrects même dans ce cas.
Iref
∆x
α
β
Perturbation par une translation ∆x
Perturbation par une rotation α
Perturbation par un changement d’échelle β
131
−40 −30 −20 −10 0 10 20 30 40
−40
−30
−20
−10
0
10
20
30
40
perturbation translation
estim
ated
tran
slat
ion
perturbationinitialisationforwardsinverse
(a) (b)
−40 −30 −20 −10 0 10 20 30 40
−40
−30
−20
−10
0
10
20
30
40
perturbation angle (degrees)
estim
ated
ang
le
perturbationinitialisationforwardsinverse
0.85 0.9 0.95 1 1.05 1.1 1.15 1.2
0.85
0.9
0.95
1
1.05
1.1
1.15
1.2
Perturbating scale
Est
imat
ed s
cale
perturbationinitialisationforwardsinverseforwards biasedinverse biased
(c) (d)
Fig. 5.3 Comparaison de l’estimation de paramètre (d'une seule itération) pour des perturbations affines contrôlées (voir la section 5.3.2). (a) les supports des neuf noyaux d'Epanechnikov superposés sur l’image test. Cartes des paramètres de correction dépendant des paramètres de perturbation: (meilleur proche de la valeur vraie de la perturbation) pour (b) un décalage horizontal, (c) une rotation autour du centre de l'image.
5.3.2.2 Perturbation générique
La qualité de l'estimation des paramètres est également évaluée dans des conditions plus générales
comme le montre la Fig. 5.4 (e-f), pour une seule itération. Les perturbations (Fig. 5.2) sont une
combinaison de translations aléatoires dans une fenêtre de [-20, 20] pixels, de rotations dans une
fenêtre de [-20, 20] degrés et de différentes échelles dans la fourchette [1.2-1, 1.2].
L'erreur spatiale moyenne D correspond à la moyenne de l'erreur spatiale des centres des noyaux,
évaluée dans les coordonnées de référence. Cette mesure rend compte de la convergence pour des
perturbations aléatoires en translation, en rotation et en changement d’échelle d'une façon unifiée.
Ces résultats montrent que l'approche inverse conduit à une erreur légèrement plus grande au
niveau de la distribution de couleurs que l'approche directe (f), ceci peut être expliqué par le fait
qu'elle n’opère pas directement sur le critère d’optimisation )0,ˆ(θE . Cette différence ne semble pas
132
affecter l'estimation des paramètres, car le paramètre estimé est également exact d'un point de vue
spatial (e).
0 20 40 60 80 1000
10
20
30
40
50
60
70
Rank
Mea
n D
ista
nce
Err
or
forwardsinverse
0 20 40 60 80 1000
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
Rank
Col
or D
istr
ibut
ion
Err
or
forwardsinverse
(e) (f) Fig. 5.4 La comparaison de la qualité d’estimation de paramètres (pour une seule itération) pour des perturbations affines aléatoires (voir la section 5.3.2). Erreur spatiale moyenne ordonnée (e) et erreur de distribution de couleurs (f).
5.3.2.3 Suivi d’objets
Dans cette section la performance calculatoire et la qualité de l’estimation sont comparées dans le
contexte du suivi d’une personne dont la taille apparente évolue au cours du temps (Fig. 1.1) et une
image présentant des déformations affines sur la Fig. 5.6. Les deux suivis utilisent 9 noyaux
d'Epanechnikov centrés sur une grille régulière 3×3. Les paramètres obtenus avec l'approche directe et
inverse sont très similaires. Ce qui est confirmé par l’analyse des erreurs spatiales moyennes similaires
D par rapport à la vérité terrain dans la Fig. 5.6-c ainsi que par les erreurs de distributions de couleurs
E de la Fig. 5.6-c. Pour cette dernière, on observe une erreur légèrement plus faible pour l'approche
directe comme il a été discuté dans la section 5.3.2. Le temps de calcul est globalement divisé par
deux en utilisant l'approche inverse au lieu de l'approche directe.
5.4 Conclusion
Ce chapitre a présenté l'adaptation et l'application de l’approche composition inverse déjà utilisée
dans le suivi par template au suivi avec de distributions de couleurs multi-noyaux. Le paradigme de
suivi multi-noyaux a été reformulé dans le but de couvrir les deux approches existantes directe
additive et une nouvelle approche compositionnelle inverse. La qualité de l’estimation des paramètres
de la nouvelle technique est similaire à l'approche multi-noyaux directe additive, tout en diminuant le
coût calculatoire de chaque itération.
133
(a)
850 900 950 1000 1050 1100 1150 1200 12500
0.5
1
1.5
2
2.5
3
Frame Id
Tot
al T
ime
(s)
ForwardsInverse
850 900 950 1000 1050 1100 1150 1200 12500
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
Frame Id
Col
or D
istr
ibut
ion
Err
or
ForwardsInverse
(b) (c)
Fig. 5.5 Suivi sur un exemple avec changement d’échelle sur la vidéo de CAVIAR pour l'approche compositionnelle inverse (a). Comparaison du coût calculatoire (b) et de l'erreur de distribution de couleur )0,(θE , après la convergence (c) pour chaque image sur la même vidéo, avec les deux approches.
(a)
0 10 20 30 40 500
2
4
6
8
10
12
14
16
Frame id
Tim
e (s
)
ForwardsInverse
0 10 20 30 40 500
2
4
6
8
10
12
14
16
18
20
Frame id
Max
imum
Spa
tial E
rror
Dm
ax
Forwards InitialisationInverse InitialisationForwardsInverse
(b) (c)
Fig. 5.6 Exemple de suivi pour une vidéo avec déformations affines, avec l’estimation des paramètres pour l'approche inverse (a). Comparaison du coût calculatoire (b). Comparaison de l'erreur spatiale moyenne (c), l'erreur pour l'initialisation à chaque image est tracée pour montrer la correction requise sur cette séquence.
134
135
Conclusion générale et perspectives
Dans ce mémoire, nous avons abordé plusieurs aspects liés au suivi d’objets dans des vidéos. Nous
avons ainsi pu définir le suivi comme la combinaison d’un modèle d’apparence, d’une approche de
recherche dans l’espace des paramètres, et de contraintes spatio-temporelles a priori. Notre travail s’est
positionné en considérant le modèle d’apparence comme un aspect central de la problématique. Nous
l’avons décomposé en deux étapes : une étape de représentation du contenu visuel d’un objet suivi,
c'est-à-dire d’extraction d’un descripteur, et une étape de confrontation de ce descripteur à un modèle
défini à partir d’une image de référence.
Sur cette base, nous avons proposé deux nouvelles méthodes d’évaluation de performances,
spécifiquement conçues pour fournir des informations quantitatives sur la capacité d’un modèle
d’apparence à distinguer l’objet d’intérêt des distracteurs. D’une part, du point de vue spatial, il s’agit
de l’étude du compromis précision spatiale/robustesse à l’initialisation. D’une autre part, du point de
vue temporel, nous avons considéré l’étude de la perte de discriminance lorsque référence et candidats
sont espacés temporellement.
Les propositions de nouveaux modèles sont fondées sur une étude préalable des modèles existants,
qui ont conduit à deux contributions. Premièrement, l’absence d’information spatiale délivrée par les
descripteurs de type histogramme de couleurs ou de niveaux de gris a été mis en évidence, et
l’histogramme multi-échelle proposé. Deuxièmement, le problème des variations de luminance au sein
d’une séquence a donné lieu à l’élaboration de mesures de similarité inter-bins permettant une certaine
flexibilité vis-à-vis des changements d’illumination dans la comparaison d’histogrammes.
Les approches d’évaluation ont été appliquées pour l’évaluation de modèles d’apparence existants,
ainsi que sur les nouveaux modèles proposés, conduisant à une étude expérimentale mettant en
évidence les variations de performances dues à plusieurs phénomènes, notamment l’utilisation de
noyaux de pondération spatiale, l’utilisation de similarités inter-bins, ou le choix de la métrique de
similarité.
L’ensemble des approches abordées dans les premiers chapitres considèrent principalement un
modèle de type translationnel. Une ouverture vers les modèles paramétriques d’ordre supérieur a
également été considérée, à travers l’approche de suivi par distributions de couleurs multi-noyaux.
Une nouvelle technique d’optimisation par approche compositionnelle inverse a été proposée, offrant
une meilleure performance que les approches classiques en termes de temps de calcul.
136
Les techniques abordées s’insèrent globalement assez naturellement dans un cadre d’analyse de
vidéos pour la vidéosurveillance, qui correspond en effet aux types de benchmarks utilisés pour les
évaluations expérimentales. L’idée sous jacente qui a guidé ces propositions a été de chercher à tirer
au maximum parti du corpus de vidéos annotées conçu pour le suivi d’objets, tout en fournissant une
estimation de performances centrée sur le modèle d’apparence. Ce faisant, le lien assez fort avec la
notion de modèles d’apparence pour la recherche en indexation d’image a été exploré, ce qui s’est
traduit dans les solutions proposées. Etendre ce principe à de nouveaux modèles représente une
perspective intéressante. Certains modèles utilisés pour le suivi sont en effet spécifiques à cette
application, et ne trouvent pas forcément de correspondants en indexation d’images. Il s’agit par
exemple des modèles possédant de nombreux paramètres, tels que les contours actifs ou les modèles
articulés. Les approches proposées (caractérisation des cartes de similarité spatiale et quantification de
la capacité à discriminer au cours du temps) pourraient s’étendre, à condition d’échantillonner de
façon pertinente l’espace des paramètres lors de la recherche de distracteurs. Un tel échantillonnage est
plus difficile à réaliser efficacement en grandes dimensions, ce qui pose de nouvelles questions pour la
mise en place de nouvelles approches d’évaluation des performances.
137
Annexe A
Algorithme de suivi par Mean Shift
Dans l’approche Mean Shift, [Comaniciu et al, 2003] utilisent un histogramme pondéré calculé sur
une région circulaire pour représenter l'objet. Au lieu de réaliser une recherche exhaustive pour
localiser l'objet, ils utilisent le procédé Mean Shift. Le système de suivi Mean Shift maximise la
similarité d'apparence itérativement en comparant les histogrammes de l'objet, q, et une fenêtre autour
de la position hypothèse d'objet, p. La similarité entre deux histogrammes est définie en termes de
coefficient de Bhattacharya, ∑ =mu uuqp1 , où m est le nombre de classes de couleurs utilisées. À
chaque itération, le vecteur Mean Shift est calculé tel que la similarité entre les histogrammes est
augmentée. Ce processus est répété jusqu'à ce que la convergence soit réalisée, qui s’effectue
habituellement cinq à six itérations. Pour la génération d'histogramme, les auteurs utilisent un schéma
de pondération défini par un noyau spatial qui donne des poids plus élevés aux pixels plus près du
centre d'objet. Un avantage évident du système de suivi Mean Shift par rapport à la mise en
correspondance standard est la suppression d'une recherche exhaustive. L’estimation de l’état de
l’objet s’effectue donc dans un nombre restreint d'itérations.
A l’origine, la procédure Mean Shift est une procédure itérative de recherche de maximum local
dans un espace ℜd, basée sur une montée de gradient. Elle a été proposée par [Fukunaga et al, 1975],
et a été utilisée pour la première fois en 1997 dans le cadre de la segmentation d’images. Elle a ensuite
été adoptée par Comaniciu pour le suivi en temps réel d’objets déformables dans une séquence
d’images [Comaniciu et al, 2003], en utilisant la densité de couleur de l’objet. Le suivi est effectué à
partir de sa position initiale dans la première image. L’initialisation s’effectue manuellement. L’objet
d’intérêt est modélisé par une ellipse, sur laquelle on calcule sa distribution de couleur. La distribution
de couleur initiale est référencée en tant que modèle, et est ensuite comparée à celle des sites candidats
pour déterminer la position la plus probable dans l’image suivante.
Le Mean Shift repose sur le fait que le mode d’un nuage de points correspond à un maximum local
de sa densité, ce qui implique que le gradient soit égal au vecteur nul. Le principe de la procédure
Mean Shift est de trouver le mode en résolvant itérativement l’équation ∇f(x)=0 sans estimer la
densité f. L’artifice algorithmique proposé par Fukunaga est d’estimer le gradient de la fonction de
densité avec l’estimation de la fonction de densité [Comanciu et al, 2003].
L’algorithme de Comanciu fonctionne de la manière suivante : pour chaque image, il utilise la
position de la cible estimée à l’image précédente comme initialisation. Il calcule la distribution de
138
couleur pondéré par un noyau dans cette ellipse. Il évalue la similarité avec le modèle de référence. Un
poids est associé à cette mesure de similarité et on peut alors calculer le vecteur Mean Shift, qui a pour
but de fournir la nouvelle position estimée de la cible dans l’image courante. On réitère ces étapes
jusqu’à trouver le maximum local.
A.1 Utilisation de la procédure Mean Shift
La technique de suivi par Mean Shift consiste à rechercher la position du modèle dans l’image
courante à partir de sa distribution de couleur.
La couleur de l’objet à suivre est supposée avoir une fonction de densité q, et celle du candidat
centré sur un point y la densité p(y). Le problème est de trouver le point y dont la densité associée p(y)
est la plus proche de q.
A.2 Densité estimée du modèle
Le modèle est représenté par une région elliptique de taille (hx, hy). Si on note xi i= 1…n l’ensemble
des coordonnées des n pixels du modèle centré en 0, et normalisé par hx et hy. On note c la fonction de
ℜ→1…m qui associe à chaque pixel xi l’indice de sa couleur dans le m-histogramme. La loi de
probabilité des couleurs u ∈1,…,m est calculée en utilisant une fonction de profil convexe,
monotone et décroissante, attribuant un poids plus faible aux coordonnées éloignées du centre du
modèle. La pondération augmente la robustesse de l’estimation, les pixels périphériques étant les
moins sûrs, car souvent affectés par les occultations ou par le bruit. Le rayon de cette fonction de
profil est égal à 1. On a alors :
( )∑=
=n
iiuiu cKCq
1
2)( )( xx δ (A. 1)
• où δ est la fonction de Kronecker et C une constante de normalisation, tel que ∑∈
=Uu
uq 1.
A.3 Densité estimée du candidat
On note xi i= 1…nh l’ensemble des coordonnées des nh pixels du candidat centré sur y dans l’image
courante. En utilisant le même profil mais avec un rayon h, la loi de probabilité de la couleur u est
donnée par :
( ))( ) ()(1
2
iu
hn
u
ihu c
h
yCyp x
x δ∑=
−= (A. 2)
• où Ch est une constante de normalisation. Le nombre de pixels nh (c’est-à-dire l’échelle) du
candidat dépend du rayon h de la fonction de profil.
139
A.4 Mesure de similarité entre distributions
Le coefficient de Bhattacharyya est utilisé comme mesure de similarité entre deux distributions q et
p(y)
∑=
==m
uuu qypqypy
1 )()),(()( ρρ (A. 3)
La distance de Bhattacharyya est définie par :
)(1)( yydBha ρ−= (A. 4)
Les itérations Mean Shift peuvent être utilisées pour maximiser (A.3) comme fonction de y dans le
voisinage d’une position donnée.
A.5 Algorithme de suivi
La localisation y la plus probable de l’objet dans l’image courante est obtenue en minimisant la
distance (A.4), ce qui est équivalent à maximiser le coefficient de Bhattacharyya ρ(y) (A. 3). Cette
maximisation peut être effectuée efficacement en utilisant les itérations Mean Shift, à l’aide de
l’algorithme suivant :
Fig.A. 1 Mean Shift standard
On dispose de l’estimation de la distribution du modèle <qu>u=1...m ainsi
que l’estimation de la position y0 de l’objet dans l’image précédente. Il faut
ensuite 1) Calculer la distribution p(y0) = <pu(y0)>u=1...m
2) Calculer ( ) ∑=
=m
uuu qypqyp
100 )(),(ρ
3) Calculer les poids ωi i=1…nh avec )(
))((01 yp
quxc
u
um
uii ∑
=−= δω
4) A partir du vecteur Mean Shift, calculer la nouvelle position de
l’objet :
)(
)(
20
1
20
11
h
xyg
h
xygx
yihn
ii
ihn
iii
−
−
=
∑
∑
=
=
ω
ω
5) Mettre à jour p(y1) = pu(y1) u=1...m puis évaluer
( ) ∑=
=m
uuu qypqyp
111 )(),(ρ
6) Tant que ρ (p(y1), q) < ρ (p(y0), q) faire 2
101
yyy
+←
7) Si ε<− 01 yy stop. Sinon 10 yy ← et retourner à l’étape 1
140
Les tests ont été effectués dans le cadre du suivi de joueurs de football dans une séquence vidéo.
L’algorithme s’exécute en temps réel, et les résultats présentés dans l’article de Comaniciu montrent
l’intérêt de l’utilisation du Mean Shift pour le suivi temps réel. Notons toutefois que l’algorithme
fonctionne bien si deux objets présentant les mêmes distributions de couleurs ne sont pas trop proches
dans les images.
141
Annexe B
Benchmarks pour le suivi d’objets
Base de données Disponible depuis
Événement Vues Annotation Format Nombre de séquences /durée
moyenne (s) PETS 20003 2000 Voitures passant dans un parking à
l’extérieur 1 CS (a) Non 768×576, 25
fps, JPEG 1/62
2001 Personnes à l’extérieur marchent et en vélo
3 CS (b) (c) (e), 1 OC (d)
XML 768×576, 25 fps, JPEG
8/1370 PETS 2001
2001 Voitures se déplacent 2 SC dans les voitures (f)
Non 768×576, 25 fps, JPEG
2/230
CAVIAR 1ere ensemble (PETS 2004) [CAVIAR)
Juin 2003 A l’intérieur, des personnes marchant, se réunissant, se combattant, laissant des objets, s’effondrant.
CS (g)
XML CAVIAR
384x288, 25 fps, MPEG-2
28/650
CAVIAR second ensemble [CAVIAR]
Janvier 2004
A l’intérieur d’un centre commercial, des personnes passent
2 CS (h) (i)
XML CAVIAR
384x288, 25 fps, MPEG-2
26/650
Nov. 2004 A l’intérieur, des objets abandonnés, des personnes marchent et interagissent entre eux
C S (j) (k)
Pas encore MPEG-7
352x288, 12 fps, Uncompr.
26/764
Nov. 2004 Situations de stationnement C S (l) Pas encore MPEG-7
352x288, 12 fps, Uncompr.
5/232
CANDELA [Wijnhoven, 2004]
Nov. 2004 Situations d'intersection
C S (m) Pas encore MPEG-7
352x288, 12 fps, Uncompr.
3/171
VS-PETS FOOTBALL INMOVE4
2003 A l’extérieur, des personnes marchant dans des matchs de football
3 CS (n) (o)
oui pour camera 3, XML
720x576, 25 fps, JPEG
5/380
FGnet5 (PETS-ICVS)
2003 Pièce intelligente, position de visage et des yeux, reconnaissance d'expression faciale, geste, direction du visage/tête
2 CS (p) (q) 1 OC (r)
texte 720x576, 25 fps, JPEG
4/1814
VISOR BASE6 (PETS 2002)
2002 Des personnes se déplaçant devant une fenêtre de magasin
1 CS (s) Non 640x240, 25 fps, JPEG & MPEG- 1
6/274
PETS 2005 2004 Surveillance côtière
Thermal PTZ (t)
XML CAVIAR
720x576, 25 fps, JPEG
7/696
ATON7 Route, campus et pièce intelligente
1 CS (u) (v) (w) (x)
Pièce intelligente : masque binaire
320x240, 10 fps, AVI (Cinepak codec)
4/180
Tableau B. 1 Bases de données publiquement disponibles (CS=caméra statique, OC=omni caméra, PTZ=pan tilt zoom caméra) les lettres entre parenthèses dans la colonne « vues » se référent à la figure suivante.
3 PETS test sequences: http://www.visualsurveillance.org/ 4 Project IST INMOVE (IST-2001-37422): http://www.inmove.org 5 Project IST FGnet (IST-2000-26434): http://www.fg-net.org 6 Project IST VISOR BASE (IST-1999-10808): http://www.vtools.es/visorbase/index.html 7 ATON test sequences: http://cvrr.ucsd.edu/aton/shadow/
142
(a) (b) (c) (d)
(e) (f) (g) (h)
(i) (j) (k) (l)
(m) (n) (o) (p)
(q) (r) (s) (t)
(u) (v) (w) (x)
Fig. B. 1 Exemplaires d’images issues des données vidéo disponibles
143
Annexe C
Détails des performances sur les séquences du
corpus
Fig. C. 1 Pouvoir de discrimination des modèles d’apparence en fonction de l’écart temporel pour les
séquences Lisbon couloir (2cor) (séquences 1 et 7)
144
Fig. C. 2 Pouvoir de discrimination des modèles d’apparence en fonction de l’écart temporel pour les
séquences Lisbon couloir (1cor) (séquences 2 et 5)
Fig. C. 3 Pouvoir de discrimination des modèles d’apparence en fonction de l’écart temporel pour les
séquences Lsisbon couloir (1cor et 2cor)
145
Fig. C. 4 Pouvoir de discrimination des modèles d’apparence en fonction de l’écart temporel pour les
séquences Lisbon Front (séquences 3 et 4)
Fig. C. 5 Pouvoir de discrimination des modèles d’apparence en fonction de l’écart temporel de la séquence 6 (INRIA).
146
Références
[Aggarwal et al, 1999] Aggarwal, J.K. & Cai, Q. (1999), 'Human motion analysis: A review', Computer Vision and Image Understanding 73(3), 428–440.
[Allen et al, 2004] Allen, J.; Xu, R. & Jin, J. (2004),'Object Tracking Using CamShift Algorithm and Multiple Quantized Feature Spaces', 'In Proceedings Pan-Sydney Area Workshop on Visual Information Processing (VIP)', Sydney, Australia.
[Alper, 2007] Alper, Y. (2007),'Object Tracking by Asymmetric Kernel Mean Shift with Automatic Scale and Orientation Selection', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR )'.
[Alper et al, 2006] Alper, Y.; Javed, O. & Shah, M. (2006), 'Object Tracking: A Survey', ACM Journal of Computing Surveys 38 (4).
[Avidan, 2001] Avidan, S. (2001),'Support vector tracking', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', 184–191.
[Bach et al, 1996] Bach, J.; Fuler, C.; Gupta, A.; Hampapur, A.; Horowitz, B.; Humphrey, R.; Jain, R. & Shu, C. (1996), 'The Virage image search engine: An open framework for image management', 'SPIE Conference on Storage and Retrieval for Image and Video Databases IV', 76–87.
[Baker et al, 2004] Baker, S. & Matthews, I. (2004), 'Lucas-Kanade 20 Years On: A Unifying Framework', International Journal of Computer Vision 56 (3), 221-255.
[Baker et al, 2001] Baker, S. & Matthews, I. (2001),'Equivalence and efficiency of image alignment algorithms', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', Kauai, HI, USA, 1090–1097.
[Bashir et al, 2006] Bashir, F. & Porikli, F. (2006), 'Performance Evaluation of Object Detection and Tracking Systems', 'PETS', New-York, 7-14.
[Bennett et al, 2008] Bennett, B.; Magee, D.R.; Cohn, A.G. & Hogg, D.C. (2008), 'Enhanced tracking and recognition of moving objects by reasoning about spatio-temporal continuity', Image and Vision Computing 26(1), 67-81.
[Bertalmio et al, 2000] Bertalmio, M.; Sapiro, G. & Randall, G. (2000), 'Morphing active contours', IEEE Transactions on Pattern Analysis and Machine Intelligence 22(7), 733–737.
[Birchfield et al, 2005] Birchfield, S. & Rangarajan, S. (2005), 'Spatiograms versus histograms for region-based tracking', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)'.
[Birgé et al, 2002] Birgé, L. & Rozenholc, Y. (2002),'How many bins should be put in a regular histogram', Technical report, Laboratoire Probabilités et Modèles Aléatoires, Université Pierre et Marie Curie, Paris, France, PMA-721.
[Black et al, 2003] Black, J.; Elis, T. & Rosin, P. (2003), 'A novel method for video tracking performance evaluation', 'VS-PETS', Nice, 125–132.
147
[Black et al, 1996] Black, M.J. & Jepson, A.D. (1996), 'EigenTracking: Robust Matching and Tracking of Articulated Objects Using a View-Based Representation', 'European Conference on Computer Vision (ECCV)'.
[Boltz et al, 2007] Boltz, S.; Debreuve, E. & Barlaud., M. (2007), 'High dimensional kullback-leibler distance for region of interest tracking: Application to combining a soft geometric constraint with radiometry', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', Minneapolis.
[Boujemaa et al, 2001] Boujemaa, N.; Boughorbel, S. & Vertan, C. (2001), 'Color Soft Signature for Image Retrieval', 'EUSFLAT', 394-401.
[Bradski et al, 1998] Bradski, G. (1998), 'Computer vision face tracking for use in a perceptual user interface', Intel Technology Journal 2(2).
[Brown et al, 2005] Brown, L.; Senior, A.; Tian, Y.; Connell, J.; A.Hampapur; Shu, C.; H.Merkl & Lu, M. (2005), 'Performance Evaluation of Surveillance Systems under Varying Conditions', 'PETS', Breckenridge, Colorado, 1-8.
[Cavallaro et al, 2005] Cavallaro, A.; Steiger, O. & Ebrahimi, T. (2005), 'Tracking Video Objects in Cluttered Background', IEEE Transactions on Circuits and Systems for Video Technology 15(4), 575-584.
[CAVIAR] 'Context Aware Vision using Image-based Active Recognition', 'http ://homepages.inf.ed.ac.uk/rbf/CAVIAR/'.
[Chang et al, 1999] Chang, P. & Krumm, J. (1999),'Object Recognition with Color Cooccurrence Histograms', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', 498-504.
[Chateau et al, 2002] Chateau, T.; Jurie, F.; Dhome, M. & Clady, X. (2002), 'real time tracking using wavelet representation', 'Proceedings of the 24th DAGM Symposium on Pattern Recognition'.
[Checchin et al, 2008] Checchin (2008), 'Système de détection de piétons а bord de véhicules : approche par télémétrie laser'.
[Cheng et al, 1995] Cheng, Y. (1995), 'Mean Shift, Mode Seeking, and Clustering', IEEE Transactions on Pattern Analysis and Machine Intelligence 17, 790–799.
[Chetverikov et al, 2000] Chetverikov, D.; Nagy, M. & Verestoy, J. (2000), 'Comparison of Tracking Techniques Applied to Digital PIV', 'International Conference on Pattern Recognition (ICPR)', 4619-4622.
[Cinque et al, 1999] Cinque, L.; Levialdi, S. & Olsen, K. (1999), 'Color-based image retrieval using spatial-chromatic histogram', 'Multimedia Computing and System, IEEE International Conference on Multimedia Computing and Systems,', 969–973.
[CLEAR] 'Classification of Events, Activities and Relationships', 'http://www.clear-evaluation.org/'.
[Collins et al, 2003] Collins, R. (2003),'Mean-shift blob tracking through scale space', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', Madison,WI, 234–240.
[Collins et al, 2003] Collins, R.T. & Liu, Y. (2003), 'On-line Selection of Discriminative Tracking Features', 'International Conference on Computer Vision (ICCV)'.
148
[Collins et al, 2005] Collins, R.T.; Liu, Y. & Leordeanu, M. (2005), 'Online Selection of Discriminative Tracking Features', IEEE Transactions on pattern analysis and machine intelligence 27(10), 631-1643.
[Comaniciu et al, 2003] Comaniciu, D.; Ramesh, V. & Meer, P. (2003), 'Kernel-based object tracking', IEEE Transactions on Pattern Analysis and Machine Intelligence 25 (5), 564–577.
[Comaniciu et al, 2000] Comaniciu, D.; Ramesh, V. & Meer, P. (2000), 'Real-Time Tracking of Non-Rigid Objects using Mean Shift', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', 142-149.
[Conaire et al, 2007] Conaire, C.O.; Connor, N.E.O.; Smeaton, A. & Jones (2007), 'Organising a daily visual diary using multi-feature clustering', '19th annual Symposium on Electronic Imaging'.
[Conaire et al, 2007] Conaire, C.O.; Connor, N.E.O. & Smeaton, A.F. (2007),'An improved spatiogram similarity measure for robust object localisation', 'International Conference on Acoustics, Speech, and Signal Processing (ICASSP)'.
[Conn et al, 2000] Conn, A.; Gould, N. & Toint, P.SIAM, ed. (2000), Trust-Region Methods.
[Cootes et al, 2000] Cootes, T.; Edwards, G. & Taylor, C. (2001), 'Robust real-time periodic motion detection, analysis, and applications', IEEE Transactions on Pattern Analysis and Machine Intelligence 23(6), 681–685.
[CREDS] Ziliani, F.; Velastin, S.; Porikli, F.; Marcenaro, L.; Kelliher, T.; Cavallaro, A. & , P.B. (2005), 'Performance Evaluation of Event Detection Solutions: The CREDS Experience', 'AVSBS05'
[Deselaers et al, 2004] Deselaers, T.; Keysers, D. & Ney, H. (2004),'Features for image retrieval: A quantitative comparison', 'DAGM’04: 26th Pattern Recognition Symposium', Tubingen, 228–236.
[Doermann et al, 2000] Doermann, D. & Mihalcik, D. (2000), 'Tools and techniques for video performance evaluation', 'International Conference on Pattern Recognition', Barcelona, 4167–4170.
[Duda et al, 2000] Duda, R.O.; Stork, D.G. & Hart, P.E.Sons, J., ed. (2000), Pattern Classification, Wiley.
[[Edwards et al, 1998] Edwards, G.; Taylor, C. & T.Cootes (1998), 'Interpreting face images using active appearance models', 'International Conference on Face and Gesture Recognition', 300–305.
[Elgammal et al, 2000] Elgammal, A.; Harwood, D. & Davis, L.S. (2000),'Nonparametric background model for background subtraction' 'European Conference of Computer Vision'.
[Erdem et al, 2004] Erdem, C.; Sankur, B. & Tekalp, A. (2004), 'Performance measures for video object segmentation and tracking', IEEE Transactions on Image Processing 13(7), 937—951.
[ETISEO] 'Video Understanding Evaluation', 'http://www.silogic.fr/etiseo/'.
[Fan et al, 2005] Fan, Z. & Wu, Y. (2005),'Multiple Collaborative Kernel Tracking', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', San Diego, CA, 20-26.
149
[Fan et al, 2007] Fan, Z.; Yang, M. & Wu, Y. (2007), 'Multiple Collaborative Kernel Tracking', IEEE Transactions on Pattern Analysis and Machine Intelligence 29(7), 1268-1273.
[Fan et al, 2006] Fan, Z.; Yang, M.; Wu, Y.; Hua, G. & Yu, T. (2006),'Efficient Optimal Kernel Placement for Reliable Visual Tracking', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', New York City, NY, 17-22.
[Fang et al, 2003] Fang, J. & Qiu, G. (2003),'A Colour Histogram Based Approach to Human Face Detection' 'IEEE Visual Information Engineering'.
[Ferecatu et al, 2005] Ferecatu, M. (2005),'Image Retrieval With Active Relevance Feedback Using Both Visual and Keyword-based Descriptors', PhD thesis, University of Versailles Saint-Quentin-en-Yvelines.
[Fukunaga et al, 1975] Fukunaga, K. & Hostetler, L.D. (1975), 'The estimation of the gradient of a density function, with application in pattern recognition', IEEE Transactions on Information Theory 21(1).
[Gagalowicz et al, 1983] Gagalowicz, A. (1983),'Vers un modèle de textures', PhD thesis, université Pierre et Marie Curie, Paris V.
[Georgescu et al, 2004] Georgescu, B. & P.Meer (2004), 'Point matching under large image deformations and illumination changes', IEEE Transactions on Pattern Analysis and Machine Intelligence 26, 674–688.
[Grimson et al, 1998] Grimson, Y.; Stauffer, C.; Romano, R. & Lee, L. (1998), 'Using adaptive tracking to classify and monitor activities in a site', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)'.
[Gros et al, 1997] Gros, P.; Mclean, G.; Delon, R.; Mohr, R.; Schmid, C. & Mistler, G. (1997), 'Utilisation de la couleur pour l'appariement et l'indexation d'images', Technical report, INRIA.
[Guskov et al, 2006] Guskov, I. (2006),'Kernel-based template alignment', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', New-York, USA, 610–617.
[Hafner et al, 1995] Hafner, J.; Sawhney, H. & Equitz, W. (1995), 'Efficient color histogram indexing for quadratic form distance functions', IEEE Transactions on Pattern Analysis and Machine Intelligence 17(7), 729-736.
[Hager et al, 2004] Hager, G.D.; Dewan, M. & Stewart, C.V. (2004), 'Multiple kernel tracking with SSD''IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', Washington, DC, USA, 790-797.
[Haoting et al, 2006] Haoting, L.; Jianqun, Y. & Zhehao, W. (2006), 'Moving Object Tracking and Vision Navigation Based on Selective Attention Mechanism' 'IEEE International Conference on Robotics and Biomimetics', 1500 - 1505.
[Haralick et al, 1973] Haralick, R.M.; Shanmugam, K. & Dinstein, I. (1973), 'Textural Features for Image Classification', IEEE Transactions on Systems, Man, and Cybernetics 3(6).
[Haritaoglu et al, 2000] Haritaoglu, I.; Harwood, D. & David, L. (2000), 'Real-time surveillance of people and their activities', IEEE Transactions on Pattern Analysis and Machine Intelligence 22(8), 809–830.
150
[Hu et al, 1962] Hu, M. (1962), 'Visual pattern recognition by moment invariants', IRE Transactions on Information Theory 8, 179-187.
[Huang et al, 1997] Huang, J.; Kumar, S.; Mitra, M.; Zhu, W. & Zabih, R. (1997),'Image indexing using color correlograms', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', pages 762-768.
[i-LIDS] i-LIDS dataset''http://scienceandresearch.homeoffice.gov.uk/hosdb/cctv-imaging-technology/video-based-detectionsystems/i-lids/'.
[Isard et al, 1998] Isard, M. & Blake, A. (1998), 'Condensation – Conditional Density Propagation for Visual Tracking', International Journal of Computer Vision 29, 5–28.
[Jain et al, 1981] Jain, J. R. & Jain, A.K. (1981), 'Displacement measurement and its application in interframe image coding', IEEE Transactions on Communications COM- 29, 1799-1808.
[Jaynes et al, 2002] Jaynes, C.; Webb, S.; Steele, R.M. & Xiong, Q. (2002),'An Open Development Environment for Evaluation of Video Surveillance Systems', 'Proc. of 3rd IEEE Int. Workshop on Performance Evaluation and Tracking and Surveillance (PETS)', 32-39.
[Jepson et al, 2001] Jepson, A.; Fleet, D. & El-Maraghi, T. (2001),'Robust online appereance models for visual tracking', 'Conference on Computer Vision and Pattern Recognition (CVPR)', 415-422.
[Ji et al, 2004] Ji, Q.; Zhu, Z. & Lan, P. (2004), 'Real-Time Non intrusive Monitoring and Prediction of Driver Fatigue', IEEE Transaction on Vehicular Technology 53(4), 1052-1068.
[Jobson et al, 1997] Jobson, D.; Rahman, Z. & Woodell, G. (1997), 'Properties and performance of a center/surround retinex', IEEE Transactions on Image Processing 6, 451–462.
[Jurie et al, 2002] Jurie, F. & Dhome, M. (2002), 'Hyperplane approach for template matching', IEEE Transactions on Pattern Analysis and Machine Intelligence 24, 996–1000.
[Kailath, 1967] Kailath, T. (1967), 'The Divergence and Bhattacharyya Distance Measures in Signal Selection', IEEE Transactions on Communication Technology 15(1), 52-60.
[Kallem et al, 2007] Kallem, V.; Dewan, M.; Swensen, J.; Hager, G. & Cowan, N. (2007),'Kernel-based visual servoing', 'IEEE-RSJ Int. Conf. on Intelligent Robots and System, IROS', San Diego, USA.
[Kass et al, 1988] Kass, M. (1988), 'Snakes Active Contour Models', International Journal of Computer Vision 1, 321–332.
[Khalid et al, 2005a] Khalid, M. & Malik, M. (2005),'Biased nature of Bhattacharyya coefficient in correlation of gray-scale objects', 'Proceedings of the Fourth IEEE International Symposium on Image and Signal Processing and Analysis', 209-214.
[Khalid et al, 2005b] Khalid, M.; Malik, M.; Ilyas, M.; Sarfaraz, M. & Mahmood, K. (2005), 'Performance of a similarity measure in grayscale image matching', 'IEEE Symposium on Emerging Technologies'.
151
[Khalid et al, 2006] Khalid, M.S.; Ilyas, M.U.; Sarfaraz, M.S. & Ajaz, M.A. (2006), 'Bhattacharyya Coefficient in Correlation of Gray-Scale Objects', Journal of Multimedia 1(1), 56-61.
[Koenderink et al, 1984] Koenderink, J. (1984), 'The Structure of Images', Biological Cybernetics 50, 363-370.
[Koga et al, 1981] Koga, T. (1981),'Motion compensated interframe coding for video conferencing', 'National Telecommunications Conference', New Orleans.
[Koller et al, 1993] Koller, D.; Danilidis, K. & Nagel, H. (1993), 'Model-based object tracking in monocular image sequences of road traffic scenes', International Journal of Computer Vision, 257-281.
[Kullback, 1959] Kullback, S.Wiley, ed. (1959), Information Theory and Statistics, New York.
[Lee et al, 1991] Lee, V. & Soille, P. (1991), 'Watersheds in digital spaces: An efficient algorithm based on immersion simulations', IEEE Pattern Analysis and Machine Intelligence 13(6), 583–598.
[Lee et al, 2001] Lee, Y.; You, B. & Lee, S. (2001), 'A real time color based object tracking robust to irregular illumination variations', 'IEEE International Conference on Robotics and Automation', 1659–1664.
[Lehuger et al, 2006] Lehuger, A.; Lechat, P.; Laurent, N. & P.Pérez (2006),'Maximisation du pouvoir discriminant des espaces colorimétriques pour le suivi d'objets' 'RFIA'.
[Ling et al, 2006] Ling, H. & Okada, K. (2006), 'Diffusion Distance for Histogram Comparison' 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', 246-253.
[Ling et al, 2006] Ling, J.; Liu, E.; Yang, L. & Yang, J. (2006), 'Multi-information incorporation approach to kernel-based infrared target model construction with application to target tracking', Optical engineering 45(11).
[List et al, 2004] List, T. & Fisher, R. (2004), 'CVML – An XML-based Computer Vision Markup Language' 'International Conference for Pattern Recognition', Cambridge, UK.
[Liu et al, 2006] Liu, H.; Jiang, G. & Wang, L. (2006), 'Multiple Object Tracking based on. Snake Model and Selective Attention Mechanism', 'IEEE International Conference on Robotics and Biomimetics', 1500-1505.
[Liu et al, 2001] Liu, J.; Hwang, W.; Chen, M.; Tsai, J. & Lin, C. (2001), 'Wavelet based active contour model for object tracking', 'International Conference on Image Processing (ICIP)', 206-209.
[Liu et al, 2004] Liu, T. & Chen, H. (2004), 'Real-Time Tracking Using Trust-Region Methods', IEEE Transactions on Pattern Analysis and Machine Intelligence 26, 397–402.
[Lucas et al, 1981] Lucas, B.D. & Kanade, T. (1981), 'An iterative image registration technique with an application to stereo vision', In International Joint Conference on Artificial Intelligence 'In International Joint Conference on Artificial Intelligence', 674-679.
152
[MacCormick et al, 2000] MacCormick, J. & Blake, A. (2000), 'A probabilistic exclusion principle for tracking multiple objects', International Journal of Computer Vision 39(1), 57–71.
[Maggio et al, 2005] Maggio, E. & Cavallaro, A. (2005), 'Multi-Part target representation for colour tracking', 'IEEE International Conference on Image Processing (ICIP)', Genova.
[Mahalanobis, 1930] Mahalanobis, P. (1930), 'On tests and meassures of groups divergence', Journal of the Asiatic Society of Bengal.
[Maintz et al, 1998] Maintz, J.B.A. & Viergever, M.A. (1998), 'A Survey of Medical Image Registration', Medical Image Analysis 2(1), 1–36.
[Mansouri et al, 2002] Mansouri, A. (2002), 'Region tracking via level set pdes without motion computation', IEEE Transactions on Pattern Analysis and Machine Intelligence 24(7), 947–961.
[Mariano et al, 2002] Mariano, V. (2002),'Performance evaluation of object detection algorithms', 'International Conference on Pattern Recognition (ICPR)', 965—969.
[Matthews et al, 2004] Matthews, I. & Baker, S. (2004), 'Active Appearance Models Revisited', Int'l J. Computer Vision 60(2).
[Matthews et al, 2003] Matthews, I.; Ishikawa, T. & Baker, S.T. (2003), 'The template update problem', 'BMVA'.
[McKenna et al, 1999] McKenna, S.J.; Raja, Y. & Gong, S. (1999), 'Tracking colour objects using adaptive mixture models', Image and Vision Computing 17, 225–231.
[Meier et al, 1998] Meier, T. & Nagan, K. (1998), 'Automatic segmentation of moving objects for video plane generation', IEEE Transactions on Circuits and Systems for Video Technology 8(5), 525-538.
[Mikram et al, 2006] Mikram, M.; Megret, R.; Berthoumieu, Y. & Donias, M. (2006), 'Multi-Scale Histograms for Kernel-Based Object Tracking', 'ISCCSP'.
[Mikram et al, 2006] Mikram. M, Mégret. R, Berthoumieu. Y: 'Inverse Composition for Multi-kernel Tracking. Lecture Notes in Computer Science, LNCS 4338 pp 480-491-2006.
[Mikram et al, 2007] Mikram. M, Mégret. R, Berthoumieu. Y: 'Evaluating Descriptors Performances for Object Tracking on Natural Video Data'. Lecture Notes in Computer Science, LNCS 4678, pp 352-363- 2007.
[Mikram et al, 2007] Mikram. M, Mégret. R, Berthoumieu. Y: 'Evaluation des performances de descripteurs pour le suivi d'objets', XXI Colloque GRETSI 2007, 11-14 Septembre 2007, Troyes, France.
[Mikram et al, 2009] Mikram. M, Mégret. R, Berthoumieu. Y: 'Analyse topographique de cartes de similarité dans l’évaluation de performances pour le suivi d’objets', CORESA 2009, Toulouse.
[Mitiche et al, 1996] Mitiche, A. & Bouthemy, P. (1996), 'Computation and analysis of image motion: a synopsis of current problems and methods', International Journal of Computer Vision 19(1), 29–55.
[Mughadam et al, 1997] Mughadam, B. & Pentland, A. (1997), 'Probabilistic visual learning for object representation', IEEE Transactions on Pattern Analysis and Machine Intelligence 19(7), 696–710.
153
[Muller et al, 2001] Muller, H.; Muller, W.; Squire, D.M.; Marchand, M.S. & Pun, T. (2001), 'Performance Evaluation in Content-based Image Retrieval: Overview and Proposals', Pattern Recognition Letters 22(5), 593–601.
[Nascimento et al, 2004] Nascimento, J. & Marques, J. (2004), 'New performance evaluation metrics for object detection algorithms', '6th International Workshop on Performance Evaluation for Tracking and Surveillance (PETS 2004), ECCV', Prague, Czech Republic.
[Nicolas et al, 1993] Nicolas, H. & Labit, C. (1993), 'Motion and illumination variation estimation using a hierarchy of models: Application to image sequence coding', Technical report, IRISA.
[Noriega et al, 2006] Noriega, P.; Bascle, B. & Bernier, O. (2006),'Local kernel color histograms for background subtraction', 'INSTICC Press editor, VISAPP', 213–219.
[Odobez et al, 1995] Odobez, J. & Bouthemy, P. (1995), 'Robust multiresolution estimation of parametric motion models', International Journal of Visual Communication and Image Representation 6(4), 348–365.
[Paragios et al, 2002] Paragios, N. & Deriche, R. (2002), 'Geodesic active regions: A new framework to deal with frame partition problems in computer vision', Journal of Visual Communication and Image Representation 13, 249-268.
[Paragios et al, 1999] Paragios, N. & Deriche, R. (1999), 'Geodesic active regions for motion estimation and tracking', 'IEEE International Conference on Computer Vision (ICCV)'.
[Parameswaran et al, 2006] Parameswaran, V.; Ramesh, V. & Zoghlami, I. (2006),'Tunable Kernels for Tracking', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', New York.
[Park et al, 2004] Park, S. & Aggarwal, J.K. (2004), 'A hierarchical bayesian network for event recognition of human actions and interactions', Multimed. Syst 10(2), 164–179.
[Pass et al, 1996] Pass, G.; Zabih, R. & Miller, J. (1996), 'Comparing images using color coherence vectors', 'ACM Conference on Multimedia', Boston, USA, 65-73.
[Patella, 1999] Patella, M. (1999),'Similarity Search in Multimedia Databases', PhD thesis, University of Bologna, Italy.
[Perez et al, 2002] Perez, P.; Hue, C.; Vermaak, J. & Gangnet, M. (2002), 'Color-Based Probabilistic Tracking', 'European Conference on Computer Vision', 661–675..
[Persoon et al, 1977] Persoon, E. & Fu, K. (1977), 'Shape discrimination using fourier descriptors', IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS 7(3), 629-639.
[Qu et al, 2006] Qu, W. & Schonfeld, D. (2006), 'Robust Kernel-Based Tracking Using Optimal Control', 'IEEE International Conference on Image Processing (ICIP)', Atlanta, GA,.
[Revéret et al, 1997] Revéret, L. (1997), 'From raw images of the lips to articulatory parameters: a viseme-based prediction' 'Eurospeech', 2011-2014.
154
[Ronfard et al, 1994] Ronfard, R. (1994), 'Region-based strategies for active contour models', International Journal of Computer Vision (IJCV) 13(2), 229–251.
[Rubner et al, 2000] Rubner, Y.; C. Tomasi & L.Guibas (2000), 'The Earth Mover's Distance as a Metric for Image Retrieval', International Journal of Computer Vision 40(2), 99-121.
[Sato et al, 2004] Sato, K. & Aggarwal, J. (2004), 'Temporal spatio-velocity transform and its application to tracking and interaction', Computer Vision and Image Understanding 96(2), 100–128.
[Schneiders et al, 2005] Schneiders, S.; Jager, T.; Loos, H. & Niem, W. (2005), 'Performance Evaluation of a Real Time Video Surveillance Systems', 'VS-PETS', Beijing, 15-16.
[Scott, 1992] Scott, D.W.York:Wiley, N., ed. (1992), Multivariate Density Estimation.
[Serby et al, 2004] Serby, D.; Koller, M.S. & Gool, L.V. (2004), 'Probabilistic object tracking using multiple features', 'In IEEE International Conference of Pattern Recognition (ICPR)', 184–187.
[Shen et al, 1983] Shen, H. & Wong, A. (1983), 'Generalized texture representation and metric', 'Computer Vision, Graphics and Image Processing', 187–206.
[Shmid, 1996] Shmid, C. (1996),'Appariement d’images par invariants locaux de niveaux de gris', PhD thesis, INPG.
[Sigal et al, 2004] Sigal, Y.; Zhu; D. Comaniciu & Black, M.J. (2004),'Tracking Complex Objects using Graphical Object Models', '1st International Workshop on Complex Motion, Springer-Verlag LNCS 3417', 227-238.
[Smith, 1997] Smith, J. (1997), 'Integrated spatial and feature image systems: retrieval, analysis and compression', PhD thesis, Columbia University.
[Smith et al, 2005] Smith, K.; Perez, D.G. & Odobez, J.M. (2005), 'Using particles to track varying numbers of interacting people', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)'.
[Stern et al, 2002] Stern, H. & Efros, B. (2002), 'Adaptive color space switching for face tracking in multi-colored lighting environment', 'IEEE International Conference on Automatic Face and Gester Recognition', Washington DC, USA, 249-254.
[Swain et al, 1991] Swain, M. & Ballard, D. (1991), 'Color indexing', International Journal of Computer Vision 7, 11-32.
[Takala et al, 2007] Takala, V. & Pietikдinen, M. (2007), 'Multi-object tracking using color, texture and motion', 'Proc. Seventh IEEE International Workshop on Visual Surveillance (VS)', Minneapolis, USA.
[Tekalp et al, 1995] Tekalp, A. (1995), Digital Video Processing, Prentice Hall.
[Terzopoulos et al, 1993] Terzopoulos, D. & Szeliski, R. (1993),'Tracking with kalman snakes', 3-20.
[Ulges et al, 2006] Ulges, A.; Lampert, C. & Keysers, D. (2006), 'Spatiogram-Based Shot Distances for Video Retrieval', 'TRECVID Workshop', Gaithersburg.
155
[VACE] VAC, Video Analysis and Content Extraction''http://www.informedia.cs.cmu.edu/arda/vaceII.html'.
[Veenman et al, 2001] Veenman, C.; Reinders, M. & Backer, E. (2001), 'Resolving motion correspondence for densely moving points', IEEE Pattern Analysis and Machine Intelligence 23 (1), 54–72.
[Veeraraghavan et al, 2003] Veeraraghavan, H.; Masoud, O. & Papanikolopoulos, N. (2003), 'Computer vision algorithms for intersection monitoring', IEEE Transactions on Intelligent Transportation System 4( 2), 78-89.
[Vertan et al, 2000] Vertan, C. & Boujemaa, N. (2000), 'Color Texture Classification by Normalized Color Space Representation' 'International Conference on Pattern Recognition (ICPR)', Barcelona.
[Wang, 1998] Wang, D. (1998), 'Unsupervised video segmentation based on watersheds and temporal tracking', IEEE Transactions on Circuits and Systems for Video Technology 8(5), 539-546.
[Wang et al, 2004] Wang, J.; Thiesson, B.; Xu, Y. & Cohen, M. (2004), 'Image and video segmentation by anisotropic kernel mean shift', 'European Conference on Computer Vision (ECCV)', 238-249.
[Wang et al, 2001] Wang, Y. & Ostermann, J. (2001), Video Processing and communications, Prentice Hal.
[Werman et al, 1985] Werman, M.; Peleg, S. & Rosenfeld, A. (1985), 'A distance metric for multi-dimensional histograms', 'Computer, Vision, Graphics, and Image Processing', 328–336.
[Wijnhoven, 2004] Wijnhoven, R. (2004),'Scenario Description: Technical Document v.0.6', Technical report, CANDELA Project, Bosch Security Systems B.V., Eindhoven, The Netherlands.
[Witkin et al, 1983] Witkin, A. (1983),'Scale-Space Filtering', 'International Joint Conference on Artificial Intelligence (IJCAI)', 1019-1022.
[Wren et al, 1997] Wren, C.; Azerbayejani, A.; Darrel, T. & Pentland, A. (1997), 'Pfinder: Real time tracking of the human body', IEEE Transactions on Pattern Analysis and Machine Intelligence 19, 780-785.
[Yin et al, 2007] Yin, F.; Makris, D. & Velastin, S.A. (2007), 'Performance evaluation of object tracking algorithms', 'In 10th IEEE International Workshop on Performance Evaluation of Tracking and Surveillance (PETS)', Rio de Janeiro, Brazil.
[Yu et al, 2006] Yu, T. & Wu, Y. (2006), 'Differential Tracking based on Spatial-Appearance Model (SAM)', 'IEEE Conference on Computer Vision and Pattern Recognition (CVPR)', New York City, NY, 17-22.
[Zhao et al, 2005] Zhao, Q. & Tao, H. (2005),'Object Tracking using Color Correlogram', 'IEEE Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance (VS-PETS) in conjunction with ICCV', Beijing, China, 263 – 270.
[Zhou et al, 2006] Zhou, J. & Clark, C.M. (2006), 'Autonomous fish tracking by ROV using Monocular Camera', 'The 3rd Canadian Conference on Computer and Robot Vision (CRV)'.
[Zhu et al, 1997] Zhu, S. & Ma, K.K. (1997), 'A new diamond search algorithm for fast block matching motion estimation', 'International Conference Information, Communications and Signal Processing', 292 -296.
156