164

HABILITATION A DIRIGER DES RECHERCHES Apprentissage

Embed Size (px)

Citation preview

Page 1: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

N° Identicateur Année 2009

HABILITATION A DIRIGER DES RECHERCHES

présentée devant

l'Institut National des Sciences Appliquées de Lyon

et l'Université Claude Bernard LYON I

Spécialité : Informatique

Apprentissage automatique en analyse de visages

pour l'indexation d'images et les interfaces avancées

par

Christophe Garcia

soutenance prévue le 5 Novembre 2009 devant la Commission d'examen

M. Yann LeCun Rapporteur Professeur, New York University

M. Michel Paindavoine Rapporteur Professeur, Université de Bourgogne, Dijon

M. Jean Ponce Rapporteur Professeur, Ecole Normale Supérieure, Paris

M. Atilla Baskurt Examinateur Professeur, Insa de Lyon

M. Jean-Marc Chassery Examinateur Directeur de Recherche CNRS, Grenoble

M. Jean-Michel Jolion Examinteur Professeur, Insa de Lyon

M. Bernard Péroche Examinateur Professeur, Université Lyon I

Page 2: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

2

Page 3: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

Table des matières

Liste des gures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7Liste des tableaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1 Introduction 11

1.1 Vision par ordinateur : du contrôle industriel à la reconnaissance de photos personnelles 111.2 La vision articielle dans les laboratoires de recherche d'un opérateur intégré . . . . . 141.3 Un survol en images de mes contributions scientiques et de mon encadrement doctoral 17

1.3.1 Mise en correspondance d'images stéréoscopiques . . . . . . . . . . . . . . . . . 171.3.2 Vision tridimensionnelle pour robot anthropomorphique . . . . . . . . . . . . . 181.3.3 Segmentation d'images xes et animées . . . . . . . . . . . . . . . . . . . . . . 191.3.4 Indexation des images et des vidéos . . . . . . . . . . . . . . . . . . . . . . . . . 201.3.5 Co-encadrement de travaux de thèses . . . . . . . . . . . . . . . . . . . . . . . . 20

1.4 Les visages : des objets visuels sémantiques et communicants . . . . . . . . . . . . . . 23

2 Détection de visages 29

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.2 État de l'art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.2.1 Méthodes basées descripteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302.2.2 Méthodes basées images . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.3 Détection de visages par décomposition en paquets d'ondelettes . . . . . . . . . . . . . 392.4 Le détecteur de visages CFF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.4.1 Réseaux de neurones à convolution . . . . . . . . . . . . . . . . . . . . . . . . . 422.4.2 Détection de visages par réseaux de neurones à convolution . . . . . . . . . . . 452.4.3 Détails sur le détecteur de visages CFF . . . . . . . . . . . . . . . . . . . . . . 45

2.5 Comparaison du CFF avec d'autres solutions du marché . . . . . . . . . . . . . . . . . 522.6 L'architecture CFF et la détection d'objets . . . . . . . . . . . . . . . . . . . . . . . . 53

2.6.1 Détection de logos transparents . . . . . . . . . . . . . . . . . . . . . . . . . . . 532.6.2 Détection de silhouettes dans des vidéos de sport . . . . . . . . . . . . . . . . . 532.6.3 Participation à la compétition Visual Object Classes Challenge . . . . . . . . . 53

2.7 Le détecteur de visages CFF embarqué . . . . . . . . . . . . . . . . . . . . . . . . . . . 572.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3 Alignement de visages 61

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 613.2 Détection des éléments faciaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

3.2.1 État de l'art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 623.2.1.1 Approches basées sur la recherche contrainte de caractéristiques . . . . 623.2.1.2 Approches basées sur des modèles déformables . . . . . . . . . . . . . 643.2.1.3 Comparaisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

3.2.2 Les Modèles Actifs d'Apparences Adaptés (M3A) . . . . . . . . . . . . . . . . . 663.2.2.1 AAMs robustes à l'illumination . . . . . . . . . . . . . . . . . . . . . . 663.2.2.2 AAMs robustes à la pose et à l'identité . . . . . . . . . . . . . . . . . 693.2.2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

3.2.3 Un détecteur robuste d'éléments faciaux (C3F) . . . . . . . . . . . . . . . . . . 723.2.3.1 Réseaux de neurones à convolution pour la détection d'éléments faciaux 73

3

Page 4: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4 TABLE DES MATIÈRES

3.2.3.2 Les détecteurs d'éléments faciaux spécialisés . . . . . . . . . . . . . . 753.2.3.3 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . . 763.2.3.4 Le détecteur d'éléments faciaux C3F sur systèmes embarqués . . . . . 793.2.3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

3.3 Recadrage de boîtes englobantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 803.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 803.3.2 Une méthode de recadrage automatique de boîtes englobantes (CFA) . . . . . . 803.3.3 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 823.3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

4 Reconnaissance de visages 87

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 874.2 État de l'art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

4.2.1 Les approches globales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 904.2.2 Les approches locales ou hybrides . . . . . . . . . . . . . . . . . . . . . . . . . . 98

4.3 Reconnaissance de visages par Analyse Discriminante Bilinéaire (ADB) . . . . . . . . . 1034.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1034.3.2 L'Analyse Discriminante Linéaire 2D orientée (ADL2Do) . . . . . . . . . . . . . 1034.3.3 L'Analyse Discriminante Bilinéaire . . . . . . . . . . . . . . . . . . . . . . . . . 1084.3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

4.4 Reconnaissance de visages par projection non-linéaire . . . . . . . . . . . . . . . . . . . 1114.4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1114.4.2 Projection/reconstruction par réseaux de neurones à convolution . . . . . . . . 1114.4.3 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1134.4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

4.5 Reconnaissance de visages par sacs de caractéristiques . . . . . . . . . . . . . . . . 1174.5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1174.5.2 Détection et caractérisation des points d'intérêt . . . . . . . . . . . . . . . . . . 1204.5.3 Construction des sacs de caractéristiques . . . . . . . . . . . . . . . . . . . . 1214.5.4 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1234.5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

4.6 Reconnaissance de visages par des techniques de statistiques robustes . . . . . . . . . . 1264.6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1264.6.2 Les impacts de la présence d'aberrations . . . . . . . . . . . . . . . . . . . . . . 1264.6.3 Une méthode de ltrage reposant sur l'ACP robuste . . . . . . . . . . . . . . . 1284.6.4 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1304.6.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

4.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

5 Conclusion et Perspectives 135

5.1 Résumé des études présentées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1355.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

Bibliographie 143

Page 5: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

Liste des figures

1.1 Le paradigme de David Marr. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.2 Schéma type d'un système d'indexation d'images. . . . . . . . . . . . . . . . . . . . . . 131.3 Le système de recherche d'images Blobworld [CBGM02]. . . . . . . . . . . . . . . . . . 141.4 L'écosystème scientique de la vision par ordinateur. . . . . . . . . . . . . . . . . . . . 151.5 Quelques applications de la vision articielle à France Télécom. . . . . . . . . . . . . . 161.6 Mes activités de recherche depuis 1991. . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.7 Modèle connexionniste pour la stéréovision. . . . . . . . . . . . . . . . . . . . . . . . . 181.8 Asservissement visuel d'un robot et réalité augmentée. . . . . . . . . . . . . . . . . . . 191.9 Segmentation d'images par Bayesian Level-Set. . . . . . . . . . . . . . . . . . . . . . . 201.10 VOCR : détection et reconnaissance de textes incrustés. . . . . . . . . . . . . . . . . . 211.11 Classication automatique d'images naturelles. . . . . . . . . . . . . . . . . . . . . . . 221.12 Visages et vision humaine. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231.13 Une chaîne complètement automatique de perception des visages. . . . . . . . . . . . . 241.14 Les challenges de la perception faciale automatique. . . . . . . . . . . . . . . . . . . . . 251.15 Détection de visages, d'éléments faciaux et identication. . . . . . . . . . . . . . . . . . 26

2.1 Panorama des grandes familles d'approches en détection de visages. . . . . . . . . . . . 302.2 Détection de visages reposant sur le regroupement de caractéristiques locales [YC97]. . 312.3 L'espace des visages dans la méthode de Sung et Poggio [SP98]. . . . . . . . . . . . . . 322.4 Les distances utilisées dans le détecteur de Sung et Poggio [SP98]. . . . . . . . . . . . 332.5 Les diérentes étapes d'un système de détection basé images. . . . . . . . . . . . . . . 342.6 Une classication SVM dans l'espace des visages [OFG97]. . . . . . . . . . . . . . . . . 352.7 Illustration de la classication Bayésienne de Schneiderman et Kanade [SK00]. . . . . . 352.8 Architecture de la structure neuronale MLP de Rowley et al. [RBK96]. . . . . . . . . . 362.9 Architecture de la structure neuronale SNoW de Roth et al. [RYA00]. . . . . . . . . . . 372.10 La détecteur de visages de Viola et Jones [VJ01]. . . . . . . . . . . . . . . . . . . . . . 382.11 Les ltres utilisés dans la décomposition en paquets d'ondelettes. . . . . . . . . . . . . 392.12 Décomposition d'une image de visage en paquets d'ondelettes. . . . . . . . . . . . . . . 392.13 Des exemples de résultats du détecteur de visages de Garcia et Tziritas [GT99]. . . . . 402.14 Modèle géométrique de visage basé ondelettes et résultats de détection [GST01]. . . . . 412.15 L'architecture du Neocognitron de Fukushima [FM82]. . . . . . . . . . . . . . . . . . . 432.16 Détection de visages par Vaillant et al. [VML94]. . . . . . . . . . . . . . . . . . . . . . 442.17 Détection de visages par Osadchy et al. [OLM07]. . . . . . . . . . . . . . . . . . . . . . 442.18 Architecture du détecteur de visages CFF. . . . . . . . . . . . . . . . . . . . . . . . . . 462.19 Quelques exemples d'images de visages et de non-visages utilisées par CFF. . . . . . . 472.20 Évolution de la distribution des réponses pour les classes non-visages et visages. . . . . 482.21 Les images produites par la cascade d'opérations de convolution et sous-échantillonnage. 492.22 Quelques exemples de résultats du CFF sur les bases CMU et Cinema. . . . . . . . . . 512.23 Application de l'approche CFF à la détection de logos transparents [DG06]. . . . . . . 542.24 Application de l'approche CFF à la détection de joueurs de football [LDG07]. . . . . . 552.25 Résultats de la compétition VOCC en détection de motos [EZW+06]. . . . . . . . . . . 562.26 Le détecteur CFF implémenté sur DSP et sur mobile. . . . . . . . . . . . . . . . . . . . 57

3.1 Détection des éléments faciaux dans les EigenfeatureSpaces [MP97]. . . . . . . . . . . . 62

5

Page 6: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

6 LISTE DES FIGURES

3.2 Mise en correspondance itérative du modèle de forme sur une image de visage par l'al-gorithme ASM [CT93]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

3.3 Modèles d'Apparences Actifs (AAM) [CET01]. . . . . . . . . . . . . . . . . . . . . . . 653.4 Méthode ASM avec modélisations locales de l'image [CC04]. . . . . . . . . . . . . . . . 653.5 Création d'une carte de distances [LBGS06]. . . . . . . . . . . . . . . . . . . . . . . . . 673.6 Exemples de visages des bases XM2VTS et PIE pour l'évaluation de la robustesse à

l'illumination des AAMs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 673.7 Comparaison des résultats obtenus avec un AAM classique et avec un AMM à cartes de

distances. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 683.8 Taux de convergence d'un AAM classique et d'un AAM à cartes de distances, en fonction

des directions d'illumination. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 683.9 Exemples de convergence de l'AMM à cartes d'orientations sur la base BioID [Res01]. . 693.10 Taux de convergence en fonction de la direction de l'illumination. . . . . . . . . . . . . 703.11 Espace réduit morcelé. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 703.12 Base de données d'initialisation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 713.13 Recherche des plus proches visages. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 713.14 Applications de décoration vidéo et d'animation d'un agent virtuel conversationnel. . . 723.15 Les diérentes étapes du détecteur robuste d'éléments faciaux C3F. . . . . . . . . . . . 733.16 Architecture du détecteur d'éléments faciaux FFD. . . . . . . . . . . . . . . . . . . . . 743.17 Quelques exemples d'images de visage annotées et de cartes de caractéristiques désirées. 753.18 Exemples d'images annotées pour les détecteurs EFD et MFD. . . . . . . . . . . . . . 753.19 Quelques résultats du détecteur FFD sur la base Google. . . . . . . . . . . . . . . . . . 763.20 Taux de détection de FFD en fonction de l'erreur moyenne me permise pour les quatre

éléments faciaux. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 773.21 Robustesse du détecteur FFD à un bruit Gaussien. . . . . . . . . . . . . . . . . . . . . 773.22 Quelques résultats de détection des éléments faciaux par C3F sur des bases variées. . . 783.23 Quelques résultats de détection des éléments faciaux par C3F sur la base Google. . . . 793.24 Détection de visages invariante à la rotation par Rowley et al. [RBK98b]. . . . . . . . 813.25 L'architecture neuronale mise en ÷uvre dans notre système de recadrage CFA. . . . . 823.26 Des exemples servant à l'apprentissage du recadreur CFA. . . . . . . . . . . . . . . . . 823.27 La procédure itérative de recadrage d'une boîte englobante. . . . . . . . . . . . . . . . 833.28 Quelques résultats de recadrage de visages par CFA sur la base Internet. . . . . . . . . 843.29 Taux de recadrages corrects en fonction de l'erreur de recadrage permise. . . . . . . . . 853.30 Comparaison des performances de nos méthodes de détection d'éléments faciaux (C3F)

et de recadrage (CFA). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

4.1 Les eets de l'éclairage sur l'apparence d'un visage. . . . . . . . . . . . . . . . . . . . . 884.2 L'image moyenne et les 15 premières Eigenfaces sur la base d'images FACES. . . . . . 914.3 ACP Probabiliste : l'espace des visages F et son complémentaire F⊥ [MP97]. . . . . . 924.4 Projection de données par ACP et ADL. . . . . . . . . . . . . . . . . . . . . . . . . . . 934.5 Exemples de Fisherfaces. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 934.6 Les vecteurs principaux obtenus par ACI [DBBB03]. . . . . . . . . . . . . . . . . . . . 944.7 Les tenseurs de Vasilescu et Terzopoulos [VT02]. . . . . . . . . . . . . . . . . . . . . . 954.8 L'architecture neuronale de Lawrence et al. [LGTB97]. . . . . . . . . . . . . . . . . . . 964.9 L'architecture siamoise de Chopra et al. [CHL05]. . . . . . . . . . . . . . . . . . . . 974.10 Modèles de reconnaissance géométriques [BP93]. . . . . . . . . . . . . . . . . . . . . . 984.11 Carte des lignes de contour d'un visage [GL02]. . . . . . . . . . . . . . . . . . . . . . . 984.12 Reconnaissance de visages par Modèles de Markov Cachés (MMC) [Sam94, Nef99]. . . 994.13 Les transformations locales dans la méthode de Perronnin [Per04]. . . . . . . . . . . . 1004.14 La mise en correspondance dans la méthode EGM [LVB+93]. . . . . . . . . . . . . . . 1004.15 Illustration de la méthode EBGM [WFKvdM97]. . . . . . . . . . . . . . . . . . . . . . 1014.16 Caractéristiques locales extraites par SIFT et construction d'un graphe [LMT+07]. . . 102

Page 7: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

LISTE DES FIGURES 7

4.17 Classication de la distribution des codes LBP sur les visages [RM06]. . . . . . . . . . 1024.18 Exemple d'images reconstruites par ACP2DoL. . . . . . . . . . . . . . . . . . . . . . . 1044.19 Des images présentant les facteurs de variabilité évalués. . . . . . . . . . . . . . . . . . 1054.20 Un exemple d'IT dans le cas de la translation horizontale. . . . . . . . . . . . . . . . . 1054.21 Exemple d'images reconstruites par ADL2DoL. . . . . . . . . . . . . . . . . . . . . . . 1074.22 Les sept bases de tests pour l'évaluation de l'ADL2Do. . . . . . . . . . . . . . . . . . . 1084.23 Taux de reconnaissance comparés de l'ADL2DoC et de l'ADL2DoL. . . . . . . . . . . . 1084.24 Bases d'apprentissage et de test pour l'évaluation de l'ADB. . . . . . . . . . . . . . . . 1104.25 Le principe de la reconnaissance par reconstruction de l'image de référence. . . . . . . 1114.26 L'architecture neuronale réalisant une projection/reconstruction non-linéaire. . . . . . 1124.27 Exemples de reconstructions par la méthode CFR, sur les bases ORL et Yale. . . . . . 1134.28 Courbes ROC sur les bases ORL et Yale. . . . . . . . . . . . . . . . . . . . . . . . . . . 1144.29 Robustesse de la méthode CFR par rapport à un bruit Gaussien et une occultation

partielle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1154.30 Deux représentations imagées des sacs de caractéristiques . . . . . . . . . . . . . . . 1174.31 Classication d'une base d'images naturelles par la méthode de Lazebnik, Schmid et

Ponce [LSP05a]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1184.32 Schéma d'extraction de caractéristiques sur un visage. . . . . . . . . . . . . . . . . . . 1194.33 Orientations des gradients dans une sous-région et histogramme 3D formant la signature

RFD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1204.34 Auto-organisation des vecteurs RFD dans une carte SOM. . . . . . . . . . . . . . . . . 1214.35 Schéma de reconnaissance de visages par cartes SOM multiples. . . . . . . . . . . . . . 1224.36 Exemples d'images des bases FERET, ORL et Yale. . . . . . . . . . . . . . . . . . . . 1244.37 Taux de reconnaissance des diérents classieurs en fonction du nombre de cellules. . . 1254.38 Exemples d'images composant les bases PF01, FDB15 et PIE*. . . . . . . . . . . . . . 1274.39 Impact des aberrations sur les performances de la reconnaissance. . . . . . . . . . . . . 1284.40 Les 15 premières valeurs propres obtenues avec ou sans les images aberrantes. . . . . . 1294.41 Exemples d'images de visage extraites d'une vidéo et ltrées par la méthode RobPCA. 1304.42 Performances de l'ACP avec ou sans ltrage des images par RobPCA. . . . . . . . . . 131

5.1 Démonstrateurs d'applications de la reconnaissance de visages. . . . . . . . . . . . . . 1385.2 Détection de visage CFF invariante à la rotation. . . . . . . . . . . . . . . . . . . . . . 1395.3 Suivi de visages dans un ux vidéo issu d'une webcam. . . . . . . . . . . . . . . . . . . 140

Page 8: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

8 LISTE DES FIGURES

Page 9: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

Liste des tableaux

2.1 Comparaison des méthodes de détection de visages sur la base CMU. . . . . . . . . . . 502.2 Comparaison des méthodes de détection de visages sur les bases CMU et MIT. . . . . 502.3 Comparaison de la technique CFF avec d'autres solutions du marché. . . . . . . . . . . 522.4 Vitesse d'exécution du CFF sur diérentes plateformes. . . . . . . . . . . . . . . . . . . 58

3.1 Panorama des résultats des méthodes de détection d'éléments faciaux. . . . . . . . . . 663.2 Comparaison des taux de détection du centre des yeux sur la base BioID. . . . . . . . 78

4.1 Intervalles de Tolérance (IT). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1064.2 Comparaison de l'ADB, de l'ADL2Do et de l'ACP2D. . . . . . . . . . . . . . . . . . . 1094.3 Comparaison de la méthode CFR avec les techniques Eigenfaces, Fisherfaces et ADB. 1164.4 Taux de reconnaissance en fonction des descripteurs et des classieurs. . . . . . . . . . 1244.5 Comparaison des approches basées SOM avec les méthodes de projection. . . . . . . . 1254.6 Description du contenu des trois bases d'images . . . . . . . . . . . . . . . . . . . . . . 1274.7 Ratios entre chacune des trois premières valeurs propres et la somme de toutes les valeurs

propres. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1284.8 Les taux de sélection des images de visage par la méthode RobPCA. . . . . . . . . . . 130

9

Page 10: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

10 LISTE DES TABLEAUX

Page 11: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

Chapitre 1

Introduction

Le présent chapitre débute par une présentation du domaine de la vision par ordinateur dans le-quel je me suis investi depuis maintenant près de 18 ans et de ses enjeux applicatifs dans le contexteparticulier de l'indexation d'images et des interfaces homme-machine au sein d'un opérateur intégrécomme France Télécom.

Ensuite, il résume nos contributions dans le domaine et fait état des travaux de thèses que j'aico-encadrés. Enn, il présente le sujet scientique que nous avons choisi d'exposer dans le présent ma-nuscrit et qui porte sur l'étude et la conception de l'ensemble des maillons d'une chaîne complètementautomatique de perception des visages, de leur détection à leur identication.

Les chapitres suivants fournissent un exposé technique de nos contributions dans ce domaine par-ticulier : le deuxième concerne la détection des visages dans les images et les vidéos, le troisième estconsacré à l'alignement des visages et à la détection des éléments faciaux, et le quatrième traite de lareconnaissance de visages.

Le cinquième et dernier chapitre présente un résumé de nos contributions et décrit les perspectivesouvertes par notre travail.

1.1 Vision par ordinateur : du contrôle industriel à la reconnaissancede photos personnelles

La vision articielle ou vision par ordinateur a pour objectif de doter des systèmes automatiques dela capacité à traiter, analyser et reconnaître des informations visuelles, de formes diverses, comme parexemple des séquences vidéo, des images 2D provenant d'une ou plusieurs caméras, ou des données mul-tidimensionnelles provenant d'un scanneur médical. Les applications en sont multiples et ne cessent decroître. Citons, sans être exhaustif, la robotique mobile (robots industriels ou véhicules autonomes), ladétection d'évènements (surveillance vidéo, comptage de personnes, etc.), les systèmes d'information(indexation de bases d'images ou de vidéos), la modélisation d'objets ou d'environnements (inspec-tion industrielle, analyse d'images médicales, topographie, etc.) ou les interactions homme-machine(personnalisation, contrôle d'accès, etc.)

Le besoin de traiter et d'analyser les images est rapidement devenu une évidence, dès les années1950 en physique des particules, pour détecter des trajectoires particulièrement complexes.

Dans les années 1960, les chercheurs se sont intéressés à la lecture optique pour reconnaître lescaractères dactylographiés d'un texte. Pour l'écriture manuscrite, il faudra attendre une vingtained'années de plus pour que de telles techniques soient opérationnelles, par exemple pour lire les adressespostales ou les montants des chèques bancaires.

Avec l'essor fabuleux de la radiographie et de l'imagerie aérienne ou satellitaire, militaire ou météo-rologique, le besoin d'automatiser l'interprétation des images se renforce, mais, au vu de la complexitéde la modélisation et de la faible qualité des images, on se concentre, jusqu'à la n des années 1960,surtout sur l'amélioration des images, laissant les opérations de traitement haut niveau, comme lediagnostic médical, à un expert humain. Les capacités de calcul étant très réduites face au volume desimages, on s'intéresse également au problème de la compression des images et notamment de celles,

11

Page 12: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

12 1. Introduction

FIG. 1.1 Le paradigme de David Marr.

animées, de la télévision. Les codages actuels des images numériques (JPEG) ou des vidéos (MPEG)sont les descendants lointains des travaux de cette époque.

Parallèlement, les recherches visant à l'interprétation automatique des images se poursuivent. Lespremières approches consistent à faire des calculs à partir de l'image et à construire des représentationssymboliques de plus en plus complexes, d'abord en deux dimensions tel que sur l'image, puis tridimen-sionnelles, pour tenter de restituer une description proche de notre propre vision. Marvin Minsky,Seymour Papert et David Marr [MP69, Mar82] sont parmi les premiers à dénir les bases formelles dela vision par ordinateur en intégrant des résultats issus de la psychologie, de l'intelligence articielleet de la neurophysiologie (voir gure 1.1).

Les années 80, avec l'arrivée de calculateurs micro-informatiques, de capteurs performants et l'es-sor de la robotique industrielle, voient naître une véritable vision industrielle, permettant de doter leslignes de production de systèmes d'asservissement visuel et de contrôle qualité sans contact (pilotaged'outils, mesures, détection de défauts, transport robotisé, etc.). Les eorts portent alors sur le déve-loppement d'algorithmes de traitement du signal dit bas-niveau, permettant de détecter les contoursdes objets à partir des changements rapides de contraste dans l'image, des ombres et des lumières, desrégions homogènes en couleur, en intensité et en texture. La vision par ordinateur s'est ainsi d'aborddéveloppée à partir de la reconnaissance de formes simples et abstraites comme des cubes ou des poly-èdres dont on détecte les sommets et les côtés, conduisant naturellement à la vision tridimensionnelle(étalonnage de caméras et mise en correspondance stéréoscopique). Les techniques reposant sur desmesures d'invariants géométriques s'imposent alors au début des années 1990. Parallèlement, l'imageriemédicale prote de ces avancées algorithmiques en reconnaissance des formes, pour l'analyse, la mesureet la reconstruction tridimensionnelle.

Ces dix dernières années, avec la convergence des télécommunications, de la vidéo et de l'informa-tique, nous sommes entrés dans l'ère digitale. Notre société produit des quantités d'images numériqueset de vidéos qui ne cessent de croître, avec l'augmentation exponentielle du nombre d'appareils photonumériques (appareils dédiés ou téléphones mobiles), l'évolution de la pratique de l'Internet (peer-to-peer, weblogs, albums de photos personnelles hébergés, etc.) et les systèmes professionnels de vidéo à lademande. L'utilisation de bases de données traditionnelles nécessitant la saisie manuelle de descriptionsou de mot-clés s'avère impossible pour décrire et surtout maintenir la description d'un tel volume dedonnées. La vision par ordinateur vient alors s'intégrer directement dans les systèmes d'information,où il s'agit de pouvoir classer, comparer et rechercher des images prises dans des conditions de vuenon contraintes dont le contenu peut être très varié et dicile à modéliser de manière structurelle ougéométrique.

Les travaux portent alors sur la recherche des images similaires à une image en entrée ou à une repré-sentation graphique, comme dans les systèmes Virage [BFG+96], Netra [MM99]), Visualseek [SC96],WBIIS [WWFW97]), QBIC [FSN+95], Blobworld [CBGM02] (voir gure 1.3), Candid [KCH95] etPhotobook [PPS96]. L'extraction de signatures caractéristiques des images (servant d'index) est réa-lisée à partir d'une représentation bas-niveau, sans modèle a priori et susamment générique pour

Page 13: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

1.1. Vision par ordinateur : du contrôle industriel à la reconnaissance de photos personnelles 13

FIG. 1.2 Schéma type d'un système d'indexation d'images.

permettre de décrire de manière discriminante et robuste le contenu des bases d'images. Les premièresapproches proposent de construire une signature unique, résumant les distributions des couleurs, destextures ou des formes dans l'image, en général à partir d'histogrammes, de corrélogrammes ou degraphes d'adjacence entre régions homogènes, au sens de la couleur ou de la texture. La mesure desimilarité visuelle entre deux images (entre deux index) est alors dénie à partir de distances entre cesvecteurs caractéristiques ou par une mise en correspondance de graphes.

S'inspirant des processus d'attention visuelle, d'autres approches s'intéressent par la suite à lareprésentation parcimonieuse des images, en extrayant des caractéristiques répétables dans des zonesperceptuellement importante des images. Il s'agit alors de représenter l'image par un ensemble depoints d'intérêts, généralement des points saillants au sens du contraste local, des points de contours,des coins, des jonctions (détecteur de Harris) autour desquelles sont extraits des descripteurs (commeSIFT, SURF ou RIFT), que l'on cherche à rendre robustes aux variations de l'intensité lumineuse,aux changements de points de vue et aux transformations anes. Deux images sont alors considéréesd'autant plus ressemblantes qu'elles partagent un grand nombre de points d'intérêt similaires.

Cependant, si ces signatures permettent de mesurer une similarité avec une image requête, ellessont très proches du signal, et ne véhiculent pas de sémantique particulière sur l'image, ne permet-tant pas à l'utilisateur de systèmes d'indexation d'images de réaliser une requête langagière, ce moded'interrogation demeurant le plus intuitif (voir gure 1.2).

Pour tenter de combler en partie ce fossé sémantique, ces toutes dernières années ont vu le rappro-chement accéléré de domaines de recherche parfois historiquement éloignés, comme le traitement dusignal, l'apprentissage automatique, les statistiques et la neurobiologie (voir gure 1.4).

L'un des enjeux majeurs de la vision par ordinateur vise à présent à caractériser sémantiquementle contenu des images. On s'intéresse alors à la catégorisation automatique des images en classessémantiques variées (villes, mer, montagne, contenus adulte , etc.) et à la détection/reconnaissanceautomatique d'objets 3D complexes et déformables (visages, personnes, voitures, bâtiments, etc.), dansdes conditions de prises de vue non contraintes et dans des contextes variés.

À chaque image, peut donc être associée une annotation automatique comprenant des métadonnéesdescriptives d'une catégorie d'images, d'un type de programme vidéo ou des types d'objets contenus(tour Eiel, voiture, présence d'un visage, nom d'une personne, texte incrusté, vidéo de Basket-ball,etc.). En plus des métadonnées externes caractérisant les documents multimédia, ces données annotées

Page 14: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

14 1. Introduction

FIG. 1.3 Le système de recherche d'images Blobworld [CBGM02], reposant sur une segmentationen couleur, texture et forme et la mise en correspondance de régions (blobs) sélectionnées sur l'imagerequête.

automatiquement peuvent alors être recherchées à l'aide de requêtes langagières.Même si le paradigme de David Marr, datant de la n des années 70, reste valide dans de nom-

breuses applications, la plupart des techniques de l'état de l'art en recherche d'images par le contenucherchent plutôt à être génériques et à inférer des modèles d'apparence (incluant forme et texture) àpartir d'exemples, sans connaissance a priori ou règle heuristique, plus robustes en présence de bruit,de variations des conditions de prises de vue, d'occultations partielles ou de déformations. Certainescherchent à décrire les images ou les objets à partir d'un modèle probabiliste basé sur un vocabu-laire visuel composé de motifs de texture, répétables et discriminants, généralement extraits de zonesperceptuellement saillantes. Dans le cadre spécique de la détection/reconnaissance d'objets, d'autresapproches traitent les zones d'images à analyser comme un tout (une matrice de pixels) qu'elles pro-jettent dans des sous-espaces de dimensions réduites, dans lesquels la classication est plus aisée.D'autres enn réalisent la reconnaissance au travers de cascades de ltres ou de tests élémentaires,tous inférés automatiquement, incluant ainsi extraction et classication dans un même schéma d'ap-prentissage automatique.

Ces progrès permettent d'aborder de nombreuses applications qui nécessitent la détection d'indicesde haut niveau, plus proches de la notion d'objets visuels, pour caractériser fortement le contenu et enfaciliter grandement l'indexation automatique, tout en assurant une recherche intuitive et ecace. Nouspouvons citer la reconnaissance de textes de scène, la reconnaissance d'objets et plus particulièrementl'analyse de visage (détection, alignement et reconnaissance), sujet de recherche très actif ces dernièresannées, et qui est l'objet principal des études que nous présentons dans ce manuscrit.

1.2 La vision articielle dans les laboratoires de recherche d'un opé-rateur intégré

Avec la convergence des télécommunications, de la vidéo et de l'informatique, l'opérateur historiquede téléphonie France Télécom est devenu également fournisseur d'accès internet, producteur, déten-teur et distributeur de contenus audio-visuels et de TV à la demande, avec notamment les chaînes

Page 15: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

1.2. La vision articielle dans les laboratoires de recherche d'un opérateur intégré 15

FIG. 1.4 L'écosystème scientique de la vision par ordinateur.

thématiques Orange Sport et Orange Cinéma Séries.L'indexation des images par analyse automatique de leur contenu est devenue l'une des futures

technologies clefs pour le groupe dans le domaine des services audiovisuels, d'intermédiation des conte-nus et d'accès à l'information, pour l'archivage, la distribution, la recherche et la navigation sur lestrois écrans : le PC, le mobile et la TV (voir gure 1.5).

Par exemple, les services de visioconférence tendent à intégrer des interfaces homme-machine avan-cées reposant, par exemple, sur la détection/reconnaissance de visages pour piloter les prises de vueou pour coder l'image avec des niveaux de qualité diérents entre le fond et les visages, de manièreà optimiser la bande passante. Les téléphones mobiles deviennent aussi de véritables dispositifs d'in-terfaces munis de caméras à haute résolution eectuant des traitements d'amélioration de l'image lorsde l'acquisition avec des prises de vue focalisées sur les personnes. Ils permettent aussi d'alimenterdes systèmes de géolocalisation où un processus de reconnaissance de la scène est couplé à une me-sure de position GPS. Les nouveaux services de domotique, incluant la vidéosurveillance et les alertesconsécutives aux intrusions supposent des technologies de reconnaissance, par exemple des personnes,embarquables dans des caméras intelligentes, tandis que le contrôle parental ou des mesures de té-lémétrie peuvent être prises en charge, par exemple, par des modems ADSL de nouvelle générationembarquant des systèmes de vision par ordinateur.

En ce qui concerne les services internet, le développement des réseaux sociaux et du partage d'al-bums de photos personnelles font naître de nouveaux besoins en recherche et en navigation. On peuts'intéresser au tri automatique des images, non seulement en fonction des métadonnées externes sto-ckées lors de la prise de vue (date, heure, coordonnées GPS, etc.) mais aussi en fonction d'une catégo-risation automatique des images en classes préétablies ou construites dynamiquement par l'utilisateurou en fonction de la présence de visages et de leur identité. Plus généralement, une très forte attenteconcerne le développement de moteurs de recherche image ou vidéo dans des contenus généralistesou spécialisés, hébergés sur internet (images ou vidéos personnelles - User Generated Content, UGC -,journaux télévisés, etc.), ces contenus n'étant pas ou seulement partiellement annotés manuellement.L'accès à des contenus pirates doit alors être ltré : l'analyse des images permet de repérer les copiespar des techniques de ngerprint, se devant d'être robustes à des attaques de type changement derésolution, ajout de bruit, modication ou recadrage des images. On peut alors comparer des contenus

Page 16: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

16 1. Introduction

FIG. 1.5 Quelques applications de la vision articielle à France Télécom.

TV à des versions sur sites UGC comme Youtube ou Dailymotion. De même, l'accès à des contenus adulte peut être ltré : on cherche alors à modéliser la classe des images adulte par rapport aureste du monde.

Un intérêt croissant est porté également sur les nouveaux services de la télévision interactive oude la télévision à la demande (TVoD). Les moteurs de recherche permettant d'accéder directement àun programme particulier, vont changer drastiquement les modes de consommation par rapport auxhabitudes de visionnage linéaire de la retransmission. La possibilité de délinéariser automatiquementle ux vidéo et d'aider automatiquement à son annotation sont des services potentiels à très fortevaleur ajoutée, considérés aujourd'hui comme les critères de diérentiation les plus importants entreles distributeurs de contenus télévisuels. On cherchera par exemple à structurer l'ensemble du uxvidéo en identiant les programmes élémentaires (segmentation inter-programmes) ou plus nement,on cherchera à chapitrer c'est-à-dire à identier les scènes constituant un même programme (segmen-tation intra-programme). On peut citer le cas des journaux télévisés où la structuration va consisterà détecter les plans présentateurs, les interviews et les reportages. On peut aussi évoquer les possibili-tés de navigation non-linéaire par exemple uniquement sur les segments vidéo d'une personne donnéeintervenant tout au long d'un programme, dans des émissions de débat politique, par exemple.

Pour répondre à ces challenges, l'équipe Multimedia content anAlysis technologieS (MAS) que jedirige au sein des Orange Labs, composée de huit permanents et 10 doctorants et post-doctorants,s'intéresse aux deux composantes de la vidéo, que sont l'image et le son. Côte image, les thèmes derecherche principaux sont la détection, la reconnaissance et le suivi d'objets dont les visages et letexte incrusté, l'analyse de l'activité dans la vidéo, la catégorisation (ou thématisation) automatiqued'images et de vidéos ainsi que la structuration non supervisée de programmes télévisuels. Côté son,l'équipe s'intéresse à la détection de la parole, à la reconnaissance de locuteurs, à la classicationd'événements sonores ou de séquences musicales, à la transcription de la parole en texte (speech-to-text) et à la détection de mots-clés (wordspotting). Ces recherches alimentent des études en fusionmultimodale, notamment pour la reconnaissance de la personne et la catégorisation de séquencesvidéo. Des collaborations avec d'autres équipes, spécialistes en moteurs de recherche et en traitementautomatique des langues naturelles (TAL), nous permettent de considérer l'ensemble des aspects de

Page 17: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

1.3. Un survol en images de mes contributions scientiques et de mon encadrement doctoral 17

l'indexation de documents multimédia.

1.3 Un survol en images de mes contributions scientiques et de monencadrement doctoral

Mes activités de recherche se sont déroulées dans sept centres de recherche européens, académiqueset industriels. Elles sont centrées sur l'analyse automatique de l'image numérique, domaine de rechercheà la frontière entre plusieurs disciplines comme l'informatique fondamentale, la théorie de l'informa-tion, le traitement du signal, les mathématiques appliquées et l'architecture des calculateurs. Ellesont visé des contextes applicatifs très variés et liés à des problématiques diverses : reconnaissance deformes 2D/3D, reconstruction/synthèse de scènes, asservissement robotique, analyse du mouvement,structuration et segmentation de documents vidéo et caractérisation sémantique de leur contenu (voirgure 1.6).

FIG. 1.6 Mes activités de recherche depuis 1991.

1.3.1 Mise en correspondance d'images stéréoscopiques

Dans le cadre d'une collaboration entre le Laboratoire d'Informatique Graphique et d'IntelligenceArticielle de l'Université Lyon I (LIGIA) et le Vision Automation Group de l'usine IBM de Mont-pellier, mes travaux de thèse de doctorat [Gar94a], de 1991 à 1994, ont conduit à l'élaboration d'uneune nouvelle approche, reposant sur un modèle connexionniste, le modèle de Hopeld, pour l'appa-riement d'images acquises par un dispositif de stéréovision binoculaire [GBV93, Gar94b, GBV94a,GBV94b, GBV95, Gar96, Gar97]. Un tel modèle permet la mise en ÷uvre d'un algorithme indépen-dant des primitives choisies dans l'image (points d'intérêt, chaînes de points de contour, etc.) et descontraintes disponibles (géométrie du système binoculaire), donc utilisable dans des applications indus-trielles variées. Il permet de résoudre le problème combinatoire de mise en correspondance en gérantla compétition entre les hypothèses (appariements potentiels) sous les contraintes du problème (simi-larités locales et disposition globale des indices visuels) et ore l'avantage de distinguer clairementles diverses classes de données intervenant dans le problème. En outre, ce modèle neuronal présentel'intérêt de pouvoir s'intégrer naturellement dans une architecture massivement parallèle. Cela nous aamené à développer, avec mon étudiante en DEA, Marie-Christine Gleize, un prototype de système destéréovision (MATIS3D) reposant sur une architecture parallèle, à base de transputers Inmos T800,utilisée pour l'inspection visuelle et l'asservissement robotique, tant chez IBM que dans le cadre deprojets de contrôle qualité menés en 1995 au Computer Vision Center de l'Universitat Autònoma deBarcelona (voir gure 1.7).

Page 18: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

18 1. Introduction

FIG. 1.7 Modèle connexionniste pour la stéréovision et machine de vision 3D.

1.3.2 Vision tridimensionnelle pour robot anthropomorphique

En tant que boursier du Groupement Européen d'Intérêt Economique ERCIM (European ResearchConsortium in Informatics and Mathematics), j'ai rejoint en 1997 le groupe Adaptive Systems duGerman National Research Center for Information Technology (GMD à Bonn, à présent FraunhoferInstitute), pour piloter les activités de recherche autour de l'asservissement visuel de la plate-formerobotique JANUS, robot anthropomorphique comportant une tête stéréoscopique mobile et deux brasarticulés à huit degrés de liberté. Avec Fadi Dornaika, nos travaux ont portés plus précisément sur(voir gure 1.8.a) :

l'étalonnage robuste de caméras, à partir de primitives points et/ou lignes extraites sur desobjets 3D ou planaires, par la mise en ÷uvre de schémas de résolution non linéaires à base dequaternions permettant une prise en compte ecace des distorsions optiques [DG97b, Gar99],

l'estimation temps réel de la pose d'objets 3D ou planaires reposant sur l'approximation itérativede la perspective liée à la caméra par un modèle para-perspectif utilisant un ensemble de points2D extraits dans l'image de l'objet et de leur correspondants 3D dans un repère local attaché àl'objet dont on veut déterminer la pose [DG97a, DG99, Gar99],

la coordination par étalonnage visuel automatique des relations tête-÷il et main-÷il, pour l'asser-vissement du robot JANUS à des ns de manipulation d'objets 3D [Gar99] dans une architecturedistribuée (multi-agents) de planication dynamique d'actions.

Parallèlement à mes activités en robotique, nous nous sommes intéressés, avec des collègues du grouped'informatique graphique IMK du GMD à l'immersion de ux vidéo stéréoscopiques (provenant d'unsystème de stéréo-caméras) dans une système de vidéoconférence (3D TELEPORT), de manière àrendre la vue tridimensionnelle associée manipulable dans un environnement virtuel partagé [LGH98b,LGH98c, LGH98a] (voir gure 1.8.b).

Page 19: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

1.3. Un survol en images de mes contributions scientiques et de mon encadrement doctoral 19

FIG. 1.8 Étalonnage automatique et asservissement visuel du robot Janus (a) etMeetme@Cyberstage :immersion de ux stéréoscopiques dans un environnement virtuel partagé (b).

1.3.3 Segmentation d'images xes et animées

Chercheur au sein de l'Institute of Computer Science de FORTH (FOundation for Research andTechnology-Hellas), à Héraklion, puis professeur invité au Computer Science Department de l'Universitéde Crète, de 1998 à 2003, j'ai participé à la conception de nouvelles techniques d'analyse d'images etde vidéos pour l'indexation multimédia et les interfaces avancées.

Avec Georges Tziritas et notre étudiant en Master, Efthichis Sifakis, nous avons proposé une nouvelleméthodologie de segmentation d'images appelée Bayesian Level-Set [SGT02], en introduisant dans laméthode Level-Set une modélisation probabiliste des diérentes régions à segmenter. Un algorithmenouveau de Fast Marching, étendu pour la gestion multi-labels, nous permet de conditionner le champdes vitesses de propagation du front (contour des régions) aux caractéristiques statistiques retenues.Cette méthodologie a été appliquée avec succès à des problèmes de segmentation variés, basés sur legradient lumineux, la couleur, la texture et le ot optique (voir gure 1.9).

Nous avons également proposé une méthode d'estimation du mouvement de caméras pour la seg-mentation de vidéos et le suivi d'objets segmentés dans les séquences. Cette approche repose sur unestimateur robuste mise en ÷uvre de manière itérative et permettant l'estimation du mouvement à par-tir d'images de ot optique particulièrement bruitées [GT98, GT02]. Nos travaux en segmentation et ensuivi d'objets ont été appliqués notamment au suivi du corps humain dans des vidéos de sport pour desapplications de réalité mixte et de codage vidéo MPEG-4 [DTR+01, DDW+01, DGM+02, BCD+01].

Page 20: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

20 1. Introduction

FIG. 1.9 Segmentation d'images par Bayesian Level-Set, à partir du gradient, du ot optique et dela texture.

1.3.4 Indexation des images et des vidéos

Mes activités de recherche en indexation automatique ont débuté dans le cadre du projet Esprit EP24956 DiVAN (Distributed audIo-Visual Archives Network) [BGR+99, RGC00] à FORTH en 1997. Ellesse sont poursuivies à l'Université de Crète, à l'Irisa et depuis n 2003, à France Télécom R&D, devenuOrange Labs. Nous nous sommes dès lors intéressés au problème de la caractérisation sémantique ducontenu pour faciliter le stockage, la structuration et l'accès au contenu de bibliothèques audiovisuelles.

À FORTH, nos travaux ont porté sur la détection et la binarisation de textes incrustés dansles vidéos par des méthodes d'analyse du gradient et de quantication de la couleur [GA00]. AvecGeorges Tziritas et nos étudiants en Master Georges Simandiris et Georges Zikos, nous avons égalementproposé des approches de détection et de reconnaissance de visages basées sur la caractérisation de latexture des visages par des mesures statistiques calculées sur les sous-bandes d'une décomposition enondelettes [GZT99, GT99, GST01, GZT98, GT00] (voir chapitre 2).

À l'université de Crète, avec mon étudiant en Master Manolis Delakis, nous avons entrepris l'éla-boration d'une méthode de détection de visages robuste (baptisée CFF ), reposant sur un appren-tissage automatique par réseaux de neurones à convolution, travaux que nous avons poursuivis àl'Irisa [GD02b, GD02a, GD04, GD03] (voir chapitre 2).

1.3.5 Co-encadrement de travaux de thèses

Mes co-encadrements de thèses ont débuté en 2003 à France Télécom R&D avec la thèse de MurielVisani [Vis05], co-encadrée avec Jean-Michel Jolion de l'Insa de Lyon et soutenue en décembre 2005.Nous avons proposé une approche de reconnaissance de visages basée sur une Analyse DiscriminanteLinéaire et une modélisation bidimensionnelle orientée (2Do) des données, baptisée Analyse Discri-minante Linéaire Bidimensionnelle Orientée (ADL2Do), qui peut se décliner en deux versions, selonque l'on considère les lignes ou les colonnes des images. Nous avons montré la complémentarité deces deux techniques de reconnaissance, ce qui a ouvert naturellement la voie à leur fusion, obtenue autravers d'une méthode baptisée Analyse Discriminante Bilinéaire (ADB). Ces travaux, décrits dans lechapitre 4, ont été publiés dans [VGL04a, VGJ04, VGJ05d, VGJ05b, VGJ05a, VGJ05c] et ont conduitau dépôt d'un brevet d'invention [VGL04b].

Dans le cadre de la thèse de Stefan Duner [Duf08], de 2004 à 2008, co-encadrée avec HansBurkhardt de l'Université de Freiburg, en Allemagne, nous nous sommes intéressés à la détection

Page 21: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

1.3. Un survol en images de mes contributions scientiques et de mon encadrement doctoral 21

FIG. 1.10 VOCR : détection et reconnaissance de textes incrustés.

robuste d'éléments faciaux ainsi qu'à l'alignement et à la reconnaissance de visages, par des ap-proches neuronales basées sur des architectures spéciques de réseaux de neurones à convolution (voirchapitres 2, 3 et 4). Ces travaux ont été publiés dans [DG05a, DG05b, EZW+06, DG06, DG07b,DG07c, LDG07, GD07a, RMGD07, DG08, DG09] et ont conduit au dépôt de trois brevets d'inven-tions [GD06, GD07b, GD07c].

La thèse de Sylvain Le Gallou [LeG07], de 2004 à 2007, co-encadrée avec Gaspard Breton deFrance Télécom R&D et Renaud Séguier de Supélec-Rennes, a porté sur la détection ne et le suivides éléments faciaux en temps réel sur des séquences vidéo d'une personne face à la caméra, pour desapplications de réalité virtuelle et de réalité augmentée. Nous avons proposé un schéma reposant surdes Modèles Actifs d'Apparence robustes à l'illumination, à la pose et à l'identité : les Modèles Actifsd'Apparences Adaptés (voir chapitre 3). Ces travaux ont été publiés dans [LBGS06, LBSG07, SBLG09]et ont donné lieu à deux brevets d'invention [LGBS06, LGBS07].

La thèse de Zohra Saïdane [Saï08], de 2005 à 2008, co-encadrée avec Jean-Luc Dugelay de l'Ins-titut Eurecom à Sophia-Antipolis, a porté sur la binarisation, la segmentation et la reconnaissancede textes incrustés (de polices et de styles variés, multicolores, de faible résolution, aectés par lebruit de codage, etc.) sur des fonds très variables dans les images et les vidéos (articles publiés dans[SG07b, SG07a, SG08, SGD09] et brevets d'invention [GS07a, GS07b]). Nous avons développé dessolutions robustes prenant en compte directement l'information contenue dans les pixels (en gris ouen couleur), sans passer par les prétraitements classiques du domaine, notamment l'analyse du gra-dient et le seuillage adaptatif local (voir gure 1.10). Notre approche de binarisation (CTB) repose surune architecture particulière de réseaux de neurones à convolution permettant notamment d'apprendreà binariser les zones de texte via une fonction non-linéaire qui transforme la zone de texte en uneimage binarisée en prenant en compte conjointement la forme et la texture des caractères, à partirde bases d'apprentissage constituées de paires d'imagettes de textes synthétiques et de leurs versionsbinarisées. Cette méthode de binarisation nous a permis d'utiliser des OCR classiques dans le domainede la reconnaissance de documents papier, avec un gain de plus de 30% en taux de reconnaissancepar rapport aux autres techniques de l'état de l'art [HDDK05]. Suivant le même principe, nous avons

Page 22: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

22 1. Introduction

FIG. 1.11 Classication automatique d'images naturelles.

également proposé une méthode transformant directement l'image de texte en un vecteur contenant laposition des frontières inter-caractères. Enn, nous avons proposé un OCR Vidéo (VOCR) permettantde reconnaître les caractères directement à partir de l'image, sans binarisation. Avec Manolis Delakis,alors post-doctorant sous ma direction de 2007 à 2008, nous avons par ailleurs proposé une méthode dedétection et de localisation de textes incrustés, très robuste et performante, permettant de rendre com-plètement automatique le schéma développé dans la thèse de Zohra Saïdane [DG07a]. Cette méthodede détection est inspirée directement de notre solution de détection de visages CFF.

Dans le cadre de la thèse de Grégoire Lefebvre [Lef07], de 2004 à 2007, co-encadrée avec Jean-MarcSalotti de l'Institut de Cognitique de l'Université de Bordeaux, nos contributions ont porté sur laconception de plusieurs schémas pour la classication d'images naturelles et la reconnaissance d'ob-jets. Ces derniers reposent sur la sélection de points saillants robustes et répétables, l'extraction designatures discriminantes, intégrant couleur, texture, forme et leur fusion/classication par des modèlesneuronaux hiérarchiques et adaptatifs (articles publiés dans [LGS06, LLRG06, LG06, LGSR07, LG07a,LG08a, LG08b] et brevets d'invention [LRC06, LG07b, LG08d, LG08c]). Plus précisément, nous avonsproposé une architecture reposant sur des cartes auto-organisatrices ASSOM (Adaptive-Subspace Self-Organizing Map) et leurs extensions hiérarchiques, qui permettent de décrire le contenu visuel sousla forme de sacs de caractéristiques (voir gure 1.11). Pour atteindre cet objectif, des signatureslocales sont extraites des images ou des objets à reconnaître, puis fusionnées et synthétisées par unprocessus d'apprentissage compétitif an de former un alphabet visuel général ou spécique à chaquecatégorie d'images à reconnaître. En phase de reconnaissance, les images peuvent être représentées parles histogrammes d'activation des cellules des cartes auto-associatives, formant des vecteurs caractéris-tiques, qui sont catégorisés par une méthode de classication supervisée à base de Machines à Vecteursde Support (Support Vector Machines, SVM ). Les résultats obtenus sur des bases d'images variées,notamment sur la base d'images SIMPLIcity [WLW01] avec 82,4% de bonne classication pour dixcatégories d'images naturelles (plages, paysages, building, etc.) placent notre approche parmi les toutesmeilleures de l'état de l'art, les résultats publiés sur cette base variant de 37,5% à 84,1%.

Page 23: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

1.4. Les visages : des objets visuels sémantiques et communicants 23

FIG. 1.12 Visages et vision humaine : de gauche à droite, Face on Mars , le jeux des onze visagescachés et l' eet Thatcher .

Quatre autres thèses de doctorat, sous ma co-direction, sont en cours dans notre laboratoire : Sébastien Onis : Appariement robuste de formes visuelles complexes : applications à la détectiond'objets , en co-encadrement avec Jean-Luc Dugelay,

Ali Boudjedra : Reconnaissance de visages par approches neuro-stochastiques , en co-encadrementavec Jean-Luc Dugelay,

Meriem Bendris : Reconnaissance audiovisuelle de la personne : fusion voix-visage , en co-encadrement avec Delphine Charlet de France Télécom R&D et Gérard Chollet de l'École Na-tionale Supérieure des Télécommunications,

Jean-Philippe Dereymond : Interprétation de mimiques faciales dans un cadre stéréo , enco-encadrement avec Alain Trémeau de l'Université de Saint Etienne.

1.4 Les visages : des objets visuels sémantiques et communicants

Le visage tient un rôle central dans la communication entre personnes, support du regard, de lareprésentation des émotions et également centre d'émission de la parole. C'est par conséquent un indicevisuel de haut niveau très important dans les services d'indexation de vidéo et les interfaces homme-machine naturelles . La perception des visages est une faculté très développée et en partie innée chezl'être humain, qui consiste à pouvoir identier très rapidement un visage dans des environnements trèsvariables et être capable d'en reconnaître l'identité particulière parmi plusieurs centaines d'autres. Enélectroencéphalographie (EEG), la présentation de l'image d'un visage engendre un potentiel évoquéen seulement 170 ms [Dem77], bien plus rapidement que pour des objets usuels.

De nombreuses études neurophysiologiques nous enseignent que cette aptitude repose sur des méca-nismes neurocognitifs complexes très spécialisés. Au sein des voies visuelles du système nerveux central,un certain nombre de régions sont particulièrement impliquées dans la perception des visages, notam-ment l'aire fusiforme des visages (FFA) dont la lésion peut entraîner une prosopagnosie, une incapacitéspécique à reconnaître les visages (avec des capacités visuelles normales par ailleurs). La spécialisationde ce processus de perception, qui semble prendre part dans les couches de vision bas-niveau [BK98],est mise en évidence par des illusions d'optique dans lesquelles l'humain se focalise très rapidementsur des zones d'images qui sans en représenter, ressemblent à des visages, comme dans le cas de lafameuse image Face on Mars ou du jeu des onze visages cachés (voir gure 1.12). Cette spécia-lisation est d'autant plus révélée par le fameux eet Thatcher [Tho80]. Deux photos identiquessont verticalement inversées, la seconde étant à nouveau modiée en inversant localement les portionsd'images autour des yeux et de la bouche. Ces diérences locales ne deviennent réellement perceptiblesque lorsque les photos reprennent leur orientation normale.

Imiter au travers d'algorithmes un processus de perception si ecace (malgré ses quelques petitesfailles) est bien évidemment dicile (et parfois frustrant), mais les nombreux progrès réalisés ces der-nières années sont encourageants et ouvrent de nombreuses perspectives applicatives. La recherche sur

Page 24: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

24 1. Introduction

FIG. 1.13 Une chaîne complètement automatique de perception des visages.

le sujet spécique de la perception automatique des visages est très active comme l'atteste un nombrede publications sans cesse croissant, ce que nous avons pu constater au vu du grand nombre d'articlessoumis pour l'édition spéciale Facial Image Processing de la revue internationale Image and VisionProcessing, que j'ai eu l'honneur et le plaisir de coéditer avec Tim Cootes de l'Université de Manchesteret Jörn Ostermann de l'Université de Hanovre [GCO07].

Les problèmes à résoudre sont nombreux et la plupart classiques de la vision par ordinateur : onrecherche des algorithmes robustes aux changements d'éclairage, aux changements de points de vue,aux changements d'orientation de la tête, aux variations intra et/ou interpersonnelles (selon l'âge, lesexe, l'ethnie, l'expression faciale) et aux occultations partielles (lunettes, cheveux, barbes, etc.), letout dans des scènes pouvant être complexes (voir gure 1.14).

Dans ce manuscrit, nous avons choisi de présenter nos travaux portant sur l'étude et la conceptionde l'ensemble des maillons d'une chaîne complètement automatique de perception des visages, de leurdétection à leur identication (voir gure 1.13).

La détection des visages est la première étape de toute chaîne de traitement orientée visages.Elle consiste à décider si un visage est présent ou non à chacune des positions dans l'image, et ceci pourdiérentes échelles. Pour les images acquises sans contrainte particulière, ce qui est quasiment toujoursle cas à l'exception des photos d'identité pour les passeports biométriques, cette étape est fondamentaleet conditionne les performances des étapes ultérieures, et donc de l'ensemble de la chaîne de traitement.Il s'agit généralement de classer en visage ou non-visage le contenu d'une fenêtre glissante parcourantl'image sur plusieurs niveaux de résolution. Le classieur doit donc être capable de discriminer uneimagette contenant un visage par rapport à de très nombreuses imagettes contenant le fond de l'image(plusieurs centaines de milliers pour une image standard). Le système de détection doit donc êtrecapable d'estimer très précisément les frontières complexes entre l'ensemble des imagettes contenantun visage (dans toute sa variabilité) et le reste du monde . Obtenir de haut taux de détection tout

Page 25: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

1.4. Les visages : des objets visuels sémantiques et communicants 25

FIG. 1.14 Les challenges de la perception faciale automatique.

en maintenant des taux de faux positifs extrêmement bas (vu le nombre d'imagettes à évaluer) est leprincipal challenge de la détection de visages.Les applications de la détection automatique de visages sont multiples :

la création photographique ou vidéo : la détection de visages permet d'améliorer la qualité del'image dans les zones contenant des visages en optimisant les paramètres de prise de vue pourla mise au point automatique (autofocus), la correction de l'exposition (autoexposure) ou de labalance des couleurs,

les moteurs de recherche d'images et de vidéos : la détection de visages peut être avantageusementutilisée pour l'annotation automatique des contenus, notamment selon la présence ou non devisage, leur nombre, le type de plan (rapproché, large, américain), l'extraction automatique desimages de visage pour la création de résumé, l'enrichissement du carnet d'adresses local ou enligne, etc.

le comptage de personnes, soit dans un cadre global de vidéo surveillance d'un lieu donné, etnotamment d'un espace public, pour estimer la participation à une manifestation ou encore lafréquentation du site, soit dans le cadre plus spécique de la mesure d'audience d'écrans vidéo,pour la signalisation digitale (Digital Signage) via des écrans publicitaires basés sur unetechnologie de type TVIP ou simplement pour des applications d'estimation de l'audience TV(de type Médiamétrie), etc.

la détection de personnes, soit dans un cadre de vidéo surveillance pour déclencher une alerte, pi-loter automatiquement la focalisation d'une camera PZT (Pan, Zoom et Tilt), estimer la distanceentre la personne et la caméra, soit dans un cadre proche du contrôle d'accès physique à un lieu,ou encore pour déclencher une action spécique dans un contexte d'interaction homme-machine,etc.

Ensuite, selon les applications il peut être nécessaire de précisément détecter les éléments géo-

métriques faciaux, notamment les yeux, le nez et la bouche, ou même d'appliquer un modèle géo-métrique riche tel qu'un maillage actif. Une telle modélisation précise de la géométrie faciale, permetde nombreuses applications dont l'alignement des visages qui est une étape clé indispensable pourl'obtention de performances élevées en identication de visages, les algorithmes de reconnaissance ac-tuellement connus étant extrêmement sensibles à cet alignement. Détecter précisément les éléments

Page 26: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

26 1. Introduction

FIG. 1.15 Détection de visages, d'éléments faciaux et identication.

faciaux sur des images de visage de faible résolution, sous un éclairage non-frontal, présentant unfaible contraste ou pouvant être aectées par des occultations partielles est un problème très dicile.Une modélisation hybride des visages incluant forme et texture, informations locales et globales estgénéralement nécessaire pour assurer une robustesse à ces facteurs de variabilité.Parmi les applications de la détection des éléments faciaux, on peut noter :

la création photographique : la localisation précise des yeux permet de rendre robuste et précisela correction automatique des yeux rouges ,

l'édition de l'image : outre la correction automatique des yeux rouges , elle permet des eetsspéciaux tels que le morphing ou l'ajout de déguisements virtuels,

l'estimation de la direction du regard, utilisée pour déclencher une action spécique dans uncontexte d'interaction homme-machine, et qui est bien sûr fortement dépendante d'une localisa-tion précise des yeux,

la création et l'animation d'avatars de synthèse, à partir de la détection d'un maillage actif depoints sur le visage.

Enn, la reconnaissance de visages, qui consiste à aecter une identité parmi celles d'un en-semble de visages connus constitue l'étape ultime. Alors qu'un être humain n'a besoin que de quelquesmillisecondes pour reconnaître un visage d'une personne connue même dans des conditions diciles, ils'agit d'un problème encore très dicile pour un système de vision articielle. Les performances desméthodes actuelles sont très dépendantes des conditions de mise en ÷uvre, et notamment des dié-rences entre les conditions d'acquisition des visages de référence et celles dans lesquelles doit s'eectuerl'identication. La reconnaissance de visages est un problème très spécique dans le domaine de lareconnaissance d'objets. En eet, ici, on ne cherche pas à diérencier un visage par rapport à d'autresobjets ayant une structure diérente mais par rapport à un autre visage, ayant globalement la mêmestructure. Les méthodes doivent donc être capables de discriminer les visages à partir d'un ensemble delégères variations dans cette structure en termes de forme et de texture. Dans des conditions d'éclairageet de prise de vue normalisées (de face), les visages peuvent être reconnus de manière robuste dans de

Page 27: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

1.4. Les visages : des objets visuels sémantiques et communicants 27

grandes bases. Il n'en va pas de même dans des conditions non contraintes, où les variances intra-classes(entre les images d'un même individu) deviennent même souvent supérieures aux variances inter-classes(entre les images d'individus diérents). Il s'agit alors de développer des méthodes de classication trèsspéciques capables d'extraire des informations discriminantes dans ce contexte dicile.La reconnaissance de visages peut être mise en ÷uvre selon trois modes distincts :

l'authentication consiste à vérier une identité clamée par une personne face au reste dumonde , donc à décider si l'identité proposée correspond eectivement à la personne ou non.

l'identication consiste à trouver l'identité de la personne par comparaison avec une base dedonnées de référence. Ce mode inclut également la capacité à décider que la personne ne fait paspartie des personnes connues dans cette base.

le clustering (regroupement) consiste à regrouper les visages appartenant à une même personnedans une collection d'images, mais sans forcément chercher à fournir l'identité de cette personne.

Les deux premiers modes impliquent un enregistrement préalable du visage des personnes à reconnaîtreselon un protocole spécique à la technique employée. Le troisième mode n'utilise aucune référence.Parmi les principales applications de cette technologie, nous pouvons citer :

la sécurité avec le contrôle d'accès physique : la vidéo surveillance, la police scientique et labiométrie,

l'indexation et les moteurs de recherche de contenus multimédia : l'annotation automatique desvidéos avec les noms des personnes visibles, ou bien le regroupement des apparitions d'une mêmepersonnes pour du résumé automatique et de la navigation,

l'interaction homme-machine : cette technologie permet de personnaliser l'interaction en fonctionde la personne qui se présente devant la machine.

Hormis la reconnaissance de l'identité, d'autres applications de la classication des images de visagepeuvent concerner la recherche du genre (homme/femme), de l'âge, de l'ethnie ou la reconnaissancedes expressions et des émotions.

Plusieurs principes ont été retenus comme bases de notre travail. Tout d'abord, même si l'objet àanalyser (le visage) est particulier, nous nous attacherons à la généricité des méthodes développéesan qu'elles puissent être utilisées en l'état ou aisément étendues pour permettre l'analyse d'autresobjets. Par conséquent, nous ne ferons pas ou peu usage de règles heuristiques ad-hoc pour analyserles visages, qu'elles concernent les phases de décision haut-niveau ou les prétraitements bas-niveauspéciques.

Les méthodes seront conçues en prenant en compte en amont toutes les variabilités aectant lesvisages, sans préjuger d'un contexte applicatif permettant de contraindre le problème, ceci an d'assurerune grande robustesse en conditions terrain et de permettre de traiter des images de visage variéesprovenant de collections d'images personnelles, de documents scannés, de séquences vidéo issues de latélévision ou acquises par des téléphones mobiles.

Pour permettre notamment d'adresser des applications d'indexation de vidéos et de gestion de trèsgrandes bases de documents, les méthodes développées doivent être très rapides (au moins tempsréel sur des vidéos) et peu gourmandes en mémoire pour être aisément embarquées (et éventuellementparallélisées) sur des systèmes à ressources contraintes comme les téléphones portables et les futursobjets communicants.

Ces contraintes nous conduisent à nous intéresser à des techniques d'apprentissage automatique

en charge d'inférer automatiquement des classieurs rapides et robustes à partir de bases de nombreuxexemples, exhibant l'ensemble des facteurs de variabilité. On cherche alors à apprendre automatique-ment non seulement à classer les caractéristiques discriminantes mais aussi à sélectionner ces dernièresautomatiquement. Les étapes traditionnelles d'extraction de caractéristiques et de classication sontainsi pilotées conjointement dans un même schéma d'apprentissage automatique. Comme nous le ver-rons, les méthodes que nous avons conçues sont inspirées pour la plupart des réseaux de neurones àconvolution, des cartes auto-organisatrices et des techniques de projection statistiques.

Page 28: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

28 1. Introduction

Page 29: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

Chapitre 2

Détection de visages

2.1 Introduction

La détection de visages est la première étape de toute chaîne de traitement orientée visages, quiconsiste à localiser les visages présents en toute position dans l'espace-échelle de l'image. C'est undomaine de recherche très actif depuis une quinzaine d'années, avec un très fort potentiel applicatif,dans les domaines de la vidéosurveillance, des interfaces hommes-machines avancées et de l'indexationdes images et des vidéos. Il s'agit d'un problème dicile, le visage étant un objet dont l'apparence peutvarier fortement en fonction de l'expression, de la présence d'occultations partielles (barbes, lunettes,etc.), de la pose et des conditions d'éclairage, le tout dans des scènes naturelles pouvant être fortementtexturées.

Dans ce chapitre, nous débutons par un panorama des principales méthodes de l'état de l'art,puis nous présentons nos contributions. La première considère la détection de visages comme étantla recherche d'une texture particulière dans une image, que l'on caractérisera via une décompositionen paquets d'ondelettes, permettant une analyse angulaire, spatiale et fréquentielle. La texture desimages de visage est alors décrite par des vecteurs caractéristiques compacts et discriminants composésde mesures statistiques extraites de chaque sous-bande de la décomposition en paquets d'ondelettes.Une distance probabiliste permet alors de classer chaque zone d'image en visage ou non-visage.

La seconde contribution est l'approche baptisée CFF (Convolutional Face Finder), reconnue au-jourd'hui comme l'une des plus performantes de l'état de l'art. Pour caractériser une zone d'imagede visage, cette méthode ne repose pas sur un ltrage générique, mais sur une cascade de ltres non-linéaires (opérations de convolution et de sous-échantillonnage) appris automatiquement sur des basesd'exemples par une architecture neuronale de type réseaux de neurones à convolution. Cette méthodea été intégrée avec succès dans plusieurs services opérationnels de France Télécom (visioconférence,services de recherche internet spécialisés en vidéos de journaux télévisés) et implémentée sur des plate-formes embarquées (téléphones portables, circuits intégrés reprogrammables FPGA). Nous montronsaussi la généricité et le potentiel de l'architecture CFF sur d'autres problèmes variés et diciles, commela détection de logos transparents et de silhouettes de personnes.

2.2 État de l'art

De nombreuses méthodes de détection de visages ont été proposées, nombre d'entre elles décrites etcomparées dans les articles de Hjelmås et al. [HL01], de Yang et al. [YKA02, Yan04] et de Brubaker etal. [BWS+08]. Elles peuvent être divisées en deux catégories : les méthodes basées descripteurs, reposantsur l'extraction de caractéristiques locales et les méthodes basées images (ou méthodes holistiques),traitant l'imagette du visage comme un tout (voir gure 2.1). Les méthodes locales cherchent à identierdans les images un ensemble de caractéristiques faciales, formant des constellations de zones candidates,ltrées par un modèle probabiliste des distributions des éléments faciaux du visage. Les méthodesholistiques quant à elles traitent le visage comme une texture particulière qu'il s'agit de localiser dansl'image à l'aide de techniques de classication appliquées classiquement dans une fenêtre glissantebalayant l'image en position et en échelle.

29

Page 30: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

30 2. Détection de visages

FIG. 2.1 Panorama des grandes familles d'approches en détection de visages.

2.2.1 Méthodes basées descripteurs

Les premiers eorts de recherche en détection de visages ou d'objets complexes datent des années1970, avec notamment les travaux de Sakai, Nagao et Kanade [SNK72]. Ces techniques s'appliquent àdes visages parfaitement de face sans arrière plan complexe, typiquement, dans une photo d'identité.La puissance de calcul d'alors ne permet pas la modélisation de l'ensemble des variations que peutconnaître une image de visage. Ainsi, le moindre changement dans les conditions de prise de vue desimages demandent un complet re-paramétrage du système de détection. À partir des années 1990, l'aug-mentation des moyens informatiques et les perspectives commerciales, notamment en reconnaissancedes visages [CWS97], relancent les recherches sur la détection de visages. Dans un premier temps, lesrecherches portent sur l'extraction de descripteurs plus robustes permettant de distinguer un visage dureste du monde, comme par exemple, la couleur de la peau ou la géométrie du visage [BP93, VAOC94].La détection de visages est alors eectuée en manipulant des distances, des aires, ou des angles liés auxdiérents descripteurs extraits de l'image. Ces méthodes font appel aux connaissances dont on disposesur l'objet à détecter ; on extrait des informations telles que la position de certains contours et d'autresinformations géométriques caractéristiques des visages, puis on utilise cette connaissance a priori ande diérencier le visage du reste du monde. Ces approches sont par conséquent très dépendantes del'objet visage.

La plupart des premières méthodes proposées pour la détection de visages s'appuient donc surl'analyse des caractéristiques faciales locales et sur une classication à l'aide de modèles statistiques etgéométriques du visage humain. Ces approches reposent sur une analyse bas-niveau de l'image visantà la segmentation des principaux éléments faciaux à partir des contours [Gov96], de l'intensité lumi-neuse [YH94], de la couleur [GT99, FBVC01], du mouvement [LI97] ou de mesures généralisées com-binant ces informations [LL96]. Les éléments faciaux sont alors souvent recherchés par des méthodesde corrélation utilisant des modèles considérés comme rigides en apparence (eigenfeatures [MP97])ou déformables [WFKvdM97, GST01]. Ils forment des constellations de points candidats, parmi les-quels on cherche à identier la structure d'un visage via l'application de modèles probabilistes desdistributions [YC97, JYH+98, MM00, GST01].

Sinha [Sin94] fait l'hypothèse que la distribution de l'intensité lumineuse est invariante, communeet probablement unique pour toutes les images de visage (les yeux sont par exemple plus sombres quele reste du visage). Concrètement, les invariants modélisant le visage sont formés par des ratios entre

Page 31: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

2.2. État de l'art 31

FIG. 2.2 Le réseau de croyance, le schéma de détection des éléments caractéristiques et un exemplede regroupement de caractéristiques conduisant à la détection du visage dans la méthode de Yow etCipolla [YC97].

les intensités moyennes de sous-régions du visage.Leung et al. [LBP95] formulent le problème de la détection de visages comme étant la recherche des

arrangements géométriques corrects d'éléments faciaux. Ils appliquent un ensemble de ltres multi-orientations et multi-échelles basés sur des dérivées Gaussiennes pour localiser quatre points carac-téristiques du visage. Ils apprennent les congurations correctes des éléments faciaux à partir de ladistribution Gaussienne des distances mutuelles. Pour chaque élément détecté, ils estiment les régionsprobables (ellipses) dans lesquels les trois autres points doivent se trouver. Si d'autres points caracté-ristiques se trouvent dans ces régions prédites, un visage candidat est formé et un calcul du maximumde vraisemblance sur la distribution des distances entre les points, valide ou non le visage candidat.

Suivant le même principe, Yow et Cipolla [YC97] utilisent aussi des ltres à dérivées Gaussiennesd'ordre deux pour localiser les éléments faciaux. Les contours autour de ces points d'intérêt sontorganisés en paires, les méthodes de regroupement et de fusion en visages candidats étant basées surles réseaux de croyance (belief networks) (voir gure 2.2)

Cootes et al. [CT96] proposent une méthode de recherche par corrélation dans des espaces propres,construits via une Analyse en Composantes Principales (ACP), sur des portions d'image autour dequatre éléments caractéristiques (eigenfeatures). La phase de regroupement en visages candidats estréalisée grâce à un modèle statistique de formes, permettant de retenir les visages dont les formes sontplausibles.

Hamouz et al. [HKK+05] utilisent une banque de ltres de Gabor et un modèle de mélangesgaussiens (Gaussian Mixture Models, GMM ) pour rechercher dix caractéristiques faciales. Des tripletsde points caractéristiques sont alors combinés pour former des visages candidats. La classication deces derniers est ensuite réalisée à l'aide d'une Machine à Vecteurs de Support (SVM), basée sur lescaractéristiques de ces triplets.

Page 32: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

32 2. Détection de visages

FIG. 2.3 L'espace des visages dans la méthode de Sung et Poggio [SP98] : (a) imagettes d'apprentis-sage (visages et non-visages) ; (b) clusters visage (F) et non-visage (N) ; (c) exemples de centroïdes declusters visages et non-visages.

Dans la plupart de ces méthodes, l'étape de localisation des caractéristiques faciales locales estconsidérablement inuencée par le bruit, et notamment par la résolution et la taille des visages à dé-tecter, les occultations locales, les variations d'éclairage et de points de vue. Dans les images ayant unfond très texturé, la phase de recherche des éléments faciaux génère en général de nombreux candidatsque la phase de validation a posteriori, mettant en jeu les contraintes géométriques, ne peut aisémentltrer, laissant passer de nombreuses fausses alarmes. Par ailleurs, la plupart des approches de détec-tion de visages par localisation de caractéristiques faciales présentées dans la littérature ne sont pascomparées sur les bases de tests de référence du domaine.

Nous verrons dans le chapitre 3, que même si la recherche d'éléments faciaux, qui semblait naturellepour la détection de visages, n'a pas donné naissance à des méthodes robustes dans ce domaine, elleest toujours d'actualité dans le domaine de l'analyse faciale, où la localisation précise des élémentsfaciaux permet de nombreuses applications dans le domaine des interfaces homme-machine (suivi duregard, synthèse de visages parlants). Elle est de plus généralement incontournable pour permettre unesegmentation précise du visage à des ns de reconnaissance (identité, expression, émotion).

2.2.2 Méthodes basées images

À partir des années 1990, la disponibilité d'une plus grande puissance de calcul, ainsi que lesavancées dans le domaine de l'apprentissage automatique permettent l'essor de systèmes dits basésimages. Dans ces méthodes, peu d'information est apportée a priori sur l'objet à détecter. C'est lesystème de détection lui même qui, à partir d'un certain nombre d'images-exemples, sélectionne lesinformations à extraire an de classer une image donnée dans la catégorie souhaitée : visage ou non visage .

Sirovich et Kirby [KS90] considèrent non pas les visages comme décrits par des éléments faciauxqu'il s'agit de détecter, mais plutôt comme des points dans un espace de grande dimension, qu'ils'agit de classer. Ils montrent que les images de visage peuvent être représentées ecacement viaune projection dans un sous-espace, à partir d'une Analyse en Composantes Principales (ACP). Cetteapproche générative sera popularisée en 1991 par Turk et Pentland, avec leur méthode de reconnaissancedite des eigenfaces [TP91a]. La similarité entre deux images de visage peut alors être évaluée dansl'espace de projection. Les frontières séparant les visages des non-visages peuvent aussi être estiméesdans ce sous-espace. Ces travaux inuencent fortement le domaine de la représentation des images.

En 1996, Sung et Poggio [Sun96, SP98] réalisent la première avancée majeure dans le domaine dela détection de visages, en proposant un schéma de détection incluant une stratégie d'apprentissagediscriminative de la représentation des visages et des non-visages ainsi qu'une stratégie de recherchemulti-échelles qui sera utilisée dans la plupart des méthodes proposées par la suite.

Page 33: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

2.2. État de l'art 33

FIG. 2.4 Les distances utilisées dans le détecteur de Sung et Poggio [SP98] : (a) chaque imagette estassociée à un vecteur composé des distances aux 12 centres des clusters ; (b) la distance d'une imagetteà un cluster est représentée par deux distances D1 et D2 calculées par rapport à un sous-espace propredu cluster.

Dans une première étape, un ensemble d'apprentissage constitué d'imagettes (19 × 19 pixels) devisages et de non-visages (traitées comme des vecteurs d'intensité de pixel) est partitionné en sixclusters de visages et six clusters de non-visages, à l'aide d'un algorithme dérivé des K-moyennes (K-means). L'ensemble des images de visage est augmenté d'exemples créés virtuellement à partir detransformations géométriques de faible amplitude (rotation, translation et zoom). Les exemples denon-visages sont produits via un processus itératif dit de bootstrap, visant à accumuler des imagettes(fausses alarmes) localisées par le détecteur de visages dans un ensemble d'images ne contenant pas devisage. Ces imagettes correspondent à des non-visages (mal classés) qui vont alimenter itérativementl'ensemble d'apprentissage, ce qui permettra de produire une version plus robuste du détecteur devisages.

Une correction lumineuse est appliquée aux imagettes : le plan approximant au mieux l'imageau sens des moindres carrés est soustrait de l'imagette pour compenser notamment les variationsd'éclairage. Un masque est appliqué pour supprimer les pixels sur les bords de l'image, n'appartenantgénéralement pas aux visages (voir gure 2.3.c).

L'étape de classication repose sur deux distances permettant de mesurer la proximité entre l'ima-gette et chacun des 12 clusters (voir gure 2.4) : D1 est la distance de Mahalanobis entre la projectionde l'imagette et le centre de chaque cluster dans le sous-espace propre déni par les 75 premiers vec-teurs propres du cluster et D2 la distance Euclidienne entre l'imagette et le sous-espace du cluster. Àchaque imagette est donc associé un vecteur de dimension 24 qui est classé en visage ou non-visage, àl'aide d'un perceptron multicouches (Multi-Layer Perceptron, MLP).

La recherche des visages dans une image est réalisée dans une fenêtre glissante de la taille desimagettes où le processus de correction lumineuse et de classication est répété pour chaque positionde la fenêtre dans l'image. La taille de la fenêtre de recherche étant xe et les visages présents dansles images pouvant être de tailles variées, il convient de réaliser la recherche sur plusieurs niveaux derésolution d'une pyramide Gaussienne, obtenue en sous-échantillonnant itérativement l'image originaled'un facteur de l'ordre de 1,2 (voir gure 2.5, étape 1). La recherche du visage permet alors d'obtenirune pyramide de cartes de scores (voir gure 2.5, étape 2).

Cette pyramide de cartes de scores donne une information sur les probabilités qu'un visage soitprésent à une position et à une échelle données. Généralement, plus le score est élevé, plus il estprobable que l'image contienne l'objet à cette position-échelle. Cependant, l'application d'un simpleseuillage ne permet généralement pas d'obtenir un positionnement précis de l'objet recherché. En eet,on retrouve souvent autour de cette position plusieurs détections se superposant. An d'éviter deretrouver de multiples détections autour de la position réelle du visage, une première stratégie possibleconsiste à conserver, pour les diérentes détections qui se superposent, uniquement celle ayant le score

Page 34: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

34 2. Détection de visages

FIG. 2.5 Les diérentes étapes d'un système de détection basé images : (1) création d'une pyramided'images à partir de l'image originale ; (2) extraction des cartes de scores correspondantes à partir d'unclassieur ; (3) projection des visages candidats détectés, sur l'image originale ; (4) regroupement etseuillage des résultats an d'éviter les recouvrements et de minimiser le nombre de fausses détections.

maximum. La stratégie la plus couramment employée consiste à regrouper les détections proches enposition et en échelle an de les fusionner en une seule détection (voir gure 2.5, étape 3). La positionet l'échelle de cette détection sont les moyennes, éventuellement pondérées par les scores, de l'ensemblede détections du groupe [GD04] (voir gure 2.5, étape 4). Le score de détection nal est égal au nombrede détections fusionnées [RBK96] ou à la somme des scores de ces dernières (comme introduit sousl'appellation volume dans notre article [GD04]), qu'il est alors possible de seuiller pour retenir lesvisages détectés (voir gure 2.5, étape 5).

Osuna et al. [OFG97] s'appuient sur un schéma de détection similaire, dans lequel le classieur estun SVM à fonction noyau polynomiale de second degré. 2500 vecteurs de support sont retenus pourpartitionner l'espace en classes visage et non-visage (voir gure 2.6).

D'autres techniques ecaces sont basées sur l'analyse statistique multivariée. Yang et al. [YKA01]proposent une méthode visant à représenter la variété (manifold) des visages comme un ensemble desous-classes. Ils utilisent les cartes auto-organisatrices de Kohonen (SOM) pour réaliser le regroupement(clustering), le discriminant linéaire de Fisher pour trouver un modèle optimal de projection pour laclassication et une distribution Gaussienne pour modéliser les fonctions de densité conditionnellesd'appartenance des imagettes projetées à chaque classe.

On dénombre plusieurs autres approches statistiques pour la détection de visages, sur la base de lathéorie de l'information ou de la classication Bayésienne. Colmenarez et Huang [CH97] proposent unsystème basé sur la divergence de Kullback-Leibler, pour mesurer la diérence entre les histogrammesjoints, calculés pour chaque paire de pixels dans les images de visage et dans les images de non-visagede la base d'apprentissage.

En 1999, avec Georges Tziritas, nous proposons de considérer la détection de visages comme étant la

Page 35: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

2.2. État de l'art 35

FIG. 2.6 Une classication SVM dans l'espace des visages [OFG97].

FIG. 2.7 Illustration de la classication Bayésienne de Schneiderman et Kanade [SK00].

recherche d'une texture particulière dans une image, à partir d'une décomposition en ondelettes permet-tant l'obtention de vecteurs caractéristiques plus compacts que dans les espaces de projection [GT99].Cette approche est décrite en détail dans la section 2.3.

Schneiderman et Kanade [SK98] proposent d'utiliser un classieur naïf de Bayes pour estimer lesprobabilités conjointes des apparences locales et des positions de sous-régions des visages, à plusieursrésolutions. À chaque échelle, une image de visage est décomposée en quatre sous-régions qui sontprojetées dans un espace de faible dimension à l'aide d'une ACP, pour former des histogrammes ca-ractéristiques. Ces derniers permettent d'estimer les probabilités conditionnelles p(image|visage) etp(image|visage) (voir gure 2.7). Une région d'image est classée en visage ou non-visage par un simpletest de rapport de vraisemblance reposant sur ces probabilités conditionnelles et les probabilités apriori. Plusieurs détecteurs spécialisés sont construits pour prendre en compte non seulement les vi-sages en pose semi-frontale mais aussi en pose de prol.

Suite à nos travaux (Garcia et Tziritas [GT99]), Schneiderman et Kanade [SK00] proposent d'étendreleur approche en caractérisant la texture des visages par une décomposition en ondelettes à trois ni-veaux. Plusieurs ensembles de coecients d'ondelettes sont extraits de sous-bandes sélectionnées dansl'arbre de décomposition. Ils appliquent leur méthode à la détection de voitures et de visages de prol.

Liu [Liu03] propose une approche basée sur la discrimination Bayésienne de caractéristiques (Baye-sian Discriminating Features, BDF ), combinant l'image de visage, sa transformée par ondelettes deHaar 1-D et l'amplitude de ses projections sur les deux axes. Une modélisation statistique permet d'es-timer les fonctions de densité de probabilités conditionnelles des classes visages et non-visages, comptetenu des distributions normales multivariées, an de construire un classieur de Bayes.

Un autre courant d'approches apparaît, dès le début des années 1990, qui visent à classer lesimages de visage directement à partir de leurs pixels en alimentant la couche d'entrée d'un réseau de

Page 36: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

36 2. Détection de visages

FIG. 2.8 Architecture de la structure neuronale MLP de Rowley et al. [RBK96].

neurones, qui apprend à répondre visage ou non-visage. Les premières approches basées sur les réseauxde neurones utilisent des MLPs [PS92, BC94, JM96]. Les résultats sont alors encourageants sur desbases de test simples mais ces méthodes se heurtent au problème de la représentativité des exempleschoisis de non-visages. La méthode de bootstrap de Sung et Poggio, permettant une sélection de non-visages représentatifs car proches des frontières entre les deux classes, va permettre de lever ce verrouet de placer les approches neuronales en tête de l'état de l'art.

En 1996, s'inspirant des travaux de Sung et Poggio, Rowley et al. [RBK96] proposent la premièreapproche neuronale orant des taux de détection de plus de 80% sur une base de test très complexe(CMU test set), contenant des visages en position frontale et verticale. Cette approche utilise un réseaude neurones MLP partiellement connecté à une rétine d'entrée recevant une image de taille 20× 20. Lechoix de la structure des connexions reète des connaissances a priori sur la structure des visages (voirgure 2.8). Plus précisément, la première couche contient 26 neurones, dont quatre sont connectéschacun à un champ réceptifs de 10 × 10 pixels, six sont connectés chacun à un champ réceptif de5 × 5 pixels et 16 sont connectés à des champs réceptifs horizontaux de 20 × 5 pixels, se recouvrantpartiellement.

La procédure de sélection des exemples de non-visages et la correction lumineuse appliquée auxexemples sont similaires à celles utilisées dans le système de Sung et Poggio. Pour réduire le taux defausses alarmes, Rowley et al. proposent une stratégie d'arbitrage en combinant plusieurs réseaux dece type, au prix d'un temps de calcul plus élevé.

Dans une version ultérieure [RBK98b], Rowley et al. proposent de rendre leur système indépendantde la rotation des visages dans le plan, en ajoutant une première couche neuronale en charge del'estimation de l'angle de rotation dans le plan des visages candidats analysés dans la rétine. Cetteestimation d'angle permet de corriger la rotation de manière à utiliser leur solution de détection devisages en position verticale.

Roth et al. [RYA00] proposent d'utiliser non pas un réseau de neurones MLP mais un réseau deneurones SNoW (Sparse Network of Winnows). Ce modèle contient deux neurones linéaires de sortie,représentant les classes visages et non-visages et qui opèrent sur des vecteurs d'entrée booléens de trèsgrande dimension, formés à partir des pixels de l'image (voir gure 2.9). Le principe sous-jacent reposesur le fait que les données sont plus facilement séparables par des hyperplans dans des espaces de trèsgrande dimension.

Dans SNoW, l'apprentissage met ÷uvre la règle de Winnow (multiplicative) qui consiste à renforcerou à aaiblir les poids de connexion (tous positifs) en fonction des résultats de la classication pourchaque exemple. Comme dans les approches précédentes, les images sont prétraitées à la manière deSung et Poggio. En phase de classication, si la sortie θv du premier neurone est supérieure à la sortieθnv du second, alors, un visage est détecté. Roth et al. rapportent des résultats au niveau de ceux desautres méthodes de détection de visages, malgré la relative simplicité du classieur. On ne retrouve

Page 37: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

2.2. État de l'art 37

FIG. 2.9 Architecture de la structure neuronale SNoW de Roth et al. [RYA00]. Une image de tailleH×L en 256 niveaux de gris est représentée sous la forme d'un vecteur binaire de dimensionH×L×256dans lequel la valeur du ième élément est 1 pour les valeurs de i = (x + y × L) × 256 + I(x, y) et 0sinon. Pour une image de taille 20 × 20 pixels, le vecteur d'entrée contient donc 400 éléments actifs(V (i) = 1) parmi 102.400 éléments.

cependant aujourd'hui que peu de développements de cette approche.S'inspirant des travaux de Sirovich et Kirby [KS90], Féraud et al. [FBVC01] proposent une ap-

proche neuronale, basée sur les modèles génératifs contraints (Constrained Generative Models, CGM ),correspondant à des réseaux MLPs auto-associatifs à trois couches cachées, entraînés pour réaliser uneACP non linéaire sur les imagettes de visage. La classication est obtenue en considérant l'erreur dereconstruction d'une imagette en entrée. Cette erreur est d'autant plus grande que l'imagette ne corres-pond pas à un visage. Les meilleurs résultats sont obtenus avec un système intégrant une combinaisonde plusieurs CGMs (appris chacun sur des images de visage dans des poses spéciques), fusionnés autravers d'un MLP. Le coût calculatoire étant très important, un pré-ltrage basé teinte chair est appli-qué pour réduire le nombre d'imagettes à évaluer, et les zones à analyser sont prétraitées à la manièrede Sung et Poggio.

D'autres approches neuronales, à base de réseaux de neurones à convolution, se sont révélées par-ticulièrement robustes tout en étant très rapides. Nous les décrirons en détail dans la section 2.4.

La plupart de ces premières méthodes présentées reposent sur une recherche multi-échelle exhaus-tive et donc coûteuse, en particulier lorsque le contenu de la fenêtre glissante doit être prétraité parégalisation d'histogramme et correction linéaire d'illumination avant d'être classé. Basées sur les mêmesprincipes de recherche multi-échelles, des méthodes sont apparues pour réduire le temps de calcul, ba-sées sur le focus de l'attention [VJ01, LZZ+02]. Le principe de ces approches est de combiner desclassieurs en cascades, qui cherchent à rejeter à moindre coût calculatoire des régions ne contenantpas de visage, pour concentrer les calculs sur des régions dont la probabilité de contenir un visage estsupérieure.

Fleuret et Geman [FG03] proposent une technique qui repose sur une succession de tests binairesdécomposables, appliqués sur des arrangements spéciques de chaînes de points contour de complexitécroissante. La méthode proposée est très rapide mais les taux de faux positifs sont signicativementplus élevés par rapport à l'état de l'art.

Viola et Jones [VJ01] proposent le premier système de détection de visages temps réel, produi-

Page 38: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

38 2. Détection de visages

FIG. 2.10 La détecteur de visages de Viola et Jones [VJ01] : exemples de descripteurs utilisés, ceuxformés de deux régions (A et B), ceux formés de trois régions (C) et enn ceux formés de quatre régions(D) ; à droite, les deux premiers/meilleurs descripteurs et la cascade de tests basée sur des classieursde complexité croissante.

sant de haut taux de détection, pour un nombre de fausses alarmes relativement faible. L'approcheconsiste à construire une cascade de classieurs basés sur des caractéristiques sélectionnées par uneméthode dérivée de l'algorithme Adaboost, contraction de Adaptative Boosting, introduit par Freundet Schapire [FS95]. Les caractéristiques sont extraites à partir d'ondelettes de Haar comme dans Pa-pageorgiou et al. [POP98], et correspondent à de simples diérences entre sommes de valeurs de pixelsdans des régions rectangulaires adjacentes (les zones blanches et noires dans la gure 2.10). Les di-mensions et positions de ces arrangements pouvant varier dans une imagette de visage de dimension24× 24 pixels, 45.396 descripteurs sont possibles. Ils sont par contre calculés à très faible coût grâce àla représentation intégrale de l'image à analyser (chaque point de l'image intégrale porte la somme detous les pixels au dessus et à gauche de sa position).

Parmi ce nombre très important de caractéristiques, l'algorithme Adaboost permet de n'en sélec-tionner qu'un nombre réduit (quelques centaines) tout en entraînant un classieur ecace. Cet algo-rithme consiste à combiner plusieurs classieurs dit faibles (ils doivent simplement classer mieux que lehasard), en pratique de simples hyperplans séparateurs, an d'obtenir un classieur fort (performant).

An de rendre l'algorithme de détection plus rapide, le système de Viola-Jones utilise une cascadede classieurs. Chaque classieur élimine un certain nombre de non visages tout en sélectionnantla plupart des visages. Les premiers classieurs de la cascade sont basés sur un petit nombre dedescripteurs et sont donc très rapides mais peu discriminatifs. Puis, chaque classieur successif de lacascade devient de plus en plus complexe, permettant une réduction importante du nombre de faussesdétections. Ainsi le dernier classieur qui utilise plusieurs centaines de descripteurs, n'est utilisé quesur un nombre très réduit d'imagettes à tester, limitant ainsi au minimum le nombre d'opérationsrequises pour la détection. An de collecter des échantillons de non-visages pertinents, cette méthodeutilise une variante de la méthode de bootstrap adaptée à la cascade de classieurs.

Depuis son intégration dans la bibliothèque de vision par ordinateur OpenCV de la société Intel,le système de Viola et Jones est aujourd'hui tout naturellement le système le plus couramment utilisépour eectuer une détection de visages (ou d'objets).

La plupart des publications actuelles poursuivent dans la voie ouverte par Viola et Jones, etconcernent des travaux reposant sur des variantes de l'algorithme de boosting, de la stratégie de mise encascade des classieurs ou des caractéristiques à extraire. Par exemple, Li et al. [LZZ+02] proposent unsystème de détection de visages, basé sur un autre algorithme de boosting, appelé FloatBoost, spéciale-ment construit pour surmonter le problème de monotonicité de l'apprentissage séquentiel d'Adaboost.Cette approche permet la détection de visages en poses non-frontales. Un panorama détaillé de cesapproches est présenté dans [BWS+08].

Les performances comparées des principaux algorithmes décrits dans cet état de l'art seront pré-sentées dans les tableaux 2.1 et 2.2 de la section 2.4.3.

Page 39: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

2.3. Détection de visages par décomposition en paquets d'ondelettes 39

FIG. 2.11 Les ltres utilisés dans la décomposition en paquets d'ondelettes : (a) les ltres passe-bash (-) et passe-haut g (- -) et (b) leurs transformées de Fourier.

FIG. 2.12 Décomposition d'une image de visage en paquets d'ondelettes : (a) l'arbre de décomposi-tion ; (b) les coecients d'ondelettes au niveau 2 (une image d'approximation A et 15 images de détailsD).

2.3 Détection de visages par décomposition en paquets d'ondelettes

En 1999, nous proposons, avec Georges Tziritas et notre étudiant en Master Georges Zikos, deconsidérer la détection de visages comme étant la recherche d'une texture particulière dans une image,à partir d'une décomposition en paquets d'ondelettes permettant d'obtenir de vecteurs caractéristiquesplus compacts que dans les espaces de projection [GZT99, GT99].

La première étape de la méthode consiste à localiser les régions de l'image contenant potentiellementun visage, à partir d'une segmentation itérative et adaptative, basée sur une pré-quantication et uneclassication des couleurs teinte chair dans l'espace colorimétrique HSV (Hue, Saturation, Value).

La luminance de chaque région candidate est alors analysée via une décomposition en paquetsd'ondelettes discrète à trois niveaux (voir gure 2.12). Il s'agit classiquement d'une décompositiondyadique du signal utilisant un ltre passe-bas h, permettant d'obtenir une approximation A du signalet un ltre passe-haut g permettant d'en obtenir les détails D. Ceux-ci capturent l'information dansl'espace, les fréquences et les orientations, caractérisant ainsi nement la texture des visages (voirgure 2.11). Les contraintes considérées lors de la construction des ltres sont issues des travaux deSmith et Barnwell portant sur les techniques de reconstruction exactes dans les codeurs de parole à troissous-bandes structurées [SB86]. Ces ltres ont été utilisés également dans nos travaux de reconnaissance

Page 40: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

40 2. Détection de visages

FIG. 2.13 Des exemples de résultats du détecteur de visages de Garcia et Tziritas [GT99] sur la based'images DiVAN.

de visages reposant sur le même principe de description de la texture par ondelettes [GZT98, GT00].La texture des images de visage est alors décrite par des vecteurs composés de simples mesures

statistiques extraites de chaque sous-bande de la décomposition en paquets d'ondelettes discrète à troisniveaux. Plus précisément, des écarts types sur les coecients sont mesurés dans l'image d'approxi-mation A dans quatre zones distinctes (issues d'une subdivision en 4 de l'image du visage) et danschacune des m images de détails. Ces m + 4 valeurs forment le vecteur caractéristique de l'image duvisage.

La similarité entre le vecteur caractéristique Vk d'une imagette test et le vecteur caractéristiquemoyen prototype Vl estimé sur une base d'images d'apprentissage est évalué grâce à la distance de Bhat-tacharyya, en faisant l'hypothèse que les images d'approximations suivent une distribution Gaussienneet les images de détails une distribution Laplacienne. Nous obtenons la distance suivante :

D(Vk, Vl) =12

3∑i=0

ln

(σ2ik + σ2

il

2σikσil

)+m+3∑i=4

ln

(σik + σil2√σikσil

)(2.1)

où m = 63 pour le niveau 3 de l'arbre de décomposition en ondelettes et σmn est l'écart type descoecients d'ondelettes, rangé en position n dans le vecteur caractéristique Vm.

Les régions candidates, dont la distance au visage prototype est inférieure à un seuil choisi demanière expérimentale, sont étiquetées en tant que visages.

L'évaluation est réalisée sur une base de 100 images très variées extraites de séquences télévisuellesfournies par l'Institut National Audiovisuel (INA) et la chaîne de télévision grecque ERT1, dans lecadre du projet Européen DiVAN [DiV97]. Ces images contiennent 104 visages. La méthode proposéepermet d'atteindre un taux de bonne détection de 94,23% pour 20 fausses alarmes. En comparaison, ledétecteur de Rowley et al. ([RBK98a]) fournit un taux de détection de 85,57% pour 9 fausses alarmes,

Page 41: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

2.3. Détection de visages par décomposition en paquets d'ondelettes 41

FIG. 2.14 Modèle géométrique de visage basé ondelettes (a) et exemples de résultats de détection(b) [GST01].

Page 42: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

42 2. Détection de visages

avec toutefois une meilleure précision dans la localisation de la boîte englobant les visages. Des exemplesde détection obtenus par notre approche sont présentés dans la gure 2.13.

Pour aner la localisation des visages, nous avons proposé une extension de cette approche, reposantsur un modèle géométrique déformable du visage, et une analyse de la texture locale pour la détectiondes éléments faciaux (yeux, nez, bouche) [GST01]. La texture des éléments faciaux est analysée à partirde la décomposition en ondelettes proposée dans [GT99].

Pour chaque élément (yeux, nez, bouche), des écarts-types sont extraits dans des sous-bandesparticulières, sélectionnées en fonction de leur pouvoir discriminant (voir gure 2.14.a). Le modèlegéométrique déformable, permet de dénir les zones d'images contenant potentiellement les élémentsfaciaux ainsi que l'intérieur du visage. Il est initialement placé sur des zones candidates potentiellespré-détectées (typiquement l'÷il gauche) et ensuite déformé, dans des limites admissibles en angleset en distances entre éléments faciaux. Le visage est considéré comme étant détecté lorsque tous leséléments faciaux sont reconnus grâce à une distance de Bhattacharyya à des prototypes pré-appris, touten respectant un critère d'homogénéité déni sur la zone intérieure du visage. La méthode proposéepermet d'atteindre un taux de bonne détection de 91,4% pour 9 fausses alarmes sur la base DiVAN.Des exemples de détection sont présentés dans la gure 2.14.b.

2.4 Le détecteur de visages CFF

En 2002, avec mon étudiant en Master Manolis Delakis [GD02b, GD02a, GD03, GD04], nous propo-sons une méthode de détection de visages reposant sur une structure neuronale, le CFF (ConvolutionalFace Finder) qui reste aujourd'hui la méthode de l'état de l'art produisant les meilleurs taux de dé-tection pour un nombre très faible de fausses alarmes, sur les bases de tests de la communauté. Cetteméthode a par la suite été intégrée avec succès dans plusieurs services opérationnels de France Télécom(visioconférence, services de recherche internet spécialisés en vidéos de journaux télévisés).

Nous montrons qu'en utilisant une structure neuronale relativement légère, un réseau de neurones àconvolution, il est possible de développer une méthode extrêmement robuste aux variabilités du visage,sans réaliser de prétraitements sur les images à la manière de Sung et Poggio [SP98], et sans dénirde zones d'intérêt prédéterminées comme dans l'approche de Rowley et al. [RBK96]. Au contraire,l'apprentissage est réalisé sur des imagettes de visage exhibant une très forte variabilité (conditionsd'éclairage, contraste, résolution). Le système préserve ainsi la richesse du signal et l'absence de prétrai-tement local (comme l'égalisation d'histogramme) permet notamment de traiter directement chaqueimage de la pyramide multi-résolution, comme un tout, via une cascade d'opérations simples de convo-lution et de sous-échantillonnage. Cette propriété se révélera d'ailleurs très intéressante, dans les phasesd'optimisation temps réel et de portage sur systèmes embarqués.

2.4.1 Réseaux de neurones à convolution

Les réseaux de neurones, notamment les perceptrons multicouches (MLP) permettent d'approximerdes fonctions non-linéaires complexes, à partir d'exemples via des algorithmes d'apprentissage, généra-lement des algorithmes de descente du gradient, comme l'algorithme bien connu de la rétro-propagationdu gradient [Wer88].

Dans le domaine de l'analyse d'images et de la vision par ordinateur, les MLPs sont généralementutilisés pour classer des signatures extraites en amont par un algorithme d'extraction de caractéris-tiques, souvent choisi de manière empirique. Pour apprendre à classer les vecteurs caractéristiques touten apprenant à extraire les caractéristiques les plus discriminantes, une solution idéale peut consister àappliquer les MLPs directement sur les pixels. Malheureusement, les données images à classer étant detrès grande dimension (400, par exemple, pour une imagette de visage de 20× 20 pixels), le nombre deparamètres à apprendre (les coecients synaptiques) dans une architecture complètement connectée(où chaque neurone est connecté à l'ensemble des pixels de la couche d'entrée) devient rapidementtrès supérieur au nombre d'exemples disponibles. Cela conduit classiquement à du sur-apprentissage.Même si des architectures partiellement connectées comme celle de Rowley et al. [RBK96] permettent

Page 43: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

2.4. Le détecteur de visages CFF 43

de limiter ce phénomène, les données en entrée doivent être bien alignées et normalisées pour exciterles synapses adéquates.

Les réseaux de neurones à convolution (Convolutional Neural Networks, CNN ) [FM82, LeC89],modèles bio-inspirés, ont été proposés pour résoudre ces problèmes en combinant trois principes ar-chitecturaux : des champs réceptifs locaux qui permettent des détecter des caractéristiques locales ; lepartage des poids entre champs réceptifs qui permettent de répliquer la recherche de ces caractéris-tiques ; et un mécanisme de sous-échantillonnage permettant de réduire la sensibilité aux variations defaible amplitude en translation, rotation et échelle ou aux faibles distorsions.

FIG. 2.15 L'architecture du Neocognitron de Fukushima [FM82].

Au début des années 1980, Fukushima [Fuk75, FM82] propose le Neocognitron pour la reconnais-sance de caractères manuscrits. Ce modèle s'inspire des travaux de Hubel et Wiesel [HW62] sur lecortex visuel du chat qui mettent en évidence comment le système visuel construit des représentationscomplexes de l'information visuelle à partir de stimulations simples, au niveau de neurones répondantsélectivement en fonction de la position et de l'orientation de la lumière sur la rétine.

Le Neocognitron est une architecture neuronale constituée d'une succession de couches de neurones,dans lesquels les neurones sont organisés en cartes de descripteurs (voir gure 2.15).

Dans une carte de descripteurs donnée, chaque neurone n'est connecté qu'à une sous-région (champréceptif local) correspondant à un certain nombre de neurones voisins dans une ou plusieurs cartes dedescripteurs de la couche précédente. Ces champs réceptifs locaux permettent ainsi, par apprentis-sage des poids synaptiques, d'extraire des formes élémentaires tels que des contours orientés ou descoins [Fuk75, FM82, LeC86, LeC89, Moz91]. Cet extracteur de caractéristiques locales pouvant êtreutilisé dans diérentes zones d'une image, les poids sont partagés [RHW86] au sein d'une même cartepour toutes les positions possibles du champ réceptif local, ce qui revient à convoluer la ou les cartes dela couche précédente avec la matrice constituée des poids synaptiques et partagée par tous les neurones.Chaque carte de descripteur (S-planes) de la couche US1 est donc le résultat d'une convolution (pardes masques S1,i appris automatiquement) sur l'image d'entrée, les couches USi suivantes résultant de

Page 44: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

44 2. Détection de visages

FIG. 2.16 Détection de visages par Vaillant et al. [VML94].

FIG. 2.17 Détection de visages par Osadchy et al. [OLM07].

convolutions sur les cartes de descripteurs des couches précédentes UCi−1.Les cartes de descripteurs des couches USi sont ensuite sous-échantillonnées en cartes UCi permet-

tant ainsi de réduire la sensibilité du réseau de neurones à de légères variations de forme, d'échelle oude centrage dans l'image d'entrée.

Le Neocognitron consiste donc en une succession de cartes convoluées puis sous-échantillonnées (leplus souvent par un facteur 2). Cette combinaison d'opérations alternées de convolution et de sous-échantillonnage s'inspire directement des découvertes de Hubel et Wiesel portant sur les cellules simpleset complexes du cortex visuel : les cartes des couches USi extraient par combinaison des caractéristiquesvisuelles de plus en plus complexes (de contours orientés jusqu'à des combinaisons de segments), quisont classées au niveau de la couche de sortie pour activer des neurones représentant chacun une classe(sur l'exemple, un caractère donné).

Si les premières implémentations du Neocognitron reposent sur un algorithme d'apprentissage non-supervisé (auto-organisation et règles de renforcement), des études ultérieures montrent qu'un appren-tissage supervisé augmente les performances [Fuk88]. Ce dernier est réalisé couche par couche, depuisla couche uS1 jusqu'à la couche uC4, l'apprentissage d'une couche débutant lorsque l'apprentissagede la couche précédente est terminé. Une technique d'apprentissage par renforcement est utilisée and'entraîner chaque carte dans une couche à détecter une caractéristique visuelle choisie a priori (parexemple, pour la première couche, un ensemble d'imagettes de taille 3 × 3 pixels représentant desportions de caractères). Pour chaque couche, l'opération est répétée en présentant directement desexemples plus complexes.

LeCun et al. [LBD+90] s'inspirent des travaux de Fukushima [Fuk88] et développent une structurede réseaux de neurones à convolution, plus légère, appelée LeNet-1, pour la première fois directemententrainée grâce à l'algorithme de rétro-propagation du gradient et l'appliquent à la reconnaissance dechires manuscrits. Une version ultérieure, LeNet-5, permet la reconnaissance de lettres et de caractères

Page 45: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

2.4. Le détecteur de visages CFF 45

spéciaux, intégrée dans un schéma reposant sur des graphes et permettant la reconnaissance de chèquesbancaires [LLBH98].

L'avancée majeure des travaux de LeCun et al. est que, contrairement au modèle de Fukushima,les caractéristiques visuelles à apprendre ne sont plus sélectionnées et proposées a priori au niveaude chaque couche, mais automatiquement inférées dans un processus d'apprentissage global, visant àminimiser une fonction d'erreur globale. De plus, l'apprentissage n'est plus réalisé indépendammentpour chaque couche mais sur l'ensemble de l'architecture, permettant d'estimer, comme dans les MLPs,tous les paramètres du système, uniquement à partir des images d'apprentissage.

De nombreuses méthodes se sont construites sur les principes des CNNs pour répondre à des pro-blèmes variés de reconnaissance d'images, comme la détection, la binarisation et la reconnaissance detexte dans les vidéos [LL99a, DG07a, SG07a, SG07a], la détection et le suivi de mains [NP95], la détec-tion des nodules pulmonaires dans des radiographies [LLLF95], la détection des ssures dans les tuyauxd'égout [OBH04] ou plus généralement la détection d'objets variés sur des fonds complexes [LHB04]ou le pilotage automatique d'un robot mobile autonome dans un environnement hors-route [LMB+05].Tout au long de ce manuscrit, nous aurons l'occasion de montrer l'ecacité de cette architectureneuronale dans le cadre de l'analyse de visages.

2.4.2 Détection de visages par réseaux de neurones à convolution

En 1994, Vaillant et al. [VML94] utilisent des réseaux de neurones à convolution pour la détectiond'objets et considèrent la détection de visages (voir gure 2.16). L'une des contributions principalesde cet article est de montrer qu'un réseau de neurones à convolution à deux couches surpasse un MLPcomplètement connecté et qu'une bonne classication peut être obtenue sur des ensembles de tailleréduite d'imagettes de visages et de non-visages prétraitées par un ltre Laplacien et normalisées pourobtenir une moyenne nulle et une variance unitaire. Les images de visage sont obtenues dans un envi-ronnement d'éclairage contrôlé et celles partiellement occultées sont exclues des bases d'apprentissageet de test. Les résultats obtenus sont prometteurs, en comparaison avec l'approche MLP, mais aucuneévaluation quantitative n'est fournie sur des images complexes.

En 2005, Osadchy et al. [OML05, OLM07] proposent une méthode originale visant à détecter lesvisages et à estimer leurs poses simultanément et en temps réel. Ils utilisent un réseau de neuronesà convolution, s'appuyant sur l'architecture Lenet-5 [LLBH98] pour projeter les images de visage àl'intérieur d'un manifold (paramétré en poses) de faible dimension et les images de non-visages loin dece manifold.

Apprendre à classer une zone d'image en visage ou non-visage, tout en estimant la pose des visages,peut alors être vu comme la minimisation d'une fonction de coût à trois variables : l'image, une variablebinaire (visage/non-visage) et la pose. Un résultat nouveau et intéressant tient dans l'eet de synergieentre la détection du visage et l'estimation de sa pose, qui améliore les résultats d'une détectiontraditionnelle sans estimation de pose.

Le système proposé permet la détection et l'estimation de poses de ±90 degrés pour les visagestournés et de ±45 degrés pour les visages levés ou abaissés. Les auteurs évaluent notamment leur mé-thode sur la base de visages PROFILE de Schneiderman et Kanade [SK00], et obtiennent des résultatspeu inférieurs à ceux obtenus par Jones et Viola [JV03], qui appliquent une estimation préalable de lapose an de choisir un détecteur spécialisé dans la pose estimée, et à ceux de Schneiderman et Kanade,qui eux, de manière beaucoup plus coûteuse, arbitrent entre plusieurs détecteurs spécialisés, chacunpour une pose particulière.

2.4.3 Détails sur le détecteur de visages CFF

Antérieure de trois ans aux travaux d'Osadchy et al., notre approche [GD02b, GD02a, GD04]s'inspire en partie des travaux de Vaillant et al. [VML94]. Contrairement à l'approche de vaillant etal., dans le cas du CFF, les images de visage de la base d'apprentissage ne sont pas prétraitées etcontiennent notamment de nombreux exemples extrêmes, notamment des visages occultés, de faiblecontraste, avec sur-éclairage ou sous-éclairage et du bruit de numérisation (voir gure 2.19).

Page 46: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

46 2. Détection de visages

FIG. 2.18 Architecture du détecteur de visages CFF.

Notre but est de développer une méthode capable de détecter des visages de taille minimale 20×20pixels pouvant être tournés de ±30 degrés dans le plan et de ±60 degrés en profondeur (la pose de trois-quart étant à ±45 degrés), dans des images complexes, sous des conditions d'éclairage trèsvariables.

L'architecture du CFF est décrite dans la gure 2.18. La portion d'image à analyser est reçue dansune rétine I de 32× 36 pixels. Les valeurs de ses pixels sont normalisés linéairement entre -1 et 1.

La première couche C1 contient quatre cartes de caractéristiques. Chaque neurone en position (x,y)d'une carte de caractéristique j est connecté à un champ réceptif de 5 × 5 pixels dans la rétine I. Savaleur de sortie (y(1)

j (x, y)) est calculée suivant l'équation 2.2 : c'est la somme pondérée de l'intensité

des pixels par les 5 × 5 = 25 poids synaptiques (matrice w(1)j ) à laquelle s'ajoute un biais (b(1)

j ), quia un eet de normalisation. Les poids synaptiques étant partagés par tous les neurones d'une mêmecarte, les sorties d'une carte correspondent à une convolution de l'image d'entrée par un masque 5× 5,suivi de l'ajout d'un biais. Durant la phase d'apprentissage qui consiste à estimer les coecients desmasques de convolution et les biais (4× 26 = 310 paramètres), cette première couche va se spécialiserdans la détection de caractéristiques bas-niveau, comme des contours orientés ou des coins.

y(1)j (x, y) =

∑(u,v)∈K

w(1)j (u, v) I(x+ u, y + v) + b

(1)j , (2.2)

où K = (u, v) ∈ N2 | 0 ≤ u < 5 and 0 ≤ v < 5

Les cartes de C1 sont sous-échantillonnées par un facteur 2 dans la couche C2, pour augmenterla robustesse du système aux légères variations des caractéristiques en position et en forme (voiréquation 2.3). Pratiquement, chaque neurone en position (x,y) dans chacune des quatre cartes de C2somme les quatre pixels d'un bloc de 2× 2 pixels dans la carte correspondante de C1, multiplie cettesomme par un paramètre de normalisation (w(2)

j ), y ajoute un biais (b(2)j ) et passe le résultat dans

Page 47: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

2.4. Le détecteur de visages CFF 47

FIG. 2.19 Quelques exemples d'images de visages (parmi 25.712 exemples) et de non-visages (parmi19.764 exemples) utilisées dans la phase d'apprentissage du CFF. Les non-visages (dernière ligne) sontobtenus par un procédé de bootstrap sur des images ne contenant pas de visage.

une fonction d'activation (tangente hyperbolique). Les paramètres sont là aussi partagés par tous les

neurones d'une carte. La couche C2 a donc huit paramètres à apprendre (w(2)j et b(2)

j , j ∈ 1, .., 4).

y(2)j (x, y) = φ

(w

(2)j

∑(u,v)∈0,12

y(1)j (2x+ u, 2y + v) + b

(2)j

), (2.3)

où φ(x) = A tanh(Sx) avec A = 1, 7159 et S = 23 , est la fonction d'activation [LLBH98].

Les quatre cartes de la couche C2 sont convoluées de la même manière chacune par deux ltres3 × 3 produisant huit cartes en couche C3. Les six autres cartes de C3 sont obtenues en convoluantchaque paire de cartes de C2 par des ltres 3 × 3. Cette étape de fusion permet d'obtenir des ca-ractéristiques combinées de plus haut niveau (comme par exemple des T ). Les cartes de C3 sontsous-échantillonnées par un facteur 2 dans la couche C4. Les 14 imagettes résultantes, de taille 6× 7,forment les vecteurs caractéristiques du visage et sont classées par un MLP partiellement connecté, oùchaque neurone de C5 reçoit une carte de C4. Le signe du neurone de sortie (C6), à fonction d'activationhyperbolique tangente, indique la classe (positif pour un visage et négatif pour un non-visage).

Contrairement à un schéma classique, où des caractéristiques extraites à l'aide de ltres spéciquesou génériques (comme les ltres de Gabor par exemple) sont ensuite classées par un MLP, dans ceschéma, l'apprentissage permet non seulement d'estimer les poids du MLP mais aussi de générer auto-matiquement les ltres d'extraction en amont (non-linéaires du fait des fonctions d'activation dans lescouches de sous-échantillonnage) reposant sur les poids partagés et les biais dans des champs réceptifslocaux.

L'ensemble des paramètres permettant l'extraction de caractéristiques dans les couches C1 à C4ainsi que les poids synaptiques du MLP en C5-C6, permettant la classication, sont appris par une des-cente de gradient visant à minimiser l'erreur quadratique moyenne entre les sorties et les valeurs désiréessur l'ensemble des images d'apprentissage (-1 pour les images des non-visages et +1 pour les imagesdes visages), le tout contrôlé par une base d'exemples de validation, pour éviter le sur-apprentissage.Nous avons utilisé pour cela l'algorithme de rétro-propagation du gradient, avec momentum, modiépour la gestion des poids partagés [LLBH98]. Des détails sur les équation gouvernant l'apprentissagesont présentés dans [Duf08].

Les expérimentations ayant conduit aux choix du nombre de cartes et de leur connectivité sontprésentées dans [GD03], où plusieurs congurations sont comparées.

Cette structure est capable de distinguer une image de visage d'une image de non-visage avecseulement 951 paramètres à apprendre, ce qui reste faible au regard de la dimension d'une imagette enentrée (36× 32 = 1.152). Pour comparaison, le système de MLP partiellement connecté de Rowley etal. [RBK96] contient 7.262 paramètres à estimer et le réseau de neurones à convolution de Vaillant etal. [VML94] en contient 1.157.

Le nombre total d'exemples de visages utilisés dans l'apprentissage est de 25.712, obtenus en ap-pliquant des transformations anes de faible amplitude (translations, rotation, changement d'échelle)aux 3.702 imagettes de visages extraites d'images très variées provenant d'internet ou de documentspapier scannés. Aucune correction lumineuse n'est appliquée sur ces exemples de manière à en conser-

Page 48: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

48 2. Détection de visages

FIG. 2.20 Évolution de la distribution des réponses pour les classes non-visages (avec un pic pour lavaleur -1) et visages (avec un pic pour la valeur +1).

ver toute la variabilité. Un certain nombre d'exemples de non-visages (virtuellement n'importe quellesportions d'images) sont collectés aléatoirement dans des images ne contenant pas de visage. Ils sontinitialement au nombre de 6.422.

À chaque époque de l'apprentissage, les exemples sont présentés de manière aléatoire et l'algorithmede rétro-propagation utilisant l'erreur quadratique entre la sortie désirée et la sortie obtenue est appliquépour chacun (apprentissage en-ligne). Lors d'une époque, le même nombre d'exemples de visages et denon-visages sont présentés au réseau de neurones pour ne pas biaiser l'apprentissage.

L'apprentissage est alors eectué durant plusieurs itérations, chacune correspondant à un certainnombre d'époques (environ 60). Il est considéré comme réalisé lorsque le nombre d'erreurs est minimumsur une base de validation composée d'exemples de visages et de non-visages, xée au début.

À l'issue de chaque itération, de nouveaux exemples de non-visages viennent compléter la base etl'apprentissage s'eectue sur cette nouvelle base lors de l'itération suivante. Une méthode de bootstrap,diérente de celle de Sung et Poggio, est proposée an de collecter ces exemples de non-visages surdes images ne contenant pas de visage. Sa particularité réside dans le fait que le seuil de sélectiondes faux positifs (classiquement 0) débute à une valeur élevée (0.8) et diminue ensuite avec le nombred'itérations durant l'apprentissage. Ainsi, le système se concentre sur les erreurs les plus signicatives(réponses proches de 1) lorsqu'il commet encore un grand nombre d'erreurs pour ensuite tenir comptedes erreurs moins signicatives (réponses proches de 0) lorsqu'il devient plus performant.

La gure 2.20 présente l'évolution des histogrammes des réponses de la structure neuronale sur lesimagettes d'apprentissage de visages et de non-visages. On observe deux distributions, correspondantaux exemples de visages et de non-visages, avec deux pics correspondant aux valeurs d'apprentissagedésirées (−1 pour les non-visages et +1 pour les visages). On peut noter que les deux distributions sontséparées autour de la valeur 0, avec une zone de recouvrement très faible. La distribution des réponsessur les exemples de visages restent stable tout au long de l'apprentissage, durant lequel de nouveauxexemples de non-visages sont introduits.

La recherche des visages est réalisée classiquement dans une pyramide Gaussienne de l'image. Dansla plupart des approches de l'état de l'art, du fait de la correction lumineuse (notamment l'égalisationd'histogramme), le classieur s'applique au contenu de la fenêtre glissante en chaque position. Pourtout déplacement de la fenêtre, la correction lumineuse doit être répétée et la classication réalisée ànouveau, indépendamment des calculs déjà réalisés pour des positions précédentes. Le fait de ne pasnormaliser le contenu de la rétine et les propriétés des réseaux de neurones à convolution (masquesde convolution de petite taille), permettent de factoriser une grande partie des calculs en appliquantles étapes de convolution et de sous-échantillonnage directement et en cascade sur l'image entière (àchaque niveau de la pyramide) et non dans toutes les positions successives d'une fenêtre glissante de36× 32 pixels (voir gure 2.21).

À chaque niveau de la pyramide, dans l'image résultat, les neurones dont la sortie est positiveindiquent la présence d'un visage candidat. Une fusion multi-échelle est réalisée et chaque zone candi-

Page 49: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

2.4. Le détecteur de visages CFF 49

FIG. 2.21 Les images produites par la cascade d'opérations de convolution et sous-échantillonnage,pour un niveau de la pyramide d'image.

date est à nouveau analysée localement par le détecteur de visage dans un voisinage limité en espaceet en échelle. Les scores de ces réponses positives dans cette pyramide locale sont sommés pour formerun volume, qui constitue le score de détection. Le choix d'une valeur seuil permet ensuite de rejeterd'éventuelles fausses alarmes, produisant un volume généralement très faible.

Dans [GD04], des courbes ROC (Receiver Operating Characteristic) montrent que l'algorithme estpeu sensible au choix du seuil. Cet article propose aussi des expérimentations détaillées qui permettentnotamment d'évaluer la robustesse de l'approche face aux variations d'angle et de contraste et à laprésence de bruits gaussiens. C'est à notre connaissance le seul article évaluant quantitativement larobustesse d'un détecteur de visages à plusieurs facteurs de variabilité.

Dans [GD02b], nous comparons l'approche CFF avec l'approche basée ondelettes que nous avionsproposée avec Georges Tziritas, sur la base DiVAN et nous obtenons un taux de détection de 99,0%pour une seule fausse alarme, en comparaison des 94,23% pour 20 fausses alarmes que nous avionsobtenus [GT99].

Pour comparer la méthode CFF avec les méthodes de l'état de l'art, nous utilisons la base de testCMU construite par Rowley et al. pour évaluer leur méthode, devenue base de test de référence dela communauté internationale. Il s'agit d'un ensemble de 130 images comprenant un nombre totalde 507 visages. Cette base d'images contient 23 images de la seconde base de test utilisé par Sunget Poggio [SP98], appelé MIT. Un sous-ensemble de la base de test CMU, nommé CMU-125, estaussi utilisé par de nombreux chercheurs. Il ne contient pas les visages dessinés ou extraits de bandesdessinées et contient 483 faces. Un sous-ensemble de la base de testMIT, excluant trois images extraitesde bandes dessinées est référencé en tant que MIT-20.

Le tableau 2.1 présente une comparaison des performances du CFF avec celles des méthodes del'état de l'art, en fonction du nombre de fausses alarmes maximum toléré (dépendant du choix dela fonction seuil du classieur) [VJ01, LZZ+02]. On observe que CFF donne des taux de détectionsupérieurs, spécialement pour un nombre très réduit de fausses alarmes. Cela illustre le fort pouvoirdiscriminant de l'approche. On constate aussi que la plupart des détecteurs atteignent un taux dedétection maximal voisin.

La plupart des méthodes voient une chute de leur taux de détection, pour un nombre faible defausses alarmes et aucun article, à notre connaissance, ne présente les taux de détection pour zérofausse alarme. La méthode CFF permet d'obtenir un taux de 88,8% sans fausse alarme, taux équivalentou supérieur aux résultats de Viola et Jones, Rowley et al., et Féraud et al., avec fausses alarmes.

Le tableau 2.2 résume les résultats publiés des méthodes de l'état de l'art, sur les bases CMU etMIT. On notera que les résultats du CFF obtenus sur la base CMU sont les meilleurs à ce jour, avec

Page 50: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

50 2. Détection de visages

TAB. 2.1 Comparaison des méthodes de détection de visages de l'état de l'art sur la base CMU :taux de détection en fonction du nombre de fausses alarmes.

Fausses alarmes

Détecteur de visage 0 10 31 65 167

Rowley et al. [RBK98a] - 83, 2% 86, 0% - 90, 1%Schneiderman et al. [SK98] - - - 94, 4%Li et al. [LZZ+02] - 83, 6% 90, 2% - -Viola et Jones [VJ01] - 76, 1% 88, 4% 92, 0% 93, 9%Osadchy et al. [OLM07] - - - 83, 0% 88, 0%

Garcia et Delakis [GD04] 88, 8% 90, 5% 91, 5% 92, 3% 93, 1%

TAB. 2.2 Comparaison des méthodes de détection de visages évaluées sur les bases CMU et MIT, entermes de taux de bonnes détections / nombre de fausses alarmes. Les méthodes marquées du symbole(*) visent également la détection de visages de prol.

Détecteur de visage CMU CMU-125 MIT MIT-20

Colmenarez et al. [CH97] 93, 9%/8122Féraud et al. [FBVC01] 86, 0%/8Yang et al. [YKA01] 93, 6%/74 91, 5%/1Osuna et al. [OFG97] 74, 2%/20Roth et al. [RYA00] 94, 8%/78 94, 1%/3Rowley et al. [RBK98a] 86, 2%/23 84, 5%/8Schneiderman et al. [SK98] 94, 4%/65*Schneiderman et al. [SK00] 90, 2%/110Sung et al. [SP98] 79, 9%/5Viola et al. [VJ01, VJ02] 88, 4%/31 77, 8%/5*Li et al. [LZZ+02] 90, 2%/31*Osadchy et al. [OLM07] 83, 0%/65

Garcia et Delakis [GD04] 90, 3%/8 90, 5%/8 90, 1%/7 90, 2%/5

90,3% de bonnes détections pour seulement huit fausses alarmes.La gure 2.22 présente des exemples de résultats obtenus sur la base CMU et la base Cinéma, que

nous avons construite avec Manolis Delakis à partir d'images extraites de lms et considérées commetrès diciles. Nous obtenons un taux de détection 90,2% pour seulement trois fausses alarmes. Onnotera la présence de nombreux visages achant des expressions faciales marquées, tout comme desvisages partiellement occultés, dans des conditions d'éclairage variées, sur des fonds complexes.

Page 51: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

2.4. Le détecteur de visages CFF 51

FIG. 2.22 Quelques exemples de résultats du CFF sur les bases : (a) CMU et (b) Cinema.

Page 52: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

52 2. Détection de visages

2.5 Comparaison du CFF avec d'autres solutions du marché

Nous avons par ailleurs procédé à une série d'évaluations visant à comparer le détecteur CFF parrapport à des solutions du marché, dont la solution de Google disponible dans leur environnementd'édition et de gestion de photos Picasa Web Album. Ces évaluations ont porté sur 2.206 visages àdétecter dans 1.183 images issues de bases internationales publiques comme la base d'images Caltechet la base CMU mais aussi de bases que nous avons construites pour évaluer diérents facteurs devariabilité (condition d'éclairage, résolution, pose, point de vue). Les résultats présentés dans le ta-bleau 2.3 montrent la nette supériorité du CFF, tant en taux de détection qu'en nombre de faussesalarmes.

TAB. 2.3 Comparaison de la technique CFF avec d'autres solutions du marché.

Solution Taux de détection Nb de fausses alarmes

FIIS 59,0% 220BetaFace 72,2% 74OpenCV 74,4% 112Google 79,6% 87Luxand 81,52% 91

CFF 90,6% 17

Les solutions évaluées sont : OpenCV (http ://www.intel.com/technology/computing/opencv/overview.htm) est une librai-rie de méthodes de vision par ordinateur de la société Intel qui implémente l'approche baséeAdaboost de Viola et Jones [VJ01]. Cette solution est utilisable sous licence libre BSD (BerkeleySoftware Distribution license), qui permet de réutiliser tout ou partie du logiciel sans restriction,qu'il soit intégré dans un logiciel libre ou propriétaire. Elle est par conséquent la méthode la plusutilisée, y compris dans la communauté académique.

FIIS (http ://www.iis.fraunhofer.de/EN/bf/bv/kognitiv/biom/dd.jsp) : l'institut des circuitsintégrés de Fraunhofer (FIIS) possède une expertise reconnue dans les domaines de la biométrieet commercialise un kit de développement (SDK) de détection de visages, basé sur l'analyse desorientations des contours sur le visage [FK00].

Google (http ://picasaweb.google.com) propose en beta-test de nouvelles fonctionnalités dansleur gestionnaire de collections de photos Picasa (Name Tags) pour annoter de manière semi-automatique les visages sur les photos. Google utilise la technologie de détection et de reconnais-sance de visages obtenue lors de l'acquisition de la société NevenVision, en 2006.

Luxand (http ://www.luxand.com) est une société américaine créée en 2005, qui commercialiseun SDK permettant la détection automatique de visages et de caractéristiques faciales (yeux,nez, bouche) sur des images de visages en position frontale, pour réaliser automatiquement lemorphing de deux visages, la simulation d'un vieillissement, ou la création automatique d'unavatar 3D à partir d'une vue d'un visage.

BetaFace (http ://www.betaface.com) est une société allemande implantée à Daisendorf, quicommercialise un SDK permettant la détection de visages, des éléments faciaux, la reconnaissancepour la mesure de similarité avec des célébrités, et le morphing. BetaFace concurrence Luxanden adressant le marché de la publicité, de la communication et de la monétisation des sites web,notamment avec le site MyFaceID (http ://www.myfaceid.com) proposant une liste de célébritésressemblant à une image envoyée par l'utilisateur.

Page 53: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

2.6. L'architecture CFF et la détection d'objets 53

2.6 L'architecture CFF et la détection d'objets

L'approche que nous venons de décrire s'est avérée la plus performante de l'état de l'art, avec untaux de fausses alarmes particulièrement bas sur l'ensemble des bases d'évaluation complexes de lacommunauté. An de proposer ce schéma dans le cadre plus général de la détection d'objets, nousavons évalué la méthode CFF dans des contextes plus variés, en considérant : le cas des logos dechaînes de télévision transparents, où le fond et la forme peuvent se confondre ; le cas de la détectionde silhouettes de joueurs dans des vidéos de football, où la résolution des images est basse et où lesformes varient fortement dans des conditions de ou liées à la capture vidéo ; et enn le cas de ladétection d'objets structurés en multi-vues, dans le cadre d'une compétition internationale.

2.6.1 Détection de logos transparents

Dans [DG06], nous proposons, avec mon doctorant Stefan Duner, d'appliquer le schéma d'appren-tissage et de recherche de la méthode CFF à la détection de logos de chaînes de télévision. Les logosrecherchés, notamment celui de France Télévision 2, incrusté par transparence, constitue un cas d'étudetrès intéressant pour évaluer la robustesse de notre approche dans le cas où le fond est extrêmementvariable et la forme varie avec ce fond, jusqu'à être quasi-indiscernable par l'÷il (voir gure 2.23). Lesméthodes traditionnelles de détection de logos notamment basées sur la corrélation normalisée sontnettement dépassées dans ces conditions. Sur une base de 800 images, dont 13 contiennent un logoinvisible, le système produit un taux de détection de 82% sans fausse alarme.

2.6.2 Détection de silhouettes dans des vidéos de sport

Avec Antoine Lehuger et Stefan Duner, nous avons appliqué CFF à la détection de silhouettes dejoueurs de football dans des séquences vidéo extraites des retransmissions télévisuelles de la coupe demonde 2006 [LDG07]. Il s'agit d'un problème dicile étant donnée la taille très réduite (12×24 pixels)et la forte variabilité des formes, la basse résolution des images et l'inuence du ou lié au mouvement(voir gure 2.24). Sur 6000 images de deux parties (France-Italie et Angleterre-Portugal) contenant57.532 silhouettes, à l'aide d'un modèle appris pour chacune des équipes sur des parties antérieures,CFF permet d'obtenir un taux de détection de 91,08% avec 1,19% de fausses alarmes (sur l'ensembledes images) alors que l'approche Viola-Jones permet d'obtenir un taux de détection de 85,41% avec2,70% de fausses alarmes. Dans le cas où un modèle générique est construit avec les exemples provenantde l'ensemble des équipes, nous obtenons un taux de détection de 81,50% pour CFF et de 78,03% pourViola-Jones, avec des taux de fausses alarmes équivalents de 1,73%.

2.6.3 Participation à la compétition Visual Object Classes Challenge

Nous avons aussi évalué le potentiel de ce détecteur d'objet lors de la compétition Visual ObjectClasses Challenge (VOCC), organisée dans le cadre du réseau d'excellence PASCAL [EZW+06]. Cettecompétition proposait un ensemble de tests de détection sur des objets variés comme les voitures, lesmotos ou les personnes.

La méthode CFF a été classée seconde derrière deux méthodes proposées par l'université de Darm-stadt, et basées sur une représentation des objets par zones saillantes avec classication par des SVMs,dans le cas de la détection de motos (voir courbes de précision/rappel dans la gure 2.25). Les résul-tats pourraient être nettement améliorés si l'on considère les deux points suivants : tout d'abord, nousavons utilisé une seule rétine, avec un ratio d'aspect xe qui ne permet pas de s'adapter au mieux auproblème de la détection multi-vues sur ce type d'objets (les vues de côtés occupent une boîte englo-bante rectangulaire horizontale alors que les vues quasi-frontales occupent plutôt une boite englobanteverticale). De plus, nous avons utilisé uniquement les exemples d'apprentissage fournis dans le cadrede la compétition, leur nombre étant faible pour notre apprentissage discriminatif (chaque compétiteurpouvait augmenter à volonté la base d'exemples). L'augmentation du volume de la base d'apprentis-sage et l'apprentissage de plusieurs détecteurs CFF, spécialisés sur les vues semi-frontales et les vues

Page 54: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

54 2. Détection de visages

FIG. 2.23 Application de l'approche CFF à la détection de logos transparents [DG06] : en haut, lastructure neuronale, quelques exemples d'imagettes d'apprentissage et des exemples de résultats de ladétection.

Page 55: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

2.6. L'architecture CFF et la détection d'objets 55

FIG. 2.24 Application de l'approche CFF à la détection de joueurs de football [LDG07] : en haut,la structure neuronale, quelques exemples d'imagettes d'apprentissage et des exemples de résultats dela détection : un détecteur par équipe (première ligne) et un détecteur générique pour tous les joueurs(deuxième ligne).

Page 56: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

56 2. Détection de visages

de côté, conduiraient à une amélioration certaine des résultats. Cette application particulière n'étantpas une priorité dans le cadre de nos études, nous n'avons pas investi de temps dans le constitutiond'un tel corpus d'exemples.

Dans le cas des tests portant sur la détection de voitures, les poses plus variables (vues de face,arrière et côté) et le nombre réduit d'exemples d'apprentissage ont clairement handicapé notre solution,avec des résultats nettement inférieurs à ceux des approches de l'Inria et de Darmstadt.

FIG. 2.25 Résultats de la compétition VOCC en détection de motos [EZW+06].

Page 57: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

2.7. Le détecteur de visages CFF embarqué 57

FIG. 2.26 Le détecteur CFF implémenté sur DSP et sur mobile.

2.7 Le détecteur de visages CFF embarqué

Les approches que nous venons de présenter proposent des algorithmes implantés sur des stationsde travail peu contraintes en puissance de calcul et mémoire.

Avec Franck Mamalet et Sébastien Roux, nous avons proposé d'étudier l'implantation de l'approcheCFF sur des architectures contraintes comme les téléphones portables ou les terminaux mobiles. Pourrépondre aux contraintes de l'embarqué et du temps réel, il s'agit alors de considérer simultanémentles aspects algorithmiques et architecturaux en prenant en compte leurs interrelations à l'aide del'adéquation algorithme-architecture (A3). Une telle méthodologie étudie l'impact d'une modication(simplication, approximation) de l'algorithme sur les possibilités d'implantations pour une architec-ture cible donnée. Inversement, partant d'une architecture cible donnée, l'objectif sera de considérerl'adaptation de l'algorithme pour cette architecture, et/ou la dénition d'une architecture répondantau mieux au caractéristiques du ou des algorithmes.

Comme nous l'avons évoqué, l'approche CFF, initialement développée pour la détection de visages,générique, peut s'appliquer à d'autres objets dès lors que l'on dispose d'un ensemble d'apprentissage.Cette implémentation sur systèmes embarqués, permet donc, simplement en chargeant une mémoire(coecients synaptiques) de passer d'une application à une autre.

Tang et al. [TOSZ05] ont proposé l'implantation de l'approche de Viola et Jones sur téléphonesportables dotés d'un processeur ARM, et Kim et al. [KSK04] sur une plateforme à bases de DSP deTexas Instruments. D'autres travaux s'intéressent à l'implémentation sur du hardware dédié, commedans [TLV+04] où Theocharides et al. proposent une implantation ASIC (Application Specic IntegratedCircuit) du détecteur de Rowley et al.. Cependant, dans ces implantations temps réels, un compromisdoit être trouvé entre taux de détection et vitesse d'exécution ainsi que quantité de mémoire allouée.Dans la plupart de ces solutions, l'implantation du détecteur de visages engendre une perte signicativeen taux de détection.

Dans [RMG06, RMG07, RMGD07], nous proposons une méthodologie issue de l'A3, permettantune implémentation, sans perte d'ecacité de l'approche CFF, sur des plateformes variées à basede processeurs ARM (Xscale, IMX21), de DSP (Starcore) et sur téléphone mobile Orange SPVM3000. Pour cela, à partir de l'implémentation sur station de travail de l'approche originale, nous nousintéressons au codage des données, à la simplication algorithmique ainsi qu'à l'étude du parallélismeet de la gestion de mémoire.

Nous montrons ainsi qu'il est possible d'eectuer l'intégralité des calculs en codant les paramètresde la structure neuronale en virgule xe sur 16 bits, sans dégrader les performances de l'algorithme,alors que le codage initial était en virgule ottante sur 64 bits. Nous montrons ainsi que, grâce aux

Page 58: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

58 2. Détection de visages

Xscale PXA27x Starcore SC140 Pentium IV@ 624MHz @ 275MHz @ 3.2GHz

Code original en ottant 0.3 fps - 10 fpsVersion en xe 4.5 fps 7 fps 32 fpsVersion optimisée 6.5 fps 13 fps 58 fpsVersion trackeur 16.5 fps 35 fps 180 fps

TAB. 2.4 Vitesse d'exécution du CFF sur diérentes plateformes (en frames par seconde) sur desimages QCIF (176× 144 pixels).

fonctions d'activation des couches C2,C4,C5 et C6, la précision sur les poids synaptiques, appris parrétro-propagation du gradient, peut être diminuée sans aecter la cascade des calculs dans les couchessuccessives.

D'autre part, une étude approfondie des dépendances de données nous permet, d'une part, demontrer qu'il est possible de fusionner les étapes de convolutions et sous-échantillonnage réduisant ainsila complexité algorithmique totale. D'autre part, nous montrons qu'il est possible de traiter l'imagepar blocs de quatre lignes ce qui permet de diviser par 20 la quantité de mémoire nécessaire [RMG07].

Une optimisation spécique est aussi conduite qui permet de transformer le détecteur de visage enun trackeur de visage dans une vidéo.

Au nal, notre méthodologie d'optimisation permet un gain de vitesse d'un facteur 55 sur plateformeXscale PXA27x et la possibilité de traitement temps réel (jusqu'à 35 image QCIF par seconde) surStarcore DSP. L'optimisation du code sur PC Pentium 4 à 3.2GHz permet une détection à 58 imagesQCIF par seconde en mode détection et jusqu'à 180 images QCIF par seconde en mode trackeur (voirtableau 2.4).

De plus, le taux de détection sur la base de test CMU est maintenu avec 86,75% de bonnes détectionspour seulement quatre fausses alarmes.

Ce haut niveau de robustesse du détecteur allié à son implantation temps réel fait de cette solutionla plus performante au niveau académique et au niveau commercial. Cette technologie est intégréedans plusieurs services de visioconférence, d'indexation de ux télévisuels et de moteur de recherchebasée images de France Télécom. Des études de commercialisation vers des constructeurs de téléphonesmobiles sont en cours.

Ces travaux se sont poursuivis en considérant une implémentation de l'algorithme CFF sur circuitintégré reprogrammable FPGA (Field-Programmable Gate Array), dans le cadre de la thèse de NicolasFarrugia, de 2005 à 2008, co-encadrée par Franck Mamalet à Orange Labs et par Michel Paindavoinedu laboratoire LE2I de l'Université de Bourgogne [Far08].

En 1992, Säckinger, Boser, Bromley, Lecun et Jackel [SBB+92] ont conçu un prototype ASICde processeur massivement parallèle pour les réseaux de neurones, appelé ANNA (Articial NeuralNetwork Architecture), capable d'eectuer 2000 multiplications et additions par cycle. La mise en ÷uvred'un système de reconnaissance de caractères (inspiré de LeNet-5) sur cette architecture nécessite d'unepart, un apprentissage particulier des coecients, et d'autre part ne permet pas d'exploiter de façonoptimale tout le parallélisme du circuit (130.000 connections par seconde sur les 5Giga possibles).

La thèse de Nicolas Farrugia propose une architecture parallèle capable d'implanter ecacementtous les étages du système CFF. À l'aide notamment d'outils comme Syndex, une architecture théoriqueoptimale composée de Processeur Élémentaires (PEs) connectés en anneau est proposée, trois versionsintégrant de 1 à 16 PEs étant implémentées sur FPGA, permettant une détection dimensionnableen tailles d'images à traiter [FMR+07, FMR+09]. Ces travaux ont permis de développer le premierdémonstrateur sur FPGA d'un algorithme robuste de détection de visages.

Page 59: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

2.8. Conclusion 59

2.8 Conclusion

Les avancées impressionnantes réalisées dans le domaine de la détection de visages ces dix dernièresannées ont abouti à des méthodes très robustes permettant de traiter des images prises dans desconditions non-contraintes et dont des implémentations se retrouvent aujourd'hui dans nos appareilsphotographiques numériques et nos téléphones portables.

Les méthodes basées images ont nettement pris le pas sur les méthodes plus traditionnelles dudomaine du traitement du signal reposant sur la recherche et l'extraction de caractéristiques locales.Détecter ces éléments caractéristiques sur l'ensemble de l'image et analyser a posteriori leur distributionspatiale s'est en eet avéré très dicile et peu robuste, dans le cas d'images de résolution et de qualitévariables, présentant des scènes complexes, sous des éclairages variés, les visages pouvant être de petitetaille et partiellement occultés.

Le tournant important du domaine, au début des années 1990, a été le fait de considérer le visage,non plus explicitement comme un ensemble d'éléments caractéristiques formant une structure, maisplutôt, comme une matrice de pixels ou un vecteur dans un espace de grande dimension, qu'il s'agitde distinguer de toute autre imagette constituant le fond de l'image. Des techniques discriminatives,statistiques ou neuronales, reposant sur un apprentissage automatique, dont notre solution CFF, ontensuite fait la preuve de leur ecacité dans ce contexte, n'utilisant pas ou très peu de connaissancesa priori sur le visage. Ce cadre applicatif particulier, qui a bénécié d'un intérêt spécique de lacommunauté internationale, a permis ainsi de faire émerger ou de valider des méthodes génériques, quiviennent enrichir la boîte à outils de la vision par ordinateur.

Page 60: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

60 2. Détection de visages

Page 61: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

Chapitre 3

Alignement de visages

3.1 Introduction

La plupart des systèmes d'analyse automatique de visages visant l'identication, la reconnaissancedu genre ou des expressions ou encore la création d'avatars, reposent sur une phase préalable dedétection/localisation qui a pour objectif d'extraire précisément les zones de l'image (délimitées géné-ralement par des rectangles dits boîtes englobantes) contenant uniquement les visages à analyser. Pourêtre ecaces en temps de calcul, les méthodes de l'état de l'art discrétisent l'espace de recherche, quiest très grand, en position, échelle et orientation et les boîtes englobantes détectées peuvent alors êtreimprécisément centrées sur les visages.

Or, comme l'ont montré Shan et al. [SCG+04] et Rentzeperis et al. [RSPP06], les performancesde la plupart des méthodes d'identication de visages ou de reconnaissance d'expressions se dégradentsignicativement lorsque les images de visage extraites ne sont pas centrées en position et en échelleet précisément alignées de manière à ce que les éléments faciaux se retrouvent, d'un visage à l'autre,dans des positions prédéterminées de la boîte englobante.

Pour réaliser l'alignement précis des visages, il est alors nécessaire de repérer nement les traitscaractéristiques du visage comme, par exemple, la position des yeux, du nez et de la bouche, ande recentrer précisément les boîtes englobantes, et ainsi d'adapter ces dernières à la pose et à lamorphologie particulières du visage à analyser.

La localisation précise des points d'intérêt sur le visage permet aussi de nombreuses applicationsspéciques comme le codage de visages basé modèle, la création d'avatars, l'animation synthétiqued'images de visage xes par déformations locales (morphing), et plus généralement les interactionshomme-machine utilisant la vision articielle (suivi de la direction du regard de l'utilisateur, lecturelabiale, reconnaissance des émotions, etc.).

Dans ce chapitre, nous proposons un panorama des méthodes de l'état de l'art puis nous présentonstrois études permettant un alignement robuste des visages, reposant sur la détection d'éléments faciauxou visant au recentrage direct des boîtes englobantes, sans passer explicitement par une phase dedétection des traits du visage.

La première étude, menée dans le cadre de la thèse de Sylvain Le Gallou [LeG07], concerne larecherche des éléments faciaux par mise en correspondance d'un maillage déformable 2D, contenant denombreux points de contrôle, sur des images de visage, issues d'un ux vidéo provenant d'une webcam.Nous nous situons dans le contexte des interfaces homme-machine pour notamment l'animation tempsréel d'un agent conversationnel de synthèse.

Les deux autres études sont issues des travaux de thèse de Stefan Duner [Duf08].

L'une traite du cas plus général de la détection robuste des éléments faciaux dans des images tout-venant , présentant des conditions d'éclairage, de bruits et de résolution variés, les visages pouvantêtre partiellement occultés.

L'autre porte sur une approche pour l'alignement de visages, ne reposant pas sur la phase dedétection des éléments faciaux, mais procédant par recentrage automatique des boîtes englobantesproduites par le détecteur de visages.

61

Page 62: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

62 3. Alignement de visages

FIG. 3.1 Détection des éléments faciaux dans les EigenfeatureSpaces : de gauche à droite, l'imageoriginale et les images représentant la Distance From Feature Space (DFFS) calculée pour toutes leszones de l'image dans l'espace propre correspondant à chaque élément facial (÷il droit, ÷il gauche, nezet bouche). La minimum de la distance DFFS indique la position de l'élément facial.

3.2 Détection des éléments faciaux

3.2.1 État de l'art

La détection des éléments faciaux correspond généralement à la localisation des points caractéris-tiques, comme les yeux, le nez et la bouche. En fonction de la résolution des images et de l'applicationvisée, on peut s'intéresser également à la détection des coins des yeux, des sourcils, de l'iris de l'÷il oudes points de contour du menton. Les approches proposées dans la littérature sont très nombreuses etdépendent fortement du contexte applicatif.

Dans certaines approches, la détection des éléments faciaux est à la base même du détecteur devisages, comme nous l'avons vu au chapitre 2 : la recherche de certains éléments faciaux est réalisée danstoute l'image et une analyse des congurations particulières (constellations) des ces éléments permetde localiser le visage [Gov96, YH94, LI97, LL96, MP97, WFKvdM97, GST01, Sin94, HKK+05].

La plupart des autres approches opèrent dans la boîte englobante du visage, une fois celui-ci détecté.L'objectif est alors d'aligner les visages pour les identier ou en analyser les expressions. Dans le casgénéral, les algorithmes doivent être robustes aux variations d'éclairage, aux bruits aectant l'imageet aux variations de sa résolution, aux occultations partielles et aux erreurs de centrage de la boîteenglobante.

Les approches de détection d'éléments faciaux peuvent être schématiquement divisées en deuxcatégories : les approches basées sur la recherche contrainte de caractéristiques et les approches baséessur des modèles déformables. Les méthodes de la première catégorie cherchent à détecter certainséléments faciaux et cela indépendamment les uns des autres. La seconde catégorie regroupe, quant à elle,les techniques d'alignement de visages se basant sur une modélisation globale du visage. Les méthodesde la première catégorie appliquent des traitements locaux par ltrage ou corrélation, pour localiserdes éléments faciaux candidats parmi lesquels est sélectionnée la meilleure combinaison par rapport àun modèle géométrique. Les approches de la seconde catégorie tentent de mettre en correspondanceitérativement une grille, un graphe ou un modèle déformable sur le visage. La position des n÷uds dela grille ou des points de support du modèle déformable correspondent aux éléments faciaux lorsquel'algorithme a convergé, généralement, vers le minimum d'une fonction de coût appropriée.

3.2.1.1 Approches basées sur la recherche contrainte de caractéristiques

Les premières méthodes ayant été proposées reposent sur une analyse bas-niveau de la couleur oude l'intensité de l'image du visage. Elles sont peu robustes aux variations d'éclairage, aux variationsd'expressions faciales et à la présence d'occultations partielles. Parmi ces méthodes, de très nom-breuses appliquent des techniques de segmentation reposant sur le ltrage de la teinte particulièredes zones du visage comme les yeux [FY01, VPY02, WZ03, BK03, CTY+03], les narines [CCF00] etles lèvres [BAMU03, LBC01, SHMJ02, CTY+03, VSD04]. Certaines approches accumulent les valeursd'intensité de chaque pixel le long des lignes et des colonnes de l'image an d'obtenir des courbes d'ac-cumulation horizontales et verticales, dont l'analyse des maxima locaux permet de repérer les lèvres,les yeux et le nez [AR99, MC01, LLS01].

Page 63: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

3.2. Détection des éléments faciaux 63

D'autres reposent sur la recherche d'éléments géométriques à partir des contours, notamment enutilisant la transformée de Hough (des ellipses pour rechercher les yeux [VSD04], des hyperboles pourles lèvres [TKC99] ou des cercles pour les iris des yeux [NS03, KR03]) ou encore les contours actifs,des formes géométriques déformables dynamiquement vers les formes recherchées, an d'obtenir parexemple les contours des lèvres [LDC+99, LL04]. Lin et al. [LW99] proposent une méthode qui, dansun premier temps, segmente les pixels appartenant au visage à l'aide d'un algorithme de croissancede région (region growing), puis localisent les éléments faciaux (yeux, sourcils, nez et bouche) via unalgorithme génétique dans lequel la fonction d'évaluation (tness) repose sur un ensemble d'heuristiquesportant sur l'intensité des pixels. Jesorsky et al. [JKF01] réalisent une détection de contours dansl'image, à l'aide du ltre de Sobel, et mettent en correspondance un modèle des contours du visageavec les contours de l'image en utilisant la distance de Hausdor. La localisation des yeux est ensuiteanée grâce à un modèle de contours spécique.

Plus robustes au bruit, d'autres méthodes ne reposent pas sur des traitements purement bas-niveau,mais proposent d'utiliser des détecteurs spécialisés pour chaque élément à rechercher, mettant en ÷uvredes classieurs qui prennent en compte les zones d'images autour de chaque élément, à la manière desdétecteurs de visages basés image, présentés dans le chapitre précédent. Les éléments faciaux sontalors recherchés indépendamment et les positions candidates sont ensuite ltrées grâce à des modèlesgéométriques intégrant les contraintes morphologiques du visage.

Vincent et al. [VWM91] proposent un système permettant de détecter les yeux et la bouche enutilisant plusieurs réseaux de neurones MLPs, un pour chaque élément à détecter. Ils appliquent unestratégie coarse-to-ne, pour localiser 12 micro-caractéristiques, cinq pour chaque ÷il et deux pour labouche. Un estimateur basé maximum de vraisemblance permet alors de détecter les combinaisons decaractéristiques les plus probables. Reinders et al. [RKG96] présentent une approche similaire utilisantun MLP entraîné sur les magnitudes et orientations du gradient an de détecter approximativementles positons des yeux et ensuite quatre MLPs pour détecter les micro-caractéristiques.

Leung et al. [LBP95] appliquent une ensemble de ltres multi-orientations et multi-échelles baséssur des dérivées Gaussiennes pour localiser quatre points caractéristiques du visage. Ils apprennentles congurations correctes des éléments faciaux à partir de la distribution Gaussienne des distancesmutuelles. Yow et Cipolla [YC97] utilisent aussi des ltres approximant les dérivées de Gaussiennesd'ordre deux pour localiser les éléments faciaux. Les contours autour de ces points d'intérêt sontorganisés en paires, la méthode de regroupement et de fusion en visage candidat étant basée sur laréseaux de croyance (belief networks).

Moghaddam et al. [MP97] modélisent les éléments faciaux en appliquant une ACP (Eigenfeatures).Durant la recherche, chaque zone d'image, extraite dans une boîte englobante de dimensions adaptéesà chaque élément facial, est projetée dans l'espace propre (EigenfeatureSpace) de chaque élément facialpuis reconstruite. L'erreur résiduelle entre la zone d'image et sa reconstruction permet de construireun distance (Distance From Feature Space, DFFS ) dont le minimum permet de repérer l'élément facialcorrespondant (voir gure 3.1). La distribution Gaussienne des éléments détectés permet de validerles congurations correctes à l'aide d'un modèle probabiliste. Shakunaga et al. [SOO98] étendent cetteapproche en appliquant une approche itérative basée sur un modèle 3D et Kawaguchi et al. [KR03]l'appliquent à des images ltrées par des ondelettes. Suivant le même principe, Heisele et al. [HHWP03]utilisent des classieurs SVMs pour modéliser les régions autour des éléments faciaux (yeux, nez etbouche) et pour classier les congurations obtenues durant la recherche.

Nous avons proposé une approche, décrite dans le chapitre 2, reposant sur un modèle géométriquedéformable du visage, et une analyse de la texture locale pour la détection des éléments faciaux (yeux,nez, bouche) [GST01]. La texture des éléments faciaux est analysée à partir de la décompositionen paquets d'ondelettes proposée dans [GT99]. Pour chaque élément, des mesures d'écart type sontextraites dans des sous-bandes particulières, sélectionnées en fonction de leur pouvoir discriminant.

Feris et al. [FGTK02] quant à eux proposent une approche hiérarchique à deux niveaux utilisantdes réseaux d'ondelettes de Gabor (Gabor Wavelet Networks, GWN ). Le GWN de premier niveau estentraîné pour localiser le visage et les positions approximatives des éléments faciaux (yeux, coins de labouche et narines). Le GWN de second niveau ane alors leur localisation.

Page 64: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

64 3. Alignement de visages

FIG. 3.2 À gauche : modèles à distribution de points (PDM) avec exemples de formes et les troisprincipaux modes de variations autour de la forme moyenne ; à droite : mise en correspondance itérativedu modèle de forme sur une image de visage par l'algorithme ASM [CT93].

Hamouz et al. [HKK+05] utilisent une banque de ltres de Gabor et un modèle de mélangesgaussiens (Gaussian Mixture Model, GMM ) pour rechercher dix caractéristiques faciales. Des tripletsde points caractéristiques sont alors combinés pour former des visages candidats. La classication deces visages candidats est ensuite réalisée à l'aide d'un SVM, basée sur les caractéristiques de ces triplets.Les points caractéristiques appartenant à un visage validé sont retenus.

3.2.1.2 Approches basées sur des modèles déformables

Si les approches basées sur la recherche individuelle de caractéristiques peuvent être considéréescomme ascendantes (bottom-up), d'autres méthodes peuvent être considérées comme descendantes(top-down), cherchant à déformer un modèle global pour le mettre en correspondance avec les carac-téristiques locales de l'image.

Parmi celles-ci, les plus populaires reposent sur une modélisation statistique des distributions pos-sibles d'un ensemble de points caractéristiques du visage (constituant une forme). Sozou et al. [SCT94]introduisent les modèles à distribution de points (Point Distribution Model, PDM ), an de former leprototype d'une forme moyenne doté de modes de variation combinables, appris à l'aide d'une ACP,sur un ensemble d'apprentissage d'instances de la forme (voir gure 3.2). Exploitant le PDM, Co-otes et al. [CT93], proposent les modèles actifs de forme (Active Shape Model, ASM ). L'algorithmeASM cherche à mettre en correspondance la forme sur une image de visage en alternant itérativemententre deux étapes qui consistent à chercher localement autour de chaque point de la forme, la meilleureposition (sur le contour le plus proche) et à mettre à jour les paramètres de la forme obtenue en lacontraignant par le PDM. La mise en correspondance des points étant locale et reposant sur le gra-dient, l'approche ASM est sensible à l'initialisation en position et en échelle du modèle et se montrepeu robuste face aux variations d'éclairage ou au bruit aectant les images.

Cootes et al. [CET01] proposent alors de modéliser conjointement les variations possibles de formeet de texture (intensité des pixels), en introduisant les Modèles d'Apparences Actifs (Active AppearenceModel, AAM ). Un PDM est dans un premier temps construit sur la base des formes. Les textures sontalors déformées pour s'aligner sur la forme moyenne, via des opérations de déformation (warping) detriangles issus de la triangulation de Delaunay. Une ACP est alors appliquée sur des vecteurs concaté-nant les vecteurs de forme et de texture correspondants à chaque exemple, permettant ainsi d'estimerl'apparence moyenne et ses principaux modes de variations (voir gure 3.3). En phase de recherche,à partir d'une position initiale de la forme sur le visage (placée en fonction de la boîte englobante),le vecteur d'apparence moyen est projeté dans l'espace des apparences, donnant un vecteur de para-mètres qui est ensuite itérativement modié pour que l'erreur résiduelle entre l'apparence reconstruitecorrespondante et l'image originale soit minimisée (voir gure 3.3). Cootes et al. font l'hypothèse quela variation des paramètres dépend linéairement de cette erreur résiduelle et estiment une matrice detransformations à partir des exemples d'apprentissage et d'une série de déformations connues, agis-

Page 65: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

3.2. Détection des éléments faciaux 65

FIG. 3.3 Modèles d'Apparences Actifs (AAM) [CET01] : en haut, les quatre premiers modes devariations de l'apparence combinant forme et texture ; en bas, convergence des Modèles d'ApparencesActifs, déformant conjointement forme et texture.

FIG. 3.4 Méthode ASM avec modélisations locales de l'image [CC04].

sant sur les paramètres du modèle et incluant les transformations géométriques globales comme latranslation, la rotation et le zoom.

Du fait des hypothèses de linéarité et de la description des textures directement à partir des pixels,l'approche AAM originale est peu robuste aux variations non-linéaires de l'éclairage, aux bruits et oc-cultations pouvant aecter les images de visage. Pour lever ces limitations, Cristinacce et Cootes [CC04]proposent une méthode de détection d'une forme comprenant 17 points caractéristiques, qui repose surun modèle hybride d'ASM avec modélisations locales de l'image (voir gure 3.4). Cet ASM est construità partir de vecteurs de caractéristiques comprenant l'intensité de l'image dans des zones (yeux, coinsde la bouche), une carte des orientations des contours et une carte des réponses à des classieursbasés Adaboost, spécialisés dans la recherche des yeux et des coins de la bouche. La recherche esteectuée itérativement via une méthode d'optimisation non-linéaire appelée (Shape Optimized Search,SOS ). Dans [CCS04], Cristinacce et al. proposent une extension de ces travaux utilisant un modèleAAM et la modélisation des distributions conditionnelles de paires de points caractéristiques, à partird'histogrammes.

3.2.1.3 Comparaisons

Comparer la performance des méthodes décrites dans les sections précédentes est dicile, étantdonné que les auteurs utilisent des bases d'images diérentes, souvent privées, pour évaluer leurs mé-thodes. De plus, les diérentes approches ne détectent pas les mêmes éléments faciaux. Nous présentonsnéanmoins un aperçu des performances de ces méthodes dans le tableau 3.1. L'erreur permise, présentéeen dernière colonne, représente l'erreur seuil normalisée par la distance interoculaire.

Pour une erreur permise de 5%, Feris et al. [FGTK02] obtiennent de bons résultats sur un ensembled'images provenant des bases Yale [BHK97] et FERET [PWHR98a]. Pour une erreur permise de 10%,Jesorsky et al. [JKF01] rapportent de bons résultats sur la base XM2VTS [MMK+99] et des résultatsacceptables sur la base plus complexe BioID [Res01]. Reinders et al. [RKG96] obtiennent aussi debons taux de détection mais sur une base privée, rendant dicile les comparaisons. Cristinacce et

Page 66: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

66 3. Alignement de visages

Auteurs Bases d'images Éléments faciauxTauxde

détection

Erreurpermise

Leung [LBP95] privée yeux, nez (5 pts.) 86% -

Reinders [RKG96] privée yeux (4 pts.) 96% 10%

Shakunaga [SOO98] privéeyeux, nez, bouche

96% -oreilles (8 pts.)

Jesorsky [JKF01]BioID [Res01]

yeux (2 pts.)80% 10%

XM2VTS [MMK+99] 92% 10%

Feris [FGTK02]Yale [BHK97]

yeux (4 pts.) 95% ≈ 5%narines (2 pts.) 95% ≈ 5%

FERET [PWHR98a] bouche (2 pts.) 88% ≈ 5%

Cristinacce [CC04] BioID [Res01]yeux, nez, bouche 85% 10%

(17 pts.) 96% 15%

Hamouz [HKK+05]BioID [Res01] yeux, nez,

bouche(10 pts.)

76% 5%XM2VTS [MMK+99] 88% 5%BANCA [BBBB+03] 81% 5%

TAB. 3.1 Panorama des résultats des méthodes de détection d'éléments faciaux.

Cootes [CC04] rapportent des résultats intéressants de 96% et 85% pour des erreurs permises respectivesde 15% et 10%, sur la base de visages BioID, en utilisant un modèle à 17 points.

3.2.2 Les Modèles Actifs d'Apparences Adaptés (M3A)

À l'aide des Modèles Actifs d'Apparence de Cootes et al. [CET98], il est possible d'aligner desvisages en temps réel, en adaptant les paramètres du modèle an qu'ils correspondent au mieux auxcaractéristiques du visage à analyser. Aligner un visage du même type (même morphologie, illuminationet pose) que ceux contenus dans la base d'exemples ne pose pas de problème sérieux. Malheureusement,les AAMs sont beaucoup moins performants dès lors que l'illumination et la pose du visage changent.

Dans le cadre de la thèse de Sylvain Le Gallou [LeG07], nous avons proposé une méthode reposantsur des Modèles Actifs d'Apparence robustes à l'illumination, à la pose et à l'identité, que nous avonsbaptisés Modèles Actifs d'Apparences Adaptés (M3A). Ces travaux ont été publiés dans [LBGS06,LBSG07, SBLG09] et ont conduit au dépôt de deux brevets d'invention [LGBS06, LGBS07].

Dans un premier temps, nous avons proposé des prétraitements particuliers de l'image an derendre les AAMs robustes à l'illumination. Ensuite, nous avons introduit un schéma permettant de lesrendre robustes à la pose et à l'identité, par spécialisation de la base d'apprentissage.

3.2.2.1 AAMs robustes à l'illumination

On cherche en général à minimiser la dépendance des modèles d'apparence actifs aux variations del'illumination, en utilisant une nouvelle représentation de l'image à traiter. De nombreuses méthodesreposent sur la recherche d'une caractéristique de l'image qui soit invariante ou moins sensible à lavariation de l'illumination, comme le gradient [CET01], des détecteurs de motifs particuliers comme lescoins pour les yeux ou la bouche [SCT03], la concaténation de plusieurs composantes de l'image (H et Sdu code HSV et gradient par exemple) [SL02], ou les réseaux d'ondelettes [HFT03]. Ces méthodes ontgénéralement le désavantage d'augmenter la complexité de l'algorithme en concaténant les diérentescaractéristiques invariantes, ce qui a pour eet d'augmenter la taille de la texture traitée par les AAMs.D'autres méthodes recherchant une forme canonique, tente de normaliser les variations d'illumina-tion [ZLS03] ou de les atténuer [HLL+04]. Il est également possible d'évaluer les ombres [ZC00] and'estimer le modèle 3D du visage et de reproduire une texture sans eet d'ombrage.

Page 67: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

3.2. Détection des éléments faciaux 67

FIG. 3.5 Création d'une carte de distances [LBGS06] : de gauche à droite, l'image originale, sa versionégalisée par la méthode Clahe, l'image des points de contour et la carte de distances.

FIG. 3.6 Les dix visages de la base XM2VTS pour l'apprentissage (à gauche) et des exemples devisage de la base PIE pour le test (à droite).

Des comparaisons empiriques faites en reconnaissance de visages [DSQG05] montrent que parmiles méthodes de prétraitement, incluant les approches dites de caractéristique invariante et de forme canonique , ce sont les égalisations d'histogramme (uniformes ou spéciques) qui conduisentaux meilleurs taux de reconnaissance. Par conséquent, nous appliquons systématiquement sur toutesles images traitées une égalisation adaptative de Clahe [Zui94]. Elle consiste à découper l'image en64 blocs (huit par huit) et à réaliser à l'intérieur de chacun de ces blocs une égalisation spéciqued'histogramme (respectant la distribution de Rayleigh), les eets de bords entre blocs étant corrigéspar une interpolation.

Pour rendre les AAMs plus robustes à l'illumination, nous proposons de remplacer la texturepixel couramment utilisée, par deux représentations reposant sur le gradient de l'image : les cartes dedistances (cd) [LBGS06] et les cartes d'orientations (co) [SBLG09].

Les cartes de distances vont encoder chaque point de contour de l'image en fonction de la distanceà son plus proche voisin (voir gure 3.5). Les points de contour sont obtenus à partir d'un ltre deSobel. Les points de contour sont sélectionnés grâce à un seuillage adaptatif, par bloc, de l'image desmagnitudes du gradient (dans chaque bloc, le seuil est estimé comme étant 1,5 fois la valeur moyennede la magnitude du gradient). Ensuite, à chaque pixel de l'image est associée la distance euclidienneentre ce pixel et le pixel de contour le plus proche (dans la représentation d'une carte de distances,plus les pixels sont clairs, plus ils sont éloignés des contours).

Les cartes de distances permettent de tenir compte des relations de distance existant entre lesdiérents contours composant l'objet recherché. L'idée est de fournir aux AAMs une information decontours moins sensible aux variations d'illumination qu'une texture en niveaux de gris. Nous appli-quons ensuite le schéma classique des AAMs dans lequel la texture de l'image en pixel est remplacéepar la texture des cartes de distances.

À des ns d'évaluation, nous avons utilisé, pour l'apprentissage des AAMs, dix images de visagesilluminés de face de la base XM2VTS [Pig96] puis, pour les tests, 27 visages provenant de la basePIE [SBB03] disponibles sous 21 illuminations d'intensité et de direction diérentes (gauche, droite,haut, bas) soit 357 images (voir gure 3.6).

La gure 3.7 illustre l'apport du prétraitement en cartes de distances dans la convergence de l'AAM,

Page 68: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

68 3. Alignement de visages

FIG. 3.7 Pour chaque image, comparaison des résultats obtenus avec un AAM classique (à gauche)et avec un AMM à cartes de distances (à droite), dans le cas de variations d'illumination importantes.

FIG. 3.8 Taux de convergence d'un AAM classique et d'un AAM à cartes de distances, en fonctiondes directions d'illumination sur les 17 images de PIE.

notamment dans le cas des illuminations de côté. Le graphe de la gure 3.8 présente les taux de bonnesconvergences obtenues pour les AAMs classiques et pour les AAMs à cartes de distances, en fonctionde la direction de l'illumination. L'algorithme est considéré comme ayant bien convergé lorsque l'erreurde localisation des centres de gravité des yeux, de la bouche et du nez ne dépasse pas un quart de ladistance interoculaire. L'axe des abscisses représente les directions de l'illumination, dans la base PIE,numérotées de 1 (illumination venant de la gauche) à 21 (illumination venant de la droite).

Ces courbes révèlent tout d'abord le pouvoir de généralisation des AAMs : un apprentissage surseulement dix visages de la base XM2VTS permet de détecter les éléments faciaux de 17 autres visagestrès diérents, pour des illuminations de face (directions d'illumination de 7 à 15). Elles attestent ausside la robustesse apportée par l'utilisation des cartes de distances face aux variations d'illumination, enparticulier pour les illuminations de côté (directions 1 à 6 et 16 à 21).

Nous pouvons aussi noter que les AAMs classiques sont légèrement plus performants dans lesconditions d'éclairage frontal. Ceci est conrmé dans le cas d'une base d'images de visage commeBioID présentant des visages variables en pose et en expression dans des conditions d'éclairage ambiantclassiques. Les limitations de l'approche à cartes de distances tiennent principalement dans l'opérationde seuillage des points de contour, dicile à ajuster automatiquement.

Pour pallier ces limitations, dans [SBLG09], nous proposons de représenter l'image de visage par

Page 69: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

3.2. Détection des éléments faciaux 69

FIG. 3.9 Exemples de convergence de l'AMM classique (à gauche) et de l'AAM à cartes d'orientations(à droite) sur la base BioID [Res01].

une carte d'orientations (co) en retenant l'angle du contour évalué en chaque pixel. Ces angles sontquantiés sur Nangle niveaux (en pratique sur huit bits, soit Nangle = 255).

Co(i, j) =Nangle

2·(

1 +1Π· arctan

(Gy(i, j)Gx(i, j)

))(3.1)

où Gx(i, j) et Gy(i, j) sont les gradients horizontaux et verticaux au pixel (i,j). Pour éviter la disconti-nuité entre 0 et 2Π, unmapping de [0..2Π] vers

[0..Π2

]est appliqué. Notons que le nouveau prétraitement

n'utilise aucun seuil contrairement aux méthodes reposant sur des points de contour [FK02, BPM05].Le graphe de la gure 3.10 présente les taux de convergence obtenus avec l'AAM classique, l'AAM

à cartes de distances et l'AAM à cartes d'orientations, sur la base de visages BioID. On remarqueraque les résultats obtenus par l'AAM à cartes d'orientations sont nettement supérieurs (voir gure 3.9),notamment pour des erreurs permises de 10 à 20% de la distance interoculaire.

Ces expériences illustrent l'impact positif de la méthode de prétraitement par cartes d'orientationssur la robustesse et le pouvoir de généralisation des AAMs, au travers de tests réalisés sur les basesBioID et PIE, qui contiennent de fortes variations notamment d'éclairage, de pose et d'expressionfaciale, à partir d'un apprentissage réalisé sur des images de la base XM2VTS, prises dans des conditionsnormalisées.

3.2.2.2 AAMs robustes à la pose et à l'identité

La robustesse des AAMs est liée à la variabilité des visages introduite dans la base d'apprentissage.Par contre, cette variabilité conduit à un espace réduit morcelé qui pénalise leur convergence (voirgure 3.11). Plutôt que d'utiliser un seul modèle très général contenant beaucoup de variabilité, nousproposons d'exploiter d'abord un seul modèle M0 présentant une forte variabilité dans l'identité, puisd'utiliser un modèle particulier Madapt présentant une forte variabilité dans l'expression et dans lapose.

Nous formons une base de données générale contenant trois types de variabilité : en expression,en identité et en pose (voir gure 3.12). Elle est constituée de 29 visages diérents, présentant quatreexpressions distinctes et marquées ( neutre , surprise , sourire et tristesse ), sous cinq posesdiérentes (visages de face, inclinés vers le bas et le haut et orientés vers la droite et la gauche), pourun total de 29× 4× 5 = 580 images.

Un modèle AAM initial M0 est construit à partir d'une base de données BDD0 contenant lesdiérents visages, tous de face, dans des conditions d'illumination normales et arborant des expressions

Page 70: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

70 3. Alignement de visages

FIG. 3.10 Taux de convergence en fonction de l'erreur limite permise, pour un AAM à cartes dedistances, un AAM à carte d'orientations et un AAM classique.

FIG. 3.11 Espace réduit morcelé : à gauche, un exemple de visage dans sa variabilité en pose ; à droite,l'espace de convergence (deux premiers modes d'apparence) est morcelé en pose (visage en haut, enbas, de face, à gauche et à droite), avec des zones sans donnée.

neutres (voir gure 3.12). Cela revient à n'exploiter que les images de la base de données générale surl'axe horizontal. Ce modèle va être utilisé pour aligner approximativement dans un premier temps levisage inconnu.

Soit C0 le vecteur d'apparence dans l'espace AAM, après alignement du modèle M0 sur le visage àanalyser. Dans l'espace de représentation des paramètres de contrôle du modèle déformable d'initialisa-tion, on recherche les k plus proches vecteurs de paramètres (au sens de la distance Euclidienne) de C0,appartenant à la base d'apprentissage d'initialisation BDD0. Ces k plus proches vecteurs d'apparencesont appelés les k plus proches visages . À titre d'exemple, seul le plus proche vecteur (Cp) estsélectionné sur la gure 3.13 (k = 1).

Ces vecteurs correspondent à des exemples particuliers de visages (identités particulières) dansla base d'apprentissage d'initialisation BDD0. Ce sont les visages qui ressemblent le plus au visageinconnu analysé.

À partir de cette collection d'identités diérentes (les k plus proches visages), on génère une baseBDDadapt contenant les images des personnes ayant été identiées comme ressemblant au visage ana-lysé, prises dans des poses et avec des expressions diérentes. Cela revient à constituer une nouvelle

Page 71: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

3.2. Détection des éléments faciaux 71

FIG. 3.12 Base de données d'initialisation.

FIG. 3.13 Recherche des plus proches visages.

base à partir de la base de données générale, en en extrayant des tranches (autant de tranches quede plus proches visages) verticales et en profondeur. À partir de la base BDDadapt, on génère doncun modèle focalisé Madapt. Lorsque k est inférieur à quatre, il est possible de calculer des modèlesau préalable avec une, deux ou trois personnes ayant des expressions et des poses diérentes. Pouraligner un visage inconnu dans une image, il sut alors de faire converger le modèle M0, de trouverles k plus proches visages et d'appliquer le modèle pré-calculé correspondant pour parvenir à alignercorrectement le visage.

En diminuant la variabilité en termes d'identité et en conservant celle relative à la pose et àl'expression, nous restreignons la variabilité globale de la base d'apprentissage. Les ACP ne conserventque les vecteurs propres parmi les plus signicatifs : limiter la variabilité de la base d'apprentissagerevient donc à limiter le nombre de composantes du vecteur d'apparence. Ce nombre restreint decomposantes facilite, d'une part, la convergence et améliore donc l'ecacité des AAMs, et d'autrepart, accélère le temps de traitement.

Dans [SBLG09], dans des conditions réelles d'utilisation (images de visage de 1756 pixels annotéessur 68 points clés), nous montrons que l'approche reposant sur des AAMs adaptés avec k = 2 est àla fois 10 fois plus rapide que celle reposant sur un modèle construit à partir de l'ensemble de la based'exemples et 16% plus ecace (94% de classications correctes par rapport à 78%).

Dans le cas où il s'agit de traiter un ux vidéo, il est possible d'utiliser par exemple la premièreseconde de la vidéo pour rendre plus robuste l'opération de sélection du modèle focalisé. Le modèleinitial M0 est appliqué sur les premières images. Pour chacune de ces images, l'erreur résiduelle de

Page 72: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

72 3. Alignement de visages

reconstruction après convergence est évaluée. On recherche alors, à partir des images sur lesquellesl'alignement à été correct, les plus proches visages dans la base générale an de choisir le modèle pré-calculé focalisé . Ce modèle est alors exploité sur l'ensemble des images constituant le ux vidéopour aligner les visages.

3.2.2.3 Conclusion

La robustesse et la vitesse du schéma de détection d'éléments faciaux M3A a permis de proposer desdémonstrateurs ludiques (voir gure 3.14), notamment une application de décoration vidéo, qui permetd'acher des objets tels que des chapeaux, des lunettes, des moustaches ou des masques en temps réelsur des images de visage acquises à l'aide d'une webcam. Une autre application a concerné l'animationd'un agent virtuel conversationnel en temps réel à partir de la gestuelle d'un visage acquise à l'aided'une webcam. Cette animation temps réel a été rendue possible grâce à un système d'animation 3Dtemps réel FaceEngine présenté dans [BBP00, LBSG07]. Les mouvements de la tête y sont calculésà l'aide du système comportemental Behavior Engine (article [BPG06] et brevet [BGP06]) prenanten compte les contraintes biologiques comme les réexes vestibulo-oculaires et l'inertie de la tête.

FIG. 3.14 Applications de décoration vidéo et d'animation d'un agent virtuel conversationnel.

3.2.3 Un détecteur robuste d'éléments faciaux (C3F)

Au cours de la thèse de Stefan Duner [Duf08], nous avons considéré le cas plus général de ladétection robuste des éléments faciaux dans des images tout-venant , présentant des conditionsd'éclairage, des niveaux de résolution et de contraste variés, les visages pouvant être partiellementoccultés. La plupart des méthodes reposant sur des détections indépendantes d'éléments faciaux nepeuvent opérer lorsque ces éléments sont occultés : port de lunettes noires, présence de barbe, maindevant la bouche, fortes dégradations locales de l'image. Même si les méthodes reposant sur des modèlesactifs permettent une recherche globale des éléments en utilisant conjointement les informations deforme et de texture, elles reposent sur un processus d'optimisation pouvant être instable. De plus, cesmodèles statistiques étant linéaires, créés par ACP, ils demeurent peu robustes aux très fortes variationsd'éclairage et aux occultations partielles du visage.

Nous avons proposé un schéma hiérarchique, baptisé Convolutional Facial Feature Finder (C3F),reposant sur une cascade de ltres appris automatiquement, de manière à traiter, en une passe, desimages de visages pouvant être tournés de ±30 degrés dans le plan et de ±60 degrés hors plan. Ces

Page 73: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

3.2. Détection des éléments faciaux 73

FIG. 3.15 Les diérentes étapes du détecteur robuste d'éléments faciaux C3F.

travaux ont été publiés dans [DG05a, DG05b, GD07a, DG09] et ont conduit au dépôt d'un brevetd'invention [GD06]).

Le schéma de fonctionnement général de l'approche C3F est illustré dans la gure 3.15. Une premièreétape consiste à localiser les visages présents avec notre détecteur de visages CFF [GD04]. Une secondeétape, appelée FFD (Facial Feature Detector) vise à détecter les quatre éléments faciaux (yeux, nez,bouche) dans la zone du visage détecté. Enn, une dernière étape est en charge d'aner leur détectionà l'aide de détecteurs spécialisés, appelés respectivement EFD (Eye Feature Detector) et MFD (MouthFeature Detector).

Les détecteurs mis en ÷uvre reposent tous sur une architecture spécique de réseaux de neuronesà convolution, chacun correspondant ainsi à une cascade de transformations non-linéaires d'images,permettant de transformer une zone d'image, préalablement détectée, contenant un visage, en unensemble de cartes numériques, de la taille de l'image en entrée, dont les éléments sont compris entre-1 et 1. Chaque carte correspond à un élément facial particulier dont la position est repérée par unesimple recherche de la position de l'élément dont la valeur est maximale.

Ces transformations (convolutions et sous-échantillonnages) sont apprises directement à partir d'unensemble d'apprentissage d'images de visages dont les éléments faciaux ont été repérés manuellement.Elles permettent à la fois de développer automatiquement des détecteurs bas-niveau robustes tout enapprenant des règles permettant de régir les dispositions relatives plausibles des éléments détectés etde prendre en compte naturellement toute information disponible pour localiser d'éventuels élémentsoccultés.

Contrairement aux approches de type AAM, les caractéristiques locales des éléments faciaux (tex-ture) ainsi que les contraintes globales régissant leur distribution (forme) sont apprises simultanémentet le processus de recherche est non itératif.

3.2.3.1 Réseaux de neurones à convolution pour la détection d'éléments faciaux

L'architecture proposée consiste en six couches neuronales : une couche d'entrée (l1) recevant l'imagedu visage détecté, suivie de trois couches de convolution (l2 et l4) et de sous-échantillonnage (l3) per-mettant l'extraction de primitives bas-niveau, et de deux couches de neurones de type MLP (l5 et l6),permettant d'associer ces primitives à des cartes de sortie désirées (voir gure 3.16). Cette dernière par-tie de l'architecture (association) permet d'apprendre des constellations plausibles d'éléments faciauxet de rendre robuste le système notamment par rapport à des occultations partielles. Globalement,chaque carte de caractéristiques est produite à partir d'une image de primitives globales extraites del'image originale (couche l4) : chaque élément facial voit sa position dans la carte de sortie corres-pondante dépendre de l'ensemble du visage, tout en étant conditionnée par les positions des autreséléments faciaux.

Les bases d'apprentissage et de validation utilisées pour construire le détecteur FFD comprennentdes images variées provenant de diverses sources : FERET [PWHR98a] (744 images), PIE [SBB03]

Page 74: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

74 3. Alignement de visages

FIG. 3.16 Architecture du détecteur d'éléments faciaux FFD.

(1216 images), Yale [BHK97] (165 images), Stirling [Han00] (185 images) et d'images d'Internet (167images). Les 2500 images de visage extraites sont toutes redimensionnées à la taille de la rétine l1.De manière à générer automatiquement des exemples plus variés, on crée des exemples virtuels enappliquant un ensemble de transformations à ces images annotées : translations selon les colonnes etselon les lignes (jusqu'à ±6 pixels à gauche, à droite, en haut, en bas), rotation par rapport au centrede l'image par des angles variant de -25 à +25 degrés, changement d'échelle de 0,9 à 1,1 fois la tailledu visage. Les variations appliquées aux images de visage permettent de prendre en compte en phased'apprentissage non seulement les apparences possibles des visages mais aussi des erreurs possibles decentrage lors de la détection du visage (translations, rotation et échelle). Des exemples d'images devisage annotées sont présentés dans la gure 3.17.

Chaque carte de sortie désirée est initialisée avec des éléments valant -1, sauf pour la position del'élément facial dont elle a la charge, où la valeur désirée est 1. Pour améliorer robustesse et conver-gence, il est avantageux d'avoir des valeurs de sortie qui varient progressivement autour des positionsdes éléments faciaux. Aussi, les cartes de sortie sont produites à partir de fonctions gaussiennes bidi-mensionnelles (de variances de 2 suivant les deux directions), centrée sur chaque position d'élémentfacial et normalisées entre -1 et 1. La gure 3.17 présente une vue rapprochée autour d'une positiondésirée dans une carte de sortie (correspondant au centre de la bouche).

L'apprentissage vise à minimiser l'erreur quadratique moyenne entre les cartes produites et désiréessur l'ensemble des images annotées de l'ensemble d'apprentissage. Pour cela, nous utilisons l'algorithmede rétro-propagation du gradient avec momentum, modié pour la mise à jour des poids partagés dansles couches de l2 à l4. L'apprentissage est réalisée en-ligne (les poids synaptiques sont modiés aprèsprésentation de chaque exemple). Un sous-ensemble des exemples est utilisé pour la validation, quiconsiste à ne retenir que les congurations des poids qui minimisent la distance Euclidienne moyenneentre les positions estimées des éléments faciaux et leurs positions annotées.

Page 75: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

3.2. Détection des éléments faciaux 75

FIG. 3.17 Quelques exemples d'images de visage annotées et de cartes de caractéristiques désirées(÷il droit, ÷il gauche, nez et bouche). L'image à droite présente une vue rapprochée autour d'uneposition désirée dans une carte de sortie.

FIG. 3.18 Exemples d'images annotées pour les détecteurs EFD (en haut) et MFD (en bas).

3.2.3.2 Les détecteurs d'éléments faciaux spécialisés

Pour aner la détection des éléments faciaux, nous proposons deux détecteurs spécialisés : le EyeFeature Detector (EFD) qui vise à détecter les coins des yeux et le centre de la pupille et le MouthFeature Detector (MFD) en charge de la détection des coins et des frontières haute et basse de labouche. La gure 3.18 présente des exemples d'images annotées pour le détecteur EFD (en haut) et ledétecteur MFD (en bas).

Les bases d'apprentissage utilisées pour construire les détecteurs EFD et MFD contiennent desimages extraites des bases Yale (EFD : 290 images ; MFD : 290 images), AR [MB98] (EFD : 670images ; MFD : 375 images) et des images provenant de l'Internet (EFD : 172 images ; MFD : 88images), pour un nombre total de 1132 images d'÷il et 753 images de bouche, auxquelles, commedans le cas des images de visage viennent s'ajouter des exemples virtuels. Notons qu'un seul détecteurEFD est entraîné à partir d'images d'÷il gauche. Il est appliqué aux images d'÷il droit après que cesdernières aient été transformées par une symétrie selon l'axe vertical.

Les détecteurs EFD et MFD sont construits à partir d'une architecture neuronale similaire à celledu détecteur FFD, où seuls les nombres de cartes et de neurones les composant varient :

• EFD : l1 : 53x40, l2 : 4x47x34, l3 : 4x23x17, l4 : 19x13, l5 : 50, l6 : 3x53x40

• MFD : l1 : 57x39, l2 : 5x51x33, l3 : 5x25x16, l4 : 21x12, l5 : 120, l6 : 4x57x39

Le choix des paramètres gouvernant les diérentes architectures (nombre de couches, nombre decartes et leurs interconnections, taille des champs réceptifs) ont été choisis de manière empirique :plusieurs architectures ont été construites itérativement et testées, les plus performantes, reposant surun nombre acceptable de paramètres à estimer, étant retenues.

Page 76: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

76 3. Alignement de visages

FIG. 3.19 Quelques résultats du détecteur FFD sur la base Google.

3.2.3.3 Résultats expérimentaux

Dans [DG09], nous présentons des résultats expérimentaux détaillés permettant d'évaluer la robus-tesse du système proposé. Dans un premier temps, le détecteur FFD est évalué sur trois bases d'images(desquelles les images ayant servi à l'apprentissage sont retirées) : la base PIE (1216 images), la baseFERET (1058 images) et un ensemble d'images extraites à l'aide de Google Images sur internet (384images).

La gure 3.20 présente les taux de détection des éléments faciaux en fonction de l'erreur seuilpermise (l'erreur Euclidienne moyenne me calculée entre les positions des éléments faciaux détectéset les positions annotées, ramenée à la distance interoculaire du visage). Le taux de détection obtenusur la base FERET est de 99,6% pour une erreur permise me de 10% de la distance interoculaire.Les résultats obtenus sur les bases PIE et Google, contenant des images de qualité variable, dansdes conditions d'éclairage variables, sont de 72% pour une erreur permise me de 10% de la distanceinteroculaire et supérieurs à 92% pour me = 20%. Quelques exemples des résultats obtenus sur la baseGoogle sont présentés dans la gure 3.19.

D'autres expériences montrent que la détection des yeux, dont l'apparence est plus stable sous deséclairages ou des poses variés, est plus précise que celle du nez ou de la bouche. Sur la base FERET,le taux de détection des yeux est de l'ordre de 80% pour une erreur permise de 5% de la distanceinteroculaire alors qu'il est de l'ordre de 60% dans le cas du nez ou de la bouche, pour le même niveaud'erreur permise. Sur les bases PIE et Google, les taux de détection sont du même ordre, mais pourune erreur permise de 10% de la distance interoculaire.

Pour illustrer la robustesse du détecteur FFD au bruit, la gure 3.21 montre l'évolution de l'erreurme en fonction de l'écart type σ (variant de 0 à 70) d'un bruit Gaussien ajouté aux images des basesFERET, PIE et Google. On remarquera que le détecteur FFD est très robuste au bruit, l'erreur me

demeurant basse (moins de 20%) pour un bruit important (σ = 50).La gure 3.22 présente quelques exemples de résultats du système de détection complet C3F (10

éléments faciaux) sur les bases FERET, BioID et AR. Les bases de test contiennent des images devisage en pose frontale, achant diverses expressions, dans des conditions d'éclairage variées.

Les taux de détection du système C3F sur la base AR et BioID sont respectivement de 96% et 87%

Page 77: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

3.2. Détection des éléments faciaux 77

FIG. 3.20 Taux de détection de FFD en fonction de l'erreur moyenne me permise pour les quatreéléments faciaux, sur les bases FERET, Google et PIE.

FIG. 3.21 Robustesse du détecteur FFD à un bruit Gaussien.

Page 78: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

78 3. Alignement de visages

FIG. 3.22 Quelques résultats de détection des éléments faciaux par C3F sur des bases variées : enhaut, FERET ; au milieu, BioID ; et en bas, AR.

Erreur permise (centre des yeux)

Méthodes 5% 10% 15%

Jesorsky et al. [JKF01] 40% 79% 93%Hamouz et al. [HKK+04] 50% 66% 70%Cristinacce et al. [CCS04] 60% 96% 97%

Notre solution (C3F) 79% 92% 98%

TAB. 3.2 Comparaison des taux de détection du centre des yeux sur la base BioID.

pour une erreur permise me de 10% de la distance interoculaire. On remarquera que la précision dusystème C3F est supérieure à celle du détecteur FFD.

De manière à comparer nos résultats avec les méthodes de l'état de l'art, nous considérons laprécision de détection du centre des yeux. Le tableau 3.2 résume les taux de détection sur la baseBioID. La méthode C3F est nettement supérieure à celles de Jesorsky et al. [JKF01] et Hamouz etal. [HKK+04]. L'approche proposée par Cristinacce et al. [CCS04] donne des résultats légèrementsupérieurs à ceux de la méthode C3F, pour une erreur permise de 10%, mais des résultats nettementinférieurs pour une erreur permise de 5% seulement.

La gure 3.23 présente des résultats sur des images variées de la base Google. On notera que lesystème proposé est capable de traiter des images de faible résolution, de contraste variable, contenantdes visages en poses variées, partiellement occultés, dans des conditions d'éclairage diciles. La pré-cision obtenue diminue naturellement sur cette base mais demeure à 76% pour une erreur permise de10% et à 92% pour une erreur permise de 15%.

Page 79: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

3.2. Détection des éléments faciaux 79

FIG. 3.23 Quelques résultats de détection des éléments faciaux par C3F sur la base Google.

3.2.3.4 Le détecteur d'éléments faciaux C3F sur systèmes embarqués

Tout comme pour le détecteur de visages CFF, nous avons appliqué la méthodologie A3 au portagede notre solution de détection d'éléments faciaux C3F sur plateformes embarquées [RMGD07]. Nousobtenons un gain considérable en vitesse (accélération d'un facteur d'environ 700), réduisant drasti-quement les besoins en mémoire tout en maintenant la précision de la solution. La version optimiséeet embarquée permet de traiter 68,7 visages/s sur un Pentium IV à 3,2 GHz et 12,8 visages/s sur uneplateforme Xscale PXA27x à 624 MHz. Sur cette dernière, le schéma complet (incluant la détectionde visages CFF embarquée) opère avec une cadence de 7 frames/s pour des images QCIF (176 × 144pixels), contenant un visage par image.

3.2.3.5 Conclusion

La méthode C3F, que nous venons de présenter, constituait l'approche la plus robuste (et la plusrapide) en 2007, et à notre connaissance il en va de même aujourd'hui. Elle est capable de traiterdes images dans des conditions non-contraintes et extrêmement variées. Cela tient au fait qu'ellepermet à la fois d'inférer automatiquement des détecteurs bas-niveau robustes tout en apprenant desrègles permettant de régir les dispositions relatives plausibles des éléments détectés et de prendre encompte naturellement toute information disponible pour localiser d'éventuels éléments occultés. Decette manière, elle intégre une modélisation locale des éléments faciaux, très robuste aux déformationslocales et à la qualité de l'image, ainsi qu'un modèle global au sens des AAMs mais construit demanière non linéaire par les MLPs de sortie. On retrouve dans cette architecture les principes desréseaux auto-associatifs permettant de réaliser des ACPs non linéaires.

Le manque de temps (et peut-être d'énergie pour annoter des milliers d'exemples) ne nous a paspermis d'intégrer des modèles de formes plus riches comme le modèle à 68 points utilisé dans notresolution de Modèles d'Apparences Actifs Adaptés. C'est clairement une piste à poursuivre, qui sup-posera de ne pas créer une carte de sortie par point à détecter mais plutôt de remplacer les cartes

Page 80: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

80 3. Alignement de visages

de sorties directement par une couche de neurones encodant les coordonnées des 68 points. Des ex-périences ont déjà été menées avec le modèle à 10 points utilisé jusqu'à présent et les résultats (pourl'instant inférieurs de 11% en moyenne par rapport à ceux obtenus dans l'approche présentée ici) sontencourageants.

3.3 Recadrage de boîtes englobantes

3.3.1 Introduction

Les approches reposant sur la détection d'éléments faciaux permettent de nombreuses applications,notamment dans le domaine des interfaces homme-machine. Elles permettent aussi d'estimer la pose duvisage et de segmenter précisément la zone du visage à analyser, en amont d'une phase d'identicationautomatique.

La plupart des méthodes que nous venons d'exposer, qu'elles soient basées sur les modèles actifsdéformables ou sur la localisation robuste d'un certain nombre de points spéciques, supposent quela phase préalable de détection/localisation des visages fournisse une boîte englobante contenant aumoins les éléments à rechercher. Nous avons vu également que les méthodes de détection d'élémentsfaciaux perdent en précision lorsqu'elles sont appliquées à des images complexes, de faible résolution,dans des conditions d'éclairage non contrôlées (cas de la base Google).

Dans cette section, nous proposons une approche visant à aligner précisément les images de visage,en apprenant à transformer directement la boîte englobante issue de la phase de détection, sans passerpar une étape de localisation des éléments faciaux.

3.3.2 Une méthode de recadrage automatique de boîtes englobantes (CFA)

Dans les articles [GD07a, DG08] et le brevet d'invention [GD07b], nous avons proposé, avec mondoctorant Stefan Duner, une approche permettant de recadrer automatiquement et précisément entranslation, rotation dans le plan et en échelle, les images des visages préalablement détectés.

L'idée de cette méthode consiste à apprendre conjointement les paramètres (translations selon lesdeux axes, angle de rotation dans le plan et facteur d'échelle) régissant la transformation entre la boîteenglobante d'un visage détecté et la même boîte englobante correctement centrée sur le visage.

Quelques approches adressent en partie cette problématique, notamment les approches visant àestimer la pose d'un visage, au cours de la phase de détection [LGL00, JV03, OML05].

Dans [RBK98b], Rowley et al. ajoutent en amont de leur système de détection de visages [RBK96],un classieur capable de détecter l'angle de rotation d'un visage. Ainsi, chaque imagette présentéeen entrée du système voit son orientation corrigée avant d'être classée en visage ou non-visage (voirgure 3.24). Inspiré par les travaux de Baluja [Bal97], ce réseau de neurones de type MLP utilise uneimage en niveaux de gris en entrée et 36 neurones de sortie k représentant chacun un angle de rotationde k × 10.

Dans notre approche, nous proposons une architecture, reposant sur un réseau de neurones à convo-lution, baptisée Convolutional Face Aligner (CFA) et capable d'apprendre une fonction qui transformeune entrée, représentant une image de visage extraite d'une boîte englobante, en quatre paramètres ré-gissant les corrections nécessaires à appliquer pour centrer cette boîte englobante en translation suivantles deux axes, en rotation et en échelle (voir gure 3.25).

L'architecture proposée consiste en sept couches neuronales : une couche d'entrée (l1) recevantl'image du visage extrait dans la boîte englobante, suivie de quatre couches de convolution (l2 etl4) et de sous-échantillonnage (l3 et l5) permettant l'extraction de primitives bas-niveau, et de deuxcouches de neurones de type MLP à fonction d'activation sigmoïde (l6 et l7), permettant d'associer cesprimitives aux quatre paramètres de sortie, dénissant la transformation qui a conduit au décentrage :translations Tx et Ty, angle de rotation α, facteur d'échelle Sc.

Chacun de ces paramètres (notés par la suite pi, i ∈ 1, .., 4) est normalisé linéairement entre -1et 1 en fonction des valeurs minimum et maximum permises pmini et pmaxi (par exemple, ±30 degréspour l'angle de rotation).

Page 81: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

3.3. Recadrage de boîtes englobantes 81

FIG. 3.24 Détection de visages invariante à la rotation par Rowley et al. [RBK98b]. Un premier MLPest utilisé pour déterminer l'angle de rotation d'un visage présenté en entrée du système. La rotationest ensuite corrigée et un second MLP est utilisé pour déterminer si l'image d'entrée est un visage ounon.

Après activation du réseau, les neurones de la couche l7 produisent les sorties des paramètres detransformation normalisés y7i (i ∈ 1, .., 4) correspondant à l'image présentée en l1. Chaque paramètrepi est alors ramené linéairement dans son domaine de variation [pmini, pmaxi].

La base d'apprentissage utilisée comprend environ 30.000 images de visage, extraites de basesd'images publiques. Les positions des yeux, nez, et bouche sont annotés manuellement dans chaqueimage. À partir de ces positions, il est possible de dénir des boîtes englobantes correctement centréessur les visages, de manière à ce que les yeux et la bouche soient placés dans des positions xes, touten conservant un ratio d'aspect constant.

En appliquant des transformations sur les boîtes englobantes correctement centrées, nous produisonsun ensemble contrôlé d'images de visage articiellement mal centrées, que nous extrayons des imagesoriginales et redimensionnons à la taille de la rétine (46× 56). Les transformations sont appliquées enfaisant varier les translations Tx et Ty de −6 et +6 pixels (dans l'espace redimensionné), l'angle derotation α de -30 à +30 degrés et le facteur d'échelle Sc de 90% à 110% de la taille du visage. Lesvaleurs minimales et maximales sont donc les suivantes : pmin1 = pmin2 = −6; pmax1 = pmax2 =+6; pmin3 = −30; pmax3 = +30; pmin4 = 0.9; pmax4 = 1.1

La gure 3.26 montre des exemples d'apprentissage construits à partir d'un visage, en faisant varierles paramètres de transformation. Les paramètres pi sont mémorisés pour chaque exemple d'appren-tissage et utilisés pour dénir les sorties désirées ti du réseau de neurone en les normalisant entre -1 et+1 :

ti =2× (pi − pmini)pmaxi − pmini

− 1, i = 1..4 . (3.2)

L'apprentissage est réalisé en appliquant l'algorithme de rétro-propagation du gradient avec mo-mentum, modié pour la mise à jour des poids partagés dans les couches l2 à l5. Il est réalisée en-ligne,et vise à minimiser l'erreur quadratique moyenne E entre les sorties obtenues et les sorties désirées desquatre neurones de la couche l7, pour les N exemples de la base d'apprentissage :

E =1

4N

N∑k=1

4∑i=1

(y7i(k)− ti(k))2 (3.3)

Classiquement, pour empêcher le sur-apprentissage, une phase de validation est réalisée à l'issue dechaque époque sur une base de validation distincte de la base d'apprentissage.

La procédure complète de recadrage des boîtes englobantes est illustrée dans la gure 3.27. Ladétection de visages est réalisée à l'aide de notre détecteur de visages CFF [GD04], qui produit desboîtes englobantes verticales. Les images de visage sont extraites dans les boîtes englobantes et redi-mensionnées à 46 × 56 pixels. Chaque image de visage extraite est présentée au réseau de neurones,

Page 82: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

82 3. Alignement de visages

FIG. 3.25 L'architecture neuronale mise en ÷uvre dans notre système de recadrage CFA.

FIG. 3.26 Des exemples servant à l'apprentissage du recadreur CFA : chacune des images de visagea été produite en faisant varier les paramètres de transformation (Tx, Ty, α, Sc). La dernière colonnecorrespond à l'image normalisée bien centrée.

qui fournit en sortie une estimation de la transformation de la boîte englobante correspondante correc-tement centrée vers la boîte englobante détectée. La boîte englobante est alors corrigée en appliquantla transformation inverse (−pi pour les translations et la rotation et 1/pi pour le facteur d'échelle).Cependant, de manière à améliorer la correction, ce processus est répété itérativement (environ 30 fois)en appliquant une transformation inverse ne prenant en compte que 10% de la valeur de chacun desparamètres de transformation obtenus en sortie du réseau de neurones.

3.3.3 Résultats expérimentaux

La solution de recadrage proposée est évaluée sur la base d'images BioID [Res01] contenant 1520images et sur une base privée comprenant 200 images obtenues sur Internet, dont les visages varienten taille, pose, expression et peuvent être aectés par du bruit ou des occultations partielles. L'erreurd'alignement est dénie comme étant la distance Euclidienne moyenne entre les coins correspondant desboîtes englobantes corrigées et des boîtes englobantes correctement annotées. Cette erreur d'alignemente est normalisée par rapport à la largeur de la boîte englobante correctement annotée.

La gure 3.29 présente le taux de recadrages corrects en fonction de l'erreur de recadrage e permise.Par exemple, 80% des visages de la base Internet et 94% des visages de la base BioID sont correctement

Page 83: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

3.3. Recadrage de boîtes englobantes 83

FIG. 3.27 La procédure itérative de recadrage d'une boîte englobante.

recadrés si l'on permet une erreur de recadrage de 10% de la largeur des boîtes englobantes. 70% desvisages de la base BioID sont correctement recadrés si l'on permet une erreur de recadrage de 5% dela largeur des boîtes englobantes.

La gure 3.30 illustre la supériorité de notre solution de recadrage de boîtes englobantes CFA parrapport à notre solution de détection robuste d'éléments faciaux C3F [DG05a, DG05b, GD07a, DG09]utilisée ici pour estimer les boîtes englobantes, suivant la procédure qui a permis de construire la based'apprentissage de notre système de recadrage. Tout comme dans le cas de notre étude portant sur ladétection robuste des éléments faciaux, une évaluation de la sensibilité à un bruit Gaussien montre quenotre solution de recadrage automatique est très robuste, avec une erreur de recadrage e demeurantinférieure à 10% pour un écart type du bruit Gaussien allant jusqu'à σ = 150. Une autre expérienceprésentée dans [DG08] montre la grande robustesse de la solution de recadrage proposée par rapportaux occultations partielles.

La gure 3.28 présente des résultats sur des images variées de la base Internet. Pour chaque exemple,la boîte englobante noire correspond à la boîte correctement centrée (annotée) tandis que la boîteenglobante blanche représente, à gauche, la sortie du détecteur de visages et à droite, la boîte englobanterecadrée par la solution proposée.

Du fait de la cascade d'opérations élémentaires dans le réseau de neurones, la solution CFA est trèsrapide : 67 visages par seconde sur Pentium IV à 3.2 GHz. Tout comme le détecteur de visages et ledétecteur d'éléments faciaux, elle a été optimisée et portée avec succès sur des plateformes embarquées.

Page 84: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

84 3. Alignement de visages

FIG. 3.28 Quelques résultats de recadrage de visages par CFA sur la base Internet : pour chaqueexemple, la boîte englobante noire correspond à la boîte correctement centrée (annotée) tandis que laboîte englobante blanche représente, à gauche, la sortie du détecteur de visages et à droite, la boîteenglobante recadrée par la solution proposée.

Page 85: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

3.3. Recadrage de boîtes englobantes 85

FIG. 3.29 Taux de recadrages corrects en fonction de l'erreur de recadrage permise.

FIG. 3.30 Comparaison des performances de nos méthodes de détection d'éléments faciaux (C3F) etde recadrage (CFA).

3.3.4 Conclusion

Apprendre directement à recadrer des boîtes englobantes estimées par le détecteur de visages ap-paraît comme étant une solution robuste, et plus précise qu'une approche reposant sur la détectiondes éléments faciaux. Le problème peut être vu comme l'estimation des paramètres de transformationsgéométriques anes, directement à partir d'exemples d'images mal cadrées. Les réseaux de neurones àconvolution s'avèrent très ecaces pour estimer une telle fonction complexe mettant en correspondancedes zones d'images très variables avec ces paramètres.

Page 86: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

86 3. Alignement de visages

3.4 Conclusion

Dans ce chapitre, nous avons présenté un panorama des méthodes de l'état de l'art permettantd'aligner les visages, après détection, an de permettre une analyse ne du visage, pour des applicationsreposant sur le suivi d'éléments faciaux particuliers ou pour préparer la phase de reconnaissance duvisage ou de ses expressions.

Nous avons présenté nos contributions reposant sur la détection d'éléments faciaux. La première(M3A) traite des images d'un visage face à une webcam et repose sur des modèles actifs d'apparence,robustes aux variations d'illumination, de pose et d'identité, grâce à un prétraitement ecace del'image et à un schéma de sélection des bases d'apprentissage, qui permet de contraindre la variabilitédes données, réduisant drastiquement la taille des modèles statistiques et le temps de calcul. Cetteapproche permet de plaquer un modèle déformable contenant de nombreux points et ainsi de modélisernement le visage pour alimenter des applications de réalité virtuelle ou augmentée comme la décorationvidéo ou le pilotage d'un agent virtuel conversationnel.

La seconde approche (C3F) est capable de traiter des images dans des conditions non-contrainteset extrêmement variées. Grâce à son schéma hiérarchique, reposant sur une architecture neuronalespécique, elle permet à la fois d'inférer automatiquement des détecteurs bas-niveau robustes tout enapprenant des règles permettant de régir les dispositions relatives plausibles des éléments détectés etde prendre en compte naturellement toute information disponible pour localiser d'éventuels élémentsoccultés.

Nous avons également proposé une approche d'alignement de visages (CFA) ne reposant pas surla localisation des éléments faciaux mais sur l'estimation précise de la boîte englobante du visage.Elle permet de corriger automatiquement les boîtes englobantes, en général verticales, produites ensortie d'un détecteur de visages. Cette méthode consiste à apprendre conjointement les paramètres(translations selon les deux axes, angle de rotation dans le plan et facteur d'échelle) régissant latransformation entre la boîte englobante d'une image de visage en entrée et la même boîte englobantecorrectement centrée sur le visage. Un schéma itératif permet alors d'estimer cette transformation surune image de visage et de corriger la boîte englobante. Les résultats obtenus par cette méthode sontsupérieurs à ceux obtenus en utilisant la position des éléments faciaux pour dénir la boîte englobante.

L'intégration de ces techniques (et notamment CFA + C3F) en sortie du détecteur de visagesCFF permet d'obtenir un détecteur de visages et d'éléments faciaux temps réel, très performant nonseulement en taux de détection mais aussi en précision de localisation, qui de plus, est utilisable dansdes systèmes embarqués.

Page 87: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

Chapitre 4

Reconnaissance de visages

4.1 Introduction

Reconnaître un visage, c'est lui aecter une identité parmi celles d'un ensemble de visages connus.Les humains sont dotés d'une excellente aptitude à identier leurs semblables. Les études biologiquestendent à prouver que la reconnaissance humaine des visages constitue un processus spécique dereconnaissance d'objets, qui serait mené dans une région particulière du cerveau. On peut considérerqu'il en est de même de la reconnaissance de visages par ordinateur, qui constitue un domaine particulierdu traitement d'images et de la reconnaissance de formes. Ses spécicités proviennent surtout de lanature des objets à diérencier. En eet, les visages de deux personnes diérentes sont structurellementtrès proches, car dotés des mêmes caractéristiques faciales (yeux, nez, bouche), dont la localisationvarie très peu. De plus, les sources de variabilité entre deux vues d'un même visage sont multiples, etengendrent souvent des dissimilarités plus importantes que celles observées entre deux visages diérents.Aussi peut-on considérer qu'il s'agit d'une tâche de classication plus complexe que la reconnaissanced'objets génériques qui consiste par exemple, à distinguer un visage de tout autre objet, comme dansla détection de visages.

La reconnaissance automatique de visages dans le cadre de la biométrie (applications de sécurité)ou de la recherche d'images par leur contenu est un sujet de recherche très actif depuis une dizained'année. Parmi les applications visées, on peut citer la vidéosurveillance, la sécurisation de transactionsou d'accès à un poste de travail, l'indexation d'images ou de programmes télévisuels et les interfaceshomme-machine en général. On peut classer les applications en deux grandes familles : celles en mondefermé, où tout visage-requête est enregistré dans la base de connaissance, et celles en monde ouvert, oùdes visages de personnes inconnues peuvent être présentés au système. La reconnaissance peut consisteren une tâche d'identication, ou d'authentication. Identier un visage, c'est lui assigner une identitésans prendre en compte d'information a priori sur sa classe d'appartenance présumée. En revanche,dans le contexte de l'authentication (vérication), toute personne se présentant au système revendiqueune certaine identité : le processus consiste alors à vérier qu'il s'agit bien de cette personne.

Les systèmes automatiques de reconnaissance de visages doivent être robustes à tout facteur indé-pendant de l'identité du visage, même si ce facteur engendre des changements d'apparence du visage.Or, de nombreux facteurs, extérieurs au visage ou en lien avec sa nature intrinsèque, peuvent inuersur celle-ci. Les conditions de prise de vue, notamment l'angle sous lequel le visage est observé et lapuissance des sources de luminosité, inuent considérablement sur l'apparence d'un visage. L'expres-sion faciale arborée par le sujet à l'instant où l'image est collectée, ainsi que d'éventuelles occultationspartielles (une partie du visage est cachée par un autre objet, par exemple des lunettes) peuvent égale-ment engendrer des changements d'aspect importants. D'autres facteurs liés aux contextes applicatifspeuvent aussi avoir un impact sur les performances du système, notamment le nombre d'individus àreconnaître ou la diérence dans les conditions de prises de vues entre les images à évaluer et les imagesde la base de connaissance. On peut considérer le cas par exemple de systèmes reposant sur quelquesexemples de visages de face de type portrait, dans des conditions d'éclairage normalisées, qui sont encharge de reconnaître les individus dans des banques d'images ou de vidéos au contenu très variable.

À ces facteurs de variabilité, aectant l'apparence du visage ou dépendant du contexte applicatif,s'ajoutent bien évidemment les imprécisions dues à la détection et notamment à l'alignement.

Pour tenter de répondre à l'ensemble de ces challenges, nous avons proposé cinq contributions,reposant sur des principes diérents an d'explorer plusieurs voies. Dans ce chapitre, nous débutons

87

Page 88: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

88 4. Reconnaissance de visages

FIG. 4.1 Les eets de l'éclairage sur l'apparence d'un visage [MAU94].

par un panorama des principales méthodes de l'état de l'art, puis nous présentons ces contributions.

La première contribution concerne les travaux réalisés à l'université de Crète avec Georges Tziritaset Georges Zikos, portant sur la caractérisation de la texture des visages par des mesures statistiquessimples calculées sur les bandes d'une décomposition en paquets d'ondelettes, qui permet de dénirune mesure de similarité entre visages à l'aide de la distance de Bhattacharyya. Cette méthode a étéutilisée également en détection de visages et a été décrite dans le chapitre 2. Pour plus de détails, onpourra se référer aux publications dans [GZT98, GT00] où l'on montre que cette méthode, à faible coûtcalculatoire, est supérieure à la méthode projective dites des Eigenfaces [TP91b], lorsque les imagesde visage ne sont pas parfaitement alignées. Elle est par contre sensible aux bruits et aux occultationspartielles pouvant aecter l'apparence des visages.

La seconde contribution, conçue dans la cadre de la thèse de Muriel Visani, s'inscrit dans le courantdes recherches basées sur des méthodes de projection visant à construire des sous-espaces discriminants.Nous proposons une nouvelle méthode, baptisée Analyse Discriminante Bilinéaire (ADB), qui combineecacement l'Analyse Discriminante Linéaire (s'appliquant classiquement à des vecteurs) avec unemodélisation bidimensionnelle, qui permet de conserver la structure de l'image.

La troisième contribution, développée dans le cadre de la thèse de Stefan Duner [Duf08], estégalement une méthode holistique, prenant en compte, comme dans l'ADB, la représentation bidimen-sionnelle des images, mais reposant sur une projection non-linéaire an d'augmenter la robustesse auxvariations de l'éclairage ou des expressions faciales et à la présence éventuelle d'occultations partielles.L'approche proposée repose sur une architecture neuronale, qui permet d'apprendre à mettre en cor-respondance toute image d'une personne avec l'image de référence, sélectionnée automatiquement, quireprésente le mieux cette personne.

Dans la quatrième étude, menée dans le cadre de la thèse de Grégoire Lefebvre, nous proposons dedécrire le visage sous la forme d'un sac de caractéristiques discriminantes. Le schéma repose sur lasélection de points saillants robustes et répétables, l'extraction de signatures caractérisant la texturelocale autour de ces points, qui sont ensuite sélectionnées et fusionnées par un processus d'apprentissagecompétitif pour former un alphabet visuel général ou spécique à chaque personne.

La dernière étude, menée dans le cadre du séjour postdoctoral de Sid-Ahmed Berrani, a pourobjet d'évaluer l'impact de la présence d'images de visage considérées comme des aberrations car malcentrées ou exhibant un très forte variabilité dans leur apparence, sur les performances des méthodesde projection statistiques linéaires comme les Eigenfaces, les Fisherfaces ou l'ADL2D. Nous proposonsune solution basée sur des mesures de statistiques robustes, qui permet de ltrer automatiquement etd'isoler ces images aberrantes, de manière non-supervisée, dès la phase de construction de l'espace desvisages.

Page 89: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4.2. État de l'art 89

4.2 État de l'art

De 1993 à 1996, le programme FERET (Face Recognition Technology) du Department of Defense(DoD) aux États-Unis, a eu pour but le développement de techniques automatiques de reconnaissancede visages, au travers du nancement d'activités de recherche et de la collecte d'une base de données devisages de taille importante, publiquement disponible, permettant l'évaluation de solutions actuelles oufutures. Des travaux ont porté spéciquement sur la dénition d'un protocole d'évaluation. Ce projeta conduit à la constitution d'une base de 7139 images de 1199 sujets [RPM98, PWHR98b, PMRR00].Cette base de test est la plus utilisée à ce jour.

Depuis 2000, HumanID (ou HID) a pris la relève du programme FERET. Il s'agit d'un programmeimportant, sponsorisé par plusieurs institutions publiques nord-américaines dont le National Instituteof Standards and Technology (NIST). HumanID vise l'analyse de visages dans les foules, dans deslieux publics, en temps réel ou via l'analyse diérée de documents vidéo. Trois campagnes d'évalua-tions ont eu lieu dans le cadre de HID, Facial Recognition Vendor Tests 2000, 2002, 2006 [BBP01,PGM+03, PSO+07], avec pour objectif principal, l'évaluation grande-échelle de solutions commercialesou de prototypes provenant des milieux académique et industriel. Ces campagnes d'évaluation ontpermis notamment de caractériser l'impact de la pose, des conditions d'illumination, du délai entrediérentes prises de vue, des facteurs individuels et de la taille de la base. Des évaluations ont étéégalement conduites pour mesurer l'impact de la résolution des images à reconnaître ou l'apport d'unemodélisation 3D des visages.

Dans [GSC01], Gross et al. proposent une étude systématique de l'impact de diérents paramètressur les performances du système, variés de manière isolée ou conjointe. Les six facteurs considérés sont :la pose de la tête, les changements d'illumination, l'expression faciale, les occultations, l'intervalle detemps entre deux prises de vue et le genre. L'évaluation du FRVT [BBP01] conclut que des changementsimportants dans les conditions d'illumination peuvent mener à des baisses considérables dans les tauxde reconnaissance (voir gure 4.1). Si la plupart des systèmes de reconnaissance de visages sont stablesà des changements raisonnables des conditions d'illumination en intérieur, en extérieur, on note desdécits de reconnaissance de l'ordre de 40%. Gross et al. mettent en évidence le fait qu'un modèleconstruit à partir de poses frontales présente une meilleure capacité de généralisation à d'autres posesqu'un modèle construit à partir de poses non frontales. Par contre, si la pose du visage-requête dièresignicativement de celle des visages enregistrés, les taux de reconnaissance baissent sensiblement,comme l'a mis en évidence le FRVT : la rotation de la tête (par exemple vers le prol gauche) n'entraînepas de baisse des taux de reconnaissance signicative jusqu'à ±25°, alors qu'à partir de ±40°, onconstate une chute des performances. D'autres résultats intéressants, obtenus sur des bases de visagesfrontales sous des conditions d'éclairage normalisées, montrent que les taux de reconnaissance desvisages d'hommes sont plus élevés de 6% à 9% par rapport à ceux des visages de femmes et que lespersonnes plus âgées sont plus faciles à reconnaître : de 18 à 22 ans, le taux de reconnaissance est de62%, de 38 à 42, il est de 74%. Dix ans d'avancée en âge correspondent à 5% d'augmentation en tauxde reconnaissance. Dans des conditions stables d'éclairage, ces évaluations montrent aussi que les tauxde reconnaissance décroissent linéairement en fonction du logarithme de la taille de la base des sujetsà reconnaître.

La plupart des algorithmes de reconnaissance automatique de visages portent sur la classicationd'images xes 2D. On dispose d'une base de connaissances contenant des photographies de personnesconnues, c'est-à-dire les personnes que le système est censé reconnaître lors de toute apparition ulté-rieure. Lorsqu'un visage-requête (image d'un visage à reconnaître) est présenté au système, celui-ci vachercher à lui assigner une identité parmi celles contenues dans la base de connaissances. Le systèmede reconnaissance est basé sur un modèle généralement construit à partir d'une base d'apprentissagecontenant un ensemble d'images de visage. Dans certains cas, la base d'apprentissage et la base deconnaissance sont confondues. Le modèle est alors spéciquement conçu pour les visages qu'il vise àreconnaître. Dans d'autres cas au contraire, soit du fait des spécicités de la technique utilisée, soità cause de l'application, les bases d'apprentissage et de connaissances sont distinctes. La plupart dessystèmes sont basés sur l'utilisation des niveaux de gris. Les quelques algorithmes prenant en compte

Page 90: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

90 4. Reconnaissance de visages

la couleur ne sont pour la plupart que des généralisations à trois canaux des techniques utilisées enniveaux de gris [TRL99].

Ces dernières années, la reconnaissance de visages dans des vidéos commence à être explorée [ZCPR03,PJR07]. Un avantage de ces applications est que l'on peut, par le biais de l'utilisation d'un modulede suivi des visages, disposer d'un nombre important de vues du visage-requête suivi. La plupart dessystèmes reposent sur l'utilisation de techniques initialement conçues dans le contexte d'images xes.La plupart du temps, on se ramène à un problème de classication d'images xes par l'utilisation del'une des trois stratégies suivantes. La première consiste à sélectionner une image-clé représentative del'ensemble des vues du visage-requête. La deuxième solution est d'utiliser un algorithme de vote sur lesrésultats de classication obtenus pour chacune de ces vues [GMP00, SEZ05]. La troisième possibilitéest de construire un modèle spécique pour chaque personne de la base de connaissance, ainsi quepour le visage-requête, à partir de l'ensemble des vues de la personne considérée dont on dispose. Lescaractéristiques du modèle du visage-requête sont alors comparées à celles des modèles de la base deconnaissance an de lui assigner l'identité du modèle le plus proche [TLV00, WS03, PJR07].

Récemment, les avancées dans le domaine de l'acquisition de données tridimensionnelles (notam-ment par le biais de scanners laser) ont permis l'émergence de technologies de reconnaissance 3D.Il existe deux grandes familles de méthodes : celles basées sur la mise en correspondance directede visages 3D [CBF05], et celles se ramenant pour la classication à un problème de reconnaissance2D [RBBV04, FMM08]. Le premier type de méthodes nécessite généralement que l'on dispose d'images3D aussi bien pour les visages de la base d'apprentissage que pour les visages-requêtes, tandis que dansle second cas seules les vues 3D de la base d'apprentissage sont requises. Quelle que soit la solutionretenue, il est nécessaire de collecter un certain nombre de visages par le biais de capteurs 3D, ce quiréduit le champ des applications. En eet, de tels capteurs reposent encore à ce jour sur une prise devue intrusive, au sens où elle requiert la coopération du sujet.

Nous nous intéressons ici aux techniques basées sur l'étude d'images xes 2D des visages, caracté-risées par des valeurs de pixels en niveaux de gris. La plupart des méthodes décrites dans ce manuscritsont conçues pour la reconnaissance de visages dans des images xes, mais comme nous le verrons plusloin elles peuvent être étendues à la reconnaissance dans des vidéos.

Les techniques de l'état de l'art peuvent être classées en deux catégories [ZCPR03] : les méthodesdites globales, au sens où les caractéristiques sont directement extraites depuis la totalité des pixels(en niveaux de gris) de l'image ; les approches locales, basées sur l'étude de caractéristiques extraitesde diérentes régions du visage. Cet état de l'art a pour but de décrire l'historique du domaine de lareconnaissance de visages, et ne se veut pas exhaustif, eu égard au nombre exponentiel de publicationssur ce sujet. On se limitera à la description des approches principales sans citer toutes les méthodes etadaptations qui en dérivent.

4.2.1 Les approches globales

Historiquement, les premières approches globales ont reposé sur des mesures de corrélation calculéesdirectement entre les valeurs de pixels ou des gradients des images de visage à comparer [BP94]. Lecritère retenu est généralement la corrélation croisée normalisée [Bar81, Bur88, BP93]. Ces approchesrestent néanmoins très sensibles aux variations d'illumination, aux bruits aectant l'image ou à desvariations même très légères de la pose des visages.

En 1987, Sirovitch et Kirby [SK87] montrent que, les visages partageant un certain nombre depropriétés structurelles communes, on peut considérer que leurs images appartiennent à un sous-espacede dimension réduite, appelé espace des visages et que l'analyse en composantes principales constitue unoutil ecace pour la représentation des visages. On considère dès lors le problème de la reconnaissancede visages comme un problème de classication de données de grande dimension : les méthodes deprojection statistique, aussi appelées méthodes des sous-espaces ou de réduction de dimensions visent,dans un premier temps, à construire ce sous-espace de représentation et, dans un deuxième temps, àmettre en correspondance les visages à l'intérieur de ce sous-espace. Pour un état de l'art très détaillé

Page 91: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4.2. État de l'art 91

FIG. 4.2 L'image moyenne et les 15 premières Eigenfaces calculées sur la base d'images FACES duprojet Photobook du Media Lab au MIT [PPS96].

de ces techniques, on pourra se référer à [SM04].

En 1990, Turk et Pentland [TP91b] popularise l'approche de Sirovitch et Kirby en proposant laméthode dites des eigenfaces. Les visages de la base d'apprentissage, en position frontale, dans desconditions d'éclairage stable, sont alignés manuellement (sur la position des yeux). Les images sonttraitées comme des vecteurs Ai, formés par une simple concaténation des lignes. Ces vecteurs sontalors centrés par soustraction de leur moyenne. L'ACP vise donc à déterminer la matrice de projectionorthogonale W qui maximise la dispersion des données dans le sous-espace F de l'espace initial desimages de visage I. Le critère à maximiser est donc classiquement J(W ) =

∣∣W TSTW∣∣ où ST est la

matrice de dispersion totale des données Ai dans I.Si la dimension n des vecteurs-visages est très supérieure à leur nombre N (n N), ce qui est

généralement le cas pour les bases de visages, on peut utiliser une astuce courante [TP91b]. NotonsA = [A1, .., AN ] la matrice des observations centrées. Au lieu de calculer directement les élémentspropres de la matrice ST = 1

NAAT (de très grande taille n × n), on peut alternativement calculer le

système propre de ATA ∈ RN×N , et en déduire le système propre de ST par projection. Les colonnesde la matrice de projection W sont les g vecteurs propres orthonormés de la matrice ST (symétriqueréelle) associés aux plus grandes valeurs propres [Loè55, Jol86]. La valeur propre associée à chaquevecteur propre est une mesure du pourcentage de variance expliqué par ce vecteur propre. Ces vecteurspropres sont appelés eigenpictures dans [SK87, KS90], Eigenfaces par Turk et Pentland [TP91b] etMost Expressive Features dans [SW96]. Des exemples sont présentés dans la gure 4.2.

À chaque vecteur-image Ai ∈ Rn (supposé centré) est associée sa signature A′i = W TAi, déniepar la projection de Ai sur W . La classication s'eectue dans F , le plus souvent par simple mesurede distance entre signatures et une assignation au plus proche voisin.

De nombreux travaux s'intéressent alors au choix de la dimensionnalité intrinsèque g du sous-espaceprincipal, à la sélection des vecteurs propres permettant une meilleure discrimination ainsi qu'au choixde la mesure de dissimilarité dans F .

La classication des signatures est généralement menée à l'aide d'une distance au plus proche voi-sin : le visage-requête est aecté à la classe d'appartenance dont la signature est la plus proche. Lesdistances les plus utilisées sont les distances L1 (Manhattan), L2 (Euclidienne), du cosinus et de Maha-lanobis [BSDG01]. Des combinaisons de ces quatre métriques de base ont été proposées dans [YDB00].Des variantes de ces distances usuelles, telles que les mesures de dissimilarité de Moon [MP98] et deYambor [YDB00], ont également été introduites. Les résultats expérimentaux présentés dans [BBTD03]et dans les évaluations de FERET montrent que la distance de Mahalanobis-cosinus est la plus perfor-mante.

Page 92: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

92 4. Reconnaissance de visages

FIG. 4.3 ACP Probabiliste : la diérence ∆ est décomposée suivant la distance à l'intérieur de l'espacedes visages (DIFS), et à l'extérieur de l'espace des visages (DFFS) [MP97].

En ce qui concerne la sélection des vecteurs propres, un algorithme naturel pour déterminer leurnombre g est de chercher la valeur-charnière à partir de laquelle les valeurs propres (normalisées) sonttrès petites. Dans [TP91b], g est déni de manière heuristique en fonction de la base d'apprentissage.Moon et Phillips [MP98] préconisent d'éliminer 40% des derniers vecteurs propres, mais ce critère peutne pas être optimal, selon le contenu de la base d'apprentissage.

Kirby et Sirovitch [KS90] introduisent un premier critère de sélection, baptisé énergie de dimen-sion [Kir00], qui est par la suite devenu classique [SW96] et qui consiste à analyser les variations duratio entre la variance expliquée par chaque valeur propre sur la variance totale. Ils proposent aussi uncritère de sélection de g reposant sur la maximisation d'un critère d'étirement, déni comme le ratioentre chaque valeur propre λi et la plus grande valeur propre λ1.

Il n'existe cependant aucune preuve que le fait de ne retenir que les vecteurs propres associés auxplus grandes valeurs propres garantisse une meilleure discrimination des visages selon leur identité. Lagure 4.2 laisse même à penser que, loin d'encoder de l'information discriminante, les premiers vecteurspropres représenteraient du bruit ou des variations d'éclairage. C'est pourquoi Moon et Phillips [MP98]préconisent d'éliminer le premier vecteur propre. Martinez et Kak [MK01] montrent que les résultatsexpérimentaux sont supérieurs si l'on ne prend pas en compte les trois premiers vecteurs propres. Lenombre de vecteurs propres à rejeter est en fait très dépendant de la base d'apprentissage utilisée.

Pour limiter l'inuence du rejet des n−g vecteurs propres associés aux plus faibles valeurs propres,Roweis [Row97], ainsi que Tipping et Bishop [TB97], proposent l'Analyse en Composantes Princi-pales Probabiliste (ACPP), prenant en compte les derniers vecteurs propres par le biais d'un modèlelinéaire bruité. Un cas particulier de l'ACP Probabiliste est le modèle introduit par Moghaddam etPentland [MP97], basé sur la décomposition du sous-espace propre en deux espaces complémentaires :l'espace des visages F et son complémentaire F⊥, dont une base est dénie par les vecteurs propresrestants. L'espace des images I est donc décomposé en deux sous-espaces orthogonaux (voir gure 4.3),dans lesquels on peut composer la densité de probabilité de la diérence ∆ entre deux images de visage,à partir de deux distances : à l'intérieur de F , la Distance in Feature Space (DIFS), et à l'extérieur deF , la Distance From Feature Space (DFFS). Lorsqu'une image-requête T doit être classée, on calculesa diérence avec chacune des images Al de la base d'apprentissage et on décide de lui assigner saclasse d'appartenance en fonction de la densité de probabilité construite à partir de DFFS et DIFS. Sile ratio DFFS/DIFS dépasse un certain seuil, on peut décider que le visage-requête n'est pas représentédans la base d'apprentissage.

Si la méthode des Eigenfaces vise à réduire la dimension des images de visage tout en conservant ladispersion des données, outre la réduction du bruit, elle ne cherche pas à maximiser la séparation entreles images des visages de personnes diérentes. En 1997, Belhumeur et al. [BHK97] propose la méthodedite des Fisherfaces consistant à appliquer l'Analyse Discriminante Linéaire (ADL) à la reconnaissance

Page 93: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4.2. État de l'art 93

FIG. 4.4 Projection de données par ACP et ADL : sur cet exemple, l'axe ACP ne permet pas deséparer en projection les deux classes. Par contre, l'axe ADL possède un bon pouvoir discriminant.

FIG. 4.5 Les cinq premières Fisherfaces (associées aux plus grandes valeurs propres), calculées surune sous-base de l'Asian Face Database PF01 contenant 107 personnes et quatre images de visage parpersonne.

de visages. Les images de visage sont organisées en classe par sujet et il s'agit alors de maximiser lavariance inter-classes tout en minimisant les variances intra-classe (voir gure 4.4). Concrètement, on

maximise le critère de Fisher : J(W ) = |WTSbW |

|WTSwW | où Sb est la variance de la moyenne des classes et Swest la moyenne des variances à l'intérieur des classes. Sous l'hypothèse que la matrice Sw est inversible,les colonnes de la matrice W sont constituées des vecteurs propres de la matrice S−1

w Sb, associés auxplus grandes valeurs propres et appelés Fisherfaces (voir gure 4.5). Swets et Weng [SW96] ainsi queBelhumeur et al. [BHK97] proposent d'eectuer une ACP en amont de l'ADL, de manière à réduire ladimension des données en entrée et ainsi de rendre inversible la matrice Sw (non inversible dans le casclassique où la dimension des images en entrée est nettement supérieure à leur nombre (n N)). Ence qui concerne les mesures de dissimilarité dans l'espace des Fisherfaces, Zhao propose dans [ZCK98]une distance Euclidienne pondérée par les valeurs propres. Celle-ci donne de meilleurs résultats que laplupart des métriques usuelles.

Bartlett et al. [BMS02] proposent d'appliquer l'Analyse en Composantes Indépendantes (ACI) àla reconnaissance de visages, le but étant, non pas de simplement décorréler les données comme lefait l'ACP, mais de les rendre statistiquement indépendantes, en utilisant de plus des statistiquesd'ordre supérieur à deux. L'ACI consiste à optimiser une fonction objectif, la fonction de contraste,généralement basée sur le maximum de vraisemblance, par le biais du calcul de la divergence deKullback-Leibler [Hub85]. Bartlett et al. proposent deux algorithmes de mise en ÷uvre, tous deuxreposant sur une étape préliminaire de réduction de la dimension des données par ACP. Le premieralgorithme (architecture I ) vise à obtenir des vecteurs de base (les colonnes de la matriceW ) qui soientstatistiquement indépendants deux à deux. L'algorithme (architecture II ), quant à lui, cherche à rendreles coecients de projection mutuellement statistiquement indépendants. Des vecteurs de projectionde l'ACI sont illustrés dans la gure 4.6. On peut remarquer que l'architecture I fournit des vecteursde base expliquant essentiellement des propriétés locales, tandis que les vecteurs issus de l'architectureII semblent fournir plus d'information sur la globalité du visage.

Dans la littérature, les résultats de comparaison des performances de l'ACI et de l'ACP sontcontradictoires. Les résultats fournis par Bartlett et al. [BMS02] (sur une sous-base de FERET) mettenten évidence des performances équivalentes pour les deux architectures, et supérieures à celles desEigenfaces. Les résultats obtenus par Delac et al. [DGG05], ainsi que par Draper et al. [DBBB03](sur des sous-bases de FERET) montrent une diérence très signicative dans les performances des

Page 94: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

94 4. Reconnaissance de visages

FIG. 4.6 Les six premiers vecteurs principaux obtenus par ACI : (a) grâce à l'architecture I et (b)avec l'architecture II [DBBB03].

deux algorithmes, à l'avantage de l'architecture II. Selon ces deux références, seul le modèle issu de laseconde architecture serait plus ecace que l'ACP. Néanmoins, la plupart des résultats expérimentauxlaissent à penser que l'ACI n'apporte pas d'amélioration signicative sur l'ACP [Mog02], voire qu'elleengendre une dégradation des performances [BDBS02, Yan02].

De manière à augmenter la séparabilité des données, de nombreux travaux ont consisté par la suite, àrendre non-linéaires ces approches de projection statistiques, notamment par l'utilisation d'une fonctionde noyau. Dans un premier temps, on projette les données dans un espace K de plus grande dimensionet appelé espace de linéarisation [ABR64]. Dans un second temps, on applique dans K une techniquede projection statistique linéaire. L'hyperplan ainsi obtenu peut être décrit dans l'espace initial desdonnées (par projection) comme un sous-espace non-linéaire. Des versions à noyau ont été proposéespour l'ACP [SSM99, Yan02], l'ADL [MRW+99], et l'ACI [BJ02]. Le choix du type de fonction de noyauà utiliser, ainsi que de ses paramètres, reste cependant un problème dicile [GAP+02].

D'autres approches consistent à modéliser la distribution complexe des données par un ensemble desous-modèles linéaires. On cherche alors à obtenir une meilleure représentation des données qu'avec ununique sous-espace linéaire, tout en évitant la complexité numérique inhérente à la détermination d'unsous-espace non-linéaire. Les données sont partitionnées en diérents groupes (clusters). On construitun espace de projection linéaire spécique à chacun de ces clusters. Il existe diérentes manières decomposer les clusters : on peut partitionner les données en fonction des conditions de prise de vue ou dela pose, et ceci de manière supervisée ou non, ou bien alors constituer un cluster par classe (identité).

Pentland et al. [PMS94] propose de construire un sous-espace pour chaque couple d'orientation etd'échelle du visage dans l'image. Lorsqu'un visage-requête doit être reconnu, on le projète dans chacunde ces sous-espaces et on sélectionne celui dont il est le plus proche. Puis, c'est dans ce sous-espacequ'est menée la phase de reconnaissance, de la même manière que pour les Eigenfaces.

Vasilescu et Terzopoulos [VT02] généralisent cette technique par l'utilisation de tenseurs commeillustré dans la gure 4.7.a. L'algorithme proposé, appelé Décomposition en Valeurs Singulières à nmodes, permet de décomposer le tenseur en un ensemble de composantes principales dans chacunedes directions (voir gure 4.7.b). Lorsqu'un visage-requête se présente, on commence par calculerpour chaque position dans le tenseur (pour chaque pose, expression, etc.), ses coordonnées dans labase correspondante. On obtient ainsi un ensemble de vecteurs de coecients. On choisit d'assignerau visage-requête l'identité de l'exemple le plus proche en moyenne sur toutes les positions dans letenseur.

Kim et al. [KKB02], comme Turaga et Chen [TC02], proposent des mélanges d'EigenSpaces construitsautomatiquement par le biais d'un algorithme Expectation Maximization (EM) [Moo96]. Tandis queKim et al. caractérisent chaque visage par ses coordonnées dans la base des Eigenfaces la plus proche,Turaga et Chen choisissent comme signature le vecteur de coordonnées associé à la base des vecteurspropres minimisant l'erreur de reconstruction.

Ces approches nécessitent par contre de nombreuses images par personne, selon des conditions deprise de vue diérentes. À titre d'exemple, Vasilescu et Terzopoulos [VT02] disposent de 256 vuesspéciques par personne. Malheureusement, dans la pratique, il est très rare de disposer d'un teléchantillon étiqueté, ce qui limite le champ des applications.

D'autres méthodes reposent sur la construction d'un sous-espace par classe, nécessitant des imagesreprésentatives moins nombreuses et surtout non annotées en fonction des conditions de prises de vue.Parmi les méthodes les plus intuitives, on peut citer la technique de Torres et al. [TLV00], permettantde comparer un visage directement à un ensemble de vues d'une même personne. Les sous-espaces sont

Page 95: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4.2. État de l'art 95

FIG. 4.7 La technique de Vasilescu et Terzopoulos [VT02] : (a) les données sont rangées sous laforme d'un tenseur, les quatre dimensions de celui-ci représentent la classe d'appartenance, la vueconsidérée, les conditions d'illumination et l'expression faciale. Ici, seul le sous-tenseur correspondant àune expression faciale neutre est montré. (b) un résultat de l'algorithme de Décomposition en ValeursSingulières à n modes.

dénis en appliquant une ACP par classe (à la manière des Eigenfaces). L'image du visage-requêteest projetée dans chacun de ces sous-espaces, puis reconstruite. On assigne au visage à reconnaîtrel'identité associée au sous-espace donnant la plus faible erreur de reconstruction. Si l'on dispose nonpas d'une unique image-requête, mais d'un ensemble de vues-requêtes de la même personne, alors onapplique cette comparaison à toutes les vues-requêtes. La décision globale est prise par le biais d'unvote à la majorité.

Yamaguchi et al. [YFM98] propose la technique dite des Sous-Espaces Mutuels, permettant de com-parer directement des ensembles d'images. Lorsqu'un ensemble d'images-requêtes (contenant toutes lemême visage) doit être classé, on construit son sous-espace principal par le biais d'une ACP (à la ma-nière des Eigenfaces), puis on calcule la distance entre ce sous-espace et les sous-espaces des personnesconnues (préalablement construits) au sens des angles principaux. L'angle principal entre deux sous-espaces est déni comme étant l'angle minimum entre deux points des sous-espaces. Cette mesure neprend en compte que la distance d'angle entre les deux points les plus proches et ceci quelles que soientles distributions des sous-espaces (on néglige notamment les centroïdes et les directions principalesdes sous-espaces). Elle peut par conséquent engendrer une perte d'information discriminante. Cettetechnique a été ensuite étendue à des sous-espaces non-linéaires par Wolf et al. [WS03].

Une approche probabiliste permettant de mesurer la similarité entre espaces est proposée par Sha-khnarovich et al. [SFD02]. On cherche la classe Ωk dont la densité de probabilité pk est la plus proche dela distribution p de l'ensemble d'images à reconnaître, ces distributions étant supposées Gaussiennes.La mesure de dissimilarité considérée est la divergence de Kullback-Leibler. Les résultats expérimen-taux montrent que cette technique probabiliste est plus performante que la technique des sous-espacesmutuels.

Bouveyron et al. [BGS05] introduisent une modélisation similaire à celle de Tipping et Bishop [TB99],mais qui repose sur des sous-espaces de dimensions intrinsèques diérentes (et déterminées à l'aide del'étude des graphes d'éboulis des valeurs propres) et une régularisation des matrices de variance desclasses reposant sur l'hypothèse que les classes sont hypersphériques à la fois dans leur espace deprojection et son supplémentaire. Cette approche est particulièrement adaptée à la modélisation desdonnées de grandes dimensions et a été appliquée à la détection d'objets spéciques (motos) dans des

Page 96: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

96 4. Reconnaissance de visages

FIG. 4.8 L'architecture neuronale de Lawrence et al. [LGTB97] : les trois cartes de la première couchecorrespondent aux trois dimensions de la carte SOM ; ils sont suivis de 4 couches de convolutions et desous-échantillonnage et d'une couche de neurones, chacun correspondant à un individu (sur l'exemple,la première classe est activée par l'image d'entrée).

images, mais à notre connaissance, elle n'a jamais été utilisée dans le contexte de la reconnaissance devisages.

D'autres approches reposent non pas sur des projections statistiques mais sur des techniques d'ap-prentissage neuronales.

L'une des premières approches de classication des visages par réseaux de neurones repose sur lesystème appelé Wilkie, Aleksander and Stonham's Recognition Device (WISARD) [Sto84]. Un réseaude neurones à une seule couche est construit pour chacune des classes. Le système nécessite pourson apprentissage de nombreuses vues d'une même personne, avec des variations dans les conditionsd'illumination, dans l'expression faciale, etc. Un visage-requête se voit assigner l'identité du réseau deneurones qui produit la plus forte réponse.

Cotrell et Fleming [CF90] proposent d'eectuer la classication à l'aide d'un réseau de neu-rones MLP, après extraction des composantes principales non-linéaires par réseaux de neurones auto-associatifs. Dans [LGTB97], Lawrence et al. proposent une extraction de signatures, basée sur l'utilisa-tion de cartes auto-organisatrices tridimensionnelles (SOM) introduites par Kohonen [Koh89]. Celles-cipermettent d'organiser des données de grandes dimensions de manière non supervisée, en eectuantsimultanément la projection dans la carte et le clustering des données tout en préservant la topologiedes données. Ils choisissent de classer les signatures extraites par les cartes de Kohonen à l'aide d'unréseau de neurones à convolution (voir gure 4.8) Les résultats expérimentaux montrent la supérioritédes réseaux de neurones à convolution sur les réseaux MLP, et une légère amélioration par rapport àla technique des Eigenfaces.

Lin et al. [LKL97] utilisent un réseau de neurones probabiliste décisionnel (alliant les avantages desapproches statistiques et des réseaux de neurones). Ils montrent que cette solution permet d'atteindredes performances comparables à celles de la méthode de Lawrence et al., tout en étant beaucoup moinscoûteuse en termes de temps de calcul.

Dans [WJHT04], Wang et al. proposent d'appliquer sur les visages une variante à noyau de l'algo-rithme K-means [JD88] an d'initialiser les paramètres d'un réseau de fonctions à base radiale (RBF).Les taux de classication obtenus sur la base ORL [SH94] ne montrent pas d'amélioration par rapportaux techniques usuelles de projection statistique.

Thomas et al. [TFV98] proposent d'utiliser un réseau RBF pour la classication des signaturesextraites à l'aide de la technique des Eigenfaces. Ils montrent dans [FTV99] que l'utilisation d'un RBFen aval de l'ACP donne des résultats équivalent à l'utilisation d'une ADL (ce qui revient à appliquer

Page 97: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4.2. État de l'art 97

FIG. 4.9 L'architecture siamoise de Chopra et al. [CHL05].

l'algorithme des Fisherfaces).Er et al. [EWLT02] démontrent alors l'ecacité des RBF pour la classication de signatures issues

de la méthode des Fisherfaces. Leur technique est néanmoins coûteuse, puisqu'elle nécessite la miseen ÷uvre d'une ACP, suivie d'une ADL, puis d'une initialisation itérative des paramètres du RBF, etenn de l'apprentissage de celui-ci.

Chopra, Hadsell et LeCun [CHL05] proposent d'utiliser des réseaux de neurones siamois (sia-mese neural networks), introduits par Bromley et al. [BGL+93] dans le contexte de la vérication designatures (voir gure 4.9). Dans le cadre de l'authentication de visages, le principe est d'entraînerune architecture neuronale à projeter les images de visage dans un sous-espace non-linéaire, dans lequeldeux images du même individu sont proches (au sens de la distance L1) et deux images d'individusdiérents sont éloignés. Contrairement à l'ACP qui vise uniquement une réduction de dimension et àl'ADL ou aux méthodes neuronales discriminatives qui supposent que toutes les catégories sont connuesà l'avance, le système de Chopra et al. cherche à apprendre directement une mesure de similarité entredeux visages. Pour cela, on apprend les paramètresW de la fonction de projection non-linéaire GW (X)en minimisant (resp. maximisant) la fonction coût EW (X1,X2) = ||GW (X1)−GW (X2)|| pour chaquepaire de visages de la même personne (resp. de deux personnes diérentes). La fonction GW est réaliséepar un réseau de neurones à convolution particulièrement robuste aux déformations géométriques.

D'autres travaux reposent sur les Machines à Vecteurs de Support (SVM) [Vap95], qui constitue uneméthode de classication, visant à minimiser le risque structurel (au sens de la dimension de Vapnik-Chervonenkis optimale). Initialement, les SVM sont dénis pour un problème binaire où les deuxclasses sont linéairement séparables. On peut néanmoins étendre leur dénition aux cas non-linéaire(par l'introduction d'une fonction de noyau) et non séparable (par relâchement des contraintes). Ilexiste de nombreuses solutions pour l'extension au cas multi-classes.

Dans [Phi99], Phillips utilise la formulation des sous-espaces Bayésiens à la manière de Moghaddamet Pentland [MP97] pour réduire le problème à deux classes : les variations intra-classe et les variationsextra-classe. Des résultats expérimentaux montrent que l'utilisation des SVM pour la classicationapporte une amélioration par rapport à une simple distance Euclidienne.

Page 98: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

98 4. Reconnaissance de visages

FIG. 4.10 Caractéristiques utilisées dans [BP93]. Celles-ci sont, entre autres : les dimensions duvisage, les positions relatives des divers éléments faciaux et des segments de droite caractérisant laforme du menton.

FIG. 4.11 Exemple de carte des lignes de contour d'un visage utilisée dans la technique de Line EdgeMap [GL02].

Jonsson et al. [JKLM00] proposent une solution pour l'authentication, consistant à construire unSVM spécique pour chaque personne enregistrée, à partir de signatures obtenues par ACP ou parADL. Ils montrent au travers de résultats expérimentaux que, pour classer des signatures obtenues parACP, les SVM sont plus performants qu'une simple distance Euclidienne ou une corrélation, mais queles SVM n'apportent pas d'amélioration dans le cas de l'ADL. Cela peut être expliqué par le fait quel'ADL sépare au mieux les diérentes classes dans l'espace de projection, la phase de maximisation dela marge devenant ainsi superue.

4.2.2 Les approches locales ou hybrides

Les approches géométriques font partie des plus anciennes techniques utilisées dans le cadre de lareconnaissance de visages. Elles consistent à extraire, entre autre paramètres, les positions relatives descaractéristiques faciales telles que les yeux, le nez ou la bouche. Par exemple, Brunelli et Poggio [BP93]utilisent un ensemble de 35 éléments géométriques extraits automatiquement (voir gure 4.10). Lescaractéristiques extraites des visages sont comparées deux à deux à l'aide d'une distance de Mahala-nobis.

Cette approche nécessite une très grande précision dans la détection des divers éléments faciaux,ce qui reste un problème dicile dans des conditions générales de prise de vue comme nous l'avonsvu dans le chapitre 3. De plus, la plupart des caractéristiques extraites ne sont pas robustes à deschangements dans l'expression faciale ou la pose de la tête.

Takács [Tak98] propose de comparer les images de visage par une mesure de similarité estiméedirectement entre leurs cartes de contour binaires, obtenues par le biais du ltre de Sobel. La mesurede similarité utilisée est inspirée de la distance de Hausdor [HKR93], qui permet de comparer deuximages sans pour autant nécessiter de mise en correspondance explicite des points issus de ces images.

Dans [GL02], cette approche est améliorée par l'utilisation des lignes de contour des visages (aulieu de simples cartes de contour). Les lignes de contour sont obtenues en groupant les pixels de lacarte de contour de manière à obtenir des segments de droite (voir gure 4.11). Chaque visage est doncreprésenté par une carte appelée Line Edge Map (LEM). La distance utilisée pour la classication desvisages est la même que dans [Tak98]. Les résultats expérimentaux rapportés sur des images de visages

Page 99: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4.2. État de l'art 99

FIG. 4.12 Reconnaissance de visages par Modèles de Markov Cachés (MMC) [Sam94, Nef99] : àgauche, le modèle MMC 1D et à droite, le modèle MMC pseudo 2D.

en position frontale montrent que la technique de LEM est plus ecace que celle de [Tak98], reposantsur des simples cartes de contour. Elle donne également des résultats de classication signicativementmeilleurs que pour les Eigenfaces en présence de changements d'illumination. En revanche, elle estmoins robuste aux variations d'expression faciale et d'angle de prise de vue, car ces deux facteursaectent nettement les signatures extraites.

D'autres approches dites modulaires reposent sur des approches globales, appliquées à diérentesrégions faciales, et combinées de manière à obtenir un modèle global alliant plusieurs modèles locaux.L'idée de ces approches est que les diérentes régions faciales ne sont pas aectées de la même manièrepar les diérentes sources de variabilité.

Brunelli et Poggio généralisent l'approche basée corrélation de Baron [Bar81] à plusieurs régionsfaciales [BP93]. Quatre régions sont considérées : les yeux, le nez, la bouche et la région faciale danssa globalité (du haut des sourcils jusqu'au menton). Lorsqu'un visage-requête doit être reconnu, oncommence par le segmenter en régions à la manière de la base d'apprentissage, puis on applique latechnique basée sur la corrélation pour chaque région faciale. Les résultats sont combinés à l'aided'un réseau HyperBF. Les résultats expérimentaux montrent que les caractéristiques faciales les plusdiscriminantes sont, en ordre décroissant de pouvoir discriminant : les yeux, le nez, la bouche et laglobalité du visage.

Pentland et al. [PMS94] introduisent l'approche dites des Modular Eigenspaces. Les régions facialesretenues englobent la totalité du visage, les yeux et le nez. Une ACP est appliquée sur chacune deces régions faciales et les résultats de classication obtenus sur chacune des régions sont agrégés.Pentland et al. montrent que cette approche hybride est plus ecace que les techniques globales etstrictement locales prises séparément.

En 2003, Heisele et al. [HHWP03] proposent une technique modulaire utilisant les Machines àVecteurs de Support (SVM), visant à classier un vecteur concaténant les pixels extraits dans dixrégions faciales.

Dans [PG05], Price et Gee présentent une technique modulaire basée sur une variante de l'ADL(alliant l'ADL Directe avec l'ADL Pondérée) sur la région faciale dans son ensemble, une bande fa-ciale (de même largeur que la région faciale) s'étalant du front jusqu'au-dessous du nez, et une autrebande faciale contenant les yeux. Les résultats expérimentaux montrent que cette approche est plusperformante que les Eigenfaces et les Fisherfaces, et notamment plus robuste aux changements dansles conditions d'illumination du visage, dans l'expression faciale et aux occultations partielles.

Inspirés par les techniques de reconnaissance de la parole, Samaria et al. [Sam94] introduisent unestructure simple de Modèles de Markov Cachés (MMC) unidimensionnels (MMC 1D) consistant àsegmenter les images de visage en un ensemble de régions (bandes faciales) couvrant toute la largeurde l'image (voir gure 4.12). À chacune de ces bandes faciales est associé un état, correspondantau front, aux yeux, au nez, à la bouche et au menton. Les observations émises par chacun de cesétats sont soit les vecteurs obtenus par concaténation des lignes de pixels des bandes faciales, soitles vecteurs de leur compression via une transformation en cosinus discrète bidimensionnelle (DCT).Un modèle MMC est construit pour chacune des personnes (classes) de la base d'apprentissage, enutilisant classiquement l'algorithme de Viterbi [For73] pour l'initialisation des paramètres et la méthodede Baum-Welch [Bau72] pour leurs réajustements. Lorsqu'un visage-requête est présenté au système,

Page 100: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

100 4. Reconnaissance de visages

FIG. 4.13 Les transformations locales dans la méthode de Perronnin [Per04].

FIG. 4.14 La mise en correspondance dans la méthode EGM [LVB+93] : le modèle de grille pourun individu A (a), la meilleure grille pour l'individu A après EGM (b) et la meilleure grille pour unindividu B après EGM, utilisant le modèle de grille de l'individu A (c).

on segmente l'image à la manière de la base d'apprentissage, puis on calcule les vraisemblances dechacun des modèles de Markov cachés pour nalement lui assigner l'identité associée au modèle le plusvraisemblable.

Pour prendre en compte les déformations horizontales, Samaria [Sam94] et Nean [Nef99] proposentalors un modèle de MMC pseudo 2D, aussi appelé MMC planaire (voir gure 4.12). Cette techniquerepose sur la dénition de super-états, eux-mêmes Markoviens, décrivant l'ensemble des états de Markov1D. Les bandes faciales sont découpées en sous-régions (blocs de pixels) décrites par des MMC 1D,avec une transition de gauche à droite, et dénissent les super-états, d'ordre d'apparition de haut enbas. Nean introduit également une technique généralisant les MMC pseudo 2D, remplaçant les MMCpar un réseau Bayésien [Nef02].

Perronnin et Dugelay [Per04, PDR05] cherchent à modéliser les transformations possibles aec-tant le visage d'un individu. Pour cela, ils introduisent un modèle capable d'injecter dans le cadreprobabiliste des MMC 2D (si les états considérés sont discrets) et des Modèles Espace-État 2D (dansle contexte d'états continus), un ensemble de transformations locales conçues de telle manière queles déformations voisines restent cohérentes entre elles (voir gure 4.13). Ces transformations localesvise à estimer l'ensemble des déformations globales des visages, supposées trop complexes pour êtremodélisées directement. Des algorithmes performants d'approximation, appelés turbo MMC et turboMME, sont proposés pour la mise en ÷uvre de ces méthodes. Les résultats expérimentaux montrentque, dans le cadre du problème de l'authentication, l'approche turbo MME est très performante, etsupérieure à l'approche turbo MMC. La technique proposée est conçue pour être robuste aux change-ments dans l'expression faciale et dans les conditions d'illumination. Dans le cadre d'une collaborationentre notre équipe et celle de Jean-Luc Dugelay à Eurecom, nous avons conçu un démonstrateur de

Page 101: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4.2. État de l'art 101

FIG. 4.15 Illustration de la méthode EBGM [WFKvdM97] : un exemple de graphe (a) et un FaceBunch Graph (FBG) (b).

reconnaissance faciale sur un ux vidéo provenant d'une webcam, utilisant le détecteur de visage CFFet la méthode de Perronnin. Nous l'avons présenté lors de la conférence ACM Multimédia, à Singapouren 2005 [MDG05].

D'autres approches reposent sur la mise en correspondance de graphes. Parmi celles-ci, la techniquedite d'Elastic Graph Matching (EGM) a été initialement introduite par Lades et al. en 1993 [LVB+93](voir gure 4.14). À chaque image de la base d'apprentissage est associé un graphe qui lui est propre. Onutilise pour cela une grille régulière, placée sur les images de visage. Les caractéristiques extraites sontgénéralement des coecients de Gabor [KTP00]. Le treillis de la grille utilisée pour les images-requêtesest généralement plus n que pour les images d'apprentissage. La distance entre l'image-requête etune image connue est dénie comme étant la meilleure mise en correspondance entre les vecteurs decaractéristiques préservant un certain nombre de contraintes spatiales, au travers d'une fonction decoût qui mesure la somme des coûts de mise en correspondance des n÷uds et le coût de déformationglobal du modèle.

Des améliorations ont été apportées plus tard à ce modèle [TKP01, DJK+02]. Dans [KTP00],Kotropoulos et al. cherchent à réduire l'inuence de l'initialisation de l'algorithme (pouvant engendrerla convergence vers des minima locaux) par une procédure probabiliste fournissant, à chaque itération,le couple optimal de transformations globales et locales.

Wiskott et al. [WFKvdM97] proposent la technique d'Elastic Bunch Graph Matching (EBGM) danslaquelle ils utilisent un même graphe pour la modélisation de tous les visages, ce qui semble cohérent dufait de la structure géométrique des images de visage. Chaque n÷ud est associé à une caractéristiquefaciale (yeux, nez, bouche) ou à des points de contour. Au lieu de construire un modèle pour chaqueimage, on construit donc un modèle général de représentation, appelé Face Bunch Graph (FBG), depuisl'intégralité de la base d'apprentissage (voir gure 4.15). Tous les vecteurs correspondant à un mêmen÷ud sont regroupés de manière à représenter l'ensemble des états possibles de ce n÷ud. La fonctionde coût utilisée, proche de celle de l'EGM, inclut en outre l'information de phase, de manière à leverl'ambiguïté entre des caractéristiques dont les valeurs sont proches et à estimer les translations locales.Tout comme pour l'EGM, l'algorithme procède en deux étapes : la première permet de compenser lesdistorsions globales du visage et la seconde, les dissimilarités locales.

D'autres approches [BLGT07, LMT+07, KRGT07] tentent de sélectionner et de mettre en cor-respondance des caractéristiques locales en utilisant le descripteur Scale Invariant Feature Transform(SIFT) introduit en 2004 par David Lowe [Low04], et appliqué avec succès dans le domaine général dela reconnaissance d'objets. Grâce à un ltrage dans l'espace-échelle, les caractéristiques extraites parSIFT sont particulièrement robustes aux variations en translation, échelle et rotation et du fait de leurrépétabilité, permettent une mise en correspondance robuste sous des déformations anes, des chan-gements relatifs de points de vue et d'éclairage. Outre les mesure locales de similarité, des contraintesgéométriques sont appliquées pour ltrer les mauvaises correspondances, notamment pour prendreen compte les variations limitées des positions des caractéristiques faciales dues aux imprécisions decentrage et aux expressions faciales [LMT+07] (voir gure 4.16).

Page 102: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

102 4. Reconnaissance de visages

FIG. 4.16 Caractéristiques locales extraites par SIFT et construction d'un graphe de correspondancesaprès ltrage par des contraintes géométriques [LMT+07].

FIG. 4.17 Classication de la distribution des codes LBP sur les visages [RM06].

Toujours dans le but de mettre en correspondance des caractéristiques plus particulièrement ro-bustes aux variations d'éclairage, certaines méthodes [AHP04, AHP06] proposent une sélection reposantsur la transformation en Local Binary Patterns (LBP), méthode de caractérisation de la texture intro-duite par Ojala et al. [OPM05]. La transformation LBP est dénie à partir d'un ensemble ordonné decomparaisons binaires entre l'intensité d'un pixel central et celles de ses voisins (dénis sur un rayonvariable), dont les résultats permettent de former un code décimal à associer au pixel central, qui nor-malise localement l'amplitude des variations lumineuses. Dans [RM06], Rodriguez et al. proposent uneapproche de classication Bayésienne basée sur la distribution des codes LBP sur le visage, approximéeà partir d'une concaténation d'histogrammes locaux, extraits dans une grille (voir gure 4.17).

Page 103: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4.3. Reconnaissance de visages par Analyse Discriminante Bilinéaire (ADB) 103

4.3 Reconnaissance de visages par Analyse Discriminante Bilinéaire(ADB)

4.3.1 Introduction

Depuis les travaux de Sirovitch et Kirby [SK87], démontrant l'ecacité de l'Analyse en Compo-santes Principales (ACP) pour la représentation des visages, les techniques de projection statistique ontété très utilisées pour l'extraction des caractéristiques faciales. Parmi les techniques les plus connues,on compte les méthodes dites des Eigenfaces [TP91b] et des Fisherfaces [BHK97], consistant respec-tivement à appliquer une ACP et une Analyse Discriminante Linéaire (ADL) sur des vecteurs de trèsgrandes dimensions, obtenus par concaténation des lignes de pixels des images de visage. Ces ap-proches sont par contre connues pour être potentiellement instables numériquement, et peu robustesaux variations d'éclairage, aux erreurs de centrage sur les visages et aux occultations partielles.

Dans le cadre des travaux de thèse de Muriel Visani [Vis05], réalisés de 2003 à 2006, décidant d'ex-plorer plus avant les techniques de projection statistique, nous avons proposé une approche basée surune Analyse Discriminante Linéaire et une modélisation bidimensionnelle orientée (2Do) des données,baptisée Analyse Discriminante Linéaire Bidimensionnelle Orientée (ADL2Do), qui peut se déclineren deux versions, selon que l'on considère les lignes ou les colonnes des images. La représentation2Do permet de mettre en ÷uvre l'analyse de données directement sur les lignes ou les colonnes del'image, et ainsi d'éviter implicitement le problème de la singularité inhérent à la sous-représentationdes données de visages. Après avoir choisi une mesure de dissimilarité adaptée, nous avons montré lacomplémentarité de ces deux techniques de reconnaissance, ce qui a ouvert naturellement la voie à leurfusion. Nous avons donc introduit une méthode nommée Analyse Discriminante Bilinéaire (ADB), quiconstitue un mode de combinaison ecace des deux approches orientées. Ces travaux ont été publiésdans les articles [VGL04a, VGJ04, VGJ05d, VGJ05b, VGJ05a, VGJ05c] et ont conduit au dépôt d'unbrevet d'invention [VGL04b].

4.3.2 L'Analyse Discriminante Linéaire 2D orientée (ADL2Do)

Dans les méthodes de projection statistique classiques, les images de visage sont transformées envecteurs par simple concaténation des lignes ou des colonnes de pixels. Cette modélisation unidimen-sionnelle (1D) engendre, dans une certaine mesure, la perte d'une partie de la structure bidimension-nelle des images initiales. De plus, la dimension des vecteurs-images ainsi obtenus est généralementtrès grande, ce qui pose un certain nombre de problèmes. En premier lieu, les matrices de covariancesont diciles à estimer de manière précise à cause du nombre limité d'exemples dont on dispose,comparativement à la taille de ces exemples. Bien que l'on puisse estimer les vecteurs propres de lamatrice de covariance sans passer par le calcul de celle-ci, en utilisant des techniques basées sur laDécomposition en Valeurs Singulières (SVD) [SK87, KS90], le problème d'imprécision n'est pas pourautant écarté puisque les vecteurs propres sont évalués statistiquement à partir de données sourantde sous-représentation. De nombreuses solutions ont été proposées pour résoudre ce problème de sous-représentation [LL99b, HYCL03, LPV05], mais la plupart d'entre elles sont coûteuses et/ou nécessitentl'ajout de paramètres diciles à ajuster. Finalement, le coût de calcul pour déterminer ces vecteurspropres est élevé : le nombre d'opérations nécessaires est en o([min(hw,N)]3), où hw est la taille desvecteurs-images et N leur nombre.

Dans le but de pallier ces inconvénients, Yang et al. introduisent, en 2004, l'Analyse en Compo-santes Principales Bidimensionnelle (ACP2D) [YZFY04] qui, à la diérence des méthodes usuelles deprojection statistique, ne nécessite pas de transformation préalable des matrices-images en vecteurs-images. Une matrice de covariance généralisée est estimée directement depuis les matrices-images de labase d'apprentissage. L'analyse en éléments propres de cette matrice, qui est de taille très réduite parrapport à la matrice de covariance des Eigenfaces, permet de déterminer les directions de projectionde manière plus robuste.

À partir d'un ensemble d'images Xi, matrices de h lignes et w colonnes, le but de l'ACP2D estde déterminer la matrice de projection P de taille w × g dont les g colonnes sont des vecteurs Pk de

Page 104: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

104 4. Reconnaissance de visages

FIG. 4.18 Exemple d'images reconstruites par ACP2DoL : images originales (a), images reconstruitesavec g = 1 (b), g = 2 (c) et g = 10 (d).

taille w, qui maximise la dispersion généralisée des images de la base d'apprentissage projetées XPl .

Pratiquement, on maximise le critère J(P ) = tr(P TSTP ) où ST est la matrice de covariance totalegénéralisée des N matrices-images Xi et X, leur moyenne :

ST =1N

N∑i=1

(Xi − X)T (Xi − X), (4.1)

On peut aisément montrer que les colonnes de la matrice P = [P1, . . . , Pg] maximisant le critèreJ(P ) sont les vecteurs propres (orthonormés) de la matrice ST , associés aux g plus grandes valeurspropres [YZFY04]. Classiquement, les vecteurs propres Pk sont rangés dans P suivant l'ordre décrois-sant de leurs valeurs propres associées. Yang et al. ne proposent pas de méthodologie pour déterminerle nombre g optimal de vecteurs propres à retenir dans P .

Dans l'espace de projection, la distance entre les projections XPi et XP

j des images Xi et Xj

est DL2(XPi , X

Pj ) =

∑gk=1 dL2(XPk

i , XPkj ) où dL2 est la distance Euclidienne et XPk

a = XaPk est laprojection de l'image Xa sur le vecteur Pk.

Appliquer une ACP2D sur les images de visage revient à appliquer une ACP sur l'ensemble des lignesdes visages [WWZF05]. L'ACP2D est en fait 2D-orientée en lignes et peut être rebaptisée ACP2DoL.Il sut d'appliquer l'ACP2D non pas sur les matrices-images originales, mais sur les transposées decelles-ci, pour obtenir une ACP sur les colonnes des images et ainsi dénir une ACP2D orientée enColonnes (ACP2DoC). À la diérence des Eigenfaces, les vecteurs propres obtenus par ACP2DoLsont de longueur w et non hw. Ils ne peuvent donc pas être directement visualisés sous la formed'images de même résolution que les images initiales, comme c'était le cas pour les Eigenfaces. Nouspouvons cependant visualiser les résultats des reconstructions obtenues depuis l'espace de projection(voir gure 4.18).

Yang et al. ont mené dans [YZFY04] une évaluation poussée de l'ACP2D, notamment en présencede variations limitées de la pose de la tête, de l'expression faciale et des conditions d'illumination ainsique de l'impact du nombre d'exemples par personne disponibles pour l'apprentissage. Les résultatsexpérimentaux, obtenus sur les bases ORL et AR, montrent que l'ACP2D est signicativement plusperformante que les Eigenfaces, l'ACP à noyau et l'ACI. Yang et al. ont également comparé leurtechnique à celle des Fisherfaces de Belhumeur et al. [BHK97]. Avec dix images par classe en moyennepour l'apprentissage, les performances de l'ACP2D et des Fisherfaces sont équivalentes. Par contre,avec des nombres d'images par classe plus faibles, l'ACP2D s'avère plus ecace que les Fisherfaces.

Dans [VGL04a], nous avons mené des expériences complémentaires visant à évaluer la robustessede l'ACP2D par rapport aux imprécisions de cadrage, ainsi qu'à la présence de bruit et d'occultationspartielles. Pour cela, nous considérons des images extraites de FERET, bien centrées, montrant 200personnes, avec une vue en expression faciale neutre par personne. Les images sont redimensionnées demanière à ramener la distance interoculaire à 70 pixels. L'impact de huit facteurs est étudié, chacun

Page 105: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4.3. Reconnaissance de visages par Analyse Discriminante Bilinéaire (ADB) 105

FIG. 4.19 Des images présentant les facteurs de variabilité évalués : (a) Image originale (extraite deFERET), (b) Image correctement normalisée, (c) Translation horizontale (+22 pixels), (d) TranslationVerticale (+4 pixels), (e) Rotation (+8 degrés), (f) Changement d'échelle (-7%), (g) Lissage (σ = 5, 5),(h) Ajout d'un bruit blanc gaussien (σ = 90), (i) Écharpe (47 pixels), (j) Lunettes (β = 80% detransparence).

FIG. 4.20 Un exemple d'IT dans le cas de la translation horizontale.

d'entre eux étant simulé en faisant varier un paramètre. Ces facteurs sont illustrés dans la gure 4.19.Nous calculons des Intervalles de Tolérance (IT), qui correspondent, pour chaque facteur de variabilité,à l'intervalle de variation du paramètre associé à l'intérieur duquel les taux de reconnaissance obtenussont supérieurs à 95% (voir gure 4.20). Le tableau 4.1 donne, pour chaque technique, les IT à chacundes facteurs de variabilité étudiés. Les résultats montrent que l'ACP2D et plus robuste que la méthodedes Eigenfaces par rapport à l'ensemble de ces facteurs de variabilité et spécialement par rapport auxerreurs de centrage en horizontal et aux occultations partielles.

Comme nous l'avons vu précédemment, l'ACP minimise l'erreur Euclidienne de reconstruction alorsque l'ADL vise à augmenter la séparabilité des classes à reconnaître. Dans [VGJ04], nous introdui-sons une méthode de projection statistique, nommée Analyse Discriminante Bidimensionnelle orientée(ADL2Do) alliant les avantages de la représentation 2D des visages avec le pouvoir discriminant del'Analyse Discriminante Linéaire.

Suivant le principe de l'ADL, on cherche la matrice de projection P qui maximise la distance entreclasses diérentes tout en minimisant la distance entre les données provenant d'une même classe. À la

Page 106: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

106 4. Reconnaissance de visages

ACP2D Eigenfaces

Translation Horizontale (en % de la larg. totale) ± 17% ± 4,6%

Translation Verticale (en % de la haut. totale) ± 2,7% ± 2%

Rotation (en degrés) [08] [06]

Échelle (en % de la résolution initiale) ± 7% ± 6%

Lissage (σ) [05,5] [04]

Bruit Blanc Gaussien (σ) [090] [090]

Écharpe (en % de la haut. totale) 31% 15%

Lunettes (β% de transparence) [0100] [85100]

TAB. 4.1 Intervalles de Tolérance (IT) comparés de l'ACP2D et de la méthode des Eigenfaces, pourles huit paramètres considérés.

diérence de l'ACP2D, l'algorithme de l'ADL2Do est supervisé, dans le sens où il utilise directementla connaissance des K classes (Ωk)k=1...K de la base d'apprentissage. La classe Ωk contient Nk vues

d'un même visage, avec∑K

k=1Nk = N . Cet algorithme peut être appliqué sur les lignes (ADL2DoL)ou sur les colonnes des images (ADL2DoC).

Dans le cas de l'ADL2DoL, sous l'hypothèse que les lignes de pixels des images constituent desvecteurs gaussiens et que les lignes provenant de classes diérentes ont la même covariance intra-classes, on peut considérer que la matrice P optimale est la matrice de taille w × g maximisant lecritère de Fisher généralisé :

Jl(P ) =|P TSbP ||P TSwP |

(4.2)

où |A| est le déterminant de A ; Sw et Sb sont les estimations des matrices de covariance intra- et inter-classe généralisées des matrices-images Xi ; X est leur moyenne et Xk est la moyenne des vecteurs-images de la classe Ωk :

Sw =1N

K∑k=1

∑Xi∈Ωk

(Xi −Xk)T (Xi −Xk) (4.3)

Sb =1N

K∑k=1

Nk(Xk −X)T (Xk −X) (4.4)

Comme pour l'ADL standard, pour former la matrice de projection, nous retenons les g vecteurspropres P1, P2, . . . , Pg de S−1

w Sb, correspondant aux plus grandes valeurs propres. La matrice S−1w Sb

n'étant pas nécessairement symétrique, on ne cherche pas à résoudre directement son système propre,mais on utilise l'algorithme de Fukunaga [Fuk90] qui met en ÷uvre des diagonalisations successivesdes matrices de covariance intra- et inter-classe généralisées. La signature assignée à une image Xi parl'ADL2DoL est une matrice XP

i de taille h×g. La gure 4.21 présentent des résultats de reconstructionobtenus depuis le sous-espace de l'ADL2DoL.

L'ADL2DoC est construite de manière similaire. On cherche la matrice de projection Q, de tailleh× g, qui minimise le critère :

Jc(Q) =|QTΣbQ||QTΣwQ|

(4.5)

Page 107: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4.3. Reconnaissance de visages par Analyse Discriminante Bilinéaire (ADB) 107

FIG. 4.21 Exemple d'images reconstruites par ADL2DoL : images originales (a), images reconstruitesavec g = 2 (b), g = 3 (c) et g = 20 (d).

où les matrices Σw et Σb sont les estimations des matrices de covariance intra- et inter-classe généraliséesdes matrices-images transposées XT

i :

Σw =1N

K∑k=1

∑Xi∈Ωk

(Xi −Xk)(Xi −Xk)T (4.6)

Σb =1N

K∑k=1

Nk(Xk −X)(Xk −X)T (4.7)

Par un raisonnement analogue à celui de l'ADL2DoL, on retient les g vecteurs propres de Σ−1w Σb

associés aux plus grandes valeurs propres. Ceux-ci constituent les colonnes de la matriceQ. La signatureassignée à une image Xi par l'ADL2DoC est une matrice XQ

i de taille g × w.Pour les deux versions de l'ADL2D, il existe au plus K− 1 vecteurs propres associés à des vecteurs

propres non nuls ; le nombre g à retenir peut être déterminé grâce au critère de Wilks Lambda, selonune méthodologie connue sous le nom d'Analyse Discriminante pas à pas [Jen77]. Expérimentalement,nous avons observé sur diérentes bases internationales que le nombre g de vecteurs propres nécessairespour assurer de bonnes performances est généralement inférieur à 15, même quand le nombre de classesest important.

Dans [VGJ04], nous montrons que l'ADL2D permet d'éviter implicitement le problème de la sin-gularité et peut être appliquée directement sur les images, à l'inverse de l'ADL qui nécessite uneréduction de dimension préalable, en général à partir d'une ACP, pouvant supprimer des informationsdiscriminantes.

Une série d'expériences nous ont enseigné que les deux versions d'ADL2D donnent des résultatssupérieurs à l'ACP2D ou aux Fisherfaces sur l'ensemble des bases testées [VGJ04]. Elles nous ontmontré également que tandis que l'ADL2DoL est plus ecace dans des conditions générales de prisede vue (notamment sur les bases ORL et BioId), l'ADL2DoC permet d'obtenir des résultats de classi-cation sensiblement meilleurs que l'ADL2DoL en présence de variations importantes dans la pose etdans l'expression faciale.

La gure 4.23 présente une comparaison des performances de l'ADL2DoL et de l'ADL2DoC surla base de Yale comprenant 15 individus et dix vues par individu. La base d'apprentissage, illustréedans la gure 4.22, contient quatre vues pour chacune des 15 personnes, avec des changements dansles conditions d'illumination et les expressions faciales. À partir des vues restantes, sept bases detest sont construites, chacune regroupant les images présentant une variabilité spécique. On constateque l'ADL2DoL est généralement plus performante que l'ADL2DoC. Cependant, dans certains cas,l'ADL2DoC est sensiblement meilleure que l'ADL2DoL, notamment quand la base de test contient desdissymétries selon l'axe vertical (par exemple pour les vues Lumière Gauche et Lumière Droite ),ce qui semble logique car elle traite les colonnes indépendamment. L'ADL2DoC peut également fournirdes résultats légèrement meilleurs si le changement d'expression faciale est très important, par exemplepour les vues de type Surprise .

Page 108: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

108 4. Reconnaissance de visages

FIG. 4.22 Exemples de la base d'apprentissage et des sept bases de test extraites de Yale. Pour unepersonne donnée, si les vues de la base d'apprentissage sont non occultées alors la base Occulta-tions contient une vue avec lunettes, et inversement.

FIG. 4.23 Taux de reconnaissance comparés de l'ADL2DoC et de l'ADL2DoL sur les sept partitionsde la base de Yale.

4.3.3 L'Analyse Discriminante Bilinéaire

Le choix de la meilleure méthode peut donc nécessiter une phase préliminaire d'analyse qualitativedes bases utilisées, ce qui constitue une tâche dicile. Une autre voie est de combiner ecacement lesdeux méthodes pour donner naissance à une troisième méthode, que nous nommons Analyse Discri-minante Bilinéaire (ADB), moins dépendante des bases et dotée d'une performance au moins égale àcelle de la plus ecace des deux méthodes [VGJ05a, VGJ05d].

Considérons deux matrices de projection Q ∈ Rh×g et P ∈ Rw×g, et la projection bilinéaire XQ,Pi =

QTXiP , matrice de taille g × g, obtenue par la projection de l'image Xi sur le couple (P,Q) etconstituant la signature associée par l'ADB au visage Xi. Le but de l'ADB est donc de déterminerle couple optimal (Q∗, P ∗) de matrices de projection, maximisant la séparation entre classes tout engarantissant une proximité des signatures des images provenant de la même classe. On peut doncconsidérer le critère de Fisher généralisé suivant :

(Q∗, P ∗) = Argmax(Q,P )∈Rh×g×Rw×g

|SQ,Pb ||SQ,P

w |= Argmax

|∑K

k=1

∑Xi∈Ωk

(X(Q,P )i −X(Q,P )

k )T (X(Q,P )i −X(Q,P )

k )|

|∑K

k=1Nk(X(Q,P )k −X(Q,P ))T (X

(Q,P )k −X(Q,P ))|

(4.8)

où SQ,Pw et SQ,Pb sont respectivement les matrices de covariance intra-classes et inter-classes de la base

constituée par les (XQ,Pi )i∈1,...,N ; X

Q,Pk est la signature moyenne des visages appartenant à la classe

Ωk, et XQ,P est la signature moyenne calculée sur l'intégralité de la base d'apprentissage.

Pour toute matrice Q ∈ Rh×g xée, le critère (4.8) peut donc être reformulé de la manière suivante :

Page 109: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4.3. Reconnaissance de visages par Analyse Discriminante Bilinéaire (ADB) 109

Expérimentation Base de test ADB ADL2Do* ACP2D

Première

gauche 78,9% 71,6% 55,8%2 côtés 61,1% 45,3% 50,7%

Deuxième

gauche 83,2% 81,1% 77,9%droite 81,1% 75,8% 76,8%2 côtés 90,5% 87,4% 81,1%neutre 87,4% 84,2% 86,3%

TAB. 4.2 Comparaison des taux de reconnaissance de l'ADB, de l'ADL2Do et de l'ACP2D pour lesdeux expérimentations menées sur la base AR. Les résultats retenus pour l'ADL2Do* sont les meilleursde l'ADL2DoL et ADL2DoC. Dans la première expérimentation, on utilise une base d'apprentissage necontenant que des conditions d'illumination neutres, tandis que dans la deuxième expérience la based'apprentissage contient les mêmes conditions d'illumination que les bases de test.

P ∗ = ArgmaxP∈Rw×g

|P TSQb P ||P TSQwP |

(4.9)

où SQw et SQb correspondent respectivement aux matrices de covariance intra et inter-classes géné-

ralisées de la base constituée par les matrices XQi = QTXi . Par conséquent, les colonnes de la matrice

P ∗ sont constituées des g vecteurs propres de la matrice SQw−1SQb correspondant aux valeurs propres

les plus importantes.Pour toute matrice P ∈ Rw×g xée, le critère (4.8) peut s'écrire :

Q∗ = ArgmaxQ∈Rh×g

|QTΣPb Q|

|QTΣPwQ|

(4.10)

où ΣPw et ΣP

b sont les matrices de covariance intra et inter classes généralisées de la base constituée des(XP

i )T , où XPi = Xi · P . Par conséquent, les colonnes de Q∗ sont constituées des g vecteurs propres

de la matrice (ΣPw)−1ΣP

b correspondant aux valeurs propres les plus importantes.Notons que l'ADB fournit des signatures de taille plus réduite que l'ACP2D ou l'ADL2D orientée ;

en eet, la taille des signatures obtenues par ADB est de g2, contre h · g pour l'ADL2D orientée enlignes, et w · g pour l'ADL2D orientée en colonnes.

L'ADB consiste en un processus itératif mettant en ÷uvre alternativement une ADL2DoL et uneADL2DoC sur les images. Dans un premier temps, une ADL2DoL est appliquée sur les images initialesde manière à obtenir une matrice de projection optimale en lignes P . Dans un deuxième temps, onprojette les images initiales dans cet espace de projection. Puis, ces données projetées sont utiliséescomme base d'apprentissage d'un modèle d'ADL2DoC ; on obtient ainsi la matrice de projection Q. Lesimages initiales sont alors projetées sur Q ; à partir de ces données projetées, on construit un modèled'ADL2DoL, et ainsi de suite. Notons que l'ordre de mise en ÷uvre de l'ADL2DoL et de l'ADL2DoCpeut être inversé.

Nous proposons deux algorithmes itératifs pour la mise en ÷uvre de l'ADB, détaillés dans [VGJ05d].Le premier est construit à partir d'un nombre g de vecteurs propres xé, qui peut être déterminé àl'aide d'un échantillon de validation. Le second algorithme, le plus performant, permet de sélectionnerautomatiquement le nombre g de vecteurs propres optimal, par suppression séquentielle des vecteursles moins discriminants, en utilisant le critère de Wilks Lambda.

Nous réalisons deux expérimentations permettant d'évaluer les performances de l'ADB comparéesà celles de l'ADL2Do et de l'ACP2D. Les expériences sont menées sur la base AR et visent à éva-luer notamment l'impact des changements dans les conditions d'illumination (voir gure 4.24). Dans

Page 110: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

110 4. Reconnaissance de visages

FIG. 4.24 Bases d'apprentissage et de test utilisées pour (a) la première expérience et (b) la seconde.Les images sont extraites de la base AR.

la première expérience, on utilise une base d'apprentissage ne contenant que des conditions d'illumi-nation neutres, tandis que dans la deuxième expérience, la base d'apprentissage contient les mêmesconditions d'illumination que les bases de test. Le tableau 4.2 montre que l'ADB est nettement plusperformante dans toutes les conditions d'éclairage. Dans la première expérience, on notera qu'elle pos-sède une robustesse nettement supérieure aux conditions d'éclairage de côté, même lorsque la based'apprentissage ne contient pas d'exemple de ce type. La seconde expérience nous enseigne que l'ADBpermet de modéliser les fortes variations d'éclairage contenues dans une base d'apprentissage générale.

An de garantir une tolérance accrue à des variations dans l'expression faciale, nous introduisonsdans [VGJ05b] une approche hybride nommée ADB Modulaire (ADBM). Celle-ci est basée sur l'utili-sation conjointe de trois experts ADB, construits indépendamment sur des régions faciales diérentes.Nous considérons plusieurs modes de combinaison des experts et mettons en évidence les très bonnesperformances de cette approche, pour l'identication de visages en monde fermé.

Nous proposons enn dans [VGJ05c] d'utiliser des Réseaux de Fonctions à Base Radiale Normalisés(NRBF), qui permettent de modéliser les classes, dans l'espace de l'ADB, avec un faible nombrede paramètres, et ainsi de réduire la complexité, en termes de temps de calcul par rapport à uneclassication au plus proche voisin. Cette approche nous permet de mieux prendre en compte lesdistributions des classes lors de la classication, ce qui engendre une robustesse accrue à d'éventuellesobservations aberrantes et permet également de dénir plus facilement un seuil de rejet.

4.3.4 Conclusion

Ces travaux nous ont permis d'explorer de nouvelles voies dans le domaine très actif de la reconnais-sance de visages par projection dans des sous-espaces linéaires, construits pour extraire des signaturesglobales et discriminantes. La solution proposée a consisté à étendre l'ADL de façon à permettre uneprise en compte ecace de la représentation bidimensionnelle des images. Nous avons montré qu'unetelle approche permet notamment de contourner les problèmes de singularité et d'instabilité numériquedans la construction du modèle, classiques dans le cas de l'ADL. Elle permet aussi d'extraire des si-gnatures beaucoup plus compactes, tout en apportant une robustesse accrue aux facteurs de variabiliténombreux aectant les visages (erreurs de centrage, bruits, occultations partielles, variations d'éclai-rage). Les performances observées sur l'ensemble des bases de tests internationales placent l'approcheADB parmi les meilleures techniques de projection statistique linéaires.

Page 111: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4.4. Reconnaissance de visages par projection non-linéaire 111

FIG. 4.25 Le principe de la reconnaissance par reconstruction de l'image de référence.

4.4 Reconnaissance de visages par projection non-linéaire

4.4.1 Introduction

Nous avons vu que les techniques de projection linéaire permettent d'obtenir une représentationcompacte et discriminante des visages. Les approches basées sur l'ACP cherchent à compresser lesimages de l'ensemble des individus en recherchant les directions de l'espace qui représentent le mieuxles corrélations entre ces données. Les approches basées sur l'ADL prennent en compte l'appartenancedes images à chaque classe (individu) et visent à minimiser la variance intra-classe tout en maximisant laséparation entre les classes. Si l'approche ADB présentée dans la section précédente permet d'améliorernettement les performances par rapport aux méthodes basées sur l'ADL, elle soure néanmoins deslimitations inhérentes à cette famille d'approches linéaires, à savoir la robustesse à des variations forteset non-linéaires dans l'apparence des visages, notamment à la combinaison des variations dans la poseet dans l'éclairage.

Dans le cadre de la thèse de Stefan Duner [Duf08], nous nous sommes intéressés au développementd'une méthode holistique, prenant en compte, comme dans l'ADB, la représentation bidimensionnelledes images mais reposant sur une projection non-linéaire an d'augmenter la robustesse aux varia-tions d'éclairage ou des expressions faciales et à la présence éventuelle d'occultations partielles. Cestravaux ont été publiés dans les articles [GD07a, DG07b] et ont conduit au dépôt d'un brevet d'inven-tion [GD07c].

4.4.2 Projection/reconstruction par réseaux de neurones à convolution

L'approche proposée, baptisée Convolutional Face Recognizer (CFR), repose sur une architectureneuronale, qui permet, par une cascade de traitements globaux non-linéaires, d'apprendre à mettreen correspondance toute image d'un individu de la base d'apprentissage avec une image de référence,sélectionnée de manière automatique et qui représente au mieux cet individu. Cette mise en corres-pondance se fait au travers d'une projection non-linéaire visant à extraire une signature qui permet

Page 112: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

112 4. Reconnaissance de visages

FIG. 4.26 L'architecture neuronale réalisant une projection/reconstruction non-linéaire.

de reconstruire l'image d'entrée non pas vers elle-même, comme dans l'ACP, mais vers l'image deréférence de la classe, minimisant ainsi la variance intra-classe. La gure 4.25 illustre ce principe dereconstruction sur deux exemples.

L'architecture neuronale est un réseau de neurones à convolution spécique, comprenant six couches :la première couche (l1) reçoit l'image du visage, suivie de trois couches de convolution (l2 et l4) et desous-échantillonnage (l3) permettant l'extraction de primitives bas-niveau, et de deux couches de neu-rones de type MLP à fonction d'activation sigmoïde (l5 et l6), permettant de reconstruire l'image deréférence (voir gure 4.26).

La rétine l1 reçoit l'image du visage redimensionnée à 46 × 56 pixels, contenant des valeurs degris, normalisées linéairement entre -1 et +1, sans aucun prétraitement, contrairement à la plupartdes approches qui appliquent une égalisation d'histogramme. Cette image est traitée par une cascaded'opérations de convolution et de sous-échantillonnage dans les couches l2 à l4, dont les paramètres(coecients des ltres et biais) sont appris automatiquement. La couche l5, quant à elle, est composéede 60 neurones, à fonction d'activation sigmoïde, qui synthétisent l'information extraite par la cascade,et produit un vecteur représentatif de taille réduite. La couche l6 permet la reconstruction de l'imagede sortie à partir de ce vecteur représentatif.

Cette architecture est inspirée des réseaux de neurones auto-associatifs [CF90, Kra91], permettantnotamment de réaliser une ACP non-linéaire, en reconstruisant une image de sortie identique à l'imaged'entrée. Dans notre approche, l'utilisation d'un réseau de neurones à convolution permet de réduiredrastiquement le nombre de connexions nécessaires, tout en assurant une plus grande généralisation,importante lorsque le nombre d'images d'apprentissage est réduit.

L'architecture neuronale est entraînée sur une base comprenant un nombre xe d'individus à recon-naître (monde fermé). Pour chaque individu, elle contient plusieurs images, avec des variations dansla pose, l'éclairage et l'expression. Le système est entraîné pour reconstruire, pour toute image d'unindividu, son image de référence. De cette manière, il apprend à extraire les caractéristiques les plus

Page 113: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4.4. Reconnaissance de visages par projection non-linéaire 113

FIG. 4.27 Exemples de reconstructions par la méthode CFR, sur les bases ORL et Yale. La ligne duhaut présente les images originales ; la ligne du milieu, les images reconstruites ; et la ligne du bas, lesimages de référence visées.

robustes aux variations intra-classes (poses, conditions d'éclairage, expressions), contenues dans la based'apprentissage.

L'image de référence est choisie pour chaque individu suivant deux stratégies. La première stratégie,appelée MEAN, consiste à sélectionner, pour chaque individu, l'image la plus proche (au sens de ladistance L2) de l'image moyenne des images de la classe. La seconde stratégie, appelée DIST, consiste,quant à elle, à sélectionner, pour chaque individu, l'image de la classe la plus éloignée des images detoutes les autres classes.

L'apprentissage est réalisé en appliquant l'algorithme de rétro-propagation du gradient avec mo-mentum, modié pour la mise à jour des poids partagés dans les couches l2 à l4. L'apprentissage estréalisé en-ligne, et vise à minimiser l'erreur quadratique moyenne entre les images de sorties obte-nues et les images de sortie désirées. Classiquement, pour empêcher le sur-apprentissage, une phasede validation est réalisée à l'issue de chaque époque sur une base de validation distincte de la based'apprentissage.

Après apprentissage, une image inconnue peut être présentée au système qui reconstruit une imagede référence de sortie. Il est alors possible de comparer l'image de sortie produite à l'ensemble des imagesde références (une par individu de la base). L'individu reconnu est alors celui dont l'image de référenceest la plus proche de l'image produite. La solution retenue (comme dans l'ACP ou l'ADL), équivalenteet plus rapide, consiste non pas à comparer l'image de sortie mais plutôt le vecteur représentatif ensortie de la couche l5 aux vecteurs correspondants produits par les images de référence.

4.4.3 Résultats expérimentaux

Pour évaluer la solution proposée, nous avons conduit des expériences sur deux bases internatio-nales : la base ORL [SH94] et la base Yale [BHK97]. La base ORL contient 40 individus avec 10 imagespar individu, exhibant de légères variations dans la pose et l'expression faciale sous une éclairage rela-tivement stable. La base Yale contient 15 individus avec 11 images par individu. Elles contiennent peu

Page 114: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

114 4. Reconnaissance de visages

FIG. 4.28 Courbes ROC sur les bases ORL et Yale, en fonction des stratégies de sélection des imagesde référence MEAN et DIST.

de variations dans la pose, mais en revanche de fortes variations d'éclairage (de gauche, centre, droite)et de fortes variations dans les expressions faciales (sourire, tristesse, bouche ouverte/fermée).

La gure 4.27 illustre le processus de reconstruction réalisé par l'architecture neuronale sur desimages de ORL et Yale. La ligne du haut présente les images originales, celle du milieu, les imagesreconstruites et celle du bas, les images de références correspondantes.

Pour évaluer les diérentes approches, nous réalisons une validation leave-one-out. Une image parindividu est sélectionnée aléatoirement et retirée de la base pour être testée en phase de reconnaissance,le reste des images servant à l'apprentissage.

La gure 4.28 présente les courbes Receiver Operator Characteristic (ROC) obtenues avec notresystème en fonction des deux stratégies de sélection des images de référence (MEAN et DIST). Ellespermettent de comparer les taux de bonne reconnaissance aux taux de fausse acceptation, en fonctionde la variation du seuil de distance au-dessus duquel une image de visage est rejetée. En général, letaux de reconnaissance sur la base ORL est supérieur à celui obtenu sur la base Yale. La stratégie desélection des images de référence MEAN donne des résultats supérieurs à ceux obtenus avec la stratégieDIST sur les deux bases de test. Une image de référence qui représente au mieux un individu sembledonc plus appropriée qu'une image de référence qui dière le plus des images des autres individus.Dans les expériences suivantes, on adopte par conséquent la stratégie MEAN.

Dans le tableau 4.3, nous présentons les taux de reconnaissance sans rejet et nous comparonsnotre système avec les méthodes de référence dites des Eigenfaces et des Fisherfaces, et avec notreméthode ADB, en suivant la même procédure de validation. Dans notre implémentation des Eigenfaces,nous réalisons la sélection de la dimension de l'espace de projection de sorte que les valeurs propresreprésentent 90% de variance totale, conduisant à une sélection de 73 Eigenfaces pour la base ORL et35 Eigenfaces pour la base Yale.

Cette comparaison montre que la méthode CFR donne des résultats supérieurs aux méthodes deprojection linéaires, notamment dans le cas de la base Yale qui présente des variations d'éclairageimportantes, qui sont mieux prises en compte dans un schéma non-linéaire d'extraction de caractéris-tiques.

Nous évaluons aussi la robustesse du système proposé par rapport au bruit et aux occultations

Page 115: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4.4. Reconnaissance de visages par projection non-linéaire 115

FIG. 4.29 Robustesse de la méthode proposée par rapport à un bruit Gaussien (a) et à une occultationpartielle (b).

Page 116: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

116 4. Reconnaissance de visages

Méthodes ORL Yale

Eigenfaces 86, 7% 77, 9%Fisherfaces 87, 7% 85, 2%ADB 91, 5% 89, 4%Notre méthode CFR 92, 6% 93, 3%

TAB. 4.3 Comparaison de la méthode CFR avec les techniques Eigenfaces, Fisherfaces et ADB.

partielles. Dans une première expérience, nous ajoutons aux images de test un bruit Gaussien avec unécart type σ croissant. La gure 4.29.a présente les taux de reconnaissance obtenus en fonction de σ.

On notera qu'un écart type σ de 0,5 représente un bruit considérable, les niveaux de gris étantnormalisés entre -1 et +1 (voir les images correspondantes au bas de la gure 4.29.a). Les graphesde cette gure montrent que la méthode proposée est très robuste au bruit Gaussien. Pour σ < 0, 5le taux de reconnaissance diminue de seulement de 12% sur la base ORL et de seulement de 6% surla base Yale et demeure supérieur à 80% pour σ < 0, 6. La technique des Eigenfaces présente uneperformance légèrement supérieure avec un taux de reconnaissance qui reste pratiquement constantsur tout l'intervalle de variation de σ. Ceci peut être expliqué par le fait que l'ACP représente lesimages à partir de basses fréquences. Les résultats obtenus avec les Fisherfaces ou l'ADB, qui ne sontpas rapportés sur ce graphe, sont proches de ceux de obtenus avec les Eigenfaces (3% supérieurs pourl'ADB).

La dernière expérience vise à évaluer la robustesse de notre approche par rapport aux occultationspartielles. Pour cela, le bas des images est masqué par une bande noire de hauteur croissante. Lagure 4.29.b présente les taux de reconnaissance en fonction du pourcentage d'occultation du bas duvisage (0, 10, 20, 30 et 40%). Dans ce cas, l'approche CFR est nettement supérieure à la technique desEigenfaces. Sur les deux bases de test, le taux de reconnaissance demeure au dessus de 80% pour despourcentage d'occultation de 20% du bas de l'image, tandis que les performances des Eigenfaces chutentconsidérablement. Les performances des approches Fisherfaces ou de l'ADB sont comparables à cellesde l'approche Eigenfaces.

4.4.4 Conclusion

Cette étude nous a montré qu'une méthode reposant sur un projection non-linéaire, prenant encompte la distribution bidimensionnelle des images, permet d'augmenter la robustesse du système dereconnaissance de visages, notamment aux variations d'éclairage. Les calculs mis en ÷uvre dans laphase de classication sont, de plus, nettement moins coûteux que dans les méthodes de projectionlinéaires : dans le cas de CFR, nous opérons par une cascade d'opérations locales grâce aux poidspartagés et au sous-échantillonnage tandis que dans le cas des méthodes de projection linéaires, levecteur des pixels de l'image entière (ou de ses lignes et colonnes dans le cas de l'ADB) est corréléeavec de nombreux vecteurs propres de même taille. Par contre, l'apprentissage itératif est nettementplus long et rend cette méthode moins attractive dans le cas où de nouveaux individus doivent êtreenregistrés en-ligne dans la base d'apprentissage.

Page 117: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4.5. Reconnaissance de visages par sacs de caractéristiques 117

FIG. 4.30 Deux représentations imagées des sacs de caractéristiques : à droite, UnnishedPortrait de Tullio Pericoli (1985).

4.5 Reconnaissance de visages par sacs de caractéristiques

4.5.1 Introduction

Dans le cadre de la thèse de Grégoire Lefebvre [Lef07], nous avons proposé plusieurs schémas pourla classication d'images naturelles et la reconnaissance d'objets, reposant sur la sélection de pointssaillants robustes et répétables, l'extraction de signatures discriminantes, intégrant couleur, texture,forme et leur fusion/classication par des modèles neuronaux hiérarchiques et adaptatifs. Ces travauxont été publiés dans [LGS06, LLRG06, LG06, LGSR07, LG07a, LG08a, LG08b] et ont conduit audépôt de quatre brevets d'invention [LRC06, LG07b, LG08d, LG08c].

Plus précisément, nous avons proposé une architecture reposant sur des cartes auto-organisatricesAdaptive-Subspace Self-Organizing Map (ASSOM) qui permettent de décrire le contenu visuel sous laforme de sacs de caractéristiques . Pour atteindre cet objectif, des signatures locales sont extraitesdes objets à traiter, puis fusionnées et synthétisées par un processus d'apprentissage compétitif pourformer un alphabet visuel général ou spécique à chaque catégorie d'images à reconnaître. En phase dereconnaissance, les image peuvent être représentées par les histogrammes d'activation des cellules descartes auto-associatives, formant des vecteurs caractéristiques qui sont nalement catégorisés à l'aidede SVMs.

Dans [LG07a] et [LG08b], nous proposons d'appliquer ce schéma généraliste de classication d'imagesà la reconnaissance de visages. Par rapport aux approches holistiques qui prennent en compte tousles pixels du visage et aux méthodes basées sur les modèles déformables ou sur la mise en correspon-dance de graphes, nous étudions le potentiel de la représentation en sacs de caractéristiques pourconstruire une représentation compacte et discriminante des visages.

La représentation parcimonieuse des images implique la détection de points saillants et la des-cription du contenu des régions d'intérêt autour de ces points. Pour cela, on cherche tout d'abord àlocaliser des zones perceptuellement importantes, généralement sur des singularités du signal, à l'aidedu détecteur de coins de Harris [HS88] ou du DoG (Dierence of Gaussians) de Lowe [Low99].

L'image est alors représentée par les zones locales (patches) extraites autour de chaque point d'in-térêt, qu'il s'agit ensuite de représenter par des vecteurs caractéristiques, que l'on veut robustes auxvariations dans l'intensité lumineuse et aux transformations anes.

En 1997, Schmid et al. [SM97] proposent une représentation locale à partir d'invariants géométriquesdiérentiels (jets locaux de Florack et al. [FRVK96]), calculés autour de points d'intérêt, sélectionnéspar une version Gaussienne du détecteur de Harris. En 1999, Lowe [Low99] propose le descripteur SIFT(Scale-Invariant Feature Transform), devenu très populaire, qui repose sur une détection préalable depoints d'intérêt par analyse des extrema locaux de diérences de gaussienne et une caractérisation

Page 118: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

118 4. Reconnaissance de visages

FIG. 4.31 Classication d'une base d'images naturelles par la méthode de Lazebnik, Schmid etPonce [LSP05a] : des images d'apprentissage, avec les zones d'intérêt apprises (a) ; et des imagestestées, avec les zones d'intérêt détectées (b).

des régions par la distribution spatiale des magnitudes des gradients. En 2006, Bay et al. [BTVG06]présentent le descripteur SURF (Speed Up Robust Features), plus rapide que SIFT, qui repose surl'analyse statistique des sous-bandes d'une décomposition en ondelettes de Haar, accélérée par le calculd'images intégrales .

Par la suite, d'autres extensions de SIFT voient le jour, notamment PCA-SIFT [KS04] qui permetla description d'une région plus étendue autour des points saillants, tout en réduisant la taille dessignatures par ACP, GLOH (Gradient Location-Orientation Histogram) où le SIFT est évalué dansun espace Log-Polaire [MS05b] et RIFT (Rotation-Invariant Feature Transform) [LSP05b] qui produitune description locale invariante à la rotation, en estimant la distribution spatiale des gradients sur unvoisinage circulaire.

De nombreux travaux [SM97, GB01, FSMST05, EC04, Lyu05] proposent alors d'apparier les carac-téristiques visuelles communes entre des images par une classication au plus proche voisin, optimiséeen vitesse par une représentation kd-tree ou une classication SVM avec un noyau adapté.

D'autres travaux visent à sélectionner les informations discriminantes permettant d'établir un ré-férentiel sous la forme d'un dictionnaire (codebook) [AR02, LS03] an de comparer les images de testet d'apprentissage. Les images à classer ne sont plus évaluées directement par rapport aux signaturesdes images d'apprentissage, mais la présence dans les images à classer d'informations référencées dansle codebook révèle la catégorie. Ces approches sont inspirées du modèle Bags of Words (BOW) utilisépour représenter les documents textuels : chaque document est représenté par un sac qui contientles mots appartenant à un dictionnaire spécique.

Ce dictionnaire visuel, tel un thésaurus, tente de synthétiser l'information sous la forme de textons

Page 119: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4.5. Reconnaissance de visages par sacs de caractéristiques 119

FIG. 4.32 Schéma d'extraction de caractéristiques sur un visage : détection des points d'intérêt, suiviede l'activation des cartes neuronales et de la construction d'un masque d'activation facial.

ou de sacs de caractéristiques (bag-of-keypoints). Alors que les textons caractérisent l'information detexture locale, les sacs de caractéristiques regroupent plutôt des informations extraites sur les singula-rités locales, en général grâce à SIFT.

Leung et Malik [MBSL99] proposent une dénition opérationnelle des textons an de partitionnerles images en régions de texture et de luminosité cohérentes. Il s'agit alors de regrouper les textonsen fonction de leur similarité visuelle et de construire un histogramme, représentant la fréquenced'apparition des textons dans l'image. Finalement, les images sont comparées entre elles par la distanceinter-histogrammes du χ2.

Csurka et al. [CBDF04] proposent de regrouper des signatures locales similaires sous la forme desacs de caractéristiques (bag-of-keypoints). Les diérentes régions d'intérêt sont caractérisées grâce audescripteur SIFT et les signatures sont regroupées par clustering K-means. Ces groupes de signaturessimilaires décrivent un dictionnaire visuel de la catégorie. La nature discrète de ce dictionnaire permetde représenter une image par la distribution des ses informations locales. Chaque signature locale estalors représentée par son groupe d'appartenance et l'histogramme des correspondances est l'uniquevecteur caractéristique de l'image (voir gure 4.30).

Lazebnik, Schmid et Ponce [LSP03, LSP05a, LSP05b] proposent une nouvelle représentation par-cimonieuse de la texture, où la construction des textons repose sur deux nouvelles descriptions desrégions d'intérêt permettant une invariance à la rotation. Le premier descripteur est inspiré des imagesspin introduites par Johnson et Hebert [JH99] et décrit la distribution des valeurs de luminance duvoisinage d'un point particulier de l'image. Le second, nommé RIFT pour Rotation-Invariant FeatureTransform subdivise chaque région d'intérêt par des cercles concentriques. Des histogrammes des orien-tations des gradients sont alors calculés dans chaque anneau. Cette invariance aux rotations permetla constitution d'un dictionnaire visuel compact et plus robuste aux transformations géométriques destextures. La signature associée à une image est un histogramme représentant la fréquence d'apparitiondes mots du dictionnaire et la mesure de comparaison entre deux images est la distance Earth MoverDistance (EMD), qui est dénie comme le coût minimum pour transformer la première signature en ladeuxième. La gure 4.31 illustre la robustesse de la méthode proposée dans [LSP05a].

Le classication de scènes naturelles et la reconnaissance d'objets reposant sur les sacs de ca-ractéristiques visuelles sont devenus des axes de recherche très actifs [FPZ03, LS03, AA04, LMS06,FFP05, SRE+05, QMO+05, BZM06, LJ06, SZ08]. Les approches de l'état de l'art visent à construiredes dictionnaires robustes et à extraire des signatures à partir de modèles Bayésiens hiérarchiquescomme dans la méthode pLSA (Probabilistic latent semantic analysis) [SRE+05, BZM06], de modèlesmulti-résolution pyramidaux (Spatial Pyramid Match) [LSP06] ou de modèles discriminatifs commeles SVMs [ZMLC01] ou Adaboost [SWP05]. Certaines méthodes cherchent à prendre en compte lesrelations spatiales entre les diérentes composantes d'une image en construisant des sacs de caracté-ristiques région par région [LSP06, MS05a], permettant ainsi une modélisation plus riche, notammentdans le classication des scènes naturelles contenant des objets particuliers.

Dans le domaine de la reconnaissance de visages, nous avons vu que les méthodes qui utilisent une

Page 120: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

120 4. Reconnaissance de visages

FIG. 4.33 Orientations des gradients dans une sous-région et histogramme 3D formant la signatureRFD.

représentation parcimonieuse des images reposent principalement sur une mise en correspondances dezones d'intérêt décrites par SIFT, mettant en jeu des contraintes géométriques, comme dans [BLGT07,LMT+07, KRGT07]. La classication repose alors sur des mesures de similarité au niveau des zonesappariées.

Les approches basées sacs de caractéristiques , qui s'appuient sur une description non-géométrique,donnent de très bons résultats dans le domaine de la détection ou de la reconnaissance d'objets. Dansle cas général, on cherche à distinguer des objets dont la variance intra-classe est inférieure à la va-riance inter-classe. Dans [LG07a, LG08b], nous proposons d'évaluer le pouvoir discriminant de cettereprésentation dans le cas des visages, objets qui partagent en commun la même structure conduisantà une relativement faible variance inter-classe mais dont la variance intra-classe peut être élevée dansle cas de fortes variations dans l'éclairage, dans la pose ou dans l'expression faciale.

4.5.2 Détection et caractérisation des points d'intérêt

Notre approche consiste tout d'abord à extraire des points saillants robustes et répétables dansplusieurs zones du visage et à caractériser les régions saillantes.

Parmi les nombreux détecteurs de points d'intérêt proposés dans la littérature [HS88, Low99,BJ99, LLMD06], nous avons choisi d'utiliser le détecteur de Laurent et al. [LLMD06]. À la manièrede Loupias et al. [LSBJ00], une décomposition en ondelettes de Haar est appliquée sur l'image, quipermet une analyse multi-échelle, à la fois spatiale et fréquentielle. Une valeur de saillance est alorsaectée à chaque position dans la pyramide d'images en fonction de son voisinage local, en positionmais aussi en échelle. Un parcours de l'arbre permet de déterminer les chemins les plus saillants etainsi de sélectionner les points d'intérêt dans l'espace-échelle.

An d'assurer une distribution homogène des points saillants sur l'ensemble du visage, nous choi-sissons de les rechercher et d'en retenir le même nombre dans chacune des régions du visage, obtenuespar subdivision à l'aide d'une grille (voir gure 4.32). Nous considérerons plus loin le choix du nombreoptimal de subdivisions (2× 2, 2× 4 ou 4× 4).

Pour caractériser localement chacune des régions saillantes, nous proposons d'utiliser le descripteurRFD (Regularity Foveal Descriptor) proposé par Ros et al. [RL06], qui est particulièrement adaptéà la faible amplitude des singularités sur les images de visage. Nous comparerons plus loin plusieursschémas de description utilisant RFD, SIFT et les descripteurs classiques MPEG-7 [MOVY01].

Dans [RLL06], Ros, Laurent et Lefebvre montrent que les régions saillantes peuvent être caracté-risées par les c÷cients de Hölder, qui estiment la régularité des contours en ces points :une fonction f : [a, b] → R est Hölder-α (α ≥ 0) à x0 si ∃K > 0, δ > 0 et un polynôme P de degrém = bαc : ∀x, x0 − δ ≤ x ≤ x0 + δ, |f(x)− P (x− x0)| ≤ K |x− x0|α .

Page 121: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4.5. Reconnaissance de visages par sacs de caractéristiques 121

FIG. 4.34 Auto-organisation des vecteurs RFD dans une carte SOM (a) et régions faciales corres-pondantes pour chaque cellule de la carte (b).

L'exposant de Hölder hf (x0) de f à x0 est déni par hf (x0) = supα, f Hölder-α à x0.hf (x0) mesure la régularité locale d'une fonction au point x0. Trois valeurs de l'exposant sont

caractéristiques : hf (x0) = 0, 9, hf (x0) = 0 et hf (x0) = −0, 9, qui décrivent respectivement unefonction triangle, une fonction échelon et une fonction Dirac. Pour une image, l'exposant de Hölder estcalculé dans la direction de la régularité minimale de la singularité à l'aide d'ondelettes fovéales [Mal03].Pour décrire une région d'intérêt, à la fois l'orientation et la régularité des singularités sont utilisées.

Les orientations et les exposants de Hölder sont utilisés conjointement pour construire des histo-grammes 3D dans les 16 sous-blocs 4× 4 de la région de 32× 32 pixels autour du point saillant (voirgure 4.33). Les exposants de Hölder sont quantiés sur trois niveaux dans l'intervalle [−1, 5, 1, 5] et lesorientations sur huit niveaux dans l'intervalle [−π

2 ,π2 ]. Les 16 histogrammes 3D sont alors concaténés

pour former la signature RFD, de dimension 384.

4.5.3 Construction des sacs de caractéristiques

An de construire une représentation compacte du vocabulaire, nous proposons un système d'ap-prentissage par compétition à l'aide des cartes auto-organisatrices SOM (Self Organizing Map) deKohonen [Koh82]. Une carte SOM se déploie de façon à représenter un ensemble de données, et chaqueneurone se spécialise pour représenter un groupe bien particulier des données selon les points communsqui les rassemblent. Techniquement, les cartes auto-adaptatives réalisent une quantication vectoriellede l'espace de données, tout en préservant la topologie des données d'entrée.

D'un point de vue architectural, les cartes SOMs sont constituées d'un treillis de neurones L, leplus souvent bidimensionnel rectangulaire ou hexagonal (voir gure 4.34.a). Chaque neurone porte unvecteur référent, qui correspond à un point dans l'espace des données (appelé encore espace d'entrée).Le treillis neuronal est innervé par des connexions synaptiques qui propagent le signal d'entrée x etexcitent toutes les cellules. Le but de l'algorithme d'apprentissage compétitif est d'adapter les vecteursréférents portés par les cellules du treillis L à la distribution des données en entrée. Les vecteurscaractéristiques RFD extraits des images de visage sont alors automatiquement organisés en clustersregroupant des attributs visuels communs et représentés par les vecteurs référents de chaque cellule dela carte SOM (voir gure 4.34.b). Ces vecteurs référents portés par les cellules composent alors le sacde caractéristiques .

Le processus d'apprentissage d'une carte SOM rectangulaire, composée de Nh × Nl = U cellulesneuronales, procède comme suit. Soit X l'espace des données observables et X = x(t) l'ensembledes données observées. Nous notons M = mi(t) l'ensemble des vecteurs référents avec mi(t) ∈ Rd,i ∈ 1, 2, . . . , U. Ces vecteurs référents sont initialisés aléatoirement parmi les données observables, enfonction de la matrice d'autocorrélation des vecteurs x(t). Le treillis rectangulaire est alors déni surle sous-espace caractérisé par les deux plus grandes valeurs propres de la matrice de d'autocorrélation.

Page 122: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

122 4. Reconnaissance de visages

FIG. 4.35 Schéma de reconnaissance de visages par cartes SOM multiples (une carte SOM parsubdivision).

Le processus d'apprentissage de la carte SOM s'eectue en deux étapes, pour chaque exemple x(t) :

1. Déterminer le neurone gagnant ou Best Matching Unit (BMU), dont le vecteur référent mc(t)est le plus proche de x(t)

2. Modier les poids synaptiques de la carte neuronale pour mieux représenter l'exemple x(t) dansle voisinage de la cellule BMU.

Le processus d'apprentissage commence donc par la comparaison d'une donnée observable, priseau hasard, avec l'ensemble des vecteurs mi(t) portés par les cellules. La similarité est évaluée à l'aided'une mesure de distance d(x(t),mi(t)). Classiquement, la distance L2 est utilisée. Le neurone BMU,indicé par c, porte le vecteur mc(t) le plus représentatif de la donnée d'observation x(t) :

c = arg mini||mi(t)− x(t)||, ∀i = 1, 2, . . . , U. (4.11)

Ensuite, une règle d'apprentissage est appliquée pour reéter la topologie des données observablessur le neurone référent BMU et son proche voisinage :

mi(t+ 1) = mi(t) + λ(t)φci(t)[x(t)−mi(t)], (4.12)

avec 0 < λ(t) < 1, le taux d'apprentissage décroissant de façon monotone avec le temps t et φci(t) quireprésente une fonction de voisinage sur le treillis L, gouvernant la force et le périmètre de l'adaptationdes poids synaptiques. Classiquement, une fonction Gaussienne est choisie, dénie par :

φci(t) = exp−||rc − ri||2

2δ(t)2. (4.13)

avec ri les coordonnées 2D de la ième cellule de la carte, et δ(t) qui spécie la largeur du voisinage,

décroissante au cours du temps t, généralement de√

2Nh×Nl2 à 1

2 .

Dans la solution proposée, l'ensemble des visages est alors représenté par une architecture multipleSOMtot composée des D cartes SOMd, qui modélisent chacune les régions saillantes extraites danschaque subdivision d (voir gure 4.35). Les cellules de la carte SOMtot sont indicées par i = 1, . . . , D×U.

Pour chaque individu k = 1, . . . ,K à reconnaître, nous construisons un modèle spécique : ils'agit d'un vecteur d'activations Ak des cellules i de SOMtot, lorsque toutes les signatures saillantesx extraites sur l'ensemble des images d'apprentissage de cet individu ont été projetées dans SOMtot

(voir algorithme 4.1). Plus précisément, Ak(i) correspond à la somme des erreurs de quantication

Page 123: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4.5. Reconnaissance de visages par sacs de caractéristiques 123

Algorithme 4.1 Création d'un vecteur d'activation par individu1: Pour chaque individu k = 1, . . . ,K2: Ak = 03: Pour chaque image d'apprentissage4: Pour chaque subdivision du visage d = 1, . . . , D5: Détecter les points saillants6: Pour chaque point saillant7: Calculer la signature RFD x(t).8: La carte SOMd correspondant à la subdivision d reçoit x(t) et une erreur de quantication eqc

pour la BMU c est calculée :eqc(t) = ||x(t)−mc(t)||. (4.14)

9: Le vecteur d'activation Ak est mis à jour, pour l'indice i = c+ (d− 1)×U (dans la carte SOMtot)

Ak[i](t+ 1) = Ak[i](t) + eqc(t), (4.15)

10: n Pour11: n Pour12: n Pour13: n Pour

pour chaque cellule i. Lorsqu'une cellule est activée (BMU), l'erreur de quantication est la distanceentre le vecteur projeté x qui lui est assigné et le vecteur référent mc qu'elle porte.

En phase de reconnaissance, une image de visage sera associée à l'individu k pour lequel le modèleassocié présente une Erreur de Quantication Minimale Cumulée (EQMCk) minimale :

EQMCk =D×U∑i=1

Ak[i] (4.16)

4.5.4 Résultats expérimentaux

Nous évaluons la solution proposée sur des extraits de trois bases publiques : 46 individus dans desvues présentant des expressions faciales variées (sous-bases fa et fb) de la base FERET ; les 40 individusde la base ORL et les 15 individus de la base Yale, présentant des vues variables en expressions faciales,en poses et en conditions d'éclairage. Les images de visage sont extraites par le détecteur CFF etredimensionnées à 200× 200 pixels.

Dans toutes les expériences, nous réalisons une validation (leave-one-out). Une image par individuest sélectionnée aléatoirement et retirée de la base pour être testée en phase de reconnaissance, le restedes images servant à l'apprentissage.

La première expérience a pour objectif d'évaluer, sur la base FERET, le pouvoir discriminant dudescripteur RFD, comparé à SIFT et aux descripteurs MPEG-7 : HCD (Histogram Color Descriptor)et HTD (Histogram Texture Descriptor). Le but ici est d'évaluer les descripteurs indépendamment duschéma de classication.

Pour cela, chaque image de visage est représentée par l'ensemble des vecteurs caractéristiquesassociés aux points d'intérêt détectés (de l'ordre de 3000) dans une grille de subdivision 4 × 4. Deuximages de visage sont donc considérées comme appariées lorsqu'elles partagent le plus grand nombrede vecteurs caractéristiques similaires, au sens du plus proche voisin déterminé par la distance L2

(1-NN-L2). Une image de visage est ensuite simplement associée à la classe dans laquelle elle comptele plus grand nombre d'images appariées.

Les quatre premières lignes du tableau 4.4 montrent la supériorité de RFD et de SIFT sur lesdescripteurs MPEG-7. Par contre, ces résultats montrent qu'une approche de mise en correspondancepar les plus proches voisins permet d'obtenir un taux de reconnaissance relativement faible de 68,48%.

Dans une seconde expérience, nous comparons, sur la base FERET, plusieurs schémas de classi-cation utilisant la représentation RFD (voir tableau 4.4).

Page 124: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

124 4. Reconnaissance de visages

FIG. 4.36 Exemples d'images des bases FERET (a), ORL (b) et Yale (c) où les visages sont segmentésautomatiquement par le détecteur CFF [GD04].

Approches Classieur Taux de reconnaissance

Description HCD 1-NN-L2 48, 08%Description HTD 1-NN-L2 55, 76%Description SIFT 1-NN-L2 65, 26%Description RFD 1-NN-L2 68, 48%

1 - RFD+Single-SOM20x20 1-NN-L2 92, 39%2 - RFD+Multi-SOM20x20 1-NN-L2 93, 48%

3 - RFD+Multi-SOM5x5+D4x4 1-NN-L2 95, 62%4 - RFD+Multi-SOM20x20 MinEQMC 98, 91%

5 - RFD+Multi-SOM5x5+D4x4 MinEQMC 100%

TAB. 4.4 Taux de reconnaissance en fonction des descripteurs et des classieurs, sur la base FERET.

Nous considérons trois représentations :

1. RFD+Single-SOM20x20 : un seul modèle SOM de taille 20× 20, pour représenter tous les indi-vidus, sans grille de subdivision sur le visage (400 cellules),

2. RFD+Multi-SOM20x20 : un modèle SOM de taille 20×20 par individu, sans grille de subdivisionsur le visage (400 cellules par individu),

3. RFD+Multi-SOM5x5+D4x4 : un modèle SOM de taille 5 × 5 par individu et par subdivisiondans une grille 4× 4 sur le visage (400 cellules par individu).

Les modèles (2) et (3) sont évalués en utilisant le vote à la majorité des plus proches voisins (1-NN-L2, approche 4) ou la classication reposant sur le minimum de l'Erreur de Quantication MinimaleCumulée MinEQMC (approche 5).

On notera que l'on passe d'un taux de reconnaissance de 68,48%, sans modélisation par carteSOM, à un taux de 92,39% dans le cas d'une modélisation globale par une seule carte SOM, pourtous les individus. On remarquera qu'une modélisation par cartes SOMs adaptées à chaque individupermet d'atteindre 93,48% et 95,62% lorsqu'une analyse sur une grille de subdivision est eectuée. Laclassication reposant sur le minimum de l'Erreur de Quantication Minimale Cumulée MinEQMC

permet un gain de 5% par rapport à une classication par vote des plus proches voisins, pour atteindre100% de bonne classication en utilisant une architecture SOM par individu, avec subdivisions.

La gure 4.37 illustre l'impact du nombre de cellules dans les diérentes architectures reposantsur les cartes SOMs et montre qu'à partir de 25 cellules seulement, les diérents schémas donnentdes résultats supérieurs à ceux obtenus grâce à une classication par vote à la majorité des plusproches voisins. Par exemple, une architecture très légère comme Multi-SOM3x3+D2x2 basée surle critère minEQMC , reposant sur une phase d'apprentissage très rapide, permet d'obtenir un taux de

Page 125: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4.5. Reconnaissance de visages par sacs de caractéristiques 125

FIG. 4.37 Taux de reconnaissance des diérents classieurs en fonction du nombre de cellules dansles cartes SOMs.

Approches ORL YALEEigenfaces 86, 7% 77, 9%Fisherfaces 87, 7% 85, 2%

ICA 93, 7% 71, 5%ADB 91, 5% 89, 4%CFR 92, 6% 93, 3%

Notre approche 4 100% 91,5%Notre approche 5 100% 93,3%

TAB. 4.5 Comparaison des approches basées SOM avec les méthodes de projection.

reconnaissance de 95,65%.Le tableau 4.5 montre la supériorité de l'approche proposée sur les méthodes de projection statis-

tique linéaires (dont l'ADB), ou non-linéaires comme CFR, avec des taux de reconnaissance respec-tivement de 93,3% et 100% sur les bases Yale et ORL, exhibant des variations dans la pose et dansl'expression faciale.

4.5.5 Conclusion

L'étude que nous venons de présenter a montré les apports d'une représentation parcimonieusedes images dans le cadre de la reconnaissance de visages. Contrairement à d'autres approches baséessur des caractéristiques locales, la méthode proposée ne repose pas sur une mise en correspondancede points d'intérêt entre les deux visages à reconnaître. Elle consiste à représenter les images par deshistogrammes d'activations de cartes SOMs, reposant sur des erreurs de quantication mesurées entreles signatures extraites et les signatures représentatives de chaque individu. Des expériences, menéessur deux bases internationales, ont montré la supériorité de cette méthode (très rapide) par rapportaux méthodes globales reposant sur des sous-espaces de projection.

Page 126: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

126 4. Reconnaissance de visages

4.6 Reconnaissance de visages par des techniques de statistiques ro-bustes

4.6.1 Introduction

Comme nous l'avons vu, la plupart des méthodes de reconnaissance de visages sont développées ettestées à l'aide de bases de visages exhibant des variations contrôlées de pose et d'éclairage. De plus,les images de visage sont supposées centrées. Nous avons vu que les performances des méthodes de re-connaissance de visages sont aectées par les variations dans la pose, l'expression faciale ou l'éclairage.Ceci est d'autant plus marqué lorsque les visages à reconnaître ainsi que les bases de référence sontextraites via une chaîne complètement automatique de détection et d'alignement, notamment dans desvidéos. Contrairement au cas des bases d'images utilisées classiquement pour évaluer les méthodes, lesexemples disponibles, nombreux, ne sont pas sélectionnés manuellement et peuvent être non précisé-ment centrés, partiellement occultés et très variables en pose. Pour l'ensemble des méthodes de l'étatde l'art et notamment les méthodes de projection, certaines images de visage, mal centrées ou exhibantun très forte variabilité dans leur apparence peuvent être considérées comme des données aberrantes,des aberrations, qui vont impacter fortement la construction des modèles de reconnaissance.

Avec Sid-Ahmed Berrani, post-doctorant en 2006 dans notre équipe, nous avons étudié, dans unpremier temps, l'impact de la présence d'images de visage considérées comme des aberrations, sur lesperformances des méthodes de projection statistique linéaires reposant sur l'ACP ou l'ADL. Puis, nousavons proposé une solution, baptisée RobEigenFaces, permettant de ltrer automatiquement et d'isolerces images aberrantes, de manière non-supervisée et dès la phase de construction des sous-espacesdes visages, en utilisant des mesures de statistiques robustes. Ces travaux ont été publiés dans lesarticles [BG05a, BG05b, BG09] et ont conduit au dépôt de deux brevets d'invention [BG06b, BG06a].

4.6.2 Les impacts de la présence d'aberrations

Les méthodes de projection statistique linéaires reposent sur l'analyse de la matrice de covariancedes vecteur-images. Elles sont susceptibles d'être sensibles à la présence d'aberrations étant donnéqu'elles sont construites sur des moments d'ordre premier et second. Par exemple, dans le cas de la mé-thode des Eigenfaces, les premiers vecteurs propres de l'ACP, correspondent aux directions principalessuivant lesquelles la variance est maximale. Ils sont supposés encoder une grande part de l'informa-tion contenu dans la base d'exemples. Cependant, si la base d'exemples contient un certain nombred'exemples aberrants, les premiers vecteurs propres risquent d'encoder plutôt les variations dues aubruit que l'information discriminante. Dans le cas des méthodes reposant sur l'ADL (Fisherfaces,ADL2D, ADB), l'impact des aberrations sur le calcul des matrices de dispersion intra et inter-classesva réduire la séparabilité des classes.

Nous considérons une image de visage comme étant bruitée et potentiellement aberrante lorsqu'ellea été extraite de manière imprécise en position et/ou en échelle, ou lorsque la pose du visage ou lesconditions d'éclairage sont très diérentes de la majorité des images de la même personne.

Pour illustrer l'impact de ces facteurs de variabilité, nous avons évalué les performances de laméthode des Eigenfaces, sur trois bases de visages de la communauté (voir gure 4.38 et tableau 4.6) :la base Asian Face Image Database (PF01) [HRL04], la base PIE* qui est un sous-ensemble de la basePIE [SBB03] et une base privée FDB15, que nous avons spécialement construite pour cette étude.

La base PF01 contient 107 individus, chacun photographié sous 17 vues : une vue dans des condi-tions normales, quatre présentant des variations d'éclairage importantes et huit présentant des va-riations d'expressions faciales marquées. Pour évaluer l'impact des variations d'éclairage, nous avonsretenu comme aberrations les quatre vues présentant de telles variations. Deux de ces vues sont utiliséescomme images d'apprentissage et les deux autres en tant qu'images de test. Les 13 autres vues sontaléatoirement réparties : neuf dans la base d'apprentissage et quatre dans la base de test.

La base PIE* contient 30 individus, chacun dans 20 vues, dont 11 sont des vues frontales souséclairage standard. Les neuf vues restantes présentent des variations de pose et d'illumination et sont

Page 127: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4.6. Reconnaissance de visages par des techniques de statistiques robustes 127

FIG. 4.38 Exemples d'images composant les bases PF01, FDB15 et PIE*.

considérées comme des aberrations. La base d'apprentissage contient, pour chaque individu, sept vuesfrontales et cinq vues aberrantes. Les images restantes sont utilisées dans la base de test.

La base FDB15 a été créée en extrayant automatiquement les visages à l'aide de notre détecteurde visage CFF [GD04] dans des ux vidéo issus d'une webcam. Il s'agit de la version originale de CFF,qui n'intègre pas le recadrage CFA ou la détection d'éléments faciaux C3F, ces deux méthodes n'ayantpas encore été développées à l'époque de cette étude. Cette base contient 15 individus, chacun sous 31vues, dont 20 résultent d'un cadrage correct du visage et 11 d'un cadrage incorrect, à cause surtoutdes poses non-frontales. La base d'apprentissage contient pour chaque individu, 15 vues bien cadrées etsix vues aberrantes. Les images restantes sont utilisées dans la base de test. Cette base nous permettrad'évaluer l'impact des variations dans le centrage et dans la pose.

Toutes les images ont été redimensionnées à une taille de 65× 75 pixels et ont été prétraitées parégalisation d'histogramme. Pour chaque base, nous appliquons la méthode des Eigenfaces, une premièrefois en utilisant toutes les images des bases et une seconde fois sans prendre en compte les images aber-rantes. Les résultats obtenus sont présentés dans la gure 4.39. Lorsque toutes les images, incluant lesimages aberrantes sont utilisées, les taux de reconnaissance chutent de 10% pour les bases PF01 etFDB15. Dans le cas de la base PIE*, qui contient des images très variables, notamment en éclairage, letaux de reconnaissance chutent de plus de 30%. On remarquera aussi que ces baisses de performancessont indépendantes de la dimension de l'espace de projection construit (lié au nombre d'Eigenfaces re-tenues). Dans [BG09], nous montrons que les méthodes reposant sur l'ADL se comportent de manièreidentique.

PF01 FDB15 PIE*Nombre d'individus 107 15 30Nombre total d'images 1819 465 600Apprentissage : nombre d'images par individu 11 21 12Apprentissage : nombre d'images aberrantes par individu 2 6 5Test : nombre d'images par individu 6 10 8Test : nombre d'images aberrantes par individu 2 5 4

TAB. 4.6 Description du contenu des trois bases d'images

Nous étudions également la distribution des valeurs propres calculées par l'ACP. Si nous considéronsles trois premières valeurs propres, nous constatons que le rapport de leur somme à la somme del'ensemble des valeurs propres est bien plus élevé lorsque les images aberrantes sont incluses dans labase d'apprentissage (voir tableau 4.7). Ce ratio correspond à la proportion de la variance expliquéepar les vecteurs propres correspondants. Les premières valeurs propres sont également bien supérieures(voir gure 4.40) et l'information discriminante, que les vecteurs propres correspondant encodent, est

Page 128: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

128 4. Reconnaissance de visages

FIG. 4.39 Impact des aberrations sur les performances de l'ACP.

PF01 FDB15En incluant les images aberrantes 35,51% 35,02%Sans les images aberrantes 25,68% 29,13%

TAB. 4.7 Ratios entre chacune des trois premières valeurs propres et la somme de toutes les valeurspropres.

corrompue par les images aberrantes.

4.6.3 Une méthode de ltrage reposant sur l'ACP robuste

Pour tenter de résoudre ce problème, deux solutions peuvent être considérées : construire uneméthode de reconnaissance capable d'absorber l'ensemble de ces variabilités, ce que les méthodes del'état de l'art ne peuvent encore réaliser, ou construire une méthode capable d'identier les imagesaberrantes pour les rejeter et permettre à l'apprentissage de construire un modèle discriminant pourl'ensemble des images restantes, qu'on peut imaginer nombreuses dans le contexte de la reconnaissancedans les vidéos. Ici, nous nous intéressons à la seconde voie et proposons une méthode non-superviséepour ltrer les images de visage aberrantes.

Le problème de la détection d'aberrations a été étudié en détail, trouvant de très nombreuses ap-plications (voir [HA04] pour un état de l'art détaillé). Les méthodes existantes peuvent être diviséesen trois catégories : (1) les méthodes statistiques qui utilisent des modèles de distribution pour carac-tériser l'appartenance d'un point à un ensemble de points ; (2) les approches neuronales qui utilisent

Page 129: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4.6. Reconnaissance de visages par des techniques de statistiques robustes 129

FIG. 4.40 Les 15 premières valeurs propres obtenues sur la base PIE* avec ou sans les imagesaberrantes.

l'apprentissage pour isoler les aberrations et (3) les techniques de clustering ou d'arbre de décisions.Dans le cas présent, nous ne disposons pas de connaissance a priori sur les données ce qui ne permetpas d'utiliser de modèles prédénis ni d'apprentissage supervisé. De plus, nous cherchons à isoler spé-ciquement les données qui aectent les premier et second moments utilisés lors de la construction dumodèle de projection statistique.

Aussi, nous proposons d'utiliser la méthode d'ACP robuste (RobPCA) introduite par Hubert etal. [HRB05], qui a pour objectif de déterminer un sous-ensemble de vecteurs propres peu inuencéspar la présence d'aberrations, tout en permettant de repérer ces dernières.

La méthode RobPCA combine deux approches pour l'estimation robuste des vecteurs propres. Lapremière approche vise à trouver un sous-ensemble de vecteurs, dont la matrice de covariance a leplus petit déterminant, correspondant au sous-espace le plus compact. La moyenne et la matrice decovariance sont alors calculées sur ce sous-ensemble. La deuxième méthode utilise des techniques depoursuite de projection. L'idée est de maximiser une mesure robuste de dispersion an de déterminerséquentiellement les axes principaux.

Pour estimer la moyenne robuste (µ) et la matrice de covariance robuste (C) d'un ensemble dedonnées Xn,d de n vecteurs de dimension d, la méthode RobPCA procède en deux étapes :

1. Les données sont traitées à l'aide d'une ACP classique. L'objectif ici n'est pas de réduire fortementla dimension, mais de supprimer les dimensions superues.

2. Les h vecteurs les moins aberrants sont recherchés, où h < n et h − n est le maximum toléréd'aberrations. Pour cela, une mesure du degré d'aberration est calculée en projetant tous les vec-teurs sur un ensemble d'axes et en mesurant la distance de chacun à la dispersion des projections.Une ACP est alors appliquée sur l'ensemble des h vecteurs et leur dimension est ainsi réduite.

3. µ et C sont estimées sur h nouveaux vecteurs dont la matrice de covariance a le plus petitdéterminant. Pour trouver ces vecteurs, l'algorithme FAST-MCD [RVD05] est appliqué : Calculer la moyenne (m) et la matrice de covariance (C) des h vecteurs, trouvés en 2, Calculer les distances de Mahalanobis, utilisant la matrice C, de tous les vecteurs à la moyennem,

Choisir un nouvel ensemble de h vecteurs associés aux plus petites distances de Mahalanobis.Le déterminant de la matrice de covariance de ces h nouveaux vecteurs est plus petit que ledéterminant de C.

Cette procédure est répétée jusqu'à convergence, lorsqu'aucune nouvelle réduction du détermi-nant n'est obtenue.

Page 130: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

130 4. Reconnaissance de visages

FIG. 4.41 Exemples d'images de visage extraites d'une vidéo et ltrées par la méthode RobPCA.

Une fois estimées µ et C, les vecteurs sont projetés dans un espace de dimension réduite, déni parles vecteurs propres de C. Les images aberrantes sont alors déterminées en analysant la distributionde deux distances pour tous les vecteurs : la distance D1i qui mesure dans l'espace de projection ladistance de Mahalanobis de la projection du vecteur i au centre des vecteurs projetés et la distance D2iqui mesure la distance orthogonale du vecteur i à l'espace de projection. Deux seuils sont alors estimésà partir de la distribution de ces distances. La distribution de D1 peut être approximée comme étant

une distribution du χ2k, le seuil associé pouvant alors être choisi comme étant

√χ2k,0.975. Dans [HRB05],

Hubert et al. montrent que D2 à la puissance 2/3 est normalement distribué, le seuil associé pouvantdonc être choisi comme étant (m+ σz0.975)3/2 où m et σ sont respectivement les estimations robustesde la moyenne et de l'écart type et z0.975 est le quantile à 97,50% de la distribution normale.

Si l'une au moins des deux distances associées à un vecteur est supérieure au seuil correspondant,ce vecteur est classé comme aberrant.

4.6.4 Résultats expérimentaux

Le ltrage par RobPCA a été conduit séparément sur l'ensemble des images de chaque individu.Le tableau 4.8 présente les taux de sélection des images, considérées comme aberrantes. On peut noter,qu'en dehors du cas de la base PIE*, les taux de sélection sont supérieurs à la proportion d'imagesconsidérées initialement comme aberrantes. Ceci peut être expliqué par le fait que la sélection a étéfaite visuellement, et selon des critères spéciques selon les bases. Par exemple, dans la base PF01,nous avons considéré comme aberrantes les images de visage présentant uniquement d'importantesvariations d'éclairage, alors que d'autres images contiennent de fortes variations dans la pose.

PF01 FDB15 PIE*Base d'apprentissage 65,25% 63,81% 68,89%Base de test 40,03% 36,00% 51,25%

TAB. 4.8 Les taux de sélection des images de visage par la méthode RobPCA.

Pour illustrer la procédure de ltrage, la gure 4.41 présente un ensemble d'images d'un individude la base FDB15, extraites automatiquement d'un ux vidéo. Parmi les 21 images de cet individu,six sont en positions non frontales ou mal cadrées. Les sept images présentées dans les deux dernièreslignes de la gure sont celles qui ont été identiées comme aberrantes par la RobPCA.

An d'évaluer l'apport de ce ltrage, la gure 4.42 présente les taux de reconnaissance obtenus parla méthode des Eigenfaces, avec ou sans ltrage, sur les bases d'apprentissage et de test. On observeque les taux de reconnaissance sont améliorés de 10 à 30% lorsque les images aberrantes sont isolées.

Page 131: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4.6. Reconnaissance de visages par des techniques de statistiques robustes 131

FIG. 4.42 Performances de l'ACP avec ou sans ltrage des images par RobPCA.

On remarquera aussi que les résultats sont équivalents ou même légèrement supérieurs à ceux obtenuspar un ltrage manuel (voir gure 4.39).

4.6.5 Conclusion

Dans cette étude, nous avons montré expérimentalement la sensibilité des méthodes de projectionstatistique linéaires à la présence d'images de visage, considérées comme aberrantes, du fait de leurmauvais centrage ou de fortes variations d'éclairage. La baisse en taux de reconnaissance induite parla présence de ces images peut aller jusqu'à 30% sur trois bases d'images, dont une constituée d'imagesde visage en poses variées et automatiquement extraites de séquences vidéos. Nous avons proposé unesolution basée sur l'ACP robuste, permettant de ltrer automatiquement et de manière non-superviséeces images aberrantes, en phases d'apprentissage et de reconnaissance, avec un gain de 10 à 30%.

Cette méthode s'est montrée ecace spécialement dans le cas de séquences vidéo, en sélectionnantun sous-ensemble parmi les nombreuses images de visage détectées. Elle nous a notamment permis decontourner le problème de la reconnaissance de visages multi-poses, en ne sélectionnant que les vuesen poses frontales. On fait l'hypothèse, généralement vériée, que le visage en mouvement, dans uneinterview par exemple, se retrouve le plus souvent en pose frontale.

Page 132: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

132 4. Reconnaissance de visages

4.7 Conclusion

Les attentes applicatives ainsi que les challenges scientiques à relever font de la reconnaissance devisage un sujet de recherche particulièrement actif. Comme nous l'avons vu dans notre résumé de l'étatde l'art, de nombreuses méthodes ont été proposées. Si des progrès notables ont été réalisés ces dernièresannées, des eorts de recherche importants restent nécessaires pour pouvoir espérer développer dessystèmes robustes à l'ensemble des sources de variabilité, et automatiques sur toute la chaîne destraitements, qui va de la détection à l'identication.

Au cours de ces dix dernières années, nos études successives ont eu pour objectif de concevoir desméthodes permettant d'absorber au mieux l'ensemble de ces facteurs de variabilité, dans un contexted'acquisition automatique. Nous avons ainsi exploré plusieurs voies reposant sur des modes diérentsde représentation et de classication des visages, inuencées également par l'évolution générale desdomaines de la reconnaissance des formes et de la vision par ordinateur.

Une première approche a consisté à caractériser la texture des visages à partir de mesures statis-tiques extraites dans des sous-bandes d'une décomposition en paquets d'ondelettes. Elle a permis dedénir une mesure de similarité simple entre visages, très rapide à évaluer, mais relativement sensibleau bruit et aux occultations possibles pouvant aecter l'apparence des visages.

Nous avons ensuite proposé une nouvelle méthode, l'ADB, qui étend l'approche des Fisherfaces enprenant en compte ecacement la représentation bidimensionnelle des images. Elle permet notammentde contourner les problèmes de singularité et d'instabilité numérique dans la construction du modèlemais aussi d'extraire des signatures beaucoup plus compactes, tout en apportant une robustesse accrueaux facteurs de variabilité nombreux aectant les visages (erreurs de centrage, bruits, occultationspartielles, variations d'éclairage).

Si l'approche ADB permet d'améliorer nettement les performances par rapport aux méthodes ba-sées sur l'ADL, elle soure des limitations inhérentes à cette famille d'approches linéaires, à savoir larobustesse à des variations fortes et non-linéaires de l'apparence des visages, notamment à la combi-naison des variations de pose et d'éclairage. Nous avons donc poursuivi nos recherches en concevantune méthode holistique, prenant en compte, comme dans l'ADB, la représentation bidimensionnelledes images, mais reposant sur une projection non-linéaire, an d'augmenter la robustesse de la recon-naissance de visages aux variations de l'éclairage ou des expressions faciales et à la présence éventuelled'occultations partielles. Par contre, l'apprentissage itératif est coûteux et rend cette méthode moinsattractive dans le cas où de nouveaux individus doivent être pris en compte dynamiquement dans labase d'apprentissage.

Suite à l'avènement des approches basées sacs de caractéristiques , qui ont prouvé leur ecacitédans le domaine de la détection et de la reconnaissance d'objets, nous avons choisi d'étudier la per-tinence d'une représentation parcimonieuse des images dans le cadre de la reconnaissance de visages.La solution proposée repose sur la sélection de points saillants robustes et répétables, l'extraction designatures caractérisant la texture locale autour de ces points, qui sont ensuite sélectionnées et fusion-nées par un processus d'apprentissage compétitif pour former un alphabet visuel général ou spéciqueà chaque personne. Elle consiste nalement à représenter les images par des histogrammes d'activa-tions reposant sur des erreurs de quantication mesurées entre les signatures extraites et les signaturesreprésentatives de chaque individu.

Des résultats expérimentaux, obtenus sur deux bases internationales, ont montré la supériorité decette méthode très rapide par rapport à nos approches reposant sur des sous-espaces de projectionlinéaire ou non-linéaire. Des tests additionnels sur des bases contenant de très nombreux individusdans des conditions très variables sont cependant nécessaires pour conrmer cette tendance.

La plupart des applications que nous privilégions, notamment la reconnaissance de visages dansdes séquences vidéo, sont diciles du fait de la forte variabilité des conditions de prises de vues et dela pose des visages. Les méthodes de l'état de l'art reposant sur des images 2D, dont celles que nousavons proposées, ne fournissent pas encore une robustesse susante lorsque les variations sont trèsmarquées ou lorsque les images de visage sont imprécisément extraites. Pour contourner ce problème,nous avons proposé une méthode consistant à rejeter, de manière non-supervisée, certaines images de

Page 133: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

4.7. Conclusion 133

visage aberrantes avant reconnaissance, tant en phase de constitution du modèle de reconnaissancequ'en phase de classication. Cette approche, basée sur une ACP robuste, permet un gain certain dansle contexte de la reconnaissance de visages dans des séquences vidéo, où le nombre d'images disponiblespar individu est généralement important. Ce principe de ltrage des images, illustré dans le cas desEigenfaces, pourrait être considéré dans les autres méthodes, qu'elles reposent sur des projections ousur une description parcimonieuse.

Page 134: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

134 4. Reconnaissance de visages

Page 135: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

Chapitre 5

Conclusion et Perspectives

Ce document a présenté une synthèse des travaux de recherche auxquels j'ai participé depuis 1991,tout au long d'un parcours dans des environnements agréables, dynamiques et motivants, en milieuacadémique et industriel, en France, en Espagne, en Allemagne et en Grèce. Mes activités de recherchese sont déroulées autour d'une thématique centrale, l'analyse automatique des images numériques, etont concerné l'exploration de problématiques diverses comme la mise en correspondance stéréoscopique,la vision 3D et l'asservissement visuel robotique, la réalité virtuelle, la segmentation et la classicationd'images, et la détection/reconnaissance d'objets pour l'indexation des images et les interfaces homme-machine.

En 1997, au cours de mon séjour postdoctoral à FORTH en Crète, nous avons commencé à nousintéresser à un objet particulier, le visage , qui, du fait de son rôle central dans la communicationentre humains, est particulièrement intéressant dans le cadre des interfaces homme-machine, et consti-tue par ailleurs un indice visuel de haut niveau très informatif dans le domaine de l'indexation desimages et des vidéos. Dans ce manuscrit, nous avons présenté les travaux qui se sont poursuivis jusqu'àprésent, sur ce sujet spécique de la perception faciale par ordinateur, et qui concernent la conceptiondes diérents maillons de la chaîne des traitements automatiques allant de la détection des visages àleur identication.

Après un bref résumé de nos contributions dans ce domaine, issues principalement de deux Mastersin Computer Science et de quatre thèses de doctorat que j'ai eu le plaisir de co-encadrées, nousproposerons des perspectives pour des recherches futures.

5.1 Résumé des études présentées

L'analyse automatique des visages, et les très nombreuses applications qui en découlent, reposentsur trois étapes clés sur lesquelles ont porté plus particulièrement nos contributions :

la détection de visages : c'est la première étape de la chaîne de traitement, qui consiste àlocaliser les visages, quelque soit leur nombre, leur position dans l'image ou leur taille,

l'alignement de visages : il s'agit d'aner la localisation de la boîte englobante du visage etéventuellement de détecter nement les traits caractéristiques de celui-ci,

la reconnaissance de visages : souvent étape ultime du traitement, on cherche à aecter uneidentité parmi celles d'un ensemble de visages connus.

Les problèmes à résoudre pour construire cette chaîne de traitement applicable en conditions ter-rain sont nombreux et la plupart classiques de la vision par ordinateur : on recherche des algorithmesrobustes aux changement d'éclairage, aux changements de points de vue, aux changements d'orienta-tion de la tête, aux variations intra et/ou interpersonnelles (selon l'âge, le sexe, l'ethnie, l'expressionfaciale) et aux occultations partielles, le tout dans des scènes pouvant être complexes.

Nos contributions se sont appuyées sur des principes généraux qui ont consisté à concevoir desapproches génériques pour analyser un objet particulier et à apprendre par l'exemple , en ne fai-sant pas ou peu usage de règles heuristiques ad-hoc, qu'elles concernent la décision haut-niveau ou lesprétraitements bas-niveau des images de visage. En cela, nous nous sommes inscrits dans le courantdes recherches actuelles qui ont vu un rapprochement très bénéque de domaines de recherche, parfois

135

Page 136: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

136 5. Conclusion et Perspectives

historiquement éloignés comme le traitement du signal, les statistiques et l'apprentissage automatique.

Nous résumons brièvement les contributions des diérentes études présentées.

Dans le chapitre 1, nous avons présenté deux contributions en détection de visages. Dans lapremière, la détection de visages est vue comme la recherche d'une texture particulière dans l'image,que l'on caractérise via une décomposition en paquets d'ondelettes permettant de capturer l'in-formation dans l'espace, les fréquences et les orientations. La texture des images de visage est alorsdécrite par des vecteurs caractéristiques compacts et discriminants constitués de mesures statistiquesextraites de chaque sous-bande de la décomposition en paquets d'ondelettes. Une distance probabilistepermet alors de classer chaque zone d'image en visage ou non-visage.

La seconde contribution, conçue avec mon étudiant en Master Manolis Delakis, est l'approchebaptisée CFF (Convolutional Face Finder), reconnue aujourd'hui comme l'une des plus perfor-mantes de l'état de l'art. Pour caractériser une zone d'image de visage, cette méthode ne repose plussur un ltrage générique mais sur une cascade de ltres non-linéaires (opérations de convolution et desous-échantillonnage) appris automatiquement sur des bases d'exemples par une architecture spéciquede réseaux de neurones à convolution. Cette méthode a été intégrée avec succès dans plusieursservices opérationnels de France Télécom (visioconférence, services de recherche internet spécialisésen vidéos de journaux télévisés) et implantée sur des plateformes embarquées (téléphones portables,circuits intégrés reprogrammables FPGA). Nous avons montré la généricité et le potentiel de l'archi-tecture CFF sur d'autres problèmes variés et diciles, comme la détection de logos transparents ou desilhouettes.

Dans le chapitre 2, nous avons considéré la problématique de l'alignement de visages aprèsdétection pour des applications reposant sur le suivi d'éléments faciaux particuliers ou pour préparerles phases d'identication du visage ou de reconnaissance de ses expressions ou émotions.

Nous avons présenté deux contributions permettant la détection d'éléments faciaux. La pre-mière, baptisée Modèles Actifs d'Apparence Adaptés (M3A), développée dans le cadre de lathèse de Sylvain Le Gallou, concerne la recherche des éléments faciaux par mise en correspondanced'un maillage déformable 2D, contenant de nombreux points de contrôle, sur des images de visage,en position frontale, issues d'un ux vidéo provenant d'une webcam. Cette méthode repose sur desmodèles actifs d'apparence, robustes aux variations de l'illumination, de la pose et de l'identité, grâceà un prétraitement ecace de l'image et à un schéma de sélection des bases d'apprentissage, qui permetde contraindre la variabilité des données, réduisant drastiquement la taille des modèles statistiques etle temps de calcul. Cette approche permet de plaquer un modèle déformable contenant de nombreuxpoints et ainsi de modéliser nement le visage pour alimenter des applications de réalité virtuelle ouaugmentée, comme la décoration vidéo ou le pilotage d'un agent virtuel conversationnel.

La seconde contribution baptisée Convolutional Facial Feature Finder (C3F), conçue dansle cadre de la thèse de Stefan Duner, traite du cas plus général de la détection robuste des élémentsfaciaux dans des images tout-venant , de résolution et de qualité variables, dans des conditionsd'éclairage non-contraintes, de bruits et de résolution variés, les visages pouvant être partiellementoccultés. Grâce à son schéma hiérarchique, reposant sur une architecture spécique de réseaux deneurones à convolution, la méthode proposée permet d'inférer automatiquement des détecteurs bas-niveau robustes tout en apprenant des règles permettant de régir les dispositions relatives plausibles deséléments détectés et de prendre en compte naturellement toute information disponible pour localiserd'éventuels éléments occultés. Cette méthode est la plus performante de l'état de l'art, supérieurenotamment aux techniques reposant sur des modèles statistiques de formes ou d'apparences.

Avec Stefan Duner, nous avons également proposé une méthode pour l'alignement de visages,baptisée Convolutional Face Aligner (CFA), ne reposant pas sur la localisation des élémentsfaciaux mais sur l'estimation précise de la boîte englobante du visage. Elle permet la correction

automatique des boîtes englobantes, en général verticales, produites en sortie d'un détecteur devisages. Cette méthode consiste à apprendre conjointement les paramètres (translations selon les deux

Page 137: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

5.1. Résumé des études présentées 137

axes, angle de rotation dans le plan et facteur d'échelle) régissant la transformation ane entre laboîte englobante d'une image de visage détectée et la même boîte englobante correctement centrée surle visage. Un schéma itératif permet alors d'estimer cette transformation sur une image de visage etainsi de corriger la boîte englobante. Les résultats obtenus par cette méthode sont supérieurs à ceuxobtenus en utilisant la position des éléments faciaux pour dénir la boîte englobante.

L'intégration de ces techniques (et notamment CFA et C3F) en sortie du détecteur de visages CFFnous a permis d'obtenir un détecteur de visages et d'éléments faciaux temps réel, très performant nonseulement en taux de détection mais aussi en précision de localisation, qui de plus, est utilisable dansdes systèmes embarqués.

Dans le chapitre 3, portant sur la reconnaissance de visages, nous avons décrit cinq contri-butions, reposant sur des principes diérents an d'explorer plusieurs voies.

La première contribution est issue des travaux réalisés à l'université de Crète, avec Georges Tziritas,Georges Zikos et Georges Simandiris, et portant sur la caractérisation de la texture des images devisage par des mesures statistiques calculées sur les sous-bandes d'une décomposition en ondelettes,qui permet de dénir une mesure de similarité entre visages, à l'aide de la distance de Bhattacharyya.Cette méthode, à faible coût calculatoire, est plus performante que la méthode projective dites desEigenfaces, lorsque les images de visage ne sont pas parfaitement alignées. Elle est par contre sensibleaux bruits et aux occultations partielles pouvant aecter l'apparence des visages.

La seconde solution proposée, conçue dans la cadre de la thèse de Muriel Visani, s'inscrit dans lecourant des recherches basées sur des méthodes qui visent à représenter le visage dans des sous-espaceslinéaires. Nous avons proposé une nouvelle méthode, baptisée Analyse Discriminante Bilinéaire

(ADB), qui combine ecacement l'Analyse Discriminante Linéaire (s'appliquant classiquement à desvecteurs) avec une modélisation bidimensionnelle, qui permet de conserver la structure de l'image.Elle permet notamment de contourner les problèmes de singularité et d'instabilité numérique dansla construction du modèle mais aussi d'extraire des signatures plus compactes, tout en apportant unerobustesse accrue aux facteurs de variabilité nombreux aectant les visages (erreurs de centrage, bruits,occultations partielles, variations d'éclairage).

La troisième contribution, baptisée Convolutional Face Recognizer (CFR), conçue dans lecadre de la thèse de Stefan Duner, est également une méthode holistique, prenant en compte, commedans l'ADB, la représentation bidimensionnelle des images mais reposant sur une projection non linéairean d'augmenter la robustesse aux variations de l'éclairage, des expressions faciales et à la présenceéventuelle d'occultations partielles. L'approche proposée repose sur une architecture de réseaux deneurones à convolution, qui permet d'apprendre à mettre en correspondance toute image d'une personneavec l'image de référence, sélectionnée automatiquement, qui représente le mieux cette personne.

La quatrième contribution, issue des travaux de thèse de Grégoire Lefebvre, a consisté à évaluerle potentiel d'une représentation parcimonieuse des images dans le cadre de la reconnaissancede visages. La solution proposée consiste, non pas à mettre en correspondance des graphes de zonesd'intérêt, mettant en jeu des contraintes géométriques, mais plutôt à décrire les images de visage sous laforme de sacs de caractéristiques discriminantes. La solution proposée repose sur la sélection depoints saillants robustes et répétables et l'extraction de signatures caractérisant la texture locale autourde ces points, qui sont ensuite sélectionnées et fusionnées par un processus d'apprentissage compétitifpour former un alphabet visuel général ou spécique à chaque personne. Elle consiste nalement àreprésenter les images par des histogrammes d'activations reposant sur des erreurs de quanticationmesurées entre les signatures extraites et les signatures représentatives de chaque individu.

Des résultats expérimentaux, obtenus sur deux bases internationales, ont montré la supériorité decette méthode très rapide par rapport à nos approches reposant sur des sous-espaces de projection li-néaire ou non-linéaire. Des tests additionnels sur des bases contenant des images de nombreux individusdans des conditions très variables, sont cependant nécessaires pour conrmer cette tendance.

La dernière contribution, produite dans le cadre du séjour postdoctoral de Sid-Ahmed Berrani, a eupour objet d'évaluer l'impact de la présence d'images de visage considérées comme des aberrations carmal centrées ou exhibant un très forte variabilité d'apparence, sur les performances des méthodes

Page 138: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

138 5. Conclusion et Perspectives

FIG. 5.1 Démonstrateurs de la chaîne complète de détection/alignement/reconnaissance de visages : àgauche, reconnaissance de visages de personnalités dans des ux télévisuels ; à droite, démonstrateur decontrôle d'accès FaceCheckIn , à partir d'une caméra webcam. Dans les deux applications, les imagesde visage de la base d'apprentissage, au nombre de cinq par personne, sont extraites automatiquementen ligne, sans correction manuelle, et ltrés par notre technique RobEigenFaces.

de projection statistique linéaires comme les Eigenfaces, les Fisherfaces ou l'ADL2D. Nous avonsproposé une méthode, baptisée RobEigenFaces et consistant, de manière non-supervisée, à ltrer les

images de visage aberrantes avant reconnaissance, tant en phase de constitution du modèle dereconnaissance qu'en phase de classication. Cette approche, basée sur une ACP robuste, permet ungain de performance certain dans le contexte de la reconnaissance de visages dans des séquences vidéo,où le nombre d'images disponibles par individu est généralement important. Ce principe de ltragedes images, illustré dans le cas des Eigenfaces, pourrait être considéré dans le cas des autres méthodes,qu'elles reposent sur des sous-espaces de projection ou sur une description parcimonieuse.

5.2 Perspectives

L'ensemble des méthodes présentées dans ce manuscrit ont été optimisées et, en ce qui concernespéciquement les approches reposant sur les réseaux de neurones à convolution, portées sur plate-formes embarquées. La robustesse et la rapidité de la chaîne complète d'analyse de visages ont permisson intégration dans les moteurs d'indexation audiovisuelle, alimentant plusieurs services opéra-tionnels de France Télécom (voir gure 5.1). Ces briques technologiques ont été intégrées dans d'autressolutions, notamment dans un service internet de partages de photos, et dans une ore logicielle devisioconférence. D'autres transferts applicatifs sont en cours notamment dans le domaine des servicesdomotiques et de contrôle d'accès.

Si les méthodes proposées sont susamment performantes pour alimenter de nombreux services,beaucoup reste cependant à faire pour les améliorer et étendre ainsi le champ des applications.

En ce qui concerne la détection de visages, les solutions sont matures et sont déjà intégrées dansde nombreuses applications commerciales. La solution CFF se distingue en termes de taux de détection,de vitesse de traitement mais surtout en ce qui concerne les taux de fausse alarme, particulièrementfaibles. Elle traite des images de visages tournés dans l'espace jusqu'à ±60 degrés (la pose de trois-quart étant à ±45 degrés). Si les performances peuvent être améliorées à la marge, elles sont prochesde la limite, si l'on ne prend pas en compte des informations autres que la zone du visage. Les visagesnon détectés sont en général de très mauvaise qualité, de résolution très basse ou de contraste très

Page 139: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

5.2. Perspectives 139

FIG. 5.2 Détection de visage CFF invariante à la rotation : résultats sur la base utilisée dans[RBK98b].

faible. Dans ces conditions, la texture purement locale du visage devient même indiscernable pourl'oeil. Seul le contexte, notamment la détection du corps humain, peut alors permettre cette détection(de tête). Nous estimons que le même problème peut se poser dans le cas des visages de prol, dontla détection nous semble moins importante dans le cadre des services d'indexation d'images. Pour desimages de visages de prol, de bonne qualité, un détecteur CFF, entraîné spéciquement sur ce type devue (±30 degrés de rotation par rapport à la version courante), nous a donné des résultats dépassant les85% en taux de détection. Une stratégie consistant à appliquer deux détecteurs CFF spécialisés et trèsrapide (multi-vues) nous paraît la plus ecace. La modélisation conjointe des visages semi-frontaux etdes visages de prol (objets visuels très diérents) conduit à des classieurs, plus complexes et moinsperformants dans la détermination des frontières entre classes visage et non-visage. Si des résultatsimpressionnants ont été obtenus notamment par Osadchy et al. [OML05], c'est avec une architectureneuronale plus complexe et au prix d'un nombre de faux positifs plus importants.

Les mêmes observations peuvent être faites dans le cas de la détection de visages invariante enrotation dans le plan. La méthode CFF est tolérante à ±30 degrés de rotation, ce qui correspond àla grande majorité des visages à détecter dans les programmes télévisuels. Dans le cas des vidéos dection ou des bases de données d'images personnelles, les visages peuvent se retrouver dans des posessortant de cet intervalle de tolérance. Une solution idéale consiste à intégrer la robustesse à la rotationdans le classieur comme dans l'approche de Rowley et al. [RBK98b], où chaque zone d'images dans lafenêtre de recherche est d'abord corrigée en rotation en fonction d'un angle estimé avant classicationen visage ou non-visage. Le coût calculatoire devient alors très important. Une solution plus simpleconsiste à détecter les visages sur 12 versions de l'image originale, obtenues par des rotations de 30 de-grés, et de gérer les détections se recouvrant. La faible complexité du détecteur CFF et donc sa vitessede traitement, nous permet d'obtenir des résultats très robustes à un coût qui reste raisonnable, de6 images par seconde sur un Pentium IV pour des images QCIF (176 × 144 pixels). Des exemples dedétection sur la base utilisée dans [RBK98b] sont présentés dans la gure 5.2. Cette base est constituéede 49 images contenant 89 visages. Notre approche conduit à un taux de détection de 86,52% sansaucune fausse alarme en comparaison des 79,2% avec 24 fausses alarmes obtenus par Rowley et al.

En ce qui concerne l'analyse ne des traits du visage et notamment la détection des éléments

faciaux, les deux contributions que nous avons proposées peuvent être étendues. Une première voie,qui est activement explorée, peut consister à introduire de la non-linéarité dans le schéma des AAMs,comme dans [CD05, SG07c]. Une seconde approche, que nous privilégions, consiste, quant à elle, àinférer la forme directement à partir de la texture comme dans la méthode C3F, en enrichissant lesmodèles de forme produits en sortie (10 points actuellement). Il s'agira alors de proposer un nouveauschéma hiérarchique et de remplacer les cartes de sortie par une couche de neurones encodant directe-ment les coordonnées de points. Des expériences ont déjà été menées avec le modèle à 10 points utiliséjusque là et les résultats sont encourageants, sur des images prises dans des conditions très variées.

Page 140: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

140 5. Conclusion et Perspectives

FIG. 5.3 Suivi de visages dans un ux vidéo issu d'une webcam.

Si les méthodes proposées en reconnaissance de visages ont été intégrées avec succès dansdes systèmes d'indexation de séquences vidéo ou de contrôle d'accès, beaucoup reste à faire pour lesaméliorer. Par exemple, le principe du ltrage des images, illustré dans le cas des Eigenfaces, peutêtre considéré dans les autres méthodes, qu'elles reposent sur des projections ou sur une descriptionparcimonieuse. Quitte à réaliser une présélection des images de visage, il est également possible deles classer en fonction de la pose des visages voire des conditions d'éclairage, pour ensuite utiliser unensemble de classieurs spécialisés, chacun dédié, par exemple, à une pose spécique [LGL00, VT02,TFG08]. La classication en pose est d'ailleurs un sujet de recherche actif [WFT02, BO04, OML05],mais qui lui aussi se heurte au problème des variations d'éclairage. Nous travaillons sur ce sujet,notamment à l'aide d'un réseau de neurones à convolution, inspiré de notre solution de recadrage CFA,visant dans ce cas, non pas à produire les paramètres des transformations anes à appliquer pourrecadrer, mais à estimer les angles de rotation dans l'espace.

D'autres pistes d'amélioration peuvent concerner la correction lumineuse avec, par exemple, des ap-proches permettant de modéliser les eets de l'éclairage sur le visage [GBK01, ZLS03, ZCJ04, LSK07].Une approche particulière, à la manière de notre solution de reconnaissance de visages CFR, peutconsister à apprendre à reconstruire une image de visage normalisée à partir d'une image du mêmevisage sous des éclairages diérents. Nous avons commencé à explorer cette voie, grâce aux images dela base PIE, qui contiennent des vues de chaque individu, prises quasi-simultanément sous 21 illumina-tions d'intensité et de direction diérentes (gauche, droite, haut, bas). Les résultats sont prometteursmais nécessitent la constitution d'une base d'exemples plus conséquente, de manière à minimiser l'in-uence de l'identité. Une autre approche peut consister, non pas à reconstruire l'image, mais plutôtà apprendre directement la correction lumineuse (non-linéaire) à appliquer (par exemple, la diérenceentre l'image originale et l'image normalisée).

Enn, mise à part la technique de reconnaissance basée ondelettes, les méthodes que nous avonsproposées à ce jour visent plutôt l'identication des visages dans un monde fermé, où les individus àreconnaître sont connus a priori dans la base de connaissances. Or, de nombreuses applications peuventnécessiter le regroupement (clustering) des images de visage d'une même personne, sans phase préa-lable d'enregistrement d'exemples de visages représentatifs de cette personne. Nous nous intéressons àprésent à des techniques de vérication où l'on cherche à estimer la ressemblance entre deux images devisage, sans modèle spécique de chaque personne, comme par exemple dans l'approche de Chopra etal. [CHL05]. Nous considérons aussi des approches hybrides où la détection et le suivi de visages dansdes séquences vidéo permettent de sélectionner des ensembles d'images de visages d'une même per-sonne dont on évaluera la similarité avec d'autres ensembles d'images de visages apparaissant ailleursdans la séquence vidéo.

Nous envisageons également de poursuivre nos études portant sur la classication en genre. Nousavons proposé une première contribution dans [GD07a], utilisant directement l'architecture CFF, dontle neurone de sortie permet, dans ce cas, de discriminer les images de visages des hommes de ceux

Page 141: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

5.2. Perspectives 141

des femmes. Les expériences ont été réalisées sur la base FERET, sur des images de visages en po-sition frontale, dans des conditions d'éclairage normalisées. 80% des visages ont été utilisés en phased'apprentissage et le reste en phase de test. Les taux de détection 97,4% obtenus sont encourageants,et comparables à ceux publiés par Baluja et Rowley [BR07] qui ont obtenu 97,1% avec une approchereposant sur des SVM et 96,4% avec une méthode mettant en ÷uvre l'algorithme Adaboot. Ces tra-vaux préliminaires doivent être poursuivis pour prendre en compte les facteurs de variabilité aectantl'apparence des visages en conditions terrain .

La plupart des méthodes que nous avons proposées ont été conçues pour traiter des images xes enniveaux de gris an de permettre l'analyse générique de documents multimédia variés (images person-nelles, images de documents scannés, séquences vidéo). Dans des cas d'usages plus spéciques, commel'indexation de programmes télévisuels, la prise en compte de l'information temporelle et notammentdu mouvement peut permettre d'augmenter les performances en vitesse de traitement tout en enri-chissant les modèles de représentation des visages. Par exemple, il peut s'agir de détecter les visagesuniquement dans certaines images clés et d'utiliser un algorithme de suivi sur toutes les autres imagesconstituant le ux vidéo entre ces positions. Il est possible d'appliquer les algorithmes classiques dusuivi d'objets, notamment l'algorithme de Kanade-Lucas-Tomasi (KLT) [ST94] ou les algorithmes ba-sés sur le mean-shift [CM02, CMR03]. Pour augmenter la robustesse du suivi, notamment par rapportà des occultations partielles ou à des changements brusques d'illumination, une solution peut consisterà introduire une modélisation spécique du visage (autre que la distribution des couleurs ou des pointsd'intérêts). Nous avons commencé à travailler dans cette direction, en utilisant notre méthode de reca-drage CFA (voir gure 5.3), conçue notamment pour recentrer sur le visage une boîte englobante (enl'occurrence, celle trouvée dans l'image précédente) grâce à l'estimation des paramètres d'une trans-formation ane (translations, rotation, facteur d'échelle). Cette première solution de suivi intégrantun modèle du visage est particulièrement robuste et permet d'atteindre une cadence très élevée.

En ce qui concerne l'identication de visages, un nouveau courant d'approches cherchent à exploiterla dynamique du visage, en introduisant le ot optique, ou les variations de l'apparence, dans la plupartdes méthodes traditionnelles de l'état de l'art, basées sur les projections statistiques, la mise en corres-pondance de graphes ou la modélisation par MMC (voir [MD09] pour un état de l'art détaillé). Nousenvisageons d'intégrer la composante mouvement dans nos modèles d'apprentissage pour la détection,le suivi et la reconnaissance des visages en particulier, mais aussi dans un cadre plus général concernantles objets vidéo. La voie que nous proposons d'explorer consistera à modéliser conjointement la textureet la dynamique de l'objet vidéo au travers de réseaux de neurones à convolution récurrents, permet-tant d'extraire des caractéristiques spatio-temporelles discriminantes. Nous avons initié des travauxde recherches préliminaires qui seront poursuivis dans le cadre d'une thèse de doctorat débutant enoctobre 2009, en coopération avec l'Insa de Lyon.

En dehors de la thématique visages , que nous avons décidé de présenter dans ce manuscrit, lesaxes de recherche principaux qui vont nous occuper pour les années à venir vont vraisemblablementporter sur la caractérisation du contenu pour la navigation dans de très grandes bases de données, surla prise en compte de la multimodalité image-son-texte (les images se transforment en vidéos dans uncontexte web), mais aussi plus généralement sur l'introduction de la vision articielle dans les termi-naux légers mobiles et en milieu résidentiel. Les applications concerneront l'accès à l'information maisaussi les interactions naturelles, non intrusives, entre l'homme et les objets communicants, du contrôled'accès à la réalité augmentée, de la traduction d'enseignes chinoises à la recherche d'informations surinternet à partir d'une photographie prise dans la rue.

Continuons donc à faire parler les pixels, pour apprendre par l'exemple !

Page 142: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

142 5. Conclusion et Perspectives

Page 143: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

Bibliographie

[AA04] S. Agarwal and A. Awan. Learning to Detect Objects in Images via a Sparse, Part-Based Representation. IEEE Trans. on Pattern Analysis and Machine Intelligence,26(11) :14751490, 2004.

[ABR64] M.A. Aizerman, E.M. Braverman, and L.I. Rozonoer. Theoretical Fundations of thePotential Function Method in Pattern Recognition Learning. Automatic and RemoteControl, 25 :821837, 1964.

[AHP04] T. Ahonen, A. Hadid, and M. Pietikainen. Face recognition with Local Binary Patterns.In Proc. of European Conference on Computer Vision (ECCV 2004), pages 469481,Prague, 2004.

[AHP06] T. Ahonen, A. Hadid, and M. Pietikainen. Face description with Local Binary Pat-terns : Application to face recognition. IEEE Trans. on Pattern Analysis and MachineIntelligence, 28 :20372041, 2006.

[AR99] A.M. Alattar and S.A. Rajala. Facial features localization in front view head andshoulders images. In Proc. of Int. Conference on Acoustics, Speech and Signal Processing,volume 6, pages 35573560, 1999.

[AR02] S. Agarwal and D. Roth. Learning a sparse representation for object detection. Proc.of the European Conference on Computer Vision, 4 :113127, 2002.

[Bal97] S. Baluja. Face detection with in-plane rotation : Early concepts and preliminary results.Technical Report JPRC-1997-001-1, Justsystem Pittsburg Research Center, 1997.

[BAMU03] M.A. Bhuiyan, V. Ampornaramveth, S.Y. Muto, and H. Ueno. Face detection and facialfeature localization for human-machine interface. NII Journal, 5 :2539, 2003.

[Bar81] R. Baron. Mechanisms of Human Facial Recognition. Int. Journal of Man MachineStudies, 15 :136178, 1981.

[Bau72] L.E. Baum. An Inequality and Associated Maximisation Technique in Statistical Esti-mation for Probabilistic Functions of Markov Processes. Inequalities, 3 :18, 1972.

[BBBB+03] E. Bailly-Baillière, S. Bengio, F. Bimbot, M. Hamouz, J. Kittler, J. Mariéthoz, J. Matas,K. Messer, V. Popovici, F. Porée, B. Ruiz, and J.-P. Thiran. The BANCA database andevaluation protocol. In Proc. of the Fourth Int. Conference on Audio- and Video-BasedBiometric Person Authentication, pages 625638, 2003.

[BBP00] G. Breton, C. Bouville, and D. Pelé. FaceEngine : A 3D facial animation engine for realtime applications. In Proc. of the Web3D Symposium, 2000.

[BBP01] D.M. Blackburn, M. Bone, and P.J. Philips. Facial Recognition Vendor Test 2000 :Evaluation Report. Technical Report A269514, National Institute of Standards andTechnology, 2001. 70 pages.

[BBTD03] R. Beveridge, D. Bolme, M. Teixeira, and Bruce Draper. The CSU Face Identica-tion Evaluation System Users Guide : Version 5.0. Technical report, Computer ScienceDepartment, Colorado State University, 2003. 29 pages.

[BC94] G. Burel and D. Carel. Detection and localization of faces on digital images. PatternRecognition, pages 963967, 1994.

[BCD+01] E. Boyle, T. Curran, A. Demiris, K. Klein, C. Garcia, C. Malerczyk, and C. Bouville.The creation of MPEG-4 content and its delivery over DVB infrastructure. In Proc. of

143

Page 144: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

144 BIBLIOGRAPHIE

the First Joint IEI/IEE Symposium on Telecommunications Systems Research, Dublin,Ireland, November 2001.

[BDBS02] K. Baek, B. Draper, J.R. Beveridge, and K. She. PCA vs. ICA : a Comparison onthe FERET Data Set. In Proc. of the IEEE Int. Conference on Computer Vision andPattern Recognition (CVPR), pages 824827, 2002.

[BFG+96] J.R. Bach, C. Fuller, A. Gupta, A. Hampapur, B. Horowitz, R. Humphrey, R.C. Jain,and C.F. Shu. Virage image search engine : an open framework for image management.In Proc. of SPIE, volume 2670, pages 7687, 1996.

[BG05a] S.A. Berrani and C. Garcia. Enhancing face recognition from video sequences usingrobust statistics. In Proc. of IEEE Int. Conference on Advanced Video and Signal-BasedSurveillance (AVSS 2005), pages 324329, Como, Italy, 2005.

[BG05b] S.A. Berrani and C. Garcia. On the impact of outliers on high-dimensional dataanalysis methods for face recognition. In Proc. of Second Int. Workshop on ComputerVision meets Databases (CVDB 2005), pages 4349, Baltimore, USA, 2005.

[BG06a] S.A. Berrani and C. Garcia. Procédé de classication d'images de visages en poses.Brevet France Telecom SA no WO2007FR52522, 2006.

[BG06b] S.A. Berrani and C. Garcia. Procédé d'identication de visages à partir d'images devisage. Brevet France Telecom SA no WO2006EP61109, 2006.

[BG09] S.A. Berrani and C. Garcia. Robust detection of outliers for projection-based facerecognition methods. Multimedia Tools and Applications, 38 :271291, 2009.

[BGL+93] J. Bromley, I. Guyon, Y. LeCun, E. Säckinger, and R. Shah. Signature verication usinga siamese time delay neural network. Int. Journal of Pattern Recognition and ArticialIntelligence, 7(4) :669688, 1993.

[BGP06] G. Breton, C. Garcia, and D. Pelé. Procédé d'animation d'un agent conversationneltridimensionnel mettant en ÷uvre une étape de contrôle du comportement visuel. BrevetFrance Telecom SA no WO2006EP66428, 2006.

[BGR+99] P. Bouthemy, C. Garcia, R. Ronfard, G. Tziritas, E. Veneau, and D. Zugaj. Scenesegmentation and image feature extraction in the DiVAN video indexing and retrievalarchitecture. In Proc. of the Third Int. Conference on Visual Information Systems,pages 244252, Amsterdam, 1999.

[BGS05] C. Bouveyron, S. Girard, and C. Schmid. Analyse Discriminante de Haute Dimension.Rapport de recherche n°5470, INRIA, January 2005. 43 pages.

[BHK97] P.N. Belhumeur, J.P. Hespanha, and D.J. Kriegmann. Eigenfaces vs Fisherfaces : Re-cognition using class specic linear projection. IEEE Trans. on Pattern Analysis andMachine Intelligence, 19(7) :711720, 1997.

[BJ99] S. Bres and J.-M. Jolion. Detection of Interest Points for Image Indexation. In Proc. ofInt. Conference on Visual Information Systems, pages 427434, 1999.

[BJ02] F.R. Bach and M.I. Jordan. Kernel independent component analysis. Journal of MachineLearning Research, 3 :148, 2002.

[BK98] I. Biederman and P. Kalocsai. Neural and psychophysical analysis of object andface recognition . In H. Wechsler et al., editor, Face Recognition : from Theory toApplications, pages 325. Springer-Verlag, Berlin, 1998.

[BK03] H. Byun and B. Ko. Robust face detection and tracking for real-life applications. Int.Journal of Pattern Recognition and Articial Intelligence, 17(6) :10351055, 2003.

[BLGT07] M. Bicego, A. Lagorio, E. Grosso, and M. Tistarelli. On the use of SIFT features forface authentication. In Proc. of IEEE CVPR Workshop on Biometrics, pages 3542,New York, 2007.

Page 145: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

BIBLIOGRAPHIE 145

[BMS02] M.S. Bartlett, J.R. Movellan, and T.J. Sejnowski. Face Recognition by IndependentComponent Analysis. IEEE Trans. on Neural Networks, 13(6) :14501464, 2002.

[BO04] S.O. Ba and J.M. Odobez. A probabilistic framework for joint head tracking and poseestimation. In Proc. of the 17th Int. Conference on Pattern Recognition, volume 4, pages264267, August 2004.

[BP93] R. Brunelli and T. Poggio. Face recognition : Features versus templates. IEEE Trans.on Pattern Analysis and Machine Intelligence, 15(10) :10421052, 1993.

[BP94] M. Bichsel and A. Pentland. Human Face Recognition and Face Image Set's Topology.CVGIP : Image Understanding, 59 :254261, 1994.

[BPG06] G. Breton, D. Pelé, and C. Garcia. Modeling gaze behavior for a 3D ECA in a dialoguesituation. In Int. conference on intelligent user interfaces, 2006.

[BPM05] R. Belaroussi, L. Prevost, and M. Milgram. Combining model-based classier for facelocalization. In Proc. of IAPR Conference on Machine Vision Applications, 2005.

[BR07] S. Baluja and H.A. Rowley. Boosting sex identication performance. Int. Journal ofComputer Vision, 71(1) :111119, 2007.

[BSDG01] J.R. Beveridge, K. She, B.A. Draper, and G.H. Givens. A Nonparametric Statisti-cal Comparison of Principal Component and Linear Discriminant Subspaces for FaceRecognition. In Proc. of the IEEE Int. Conference on Computer Vision and PatternRecognition (CVPR), volume 1, pages 535542, 2001.

[BTVG06] H. Bay, T. Tuytelaars, and L.J. Van Gool. SURF : Speeded Up Robust Features. InProc. of European Conference on Computer Vision, volume 1, pages 404417, 2006.

[Bur88] P. Burt. Smart Sensing Within a Pyramid Vision Machine. Proc. of the IEEE, 76 :10061015, 1988.

[BWS+08] S.C. Brubaker, J. Wu, J. Sun, M.D. Mullin, and J.M. Rehg. On the design of cascades ofboosted ensembles for face detection. Int. Journal of Computer Vision, 77 :15731405,2008.

[BZM06] A. Bosch, A. Zisserman, and X. Munoz. Scene classication via pLSA. In EuropeanConference on Computer Vision, volume 3954, 2006.

[CBDF04] G. Csurka, C. Bray, C. Dance, and L. Fan. Visual Categorization with Bags of Keypoints.In ECCV, pages 327334, Prague, May 2004.

[CBF05] K.I. Chang, K.W. Bowyer, and P.J. Flynn. An Evaluation of Multi-Modal 2D+3D FaceBiometrics. IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(4) :619624,April 2005.

[CBGM02] C. Carson, S. Belongie, H. Greenspan, and J. Malik. Blobworld : Image SegmentationUsing Expectation-Maximization and Its Application to Image Querying. IEEE Trans.on Pattern Analysis and Machine Intelligence, 24(8) :10261038, 2002.

[CC04] D. Cristinacce and T. Cootes. A comparison of shape constrained facial feature detec-tors. In Proc. of the 6th Int. Conference on Automatic Face and Gesture Recognition,pages 375380, Seoul, Korea, 2004.

[CCF00] T.E. Campos, R.M. Cesar, and R.S. Feris. Detection and tracking of facial featuresin video sequences. In Proc. of the Mexican Int. Conference on Articial Intelligence,volume 1793, pages 127135, 2000.

[CCS04] D. Cristinacce, T. Cootes, and I. Scott. A multi-stage approach to facial feature detec-tion. In Proc. of the British Machine Vision Conference, pages 277286, 2004.

[CD05] C.M. Christoudias and T. Darrell. On modelling nonlinear shape-and-texture appea-rance manifolds. In Proc. of Int. Conference on Computer Vision and Pattern Recogni-tion (CVPR 2005), pages 10671074, 2005.

Page 146: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

146 BIBLIOGRAPHIE

[CET98] T. Cootes, G. Edwards, and C. Taylor. Active Appearance Models. In European Confe-rence on Computer Vision (ECCV'98), volume 2, pages 484498, 1998.

[CET01] T. Cootes, G. Edwards, and C. Taylor. Active Appearance Models. IEEE Trans. onPattern Analysis and Machine Intelligence, 23(6) :681685, 2001.

[CF90] G. Cotrell and M. Fleming. Face Recognition using Unsupervised Feature Extraction.In Proc. of the Int. Conference on Neural Network, pages 322325, 1990.

[CH97] A.J. Colmenarez and T.S. Huang. Face detection with information-based maximumdiscrimination. In Proc. of the IEEE Conference on Computer Vision and PatternRecognition, pages 782787, 1997.

[CHL05] S. Chopra, R. Hadsell, and Y. LeCun. Learning a similarity metric discriminatively, withapplication to face verication. In Proc. of the Int. Conference on Computer Vision andPattern Recognition, pages 539546, 2005.

[CM02] D. Comaniciu and P. Meer. Mean shift : A robust approach toward feature spaceanalysis. IEEE Trans. on Pattern Analysis and Machine Intelligence, 24(5) :603619,2002.

[CMR03] D. Comaniciu, P. Meer, and V. Ramesh. Kernel-based object tracking. IEEE Trans. onPattern Analysis and Machine Intelligence, 25(5) :564577, 2003.

[CT93] T. Cootes and C. Taylor. Active Shape Model search using local grey-level models : Aquantitative evaluation. In British Machine Vision Conference, pages 639648, 1993.

[CT96] T. Cootes and C. Taylor. Locating faces using statistical feature detectors. In Proc.of Int. Conference on Automatic Face and Gestures Recognition, pages 204211, LosAlamitos, CA, October 1996.

[CTY+03] C.C. Chiang, W.K. Tai, M.T. Yang, Y.T. Huang, and C.J. Huang. A novel method fordetecting lips, eyes and faces in real time. Real-Time Imaging, 9(4) :277287, 2003.

[CWS97] R. Chellappa, C.L. Wilson, and S. Sirohey. Human and machine recognition of faces :A survey. Proc. IEEE, pages 384388, 1997.

[DBBB03] B.A. Draper, K. Baek, M.S. Bartlett, and J.R. Beveridge. Recognizing faces with PCAand ICA. Computer Vision and Image Understanding, 91(1-2) :115137, 2003.

[DDW+01] A. Demiris, G. Diamantakos, K. Walczak, E. Reusens, P. Kerbiriou, K. Klein, C. Gar-cia, I. Marchal, J. Wingbermuhle, E. Boyle, W. Cellary, and N. Ioannidis. PISTE :Mixed reality for sports TV. In Proc. of the Int. Workshop on Very Low Bitrate VideoCoding (VLBV 01), Athens, Greece, October 2001.

[Dem77] G. Demairé. Attention sélective et potentiels évoqués corticaux chez l' homme. L'annéepsychologique, 77(1) :161178, 1977.

[DG97a] F. Dornaika and C. Garcia. Object pose by ane iterations. In Proc. of the Int.Conference on Image Analysis and Processing (ICIAP'97), pages 478485, Florence,Italy, September 1997.

[DG97b] F. Dornaika and C. Garcia. Robust camera calibration using 2D-to-3D feature corres-pondences. In Proc. of Videometrics V - Optical Science, Engineering and Instrumen-tation'97, pages 123133, San Diego, USA, July 1997.

[DG99] F. Dornaika and C. Garcia. Pose estimation using point and line correspondences.Journal of Real-Time Imaging, 5(3) :215230, June 1999.

[DG05a] S. Duner and C. Garcia. A connexionist approach for robust and precise facialfeature detection in complex scenes. In Fourth Int. Symposium on Image and SignalProcessing and Analysis (ISPA), pages 316321, Zagreb, Croatia, September 2005.

[DG05b] S. Duner and C. Garcia. A hierarchical approach for precise facial feature detection.In Compression et Représentation des Signaux Audiovisuels (CORESA), pages 2934,Rennes, France, November 2005.

Page 147: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

BIBLIOGRAPHIE 147

[DG06] S. Duner and C. Garcia. A neural scheme for robust detection of transparent logosin TV programs. In Proc. of Int. Conference on Articial Neural Networks (ICANN),volume 2, pages 1423, sep 2006.

[DG07a] M. Delakis and C. Garcia. Text detection with convolutional neural networks. InProc. of Int. Conference on Computer Vision Theory and Applications (VISAPP 2007),volume 2, pages 1423, 2007.

[DG07b] S. Duner and C. Garcia. Face recognition using non-linear image reconstruction.In Int. Conference on Advanced Video and Signal-Based Surveillance (AVSS), London,September 2007.

[DG07c] S. Duner and C. Garcia. An online backpropagation algorithm with validationerror-based adaptive learning rate. In Int. Conference on Articial Neural Networks(ICANN), volume 1, pages 249258, Porto, Portugal, September 2007.

[DG08] S. Duner andC. Garcia. Robust face alignment using convolutional neural networks.In Proc. of the Int. Conference on Computer Vision Theory and Applications (VISAPP),Funchal, Portugal, January 2008.

[DG09] S. Duner and C. Garcia. Robust hierarchical detection of facial features in complexscenes. Pattern Analysis and Application, 2009. à paraître.

[DGG05] K. Delac, M. Grgic, and S. Grgic. A Comparative Study of PCA, ICA and LDA. InProc. of the 5th EURASIP Conference on Speech and Image Processing, pages 99106,July 2005.

[DGM+02] A. Demiris, C. Garcia, C. Malerczyk, K. Klein, K. Walczak, P. Kerbiriou, C. Bouville,M. Traka, E. Reusens, E. Boyle, J. Wingbermuhle, and N. Ioannidis. Sprinting alongwith the olympic champions : Personalized, interactive broadcasting using mixed realitytechniques and MPEG-4. In Proc. of the 5th Int. Conference on Business InformationSystems (BIS 2002), Poznan, Poland, April 2002.

[DiV97] DiVAN. Distributed audioVisual Archives Network (European Esprit Project EP24956). http ://divan.intranet.gr/info, 1997.

[DJK+02] J.-L. Dugelay, J.C. Junqua, C. Kotropoulos, R. Kuhn, F. Perronnin, and I. Pitas. RecentAdvances in Biometric Person Authentication. In Proc. of the International Conferenceon Acoustics, Speech and Signal Processing (ICASSP 2002), volume 4, pages 40604063,2002.

[DSQG05] B. Du, S. Shan, L. Qing, and W. Gao. Empirical comparisons of several preprocessingmethods for illumination insensitive face recognition. In Int. Conference on Acoustics,Speech, and Signal Processing, 2005.

[DTR+01] A.M. Demiris, M. Traka, E. Reusens, K. Walczak, C. Garcia, K. Klein, C. Malerczyk,P. Kerbiriou, C. Bouville, E. Boyle, and N. Ioannidis. Enhanced sports broadcasting bymeans of augmented reality in MPEG-4. In Proc. of EuroImage 2001, Int. Conferenceon Augmented, Virtual Environments and 3D Imaging (ICAV3D 2001), pages 1013,Mikonos, Greece, May 2001.

[Duf08] S. Duner. Face Image Analysis with Convolutional Neural Networks. PhD thesis,University of Freiburg, Germany, February 2008.

[EC04] J. Eichhorn and O. Chapelle. Object Categorization with SVM : Kernels for LocalFeatures. In Proc. of PASCAL Vision workshop, volume 2, pages 223229, Grenoble,France, May 2004.

[EWLT02] M.J. Er, S. Wu, J. Lu, and H.L. Toh. Face Recognition With Radial Basis Function(RBF) Neural Networks. IEEE Trans. on Neural Networks, 13 :697709, 2002.

[EZW+06] M. Everingham, A. Zisserman, C. Williams, L. Van Gool, M. Allan, C. Bishop, O. Cha-pelle, N. Dalal, T. Deselaers, G. Dorko, S. Duner, J. Eichhorn, J. Farquhar, M. Fritz,

Page 148: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

148 BIBLIOGRAPHIE

C. Garcia, T. Griths, F. Jurie, D. Keysers, M. Koskela, J. Laaksonen, D. Larlus,B. Leibe, H. Meng, H. Ney, B. Schiele, C. Schmid, E. Seemann, J. Shawe-Taylor, A. Stor-key, S. Szedmak, B. Triggs, I. Ulusoy, V. Viitaniemi, and J. Zhang. The 2005 pascalVisual Object Classes Challenge. In Proc. of the First PASCAL Challenges Workshop,2006.

[Far08] N. Farrugia. Architecture parallèles pour l'analyse de visages embarquée. Thèse dedoctorat, laboratoire LE2I, Université de Bourgogne, 2008.

[FBVC01] R. Féraud, O. Bernier, J.-E. Viallet, and M. Collobert. A Fast and Accurate FaceDetection Based on Neural Network. IEEE Trans. on Pattern Analysis and MachineIntelligence, 23(1) :4253, 2001.

[FFP05] L. Fei-Fei and P. Perona. A Bayesian Hierarchical Model for Learning Natural Scene Ca-tegories. In Proc. of the IEEE Conference on Computer Vision and Pattern Recognition,volume 2, pages 524531, San Diego, CA, June 2005.

[FG03] F. Fleuret and D. Geman. Coarse-to-ne face detection. Int. Journal of ComputerVision, 20 :11571163, 2003.

[FGTK02] R.S. Feris, J. Gemmell, K. Toyama, and V. Krüger. Hierarchical wavelet networks forfacial feature localization. In Proc. of the Fifth IEEE Int. Conference on AutomaticFace and Gesture Recognition, 2002.

[FK00] B. Froba and C. Kublbeck. Orientation template matching for face localization incomplex visual scenes. In Proc. of Int. Conference on Image Processing (ICIP 2000),pages 251254, 2000.

[FK02] B. Froba and C. Kubleck. Robust face detection at video frame rate on edge orienta-tion features. In Proc. of the IEEE Int. Conference on Automatic Face and GestureRecognition, 2002.

[FM82] K. Fukushima and S. Miyake. Neocognitron : a new algorithm for pattern recognitiontolerent of deformations and shifts in position. Pattern Recognition, 154 :455469, 1982.

[FMM08] A. Franco, D. Maio, and D. Maltoni. 2D face recognition based on supervised subspacelearning from 3D models. Pattern Recognition, 41 :38223833, 2008.

[FMR+07] N. Farrugia, F. Mamalet, S. Roux, F. Yang, and M. Paindavoine. A parallel face de-tection system implemented on FPGA. In Proc. of the Int. Symposium on Circuits andSystems (ISCAS 2007), pages 37043707, New Orleans, LO, 2007.

[FMR+09] N. Farrugia, F. Mamalet, S. Roux, F. Yang, and M. Paindavoine. Design of a real-timeface detection parallel architecture using high-level synthesis. EURASIP Journal onEmbedded Systems, 2009.

[For73] G.D. Forney. The Viterbi Algorithm. Proc. of the IEEE, 61(3) :268278, 1973.

[FPZ03] R. Fergus, P. Perona, and A. Zisserman. Object class recognition by unsupervised scale-invariant learning. In IEEE Conference on Computer Vision and Pattern Recognition,volume 2, pages 264271, Los Alamitos, CA, 2003.

[FRVK96] L. Florack, B.T Romeny, M. Viergever, and J. Koenderink. The gaussian scale-spaceparadigm and the multiscale local jet. Int. Journal of Computer Vision, 18(1) :6175,1996.

[FS95] Y. Freund and R.E. Schapire. A decision-theoretic generalization of on-line learning andan application to boosting. Second Int. Conference on Computational Learning Theory,1995.

[FSMST05] J.D. Farquhar, S. Szedmak, H. Meng, and J. Shawe-Taylor. Improving "bag-of-keypoints" image categorisation : Generative Models and PDF-Kernels. LAVA report.ISIS Group, University of Southampton, 2005.

Page 149: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

BIBLIOGRAPHIE 149

[FSN+95] M. Flickner, H. Sawhney, W. Niblack, J. Ashley, Q. Huang, B. Dom, M. Gorkani, J. Haf-ner, D. Lee, D. Petkovic, D. Steele, and P. Yanker. Query by image and video content :The QBIC system. Computer, 28(9) :2332, 1995.

[FTV99] R.Q. Feitosa, C.E. Thomaz, and A. Veiga. Comparing the Performance of the Dis-criminant Analysis and RBF Neural Network for Face Recognition. In Proc. of Int.Conference on Information Systems Analysis and Synthesis (ISAS'99), volume 6, 1999.8 pages.

[Fuk75] K. Fukushima. Cognitron : A self-organizing multilayered neural network. BiologicalCybernetics, 20(6) :121136, 1975.

[Fuk88] K. Fukushima. A neural network for visual pattern recognition. Computer, 21(3) :6575,1988.

[Fuk90] K. Fukunaga. Introduction to Statistical Pattern Recognition. Academic Press, Inc,seconde edition, 1990. 369 pages.

[FY01] G.C. Feng and P.C. Yuen. Multi-cues eye detection on gray intensity image. PatternRecognition, 34(5) :10331046, 2001.

[GA00] C. Garcia and X. Apostolidis. Text detection and segmentation in complex colorimages. In Proc. of the IEEE Int. Conference on Accoustics, Speech and Signal Proces-sing (ICASSP 2000), volume IV, pages 23262330, Istanbul, Turkey, June 2000.

[GAP+02] H. Gupta, A.K. Agrawal, T. Pruthi, C. Shekhar, and R. Chellappa. An ExperimentalEvaluation of Linear and Kernel-Based Methods for Face Recognition. In Proc. of theIEEE Workshop on Application of Computer Vision (WACV 2002), pages 1319, 2002.

[Gar94a] C. Garcia. Un modèle connexionniste pour la vision stéréoscopique. Thèse de doctorat,LIGIA, Université Claude Bernard, Lyon I, France, 1994.

[Gar94b] C. Garcia. Un modèle connexionniste pour l'appariement d'images stéréoscopiques.In Proc. of the First Workshop on Neural Network Applications, pages 5163, Lyon,France, March 1994.

[Gar96] C. Garcia. A Neural Network Based Stereo Vision Machine. In Proc. of the Int.Conference on Engineering Applications of Neural Networks (EANN'96), pages 371374, London, June 1996.

[Gar97] C. Garcia. Matis3D : An adaptive stereo vision machine. In Proc. of the TenthScandinavian Conference on Image Analysis (SCIA'97), pages 138146, Lappeenranta,Finland, June 1997.

[Gar99] C. Garcia. Fully vision-based calibration of a hand-eye robot. Autonomous Robots,6(2) :223238, May 1999.

[GB01] V. Gouet and N. Boujemaa. Object-Based Queries Using Color Points of Interest.In IEEE Workshop on Content-Based Access of Image and Video Libraries (CBAIVL2001), pages 3036, Kauai, Hawaii, 2001.

[GBK01] A. S. Georghiades, P. N. Belhumeur, and D. J. Kriegman. From few to many : illumi-nation cone models for face recognition under variable lighting and pose. IEEE Trans.on Pattern Analysis and Machine Intelligence, 23(6) :643660, June 2001.

[GBV93] C. Garcia, S. Bouakaz, and D. Vandorpe. Un système de stéréovision utilisant leréseau de Hopeld. In Proc. of the Int. Conference of CAD/CAM, Computer Graphicsand Computer Aided Technologies (MICAD'93), pages 205224, Paris, France, February1993.

[GBV94a] C. Garcia, S. Bouakaz, and D. Vandorpe. Réseau de Hopeld : un outil pour la mise encorrespondance. In Actes de la 9eConférence Reconnaissance de Formes et IntelligenceArticielle (RFIA'94), pages 371378, Paris, France, January 1994.

Page 150: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

150 BIBLIOGRAPHIE

[GBV94b] C. Garcia, S. Bouakaz, and D. Vandorpe. Stereo vision using a neural network. InProc. of the Int. Conference on Signals and Systems (ICSS'94), pages 232238, Algiers,September 1994.

[GBV95] C. Garcia, S. Bouakaz, and D. Vandorpe. Réseau de Hopeld : un outil pour la miseen correspondance. Traitement du Signal, 12(2) :159168, July 1995.

[GCO07] C. Garcia, T. Cootes, and J. Ostermann. Facial image processing. EURASIP Journalon Image and Vision Processing, 127 :12, December 2007.

[GD02a] C. Garcia and M. Delakis. A neural architecture for fast and robust face detection. InProc. Int'l Conf. on Pattern Recognition (ICPR 2002), volume 2, pages 4448, QuebecCity, Canada, August 2002.

[GD02b] C. Garcia and M. Delakis. Robust face detection based on convolutional neural net-works. In Proc. of the 2nd Hellenic Conference on Articial Intelligence (SETN 2002)),pages 367378, Thessalonique, Greece, April 2002.

[GD03] C. Garcia and M. Delakis. Training convolutional lters for robust face detection.In IEEE Int. Workshop of Neural Networks for Signal Processing (NNSP 2003), pages739748, Toulouse, France, September 2003.

[GD04] C. Garcia and M. Delakis. Convolutional Face Finder : A neural architecture for fastand robust face detection. IEEE Trans. on Pattern Analysis and Machine Intelligence,26(11) :14081423, 2004.

[GD06] C. Garcia and S. Duner. Système et procédé de localisation de points d'intérêt dansune image d'objet mettant en ÷uvre un réseau de neurones. Brevet France Telecom SAno WO2006EP61110, 2006.

[GD07a] C. Garcia and S. Duner. Facial image processing with convolutional neural net-works. In Int. Workshop on Advances in Pattern Recognition (IWAPR), pages 97108,Plymouth, UK, July 2007.

[GD07b] C. Garcia and S. Duner. Procédé de recadrage d'images de visage. Brevet FranceTelecom SA no WO2007FR51900, 2007.

[GD07c] C. Garcia and S. Duner. Procédé de reconnaissance de visages par reconstructioncroisée non linéaire. Brevet France Telecom SA no WO2007FR52569, 2007.

[GL02] Y. Gao and K. H. Leung. Face recognition using Line Edge Map. IEEE Trans. onPattern Analysis and Machine Intelligence, 24(6) :764779, 2002.

[GMP00] S. Gong, S.J. McKenna, and A. Psarrou. Dynamic Vision : From Images to FaceRecognition. Imperial College Press, London, 2000. 364 pages.

[Gov96] V. Govindaraju. Locating human faces in photographs. Int. Journal of ComputerVision, 19(2) :129146, 1996.

[GS07a] C. Garcia and Z. Saïdane. Procédé de binarisation d'images de texte dans des imagescouleur. Brevet France Telecom SA no WO2007FR52527, 2007.

[GS07b] C. Garcia and Z. Saïdane. Procédé de segmentation d'une image de texte en carac-tères. Brevet France Telecom SA no FR20070054876, 2007.

[GSC01] R. Gross, J. Shi, and J.F. Cohn. Quo Vadis Face Recognition ? The Current State ofthe Art in Face Recognition. Technical Report CMU-RI-TR-01-17, Robotics Institute,Carnegie Mellon University, Pittsburgh, PA, 2001. 25 pages.

[GST01] C. Garcia, G. Simandiris, and G. Tziritas. A feature-based face detector using waveletframes. In Proc. Int'l Workshop of Very Low Bit Coding, pages 7176, 2001.

[GT98] C. Garcia and G. Tziritas. Translational motion estimation from 2D displacements.In Proc. of IEEE Int. Conference on Image Processing (ICIP 2001), pages 945948,Thessalonique, Greece, November 1998.

Page 151: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

BIBLIOGRAPHIE 151

[GT99] C. Garcia and G. Tziritas. Face detection using quantized skin color regions mergingand wavelet packet analysis. IEEE Trans. on Multimedia, 1(3) :264277, 1999.

[GT00] C. Garcia and G. Tziritas. Wavelet packet analysis for face recognition. Image andVision Computing, 18(4) :289297, 2000.

[GT02] C. Garcia and G. Tziritas. Optimal projection of optical ow for translational motionestimation. Image and Vision Computing, 20(11) :793804, October 2002.

[GZT98] C. Garcia, G. Zikos, and G. Tziritas. A wavelet-based framework for face recogni-tion. In Proc. of the Workshop on Advances in Facial Image Analysis and RecognitionTechnology, Fith European Conference on Computer Vision (ECCV'98), pages 8492,Freiburg, Germany, June 1998.

[GZT99] C. Garcia, G. Zikos, and G. Tziritas. A feature-based face detector using waveletframes. In Proc. of the 6th IEEE Int. Conference on Multimedia Computing and Systems(ICMCS'99), pages 703708, Florence, Italy, June 1999.

[HA04] V. J. Hodge and J. Austin. A survey of outlier detection methodologies. ArticialIntelligence Review, 22 :85126, 2004.

[Han00] P. Hancock. The Psychological Image Collection at Stirling University (PICS).http ://pics.psych.stir.ac.uk, 2000.

[HDDK05] J. He, Q.D. Do, A.C. Downton, and J.H. Kim. A comparison of binarization methodsfor historical archive documents. In Proc. of Int. Conference on Document Analysis andRecognition (ICDAR 2005), pages I : 538542, 2005.

[HFT03] C. Hu, R. Feris, and M. Turk. Active wavelet networks for face alignment. In BritishMachine Vision Conference, 2003.

[HHWP03] B. Heisele, P. Ho, J. Wu, and T Poggio. Face recognition : component-based versusglobal approaches. Computer Vision and Image Understanding, 91(1) :621, 2003.

[HKK+04] M. Hamouz, J. Kittler, J.-K. Kamarainen, P. Paalanen, and H. Kalviainen. Ane-invariant face detection and localization using GMM-based feature detectors and en-hanced appearance model. In Proc. of the Sixth Int. Conference on Automatic Face andGesture Recognition, pages 6772, 2004.

[HKK+05] M. Hamouz, J. Kittler, J.-K. Kamarainen, P. Paalanen, H. Kälviäinen, and J. Matas.Feature-based ane-invariant localization of faces. IEEE Trans. on Pattern Analysisand Machine Intelligence, 27(9) :14901495, 2005.

[HKR93] D.P. Huttenlocher, G.A. Klanderman, and W.A. Rucklidge. Comparing Images Usingthe Hausdor Distance. IEEE Trans. on Pattern Analysis and Machine Intelligence,15(9) :850863, 1993.

[HL01] E. Hjelmås and B.K. Low. Face detection : A survey. Computer Vision and ImageUnderstanding, 83 :236274, 2001.

[HLL+04] Y. Huang, S. Lin, S.Z. Li, H. Lu, and H.Y. Shum. Face alignment under variableillumination. In Proc. of Int. Conference on Automatic Face and Gesture Recognition,pages 8590, 2004.

[HRB05] M. Hubert, P. Rousseeuw, and K.V. Branden. RobPCA : A new approach to robustprincipal component analysis. Technometrics, 1 :6479, 2005.

[HRL04] B.W. Hwang, M.C. Roh, and S.W. Lee. Performance Evaluation of Face RecognitionAlgorithms on Asian Face Database. In Proc. of the IEEE Int. Conference on AutomaticFace and Gesture Recognition (FGR), pages 278283, 2004.

[HS88] C. Harris and M. Stephens. A Combined Corner and Edge Detector. In Proc. of TheFourth Alvey Vision Conference, pages 147151, 1988.

[Hub85] P.J. Huber. Projection Pursuit. The Annals of Statistics, 13 :435525, 1985.

Page 152: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

152 BIBLIOGRAPHIE

[HW62] D. Hubel and T. Wiesel. Receptive elds, binocular interaction and functional architec-ture in the cat's visual cortex. Journal of Physiology, 160 :106154, 1962.

[HYCL03] J. Huang, P.C. Yuen, W.S. Chen, and J.H. Lai. Component-based LDA method for facerecognition with one training sample. In Proc. of the IEEE Int. Workshop on Analysisand Modeling of Faces and Gestures, pages 120126, 2003.

[JD88] A.K. Jain and R.C. Dubes. Algorithms for Clustering Data. Prentice-Hall AdvancedReference Series, Upper Saddle River, NJ, 1988. 320 pages.

[Jen77] R.L. Jenrich. Stepwise Discriminant Analysis. Standard Statistical Methods for DigitalComputers, 13(3) :7695, 1977.

[JH99] A. Johnson and M. Hebert. Using spin images for ecient object recognition in cluttered3D scenes. IEEE Trans. on Pattern Analysis and Machine Intelligence, 21(5) :443449,1999.

[JKF01] O. Jesorsky, K.J. Kirchberg, and R.W. Frischholz. Robust face detection using the Haus-dor distance. In Proc. of Third Int. Conference on Audio- and Video-Based BiometricPerson Authentication (AVBPA), volume 2091, pages 9095, Halmstad, Sweden, 2001.

[JKLM00] K. Jonsson, J. Kittler, Y. Li, and J. Matas. Learning Support Vectors for Face Veri-cation and Recognition. In Proc. of the IEEE Int. Conference on Automatic Face andGesture Recognition (FGR), pages 208213, 2000.

[JM96] P. Juell and R. Marsh. A hierarchical neural network for human face detection. PatternRecognition, pages 781787, 1996.

[Jol86] I.T. Jolie. Principal Component Analysis. Springer-Verlag, New York, 1986.

[JV03] M. Jones and P. Viola. Fast multi-view face detection. Technical Report TR2003-96,Mitsubishi Electric Research Laboratories, 2003.

[JYH+98] S. Jeng, H. Yao, C. Han, M. Chern, and Y. Liu. Facial feature detection using geometricalface model : An ecient approach. Pattern Recognition, 31(3) :273282, 1998.

[KCH95] P.M. Kelly, T.M. Cannon, and D.R. Hush. Query by image example : the ComparisonAlgorithm for Navigating Digital Image Databases (CANDID) approach. Storage andRetrieval for Image and Video Databases III, 2420(1) :238248, 1995.

[Kir00] M. Kirby. Dimensionality Reduction and Pattern Analysis : An Empirical Approach.Wiley, New York, 2000.

[KKB02] H.C. Kim, D. Kim, and S.Y. Bang. Face recognition using the mixture-of-eigenfacesmethod. Pattern Recognition Letters, 23(13) :15491558, 2002.

[Koh82] T. Kohonen. Self-organizing formation of topologically correct feature maps. BiologicalCybernetics, 43(1) :5969, 1982.

[Koh89] T. Kohonen. Self-Organizing and Associative Memory. Springer-Verlag, Berlin, 1989.

[KR03] T. Kawaguchi and M. Rizon. Iris detection using intensity and edge information. PatternRecognition, 36(2) :549562, 2003.

[Kra91] M.A. Kramer. Nonlinear Principal Component Analysis using Autoassociative NeuralNetworks. AIChe Journal, 32 :233243, 1991.

[KRGT07] D.R. Kisku, A. Rattani, E. Grosso, and M. Tistarelli. Face identication by SIFT-basedcomplete graph topology. In IEEE Workshop on Automatic Identication AdvancedTechnologies, pages 6368, Alghero, Italy, 2007.

[KS90] M. Kirby and L. Sirovich. Application of the Karhunen-Loeve procedure for the charac-terization of human faces. IEEE Trans. on Pattern Analysis and Machine Intelligence,12(1) :103108, 1990.

[KS04] Y. Ke and R. Sukthankar. PCA-SIFT : A More Distinctive Representation for LocalImage Descriptors. In Proc. of the Int. Conference on Computer Vision and PatternRecognition, volume 02, pages 506513, Washington, 2004.

Page 153: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

BIBLIOGRAPHIE 153

[KSK04] J.-B. Kim, Y. H. Sung, and S.C. Kee. A fast and robust face detection based onmodule switching network. In Proc. of the 6th Int. Conf. on Automatic Face and GestureRecognition, pages 409414, Seoul, Korea, May 2004.

[KTP00] C.L. Kotropoulos, A. Tefas, and I. Pitas. Frontal Face Authentication using Discrimina-ting Grids with Morphological Feature Vectors. IEEE Trans. on Multimedia, 2 :1426,2000.

[LBC01] R. Lanzarotti, N.A. Borghese, and P. Campadelli. Automatic features detection foroverlapping face images on their 3D range models. In Proc. of Int. Conference on ImageAnalysis and Processing, pages 316321, 2001.

[LBD+90] Y. LeCun, B. Boser, J.S. Denker, D. Henderson, R.E. Howard, W. Hubbard, and L.D.Jackel. Handwritten digit recognition with a back-propagation network. Advances inNeural Information Processing Systems 2, pages 396404, 1990.

[LBGS06] S. Le Gallou, G. Breton, C. Garcia, and R. Séguier. Distance maps : A robustillumination preprocessing for Active Appearance Models. In Proc. of Int. Conferenceon Computer Vision Theory and Applications (VISAPP 2006), 2006.

[LBP95] T. K. Leung, M.C. Burl, and P. Perona. Finding faces in cluttered scenes using randomlabeled graph matching. In Proc. of the Fifth Int. Conference on Computer Vision,pages 637644, 1995.

[LBSG07] S. Le Gallou, G. Breton, R. Séguier, and C. Garcia. Avatar puppetry using real-timeaudio and video analysis. In Proc. of Int. Conference on Intelligent Virtual Agents (IVA2007), 2007.

[LDC+99] M. Lievin, P. Delmas, P.Y. Coulon, F. Luthon, and V. Fristot. Automatic lip tracking :Bayesian segmentation and active contours in a cooperative scheme. In Proc. of Int.Conference on Multimedia Computing and Systems (ICMCS'99), volume 1, pages 691696, 1999.

[LDG07] A. Lehuger, S. Duner, and C. Garcia. A robust method for automatic player de-tection in sport videos. In Compression et Représentation des Signaux Audiovisuels(CORESA'07), Montpellier, France, November 2007.

[LeC86] Y. LeCun. Learning processes in an asymmetric threshold network. In E. Bienenstock,F. Fogelman-Soulié, and G. Weisbuch, editors, Disordered systems and biological orga-nization, pages 233240. Springer-Verlag, Les Houches, France, 1986.

[LeC89] Y. LeCun. Generalization and network design strategies. In R. Pfeifer, Z. Schreter,F. Fogelman, and L. Steels, editors, Connectionism in Perspective, Zurich, 1989.

[Lef07] G. Lefebvre. Sélection et fusion de signatures visuelles parcimonieuses : Applicationà la classication d'images naturelles. Thèse de doctorat, Université de Bordeaux II,France, December 2007.

[LeG07] S. Le Gallou. Détection robuste des éléments faciaux par Modèle Actif d'Apparence.Thèse de doctorat, Supelec, Université Rennes I, France, November 2007.

[LG06] G. Lefebvre and C. Garcia. Activation energies of ASSOMs for visual concept re-cognition. In Int. Conference on Neural Networks and Associative Memories (NNAM2006), Mexico City, November 2006.

[LG07a] G. Lefebvre and C. Garcia. Facial biometry by stimulating salient singularity masks.In IEEE Int. Conference on Advanced Video and Signal-Based Surveillance (AVSS2007), pages 511516, London, September 2007.

[LG07b] G. Lefebvre and C. Garcia. Procédé de classication d'images par cartes de neuronesmulti-modales. Brevet France Telecom SA no FR20070056431, 2007.

[LG08a] G. Lefebvre andC. Garcia. Heterogeneous descriptor fusion process for visual conceptidentication. In Int. Conference on Information Fusion (FUSION 2008), pages 18,Cologne, Germany, july 2008.

Page 154: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

154 BIBLIOGRAPHIE

[LG08b] G. Lefebvre and C. Garcia. A probabilistic self-organizing map for facial recogni-tion. In Int. Conference on Pattern Recognition (ICPR 2008), pages 14, Tampa, FL,December 2008.

[LG08c] G. Lefebvre and C. Garcia. Procédé de classication de contenus vidéos par carteneuronale temporelle saillante. Brevet France Telecom SA no FR20080056431, 2008.

[LG08d] G. Lefebvre and C. Garcia. Procédé et dispositif de construction d'un réseau de neu-rones pour la reconnaissance d'une image. Brevet France Telecom SA no WO2008139093,2008.

[LGBS06] S. Le Gallou,C. Garcia, G. Breton, and R. Séguier. Procédé de prétraitement robusteà l'illumination pour les méthodes de modèles déformables. Brevet France Telecom SAno WO2006EP67876, 2006.

[LGBS07] S. Le Gallou, C. Garcia, G. Breton, and R. Séguier. Procédé et dispositif de mo-délisation d'un objet dans une image. Brevet France Telecom SA no FR20070055311,2007.

[LGH98a] V. Lalioti, C. Garcia, and F. Hasenbrink. Meet.me@cyberstage. In M. Goebel et al.,editor, Virtual Environments. Springer-Verlag Series, 1998.

[LGH98b] V. Lalioti, C. Garcia, and F. Hasenbrink. Meet.me@cyberstage : Towards immersivetelepresence. In Proc. of Fourth Eurographics Workshop, Virtual Environments'98, pages16.116.10, Stuttgart, Germany, June 1998.

[LGH98c] V. Lalioti, C. Garcia, and F. Hasenbrink. Virtual meeting in Cyberstage. In Proc. ofACM Symposium on Virtual Reality Software and Technology (VRST'98), pages 210,Taïwan, November 1998.

[LGL00] Y. Li, S. Gong, and H. Liddell. Support vector regression and classication based multi-view face detection and recognition. Proc. of the Int. Conference on Automatic Faceand Gesture Recognition, 2000.

[LGS06] G. Lefebvre, C. Garcia, and J.M. Salotti. Énergies d'activation de cartes ASSOMspour la détection d'objet. In Actes de la conférence Compression et Représentation desSignaux Audiovisuels (CORESA 2006), pages 219224, Caen, France, November 2006.

[LGSR07] G. Lefebvre, C. Garcia, J.M. Salotti, and J. Ros. Sélection de singularités locales parstimulation d'une carte GHSOM. In Groupe de Recherche et d'Etudes du Traitement duSignal (Gretsi 2007), Troyes, France, September 2007.

[LGTB97] S. Lawrence, C. Giles, A. Tsoi, and A. Black. Face Recognition : A ConvolutionalNeural-Network Approach. IEEE Trans. on Neural Networks, 8 :98112, 1997.

[LHB04] Y. LeCun, F.-J. Huang, and L. Bottou. Learning methods for generic object recognitionwith invariance to pose and lighting. In Proc. of the IEEE Conference on ComputerVision and Pattern Recognition, 2004.

[LI97] B.K. Low and M.K. Ibrahim. A fast and accurate algorithm for facial feature segmen-tation. In Proc. Int'l Conf. on Image Processing, 1997.

[Liu03] C. Liu. A bayesian discriminating features method for face detection. IEEE Trans. onPattern Analysis and Machine Intelligence, 25(6) :725740, 2003.

[LJ06] D. Larlus and F. Jurie. Latent Mixture Vocabularies for Object Categorization. Proc.of the British Machine Vision Conference, 2006.

[LKL97] S.H. Lin, S.Y. Kung, and L.J. Lin. Face Recognition/Detection by ProbabilisticDecision-based Neural Networks. IEEE Trans. on Neural Networks, 8 :114132, 1997.

[LL96] C.C. Lin and W.C. Lin. Extracting facial features by an inhibitory mechanism basedon gradient distributions. Pattern Recognition, 29 :20792101, 1996.

[LL99a] B.Q. Li and B. Li. Building pattern classiers using convolutional neural networks. Int.Joint Conference on Neural Networks, 5 :30813085, 1999.

Page 155: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

BIBLIOGRAPHIE 155

[LL99b] S.Z. Li and J. Lu. Face Recognition Using the Nearest Feature Line Method. IEEETrans. on Neural Networks, 10 :439443, 1999.

[LL04] M. Lievin and F. Luthon. Nonlinear color space and spatiotemporal MRF for hierarchicalsegmentation of face features in video. IEEE Trans. on Image Processing, 13(1) :6371,2004.

[LLBH98] Y. LeCun, Bottou L., Y. Bengio, and P. Haner. Gradient-based learning applied todocument recognition. Proc. of the IEEE, 86(11) :22782324, 1998.

[LLLF95] S.C. Lo, S.L. Lou, J.S. Lin, and M. T. Freedman. Articial convolutional neural networktechniques and applications for lung nodule detection. IEEE Trans. on Medical Imaging,14(4) :711718, December 1995.

[LLMD06] C. Laurent, N. Laurent, M. Maurizot, and T. Dorval. In Depth Analysis and Evalua-tion of Saliency-based Color Image Indexing Methods using Wavelet Salient Features.Multimedia Tools and Application, 31 :7394, 2006.

[LLRG06] G. Lefebvre, C. Laurent, J. Ros, and C. Garcia. Supervised image classicationby SOM activity map comparison. In Proc. of Int. Conference on Pattern Recognition(ICPR 2006), volume 2, pages 728731, Hong Kong, 2006.

[LLS01] K.H. Lin, K.M. Lam, and W.C. Siu. Locating the eye in human face images using fractaldimensions. IEE Proc. Vision, Image and Signal Processing, 148(6) :413421, 2001.

[LMB+05] Y. LeCun, U. Muller, J. Ben, E. Cosatto, and B. Flepp. O-road obstacle avoidancethrough end-to-end learning. In Advances in Neural Information Processing Systems.MIT Press, 2005.

[LMS06] B. Leibe, K. Mikolajczyk, and B. Schiele. Segmentation based multi-cue integration forobject detection. In Proc. of the British Machine Vision Conference, 2006.

[LMT+07] J. Luo., Y. Ma, E. Takikawa, S. Lao, M. Kawade, and B.-L. Lu. Person-specic SIFTfeatures for face recognition. In IEEE Int. Conference on Acoustics, Speech and SignalProcessing (ICASSP 2007), pages II593II596, Honolulu, USA, 2007.

[Loè55] M.M. Loève. Probability Theory. Van Nostrand, Princeton, NJ, 1955. 297 pages.

[Low99] D. Lowe. Object recognition from local scale-invariant features. In Int. Conference onComputer Vision, pages 11501157, Corfu, Greece, 1999.

[Low04] D. Lowe. Distinctive Image Features from Scale-Invariant Keypoints. Int. Journal ofComputer Vision, 60(2) :91110, 2004.

[LPV05] J. Lu, K.N. Plataniotis, and A.N. Venetsanopoulos. Regularization Studies of LinearDiscriminant Analysis in Small Sample Size Scenarios with Application to Face Recog-nition. Pattern Recognition Letters, 26 :181191, January 2005.

[LRC06] C. Laurent, J. Ros, and C. Garcia. Procédé de reconnaissance d'images par cartesauto-organisatrices. Brevet France Telecom SA no WO2006FR00341, 2006.

[LS03] B. Leibe and B. Schiele. Interleaved object categorization and segmentation. In BritishMachine Vision Conference, pages 759768, Norwich, UK, 2003.

[LSBJ00] E. Loupias, N. Sebe, S. Bres, and J.-M. Jolion. Wavelet-based salient points for imageretrieval. In Proc. of the Int. Conference on Image Processing, volume 2, pages 518521,October 2000.

[LSK07] H.S. Lee, J. Sung, and D. Kim. Incremental AAM using synthesized illumination images.In Proc. of the Pacic Rim Conference on Multimedia (PCM 2007), pages 675684, 2007.

[LSP03] S. Lazebnik, C. Schmid, and J. Ponce. Sparse Texture Representation Using Ane-Invariant Neighborhoods. In Proc. of the Int. Conference on Computer Vision andPattern Recognition, volume 2, pages 319324, Madison, USA, June 2003.

Page 156: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

156 BIBLIOGRAPHIE

[LSP05a] S. Lazebnik, C. Schmid, and J. Ponce. A maximum entropy framework for part-basedtexture and object recognition. In IEEE Int. Conference on Computer Vision, volume 1,pages 832838, Beijing, China, October 2005.

[LSP05b] S. Lazebnik, C. Schmid, and J. Ponce. A sparse texture representation using local aneregions. IEEE Trans. on Pattern Analysis and Machine Intelligence, 27(8) :1265 1278,2005.

[LSP06] S. Lazebnik, C. Schmid, and J. Ponce. Beyond Bags of Features : Spatial PyramidMatching for Recognizing Natural Scene Categories. In IEEE Conference on ComputerVision and Pattern Recognition, volume 2, pages 21692178, New York, June 2006.

[LVB+93] M. Lades, J.C. Vorbruggen, J. Buhmann, J. Lange, C. von der Malsburg, R.P. Wurtz,and W. Konen. Distortion Invariant Object Recognition in the Dynamic Link Architec-ture. IEEE Trans. on Computers, 42(3) :300311, 1993.

[LW99] C.H. Lin and J.L. Wu. Automatic facial feature extraction by genetic algorithms. IEEETrans. on Image Processing, 8(6) :834845, 1999.

[Lyu05] S. Lyu. Mercer Kernels for Object Recognition with Local Features. In Int. Conferenceon Computer Vision and Pattern Recognition, volume 2, pages 223229, San Diego, CA,June 2005.

[LZZ+02] S. Z. Li, L. Zhu, Z. Zhang, A. Blake, H. Zhang, and H. Shum. Statistical learning ofmulti-view face detection. In Proc. of the IEEE Conference on European Conference onComputer Vision, pages 6781, 2002.

[Mal03] S. Mallat. Foveal Approximations for Singularities. Applied and Computational Harmo-nic Analysis, 14(2) :133180, 2003.

[Mar82] D. Marr, editor. Vision. W.H. Freeman and Company, New York, 1982.

[MAU94] Y. Moses, Y. Adini, and S. Ullman. Face recognition : the problem of compensating forchanges in illumination direction. In Proc. of the European Conference on ComputerVision (ECCV), volume 1, pages 286296, 1994.

[MB98] A.R. Martinez and R. Benavente. The AR Face Database. Technical Report 24, Com-puter Vision Center (CVC), Barcelona, 1998.

[MBSL99] J. Malik, S. Belongie, J. Shi, and T.K. Leung. Textons, contours and regions : Cueintegration in image segmentation. Int. Conference on Computer Vision, 2(2) :918925,1999.

[MC01] G.G. Mateos and C.V. Chicote. A unied approach to face detection segmentationand location using hit maps. In Spanish Symposium on Pattern Recognition and ImageAnalysis, 2001.

[MD09] F. Matta and J.-L. Dugelay. Person recognition using facial video information : A stateof the art. Journal of Visual Languages and Computing, 20(3) :180187, 2009.

[MDG05] C. Mallauran, J.-L. Dugelay, and C. Garcia. Online face detection and user authenti-cation. In ACM Multimedia, pages 219220, Singapore, November 2005.

[MK01] A.M. Martinez and A.C. Kak. PCA versus LDA. IEEE Trans. on Pattern Analysis andMachine Intelligence, 23(2) :228233, 2001.

[MM99] W.Y. Ma and B.S. Manjunath. Netra : a toolbox for navigating large image databases.Multimedia Syst., 7(3) :184198, 1999.

[MM00] D. Maio and D. Maltoni. Real-time face location on gray-scale static images. PatternRecognition, 33 :15251539, 2000.

[MMK+99] K. Messer, J. Matas, J. Kittler, J. Luettin, and G. Maitre. XM2VTSDB : The exten-ded M2VTS database. In Second Int. Conference on Audio and Video-based BiometricPerson Authentication, pages 7277, 1999.

Page 157: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

BIBLIOGRAPHIE 157

[Mog02] B. Moghaddam. Principal Manifolds and Probabilistic Subspaces for Visual Recognition.IEEE Trans. on Pattern Analysis and Machine Intelligence, 24(6) :780788, 2002.

[Moo96] T.K. Moon. The Expectation-Maximization Algorithm. IEEE Signal Processing Maga-zine, 13 :4760, 1996.

[MOVY01] B.S. Manjunath, J.R. Ohm, V. Vinod, and A. Yamada. Color and texture descriptors.IEEE TCSVT, 11(6) :703715, 2001.

[Moz91] M. C. Mozer. The perception of multiple objects : a connectionist approach. MIT Press,Cambridge, MA, 1991.

[MP69] M.L. Minsky and S.A. Papert. Perceptrons. MIT Press, Cambridge, MA, 1969.

[MP97] B. Moghaddam and A. Pentland. Probabilistic visual learning for object recognition.IEEE Trans. on Pattern Analysis and Machine Intelligence, 19(7) :696710, 1997.

[MP98] H. Moon and J. Phillips. Analysis of PCA-based face recognition algorithms. In K. Boyerand P.J. Phillips, editors, Empirical Evaluation Techniques in Computer Vision, pages835855. IEEE Computer Society Press, 1998.

[MRW+99] S. Mika, G. Ratsch, J. Weston, B. Schölkopf, and K. Müller. Fisher discriminant analysiswith kernels. In Proc. of the IEEE Workshop on Neural Networks for Signal Processing,pages 4148, 1999.

[MS05a] M. Marszalek and C. Schmid. Spatial Weighting for Bag-of-Features. Int. Conferenceon Computer Vision and Pattern Recognition, 2 :2118 2125, 2005.

[MS05b] K. Mikolajczyk and C. Schmid. A Performance Evaluation of Local Descriptors. IEEETrans. on Pattern Analysis and Machine Intelligence, 27(10) :16151630, 2005.

[Nef99] A.V. Nean. A Hidden Markov Model-Based Approach for Face Detection and Recogni-tion. Ph.D. thesis, Georgia Institute of Technology, Atlanta, GA., 1999.

[Nef02] A.V. Nean. Embedded Bayesian Networks for Face Recognition. In Proc. of the IEEEInt. Conference on Multimedia and Expo, volume 2, pages 133136, 2002.

[NP95] S. J. Nowlan and J. C. Platt. A convolutional neural network hand tracker. In G. Te-sauro, D. Touretzky, and T. Leen, editors, Advances in Neural Information ProcessingSystems, volume 7, pages 901908. The MIT Press, 1995.

[NS03] Y. Nawaz and S. Sircar. Real time eye tracking and blink detection using low re-solution webcam. In Newfoundland Electrical and Computer Engineering Conference(NECEC'03), 2003.

[OBH04] R. Ouellette, M. Browne, and K. Hirasawa. Genetic algorithm optimization of a convo-lutional neural network for autonomous crack detection. In Congress on EvolutionaryComputation, volume 1, pages 516521, June 2004.

[OFG97] E. Osuna, R. Freund, and F. Girosi. Training support vector machines : An applicationto face detection. In Proc. IEEE Conf. on Computer Vision and Pattern Recognition,pages 130136, 1997.

[OLM07] M. Osadchy, Y. LeCun, and M.L. Miller. Synergistic face detection and pose estimationwith energy-based models. Journal of Machine Learning Research, 8 :11971215, 2007.

[OML05] M. Osadchy, M.L. Miller, and Y. LeCun. Synergistic face detection and pose estimationwith energy-based models. In Advances in Neural Information Processing Systems (NIPS2004), pages 10171024, Cambridge, MA, 2005. MIT Press.

[OPM05] T. Ojala, M. Pietikainen, and T. Maenpaa. Multiresolution gray-scale and rotationinvariant texture classication with local binary patterns. IEEE Trans. Pattern Analysisand Machine Intelligence, 24 :971987, 2005.

[PDR05] F. Perronnin, J.-L. Dugelay, and K. Rose. A probabilistic model of face mapping withlocal transformations and its application to person recognition. IEEE Trans. on PatternAnalysis and Machine Intelligence, 27(7) :11571171, 2005.

Page 158: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

158 BIBLIOGRAPHIE

[Per04] F. Perronnin. A Probabilistic Model of Face Mapping Applied to Person Recognition.Thèse de doctorat, École Polytechnique Fédérale de Lausanne, Faculté d'Informatiqueet Communications, 2004.

[PG05] J.R. Price and T.F. Gee. Face Recognition Using Direct, Weighted Linear DiscriminantAnalysis and Modular Subspaces. Pattern Recognition, 38(2) :209219, January 2005.

[PGM+03] P.J. Phillips, P. Grother, R.J Micheals, D.M. Blackburn, E. Tabassi, and J.M. Bone.Face Recognition Vendor Test 2002 : evaluation report. Technical Report 6965, NationalInstitute of Standards and Technology, 2003. 56 pages.

[Phi99] P.J. Phillips. Support Vector Machines applied to Face Recognition. In Proc. of the1998 Conference on Advances in Neural Information Processing Systems, pages 803809,1999.

[Pig96] S. Pigeon. M2VTS. In http ://www.tele.ucl.ac.be/PROJECTS/M2VTS/, 1996.

[PJR07] U. Park, A.K. Jain, and A. Ross. Face recognition in video : Adaptive fusion of multiplematchers. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR2007), pages 18, Minneapolis, USA, June 2007.

[PMRR00] P.J. Phillips, H. Moon, S.A. Rizvi, and P.J. Rauss. The FERET Evaluation Methodo-logy for Face-Recognition Algorithms. IEEE Trans. on Pattern Analysis and MachineIntelligence, 22 :10901104, 2000.

[PMS94] A. Pentland, B. Moghaddam, and T. Starner. View-Based and Modular Eigenspacesfor Face Recognition. In Proc. of the IEEE Computer Society Conference on PatternRecognition, pages 8491, 1994.

[POP98] C.P. Papageorgiou, M. Oren, and T. Poggio. Structure-less object detection using Ada-boost algorithm. Computer Vision, 1998. Sixth Int. Conference, pages 555562, 1998.

[PPS96] A. Pentland, R.W. Picard, and S. Sclaro. Photobook : content-based manipulation ofimage databases. Int. J. Comput. Vision, 18(3) :233254, 1996.

[PS92] M. Propp and A. Samal. Articial neural network architecture for human face detection.Intelligence Engineering. Systems Articial Neural Netwoks, pages 535540, 1992.

[PSO+07] P.J. Phillips, T. Scruggs, A. O'Toole, J. Flynn, K. Bowyer, C. Schott, and Sharpe M.FRVT 2006 and ICE 2006 : large-scale results. Technical Report 6965, National Instituteof Standards and Technology, 2007. 56 pages.

[PWHR98a] P.J. Philips, H. Wechsler, J. Huang, and P Rauss. The FERET database and evaluationprocedure for face recognition algorithms. Image and Vision Computing, 16(5) :295306,1998.

[PWHR98b] P.J. Phillips, H. Wechsler, J. Huang, and P.J. Rauss. The FERET Database and Eva-luation Procedure for Face Recognition Algorithms. Image and Vision Computing,16 :295306, 1998.

[QMO+05] P. Quelhas, F. Monay, J.M. Odobez, D. Gatica-Perez, T. Tuytelaars, and L. Van Gool.Modeling scenes with local descriptors and latent aspects. In IEEE Int. Conf. on Com-puter Vision, volume 1, pages 883890, 2005.

[RBBV04] S. Romdhani, V. Blanz, C. Basso, and T. Vetter. Morphable models of faces. In S.Z.Li and A.K. Jain, editors, Handbook of Face Recognition, chapter 10. Springer-Verlag,Reidel, Dordrecht, 2004. 33 pages.

[RBK96] H. Rowley, S. Baluja, and T. Kanade. Neural network-based face detection. In Proc.of the IEEE Conference on Computer Vision and Pattern Recognition, pages 203208,1996.

[RBK98a] H. Rowley, S. Baluja, and T. Kanade. Neural network-based face detection. IEEETrans. on Pattern Analysis and Machine Intelligence, 20(1) :2338, 1998.

Page 159: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

BIBLIOGRAPHIE 159

[RBK98b] H. Rowley, S. Baluja, and T. Kanade. Rotation invariant neural network-based facedetection. Proc. of Int. Conference on Computer Vision and Pattern Recognition, 1998.

[Res01] HumanScan AG BioID Technology Research. The bioid face database. Inhttp ://www.bioid.com/downloads/facedb/, 2001.

[RGC00] R. Ronfard, C. Garcia, and J. Carrive. Conceptual indexing of television images basedon face and caption sizes and locations. In Proc. of the Fourth Int. Conference on VisualInformation Systems, pages 349359, Lyon, France, 2000.

[RHW86] D.E. Rumelhart, G.E. Hinton, and R.J. Williams. Learning internal representations byerror propagation. Parallel distributed processing : explorations in the microstructure ofcognition, vol. 1 : foundations, pages 318362, 1986.

[RKG96] M.J. Reinders, R.W. Koch, and J.J. Gerbrands. Locating facial features in image se-quences using neural networks. In Proc. of the Second Int. Conference on AutomaticFace and Gesture Recognition, pages 230235, 1996.

[RL06] J. Ros and C. Laurent. Description of local singularities for image registration. In Proc.of the Int. Conference on Pattern Recognition (ICPR 2006), volume 4, pages 6164,2006.

[RLL06] J. Ros, C. Laurent, and G. Lefebvre. A cascade of unsupervised and supervised neuralnetworks for natural image classication. In Proc. of Int. Conference on Image andVideo Retrieval, pages 92101, 2006.

[RM06] Y. Rodriguez and S. Marcel. Face authentication using adapted Local Binary Pattern.In Proc. of European Conference on Computer Vision (ECCV 2006), pages 321332,Prague, 2006.

[RMG06] S. Roux, F. Mamalet, and C. Garcia. Embedded Convolutional Face Finder. In Int.Conference on Multimedia and Expo (ICME 2006), pages 285288, 2006.

[RMG07] S. Roux, F. Mamalet, and C. Garcia. Real-time video Convolutional Face Finder onembedded platforms. EURASIP Journal on Embedded Systems, pages 233240, 2007.

[RMGD07] S. Roux, F. Mamalet, C. Garcia, and S. Duner. An embedded robust facial fea-ture detector. In Int. Conference on Machine Learning and Signal Processing (MLSP),Thessalonique, Greece, August 2007.

[Row97] S. Roweis. EM Algorithms for PCA and SPCA. In Proc. of the Int. Conference onAdvances in Neural Information Processing Systems (NIPS), volume 10, pages 626632,1997.

[RPM98] S.A. Rizvi, P.J. Phillips, and H. Moon. A Verication Protocol and Statistical Perfor-mance Analysis for Face Recognition Algorithms. In Proc. of the IEEE Int. Conferenceon Computer Vision and Pattern Recognition (CVPR), pages 833838, 1998.

[RSPP06] E. Rentzeperis, A. Stergiou, A. Pnevmatikakis, and L. Polymenakos. Impact of faceregistration errors on recognition. In Articial Intelligence Applications and Innovations,Peania, Greece, 2006.

[RVD05] P. Rousseeuw and K. Van Driessen. A fast algorithm for the minimum covariancedeterminant estimator. Technometrics, 41 :212223, 2005.

[RYA00] D. Roth, M.H. Yang, and N. Ahuja. A SNoW-based face detector. In Advances inNeural Information Processing Systems 12, pages 855861. MIT Press, 2000.

[Saï08] Z. Saïdane. Reconnaissance de texte dans les image et les vidéos en utilisant des réseauxde neurones à convolution. Thèse de doctorat, Télécom ParisTech, France, December2008.

[Sam94] F. Samaria. Face recognition using Hidden Markov Models. Ph.D. thesis, EngineeringDepartment, Cambridge University, 1994.

Page 160: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

160 BIBLIOGRAPHIE

[SB86] M. Smith and T. Barnwell. Exact reconstruction techniques for tree structured subbandcoders. IEEE Trans. Acoust., Speech, Signal Processing, ASSP-34 :434441, March 1986.

[SBB+92] E. Säckinger, B. Boser, J. Bromley, Y. LeCun, and L.D. Jackel. Application of theANNA neural network chip to high-speed character recognition. IEEE Transaction onNeural Networks, 3(2) :499505, 1992.

[SBB03] T. Sim, S. Baker, and M. Bsat. The CMU Pose, Illumination, and Expression Database.IEEE Trans. on Pattern Analysis and Machine Intelligence, 25(12) :16151618, 2003.

[SBLG09] R. Séguier, G. Breton, S. Le Gallou, and C. Garcia. Modèles Actifs d'ApparencesAdaptés. Traitement du Signal (TS), 25(5) :14081423, 2009.

[SC96] J.R. Smith and S-F. Chang. Visualseek : a fully automated content-based image querysystem. In Proc. of the fourth ACM Int. conference on Multimedia, pages 8798, 1996.

[SCG+04] S. Shan, Y. Chang, W. Gao, B. Cao, and P. Yang. Curse of mis-alignment in facerecognition : problem and a novel mis-alignment learning solution. In Automatic Faceand Gesture Recognition, pages 314320, 2004.

[SCT94] P. Sozou, T. Cootes, and C. Taylor. A non-linear generalisation of point distributionmodels using polynomial regression. In British Machine Vision Conference, pages 397406, 1994.

[SCT03] I. Scott, T. Cootes, and C. Taylor. Improving appearance model matching using localimage structure. In 18th Int. Conference on Information Processing in Medical Imaging,pages 258269, July 2003.

[SEZ05] J. Sivic, M. Everingham, and A. Zisserman. Person spotting : Video shot retrieval forface sets. In Proc. of Int. Conference on Image and Video Retrieval, pages 226236,Singapore, 2005.

[SFD02] G. Shakhnarovich, J.W. Fisher, and T. Darrell. Face Recognition from Long-TermObservations. In Proc. of the European Conference on Computer Vision (ECCV), pages851868, 2002.

[SG07a] Z. Saïdane and C. Garcia. Automatic scene text recognition using a convolutionalneural network. In Proc. of the Second Int. Workshop on Camera-Based DocumentAnalysis and Recognition (CBDAR 2007), Curitiba, Brazil, September 2007.

[SG07b] Z. Saïdane and C. Garcia. Robust binarization for video text recognition. In Proc.of Int. Conference on Document Analysis and Recognition (ICDAR 2007), volume 2,pages 874879, Curitiba, Brazil, September 2007.

[SG07c] J. Saragih and R. Goecke. A nonlinear discriminative approach to AAM tting. InProc. of the Int. Conference on Computer Vision (ICCV 2007), pages 18, 2007.

[SG08] Z. Saïdane and C. Garcia. An automatic method for video character segmentation.In Proc. of Int. Conference on Image Analysis and Recognition (ICIAR 2008), pages557566, Póvoa de Varzim, Portugal, 2008.

[SGD09] Z. Saïdane, C. Garcia, and J.-L. Dugelay. The Image Text Recognition Graph(ITRG). In IEEE Int. Conference on Multimedia and Expo (ICME 2009), pages 266269, New York, 2009.

[SGT02] E. Sifakis, C. Garcia, and G. Tziritas. Bayesian Level Sets for image segmentation.Journal of Visual Communication and Image Representation, 13(1) :4454, 2002.

[SH94] F. Samaria and A. Harter. Parametrisation of a stochastic model for human face identi-cation. In Proc. of the 2nd IEEE Workshop on Applications of Computer Vision, pages138142, 1994.

[SHMJ02] A. Senior, R.L. Hsu, M.A. Mottaleb, and A.K. Jain. Face detection in color images.IEEE Trans. on Pattern Analysis and Machine Intelligence, 24(5) :696706, 2002.

Page 161: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

BIBLIOGRAPHIE 161

[Sin94] P. Sinha. Object recognition via image invariants : A case study. Investigative Ophthal-mology and Visual Science, 35 :17351740, 1994.

[SK87] L. Sirovich and M. Kirby. Low Dimensional Procedure for the Characterization ofHuman Faces. Journal of the Optical Society of America A, 4(3) :519524, 1987.

[SK98] H. Schneiderman and T. Kanade. Probabilistic modeling of local appearance and spatialrelationships for object recognition. In Proc. of the IEEE Conference on ComputerVision and Pattern Recognition, volume 1, pages 4551, 1998.

[SK00] H. Schneiderman and T. Kanade. A statistical model for 3D object detection appliedto faces and cars. In Proc. of the IEEE Conference on Computer Vision and PatternRecognition, volume 1, pages 746751, 2000.

[SL02] M.B. Stegmann and R. Larsen. Multi-band modelling of appearance. In Proc. of Int.Workshop on Generative Model-Based Vision (GMBV'02), pages 101106, 2002.

[SM97] C. Schmid and R. Mohr. Local Grayvalue Invariants for Image Retrieval. IEEE Tran-saction on Pattern Analysis and Machine Intelligence, 19(5) :530535, 1997.

[SM04] G. Shakhnarovich and B. Moghaddam. Face recognition in subspaces. In S.Z. Li andA.K. Jain, editors, Handbook of Face Recognition, pages 283297. Springer-Verlag, Rei-del, Dordrecht, 2004.

[SNK72] T. Sakai, M. Nagao, and T. Kanade. Computer analysis and classication of photographsof human faces. Proc. of the First USA-Japan Computer Conference, pages 27, 1972.

[SOO98] T. Shakunaga, K. Ogawa, and S. Oki. Integration of eigentemplate and structure mat-ching for automatic facial feature detection. In Third IEEE Int. Conference on Auto-matic Face and Gesture Recognition, pages 9499, April 1998.

[SP98] K.K. Sung and T. Poggio. Example-Based Learning for View-Based Human Face De-tection. IEEE Trans. on Pattern Analysis and Machine Intelligence, 20(1) :3951, 1998.

[SRE+05] J. Sivic, B. Russell, A. Efros, A. Zisserman, and W. Freeman. Discovering object cate-gories in image collections. Int. Conference on Computer Vision, 2005.

[SSM99] B. Schölkopf, A.J. Smola, and K.R. Müller. Kernel principal component analysis. InB. Schölkopf, C. Burges, and A. Smola, editors, Advances in Kernel Methods - SupportVector Learning, pages 327352. MIT Press, 1999.

[ST94] J. Shi and C. Tomasi. Good features to track. In IEEE Conference on Computer Visionand Pattern Recognition, pages 593600, 1994.

[Sto84] T.J. Stonham. Practical face recognition and verication with WISARD. In H.D. Ellis,M.A. Jeeves, F. Newcombe, and A. Young, editors, Aspects of Face Processing, pages426441. Dordrecht : Nijho, 1984.

[Sun96] K.K. Sung. Learning and Example Selection for Object and Pattern Detection. PhDthesis, Massachusetts Institute of Technology, 1996. Technical report MIT AI Lab 1572.

[SW96] D. L. Swets and J. J. Weng. Using discriminant eigenfeatures for image retrieval. IEEETrans. on Pattern Analysis and Machine Intelligence, 18(8) :831836, 1996.

[SWP05] T. Serre, L. Wolf, and T. Poggio. Object recognition with features inspired by visualcortex. In Proc. of IEEE Computer Society Conference on Computer Vision and PatternRecognition, pages 9941000, 2005.

[SZ08] J. Sivic and A. Zisserman. Ecient visual search for objects in videos. Proc. of theIEEE, 96 :548566, 2008.

[Tak98] B. Takács. Comparing Face Images Using the Modied Hausdor Distance. PatternRecognition, 31 :18731881, 1998.

[TB97] M.E. Tipping and C.M. Bishop. Probabilistic Principal Component Analysis. TechnicalReport NCRG-97-010, Neural Computing Research Group, Aston University, 1997. 13pages.

Page 162: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

162 BIBLIOGRAPHIE

[TB99] M.E. Tipping and C.M. Bishop. Mixtures of Probabilistic Principal Component Analy-sers. Neural Computation, 11(2) :443482, 1999.

[TC02] D.S. Turaga and T. Chen. Face Recognition using Mixtures of Principal Components.In Proc. of the Int. Conference on Image Processing (ICIP), volume 2, pages 101104,2002.

[TFG08] C. Tian, G. Fan, and X. Gao. Multi-view face recognition by nonlinear tensor decom-position. In Proc. of the Int. Conference on Pattern Recognition (ICPR 2008), pages14, Tampa, FL, 2008.

[TFV98] C.E. Thomaz, R.Q. Feitosa, and A. Veiga. Design of Radial Basis Function Network asClassier in Face Recognition Using Eigenfaces. In Proc. of Fith Brazilian Symposiumon Neural Networks (SBRN '98), pages 118123, 1998.

[Tho80] P. Thompson. Margaret Thatcher : A new illusion. Perception, 9(4) :483484, 1980.

[TKC99] Y. Tian, T. Kanade, and J.F. Cohn. Multi-state based facial features tracking anddetection. Technical report, Technical report CMU-RI-TR-99-18, Robotics Institute,Carnegie Mellon University, August 1999.

[TKP01] A. Tefas, C. Kotropoulos, and I. Pitas. Using Support Vector Machines to Enhance thePerformance of Elastic Graph Matching for Frontal Face Authentication. IEEE Trans.on Pattern Analysis and Machine Intelligence, 23 :735746, 2001.

[TLV00] L. Torres, L. Lorente, and J. Vila. Automatic Face Recognition of Video SequencesUsing Self-Eigenfaces. In Int. Symposium on Image/video Communication over Fixedand Mobile Networks, 2000. 5 pages.

[TLV+04] T. Theocharides, G. Link, N. Vijaykrishnan, M.J. Irwin, and W. Wolf. EmbeddedHardware Face Detection. In 17th Int. Conf. on VLSI Design, pages 133137, Mumbai,India, January 2004.

[TOSZ05] X. Tang, Z. Ou, T. Su, and P. Zhao. Cascade Adaboost classiers with stage featuresoptimization for cellular phone embedded face detection system. In 1st Int. Conferenceon Natural Computation (ICNC05), pages 688697, Changsha, China, August 2005.

[TP91a] M. Turk and A. Pentland. Eigenfaces for recognition. Journal of Cognitive Neuroscience,3(1), 1991.

[TP91b] M. Turk and A. Pentland. Face recognition using Eigenfaces. In Computer Vision andPattern Recognition, pages 586591, 1991.

[TRL99] L. Torres, J.Y. Reutter, and L. Lorente. The Importance of Color Information in FaceRecognition. In Proc. of the IEEE Int. Conference on Image Processing, volume 3, pages627631, 1999.

[VAOC94] D. Valentin, H. Abdi, A.J. O'Toole, and G. Cottrell. Connectionist models of faceprocessing : A survey. Pattern Recogition, pages 12091230, 1994.

[Vap95] V. Vapnik. The Nature of Statistical Learning Theory. Springer-Verlag, 1995. 314 pages.

[VGJ04] M. Visani, C. Garcia, and J.-M. Jolion. Two-Dimensional-Oriented Linear Discrimi-nant Analysis for Face Recognition. In Proc. of the Int. Conference on Computer Visionand Graphics (ICCVG 2004), pages 10081017, 2004.

[VGJ05a] M. Visani, C. Garcia, and J.-M. Jolion. Bilinear Discriminant Analysis for FaceRecognition. In Proc. of the Third Int. Conference on Advances in Pattern Recognition(ICAPR 2005), volume 2, pages 247256, August 2005.

[VGJ05b] M. Visani, C. Garcia, and J.-M. Jolion. Face Recognition using Modular BilinearDiscriminant Analysis. In Proc. of the Int. Conference on VISual Information Systems(VIS'05), pages 2434, July 2005.

[VGJ05c] M. Visani, C. Garcia, and J.-M. Jolion. Normalized Radial Basis Function Networksand Bilinear Discriminant Analysis for Face Recognition. In Proc. of the IEEE Int.Conference on Advanced Video and Signal Based Surveillance, pages 342347, 2005.

Page 163: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

BIBLIOGRAPHIE 163

[VGJ05d] M. Visani, C. Garcia, and J.-M. Jolion. Une nouvelle méthode de représentationdes visages pour leur reconnaissance : l'Analyse Discriminante Bilinéaire. In Actes de laConférence COmpression et REprésentation des Signaux Audiovisuels (CORESA 2005),pages 103108, November 2005.

[VGL04a] M. Visani, C. Garcia, and C. Laurent. Comparing Robustness of Two-DimensionalPCA and Eigenfaces for Face Recognition. In Proc. of the Int. Conference on ImageAnalysis and Recognition (ICIAR'04), volume 2, pages 717724, 2004.

[VGL04b] M. Visani, C. Garcia, and C. Laurent. Procédé pour la reconnaissance de vi-sages à analyse linéaire discriminante bidimensionnelle. Brevet France Telecom SA no

WO2004FR01395, 2004.

[Vis05] M. Visani. Vers de nouvelles approches discriminantes pour la reconnaissance auto-matique de visages. Thèse de doctorat, Insa de Lyon, France, December 2005.

[VJ01] P. Viola and M. Jones. Rapid object detection using a boosted cascade of simple features.In Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, volume I,pages 511518, 2001.

[VJ02] P. Viola and M. Jones. Robust real-time object detection. Int. Journal of ComputerVision, 2002.

[VML94] R. Vaillant, C. Monrocq, and Y. LeCun. Original approach for the localisation of objectsin images. IEE proceedings. Vision, image and signal processing, 141(4) :245250, 1994.

[VPY02] B.S. Venkatesh, S. Palanivel, and B. Yegnanarayana. Face detection and recognitionin an image sequence using eigenedginess. In Proc. of Indian Conference on VisionGraphics and Image Processing, pages 97101, 2002.

[VSD04] V. Vezhnevets, S. Soldatov, and A. Degtiareva. Automatic extraction of frontal facialfeatures. In Proc. of the Asian Conference on Computer Vision (ACCV'04), volume 2,pages 10201025, 2004.

[VT02] M.A. Vasilescu and D. Terzopoulos. Multilinear Subspace Analysis for Image Ensembles.In Proc. of the Int. Conference on Pattern Recognition (ICPR 2002), volume 2, pages511514, 2002.

[VWM91] J.M. Vincent, J.B. Waite, and D.J. Myers. Precise location of facial features by ahierarchical assembly of neural nets. In Second Int. Conference on Articial NeuralNetworks, pages 6973, 1991.

[Wer88] P. Werbos. Backpropagation : Past and future. In Proc. of the Int. Conference on NeuralNetworks, pages 343353, 1988.

[WFKvdM97] L. Wiskott, J.M. Fellous, N. Krüger, and C. von der Malsburg. Face Recognition byElastic Bunch Graph Matching. IEEE Trans. on Pattern Analysis and Machine Intel-ligence, 19(7) :775779, 1997.

[WFT02] Y. Wei, L. Fradet, and T. Tan. Head pose estimation using gabor eigenspace modeling.In Proc. of the Int. Conference on Image Processing, volume 1, pages 281284, 2002.

[WJHT04] Y. Wang, Y. Jia, C. Hu, and M. Turk. Face Recognition Based on Kernel Radial BasisFunction Networks. In Asian Conference on Computer Vision, 2004. 6 pages.

[WLW01] J.Z. Wang, J. Li, and G. Wiederhold. SIMPLIcity : Semantics-Sensitive Integrated Mat-ching for Picture LIbraries. IEEE Trans. on Pattern Analysis and Machine Intelligence,23(9) :947963, 2001.

[WS03] L. Wolf and A. Shashua. Learning over sets using kernel principal angles. Journal ofMachine Learning Research, 4 :913931, 2003.

[WWFW97] J.Z. Wang, G. Wiederhold, O. Firschein, and S.X. Wei. Wavelet-based image indexingtechniques with partial sketch retrieval capability. In Proc. of the IEEE Int. forum onResearch and technology advances in digital libraries, pages 1324, 1997.

Page 164: HABILITATION A DIRIGER DES RECHERCHES Apprentissage

164 BIBLIOGRAPHIE

[WWZF05] L. Wang, X. Wang, X. Zhang, and J. Feng. The Equivalence of Two-Dimensional PCAto Line-Based PCA . Pattern Recognition Letters, 26 :5760, January 2005.

[WZ03] J. Wu and Z.H. Zhou. Ecient face candidates selector for face detection. PatternRecognition, 36(5) :11751186, 2003.

[Yan02] M.H. Yang. Kernel Eigenfaces vs. Kernel Fisherfaces : Face recognition using kernelmethods. In Proc. of the Int. Conference on Face and Gesture Recognition, pages 215220, 2002.

[Yan04] M.H. Yang. Recent advances in face detection. In Proc. of Int. Conference on PatternRecognition (ICPR 2004), Cambridge, UK, 2004.

[YC97] K.C. Yow and R. Cipolla. Feature-based human face detection. Image and VisionComputing, 15(9) :713735, 1997.

[YDB00] W.S. Yambor, B.A. Draper, and J.R. Beveridge. Analyzing PCA-based Face Recogni-tion Algorithms : Eigenvector Selection and Distance Measures. In 2nd Workshop onEmpirical Evaluation in Computer Vision, 2000. 14 pages.

[YFM98] O. Yamaguchi, K. Fukui, and K.I. Maeda. Face Recognition using Temporal ImageSequence. In Proc. of the IEEE Int. Conference on Automatic Face and Gesture Recog-nition (FGR), pages 318323, 1998.

[YH94] G. Yang and T. S. Huang. Human face detection in complex background. PatternRecognition, 27(1) :5363, 1994.

[YKA01] M.H. Yang, D.J. Kriegman, and N. Ahuja. Face detection using multimodal densitymodels. Computer Vision and Image Understanding, 84 :264284, 2001.

[YKA02] M.H. Yang, D.J. Kriegman, and N. Ahuja. Detecting Faces in Images : A Survey. IEEETrans. on Pattern Analysis and Machine Intelligence, 24(1) :3458, 2002.

[YZFY04] J. Yang, D. Zhang, A.F. Frangi, and J.Y. Yang. Two-Dimensional PCA : A New Ap-proach to Appearance-Based Face Representation and Recognition. IEEE Trans. onPattern Analysis and Machine Intelligence, 26(1) :131137, 2004.

[ZC00] W.Y. Zhao and R. Chellappa. Illumination-insensitive face recognition using symme-tric shape-from-shading. In Conference on Computer Vision and Pattern Recognition(CVPR'00), pages 12861293, 2000.

[ZCJ04] S. Zhou, R. Chellappa, and D. Jacobs. Characterization of human faces under illumina-tion variations using rank, integrability, and symmetry constraints. European Conferenceon Computer Vision, pages 588601, 2004.

[ZCK98] W. Zhao, R. Chellappa, and A. Krishnaswamy. Discriminant Analysis of PrincipalComponents for Face Recognition. In Proc. of the IEEE Int. Conference on AutomaticFace and Gesture Recognition (FGR), pages 336341, 1998.

[ZCPR03] W. Zhao, R. Chellappa, P.J. Phillips, and A. Rosenfeld. Face recognition : A literaturesurvey. ACM Computing Surveys, 35(4) :399458, 2003.

[ZLS03] J. Zhu, B. Liu, and S.C. Schwartz. General illumination correction and its applicationto face normalization. In Int. Conference on Acoustics, Speech, and Signal Processing,volume 3, pages 133136, 2003.

[ZMLC01] J. Zhang, M. Marszalek, S. Lazebnik, and C. Schmid. Local features and kernels forclassication of texture and object categories : a comprehensive study. Int. Journal ofComputer Vision, 73 :213238, 2001.

[Zui94] K. Zuiderveld. Contrast Limited Adaptive Histogram Equalization. Graphics Gems IV,1994.