David Antonio Gómez Jáuregui Rapporteurs: Bill TRIGGS Frédéric LERASLE

Preview:

DESCRIPTION

David Antonio Gómez Jáuregui Rapporteurs: Bill TRIGGS Frédéric LERASLE Examinateurs : Rachid DERICHE André GAGALOWICZ Directrice: Bernadette DORIZZI Encadrant: Patrick HORAIN . - PowerPoint PPT Presentation

Citation preview

Soutenance de thèse pour obtenir le grade de Docteur de Télécom SudParis (ED S&I - UEVE)

Acquisition 3D des gestes par vision artificielle et restitution virtuelle

David Antonio Gómez Jáuregui Rapporteurs: Bill TRIGGS Frédéric LERASLE

Examinateurs: Rachid DERICHE André GAGALOWICZ

Directrice: Bernadette DORIZZI Encadrant: Patrick HORAIN

Application:Environnements Virtuels Collaboratifs (EVCs)

David Gomez2

Animation des avatars prédéfinie. Menus difficiles à gérer. La perception des gestes est amoindrie.

Capteurs pour l’acquisition 3D des gestes

Optique

David Gomez3

Centrales inertielles

Magnétique Mécanique

Très chers !!

Encombrants !!

Difficiles àÉtalonner !!

Acquisition 3D des gestes par vision monoscopique en temps-réel

Temps-réel

Sans marqueurs

Utilisation d’une webcam

PC grand public• avec puissance variable

David Gomez4

(Marques Soares et al., 2004)

Difficultés

Manque d’information de profondeur Grand nombre de degrés de liberté Occlusions des parties du corps Plusieurs vêtements Proportions du corps différentes Des mouvements imprédictibles Environnements complexes

David Gomez

Contribution de la thèse

Améliorer la robustesse et la précision de l’acquisition 3D des gestes par vision monoculaire en temps réel.

Des analyses expérimentales sont effectuées afin de démontrer l’amélioration des résultats en temps réel.

Adaptation à la plateforme.

David Gomez6

Plan de l’exposé

I. Travaux antérieurs.II. Notre approche pour l’acquisition 3D des

gestes.III. Recalage sur les régions et les contours.IV. Filtrage particulaire en temps réel avec

heuristiques.V. Démonstration du système.VI. Conclusions et perspectives

David Gomez7

Travaux antérieurs: état de l’art de l’acquisition 3D des

gestes par vision artificielle

Caractéristiques d’image

La couleur (Broekhuijsen et al., 2006), (Fontmarty et al., 2006), (Bernier et al, 2009)

Les silhouettes (Deutscher et al., 2005), (Agarwal et al., 2006),

Les contours (Noriega et al., 2007), (Ramanan et al., 2003)

Le mouvement (Sminchisescu et al., 2001), (Bregler et al., 2004)

David Gomez9

(Sminchisescu et al, 2001)

(Howe, 2006)

Estimation de la pose 3D

Deux approches (Poppe, 2007) :• Génératives: recalent un modèle 3D du corps en

minimisant un coût d’association.1. Estimation Top-down (Delamarre et al., 2001) , (Sminchisescu et al., 2002)

2. Estimation Bottom-up (Hua et al., 2007), (Noriega et al., 2007)

• Discriminatives: classer la pose 3D directement à partir des images.

1. Apprentissage d’un mapping (Agarwal and Triggs, 2006)

2. A partir des exemples. (Toyama et al., 2002), (Stenger et al., 2003)

David Gomez10

Modélisation probabiliste du mouvement humain

Haute dimensionnalité • Clustering des poses

(Caillete et al. 2005)

Faible dimensionnalité• PCA (Rius et al., 2009)

• Processus gaussiens (GPLVM, GPDM) (Urtasun et al., 2006)

David Gomez11

(Urtasun et al., 2006)

Limitations des travaux antérieurs pour l’acquisition 3D des gestes

La plupart des approches restent éloignées du temps réel.

Besoin de plusieurs caméras (approches multi-vues).

Peu d’évaluations quantitatives.

Parfois limités à quelques activités spécifiques (marcher, courir, swing pour le golf).

David Gomezpage 12

Notre approche pour l’acquisition 3D

des gestes par vision monoculaire en temps réel

David Gomez14

Notre approche pour l’acquisition des gestes

Recaler un modèle 3D articulé de la moitié supérieure du corps humain sur des séquences vidéo

Vecteur de paramètres de la pose du modèle :• 6 paramètres globaux

(position & orientation) • 17 angles

d’articulations

Approche : recalage 3D / 2D

David Gomez15

primitives

primitives

Evaluation du recalage

Optimisation du recalage

Contraintes biomécaniques

Implémentation: étape d’initialisation

David Gomez16

Recalage sur les régions et recalage sur les contours

pour l’acquisition 3D des gestes en temps réel par vision

monoscopique

David Gomez18

Évaluation du recalage :taux de non recouvrement (Ouhaddi, 1999)

? mm

c cc

cccc

qBAqBAqBA

qF

1

1 )()()(

où :m = nombre de classes de couleurAc = pixels classe c (vidéo segmentée)

Bc = pixels classe c (modèle projeté)

q = paramètres articulatoires

Recalage sur les régions :Avantages et inconvénients

Robustesse à l’initialisationUn recouvrement partiel suffit

Précision limitéePixels des contours peu nombreux par rapport aux pixels

intérieurs

David Gomez19

?

Recalage sur les contours:Distance résiduelle entre contours

où :

DRC = distance résiduelle entre contours

Icd = carte de distance aux contours

pi = point de contour occultant

N = nombre des points de contours occultants

Np

iiCDRC pI

ND )(1

David Gomez20

David Gomez21

Précision du recalage sur les contours

☺ Contours → Recalage plus précis

Modèle recalésur régions

Modèle recalésur contours

Contrainte du temps-réel

Temps réel temps de calcul limité (< 100 ms par image)

nombre d’itérations limité → précision Objectif: compromis entre les deux caractéristiques

(région colorées et contours) en fonction du nombre d’itérations disponibles.

Evaluation du résultat:• La robustesse:

- nombre de décrochages: erreur résiduelle > seuil

• La précision de la pose 3D- proximité à la vérité terrain

David Gomez22

Analyse expérimentale

David Gomez23

Expérimentation sur plusieurs séquences vidéo avec divers gestes

GRETA

Pelachaud et al.

Taux de non recouvrement (Décrochages)

David Gomez24

~200

Analyse expérimentale de la robustesse

Recalage sur les régions • converge plus vite• plus robuste (après 200 itérations)

Recalage sur les contours• plus précis

Combien d’itérations faut-il allouer à chaque étape afin d’avoir la meilleure précision en temps réel?

David Gomez25

Evaluation de la précision de la pose estimée

David Gomezpage 26

𝐷ሺ𝑥,𝑥ሻ= σ ԡ𝑥𝑚 − 𝑥𝑚ԡ𝑀𝑚=1 𝑀

où :

D(x,x)̃ = erreur résiduelle de la pose 3D

xm = coordonnée 3D (vérité terrain)

xm = coordonnée 3D (pose estimée)

M = nombre d‘articulations

Modélisation de l’erreur résiduelle 2D

David Gomezpage 27

𝑧= 𝐴+ 𝐵𝑥+ 𝐶𝑦+ 𝐷𝑥2 + 𝐹𝑦2 + 𝐺𝑥𝑦

Compromis en temps réel

David Gomezpage 28

Répartition optimale du nombre d’itérations Adaptation automatique à la puissance de calcul disponible

Filtrage particulaire en temps réel avec heuristiques pour

l’acquisition 3D des gestes par vision monoscopique

Ambigüités des images monoculaires

David Gomezpage 30

Plusieurs poses 3D peuvent coïncider avec la même observation 2D

Suivi avec plusieurs hypothèses

Filtrage particulaire: Approches de Monte-Carlo

séquentielles

Flexibles, parallélisables, faciles à implémenter et à modifier

David Gomezpage 31

Filtrage particulaire

David Gomezpage 32

Représentation de la f.d.p. par un ensemble de N particules avec des poids associés:

N

iit

ittt wxzxP 1

)()(:1 ,)|(

particule représentant un état du système poids associé à chaque particule en fonction des

mesures.

)(itx)(i

tw

Fonction de vraisemblance: 𝑤𝑡(𝑖) ∝ 𝑝ቀ𝑧𝑡ቚ𝑥𝑡ሺ𝑖ሻቁ

Algorithme de filtrage particulaire (Isard and Blake, 1998)

David Gomezpage 33

Limitation: très couteux dans des espaces de haut dimensionnalité

Mise en œuvre du filtrage particulaire

David Gomezpage 34

)(itx

𝒑ቀ𝒛𝒕ቚ𝒙𝒕ሺ𝒊ሻቁ

Filtrage particulaire classique (Isard and Blake, 1998)

David Gomezpage 35

Particules mal guidées (200 particules)

Filtrage particulaire pour l’acquisition 3D des gestes: travaux antérieures

Plusieurs stratégies et améliorations:• Filtrage particulaire partitionné

- (MacCormick et al., 2000)

• Filtre particulaire avec recuit simulé - (Deutscher et al., 2000)

• Echantillonnage avec l’optimisation locale- (Cham et al., 1999), (Sminchisescu and Triggs, 2001)

• Inférence analytique - (Lee et al., 2002)

• Echantillonnage déterministe - (Saboune et Charpillet, 2005)

David Gomezpage 36

Notre approche du filtrage particulaire pour l’acquisition 3D des gestes

Limitations des approches antérieures: Eloignées du temps réel. Deux ou plusieurs caméras.

Notre approche: nouvelles heuristiques à la méthode de CONDENSATION pour guider les particules dans un espace de grande dimension :

Dimension 20 : nombre d’angles articulatoires En temps-réel → 100 à 500 particules En traitant les ambigüités 3D / 2D

David Gomezpage 37

Limitation du rééchantillonnage probabiliste

Utilisation des poids comme probabilités d’occurrence des particules (Gordon, 1993).Propagation de particules avec des poids faibles

Temps de calcul limité → pas assez de particules

Solution : rééchantillonnage déterministe pour propager uniquement les particules avec des poids importants.

David Gomezpage 38

)(itw

Resampling Prediction Measurement

Rééchantillonnage déterministe par poids

Particules avec poids faibles → pas d’enfant

Particules avec poids forts → famille de particules

David Gomezpage 39

Rééchantillonnage déterministe: contribution à la précision 3D et robustesse

David Gomezpage 40

Précision réduite par rapport au nombre d’itérations

Réduction du nombre de décrochages.

Limitation de la prédiction

Échantillonnage aléatoire de tous les paramètres à chaque instant. Les particules n'explorent pas l'espace d‘état de

manière efficace.

Solution: appliquer la diffusion aléatoire uniquement aux parties du corps qui ont bougé d’une trame à l’autre.

David Gomezpage 41

Resampling Prediction Measurement

Échantillonnage partitionné basée mouvement

David Gomezpage 42

𝑥𝑡 = (𝑥𝑡𝐶,𝑥𝑡𝐻,𝑥𝑡𝐿𝐴,𝑥𝑡𝑅𝐴). 𝒙𝒕𝑪

𝒙𝒕𝑯 𝒙𝒕𝑳𝑹 𝒙𝒕𝑨𝑹

𝒙𝒕−𝟏

𝒛𝒕−𝟏 𝒛𝒕 Détection de mouvement Echantillonnage partitionné

Échantillonnage partitionné basée mouvement: contribution à la précision 3D et robustesse

David Gomezpage 43

Amélioration de la précision pour les gestes avec du mouvement fronto parallèle

Amélioration de la robustesse: meilleure performance sur les gestes avec du mouvement fronto parallèle

Limitation de la prédiction

Échantillonnage aléatoire: Grand nombre de particules pour explorer l’espace

d’état.

Solution: optimisation locale pour guider de façon déterministe les groupes de particules vers les minimums.

David Gomezpage 44

Resampling Prediction Measurement

Prédiction avec l’optimisation locale et échantillonnage aléatoire

David Gomezpage 45

Grands groupes → descente du simplex Petits groupes → échantillonnage aléatoire

Prédiction avec l’optimisation locale: contribution à la précision 3D et robustesse

David Gomezpage 46

Pas d’amélioration de la précision: l’optimisation locale ne peut pas gérer les ambigüités 3D / 2D

Amélioration du recalage 2D Pas d’amélioration de la précision 3D

Limitation de la prédiction dans les images monoculaires

Plusieurs poses 3D peuvent générer la même projection 2D (Ambigüités). La sélection de la mauvaise pose 3D conduit aux décrochages.

Solution: générer analytiquement plusieurs hypothèses qui donnent la même projection (Sminchisescu and Triggs 2003).

David Gomezpage 47

Resampling Prediction Measurement

Echantillonnage par sauts-cinématiques

David Gomezpage 48

Echantillonnage par sauts-cinématiques: contribution à la précision 3D et robustesse

David Gomezpage 49

Pas d’amélioration significative

Amélioration de la robustesse: meilleure performance sur les gestes avec du mouvement vers la profondeur

Limitation du suivi de la pose 3D dans des image monoculaires

Les angles articulatoires ne permettent pas de modéliser l’incertitude de la profondeur.

Solution: un paramétrage qui permet de séparer l’incertitude de la profondeur et l’incertitude dans le plan image.

David Gomezpage 50

Resampling Prediction Measurement

Changement de paramétrage (suivi avec le bout de la chaine cinématique)

David Gomezpage 51

Changement de paramétrage: contribution à la précision 3D

David Gomezpage 52

Amélioration de la précision pour les gestes avec des mouvements vers la profondeur

Amélioration de la robustesse: meilleure performance sur les mouvements vers la profondeur

Accélération par GPU

David Gomezpage 53

Number ofparticles

CPU(Native C++)

GPU(OpenCL)

100 27 ms 1.4 ms

300 40 ms 2.5 ms

500 76 ms 6.5 ms

700 110 ms 17 ms

Resampling Prediction Measurement

Algorithme de filtrage particulaire en temps réel avec heuristiques

David Gomezpage 54

Niit

it wx 1

)(1

)(1, Particules

parents

Particulesenfants

Sauts Cinématiques

Echant.Partitionné +End-effector

Buffer (GPU)

Niit

it wx 1

)()( ,

Rééchantillonnage

Prédiction

Mesurer

Résultat du filtrage particulaire avec heuristiques: précision 3D

David Gomezpage 55

Amélioration significative de la précision 3D pour toutes les séquences vidéo (80 – 120 mm).

Résultat du filtrage particulaire avec heuristiques: robustesse

David Gomezpage 56

Amélioration significative de la robustesse pour toutes les séquences vidéo.

Filtrage particulaire en temps réel avec heuristiques: Résultats qualitatifs

David Gomezpage 57

Acquisition 3D des gestes plus précise et robuste avec un faible nombre de particules (200).

Filtrage particulaire en temps réel avec heuristiques: résultats qualitatifs

David Gomezpage 58

Résultats antérieurs (Marques Soares et al., 2004) Résultats actuels

Démonstration

Je vous remercie de votre attention.

David Gomez63

Publications

1) David Antonio Gomez Jauregui, Patrick Horain, Manoj Kumar Rajagopal, Senanayak Sesh Kumar Karri. “Real-Time Particle Filtering with Heuristics for 3D Motion Capture by Monocular Vision”, IEEE International Workshop on Multimedia Signal Processing 2010 (MMSP'10), Saint-Malo, France, October 4-6, 2010

2) David Antonio Gomez Jauregui, Patrick Horain, « Acquisition 3D des gestes par vision artificielle et restitution virtuelle ». A3DM '10 : Journée scientifique du colloque "Analyse 3d du mouvement", 17-18 juin 2010, Poitiers, France, 2010

3) Patrick Horain, José Marques Soares, Dianle Zhou, Zhenbo Li, David Antonio Gomez Jauregui, Yannick Allusse, “Perceiving and rendering users in a 3D interaction”, Proceedings of the Second IEEE International Conference on Intelligent Human Computer Interaction (IHCI 2010), January 16-18, 2010, Allahabad, India, Springer (ISBN 978-81-8489-540-7), pp. 42-53.

4) Zhenbo Li, Jun Yue, David Antonio Gómez Jáuregui, "A new virtual reality environment used for e-Learning", IEEE International Symposium on IT in Medicine & Education, 14-16 August 2009 (ITIME '09 external), Vol. 1, p. 445-449.

David Gomezpage 64

Publications

5) David Antonio Gómez Jáuregui, Patrick Horain, « Recalage sur les contours et recalage sur les régions pour l'acquisition 3D des gestes en temps réel par vision monoscopique », Actes en ligne d'ORASIS'09 - Congrès des jeunes chercheurs en vision par ordinateur, Trégastel, France, 8 au 12 juin 2009.

6) David Antonio Gómez Jáuregui, Patrick Horain, "Region-based vs. edge-based registration for 3D motion capture by real time monoscopic vision", Proceedings of MIRAGE 2009, 4-6 May, 2009, INRIA Rocquencourt, France, A. Gagalowicz and W. Philips (Eds.), LNCS 5496, Springer-Verlag, 2009, pp. 344–355.

7) David Antonio Gómez Jáuregui, Patrick Horain & Fawaz Baroud, « Acquisition 3D des gestes par vision monoscopique en temps réel », Actes de MajecSTIC 2008, Marseille, 29 au 31 octobre 2008.

David Gomezpage 65