Real time human pose recognition in parts from single

Preview:

Citation preview

1

Real-Time Human Pose Recognition in Parts from Single Depth Images

2

Le plan Première partie : Introduction

1-Kinect 2-Squelettisation

Deuxième partie :Les données 1-L’image de profondeur

2-Données de capture de mouvement3-Génération des données de synthétiques

Troisième partie : Partie du corps et proposition conjointes

1-Etiquetage des partie du corps2-Caracteristiques de l’image de profondeur

3-Foret de décision randomisée4-Propositions pour les positions communes

Quatrième partie : Expériences1-Résultats qualitatifs2-Précision de la classification

• Cinquième partie : Conclusion

3

Première partie

Introduction

4

Introduction

Le monde réel est composé essentiellement d’objets tridimensionnels. Une des tâches principales d’un système de vision artificielle est de pouvoir identifier et localiser ces objets à partir d’informations reçues de l’environnement.

La reconnaissance d’objets a pour but d’extraire automatiquement et efficacement le contenu intéressant, pertinent et utile de la scène c’est-à-dire de déterminer l’identité des objets formant la scène et leur disposition spatiale dans le contexte d’une tâche ou d’un processus à réaliser.

5

Kinect

Kinect, initialement connu sous le nom de code Project Natal1 est un périphérique destiné à la console de jeux vidéo Xbox 360permettant de contrôler des jeux vidéo sans utiliser de manette,

6

Projecteur IR(Infrarouge)RGB(Red Green Blue)

Squelettisation

Décrire un objet par une représentation de type "squelette" constitue une étape importante dans un certain nombre d’applications relevant du domaine du traitement des images ou de la reconnaissance de formes.

7

Deuxième partie

Les données

8

9

Les données

2 problèmes font faces au développement du domaine :

- Génération d’images réalistes en utilisant les technologies informatiques . -La position du corps de synthèse qui va être sujet d’étude en utilisant la «mocap»(malgré l’ éxistance de plusieurs logiciel et application permettant de simuler le mouvement humain) .

10

Les données 1/-Image de profondeur (1)

Cam kinect résolution de 640*480 donnant 30 image/seconde

11

Les données 1/-Profondeur d’imagerie (2)

Caractéristiques de la Cam Kinect :-fonctionne en faible luminosité .-permet de résoudre le problèmes

d’ambiguïté des silhouettes des personnes utilisées comme sujet .

-élimine les problèmes liés aux textures de vêtements ,leur couleur et la formes des cheveux . -Synthétisation des images réalistes de profondeurs ,cela donne un ensemble de données de grandes formation .

12

Les données 2/-Données de capture de mouvements (1)

Problème :

La variété de mouvement du corps humain

Difficulté de simulation

13

Les données 2/-Données de capture de mouvements (2)

Solution :utilisation de la mocapC’est quoi la mocap (La capture de

mouvements) ??Mocap : une technique permettant de capter les

mouvements d'un élément réel afin de les renvoyer dans un univers virtuel : les mouvements sont enregistrés ou restitués en temps réel vers d'autres systèmes.

Base de données de la mocap utilisés est d’environ

500 kcadres .

14

Les données 2/-Données de capture de mouvements (3)

Les enregistrements pris avec des sujet de large corpuscule:- pas de capture de mocap avec rotation

sur un axe vertical - la mise en miroir de la scène de gauche a

droite aussi la forme du corps et la taille .- Aucune information temporelle n’est prise

en charge

15

Les données 2/-Données de capture de mouvements (4)

1iers résultats obtenus

Acceptables ,mais ne couvrent pas la totalité du corps de synthèse utilisé

16

Les données 3/-Générations de données synthétiques (1)

L’objectif de cette étape

Avoir une succession d’images réalistes et variantes

Les données 3/-Générations de données synthétiques (2)

17

18

Troisième partie Proposition donnée pour les positions du corps humain

Proposition donner pour les positions du corps humain1/-Etiquetage des parties du corps (1)

Répartition du corps humain en partie grâce a des pièces lumineuses couvrant le corps permettant la localisation des articulations et le squelette humain .

Les pièces lumineuses sont placés sur une combinaison utilisés sur différents personnes

Pour l’ expérience 31 parties du corps seront utilisées

19

Proposition donner pour les positions du corps humain 2/- Caractéristique de l’image de profondeur(1)

20

Croix jaune = le pixel xCercle rouge = pixel compensé tq le définit l’ équation

Proposition donner pour les positions du corps humain 2/-Caractéristique de l’image de profondeur(2)

21

( )ID x = Profondeur de x pixels de l’image

U et V = Paramètres de compensation

22

Proposition donner pour les positions du corps humain 3/-Foret de décision randomisée

Arbres et forêt de décision randomisés ont prouvé leur efficacité et rapidité pour avoir un classificateurs multi-classes pour de nombreuses tâches, ils peuvent être appliquées efficacement sur le GPU . une forêt est un ensemble d'arbres de décision T, chacun composé de diviser et de nœuds ou feuilles. Chaque nœud est constitué d'un diviseur de fonctionnalité. Pour classer x pixel dans l'image I, on commence de la racine et on évalue plusieurs reprises

23

Proposition donner pour les positions du corps humain 4/-Proposition pour les positions communes

Pixel =information pour avoir la reconnaissance des partie du corps

Résultats accumulés =possibilité de faire un auto-suivi permettant aussi la récupération en cas d’ echec

24

Quatrième partie

Expériences

25

Expériences

Dans cette section, nous décrivons des expériences réalisées au évaluer notre méthode.

Nous montrons à la fois des résultats qualitatives et quantitatives sur plusieurs jeux de données difficiles, et de comparer avec les deux plus proches voisins des approches et l'Etat de l'art .

26

Expériences 4.1. Les résultats qualitatifs(1)

27

Expériences 4.2. précision de la classification(1)

Nous étudions l'effet de plusieurs paramètres de formation sur la précision de la classification. Les tendances sont fortement corrélés entre les ensembles de test synthétiques et réelles, et le véritable test mis en apparaît constamment plus «facile» que l'ensemble de test synthétique, probablement dû à la moins varié pose actuellement.

28

Expériences 4.2. précision de la classification(2)

Silhouette d'images. Nous montrons aussi dans la Fig. 6 (a) la qualité de notre approche sur des images de synthèse silhouette, où les fonctions dans l'équation 1 sont donnés soit l'échelle (comme la profondeur moyenne) ou non (une profondeur constante fixée). Pour l'articulation correspondante prédiction utilisant une métrique 2D avec un effet positif de 10 pixels vraie seuil, nous avons obtenu 0,539 MAP avec l'échelle et 0,465 mAP sans. S'il est clair que la tâche des ambiguïtés en raison de la profondeur, Ces résultats suggèrent l'applicabilité de notre approche d'autres modalités d'imagerie.

29

Expériences 4.2. précision de la classification(3)

30

Expériences 4.2. précision de la classification(4)

nous montre la formation des images 5k, où «maximum offset de la sonde », le max. valeur absolue proposé pour les deux coordonnées x et y de u et v dans l'équation. 1. Le concentriques cases sur la droite montrent l'off 5 maximale testée jeux calibrés pour un pixel épaule gauche dans cette image, le plus compensée couvre presque tout le corps. (Rappelons que cette décalage maximum des échelles avec la profondeur du monde du pixel). Comme la sonde décalage maximum est augmenté, le classificateur est capable à utiliser le contexte plus spatial pour rendre ses décisions, même si sans suffisamment de données finirait risques sur-apprentissage à cette contexte. Augmente la précision avec la sonde décalage maximum, si les niveaux hors environ 129 mètres de pixels.

31

ConclusionLa kinect est un appareil très récent qui offre encore

de nombreuses opportunités pour les années à venir. L'étude de ses caractéristiques prouve que c'est un appareil fiable. Cependant on peut voir qu'on aura du mal à obtenir des résultats très précis. D'un autre côté, la stéréoscopie permet d'obtenir des résultats aux premiers abords moins bons, mais qui peuvent être améliorés avec de meilleures caméras et des conditions optimales. Ainsi, avant de chercher à modéliser l'ensemble d'une main, il faut trouver une technologie qui nous permette d'obtenir des résultats précis et convainquant pour la modélisation 3D.

32

Merci pour votre attention

Recommended