Caractérisation de signaux pour l'interaction sociale
Kévin Bailly, Catherine Achard, Mohamed Chetouani
{bailly,achard,chetouani}@isir.upmc.fr
ISIR - Institut des Systèmes Intelligents et de Robotique
Groupe IMI2S : Intégration Multimodale, Interaction et Signal Social
IMI2S : Intégration Multimodale, Interaction et Signal Social
• Objectifs :– Analyser, caractériser, reconnaitre, modéliser les
signaux et les comportements sociaux– Améliorer de la compréhension des interactions
sociales: processus émotionnels et intermodaux– Développer des systèmes interactifs, sociaux et
multi-modaux pour l’assistance de personnes déficientes
• Equipe pluridisciplinaire : – Sciences de l’ingénieur– Psychologie – Neurosciences
2
• Caractérisation des signaux socio-émotionnels
• Dynamique de la communication humaine– Synchronies interpersonnelles– Mesure de l’engagement
PLAN
3
Visage Geste Parole
• Caractérisation des signaux socio-émotionnels
• Dynamique de la communication humaine– Synchronies interpersonnelles– Mesure de l’engagement
PLAN
4
Visage Geste Parole
Analyse automatique du visage
5
Localisation de points caractéristiques
Reconnaissance d’Action Units Reconnaissance d’émotions
Estimation et suivi de pose
Analyse automatique du visage
6
Localisation de points caractéristiques
Reconnaissance d’Action Units Reconnaissance d’émotions
Estimation et suivi de pose
Estimation de la pose de la tête
7
Réseau de neurones Pose
Solution proposée : algorithme BISAR [1]
[1] K. Bailly et M. Milgram, Boosting Feature Selection for Neural Network based Regression. Neural Networks 22 (5-6) : 748-756, 2009.
Sélectionner les descripteurs qui permettent à un réseau de neurones de prédire la pose du visage
Suivi de la pose de la tête
• Alignement d’un modèle déformable 3D
• Thèse CIFRE avec Eikeo (anc. Majority Report)
8
[1] P. Phothisane, E. Bigorgne, L. Collot, L. Prévost, A Robust Composite Metric for Head Pose Tracking using an Accurate Face Model. IEEE Face and Gesture 2011.
Analyse automatique du visage
9
Localisation de points caractéristiques
Reconnaissance d’Action Units Reconnaissance d’émotions
Estimation et suivi de pose
Localisation de points caractéristiques
10
1. Localisation du visage
2. Initialisation du modèle de forme 2D
3. Alignement du modèle
Approche par alignement d’un modèle déformable
Alignement d’un modèle déformable par apprentissage de la fonction de coût
Fonction de coût Score
Réseau de neurones
Objectif : Apprendre la relation entre la distance du modèle par rapport à sa position optimale et l’apparence de la texture transférée
11
Approche par détection
12
Caractérisation multi-échelles des points d’intérêt du visage
Détections multi-échelles
13
Détection d’un point du visage à l’aide d’un classifieur SVM Multi-Noyaux
Approche par détection
V. Rapp, T. Senechal, K. Bailly, L. Prevost, Multiple Kernel Learning SVM and Statistical Validation for Facial Landmark Detection, IEEE FG 2011V. Rapp, T. Senechal, K. Bailly, L. Prevost, Machine à Vecteur Support Multi Noyaux pour la détection de points caractéristiques faciaux, RFIA 2011 14
Le pixel candidat choisi est celui correspondant au maximum de la sortie du classifieur SVM et qui aboutit à une forme statistiquement valide
Analyse automatique du visage
15
Localisation de points caractéristiques
Reconnaissance d’Action Units Reconnaissance d’émotions
Estimation et suivi de pose
Contexte : projet ANR IMMEMO
16
IMMEMO : IMMersion 3D basée sur l’interaction EMOtionnelle
Descripteurs : histogrammes LGBP
17
Images de Gabor
*
Filtres de Gabor
Image extraite et redimensionnée
Cartes LGBP Histogrammes LGBP
Décomposition des 18 cartes LGBP en N régions, puis un histogramme est calculé par région et par fréquence spatiale et orientation des filtres de Gabor.
Reconnaissance d’expression faciales
Visage détouré et redimensionné
Histogramme LGBP
SVMIntersection
d’histogrammes
AU 1 : 0AU 2 : 1AU 3 : 1…
18
Reconnaissance d’expressions faciales
Histogramme LGBP
SVMHDI Kernel
AU 1 : 0AU 2 : 1AU 3 : 1…
Adapté aux différences d’histogrammes
T. Senechal, K. Bailly, L. Prevost, Automatic facial action detection using histogram variation between emotional states, ICPR 2010. 19
Visage détouré et redimensionné
Fusion de descripteurs
20
• Combinaisons les histogrammes LGBP avec les AAM 2.5D [1]
[1] A. Sattar, Y. Aidarous et R.Seguier, “Gagm-aam: a genetic optimization with gaussian mixtures for active appearance models” dans Proc. IEEE Int’l. Conf. on Image Processing (ICIP’08)
Les histogrammes h et les vecteurs d’apparence AAM c sont combinés par apprentissage multi-noyaux :
K([h1 c1], [h2 c2]) = β1KLGBP(h1,h2) + β2 KAAM(c1,c2)
http://sylvain.legallou.fr/
Résultats expérimentaux : détection des AU
2121
Score 2 AFC pour différents descripteurs
Détection de 12 AU dans 145 séquences. Base indépendante de 145 séquences à étiqueter image par image (5000
images à étiqueter) Mesure F1 utilisé comme mesure de performance (moyenne harmonique
de la précision et du rappel)
Facial Expression Recognitionand Analysis Challenge (FERA2011)Résultats officiels (mesure F1) pour
détection des AU
Analyse automatique du visage
22
Localisation de points caractéristiques
Reconnaissance d’Action Units Reconnaissance d’émotions
Estimation et suivi de pose
Exemples
23
Résultats expérimentaux :détection des émotions
24
Comparaison de notre score de reconnaissance de l’émotion avec les meilleurs compétiteurs de
FERA 2011
• Détection de 5 émotions dans 134 séquences.• SVM multi-classe « un-contre-tous » entraîné pour reconnaître l’émotion
sur chaque image.
• Etiquetage image par image puis l’émotion apparaissant dans le plus grand nombre d’image est associée à la séquence.
Actions Units ou détection directe de l’émotion ?
25
T. Senechal, K. Bailly, L. Prevost, Impact of Action Unit Detection in Automatic Emotion Recognition, Pattern Analysis & Applications (en révision)
Emotion inconnue
Détecteurs d’AU
apprentissage
Reconnaissance des émotions
apprentissage
apprentissage
Combinaisons AUsEmotions basiques
Scores d’AU
Histogrammes LGBP
Architecture EAUS
ArchitectureEFS
Reconnaissance des émotions
• Caractérisation des signaux socio-émotionnels
• Dynamique de la communication humaine– Synchronies interpersonnelles– Mesure de l’engagement
PLAN
26
Visage Geste Parole
Suivi de gestes
27
Suivi du haut du corps humain combinant filtrage particulaire à recuit simulé et propagation de croyance
I. Renna,R. Chellali and C. Achard. Real and Simulated Upper Body Tracking with Annealing Particle Filter and Belief Propagation for Human-Robot Interaction. International Journal of Humanoid Robotics. 2010
Reconnaissance de gestes
28
• Caractérisation des signaux socio-émotionnels
• Dynamique de la communication humaine– Synchronies interpersonnelles– Mesure de l’engagement
PLAN
29
Visage Geste Parole
Signal de parole
• La caractérisation de signaux de parole– Identité du locuteur [1] : caractérisation statistique du
résidu de prédiction pour améliorer la robustesse des systèmes de reconnaissance du locuteur
– Information non verbale : états affectifs et communicatifs
30
[1] M. Chetouani, M. Faundez-Zanuy, B. Gas, and J. L. Zarader. Investigation on lp-residual representations for speaker identication. Pattern Recognition, 2009
Caractérisation des états affectifs : La notion d'ancrages
• Détection d’un ensemble d'ancrages (phonétique et rythmique [1], voisés/non voisés [2])
• Exploitation de la valence émotionnelle portée par chacun des ancrages (caractérisation du signal et décisions locales)
• Fusion d'informations pour inférer une décision sur le tour de parole.
31
[1] F. Ringeval. Ancrages et modèles dynamiques de la prosodie : application à la reconnaissance des émotions actées et spontanées. Thèse de doctorat UPMC, 2011[2] A. Mahdhaoui, M. Chetouani, and Cong Zong. Motherese detection based on segmental and supra-segmental features, ICPR, 2008.
Dynamique du signal de parole
• Analyse de la dynamique des ancrages par la caractérisation du rythme.
32
33
Apprentissage pour la caractérisation de signaux de parole en situation réaliste
• Approches semi-supervisées pour la détection de mamanais (parole spécifique produite par la mère durant l'interaction avec son enfant)
34
A. Mahdhaoui and M. Chetouani. Supervised and semi-supervised infantdirected speech classication for parent-infant interaction analysis. Speech Communication, 2011
• Caractérisation des signaux socio-émotionnels
• Dynamique de la communication humaine– Synchronies interpersonnelles– Mesure de l’engagement
PLAN
35
Visage Geste Parole
Synchronies dyadiques
36
E. Delaherche and M. Chetouani. Multimodal coordination : exploring relevant features and measures. Workshop SSP, 2010
• Reconnaissance automatique du degré de coordination• Détermination des descripteurs pertinents pour mesurer la qualité de la collaboration
37
Matrice des synchronies
Dendrogramme
Caractérisation du degré d'engagement
38
– Objectif : mesurer l’engagement d’un patient dans une tâche de stimulation cognitive
Situation triadique Cas de l'interaction entre : • Patient• Exercice de stimulation• Thérapeute/robot
(projet ROBADOM)
Détection de l'interlocuteur (face engagement)
39
Corrélation des caractéristiques audiovisuelles (MFCC + DCT de la zone de la bouche)
Mesure de l’engagement à partir de la prosodie
• La détection d’un visage parlant ne suffit pas à caractériser l’engagement
• L’auto-verbalisation (self-talk) est un indicateur du degré d'engagement du patient dans la tâche
• L'estimation de l'effort d'interaction
40
Mesure de l’engagement
• La notion d’engagement est :– Complexe– Mal définie– Multimodale– Personnelle– Contextuelle
41
Conclusion
• Ensemble de méthodes pour caractériser le signal social :– Visage : estimation de pose, suivi de points
caractéristiques, reconnaissance d’expressions faciales
– Geste : suivi de gestes et reconnaissance d’actions
– Parole : caractérisation des émotions, détection de mamanais.
• Vers une modélisation de la dynamique de la communication :– Mesure de coordination (synchronie)– Mesure d’engagement
42
Caractérisation de signaux pour l'interaction sociale
Kévin Bailly, Catherine Achard, Mohamed Chetouani
{bailly,achard,chetouani}@isir.upmc.fr
ISIR - Institut des Systèmes Intelligents et de Robotique
Groupe IMI2S : Intégration Multimodale, Interaction et Signal Social