View
103
Download
0
Category
Preview:
Citation preview
1
La permanence informationnelle :l’auditeur communicant - expressions desFeeling of Thinking et autres émotions…
« Quand, où, pourquoi, à qui, qui parle ? » - la communication située -
Véronique Aubergé
GIPSA Lab, Département Parole et Cognition – CNRS UMR 5216Laboratoire d’Informatique de Grenoble, GETALP – CNRS UMR 5217
Atelier PIRSTECAtelier PIRSTECLIMSI, juin 09LIMSI, juin 09
2
La permanence informationnelle :l’auditeur communicant - expressions desFeeling of Thinking et autres émotions…
« Quand, où, pourquoi, à qui, qui parle ? » - la communication située -
Atelier PIRSTECAtelier PIRSTECLIMSI, juin 09LIMSI, juin 09
Véronique Aubergé
GIPSA Lab, Département Parole et Cognition – CNRS UMR 5216Laboratoire d’Informatique de Grenoble, GETALP – CNRS UMR 5217
3Atelier PIRSTEC - LIMSI - 11 juin 2009
Pertinence de l’expression dans sa multi-modalité
( voix, parole, langage, face, gestualité )
instanciation dans le contexte
interaction face à face continuité communicative
auditeur <=> locuteursituation
tâche
Communication « expressive » : Quand, où, pourquoi, à qui, qui
parle ?
4Atelier PIRSTEC - LIMSI - 11 juin 2009
Pertinence de l’expression dans sa multi-modalité
( voix, parole, langage, face, gestualité )
instanciation dans le contexte comportement => personnalité
intentions/buts - motivation - attention
variations des états mentaux - attitudinaux- émotionnels -
humeurs
=> exprimées en continu
interaction face à face continuité communicative
auditeur <=> locuteursituation
tâche
sujet
Communication « expressive » : Quand, où, pourquoi, à qui, qui
parle ?
Communication située
Baratinoo par l’exemple
Thierry MOUDENC+33 6 80 88 53 21Juin 2009
Serveur vocal Université Grenoble
Pertinence intrinsèque à la SPC corpus = bon prototype de « quand, où, pourquoi, à qui, qui parle ? »
6Atelier PIRSTEC - LIMSI - 11 juin 2009
Film "Les lascars"
Et plus encore…
Assistant vocal : mobile vocalisé pour malvoyants
"Hello", le PC à 1€ pour
les séniors
Messages fixes des SVI :
1013 / 1014 / 3900 / 3000
Diane, assistance sur
Orange.frSuivant le temps (yc respirations)
Messagerie : SMS2VOICE,
840, 3103
Annuaires : 118710, 3288,
AVME
SVI Speech Online remplacement des enregistrements
studio
OBS: @allobiz offre entreprise
accessibilité funBaratinoo
7Atelier PIRSTEC - LIMSI - 11 juin 2009
Baratinoo : fiche technique
• Langues supportées en technologie SPC– français, anglais, espagnol, au moins1 voix Homme et 1 voix Femme par langue
• Logiciel portable– Serveur et station de travail : Windows, Linux, Solaris– Embarqué : Windows Mobile, Symbian, Linux, iPhone OS
• Scalable– De 400MB (serveur) à moins de 10MB (mobile)
• Pleinement intégrable – MRCP, SAPI, API native C++, interface HTTP– SSML, PLS
• Protection logicielle– flexnet de Macrovision, par voix et version ; host ID, date de fin, nb process
• Maintenance – Corrective – Evolutive : 1 release par an, version actuelle 6.4
• Création de voix– Très Haute Qualité ; Célèbres ; Sur mesure ; Fun.– 2 mois maximum, engagement coût / délai / qualité
8Atelier PIRSTEC - LIMSI - 11 juin 2009
théorie / modèle sur « corpus vivants »
briques techno - réalisme
usage/applications - réalité
Collaborations obligatoires R&R, R&D, D&I
9Atelier PIRSTEC - LIMSI - 11 juin 2009
Actor Actor M1M1 / male / introvert / male / introvert
QuickTime™ et undécompresseur H.264
sont requis pour visionner cette image.
QuickTime™ et undécompresseur H.264
sont requis pour visionner cette image.
10Atelier PIRSTEC - LIMSI - 11 juin 2009
Correct discriminationA V AV
50% 68% 71%
“bored, irritated,”
% A V AV
M1 54,5 53,3 69,9
M2 73 63,6 77,3
F1 55,8 57,1 72,2
F2 59,6 51,3 60,4
QuickTime™ et undécompresseur H.264
sont requis pour visionner cette image.
QuickTime™ et undécompresseur H.264
sont requis pour visionner cette image.
11Atelier PIRSTEC - LIMSI - 11 juin 2009
Correct discriminationA V AV
50% 68% 71%
spontaneous acted
% A V AV
M1 54,5 53,3 69,9
M2 73 63,6 77,3
F1 55,8 57,1 72,2
F2 59,6 51,3 60,4
“bored, irritated,”
QuickTime™ et undécompresseur H.264
sont requis pour visionner cette image.
QuickTime™ et undécompresseur H.264
sont requis pour visionner cette image.
12Atelier PIRSTEC - LIMSI - 11 juin 2009
empirisme <> expérimentation [Quine, 69] :
« nous pouvons améliorer morceau par morceau notre schème conceptuel…mais nous ne pouvons pas nous en détacher et le comparer objectivement avec une réalité non conceptualisée »
corpus « prototype (s) » réels« quand, où, pourquoi, à qui, qui parle »
pas de paradoxe [Labov]
… la communication située ? … éthnométhodologie ; éthologie ;
linguistique behavioriste ; relevance theory [Sperber&Wilson] ; linguistique « floue » [Wittgenstein][Rosh]
quels indices sur signaux observés/observables ?comment s’organise la multi-modalité ?
voix, parole, langage, face, gestualité
que doit on en comprendre ?annotation : automatiques / « expertes » / naïves
états mentaux, intentionnels, socio-affectifs, émotionnels
ou attendre ? prédire la dynamique du scenario interactif
…
13Atelier PIRSTEC - LIMSI - 11 juin 2009
multi-modality / multi-processing ?
formes dynamiques ?
indices abrupts ?
formes statiques ?
motifs (récurrence d’événement) ?
Face motor control
Body motor control
Voice motor control
emotion brain representations
Control of strategies
different natures&intensity
activation level
intensity level
14Atelier PIRSTEC - LIMSI - 11 juin 2009
multi-modality / multi-processing ?
formes dynamiques ?
indices abrupts ?
formes statiques ?
motifs (récurrence d’événement) ?
Face motor control
Body motor control
Voice motor control
emotion brain representations
inhibition
Control of strategies
different natures&intensity
activation level
intensity level
15Atelier PIRSTEC - LIMSI - 11 juin 2009
multi-modality / multi-processing ?
formes dynamiques ?
indices abrupts ?
formes statiques ?
motifs (récurrence d’événement) ?
Face motor control
Body motor control
Voice motor control
emotion brain representations
inhibition
Control of strategies
different natures&intensity
activation level
intensity level
C
C
C
16Atelier PIRSTEC - LIMSI - 11 juin 2009
[Audibert, Aubergé, Rilliard, 2004..08]
http://www.icp.inpg.fr/EMOTION/EWiz/
E-Wizplateforme générique
logicielle & expérimentale
multi-capteurs
distribution librevideo, audio, EGG,
bio-physiotous synchronisés
Scénario Sound Teacher
- Spectre d’états mentaux et socio-affects émotions => prototypes IHM - Variabilité comportementale (induction pos&neg) 17 sujets - Variabilité langues - cultures - Discrimination spontané vs. acté (7acteurs)
Induction « naturelle » d’expressions authentiques « quand, où, pourquoi, à qui, qui parle » réaliste / réel
[Audibert, Aubergé, Rilliard, 2008]
Capture contrôlée d’expressions spontanées par perturbation/induction
[Audibert, Aubergé, Rilliard, 2004]
17Atelier PIRSTEC - LIMSI - 11 juin 2009
Temps Phase annotations En minutes Introduction : Phase 1 : les voyelles du
français
2,88 - prononciation Surprise - perplexe 7,43 - perception ouverture concentrée 9,78 - commentaires amusement 10,41 - perception position Av /Ar concentrée 11,68 - commentaires Concentré 12,28 - perception arrondissement Perplexe,
concentrée 13,13 - commentaires étonnée 13,68 - perception centralisation concentrée 14,4 - commentaires idem 14,7 - résultats généraux perplexe Phase 2 : les voyelles proches de
celles du français
15,95 - perception ouverture Surprise, agacement 17,11 - commentaires blazée 17,78 - perception position Av /Ar concentration 18,7 - commentaires idem 19,2 - perception arrondissement Agacement,
concentrée 20,13 - commentaires amusement 20,45 - perception centralisation Agacement,
concentrée 21,5 - commentaires Amusemen 22,1 - prononciation Amusement,
concentrée 24,05 - résultats généraux Concentrée,
largement agacée
Temps Phase Annotation En minutes Introduction : Phase 1 : les voyelles du français Stress, intimidée - soucieuse de faire
bien 0,73 - prononciation Surprise - étonnement 5,38 - perception ouverture Ennui (longueurs), agacée - énervée 7,86 - commentaires Très surprise, flattée, amusée
Amusée compte tenu du résultat 8,81 - perception position Av /Ar déconcertée 9,61 - commentaires idem 10,58 - perception arrondissement idem 11,11 - commentaires idem 11,6 - perception centralisation rien 12,3 - commentaires Surprise du résultat et un peu
saoulée, long 12,81 - résultats généraux idem Phase 2 : les voyelles proches de celles
du français
13,61 - perception ouverture Agacée - fatiguée 14,38 - commentaires Concentrée - attentive 14,98 - perception position Av /Ar Agacée, long, j’ en ai marre ! 15,45 - commentaires idem 15,86 - perception arrondissement idem 16,5 - commentaires idem 16,98 - perception centralisation Agacée - fatiguée, 17,48 - commentaires Perturbée, perdue 17,96 - prononciation surprise 18,16 - résultats généraux Très flattée et contente Phase 3 : généralisation aux langues
du monde
20,3 - perception ouverture Déconcertée - perdue 21,03 - commentaires Stressée, déçue 21,43 - perception position Av /Ar saoulée 22,06 - commentaires idem 22,28 - perception arrondissement idem 22,71 - commentaires idem
18Atelier PIRSTEC - LIMSI - 11 juin 2009
Temps Phase annotations En minutes Introduction : Phase 1 : les voyelles du
français
2,88 - prononciation Surprise - perplexe 7,43 - perception ouverture concentrée 9,78 - commentaires amusement 10,41 - perception position Av /Ar concentrée 11,68 - commentaires Concentré 12,28 - perception arrondissement Perplexe,
concentrée 13,13 - commentaires étonnée 13,68 - perception centralisation concentrée 14,4 - commentaires idem 14,7 - résultats généraux perplexe Phase 2 : les voyelles proches de
celles du français
15,95 - perception ouverture Surprise, agacement 17,11 - commentaires blazée 17,78 - perception position Av /Ar concentration 18,7 - commentaires idem 19,2 - perception arrondissement Agacement,
concentrée 20,13 - commentaires amusement 20,45 - perception centralisation Agacement,
concentrée 21,5 - commentaires Amusemen 22,1 - prononciation Amusement,
concentrée 24,05 - résultats généraux Concentrée,
largement agacée
Temps Phase Annotation En minutes Introduction : Phase 1 : les voyelles du français Stress, intimidée - soucieuse de faire
bien 0,73 - prononciation Surprise - étonnement 5,38 - perception ouverture Ennui (longueurs), agacée - énervée 7,86 - commentaires Très surprise, flattée, amusée
Amusée compte tenu du résultat 8,81 - perception position Av /Ar déconcertée 9,61 - commentaires idem 10,58 - perception arrondissement idem 11,11 - commentaires idem 11,6 - perception centralisation rien 12,3 - commentaires Surprise du résultat et un peu
saoulée, long 12,81 - résultats généraux idem Phase 2 : les voyelles proches de celles
du français
13,61 - perception ouverture Agacée - fatiguée 14,38 - commentaires Concentrée - attentive 14,98 - perception position Av /Ar Agacée, long, j’ en ai marre ! 15,45 - commentaires idem 15,86 - perception arrondissement idem 16,5 - commentaires idem 16,98 - perception centralisation Agacée - fatiguée, 17,48 - commentaires Perturbée, perdue 17,96 - prononciation surprise 18,16 - résultats généraux Très flattée et contente Phase 3 : généralisation aux langues
du monde
20,3 - perception ouverture Déconcertée - perdue 21,03 - commentaires Stressée, déçue 21,43 - perception position Av /Ar saoulée 22,06 - commentaires idem 22,28 - perception arrondissement idem 22,71 - commentaires idem
Feeling of Thinking
19Atelier PIRSTEC - LIMSI - 11 juin 2009
Perceptual validation (naïve listeners)Perceptual validation (naïve listeners)
Labeling by Labeling by externalexternal “ “experts”experts”
statistic statistic verification of verification of
coherence coherence between between expertsexperts
Auto-annotationAuto-annotationby the speaker =>listenerby the speaker =>listener
autobiographic memoryautobiographic memory complex combinations complex combinations
more than affectsmore than affects
SpontaneousSpontaneousexpressiveexpressive
corpuscorpus
Self-labeling of the collected affects
20Atelier PIRSTEC - LIMSI - 11 juin 2009
Génération de parole expressive adaptative/adaptée
émotion
« pas d’émotion exprimée »
Projection d’une seule
dimensionresynthèse
Multi-dimensions :
F0, intensité, durée, qualité de
voix
[Audibert et al., 2004-09]
[Audibert, Vincent et al., 2006]
Protocoles d’évaluation perceptive
Mesure physique/perceptive des dimensions acoustiques
[Aubergé, Audibert, Rilliard, 2006]
Synthèse acoustique de la prosodie expressive
(voix/parole/langage)
=> Modèle cognitif de superposition de Gestalts
non expressive = attitude de non expressivité
=> Synthèse Par Corpus « situé »=> Contrôle « quantique » de l’interaction
=> Prépondérance de la fréquence fondamentale pour les expressions positives=> Nécessité de considérer toutes les dimensions acoustiques en génération
21Atelier PIRSTEC - LIMSI - 11 juin 2009
Génération de parole expressive adaptative/adaptée
émotion
« pas d’émotion exprimée »
Projection d’une seule
dimensionresynthèse
Multi-dimensions :
F0, intensité, durée, qualité de
voix
[Audibert et al., 2004-09]
[Audibert, Vincent et al., 2006]
Protocoles d’évaluation perceptive
Mesure physique/perceptive des dimensions acoustiques
[Aubergé, Audibert, Rilliard, 2006]
Synthèse acoustique de la prosodie expressive
(voix/parole/langage)
=> Modèle cognitif de superposition de Gestalts
non expressive = attitude de non expressivité
=> Synthèse Par Corpus « situé »=> Contrôle « quantique » de l’interaction
=> Prépondérance de la fréquence fondamentale pour les expressions positives=> Nécessité de considérer toutes les dimensions acoustiques en génération
repenser ce qu’estévaluer
une parole virtuelleen adéquation
à une application précise
22
“turn taking” changement de phase dans la continuité globale de l’interaction :
chaque sujet (humain/virtuel) est audit/locut- locut/audit
QuickTime™ et undécompresseur DV - PAL
sont requis pour visionner cette image.
23Atelier PIRSTEC - LIMSI - 11 juin 2009
25%, mais la distribution des réponses
n'est pas différente du
hasard
[Vanpé, 07]
24Atelier PIRSTEC - LIMSI - 11 juin 2009
Statique – condition entier
****
Cf. résultats du test statique : Vanpé & Aubergé, 2006
** Répartition des réponses non significativement différente du hasard, p.0.01 (Khi-2, 8 ddl)
**
Dynamique – conditions bas et haut
Dynamique – conditions bas et entier
Comparaison statique vs. Dynamique pour quelques Comparaison statique vs. Dynamique pour quelques labels intéressants – sujet Slabels intéressants – sujet S
25Atelier PIRSTEC - LIMSI - 11 juin 2009
7.4%
26Atelier PIRSTEC - LIMSI - 11 juin 2009 Cf. résultats du test statique : Vanpé & Aubergé, 2006
Comparaison statique vs. Dynamique pour quelques Comparaison statique vs. Dynamique pour quelques labels intéressants – sujet Tlabels intéressants – sujet T
Dynamique – toutes conditions
Dynamique – condition entiervs. Statique – condition haut
Dynamique –condition haut
Statique – condition entier
Statique – condition bas
27Atelier PIRSTEC - LIMSI - 11 juin 2009
Quels indices, ou leur absence, construisent globalement
un agent générique vs.comportementalisésituation - personnalité - culture
invariants et spécificités
bruit de bouche
grunt
onomatopée
interjection
des(sou)rires
mu
ltim
od
ali
tévoix->parole->langage
« micro-sons »
[Loyau, 07]
[Vanpé, 08]
28
QuickTime™ et undécompresseur DV - PAL
sont requis pour visionner cette image.
29Atelier PIRSTEC - LIMSI - 11 juin 2009
QuickTime™ et undécompresseur Cinepak
sont requis pour visionner cette image.
30Atelier PIRSTEC - LIMSI - 11 juin 2009
QuickTime™ et undécompresseur Cinepak
sont requis pour visionner cette image.
31Atelier PIRSTEC - LIMSI - 11 juin 2009
QuickTime™ et undécompresseur Cinepak
sont requis pour visionner cette image.
32Atelier PIRSTEC - LIMSI - 11 juin 2009
que déduire d’un BB sur la dynamique de l’interactionun agent virtuel doit produire/ ne pas produire des BB ? en MM ?
33Atelier PIRSTEC - LIMSI - 11 juin 2009
Les affects socio-culturels : corps de métier du voix à voix / face à face = langage “temps réel”
French(6 attitudesEnglish
(11 attitudes)
Japanese(12 attitudes)
cultural distance
Grépillat (1996) Morlec (1997) Aubergé (2005)
Diaferia (2002)
Arrogance-Impoliteness
Simple Politeness
Sincerity-Serious
Kyoshuku
Shochi (2004)
Surprise
Doubt
Evidence
Admiration
Seduction
Irritation
Scorn
Authority
Politeness
Mandarin
Swedish
Hungarian
Baba’1
Vietnamese(20 attitudes)
Mac Dang (2008)
Recommended