Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
Plateforme d’annotation multimodale sur un corpus
d’interactions en françaisd’interactions en françaisRoxane Bertrand
Laboratoire Parole & Langage,CNRS, Aix-en-Provence
Ecole thématique « Annotation de données langagières »Biarritz, 10-16 septembre 2011
Multimodalité et interaction
� Parole continueen face à face, conversation� Différentes modalités (verbal, mimo-gestuel)
Moyens � Moyens � Corpus� Annotations
� Besoins� Formalisme� Outils
Situation
� Objectif� Description précise des différents niveaux linguistiques
� Prosodie, phonologie, morphologie, syntaxe, discours, interaction et mimo-gestualité
� Description fine de chacun des niveaux
� Problèmes� Description de chaque niveau� Synchronisation entre les descriptions
Outils pour l’analyse de l’information multimodale (OTIM)
� Elaboration d’un schéma d’encodage général� Identification et/ou mise au point d’une série d’outils pour
aider à l’annotation linguistique (syllabeur, alignement texte/parole, tagger, chunker, …)
� Représentation (spécification d’un formalisme)� Développement d’un langage de requêtes� Etudes possibles
� Syntaxe / prosodie / discours� Gestes / prosodie / structure conversationnelle� Propriétés acoustiques / tours de parole …
Plan� Constitution de corpus pour l’étude de la
multimodalité: le cas du CID
� Chaine de traitement pour la constitution de ressources enrichies� Les différentes annotations� Les différentes annotations� Le modèle formel
� Requêtes et exploitation
� Conclusion
CONSTITUTION DU CORPUS
Le CID -Corpus of Interactional Data-[Bertrand et al. 2008]
� Données primaires� Audio� Video
video
Locuteurs et design expérimental� 8 h dialogues semi-guidés (non mixtes, 3HH, 5FF); 100,000 mots
� Locuteurs� familiarité avec les lieux, les expérimentateurs, entre sujets eux-mêmes� milieu professionnel similaire� Tranche d’âge: 25~45 ans� Origine géographique (50% région PACA / ≈ 50% autres).
� Lieu et modalités d’enregistrement� chambre sourde (micro-casque, piste séparée)� Filmé
� Consigne� Série 1 (2003): conflits professionnels (10 locs)� Série 2 (2005): situations insolites (6 locs)
Type de données
� Type intermédiaire Map-Task ~ données naturelles� Critères de la conversation
� objectif externe lié à la consigne *� statut symétrique des participants� niveau de coopération� style informel� style informel� tours de parole non pré-déterminés� séquences hétérogènes, activités langagières variées (narration,
explication, description, argumentation, etc.)� ensemble des actions/actes de langage (assertion, question, demande
de confirmation, etc.) à l’œuvre en interaction
Niveaux d’annotations
� Transcription� Alignement graphème/phonème + segmentation syllabique
(automatique)� Prosodie (manuel et automatique)� Analyse morpho-syntaxique et syntaxique (automatique)� Disfluences (manuel)� Discours et interaction (manuel)� Gestes (postures, face, mains, regard) (manuel)
par différentes équipes en France (LIMSI, LLING, LPL)
Outils utilisés: Praat, Anvil, Elan
CID: an Open Source Corpus
� Corpus et annotationhttp://crdo.fr
� CRDO: projet français d’archivage et de mutualisation des données audio et video.
LA CHAINE DE TRAITEMENT
Pré-segmentation du signal de parole
� Segmentation en unité inter-pausale (Inter Pausal Unit -IPU-) (pause silencieuse ≥ 200 ms) (sous Praat):~ 13000 IPUs(median: 1390 ms
quartiles: 600, 2770 ms)
� Transcription manuelle (Praat)Transcription Orthographique enrichie (TOE)
La Transcription Orthographique Enrichie
� L’orthographe seul ne peut pas rendre compte des phénomènespropres à l’oral spontané
� Outils conçus pour le français standard (corpus lu, préparé)� Aucune garantie sur les résultats de données de français
spontané� L’écart à la norme d’un tel corpus est inconnu� L’écart à la norme d’un tel corpus est inconnu
transcription d’un maximum d’informations
� Ajout d’informations sur les phénomènes oraux (fréquence,patrons)
� Améliore la performance des outils impliqués dans l’étaped’alignement phonétique
Principales conventions de la TOE
Adaptées du GARS (Blanche-Benveniste, 1987)
rire il est @ parti loinséquence dite en riant il est @@ parti loin @@élision t(u) as vu /tavy/amorce s- c’est non /s se no~/amorce s- c’est non /s se no~/liaison non attendue les =z= haricots /lezaRiko/réalization non-standard
� assimilation [je sais pas, Sepa] /Sepa/� réalisation du schwa final(français méridionnal) le [verre, veR2] l2 veR2
….
Instructions aux annotateurs
� Travail à l’oreille (le transcripteur n’utilise pas le signalaudio)
� En cas de doute: transcription orthographique privilégiée� Favoriser la notation des élisions t(u) as vu et non [ttu as,
ta] vuta] vu
� 3 annotateurs (1 passage initial puis 2 corrections)� Temps d’annotation estimé: environ 30mns/1mn
Signal et transcription
Plan du traitement automatique
TOE
Standard ortho.non je suis pas
TaggerParser
Annotations
Noun, verb, …NLP
TOEnon [je suis,Syi] pas
Specifictranscription
non Syi pas
Grapheme-phoneme converterPhoneme alignerSyllabifier
Annotations
Time alignedphoneme,syllable,ortho. token
SPEECH
Phonétisation et alignement
� Production de la suite de phonèmes� Tokenisation� Suite de phonèmes codée en SAMPA
� Alignement� Entrée : liste des phonèmes + signal audio� Localisation temporelle de chaque phonème sur le signal
� Ces 2 niveaux servent de référence aux autres niveaux et permettent leur mise en relation temporelle
Signal, alignement : phonèmes et tokens
Quelques chiffres: mots tronqués (amorces)
730 amorces� 455 formes� les 18 formes > 1%
représentant 50% des amorces
i- 79 0.045612d- 78 0.0450346p- 71 0.0409931t- 69 0.0398383m- 67 0.0386836j- 64 0.0369515s- 62 0.0357968l- 52 0.0300231
� Ex ambigu/i/ /i/ /i/ /va/ /parle/:1) i- i- i(l) va parler2) i(l) i(l) i(l) va parler
l- 52 0.0300231a- 50 0.0288684v- 44 0.0254042qu- 39 0.0225173f- 37 0.0213626b- 34 0.0196305ç- 32 0.0184758c'- 32 0.0184758n- 23 0.0132794de- 21 0.0121247re- 16 0.00923788
23
Les élisions
� ~ 11000 phonèmes élidés (3.6 % of 302,000 phonèmes)
� 187 formes
� les 10 formes avec une � les 10 formes avec une fréquence > 1%
= 88% des phonèmes élidés
Réalisations phonétiques non-standard (prononciations particulières)
� 2810 items , 1300 formes[je , S] : 7.7 %[je sais, Se] : 6 %[je suis, SHi] : 2.9 %[je suis, Sy] : 0.9 %
~ 17 %
% items #occurrence37 1 (la moitié = 520 items = schwas finals )5 21.6 3
~50 % [ ] pourraient être traités automatiquement (schwas finals + 4 formes les plus fréquentes)
Les Rires
� 2111 séquences de rires � 367 sequences en riant� 844 sequences de rire isolé (IPU sans parole)
~ 16% of the 13000 IPUs alignées contiennent (au moins) une séquence de rireséquence de rire
Les Chevauchements de parole
Median 500 ms
1st Qu. 250
3rd Qu. 1000
4753 chevauchements ( ipuoverlapping)
12.6% ≤ 150 ms ( valeur minimale pour un chevauchement pertinent 3rd Qu. 1000chevauchement pertinent linguistiquement ?)
6% ≤ 80 ms
63 % des ~13000 IPUsimpliquent un chevauchement (>150ms)
Conclusion provisoire� La TOE favorise
� pre- et post traitement + simple � outils de traitement de la parole + standards
Des analyses phonétiques (au niveau de la voyelle o u de la syllabe) sont ainsi possibles sur un large corpus non contrôlé de parol e conversationnelle
� La TOE pourrait être simplifiée� en réduisant le temps de transcription manuel, en fonction des possibilités � en réduisant le temps de transcription manuel, en fonction des possibilités
de l’alignement automatique pour les élisions standard, les liaisons, et éventuellement les schwas finals
� Amélioration du traitement graphème-phonème� Amélioration de l’outil d’alignement (nouveau modèle acoustique...)
(*) MEUNIER C. & ESPESSER R. Vowel reduction in conversational speech in French: The role of lexical factors. Journal of Phonetics (2011) (in press, already published online)
Syllabation et tokenisation
� Production de la suite de syllabes� Développement d’un outil permettant d’identifier
automatiquement les segments syllabiques (cf Bigi et al. 2010)
� Intérêt d’une annotation en syllabes � Structure et fréquence des syllabes en français spontané� Analyses suprasegmentales fondées sur la syllabe (organisation � Analyses suprasegmentales fondées sur la syllabe (organisation
rythmique et accentuelle)� les phénomènes divers en spontané (enchaînement, élisions…)
qui conduisent à des suites syllabiques spécifiques
� Production d’une suite de tokens orthographiques� À partir de la phonétisation� Indispensables aux modules syntaxique et discursif
Annotation des syllabes
Ressources et outils syntaxiques: LPLSuite[Rauzy & Blache, 2008, 2010]
� Chaîne de traitement pour l’analyse morpho-syntaxiqueet syntaxique� Segmenteur par règles et lexique (440 000 entrées)� Etiqueteur morphosyntaxique probabiliste� Deux analyseurs de surface, l’un symbolique et l’autre
stochastiquestochastique� Un analyseur stochastique profond
� Outils à disposition� Segmenteur� Etiqueteur� Analyseur syntaxique� Fréquenceur
Tagging: de la transcription à l’analyse
� Annotation morpho-syntaxique� Etiqueteur désambiguïseur (Tagger): associe à chaque mot une
série d’informations morphologiques et syntaxiques
� Pour chaque position dans la séquence, plusieurs catégories sont possibles
Enoncé: La valise est dans le coffreEnoncé: La valise est dans le coffre
Possibilités: Det N N N Det N Pct
N V Prep Pro V Pro
� Solution la plus probable: Det N V Prep Det N Pct
� Désambiguisation: recherche de la solution la plus probable associant une étiquette unique à chaque token de l’énoncé.
Tagging et chunking
� Un tagger probabiliste entraîné sur un corpus de langage écrit (taux de succès d’environ 95%)
Séquence de mots => Séquence la plus probable des catégories
� Adaptation pour traiter des transcriptions de l’oral:� Filtre pour ignorer les annotations non syntaxiques: hésitations, � Filtre pour ignorer les annotations non syntaxiques: hésitations,
amorces de mot, etc
� Insertion par le tagger des ponctuations
� Un chunker probabiliste entraîné sur un corpus annoté en chunks EASY (taux de succès d’environ 92%)
Séquence de mots => Découpage en chunks
Analyse en chunks
� Illustration
Annotation du CID sous Praat
Annotation prosodique
� Prosodie ≠ intonation : organisation complexe [Beckman 1986]
� Conception structurelle tripartite: distribution des primitives et des constructions des systèmes prosodiques selon 3 axesprosodiques selon 3 axes� organisation métrique� organisation intonative� organisation temporelle
� Exemple de représentation plurilinéaire [extraite de Di Cristo et al. 2004] illustrant la complexité inhérente au seul niveau prosodique
Phrasé prosodique
� 2 niveaux de phrasé consensuels en Français
IP: Intonational PhraseIP: Intonational Phraseip: intermediate phraseip: intermediate phraseAP: Accentual PhraseAP: Accentual PhraseL: low toneL: low toneL: low toneL: low toneHi: initial high toneHi: initial high toneH*: high pitch accentH*: high pitch accentTT--: phrasal tone: phrasal toneT%: boundary toneT%: boundary tone
Surface realizations of AP:Surface realizations of AP:LHiLH*LHiLH*LH*LH*LLH*LLH*LHiH*LHiH*LHiL*LHiL*Phonologie intonative du français
adapté de Jun et Fougeron, 2000, 2002
Inventaire des contours intonatifs
� Fin de l’ IP� Forme + fonction� Inventaire des contours
intonatifs [Portes et al. 2007]
Contour type
Terminal risingRT
List risingRL
Rising majorcontinuation
RMC
Label
intonatifs [Portes et al. 2007]
FallingF
Falling from the penultimate
RF2
Rising-fallingRF1
Questioning risingRQ
Terminal risingRT
� 4 heures de dialogues du CID (8 speakers) ont été annotés en contours et phrasé prosodique.
� Temps moyen d’annotation pour les IP et AP : 30 minutes pour une minute.
Actuellement
� Score d’accord inter-annotateur établi sur 1h de dialogue pour les IP (bon accord avec une moyenne d’accord = 91.4% et une moyenne de kappa = 0.79)(voir Nesterenko et al. 2010 pour le détail)
Annotation Discursive[Prévot et al. 2010]
Inspiré des grands projets d’annotation en dialogue et discours
� Unités de discours (UD)Base: unités auxquelles on peut associer une fonction, un but
communicatifcommunicatif
[Bunt, 2009]� Tout est fonction communicative: disfluence (own-communication
management), turn-taking, discourse-structuring…� Chaque dimension communicative a ses unités (une segmentation
/dimension)
Les unités (1)
� Unités de discours (UD)� Base: unités auxquelles on peut associer une fonction, un but
communicatif� Mais:
� Au dessus de ces UD: séquences, paires…Dans ces UD: disfluences, complétions…� Dans ces UD: disfluences, complétions…
Les unités (2)
Les unités (3)
� Syntaxe/sémantique� Prosodie� Discours/interaction
Les relations
� Annoter les relations de cohérence entre les unités de discours
� Relations � La plupart des actes communicatifs sont: relationnels,
dépendants du contexte gauche� Intuitivement relationnel + informatif
� ActesVers l’avant (forward-looking)� Vers l’avant (forward-looking)
� Ouverture des séquences� Cible parfois très vague
(1) AB [on y va avec des copains] [on av()ais pris l(e) ferry en Normandie] [p(ui)sque j'avais un frère qui était en Normandie] [on traverse] [on a(v)ait passé une nuit épouvantab(le) sur le ferry] : [et euh on arrive à Londres] [on voit ma soeur] [e(lle) nous amène dans le B and B où on devait loger]
Actes : Inform, Inform, Inform,....Relations : Narration(1,2), Explication(2,3), ...
� Annotation des deux aspects, sans forcer les relations
Conclusion provisoire
� Annotation du discours à plus large échelle� Focalisation sur certaines fonctions communicatives:
� Contraste, correction en lien avec la structure informationnelle� Feedback (pour une analyse multidimensionnelle)
� Développement� Développement� Segmenteur auto: syntaxe, acoustique, discours� A plus long terme: classification auto des fonctions
communicatives
Niveau mimo-gestuel
� Sous Anvil ou ELAN
� 4 niveaux annotés� Hand� Face� Face� Posture� Head
Annotation gestuelle: illustration 1
XML
Annotations gestuelles: illustration 2
Sp2 en plus c'était une césarienne donc euh {du coup}
Sp �---nod--�
Sp1 {ah bon} elle a accouché avec une césarienne My{riam ah + d'accord} ah beh ouais alors là c'est clairSp1 <----------tilt-------------�
Sp2 {ouais + ouais ouais}
Modèle formel
� Différentes personnes issues de traditions de recherche différentes
� Plusieurs outils
� Nombreux niveaux d’analyse devant être intégrés dans � Nombreux niveaux d’analyse devant être intégrés dans une seule base de données homogène
STANDARDISATION du schéma d’encodage en élaborant un schéma abstrait
Consiste à décrire chaque domaine sous la forme d’une STRUCTURE DE TRAITS TYPEE
Le modèle formel, bases
� Structure de Traits Typés (Typed Feature Structure, TFS)� Objets, sous-types de relations, relation de constituance, traits� Chaque objet a des traits� Chaque objet a une localisation (localisations temporelles telles
qu’intervalles et points étant les plus courantes)qu’intervalles et points étant les plus courantes)� Localisation donnée par l’annotation ou de la structure de la
constituance
Le modèle formel, bases
Structure de traits exprimée en TFS représentant les informations associées à la syllabe (à g.) et aux syntagmes prosodiques (à d.)
Le modèle formel: avantage
� Permet de proposer une représentation globale et homogène de l’information, permettant de décrire précisément les traits, leurs types et leur organisation.
� De + ce modèle permet de générer automatiquement un � De + ce modèle permet de générer automatiquement un schéma XML dans lequel les annotations seront encodées
� Possible de produire un schéma d’encodage générique et réutilisable.
Etat actuel des annotations du CID (1)
Annotations sur la totalité du corpus (8h)
� TOE� Phonèmes� Syllabes� Tokens
� Annotations morphosyntaxiques� Catégories� Chunks syntaxiques
Annotations sur une partie du corpus
� Annotations prosodiques� Phrasé prosodique� Contours intonatifs� Momel-Intsint
Etat actuel des annotations du CID (2)
� Annotations discursives� Unités et relations de discours� Séquences narratives (phases formelles internes)� Discours rapportés� Signaux backchannels� Répétitions (auto et hétéro)� Répétitions (auto et hétéro)� Disfluences� Détachements
� Annotations gestuelles� Regard� Mains� Tête� Posture
Exploitation des ressources du CID
� Niveau phonétique => niveau morpho-syntaxique [Meunier & Espesser, 2008; 2011; Meunier, Meynadier & Espesser, 2008]� Influence des facteurs lexicaux sur la réduction des voyelles en parole
conversationnelle? => Importance du niveau discursif ??
� Niveaux discursif, prosodique, morpho-syntaxique et gestuel [Bertrand & al. 2007, 2008; Ferré 2008]
60
[Bertrand & al. 2007, 2008; Ferré 2008]� Rôle des indices prosodiques et gestuels dans la structuration des tours
de parole � Séquences narratives� Contexte d’apparition des signaux backchannels (gestuels et vocaux)
=>Importance du niveau phonétique (rôle de la qualité vocale -creakyvoice- dans l’alternance des tours) ??
Backchannels: Exemple de requêtes
� Backchannels: produits par les interlocuteurs. Tant vocaux que gestuels (mouvements de tête, sourires et rires, mouvements de sourcils, etc.)
� Question: Comportement identique des BC vocaux et gestuels? Apparaissent-ils dans une contexte prosodique ou morphosyntaxique spécifique?ou morphosyntaxique spécifique?
ah ouais nous on est rentré à (...) dix heures dix heures et demi je crois du soir (...)ABAB
et elle a accouché à six heures je crois (...)nod
ah quand même ouaishead tilt
eyebrow raisingdonc c’était ouais c’était quand même assez long quoi (...)A
B head tilt
Backchannels: résultats
� Les BCs vocaux et gestuels ont un comportement similaire bien queles gestuels apparaissent plus tardivement que les vocaux.
� Contexte morphologique et discursif� Après les noms, verbes et adverbes (les mots avec une fonction
sémantique)� Jamais après les connecteurs (qui font le lien entre deux tours de
parole)parole)
� Contexte prosodique� BCs gestuels: à la fois après les ap et les IPs� BCs vocaux (ou complexes): essentiellement après les IPs� Favorisés par des contours montants (continuatifs) ou plats
� Conclusion� Les BCs sont produits après des points de complétion mmais peu ou
pas avant un possible changement de tour.
Conclusion� Importance des corpus multimodaux
� Etude de la parole non préparée, en contexte de dialogue� Etude des interactions entre les domaines
� Intérêt d’une chaîne de traitement� Aide à la création de corpus annotés� Possibilité de constituer des corpus importants� Possibilité de constituer des corpus importants� Standardisation de l’encodage� Homogénéisation des formats de sortie
� Etapes en cours et perspectives� Interrogation multiniveaux (requêtes)
Merci de votre attention
OTIMhttp ://aune.lpl.univ-aix.fr/~otim
CRDO (Centre de ressources
pour la description des données orales)
http://www.crdo.fr/
RéférencesBeckman, M. E. and J. B. Pierrehumbert, (1986) “Intonational structure in
Japanese and English”, Phonology Yearbook 3, 255-309Bertrand, R., Blache, P., Espesser, R. (2008) Le CID –Corpus of Interactional
Data- Annotation et exploitation multimodale de parole conversationnelle, TAL, 49(3)
Bigi, B., Bertrand, R., Guardiola, M. (2010) Recherche automatique d'hétéro-répétitions dans un dialogue oral spontané, JEP, Mons, BELGIUM
Blache, P.; Bertrand, R.; Ferré, G. Creating and exploiting multimodal annotated Blache, P.; Bertrand, R.; Ferré, G. Creating and exploiting multimodal annotated corpora: the ToMA project. In Kipp M. (eds.) Multimodal Corpora. Berlin: Springer-Verlag. 2009, vol.LNAI 5509, p. 38-53.
Blache P. & Rauzy S. (2008) «Influence de la qualité de l'étiquetage sur le chunking : une corrélation dépendant de la taille des chunks», Actes de TALN08
Blanche-Benveniste, C., Jeanjean, C.: Le français parlé, Transcription et édition, Didier (1987)
Bunt H. (2009) Multifunctionality and multidimensional dialogue semantics, In Proceedings of DiaHolmia’09, SEMDIAL.
Di Cristo, A., Auran, C., Bertrand, R., et al.: Outils prosodiques et analyse du discours. In:Simon, A.C., Auchlin, A., Grobet, A. (eds.) Cahiers de Linguistique de Louvain 28, Peeters, pp. 27–84 (2004)
Références
Jun, S.-A., Fougeron, C.: Realizations of accentual phrase in French intonation. Probus 14
Kipp M. (2006) Anvil 4.0. Annotation of Video and Spoken Language.(http://www.dfki.de/~kipp/anvil)
Meunier C. & Espesser R. Vowel reduction in conversational speech in Meunier C. & Espesser R. Vowel reduction in conversational speech in French: The role of lexical factors. Journal of Phonetics (2011) (in press, already published online)
Prévot, L., Bertrand, R., Priego-Valverde B., Blache, P., (2010) Discourse and interaction in french conversations, a case study for interoperable semantic annotation.In Proceedings of Interoperable Semantic Annotation Workshop.
Portes C., Bertrand R. & Espesser R. (2007) «Contribution to a grammar of intonation in French. Form and function of three rising patterns», Nouveaux Cahiers de Linguistique Française, 28