Plateforme d’annotation multimodale sur un corpus d’interactions en français · 2018-05-23 · Plateforme d’annotation multimodale sur un corpus d’interactions en français

Plateforme d’annotation multimodale sur un corpus

d’interactions en françaisd’interactions en françaisRoxane Bertrand

Laboratoire Parole & Langage,CNRS, Aix-en-Provence

Ecole thématique « Annotation de données langagières »Biarritz, 10-16 septembre 2011

Multimodalité et interaction

� Parole continueen face à face, conversation� Différentes modalités (verbal, mimo-gestuel)

Moyens � Moyens � Corpus� Annotations

� Besoins� Formalisme� Outils

Situation

� Objectif� Description précise des différents niveaux linguistiques

� Prosodie, phonologie, morphologie, syntaxe, discours, interaction et mimo-gestualité

� Description fine de chacun des niveaux

� Problèmes� Description de chaque niveau� Synchronisation entre les descriptions

Outils pour l’analyse de l’information multimodale (OTIM)

� Elaboration d’un schéma d’encodage général� Identification et/ou mise au point d’une série d’outils pour

aider à l’annotation linguistique (syllabeur, alignement texte/parole, tagger, chunker, …)

� Représentation (spécification d’un formalisme)� Développement d’un langage de requêtes� Etudes possibles

� Syntaxe / prosodie / discours� Gestes / prosodie / structure conversationnelle� Propriétés acoustiques / tours de parole …

Plan� Constitution de corpus pour l’étude de la

multimodalité: le cas du CID

� Chaine de traitement pour la constitution de ressources enrichies� Les différentes annotations� Les différentes annotations� Le modèle formel

� Requêtes et exploitation

� Conclusion

CONSTITUTION DU CORPUS

Le CID -Corpus of Interactional Data-[Bertrand et al. 2008]

� Données primaires� Audio� Video

video

Locuteurs et design expérimental� 8 h dialogues semi-guidés (non mixtes, 3HH, 5FF); 100,000 mots

� Locuteurs� familiarité avec les lieux, les expérimentateurs, entre sujets eux-mêmes� milieu professionnel similaire� Tranche d’âge: 25~45 ans� Origine géographique (50% région PACA / ≈ 50% autres).

� Lieu et modalités d’enregistrement� chambre sourde (micro-casque, piste séparée)� Filmé

� Consigne� Série 1 (2003): conflits professionnels (10 locs)� Série 2 (2005): situations insolites (6 locs)

Type de données

� Type intermédiaire Map-Task ~ données naturelles� Critères de la conversation

� objectif externe lié à la consigne *� statut symétrique des participants� niveau de coopération� style informel� style informel� tours de parole non pré-déterminés� séquences hétérogènes, activités langagières variées (narration,

explication, description, argumentation, etc.)� ensemble des actions/actes de langage (assertion, question, demande

de confirmation, etc.) à l’œuvre en interaction

Niveaux d’annotations

� Transcription� Alignement graphème/phonème + segmentation syllabique

(automatique)� Prosodie (manuel et automatique)� Analyse morpho-syntaxique et syntaxique (automatique)� Disfluences (manuel)� Discours et interaction (manuel)� Gestes (postures, face, mains, regard) (manuel)

par différentes équipes en France (LIMSI, LLING, LPL)

Outils utilisés: Praat, Anvil, Elan

CID: an Open Source Corpus

� Corpus et annotationhttp://crdo.fr

� CRDO: projet français d’archivage et de mutualisation des données audio et video.

LA CHAINE DE TRAITEMENT

Pré-segmentation du signal de parole

� Segmentation en unité inter-pausale (Inter Pausal Unit -IPU-) (pause silencieuse ≥ 200 ms) (sous Praat):~ 13000 IPUs(median: 1390 ms

quartiles: 600, 2770 ms)

� Transcription manuelle (Praat)Transcription Orthographique enrichie (TOE)

La Transcription Orthographique Enrichie

� L’orthographe seul ne peut pas rendre compte des phénomènespropres à l’oral spontané

� Outils conçus pour le français standard (corpus lu, préparé)� Aucune garantie sur les résultats de données de français

spontané� L’écart à la norme d’un tel corpus est inconnu� L’écart à la norme d’un tel corpus est inconnu

transcription d’un maximum d’informations

� Ajout d’informations sur les phénomènes oraux (fréquence,patrons)

� Améliore la performance des outils impliqués dans l’étaped’alignement phonétique

Principales conventions de la TOE

Adaptées du GARS (Blanche-Benveniste, 1987)

rire il est @ parti loinséquence dite en riant il est @@ parti loin @@élision t(u) as vu /tavy/amorce s- c’est non /s se no~/amorce s- c’est non /s se no~/liaison non attendue les =z= haricots /lezaRiko/réalization non-standard

� assimilation [je sais pas, Sepa] /Sepa/� réalisation du schwa final(français méridionnal) le [verre, veR2] l2 veR2

….

Instructions aux annotateurs

� Travail à l’oreille (le transcripteur n’utilise pas le signalaudio)

� En cas de doute: transcription orthographique privilégiée� Favoriser la notation des élisions t(u) as vu et non [ttu as,

ta] vuta] vu

� 3 annotateurs (1 passage initial puis 2 corrections)� Temps d’annotation estimé: environ 30mns/1mn

Signal et transcription

Plan du traitement automatique

TOE

Standard ortho.non je suis pas

TaggerParser

Annotations

Noun, verb, …NLP

TOEnon [je suis,Syi] pas

Specifictranscription

non Syi pas

Grapheme-phoneme converterPhoneme alignerSyllabifier

Annotations

Time alignedphoneme,syllable,ortho. token

SPEECH

Phonétisation et alignement

� Production de la suite de phonèmes� Tokenisation� Suite de phonèmes codée en SAMPA

� Alignement� Entrée : liste des phonèmes + signal audio� Localisation temporelle de chaque phonème sur le signal

� Ces 2 niveaux servent de référence aux autres niveaux et permettent leur mise en relation temporelle

Signal, alignement : phonèmes et tokens

Quelques chiffres: mots tronqués (amorces)

730 amorces� 455 formes� les 18 formes > 1%

représentant 50% des amorces

i- 79 0.045612d- 78 0.0450346p- 71 0.0409931t- 69 0.0398383m- 67 0.0386836j- 64 0.0369515s- 62 0.0357968l- 52 0.0300231

� Ex ambigu/i/ /i/ /i/ /va/ /parle/:1) i- i- i(l) va parler2) i(l) i(l) i(l) va parler

l- 52 0.0300231a- 50 0.0288684v- 44 0.0254042qu- 39 0.0225173f- 37 0.0213626b- 34 0.0196305ç- 32 0.0184758c'- 32 0.0184758n- 23 0.0132794de- 21 0.0121247re- 16 0.00923788

23

Les élisions

� ~ 11000 phonèmes élidés (3.6 % of 302,000 phonèmes)

� 187 formes

� les 10 formes avec une � les 10 formes avec une fréquence > 1%

= 88% des phonèmes élidés

Réalisations phonétiques non-standard (prononciations particulières)

� 2810 items , 1300 formes[je , S] : 7.7 %[je sais, Se] : 6 %[je suis, SHi] : 2.9 %[je suis, Sy] : 0.9 %

~ 17 %

% items #occurrence37 1 (la moitié = 520 items = schwas finals )5 21.6 3

~50 % [ ] pourraient être traités automatiquement (schwas finals + 4 formes les plus fréquentes)

Les Rires

� 2111 séquences de rires � 367 sequences en riant� 844 sequences de rire isolé (IPU sans parole)

~ 16% of the 13000 IPUs alignées contiennent (au moins) une séquence de rireséquence de rire

Les Chevauchements de parole

Median 500 ms

1st Qu. 250

3rd Qu. 1000

4753 chevauchements ( ipuoverlapping)

12.6% ≤ 150 ms ( valeur minimale pour un chevauchement pertinent 3rd Qu. 1000chevauchement pertinent linguistiquement ?)

6% ≤ 80 ms

63 % des ~13000 IPUsimpliquent un chevauchement (>150ms)

Conclusion provisoire� La TOE favorise

� pre- et post traitement + simple � outils de traitement de la parole + standards

Des analyses phonétiques (au niveau de la voyelle o u de la syllabe) sont ainsi possibles sur un large corpus non contrôlé de parol e conversationnelle

� La TOE pourrait être simplifiée� en réduisant le temps de transcription manuel, en fonction des possibilités � en réduisant le temps de transcription manuel, en fonction des possibilités

de l’alignement automatique pour les élisions standard, les liaisons, et éventuellement les schwas finals

� Amélioration du traitement graphème-phonème� Amélioration de l’outil d’alignement (nouveau modèle acoustique...)

(*) MEUNIER C. & ESPESSER R. Vowel reduction in conversational speech in French: The role of lexical factors. Journal of Phonetics (2011) (in press, already published online)

Syllabation et tokenisation

� Production de la suite de syllabes� Développement d’un outil permettant d’identifier

automatiquement les segments syllabiques (cf Bigi et al. 2010)

� Intérêt d’une annotation en syllabes � Structure et fréquence des syllabes en français spontané� Analyses suprasegmentales fondées sur la syllabe (organisation � Analyses suprasegmentales fondées sur la syllabe (organisation

rythmique et accentuelle)� les phénomènes divers en spontané (enchaînement, élisions…)

qui conduisent à des suites syllabiques spécifiques

� Production d’une suite de tokens orthographiques� À partir de la phonétisation� Indispensables aux modules syntaxique et discursif

Annotation des syllabes

Ressources et outils syntaxiques: LPLSuite[Rauzy & Blache, 2008, 2010]

� Chaîne de traitement pour l’analyse morpho-syntaxiqueet syntaxique� Segmenteur par règles et lexique (440 000 entrées)� Etiqueteur morphosyntaxique probabiliste� Deux analyseurs de surface, l’un symbolique et l’autre

stochastiquestochastique� Un analyseur stochastique profond

� Outils à disposition� Segmenteur� Etiqueteur� Analyseur syntaxique� Fréquenceur

Tagging: de la transcription à l’analyse

� Annotation morpho-syntaxique� Etiqueteur désambiguïseur (Tagger): associe à chaque mot une

série d’informations morphologiques et syntaxiques

� Pour chaque position dans la séquence, plusieurs catégories sont possibles

Enoncé: La valise est dans le coffreEnoncé: La valise est dans le coffre

Possibilités: Det N N N Det N Pct

N V Prep Pro V Pro

� Solution la plus probable: Det N V Prep Det N Pct

� Désambiguisation: recherche de la solution la plus probable associant une étiquette unique à chaque token de l’énoncé.

Tagging et chunking

� Un tagger probabiliste entraîné sur un corpus de langage écrit (taux de succès d’environ 95%)

Séquence de mots => Séquence la plus probable des catégories

� Adaptation pour traiter des transcriptions de l’oral:� Filtre pour ignorer les annotations non syntaxiques: hésitations, � Filtre pour ignorer les annotations non syntaxiques: hésitations,

amorces de mot, etc

� Insertion par le tagger des ponctuations

� Un chunker probabiliste entraîné sur un corpus annoté en chunks EASY (taux de succès d’environ 92%)

Séquence de mots => Découpage en chunks

Analyse en chunks

� Illustration

Annotation du CID sous Praat

Annotation prosodique

� Prosodie ≠ intonation : organisation complexe [Beckman 1986]

� Conception structurelle tripartite: distribution des primitives et des constructions des systèmes prosodiques selon 3 axesprosodiques selon 3 axes� organisation métrique� organisation intonative� organisation temporelle

� Exemple de représentation plurilinéaire [extraite de Di Cristo et al. 2004] illustrant la complexité inhérente au seul niveau prosodique

Phrasé prosodique

� 2 niveaux de phrasé consensuels en Français

IP: Intonational PhraseIP: Intonational Phraseip: intermediate phraseip: intermediate phraseAP: Accentual PhraseAP: Accentual PhraseL: low toneL: low toneL: low toneL: low toneHi: initial high toneHi: initial high toneH*: high pitch accentH*: high pitch accentTT--: phrasal tone: phrasal toneT%: boundary toneT%: boundary tone

Surface realizations of AP:Surface realizations of AP:LHiLH*LHiLH*LH*LH*LLH*LLH*LHiH*LHiH*LHiL*LHiL*Phonologie intonative du français

adapté de Jun et Fougeron, 2000, 2002

Inventaire des contours intonatifs

� Fin de l’ IP� Forme + fonction� Inventaire des contours

intonatifs [Portes et al. 2007]

Contour type

Terminal risingRT

List risingRL

Rising majorcontinuation

RMC

Label

intonatifs [Portes et al. 2007]

FallingF

Falling from the penultimate

RF2

Rising-fallingRF1

Questioning risingRQ

Terminal risingRT

� 4 heures de dialogues du CID (8 speakers) ont été annotés en contours et phrasé prosodique.

� Temps moyen d’annotation pour les IP et AP : 30 minutes pour une minute.

Actuellement

� Score d’accord inter-annotateur établi sur 1h de dialogue pour les IP (bon accord avec une moyenne d’accord = 91.4% et une moyenne de kappa = 0.79)(voir Nesterenko et al. 2010 pour le détail)

Annotation Discursive[Prévot et al. 2010]

Inspiré des grands projets d’annotation en dialogue et discours

� Unités de discours (UD)Base: unités auxquelles on peut associer une fonction, un but

communicatifcommunicatif

[Bunt, 2009]� Tout est fonction communicative: disfluence (own-communication

management), turn-taking, discourse-structuring…� Chaque dimension communicative a ses unités (une segmentation

/dimension)

Les unités (1)

� Unités de discours (UD)� Base: unités auxquelles on peut associer une fonction, un but

communicatif� Mais:

� Au dessus de ces UD: séquences, paires…Dans ces UD: disfluences, complétions…� Dans ces UD: disfluences, complétions…

Les unités (2)

Les unités (3)

� Syntaxe/sémantique� Prosodie� Discours/interaction

Les relations

� Annoter les relations de cohérence entre les unités de discours

� Relations � La plupart des actes communicatifs sont: relationnels,

dépendants du contexte gauche� Intuitivement relationnel + informatif

� ActesVers l’avant (forward-looking)� Vers l’avant (forward-looking)

� Ouverture des séquences� Cible parfois très vague

(1) AB [on y va avec des copains] [on av()ais pris l(e) ferry en Normandie] [p(ui)sque j'avais un frère qui était en Normandie] [on traverse] [on a(v)ait passé une nuit épouvantab(le) sur le ferry] : [et euh on arrive à Londres] [on voit ma soeur] [e(lle) nous amène dans le B and B où on devait loger]

Actes : Inform, Inform, Inform,....Relations : Narration(1,2), Explication(2,3), ...

� Annotation des deux aspects, sans forcer les relations

Conclusion provisoire

� Annotation du discours à plus large échelle� Focalisation sur certaines fonctions communicatives:

� Contraste, correction en lien avec la structure informationnelle� Feedback (pour une analyse multidimensionnelle)

� Développement� Développement� Segmenteur auto: syntaxe, acoustique, discours� A plus long terme: classification auto des fonctions

communicatives

Niveau mimo-gestuel

� Sous Anvil ou ELAN

� 4 niveaux annotés� Hand� Face� Face� Posture� Head

Annotation gestuelle: illustration 1

XML

Annotations gestuelles: illustration 2

Sp2 en plus c'était une césarienne donc euh {du coup}

Sp �---nod--�

Sp1 {ah bon} elle a accouché avec une césarienne My{riam ah + d'accord} ah beh ouais alors là c'est clairSp1 <----------tilt-------------�

Sp2 {ouais + ouais ouais}

Modèle formel

� Différentes personnes issues de traditions de recherche différentes

� Plusieurs outils

� Nombreux niveaux d’analyse devant être intégrés dans � Nombreux niveaux d’analyse devant être intégrés dans une seule base de données homogène

STANDARDISATION du schéma d’encodage en élaborant un schéma abstrait

Consiste à décrire chaque domaine sous la forme d’une STRUCTURE DE TRAITS TYPEE

Le modèle formel, bases

� Structure de Traits Typés (Typed Feature Structure, TFS)� Objets, sous-types de relations, relation de constituance, traits� Chaque objet a des traits� Chaque objet a une localisation (localisations temporelles telles

qu’intervalles et points étant les plus courantes)qu’intervalles et points étant les plus courantes)� Localisation donnée par l’annotation ou de la structure de la

constituance

Le modèle formel, bases

Structure de traits exprimée en TFS représentant les informations associées à la syllabe (à g.) et aux syntagmes prosodiques (à d.)

Le modèle formel: avantage

� Permet de proposer une représentation globale et homogène de l’information, permettant de décrire précisément les traits, leurs types et leur organisation.

� De + ce modèle permet de générer automatiquement un � De + ce modèle permet de générer automatiquement un schéma XML dans lequel les annotations seront encodées

� Possible de produire un schéma d’encodage générique et réutilisable.

Etat actuel des annotations du CID (1)

Annotations sur la totalité du corpus (8h)

� TOE� Phonèmes� Syllabes� Tokens

� Annotations morphosyntaxiques� Catégories� Chunks syntaxiques

Annotations sur une partie du corpus

� Annotations prosodiques� Phrasé prosodique� Contours intonatifs� Momel-Intsint

Etat actuel des annotations du CID (2)

� Annotations discursives� Unités et relations de discours� Séquences narratives (phases formelles internes)� Discours rapportés� Signaux backchannels� Répétitions (auto et hétéro)� Répétitions (auto et hétéro)� Disfluences� Détachements

� Annotations gestuelles� Regard� Mains� Tête� Posture

Exploitation des ressources du CID

� Niveau phonétique => niveau morpho-syntaxique [Meunier & Espesser, 2008; 2011; Meunier, Meynadier & Espesser, 2008]� Influence des facteurs lexicaux sur la réduction des voyelles en parole

conversationnelle? => Importance du niveau discursif ??

� Niveaux discursif, prosodique, morpho-syntaxique et gestuel [Bertrand & al. 2007, 2008; Ferré 2008]

60

[Bertrand & al. 2007, 2008; Ferré 2008]� Rôle des indices prosodiques et gestuels dans la structuration des tours

de parole � Séquences narratives� Contexte d’apparition des signaux backchannels (gestuels et vocaux)

=>Importance du niveau phonétique (rôle de la qualité vocale -creakyvoice- dans l’alternance des tours) ??

Backchannels: Exemple de requêtes

� Backchannels: produits par les interlocuteurs. Tant vocaux que gestuels (mouvements de tête, sourires et rires, mouvements de sourcils, etc.)

� Question: Comportement identique des BC vocaux et gestuels? Apparaissent-ils dans une contexte prosodique ou morphosyntaxique spécifique?ou morphosyntaxique spécifique?

ah ouais nous on est rentré à (...) dix heures dix heures et demi je crois du soir (...)ABAB

et elle a accouché à six heures je crois (...)nod

ah quand même ouaishead tilt

eyebrow raisingdonc c’était ouais c’était quand même assez long quoi (...)A

B head tilt

Backchannels: résultats

� Les BCs vocaux et gestuels ont un comportement similaire bien queles gestuels apparaissent plus tardivement que les vocaux.

� Contexte morphologique et discursif� Après les noms, verbes et adverbes (les mots avec une fonction

sémantique)� Jamais après les connecteurs (qui font le lien entre deux tours de

parole)parole)

� Contexte prosodique� BCs gestuels: à la fois après les ap et les IPs� BCs vocaux (ou complexes): essentiellement après les IPs� Favorisés par des contours montants (continuatifs) ou plats

� Conclusion� Les BCs sont produits après des points de complétion mmais peu ou

pas avant un possible changement de tour.

Conclusion� Importance des corpus multimodaux

� Etude de la parole non préparée, en contexte de dialogue� Etude des interactions entre les domaines

� Intérêt d’une chaîne de traitement� Aide à la création de corpus annotés� Possibilité de constituer des corpus importants� Possibilité de constituer des corpus importants� Standardisation de l’encodage� Homogénéisation des formats de sortie

� Etapes en cours et perspectives� Interrogation multiniveaux (requêtes)

Merci de votre attention

OTIMhttp ://aune.lpl.univ-aix.fr/~otim

CRDO (Centre de ressources

pour la description des données orales)

http://www.crdo.fr/

RéférencesBeckman, M. E. and J. B. Pierrehumbert, (1986) “Intonational structure in

Japanese and English”, Phonology Yearbook 3, 255-309Bertrand, R., Blache, P., Espesser, R. (2008) Le CID –Corpus of Interactional

Data- Annotation et exploitation multimodale de parole conversationnelle, TAL, 49(3)

Bigi, B., Bertrand, R., Guardiola, M. (2010) Recherche automatique d'hétéro-répétitions dans un dialogue oral spontané, JEP, Mons, BELGIUM

Blache, P.; Bertrand, R.; Ferré, G. Creating and exploiting multimodal annotated Blache, P.; Bertrand, R.; Ferré, G. Creating and exploiting multimodal annotated corpora: the ToMA project. In Kipp M. (eds.) Multimodal Corpora. Berlin: Springer-Verlag. 2009, vol.LNAI 5509, p. 38-53.

Blache P. & Rauzy S. (2008) «Influence de la qualité de l'étiquetage sur le chunking : une corrélation dépendant de la taille des chunks», Actes de TALN08

Blanche-Benveniste, C., Jeanjean, C.: Le français parlé, Transcription et édition, Didier (1987)

Bunt H. (2009) Multifunctionality and multidimensional dialogue semantics, In Proceedings of DiaHolmia’09, SEMDIAL.

Di Cristo, A., Auran, C., Bertrand, R., et al.: Outils prosodiques et analyse du discours. In:Simon, A.C., Auchlin, A., Grobet, A. (eds.) Cahiers de Linguistique de Louvain 28, Peeters, pp. 27–84 (2004)

Références

Jun, S.-A., Fougeron, C.: Realizations of accentual phrase in French intonation. Probus 14

Kipp M. (2006) Anvil 4.0. Annotation of Video and Spoken Language.(http://www.dfki.de/~kipp/anvil)

Meunier C. & Espesser R. Vowel reduction in conversational speech in Meunier C. & Espesser R. Vowel reduction in conversational speech in French: The role of lexical factors. Journal of Phonetics (2011) (in press, already published online)

Prévot, L., Bertrand, R., Priego-Valverde B., Blache, P., (2010) Discourse and interaction in french conversations, a case study for interoperable semantic annotation.In Proceedings of Interoperable Semantic Annotation Workshop.

Portes C., Bertrand R. & Espesser R. (2007) «Contribution to a grammar of intonation in French. Form and function of three rising patterns», Nouveaux Cahiers de Linguistique Française, 28

Documents

Plateforme d’annotation multimodale sur un corpus d’interactions en français · 2018-05-23 · Plateforme d’annotation multimodale sur un corpus d’interactions en français