110
1 Annotation intonosyntaxique de corpus oraux A. Dister, A. Lacheret Ecole thématique annotation de données langagières, Biarritz, 11-16 septembre 2011 Protocole Rhapsodie, http://rhapsodie.risc.cnrs.fr/fr/

Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

1

Annotation intonosyntaxiquede corpus oraux

A. Dister, A. Lacheret

Ecole thématique annotation de données langagières, Biarritz, 11-16 septembre 2011

Protocole Rhapsodie, http://rhapsodie.risc.cnrs.fr/fr/

Page 2: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

2

Matériel sur clé

• Tutorial Praat, easyalign• Guide codage proéminences prosodiques• Document annotation tonale Prosogram• Deux corpus transcrits avec et sans balise (formats txt

ou doc)• Bibliographie ≈ thématique• Articles

– CBB transcription orale et morphologie– Groupe syntaxe Rhapsodie : segmentation syntaxique de l’oral– PPT CM, TP prosodie

• CM en couleur– Slides gris = transition– Slides jaunes = matériel post école (ex procédure d’alignement,

contours globaux en prosodie,

– Matériel TP dans dossier TP • Textgrids, wav, doc

Page 3: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

3

Contexte, enjeux, objectifs et méthodes

• Contexte : donné à manipuler en entrée = continuum sonore– Annotation : transcription, segmentation

• Enjeux & objectifs– Pour quoi faire ?

• Enjeux théoriques (linguistique de corpus, linguistique fonctionnelle) et technologiques

– Comment faire (tâches) ?

• Méthodes et outils pour le faire (manuel vs automatique) ?– a) en syntaxe – b en prosodie – c) assemblage intonosyntaxique

Page 4: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

4

Pour quoi faire ?

Page 5: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

5

Pour quoi faire : enjeux théoriques (1/3)

• Linguistique de corpus

– constitution, annotation• Archivage• Requêtes sur les données

� Méthode d’annotation mutualisée– Mise au point de formats pour l’annotation prosodique

et syntaxique de données orales dans une perspective d’interopérabilité et d’échange ;

– Interface web de consultation et d’annotations de données orales structurées (requêtes + affichages) ;

– Distribution en ligne d’outils pour traiter et analyser ces ressources avec manuels d’utilisation ;

Page 6: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

6

Pour quoi faire : enjeux théoriques (2/3)

• Linguistique de corpus oraux & transfert de connaissances

– Une nouvelle lunette d’observation • aller-retour entre traitement manuel et automatique: adapter

aux spécificités de l’oral outils conçus pour traitement de l’écrit (traitement syntaxique) ou élaborés pour lecture oralisée, ctx = phonétique de laboratoire (annotations prosodiques).

• questions posée par annotation des données orales tout venant : pas seulement objectifs pratiques mais aussi levier pour impulser propositions théoriques avec nouveaux modes de représentation à l’interface de syntaxe et prosodie (segmentation en groupes : comment couper ? Comment catégoriser les unités qui émergent ? Etc. Réf 1.16)

Page 7: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

7

Pour quoi faire : enjeux théoriques (3/3)• Linguistique fonctionnelle (interprétative, vs formelle): activité de

langage fondamentalement déterminée par les fonctions qu’elle sert: Réf 1. 21)– Discours :

• fonctionnement des formes intonosyntaxiques rencontrées dans le discours

– types de corrélations entre unités syntaxiques et marqueurs prosodiques dans la structuration des discours (réf 1.6)

» Identification d’unités de discours de rang et de portée variable (ex l’équivalent de la phrase à l’écrit)

» Constructions grammaticales prototypiques sous l’angle intonosyntaxique (ex. parataxe, greffes, extractions gauches et droites, parenthèses, incises )

– hypothèses sur les raisons énonciatives qui motivent leur choix.

» Indices de point de vue, expressivité» Marquage du discours autre (l’hypothèse du faible

marquage de la clôture d’un discours rapporté est-elle vérifiée?)

» Empaquetage informationnel» etc

Page 8: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

8

Pour quoi faire : enjeux technologiques

• Grands corpus oraux annotés : passage à l’échelle �besoin de corpus oraux annotés manuellement (syntaxe+prosodie)

• TAP– Apprentissage automatique (entraîner des systèmes

en vue d’annotations automatiques ultérieures �corpus annotés manuellement)

– Modèle de génération automatique de la prosodie pour la synthèse de la parole : analyseur syntaxique automatique (syntaxe de surface (tagging), syntaxe profonde (relations entre unités ± contigues, microsyntaxe, macrosyntaxe)

Page 9: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

9

Illustration : Détection automatique des proéminences sous Analor

S-3 S-2 S-1 S0 S-3 S-2 S-1 S0 S-3 S-2 S-1 S0 S+1 S+2 S+3

Réf 1.5, 1.7

Page 10: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

10

Comment faire ?

Page 11: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

11

• Encore trop tôt pour faire trop grand : privilégier l’approche qualitative (vs approche quantitative (≠ grands corpus oraux type PFC))

– Faire peu pour faire bien, propre et cohérent ; peu = déjà beaucoup !– annotation exhaustive : corpus entier annoté et vérifié

• Privilégier la variété des sources (ESLO, PFC, CFPP, corpus de thèses)– monologues et dialogues– parole privée, professionnelle, publique– Entretiens semi-dirigés, conversations libres– Descriptions, prescriptions, narrations, argumentation

• Hétérogénéité vs représentativité– chaque type de discours engendre des marqueurs et des constructions

caractéristiques du type en question � richesse des annotations fournies en sortie relève de la diversité des situations

discursives, i.e. de la pluralité des constructions à gérer (constructions « standards » mais aussi « non standards »)

!! Petit corpus diff. de couverture faible

� En sortie : des annotations utilisables pour des systèmes d’apprentissage automatique de structures sur des genres variés en syntaxe comme en prosodie

Page 12: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

12

Architectureson

Transcription manuelle normalisée (TON)

Alignement semi-automatique (au phonème)easy-align sous PRAAT

son + TON

son + TextGrid

Annotation prosodiquemanu + auto

annotationsyntaxique

Macro manuelle Micro semi-automatiqueson + TG

assemblage

pivotpivot

Page 13: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

13

Méthodes et outils pour le faire

Transcription orthographique & annotation syntaxique

Page 14: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

14

1re étape : transcription orthographique

Corpus : données “éparpillées”- uniquement le son- transcription en texte suivi- transcription alignée au son

Conventions différentes

� NOS conventions Rhapsodie, harmoniser strictement lesdonnées

Page 15: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

15

1re étape : transcription orthographique

Transcrire : un jeu d’enfant ?

“Travail de copiste, de secrétaire”. “Il suffit d’écouter.”

Cf. La petite phrase de Martine Aubry à propos de Ségolène Royala bien montré qu’il ne suffit pas d’écouter…

Travail sous-estimé, dévalorisé.Pourtant “transcription as theory” (Ochs 1979)

Page 16: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

16

La transcription

Le français parlé. Transcription et édition.(Blanche-Benveniste et Jeanjean, 1987, Didier Erudition)

• Problèmes d’écoute liés

- à l’enregistrement- au nombre de locuteurs- à la variété de langue du locuteur

Page 17: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

17

La transcription

• Problèmes liés à la transcription elle-même

Que transcrire ?Utopie du « tout transcrire »Cibler ses objectifs de recherche

� Conventions de transcription explicites

Page 18: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

18

Les conventions de transcription Rhapsodie.Principes

1) orthographe standard vs phonétique

� pas de « trucage orthographique »

« Vois-tu, dit Alberta, Mr. Harris s’est imaginé que Teddy d’venait vieux et qu’il allait être malade là-bas, ou s’ perdre – ou s’ faire mordre par un serpent, ou s’ faireattaquer par un lapin et enfermer dans un terrier… C’est pourquoi ici – ici, en plein ville ! – s’étale la vieille Alberta Perkins, dans les vapeurs tropicales de l’été ! Pendant ce temps, où crois-tu, bonté divine, où crois-tu que ce teigneux de chien s’ trouve ? Hein ? Peux-tu me dire où il est ? Devine. Vas-y. Je t’ le donne en mille ! Hooker ?- J’ sais pas, dit Iris.- Je ne sais pas », dit Hooker. (Thimoty Findley, trad. 1995)

� lisibilité + cohérence tout au long de la transcription� parce que vs *pasque ; ils vont vs *i vont; ils ont vs *i-z-ont

� aucune élision (tu as vs *t’as ; peut-être vs *p’têt)

Page 19: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

19

Les conventions de transcription Rhapsodie

2) Pas de ponctuation. Abandon du concept de phrase à l’oral

� essentiellement notion liée à l’écrit

� liée étroitement à la typographie(Berrendonner 1993 : « unité de typographe »)

� pas de bi-univocité pause orale / ponctuation

« La ponctuation, si on la met trop tôt, préjuge de l’analyse syntaxique et impose un découpage sur lequel il est difficile de revenir. » (Blanche-Benveniste et Jeanjean 1987 : 139)

� Quand texte suivi, changement de ligne pour changement de locuteur

Page 20: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

20

Transcription orthographique normalisée

3) pas de pause silencieuse

4) prise en compte de l’”oralité” des données, avec notation minutieuse de :

- euh- répétitions- amorces de morphèmes- chevauchements de parole

� Convergence avec de nombreux centres de recherches

Page 21: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

21

Transcription – un exemple

donc vous allez jusqu’au bout jusqu’à un grand carrefour là oùvous allez voir le le cinéma La Nef Chavant et quand vous serez donc à La Nef Chavant alors là euh il vous vous passez à droite du cinéma une petite rue qui part à droite du cinéma euh qui en fait qui c’est sur la ligne du tram hein vous suivez la ligne du tram

Page 22: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

22

Annotation syntaxique

A l’heure actuelle, aucun outil d’annotation syntaxique automatiquepour de l’oral transcrit

� Adapter des outils existants� Fournir à des outils existants des entrées qu’ils peuvent traiter

Rhapsodie : annotation manuelle et annotation automatique2 niveaux d’annotation : - niveau 0 : micro et macrosyntaxe +

entassements- niveau 1 : dépendance + fonctions +

classes grammaticales

Page 23: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

23

Annotation syntaxique.Remarques préalables

1) Annotation syntaxique se fait en écoutant le son

Buts : ne pas créer de “faux” problèmesEx. Difficultés en périphérie de segment : rattachement d’un segment à

gauche ou à droite.et tout cela grâce à notre boule de lavage maître alors qu'est-ce qu’on peut dire en conclusion. (D211 téléachat)

Danger : accorder trop de poids à la prosodie dès le découpagesyntaxique

2) Pas de double annotation en cas de doute (idem transcription)

3) Volonté de reproductibilité du codage

Page 24: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

24

Annotation syntaxique.Remarques préalables

4) La notion de locuteur collectif (Loufrani 1981)

$L1 vous constatez > maître //

$L3 { très sale |} //+$L1 {| { très | très } sale } // (D211 téléachat)

Page 25: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

25

Annotation syntaxiqueCadre théorique

Quelle unité de la syntaxe ? Quelle unité syntaxique maximale ?Quelles relations entre les éléments d’un énoncé ?

Ex. les élections je m’en fous

Page 26: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

26

Annotation syntaxiqueCadre théorique

Quelles relations entre les éléments d’un énoncé ?

Ex. les élections je m’en fousde la foutaisebof(bras d’honneur)

� Il y a bien une relation, mais pas au niveau de la syntaxe au sens strict

Idem : (a) plus je dors (b) plus je suis fatiguéemoi ma mère son salon c’est de la moquette

Page 27: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

27

Annotation syntaxiqueCadre théorique

Les relations entre les éléments d’un énoncé

� certaines sont commandées par la syntaxe (contraintes du verbe recteur) : microsyntaxe (ex. j’ai mangé une pomme ce matin)

� d’autres relèvent d’un autre niveau : macrosyntaxe (ex. à mon avis il ne viendra pas)

Cadre théorique du GARS (Blanche-Benveniste)

Page 28: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

28

Annotation syntaxiqueCadre théorique

Critères de la rection : je mange des fruits / je l’aime parce qu’il est intelligent

� relation avec une proforme (relation de proportionnalité) : le / lui /à ce moment-là / pour cette raison : j’en mange / je l’aime pour cette raison

� clivage : c’est des fruits que je mange / c’est parce qu’il est intelligent que je l’aime

� pseudo-clivage : ce que je mange c’est des fruits / (se prête mal au clivage, comme les Q-Constructions)

� développement sous forme de liste contrastive : je mange des fruits pas des légumes / je l’aime parce qu’il est intelligent pas parce qu’il est riche

Page 29: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

29

Annotation syntaxiqueCadre théorique

� Microsyntaxe : noyau + éléments régis (liens de rection)� Macrosyntaxe : noyau + éléments flottants (= adjoints, associés,

adnoyaux)

Macrosyntaxe : niveau d’organisation qui se superpose à la microsyntaxe et qui permet de rendre compte de certainsregroupements ou dégroupements dont on ne peut rendre compteen termes de rection (propriétés rectionnelles des classesgrammaticales)

- Micro et macro peuvent correspondre, mais pas tjs

Page 30: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

30

Annotation syntaxique : niveau 0

Unité de la macrosyntaxe = Unité illocutoire (UI)Pré-noyau – noyau – post-noyau

Noyau : unité minimale de la macrosyntaxe (BB 1990); porteur d’une modalité (assertion, interrogation, injonction); peut former un énoncéautonome; peut être nié ou interrogé.

Pré et post-noyau (+in-noyau) : pas de valeur d’acte illocutoire; pasd’autonomie communicative

c'est ça "hein" qu'il veut dire > Yves Klein // (D102 Yves Klein)

par contre < quand même < { c'est une | c'est une } référence // (D102 Yves Klein)

on peut véritablement parler de miracle > Valérie "hein" // (D 211 téléachat)^et pourtant < aujourd'hui <+ on y croit dur comme fer // (D 211 téléachat)

^et vous êtes drôlement attifée > quand même // (D201 Duras)

il m'a été commandé > ce livre "attention" "hein" // (D201 Duras)

j'en ai énuméré ( d'ailleurs ) avant ce générique // (D201 Duras)

Page 31: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

31

Annotation syntaxique : niveau 0

Unité de la microsyntaxe = Unité de rection (UR)

élément constructeur (de nature variée) + éléments dépendants

c'est ça "hein" qu'il veut dire > Yves Klein // (D102 Yves Klein)par contre < quand même < { c'est une | c'est une } référence // (D102 Yves Klein)

on peut véritablement parler de miracle > Valérie "hein" // (D 211 téléachat)

^et pourtant < aujourd'hui <+ on y croit dur comme fer // (D 211 téléachat)^et vous êtes drôlement attifée > quand même // (D201 Duras)

il m'a été commandé > ce livre "attention" "hein" // (D201 Duras)

j'en ai énuméré ( d'ailleurs ) avant ce générique // (D201 Duras)

Page 32: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

32

Annotation syntaxique : niveau 0

� Annotation “simple” permet de rendre compte des 2 dimensions micro et macro, avec 2 types d’unités : les unités de rection (UR) et les unités illocutoires (UI)

� La sortie de l’une ne correpond pas à l’entrée de l’autre� Frontières syntaxiques majeures (de la microsyntaxe et de la

macrosyntaxe)� Frontières des adnoyaux et des éléments enchâssés

� Entassements paradigmatiques

Page 33: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

33

Annotation syntaxique : niveau 0

Pas nécessairement coïncidence UR – UI

� Souvent, plusieurs UR dans une UI.c'est ça "hein" qu'il veut dire > Yves Klein // (D102 Yves Klein)

� Mais cas inverses de plusieurs UI dans une seule UR (épexégèses, compléments différés)

Il parle anglais //+ et bien //

L1 il a jeté le livre //+L2 dans la poubelle ? //

Page 34: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

34

Annotation syntaxique : niveau 0Les balises

Page 35: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

35

Annotation syntaxique : niveau 0Quelques cas.

Entassements

� les policiers sont arrivés en raison du du du vacarme je p~ je pense (M024 Charlot)

� tu continues la rue la petite rue (M001 itinéraire)

� et vous êtes sur un bac qui traverse le fleuve c'est-à-dire le Mekong (D201 Duras)

�d'autres réseaux sociaux thématiques devraient voir le jour prochainement notamment un site pour les amateurs de sport et un autre pour les clubbersbranchés (M205 réseaux sociaux)

� on n'avait rien vu qu’un homme une auto noire et une jeune fille et et des cars pour indigènes (D201 Duras)

� aux pieds j'ai des des lamés or des des des souliers de pour danser (D201 Duras)

Page 36: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

36

Annotation syntaxique : niveau 0Quelques cas.

Entassements

� les policiers sont arrivés en raison { du | du | du } vacarme { " je p~ " | " je pense " } // (M024 Charlot)

� tu continues { la rue | la petite rue } // (M001 itinéraire)

� ^et vous êtes sur un bac qui traverse { le fleuve | ^c'est-à-dire le Mekong } // (D201 Duras)

� { d'autres réseaux sociaux thématiques |} devraient voir le jour prochainement {|^notamment un site pour les amateurs de sport | ^et un autre pour les clubbersbranchés } // (M205 réseaux sociaux)

� on n'avait rien vu qu'{ un homme | une auto noire | ^et une jeune fille | { ^et | ^et } des cars pour indigènes } // (D201 Duras)

� aux pieds <+ j'ai { { des | des } lamés or | { des | des | des } souliers } { de | pour }danser // (D201 Duras)

Page 37: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

37

Annotation syntaxique : niveau 0Quelques cas.

Segments insérés

Permet de « sauter » tout ce qui est en rupture avec l’énoncé en cours de construction.

Description : énoncé à l’intérieur d’un autre énoncé, généralement une construction verbale ; impossibilité de la rattacher à l’énoncé en cours de construction.

� en mille neuf cent cinquante quand vous avez fait paraître ce ce chef-d’œuvre pour moi c'est un chef-d’œuvre qui s'appelle Un Barrage contre le Pacifique vous l'avez raté de peu (D210 Duras)

Page 38: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

38

Annotation syntaxique : niveau 0Quelques cas.

Segments insérés

� en mille neuf cent cinquante <+ quand vous avez fait paraître { ce | ce } chef-d’oeuvre (pour moi < c'est un chef-d’œuvre // ) qui s'appelle [ Un Barrage contre le Pacifique // ] <+ vous l'avez raté de peu // (D210 Duras)

Page 39: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

39

Annotation syntaxique : niveau 0Quelques cas.

Discours direct

Le discours direct peut s’étaler sur plusieurs segments qui seront annotés comme unités autonomes (et que l’on ne fait donc pas dépendre du verbe introducteur).

� certains membres de l'Académie Goncourt auraient dit [ ^mais pourquoi lui donnerait-on pas le prix Goncourt // ] // (D210, Duras)

� il a dit [ casse-toi > pauvre con // ] //

Page 40: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

40

Annotation syntaxique : niveau 0Quelques cas.

Greffeposition syntaxique remplie par une catégorie non attendue,

généralement une construction verbale

� { vous t~ | vous suivez } la ligne du tram qui passe vers { la & | [ je crois que c' est une ancienne caserne "je crois" // ] } // / (M003 itinéraire)

� vous avez dit que "euh" [ disons ma carrière pour simplifier // ] témoigne de ma bonne conduite // (D201 Giroud)

Page 41: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

41

Annotation syntaxiqueMéthode

Annotation niveau 0

(1) Annotation automatique des répétitions contigües et des euh

(2) Annotation manuelle macrosyntaxique complète(à la fois balisage des unités qui seront analysablesautomatiquement et description de la structure macrosyntaxique)

(2) Annotation manuelle des entassements (disfluences, reformulations, répétitions, coordinations - tout cas de réalisation multiple de la même position structurale)

(3) Vérification automatique de la syntaxe de l’annotation (sous Pilepilot)

Page 42: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

42

Annotation syntaxiqueMéthode

Dépliage automatiqueAnnotation niveau 0 -> liste de segments analysables

automatiquement

Annotation Niveau 1 ( FRMG + script de conversion du schéma FRMG au schéma Rhapsodie)

Annotation automatique de la structure de dépendanceAnnotation automatique des catégories et des fonctions syntaxiques

Page 43: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

43

Annotation Niveau 0

Annotation automatique des répétitions de formes contigües, des euh, et de certaines marques

donc vous allez jusqu’au bout jusqu’à un grand carrefour là oùvous allez voir { le | le } cinéma La Nef Chavant et quand vous serez donc à La Nef Chavant alors là "euh" il { vous | vous } passez à droite du cinéma une petite rue qui part à droite du cinéma "euh" qui en fait qui c’est sur la ligne du tram "hein" vous suivez la ligne du tram

Page 44: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

44

Annotation Niveau 0

^donc vous allez { jusqu' au bout | jusqu' à un grand carrefour | là } oùvous allez voir { le | le } cinéma La Nef Chavant //

^et quand vous serez donc à La Nef Chavant <+ "alors" là "euh" <+ {il & | { vous | vous } passez } à droite du cinéma //

une petite rue { qui part à droite du cinéma | "euh" qui en fait & | qui & } //

c' est sur la ligne du tram "hein" //

vous suivez la ligne du tram //

Page 45: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

45

Dépliage

• et• donc

• vous allez jusqu ' au bout où vous allez voir le cinéma La Nef Chavant

• vous allez jusqu ' au bout où vous allez voir le cinéma La Nef Chavant• vous allez jusqu ' à un grand carrefour où vous allez voir le cinéma La Nef Chavant

• vous allez jusqu ' à un grand carrefour où vous allez voir le cinéma La Nef Chavant

• vous allez là où vous allez voir le cinéma La Nef Chavant

• vous allez là où vous allez voir le cinéma La Nef Chavant• quand vous serez donc à La Nef Chavant là il XXX

• quand vous serez donc à La Nef Chavant là vous passez à droite du cinéma

• quand vous serez donc à La Nef Chavant là vous passez à droite du cinéma • une petite rue qui part à droite du cinéma

• une petite rue qui en fait XXX

• une petite rue qui XXX

• c ' est sur la ligne du tram • vous suivez la ligne du tram

Page 46: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

46

Annotation niveau 1

Page 47: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

47

Annotation prosodique

A. Lacheret

Page 48: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

48

Plan

• Etat de l’art– Pratique de l’annotation – Outils d’annotation

• Objets à annoter– Points méthodologiques– Contours, proéminences, disfluences, périodes,

• Outils pour annoter, qq pistes

Page 49: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

49

Etat de l’art

Page 50: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

50

Quelle étiquette ? Ton, contour, gestes intonatifs

• Pratique de l’annotation – Pas d’annotation unifiée

• Un système de référence TOBI– Non automatisable– Gomme la dimension temporelle (ton vs geste intonatif)

» Prosodie = F0, tps (durée segments pleins et pauses), qualité vocale, intensité

– Utilise une théorie linguistique implicite � * mutualisation– Annotation d’emblée fonctionnelle (tons, frontières)

Page 51: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

51

Déduction vs induction

annotation

théorie

Corpus segmenté, transcrit

C. sonore

Corpus segmenté, transcrit

C. sonore annotation modèle

!! Pas de théorie ne veut pas dire ni hypothèses, ni intuition (modèle mental

du locuteur-transcripteur)

Page 52: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

52

La place de la modélisation informatique

Analyse perceptive et acoustique

Annotation manuelle

CORPUS

Choix des critères

Comparaison et réanalyse

Traitement automatique

Annotation automatique

Page 53: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

53

• Outils d’annotation– Outils d’annotation

• Outils labo (non directement accessibles)• Outils en ligne

Voir Réf 4.1, 4.2, 4.4, 4.5

Page 54: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

54

Objets à annoter

Points méthodologiques

Page 55: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

55

Méthode (Réf 1.17)

Méthode bottom-up (du perceptif au fonctionnel), Intégration progressive de la complexité (phase d’annotation précède la phase de caractérisation et d’interprétation

1. Repérer des objets sur le signal de parole (ex proéminences syllabiques; unité prosodique majeure)

2. Caractériser acoustiquement ces objets1. Configuration tonale d’une proéminence � annotation tonale2. Contours prototypiques

3. Les interpréter fonctionnellement 1. Proéminence = accent2. Proéminence = frontière3. Interprétation discursive : domaine de projection, portée (liage

ou rupture entre unités), etc== interprétation basée sur 1 (ex degré de proéminence � ± frontière),

voire 2

Page 56: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

56

Discours

Période Période Période Période

Interprétation : vue (TP3)

Paquet intonatif

GR1 GR2

Page 57: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

57

Sortie textgrid

Autonomie des couches d’annotation � degrés de granularité variable (standard vs enrichie)

*

*

Page 58: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

58

3 slides sur les contours, pour plus d’information, voir documents annexes (réf 1.1,4.5)

• Description riche des contours � Gap descriptif (> contour majeur, mineur, H*, H%) � Gap interprétatif

• Contours syllabiques– Suivi de contours sur modèle perceptif (simulation de la perception des

variations de hauteur dans le temps : le Prosogram de P. Mertens (clé : doc annotation tonale)

• niveau de hauteur au début du noyau syllabique,• variation mélodique à l’intérieur de la syllabe,• niveau infra-bas (bottom) atteint à la fin du noyau syllabique

– "HF_" : chute à grand intervalle à partir du niveau haut, suivie d’un palier ;

Page 59: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

59

Contours (suite)• Contours globaux sur des unités d’empan variable (visée

fonctionnelle)

– Morphologie de contours à partir d’une courbe lissée (stylisée) sur les bases de :

• Modèle perceptif• Modèle mathématique (approximation des variations de F0

sur le signal) : variations "lentes" considérées comme prosodique, variations "rapides" considérées comme du bruit ou un résidu phonétique � gommées/lissées/effacées

Page 60: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

60

Contours globaux (suite)

- Extraction des points valeurs caractéristiques (Initial, Final, Extrême, Ancrage et Registre Local) pour chaque

empan souhaité

- Conversion en alphabet symbolique

Exemple avec les empans syllabe, groupe rythmique et phrase :

Page 61: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

61

Objets à annoter

Zoom sur proéminences

Page 62: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

62

PRAAThttp://www.fon.hum.uva.nl/praat/ (aussi TP1)

• Pourquoi PRAAT ?– Outil mutualisé– toute opération manuelle est automatisable sous

PRAAT : scripts multiples disponibles ou à écrire facilement, communauté PRAAT

• Mode d’emploi PRAAT (C. Gendrot, P3) – http://www.cavi.univ-

paris3.fr/ilpga/ed/savoirFaireED268.htm#praat

Page 63: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

63

Principes et objectifs d’annotation

• Base perceptive (ce que j’entends, (ce que je vois) sur le signal)– Se distancier d’une vision théorique implicite

• Annotations mutualisée : novices (étudiants en SDL), experts

• Annotation automatisable– annotation explicite– Guide d’annotation (clé +TP: simplifié)– Annotation de référence

Page 64: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

64

Proéminences

• Proéminences et principe de contraste (perception syllabique) : une syllabe peut se détacher dans le flux verbal par rapport à ce qui précède et ainsi contraster avec son environnement. elle se détache perceptivement comme une figure sur un fond sonore.

• Perception des proéminences continue, et non catégorielle. – Différents degrés de proéminence (du non

proéminent au très proéminent). – Pour rendre compte de manière rudimentaire de ce

processus continu, nous proposons d’utiliser deux niveaux : proéminence normale (p ou W), proéminence forte (P ou S)

Page 65: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

65

Sortie au format textgrid :annotation de référence

Page 66: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

66

Comment établir une annotation de référence

• Entrée : annotations plurielles (Réf 1.18, 1.19) – Annotations novices (humain, voire automatique)– taux d’accord inter-annotateur (différentes façons de

le calculer (TP4)

• Sortie de référence : annotations novices revues par experts (en plusieurs passes)– Entrée pour l’apprentissage des systèmes

• A termes : étiquetage automatique (nettoyé)

Page 67: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

67

Mesures utilisables conseillées �Statistiques sur les annotations (réf 1.8,

1.10, 1.12, 4.3)

• Pour quoi faire ?– Contrôler annotations novices : sont-elles fiables pour

servir de support à l’annotation de référence ?• Sous-annotation• Sur-annotation• Annotation « à côté »

– Calcul taux d’accord inter-annotateurs• Fleiss-Kappa : mesure statistique de l’accord

(agreement) d’un ensemble de N annotateurs surune annotation de type catégorielle

• Ratio (%) : nombre de syllabes annotées par rapport au nombre de syllabes

Page 68: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

68

Kappa

• accord pauvre = entre 0 et 0.2accord faible = entre 0.2 et 0.4accord moyen = entre 0.4 et 0.6accord bon = entre 0.6 et 0.8accord parfait = entre 0.8 et 1

accord acceptable à partir de 0.4, accord bon à partir de 0.6

Page 69: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

69

Illustration : statistique sur les proéminences

• Comment gérer les contextes de grandes disparités entre les annotateurs, des annotateurs très peu consensuels � on ne les garde pas

C1C2

C3

C4C5

Page 70: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

70

Questionnements fréquents pour les experts

Page 71: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

71

Bsacule en contexte de schwa post-tonique

Ref

Page 72: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

72

Arc accentuel (Réf 1.2, 1.9, 1.11)

Ref

Page 73: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

73

Pénultième « P » OU « p » ?

Ref

Page 74: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

74

Syll. H ET ou Prom ?

Page 75: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

75

Degré proéminence

• En position finale de groupe

Ref

Page 76: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

76

Degré de la proéminence

empaquetage intonatif non respecté (p vs P)

– En finale de groupe : importance pour les modèles interprétatifs qui utilisent la notion d’empaquetage intonatif (cf supra, slide 56 et aussi TP)

Page 77: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

77

Entassements syntaxiques

Page 78: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

78

Objet à annoter

Zoom sur les périodes

Page 79: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

79

Segmentation du discours

• Principes théoriques – Vocalisations prosodiques discursivement contraintes

: Indices temporels et fréquentiels associés à la perception de ruptures fortes dans le discours

– Unité de segmentation majeure dans le discours ?– Unités intonodiscursives de rang et de portée variable

dans le discours ?

• En pratique – Segmentation automatique avec le logiciel Analor

revue manuellement (premiers travaux 2000, Réf 1.13, 1.3, 1.4)

– Cf. infra, vues

Page 80: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

80

Illustration (Rhap-M0001, Réf 1.15)

tu continues la rue _

quoi de _ de _ de structure métallique _

tu arrives place aux Herbes avec une _ une sorte de halle _

tu passes à côté d'une petite fontaine

et euh _ après tu bifurques euh _ y a une petite bifurcation euh juste avant la place du Tribunal

tu continues dans la vieille ville tu prends la grande rue _

tu longes les les rails du tram _ jusqu'à la place Grenette _

(à) la place Victor Hugo à la banque euh _ qui fait l'angle tu prends àdroite _

tu continues tu vas arriver sur la place euh Victor Hugo _

_ et ben euh _ tu prends le boulevard euh _ là qui part de Nef Chavantlà le boulevard qui passe à côté d’Habitat _

Page 81: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

81

Une annotation outillée

Page 82: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

82

Prétraitement

Page 83: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

83

Prétraitement

• Nettoyage des courbes– Winpitch : non mutualisé, expert en TS et ds

utilisation winpitch– Analor : mutualisé, utilisation intuitive

• Alignement texte-son– Aligneurs labo (LIMSI, LORIA, etc)– Domaine public à privilégier : Easyalign (tutorial sur

clé)• http://latlcui.unige.ch/phonetique/easyalign/Tutorial

_EasyAlign.pdf

Page 84: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

84

Nettoyage courbes

– Courbes nettoyées nécessaires pour les traitement automatiques (détection périodes, proéminences, annotation tonale) :

• creaky voice, sauts d’octave, echo et bruit de fond (pb de la qualité des corpus d’entrée)

Page 85: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

85

Nettoyage des courbes sous Analor, illustration

Page 86: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

86

Nettoyage des courbes sous Analor, illustration

Page 87: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

87

Nettoyage des courbes sous Analor, illustration

Page 88: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

88

Prétraitement : alignement texte son

• Méthode (requêtage) : – alignement au phonème, la syllabe ne suffit pas ! Si

on veut faire des requêtes dans une structure arborescente et distribuée alignant token syntaxiques et unités prosodiques (cf infra)

• Alignement : directement sous PRAAT ou à partir d’un fichier txt (séquences courtes : environ 50 mots par ligne ou groupes de souffles)– Outils développés sur des corpus lus � vérification

manuelle (erreurs nombreuses en frontières de mots (français : langue cursus, voir pb de la liaison), élisions (schwa), insertion, + pb de syllabation (diérèse vs synérèse)

Page 89: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

89

Exemple erreur alignement : traitement erroné de la semi-consonne

Page 90: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

90

Chaîne de traitement sous easyalign

• Easyalign standard : • Easyalign enrichi : Gestion multilocuteurs plus

chevauchements parole– Locuteurs transcrits sur deux tires de transcription

• Merging des tires• Marquage des segments chevauchés• traitement (alignement) de ces segments

Page 91: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

91

Gestion des contextes de chevauchements Locuteurs transcrits sur deux tires de

transcription

Page 92: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

92

Gestion des contextes de chevauchements

• Fichier d’entrée fourni par la TON : segments = groupes de mots

• Avec respectivement de gauche à droite– (1) incompréhension des deux segments chevauchés– (2) incompréhension du segment du loc1, segment du loc2

compris, transcrit et aligné– (3) incompréhension du segment du loc2, segment du loc1

compris, transcrit et aligné– les deux segments ont été compris et transcris par le transcripteur

Loc2abcxxxabcxxx

Loc1abcabcxxxxxx

Page 93: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

93

Gestion des contextes de chevauchements Merging des tires

marquage des segments chevauchés (overlap), marquage du segment à aligner (aligned)

Page 94: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

94

Gestion des contextes de chevauchements Un seul locuteur aligné, celui qui est le plus audible, exemple de sortie finale

Page 95: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

95

Outils pour l’annotation

Page 96: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

96

Principes pour l’annotation des proéminences et des périodes sous Analor

• Un ensemble de paramètres acoustiques, exemple pour les périodes– Pause – Geste terminal– Saut – * « euh »

• Un ensemble de critères de segmentation (seuils d’activation du paramètre)

• Tableau de paramètres (par défaut vs session en cours)• Corpus à traiter un à un ou en série

Page 97: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

97

Annotation automatique des proéminences

S-3 S-2 S-1 S0 S-3 S-2 S-1 S0 S-3 S-2 S-1 S0 S+1 S+2 S+3

Réf 1.5

Page 98: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

98

Annotation automatique des proéminences

Seuils ajustables en fonction des genres et styles de discours

Page 99: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

99

Segmentation automatique en périodes sure

Page 100: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

100

Segmentation automatique en périodes possible

Page 101: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

101

Segmentation automatique en périodes bloquée

Page 102: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

102

Lissage pour l’extraction de contours globaux prototypiques :courbe de F0 en entrée

Page 103: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

103

Courbe de sortie

Page 104: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

104

Assemblage des annotations

intonosyntaxe

Page 105: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

105

Objectif : requêtes intonosyntaxiques(tester des hypothèses, faire émerger des constructions nouvelles (spécifiques à des

genres vs génériques, etc)

• Arc accentuel : rapport paquets intonatifs ±proéminence initiale

• Liste des contours variants associés à telle unité(ex pré-noyau (cadre de discours (portée du cadre), SN <PRO+V>, unité ±accessible/saillante cognitivement, etc)– Réf 1.14

Page 106: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

106

Assemblage � vérifier tires correctement alignées temporellement et contenus cohérents d’une tire à

une autre

Question non triviale : assemblage temporel des autosegments + cohérence des segmentations et transcriptions pour requêtes et

analyses fonctionnelles

Principe d’annotations modulaires � autosegments

son + TextGrid

Annotation prosodique (textgrid) Annotation syntaxique (xml)

Assemblage (xml)

pivotPivot (textgrid)

Page 107: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

107

Logiciel de vérification

Page 108: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

108

Vérification : syllabe-phonème

Page 109: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

109

Vérification tire proéminence

Page 110: Annotation intonosyntaxique de corpus oraux• Requêtes sur les données Méthode d’annotation mutualisée – Mise au point de formats pour l’annotation prosodique et syntaxique

110

Exemples d’erreur d’alignement tokensyntaxique (pivot)-syllabe