34
Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret, Caroline Atallah + Laurent Prévot (au début) IRIT : Nicholas Asher, Philippe Muller, Laure Vieu, Farah Benamara, Stergos Afantenos (Post-Doc Annodis 2009-2010) 1

Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Embed Size (px)

Citation preview

Page 1: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Bilan Groupe Ascendant ANNODISrécit des premières expériences

d’annotation ascendante

CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret, Caroline Atallah

+ Laurent Prévot (au début)IRIT : Nicholas Asher, Philippe Muller, Laure Vieu,

Farah Benamara, Stergos Afantenos (Post-Doc Annodis 2009-2010)1

Page 2: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Objectifs

• Disposer d’un corpus annoté en relations de discours pour le français

• Expériences d’annotation, mise au point d’une méthode

• Vérification intuitions liées aux relations de discours

• Validations de certains points théoriques

2

Page 3: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Principe d’annotation

• Segmentation en Unité de Discours Elémentaires (UDE)

• Construction récursive de constituants plus complexes en reliant les UDE avec des relations de discours :• Recherche d’un point d’attachement• Choix d’une Relation de Discours

3

Page 4: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Phases de l’annotation ascendante

Annotation Naïve

Annotation de Référence

Rédaction des guides (par passes successives) :- Segmentation- Annotation en RD

2 annotateurs explorateurs45 textes doublement annotés

3 annotateurs naïfs42 textes doublement annotés

4096 segments3691 relations

7 annotateurs experts86 textes

7 membres autres groupes du projet7 textes doublement annotés

Annotation Exploratoire

4

Page 5: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Phases de l’annotation ascendante

Annotation Naïve

Annotation de Référence

Rédaction des guides (par passes successives) :- Segmentation- Annotation en RD

2 annotateurs explorateurs45 textes doublement annotés

3 annotateurs naïfs42 textes doublement annotés

4096 segments3691 relations

7 annotateurs experts86 textes

7 membres autres groupes du projet7 textes doublement annotés

Annotation Exploratoire

5

Page 6: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Bilan annotateurs experts versant analyse linguistique

• Plongée dans les données, mise au jour de nombreux phénomènes (marqueurs, structures, …) à décrire et à analyser

• Beaucoup de discussions sur beaucoup de phénomènes linguistiques

• Mais difficultés d’une approche en largeur (pour toutes les relations, sur du texte tout venant …)

6

Page 7: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Bilan annotation naïve• Accord inter-annotateurs faible :

• Attachement brut : 65%• Relations (étant donné 1 attachement commun) : kappa =0.45

sans tenir compte des structures équivalenteset des incomplétudes (ilôts non rattachés)

• Guides perfectibles :• Volontairement peu directifs (pour tester hypothèses)• Erreurs stratégiques sur marqueurs

• Outil d’annotation GLOZZ perfectible (inversion arguments, ilots non rattachés, absence graphes …)

• Mais ilôts stables apparaissent dans annotation

7

Page 8: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

b2

c*

a1

b*

Elaboration

Narration

b1c1Narr

Frame Frame

b2

c*

a1

b*

Elaboration

Narration

b1c1Narr

Frame Frame

Elaboration

8

Page 9: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Premières exploitations des annotations

• Test hypothèses théoriques• Apprentissage de la segmentation• Analyses linguistiques des Relations de

Discours• Apprentissage d'attachement en cours

9

Page 10: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Test hypothèses théoriques• Vérification de contrainte de la frontière droite

(CFD) de la SDRT :• 96% des EDU s’attachent à la FD au moins par une

RD• 92% des attachements (EDU ou segments

complexes) vérifient la CFD• 40 % attachements non locaux (pas avec EDU

prec)• Cas intéressants de subordination discursive

« non typique » dans les 4% qui ne respectent pas la FD

10

Page 11: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Apprentissage automatique• Développement d’un segmentateur automatique en EDU à

partir des annotations exploratoires[Bien que celle-ci soit géographiquement située en Afrique,] [l'Art de l'Égypte antique, [né il y a environ cinq mille ans,] est l'une des principales sources de l'art en Europe.]

• Classification par token (ouverture/fermeture/intérieur)+post-traitement

• Résultats :• ~ 90% de F-score sur les bornes individuelles (G || D, sans

post-traitement)• ~ 75% de F-score sur les EDUs (G && D, avec post-

traitement)11

Page 12: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Analyses linguistiques des Relations de Discours

• Relation d’Elaboration : Thèse Marianne Vergez-Couret (15 Novembre 2010)

• Elab relation la plus fréquente dans corpus Annodis• Exploitation d’une petite partie du corpus• Double perspective sémasiologique/onomasiologique

• Relations de causalité : Master 2 Caroline Atallah (Juin 2010)

Résultat, Explication

12

Page 13: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Les relations causales

• Objectif : Etudier le marquage des relations causales en s’appuyant sur les premières annotations ascendantes

• 4 relations étudiées :• Explication et Résultat• Explication* et Résultat*

13

Page 14: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Explication

• Explication (explanation)La relation d’explication lie deux segments dont le

second (celui qui est attaché) explique le premier (la cible) de façon explicite ou non.

[Le chômage baisse en 2008]_1 [parce qu’il y a moins d’actifs.]_2

Explanation (1,2)

Marqueurs suggérés : car, parce que, à cause de, du fait de, par la faute de, grâce à, si 1 c’est parce que 2, depuis (si causalité évidente)

14

Page 15: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Résultat• Résultat (result)La relation Résultat caractérise des liens entre deux

segments portant sur deux éventualités (événements ou états) dont la 2e résulte de la première.

[Nicholas avait bu trop de vin]_1 [et a donc dû rentrer chez lui en métro.]_2

Result (1,2)

Marqueurs suggérés : du coup, donc, par conséquent, en conséquence, par suite, à la suite de quoi

15

Page 16: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Relations « meta-talk »Dans certains cas, les effets sémantiques du lien

rhétorique qui s’établit entre deux segments ne portent pas sur les événements décrits dans les segments, mais sur les actes de parole eux-mêmes.

• Explication*[Ferme la porte,]_1 [il fait froid.]_2• Résultat*[Il fait froid,]_1 [ferme la porte.]_2 Pas de suggestion de marqueurs potentiels

16

Page 17: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Constitution d’un corpus de travail

• Mise en place d’un outil informatique• Rapprochements effectués entre annotations• Résultats des confrontations

17

Page 18: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Mise en place d’un outil informatique

• Développer un outil capable de confronter chaque relation d’Explication ou de Résultat repérée par un annotateur avec celles de son collègue et réciproquement

• Phase naïve : 43 textes doublement annotés par ANN1, ANN2 et ANN3, soient trois binômes

• Pour chaque texte, trois fichiers textes : segmentation, annotations 1 et annotations 2

• Structure d’un fichier de sortie du programme informatique :• Titre du texte• Texte intégral• Annotations correspondant à ce texte 18

Page 19: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Annotations « identiques » : Annot. issues de rapprochement entre segments

pour une même RD

• Inversion Attachement : Result (20/21) par ANN1 Result (21/20) par ANN2

• Attachement partiel : Explanation ([19,20,21,23,24,25]/26) par ANN1Explanation (25/26) par ANN2

Autres cas possibles (autres textes) :Explanation (10, [11-12]) et Explanation (10,11)Result ([21,22,23],[24,25]) et Result (23,24)

Result (20/21) par ANN2

19

Page 20: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

• Inversion Attachement partiel : Result ([19,20,21]/[23,24,25]) par ANN1 Result ([23,24,25]/[17,18,20,21]) par ANN2

Explication ([31,32]/33) par ANN1 Explication (33/31) par ANN2

Explication (31/33) par ANN2

Result ([17,18,20,21]/[23,24,25]) par ANN2

20

Page 21: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

21

Annotations différentes : Annot. issues de rapprochement entre segments

pour une RD différente

• Annotations appariables : Parallel([9,10]/11) par ANN1Explanation(11/[8,9,10] par ANN2

• Annotations non appariables : 2 segments reliés par 1 RD chez ANN1pas reliés chez ANN2

Page 22: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

22

Résultats des confrontations

3 fichiers textes pour chaque texte :

segmentation, annotations 1 et

annotations 2

Confrontation de toutes les

annotations d’un même binôme

Traitement réalisé par notre outil

1 fichier texte Annotations identiques

1 fichier texte Annotations différentes

• Annotations identiques vs annotations différentes• Annotations appariables vs annotations non appariables

22

Page 23: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

23

Données récupérées

• 47 cas d’annotations identiques (94 annotations)• 202 cas d’annotations différentes• Au total, 296 annotations concernant les relations d’Explication

et de Résultat

Corpus d’étude limité aux cas d’annotations identiques.

Explication Résultat Total

Annotations identiques 25 22 47

Annotations différentes appariables

72 68 140

Annotations différentes non appariables

31 31 62

23

Page 24: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Analyse du corpus et résultats

• Observations sur la qualité des annotations• Marqueurs de relations causales dans le

corpus

24

Page 25: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Observations sur la qualité des annotations

• Correction (ou validation) de chaque annotation• Désaccord sur les arguments de la relation

• Problème de la formation des segments complexes• Désaccord sur la nature de la relation

• Aucune relation pragmatique repérée• Confusion entre des relations : [C’est probablement l’explication de l’expression

française. ]_26

• Rôle important des marqueurs linguistiques dans la tâche d’annotation

25

Page 26: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Marqueurs de relations causales dans le corpus

Marqueurs les plus « fréquents » :

• Résultat : donc (6 occurrences)• Explication : car (10 occurrences)+ le cas des connecteurs de nature

prépositionnelle : pour, par, à cause de, en raison de, sous

Page 27: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Donc

• Introduit une conclusion logique• « A donc B » équivalent à « Si A, alors B »

• Permet l’inférence d’une relation située au niveau du raisonnement

« L’information est une mesure abstraite dépendant de choix donc une mesure probabiliste et pas seulement statistique. »

Identification de Résultat-Inférentiel pour 6 cas sur 8

Page 28: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Car

• Dans 6 cas sur 11, identification d’une relation métalinguistique, Explication*• présence d’indices discursifs décrivant l’expression d’un

jugement de la part de l’énonciateur

« La route moderne est probablement un tracé traditionnel, car elle suit tout naturellement la limite du terrain ferme et du terrain alluvial. » (Mariana, Wikipédia)

• Mais car pas exclusivement marqueur d’Explication*

« J’étais prêt à partir (…) car à 32 ans, il s’agissait sans doute de ma dernière chance de signer un nouveau contrat. » (Pablo Correa, Est Républicain)

28

Page 29: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Pour, par, en raison de, à cause de, sous

• Non négligeables : ont guidé les annotateurs• Des liens de natures particulières

• « Ce bouchage en force permet de s’assurer que le bouchon ne sautera pas tout seul, sous la pression du gaz contenu dans le vin. »

On ne peut pas vraiment parler de relation d’Explication.

On laisse de côté ce type de relation causale.

29

Page 30: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Conclusion sur les marqueurs relevés dans le corpus

• Des liens causaux présents dans différents niveaux de la langue :• Relation de cause à effet strictement sémantique :

pour, par, sous…• Relation rhétorique entre des éventualités (états

ou événements) : Explication (car), Résultat (donc)• Relation pragmatique entre des actes de parole

(niveau illocutoire) : Explication* (car)• Relation entre des états mentaux (niveau

épistémique) : Résultat-Inférentiel (donc)

30

Page 31: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Bilan première exploitation du corpus annoté en RD

• Mise en évidence des difficultés qui peuvent être posées lors d’une campagne d’annotation• Difficultés posées par la rédaction d’un guide

satisfaisant• Tâche des annotateurs très complexe

• Apports des annotations naïves dans cette campagne ?• Distinguer des marqueurs plus forts (donc, car)• Ouvrir la question sur la définition même d’une

relation de discours (le cas de par, sous, …)• Faire émerger des confusions courantes avec

d’autres relations (explication et élaboration)31

Page 32: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Bilan publications et mémoires utilisant corpus annoté Annodis

• Afantenos Stergos, Asher Nicholas. 2010. Testing SDRT’s Right Frontier. Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010). pp 1-9. Beijing, China

• Afantenos Stergos, Denis Pascal, Muller Philippe, Danlos Laurence. 2010. Learning recursive segments for discourse parsing. In Proceedings of the 7th international conference on Language Resources and Evaluation (LREC 2010), Valletta, Malta.

• Vergez-Couret Marianne. Sémantique du discours Le cas de la relation d’Élaboration : Etude en corpus de la relation et de son marquage, Thèse de doctorat. Université Toulouse-Le Mirail, 2010.

• Atallah Caroline. Les relations de causalité dans le discours, mémoire de Master 2 en Sciences du Langage parcours TAL, Université Toulouse-Le Mirail, 2010.

32

Page 33: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Bilan publications pertinentes pour Annodis

Adam Clémentine & Vergez-Couret Marianne (2010). Signalling Elaboration : Combining Gerund Clauses with Lexical Cues. In Proceedings of Signalling Text Organisation (Multidisciplinary Approaches to Discourse 10), Moissac (France), 17-20 mars 2010.

Asher Nicholas, Prévot Laurent & Vieu Laure, 'Setting the Background in Discourse', Discours(e), 2008.Bras Myriam, Prévot Laurent & Vergez-Couret Marianne (2008). "Quelle(s) relation(s) de discours pour les

structures énumératives ? ", Actes du Colloque Mondial de Linguistique Française CMLF'08, Durand, J., Habert, B., Laks, B. (éds.), pp. 1945-1964, Paris, 9-12 juillet 2008.

Bras Myriam & Schnedecker Catherine (2009). Dans un (premier+second+nième) temps et les relations de discours : de l’élaboration à la contre-argumentation, LPTS, Paris (France) 21-23 septembre 2009.

Bras Myriam & Le Draoulec Anne (2009). D’abord marqueur de structuration du discours, Journal of French Language Studies, 19, pp. 229-248.

Prévot Laurent, Vieu Laure & Asher Nicholas (2009). Une formalisation plus précise pour une annotation moins confuse: la relation d’élaboration d’entité. Journal of French Language Studies, 19, pp. 207-228.

Vergez-Couret Marianne, Prévot Laurent, Bras Myriam (2008) " Interleaved discourse structures, the case of two-step enumerations", Proc. of Constraints in Discourse CID'III, Benz, A., Kühnlein, P., Stede, M. (eds.), pp. 85-94, Potsdam, 30 juillet - 1er aout 2008.

Vergez-Couret Marianne (2009b). Vers un marqueur, plus particulièrement de la relation d’Élaboration, LPTS, Paris (France) 21-23 septembre 2009.

Vergez-Couret Marianne (2009a). Le rôle de l'adverbe notamment dans la mise en oeuvre des relations de discours, Journal of French Language Studies, 19, pp. 249-268.

33

Page 34: Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret,

Interface Ascendant/Macro

• Structures Enumératives• Quelles RD pour les SE?• SE à 2 temps• Exploration des SE, recherche d’isomorphisme avec

des « Structures Elaboratives » : thèse Marianne

• Structure du document• Prise en compte segmentation en paragraphe • Titres• Liens avec segmentation thématique

34