Bilan Groupe Ascendant ANNODIS récit des premières expériences d’annotation ascendante...

Preview:

Citation preview

Bilan Groupe Ascendant ANNODISrécit des premières expériences

d’annotation ascendante

CLLE-ERSS : Myriam Bras, Anne Le Draoulec, Marianne Vergez-Couret, Caroline Atallah

+ Laurent Prévot (au début)IRIT : Nicholas Asher, Philippe Muller, Laure Vieu,

Farah Benamara, Stergos Afantenos (Post-Doc Annodis 2009-2010)1

Objectifs

• Disposer d’un corpus annoté en relations de discours pour le français

• Expériences d’annotation, mise au point d’une méthode

• Vérification intuitions liées aux relations de discours

• Validations de certains points théoriques

2

Principe d’annotation

• Segmentation en Unité de Discours Elémentaires (UDE)

• Construction récursive de constituants plus complexes en reliant les UDE avec des relations de discours :• Recherche d’un point d’attachement• Choix d’une Relation de Discours

3

Phases de l’annotation ascendante

Annotation Naïve

Annotation de Référence

Rédaction des guides (par passes successives) :- Segmentation- Annotation en RD

2 annotateurs explorateurs45 textes doublement annotés

3 annotateurs naïfs42 textes doublement annotés

4096 segments3691 relations

7 annotateurs experts86 textes

7 membres autres groupes du projet7 textes doublement annotés

Annotation Exploratoire

4

Phases de l’annotation ascendante

Annotation Naïve

Annotation de Référence

Rédaction des guides (par passes successives) :- Segmentation- Annotation en RD

2 annotateurs explorateurs45 textes doublement annotés

3 annotateurs naïfs42 textes doublement annotés

4096 segments3691 relations

7 annotateurs experts86 textes

7 membres autres groupes du projet7 textes doublement annotés

Annotation Exploratoire

5

Bilan annotateurs experts versant analyse linguistique

• Plongée dans les données, mise au jour de nombreux phénomènes (marqueurs, structures, …) à décrire et à analyser

• Beaucoup de discussions sur beaucoup de phénomènes linguistiques

• Mais difficultés d’une approche en largeur (pour toutes les relations, sur du texte tout venant …)

6

Bilan annotation naïve• Accord inter-annotateurs faible :

• Attachement brut : 65%• Relations (étant donné 1 attachement commun) : kappa =0.45

sans tenir compte des structures équivalenteset des incomplétudes (ilôts non rattachés)

• Guides perfectibles :• Volontairement peu directifs (pour tester hypothèses)• Erreurs stratégiques sur marqueurs

• Outil d’annotation GLOZZ perfectible (inversion arguments, ilots non rattachés, absence graphes …)

• Mais ilôts stables apparaissent dans annotation

7

b2

c*

a1

b*

Elaboration

Narration

b1c1Narr

Frame Frame

b2

c*

a1

b*

Elaboration

Narration

b1c1Narr

Frame Frame

Elaboration

8

Premières exploitations des annotations

• Test hypothèses théoriques• Apprentissage de la segmentation• Analyses linguistiques des Relations de

Discours• Apprentissage d'attachement en cours

9

Test hypothèses théoriques• Vérification de contrainte de la frontière droite

(CFD) de la SDRT :• 96% des EDU s’attachent à la FD au moins par une

RD• 92% des attachements (EDU ou segments

complexes) vérifient la CFD• 40 % attachements non locaux (pas avec EDU

prec)• Cas intéressants de subordination discursive

« non typique » dans les 4% qui ne respectent pas la FD

10

Apprentissage automatique• Développement d’un segmentateur automatique en EDU à

partir des annotations exploratoires[Bien que celle-ci soit géographiquement située en Afrique,] [l'Art de l'Égypte antique, [né il y a environ cinq mille ans,] est l'une des principales sources de l'art en Europe.]

• Classification par token (ouverture/fermeture/intérieur)+post-traitement

• Résultats :• ~ 90% de F-score sur les bornes individuelles (G || D, sans

post-traitement)• ~ 75% de F-score sur les EDUs (G && D, avec post-

traitement)11

Analyses linguistiques des Relations de Discours

• Relation d’Elaboration : Thèse Marianne Vergez-Couret (15 Novembre 2010)

• Elab relation la plus fréquente dans corpus Annodis• Exploitation d’une petite partie du corpus• Double perspective sémasiologique/onomasiologique

• Relations de causalité : Master 2 Caroline Atallah (Juin 2010)

Résultat, Explication

12

Les relations causales

• Objectif : Etudier le marquage des relations causales en s’appuyant sur les premières annotations ascendantes

• 4 relations étudiées :• Explication et Résultat• Explication* et Résultat*

13

Explication

• Explication (explanation)La relation d’explication lie deux segments dont le

second (celui qui est attaché) explique le premier (la cible) de façon explicite ou non.

[Le chômage baisse en 2008]_1 [parce qu’il y a moins d’actifs.]_2

Explanation (1,2)

Marqueurs suggérés : car, parce que, à cause de, du fait de, par la faute de, grâce à, si 1 c’est parce que 2, depuis (si causalité évidente)

14

Résultat• Résultat (result)La relation Résultat caractérise des liens entre deux

segments portant sur deux éventualités (événements ou états) dont la 2e résulte de la première.

[Nicholas avait bu trop de vin]_1 [et a donc dû rentrer chez lui en métro.]_2

Result (1,2)

Marqueurs suggérés : du coup, donc, par conséquent, en conséquence, par suite, à la suite de quoi

15

Relations « meta-talk »Dans certains cas, les effets sémantiques du lien

rhétorique qui s’établit entre deux segments ne portent pas sur les événements décrits dans les segments, mais sur les actes de parole eux-mêmes.

• Explication*[Ferme la porte,]_1 [il fait froid.]_2• Résultat*[Il fait froid,]_1 [ferme la porte.]_2 Pas de suggestion de marqueurs potentiels

16

Constitution d’un corpus de travail

• Mise en place d’un outil informatique• Rapprochements effectués entre annotations• Résultats des confrontations

17

Mise en place d’un outil informatique

• Développer un outil capable de confronter chaque relation d’Explication ou de Résultat repérée par un annotateur avec celles de son collègue et réciproquement

• Phase naïve : 43 textes doublement annotés par ANN1, ANN2 et ANN3, soient trois binômes

• Pour chaque texte, trois fichiers textes : segmentation, annotations 1 et annotations 2

• Structure d’un fichier de sortie du programme informatique :• Titre du texte• Texte intégral• Annotations correspondant à ce texte 18

Annotations « identiques » : Annot. issues de rapprochement entre segments

pour une même RD

• Inversion Attachement : Result (20/21) par ANN1 Result (21/20) par ANN2

• Attachement partiel : Explanation ([19,20,21,23,24,25]/26) par ANN1Explanation (25/26) par ANN2

Autres cas possibles (autres textes) :Explanation (10, [11-12]) et Explanation (10,11)Result ([21,22,23],[24,25]) et Result (23,24)

Result (20/21) par ANN2

19

• Inversion Attachement partiel : Result ([19,20,21]/[23,24,25]) par ANN1 Result ([23,24,25]/[17,18,20,21]) par ANN2

Explication ([31,32]/33) par ANN1 Explication (33/31) par ANN2

Explication (31/33) par ANN2

Result ([17,18,20,21]/[23,24,25]) par ANN2

20

21

Annotations différentes : Annot. issues de rapprochement entre segments

pour une RD différente

• Annotations appariables : Parallel([9,10]/11) par ANN1Explanation(11/[8,9,10] par ANN2

• Annotations non appariables : 2 segments reliés par 1 RD chez ANN1pas reliés chez ANN2

22

Résultats des confrontations

3 fichiers textes pour chaque texte :

segmentation, annotations 1 et

annotations 2

Confrontation de toutes les

annotations d’un même binôme

Traitement réalisé par notre outil

1 fichier texte Annotations identiques

1 fichier texte Annotations différentes

• Annotations identiques vs annotations différentes• Annotations appariables vs annotations non appariables

22

23

Données récupérées

• 47 cas d’annotations identiques (94 annotations)• 202 cas d’annotations différentes• Au total, 296 annotations concernant les relations d’Explication

et de Résultat

Corpus d’étude limité aux cas d’annotations identiques.

Explication Résultat Total

Annotations identiques 25 22 47

Annotations différentes appariables

72 68 140

Annotations différentes non appariables

31 31 62

23

Analyse du corpus et résultats

• Observations sur la qualité des annotations• Marqueurs de relations causales dans le

corpus

24

Observations sur la qualité des annotations

• Correction (ou validation) de chaque annotation• Désaccord sur les arguments de la relation

• Problème de la formation des segments complexes• Désaccord sur la nature de la relation

• Aucune relation pragmatique repérée• Confusion entre des relations : [C’est probablement l’explication de l’expression

française. ]_26

• Rôle important des marqueurs linguistiques dans la tâche d’annotation

25

Marqueurs de relations causales dans le corpus

Marqueurs les plus « fréquents » :

• Résultat : donc (6 occurrences)• Explication : car (10 occurrences)+ le cas des connecteurs de nature

prépositionnelle : pour, par, à cause de, en raison de, sous

Donc

• Introduit une conclusion logique• « A donc B » équivalent à « Si A, alors B »

• Permet l’inférence d’une relation située au niveau du raisonnement

« L’information est une mesure abstraite dépendant de choix donc une mesure probabiliste et pas seulement statistique. »

Identification de Résultat-Inférentiel pour 6 cas sur 8

Car

• Dans 6 cas sur 11, identification d’une relation métalinguistique, Explication*• présence d’indices discursifs décrivant l’expression d’un

jugement de la part de l’énonciateur

« La route moderne est probablement un tracé traditionnel, car elle suit tout naturellement la limite du terrain ferme et du terrain alluvial. » (Mariana, Wikipédia)

• Mais car pas exclusivement marqueur d’Explication*

« J’étais prêt à partir (…) car à 32 ans, il s’agissait sans doute de ma dernière chance de signer un nouveau contrat. » (Pablo Correa, Est Républicain)

28

Pour, par, en raison de, à cause de, sous

• Non négligeables : ont guidé les annotateurs• Des liens de natures particulières

• « Ce bouchage en force permet de s’assurer que le bouchon ne sautera pas tout seul, sous la pression du gaz contenu dans le vin. »

On ne peut pas vraiment parler de relation d’Explication.

On laisse de côté ce type de relation causale.

29

Conclusion sur les marqueurs relevés dans le corpus

• Des liens causaux présents dans différents niveaux de la langue :• Relation de cause à effet strictement sémantique :

pour, par, sous…• Relation rhétorique entre des éventualités (états

ou événements) : Explication (car), Résultat (donc)• Relation pragmatique entre des actes de parole

(niveau illocutoire) : Explication* (car)• Relation entre des états mentaux (niveau

épistémique) : Résultat-Inférentiel (donc)

30

Bilan première exploitation du corpus annoté en RD

• Mise en évidence des difficultés qui peuvent être posées lors d’une campagne d’annotation• Difficultés posées par la rédaction d’un guide

satisfaisant• Tâche des annotateurs très complexe

• Apports des annotations naïves dans cette campagne ?• Distinguer des marqueurs plus forts (donc, car)• Ouvrir la question sur la définition même d’une

relation de discours (le cas de par, sous, …)• Faire émerger des confusions courantes avec

d’autres relations (explication et élaboration)31

Bilan publications et mémoires utilisant corpus annoté Annodis

• Afantenos Stergos, Asher Nicholas. 2010. Testing SDRT’s Right Frontier. Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010). pp 1-9. Beijing, China

• Afantenos Stergos, Denis Pascal, Muller Philippe, Danlos Laurence. 2010. Learning recursive segments for discourse parsing. In Proceedings of the 7th international conference on Language Resources and Evaluation (LREC 2010), Valletta, Malta.

• Vergez-Couret Marianne. Sémantique du discours Le cas de la relation d’Élaboration : Etude en corpus de la relation et de son marquage, Thèse de doctorat. Université Toulouse-Le Mirail, 2010.

• Atallah Caroline. Les relations de causalité dans le discours, mémoire de Master 2 en Sciences du Langage parcours TAL, Université Toulouse-Le Mirail, 2010.

32

Bilan publications pertinentes pour Annodis

Adam Clémentine & Vergez-Couret Marianne (2010). Signalling Elaboration : Combining Gerund Clauses with Lexical Cues. In Proceedings of Signalling Text Organisation (Multidisciplinary Approaches to Discourse 10), Moissac (France), 17-20 mars 2010.

Asher Nicholas, Prévot Laurent & Vieu Laure, 'Setting the Background in Discourse', Discours(e), 2008.Bras Myriam, Prévot Laurent & Vergez-Couret Marianne (2008). "Quelle(s) relation(s) de discours pour les

structures énumératives ? ", Actes du Colloque Mondial de Linguistique Française CMLF'08, Durand, J., Habert, B., Laks, B. (éds.), pp. 1945-1964, Paris, 9-12 juillet 2008.

Bras Myriam & Schnedecker Catherine (2009). Dans un (premier+second+nième) temps et les relations de discours : de l’élaboration à la contre-argumentation, LPTS, Paris (France) 21-23 septembre 2009.

Bras Myriam & Le Draoulec Anne (2009). D’abord marqueur de structuration du discours, Journal of French Language Studies, 19, pp. 229-248.

Prévot Laurent, Vieu Laure & Asher Nicholas (2009). Une formalisation plus précise pour une annotation moins confuse: la relation d’élaboration d’entité. Journal of French Language Studies, 19, pp. 207-228.

Vergez-Couret Marianne, Prévot Laurent, Bras Myriam (2008) " Interleaved discourse structures, the case of two-step enumerations", Proc. of Constraints in Discourse CID'III, Benz, A., Kühnlein, P., Stede, M. (eds.), pp. 85-94, Potsdam, 30 juillet - 1er aout 2008.

Vergez-Couret Marianne (2009b). Vers un marqueur, plus particulièrement de la relation d’Élaboration, LPTS, Paris (France) 21-23 septembre 2009.

Vergez-Couret Marianne (2009a). Le rôle de l'adverbe notamment dans la mise en oeuvre des relations de discours, Journal of French Language Studies, 19, pp. 249-268.

33

Interface Ascendant/Macro

• Structures Enumératives• Quelles RD pour les SE?• SE à 2 temps• Exploration des SE, recherche d’isomorphisme avec

des « Structures Elaboratives » : thèse Marianne

• Structure du document• Prise en compte segmentation en paragraphe • Titres• Liens avec segmentation thématique

34

Recommended