27
Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS) Eckhard Bick (University of Southern Denmark) Laurent Romary (LORIA – INRIA) Jean-Marie Pierrel (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Embed Size (px)

Citation preview

Page 1: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

La FReeBank :

vers une base libre de corpus annotés

Susanne Salmon-Alt (ATILF – CNRS)

Eckhard Bick (University of Southern Denmark)

Laurent Romary (LORIA – INRIA)

Jean-Marie Pierrel (ATILF – CNRS)

Page 2: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

Trois constats

• Manque de corpus annotés réutilisables– modélisation, apprentissage, évaluation– retard important par rapport à l’anglais

• Initiatives d’annotation au-delà de la morphologie– syntaxe (Abeillé 2003, Vilnat & al. 2003)– anaphores (Tutin & al. 1999, Popescu-Belis 1999, Salmon-Alt 2002) – sémantique (Projet Evalda Média)– majorité de ressources sous droits et/ou non normalisées

• Initiatives de mise en ligne de ressources libres– lexiques : tables LADL/IGM, LEFFF, ABU, Papillon– corpus : Asila, GDR Sémantique, Ananas, Text®, ABU

– mais peu de ressources annotées– problèmes d’interfaçage et de mise à jour

Page 3: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

Un objectif

• Espace ouvert de dépôt de ressources libres– pas un simple espace de méta-données (cf. OLAC)– téléchargement et dépôt de données brutes ou annotées– dépôt d’annotations sur ressources existantes

– méta-annotations– annotations concurrentes– corrections, affinages– annotation d’extraits

– pas de validation a priori des annotations– documentation

– schémas – pratiques

Page 4: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

… et un rêve

• Annotations « stand-off »– séparation entre données primaires et annotations– souhaitables pour

– annotations concurrentes : comparaison de deux étiqueteurs– annotations non hiérarchiques : antécédents complexes

• Annotations normalisées– suivi des recommandations (TEI, ISO TC37/SC4, RNIL)– indispensables pour

– interfaçage avec outils TAL– évaluation des ressources– partage d’outils de traitement de corpus– pérennisation– documentation partagée

Page 5: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

• Corpus : Le Père Goriot (chap. I)

texte_brutMadame Vauquer, née De Conflans , est une vieille femme qui, depuis quarante ans, tient à Paris une pension bourgeoise établie rue Neuve-Sainte-Geneviève , entre le quartier latin et le faubourg Saint-Marceau . Cette pension, connue sous le nom de la Maison-Vauquer , admet également des hommes et des femmes, des jeunes gens et des vieillards, sans que jamais la médisance ait attaqué les mœurs de ce respectable établissement. Mais aussi depuis trente ans ne s'y était-il jamais vu de jeune personne, et pour qu'un jeune homme y demeure, sa famille doit-elle lui faire une bien maigre pension. Néanmoins, en 1819, époque à laquelle ce drame commence, il s'y trouvait une pauvre jeune fille. En quelque discrédit que soit tombé le mot drame par la manière abusive et

Du rêve à la réalité…

Page 6: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

• Corpus : Le Père Goriot (chap. I)

texte_brut<tt><ut><p><seg> <er type="person-oeuvre" id2="p1" id="1"> Madame Vauquer , née De Conflans </er> , est une vieille femme qui , depuis quarante ans , tient à <er type="place-ville" id2="pl1" id="2"> Paris </er> <er type="org-oeuvre" id2="or1" id="6"> une pension bourgeoise établie <er type="place-rue" id2="pl2" id="3"> rue Neuve - Sainte - Geneviève </er> , entre <er type="place-quartier" id2="pl3" id="4"> le quartier latin </er> et le <er type="place-rue" id2="pl4" id="5"> faubourg Saint - Marceau </er> </er> . </seg>

texte_balisé_tei entités_nommées référence

Du rêve à la réalité…

Page 7: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

• Corpus : Le Père Goriot (chap. I)

texte_brut

texte_balisé_tei entités_nommées référence

texte_balisé_tei entités_nommées référence

<tt><ut><p><seg>

<rs type="person-oeuvre" id="p1">

<name type="person-oeuvre" key="Mme Vauquer">Madame Vauquer</name>née <name type="person-oeuvre" key="De Conflans">De Conflans</name>

</rs>, est une vieille femme qui, depuis quarante ans, tient à

<rs type="place-ville" id="pl1">

<name type="place-ville" key="Paris">Paris</name>

</rs> …

</seg></p> </ut></tt>

Du rêve à la réalité…

Page 8: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

• Corpus : Le Père Goriot (chap. I)

texte_brut

texte_balisé_tei entités_nommées référence

texte_segmenté

texte_balisé_tei entités_nommées référence

<word id="word_27">Madame</word><word id="word_28">Vauquer</word><word id="word_29">,</word><word id="word_30">née</word><word id="word_31">De</word><word id="word_32">Conflans</word><word id="word_33">,</word><word id="word_34">est</word><word id="word_35">une</word><word id="word_36">vieille</word><word id="word_37">femme</word><word id="word_38">qui</word>

Du rêve à la réalité…

Page 9: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

• Corpus : Le Père Goriot (chap. I)

texte_brut

texte_balisé_tei entités_nommées référence

texte_segmenté

morpho-syntaxe

texte_balisé_tei entités_nommées référence

<w span="word_24" msd="DTN:m:s" lemma="un"></w><w span="word_25" msd="SBC:_:s" lemma="pension"></w><w span="word_26" msd="ADJ:f:s" lemma="bourgeois"></w><w span="word_27" msd="SBC:_:s" lemma="madame"></w><w span="word_28" msd="SBP" lemma="vauquer"></w><w span="word_29" msd=" " lemma=","></w><w span="word_30" msd="ADJ2PAR:f:s" lemma="naître"></w><w span="word_31" msd="PREP" lemma="de"></w><w span="word_32" msd="SBP" lemma="conflans"></w><w span="word_33" msd=" " lemma=","></w>

Du rêve à la réalité…

Page 10: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

• Corpus : Le Père Goriot (chap. I)

texte_brut

texte_balisé_tei entités_nommées référence

texte_segmenté

morpho-syntaxe

morpho-syntaxe

texte_balisé_tei entités_nommées référence

<w span="word_24" msd="DETIFS" lemma="un"></w><w span="word_25" msd="NCFS" lemma="pension"></w><w span="word_26" msd="ADJFS" lemma="bourgeois"></w><w span="word_27" msd="NCFIN" lemma="madame"></w><w span="word_28" msd="INC" lemma="Vauquer"></w><w span="word_29" msd="PCTFAIB" lemma=","></w><w span="word_30" msd="VPARPFS" lemma="naître"></w><w span="word_31" msd="PREP" lemma="de"></w><w span="word_32" msd="INC" lemma="Conflans"></w><w span="word_33" msd="PCTFAIB" lemma=","></w><w span="word_34" msd="VINDP3S" lemma="être"></w>

Du rêve à la réalité…

Page 11: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

syntaxe

• Corpus : Le Père Goriot (chap. I)

texte_brut

texte_balisé_tei entités_nommées référence

texte_segmenté

morpho-syntaxe

morpho-syntaxe

texte_balisé_tei entités_nommées référence

<root label="UTT" idref="nt_1_6" />

<nt id="nt_1_0" cat="np"><edge label="DN"  href="tt.xml#xptr(id(msd_4))"/><edge label="H" href="tt.xml#xptr(id(msd_5))"/>

</nt>

<nt id="nt_1_1" cat="pp"><edge label="H" href="tt.xml#xptr(id(msd_3))"/><edge label="DP" idref="nt_1_0" />

</nt>…</root>

Du rêve à la réalité…

Page 12: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

syntaxe

• Corpus : Le Père Goriot (chap. I)

texte_brut

texte_balisé_tei entités_nommées référence

texte_segmenté

morpho-syntaxe

morpho-syntaxe

texte_balisé_tei entités_nommées référence

Concepts fondamentaux

Page 13: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

syntaxe

• Corpus : Le Père Goriot (chap. I)

texte_brut morpho-syntaxe

morpho-syntaxe

texte_balisé_tei entités_nommées référence

texte_segmenté

texte_balisé_tei entités_nommées référence

Concepts fondamentaux

Page 14: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

syntaxe

• Corpus : Le Père Goriot (chap. I)

texte_brut morpho-syntaxe

morpho-syntaxe

texte_balisé_tei entités_nommées référence

texte_segmenté

texte_balisé_tei entités_nommées référence

Concepts fondamentaux

Page 15: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

• « Couverture linguistique »– conditions de production & contenu linéaire

– « Je sais que le langage courant est plein de pièges. » => S. de Beauvoir, 1976; M. Yaguello, 1978; TALN 2004

• « Corpus » – collection de données caractérisée par une même couverture linguistique

– Goriot, chap. I– Le Monde 09/1986 articles sportifs du Monde 09/1986

– corpus contingent vs. intentionnel (Sinclair 1996, Habert et al 1997, Véronis 2000)

• « Ressource »– unité physique de dépôt de données relatives à un corpus

– Goriot scanné (image)– Goriot texte brut (Word)– Goriot étiqueté + arboré (XML Tiger)

Concepts fondamentaux

Page 16: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

• « Niveau de description »– ensemble cohérent d’informations explicitées relatif à un corpus

– fichier audio, texte brut, texte formaté, texte balisé TEI, texte segmenté, morpho-syntaxe, syntaxe, référence, discours

– analyse humaine ou traitement automatique– instancié par un schéma d’annotation (Ide & Romary, 2001)

– données primaires et secondaires– considération pratique : reconstitution de la couverture– continuum théorique (texte balisé TEI ?)

• « Méta-données »– identification et gestion des données

Concepts fondamentaux

Page 17: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

Organisation linguistique

Corpus

CouvertureCaractérisations supplémentaires…

dépend de

0..n

0..1

Typologie informationnelleSourceSchéma d’annotationÉvaluation

Niveau de description

1..1

0..n

est composé de

Page 18: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

Organisation opérationnelle

Corpus

DépositaireDate de dépôt

CouvertureCaractérisations supplémentaires…

1..1

0..n

est composé de

Ressource dépend de

0..n

0..1

Typologie informationnelleSourceSchéma d’annotationÉvaluation

Niveau de description

1..1

0..n

est composé de

1..1 1..n

est composé de

Page 19: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

Méta-données

• Complémentarité des initiatives internationales– Dublin Core, OLAC, IMDI, TEI – convergence sur les descripteurs du TC 37 de l’ISO

– répertoire de catégories de données : rôles, codes de langue…

• Méta-données utiles pour la FReeBank– pertinence vis-à-vis de corpus, ressource et niveau de description– prévoir des méta-données plus fines à terme

– documentation des étiquettes morpho-syntaxiques– caractérisation de données « primaires » / « secondaires »

• Méta-données codées sous forme d’en-têtes TEI– dissémination de bonnes pratiques pour la représentation et la transcription– diffusion au format OLAC et IMDI

– moissonnage de la FReeBank par les portails correspondants

Page 20: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

Exemple « types de discours »

• Classification stable dans OLAC– drama, formulaic discourse, interactive discourse, language

play, oratory, narrative, procedural discourse, singing, unintelligible speech

• Caractérise la composante « niveau de description »– utilisation de <textClass>/<classCode> dans l’en-tête TEI

• A définir…– opérationnalité de la classification– percolation vers la composante « corpus » ?

Page 21: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

Exemple « rôles »

• Ensemble complexe de rôles dans OLAC– caractérisation des agents intervenant dans la création, gestion et

distribution de données linguistiques

• Distribution vis-à-vis de l’architecture de la FReeBank– Corpus

– Depositor– Ressource

– Depositor, Compiler, Editor, Researcher, Sponsor– Niveau de description

– [Gestion de l’annotation] Editor, Researcher, Annotator, Data inputter, Developer, Sponsor

– [Contenu informationnel] Author, Translator, Interpreter, Interviewer, Responder, Participant, Performer, Signer, Recorder, Research participant, Singer, Speaker

Page 22: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

Contenu : amorce

• Corpus libres de droits– Asila (corpus de dialogue)– Ananas (corpus annotés en anaphores)– GDR Sémantique, L’Arboratoire, Text®, ABU– toute contribution est la bienvenue !

• État actuel (cf. papier)Genre Taille TEI Seg. Brill Cord. TreeT Synt. GN Coref

littérature 100 k () ()

presse 100 k () () () ()

science 100 k

administratif 70 k () () () ()

oral 100 k ()

Page 23: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

Annotation syntaxique (Arboratoire)

• FrAG (French Annotation Grammar, E. Bick)

– http://sandbox.visl.sdu.dk/visl/fr/

DTT

CG de correction

CG syntaxique

CG dépendence

PSG

texte

Lexique:valenceprototypes sémantiques

Contexte (proposition)

Selecteurd'arbres

Page 24: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

Annotation référentielle (Ananas)

• Analyse syntaxique– étiquetage TreeTagger & constituants + dépendances (VISL)– structure arborescente– correction manuelle partielle

• Normalisation– format Negra-TIGER + stand-off

• Extraction GNs– TIGER-Search– XSL

• Annotation référentielle– filtrage semi-manuel des GN référentiels– annotation manuelle (double annotation + évaluation accord)

Page 25: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

Granularité, versions, corrections

• Nouveau dépôt– ressource + niveaux de description– méta-données (catégories de données, évaluation, annotateur)– extraction de GN => catégorisation entités nommées– sur-spécification étiquettes morpho-syntaxiques– correction manuelle des dépendances syntaxiques

Niveau de description

« Jardin à la française »

« Jardin botanique »

« Forêt vierge » 

structure (TEI) oui oui ?

étiquetage oui partiellement non

syntaxe oui partiellement non

référence oui partiellement non

Page 26: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

Bilan & Perspectives• Base évolutive, cohérente et générique

– analyse des pratiques linguistiques et des besoins TALN– abstraction, modélisation, implémentation– suivi des initiatives internationales

• Outils & Interface– outils de restitution visuelle des corpus– évaluation de l’accord entre plusieurs annotations– statistiques accès & téléchargement– gestion des versions

• Ouverture– à d’autres types de ressources– lexiques morphologiques, syntaxiques, sémantiques

Page 27: Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc La FReeBank : vers une base libre de corpus annotés Susanne Salmon-Alt (ATILF – CNRS)

Traitement Automatique de la Langue Naturelle – TALN 2004, Fès, Maroc

Et en plus, ça existe vraiment…

http://www.loria.fr/projets/freebank