70
1 Les Données Textuelles •Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples d’utilisation. •Exemples de corpus textuels : le British National Corpus PAROLE Français, Le Monde •Les corpus étiquetés et analysés - corpus syntaxiques Penn Treebank www.cis.upenn.edu/~treebank Corfrans www- rali.iro.umontreal.ca/corfrans NEGRA corpus -corpus sémantiques Framenet

1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

Embed Size (px)

Citation preview

Page 1: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

1

Les Données Textuelles

•Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples d’utilisation.

•Exemples de corpus textuels : le British National Corpus

PAROLE Français, Le Monde

•Les corpus étiquetés et analysés

- corpus syntaxiques Penn Treebank www.cis.upenn.edu/~treebank

Corfrans www-rali.iro.umontreal.ca/corfrans

NEGRA corpus

-corpus sémantiques Framenet www.icsi.berkeley.edu/~framenet

PropBank

Page 2: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

2

Corpus

•Définition : Une collection quelconque de plus d'un texte

•Propriétés : représentatif, de taille finie, lisible par une machine

•Référence standard

•Utilisations : Lexicographie—établir si un verbe est transitif

•Utilisations : Développement de grammaire—déterminer la couverture de la grammaire, les erreurs les plus fréquentes.

Page 3: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

3

Corpus

Le page suivantes

sur l’écahntillonage et l’utilisations des corpus

sont tiré des ouvrages

Benoît Habert, Adeline Nazarenko, et André Salem, Les linguistiques de corpus, Armand Colin

Tony Mc Enery et Andrew Wilson, Corpus Lingusitics, Edinburgh Press

Page 4: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

4

Corpus équilibrés•En principe, une collection de plus d'un texte peut être appelée un corpus. Cependant, le terme corpus possède en général des connotations plus spécifiques.

•Le corpus doit être représentatif. Afin qu’une collection de textes soit représentative, elle doit être échantillonnée de façon équilibrée. La méthode la plus utilisée est la méthode d'échantillonnage stratifiée, où l'on crée une collection équilibrée de textes distribués uniformément à travers les genres (roman, journal, discours politique, etc.) et les modalités (écrite, orale) qui intéressent.

•Le corpus doit être de taille finie définie à l'avance. On parle alors de corpus fermé. D'habitude, les corpus sont des collections des textes fixées à l'avance, afin d'assurer que l'équilibre et la représentativité soient respectés.

•Un corpus doit être électronique (machine readable) pour permettre des recherches et des manipulations rapides à large échelle.

Page 5: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

5

Corpus équilibrés

D'un point de vue statistique, on peut considérer un corpus comme un échantillon d'une population (d'événements langagiers).

Comme tout échantillon, un corpus est passible de deux types d'erreurs statistiques qui menacent la généralité des résultats

l'incertitude (random error)

la déformation (bias error)

•L'incertitude survient quand un échantillon est trop petit pour représenter avec précision la population réelle.

•Une déformation se produit quand les caractéristiques d'un échantillon sont systématiquement différentes de celles de la population que cet échantillon a pour objectif de refléter.

Page 6: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

6

Exemples d’erreurs

Incertitude

Un extrait de 2 000 mots d'une interview de George Bush ne permet pas d'extrapoler et d'en tirer des conclusions sur l'interaction journaliste-homme politique.

Déformation

Si on utilise que les articles de la seule rubrique Economie du Monde, quel que soit le volume textuel rassemblé, on risque de déboucher sur une image déformée du français.

Page 7: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

7

Échantillonnage

•Pour atteindre une diversité maximale de situations de communication dans un corpus de référence on procède souvent à une démarche d'échantillonnage.

•L'échantillonnage touche à la fois

le choix des documents à intégrer et

la partie de ces documents à conserver.

•On essaye d'équilibrer en taille les échantillons retenus -- de taille limitée (de 2'000 à 40'000 mots) --, et à ne pas retenir des empans de texte continus, de manière à ne pas risquer de sur-représenter des «lieux» du texte aux caractéristiques particulières (l'introduction par exemple).

•Ce saucissonnage rend par contre impossible l'étude des changements de corrélations de traits linguistiques au fil des textes (étude longitudinale).

Page 8: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

8

Corpus de contrôle (monitor corpus)

•Il existe aussi un autre type de corpus, le corpus de contrôle, qui n'est pas de taille finie, mais plutôt il croit au fur et à mesure.

•Un corpus de contrôle est un corpus auquel on ajoute tout le temps des textes. C'est un corpus ouvert. Cela est très utile en lexicographie pour chercher les néologismes, mais on ne peut plus garantir que le corpus restera équilibré. La recherche scientifique courante où l'on utilise le Web en tant que corpus rentre dans ce cas de figure.

Page 9: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

9

Corpus de référence

On parle de corpus de référence lorsque un corpus devient représentatif de la langue - à un certain moment historique,

- pour une certaine langue,

- dans une certaine modalité.

Un corpus de référence est conçu pour fournir une information en profondeur sur une langue. Il vise à être suffisamment grand pour représenter toutes les variétés pertinentes de cette langue et son vocabulaire caractéristique, de manière à pouvoir servir de base à des grammaires, des dictionnaires et d'autres usuels fiables. Il s'agit donc d'associer étroitement deux caractéristiques :

une taille suffisante et la diversité des usages représentés.

•Par exemple, le Brown Corpus est le corpus de référence de l'anglais Américain écrit, le British National Corpus est le corpus de référence de l'anglais Britannique écrit et oral.

Page 10: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

10

Utilisations en lexicographie

•Les lexicographes ont utilisées des corpus, ou des ensembles de citations, bien avant que la linguistique de corpus ne se développe (voir par exemple le célèbre dictionnaire de Samuel Johnson, de même que l’Oxford English Dictionary).

•À présent, l'existence de larges collections de textes et la possibilité de les consulter et manipuler très rapidement est en train de changer la pratique de la lexicographie.

•D'habitude, les lexicographes compilent les entrées d'un dictionnaire sur la base de leurs propres intuitions et d'une collection d'exemples qu'ils collectent à la main (ils utilisent des fiches d'exemples). Un corpus peut ajouter de l'information supplémentaire.

Page 11: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

11

Utilisations en lexicographie

•Par exemple, Atkins and Levin se sont occupés de certaines verbes dans la même classes que le verbe shake (trembler).

•Elles ont consulté le LDOCE (Oxford's Advanced Learner's Dictionary) et COBUILD. Les deux dictionnaires indiquaient que les verbes quake et quiver sont toujours intransitifs (n'ont pas de COD). Par contre, si on consulte un corpus de 50 millions de mots, on trouvera que les deux verbes peuvent être utilisés dans la forme transitive.

Page 12: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

12

Utilisations en théorie linguistique

•Les corpus sont important pour la recherche linguistique au niveau des phrases et de la syntaxe, car, d'un côté, ils fournissent des informations quantitatives, et, de l'autre côté, ils sont des réservoirs d'exemples naturels de l'usage de la langue. Ils peuvent être utilisés comme ressources pour tester une théorie grammaticale donnée.

•Pour illustrer le deuxième point, voici un exemple.

Page 13: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

13

Corpus et théorie linguistique

•Sampson (1987) analysa manuellement un ensemble de syntagmes nominaux. Il arriva à la conclusion qu'une grammaire générative ne pouvait pas être utilisée pour analyser des données textuelles, car il y a trop de constructions différentes.

•Taylor,Grover et Briscoe (1989) contredirent cette hypothèse, à l'aide d'un analyseur syntaxique, basée sur une grammaire. Leur analyseur marche correctement dans 96.88 % de cas. Les cas incorrectes sont facilement analysable comme lacune de couverture de la grammaire, et ils ne sont pas de cas isolés.

•La conclusion est que une grammaire générative peut, en principe, rendre compte des phénomènes naturels des données textuelles.

Page 14: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

14

Le British National Corpus

Plusieurs projets de constitution de corpus de référence ont été menés à bien aux États-Unis : corpus Brown; et en Angleterre : corpus Lancaster-Oslo/Bergen (LOB).

Rappel : Il s'agit d'associer étroitement deux caractéristiques

une taille suffisante

la diversité des usages représentés.

Le BNC compte 100 millions de mots étiquetés.

Il mêle oral (10 %) et écrit (textes de fiction à partir de 1960 et textes «informatifs» à partir de 1975).

Page 15: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

15

The British National Corpus : les usagesEn ce qui concerne l'écrit, les variables prises en compte sont le domaine (textes informatifs et textes de fiction), le support (livres, périodiques, discours), la datation et la diffusion (sélection parmi les listes des meilleures ventes, celles de prix littéraires, les indications de prêts en bibliothèque, etc.). L'accent mis sur la diffusion réelle certifie la représentation d'usages majeurs de l'anglais.

Pour l'oral, des conversations spontanées ont été recueillies à partir d'un échantillonnage démographique en termes d'âge, de sexe, de groupe social et de région.

Ont été également intégrées des transcriptions d'interactions orales typiques dans divers domaines : affaires (réunions, prises de parole syndicales, consultations médicales ou légales); éducation et information (cours et conférences, informations radio-télévisées); prises de parole publiques (sermons, discours politiques, discours parlementaires et légaux); loisirs (commentaires sportifs, réunions de clubs).

Page 16: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

16

Le corpus compte 100’106’008 de mots, et il occupe 1,5 gigaoctets d’espace disque.

Pour vous donner une perspective, si on imprimait le corpus en petite police sur papier très fin (comme livre de poche) il occuperait 10 mètres d’étagère. (Un livre de poche habituel consiste en 250 pages pour chaque centimètre d’épaisseur, et il a 400 mots par page.)

Si on le lisait à haute voix, à la vitesse plutôt rapide de 150 mots par minute, 8 heures par jour, 365 jours par an, il nous faudrait un peu plus de 4 ans pour le lire entièrement.

Il y a 6 million 250 milles phrase dans le corpus.

La segmentation et l’étiquetage ont été fait automatiquement avec le tagger stochastique CLAWS développé à l’université de Lancaster. On utilise 65 partie du discours.

The British National Corpus : la taille

Page 17: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

17

The British National Corpus : exemple<p>

<s n="38"><w VVG-NN1>Raising <w NN1>money <w PRP>for <w DPS>your <w AJ0-NN1>favourite <w NN1>charity <w VM0>can <w VBI>be <w AJ0>fun<c PUN>.

<s n="39"><w PNP>You <w VM0>can <w VDI>do <w PNP>it <w PRP-AVP>on <w DPS>your <w DT0>own <w CJC>or <w PNP>you <w VM0>can <w VVI>get <w AV0>together <w PRP>with <w NN1>family <w CJC>and <w NN2>friends<c PUN>.

<s n="40"><w EX0>There <w VBZ>is <w AT0>no <w NN1>limit <w PRP>to <w AT0>the <w NN1>number <w PRF>of <w NN2>ways <w TO0>to <w VVI>raise <w NN1>money<c PUN>.

<s n="41"><w CJS>Whether <w AT0>the <w AJ0>final <w NN1>total <w VBZ>is <w NN0>&pound;5 <w CJC>or <w NN0>&pound;5,000<c PUN>, <w PNP>it <w VBZ>is <w DT0>all <w AV0>very <w AV0>much <w VVN-VVD>needed<c PUN>.

</p>

Page 18: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

18

Autres Corpus pour l'anglais

The Bank of English

http://titania.cobuild.collins.co.uk/boe_info.html

http://titania.cobuild.collins.co.uk/direct_info.html

The International Corpus of English (ICE)

http://www.ucl.ac.uk/english-usage/ice.htm

  

 

Page 19: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

19

Corpus français (projet PAROLE)

•Différemment du BNC, les récents projets de constitution de corpus en France reposent plutôt sur l'assemblage de données préexistantes.

•Exemple : corpus réalisé dans le cadre du projet européen Parole (1996-1998).

Page 20: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

20

Corpus français (projet PAROLE)

•Les 20 093 099 mots obtenus se répartissent à l'issue du projet en

2 025 964 mots de transcriptions de débats au parlement européen,

3 267 409 mots d'une trentaine d'ouvrages de disciplines variées

(en sciences humaines) fournis par CNRS-Éditions,

942 963 mots provenant des notes de vulgarisation de la revue CNRS Info

et d'articles sur la communication de la revue Hermès

13 856 763 mots correspondant à 25 654 articles provenant du choix

aléatoire de numéros entiers parmi ceux des années

1987, 1989, 1991, 1993 et 1995 du journal Le Monde.

• Les données rassemblées sont variées, mais pas représentatives des emplois principaux du français : un seul journal, quotidien. La presse régionale, les hebdomadaires, la presse spécialisée sont absents, ainsi que les langages techniques et scientifiques. Néanmoins, très utile en pratique.

Page 21: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

21

Corpus Français

University of Virginia Electronic Text Centre  Corpus téléchargeables dans plusieurs langues (y compris le français)

http://etext.lib.virginia.edu/uvaonline.html

Corpus lexicaux québécois  (Onze corpus (entre autres, le Trésor de la langue française au Québec)

http://www.spl.gouv.qc.ca/banque/banque.html

Corpus 56 56 articles de journaux (français, canadiens, suisses)

http://tactweb.chass.utoronto.ca/french/corp_dat.htm

InaLF – Institut National de la Langue Française

http://www.inalf.fr/produits.html

Page 22: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

22

Corpus arborés

Une collection de textes permet d'engendrer de multiples corpus distincts.

Chacun de ces corpus peut donner lieu à des annotations variées: étiquetage morpho-syntaxique, projection de catégories sémantiques, lemmatisation, etc.

Description de corpus arborés :

http://www.u-grenoble3.fr/idl/cursus/enseignants/tutin/corpus.htm

http://treebanks/linguist/jussieu/index.html

Page 23: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

23

Constitution du Penn Treebank

Le Penn Treebank a été constitué entre 1989 et 1992 (1ère phase). C’est un corpus annoté d’environ 4.5 millions de mots d’anglais-américain. L’ensemble de ce corpus a presque entièrement été analysé par arbres.

http://www.cis.upenn.edu/~treebank/

Composition résumés du Département d’énergie (230'000 mots)

articles du Dow Jones Newswire (3 mos de mots dont 1 mo arboré)

bulletins du Département d’agriculture (80'000 mots)

bibliothèque de textes américains (105'000 mots)

messages MUC-3 (infos sur les terroristes en Amérique du Sud) (112K mots)

phrases d’ATIS (phrases spontanées transcrites) (20'000 mots)

phrases prononcées en radio (10'000 mots)

Brown Corpus réétiqueté (1’200’000 mots)

phrases des manuels IBM (90'000 mots)

Page 24: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

24

Étiquetage du Penn Treebank

Le Penn Treebank est en fait un corpus semi-automatisé car l’étiquetage et la parenthétisation sont automatiquement analysés, mais ensuite corrigés par des annotateurs humains.

L’étiquetage du Penn Treebank est basé sur celui du Brown Corpus qui comportait 87 étiquettes simples. Le nombre d’étiquettes a été réduit en éliminant les redondances (c'est-à-dire en tenant compte des informations lexicales et syntaxiques), on arrive ainsi à 48 étiquettes (36 étiquettes des parties du discours et 12 autres pour la ponctuation et les symboles monétaires. )

Lorsque les annotateurs ne réussissent pas à désambiguïser, ils ont la possibilité de combiner deux étiquettes. Ainsi, les décisions arbitraires sont évitées.

Page 25: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

25

Étiquetage du Penn Treebank

Exemples

Le nombre d’étiquettes a été réduit. On a éliminé les distinctions que l’on peut déduire en tenant compte des 1) informations lexicales 2) informations syntaxiques.

(1) Brown PTB

sing/VB am/BE sing/VB am/VB

sang/VBD was/BEDZ sang/VBD was/VBD

(2) conjonctions de subordination et prépositions reçoivent la même étiquette IN, car les conjonctions précèdent toujours une phrase tandis que les prépositions précèdent des SN.

Page 26: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

26

Étiquetage du Penn Treebank

Le jeu d'étiquette code la fonction grammatical si possible afin de faciliter une analyse syntaxique ultérieure.

Exemple Brown PTB

the one/CD the one/NN

the ones/NNS the ones/NNS

the fallen/JJ leaf the fallen/VBN leaf

Page 27: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

27

Étiquetage du Penn Treebank

1ère phase : l'étiquetage automatique

Cet étiquetage est réalisé par PARTS, un algorithme développé par les laboratoires ATT. Il s'agit en fait d'une version modifiée de l'étiquetage du Brown Corpus, puis de plusieurs étiqueteurs. Le taux d'erreurs est de 7.9%.

2e phase : la correction manuelle

Cette correction est réalisée simplement avec une souris en positionnant le curseur sur une étiquette fausse et en entrant l'étiquette souhaitée. Cette donnée entrée automatiquement est vérifiée afin de voir si elle appartient bien à la liste d'étiquettes. Si elle est valide, elle est ajoutée à la paire mot-étiquette séparée par un astérisque. L'étiquette fausse n'est pas supprimée afin d'identifier les erreurs produites à l'étiquetage automatique des parties du discours. (Dans la version de distribution du corpus, les étiquettes fausses de l'étape automatique sont supprimées.)

Page 28: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

28

Parenthétisation du Penn Treebank

3e phase : la parenthétisation automatique (réalisé par Fidditch)

Fidditch est un analyseur développé par Donald Hindle (d'abord à l'université de Pennsylvanie, puis aux laboratoires de l'ATT), qui est utilisé pour fournir une analyse initiale.

Cet algorithme laisse beaucoup de constituants non rattachés qui sont étiquetés "?". Il s'agit des syntagmes prépositionnels, des propositions relatives et des compléments circonstanciels. À ce niveau-là, on n'a pas encore véritablement d'arbre, mais plutôt plusieurs fragments d'arbres.

4e phase : la parenthétisation simplifiée automatiquement

Les représentations sont simplifiées et aplaties par la suppression des étiquettes de parties du discours, des nœuds lexicaux non-branchés et de certains nœuds.

Page 29: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

29

Parenthétisation du Penn Treebank

5e phase : La correction du parenthétisation

Cette correction est aussi réalisée à l'aide d'une souris. Les annotateurs collent tout d'abord les fragments ensemble, ils corrigent les analyses incorrectes et effacent certaines structures. La correction des structures parenthétisées est plus difficile à réaliser que la correction de l'étiquetage des parties du discours.

Comme on veut que le Penn Treebank contienne seulement des structures certaines , il y a deux façons d'annoter les structures incertaines : l'étiquette de constituant X et le "pseudo-attachement".

L'étiquette de constituant X est utilisé si un annotateur est sûr qu'une séquence de mots est un constituant majeur, mais pas sûr de sa catégorie syntaxique. Dans ces cas, l'annotateur parenthèse seulement la séquence et l'étiquette X.

Le "pseudo-attachement" est utilisé pour annoter "les ambiguïtés permanentes prévisibles". L'annotateur indique cela quand une structure est globalement ambiguë même donnée dans un contexte.

Page 30: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

30

Exemple d'arbres du Penn Treebank – phase 3

( (S (NP (ADJP Battle-tested industrial) managers) (? here) (? always) (VP buck)) (? (PP up (NP nervous newcomers))) (? (PP with (NP the tale (PP of (NP the (ADJP first)))))) (? (PP of (NP their countrymen))) (? (S (NP *) to (VP visit (NP Mexico)))) (? ,) (? (NP a boatload (PP of (NP warriors)) (VP blown (? ashore) (NP 375 years)))) (? ago) (? .))

Battle-tested industrial managers here always buck up

nervous newcomers with the tale of the first of their

countrymen to visit Mexico a boatload of warriors blown

ashore 375 years ago

Page 31: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

31

Exemple d'arbres du Penn Treebank – phase 5

( (S (NP Battle-tested industrial managers here) always (VP buck up (NP nervous newcomers) (PP with (NP the tale (PP of (NP (NP the (ADJP first (PP of (NP their countrymen))) (S (NP *) to (VP visit (NP Mexico)))) , (NP (NP a boatload (PP of (NP (NP warriors) (VP-1 blown ashore (ADVP (NP 375 years) ago))))) (VP-1 *pseudo-attach*)))))))) .)

Page 32: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

32

Tests comparatifs et évaluation du Penn Treebank

Au tout début du projet, une expérience a été réalisée concernant deux modes

d'annotation : - l'étiquetage manuel : des annotateurs ont étiqueté des textes entièrement non annotés, à la main

- la "correction" : ils ont vérifié et corrigé la production de PARTS.

Ce test a montré que l'étiquetage manuel est deux fois plus long que la simple correction (44 min/1000 mots contre 20 minutes) avec deux fois plus de taux de désaccord (7.2% contre 3.5%) et un taux d'erreurs 50% plus élevé.

En ce qui concerne la structure, les annotateurs peuvent corriger la structure pleine fournie par Fidditch à une vitesse moyenne d'environ 375 m/h après 3 semaines et d'environ 475 m/h après 6 semaines. La réduction à une représentation plus squelettique augmente la productivité de l'annotateur d'environ 100 à 200 mots/heure. Après 3 ou 4 mois d'entraînement, les annotateurs produisent environ 750, voire même pour certains plus de 1000 mots/heure.

Le taux d'erreurs de la version finale est estimé à environ 1 %.

Page 33: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

33

Corfrans : corpus arboré en français

Annotation morpho-syntaxique d’environs 400’000 mots avec plusieurs variétés de français (présentés dans le Monde, le Hansard, l’hebdo…).

Marquage syntaxique automatique avec l’analyseur Shallow parseur développé par A. Kinyon qui annote les frontières en minimisant les cas de rattachement (il se base sur les mots fonctionnels pour déterminer les frontières de constituants).

Correction manuelle des erreurs commises lors de l’analyse. Un outil d’aide à la correction pour les annotateurs a été conçu.

Définition d’un standard d’annotation en constituants qui évite les syntagmes vides, les syntagmes discontinus qui posent problème lors de la réalisation d’arbres syntaxiques.

Évaluation et enrichissement du corpus, dans le but de faire le point sur les besoins et les outils des producteurs et utilisateurs de corpus.

Page 34: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

34

Corfrans : corpus arboré en français

Comment l’équipe gère-t-elle le problème de la discontinuité de la négation ?

Ex : Jean ne veut pas venir

ne pas pourrait éventuellement être adverbe continu car il existe des phrases comme Jean préfère ne pas venir mais pour une discontinuité avec d’autre mots négatifs je ne veux voir personne on ne peut pas faire un constituant ne personne car elle ne se trouve jamais dans une séquence

*je préfère ne personne voir.

Il n’y aura donc pas de syntagmes discontinues.

Page 35: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

35

Corfrans : corpus arboré en français

Les solutions

L’adverbe négatif "ne" fait toujours parti du noyau verbal par contre les forclusifs (mots négatifs : pas, jamais, rien ) ne sont pas rattaché au VN sauf s’ils sont entre l’auxiliaire et le participe passé.

Ex : Je <VN> ne veux </VN> pas <VPinf> <VN> venir </VN> </VPinf>

Jean <VN> n’est pas venu </VN>

Je <VN> n’ai <NP> rien : Pro </NP> vu </VN>

Page 36: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

36

Negr@ Corpus

Corpus arborés de l'allemand

http://www.coli.uni-sb.de/sfb378/negra-corpus/negra-corpus.html

355,096 tokens (20,602 phrases) tirés du quotidien allemand Frankfurter Rundschau (Multilingual Corpus 1 de la European Corpus Initiative).

Le corpus est étiqueté et arboré.

Les arbres peuvent avoir des branches croisées.

Si l'on désire, on peut transformer les branches croisés en trace et obtenir le même format du Penn Treebank.

Page 37: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

37

Negr@ Corpus

Différents types d'information dans le corpus

Part-of-Speech Tags -- Stuttgart-Tübingen-Tagset (STTS)

Analyse Morphologique (60,000 tokens)

Catégories syntaxiques et fonction grammaticales

Page 38: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

38

Negr@ Corpus exemple (CS (S-CJ (PPER-SB Sie) (VVFIN-HD gehen) (CNP-OA (NP-CJ (ADJA-NK gewagte) (NN-NK Verbindungen) ) (KON-CD und) (NN-CJ Risiken) ) (PTKVZ-SVP ein) ) ($, ,) (S-CJ (VVFIN-HD versuchen) (VP-OC (NP-OA (PPOSAT-NK ihre) (NN-NK Möglichkeiten) ) (VVIZU-HD auszureizen) ) ) ($. .)

Page 39: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

39

Canadian Hansards

A bilingual corpus of the proceedings of the Canadian parliament Contains parallel texts in English and French which have been used to investigate statistically based machine translation.

Page 40: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

40

<PAIR><ENGLISH>no , it is a falsehood . </ENGLISH><FRENCH>non , ce est un mensonge . </FRENCH></PAIR><PAIR><ENGLISH>Mr. Speaker , the record speaks for itself with regard to what I said about the price of fertilizer . </ENGLISH><FRENCH>monsieur le Orateur , ma déclaration sur le prix de les engrais a été confirmée par les événements . </FRENCH></PAIR>

Page 41: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

41

Les corpus étiquetés sémantiques

Page 42: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

42

Framenet (from their web page)

The Berkeley FrameNet project is creating an

on-line lexical resource for English,

based on frame semantics and

supported by corpus evidence.

The aim is to document the range of semantic and syntactic combinatory possibilities (valences) of each word in each of its senses, through manual annotation of example sentences and automatic capture and organization of the annotation results.

Page 43: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

43

Framenet: basic concepts

A lexical unit is a pairing of a word with a meaning.

Typically, each sense of a polysemous word belongs to a different semantic frame, a script-like structure of inferences that characterize a type of situation, object, or event.

Each frame contains a predicates and what are called frame elements (FEs) - participants and props in the frame whose linguistic expressions are syntactically connected to the target word.

Page 44: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

44

Framenet Annotation: example

Revenge frame Definition

An Avenger performs some Punishment on an Offender as a response to an earlier action, the Injury, that was inflicted on an Injured_party. The Avenger need not be identical to the Injured_party but needs to consider the prior action of the Offender a wrong. Importantly, the punishment of the Offender by the Avenger is seen as justified by individual or group opinion rather than by law.

Frame elements in the Revenge frame are Avenger, Punishment, Offender, Injury, and Injured_party.

Page 45: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

45

Framenet Annotation: example

Lexical units in this frame include avenge.v, avenger.n, get even.v, retaliate.v, retaliation.n, retribution.n, retributive.a, retributory.a, revenge.v, revenge.n, revengeful.a, revenger.n, vengeance.n, vengeful.a, and vindictive.a.

Some example sentences with the lexical unit avenge are given here.

[His brothers Avenger] avenged [him Injured_party].

With this, [El Cid Agent] at once avenged [the death of his son Injury].

[Hook Avenger] tries to avenge [himself Injured_party] [on Peter Pan Offender] [by becoming a second and better father Punishment].

Page 46: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

46

Framenet Annotation: example

Here goes a screen dump

Page 47: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

47

Framenet Annotation: easy cases

Annotation is easiest when all and only the core frame elements (the conceptually necessary participants of the frame that a syntactic governor evokes) find syntactic expression in the sentence as separate immediate syntactic dependents of the governor.

Page 48: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

48

Framenet Annotation:not so easy cases

Non-core frame elements are conceptually not necessary in the sense that they do not uniquely characterize the frame. Thus, for most frames standing for events or processes, Time and Place frame elements are not core, and therefore may not always be annotated.

Similarly, actions often have a Purpose that the Agent intends to accomplish by performing the action indicated by the target word. However, having a purpose doesn't usually distinguish types of actions and so Purpose is often a non-core frame element, as in the following example:

They wake you up [to give you a sleeping pill Purpose].

Page 49: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

49

Framenet Annotation:missing frame elements

Sometimes FEs that are conceptually salient do not show up as lexical or phrasal material in the sentence chosen for annotation.

They are however annotated to indicate omissibility conditions.

Constructional Null Instantiation (CNI):

Constructionally omitted constituents (also called structurally omitted) have their omission licensed by a grammatical construction in which the target word appears and are therefore more or less independent of the LU. Cases of CNI include:

the omitted subject of imperative sentences,

the omitted agent of passive sentences,

the omitted subjects of independent gerunds and infinitives (PRO), and so on

Page 50: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

50

Framenet Annotation:missing frame lements

•Family feuds last for generations, and [slurs on honor Injury] are avenged [by murder Punishment] . [CNI Avenger]

•Get even [with her Offender] [for this Injury] [CNI Avenger]

•In addition, we use CNI for missing objects in instructional imperatives such as exemplified below, even though in this case the omission is not dependent on a particular construction, but rather on a genre. 

•Cook on low heat until done. [CNI Food]

•Tie together loosely. [CNI Items]

Page 51: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

51

Framenet Annotation:missing frame elements

Definite Null Instantiation (DNI):

Cases of definite null (also called anaphoric) instantiation are those in which the missing element must be something that is already understood in the linguistic or discourse context. In the following example, the Offender is not expressed overtly in the syntax, but its referent has to be known in the context.

[The monkey Avenger] avenged [himself Injured_party] [by growing to the size of a giant and setting fire to the city Punishment]. [Offender DNI]

Page 52: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

52

Framenet Annotation:missing frame elements

Indefinite Null Instantiation (INI):

The indefinite cases (sometimes also referred to as existential) are illustrated by the missing objects of verbs like eat, sew, bake, drink, etc., that is, cases in which these ordinarily transitive verbs can be spoken of as used intransitively.

Molly rarely eats alone;

Granny begins baking about a month before Christmas;

Jo even drinks heavily on weeknights.

There are often special interpretations of the existentially understood missing objects: for example, with eat the missing entity is likely to be a meal, with bake it is likely to be flour-based foods, with drink it is likely to be alcoholic beverages, etc.

Page 53: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

53

Framenet Annotation:missing frame elements

Indefinite Null Instantiation (INI) continued

There is no need to retrieve or construct a specific discourse referent.

For example, in the Revenge frame, all lexical units happen to allow the frame element Punishment to be omitted under indefinite null instantiation.

He took it out on Scarlet in the same way as [he Avenger] avenged [himself Injured_party] [on her Offender] [for the pressures at work and the demands of his first wife Injury]] . [INI Punishment]

Note that usually verbs in a frame differ in this respect. For instance, while eat allows its object to be omitted, devour does not, even though they are both in the Ingestion frame.

Page 54: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

54

Framenet Annotation:frame element conflation

In some cases, information about two frame elements is expressed in a single constituent, a situation we call conflation.

For instance, in the Revenge frame, the Injured_party may be contained as a possessive in the phrase that realizes the Injury frame element as seen in the following example:

[He Avenger] avenged [Pedro 's death Injury] [by taking out the poker-faced Guards Officer Punishment].

In this example, the possessive Pedro's realizes the frame element Injured_party, the person who suffered the Injury.

Also, We ousted Jones as mayor vs. We ousted the mayor, where the direct object stands for both the office and the incumbent.

Page 55: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

55

Proposition Bank

all following transparencies on Proposition Bank from web page of ACE projecthttp://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

director:Professor Martha PalmerUniversity of Colorado

Penn

Page 56: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

56

Proposition Bank

How much can current statistical NLP systems be made more domain-independent without prohibitive costs, either in terms of engineering or annotation?

The Proposition Bank is designed as a broad-coverage resource to facilitate the development of more general systems.

It focuses on the argument structure of verbs, and provides a complete corpus annotated with semantic roles.

Correctly identifying the semantic roles of the sentence constituents is a crucial part of interpreting text,

for information extraction

machine translation or

automatic summarization. http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

Page 57: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

57

PropBank

The Proposition Bank project takes a practical approach to semantic representation,

adding a layer of predicate-argument information, or semantic roles, to the syntactic structures of the Penn Treebank.

The resulting resource can be thought of as shallow, in that it does not represent coreference, quantification, and many other higher-order phenomena,

but also broad, in that it covers every verb in the corpus and allows representative statistics to be calculated. http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

Page 58: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

58

Proposition Bank: From Sentences to Propositionshttp://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

Powell met Zhu Rongji

Proposition: meet(Powell, Zhu Rongji)Powell met with Zhu Rongji

Powell and Zhu Rongji met

Powell and Zhu Rongji had a meeting

. . .When Powell met Zhu Rongji on Thursday they discussed the return of the spy plane.

meet(Powell, Zhu) discuss([Powell, Zhu], return(X, plane))

debateconsult

joinwrestle

battle

meet(Somebody1, Somebody2)

Page 59: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

59

Capturing semantic roles*http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

George broke [ ARG1 the laser pointer.]

[ARG1 The windows] were broken by the hurricane.

[ARG1 The vase] broke into pieces when it toppled over.

SUBJ

SUBJ

SUBJ

Page 60: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

60

A TreeBanked Sentencehttp://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

Analysts

S

NP-SBJ

VP

have VP

been VP

expectingNP

a GM-Jaguar pact

NP

that

SBAR

WHNP-1

*T*-1

S

NP-SBJVP

wouldVP

give

the US car maker

NP

NP

an eventual 30% stake

NP

the British company

NP

PP-LOC

in

(S (NP-SBJ Analysts) (VP have (VP been (VP expecting

(NP (NP a GM-Jaguar pact) (SBAR (WHNP-1 that)

(S (NP-SBJ *T*-1) (VP would

(VP give (NP the U.S. car maker)

(NP (NP an eventual (ADJP 30 %) stake) (PP-LOC in (NP the British company))))))))))))

Analysts have been expecting a GM-Jaguar pact that would give the U.S. car maker an eventual 30% stake in the British company.

Page 61: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

61

The same sentence, PropBankedhttp://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

Analysts

have been expecting

a GM-Jaguar pact

Arg0 Arg1

(S Arg0 (NP-SBJ Analysts) (VP have (VP been (VP expecting

Arg1 (NP (NP a GM-Jaguar pact) (SBAR (WHNP-1 that)

(S Arg0 (NP-SBJ *T*-1) (VP would

(VP give Arg2 (NP the U.S. car maker)

Arg1 (NP (NP an eventual (ADJP 30 %) stake) (PP-LOC in (NP the British company))))))))))))

that would give

*T*-1

the US car maker

an eventual 30% stake in the British company

Arg0

Arg2

Arg1

expect(Analysts, GM-J pact)give(GM-J pact, US car maker, 30% stake)

Page 62: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

62

Frames File Example: expectRoles: Arg0: expecter Arg1: thing expected

Example: Transitive, active:

Portfolio managers expect further declines in interest rates.

Arg0: Portfolio managers REL: expect Arg1: further declines in interest rateshttp://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

Page 63: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

63

Frames File example: give

Roles: Arg0: giver Arg1: thing given Arg2: entity given to

Example: double object The executives gave the chefs a standing ovation. Arg0: The executives REL: gave Arg2: the chefs Arg1: a standing ovation

http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

Page 64: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

64

Word Senses in PropBank

Orders to ignore word sense not feasible for 700+ verbs

Mary left the roomMary left her daughter-in-law her pearls in her will

Frameset leave.01 "move away from":Arg0: entity leavingArg1: place left

Frameset leave.02 "give":Arg0: giver Arg1: thing givenArg2: beneficiary

http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

Page 65: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

65

Annotation procedurehttp://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

PTB II - Extraction of all sentences with given verb

Create Frame File for that verb

(3100+ lemmas, 4400 framesets,118K predicates)Over 300 created automatically via VerbNet

First pass: Automatic tagging http://www.cis.upenn.edu/~josephr/TIDES/index.html#lexicon

Second pass: Double blind hand correction

Tagging tool highlights discrepancies

Third pass: Solomonization (adjudication)

Page 66: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

66

Trends in Argument Numberinghttp://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

Arg0 = agent

Arg1 = direct object / theme / patient

Arg2 = indirect object / benefactive / instrument / attribute / end state

Arg3 = start point / benefactive / instrument / attribute

Arg4 = end point

Per word vs frame level – more general?

Page 67: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

67

Additional tags http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

(arguments or adjuncts?)Variety of ArgM’s (Arg#>4):

TMP - when?

LOC - where at?

DIR - where to?

MNR - how?

PRP -why?

REC - himself, themselves, each other

PRD -this argument refers to or modifies another

ADV –others

Page 68: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

68

Inflection http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

Verbs also marked for tense/aspect

Passive/ActivePerfect/ProgressiveThird singular (is has does was)Present/Past/FutureInfinitives/Participles/Gerunds/Finites

Modals and negations marked as ArgMs

Page 69: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

69

Frames: Multiple Framesetshttp://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm

Framesets are not necessarily consistent between different senses of the same verb

Framesets are consistent between different verbs that share similar argument structures, (like FrameNet)

Page 70: 1 Les Données Textuelles Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de référence, exemples dutilisation. Exemples de corpus textuels

70

Résumé du cours•Corpus collection de plus d’un texte

•Propriétés représentatif, de taille finie, électronique

•Types de corpus équilibré par échantillonnage

de contrôle

référence

Utilisations lexicographie, théorie linguistique

données d’entraînement pour apprentissage automatique

Exemples de corpus

de référence British National Corpus

arboré Penn Treebank, Corfrans, Negr@

sémantique FrameNet PropBank