18
Corpus et concordances

Corpus et concordances

  • Upload
    hina

  • View
    30

  • Download
    0

Embed Size (px)

DESCRIPTION

Corpus et concordances. Qu'est ce qu'un corpus ?. - PowerPoint PPT Presentation

Citation preview

Page 1: Corpus et concordances

Corpus et concordances

Page 2: Corpus et concordances

Qu'est ce qu'un corpus ?« Un corpus est une collection de données langagières qui

sont sélectionnées et organisées selon des critères linguistiques explicites pour servir d’échantillon du langage. » (Sinclair cité par B. Habert, A. Nazarenko, A. Salem, Les linguistiques de corpus, Paris, Armand Colin, 1997, p. 144)

Page 3: Corpus et concordances

Taille des corpus Gigantesque : British National Corpus (100 millions de

mots), The Bank of English (320 millions de mots)

de taille moyenne (milliers de mots)

Page 4: Corpus et concordances

Une concordance C. de Laclos Les liaisons dangereuses

Page 5: Corpus et concordances

Co-occurrence – Collocation- Concordance Une co-occurrence est un groupe de mots apparaissant fréquemment ensemble.

En général, on peut faire varier au moins un des constituants sur l'axe paradigmatique. (ex. salaire de base)

Collocation des mots: “Association habituelle de 2 ou plusieurs termes (collocats) au sein d’un discours.”  Une collocation est une co-occurrence qui n'admet pas une variation dans l'association des mots et qui est en quelque sorte consacrée par la langue.

La concordance désigne le mot présenté avec les extraits ou portions de texte dans lesquels il apparaît. En d’autres termes, il s’agit de la liste de segments de texte (on parle de contextes) contenant le mot ou les groupes de mots ou encore les signes (des signes typographiques) désignés. Une concordance est une liste de contextes.

(Lexique, Observatoire du Traitement Informatique des Langues et de l'Inforoute)

Page 6: Corpus et concordances

Types de corpus (1a)

corpus bruts : textes écrits ou transcriptions écrites de productions orales - enregistrements de textes à voix haute, de discours, d'émissions de radio, etc. (Lexique, Observatoire du Traitement Informatique des Langues et de l'Inforoute)

Page 7: Corpus et concordances

Types de corpus (1b) corpus annotés ou enrichis : indications relatives à la

structure du texte, aux catégories morphosyntaxiques ou sémantiques - informations sur la prosodie, le sens, les locuteurs, l'environnement sonore, etc. (Lexique, Observatoire du Traitement Informatique des Langues et

de l'Inforoute)

Pour l’annotation des corpus consultez le site Text Encoding Initiative Consortium (www.tei-c.org)

Page 8: Corpus et concordances

Extrait corpus TALANA (avec syntagmes)TALANA (Traitement Automatique du Langage Naturel – Univ. Paris 7 )

<S> <PP>Au_cours_de:P <NP> la:Dfs conférence_de_presse:NC-fs <Srel> <NP>qui:PROR-3fs </NP> <VP> a:VP-3s clos:VK-ms </VP> <NP> cette:D-fs rencontre:NC-fs </NP> </Srel> </NP> </PP> ,:PONCT <NP> le:D-ms premier_ministre:NC-ms <AP> est-allemand:A-ms </AP> </NP> <VP> est:VP-3s revenu:VK-ms </VP> <PP> sur:P <NP> les:D-mp incidents:NC-mp <PP> de:P lundi:NC-ms soir:NC-ms </PP> <Srel> <PP>:au_cours_de:P <NP> lesquels:PROR-3mp </NP> </PP> <NP>:de-les:D-mp manifestants:NC-mp </NP> <VP> ont:VP-3p mis_à_sac:VK-ms </VP> <NP> le:D-ms siège:NC-ms <AP> central:A-ms </AP> <PP> de:P la:D-fs Stasi:NP-fs </PP> </NP> </Srel> </NP> </PP> </S> http://www.li.univ-tours.fr/taln-recital-2001/actes_taln01.html

Page 9: Corpus et concordances

Types de corpus (2) Monolingues (BNC…) Bilingues ou multilingues Languée parlée (CLAPI…) /langue écrite

(CORIS/CORDIS)

Page 10: Corpus et concordances

Types de corpus (3) « Un corpus de référence est conçu pour fournir une information en

profondeur sur une langue. Il vise à être suffisamment grand pour représenter toutes les variétés pertinentes de cette langue et son vocabulaire caractéristique, de manière à pouvoir servir de base à des grammaires, des dictionnaires et d'autres usuels fiables » [Sinclair, Preliminary recommendations on Corpus Typology. Technical report, EAGLES (Expert Advisory Group on Language Engineering Standards), 1996.

Un corpus spécialisé est un corpus limité à une situation de communication, ou à un domaine. Il s'intéresse aux langages de spécialité, aux sous-langages. (Lexique, Observatoire du Traitement Informatique des Langues et de l'Inforoute)

Page 11: Corpus et concordances

Types de corpus (4) corpus comparables : ensemble de corpus ayant été compilés

selon les mêmes critères mais:- dans des variantes différentes d’une même langue- dans des langues différentes et en tenant compte des différences culturelles

corpus parallèles : couples de corpus dans des langues différentes et dont l’un est la traduction de l’autre.

(Voir Natalie KÜBLER, Introduction à la linguistique des corpus http://wall.eila.jussieu.fr/~nkubler/M1_c_equilibre_specialise.ppt)

Page 12: Corpus et concordances

Corpus parallèle Canadian Hansard Corpus (2001)

1,3 milioni di frasi francesi-inglesi allineate a livello di frase, tratte dagli atti del Parlamento Canadese (http://transsearch.iro.umontreal.ca/)

Page 13: Corpus et concordances

Corpus parallèle

MULTEXT (1996)http://aune.lpl.univ-aix.fr/projects/multext/

5 milioni di parole dal Journal of European Community (francese, italiano, spagnolo, tedesco, inglese) 800.000 parole allineate a livello di frase (inglese come lingua “pivot”) a cura di vito pirrelli

Page 14: Corpus et concordances

Types de corpus (5) corpus d’apprenants : corpus qui contiennent des

productions écrites et/ou orales des apprenants d’une langue seconde et sont utilisés - pour décrire l’interlangue et donc les difficultés des apprenants - élaborer une typologie des erreurs

(Voir Natalie KÜBLER, Introduction à la linguistique des corpus http://wall.eila.jussieu.fr/~nkubler/M1_c_equilibre_specialise.ppt)

Learner Corpus around the World http://leo.meikai.ac.jp/~tono/lcorpuslist.html

Learner Corpus Datahttp://www.eng.ritsumei.ac.jp/asao/lcorpus/

Page 15: Corpus et concordances

Représentativité

domaines, situations… sexe, âge… variantes… fréquence

(Voir Natalie KÜBLER, Introduction à la linguistique des corpus http://wall.eila.jussieu.fr/~nkubler/M1_c_equilibre_specialise.ppt)

Page 16: Corpus et concordances

Software per l’analisi dei testi

Metasiti Centre for Corpus Research http://www.corpus.bham.ac.uk/links.htm Corpora for Language Learning and Teaching http://www.corpora4learning.net/resources/materials.html Alphabit.net http://www.alphabit.net/Corsi/IUlinks/Concwarelist.htm Sito di Federico Zanettin http://www.federicozanettin.net/sslmit/cl.htm

Page 17: Corpus et concordances

Rôle des corpus étude de la grammaire analyse terminologique construction des dictionnaires étude sémantique études comparatives pour la traduction assistée

(Voir Natalie KÜBLER, Introduction à la linguistique des corpus http://wall.eila.jussieu.fr/~nkubler/M1_c_equilibre_specialise.ppt)

Page 18: Corpus et concordances

Où trouver les corpus ? Web Cd-rom

Créer soi même