26
Corpus alignés Amalia Todirascu-Courtier [email protected]

Corpus alignés Amalia Todirascu-Courtier [email protected]

Embed Size (px)

Citation preview

Page 1: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Corpus alignés

Amalia [email protected]

Page 2: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Plan

• Définition et motivation• Comment aligner le corpus?• Exemples des corpus alignés• Applications des corpus alignés

Page 3: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Corpus parallèles

• Corpus parallèles (Hartmann 1980) - le même contenu numérisé traduit en plusieurs langues– Corpus de traduction: Traduction

manuelle des corpus– Alignement possible au niveau de

propositions, paragraphe, lexical....

Page 4: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Corpus comparables

• Corpus comparables (EAGLES) (McEnery 2003) (Fung & Yee, 1996)– pas une traduction exacte – même fonction dans une situation de

communication– même thème ou même domaine ou

même genre– multilingues ou monolingues

Page 5: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Motivation

• Documents numériques qui traduisent le même contenu en plusieurs langues– débat parlamentaires– legislation européene– normes médicales

• Besoin d'acquisition automatique des ressources

électroniques- Dictionnaires mono- ou multilingues- Bases terminologiques mono ou multilingues- Grammaires en format électroniques

Page 6: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Applications – Outils d'aide à traduction

• Methodes statistiques qui utilisent comme données d'apprentissage les corpus alignés– TransType – outil interactif qui assiste le traducteur et qui

propose des extensions (Laboratoire « Recherches appliquées en linguistique informatique » http://rali.iro.umontreal.ca/

– Generic Translation interface (Cour de Justice de Communauté européenne) http://www.adbs.fr/uploads/journees/537_fr.php

• Matrice de traduction:– la structure et la mise en page du document ;– formulations normalisées ;– les données constantes de l'affaire (numéro de l'affaire, nom

des parties, nom des juges et de l'avocat général, type de décision)

– les citations des textes officiels (règlements et directives communautaires, arrêts antérieurs, etc.) dans la langue cible ;

Page 7: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Applications - Terminologie

• corpus parallèles – Un alignement au niveau lexical

• Une liste de termes pour la langue source– À base d'un thésaurus ou d'un dictionnaire

• Identification automatique des termes candidats pour la langue cible– Extraction des paires candidats langue

cible – termes langue source

Page 8: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Applications – Extraction dedictionnaires

• Dictionnaires bilingues– Implique des corpus alignés au niveau

des mots pour l'apprentissage des outils

• Dictionnaires monolingues– S'il y a un dictionnaire disponible dans

la langue source et des corpus alignés- Extraction des candidats dans la langue

cible

Page 9: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Applications

• Utilisation des corpus comparables pour extraire des terminologies bilingues– TTC : Terminology Extraction, Translation Tools

and Comparable Corpora (www.ttc-project.eu)

– Accurat : Analysis and Evaluation of Comparable Corpora for Under Resourced Areas of Machine Translation (http://www.accurat-project.eu/index.php)

– autres : http://cordis.europa.eu/fp7/ict/language-technologies/portfolio_en.html

Page 10: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Alignement propositionnel

• Corpus de traduction comme matière prémière

• Alignement propositionnel = mise en correspondance des unités de texte– Unité de texte: phrase, paragraphe– Algorithmes d'alignement automatique

• Longueur des phrases - Church & Gale 1991• Mots similaires - Simard et al. 1992, Pierre

Isabelle et Susan Warwick-Armstrong 1993

Page 11: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Le modèle de Church & Gale

• Hypothèses de travail– Unité du texte: la phrase– La longueur de la phrase (nr. de caractères) doit

être similaire dans les deux langues– Correspondances entre le nombre de phrases en

langue source et en langue cible• une phrase peut être traduite par une phrase• deux phrases traduites par une, une par deux, deux

phrases par deux phrases, une phrase par zéro et zéro par une

– Combinaisons possibles et propositions de celle qui a le meilleur score

• 95,8 % de réussite

Page 12: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Exemple d'alignement•E1The crisis our farmers are in right now will affect all of us at a certain point in time.•E2We are all consumers and we all need a strong and healthy agricultural sector.•E3I am glad that the Hon. Member for Algoma (Mr. Foster) mentioned figures in his remarks.•E4Otherwise, the Government might have eluded the problem once again.•E5The Hon. Member for Algoma suggested Tuesday night that the Government had to take a clear position and make a commitment to assist our farmers before it is too late.

•F1La crise que vivent en ce moment nos agriculteurs se répercutera sur tous et chacun de nous à un certain moment.•F2Nous sommes des consommateurs.•F3Nous avons tous besoin d'une agriculture saine et forte.•F4Heureusement que le député d'Algoma (M. Foster) a mentionné des chiffres dans ses remarques, sans cela ce gouvernement s'en

serait sorti en douce encore une fois.

•F5Le député d'Algoma suggérait mardi soir qu'il fallait que le gouvernement se prononce clairement et s'engage à aider nos agriculteurs avant qu'il ne soit trop tard.

Page 13: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Le modèle de (Simard & all)

• Exploiter les mots qui ont des formes très proches

dans les deux langues- Mots apparentés (cognates): liste/list, erreur/error, taxe/tax- noms propres ou chiffres

• Paragraphe: liste de mots pour chaque langue et calculs des pairs des mots apparentés

• Limites: on peut toujours traduire une phrase et pas utiliser les mots apparentés

• Une approche mixte: Church + Simard– Exemple d'alignement: le corpus HANSARD

Page 14: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Exemples de corpus alignés

• Les corpus HANSARD (documents du Parlement canadien) – bilingue anglais-français– 2,87 millions de paires de phrases alignés

• Discours legislatifs (1995, 1996, 1997)– variété de sujets de disscusion– transcriptions des dialogues + textes écrits– Distribué par Linguistic Data Consortium

• Alignement par phrase et par fichier– Notation SGML sur la structure (paragraphe,

phrase)

Page 15: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Exemples de corpus alignés (II)

• EUROPARL – débat du Parlement européen– 11 langues, 20 millions mots/langue– http://people.csail.mit.edu/koehn/publications/

europarl/

• Acquisition du corpus– Extraction du web– Alignement au niveau du document– Segmentation en phrases– Identification des mots et des expréssions figées– Alignement au niveau des phrases

Page 16: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Exemples de corpus alignés (III)

• EUROPARL (suite)– Certains sous-parties sont arborés (avec un outil

VISL) pour quelques langues: français, portugais, allemand...

• Interface qui permettra de faire des recherches– http://visl.sdu.dk/visl/corpus.html

• Applications possibles– Outils d'aide à la traduction– Développement des grammaires et des

dictionnaires

Page 17: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Autres liens

• corpus CLUVI– concordancier multilingue– http://sli.uvigo.es/CLUVI/index_en.html

• corpus Oslo– possibilité de rechercher la langue source ou

cible– http://www.hf.uio.no/forskningsprosjekter/

sprik/

Page 18: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Exemples d'outils• Vanilla Aligner – pour l'alignement d'Europarl

– http://nl.ijs.si/ME/CD/tool/Vanilla/

• Aligner de Moore (en-fr, en-ru)– https://research.microsoft.com/en-us/people/bobmoore/

• SVM (Ceausu) http://www.racai.ro• Alinéa (Olivier Kraif)

– http://w3.u-grenoble3.fr/kraif/

• XAlign (LORIA)– http://led.loria.fr/download/source/Xalign.zip

• Plug (Univ. Uppsala, Göteborg)– http://stp.ling.uu.se/~corpora/plug/

• Unitex

Page 19: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Avantages et inconvénients

• avantages– peu de données d'apprentissage– peu d'information dépendentes des langues

• inconvénients– corpus parallèls: traduction humaine du même

contenu

Page 20: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Alignement lexical

• mettre en correspondance des mots ou des expressions– entrée: corpus aligné au niveau propositionnel

• correspondances 1-1

– sortie: les mots alignés

• Ressources:– équivalents de traduction calculés sur les corpus alignés

au niveau propositionnel– corpus étiquétés, lemmatisés– ressources sémantiques WordNet

Page 21: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Outils d'alignement lexical

• Giza++ (Och, Ney, 2003)– http://www.fjoch.com/GIZA++.html

• Twente Word Alignment Software– http://linguateca.di.uminho.pt/natools/

• COWAL (Tufis et al, 2005)– http://www.racai.ro

• Editeurs– MtKit (Tufis et al, 2005)

Page 22: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

COWAL

• Combined aligners (Tufis et al., 2005) : YAWA et MEBA

• Etapes– extraction d'equivalents de traduction (Loglikelihood)– mettre en correspondance les mots contenus, les noms

propres, les nombres– règles héuristiques

• classes de correspondance entre les catégories lexicales• position• alignement à l'intérieur des chunks• identité de la classe sémantique (WordNet ou SUMO)

Page 23: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Avantages et inconvenients

• avantages– correspondances au niveau de mot ou des expressions

– extraire des dictionnaires multilingues

• désavantages– corrections successives

– pas toujours évident d'aligner même pour un utilisateur humain

– volume important de données d'apprentissage

Page 24: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

BibliographieFung P., Yee. L.Y. (1996) An IR approach for translating new words

from non-parallel, comparable texts, ACL 1996. Deléger L., Zweigenbaum P. (2010) Extracting Lay Paraphrases of

Specialized Expressions from Monolingual Comparable Medical Corpora, Workshop on Building and Using Comparable Corpora, ACL 2010

Gale W., Church K. (1991) A Program for Aligning Sentences in Bilingual Corpora, Computational Linguistics, 1991

ISABELLE P., WARWICK-ARMSTRONG S. (1993) Les corpus bilingues : une nouvelle ressource pour le traducteur. In Bouillon, P. et Clas, A. (Eds.), La traductique. Montréal : les presses de l’Université de Montréal, pp. 288-306

Ji H. (2010) Mining Name Translations from Comparable Corpora by Creating Bilingual Information Networks, Workshop on Building and Using Comparable Corpora, ACL 2010

Koehn P. (2002) Europarl: A Multilingual Corpus for Evaluation of Machine Translation, Information Sciences Institute, University of Southern California, Rapport interne, 2002

Page 25: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Bibliographie (II)

Mihailov M.; Tommola H. (2001) Compiling Parallel Text Corpora: Towards Automation of Routine Procedures International Journal of Corpus Linguistics, Volume 6, Special Issue, December 2001, pp. 67-77(11)

Och F. J., Ney, H. (2003) A Systematic Comparison of Various Statistical Alignment Models, Computational Linguistics, volume 29, number 1, pp. 19-51 March 2003.

Prochasson, E (2009) Alignement multilingue en corpuscomparables spécialisés. Caractérisation terminologique

multilingueRapp, R.(1995) Identifying Word Translation in Non-

Parallel Texts, ACL 1995.Simard M, Foster, G., Isabelle P (1992) Use cognates to

align sentences in bilingual corpora, Proceedings of TMI, 1992

Page 26: Corpus alignés Amalia Todirascu-Courtier todiras@unistra.fr

Bibliographie(III)

Simões A., Almeida, J.J., (2003) NATools -- A Statistical Word Aligner Workbench, Sociedade Española para el Procesamiento del Lenguaje Natural, 2003

Tiedemann J. (1999) Uplug - a modular corpus tool for parallel corpora. In L. Borin (ed.) Parallel Corpora, Parallel Worlds. Proceedings of Parallel Corpus Symposium, Uppsala, April 22-23, 1999, Uppsala University. Department of Linguistics.

Tufiş D., Ion R., Ceauşu A., Ştefănescu D. (2005) Combined word alignments, Proceedings of the ACL Workshop on Building and Using Parallel Texts, pages 107–110, Ann Arbor, June 2005.

Tufis, D. (2004) Term Translations in Parallel Corpora: Discovery and Consistency Check. In Proceedings of the 4th LREC Conference, Lisbon, pp. 1981-1984