73

Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Traitement automatique des langues

et instrumentation du multilinguisme

Pierre Zweigenbaum

LIMSI, CNRS, Orsayhttp://www.limsi.fr/~pz/

ERTIM, INALCO, Paris

Journée PIRSTEC Informatique multilingue

6 octobre 2009

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 1/58

Page 2: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Introduction

MultilinguismeBesoins en traduction, recherche translingue, etc.Besoins en ressources langagières diverses

lexiques, terminologies, corpus multilingues

Traitement automatique des languesOutils informatiques : instrumenter certaines de cestâches

aide à la production de ressources lexicales etterminologiques multilinguestraduction automatique

Besoin pour ce faire de ressources similaires

Panorama de méthodes d'aide à la constitution deressources multilingues

Constitution de corpus parallèles et comparablesProduction ou extension de lexiques ou terminologiesbilingues

Page 3: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Introduction

MultilinguismeBesoins en traduction, recherche translingue, etc.Besoins en ressources langagières diverses

lexiques, terminologies, corpus multilingues

Traitement automatique des languesOutils informatiques : instrumenter certaines de cestâches

aide à la production de ressources lexicales etterminologiques multilinguestraduction automatique

Besoin pour ce faire de ressources similaires

Panorama de méthodes d'aide à la constitution deressources multilingues

Constitution de corpus parallèles et comparablesProduction ou extension de lexiques ou terminologiesbilingues

Page 4: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Introduction

MultilinguismeBesoins en traduction, recherche translingue, etc.Besoins en ressources langagières diverses

lexiques, terminologies, corpus multilingues

Traitement automatique des languesOutils informatiques : instrumenter certaines de cestâches

aide à la production de ressources lexicales etterminologiques multilinguestraduction automatique

Besoin pour ce faire de ressources similaires

Panorama de méthodes d'aide à la constitution deressources multilingues

Constitution de corpus parallèles et comparablesProduction ou extension de lexiques ou terminologiesbilingues

Page 5: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

1 Faire se rencontrer ressources langagières et traitementsautomatiquesTraitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources

2 Constitution automatique de corpus multilinguesConstitution de corpus parallèlesConstitution de corpus comparables

3 Construction automatique de lexiques multilinguesAlignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Page 6: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

1 Faire se rencontrer ressources langagières et traitementsautomatiquesTraitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources

2 Constitution automatique de corpus multilinguesConstitution de corpus parallèlesConstitution de corpus comparables

3 Construction automatique de lexiques multilinguesAlignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Page 7: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Traitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources

Traitements informatiques du multilinguisme

Détection de la langue d'un document (d'un segment detexte) (. . . )Traduction automatique (Google, Reverso)

Y compris traduction de parole (Quæro)

Recherche d'information translingue (Google, HON,CISMeF)

⊃ recherche translingue de réponses à des questions∼ catégorisation de textes translingue

Environnements d'aide à la traduction humaineAccès à des lexiques et thésaurus multilingues(Alexandria)Mémoires de traduction (Trados. . . )Suggestion de traductions (Sharo�)Traduction collaborative (Jibiki / Lydia)

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 5/58

Page 8: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Traitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources

Ressources langagières

Lexiques et terminologies multilingues

(Grand Dictionnaire Terminologique)

Bases de phrases et textes traduits

corpus multilingues parallèles (Europarl)

Bases de textes similaires dans une autre langue

corpus comparables

synchrones : journaux d'une période donnée (NYT /Le Monde aujourd'hui)documents sur un même thème, etc.

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 6/58

Page 9: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Traitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources

Constitution automatisée de ressourcesUn schéma productif

1 Entrée : Ressources disponibles

2 Traitement automatisé

3 Sortie : Ressources nouvelles

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 7/58

Page 10: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Traitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources

Constitution automatisée de ressourcesUn schéma productif

1 Entrée : Ressources disponibles

Corpus parallèle

2 Traitement automatisé

Alignement automatique de phrases et de mots

3 Sortie : Ressources nouvelles

Lexique bilingue

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 7/58

Page 11: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Traitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources

Constitution automatisée de ressourcesUn schéma productif

1 Entrée : Ressources disponibles

Corpus parallèle et analyseur syntaxique source

2 Traitement automatisé

Alignement automatique de phrases, mots et arbres

3 Sortie : Ressources nouvelles

Analyseur syntaxique cible

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 7/58

Page 12: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Traitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources

Constitution automatisée de ressourcesUn schéma productif

1 Entrée : Ressources disponibles

Liste de mots source, lexique bilingue partiel

2 Traitement automatisé

Traducteur par apprentissage / par analogie

3 Sortie : Ressources nouvelles

Lexique bilingue plus complet

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 7/58

Page 13: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Traitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources

Constitution automatisée de ressourcesUn schéma productif

1 Entrée : Ressources disponibles

. . .

2 Traitement automatisé

. . .

3 Sortie : Ressources nouvelles

. . .

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 7/58

Page 14: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Traitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources

Construction automatique de ressources

multilingues : Un exemple

Un exemple prototypique de tâche

Constitution de lexiques ou terminologies bilingues

Par alignement

À partir de corpus bilingues (parallèles, comparables)

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 8/58

Page 15: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

1 Faire se rencontrer ressources langagières et traitementsautomatiquesTraitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources

2 Constitution automatique de corpus multilinguesConstitution de corpus parallèlesConstitution de corpus comparables

3 Construction automatique de lexiques multilinguesAlignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Page 16: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Constitution de corpus parallèlesConstitution de corpus comparables

Corpus

Un ensemble de textes sélectionnés possédant descaractéristiques contrôlées :

Sinclair (1996)

A corpus is a collection of pieces of language that are selectedand ordered according to explicit linguistic criteria in order tobe used as a sample of the language

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 10/58

Page 17: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Constitution de corpus parallèlesConstitution de corpus comparables

Corpus parallèles et comparables

Degrés de parallélisme

Corpus parallèles : fort parallélisme

Corpus comparables : faible parallélisme

D'autres caractéristiques sont également mises en jeu(voir plus bas)

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 11/58

Page 18: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Constitution de corpus parallèlesConstitution de corpus comparables

Corpus parallèle

Un corpus de textes en relation de traductionLangue A (EN) Langue B (FR)

D'après Deléger (2009)

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 12/58

Page 19: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Constitution de corpus parallèlesConstitution de corpus comparables

Corpus comparable

Un corpus de textes du même domaine, genre, etc.Langue A (EN) Langue B (FR)

D'après Deléger (2009)

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 13/58

Page 20: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Constitution de corpus parallèlesConstitution de corpus comparables

Corpus comparable

Un corpus de textes du même domaine, genre, etc.Langue A (EN) Langue B (FR)

D'après Deléger (2009)

MyocardialInfarction

Acute MyocardialInfarction: early

treatment

Acute MyocardialInfarction Management

Prévention secondaireaprès infarctus du

myocarde

Infarctus du myocarde

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 13/58

Page 21: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Constitution de corpus parallèlesConstitution de corpus comparables

Corpus comparable

Ici, textes d'une même langue avec deux variétés de discoursDiscours spécialisé Discours grand public

D'après Deléger (2009)

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 14/58

Page 22: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Constitution de corpus parallèlesConstitution de corpus comparables

Corpus comparable

Ici, textes d'une même langue avec deux variétés de discoursDiscours spécialisé Discours grand public

D'après Deléger (2009)

Prise en charge dusevrage tabagique

Tabac etgrossesse

Donnéesépidémiologiques sur le

tabagisme

Les dangers dutabagisme passif

Médicaments pourarrêter de fumer

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 14/58

Page 23: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Constitution de corpus parallèlesConstitution de corpus comparables

Corpus parallèles

Un corpus de textes et le corpus de leurs traductions

source cibletexte s1 ←→ texte c1texte s2 ←→ texte c2texte s3 ←→ texte c3· · · · · ·

texte sn ←→ texte cn

Dans deux langues di�érentes (ou la même langue)

Textes traduits

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 15/58

Page 24: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Constitution de corpus parallèlesConstitution de corpus comparables

Corpus comparables

Deux corpus de textes de même domaine, genre, etc.

sourcetexte s1texte s2texte s3· · ·

texte sn

cibletexte catexte cb· · ·

texte cm

Dans deux langues di�érentes (ou la même langue)

Les textes des deux langues peuvent être originaux(non traduits)

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 16/58

Page 25: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

1 Faire se rencontrer ressources langagières et traitementsautomatiquesTraitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources

2 Constitution automatique de corpus multilinguesConstitution de corpus parallèlesConstitution de corpus comparables

3 Construction automatique de lexiques multilinguesAlignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Page 26: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Où trouver des corpus parallèles ?

Page 27: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Constitution de corpus parallèlesConstitution de corpus comparables

Corpus disponibles (exemples)

Ouvrages traduitsTextes religieux : La Bible, le Coran, etc.Déclaration des droits de l'hommeRomansDocumentation : manuels techniques

Débats, textes législatifs multilinguesParlement canadien (Hansard : français, anglais,inuktitut)Parlement européen (Europarl : français, italien,espagnol, portugais, anglais, allemand, néerlandais,danois, suédois, grec, �nnois)Parlement de Hong Kong (anglais, chinois)Nations UniesAcquis communautaire (JR Acquis)Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 19/58

Page 28: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Constitution de corpus parallèlesConstitution de corpus comparables

Constituer un corpus parallèle de documents web

Limitations des corpus parallèles disponibles

Taille

Domaine, genre

Langues représentées

Obtenir d'autres types de documents

Page web et sa traduction

Plus largement, un site web multilingue

Exemple : Santé Canada

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 20/58

Page 29: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Constitution de corpus parallèlesConstitution de corpus comparables

Pages web parallèles

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 21/58

Page 30: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Constitution de corpus parallèlesConstitution de corpus comparables

Méthode générale de collecte

Téléchargement du site entier

Repérage de couples de pages HTML par leurs liens

Véri�cations : langue, taille du texte(puis de la qualité de l'alignement des phrases)

Résultat : ∼ 10 000 couples de pages FR � EN

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 22/58

Page 31: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Constitution de corpus parallèlesConstitution de corpus comparables

Plus largement : indices de parallélisme

MétainformationsFaire partie du même site (!)Noms de �chiers (URL)Liens entre documents (hyperliens)

Être écrit dans deux langues di�érentesSimilarité du contenu

Longueur des �chiers (en caractères, mots, paragraphes)Similarité de la structure

Séquence des balises principalesSéquence des longueurs des phrases

Similarité des motsEn direct : cognatsÀ travers un lexique bilingue : % mots traduisibles

Qualité de l'alignement des phrases (a posteriori)Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 23/58

Page 32: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

1 Faire se rencontrer ressources langagières et traitementsautomatiquesTraitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources

2 Constitution automatique de corpus multilinguesConstitution de corpus parallèlesConstitution de corpus comparables

3 Construction automatique de lexiques multilinguesAlignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Page 33: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Constitution de corpus parallèlesConstitution de corpus comparables

Constitution de corpus comparables

Sélection de la langue

Détecteur de langue (Grefenstette & Nioche, 2000)

Sélection du thème

Catégorisation automatique (nombreux travaux)(Sebastiani, 2002)

Sélection du genre, du type de discours

Classi�cation et catégorisation automatique (travauxmoins nombreux)

(Karlgren, 1999; Santini et al., 2006; Goeuriot et al.,2009; Ke & Zweigenbaum, 2009)

Une large part du travail de constitution peut rester manuellePierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 25/58

Page 34: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Constitution de corpus parallèlesConstitution de corpus comparables

Exemples de corpus comparablesCorpus synchrones

Corpus de nouvelles synchrones

Wall Street Journal (en), Nikkei Financial News (ja),1993�1994 (Fung & McKeown, 1997)Frankfurter Allgemeine Zeitung (de, 1993�1996),Guardian (en, 1990�1994) (Rapp, 1999)

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 26/58

Page 35: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Constitution de corpus parallèlesConstitution de corpus comparables

Exemples de corpus comparablesAutres critères de comparabilité

Corpus Comparable CISMeF-CliniWeb (C4) (Chiao, 2004)Documents web indexés par le même ensemble dedescripteurs MeSH

Corpus du projet DECO (Goeuriot et al., 2008)Thème = Diabète ; Langue = fr, ja, ru ; scienti�que,populaire

Corpus du projet C-Mantic (http://www.c-mantic.org/)Thème = tabac ; Langue = fr, en, zh ; spécialisé, grandpublic, pro, anti...

Corpus médicaux (Deléger, 2009)Thème = tabac, diabète, cancer ; Langue = fr, en ;spécialisé, grand public

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 27/58

Page 36: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

1 Faire se rencontrer ressources langagières et traitementsautomatiquesTraitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources

2 Constitution automatique de corpus multilinguesConstitution de corpus parallèlesConstitution de corpus comparables

3 Construction automatique de lexiques multilinguesAlignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Page 37: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Méthodes externes et méthodes internes

Contexte vs. constitutionMéthodes externes : contexte d'usage d'un mot

Usage dans des corpus parallèles ou comparables

Méthodes internes : forme d'un mot

Similarité de forme entre mots en relation de traduction

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 29/58

Page 38: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

1 Faire se rencontrer ressources langagières et traitementsautomatiquesTraitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources

2 Constitution automatique de corpus multilinguesConstitution de corpus parallèlesConstitution de corpus comparables

3 Construction automatique de lexiques multilinguesAlignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Page 39: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Alignement dans des corpus parallèles

Enchaînement habituel de traitementsAlignement (appariement) de documents (voir plus haut)

Alignement de phrases

Alignement de mots ou expressions

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 31/58

Page 40: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Alignement de phrases

Le cas idéal : alignement 1-1

anglais françaisThe higher turnover was largelydue to an increase in the sales vol-ume.

La progression des chi�resd'a�aires résulte en grande partiede l'accroissement du volume desventes.

Employment and investment levelsalso climbed.

L'emploi et les investissements ontégalement augmenté.

d'après Gale & Church (1993)

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 32/58

Page 41: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Le parallélisme n'est pas toujours strict : 2-1

Alignement 2-1

anglais françaisFollowing a two-year transitionalperiod, the new Foodstu�s Or-dinance for Mineral Water cameinto e�ect on April 1, 1988.Speci�cally, it contains more strin-gent requirements regarding qual-ity consistency and purity guaran-tees.

La nouvelle ordonnance fédéralesur les denrées alimentaires con-cernant entre autres les eauxminérales, entrée en vigueur le 1eravril 1988 après une période tran-sitoire de deux ans, exige surtoutune plus grande constance dans laqualité et une garantie de la pureté.

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 33/58

Page 42: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Le parallélisme n'est pas toujours strict : 2-2

Alignement 2-2

anglais françaisAccording to our survey, 1988 salesof mineral water and soft drinkswere much higher than in 1987, re-�ecting the growing popularity ofthese products. Cola drink man-ufacturers in particular achievedabove-average growth rates.

Quant aux eaux minérales et auxlimonades, elles rencontrent tou-jours plus d'adeptes. En e�et,notre sondage fait ressortir desventes nettement supérieures àcelles de 1987, pour les boissons àbase de cola notamment.

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 34/58

Page 43: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Principes d'alignement de phrases

Comment savoir quelles phrases se correspondent ?

Similarité de structure des textes

structure hiérarchique (paragraphes...)régularité de l'ordre des phrases

Similarité des phrases

forme : longueurcontenu lexical : ponctuations, nombres, cognats,mots en relation de traduction (à travers lexique bilingue)

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 35/58

Page 44: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Quelques systèmes d'alignement de phrases

Char_align (Gale & Church, 1993) : longueur des phrases

GMA/GSA (Melamed, 1999) : mixte, avec cognats, lexique

(Moore, 2002) : mixte, sans lexique externe

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 36/58

Page 45: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Alignement de mots

d'après (Macklovitch & Langlais, 2004)Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 37/58

Page 46: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Principes d'alignement de mots

Comment savoir quels mots se correspondent ?

Co-occurrence fréquente dans des phrases alignées

Probabilité de traduction d'un mot par un autre(hors contexte), apprise ou trouvée dans un dictionnaire

Position des mots

Possibilié de traduction n:n (fertilité)

Dépendance (syntaxique) entre mots

. . .

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 38/58

Page 47: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Quelques systèmes d'alignement de mots

GIZA++ : modèle statistique (Och & Ney, 2003)http://www.fjoch.com/GIZA++.html

http://code.google.com/p/giza-pp/

Méthodes heuristiques (Melamed, 1999)

I-Tools : mixte statistique et linguistique (Ahrenberget al., 2003)

Inversion Transduction Grammar : linguistique+ (Wu,1995)

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 39/58

Page 48: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

1 Faire se rencontrer ressources langagières et traitementsautomatiquesTraitements informatiques du multilinguismeRessources langagièresConstitution automatisée de ressources

2 Constitution automatique de corpus multilinguesConstitution de corpus parallèlesConstitution de corpus comparables

3 Construction automatique de lexiques multilinguesAlignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Page 49: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Alignement dans des corpus comparables

Enchaînement habituel de traitementsAnalyse distributionnelle monolingue

Analyse distributionnelle translingue

Similarité distributionnelle translingue

Donnée : lexique bilingue partiel (amorçage)

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 41/58

Page 50: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Principe : analyse distributionnelle translingue

Hypothèse distributionnelle : le sens d'un mot estdéterminé par l'ensemble de ses usages (Firth, 1957;Harris, 1991)→ Deux mots d'emplois similaires ont des sens proches

Extension translingue :Deux mots de deux langues di�érentes qui ont desemplois similaires dans leur langue respective ont dessens prochesLes mots qui ont les emplois les plus similaires sontpotentiellement en relation de traduction

Comment comparer les emplois des mots d'une langue àl'autre ?

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 42/58

Page 51: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Principe : analyse distributionnelle translingue

Hypothèse distributionnelle : le sens d'un mot estdéterminé par l'ensemble de ses usages (Firth, 1957;Harris, 1991)→ Deux mots d'emplois similaires ont des sens proches

Extension translingue :Deux mots de deux langues di�érentes qui ont desemplois similaires dans leur langue respective ont dessens prochesLes mots qui ont les emplois les plus similaires sontpotentiellement en relation de traduction

Comment comparer les emplois des mots d'une langue àl'autre ?

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 42/58

Page 52: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Analyse distributionnelle monolingue

Un mot est caractérisé par sa force d'association avecchaque autre motReprésentation : vecteur, dimension = nombre de motsdu corpusEn pratique : réduit la dimension au nombre de mots dulexique d'amorçage

en français score converti en anglaisadénome (11.8) adenomacellule (8.9) cellexamen (5.9) testhyperplasie (14.2) hyperplasialésion (8.8) lesionnucléole (17.4) nucleolusphotographie (13.9) photographprolifération (11.9) proliferationprostate (9.1) prostate...

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 43/58

Page 53: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Analyse distributionnelle monolingue

Un mot est caractérisé par sa force d'association avecchaque autre motReprésentation : vecteur, dimension = nombre de motsdu corpusEn pratique : réduit la dimension au nombre de mots dulexique d'amorçage

en français score converti en anglaisadénome (11.8) adenomacellule (8.9) cellexamen (5.9) testhyperplasie (14.2) hyperplasialésion (8.8) lesionnucléole (17.4) nucleolusphotographie (13.9) photographprolifération (11.9) proliferationprostate (9.1) prostate...

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 43/58

Page 54: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Analyse distributionnelle translingue

On connaît la traduction de chaque mot du lexique d'amorçage

Un pro�l distributionnel construit dans une langue peut doncse lire dans l'autre langue

Les pro�ls distributionnels des mots des deux corpus peuventainsi être comparés

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 44/58

Page 55: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Similarité distributionnelle translingue

Comparaison de vecteurs: mesures classiques

Cosinus : angle entre deux vecteurs

Jaccard : intersection / union

Manhattan : somme des distances sur chaque dimension

Les mots cibles dont lespro�ls distributionnels sontles plus proches d'un motsource sont candidats à satraductionMots anglais dont le pro�lest le plus similaire à foie

français anglais similaritéfoie lung .270294foie liver .231073foie pain .174125foie patient .162746foie tumor .137852foie disease .136998foie primary .119938foie treatment .119257foie brain .109586foie cancer .105038foie bone .104870

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 45/58

Page 56: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Recherche symétrique

(Sadat et al., 2003; Chiao et al., 2004)

foie → ? ? ← liver

français anglais similaritéfoie lung .270294foie liver .231073foie pain .174125foie patient .162746foie tumor .137852foie disease .136998foie primary .119938foie treatment .119257foie brain .109586foie cancer .105038foie bone .104870

anglais français similaritéliver foie .365169liver rare .309686liver associée .292330liver alzheimer .284989liver transmissible .269096liver fréquente .263598liver pathologie .257709liver cardiovasculaire .250468liver cardio-vasculaire .248039liver creutzfeldt-jakob .243688liver hépatique .242475liver origine .240563

foie ↔

candidats rangFrEn rangEnFr MH nouveau ranglung 1 4 1.60 2liver 2 1 1.33 1pain 3 31 5.48 4

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 46/58

Page 57: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Méthodes internes : génération de traductions

Méthode interne : utilise la forme d'un motDeux exemples de méthodes :

1 Génération de règles de transduction2 Traduction par analogie formelle

Entrée : lexique bilingue partiel

Sortie : lexique bilingue étendu

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 47/58

Page 58: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Génération de règles de transduction

English Frenchzirconium zirconium

... ...

ophthalmotoxin ophtalmotoxine

ophthalmologist ophtalmologiste

... ...

oscheitis oschéite

... ...

Exemples : paires {mot source, motcible} du lexique bilingue partiel

Inférence d'un transducteur quireprésente les correspondancessource→cible c/C

/F/D

/E

b/Ba/A

Application du transducteur surd'autres mots source

(Claveau & Zweigenbaum, 2005)

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 48/58

Page 59: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Génération de règles de transduction

English Frenchzirconium zirconium

... ...

ophthalmotoxin ophtalmotoxine

ophthalmologist ophtalmologiste

... ...

oscheitis oschéite

... ...

Exemples : paires {mot source, motcible} du lexique bilingue partiel

Inférence d'un transducteur quireprésente les correspondancessource→cible c/C

/F/D

/E

b/Ba/A

Application du transducteur surd'autres mots source

(Claveau & Zweigenbaum, 2005)

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 48/58

Page 60: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Génération de règles de transduction

English Frenchzirconium zirconium

... ...

ophthalmotoxin ophtalmotoxine

ophthalmologist ophtalmologiste

... ...

oscheitis oschéite

... ...

Exemples : paires {mot source, motcible} du lexique bilingue partiel

Inférence d'un transducteur quireprésente les correspondancessource→cible c/C

/F/D

/E

b/Ba/A

Application du transducteur surd'autres mots source

(Claveau & Zweigenbaum, 2005)

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 48/58

Page 61: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Traduction par analogie formelle

Donnée : lexique bilingue partiel

Entrée : mot source

Transfert d'analogies formelles

Recensement d'analogies formelles qui produisent le motde départ en langue source

Transfert de ces analogies en langue cible

Résolution des analogies formelles en langue cible

(Langlais et al., 2009)

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 49/58

Page 62: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Traduction par analogie formelleTraduire pathogène : carré analogique source, équation analogique cible

on voit : [andrologie : androgène :: pathologie : pathogène]

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 50/58

Page 63: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Traduction par analogie formelleTraduire pathogène : carré analogique source, équation analogique cible

on voit : [andrologie : androgène :: pathologie : pathogène]résoudre : [andrology : androgen :: pathology : ?]

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 50/58

Page 64: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Traduction par analogie formelleTraduire pathogène : carré analogique source, équation analogique cible

on voit : [glycogénique : pathogénique :: glycogène : pathogène]

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 50/58

Page 65: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

Ressources langagières et traitements automatiquesConstitution automatique de corpus multilingues

Construction automatique de lexiques multilingues

Alignement dans des corpus parallèlesAlignement dans des corpus comparablesMéthodes internes : génération de traductions

Traduction par analogie formelleTraduire pathogène : carré analogique source, équation analogique cible

on voit : [glycogénique : pathogénique :: glycogène : pathogène]résoudre : [glycogenic : pathogenic :: glycogen : ?]

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 50/58

Page 66: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

ConclusionReferences

Pour �nir

4 Conclusion

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 51/58

Page 67: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

ConclusionReferences

Conclusion

Intérêt et limites des corpus parallèlesMeilleure précision, meilleur rendementVolume borné

Potentiel et di�cultés des corpus comparablesLangue plus naturelle, volume potentiel plus grandPrécision plus faible des propositions de traduction

Indications et limites des méthodes internesGénération de traductions non vuesRepose sur la similarité de construction des motsou sur la proximité des langues

Méthodes automatiques vs intervention humaineBesoin de pilotage des méthodes automatiquesBesoin de validation des ressources constituées

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 52/58

Page 68: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

ConclusionReferences

Bibliographie I

Ahrenberg L., Merkel M. & Petterstedt M. (2003). Interactive wordalignment for language engineering. In A. Copestake & J. Hajic, Eds.,Proceedings EACL 2003, p. 49�52, Budapest.

Chiao Y.-C. (2004). Extraction lexicale bilingue à partir de textesmédicaux comparables : application à la recherche d'informationtranslangue. Thèse de doctorat, informatique médicale, UniversitéParis 6.

Chiao Y.-C., Sta J.-D. & Zweigenbaum P. (2004). A novel approach toimprove word translations extraction from non-parallel, comparablecorpora. In Proceedings International Joint Conference on NaturalLanguage Processing, Hainan, China: AFNLP.

Claveau V. & Zweigenbaum P. (2005). Traduction de termesbiomédicaux par inférence de transducteurs. In ProceedingsTraitement automatique des langues naturelles (Traitementautomatique des langues naturelles), Dourdan.

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 53/58

Page 69: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

ConclusionReferences

Bibliographie II

Deléger L. (2009). Exploitation de corpus parallèles et comparables pourla détection de correspondances lexicales : application au domainemédical. Thèse de doctorat, informatique médicale, Université Pierreet Marie Curie.

Firth J. R. (1957). Papers in Linguistics, 1934�1951. London: OxfordUniversity Press.

Fung P. & McKeown K. (1997). Finding terminology translations fromparallel corpora. In Proceedings Fifth Annual Workshop on Very LargeCorpora, p. 192�202: ACL.

Gale W. & Church K. W. (1993). A program for aligning sentences inbilingual corpora. Computational Linguistics, 19(3), 75�102.

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 54/58

Page 70: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

ConclusionReferences

Bibliographie III

Goeuriot L., Grabar N. & Daille B. (2008). Characterization of scienti�cand popular science discourse in French, Japanese and Russian. In N.Calzolari, K. Choukri, B. Maegaard, J. Mariani, J. Odjik, S. Piperidis& D. Tapias, Eds., Proceedings of the Sixth International LanguageResources and Evaluation (LREC'08), Marrakech, Morocco: EuropeanLanguage Resources Association (ELRA).http://www.lrec-conf.org/proceedings/lrec2008/.

Goeuriot L., Morin E. & Daille B. (2009). Reconnaissance du type dediscours dans des corpus comparables spécialisés. In ProceedingsCORIA 2009: ARIA. Ce volume.

Grefenstette G. & Nioche J. (2000). Estimation of English andnon-English language use on the WWW. In Proceedings of RIAO2000: Content-Based Multimedia Information Access, p. 237�246,Paris, France: C.I.D.

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 55/58

Page 71: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

ConclusionReferences

Bibliographie IV

Harris Z. S. (1991). A theory of language and information. Amathematical approach. Oxford: Oxford University Press.

Karlgren J. (1999). Stylistic experiments in information retrieval. In T.Strzalkowski, Ed., Natural language information retrieval, volume 7 ofText, speech and language technology, chapter 6, p. 147�166.Dordrecht & Boston: Kluwer Academic Publishers.

Ke G. & Zweigenbaum P. (2009). Catégorisation automatique de pagesweb chinoises : documents spécialisés vs grand public sur letabagisme. In Proceedings CORIA 2009, p. 203�128: ARIA.

Langlais P., Yvon F. & Zweigenbaum P. (2009). Improvements inanalogical learning: Application to translating multi-terms of themedical domain. In Proceedings 12th Conference of the EuropeanChapter of the ACL (EACL 2009), p. 487�495, Athens, Greece:Association for Computational Linguistics.

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 56/58

Page 72: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

ConclusionReferences

Bibliographie V

Macklovitch E. & Langlais P. (2004). Le bi-texte et ses applications. InP. Blache, Ed., Proceedings of TALN 2004 (Traitement automatiquedes langues naturelles), Fès, Maroc: ATALA LPL. Tutoriel.

Melamed I. D. (1999). Bitext maps and alignments via patternrecognition. Computational Linguistics, 25(1), 107�130.

Moore R. C. (2002). Fast and accurate sentence alignment of bilingualcorpora. In Machine Translation: From Research to Real Users, p.135�244, Heidelberg, Germany: Springer-Verlag. Proceedings 5thConference of the Association for Machine Translation in the Americas.

Och F. J. & Ney H. (2003). A systematic comparison of variousstatistical alignment models. Computational Linguistics, 29(1), 19�51.

Rapp R. (1999). Automatic identi�cation of word translations fromunrelated English and German corpora. In Proceedings of the 37th

ACL, College Park, Maryland.

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 57/58

Page 73: Traitement automatique des langues et instrumentation du ......(puis de la qualité de l'alignement des phrases) Résultat : ˘10 000 couples de pages FR EN Pierre Zweigenbaum, LIMSI,

ConclusionReferences

Bibliographie VI

Sadat F., Yoshikawa M. & Uemura S. (2003). Learning bilingualtranslations from comparable corpora to cross-language informationretrieval: Hybrid statistics-based and linguistics-based approach. In J.Adachi & K.-F. Wong, Eds., Proceedings Sixth InternationalWorkshop on Information Retrieval with Asian Languages, p. 57�64.

Santini M., Power R. & Evans E. (2006). Implementing acharacterization of genre for automatic genre identi�cation of Webpages. In Proceedings COLING/ACL 2006 Main Conference PosterSessions, p. 699�706, Sydney.

Sebastiani F. (2002). Machine learning in automated text categorization.ACM Computing Surveys, 34(1), 1�47.

Wu D. (1995). Grammarless extraction of phrasal translation examplesfrom parallel texts. In In Proceedings of the Sixth InternationalConference on Theoretical and Methodological Issues in MachineTranslation, p. 354�372.

Pierre Zweigenbaum, LIMSI, CNRS Pirstec 2009 : TAL et multilinguisme 58/58