40
1 Thèse de doctorat Thèse de doctorat 28 octobre 2005 28 octobre 2005 Christophe Chenon Christophe Chenon GETA-CLIPS-IMAG GETA-CLIPS-IMAG Vers une meilleure Vers une meilleure utilisabilité des mémoires utilisabilité des mémoires de traduction, fondée sur de traduction, fondée sur un alignement sous- un alignement sous- phrastique phrastique

1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

Embed Size (px)

Citation preview

Page 1: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

11

Thèse de doctorat Thèse de doctorat 28 octobre 200528 octobre 2005

Christophe ChenonChristophe ChenonGETA-CLIPS-IMAG GETA-CLIPS-IMAG

Vers une meilleure Vers une meilleure utilisabilité des mémoires utilisabilité des mémoires de traduction, fondée sur de traduction, fondée sur

un alignement sous-un alignement sous-phrastiquephrastique

Page 2: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

22

La traduction à IBMLa traduction à IBM25 centres de traduction à travers le monde25 centres de traduction à travers le monde Une trentaine de languesUne trentaine de langues En France : 20 millions de mots par anEn France : 20 millions de mots par an Logiciels et texteLogiciels et texte

THAM à mémoires de traductionTHAM à mémoires de traduction Pionniers (~1990 Translation Manager)Pionniers (~1990 Translation Manager) Consiste à réutiliser des traductions déjà faitesConsiste à réutiliser des traductions déjà faites

- Cohérence stylistique, terminologique- Cohérence stylistique, terminologique

- Productivité- Productivité

- Travail en réseau- Travail en réseau

Page 3: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

33

FonctionnementFonctionnement

Traducteurs

Texte à

traduire

Textetraduit

N la

ngue

sTranslation Manager

Mémoires de traduction

Le système de THAM utilise des mémoires de traduction

Page 4: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

44

Page 5: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

55

Principe de fonctionnementPrincipe de fonctionnementOn conserve toutes les traductions…On conserve toutes les traductions…

Le traducteur travaille par « segment »Le traducteur travaille par « segment » Il traduit le segment (avec ou sans aide)Il traduit le segment (avec ou sans aide) On enregistre des « bisegments »On enregistre des « bisegments »

… … pour les réutiliserpour les réutiliser SiSi le segment est déjà traduit dans la mémoire le segment est déjà traduit dans la mémoire

Le système demande (éventuellement) une confirmation au traducteurLe système demande (éventuellement) une confirmation au traducteur SiSi segment n’est pas traduit segment n’est pas traduit

- SoitSoit le système propose des segments « proches » le système propose des segments « proches » => Le traducteur part de l’une des traductions=> Le traducteur part de l’une des traductions- SoitSoit aucun segment de la mémoire n’est proche aucun segment de la mémoire n’est proche => Il faut traduire complètement=> Il faut traduire complètement

On veut proposer mieux au traducteur

Page 6: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

66

À traduire

This task will show you how to correct potential mistakes in your text.This task will show you how to correct potential mistakes in your text.

Un scénario « de rêve »…Un scénario « de rêve »…Dans la mémoireDans la mémoire

This tool will help you to correct potential mistakes in your text.This tool will help you to correct potential mistakes in your text.

Cet outil vous aidera à corriger d’éventuelles erreurs dans votre texteCet outil vous aidera à corriger d’éventuelles erreurs dans votre texte..

This task will show you how to change views.This task will show you how to change views.

Dans cette tâche vous apprendrez à modifier les vues.Dans cette tâche vous apprendrez à modifier les vues.

Page 7: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

77

À traduire

This task will show you how to correct potential mistakes in your text.This task will show you how to correct potential mistakes in your text.Dans cette tâche vous apprendrez à corriger d’éventuelles erreurs dans votre texte.Dans cette tâche vous apprendrez à corriger d’éventuelles erreurs dans votre texte.

Analyse du scénarioAnalyse du scénarioDans la mémoireDans la mémoire

This tool will help you to correct potential mistakes in your text.This tool will help you to correct potential mistakes in your text.

Cet outil vous aidera à corriger d’éventuelles erreurs dans votre texteCet outil vous aidera à corriger d’éventuelles erreurs dans votre texte..

This task will show you how to change views.This task will show you how to change views.

Dans cette tâche vous apprendrez à modifier les vues.Dans cette tâche vous apprendrez à modifier les vues.

Page 8: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

88

Vers un alignement sous-phrastiqueVers un alignement sous-phrastique

ExpliciterExpliciter Correspondances au niveau des motsCorrespondances au niveau des mots Briques traductionnellesBriques traductionnelles Leur agencementLeur agencement

DifficultésDifficultés Déterminer des frontièresDéterminer des frontières Trouver les traductionsTrouver les traductions Rétablir l’ordreRétablir l’ordre

Objectif: enrichissement des mémoiresObjectif: enrichissement des mémoires Formaliser cette information Formaliser cette information Calculer cette informationCalculer cette information À plus long terme: généraliser cette informationÀ plus long terme: généraliser cette information

Page 9: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

99

PlanPlan

IntroductionIntroductionModèle pour l’alignementModèle pour l’alignement MotivationsMotivations Illustration du résultat attenduIllustration du résultat attendu Le modèle TransTreeLe modèle TransTree

Acquisition de l’informationAcquisition de l’informationExpérimentationsExpérimentationsApplication et perspectivesApplication et perspectives

Page 10: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

1010

Quelques travaux dans ce domaineQuelques travaux dans ce domaine

Correspondances entre analysesCorrespondances entre analyses Synchronous Structured String-Tree CorrespondencesSynchronous Structured String-Tree Correspondences (S-SSTC) (S-SSTC) Al Adhaileh, Tang (Penang)Al Adhaileh, Tang (Penang) Fine-grained Alignment of Multilingual TextsFine-grained Alignment of Multilingual Texts Cyrus, Feddes (Münster)Cyrus, Feddes (Münster)

Analyse bilingueAnalyse bilingue Stochastic Inversion Transduction GrammarsStochastic Inversion Transduction Grammars (SITG) (SITG)

Wu (Hong-Kong)Wu (Hong-Kong)

Tous utilisent une approche symboliquefondée sur des ressources linguistiques

Page 11: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

1111

OrOr

Ces approches ont des limites…Ces approches ont des limites… Dépendance vis-à-vis de la langueDépendance vis-à-vis de la langue Coût des ressources linguistiquesCoût des ressources linguistiques

……que ne connaissent pas les environnement que ne connaissent pas les environnement de THAM à mémoire de traductionde THAM à mémoire de traduction Succès de cette technologie Succès de cette technologie

On va mettre en œuvre des On va mettre en œuvre des méthodes statistiquesméthodes statistiques

Page 12: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

1212

Illustration du résultat attenduIllustration du résultat attendu

Page 13: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

1313

Le modèle TransTreeLe modèle TransTree

Page 14: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

1414

« « Boîte de dialogueBoîte de dialogue » »

Un diagramme TransTree simple Un diagramme TransTree simple

Amphigrammes

Page 15: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

1515

TransTreeTransTreePrincipesPrincipes Bi-arbre n-aire, abstrait, non ordonnéBi-arbre n-aire, abstrait, non ordonné Correspondances chaîne-chaîne non orientéesCorrespondances chaîne-chaîne non orientées

Les nœuds sont des « amphigrammes »Les nœuds sont des « amphigrammes » Briques traductionnelles gigognesBriques traductionnelles gigognes Armature textuelle et points d’insertionArmature textuelle et points d’insertion Feuilles = paire de chaînes de caractères Feuilles = paire de chaînes de caractères

« amphigramme atomique »« amphigramme atomique »

Page 16: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

1616

Bi-arbre…Bi-arbre…

Page 17: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

1717

PlanPlan

IntroductionIntroductionModèle pour l’alignementModèle pour l’alignementAcquisition de l’informationAcquisition de l’information Ligne directriceLigne directrice Alignements atomiquesAlignements atomiques Structuration des segmentsStructuration des segments Alignements sous-phrastiquesAlignements sous-phrastiques ClassificationClassification

ExpérimentationsExpérimentationsApplication et perspectivesApplication et perspectives

Page 18: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

1818

Ligne directriceLigne directrice

Démarche métalinguistiqueDémarche métalinguistique Axe interlingue => digrammes, amphigrammesAxe interlingue => digrammes, amphigrammes Axe syntagmatique => arbres binaires de sécabilitéAxe syntagmatique => arbres binaires de sécabilité Axe paradigmatique => classes, patrons de trad.Axe paradigmatique => classes, patrons de trad.

Démarche statistiqueDémarche statistique Ce qui revient souvent est utile, figéCe qui revient souvent est utile, figé Les exceptions confirment la règle…Les exceptions confirment la règle…

Page 19: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

1919

Click OK to close the dialog box

Cliquez sur OK pour fermer la boîte de dialogue

Ligne directriceLigne directrice

Page 20: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

2020

Bi-arbre…Bi-arbre…

Page 21: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

2121

Mots typographiquesMots typographiques GranularitéGranularité Systèmes d’écriture à séparateursSystèmes d’écriture à séparateurs

Méthode utiliséeMéthode utilisée Meilleurs candidats réciproques par Meilleurs candidats réciproques par

l’information mutuelle (surfréquence)l’information mutuelle (surfréquence) Processus itératifProcessus itératif Placement par moindres croisementsPlacement par moindres croisements Certains mots non appariésCertains mots non appariés

Alignements atomiquesAlignements atomiques

Page 22: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

2222

DigrammesDigrammesIdée de baseIdée de base

Couple de mots typographiques vu comme unitéCouple de mots typographiques vu comme unité(avions,had) =/= (avions,planes)(avions,had) =/= (avions,planes)

Désambiguïsation forteDésambiguïsation forteVrai digramme = couple de motsVrai digramme = couple de motsFaux digramme = un mot seulementFaux digramme = un mot seulement

Unité de granularitéUnité de granularité

Chaque segment va être considéré comme une suite de digrammes

Cliquez(Clic) sur() OK(OK) pour(to) fermer(close) la(the) boîte(box) de() dialogue(dialog).

Page 23: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

2323

SécabilitéSécabilité Indice de cohésion de chaque séparateurIndice de cohésion de chaque séparateur Permet de constituer des groupes de motsPermet de constituer des groupes de mots Estimée sur une fenêtre glissanteEstimée sur une fenêtre glissante

Structuration des segmentsStructuration des segments

N(gd)N(g) ∙ N(d)

Cliquez sur OK pour fermer la boîte de dialogue

g d

Page 24: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

2424

Cliquez sur OK pour fermer la boîte de dialogue

Arbre binaire de sécabilitéArbre binaire de sécabilité

2 6 8 5 7 4 1 3

6

87

2 54

31

Page 25: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

2525

Alignements sous-phrastiquesAlignements sous-phrastiques

Passage du binaire au n-airePassage du binaire au n-aire Axe interlingueAxe interlingue Comparaison des arbres binaires de sécabilitéComparaison des arbres binaires de sécabilité Notion de congruenceNotion de congruence

Un amphigramme est constitué avec deux nœuds Un amphigramme est constitué avec deux nœuds dominant le même ensemble de vrais digrammesdominant le même ensemble de vrais digrammes

On prend On prend au moinsau moins deux vrais digrammes, deux vrais digrammes,

=> il peut y en avoir plus : arbre résultant n-aire=> il peut y en avoir plus : arbre résultant n-aire

Page 26: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

2626

Click OK to close the dialog box

Cliquez sur OK pour fermer la boîte de dialogue

CongruenceCongruence

Page 27: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

2727

Autre exempleAutre exempleThis task shows you how to change views.

Dans cette tâche, vous apprendrez à modifier les vues.

Page 28: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

2828

SaturationSaturation

This A shows B howDans cette A B apprendrez

Page 29: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

2929

ClassificationClassification

Deux objectifsDeux objectifs FactorisationFactorisation ExtrapolationExtrapolation

Généralisation des amphigrammesGénéralisation des amphigrammes On remplace les amphigrammes fils par des On remplace les amphigrammes fils par des

paradigmes d’amphigrammes (classes)paradigmes d’amphigrammes (classes) Amphigrammes « génériques »Amphigrammes « génériques » Obtention d’une grammaireObtention d’une grammaire

=> TransTree = arbre de dérivation=> TransTree = arbre de dérivation

Page 30: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

3030

En résumé…En résumé…

TransTree permet d’exprimer des TransTree permet d’exprimer des correspondances sous-phrastiques dans les correspondances sous-phrastiques dans les mémoires de traductionmémoires de traduction

Le modèle est accompagné d’une méthode Le modèle est accompagné d’une méthode générale d’acquisition de données par voie générale d’acquisition de données par voie statistiquestatistique

Page 31: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

3131

PlanPlan

IntroductionIntroduction

Modèle pour l’alignementModèle pour l’alignement

Acquisition de l’informationAcquisition de l’information

ExpérimentationsExpérimentations Données de travailDonnées de travail ÉÉchantillonschantillons

Application et perspectivesApplication et perspectives

Page 32: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

3232

Filtrage des mémoiresFiltrage des mémoires

Tous les bisegments ne sont pas utilesTous les bisegments ne sont pas utiles Segments non textuels (balises, code, variables etc.)Segments non textuels (balises, code, variables etc.) Anglais dans le français (ou l’inverse)Anglais dans le français (ou l’inverse) Mauvais découpageMauvais découpage

Page 33: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

3333

Volumes Volumes Avant filtrageAvant filtrage Taille des données : 565 MoTaille des données : 565 Mo Nombre de mémoires : 453Nombre de mémoires : 453 Nombre de bisegments : 1 785 684Nombre de bisegments : 1 785 684

Après filtrageAprès filtrage

SegmentsMots

(occurrences)Mots

(prototypes) Hapax

SOURCE 64 658 691 532 18 727 7 376

CIBLE 64 658 758 896 20 334 7 981

Page 34: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

3434

Longueur des phrasesLongueur des phrases

Nombre de mots

X 1

000

phra

ses

Page 35: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

3535

Echantillon briques traductionnellesEchantillon briques traductionnellesdefault par défaut

database base de données

Click Cliquez sur

password mot de passe

all tous les

output de sortie

viewpoint point de vue

will be sera

Cannot Impossible de

cannot ne peut pas

cannot ne pouvez pas

Buidtime Client de modélisation

as au fur et à mesure que

Page 36: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

3636

PlanPlan

IntroductionIntroduction

Modèle pour l’alignementModèle pour l’alignement

Acquisition de l’informationAcquisition de l’information

ExpérimentationsExpérimentations

Application et perspectivesApplication et perspectives

Page 37: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

3737

Applications immédiatesApplications immédiates

Aide aux traducteursAide aux traducteurs Améliore la perception de ce qui est utileAméliore la perception de ce qui est utile Permet une édition plus efficacePermet une édition plus efficace

EnseignementEnseignement ÉÉditions bilinguesditions bilingues Permet à l’apprenant d’identifier les correspondancesPermet à l’apprenant d’identifier les correspondances

Page 38: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

3838

PerspectivesPerspectivesAlgorithme de production de segments cibleAlgorithme de production de segments cible ClassificationClassification Modèle de traductionModèle de traduction ÉÉvaluation sur la traductionvaluation sur la traductionSystèmes d’écriture sans séparateurSystèmes d’écriture sans séparateurAjuster les indicesAjuster les indices Digrammes, sécabilité, classificationDigrammes, sécabilité, classification Avec un algorithme itératifAvec un algorithme itératif

Diminution du nombre de descripteursDiminution du nombre de descripteursDensification de l’alignementDensification de l’alignement

Page 39: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

3939

MerciMerci

Page 40: 1 Thèse de doctorat 28 octobre 2005 Christophe Chenon GETA-CLIPS-IMAG Vers une meilleure utilisabilité des mémoires de traduction, fondée sur un alignement

4040