24
Extraction d’équivalents de traduction à partir d’un corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre de Recherche en Terminologie et Traduction Université Lumière Lyon 2, [email protected]

Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

Embed Size (px)

Citation preview

Page 1: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

Extraction d’équivalents de traduction à partir d’un corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical

François MANIEZ

Centre de Recherche en Terminologie et Traduction

Université Lumière Lyon 2, [email protected]

Page 2: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

1.       Introduction2.       Hypothèses initiales3.       Corpus utilisé4.       Les adjectifs composés de l’anglais5.       Méthode de repérage utilisée6.       Résultats7.       Sources de l’absence d’appariement8.       Améliorations à apporter au modèle

Page 3: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

1.      Introduction

Les corpus bilingues alignés permettent d’extraire automatiquement des équivalents de traduction des collocations et des lexies complexes (Langlois & Plamondon 1998). 

Les termes de l’anglais sont majoritairement formés à l’aide des deux seuls patrons syntaxiques N N et Adj N. (Gaussier 2001).

 Le repérage des bigrammes correspondant à ces patrons syntaxiques et celui de leur équivalent de traduction dans le corpus bilingue (bitexte) peut servir à l’extraction d’une terminologie bilingue.

Page 4: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

2.      Hypothèses initiales

Similitude morphologique entre les ETLes termes de la langue technique et scientifique anglaise et leurs traductions françaises partagent fréquemment les mêmes racines gréco-latines (méthode des cognats).

  Stabilité des traductions

Il y a peu de variation dans la traduction des termes et collocations de la langue scientifique.

Page 5: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

Traductions de myocardial infarction (39 occurrences)

infarctus du myocarde 14

infarctus myocardique 10

IDM (sigle) 8

infarctus (ellipse) 7

Page 6: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

3.      Corpus utilisé

corpus bilingue aligné composé de 30 articles ayant pour sujet la cardiologie (134 000 mots) et de leur traduction parue dans la version française du Journal of the American Medical Association

étiquetage morpho-syntaxique des deux parties du corpus ; pas d’analyse syntaxique

Formes traitées : toutes les expressions de patron syntaxique ADJ N (élimination des formes de comparatif et de superlatif, ainsi que des adjectifs composés).

Page 7: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

4. Les adjectifs composés de l’anglais

Absence de traitement car : leurs équivalents de traduction (ET) varient

beaucoup plus que ceux des autres adjectifs les patrons syntaxiques utilisés pour les traduire sont

divers et plus complexes que ceux déjà mentionnés, d’où une augmentation du temps de traitement.

difficulté d’un repérage exhaustif (pretest probability, noninvasive tests)

Page 8: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

Exemples de traductions des adjectifs composés :

adjectif simple: placebo-controlled human study essai

contrôlé chez l'homme low-cholesterol diet régime

hypocholestéromique calcium-channel blockers inhibiteurs

calciques connective-tissue disease connectivite

Page 9: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

sigle : low-density lipoprotein LDL  groupe prépositionnel : dental-induced endocarditis endocardite

d’origine dentaire single-dose regimen protocole de prise unique antibiotic-resistant endocarditis endocardite à

germes résistants dental procedure-induced infective endocarditis

endocardite infectieuse d'origine dentaire

Page 10: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

Ellipse (réduction)The high initial dose of antibiotic ensures a

high blood level during and just after the bacteremia-producing procedure. La dose initiale élevée assure une concentration sanguine élevée pendant et juste après le geste bactériémique.

EtoffementMaintenance-dose antibiotics are inadequate

to prevent bacterial endocarditis. Les antibiotiques administrés à dose d'entretien sont inefficaces pour prévenir l'endocardite bactérienne.

Page 11: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

• Transformation de la structure syntaxiqueLDL represents the atherogenic, cholesterol-

containing particle les LDL, véhicules du cholestérol, sont les particules athérogènes.

• Variation des équivalents de traduction (plus fréquente pour les participes)

cocaine-induced myocardial infarction IDM associés à l'usage de cocaïne, infarctus myocardique par usage de cocaïne

Page 12: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

5.      Méthode de repérage utilisée

Extraction des séquences de type Adj N de la partie anglaise du corpus.

Extraction des séquences correspondant aux patrons syntaxiques les plus fréquemment observés dans les traductions françaises des séquences de type Adj N (Adj N, N Adj, N Prep N, N Prep Det N) de la partie française du corpus.

Appariement des groupes nominaux des deux langues au niveau du corpus, et non pas au niveau des phrases alignées.

Page 13: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

Patrons syntaxiques des traductions françaises

Adj N vast majority grande majorité

N Adj pericardial effusion épanchement péricardique

N Prep N

hypercoagulable state état d'hypercoagulabilité

N Prep Det N

myocardial infarction infarctus du myocarde, hypertensive group groupe des hypertendus

Page 14: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

La méthode d’extraction compare les informations contenues dans trois tables distinctes :

le corpus bilingue aligné au niveau de la phrase (2000 enregistrements).

les séquences Adj N de l’anglais (2000 séquences distinctes pour 3200 occurrences)

les groupes nominaux du français correspondant aux quatre patrons syntaxiques sélectionnés (4000 séquences distinctes pour 5500 occurrences)

Page 15: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

Appariement entre les séquences de type Adj N et leurs équivalents de traduction potentiels, par un programme mettant en relation les trois fichiers, écrit sous un SGBD:

Chaque séquence Adj N est dans un premier temps mise en relation avec un sous-ensemble du fichier des groupes nominaux français.

filtre utilisé : similitude graphique des quatre premiers caractères de l’adjectif et du nom (méthode des cognats)

+ utilisation de la fonction DIFFERENCE() de DBASE pour la reconnaissance d’ET contenant des accents (predictive value).

Page 16: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

•Le corpus bilingue est consulté afin d’établir le nombre d’enregistrements contenant les deux chaînes comparées dans chacun des deux champs du corpus bilingue, l’énoncé anglais et sa traduction française.

Page 17: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

Indices utilisés :

R1 = nombre de phrases contenant les 2 GN comparés / fréquence du GN anglais

R2 = nombre de phrases contenant les 2 GN comparés / fréquence du GN français

Page 18: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

Les trois équivalents de traduction les plus fréquemment observés sont relevés et classés en fonction de leur probabilité de correspondance calculée à partir du pourcentage de co-occurrence dans les énoncés alignés par rapport à leur fréquence d’emploi sur l’ensemble du corpus.

Page 19: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

6. Résultats :

(pour toutes les séquences de fréquence supérieure à 2 sur l’ensemble du corpus).

précision de 92% (129 ET corrects /140 ET attribués)

rappel de 71% (129 ET corrects attribués /182 GN au total)

Page 20: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

7.      Sources de l’absence d’appariement :

7.1. Le GN fait partie d’une unité terminologique de taille supérieure :

familial dyslipidemic hypertension : hypertension familiale dyslipidémique, dyslipidémie familiale hypertensive

hypertensive heart disease : cardiopathie hypertensive

sudden cardiac death : mort subite d'origine cardiaque

Page 21: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

7.2. Le GN appartient à une structure coordonnée : [pulmonary and systemic] venous [hypertension and congestion] l'hypertension et la congestion veineuse pulmonaire et systémique

Page 22: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

7.3. Non-correspondance du nombre de mots des ET.

 Traduction du nom par une lexie composée : clinical management : prise en charge clinique

 Amalgame à la traduction :

antibiotic therapy : antibiothérapie

coronary angiography : coronarographie

 Réduction

hypertensive patients (hommes / patients) hypertendus

Page 23: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

7.4. La synonymie entraîne une faible valeur des indices R1 et R2to use parenteral prophylaxis : avoir recours à la voie injectable, utiliser des antibiotiques par voie parentérale.

7.5. non correspondance des cognatsmale patients sujets masculins

7.6. Siglaisonischemic stroke AVC ischémiquemyocardial infarction IDM

Page 24: Extraction déquivalents de traduction à partir dun corpus bilingue aligné : étude du patron syntaxique Adj N en anglais médical François MANIEZ Centre

8.  Améliorations à apporter au modèle

 Traitement du patron syntaxique N N Sélection plus fine des candidats ET Traitement au niveau de la phrase pour les

hapax, avec prise en compte de la position des groupes nominaux dans la phrase.

 Reconnaissance des séquences appartenant à des unités de taille supérieure (Cf. Frantzi 99, Maynard 01)