12
Une approche hybride pour la traduction automatique anglais-arabe basée sur la recherche d’information interlingue Dr.Nasredine Semmar Laboratoire Vision et Ingénierie des Contenus (France) Résumé Cet article présente une approche hybride de traduction automatique basée la recherche d’information interlingue et ne nécessitant que la disponibilité d’un corpus de textes en langue cible pour la construction du modèle de langage. Cette approche consiste، d’une part، à indexer en une base de données textuelle un large corpus en langue cible en utilisant un moteur de recherche interlingue، et d’autre part، à considérer la phrase à traduire comme une requête à cette base. Les informations linguistiques (lemme، catégorie grammaticale، genre، nombre، relation de dépendance syntaxique، etc.) des mots des phrases candidates fournies par le moteur de recherche sont combinées avec le modèle statistique de la langue cible en vue de produire la meilleure traduction. Nous avons évalué cette approche de traduction et comparé ses résultats à ceux du système de traduction statistique MOSES en utilisant les outils، les données et le protocole de la campagne MEDAR. Les résultats obtenus montrent que le score BLEU de notre approche dépasse significativement celui du système MOSES. MOTS-CLES : Recherche d’information interlingue، traduction automatique، modèle de traduction، modèle de langue، automate à états finis، champs conditionnels aléatoires. Abstract This paper presents a hybrid approach for machine translation using cross-language information retrieval and needs only a mono-lingual corpus in the target language in order to build the language model. This approach consists، on the one hand، in indexing a database of sentences in the target language، and on the other hand، in considering each sentence to translate as a “query” to that database. Linguistic information such as lemmas، part-of-speech and syntactic dependency relations corresponding to the words of the sentences returned by the cross-language search engine are combined with a statistical model of the target language to produce a correct translation. This approach has been evaluated and compared to the statistical machine translation system MOSES using the tools، the data and the protocol of the MEDAR campaign. The obtained results show that our translation approach outperforms significantly MOSES system in terms of BLEU score. KEYWORDS: Cross-language information retrieval، machine translation، translation model، language model، finite-state machine، conditional random fields.

Une approche hybride pour la traduction automatique anglais ...Cet article décrit une approche de traduction automatique basée sur la recherche d’information interlingue et ne

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Une approche hybride pour la traduction automatique anglais ...Cet article décrit une approche de traduction automatique basée sur la recherche d’information interlingue et ne

Une approche hybride pour la traduction automatique anglais-arabe basée sur la recherche

d’information interlingueDr.Nasredine SemmarLaboratoire Vision et Ingénierie des Contenus (France)

RésuméCet article présente une approche hybride de traduction automatique basée la recherche d’information interlingue et ne nécessitant que la disponibilité d’un corpus de textes en langue cible pour la construction du modèle de langage. Cette approche consiste، d’une part، à indexer en une base de données textuelle un large corpus en langue cible en utilisant un moteur de recherche interlingue، et d’autre part، à considérer la phrase à traduire comme une requête à cette base. Les informations linguistiques (lemme، catégorie grammaticale، genre، nombre، relation de dépendance syntaxique، etc.) des mots des phrases candidates fournies par le moteur de recherche sont combinées avec le modèle statistique de la langue cible en vue de produire la meilleure traduction. Nous avons évalué cette approche de traduction et comparé ses résultats à ceux du système de traduction statistique MOSES en utilisant les outils، les données et le protocole de la campagne MEDAR. Les résultats obtenus montrent que le score BLEU de notre approche dépasse significativement celui du système MOSES.MOTS-CLES : Recherche d’information interlingue، traduction automatique، modèle de traduction، modèle de langue، automate à états finis، champs conditionnels aléatoires.

Abstract This paper presents a hybrid approach for machine translation using cross-language information retrieval and needs only a mono-lingual corpus in the target language in order to build the language model. This approach consists، on the one hand، in indexing a database of sentences in the target language، and on the other hand، in considering each sentence to translate as a “query” to that database. Linguistic information such as lemmas، part-of-speech and syntactic dependency relations corresponding to the words of the sentences returned by the cross-language search engine are combined with a statistical model of the target language to produce a correct translation. This approach has been evaluated and compared to the statistical machine translation system MOSES using the tools، the data and the protocol of the MEDAR campaign. The obtained results show that our translation approach outperforms significantly MOSES system in terms of BLEU score.

KEYWORDS: Cross-language information retrieval، machine translation، translation model، language model، finite-state machine، conditional random fields.

Page 2: Une approche hybride pour la traduction automatique anglais ...Cet article décrit une approche de traduction automatique basée sur la recherche d’information interlingue et ne

Introduction

Il existe principalement deux types d’approches pour la traduction automatique (Trujillo، 1999) (Hutchins، 2003): celles à base de règles et celles s’appuyant sur des corpus. La combinaison de ces approches a permis le développement de solutions hybrides (Somers، 2003) (Schwenk et al.، 2007). La traduction automatique à base de règles privilégie le traitement linguistique. Cette approche repose généralement sur un traitement à trois phases. Une phase d’analyse qui calcule une représentation syntaxique de la phrase source. Une phase de transfert qui transforme cette représentation syntaxique en une représentation correspondante en langue cible et une phase de synthèse qui، à partir de la structure syntaxique résultat du transfert، produit la phrase cible. Une variante interlingue de cette approche consiste à calculer une représentation syntaxico-sémantique suffisamment abstraite pour être indépendante de toute langue. Le principal avantage de l’approche à base de règles est qu’elle fournisse des résultats présentant un minimum de qualité lexicale et grammaticale due à l’utilisation de ressources linguistiques monolingues et bilingues (dictionnaires، règles de grammaires، etc.) mais ces ressources sont coûteuses car généralement construites à la main. La traduction à base de corpus est issue de l’idée de la possibilité d’utiliser des traductions existantes pour traduire de nouveaux textes. Deux approches sont nées de cette idée : La traduction statistique ou probabiliste et la traduction par l’exemple. La traduction statistique (Koehn، 2010) utilise un corpus de textes bilingues pour apprendre le modèle de traduction et un corpus monolingue pour apprendre le modèle de langue. Les deux modèles appris servent ensuite à calculer la probabilité qu’une phrase donnée en langue cible soit une traduction de la phrase source. Plusieurs méthodes sont utilisées en modélisation : les méthodes basées sur les mots، sur les séquences de mots et enfin sur la syntaxe de la phrase. Ces approches sont efficaces lorsque، d’une part، les langues source et cible ont une morphologie proche، et d’autre part، les corpus utilisés en apprentissage ont une taille suffisante. La principale limitation de l’approche statistique découle de la non utilisation de ressources linguistiques monolingues ou bilingues، d’où la génération de traductions erronées ou non grammaticales. Pour pallier à cette limitation، plusieurs approches ont été proposées pour ajouter des informations linguistiques aux modèles statistiques. Nous citerons les plus récentes : Koehn et al. (2010) ont proposé une approche qui enrichit les mots à l’aide d’informations linguistiques (lemme، informations grammaticales، genre، nombre، etc.) dans le cadre des modèles de traduction factorisés. Il s’agit de traduire les lemmes d’une langue source vers une langue cible puis d’utiliser les informations dans un générateur de traductions permettant de retrouver la morphologie du mot dans la langue cible. Les auteurs ont rapporté que l’ajout de ces informations linguistiques a permis d’améliorer les résultats de l’approche standard. Carpuat et Wu (2007) ont aussi observé que l’intégration de la désambiguïsation sémantique en traduction statistique améliore les résultats. De même، Wu et Fung (2009) ont utilisé les rôles sémantiques pour améliorer la qualité des résultats d’un moteur de traduction fondé sur MOSES. Les auteurs ont obtenu un gain de 0.5 points du score BLEU pour la traduction chinois-anglais. Pour résumer، l’approche statistique bien que performante est aujourd’hui limitée parce qu’elle nécessite de gros volumes de corpus parallèles qui n’existent pas pour toutes les langues et toutes les spécialités et qui sont particulièrement coûteux à produire.

Page 3: Une approche hybride pour la traduction automatique anglais ...Cet article décrit une approche de traduction automatique basée sur la recherche d’information interlingue et ne

Cet article décrit une approche de traduction automatique basée sur la recherche d’information interlingue et ne nécessitant que la disponibilité d’un corpus de textes en langue cible. Nous décrivons dans la section 2 les principaux modules et étapes composant le processus de traduction utilisé dans notre approche. Nous présentons، ensuite، dans la section 3، les expériences que nous avons menées ainsi que les résultats obtenus. La section 4 conclut notre étude et présente nos travaux futurs.

Traduction automatique basée sur la recherche d’information interlingue

Notre approche de traduction automatique utilisant la recherche d’information interlingue consiste، d’une part، à construire une base de données de phrases en langue cible et considérer chaque phrase à traduire comme une requête en langue source à cette base، et d’autre part، à combiner les réponses fournies par le moteur de recherche interlingue avec le résultat du reformulateur bilingue en vue de générer la traduction de la requête. Le prototype WebCrossling implémentant notre approche de traduction est composé d’un moteur de recherche interlingue، d’un reformulateur lexical et syntaxique bilingue، et d’un générateur de traductions (Figure 1).

Figure 1 – Principaux composants du prototype de traduction WebCrossling.

Le prototype de traduction WebCrossling a été développé dans le cadre du projet ANR WEBCROSSLING initialement pour traduire des textes de l’anglais vers le français

Page 4: Une approche hybride pour la traduction automatique anglais ...Cet article décrit une approche de traduction automatique basée sur la recherche d’information interlingue et ne

Moteur de recherche interlingue

Le moteur de recherche interlingue utilisé dans notre approche de traduction (Semmar et al.، 2006) est composé de l’analyseur linguistique LIMA (Besançon et al.، 2010)، d’un analyseur statistique، d’un reformulateur et d’un comparateur :

1. L’analyseur linguistique permet d’identifier les mots présents dans la phrase requête et les phrases à indexer (mots simples ou composés)، de fournir leurs lemmes et leurs relations de dépendance syntaxique.

2. L’analyseur statistique consiste à attribuer un poids aux mots simples et aux mots composés sur l’ensemble des phrases indexées، selon le «degré d’information» qu’elles contiennent. Ce poids est lié à l’hétérogénéité de répartition du terme dans la base de données textuelle. Il sera maximum si le terme est complètement discriminant، c’est-à-dire s’il apparaît dans une seule phrase، et minimum s’il n’est pas discriminant et apparaît dans toutes les phrases.

3. Le reformulateur permet l’expansion de la phrase requête de l’utilisateur pendant la recherche. La reformulation consiste à inférer à partir des mots d’origine de la requête d’autres mots exprimant le même concept. La reformulation peut être monolingue (synonymie، etc.) ou bilingue en utilisant un dictionnaire de traduction. Le dictionnaire anglais-arabe utilisé par notre moteur de recherche est composé de 149 495 entrées qui peuvent être simples ou composés.

4. Le comparateur consiste à calculer la proximité sémantique entre la phrase requête et les phrases indexées à partir des mots communs (mots de l’intersection phrase requête/phrases indexées). Ce comparateur consiste، d’une part، à identifier les meilleures intersections، et d’autre part، à regrouper les intersections identiques et leur attribuer un poids (score). Le résultat est présenté sous la forme d’une liste de classes d’intersections triées par ordre de pertinence.

Le rôle du moteur de recherche est de retrouver pour chaque phrase (requête) en langue source l’ensemble des phrases (ou sous-phrases) qui lui correspondent en langue cible dans la base de données textuelle. Ces phrases (ou sous-phrases) sont représentées dans la base de données textuelle par les lemmes des mots qui les composent، leurs catégories grammaticales ainsi que leurs dépendances syntaxiques. Ces informations linguistiques sont produites à l’aide de l’analyse syntaxique (de la plate-forme LIMA) des phrases composant la base de données textuelle en langue cible. Chaque phrase (ou sous-phrase) est modélisée sous la forme d’un automate à états finis dans lequel les transitions correspondent aux lemmes des mots et leurs informations linguistiques (catégorie grammaticale، relation syntaxique، genre، nombre، temps، etc.).

Page 5: Une approche hybride pour la traduction automatique anglais ...Cet article décrit une approche de traduction automatique basée sur la recherche d’information interlingue et ne

Le tableau 2 illustre les deux meilleures phrases réponses retournées par le moteur de recherche interlingue pour notre phrase exemple.

Rang Score Phrase réponse

1 0.836 الصين تولي أهمية قصوى لمجابهة التغير المناخي.

2 0.037 ينبغي كذلك على البلدان المتقدمة إنجاز واجباتها طبقاً للمعاهدة بتقديم

الدعم المالي ونقل التقنيات لتمكين البلدان النامية من معالجة التغيرالمناخي بفعالية.

Table 1 – Phrases réponses en langue cible retournées par le moteur de recherche.

Reformulateur bilingue

Le reformulateur bilingue permet، d’une part، à appliquer un ensemble de règles de transformation syntaxique écrites à la main pour projeter la structure de la phrase à traduire de la langue source vers la langue cible (reformulation syntaxique)، et d’autre part، à remplacer les lemmes de cette phrase par leurs traductions issues du dictionnaire bilingue (reformulation lexicale). La figure 2 montre une des reformulations syntaxiques et lexicales possibles de l’anglais vers l’arabe de notre phrase exemple.

Figure 2 – Reformulation syntaxique et lexicale en langue cible de la phrase exemple.

Comme nous pouvons le constater، la reformulation syntaxique a permis le changement de la place de l’adjectif « great » et du nom « climate » et la reformulation lexicale a permis de récupérer à partir du dictionnaire bilingue anglais-arabe la traduction des lemmes « France »، « attach »، « great »، « importance »، « to »، « tackling »، « climate » et « change ».

Le reformulateur bilingue utilise un transducteur à états finis (Mohri et al.، 2002) pour la projection de la structure syntaxique de la phrase à traduire de la langue source vers la langue cible. Pour évaluer les différentes propositions de projection، nous avons entraîné

Page 6: Une approche hybride pour la traduction automatique anglais ...Cet article décrit une approche de traduction automatique basée sur la recherche d’information interlingue et ne

un modèle de langue à base de CRF (Kudo et Matsumoto، 2001) sur un corpus monolingue. Après cette évaluation، le reformulateur produit une collection de propositions de structures syntaxiques de la phrase source avec un ensemble de propositions de traduction. Ces propositions de traduction sont modélisées sous la forme d’automates à états finis semblables à ceux construits à partir des résultats du moteur de recherche interlingue. Ces automates peuvent être enrichis par d’autres informations complémentaires. Par exemple، lorsque nous avons le sujet d’un verbe، nous pouvons accorder le verbe suivant le sujet. Nous pouvons aussi enrichir ces automates avec des mots de liaison. Par exemple، nous ajoutons des déterminants et des prépositions lorsqu’elles peuvent être nécessaires. Dans notre cas، lorsque deux noms communs se suivent، nous ajoutons la possibilité dans le graphe d’une préposition seule، d’une préposition accompagnée d’un déterminant، la possibilité d’un déterminant seul et nous conservons la possibilité d’ignorer ces ajouts. Ces ajouts sont réalisés à l’aide de règles établies manuellement.

Après ces enrichissements، nous utilisons les CRF pour évaluer ces automates. Pour permettre cette évaluation، nous parcourons le graphe de chaque automate et mettons chaque chemin au format CRF et pour réduire le temps de traitement nous ne conservons que les 2000 meilleurs chemins. Nous avons choisi d’utiliser les CRF comme modèle de langue car، d’une part، nous pouvons évaluer les mots ou séquences de mots suivant le contexte gauche de la phrase mais aussi suivant le contexte droit، et d’autre part، la phase de l’évaluation est particulièrement rapide. Notons que lors du passage au format CRF، nous perdons les informations linguistiques. C’est pourquoi، une fois l’évaluation terminée، nous retournons au format d’automates à états finis qui nous permet de retrouver ces informations linguistiques.

Générateur de traductionsLe processus de génération de traductions se déroule en deux étapes :

1. La première étape consiste à assembler dans un treillis les automates à états finis modélisant les phrases (ou sous phrases) retournées par le moteur de recherche interlingue et les propositions de traduction produites par le reformulateur bilingue. Pour trouver les lemmes de la meilleure hypothèse de traduction à partir de ce treillis، nous avons utilisé un modèle de langue à base de CRF qui a été entraîné sur un corpus monolingue lemmatisé en langue cible. La lemmatisation de ce corpus a été réalisée à l’aide de la plate-forme LIMA. La figure 3 décrit une partie simplifiée du treillis des hypothèses de traduction de notre phrase exemple. Les deux premières hypothèses de traduction sont produites par le reformulateur bilingue tandis que la dernière est retournée par le moteur de recherche interlingue.

Page 7: Une approche hybride pour la traduction automatique anglais ...Cet article décrit une approche de traduction automatique basée sur la recherche d’information interlingue et ne

Figure 3 – Partie simplifiée du treillis des hypothèses de traduction.

1. La deuxième étape permet d’obtenir les formes fléchies des lemmes des mots de la meilleure hypothèse de traduction en utilisant les informations linguistiques (genre، nombre ou temps pour les verbes) fournies par la plate-forme LIMA lors de la recherche interlingue et la reformulation bilingue. Généralement، nous obtenons plusieurs formes fléchies pour un lemme. Pour choisir la meilleure forme fléchie، nous utilisons un modèle de langue à base de CRF qui a été au préalable entraîné sur un corpus monolingue de mots en formes fléchies. Cette évaluation finale permet de fournir les bonnes formes fléchies pour chaque lemme mais aussi les meilleures traductions de la phrase source en langue cible.

Notons que dans les deux étapes précédentes، le graphe des lemmes et le graphe des formes fléchies ont été transformés au format CRF pour être évalués par les deux modèles de langue appris respectivement sur des lemmes et des formes fléchies. Le tableau 2 présente les deux meilleures traductions générées par le prototype WebCrossling.

Résultats expérimentaux et évaluation

Pour calculer la performance de notre approche de traduction et la comparer avec celle du système de traduction statistique de l’état de l’art MOSES، nous avons mené nos expérimentations en utilisant les outils، les données et le protocole de la campagne d’évaluation MEDAR. Le corpus utilisé pour l’apprentissage des modèles de traduction et de langue du système MOSES est composé de 75 000 paires de phrases anglais-arabe extraites des données MEDAR et la base de données textuelle en langue cible de notre moteur de traduction a été créée en utilisant les mêmes 75 000 phrases en arabe. Le texte arabe du corpus d’apprentissage du système MOSES a été segmenté à l’aide de la boîte à

Page 8: Une approche hybride pour la traduction automatique anglais ...Cet article décrit une approche de traduction automatique basée sur la recherche d’information interlingue et ne

outils AMIRA et le texte anglais a été segmenté en utilisant OpenNLP. La performance des systèmes de traduction WebCrossling et MOSES est évaluée à l’aide du score BLEU sur un texte à traduire composé de 500 phrases en anglais. Pour chaque phrase du texte à traduire، nous avons pris en compte une seule traduction de référence. Les résultats en termes de score BLEU sont regroupés dans le tableau 3 (Table 3).

Système de traduction BLEU

WebCrossling 11،3

MOSES 5،7

Table 3 – Résultats de traduction en termes de score BLEU.Ces résultats montrent que le score BLEU de notre prototype de traduction dépasse celui du système MOSES de 5،6 points. Pour confirmer que cette différence en score BLEU correspond à une amélioration de la qualité de la traduction، nous avons effectué une évaluation manuelle de la qualité de traduction d’une centaine de phrases. A titre d’exemple، le tableau ci-dessous (Table 4) illustre les meilleures traductions proposées par le prototype WebCrossling et le système MOSES pour la phrase anglaise « The global financial crisis has undoubtedly exacerbated the challenge of climate change. ».

Traduction de référence إن األزمة المالية العالمية قد فاقمت بال شك من تحدي التغير المناخي.

WebCrossling فاقمت األزمة المالية العالمية َحقًّا التحدي من تغير مناخ.

MOSES global األزمة المالية فاقمت بال شك تحدي التغير المناخي.

Table 4 – Traductions proposées par WebCrossling et MOSES pour la phrase « The global financial crisis has undoubtedly exacerbated the challenge of climate change. ».

Nous avons analysé les résultats de traduction et nous avons constaté que la plupart des erreurs du système MOSES sont dues au contenu de la table de traduction. C’est le cas par exemple du mot « global » qui n’a pas pu être traduit، alors que le prototype de traduction WebCrossling a trouvé pour tous les mots de la phrase à traduire des traductions dans son dictionnaire bilingue anglais-arabe. Parmi les cinq traductions du mot « undoubtedly » trouvées dans le dictionnaire bilingue (،ـة، بَتَاتًــا، البتــة ـا، بَتَـّ WebCrossling a choisi ،(فِْعــاًل َحقًـّla meilleure (ـا Nous avons aussi constaté que WebCrossling a réussi à traduire le .(َحقًـّmot composé « global financial crisis » par le mot composé « أزمــة ماليــة عالميــة » et le mot composé « climate change » par le mot composé « تغيــر منــاخ ».

La procédure utilisée pour traduire les mots composés consiste à utiliser un ensemble de règles de reformulation syntaxique conjointement avec le dictionnaire bilingue. Cette procédure se déroule en deux étapes :

1. La première étape concerne l’extraction des mots composés en utilisant la plate-forme d’analyse linguistique LIMA. Cette étape، consiste d’une part، à découper en

Page 9: Une approche hybride pour la traduction automatique anglais ...Cet article décrit une approche de traduction automatique basée sur la recherche d’information interlingue et ne

chaînes nominales et verbales la phrase à traduire à l’aide d’une analyse en dépendance syntaxique، et d’autre part، à extraire les mots composés en utilisant des patrons morpho-syntaxiques.

1. La deuxième étape consiste à générer une liste de mots composés candidats en langue cible pour chacun des mots composés en langue source en utilisant، d’une part، les traductions fournies par le dictionnaire bilingue، et d’autre part، en appliquant un ensemble de règles de reformulation bilingue construites manuellement comme celles utilisées en traduction compositionnelle (Grefenstette، 1999) (Ozdowska et al.، 2005) (Daille، Morin، 2008).

Par exemple، pour le mot composé « climate change »، sa traduction en langue cible se déroule selon les deux étapes suivantes :

– L’analyse en dépendance syntaxique de la phrase à traduire à l’aide de la plate-forme LIMA a identifié « climate change » comme mot composé.– L’application de la règle de reformulation Traduction(A.B) = Traduction(B).Traduction(A) permet de traduire le mot composé «climate change» comme suit:

Traduction (climate.change) = Traduction(change).Traduction(climate) = تغيــر.مناخ

Les règles de reformulation de la première étape s’appuient sur des patrons morpho-syntaxiques pour projeter les structures syntaxiques des syntagmes nominaux de la langue source vers la langue cible. Dans notre exemple، le patron utilisé permet de projeter la structure NC.NC (Nom Commun « suivi de » Nom Commun) de l’anglais vers la structure NC.NC (Nom Commun « suivi de » Nom Commun) de l’arabe. Nous avons construit manuellement une douzaine de règles de reformulation en s’inspirant des travaux de (Guidère، 2005) concernant les équivalences locales des syntagmes nominaux.

Comme nous pouvons le constater، les mots composés en langue cible sont le résultat de la traduction mot à mot des mots composés de la langue source. Par ailleurs، le résultat de la traduction du mot composé « climate change » n’est pas grammaticalement correct dans le contexte de la phrase puisqu’il fallait soit ajouter le déterminant « ال » au deuxième composant pour avoir le mot composé « المنــاخ ou bien ajouter ce déterminant « تغيــر aux deux composants accompagné d’une transformation syntaxique pour avoir le mot composé « المناخــي Notons que pour traduire le mot composé « global financial .« التغيــر crisis »، le reformulateur bilingue a jouté le déterminant « ال » aux traductions des trois mots : « global »، « financial » et « crisis ». Cet ajout est déclenché suite à la présence de l’article défini « The » en début de ce mot composé. Cet exemple montre que le système MOSES utilise les données issues du corpus d’apprentissage، d’une part، pour trouver les traductions des mots de la phrase source (« crisis » traduit par « األزمــة »، « financial » traduit par « الماليــة »، « undoubtedly » traduit par « بــال شــك »، etc.)، et d’autre part، pour réordonner les mots traduits pour avoir une phrase conforme au modèle de langue (le verbe « فاقمــت » traduction du verbe « has exacerbated » vient après le mot composé sujet traduction du mot composé « financial crisis »). A l’opposé، le prototype « األزمــة الماليــة »

Page 10: Une approche hybride pour la traduction automatique anglais ...Cet article décrit une approche de traduction automatique basée sur la recherche d’information interlingue et ne

WebCrossling privilégie son dictionnaire bilingue pour traduire les mots de la phrase source (« undoubtedly » a été traduit par « ـا et ses règles de (« بــال شــك » au lieu de « َحقًـّtransformation syntaxique pour trouver une structure grammaticalement correcte de la phrase traduction (le verbe « فاقمــت » traduction du verbe « has exacerbated » vient avant le mot composé sujet « األزمــة الماليــة العالميــة» traduction du mot composé « global financial crisis »). La structure grammaticale proposée par WebCrossling pour la phrase traduction est plus utilisée en langue arabe que celle proposée par MOSES mais cette dernière reste tout de même grammaticalement correcte.

Conclusion

Les résultats encourageants obtenus par le prototype de traduction WebCrossling pour le couple de langues anglais-arabe montrent l’intérêt de l’approche utilisée et nous incite à ajouter et évaluer d’autres couples de langues peu dotées en corpus parallèles. Les approches d’alignement de mots à partir de corpus comparables constituent une piste pour la production de ressources linguistiques multilingues qui permettra l’ajout de ces couples de langues à des frais raisonnables. Nos travaux futurs s’orientent, d’une part, vers une évaluation à une large échelle de notre prototype de traduction en récupérant à partir du Web de gros volumes de corpus et en les indexant dans le but d’obtenir un modèle de langue représentatif de la langue cible, et d’autre part, vers l’amélioration de la qualité de la traduction en développant d’autres règles de projection syntaxique et en enrichissant d’avantage le dictionnaires bilingue.

Page 11: Une approche hybride pour la traduction automatique anglais ...Cet article décrit une approche de traduction automatique basée sur la recherche d’information interlingue et ne

Références

Besançon R., De chalendar G., Ferret O., Gara F., Laib M., Mesnard O., Semmar N. LIMA: A multilingual framework for linguistic analysis and linguistic resources development and evaluation. Proceedings of LREC 2010.

Bilmes J.، Kirchhoff K. Factored Language Models and Generalized Parallel Backoff. Proceedings of HLT/NAACL 2003.

Carpuat M.، Wu D. Improving statistical machine translation using word sense disambiguation. Proceedings of EMNLP-CoNLL 2007.

Daille B.، Morin E. Effective Compositional Model for Lexical Alignment. Proceedings of the Third International Joint Conference on Natural Language Processing, IJCNLP 2008.

Grefenstette G. The World Wide Web as a Resource for Example-Based Machine Translation Tasks. Proceedings of the Translating and the Computer 21 Conference, 1999.

Guidère M. La traduction arabe : Méthodes et applications – De la traduction à la traductique. Editions Ellipses, p. 139–151, 2005.

Hutchins J. (2003). Machine Translation: General Overview. Ruslan (ed.), The Oxford Handbook of Computational Linguistics (Oxford: University Press, 2003), 501-511.

Koehn P.، Haddow B.، Williams P.، Hoang H. More Linguistic Annotation for Statistical Machine Translation. Proceedings of the Fifth Workshop on Statistical Machine Translation and Metrics MATR.

Koehn P. Statistical Machine Translation. Cambridge University Press, 2010.

Kudo T.، Matsumoto Y. Chunking with support vector machines. Proceedings of Meeting of the North American chapter of the Association for Computational Linguistics (NAACL), USA, 2001.

Mohri M.، Pereira F.، Riley M. Weighted Finite-State Transducers in Speech Recognition. Computer Speech and Language, 16(1):69-88, 2002.

Ozdowska S.، Névéol A.، Thirion B. Traduction compositionnelle automatique de bitermes dans des corpus anglais/français alignés. Actes de la conférence TIA-2005.

Schwenk D.، Déchelotte H.، Bonneau-Maynard H.، Allauzen A. Modèles statistiques enrichis par la syntaxe pour la traduction automatique. Actes de TALN 2007.

Semmar N.، Laib M.، Fluhr C. A Deep Linguistic Analysis for Cross-language Information Retrieval. Proceedings of LREC, 2006.

Page 12: Une approche hybride pour la traduction automatique anglais ...Cet article décrit une approche de traduction automatique basée sur la recherche d’information interlingue et ne

Semmar N.، Servan C.، Bouamor D.، Jaoua A. Using Cross-Language Information Retrieval for Machine Translation. Proceedings of the 5th Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics November 25-27, 2011, Poznań, Poland.

Somers H. Machine Translation: Latest Developments. Ruslan (ed.), The Oxford Handbook of Computational Linguistics, Oxford: University Press, 2003.

Trujillo A. Translation Engines: Techniques for Machine Translation. In Applied Computing, Springer, 1999.

Wu D.، Fung P. Semantic Roles for SMT: A Hybrid Two-Pass Model. Proceedings of NAACL HLT, 2009.