M©thodes Mixtes pour la Traduction Automatique Statistique

Université STENDHALGrenoble3

Méthodes Mixtes pour la Traduction Automatique Statistique

Mémoire de Master 2

Mention Science du Langage,

Spécialité Modélisation et traitements automatique en

Industries De la Langue : parole, écrit, apprentissage

Orientation Recherche

Réalisé par

Atef Ben Youssef

Soutenu le

01 juillet 2008

Responsable externe

Laurent Besacier

Hervé Blanchon

Responsable interne

Georges Antoniadis

Membres du jury

Olivier Kraif

Georges Antoniadis

Laurent Besacier

Hervé Blanchon

Laboratoire d’informatique de Grenoble

Équipe GETALP

/Remerciements

- 2 -

Résumé

Le domaine du traitement automatique des langues naturelles a connu une révolution

majeure ces dernières années dans la traduction automatique et de l’autre côté, les besoins en

matière de traducteurs automatiques fiables augmentent sans cesse. De ce fait, nous nous

sommes intéressés à ce domaine afin de concevoir un traducteur automatique basé sur un modèle

statistique.

Ce travail présente une amélioration d’un système de traduction automatique statistique

par des modèles factoriels, c'est-à-dire qu’on l’entraîne avec des données enrichies par des

informations morphosyntaxiques. Pour ce faire, on présente les outils utilisés pour enrichir nos

corpus. On propose aussi une approche utilisée pour réaliser un étiqueteur sur le type de corpus

oraux (IWSLT). On présente également le modèle de traduction statistique capable de tenir

compte de telles informations. On présente finalement des analyses qualitatives et quantitatives

des expériences réalisées qui montrent de premiers résultats encourageants.

Mot-clé

Traduction Automatique Statistique; Modèle de langage ; Modèles de traduction;

Etiquetage ; Partie du discours

Abstract

Machine Translation witnessed a major revolution in the area of natural language

processing and the needs for reliable automatic translators increase. Therefore, we were

interested to this domain to design an automatic translator based on statistical models.

This work presents an improvement of a statistical machine translation with morph-

syntactic information. For this reason, we present the tools used to enrich our corpus. We

propose an approach to product a POS Tagger. We present also the statistical machine translation

able to account for corpus like that of such information. Finally, we present a qualitative and

quantitative analyses of the different experiences that show the first encouraging results.

Key word

Statistical machine translation; language model; translation model; Part of Speech Tagger

/Remerciements

- 3 -

Remerciements

J’ai une vive dette envers tous ceux qui m’ont aidé à rassembler les faits qui constituent

l’indispensable fondation de ce travail. Je remercie tout particulièrement :

Mr. Laurent BESACIER et Mr Hervé BLANCHON, de m’avoir accueilli au sein du

GETALP (LIG), et d’offrir ainsi la possibilité de travailler dans un laboratoire de linguistique

informatique de renommée mondiale. Ils ont toujours été disponibles, malgré de nombreuses

occupations, pour m’aider dans mon travail par leurs précieux conseils qui m’ont été d’une

grande aide au cours de ce mémoire. Qu’ils trouvent ici le témoignage de toute mon

reconnaissance et mon profond respect.

Mr. George ANTONIADIS mon encadreur à l’université Stendhal – Grenoble3 pour

l’intérêt qu’il m’a manifesté. Qu’il trouve ici l’expression de ma profonde gratitude.

Mes enseignants pour la qualité de l’enseignement qu’ils m’ont disposé durant mes

études, surtout monsieur Olivier KRAIF qui m’a fait l’honneur d’accepter la tâche d’être rapporteur.

Mes amis : Ammar Mahdhaoui, Mourad Mars, Mohamed Belgacem, Mohamed

Bouallegue … pour leur amabilité et leur soutien. Je remercie également mon ami de bureau

Najeh Hajlaoui.

Par la même occasion, je tiens à remercier infiniment tous les membres de l’équipe

GETALP qui m’ont accueilli de manière très chaleureuse.

Enfin, je garde une place toute particulière à mon père Habib qui est toujours à mes

cotés, à ma tendre et affectueuse mère Naziha pour tout l’amour qu’elle me donne, à mes chers

frères Jihed, Nizar, Mourad et son épouse Wided et sa petite Wijden, à ma sœur Hanen et à la

grande famille BEN YOUSSEF. En exprimant toutes mes reconnaissances pour leurs sacrifices,

leurs patiences compréhensives et leurs encouragements au-delà de toutes limites.

.

Atef

/Remerciements

- 4 -

Table des matières

Remerciements

Liste de figures .................................................................................................................... 6

Introduction ......................................................................................................................... 7

Chapitre 1. Etude bibliographique ....................................................................................... 8

Introduction ..................................................................................................................... 8

1.1. Langue arabe ............................................................................................................ 8

1.1.1. Morphologie arabe ............................................................................................. 9

1.1.1.1. Structure d’un mot ...................................................................................... 9

1.1.1.2. Catégories des mots .................................................................................. 10

a) Les verbes ................................................................................................... 10

b) Les noms .................................................................................................... 10

c) Les adjectifs ................................................................................................ 11

d) Les particules .............................................................................................. 12

1.1.2. Problèmes du traitement automatique de l’arabe ............................................ 12

1.1.2.1. Segmentation des phrases ......................................................................... 13

1.1.2.2. Détection de racine ................................................................................... 13

1.2. Etude théorique de la Traduction Statistique .......................................................... 15

1.2.1. Modèle de langue (LM) ................................................................................... 18

1.2.1.1. Modèles n-grammes ................................................................................. 18

1.2.1.2. Modèles n-classes ..................................................................................... 19

1.2.2. Modèles de traduction ..................................................................................... 20

1.2.2.1. Notion d’alignement ................................................................................. 20

1.2.2.2. Les modèles «IBM» ................................................................................. 20

a) Modèle de traduction probabiliste IBM1 ................................................... 20

b) Modèle de traduction probabiliste IBM2 ................................................... 20

c) Modèle de traduction probabiliste IBM3 ................................................... 21

d) Modèles de traduction probabiliste IBM4 et IBM5 ................................... 21

1.2.3. Décodage ......................................................................................................... 21

1.2.4. Tuning: Réglage des paramètres par minimisation du taux d’erreur (minimum-

error-rate-training) ................................................................................................................. 22

1.2.5. Systèmes fondés sur des séquences de mots : phrase-based approach ............ 22

Conclusion ..................................................................................................................... 24

Chapitre 2. Mes contributions ........................................................................................... 25

Introduction ................................................................................................................... 25

2.1. Etiquetage morphosyntaxique (POS Tagger) ......................................................... 25

2.1.1. Etude de l’existant ........................................................................................... 25

2.1.1.1. TreeTagger ............................................................................................... 26

a) Description ................................................................................................. 26

b) Etiquetage ................................................................................................... 26

c) Evaluation ................................................................................................... 27

2.1.1.2. ASVM : Etiqueteur de Columbia University ........................................... 27

a) Description ................................................................................................. 27

// Liste de figures

- 5 -

b) Etiquetage ................................................................................................... 28

c) Evaluation ................................................................................................... 28

2.1.2. Approche utilisé pour construire notre propre étiqueteur arabe ...................... 29

2.1.2.1. Correction manuelle ................................................................................. 29

2.1.2.2. Apprentissage ........................................................................................... 30

2.1.2.3. Etiquetage ................................................................................................. 30

2.1.2.4. Evaluation de notre étiqueteur .................................................................. 31

2.2. Enrichissement de l'information lexicale................................................................ 31

2.2.1. Ajout des étiquettes (POS) dans le cadre de modèles factoriels...................... 31

2.2.2. Principe d’utilisation des étiquettes dans les modèles factoriels ..................... 32

2.2.3. Les différentes stratégies testées ..................................................................... 32

2.3. Conditions expérimentales et outils ........................................................................ 33

2.3.1. Bitexte .............................................................................................................. 33

2.3.2. Préparation des données .................................................................................. 34

2.3.3. Boite à outil de traduction probabiliste utilisée ............................................... 36

2.3.4. L’alignement automatique (GIZA++) ............................................................. 36

Amélioration avec les étiquettes syntaxiques sous forme factorisée ..................... 37

2.3.5. Le décodage (Moses) ....................................................................................... 37

2.3.5.1. Modèle ...................................................................................................... 37

2.3.5.1. Méthodes d'apprentissage pour la traduction de phrase ........................... 38

2.3.5.2. Stratégie de recherche ............................................................................... 38

2.3.5.3. Evaluation (outils de scoring NIST) ......................................................... 38

2.4. Expériences et résultats .......................................................................................... 39

2.4.1. Les étapes de réalisation .................................................................................. 39

2.4.1.1. Nettoyage / Alignement de corpus parallèles anglais / arabe ................... 39

2.4.1.2. Développement du système état de l’art et son amélioration ................... 39

2.4.1.3. Utiliser les étiquettes syntaxiques sous forme factorisée ......................... 40

2.4.2. Résultats .......................................................................................................... 41

2.4.2.1. Amélioration des sorties du système de traduction : analyse qualitative . 41

2.4.2.2. Amélioration des sorties du système de traduction : analyse quantitative42

Conclusion ..................................................................................................................... 43

Chapitre 3. Conclusion ...................................................................................................... 44

3.1. Bilan d’étude .......................................................................................................... 44

3.2. Bilan personnel ....................................................................................................... 45

Bibliographie ..................................................................................................................... 46

Annexe ............................................................................................................................... 49

// Liste de figures

- 6 -

Liste de figures

Figure 1 : Le triangle dit « de Vauquois » pour la traduction ....................................................... 15

Figure 2 : Exemple d’alignement entre deux phrases ................................................................... 20

Figure 3 : Exemple d’alignement autorisé par les modèles IBM-2 à IBM-5 ................................ 21

Figure 4 : Alignement par séquences de mots autorisé par la plupart des modèles ...................... 23

Figure 5 : un vecteur de facteurs qui représentent différents niveaux d'annotation ...................... 32

Figure 6 : exemple d’un modèle factoriel ..................................................................................... 32

Figure 7 : en-ar-int-train.snt : illustration du format de corpus généré, cet extrait contient 3 paires

de phrases. ..................................................................................................................................... 35

Figure 8 : Machine de traduction automatique statistique Arabe/Anglais .................................... 36

Figure 9 : bitexte étiqueté aligné par phrase.................................................................................. 39

Figure 10 : schéma représente l’alignement des mots avec les lemmes et l’alignement des

catégories ....................................................................................................................................... 40

Figure 11 : schéma représente l’alignement des mots avec les mots et les lemmes et l’alignement

des catégories ................................................................................................................................ 40

Figure 12 : exemples de table de traduction d’un modèle classique (non factoriel) ..................... 42

Figure 13 : exemples de table de traduction d’un modèle factoriel .............................................. 42

Figure 14 : le score BLEU obtenue sur les différents modèles testés ........................................... 42

Introduction

- 7 -

Introduction

Le multilinguisme est au cœur des enjeux actuels concernant les échanges culturels et

économiques qui sont désormais mondialisés. Ainsi, les individus sont de plus en plus amenés à

évoluer dans des environnements multilingues, comme le montrent certaines tendances récentes

du monde et de la société : importance croissante d’organisations internationales ou

transnationales, augmentation des échanges culturels et des voyages, regain d’intérêt pour les

langues régionales qui cohabitent désormais avec les langues nationales.

Le développement de services et d’interfaces adaptés à ce contexte peut donner lieu à de

nouveaux problèmes dans le domaine de traduction automatique. En ce qui concerne la

communication homme / homme médiatisée par la machine, les recherches en traduction

automatique de parole sont centrales. Pour illustrer cela, on peut notamment citer les projets

CSTAR1 et NESPOLE

2 de traduction automatique dans lesquels le laboratoire LIG a été

impliqué.

Notre volonté est d’aller au delà des méthodes purement statistiques utilisées

actuellement en reconnaissance automatique de la parole ou en traduction automatique qui, bien

qu’ayant montré leur efficacité dans le domaine, montrent également leurs limites.

Notre travail s’intéresse essentiellement aux systèmes probabilistes (Statistical Machine

Translation : SMT). La SMT repose essentiellement sur l’apprentissage de paramètres de

différents modèles à partir d’une grande quantité de textes bilingues (corpus d’entraînement).

Les modèles classiques ne prennent en compte que les mots eux-mêmes. Par contre, les modèles

factoriels s’intéressent à leur sens et à leur catégorie morphosyntaxique.

Pour utiliser ces modèles factoriels, on s’intéresse en premier lieu à l’étiquetage de

chaque mot des phrases source et cible avec la classe morphosyntaxique (POS) des occurrences

dans le but d’aller vers des systèmes statistiques qui ne se contentent pas de manipuler

uniquement des suites de mots mais des mots qui sont de plus en plus riches pour améliorer les

résultats de la traduction automatique.

Notre travail porte sur le développement d’un traducteur de parole automatique statistique de

l’arabe vers l’anglais. Vu la particularité de notre langue source, nous commençons, dans la première

partie, par la présentation des caractéristiques morphologiques de la langue arabe avec une étude

théorique de la traduction statistique. Dans la deuxième partie, nous nous intéressons à l’amélioration

du système état de l’art en expliquant en premier lieu l’existant des étiqueteurs utilisés comme

TreeTagger et l’étiqueteur de l’université de Columbia. Nous décrivons aussi l’approche suivie pour

construire un étiqueteur arabe pour le type de corpus oraux sur lesquels nous travaillons. En

deuxième lieu, nous enrichissons les données avec les POS en expliquant le principe d’utilisation de

ces derniers dans les modèles factoriels, ainsi que les différentes stratégies testées. Puis, nous

présentons les outils « open source » utilisés pour développer notre système de traduction statistique

en décrivant les conditions expérimentales et les résultats préliminaires trouvés. Enfin, nous

terminons ce travail par une conclusion.

1 http://www.c-star.org/

2 http://nespole.itc.it/

Etude bibliographique

- 8 -

Chapitre 1. Etude bibliographique

Introduction

Avec la diffusion de la langue arabe sur le Web et la disponibilité des moyens de

manipulation de textes arabes, les travaux de recherche ont abordé des aspects plus variés

comme la syntaxe, la traduction automatique, l'indexation automatique des documents, la

recherche d'information, etc.

Au cours de ce chapitre, nous présenterons certaines propriétés morphologiques et

syntaxiques de la langue arabe, ainsi que quelques problèmes du traitement automatique de

l'arabe. Ensuite, nous exposons une brève étude théorique sur la traduction automatique

statistique.

1.1. Langue arabe

La langue arabe est considérée comme une langue difficile à maîtriser dans le domaine du

traitement automatique de la langue. L'arabe doit sa formidable expansion à partir du 7ième

siècle

à la propagation de l'islam et à la diffusion du Coran. Les recherches sur le traitement

automatique de l'arabe ont débuté vers les années 1970. Les premiers travaux concernaient

notamment les lexiques et la morphologie.

A la différence des autres langues comme le français ou l’anglais, dont les étiquettes

grammaticales proviennent d’une approche distributionnelle caractérisée par une volonté

"d’écarter toute considération relative au sens", les étiquettes de l’arabe viennent d’une

approche où le sémantique côtoie le formel lié à la morphologie du mot, sans référence à la

position de ce dernier dans la phrase [Débili F., Achour H., Souici E, 2002].

Ce phénomène se manifeste par les notions de schèmes et de fonctions qui occupent une

place importante dans la grammaire de l'arabe.

Par exemple la forme graphique du mot français ferme est, hors contexte, un substantif,

un adjectif, un adverbe ou un verbe. Alors que le mot arabe voyellé غكغ est un verbe à la 3 غième

personne masculin singulier de l’accompli actif, par contre sa forme non voyellée ك admet

quatre interprétations grammaticales :

Substantif masculin singulier.

Verbe à la 3ième

personne masculin singulier de l’accompli actif.

Verbe à la 3ième

personne masculin singulier de l’accompli.

Verbe à l’impératif 2ième

personne masculin singulier.

Les voyelles jouent un rôle proche des accents en français pour un mot comme peche qui

peut être interprété comme pêche, pèche et péché. Par contre, en arabe chaque lettre de chaque

mot devrait posséder sa voyelle courte ce qui n’est en général pas le cas dans les textes écrits que

l’on rencontre.

On constate donc l'étendue du rôle que jouent les voyelles courtes dans les mots arabes,

non seulement parce qu'elles enlèvent l'ambiguïté, mais aussi parce qu’elles donnent l’étiquette

grammaticale d'un mot indépendamment de sa position dans la phrase.


- 9 -

1.1.1. Morphologie arabe

Le lexique arabe comprend trois catégories de mots : verbes, noms, adjectifs et particules.

Les verbes et les noms sont le plus souvent dérivés d’une racine trilitère ou quadrilatère. Une

famille de mots peut être générée à partir d'un même concept sémantique d’une seule racine à

l'aide de différents schèmes. Ce phénomène est caractéristique de la morphologie arabe. On dit

donc que l’arabe est une langue à racines réelles à partir desquelles on déduit le lexique arabe

selon des schèmes qui sont des adjonctions de voyelles et des manipulations de la racine. Le

tableau suivant donne quelques exemples de schèmes appliqués au mot ح « Hml : porter ».

On peut ainsi dériver un grand nombre de noms, de formes et de temps verbaux.

Racine : notion de « porter » فعل « Hml» حملPorteur فبع ب « Hamilon»حغa porté فغع غ غ « Hamala » حغBrancard فع غ « maHmalon »غa été porté غ فع غ « Homila » ح

Tableau 1 : Schèmes de dérivés du mot حمل « Hml ».

La majorité des verbes arabes ont une racine composée de 3 consonnes. L'arabe

comprend environ 150 schèmes ou patrons dont certains plus complexes, tel le redoublement

d'une consonne ou l'allongement d'une voyelle de la racine, l’adjonction d'un ou de plusieurs

éléments ou la combinaison des deux. Une autre caractéristique est le caractère flexionnel des

mots : les terminaisons permettent de distinguer le mode des verbes et la fonction des noms.

1.1.1.1. Structure d’un mot

En arabe un mot peut signifier toute une phrase grâce à sa structure composée qui est une

agglutination de « morphes » (racines, préfixes, affixes, suffixes, schèmes). La représentation

suivante schématise une structure possible d’un mot. Notons que la lecture et l'écriture d'un mot

se fait de droite vers la gauche.

Post fixe Suffixe Corps schématique Préfixe Antéfixe

Les antéfixes sont des prépositions ou des conjonctions.

Les préfixes et les suffixes expriment les traits grammaticaux et indiquent les fonctions:

cas du nom, mode du verbe et autres catégories d’actualisation (nombre, genre,

personne,…)

Les post fixes sont des pronoms personnels.

Exemple:

غب وشغ « Atatadhakkaronana » أغرغزغزغCe mot exprime la phrase en français : "Est ce que vous vous souvenez de nous ?″

La segmentation de ce mot donne les constituants suivants :

"na" غب | "ona" غ | "tadhakkar" وش أغ "A" | دغ "ta" | رغزغ

Antéfixe : conjonction d’interrogation أ

Préfixe : préfixe verbal du temps de l’inaccompli د

Corps schématique : :dérivé de la racine رزوش selon le schème روش رفع

Suffixe : suffixe verbal exprimant le pluriel

Post fixe : pronom suffixe complément du nom ب


- 10 -

1.1.1.2. Catégories des mots

L’arabe considère les catégories de mots suivants

Le verbe : entité exprimant un sens dépendant du temps, c’est un élément

fondamental auquel se rattachent directement ou indirectement les divers mots qui

constituent l’ensemble.

Le nom : l’élément désignant un être ou un objet qui exprime un sens

indépendamment du temps.

L’adjectif : entité se place toujours après le nom qu’il qualifie. Il s’accorde en genre

et en nombre avec lui ; les règles de formation de féminin et de pluriel des adjectifs

sont les mêmes que celles des noms.

Les particules : entités qui servent à situer les événements et les objets par rapport au

temps et l'espace, et permettent un enchaînement cohérent du texte.

a) Les verbes

La plupart des mots en arabe, dérivent d'un verbe de trois lettres. Chaque verbe est donc

la racine d'une famille de mots. Comme en français, le mot en arabe se déduit de la racine en

rajoutant des suffixes ou des préfixes.

La conjugaison des verbes dépend de plusieurs facteurs :

Le temps (accompli, inaccompli).

Le nombre du sujet (singulier, duel, pluriel).

Le genre du sujet (masculin, féminin).

La personne (première, deuxième et troisième)

Le mode (actif, passif).

Exemple:

.(écrire) وزت donne le verbe ة+ د +ک

Dans tous les mots qui dérivent de cette racine, on trouvera ces trois lettres. La

conjugaison des verbes se fait en ajoutant des préfixes et des suffixes, un peu comme en français.

La langue arabe dispose de trois temps :

• L'accompli : il correspond au passé et se distingue par des suffixes (par exemple pour

le pluriel féminin on a وزج, elles ont écrit et pour le pluriel masculin on a وزجا ils ont écrit.

• L'inaccompli présent: présente l'action en cours d'accomplissement, ses éléments sont

préfixés ىزت il écrit; رىزت, elle écrit.

• L'inaccompli futur : correspond à une action qui se déroulera au futur et est marqué par

l'antéposition de س ou سف au verbe سىزت il écrira, .il va écrire ىزت سف

b) Les noms

Les substantifs arabes sont de deux catégories, ceux qui sont dérivés de la racine verbale

et ceux qui ne le sont pas comme les noms propres et les noms communs.

Dans le premier cas, par le fait que le nom est dérivé d'un verbe, celui-ci exprime une

certaine sémantique qui pourrait avoir une influence dans la sélection des phrases saillantes d'un

texte pour le résumé.


- 11 -

La déclinaison des noms se fait selon les règles suivantes:

• Le féminin singulier : on ajoute le ح, exemple صغش petit devient صغشح petite

• Le féminin pluriel : de la même manière, on rajoute pour le pluriel les deux lettres اد,

exemple صغش petit devient صغشاد petites

• Le masculin pluriel : pour le pluriel masculin on rajoute les deux lettres ou en

fonction de la position du mot dans la phrase (sujet ou complément d’objet),

Exemple : revenant devient اشاجع .revenants اشاجع ou اشاجع

• Le pluriel irrégulier : il suit une diversité de règles complexes et dépend du nom ;

exemple : طف un enfant devient des enfants. Le phénomène du pluriel irrégulier dans أطفبي

l'arabe pose un défi à la morphologie, non seulement à cause de sa nature non concaténative,

mais aussi parce que son analyse dépend fortement de la structure comme pour les verbes

irréguliers.

Certains dérivés nominaux associent une fonction au nom :

Agent (celui qui fait l’action),

Objet (celui qui a subit l’action),

Instrument (désignant l’instrument de l’action),

Lieu.

Pour les pronoms personnels, le sujet est inclus dans le verbe conjugué. Il n'est donc pas

nécessaire (comme c'est le cas en français) de faire précéder le verbe conjugué par son pronom.

On distinguera entre singulier, duel (deux) et pluriel (plus de deux) ainsi qu'entre le masculin et

le féminin.

c) Les adjectifs

Un adjectif s'accorde au nom en détermination. Donc si le nom qu'il qualifie est

déterminé, il devra être déterminé de la même manière.

Exemple :

Pour qualifier une .(el-radjul el-yamin, l'homme juste, l'homme qui est juste) اشج ا

personne de juste, on peut également employer l'adjectif عبدي.

De même pour le féminin, الإشأح اخ (el-'imra el-yaminah, la femme juste, la femme

qui est juste).

De plus, on trouve à côté de l’adjectif l'annexion. C’est quand un nom est suivi de son

complément, on dit que les deux termes sont en annexion. Dans ce cas, deux points sont à

observer :

1. Le premier terme ne peut être défini par l'article اي. Il l'est par son complément.

2. Rien ne doit séparer un nom de son complément. Si on doit qualifier le nom, l'adjectif

se met après le complément.

Exemple :

Pour "le grand bateau de la princesse", on dira :

« markab alamira alkabir »شوت الأشح اىجش


- 12 -

d) Les particules

Ce sont principalement les mots outils comme les conjonctions de coordination et de

subordination.

Les particules sont classées selon leur sémantique et leur fonction dans la phrase, on en

distingue plusieurs types (introduction, explication, conséquence). Elles jouent un rôle important

dans l’interprétation de la phrase. Elles servent à situer des faits ou des objets par rapport au

temps ou au lieu, elles jouent également un rôle clé dans la cohérence et l'enchaînement d'un

texte.

Comme exemple de particules qui désignent un temps, on trouve ٫ ز٫ لج ثعذ après,

avant, pendant, un lieu حث où, ou de référence از ceux,….

Ces particules seront très utiles à deux niveaux :

• Elles font partie de l'anti-dictionnaire qui regroupe les termes à ne pas prendre en

considération lors du calcul de fréquence de distribution des mots,

• Elles identifient des propositions composant une phrase.

Les particules peuvent avoir des préfixes et suffixes ce qui rajoute une complexité quant à

leur identification.

1.1.2. Problèmes du traitement automatique de l’arabe

Un des aspects complexes de la langue arabe est l'absence fréquente des voyelles courtes

dans le texte, ce qui risque de générer une certaine ambiguïté à deux niveaux :

Sens du mot

Difficulté à identifier sa fonction dans la phrase (différence entre le sujet et le

complément,…).

Cela peut influencer les fréquences des mots étant donné qu'elles sont calculées après la

détection de la racine ou la lemmatisation des mots qui est basée sur la suppression de préfixes et

suffixes. Lors du calcul des scores à partir des titres, il peut arriver que des mots soient

considérés comme dérivant d'un même concept alors qu'ils ne le sont pas.

Dans l'exemple suivant (tableau 2), en utilisant la distribution des mots ou le titre avec ou

sans lemmatisation, la phrase 3 aura un score plus important alors que les phrases 1 et 2 semblent

plus intéressantes, ce qui n'aurait pas été le cas avec un texte voyellé.

Tableau 2 : effet du mot non voyellé العلم sur les extraits.

L’ambiguïté vient du mot اع la science ou drapeau alors que voyellé on aura pour اع

la science et .pour le drapeau اعغ


- 13 -

Cette ambiguïté pourrait, dans certains cas, être levée soit par une analyse plus profonde

de la phrase ou des statistiques de cooccurrences (par exemple il est plus probable d'avoir اع

.(le drapeau national que la science nationale اط

De plus, la capitalisation n'est pas employée dans l'arabe ce qui rend l'identification des

noms propres, des acronymes, et des abréviations encore plus difficiles.

Enfin, comme la ponctuation est rarement utilisée, on doit ajouter une phase de

segmentation en phrases pour l’analyse d'un texte.

1.1.2.1. Segmentation des phrases

La reconnaissance de la fin de phrase est délicate car la ponctuation n’est pas

systématique et parfois les particules délimitent les phrases.

Pour la segmentation de texte [Ouersighni, 2001] utilise :

Une segmentation morphologique basée sur la ponctuation,

Une segmentation basée sur la reconnaissance de marqueurs morphosyntaxiques ou

des particules fonctionnelles comme : أي, ى, حزى , .

Cependant, ces particules peuvent jouer un autre rôle que celui de séparer les phrases.

1.1.2.2. Détection de racine

Pour détecter la racine d’un mot, il faut connaître le schème par lequel il a été dérivé et

supprimer les éléments flexionnels (antéfixes, préfixes, suffixes, post fixes) qui ont été ajoutés.

Le tableau suivant liste les préfixes et les suffixes. Plusieurs d'entre eux ont été utilisés

par [Chen et Gey, 2002] pour la lemmatisation de mots arabes; ils ont été déterminés par un

calcul de fréquence sur une collection d'articles arabes de l'Agence France Press (AFP).

Préfixes

اي ثذ د ث و ف لا

فبي زـ سزـ ـ فـ ـ ا ثب

ثبي زـ زـ ـ اـ ـ فب Suffixes

ـبد ر خ ح ا

ا ا ر ره ـ

ر و ب ب خ ي

Tableau 3 : Liste des préfixes et suffixes les plus fréquents

L’analyse morphologique devra donc séparer et identifier des morphèmes semblables aux

mots préfixés comme les conjonctions et ف des prépositions préfixées comme l'article ,ي et ة

défini اـ, des suffixes de pronom possessif.

La phase d’analyse morphologique détermine un schème possible. Les préfixes et

suffixes sont trouvés en enlevant progressivement des préfixes et des suffixes et en essayant de

faire correspondre toutes les racines produites par un schème afin de retrouver la racine.


- 14 -

Lorsqu’un mot peut être dérivé de plusieurs racines différentes, la détection de la racine

est encore plus difficile, en particulier en absence de voyelles.

Par exemple, pour le mot arabe اب les préfixes possibles sont : "∅", "ا" et " اـ " et les

suffixes possibles sont : "∅" et " ا" sans compter que ce mot peut aussi représenter un nom

propre إب.

Stem Préfixe Schème Suffixe Racine signification

Croyance ا Ø فعبي Ø إب

Ø convenant فعبي ا ب

Va-t-il approvisionner ب Ø فع أي ب

Deux veuves ا Ø فع Ø ا

Tableau 4 : Les radicaux possibles pour le mot إيمان

Certains verbes sont considérés comme irréguliers, ce sont ceux qui portent des

consonnes particulières dites faibles ( , ا, ي ). Ils sont appelés ainsi parce que, lors de leur

déclinaison, chacune de ces lettres est soit conservée, soit remplacée ou éliminée. Le Tableau 4

donne un exemple de dérivation du mot لبي dire.

Caractère « ا » est remplacé par لبي dire

Il a dit لبي ا

Il dit مي

Il a été dit ل ي

Ø ل dis

Tableau 5 : Exemple de déclinaison du verbe irrégulier قال dire

Une difficulté en traitement automatique de l’arabe est l’agglutination par laquelle les

composantes du mot sont liées les unes aux autres. Cela complique la tâche de l’analyse

morphosyntaxique pour identifier les vrais composants du mot.

Par exemple, le mot غ dans sa forme voyellée n'accepte (alamuhurn leur douleur') أغ

qu’une seule segmentation + غ .(alamu+hum') أغ

Dans sa forme non voyellée ا ('lmhm), le même mot accepte par contre les trois

segmentations suivantes :

+ + ا ('+lmm+hm les a-t-il ramassés)

+ ا ('lm+hm leur douleur ‘llm+hm il les a fait souffrir)

(l+mhm l'important') + اي

L'amplification de l’ambiguïté de segmentation s’opère selon deux façons :


- 15 -

− Il y a plus d’unités ambiguës dans un texte non voyellé que dans son correspondant

voyellé.

− Les unités ambiguës acceptent plus de segmentations dans le texte non voyellé.

De plus, le fait de faire précéder la lemmatisation par la troncature des préfixes avant les

suffixes (et réciproquement) peut influencer les résultats. En considérant ce qui précède, sur un

texte où la notion de douleur est importante, le fait d'ajouter un suffixe aux mots exprime toute

une autre notion, comme par exemple l’ajout de suffixe « ا » à أ leur douleur pour le pluriel

rend le mot أب leur douleur pour le duel.

Grâce à une structure composée qui est une agglutination d’éléments de la grammaire, un

mot en arabe peut encapsuler la signification de toute une phrase.

La richesse de la morphologie de la langue arabe pose le problème des ambiguïtés aux

différents niveaux de TALN. En abordant ce problème au niveau morphosyntaxique, la

différenciation des appartenances grammaticales des mots est nécessaire.

Un autre point important est que, pour deux corpus de taille donnée en arabe et en

anglais, par exemple, la taille du vocabulaire (nombre de mots différents) extrait à partir de ces

deux corpus, sera beaucoup plus importante pour l’anglais que pour le français, en raison de la

riche morphologie de l’arabe. Cela a une implication importante pour la modélisation statistique

du langage en arabe, puisque la complexité (liée à la taille du vocabulaire) des modèles, risque

d’être trop importante pour estimer des statistiques robustes, si la quantité de données disponible

pour l’apprentissage des modèles est faible. Nous essayerons, notamment, de proposer une

solution à ce problème.

1.2. Etude théorique de la Traduction Statistique

Le nombre d’approches en traduction automatique s’est multiplié dans les dernières

années. Il existe entre autres la traduction par les règles, la traduction statistique et la traduction

guidée par l’exemple.

Un système de traduction automatique a pour fonction de traduire un texte S dans une

langue source en un texte T dans une langue cible. Le triangle présenté à la figure 1 est attribué à

Vauquois [1968]. Il présente de manière synthétique une analyse du processus de traduction

encore pleinement pertinente et employée de nos jours.

Figure 1 : Le triangle dit « de Vauquois » pour la traduction


- 16 -

Au premier niveau (le plus bas), on trouve la traduction directe comme première

génération, elle se base sur des équivalences de termes, traduit mot à mot à partir de la

consultation d'un dictionnaire. Les systèmes de première génération ne font aucune analyse. La

deuxième génération de traduction correspond au second niveau, une analyse syntaxique de la

phrase source simplifie le transfert vers la langue cible. Au niveau sémantique, avec une analyse

plus approfondie de la phrase source, le transfert devient uniquement sémantique et plus simple.

En revanche, la génération des mots après le transfert est plus complexe qu’au niveau inférieur.

Enfin, une analyse totale de la phrase source peut aboutir à une représentation de son sens dans

une « inter-langue » artificielle, de laquelle on dérive ensuite les mots cible.

La traduction automatique à base d’exemples («Example-Based Machine Translation»

ou EBMT) repose sur un ensemble « d’exemples » préalablement traduits : un corpus parallèle

de phrases traductions l’une de l’autre. [Nagao, 1984] est considéré être à l’origine de la

traduction automatique à base d’exemples, et [Somers, 1999] présente un tour d’horizon

approfondi de cette approche. Lorsqu’on lui présente une phrase à traduire, le système parcourt

sa base d’exemples et produit trivialement une traduction si la phrase s’y trouve. Dans le cas

général, la phrase n’apparaît pas dans la base et le système s’emploie alors à rassembler des

exemples qui contiennent des fragments communs (des groupes de mots) avec la phrase à

traduire. Pour chaque fragment d’exemple dans la langue source, il s’agit ensuite de retrouver sa

traduction dans la langue cible : c’est la phase d’alignement. Enfin, la phase de génération

assemble les fragments dans la langue cible et produit la traduction. À chacune des trois étapes,

il est possible d’utiliser des sources externes de connaissances, telles que des lexiques bilingues,

des listes de synonymes, des étiquettes ou des arbres syntaxiques, etc. [Nakazawa et al., 2006]

est un exemple de développement récent dans le domaine, et emploie entre autres un lexique

bilingue et un analyseur morphologique pour déterminer les structures de dépendance dans les

phrases anglaises et japonaises.

La traduction automatique par méthodes statistiques («Statistical Machine

Translation» ou SMT) se base sur la théorie mathématique de distribution et d’estimation

probabiliste développée par Frederick Jelinek au IBM T.J. Watson Research Center et en

particulier, sur un article de [Brown et al., 1990], [Carl, 2003]. Les systèmes statistiques

apprennent un modèle probabiliste de traduction P(t/s) à partir d’un texte bilingue et un modèle

probabiliste de la langue cible P(t) à partir d’un texte monolingue. En général, la qualité des

traductions générées par un tel système croît avec la quantité des données sur lesquelles les

paramètres du système sont estimés. Par opposition à l’approche traditionnelle de «système

expert», l’approche statistique de la traduction automatique est capable de s’améliorer avec des

nouvelles données d’entraînement. Typiquement, la traduction statistique génère la phrase cible à

partir des traductions des fragments (chunkes). La « meilleure » traduction est déterminée dans la

traduction automatique statistique par les probabilités P(s|t) et P(t) qui sont générées

indépendamment l’une de l’autre et représentent le modèle de traduction et le modèle de langue.

En pratique, les deux modèles, de langue et de traduction, sont représentées par des ensembles de

tables contenant les valeurs de probabilité de certains paramètres.

Dans cette étude, nous adoptons une approche statistique utilisant deux corpus parallèles

où l’un des textes est la traduction de l’autre, souvent appelé bi-textes.


- 17 -

L’approche probabiliste

Il pourrait paraître surprenant au premier abord de vouloir traiter un processus

linguistique comme la traduction par des méthodes statistiques. Toutefois, la traduction d’un

texte nécessite la prise de décisions : choisir un mot, une locution ou tournure de phrase en

prenant en considération de dépendances souvent difficiles à quantifier. L’approche probabiliste

rend compte de ces dépendances floues et est en mesure de les combiner de façon multiplicative

ou additive. En outre, le traitement statistique permet de garantir que pour toute phrase source,

une phrase traduite sera générée, même si la syntaxe de cette phrase n’est pas correcte. On peut

résumer la traduction statistique comme la combinaison d’une modélisation linguistique et d’une

prise de décision statistique.

Parmi les caractéristiques de la traduction automatique, notons la nécessité de disposer de

grandes quantités de textes bilingues alignés nécessaires pour l’entraînement, le décodage et le

réordonnancement des hypothèses de traduction.

Relation de Bayes :

La traduction statistique se définit par la recherche du document cible ayant la plus

grande probabilité d’être la traduction d’un document source.

En appliquant le théorème de Bayes sur les paires des textes (s, t) où le texte t de la

langue cible est la traduction du texte s de la langue source, on obtient pour chacune des paires

une probabilité Pr(t|s) que la machine produise le mot t comme traduction du mot s :

Équation ‎1-1

Pr t|s =Pr s|t Pr t

Pr s

Puisque Pr(t) est indépendant de s, en utilisant seulement le produit Pr(s|t) Pr(s) on arrive

à l’équation fondamentale en traduction automatique :

Équation 1-2

𝑡 = 𝑎𝑟𝑔𝑚𝑎𝑥e Pr 𝑡|𝑠 = 𝑎𝑟𝑔𝑚𝑎𝑥e Pr s|t Pr t

Dans cette équation, argmaxe représente l'algorithme de recherche de la traduction

optimale, Pr(t) le modèle de langage et Pr(s|t) le modèle de traduction.

Modèle log-linéaire

En pratique, il est souvent bénéfique de pondérer les différentes sources d’information

que sont le modèle de langage Pr(t) et le modèle de traduction Pr(s|t). La quantité à maximiser

devient ainsi :

Équation 1-3

𝑎𝑟𝑔𝑚𝑎𝑥e Pr 𝑡|𝑠 = 𝑎𝑟𝑔𝑚𝑎𝑥e Pr t ∝ Pr s|t (1−∝)

avec un α ∈ [0, 1] à choisir judicieusement.

En outre, si le modèle de traduction Pr(t|s) est le produit de plusieurs composantes, celles-

ci peuvent être pondérées de la même façon. L’expression maximisée par le traducteur peut alors

s’écrire sous la forme suivante :


- 18 -

Équation 1-4

argmaxe 𝑃𝑟 𝑡|𝑠 = 𝑎𝑟𝑔𝑚𝑎𝑥e Pr t α Pr s|t 1−α

Équation ‎1-5

= 𝑎𝑟𝑔𝑚𝑎𝑥e λi log hi s, t

i

L’équation I-2 pourrait sembler contraignante : le principe «source/canal de

transmission» justifiait chacun des deux termes et n’en autorisait a priori aucun autre. Avec

l’équation I-5, il s’agit maintenant de caractériser le processus de traduction au moyen d’une

combinaison log-linéaire de fonctions caractéristiques hi(t, s). Toute fonction aidant à produire

une traduction correcte peut être incluse, sans autre justification théorique. Les fonctions

caractéristiques usuelles peuvent inclure un ou plusieurs modèles de langage h(t, s) = Pr(t) et tout

modèle de traduction h(t, s) = maxA Pr(s, A |t) (l’alignement A faisant partie des variables

internes maintenues par le traducteur). Un système de traduction compte en général entre cinq et

une douzaine de ces fonctions caractéristiques.

1.2.1. Modèle de langue (LM)

La modélisation du langage revient à trouver le mot le plus probable sachant ceux qui le

précèdent. Cette tâche est réalisée lors de la phase d'entraînement (ou d'apprentissage) sur des

corpus de la langue cible.

On suppose que la phrase S est représentée par une séquence de mots m1, m2, ..., mn. La

probabilité de l'avoir est donnée par l'équation suivante :

Équation ‎1-6

P S = m1, m2, . . . , mn = P( m 1) x P( m 2| m 1) x . . . x P( m n| m1, m2 , . . . , m n−1)

Pour le calcul des probabilités, il y a différentes méthodes. Ces probabilités sont estimées

sur des corpus d'apprentissage de grande taille. Il existe de nombreuses variantes, qui utilisent

différentes informations, depuis le simple graphème (pour certaines langues) jusqu'à des classes

ou des séquences de mots.

1.2.1.1. Modèles n-grammes

Il semble impossible d'avoir un corpus grand, qui représente toute les cooccurrences

possibles et tout le vocabulaire d'un certain langage. Pour résoudre ce problème, on calcule les

probabilités en fonction d'un historique de taille réduit appelé le modèle n-gramme.

Un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence

donnée. À partir d'une séquence de mots donnée il est possible d'obtenir la fonction de

vraisemblance de l'apparition du mot suivant. À partir d'un corpus d'apprentissage, il est facile de

construire une distribution de probabilité pour le prochain mot avec un historique de taille n.

Cette modélisation correspond en fait à un modèle de Markov d'ordre n où seules les n dernières

observations sont utilisées pour la prédiction du mot suivant. Ainsi un bi-gramme est un modèle

de Markov d'ordre 2.


- 19 -

Ce type de modèle de langage est souvent utilisé sous sa forme 3-gramme qui ne compte

que 2 mots comme historique. Le calcul de la probabilité d’apparition du mot m sachant les n

mots qui le précèdent (historique h) en utilisant une fonction N qui, pour une séquence de mots,

donne le nombre de fois où cette séquence a pu être observée dans le corpus d’apprentissage,

s’exprime sous la forme suivante :

Équation ‎1-7

P m|h =N h, m

N h

Il existe beaucoup de variantes du modèle n-grammes, qui ne prennent pas en compte les

n mots strictement précédents mais qui sautent certains mots pour ne pas prendre en compte un

adverbe par exemple en français.

1.2.1.2. Modèles n-classes

Le modèle n-classes est fondé sur le même principe que celui des modèles n-grammes

sauf qu’au lieu de traiter les mots, cette technique traite les classes des mots. Ceci apparaît très

efficace dans certains cas surtout lorsque le mot interrogé n’existe pas dans le corpus

d’apprentissage mais sa classe d’appartenance existe, ce qui élimine les probabilités nulles. Une

telle approche est aussi efficace du point de vue de la mise à jour du modèle puisqu'on peut

ajouter un mot au vocabulaire sans devoir ré-estimer la probabilité, si la classe existe déjà (on

affecte au mot directement la probabilité de sa classe d’appartenance).

Dans ce modèle on aura une classe de mots en fonction des n-1 classes qui le précèdent

au lieu d'un mot en fonction des n-1 mots le précédant. L'équation du modèle trigramme (3-

grammes) se transforme, pour un modèle tri-classe (3-classes) :

Équation ‎1-8

P Ci| Ci−2Ci−1 =N Ci−2, Ci−1, Ci

N Ci−2, Ci−1

On peut considérer les mots au sein d 'une même classe comme équiprobables ou non . Si

on souhaite estimer la probabilité d’un mot au sein d’une classe , on peut le faire, en utilisant la

fonction C(m) qui pour un mot m renvoie sa classe, de la façon suivante :

Équation ‎1-9

P 𝑚| C 𝑚 =N m

N C m

Avec C(m) : la fonction qui pour un mot m renvoie sa classe.

La probabilité d'un mot au sein d'une séquence est alors obtenue par la formule :

Équation ‎1-10

P 𝑚|ℎ = P 𝑚| C 𝑚 x P C m | h(C m )

Il existe plusieurs variantes du modèle n-classes qui visent surtout à résoudre le problème

d’appartenance d’un mot à une certaine classe.


- 20 -

1.2.2. Modèles de traduction

Le modèle de traduction donne la probabilité qu’un mot ou un groupe de mots dans la

langue source soient traduits par un autre dans la langue cible.

Nous nous intéressons ici au problème de calcul de P(t/s), la probabilité d'une phrase

cible t = t1 . . . tJ étant donnée une phrase de la langue source s = s0 . . . sI. On appelle la méthode

qui permet de calculer cette distribution « un modèle de traduction ».

1.2.2.1. Notion d’alignement

L’alignement décrit la correspondance entre les mots d’une phrase de la langue source et

les mots de la phrase de la langue cible qui est sa traduction possible. La plupart des modèles

statistiques existant l’utilisent.

La figure 2 montre un exemple d’un tel alignement. Les alignements de groupes de mots

à d’autres groupes de mots sont a priori autorisés, de même que l’alignement à un mot spécial

appelé NULL utilisé lorsqu’un ou plusieurs mots d’une phrase n’ont pas de correspondance dans

l’autre phrase (formellement, il y a un mot NULL dans chacune des langues).

Je ne le pense pas , vraiment

I do not think so NULL

Figure 2 : Exemple d’alignement entre deux phrases

1.2.2.2. Les modèles «IBM»

[Brown et al., 1993] ont défini cinq modèles statistiques de traduction de complexité

croissante et proposé un algorithme pour leur apprentissage. Il s’agit de modèles à base de mots,

c’est-à-dire que l’unité de traduction qui apparaît dans les lois de probabilité est le mot. Nous

tentons de faire une synthèse dans les paragraphes suivants de ces cinq différents modèles de

traduction.

a) Modèle de traduction probabiliste IBM1

Le modèle « IBM-1 » est une exception : c’est le seul modèle à ne pas aligner les mots

source aux mots cible. Plus exactement, il considère que tous les mots source peuvent être

alignés à tous les mots cible avec la même probabilité. Le modèle IBM-1 repose sur une seule loi

de probabilité, une loi lexicale notée T(t|s). La seule raison d’être de ce modèle est de permettre

l’entraînement des modèles suivants.

b) Modèle de traduction probabiliste IBM2

Ce modèle et les suivants imposent des restrictions sur l’alignement A entre les mots des

phrases source et cible. Au lieu d’être aussi général qu’à la figure 2, il doit être de la forme A =

a1 . . . aJ , où, pour tout j de l’intervalle [1, J], aj est inclus dans l’intervalle [0, I]. aj = i > 0 signifie

que le mot cible tj est aligné à si, tandis que aj = 0 signifie que tj n’est pas aligné, ou est aligné au

mot NULL. Ainsi, un alignement de cette forme autorise l’alignement de plusieurs tj à un seul si,

mais pas l’inverse : un mot cible tj est aligné à 0 ou 1 mot source. Le modèle IBM-2 et les


- 21 -

suivants sont donc asymétriques. La figure 3 présente un exemple d’alignement respectant les

contraintes ci-dessus. Notons qu’il est acceptable qu’un si n’ait généré aucun tj. En plus de la loi

de traduction lexicale T(t|s), le modèle IBM-2 dispose d’une loi d’alignement ou de distorsion de

la forme p(aj |j).

c) Modèle de traduction probabiliste IBM3

Ce modèle de traduction intègre en plus une loi de fertilité, de la forme N(ф|e).

Pour chaque position source i de l’intervalle [1, I], фi est le nombre de mots cible alignés à si, soit

фi = Card {j | aj = i}. Le modèle IBM-3 considère que les mots cible t alignés à aucun mot source

apparaissent spontanément entre les autres mots cible.

Le modèle définit ainsi une probabilité p1 = 1 – p0 de génération spontanée d’un mot cible

aligné à s0 après toute génération de mot cible aligné à un mot source. La loi T(t|s0) détermine

alors quel mot cible sera généré. Ces mots « spontanés » ne portent pas de sens ; en pratique, ils

sont insérés de façon à respecter la grammaire de la langue cible.

d) Modèles de traduction probabiliste IBM4 et IBM5

Dans les modèles 3,4 et 5 de IBM, on développe la phrase cible par étape. Tout d’abord

pour chaque mot dans la phrase source (s), on regarde le nombre de mots dans la phrase cible (t)

qui lui correspond, puis on essaye de définir la structure de ces mots, enfin, après avoir connecté

les mots dans les deux phrases on cherche les bonnes positions des mots dans la phrase cible,

c’est le travail de l’algorithme de réordonnancement. Dans la phase de réordonnancement, on

définit réellement les connexions entre les mots.

Ces trois derniers modèles diffèrent dans la façon de connecter les mots. Pour le modèle

3, comme dans le modèle 2, la probabilité de connexion Pr(t/s) dépend des positions des mots et

de la longueur des deux phrases source et cible. Par contre, dans le modèle 4, la probabilité de

connexion dépend des structures (généralement structure syntaxique) des mots liés et aussi des

positions des autres mots cibles connectés avec le même mot source. Malgré toute cette

précision, les modèles 3 et 4 ont des limites, le modèle 5 reste toujours le plus utilisé. Les

modèles 1-4 peuvent être des moyens d’initialisation pour le modèle 5.

Langue source : s0 s1 … si … sI

Langue cible : t1 t2 … tj … tJ

Figure 3 : Exemple d’alignement autorisé par les modèles IBM-2 à IBM-5

1.2.3. Décodage

Le décodage en SMT comprend la recherche des hypothèses t ayant les plus grandes

probabilités pour être considérées comme étant les traductions de la phrase source en question,

suivant le modèle de traduction P(t/s). Le modèle de traduction est une combinaison log-linéaire

de quatre principaux composants : un ou plusieurs modèles trigramme de la langue cible, un ou

plusieurs modèles de traduction basés sur les groupes de mots, un modèle de distorsion qui rend

compte des différences dans l’ordre des mots en langues source et cible, et un modèle de

longueur qui rend compte des différences de longueur entre les deux langues.


- 22 -

Le modèle trigramme de langue a été implanté en utilisant le programme SRILM

[Stolcke, 2002]. Le modèle de traduction basé sur les groupes de mots utilise les modèles

symétriques IBM. Les modèles de distorsion et ceux de longueur sont similaires à ceux de

[Koehn, 2004].

Pour établir les poids des composants dans le modèle log-linéaire, l’implémentation de

l’algorithme de [Och, 2003] implique essentiellement la génération des N meilleures hypothèses

de traduction dans un processus itératif, représentant l’espace entier de recherche pour un

ensemble donné de phrases sources du corpus de développement. Une variante de l’algorithme

de Powell est utilisée pour trouver les poids qui optimisent le score BLEU sur ces hypothèses,

comparés aux traductions de référence du corpus de développement. Ces opérations de décodage

sont accomplies par le décodeur Moses, qui implémente un algorithme de recherche en faisceau

en programmation dynamique (dynamic-programming beam search algorithm), comme

l’algorithme décrit par [Koehn, 2004] avec quelques extensions comme la capacité de décoder

vers l’avant et/ou vers l’arrière.

1.2.4. Tuning: Réglage des paramètres par minimisation du taux d’erreur

(minimum- error-rate-training)

Le décodage nous permet d’insérer un poids à chacun des modèles pour permettre

l’utilisation astucieuse de ceux-ci et ainsi générer la meilleure traduction possible. Le tunning

consiste alors à tester toutes les combinaisons de poids permettant d’obtenir les meilleures

traductions possibles avec nos modèles. Cette étape se fait sur un fichier tune qui est disjoint du

corpus d’entraînement et du fichier test. Une fois que les meilleurs poids sont trouvés, ils seront

utilisés pour toutes les traductions.

L’outil MERT (pour Minimum Error Rate Training, entraînement minimisant le taux

d’erreur) est distribué au sein de la boîte à outils Moses. Il met en oeuvre l’optimisation de la

façon suivante. MERT lance le décodeur Moses avec un premier jeu de λi et récupère ses n

meilleures hypothèses. MERT détermine alors un autre jeu de λi, qui permette de maximiser

Bleu. Il est à noter que pour ce faire, MERT connaît la forme particulière de la fonction donnant

le score Bleu en fonction des λi : c’est une fonction constante par morceaux, du fait du caractère

discret des listes de n-meilleures hypothèses [Och, 2003, Papineni, 1999]. Si les nouveaux λi sont

différents des anciens, MERT relance Moses. Une douzaine de lancements de Moses est en

général nécessaire pour atteindre la stabilisation. Par ailleurs, les différents optimums obtenus au

cours du développement du système sont conservés et comparés, car il arrive que MERT s’égare

dans un maximum local.

1.2.5. Systèmes fondés sur des séquences de mots : phrase-based approach

Nombreux sont les systèmes de traduction automatique statistique d’aujourd’hui qui

dépendent de modèles « fondés sur des séquences de mots ». Un système fondé sur des

séquences de mots comprend généralement un ou plusieurs modèles de traduction de séquences

de mots et un ou plusieurs modèles linguistiques à n-grammes. Bien qu’un système de ce type

comporte normalement d’autres éléments (par exemple, un modèle de réordonnancement), ce

sont les modèles de traduction et les modèles de langage qui occupent le plus de mémoire

système. Les diverses composantes sont habituellement combinées de façon log-linéaire. En


- 23 -

règle générale, il est souhaitable d’entraîner les deux modèles de traduction et celui de langage

au moyen de la plus grande quantité de données possible, même s’ils risquent d’occuper ensuite

plusieurs giga-octets de mémoire.

Comme leur nom l’indique, l’unité de traduction de ces modèles est le groupe de mots

(phrase en anglais). Un groupe de mots peut compter un ou plusieurs mots. Les groupes de mots

sont symbolisés avec un tilde : par exemple, ŝ = si, …, si+l−1 regroupe l mots, avec l ≥ 1. Nous

décrivons ici les principes communs à tous les systèmes de traduction par séquences de mots.

Phrase source : Je ne le pense pas

s1 s2 s3 s4

t1 t2 t3 t4

Phrase cible : I do not think so

Figure 4 : Alignement par séquences de mots autorisé par la plupart des modèles

Le processus de traduction est illustré à la figure 4. La phrase source s est d’abord

segmentée en K groupes de mots : s = ŝ1 ... ŝK. Chaque groupe de mots source ŝK est ensuite

traduit en un groupe de mots cible K. Ces groupes de mots sont éventuellement réordonnés selon

une permutation p(·) de [1, K] puis sont simplement accolés pour constituer la phrase cible finale

𝑡 = 𝑡 p 1 … 𝑡 p K

. Utiliser des groupes de mots comme unité de traduction permet d’aligner n

mots source à m mots cible et d’éviter les alignements parfois peu satisfaisants qu’imposaient les

modèles à base de mots. Dans l’exemple de la figure 4, ne pas est aligné à do not.

Par ailleurs, un autre alignement valide pour cette paire de phrases pourrait aligner les

quatre mots ne le pense pas à do not think so et éviter ainsi tout réordonnement. Ceci est une

propriété importante des modèles par séquences de mots : ils sont en mesure de traduire

directement, par exemple, des groupes nominaux ou des ensembles nom+adjectif observés sur

l’ensemble d’apprentissage et ainsi parvenir à préserver certaines contraintes locales sur l’ordre

des mots.

Nous allons utiliser ce type de modèle pour notre étude. Nous pensons qu’elle nous

apporte plus d’avantages que le simple modèle de mots. Nous utilisons pour créer ces modèles

une ressource disponible gratuitement qui est GIZA++ [Och & Ney, 2000] ainsi qu’une série de

scripts disponibles sur le web3. Ce programme va nous permettre de créer automatiquement notre

modèle. Les modèles sont appris sur un bitexte d’entraînement constitué bien sûr de la langue

source et de la langue cible. Les alignements automatiques obtenus par les modèles IBM, dans

les deux sens de traduction (source-cible et cible-source) sont ensuite fusionnés pour construire

la table de traduction (phrase table).

3 voir http://www.statmt.org/


- 24 -

Conclusion

Dans cette partie, nous avons commencé par présenter notre langue source (la langue

arabe) et ses problèmes au niveau de son traitement automatique.

Grâce à une structure composée qui est une agglutination d’éléments de la grammaire, un

mot en arabe peut encapsuler la signification de toute une phrase. La richesse de la morphologie

de cette langue pose le problème des ambiguïtés aux différents niveaux de TALN. En abordant

ce problème au niveau morphosyntaxique, la différenciation des appartenances grammaticales

des mots est nécessaire.

Un autre point important est que, pour deux corpus de taille donnée en arabe et en

anglais, par exemple, la taille du vocabulaire (nombre de mots différents) extrait à partir de ces

deux corpus, sera beaucoup plus importante pour l’arabe que pour l’anglais, en raison de la riche

morphologie de l’arabe. Ceci a une implication importante pour la modélisation statistique du

langage en arabe, puisque la complexité (liée à la taille du vocabulaire) des modèles, risque

d’être trop importante pour estimer des statistiques robustes, si la quantité de données disponible

pour l’apprentissage des modèles est faible. Nous essayerons, notamment, de proposer une

solution à ce problème dans nos travaux.

Ensuite, nous avons présenté la traduction automatique en nous intéressant à la traduction

statistique et en présentant les principaux concepts comme les modèles de langage, modèles de

traduction proposés par IBM et les systèmes fondés sur des séquences de mots. Ces modèles

seront adoptés pour toutes nos expérimentations.

Mes contributions

- 25 -

Chapitre 2. Mes contributions

Introduction

Nous avons abordé dans le chapitre précédent une étude bibliographique en présentant la

langue source de notre système de traduction automatique ainsi que les différents composants

d’un système de traduction automatique statistique. Dans ce chapitre, nous allons mettre en

œuvre et expérimenter un système de traduction automatique qui manipule des données enrichies

avec des informations morphosyntaxiques pour la traduction arabe / anglais et proposer quelques

solutions originales en vue de l’amélioration du système de référence.

Tous les travaux expérimentaux ont été réalisés sur un serveur de calcul de l’équipe

GETALP dans l’environnement LINUX.

2.1. Etiquetage morphosyntaxique (POS Tagger)

Un tel outil (POS Tagger), consiste à donner une étiquette morphosyntaxique à un mot.

Cette étiquette représente la catégorie du mot, ce sera par exemple NN pour nom, PP pour

préposition. Ces étiquettes seront plus ou moins précises selon l’étiqueteur. En effet, certains

pourront contenir une centaine d’étiquettes alors que d’autres n’en n’auront qu’une dizaine. Nous

retrouvons tout de même une similarité entre les étiqueteurs les plus utilisés ce qui permet une

meilleure comparaison. Les étiqueteurs sont utilisés dans plusieurs applications liées au langage

comme la recherche d’informations. Ils permettent d’avoir une information syntaxique qui peut

être utile dans le traitement d’une phrase.

Dans notre cas, un tel étiqueteur peut être considéré comme une aide à la

désambiguïsation, en effet, il nous permet d’avoir une information supplémentaire dans le choix

d’un sens. Par exemple, le mot livre peut être un nom commun dans "Paul pose le livre sur la

table", un verbe dans "Paul livre la pizza", donc si nous pouvons savoir la catégorie du mot nous

pouvons savoir partiellement son sens. Cette information n’est bien sûr utile pour la

désambiguïsation que s’il n’y a qu’un sens par étiquette POS.

Plusieurs méthodes sont proposées pour annoter automatiquement les mots par des

étiquettes morphosyntaxiques. Plusieurs outils sont fondés sur des systèmes à base de règles

[Greene and Rubin, 1971], [Brill, 1992]. D’autres implémentent des méthodes probabilistes

[Bahl and Mercer, 1976], [Schmid, 1994], [Church, 1988], [Cutting et al., 1992], [DeRose,

1988], [Kempe, 1993]. Les réseaux de neurones ont aussi été testés dans l’étiquetage POS

[Frederici and Pirrelli, 1994].

2.1.1. Etude de l’existant

Dans notre étude nous nous sommes intéressés à deux étiqueteurs (POS Tagger) pour

enrichir nos corpus : TreeTagger [Schmid, 1994] pour l’anglais et ASVM l’étiqueteur fourni par

l’université de Columbia pour l’arabe. Ces derniers utilisent une méthode probabiliste. Nous

avons donc évalué ces deux ressources avant de réaliser notre étude.

Mes contributions

- 26 -

2.1.1.1. TreeTagger

a) Description

TreeTagger4 est un outil gratuit développé par Helmut Schmidt, à l'Université de Stuttgart

permettant de réaliser un étiquetage syntaxique de textes rédigés en anglais, allemand, italien,

français, et néerlandais. La version anglaise a été entraînée sur le corpus PENN treebank5. Après

une segmentation du texte, TreeTagger assigne l’étiquette syntaxique et le lemme pour chaque

mot en utilisant des arbres de décision pour estimer les probabilités trigramme de transition.

TreeTagger a beaucoup de points communs avec les étiqueteurs conventionnels n-gram

[Church, 1988], [Kempe, 1993]. Le choix se fait à partir des probabilités, plus exactement en

maximisant la probabilité que l’étiquette tag apparaisse à la position i sachant un historique. Pour

faire cela, il utilise la formule suivante :

Équation ‎2-1

La spécificité de cette méthode se trouve dans le calcul de la probabilité de transition

P(tn/tn-1), qui n’est autre que la probabilité d’une étiquette par rapport aux étiquettes précédentes.

En effet dans cette méthode, cette probabilité est calculée à partir d’un arbre de décision binaire

[Quinlan, 1986]. Cet arbre est construit récursivement à partir d’un ensemble de trigrammes

connus (suites de trois étiquettes grammaticales consécutives constituant l’ensemble

d’apprentissage). Nous retrouvons dans le paragraphe suivant un exemple de phrase étiquetée par

TreeTagger.

b) Etiquetage

TreeTagger utilise 36 étiquettes (tagset) pour l’anglais suivant Penn Treebank qui sont :

4 http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html

5 http://www.cis.upenn.edu/~treebank

Mes contributions

- 27 -

Pour un texte anglais segmenté, TreeTagger donne une liste de tous les mots avec leurs

catégories et leurs lemmes, l’une est au dessous de l’autre, comme l’indique l’exemple

d’étiquetage suivant:

L’entrée :

It's just down the hall. I'll bring you some now. If there is anything else you need, just let me

know.

La sortie :

It PP it

's VBZ be

just RB just

down RB down

the DT the

hall NN hall

. SENT .

I PP I

'll MD will

bring VV bring

you PP you

some DT some

now RB now

. SENT .

If IN if

there EX there

is VBZ be

anything NN anything

else RB else

you PP you

need VVP need

, , ,

just RB just

let VV let

me PP me

know VV know

. SENT .

c) Evaluation

D’après [Schmid, 1994], l’étiqueteur TreeTagger a été testé sur des données du corpus

Penn-Treebank. Environs 2 millions de mots ont été utilisés pour l'apprentissage et 100000 mots

d'une autre partie du corpus Penn-Treebank pour le test.

Les résultats de ce test donnent un taux d’étiquettes correctes de 97.53% ce qui est

acceptable.

2.1.1.2. ASVM : Etiqueteur de Columbia University

a) Description

L'outil d'étiquetage grammatical utilisé pour l'arabe est ASVM6 (nommé aussi SVM ou

SVM-POS) un logiciel libre, développé en Perl par l'équipe de Mona Diab7 à la Leland Stanford

Junior University en 2004. Il s'agit d'une adaptation à l'arabe du système anglais YamCha8 basé

sur les séparteurs à vast marge (ou Support Vector Machines en anglais, SVM). Les données

probabilistes ont été acquises pendant une phase d'entrainement sur un corpus annoté nommé

Arabic TreeBank.

ASVM n'est pas qu'un étiqueteur. Il peut aussi produire une analyse syntaxique partielle

du texte. Pour obtenir une sortie le plus possible semblable à celles des étiquetages des autres

langues, nous n'utilisons pas le module d'analyse syntaxique. Les modules à lancer sont donc les

suivants:

6 http://www1.cs.columbia.edu/~mdiab/papers/ArabicChunk.pdf

7 http://www1.cs.columbia.edu/~mdiab/

8 http://www.chasen.org/~taku/software/yamcha/

Mes contributions

- 28 -

TOKrun.pl pour la tokenisation

LEMrun.pl pour la normalisation des mots féminins uniquement (ce n'est pas une

vraie lemmatisation)

POSrun.pl pour l'étiquetage.

Le patron morphosyntaxique extrait en arabe est le même qu'en français: Nom-Adj, ce

qui correspond, dans la sortie de l'étiqueteur ASVM, aux étiquettes NN-JJ. NN pour nom, JJ

pour adjectif. Il n'y a pas d'inversion par rapport au français.

b) Etiquetage

Le texte à analyser doit être translitéré avec le codage nommé Buckwalter, qui est une

table de correspondance biunivoque entre les caractères arabes et l'ASCII.

Voici un exemple de translitération suivant Buckwalter :

. زست ا ى اجشي سبذس ثي سوخ جزاء ص خ اثش عشلخ سىى داخ اطمخ لج اسبذس سزب

wlm yHtsb AlHkm Almjry sAndwr bwl rklp jzA' SHyHp Avr Erqlp hyskY dAxl AlmnTqp mn

qbl AlysAndrw nstA.

Dans le fichier de sortie, on retrouve une phrase par ligne, chaque mot étant suivi d'un

slash et de sa catégorie.

w/CC lm/RP yHtsb/VBP Al/DT Hkm/NN Al/DT mjry/JJ sAndwr/NNP bwl/NNP

rklp/NN jzA'/NN SHyHp/JJ Avr/IN Erqlp/NN hyskY/NNP dAxl/IN Al/DT mnTqp/NN mn/IN

qbl/NN Al/DT ysAndrw/NNP nstA/NN ./PUNC

Les mots clitiques s'écrivant attachés à leur hôte - comme les conjonctions de

coordination "ف" (fa-) et "" (wa-), la préposition "ة" (bi-) etc. - sont étiquetés

indépendamment, ce qui simplifie l'extraction de patrons.

Par contre l'article "اي" est toujours attaché au mot qu'il détermine. Et ce qui complique

encore la tâche est que les mots ne sont pas lemmatisés. Sachant que la formation du pluriel

affecte la structure interne de la plupart des noms et des adjectifs arabes et ceci de façon

difficilement prédictible, la lemmatisation ne pourra pas être effectuée par des simples

expressions régulières.

c) Evaluation

Le TreeBank arabe se compose de 4519 phrases. L'ensemble de développement,

d'apprentissage et de test sont les mêmes pour toutes les expériences reportées dans [Diab,

Hacioglu et Jurafsky, 2004]. Le corpus est distribué comme suit : 119 phrases pour le

développement, 400 phrases pour le test et 4000 phrases d'apprentissage.

Les performances des SVM-POS sont de 95,49% d’étiquettes corrects. On notera

cependant que 50% des erreurs rencontrées résulte de la confusion des noms, NN, avec des

adjectifs, JJ, ou inversement.

Mes contributions

- 29 -

Le problème de l'article mérite cependant quelques remarques. En effet l'article arabe "اي"

(al-) fait partie des mots clitiques s'écrivant attachés à leur hôte, avec les conjonctions de

coordination "ف" (fa-) et "" (wa-), la préposition "ة" (bi-) etc. Mais tandis que les autres

clitiques ont été séparés par ASVM lors de la tokenisation, l'article fait toujours partie du mot qui

le suit - choix tout à fait discutable.

D'une part ceci simplifie la recherche des patrons, car si l'article était traité comme un

mot à part entière il faudrait chercher, en plus du couple Nom-Adj, le patron Dét-Nom-Dét-Adj.

D'autre part la présence de l'article fausse les calculs statistiques en créant une distinction

entre un mot déterminé et le même mot non déterminé. C'est pourquoi il applique aux résultats

de l'extraction de patrons arabes un nettoyage spécial qui consiste à supprimer la sous-chaîne

.en début de mot "اي"

La non lemmatisation d'ASVM génère d'autres nombreux problèmes de ce type, qui ne

peuvent pas être résolus par des traitements aussi simples.

En étiquetant nos corpus, nous avons obtenu des résultats décevants ; cela est notamment

dû à la spécificité de notre corpus par rapport au corpus d’apprentissage utilisé pour entrainer

ASVM. En fait, nos corpus sont des transcriptions de la parole arabe dans le domaine de

tourisme ce qui est de nature très différente de l’information journalière qui représente le

domaine où ASVM a été entraîné.

2.1.2. Approche utilisé pour construire notre propre étiqueteur arabe

Afin d'améliorer notre système de traduction probabiliste, nous avons besoin d'un bi-texte

étiqueté de bonne qualité. Nous espérions que l'étiqueteur ASVM nous fournirait un corpus

étiqueté de qualité comparable à l'étiqueteur TreeTagger, mais malheureusement nous avons

trouvé des résultats décevants, comme expliqué dans le paragraphe précédent.

Pour améliorer la qualité d’étiquetage de notre corpus arabe, nous avons en premier lieu

corrigé manuellement une partie du corpus et, en utilisant cette correction, nous avons re-

entraîné un nouvel étiqueteur.

2.1.2.1. Correction manuelle

Pour aller plus vite dans la correction, nous avons utilisé des expressions régulières pour

former un script et éviter de recorriger les erreurs identiques.

Notre corpus d'apprentissage contient 19972 lignes, 176178 mots dont 17871 mots

différents. Par contre, les corpus de développement et de test contiennent au total 2501 lignes

20711 mots dont 4380 sont différents. Nous avons vérifié les corpus de développement, de test et

les 1200 premières lignes du corpus d'apprentissage ce qui représente en pourcentage 20% de la

totalité des phrases9. Vu le temps imparti pour le stage, il n’était pas raisonnable de corriger

l’étiquetage de la totalité du corpus d’apprentissage, nous avons donc décidé de construire notre

propre étiqueteur statistique à partir des 20% du corpus d’apprentissage manuellement corrigé.

9 Cette vérification manuelle nous a pris environ 58 heures soit 50s/ligne , et nous avons obtenu un script

contenant 1407 expressions régulières.

Mes contributions

- 30 -

2.1.2.2. Apprentissage

Il est possible d'entraîner un étiqueteur sur tout type de corpus étiqueté; à partir du sous-

corpus étiqueté vérifié manuellement, le système crée sa base de connaissances. Deux fichiers

serviront de paramètres dans la commande d'étiquetage, le premier présente le modèle de

langage qui créé en utilisant la commande ngram-count de l’outil SRILM10

qui est un ensemble

d'outils permettant de construire ce type de modèle. Le deuxième présente un tableau d’étiquettes

(tags) associé à un lexique et détermine la probabilité qu’un mot corresponde à une étiquette

donnée, de telle façon que la somme des probabilités de tous les tags associés à un seul mot soit

égale à 1.

Une fois le modèle de langage et le tableau d’étiquettes préparés, nous utilisons la

fonction disambig de SRI-LM qui attribue dans notre cas pour une séquence de mots la séquence

de catégories correspondantes, ayant la plus grande probabilité calculé à l'aide du modèle de

langage et du tableau d’étiquettes.

Cette fonction donc présente le processus d'étiquetage qui associe à une séquence M =

m1, m2...mn de n mots une suite 𝐶 = c1, c2...cn de catégories ayant la probabilité maximale. Le

choix de cette séquence 𝐶 est fondé sur la formule suivante :

𝐶 = 𝑎𝑟𝑔𝑚𝑎𝑥𝐶𝑖 𝑃 𝑚 𝑖 𝐶𝑖

𝑛

𝑖=1

× 𝑃 𝐶𝑖 𝐶𝑖−1𝐶𝑖−2

où :

𝑃 𝑚 𝑖 𝐶𝑖 désigne la probabilité que le mot mi possède la catégorie Ci

𝑃 𝐶𝑖 𝐶𝑖−1𝐶𝑖−2 représente la probabilité de la catégorie Ci de mi connaissant les

deux catégories attribuées précédemment.

Puisque notre tableau d’étiquettes n’est pas assez grand, nous pensons qu'il serait utile de

rajouter une telle fonction. Un post-traitement du texte consisterait à rechercher tous les mots

inconnus du lexique, et à les attribuer les étiquettes fournis déjà par ASVM.

2.1.2.3. Etiquetage

L’étiqueteur réalisé utilise donc les mêmes jeux d’étiquette que l’étiqueteur ASVM. Les

24 Balises (Tagset) qui sont disponibles dans la distribution de TreeBank arabe « CC, CD,

CONJ+NEG PART, DT, FW, IN, JJ, NN, NNP, NNPS, NNS, NOFUNC, NUMERIC COMMA,

PRP, PRP$, PUNC, RB, UH, VBD, VBN, VBP, WP, WRB »

Exemple de phrase étiqueté avec ASVM

kyf/RP ymknny/NOFUNC AstxdAm/NN Sndwq/NN wdA}E/NN |mn/JJ ?/PUNC

Cette phrase étiquetée contient 2 étiquettes fausses parmi les 7 étiquettes. La première

faute est non seulement une faute d’étiquetage mais aussi une faute de segmentation. Avec

l’étiqueteur réalisé ces 2 erreurs n’apparaissent plus :

10

http://www.speech.sri.com/projects/srilm/

Mes contributions

- 31 -

Exemple de phrase étiquetée avec notre étiqueteur

kyf/WRP ymkn/VBP ny/PRP AstxdAm/NN Sndwq/NN wdA}E/NNS |mn/JJ ?/PUNC

2.1.2.4. Evaluation de notre étiqueteur

Pour évaluer notre étiqueteur, on a adopté l’approche de comparaison entre les résultats

fournis par les deux étiqueteurs arabes utilisés. Le test est fait sur les 100 dernières phrases du

corpus d’apprentissage.

Avec l’étiqueteur ASVM, ces 100 phrases contiennent 857 mots étiquetés (w/POS) parmi

lesquels il y a 77 étiquettes fausses c'est-à-dire 9.0% d’erreur. Par contre, L’étiqueteur que nous

avons réalisé nous les fournis avec 877 mots étiquetés parmi lesquels il y a que 15 étiquettes

fausses c'est-à-dire 1.7% d’erreur. Comme c’est déjà mentionné précédemment, les erreurs de

segmentations dans ASVM qu’on a réparé expliquent la différence entre les nombres de mots

étiquetés. Donc, notre étiqueteur segmente mieux.

Pour ces 100 phrases de test, les deux étiqueteurs ont fait cinq erreurs identiques. Mais si

on compare les autres fautes, il apparu que 10 étiquètes été erronées avec notre étiqueteur ce

qu’ils étaient correctes dans la sortie de ASVM. Par contre, ce dernier a fait 72 méprises qui ont

été réparé avec notre étiqueteur. En général, ASVM a donné 75 phrases erronées ce qui est réduit

avec notre étiqueteur à seulement 14 phrases.

2.2. Enrichissement de l'information lexicale

2.2.1. Ajout des étiquettes (POS) dans le cadre de modèles factoriels

L'état de l'art actuel en traduction automatique statistique (phrase-based models), se limite

à des modèles qui représentent des groupes de mots (phrase en anglais), sans utilisation explicite

de l'information linguistique, comme les informations syntaxiques, morphologiques ou

sémantique. Une telle intégration de l'information linguistique dans le modèle de traduction est

souhaitable pour deux raisons :

Les modèles de traduction qui opèrent sur les représentations plus générales, telles

que les lemmes au lieu de la forme de surface (mots), peut s'appuyer sur des

statistiques plus riches et de surmonter le problème des données clairsemées (data

sparseness problem).

De nombreux aspects de la traduction peuvent être mieux expliqués au niveau

syntaxique, morphologique ou sémantique. Avoir de telles informations

disponibles dès l'apprentissage du modèle de traduction permet la modélisation

directe de ces aspects.

Pour cela, nous allons représenter ces informations (mots + étiquettes POS) sous la forme

de facteurs, c'est-à-dire de vecteurs contenant plusieurs flux d’information (plusieurs niveaux

d’annotation), comme l’illustre la figure 5.

Mes contributions

- 32 -

Figure 5 : un vecteur de facteurs qui représentent différents niveaux d'annotation

2.2.2. Principe d’utilisation des étiquettes dans les modèles factoriels

Chaque mot est considéré comme un vecteur composé de la forme de surface, le lemme

et l’analyse morphosyntaxique et morphologique [Koehn et Hoang, 2007]. La production de

formes de surface est décomposée en trois étapes. La première étape est la traduction de lemmes

puis la traduction des parties de discours et les informations morphologiques pour enfin produire

les formes de surface.

2.2.3. Les différentes stratégies testées

La traduction des facteurs représentés dans la langue source par les facteurs représentés

dans la langue cible est décomposée en une série d’étapes.

Rappelons l'exemple d’un modèle factoriel motivé par l’information syntaxique et de

génération. Dans ce modèle, les processus de traduction sont divisés en trois étapes:

Traduire les lemmes d'entrée par les lemmes de sortie

Traduire les informations morphosyntaxique (POS) et morphologiques.

Générer les formes de surface en tenant compte des facteurs linguistiques

traduits.

Les modèles factoriels en traduction sont fondés sur des séquences de mots. Notre mise

en œuvre actuelle de ces modèles est la décomposition supplémentaire de la phase de traduction

en une séquence d’étapes. Étant donné que toutes les étapes de cartographie fonctionnent sur la

même segmentation de paires de phrase d'entrée et de sortie, nous les appelons ainsi les modèles

factoriels synchrones.

Mot

Lemme

POS

Mot

Lemme

POS

Langue source Langue cible

Mot

Lemme

POS

Mot

Lemme

POS


Morphologie Morphologie

Figure 6 : exemple d’un modèle factoriel

Mes contributions

- 33 -

Exemple des trois étapes de mise en correspondance dans la traduction du mot maison du

français vers l’anglais :

Traduction du lemme

maison -> house, home, building, shell Haus

Traduction de l’information morphosyntaxique et morphologique

NN|pluriel -> NN|plural

NN|singulier -> NN|singular

Generation de formes de surface

house|NN|plural -> houses

house|NN|singular -> house

Nous appliquons ces mesures de cartographie à une phrase en entrée. Étant donné les

réponses à choix multiples pour chaque étape (reflétant l'ambiguïté dans la traduction), chaque

expression d’entrée est étendue à une liste des options de traduction.

La première étape consiste à traduire les lemmes, voici un exemple de traduction du

lemme maison :

?|house|?|?

?|home|?|?

?|building|?|?

?|shell|?|?

La deuxième étape consiste à traduire la catégorie du mot :

?|house|NN|plural

?|home|NN|plural

?|building|NN|plural

?|shell||NN|plural

?|house|NN|singular

Finalement, on génère les formes de surface (mot) suivant les informations traduites :

houses|house|NN|plural

homes|home|NN|plural

buildings|building|NN|plural

shells|shell|NN|plural

house|house|NN|singular

2.3. Conditions expérimentales et outils

2.3.1. Bitexte

Le point de départ de l’entraînement du système de traduction est ce que l’on désigne par

bitexte. Un bitexte est un corpus bilingue parallèle (un texte dans une langue de départ et sa

traduction) où les liens de traduction entre les phrases ou groupes de phrases sont explicites.

On peut obtenir un bitexte à partir d’un corpus bilingue en alignant le corpus au niveau

des phrases. Pour y arriver, deux types d’information sont exploités dans les algorithmes

d’alignement :

Mes contributions

- 34 -

- Les informations métriques : utilisent la longueur des phrases (comptée en nombre de

caractères ou mots) comme critère de mise en correspondance. Les auteurs ont en effet montré

qu’il existe un rapport de proportionnalité entre la longueur d'une phrase en langue de départ et

la longueur de sa traduction.

- Les informations à caractère linguistique : proposent d’aligner des corpus bilingues en

exploitant le fait que deux phrases en relation de traduction partagent souvent des mots communs

ou proches, « les cognâtes », comme des données chiffrées, des noms propres, ou encore des

mots partageant la même racine. Par exemple : accès/access, activité/activity,

parlement/parliament sont communs aux langues française et anglaise mais ce n’est pas

forcément le cas entre la langue arabe et l’anglais sauf dans le cas des noms propres et des sigles.

On a utilisé dans notre étude une collection de corpus parallèles arabe/anglais pour

entraîner les paramètres des modèles de traduction. D’abord le corpus d’entraînement composé

des textes arabe et anglais est dédié à l’entraînement de modèles de traduction, et sa partie

anglaise sert à la création du modèle de langue. Le deuxième corpus est celui de développement

composé des textes arabe et anglais et sert à la configuration et à l’optimisation des différents

paramètres du décodeur. On l’a utilisé aussi pour tester une configuration particulière de notre

décodeur.

Corpus d’entraînement Corpus de développement

ARABE ANGLAIS ARABE ANGLAIS

Nombre de paires de phrases 19972 19972 489 3423

Nombres de mots 131472 153066 5797 47008

Nombre de mots différents 24901 13337 1368 2455

Tableau 6 : données utilisée

2.3.2. Préparation des données

Pour préparer les données, on a utilisé un petit script clean-corpus-n.perl qui nettoie le

corpus parallèle, de sorte qu'il fonctionne bien avec l’apprentissage. Ce script effectue les étapes

suivantes:

Supprime les lignes vides

Supprime les espaces redondants

Supprime les lignes qui sont trop courtes ou trop longues par rapport à leur ligne

correspondante.

Pour la préparation d’un corpus bilingue au format requis par GIZA++ à partir du bitexte,

on a besoin d’un outil qui prend en charge la tache de transformation. Il calcule les fréquences de

chaque mot puis associe un indice à chacun, il produit alors un texte formé d’une suite d’indexes.

Cet outil permet entre autre de spécifier laquelle des deux langues sera la langue source

(dans notre cas est l’arabe), et gère également des options qui peuvent influer sur la qualité des

modèles produits, comme la longueur maximale des phrases que l’on veut conserver à

l’entraînement, ou encore la fréquence minimale d’un mot en dessous de laquelle un mot sera

associé à une forme inconnue (UNK). Il permet enfin d’extraire du bitexte initial une petite

collection de phrases pour le test.

Mes contributions

- 35 -

Le format d’entrée est un bitexte où les phrases sont reliées une à une :

Tableau 7 : exemple de Bitexte

Pour adapter ce deux corpus d’apprentissage au format requis par GIZA++ qui les

aligne, on génère deux fichiers de vocabulaire ar.vcb et en.vcb puis on transforme les corpus

d’apprentissage en remplaçant les mots par leurs nombres associés.

Fichier de vocabulaire anglais (en.vcb) Fichier de vocabulaire arabe (ar.vcb)

1 UNK 0

2 I 10407

3 the 9964

4 to 9300

5 a 9180

6 you 8477

7 is 4580

8 have 3860

0 UNK 1

2 10431

3 9103

6469 أ 4

5247 ف 5

3086 إى 6

2928 زا 7

2833 أسذ 8

Tableau 8 : exemple du fichier de vocabulaire

1

25 908 4 41 62 158 14 12 302 879 16 1334 14

68 705 62 32 2 37 40 9 22 4 111 83 627 9 79

1

5 5567 8 133 4061

15 4 15 1646

1

2 813 243 1372

3 329 67 355

1

Figure 7 : en-ar-int-train.snt : illustration du format de corpus généré, cet extrait contient 3 paires de

phrases.

Dans chaque ligne des corpus de vocabulaire (tableau 8), on trouve chaque mot, sa

fréquence d’apparition dans le corpus d’entraînement et son ordre. Dans la figure 7 chaque paire

de phrase est présentée sur trois lignes, la première ligne représente la fréquence d’apparition

généralement égale à 1, dans la deuxième et troisième ligne chaque mot dans la paire de phrase

est remplacé par son ordre dans le fichier de vocabulaire.

Enfin, GIZA++ exige de regrouper tous les mots par classes, pour cela on fait appel au

script mkcls11

distribué gratuitement, dans notre cas tous ces scripts sont regroupés dans le script

train-factored-phrase-model.perl.

11

http://ufal.mff.cuni.cz/~curin/SMT_QuickRun/

Corpus en langue cible : Anglais (en) Corpus en langue source : Arabe (ar)

1- Do you do alterations?

2- The light was red.

3- We want to have a table near the window.

رم ثع رعذلاد؟1-

.الإشبسح وبذ حشاء2-

.شذ بئذح ثجبت ابفزح3-

Mes contributions

- 36 -

2.3.3. Boite à outil de traduction probabiliste utilisée

On rappelle que l’approche de la traduction automatique statistique est la suivante. Étant

donné une phrase arabe s, nous cherchons la traduction anglaise t qui maximise p(t/s), la

probabilité qu’une phrase t soit la traduction de s (on traduira toujours du l’arabe s vers l’anglais

t dans ce qui suit) :

Figure 8 : Machine de traduction automatique statistique Arabe/Anglais

La figure 8 représente les principales composantes du système de traduction automatique

probabiliste. Le décodeur prend en entrée le texte source, le modèle de traduction et le modèle de

langue pour fournir en sortie le texte traduit. Notons que la langue vers laquelle on veut traduire sera

appelée « langue cible ».

2.3.4. L’alignement automatique (GIZA++)

GIZA++12

est une mise en œuvre de modèles IBM disponible librement. Nous l’avons

besoin comme une première étape pour établir l’alignement de corpus.

Notons que chaque mot anglais n’est aligné qu’à plusieurs mots arabe, mais chaque mot

arabe est seulement aligné au plus un mot anglais. Ce type d’alignement 1-N est exécuté dans les

deux sens dans la phase d’apprentissage.

GIZA++ possède deux modules d’alignement l’un de la langue source vers la langue

cible et l’autre inversement. L’idée est de collecter les comptes normalisés par la probabilité de

chaque alignement. Dans notre cas, on a entraîné les cinq modèles IBM, ce qui correspond à

initialiser récursivement les paramètres de IBM5 à partir des paramètres de IBM4, de IBM4 à

partir de IBM3, de IBM3 à partir de IBM2 et de IBM2 à partir de IBM1.

Les résultats de l’alignement sont stockés sous forme de matrice creuse binaire. Une table

de transfert (T-table) qui contient les probabilités de traduction des mots de la langue source vers

les mots de la langue cible et des tables d’alignement correspondent aux probabilités que le mot

anglais d’une position i soit à la position j dans une paire de phrases de longueur différent. Il est

possible aussi d'utiliser des fertilités uniformes lors de l'entraînement du modèle IBM3 à partir

12

http://code.google.com/p/giza-pp/

Mes contributions

- 37 -

du modèle IBM2, mais [Brown et al., 1993] suggèrent une initialisation de fertilités qui prend le

modèle de IBM2 en compte.

Amélioration avec les étiquettes syntaxiques sous forme factorisée

L’alignement de données dans la modèle factorielle fonction sur les facteurs du mot

exactement comme sur la forme de surface. Les modèles de traduction basé sur les séquences de

mots sont acquise à partir d’alignement des mots du corpus parallèle par l’extraction de toutes les

paires de mots qui sont compatible avec les mots alignés en tenant compte des différentes

facteurs

2.3.5. Le décodage (Moses)

Le système de traduction décrit dans ce chapitre repose sur Moses [Koehn et al., 2007],

un traducteur libre pour un modèle de traduction par groupes de mots. À partir d’un texte source,

le traducteur emploie un modèle de langage trigramme à repli et une table de traduction pour

générer une liste de n meilleures traductions. Celles-ci sont ensuite réévaluées à l’aide d’un

modèle de langage neuronal quadri-gramme afin de sélectionner la traduction cible.

Moses13

est distribué sous licence libre GPL et est activement développé et dispose de

nombreuses caractéristiques intéressantes, comme la possibilité d’exploiter des modèles de

traduction factorisés ou des modèles de distorsion lexicalisés, de traduire des réseaux de

consensus, de spécifier la traduction de certains mots via un fragment de code XML, etc.

2.3.5.1. Modèle

Supposons qu’il faille trouver la meilleure traduction d’une phrase source s. Le traducteur

Moses cherche la phrase cible t qui maximise une combinaison log-linéaire de fonctions

caractéristiques. Les fonctions caractéristiques utilisées dans ce système sont les suivantes :

Les m scores que la table de traduction attribue à tout couple de groupes de mots

(t,s).

Le score d’un modèle de langage. Nos expériences emploient un modèle

trigramme à repli.

Le score du modèle de distorsion.

L’exponentielle du nombre de mots cible générés. Cette « fonction caractéristique

», appelée pénalité de mot, permet simplement de contrebalancer la tendance du

système à préférer les phrases courtes.

Finalement, l’expression que doit maximiser Moses est la suivante :

Équation ‎2-2

𝑡∗ = argmaxt 𝜆𝑖

𝑚

𝑖=1

log ℎ𝑖 𝑡𝑘 , 𝑠𝑘

𝑘

+ 𝜆𝐷 log 𝑑 𝑎𝑘 − 𝑏𝐾−1

𝑘

+ λML log Pr t + λPM |s|

où λ1, … , λm pondèrent les scores de la table de traduction, λD pondère le modèle de

13

http://www.statmt.org/moses/index.php

Mes contributions

- 38 -

distorsion, λML le modèle de langage et λPM la pénalité de mot. L’opération argmax de l’équation

I-2 porte explicitement sur l’ensemble des phrases cible t mais aussi implicitement sur les

variables cachées nécessaires au décodage, à savoir la segmentation de s en groupes de mots et

leur traduction.

2.3.5.1. Méthodes d'apprentissage pour la traduction de phrase

Nous proposons d’utiliser dans le modèle de traduction des unités enrichies constituées

des formes de surface des mots, auxquelles sont agglutinées leurs catégories morphosyntaxiques

respectives. Cette méthode permet une désambiguïsation des mots tenant compte de leurs rôles et

de leurs contextes grammaticaux. Un exemple d’énoncé, avec les unités enrichies, est donné en

arabe (AR) et en anglais (EN):

RP|ز DT|و NN|زعمبد NNS|ن PRP$|اي DT|شخصخ NN|؟ PUNC| AR :

EN : Are|VBP|be these|DT|these all|PDT|all your|PP$|your personal|JJ|personal

effects|NNS|effect ?|SENT|?

2.3.5.2. Stratégie de recherche

Moses cherche la meilleure traduction de façon similaire au décodeur pour IBM4, en

gérant des traductions partielles. Le décodage commence par l’hypothèse « vide », qui ne traduit

aucun mot source et ne produit aucun mot cible. Puis, le traducteur choisit itérativement une

hypothèse partielle et l’étend en traduisant un groupe de mots supplémentaire (d’un ou plusieurs

mots source) à l’aide d’entrées de la table de traduction. Il est à noter qu’avec ce modèle, tout

groupe de mots doit être aligné à un groupe de mots non vide, alors que le modèle IBM4 forçait

le décodeur à envisager que certains mots aient une fertilité nulle et que d’autres soient insérés

spontanément. Ce qui simplifie l’algorithme de décodage en évitant les multiples itérations.

Le résultat final de l’algorithme est obtenu comme avec le traducteur à base de mots en

partant de la meilleure hypothèse complète et en suivant récursivement les pointeurs arrières vers

les hypothèses partielles précédentes.

2.3.5.3. Evaluation (outils de scoring NIST)

BLEU (BiLingual Evaluation Understudy) est un outil d’évaluation de traduction

automatique inventé par [Papineni et al., 2002]. Nous l’utilisons tout au long de nos expériences

pour évaluer et comparer la qualité de nos traductions. Le principe de BLEU est de comparer une

ou plusieurs traductions de référence (faites par un humain) avec notre traduction automatisée en

nous basant sur des séquences de mots n-grammes, le but étant de trouver combien de n-

grammes sont retrouvés dans la traduction de référence.

En sortie, BLEU attribue un score entre 0 et 1, sachant que plus on est proche de 1,

meilleure est la traduction (nous le ramènerons souvent à un pourcentage). Il a été prouvé que

BLEU est fortement corrélé avec le jugement humain mais cette métrique est l’objet de débats

dans la communauté de traduction automatique. Elle est cependant souvent utilisée comme une

aide à l’évaluation des traductions nous l’utiliserons pour vérifier la qualité incrémentale de nos

approches.

Avant de calculer le score BLEU, on choisit d’évaluer les résultats de la traduction

qualitativement pour voir l’effet d’ajouter les informations morphosyntaxiques aux données

Mes contributions

- 39 -

2.4. Expériences et résultats

Après la présentation des outils du système de traduction qui permet l’entraînement des

modèles IBM et l’outil de décodage Moses, nous allons maintenant tester notre système sur des

textes arabes et évaluer les résultats obtenus. Dans notre cas on s’intéressera à la qualité de

traduction produite. A partir de ce système de base, nous tenterons de proposer des solutions

originales pour améliorer nos résultats de traductions

2.4.1. Les étapes de réalisation

Pour la réalisation d’une application pour le traitement automatique en langage naturel, il

est nécessaire de débuter par la collection des outils aidant pour ce travail.

2.4.1.1. Nettoyage / Alignement de corpus parallèles anglais / arabe

Le corpus IWSLT 2007 a été utilisé dans notre travail pour entraîner les paramètres des

modèles de traduction. Ce corpus est constitué de 19972 paires de phrases, 153066 mots anglais

et 131472 mots arabes. Les tailles des vocabulaires anglais et arabe sont respectivement de 13337

et 24901 mots différents. Un tel corpus peut être considéré comme relativement petit pour

l’apprentissage d’un modèle statistique de traduction, si on le compare aux corpus utilisés dans

de grands projets de traduction automatique comme le projet GALE 14

qui utilise des corpus

parallèles de plusieurs millions de phrases.

Donc, les entrées initiales de notre système, comme décrit la figure 9, sont deux corpus,

un corpus arabe et un autre anglais. Ces deux corpus sont structurés de telle façon que chaque

ligne i dans le corpus arabe soit alignée avec la ligne i dans le corpus anglais, ce qui fait que la

ligne i dans le corpus anglais est la traduction de la ligne i dans le corpus arabe.

Afin d’obtenir plus de flexibilité dans notre table de traduction, on a supprimé les

voyelles courtes de notre corpus arabe parce qu’ils sont facultative dont telle corpus comme

IWSLT. En plus, on trouve le même mot étant voyellé de manière différente dans notre corpus

d’apprentissage, c'est-à-dire, parfois il n’est pas voyellé et parfois que la première ou la dernière

lettre est voyellé.

Figure 9 : bitexte étiqueté aligné par phrase

2.4.1.2. Développement du système état de l’art et son amélioration

Après avoir installé les outils informatiques nécessaires, et préparé le corpus, nous avons

commencé à entraîner les 5 modèles IBM à l’aide de GIZA++.

Comme première expérience, on a entraîné le modèle avec la méthodologie classique non

14

http://projects.ldc.upenn.edu/gale/data/DataMatrix.html

Extrait de corpus anglais étiqueté Extrait de corpus arabe étiqueté

1. Do|do|VV you|you|PP do|do|VV alterations|alteration|NNS

2. The|the|DT light|light|NN was|be|VBD red|red|JJ

3. We|we|PP want|want|VVP to|to|TO have|have|VH a|a|DT table|table|NN

near|near|IN the|the|DT window|window|NN

1. NNS| رعذلادNN| عIN| ةVBP| رمRP|

2. JJ| حشاءVBD| وبذNN| إشبسحDT| اي

3. NN| بفزحDT| ايNN| جبتIN| ةNN| بئذحVBP|شذ

Mes contributions

- 40 -

factorielle (les mots sans utiliser d’autre information de lemme ou morphosyntaxique) ce qui

nous a donné notre référence (baseline).

En sortie de la phase d’entraînement, on obtient pour chaque modèle un ensemble

d’alignements (anglais-arabe et arabe-anglais), qui sont représentés par des liens entre les mots et

leurs positions.

2.4.1.3. Utiliser les étiquettes syntaxiques sous forme factorisée

Dans une deuxième expérience, nous avons utilisé les mots arabes normalisés

(normalisation des mots féminins uniquement ce n'est pas une vraie lemmatisation) pour les

aligner avec les lemmes anglais et les catégories de l’arabe avec les catégories correspondant de

l’anglais. Comme l’indique la figure 10, avec ces deux informations obtenues et un modèle de

langage de catégorie en plus, on génère les mots correspondants lors de la phase de traduction.

Puisque dans certain cas les lemmes sont inconnus, on ne peut pas donc trouver le mot en

utilisant uniquement sa catégorie. Pour cette raison, on a pensé dans la troisième expérience

d’aligne les mots de l’arabe avec les mots et les lemmes de l’anglais pour améliorer la table de

traduction et dans ce cas lorsqu’on n’a pas le lemme on fait l’appel à la forme de surface (mot).

Notons que le modèle de langage de la catégorie améliore encore la qualité de traduction

en donnant un ordre aux mots générés probablement mieux. Par exemple, un tel modèle préfère

la séquence nom_propre verbe_singulier nom_pluriel (NNP VBZ NNS) que la séquence

nom_pluriel verbe_singulie nom_propre (NNS VBZ NNP).

Mot

POS

Mot

Lemme

POS


Mot

POS

Mot

Lemme

POS


Figure 10 : schéma représente l’alignement des mots avec les lemmes et l’alignement des catégories

Figure 11 : schéma représente l’alignement des mots avec les mots et les lemmes et l’alignement des catégories

Mes contributions

- 41 -

2.4.2. Résultats

Nous avons effectué de nombreuses études comparatives sur les données de

développement pour évaluer les apports des différentes techniques.

2.4.2.1. Amélioration des sorties du système de traduction : analyse qualitative

Les résultats principaux sur la qualité de traduction sont résumés dans le Tableau 9 où

chaque ligne correspond à une expérience réalisée sauf que la première représente des phrases

sources pour l’évaluation et la dernière ligne la traduction humaine de ces dernières pour qu’ils

représentent la référence

Phrases en langue source

(arabe)

« signification en français »

ع مذ حجزد معذ سجمب1-

« Oui, j’ai réservé deux places en avance »

ف ؤخشح ا جشح2- « à l’arrière de la chambre »

ع لا شىخ سأعذب ه ح رغبدس اطبئشح3- « oui pas de problème je la rendrai lorsque vous quittez l'avion »

طجعب سأضع عب علاخ ب افك4- « Bien sûr, je vais signer ici OK »

ىه امب ثزجذ ف اصشف ثمشة افذق5- « Vous pouvez changer à la banque près de l’hôtel »

Expérience 1 :

Modèle non factoriel basé sur

les mots seuls

1- Yes , I reserved seats in advance ?

2- in the back room ?

3- Yes , no problem 'll be returning it for you حيه leave the plane .

4- Of course . put on it موافق sign here .

5- Can you make a change in the bank around in the hotel ?

Expérience 2 :

Modèle factoriel où les mots

arabes sont alignés avec les

lemmes anglais.

1- Yes , I reserved two seats in advance ?

2- in the back of the room .

3- Okay , no problem . I will return it for you . When does the plane .

4- Of course . put on it . Okay . Sign here .

5- Can you make changes in the nearest bank in the hotel ?

Expérience 3 :



mots et les lemmes anglais.

1- Yes , I have two a reservation in advance ?

2- in the back of the room .

3- Yes , no problem . I 'll return it for you . When will the plane .

4- Of course . Put it okay to sign here

5- Can you make a change at a bank near the hotel ?

Références : traductions

humaines de la phrase source

vers la langue cible (anglais)

1- Yes , I have already reserved two seats .

1- Sure . Two seats are booked .

1- Yes . We have reserved two seats already .

2- In the rear of the cabin .

2- In the back part of the cabin .

2- In the rear of the cabin .

3- Alright . I'll keep it for you until you get off the plane .

3- Okay . Let me give it back to you after we've arrived .

3- Sure . I'll return it back to you when you leave the plane .

4- Sure . I'll mark it here , OK ?

4- No problem . Let me mark here . Okay ?

4- OK . I'll put a mark here then . Alright ?

5- You can make an exchange at the bank near the hotel .

5- You can make an exchange at the bank near the hotel .

5- Exchange is possible at the bank around the hotel .

Tableau 9 : exemple de traduction fournis par les différents modèles

Mes contributions

- 42 -

L’effet d’enrichir les mots par les catégories morphosyntaxique semble améliorer la

qualité de traduction sur ces exemples. Pour les exemples présentés au tableau 9, dans le modèle

classique de traduction qui est basé seulement sur les mots, on a perdu par exemple dans la

phrase-1 l’information du nombre de places réservées tow qui été récupéré dans les deux autres

modèles factoriels. En plus, ces deux modèles sont plus flexibles pour générer les mots ce qui

apparaît dans les phrases 3 et 4 avec la traduction correcte des mots حيه et موافق (when et okay)

qui n’ont pas été traduits par le modèle classique.

En s’intéressant plus au détail, on remarque que le fait d’utiliser les catégories filtre le

modèle de traduction. En fait, il enlève les faux alignements qui existaient dans le modèle

classique (représenté dans la figure 12) et il génère plus de possibilités correctes qui n’existaient

plus dans le modèle classique (représenté dans la figure 13) pour passer de 6267 lignes dans la

table de traduction du modèle classique à 6942 lignes dans la table de traduction du modèle

factoriel.

ordered ||| (0) ||| (0) ||| 0.333333 0.243902 0.0149254 0.0117647 2.718 ||| مذ

the ||| (0) ||| (0) ||| 0.00049334 0.0010086 0.0298507 0.0082353 2.718 ||| مذ

seats ||| (0) ||| (0) ||| 0.0138889 0.135135 0.111111 0.454545 2.718 ||| معذ

two ||| (0) ||| (0) ||| 0.00325733 0.0194553 0.111111 0.454545 2.718 ||| معذ

all ||| (0) ||| (0) ||| 0.00628931 0.0020921 0.0588235 0.003096 2.718 ||| ع

Figure 12 : extrait de table de traduction d’un modèle classique (non factoriel)

okay|okay ||| (0) ||| (0) ||| 0.0075188 0.0078125 0.003663 0.0062305 2.718 ||| ع

well|well ||| (0) ||| (0) ||| 0.0217391 0.0167785 0.014652 0.0155763 2.718 ||| ع

yeeeah|<unknown> ||| (0) ||| (0) ||| 1 1 0.003663 0.0031153 2.718 ||| ع

yep|<unknown> ||| (0) ||| (0) ||| 1 1 0.003663 0.0031153 2.718 ||| ع

Figure 13 : extrait de table de traduction d’un modèle factoriel

2.4.2.2. Amélioration des sorties du système de traduction : analyse quantitative

Figure 14 : le score BLEU obtenue sur les différents modèles testés

En utilisant un corpus arabe de test constitué de 489 phrases et 7 références de ce dernier,

on a trouvé les scores BLEU de différentes expériences réalisées dans les mêmes conditions,

représenté dans la figure 14.

25,5

26

26,5

27

27,5

28

28,5

Baseline :

Modèle non factoriel

1ière expérience :



lemmes anglais

2ième expérience :



mots et les lemmes anglais

27,61

26,78

28,42Score BLEU

Mes contributions

- 43 -

Il apparu que les résultats sont plus intéressants en utilisant la désambiguïsation lexicale :

le score Bleu passe de 27,61 dans le cas classique vers 28,42 avec le modèle factoriel alignant les

mots de la langue arabe avec les mots et les lemmes de l’anglais. En remarque aussi que les

résultats du modèle factoriel alignant les mots arabe avec uniquement les lemmes de l’anglais

sont moins bons. Cela est peut être dû aux lemmes inconnus rencontré, dans ce cas ce modèle ne

peut pas générer le mot en utilisant uniquement sa catégorie.

Ceci montre bien, en tout cas, l’intérêt de travailler conjointement sur une amélioration

des techniques statistiques et sur l’incorporation de connaissances lexicales ou syntaxiques.

Conclusion

Dans ce chapitre, nous avons présenté nos expérimentations, en commençant par la

présentation de l’existant. Vu le résultat décevant de l’étiqueteur arabe ASVM, nous avons

décidé de réaliser notre propre étiqueteur. En évaluant ce dernier, nous avons trouvé que ce

nouvel étiqueteur arabe donne des performances correctes pour le type de corpus IWSLT qui

correspond à des transcriptions de la parole dans le domaine du tourisme. Nous avons ensuite

ajouté les catégories morphosyntaxiques des mots dans le modèle de traduction pour essayer

plusieurs techniques pour améliorer la qualité de traduction. Les analyses qualitatives et

quantitatives ont montré des premiers résultats encourageants.

Conclusion

- 44 -

Chapitre 3. Conclusion

3.1. Bilan d’étude

C'est au début des années 90, qu'une équipe de chercheurs d'IBM a proposé une approche

statistique opérationnelle pour la traduction automatique. Cette approche a bien pris sa place

dans ce domaine et montré sont efficacité, pour peu que des corpus parallèles conséquents soient

disponibles.

Dans la traduction statistique il y a deux problèmes. Tout d’abord, le problème de

modélisation : le modèle de traduction d’une part, et le modèle de langage en langue cible. Nous

avons en particulier montré que la boite à outil GIZA++ répondait bien à ces besoins de la

modélisation. Le second problème consiste à trouver la meilleure traduction possible, étant

donnés les modèles : c’est le problème du décodage.

Au cours de notre stage nous avons essayé d’insérer des informations morphosyntaxiques

dans notre traducteur automatique. Nous avons mis en place deux méthodes pour effectuer cette

tâche. La première utilise l’enrichissement du corpus d’apprentissage par des catégories, via un

formalisme de modèles factorisés. Les analyses qualitatives et quantitatives ont montré des

premiers résultats encourageants. Pour réaliser ce travail, nous avons aussi dû réaliser un

analyseur syntaxique robuste pour les données manipulées qui correspondaient à du dialogue

oral dans le domaine du tourisme.

Comme perspective, en plus de la validation expérimentale à plus grande échelle de nos

résultats, il serait intéressant de mettre en parallèle un analyseur sémantique (ontologie,

synonymie, métonymie …) qui calcule la similarité entre le mot source et sa traduction pour ne

pas perdre le sens du texte, car même pour les systèmes commerciaux de traduction comme

SYSTRAN, on trouve des traductions qui n’ont rien à voir avec la source.

- 45 -

3.2. Bilan personnel

Ce mémoire a été très intéressant et très enrichissant sur plusieurs niveaux.

Il m’a permis de découvrir le fonctionnement d’un laboratoire de recherche. Il m’a donné

une vue du travail de recherche. Il m’a permis d’acquérir une rigueur de travail indispensable

dans ce domaine. J’ai pu apprendre à travailler dans le milieu de la recherche en intégrant

l’équipe GETALP et bénéficier de leurs compétences.

De plus, j’ai pu apprendre à travailler sur contraintes notamment sur la contrainte de la

taille des fichiers traités. De plus cette étude m’a permis de mieux connaître la traduction

automatique. En effet mon stage m’a permis d’apprendre exactement comment fonctionne un tel

système. De plus j’ai pu approfondir mes connaissances en linguistique et tous les outils s’y

rapportant comme les étiqueteurs. Cette étude m’a permis d’ajouter tous ces éléments à mes

connaissances initiales. Cet élément ne pourra être qu’un plus pour ma future carrière.

Pendant ce mémoire de recherche, j'ai eu énormément de contact avec des gens différents.

J'ai acquis beaucoup d'expérience de communication. En plus, j’ai été heureux de faire des

connaissances avec des spécialistes du domaine du TALP (Traitement Automatique de la Langue

Ecrite et de la Parole).

Finalement, cette expérience aura été grandement enrichissante aussi bien au niveau

personnel que pour ma future carrière de chercheur en informatique linguistique et précisément

en traduction automatique statistique de la parole.

Conclusion

<<Bibliographie

- 46 -

Bibliographie

Aljlayl, M., & Frieder, O. (November 2002). On Arabic Search: Improving the Retrieval

Effectiveness. In 11th International Conference on Information and Knowledge

Management (CIKM), Virginia (USA), , 340-347.

Arun, A., & Koehn, P. (September 2007). Online learning methods for discriminative training of

phrase based statistical machine translation. In Proc. of MT Summit, Copenhagen,

Danemark. , pages 15–20.

Awdé, A. (2003). Thèse Comparaison de deux technique de décodage pour la traduction

probabiliste.

Bahl, L. R., & Mercer, R. L. (1976). Part of speech assignment by a statistical decision

algorithm. in IEEE International Symposium on Information Theory, Ronneby , 88-89.

Baloul, S., Alissali, M., Baudry, M., & Boula de Mareüil, P. (24-27 juin 2002). Interface

syntaxique-prosodique dans un système de synthèse de la parole à partir du texte en

arabe. 24es Journées d'Etude sur la Parole , 329-332.

Barbara Greene, B., & Gerald Rubin, M. (1971). Automated Grammatical Tagging of English.

Department of Linguistics, Brown University, Providence, Rhode Island .

Besacier, L. (kein Datum). Contributions à la traduction de parole arabe dialectal / anglais .

séjour de recherche IBM Watson, Oct. 2005/Nov. 2006 .

Besacier, L., & Mahdhaoui, A. (2007). The LIG Arabic / English Speech translation System at

IWSLT07. pp. 1-2.

Brill, E. (1993). A Corpus-Based Approach to Language Learning. University of Pennsylvania,

USA.

Brill, E. (1992). A simple rule-based part of speech tagger. In proceedings of the third

Conference on Applied Natural Language Processing, Trento, Italy .

Brill, E. (1994). Some Advances in Tranformation-Based Part-of-Speech Tagging. In

Proceedings of the 12th National Conference on Artificial Intelligence, Seattle , 722-727.

Brown Peter, F., Cocke, J., Pietra, S. A., Della, V. J., Fredrick, J., Lafferty, J. D., et al. (1990). A

statistical approach to machine translation. IBM Thomas J. Watson Research Center

Yorktown Heights, NY , 79-85.

Brown Peter, F., Pietra, V. J., Pietra, S. A., & Mercer, R. L. (1993). The Mathematics of

Statistical Machine Translation: Parameter Estimation. IBM T.J. Watson Research Center

, 264-311.

Buckwalter, T. (8. November 2002). Buckwalter Arabic Morphological Analyzer Version 1.0.

Abgerufen am 3. Mars 2008 von

http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2002L49:

http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2002L49

Chen, S., & Goodman, J. (octobre 1999). An empirical study of smoothing techniques for

language modeling. Computer Speech and Language , 359-394,.

Church, & Gale, W. (1991). A Program for Aligning Sentences in Bilingual Corpora », .

COLING 91 - Proceedings of the 29th Annual Meeting of the Association for

Computational Linguistics .

Church, K. (1988). A stochastic parts program and noun phrase parser for unrestricted text. in

proceedings of the Second Conference on Applied Natural Language Processing, ACL,

Austin, Tx, .

Cutting, D., Kupiec, J., Pedersen, J., & Sibun, P. (1992). A pratical part-of-speech tagger. in

<<Bibliographie

- 47 -

Proceedings of the Third Conference on Applied Natural Language Processing, ACL .

Darwish, K. (2003). Probabilistic Methods for Searching OCR-Degraded Arabic Text. Doctoral

dissetation, University of Michigan .

Débili, F., Achour, H., & Souici, E. (juillet-août 2002). La langue arabe et l'ordinateur : de

l'étiquetage grammatical à la voyellation automatique. Correspondances de l'IRMC, N°

71 , 10-28.

Déchelotte, D. (2007). Traduction automatique de la parole par méthodes statistiques.

Derose, S. (1988). Grammatical category disambiguation by statistical optimization. in

Computational Linguistics 14 .

Diab, M., Hacioglu, K., & Jurafsky, D. (2004). Automatic Tagging of Arabic Text: From Raw

Text to Base Phrase Chunks. The Nation Science Foundation, USA .

Germann, U., Jahr, M., Knight, K., Marcu, D., & Yamada, K. (2001). Fast decoding and optimal

decoding for machine translation. In Proc. of the Meeting of the Association for

Computational Linguistics, Toulouse, France , 228–235.

Habash, N. (2005). Introduction to Arabic Natural Language Processing. Tutoriel in the ACL

43th annual meeting .

Huet, S., Gravier, G., & Sébillot, P. (2007). Morphosyntactic Processing of N-Best Lists for

Improved Recognition and Confidence Measure Computation. Interspeech 2007 , pp.

1741-1744.

Hutchins, J. (2001). Machine translation over fifty years. Histoire Epistémologie Language , 7-

31.

Jelinek, F., & Mercer, R. (1980). Interpolated estimation of Markov source parameters from

sparse data. Pattern Recognition in Practice, Amsterdam (Hollande) , 381-397.

Josef Och, F. (2003). Minimum Error Rate Training in Statistical Machine Translation .

Information Sciences Institute, University of Southern California, 4676 AdmiraltyWay,

Suite 1001, Marina del Rey, http://www.fjoch.com/acl03.pdf .

Josef Och, F., & Ney, H. (2002). Discriminative training and maximum entropy models for

statistical machine translation. Dans ACL , 295–302.

Josef Och, F., & Ney, H. (October 2000). Improved statistical alignment models. In Proceedings

of the 38th Annual Meeting of the Association for Computational Linguistics, Hong

Kong, China. disponible sur http://www.fjoch.com/GIZA++.html , 440–447.

Kempe. (1993). A probabilistic tagger and an analysis of tagging errors Technical report. Institut

für maschinelle Sprachverarbeitung, Universität Stuttgart .

Kiraz, G. A. (1996). Analysis of the Arabic Broken Plural and Diminutive, In Proceedings of the

5th Intrenational Conference and Exhibition on Multi-Lingual Computing . ICEMCO96 .

Koehn, P. (March 2006). Data Intensive Linguistics. Lecture 17 Machine translation (IV):

Phrase-Based Models .

Koehn, P., & Hoeang, H. (2007). Factored Translation models . EMNLP .

Koehn, P., Hoang, H., Birch, A., Callison-Burch, C., Federico, M., Bertoldi, N., et al. (2007).

Moses: Open Source Toolkit for Statistical Machine Translation. ACL 2007,

demonstration session .

Koehn, P., Josef Och, F., & Marcu, D. (2003). Statistical phrase-based translation. In NAACL ’03

: Proceedings of the 2003 Conference of the North American Chapter of the Association

for Computational Linguistics on Human Language Technology, Morristown, NJ, USA.

Association for Computational Linguistics. , 48–54.

Koehn, P. (2004). A Beam Search Decoder for Phrase-Based Statistical Machine Translation

<<Bibliographie

- 48 -

Models. User Manual and Description .

Leclerc, J. (2006). L'aménagement linguistique dans le monde. Von

http://www.tlfq.ulaval.ca/axl/monde/famarabe.htm:

http://www.tlfq.ulaval.ca/axl/monde/famarabe.htm abgerufen

Mahdhaoui, A. (2007). Contributions à la traduction automatique statistique de la parole.

Marcu, D., & Wong, D. (July 2002). A phrase-based, joint probability model for statistical

machine translation. In Proceedings of the Conference on Empirical Methods in Natural

Language Processing (EMNLP), Philadelphia, Association for Computational

Linguistics , 133–139.

Nagao, M. (1984). A framework of a mechanical translation between Japanese and English by

analogy principle. In Proc. of the Intl. NATO symposium on Artificial and human

intelligence, Lyon, France , 173–180.

Papineni, K., Roukos, S., Ward, T., & Zhu, W. (2002). BLEU : a Method for Automatic

Evaluation of Machine Translation. Proceedings of COLING-ACL ’02, Philadelphia,

USA , 311-318.

Quinlan, J. R. (1986). Induction of decision trees. Machine Learning , 81-106.

Schwenk, H., Déchelotte, D., Bonneau-Maynard, H., & Allauzen, A. (2007, Juin 5-8). Modèles

statistiques enrichis par la syntaxe pour la traduction automatique. TALN 2007 , pp. 253-

256.

Scmidit, H. (1994). Probabilistic part-of-speech tagging decision trees. In Proceedings of

International Conference on New Methods in Language Processing, Manchester, UK .

Sheila, M., Embleton and Margret, S., & Woodruff-Wieding. (kein Datum). Journal Machine

Translation: past, present, future . CHAPTER 4: Group and projects in the United States ,

50-66.

Somers, H. (June 1999). Review article : Example-based machine translation. Machine

Translation, 14(2) , 113–157.

Stolcke. (Sept 2002). SRILM - an extensible language modeling toolkit. In Proceedings of

ICSLP, Denver, Colorado, .

Toutanova, K., & Manning, C. (2000). Enriching the knowledege source used in a maximum

entropy part-of-speech tagger. In Proceedings of the 2000 Joint SIGDAT Conference

EMNLP/VLC , 63-71.

Vauquois, B. (1968). A Survey of Formal Grammars and Algorithms for Reconition and

Translation. FIP Congress-68, Edinburg , 254-260.

Wang, Y.-Y., & Waibel, A. (1997). Decoding algorithm in statistical machine translation. In

Proc. of the Conf, on European chapter of the Association for Computational Linguistics,

Madrid, Spain, , 366–372.

Witten, I., Bell, T., Witten, & al. (1991). The zero-freqency problem: Estmating the probabiltties

of novel events in adaptive text compression. IEEE Transactions Information Theory, vol

34, numéro 4 , 1085-1094.

Annexe

- 49 -

Annexe

Exemple d’un alignement arabe/anglais non factoriel

# Sentence pair (1) source length 23 target length 23 alignment score : 1.17414e-42

إ ب ف أخش اي لبعخ سف آر ي ن ة ثعض ب ا إرا أسدد أي شئب آخش فمظ أع

NULL ({ }) it ({ 1 2 }) 's ({ }) just ({ }) down ({ 3 }) the ({ 5 }) hall ({ 4 6 }) i ({ }) 'll ({ 7 }) bring ({ 8 9 }) you ({

10 11 }) some ({ 12 13 14 }) now ({ 15 }) if ({ 16 }) there ({ }) is ({ }) anything ({ 18 }) else ({ 17 19 20 }) you ({

}) need ({ }) just ({ 21 }) let ({ }) me ({ 23 }) know ({ 22 })


لا رمك ره سف آخز ب ر زبج إى ف ب

NULL ({ }) no ({ 1 }) worry ({ 2 3 }) about ({ }) that ({ 4 }) i ({ }) 'll ({ 5 }) take ({ 6 }) it ({ 7 }) and ({ 8 }) you

({ }) need ({ 10 11 }) not ({ 9 }) wrap ({ 12 }) it ({ 13 }) up ({ })


رم ة ع رعذلاد

NULL ({ }) do ({ 1 }) you ({ }) do ({ }) alterations ({ 2 3 4 5 })


اي إشبسح وبذ حشاء

NULL ({ }) the ({ 1 }) light ({ 2 }) was ({ 3 }) red ({ 4 })


شذ بئذح ة جبت اي بفزح

NULL ({ }) we ({ 1 }) want ({ }) to ({ }) have ({ }) a ({ }) table ({ 2 }) near ({ 3 }) the ({ 5 }) window ({ 4 6 })

…


لا أدسي ز اي إشبعخ ص خ

NULL ({ }) i ({ }) wonder ({ 1 2 }) if ({ }) the ({ 5 }) rumor ({ 6 7 }) is ({ 3 }) true ({ 4 })


مذ فذ ثز اي سبسح

NULL ({ }) i ({ }) 've ({ 1 }) run ({ 2 }) out ({ 4 }) of ({ }) petrol ({ 3 5 })

# Sentence pair (19954) source length 2 target length 2 alignment score : 0.0290133

سه م

NULL ({ }) fried ({ 2 }) fish ({ 1 })


شىشا جزلا رعشف ، لا أسذ أ فد ره

NULL ({ }) thank ({ 1 }) you ({ }) so ({ 4 }) much ({ 2 }) you ({ }) see ({ }) i ({ }) do ({ }) n't ({ 5 }) want ({ 6 })

to ({ 7 }) miss ({ 3 8 9 10 }) it ({ })


ى حجز أي معذ ي ز اي خ

NULL ({ }) can ({ 1 2 3 }) i ({ }) have ({ }) any ({ 5 }) two ({ }) seats ({ 6 }) available ({ 4 }) for ({ 7 }) tonight

({ 8 9 10 })


زى جغ أ أربي ز اي ألشاص

NULL ({ }) when ({ 1 }) should ({ 2 3 }) i ({ }) take ({ 4 }) these ({ 5 }) tablets ({ 6 7 })


ذي ن بئذح ي أسثعخ أشخبص

NULL ({ }) do ({ 1 }) you ({ 3 }) have ({ 2 }) a ({ }) table ({ 4 }) for ({ 5 }) four ({ 6 7 })


أد أ أجشة طجمب ب

NULL ({ }) i ({ }) 'd ({ 1 }) like ({ }) to ({ 2 }) try ({ 3 }) a ({ }) local ({ 5 }) dish ({ 4 })

Annexe

- 50 -

Exemple d’alignement arabe/anglais d’un modèle factoriel


DT|إرا RB|ا PRP|ب NN |IN|ثعض IN|ة PRP|ن IN|ي VBP|آر RP|سف NN|لبعخ DT|اي NN|أخش IN|ف PRP|ب RP|إ

VBD |PRP|أع RB|فمظ JJ|آخش NN|شئب RP|أي VBD|أسدد

NULL ({ }) it|PP|it ({ 1 2 }) 's|VBZ|be ({ }) just|RB|just ({ }) down|RB|down ({ 3 }) the|DT|the ({ 5 }) hall|NN|hall

({ 4 6 }) i|NP|i ({ }) 'll|MD|will ({ 7 }) bring|VV|bring ({ 9 }) you|PP|you ({ 10 11 }) some|RB|some ({ 8 12 14 17

}) now|RB|now ({ 15 }) if|IN|if ({ 16 }) there|EX|there ({ }) is|VBZ|be ({ }) anything|NN|anything ({ 18 19 })

else|RB|else ({ 20 }) you|PP|you ({ }) need|VVP|need ({ }) just|RB|just ({ 21 }) let|VV|let ({ 22 }) me|PP|me ({ 23

}) know|VVP|know ({ 13 })


$PRP|ب VBP|ف IN|إى VBP|ر زبج PRP$ |CC |RP|ب VBP|آخز RP|سف DT|ره VBP |IN|رمك RP|لا

NULL ({ }) no|RB|no ({ 1 }) worry|VV|worry ({ 2 }) about|RB|about ({ }) that|IN|that ({ 3 4 }) i|NP|i ({ })

'll|MD|will ({ 5 }) take|VV|take ({ 6 }) it|PP|it ({ 7 }) and|CC|and ({ 8 }) you|PP|you ({ }) need|VVP|need ({ 10 11

}) not|RB|not ({ }) wrap|VV|wrap ({ 9 12 }) it|PP|it ({ 13 }) up|RB|up ({ })


|RP رم|VBP ة|IN ع|NN رعذلاد|NNS

NULL ({ }) do|VVP|do ({ 1 }) you|PP|you ({ }) do|VVP|do ({ }) alterations|NNS|alteration ({ 2 3 4 5 })


JJ|حشاء VBD|وبذ NN|إشبسح DT|اي

NULL ({ }) the|DT|the ({ 1 }) light|NN|light ({ 2 }) was|VBD|be ({ 3 }) red|JJ|red ({ 4 })


NN|بفزح DT|اي NN|جبت IN|ة NN|بئذح VBP|شذ

NULL ({ }) we|PP|we ({ }) want|VVP|want ({ 1 }) to|TO|to ({ }) have|VH|have ({ }) a|DT|a ({ }) table|NN|table ({

2 }) near|IN|near ({ 3 }) the|DT|the ({ 5 }) window|NN|window ({ 4 6 })

…


JJ|ص خ NN|إشبعخ DT|اي DT|ز VBP |RP|أدسي RP|لا

NULL ({ }) i|NP|i ({ }) wonder|NN|wonder ({ 1 2 3 }) if|IN|if ({ }) the|DT|the ({ 5 }) rumor|NN|rumor ({ 4 6 7 })

is|VBZ|be ({ }) true|JJ|true ({ })


NN|سبسح DT|اي NN|ثز VBD|فذ RP|مذ

NULL ({ }) i|NP|i ({ }) 've|VHP|have ({ 1 }) run|VVN|run ({ 2 }) out|RP|out ({ }) of|IN|of ({ 4 }) petrol|NN|petrol

({ 3 5 })

# Sentence pair (19954) source length 2 target length 2 alignment score : 0.0167147

JJ|م NN|سه

NULL ({ }) fried|JJ|fried ({ 2 }) fish|NN|fish ({ 1 })


DT|ره VBP |PRP|فد IN|أ VBP|أسذ RP|لا VBP ،|PUNC|رعشف JJ|جزلا NN|شىشا

NULL ({ }) thank|VVP|thank ({ 1 }) you|PP|you ({ }) so|RB|so ({ 2 }) much|RB|much ({ }) you|PP|you ({ })

see|VVP|see ({ 4 }) i|NP|i ({ }) do|VVP|do ({ 5 }) n't|RB|n't ({ }) want|VV|want ({ 6 }) to|TO|to ({ 7 })

miss|VV|miss ({ 3 8 9 10 }) it|PP|it ({ })


|RP ى|VBP |PRP حجز|NN أي|RP معذ|NNS ي|IN ز|DT اي|DT خ|NN

NULL ({ }) can|MD|can ({ 1 2 }) i|NP|i ({ 3 }) have|VHP|have ({ }) any|DT|any ({ 5 }) two|CD|two ({ })

seats|NNS|seat ({ 6 }) available|JJ|available ({ 4 }) for|IN|for ({ 7 }) tonight|RB|tonight ({ 8 9 10 })


NN|ألشاص DT|اي DT|ز VBP|أربي IN|أ VBP|جغ WRP|زى

NULL ({ 6 }) when|WRB|when ({ 1 }) should|MD|should ({ 2 3 }) i|NP|i ({ }) take|VV|take ({ }) these|DT|these ({

5 }) tablets|NNS|tablet ({ 4 7 })


|RP ذي|IN ن|PRP$ بئذح|NN ي|IN أسثعخ|CD أشخبص|NNS

NULL ({ }) do|VVP|do ({ 1 }) you|PP|you ({ }) have|VHP|have ({ 2 3 }) a|DT|a ({ }) table|NN|table ({ 4 })

for|IN|for ({ 5 }) four|CD|four ({ 6 7 })


JJ| ب NN|طجمب VBP|أجشة IN|أ VBP|أد

NULL ({ }) i|NP|i ({ }) 'd|MD|will ({ 1 }) like|VV|like ({ }) to|TO|to ({ 2 }) try|VV|try ({ 3 }) a|DT|a ({ })

local|JJ|local ({ 5 }) dish|NN|dish ({ 4 })

Annexe

- 51 -

Exemple de phrase-table du modèle non factoriel

wo n't ||| (0) (1,2) ||| (0) (1) (1) ||| 1 0.0312109 1 0.0036498 2.718 " ||| ألا "

wo n't they bring ||| (0) (1,2) (3,4) (4) ||| (0) (1) (1) (2) (2,3) ||| 1 8.40786e-05 1 0.000116283 2.718 " ||| ألا ضشا ي "

wo n't they bring you ||| (0) (1,2) (3,4) (4) (5) ||| (0) (1) (1) (2) (2,3) (4) ||| 1 2.76097e-05 1 " ||| ألا ضشا ي ن "

4.19889e-05 2.718

keep ||| (0) (1) (1) ||| (0) (1,2) ||| 1 0.00120791 1 0.145186 2.718 " ||| أزز ة "

keep lane " ||| (0) (1) (1) (2) (2) (3) ||| (0) (1,2) (3,4) (5) ||| 1 4.62708e-05 1 0.0207133 2.718 " ||| " أزز ة حبسد ن "

keep lane ||| (0) (1) (1) (2) (2) ||| (0) (1,2) (3,4) ||| 1 7.54945e-05 1 0.0726055 2.718 " ||| أزز ة حبسد ن "

o-bon " ||| (0) (1) (1) (1) (2) ||| (0) (1,2,3) (4) ||| 0.5 0.00347824 1 0.01493 2.718 " ||| " أ ـ ث "

o-bon ||| (0) (1) (1) (1) ||| (0) (1,2,3) ||| 1 0.00567503 1 0.0523335 2.718 " ||| أ ـ ث "

kahala ||| (0) (0) (0) (0) ||| (0,1,2,3) ||| 1 0.015625 1 0.503003 2.718 ||| " أسوذ وبلا "

فض ن" أسوذ وبلا " ||| kahala please ||| (0) (0) (0) (0) (1) (1) (1) ||| (0,1,2,3) (4,5,6) ||| 1 0.000487067 1 0.321013

2.718

if ||| (0) (1) ||| (0) (1) ||| 1 0.262122 1 0.227337 2.718 " ||| إرا "

if i was ||| (0) (1) (2,3) ||| (0) (1) (2) (2) ||| 1 0.0346958 1 0.00177115 2.718 " ||| إرا وب "

for golden gate bridge we ||| (1) (1) (1) (0,1) (1,2,3,4) (1) ||| (3) (0,1,2,3,4,5) (4) (4) (4) ||| 1 ||| " إى جسش جذ جخ "

4.1435e-06 1 0.000266236 2.718

abc " ||| (0) (1) (1) (1) (2) ||| (0) (1,2,3) (4) ||| 1 0.000825055 1 0.0463417 2.718 " ||| " إ ث س "

abc ||| (0) (1) (1) (1) ||| (0) (1,2,3) ||| 1 0.00134614 1 0.16244 2.718 " ||| إ ث س "

the ||| (0) (1) ||| (0) (1) ||| 1 0.473097 1 0.0804291 2.718 " ||| اي "

…

||| two days ||| (0,1) ||| (0) (0) ||| 0.9375 0.106985 0.882353 0.236344 2.718

two days longer ||| (0,1) (2) ||| (0) (0) (1) ||| 1 0.00194518 1 0.0168817 2.718 ||| آخش

two to three days ||| (0,3) (1) (2) ||| (0) (1) (2) (0) ||| 1 1.39184e-05 1 0.00143303 2.718 ||| أ ثلاثخ

at least two days ||| (2,3) (1) (0) (0,1) ||| (2,3) (1,3) (0) (0) ||| 1 0.000965667 1 0.00230658 2.718 ||| عى اي أل

only two days ||| (1,2) (0) (0) ||| (1,2) (0) (0) ||| 1 9.0964e-05 1 0.0217068 2.718 ||| ف لظ

two days in ||| (0,1) (2) ||| (0) (0) (1) ||| 1 0.0549594 1 0.0780128 2.718 ||| ف

two days in japan ||| (0,1) (2) (3) (3) ||| (0) (0) (1) (2,3) ||| 1 0.0129462 1 0.0389494 2.718 ||| ف اي بثب

||| two days before ||| (0,1) (2) ||| (0) (0) (1) ||| 1 0.0151632 1 0.000778588 2.718

united ||| (0) (0) ||| (0,1) ||| 0.375 0.00972028 1 0.56875 2.718 ||| بزذ إشلاز

united ||| (0) (0) ||| (0,1) ||| 0.125 0.0347153 1 0.350615 2.718 ||| بزذ اي

united flight ||| (0) (0) (1) ||| (0,1) (2) ||| 1 0.01844 1 0.225887 2.718 ||| بزذ اي سحخ

united flight one ||| (0) (0) (1) (2) ||| (0,1) (2) (3) ||| 1 0.00504252 1 0.181774 2.718 ||| بزذ اي سحخ احذ

united flight one seven ||| (0) (0) (1) (2) (3) ||| (0,1) (2) (3) (4) ||| 1 0.00235784 1 0.142319 ||| بزذ اي سحخ احذ سجعخ

2.718

united flight one seven three ||| (0) (0) (1) (2) (3) (4) ||| (0,1) (2) (3) (4) (5) ||| 1 ||| بزذ اي سحخ احذ سجعخ ثلاثخ

0.00154145 1 0.125987 2.718

ua ||| (0) (0) (0) ||| (0,1,2) ||| 0.25 0.000323938 1 0.0710702 2.718 ||| زذ إشلاز سل

||| june ||| (0) ||| (0) ||| 0.5 0.428571 1 0.692308 2.718

||| june and ||| (0) (1) ||| (0) (1) ||| 1 0.358525 1 0.339749 2.718

||| june and july ||| (0) (1) (2) ||| (0) (1) (2) ||| 1 0.153654 1 0.254812 2.718

||| union ||| (0) ||| (0) ||| 1 0.2 1 0.666667 2.718

union station ||| (0) (0,1) ||| (0,1) (1) ||| 1 0.00571942 1 0.291667 2.718 ||| اسزش

union station and ||| (0) (0,1) (2) ||| (0,1) (1) (2) ||| 1 0.00478463 1 0.143135 2.718 ||| اسزش

union station and back ||| (0) (0,1) (2) (3) ||| (0,1) (1) (2) (3) ||| 1 1.90625e-05 1 0.143135 ||| اسزش رعذ

2.718

union square ||| (0) (1) ||| (0) (1) ||| 0.166667 0.0322581 1 0.37037 2.718 ||| سىش

Annexe

- 52 -

Exemple de phrase-table du modèle factoriel (mot arabe correspond au mot et lemme anglais)

wo|wo n't|n't ||| (0) (1,2) ||| (0) (1) (1) ||| 1 0.0239491 1 0.00224974 2.718 "|" ||| ألا "

wo|wo n't|n't they|they bring|bring ||| (0) (1,2) (3,4) (4) ||| (0) (1) (1) (2) (2,3) ||| 1 5.61121e-05 1 "|" ||| ألا ضشا ي "

0.000215753 2.718

||| wo|wo n't|n't they|they bring|bring you|you ||| (0) (1,2) (3,4) (4) (5) ||| (0) (1) (1) (2) (2,3) (4) "|" ||| ألا ضشا ي ن "

1 1.74734e-05 1 7.07399e-05 2.718

keep|keep ||| (0) (0,1) (1) ||| (0,1) (1,2) ||| 1 0.0010062 1 0.100997 2.718 "|" ||| أزز ة "

keep|keep lane|lane "|" ||| (0) (0,1) (1) (2) (2) (3) ||| (0,1) (1,2) (3,4) (5) ||| 1 2.20789e-05 1 "|" ||| " أزز ة حبسد ن "

0.0142189 2.718

keep|keep lane|lane ||| (0) (0,1) (1) (2) (2) ||| (0,1) (1,2) (3,4) ||| 1 4.02479e-05 1 0.0505067 "|" ||| أزز ة حبسد ن "

2.718

س" أ " " ||| or|or the|the c|c ||| (2) (0) (1) (2) (2) ||| (1) (2) (0,3,4) ||| 1 9.83051e-07 1 0.00181864 2.718

the|the "|" o-bon|<unknown> "|" season|season ||| (0,1) (2) (2) (2,3,4) (3) ||| (0) (0) (1,2,3) (3,4) (3) ||| 1 ||| " أ ـ ث "

0.000345073 1 7.52908e-05 2.718

ا" أ ـ ث " ||| the|the "|" o-bon|<unknown> "|" season|season now|now ||| (0,1) (2) (2) (2,3,4) (3) (5) ||| (0) (0)

(1,2,3) (3,4) (3) (5) ||| 1 0.000285805 1 5.75285e-05 2.718

kahala|<unknown> ||| (0) (0) (0) (0) ||| (0,1,2,3) ||| 1 0.015625 1 0.502933 2.718 ||| " أسوذ وبلا "

فض ن" أسوذ وبلا " ||| kahala|<unknown> please|please ||| (0) (0) (0) (0) (1) (1) (1) ||| (0,1,2,3) (4,5,6) ||| 1

0.000486458 1 0.316056 2.718

س" أ " إرش " " ||| the|the h|h hotel|hotel or|or the|the c|c ||| (0) (1,2) (5) (3) (4) (5) (5) ||| (0) (1) (1) (3) (4) (2,5,6) ||| 1

2.16607e-10 1 7.33323e-06 2.718

the|the h|h hotel|hotel ||| (0) (1,2) ||| (0) (1) (1) ||| 1 0.000220341 1 0.00403226 2.718 ||| إرش "

if|if ||| (0) (1) ||| (0) (1) ||| 1 0.229321 1 0.220889 2.718 "|" ||| إرا "

جت أ" إس " ||| s|<unknown> should|should ||| (0) (0) (0) (1) (1) ||| (0,1,2) (3,4) ||| 1 3.44161e-05 1 0.0133166 2.718

جت أ رى" إس " ||| s|<unknown> should|should be|be ||| (0) (0) (0) (1) (1) (2) ||| (0,1,2) (3,4) (5) ||| 1 1.15389e-06 1

0.00306282 2.718

جت أ رى وجشح" إس " ||| s|<unknown> should|should be|be big|big ||| (0) (0) (0) (1) (1) (2) (3) ||| (0,1,2) (3,4) (5) (6)

||| 1 2.44765e-07 1 0.000556876 2.718

the|the "|" abc|<unknown> "|" ||| (0,1,3) (2) (2) (2) (3) ||| (0) (0) (1,2,3) (0,4) ||| 1 0.000523176 1 ||| " إ ث س "

0.00137196 2.718

the|the ||| (0) (1) ||| (0) (1) ||| 1 0.443226 0.75 0.0809541 2.718 "|" ||| اي "

…

two|two days|day longer|longer ||| (0,1) (2) ||| (0) (0) (1) ||| 1 0.00256889 1 0.0198003 2.718 ||| آخش

two|two to|to three|three days|day ||| (0,3) (3) (2) ||| (0) () (2) (0,1) ||| 1 0.000572997 1 0.0132375 2.718 ||| أ ثلاثخ

at|at least|least two|two days|day ||| (2,3) (1) (0) (0,1) ||| (2,3) (1,3) (0) (0) ||| 1 0.00180885 1 ||| عى اي أل

0.00224414 2.718

two|two days|day in|in ||| (0,1) (2) ||| (0) (0) (1) ||| 1 0.0571232 1 0.0801752 2.718 ||| ف

two|two days|day in|in japan|japan ||| (0,1) (2) (3) (3) ||| (0) (0) (1) (2,3) ||| 1 0.0124462 1 0.0398836 ||| ف اي بثب

2.718

united|unite ||| (0) ||| (0) ||| 0.0769231 0.115385 1 0.31579 2.718 ||| بزذ

united|unite flight|flight ||| (0) (1) (1) ||| (0) (1,2) ||| 1 0.0104394 1 0.103637 2.718 ||| بزذ اي سحخ

united|unite flight|flight one|one ||| (0) (1) (1) (2) ||| (0) (1,2) (3) ||| 1 0.00278462 1 0.083398 ||| بزذ اي سحخ احذ

2.718

united|unite flight|flight one|one seven|seven ||| (0) (1) (1) (2) (3) ||| (0) (1,2) (3) (4) ||| 1 ||| بزذ اي سحخ احذ سجعخ

0.0014133 1 0.0652961 2.718

united|unite flight|flight one|one seven|seven three|three ||| (0) (1) (1) (2) (3) (4) ||| (0) ||| بزذ اي سحخ احذ سجعخ ثلاثخ

(1,2) (3) (4) (5) ||| 1 0.000930708 1 0.0576142 2.718

united|unite ||| (0) ||| (0) ||| 0.0769231 0.0384615 1 0.333333 2.718 ||| زذ

ua|<unknown> ||| (0) (0) ||| (0,1) ||| 0.25 0.00226757 1 0.121795 2.718 ||| زذ إشلاز

||| june|June ||| (0) ||| (0) ||| 1 0.777778 1 0.5 2.718

||| union|union ||| (0) ||| (0) ||| 0.333333 0.307692 1 0.444444 2.718

union|union station|station ||| (0) (0,1) ||| (0,1) (1) ||| 1 0.0129911 1 0.236111 2.718 ||| اسزش

union|union station|station and|and ||| (0) (0,1) (2) ||| (0,1) (1) (2) ||| 1 0.0109296 1 0.116619 2.718 ||| اسزش

union|union station|station and|and back|back ||| (0) (0,1) (2) (3) ||| (0,1) (1) (2) (3) ||| 1 ||| اسزش رعذ

4.25281e-05 1 0.116619 2.718

union|union square|square ||| (0) (1) ||| (0) (1) ||| 0.5 0.0286226 1 0.161616 2.718 ||| سىش

Annexe

- 53 -

Détail du la phase de traduction du modèle non factoriel

Translating: ع مذ حجزد معذ سجمب

DECODER TYPE : 0

BEST TRANSLATION: yes i reserved seats in advance [11111] [total=-5.206] <<0.000, -6.000, 0.000,

-26.015, -11.046, -11.376,

28, -5.594, 4.000>>

yes i reserved seats in advance

TRANSLATION HYPOTHESIS DETAILS:

SOURCE: [0..0] ع

TRANSLATED AS: yes

SOURCE: [1..2] مذ حجزد

TRANSLATED AS: i reserved

SOURCE: [3..3] معذ

TRANSLATED AS: seats

SOURCE: [4..4] سجمب

TRANSLATED AS: in advance

SOURCE/TARGET SPANS:

SOURCE: 0 1-2 3 4

TARGET: 0 1-2 3 4-5

SCORES (UNWEIGHTED/WEIGHTED):

0.0000 0.0000 0 distortion score

-6.0000 1.6766 1 word penalty

0.0000 0.0000 2 unknown word penalty

-26.0152 -4.2096 3 3-gram LM score, factor-type=0, file=/home/atef-by/corpus/englishLM.BO

-11.0456 -0.2507 4 Translation score, file=/home/atef-by/New/unfactored/phrase-table.0-0.1

-11.3758 -1.0347 5 " "

-2.7279 -0.1564 6 " "

-5.5936 -0.4528 7 " "

3.9996 -0.7780 8 " "

Finished translating

Annexe

- 54 -

Détail du la phase de traduction du modèle factoriel

Translating: ع|UH مذ|RP حجزد|VBD معذ|NN سجمب |JJ

DECODER TYPE : 0

BEST TRANSLATION: yes|UH|yes i|NP|i reserved|VVD|reserve two|CD|two seats|NNS|seat in|IN|in

advance|NN|advance [11111] [total=-7

.034] <<0.000, -7.000, 0.000, -32.554, -17.101, -5.915, -22.762, 0.000, -3.432, -3.138, -11.299, -1.426, -

7.245, 4.000, -7.860, -9.360, -10.962, -15.464, 4.000>>

yes i reserved two seats in advance

TRANSLATION HYPOTHESIS DETAILS:

SOURCE: [0..0] ع|UH

TRANSLATED AS: yes|UH|yes

SOURCE: [1..2] مذ|RP حجزد|VBD

TRANSLATED AS: i|NP|i reserved|VVD|reserve

SOURCE: [3..3] معذ|NNS

TRANSLATED AS: two|CD|two seats|NNS|seat

SOURCE: [4..4] سجمب|JJ

TRANSLATED AS: in|IN|in advance|NN|advance

SOURCE/TARGET SPANS:

SOURCE: 0 1-2 3 4

TARGET: 0 1-2 3-4 5-6

SCORES (UNWEIGHTED/WEIGHTED):

0.0000 0.0000 0 distortion score

-7.0000 -0.0059 1 word penalty

0.0000 0.0000 2 unknown word penalty

-32.5542 -4.2988 3 3-gram LM score, factor-type=0, file=/home/atef-by/corpus/englishLM.BO

-17.1009 -0.5230 4 3-gram LM score, factor-type=1, file=/home/atef-by/New/corpus/pos.lm

-5.9150 -0.1621 5 Generation score, file=/home/atef-by/New/pos/model/generation.2-1.gz

-22.7623 0.4724 6 " "

0.0000 -0.0000 7 Generation score, file=/home/atef-by/New/pos/model/generation.2,1-0.gz

-3.4318 -0.0625 8 " "

-3.1383 -0.0430 9 Translation score, file=/home/atef-by/New/factored/phrase-table.0-0,2.1

-11.2994 -1.1338 10 " "

-1.4263 -0.0160 11 " "

-7.2446 -0.0605 12 " "

3.9996 -1.0057 13 " "

-7.8597 -0.1848 14 Translation score, file=/home/atef-by/New/factored/phrase-table.1-1.1

-9.3597 -1.0325 15 " "

-10.9619 -0.0828 16 " "

-15.4636 1.0867 17 " "

3.9996 0.0184 18 " "

Finished translating

Documents

M©thodes Mixtes pour la Traduction Automatique Statistique