Upload
vanthien
View
218
Download
0
Embed Size (px)
Citation preview
Vers la construction des ressources linguistiques nécessaires pour la génération de la langue amazighe à partir de l’inter-langue UNL
Imane Taghbalout1, Fadoua Ataa Allah
2, Mohamed El Marraki
1
1LRIT, Faculté des sciences, Université Mohammed V, Rabat, Maroc
{taghbalout.imane, elmarrakimohamed}@gmail.com
2CEISIC, Institut Royal de la Culture Amazighe, Rabat, Maroc
Résumé.
La traduction automatique multilingue à base d’une inter-langue a été
largement considérée comme l’approche de traduction la plus attrayante dans
le cas des langues peu dotées informatiquement. Dans cet article, il s’agit de
l’inter-langue UNL (Universal Networking Language, langage du réseau
universel) qui permet à tout texte en langue source à être traduit vers
l’ensemble des langues cibles participantes au projet UNL, et cela par la
conversion du sens porté par le texte source en un graphe UNL, et la
déconversion de ce graphe en la langue cible. Ce processus d’enconversion
et de déconversion nécessite la préparation d’un ensemble de ressources
linguistiques, à savoir : une base lexicale et une base des règles
grammaticales. Dans cet article, nous décrivons les ressources linguistiques
nécessaires pour la déconversion du language UNL à la langue amazighe.
1. Introduction
L’informatisation de la langue amazighe est un enjeu stratégique garantissant sa survie et son positionnement dans la société de l’information. Dans ce sens, plusieurs efforts ont été déployés durant cette dernière décennie pour doter cette langue de ressources linguistiques et d’outils du TAL (Traitement Automatique des Langues). Cependant, à notre connaissance, il n’existe pas
Taghbalout Imane et al.
de travaux sur la Traduction Automatique (TA) de la langue amazighe. Pour cette raison, nous avons entamé les premières étapes de réalisation d’un Système de Traduction Automatique (STA). Certes l’approche statistique est l’approche la plus prometteuse dans le domaine de la TA mais elle requiert des corpus de très grande taille. Or, pour notre cas, la langue amazighe est une langue peu dotée informatiquement, il sera difficile de trouver un corpus de taille supérieure à quelques milliers de textes. Ainsi, nous avons opté pour l’approche linguistique : la traduction via l’inter-langue UNL. Dans ce cas, la traduction de n’importe quelle langue source vers n’importe quelle langue cible est le processus qui consiste à « convertir » la phrase source vers la représentation UNL puis à « déconvertir » la phrase cible à partir de cette représentation UNL. Le choix du langage UNL comme une langue pivot est basé premièrement sur le fait que l’UNL est conçu non seulement pour les langues les plus avancées informatiquement mais aussi pour les langues peu dotées et qui sont en voie de disparition, deuxièmement parce que ce langage donne la possibilité de travailler dans un environnement multilingue. Du coup, la réalisation du convertisseur Amazighe-UNL et du déconvertisseur UNL-Amazighe permettra de traduire tout texte amazighe vers les différentes autres langues participantes dans le projet UNL.
Dans la deuxième partie de cet article, nous présentons brièvement le projet UNL. Dans la partie qui suit, nous aborderons le processus de construction du dictionnaire UNL-Amazighe, en l’occurrence l’identification et la formalisation des paradigmes flexionnels et les cadres de sous-catégorisation amazighes. La quatrième partie sera consacrée à l’implémentation des règles grammaticales de génération du texte amazighe à partir de la représentation sémantique UNL.
2. Le projet UNL (Universal Networking Language)
L’organisation des Nations Unis a lancé le projet UNL (Universal Networking Language) sous les auspices de l’institut des études avancées de l’université des Nations Unis de Tokyo en 1996 (Uchida et al., 1999). Le but de ce projet est de permettre à toute personne du monde entier d’accéder à toutes les informations existantes sur Internet dans sa langue maternelle, favorisant ainsi le multilinguisme et réduisant les contraintes d’accéder à l’information à cause des barrières linguistiques. Pour cela, l’équipe de ce projet a développé un langage formel, appelé UNL, qui permet de coder le sens d’une information sous la forme d’un graphe qui se compose d’un ensemble de nœuds reliés par des arcs. Chaque nœud contient un Mot Universel “UW”, (Universal Word) et chaque arc porte une relation sémantique entre deux nœuds. UWs sont souvent accompagnés d’un
ensemble de propriétés grammaticales appelées des attributs (Uchida et Zhu, 2004). Les définitions de chacune de ces éléments de base de l’inter-langue UNL sont :
Mots Universaux (UWs) : constituent le vocabulaire du langage UNL, se sont des mots anglais accompagnés d’un ensemble de restrictions sémantiques et linguistiques.
Attributs Universaux : représentent les propriétés grammaticales qui peuvent enrichir la description des mots universaux. Par exemple, le mot universel “UW” qui correspond au mot anglais ‘play’ est ‘play (icl>do)’. (icl>do) est ajouté pour dire qu’il s’agit d’un verbe. Si le verbe ‘play’ est conjugué au passé, l’attribut ‘@past’ doit être ajouté à l’UW ‘play (icl>do)’. Ainsi, nous obtenons la syntaxe suivante de l’UW: ‘play (icl>do, @past)’.
Relations Universaux : sont des relations syntactico-sémantiques binaires qui connectent une paire de nœuds dans un graphe UNL. Le système UNL définit un ensemble de labels pour ces relations suivant leurs rôles. Par exemple, la relation “agt” (agent) définit la chose ou la personne qui initie une action.
La traduction automatique via UNL fait appel à un ensemble de ressources linguistiques et d’infrastructures techniques telles que :
2.1. Ressources linguistiques
Les ressources linguistiques sont stockées dans le framework « UNLarium », qui consiste en des bases de données lexicales (dictionnaires), des bases de règles (grammaires) et des bases de documents (des corpus).
Dictionnaire UNL qui liste les UWs avec leurs propriétés linguistiques et sémantiques dans un ordre alphabétique.
Dictionnaire LN (Langue Naturelle) qui liste les entrées lexicales des langues naturelles avec leurs propriétés linguistiques.
Dictionnaire LN-UNL, c’est un dictionnaire bilingue qui relie les entrées lexicales d’une langue naturelle à leurs correspondants en UNL. Nous pouvons exploiter ce dictionnaire de deux manières : Soit sous une forme générative, dans laquelle le dictionnaire comporte seulement les formes de base (lemmes), dans ce cas, nous l’appelons un dictionnaire de génération. Soit sous une forme énumérative dans laquelle le dictionnaire LN-UNL liste toutes les formes fléchies d’un lemme donné. Et dans ce cas, nous l’appelons un dictionnaire d’analyse . Il est exploité principalement dans la phase d’analyse des langues naturelles.
Taghbalout Imane et al.
Une base de connaissance UNL qui regroupe toutes les relations possibles entre les mots universaux, une liste des règles grammaticales responsables de la conversion des textes en langues naturelles et la déconversion des graphes UNL.
Grammaire UNL-NL sont l’ensemble de règles qui convertissent les phrases en des graphes UNL et vice-versa. Il existe deux types de règles : règles transformationnelles utilisées pour la génération des phrases en langue naturelle à partir du graphe UNL et vice-versa. Et règles de désambiguïsation utilisées pour améliorer la performance des règles transformationnelles en limitant leur application.
Le schéma suivant illustre l’architecture de fonctionnement des différentes
ressources linguistiques que nous avons expliquées ci-dessus.
Fig. 1 : Processus de l’Enconversion et de la Déconversion en UNL
2.2. Infrastructures techniques
En plus des ressources linguistiques, la réalisation d’un système de
traduction d’une langue via UNL se base sur deux composantes logicielles :
un système d’analyse (convertisseur) appelé IAN (Interactive Analysis
System) et un déconvertisseur, un système de génération des langues
naturelles appelé EUGENE (dEep-to-sUrface natural language GENErator).
IAN opère d’une manière semi-automatique, la désambiguïsation du sens
d’un mot reste une tâche humaine, effectuée par un spécialiste de langue,
cependant, EUGENE opère automatiquement.
3. Construction du dictionnaire UNL-Amazighe
En vue de bien créer un dictionnaire d’analyse ou de génération, nous
devrons disposer d’un ensemble de caractéristiques linguistiques telles que la
catégorie grammaticale, la transitivité, le paradigme flexionnel et le cadre de
sous-catégorisation auxquels appartient l’entrée lexicale. Chaque entrée du
dictionnaire UNL-Amazighe a le format suivant : (Teixeira et Avetisyan,
2009):
[NLW] {ID} ‘UW’ (ATTR …) < FLG, FRE, PRI >;
où:
NLW: l’entrée (Mot amazighe).
ID: Identifiant de l’entrée.
UW: (Universal Word) Mot universel.
ATTR: la liste des traits sémantiques, morphologiques (par exemple : paradigmes flexionnels), et syntaxiques (cadres de sous-catégorisation).
FLG: Code de la langue accordé par ISO 639-3 (Ber pour la langue Berbère).
FRE: la fréquence d’occurrence du NLW dans un texte.
PRI: la priorité du NLW lors de la génération de la langue.
La construction du dictionnaire ne se complète qu’avec la présence des traits
linguistiques : paradigmes flexionnels et cadres de sous-catégorisation
parmi la liste des attributs.
Dans la suite de cette partie, nous allons présenter les paradigmes
flexionnels et les cadres de sous-catégorisations amazighes que nous avons
identifiés et formalisés.
Taghbalout Imane et al.
3.1. Formalisation des paradigmes flexionnels amazighes
La langue amazighe est une langue morphologiquement riche, son système
flexionnel est complexe. En effet la formation des mots fléchis amazighes
fait appel soit à l’un de ces procédés : préfixation, suffixation ou bien
infixation, soit à la combinaison de ces trois procédés.
Les mots amazighes sont classés en neuf catégories lexicales : nom, verbe,
adverbe, préposition, pronom, conjonction, interjection, numéral et particule
(Boukhris et al., 2008; Ataa Allah et al., 2014). Puisque, en amazighe, les
conjonctions, les particules, les adverbes, les prépositions, les pronoms, et
les interjections sont invariants, nous ne pourrons pas parler de processus
flexionnel pour ces catégories. Dans cette partie, nous allons présenter les
paradigmes flexionnels des noms et des verbes amazighes que nous avons
formalisés (Taghbalout et al., 2016)
3.1.1. Paradigmes flexionnels nominales
La construction des paradigmes flexionnels de la catégorie nominale a
présenté pour nous un vrai challenge, étant donné qu’il existe plusieurs
formes de pluriels et qu’il y a un manque de travaux sur la classification des
noms amazighes par rapport à la forme du pluriel, l’état d’annexion et la
forme féminine.
En se basant sur des heuristiques et sur les travaux de (Boukhris et al., 2008;
Nejme et al., 2012; Raiss et Cavalli-Sforza, 2012), nous avons pu construire,
dans un premier niveau (Fig. 2), des classes lexicales des noms ayant la
même forme du pluriel. Dans un deuxième niveau, nous avons créé des sous-
classes pour chaque classe construite dans le niveau 1 mais cette fois suivant
la forme de l’état d’annexion et du genre. Il est à noter qu’un nom amazighe
peut appartenir à plusieurs classes à la fois selon sa variété régionale.
Fig. 2 : Méthode de création des classes de noms amazighes
En procédant de cette manière, nous avons pu identifier 90 classes
nominales, et du coup, nous avons formalisé 90 paradigmes flexionnels
(Taghbalout et al., 2015). La table ci-dessous présente, à titre d’exemple, les
règles flexionnelles du paradigme M49 dont appartient le nom "ⴰⵙⵍⵎⴰⴷ"
[Instituteur].
“Tab. 1” : Règles flexionnelles du paradigme M49
Règles flexionnelles Explication Forme fléchie
MCL&SNG&NOM: =0>""; Pas de changement dans le cas où
le nom est au masculin, singulier,
et à l’état libre
ⴰⵙⵍⵎⴷ
MCL&PLR&NOM:="ⵉ"<1,0>"ⵏ"; Changement de la première lettre
par "ⵉ" et suffixation de "ⵏ"
lorsque le nom est au masculin,
pluriel, et à l’état libre
ⵉⵙⵍⵎⴰⴷⵏ
MCL&SNG&CTS: = "ⵓ"<1;
Changement de la première lettre
par "ⵓ" lorsque le nom est au
masculin, singulier, et à l’état
d’annexion
ⵓⵙⵍⵎⴰⴷ
Taghbalout Imane et al.
MCL&PLR&CTS: ="ⵉ"<1, 0>"ⵏ";
Changement de la première lettre
par "ⵉ" et suffixation de "ⵏ"
lorsque le nom est au masculin,
pluriel, et à l’état d’annexion
ⵉⵙⵍⵎⴰⴷⵏ
FEM&SNG&NOM:="ⵜ"<0,0>"ⵜ";
Préfixation de la lettre "ⵜ" et
suffixation de la lettre "ⵜ" lorsque
le nom est à l’état libre, au
féminin, et au singulier
ⵜⴰⵙⵍⵎⴰⴷⵜ
FEM&SNG&CTS: ="ⵜ"<1, 0>"ⵜ";
Changement de la première lettre
par "ⵜ" et suffixation de "ⵜ"
lorsque le nom est à l’état
d’annexion, au féminin, et au
singulier
ⵜⵙⵍⵎⴰⴷⵜ
FEM&PLR&NOM:="ⵜⵉ"<1,0>"ⵉⵏ";
Changement de la première lettre
par "ⵜⵉ" et suffixation de "ⵉⵏ"
lorsque le nom est à l’état libre,
au féminin, et au pluriel
ⵜⵉⵙⵍⵎⴰⴷⵉⵏ
FEM&PLR&CTS:="ⵜ"<1,0>"ⵉⵏ";
Changement de la première lettre
par "ⵜ" et suffixation de "ⵉⵏ"
lorsque le nom est à l’état
d’annexion, au féminin, et au
pluriel
ⵜⵙⵍⵎⴰⴷⵉⵏ
Légende :
“a”<0;= Préfixation du caractère “a”;
“a”<1;= Substitution de l’initial par le caractère “a” ;
0>"a";= Suffixation du caractère “a”;
MCL : Masculin; FEM : Féminin; CTS : Etat d’annexion ; NOM : Etat libre
3.1.2. Paradigmes flexionnels verbales
La génération flexionnelle du verbe amazighe donne lieu à 46 formes
fléchies. Le mode participiale (PTP) renvoie 4 formes, le mode impératif
(IMP) renvoie 6 formes et le mode indicatif (IND) renvoie 36 formes (9
formes distinctes pour chacun des quatre aspects suivants : aoriste, accompli,
accompli négatif et l’inaccompli).
Pour formaliser les paradigmes flexionnelles de la catégorie verbale, nous
nous sommes basés sur la classification des verbes proposée par
(Laabdelaoui et al., 2012), adoptée et étendue par (Ataa Allah et
Boulaknadel, 2014), selon cette classification, les verbes sont classés en 31
classes selon les oppositions aoriste/accompli et aoriste/inaccompli. Notre
méthodologie de classification vise à extraire de nouvelles sous-classes de
chacune de ces 31 classes de telle façon, chaque sous-classe rassemble tous
les verbes ayant les même règles morphotactiques et morphophonologiques
de génération de leurs formes conjuguées. Le schéma ci-dessous illustre
notre méthodologie de création des sous-classes verbales.
Fig. 3 : Processus de création des classes verbales amazighes
A titre d’exemple, nous avons fait sortir à partir de la classe N° 2 trois autres
sous-classes 2-1, 2-2, et 2-3 ; les verbes appartenant à ces classes ne
partagent pas les mêmes règles morphotactactiques de génération des
formes aspectuelles Accompli négatif et Inaccompli.
Taghbalout Imane et al.
“Tab. 2” : Les sous-classes de la classe 2
Classe Aspect Procédé morphotactique de
génération des aspects
2-1 Accompli négatif Infixation pré-finale de ⵉ
Inaccompli Préfixation de ⵜⵜ
2-2 Accompli négatif Pas de changement
Inaccompli Préfixation de ⵜⵜ, et dégémination
2-3 Accompli négatif Pas de changement
Inaccompli Préfixation de ⵜⵜ
Le nombre de classes verbales que nous avons pu formalisé jusqu’à
maintenant est 58 paradigmes flexionnels verbales (Taghbalout et al., 2015).
Il est à noter qu’un verbe amazighe peut appartenir à plusieurs classes à la
fois selon le sens qu’il porte et aussi selon sa variété régionale.
La table « Tab.3 » présente un extrait des règles flexionnelles responsables
de la génération de la conjugaison du verbe ‘ⴰⵡⴹ’ (arriver) à l’accompli
négatif (PFV&NEG).
“Tab. 3” : Extrait des règles flexionnelles du paradigme M154
Verbe
Règles flexionnelles UNL
verbe
conjugué
‘ⴰⵡⴹ’
[awd]
arriver
1PS&PFV&NEG&IND:= "ⵓ"<1, "ⵉ"< [-
1], 0> "ⵖ";
ⵓⵡⵉⴹⵖ
2PS&PFV&NEG&IND:= "ⵓ"<1,"ⵉ"<[-1],
"ⵜ"<0, 0>"ⴷ";
ⵜⵓⵡⵉⴹⴷ
3PS&MCL&PFV&NEG&IND:=
"ⵓ"<1,"ⵉ"<[-1 ] , "ⵢ"<0;
ⵢⵓⵡⵉⴹ
3PS&FEM&PFV&NEG&IND:="ⵓ"<1,"ⵉ
"<[-1], "ⵜ"<0;
ⵜⵓⵡⵉⴹ
1PP&PFV&NEG&IND:="ⵓ"<1,"ⵉ"<[-1] ,
"ⵏ" <0;
ⵏⵓⵡⵉⴹ
2PP&MCL&PFV&NEG&IND:= "ⵓ" <1,
"ⵉ"<[-1], "ⵜ"<0,0>"ⵎ";
ⵜⵓⵡⵉⴹⵎ
2PP&FEM&PFV&NEG&IND:="ⵓ"<1,
"ⵉ"<[-1], "ⵜ"<0, 0>"ⵎⵜ";
ⵜⵓⵡⵉⴹⵎⵜ
3PP&MCL&PFV&NEG&IND:="ⵓ"<1,
"ⵉ" <[-1], 0>"ⵏ";
ⵓⵡⵉⴹⵏ
3PP&FEM&PFV&NEG&IND:="ⵓ"<1,"ⵉ
"< [-1],0> "ⵏⵜ";
ⵓⵡⵉⴹⵏⵜ
Légende :
1PP : 1ère personne du pluriel ; PFV : Accompli ; IND : le mode indicatif; FEM : féminin ; MCL: masculin
“a”<0;= Préfixation du caractère “a”;
“a”<1;= Substitution de l’initial par le caractère “a” ;
0>"a";= Suffixation du caractère “a”;
Dans le formalisme UNL, l’ordre d’apparition des règles est important ;
Comme le décrit la table ci-dessus, chaque règle flexionnelle exprime en
premier lieu les règles morphotactiques pour avoir le radical aspectuel,
ensuite les règles morpho-tactiques pour générer les indices de personnes
suivant le mode et finalement les règles morpho-phonologiques. Toutes ces
règles sont combinées, l’une après l’autre d’une manière linéaire pour
générer la flexion désirée.
3.2. Formalisation des cadres de sous-catégorisation amazighes
La sous-catégorisation définit le nombre et le type d’arguments syntaxiques
(spécificateur, complément, modificateur, adjoint, ...) qui coexistent avec la
forme de base (le constituant) pour constituer un syntagme. Jusqu’à présent,
nous avons identifié et formalisé 22 cadres de sous-catégorisation à savoir
des cadres de sous-catégorisation verbales, prépositionnelles, adverbiales, …
(Taghbalout et al., 2015)
Taghbalout Imane et al.
“Tab. 4” : Exemples de cadre de sous-catégorisation amazighes1
Cadres de Sous-
catégorisation Explication Exemple
VS (NP,ANM); Les verbes admettant des
sujets animés
ⵙⴼⵍⴷ ⵉⵢⵉ !
‘écoute moi’
VC (VH([ⴰⴷ])); Les verbes modaux
amazighes d’obligation
admettant un syntagme
verbal comme complément
précédé par ⴰⴷ
ⵉⵍⴰⵣⵎ ⴰⴷ ‘il faut que’
ⵉⵍⴰⵣⵎ ⴰⴷ ⵢⴰⵣⵏ ⵉⴷⵔⵉⵎⵏ ⵉ
ⴱⴰⴱⴰⵙ ‘Il doit envoyer de l’argent à son père’
AC (PH ([ⵏ])); Les adverbes admettant un
complément précédé par la
préposition ‘ⵏ’
ⴱⵕⵕⴰ ⵏ ‘à l’extérieur de’
ⵉⴼⴼⵓⵖ ⵙ ⴱⵕⵕⴰ ⵏ ⵍⵎⴷⵉⵏⵜ ‘Il est allé à l’extérieur de la ville’
PC (NP, NOM); Les prépositions admettant
un syntagme nominale à
son état libre comme
complément
ⴱⵍⴰ ‘sans’
ⵉⵛⵛⴰ ⴱⵍⴰ ⴰⵎⵢⴰ ‘il a mangé
gratuitement’
PS (PH([ⵙ])); Les syntagmes
prépositionnels admettant
la préposition ‘ⵙ’ comme
spécificateur
ⵡⴰⴷⴷⴰⵢ, ⵏⵏⵊ, ⴷⴰⵔ, …
ⵙ ⵏⵏⵊ ⵉ ⵡⴰⵎⴰⵏ ‘Au-dessus de
l’eau’
4. Construction des règles de transformation UNL-Amazighe
Le processus de génération des phrases amazighes à partir des graphes
sémantiques UNL fait appel à un ensemble de règles grammaticales, dites,
règles de transformations. Les phrases amazighes générées et les graphes
UNL sont supposés porter la même quantité d’informations en des structures
différentes. La première structure arrange les informations en une liste de
mots, alors que la deuxième les organise en un hyper-graphe. Ainsi, nous
pouvons dire que la traduction depuis une langue naturelle vers UNL et
depuis UNL vers une langue naturelle est une question de transformer les
listes en des réseaux et vice-versa. L’application web EUGENE, conçue
pour la génération, suppose que cette transformation doit être effectuée
progressivement à travers la structure de données transitoire « arbre » qui
pourrait venir entre la structure réseau et la structure liste.
Le dictionnaire UNL-Amazighe et la liste des règles de transformation UNL-
amazighe sont deux fichiers séparables que nous chargeons sur l’outil de
déconversion EUGENE pour pouvoir générer des phrases amazighes à partir
de tout document UNL. Nous illustrons dans ce qui suit le processus de
déconversion du document UNL suivant :
[S: S#1]
{org}
He gave her a book
{/org}
{unl}
agt(give :03.@past, 00 :01.@3.@male)
adr(give :03.@past, 00:05.@3.@female)
obj (give :03.@past, book :07.@3.@indef)
{/unl}
[/S]
L’exemple ci-dessus présente le cas d’une simple phrase UNL, elle comporte
trois relations universelles obj, agt, et adr :
obj : indique la chose qui est affectée directement par un évènement
ou par un état
agt : indique la chose qui initie une action
adr : indique la personne recevant quelque chose (complément
d’objet indirect)
Les attributs qui sont attachés aux UWs sont :
@past : le temps passé de l’UW give(icl>do) ‘donner’
Taghbalout Imane et al.
@3 : La troisième personne
@male : le genre masculin
@female : le genre féminin
@indef : l’article accompagné au nom est indéfini
Le graphe correspondant à la phrase UNL ci-dessus est :
Fig. 4 : Graphe UNL correspondant
Le processus de génération commence par parcourir le dictionnaire
UNL-Amazighe pour chercher et extraire les mots amazighes
équivalents aux mots universels du graphe UNL. Dans le cas du
graphe ‘Fig. 4’, voici les entrées du dictionnaire extraites :
[ⴰⴷⵍⵉⵙ]{}"book"(LEX=N,POS=NOU,LST=WRD,GEN=MCL,NUM=SNG,CAS=NOM,
PAR=M6,FRA=Y0) <Ber,0,0>;
[ⴼⴽ]{}"give"(LEX=V, POS=VER, TRA=NTST, PAR=M162, FRA=Y0) <BER,0,0>;
Après ce stade du mapping lexical, vient la phase d’application des règles de
transformations UNL-amazighe adéquates sur ces entrées lexicales pour
prendre en considération lors de la génération l’ordre syntaxique et la flexion
morphologique.
Ainsi, la phrase amazighe générée à partir du graphe UNL « Fig.4 » est
«ⵉⴼⴽⴰ ⵜⵜ ⴰⴷⵍⵉⵙ» ‘il lui a donné un livre’.
Fig. 5 : La phrase amazighe générée à partir du graphe UNL ‘Fig. 4’
Parmi les règles de transformations, elles existent certaines qui sont
indépendantes de la langue et d’autres qui lui sont propres. Jusqu’à présent,
nous avons pu implémenter 70 règles de transformation spécifiques à la
langue amazighe. La table ci-dessous présente quelques exemples de règles
grammaticales que nous avons implémentées.
“Tab. 5” : Exemples de règles de transformation de génération (UNL -amazighes
Règles de transformation Explication
agt(%x,V;%y,N):=VS(%x,+PER=%y,+GEN=%y,+NUM=
% y;%y, +CAS= CTS);
La relation sémantique Agent « agt »
entre le nœud %x de catégorie
grammaticale verbale et un autre %y
de catégorie nominale devient une
relation syntaxique (VS) dont le nom %
y est le spécificateur du verbe et prend
la marque de l’état d’annexion (CTS),
le genre et le nombre à partir du verbe.
obj(%x,V;%y,N):=VC(%x;%y,-CAS,+CAS= NOM); La relation sémantique Objet « obj »
entre le nœud %x de catégorie
Taghbalout Imane et al.
grammaticale verbale et un autre %y
de catégorie nominale devient une
relation syntaxique VC dont le nom %
y est le complément du verbe, qui reste
à l’état libre (NOM)
rsn(%x,V;%y,N):=VA(%x;PC([ⵙ],LEX=P,POS=PRE;%y,-
CAS, +CAS= CTS));
La relation sémantique de cause « rsn »
est transformée en la relation
syntaxique VA (Adjoint du verbe) dont
le nom %y est la cause de l’action du
verbe %x introduit par la préposition ⵙ
pos(%x,N;%y,D):=NS(%x;%y, DIS=AFT); La relation sémantique de possession
« pos » est transformée en une relation
syntaxique NS (spécificateur de nom)
dont le déterminant possessif se place
immédiatement après le nom
Conclusion
Les ressources linguistiques nécessaires à la traduction automatique
comprennent toujours un dictionnaire et des règles grammaticales.
L’élaboration de celles-ci est un processus incrémental et long. Nous avons
divisé notre projet de traduction automatique en deux modules : un module
d’analyse et un module de génération. Le présent article décrit le module de
génération. Dans un premier temps, nous avons abordé le processus de
réalisation du dictionnaire de génération UNL-Amazighe, en l’occurrence la
formalisation des paradigmes flexionnels et les cadres de sous-
catégorisation. Et dans un second temps, nous avons discuté les règles
grammaticales de génération UNL-amazighe. Actuellement, nous disposons
d’un dictionnaire de 2600 lemmes et d’une base de règles contenant 70
règles de transformation. Nous sommes en train de préparer un corpus de test
pour évaluer l’exactitude de la grammaire implémentée en calculant la F-
mesure ; en parallèle nous continuons à alimenter notre dictionnaire et à
élaborer de nouvelles règles de transformation UNL-amazighe.
Références
Ataa Allah, F., Boulaknadel, S., Souifi, H. (2014). ‘Jeu d’Etiquettes Morphosyntaxiques de la Langue Amazighe’, Asinag, n°9, pp. 171-184, ISSN : 2028-5663.
Ataa Allah, F. and Boulaknadel S. (2014). ‘Amazigh Verb Conjugator’. 9th International Conference on Language Resources and Evaluation (LREC 2014), Reykjavik, Iceland, May 26-31 2014, pp. 1051-1055.
Boukhris, F., Boumalk, A., El Moujahid, E., Souifi, H. (2008). ‘La nouvelle grammaire de l’amazighe’, IRCAM, Rabat, Maroc.
Laabdelaoui R. , Boumalk A. , Iazzi, E.M. , Souifi H., Ansar K. (2012). ‘Manuel de conjugaison de l’amazighe’ . IRCAM, Rabat, Morocco.
Nejme, F., Boulaknadel, S., Aboutajdine, D. (2012). ‘Toward an Amazigh language processing’, the 3
rd Workshop on South and Southeast Asian Natural
Language Processing, Mumbai, India.
Raiss, H. and Cavalli-Sforza, V. (2012). ‘Amazigh Nouns Morphological Analyzer’, 5
ème Conférence internationnale sur les TIC pour l’amazighe, Rabat,
Maroc.
Taghbalout, I., Ataa Allah, F., El Marraki, M. (2015). ‘Amazigh Noun Inflection in the Universal Networking Language’. International Journal of Education and Information Technologies.
Taghbalout, I., Ataa Allah, F., El Marraki, M. (2015). ‘Amazigh verb in the Universal Networking Language’. 12
th ACS/IEEE International Conference on
Computer Systems and Applications AICCSA, Marrakech, Morocco .
Taghbalout, I., Ataa Allah, F., El Marraki, M. (2015). ‘Amazigh Representation in the UNL Framework: Resource Implementation’. the International Conference on Advanced Wireless Information & Communication Technologies. Procedia Computer Science.
Taghbalout, I., Ataa Allah, F., El Marraki, M. (2016). ‘Towards UNL based machine translation for Amazigh language’. International Journal of Computational Science and Engineering;
Teixeira M. R. and Avetisyan V. (2009). ‘Generative and Enumerative Lexicons in the UNL Framework’, in proceedings of 7
th International
Taghbalout Imane et al.
Conference on Computer Science and_Information Technologies, (CSIT 2009), Yerevan, Armenia.
Uchida, H., Zhu, M., Senta, T.D. (1999), ‘UNL: A gift for a millinnium’. Institute of Advanced Studies, United Nations University, Tokyo.
Uchida, H. and Zhu, M. (2004) ‘The Universal Networking Language (UNL) Specification Version 3.0’. Edition 3, Technical Report, UNU.
Annexe
Symbole Explication
VS
Spécificateur du verbe
VC
Complément du verbe
AC
Complément de l’adverbe
NP
Syntagme nominal
PC
Comlément d’une préposition
ANM
Etre animé
NOM
Etat libre
NS
Spécificateur de nom
VH
La tête du syntagme verbale
PH
La tête du syntagme prépositionnel