28
MASPAR : De la segmentation à l’analyse syntaxique de textes arabes Lamia Hadrich Belguith, Chafik Aloulou & Abdelmajid Ben Hamadou Laboratoire de Recherche LARIS - MIRACL Faculté des Sciences Economiques et de Gestion de Sfax B.P. 1088, 3018 - Sfax – TUNISIE [email protected], [email protected], [email protected] Résumé Le présent travail entre dans le cadre du Traitement Automatique du Langage Naturel (TALN). Ainsi, nous présentons la modélisation et l'implémentation d'un système d'analyse robuste de l'arabe basée sur une approche agent. Ce système baptisé MASPAR «Multi-Agent System for Parsing ARabic» accepte en entrée un texte arabe et fournit en sortie la/ les représentation(s) syntaxique(s) de chacune des phrases qui le constituent. MASPAR se compose de six agents qui peuvent coopérer entre eux pour résoudre certaines ambiguïtés rencontrées aux différents niveaux d’analyse. Mots-clés : analyse robuste, traitement automatique de l'arabe, système multi-agent, coopération entre agents, grammaire HPSG. Abstract The present work belongs to the Natural Language Processing field. Thus, we present the conception and the implementation of a robust Arabic parser based on an agent approach. The parser called MASPAR «Multi-Agent System for Parsing ARabic» accepts as an input an Arabic text and produces as an output the syntactic representation of each sentence of the text. MASPAR is composed of six agents that could cooperate together in order to solve ambiguities in different parsing levels. Keywords: robust parsing, Arabic processing, multi-agent system, agent cooperation, HPSG grammar.

De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

  • Upload
    dotu

  • View
    216

  • Download
    0

Embed Size (px)

Citation preview

Page 1: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

MASPAR : De la segmentation à

l’analyse syntaxique de textes arabes

Lamia Hadrich Belguith, Chafik Aloulou & Abdelmajid Ben Hamadou

Laboratoire de Recherche LARIS - MIRACL Faculté des Sciences Economiques et de Gestion de Sfax

B.P. 1088, 3018 - Sfax – TUNISIE [email protected], [email protected],

[email protected]

Résumé

Le présent travail entre dans le cadre du Traitement Automatique

du Langage Naturel (TALN). Ainsi, nous présentons la modélisation

et l'implémentation d'un système d'analyse robuste de l'arabe basée

sur une approche agent. Ce système baptisé MASPAR «Multi-Agent

System for Parsing ARabic» accepte en entrée un texte arabe et

fournit en sortie la/ les représentation(s) syntaxique(s) de chacune

des phrases qui le constituent. MASPAR se compose de six agents

qui peuvent coopérer entre eux pour résoudre certaines ambiguïtés

rencontrées aux différents niveaux d’analyse.

Mots-clés : analyse robuste, traitement automatique de l'arabe,

système multi-agent, coopération entre agents, grammaire HPSG.

Abstract

The present work belongs to the Natural Language Processing

field. Thus, we present the conception and the implementation of a

robust Arabic parser based on an agent approach. The parser called

MASPAR «Multi-Agent System for Parsing ARabic» accepts as an

input an Arabic text and produces as an output the syntactic

representation of each sentence of the text. MASPAR is composed of

six agents that could cooperate together in order to solve ambiguities

in different parsing levels.

Keywords: robust parsing, Arabic processing, multi-agent system,

agent cooperation, HPSG grammar.

Page 2: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

1. INTRODUCTION Il est admis de nos jours que les systèmes de qualité de Traitement

Automatique des Langues (TAL) ne peuvent pas faire l’économie d’une analyse syntaxique des phrases et des textes. Cette analyse qui permet de déterminer les structures syntaxiques des phrases d’un texte, nécessite plusieurs connaissances telles que, les caractéristiques lexicales, les caractéristiques morphologiques des différents mots, etc. Ces connaissances ne sont pas produites par la phase syntaxique mais sont plutôt le résultat d’autres phases d’analyse telles que la phase d’analyse lexicale, la phase d’analyse morphologique, etc.

L’enchaînement des différentes phases d’analyse constitue une analyse linguistique. Cette analyse comprend “classiquement” les opérations suivantes [4] :

• Découper le texte en phrases et segmenter chacune des phrases en séquences d’unités lexicales (mots, expressions, …).

• Déterminer pour chaque unité lexicale, déjà segmentée, ses caractéristiques morphologiques.

• Déterminer comment ces unités lexicales s’articulent les unes avec les autres pour former des groupes syntaxiques de niveau supérieur.

• Reconnaître les rapports fonctionnels entre les syntagmes qui déterminent la structure sémantique de chaque phrase.

• Interpréter les structures sémantiques par rapport au contexte de l’énoncé et au modèle du discours.

Il est à noter qu’une des difficultés de l’analyse de la langue naturelle vient du fait que ces différents niveaux d’analyse ne sont pas ordonnés de façon linéaire ou séquentielle, mais interagissent de façon complexe. Il existe bien un ordre intrinsèque, dans la mesure où par exemple nous avons besoin de découper la phrase initiale en mots pour pouvoir y traiter chacun d’entre eux. Mais il ne s’agit là que d’un ordre possible de traitement.

Toutefois, la diversité et la complexité des connaissances à mettre en œuvre dans un système de TALN constituent une problématique à part entière pour les chercheurs dans ce domaine et limitent les résultats escomptés pour de tels systèmes.

Nous présentons dans cet article une synthèse de nos travaux sur l’analyse syntaxique de l’arabe. Ainsi, nous décrivons notre approche agent d’analyse robuste de textes arabes non voyellés et nous présentons notre système MASPAR réalisé selon cette approche.

Page 3: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

Dans des publications antérieures, nous avons présenté quelques systèmes d’analyse réalisés dans notre laboratoire. Nous citons notamment le système STAr pour la segmentation de textes arabes en paragraphes, phrases et propositions [9], le système MORPH d’analyse morphologique [11] et le système SYNTAXE d’analyse syntaxique [6]. Dans cet article, nous considérons chacun de ces systèmes comme un agent coopérant de MASPAR et nous présentons les résultats de leurs évaluations avant et après leur intégration dans ce système.

Cet article s’articule autour de cinq parties principales. La section 2 détaille les problèmes d'analyse automatique de l'arabe. La section 3 présente un bref aperçu sur les travaux d’analyse de l’arabe. La section 4 décrit les principales méthodes d’analyse robuste. La section 5 présente la modélisation d’un système multi-agent pour l’analyse de l’arabe tout en détaillant ses différentes phases d’analyse. Enfin, la section 6 décrit l’implémentation et l’évaluation du système MASPAR.

Notons que tous les exemples en arabe sont suivis d’une traduction en français et aussi d’une translittération selon le système de Buckwalter1. Nous avons choisi ce système car c’est le standard le plus connu.

2. PROBLÈMES D’ANALYSE AUTOMATIQUE DE L’ARABE

Outre les phénomènes classiques comme l’ambiguïté, la coordination, la référence, l’anaphore et l’ellipse, phénomènes existants dans les langues latines2, il y a d’autres problèmes spécifiques à la langue arabe et à certaines autres langues sémitiques, à savoir l’absence de voyelles, l’absence d’une ponctuation régulière et les problèmes de flexion et d’agglutination.

2.1. L’absence de voyelles

La plupart des documents arabes sont non voyellés. En effet, les voyelles ne sont utilisées que dans certains ouvrages scolaires pour débutants et dans le Coran.

1 http://www.qamus.org:80/transliteration.htm 2 Par langues latines, nous désignons les langues utilisant l’alphabet latin telles que les langues romanes (espagnol, français, italien, etc.) et les langues latino-germaniques (anglais, allemand, danois, etc.) qui font partie de la famille des langues indo-européennes.

Page 4: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement plus d’une voyellation lexicale et 89,9% des noms qui le constituent acceptent potentiellement plus d’une voyelle casuelle. La proportion des mots ambigus passe à plus de 90% si les comptages portent sur les voyellations globales (lexicales et casuelles) [32].

L’accentuation multiple reste un phénomène rare en français, alors qu’en arabe ce phénomène est très fréquent vu les proportions importantes des mots ambigus. Ce phénomène est dû au fait que chaque consonne peut prendre "indifféremment" l'une des sept voyelles de l'arabe. À ce propos, l’étude effectuée par El-Bèze et al. [19] sur l’accentuation automatique du français montre que 91,7% des mots du lexique ne sont pas ambigus et la moyenne est de 1,1 accentuations possibles par mot. Par contre, en arabe l’étude statistique effectuée par Ouersighni [30] sur l’ambiguïté morphologique montre que seulement 19% des mots du corpus ne sont pas ambigus et la moyenne est de 6 voyellations par mot.

2.2. L’irrégularité de l’ordre des mots dans la phrase

L’ordre des mots en arabe est relativement libre. D’une manière générale, on met au début de la phrase le mot sur lequel on veut attirer l’attention et l’on termine sur le terme le plus long ou le plus riche en sens ou en sonorité. Cet ordre provoque des ambiguïtés syntaxiques artificielles dans la mesure où il faut prévoir dans la grammaire toutes les règles de combinaisons possibles d’inversion de l’ordre des mots dans la phrase.

Ainsi par exemple, on peut changer l’ordre des mots dans la phrase (1) pour obtenir deux phrases ayant le même sens. La seule différence entre ces deux phrases est que la phrase (2) exprime une insistance sur le sujet (i.e., le savant et le chercheur) alors que la phrase (3) exprime une insistance sur le complément (i.e., en Egypte) : ��� �� �� [wld AlEAlm wAlbAHv fy mSr] (1) و�� ا���� وا� (est né le savant et le chercheur en Egypte)

�� [AlEAlm wAlbAHv wld fy mSr] (2) و�� �� ���ا���� وا� (le savant et le chercheur est né en Egypte ) �� [fy mSr wld AlEAlm wAlbAHv] (3) �� ��� و�� ا���� وا� (en Egypte est né le savant et le chercheur)

Page 5: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

2.3. Problèmes de segmentation de textes

Pour analyser un texte, nous devons procéder à sa segmentation en paragraphes, phrases et propositions. Cette segmentation est source d’ambiguïtés, vu que d’une part la ponctuation est rarement utilisée dans les textes arabes et d’autre part cette ponctuation, lorsqu’elle existe, n’est pas toujours déterminante pour guider la segmentation. De plus, certains mots outils peuvent marquer le début d’une nouvelle phrase (ou proposition), ce qui nécessite des analyses de surface afin de pouvoir segmenter le texte.

Les phrases (4) et (5) illustrent ce problème :

� ا����ة�� �� �� ��� و��� ا����ن ا����� ه�ا ا����و�� �� �� . (4)

[wld h*A AlEAlm fy mSr wHfZ Alqr|n Alkrym fy sn AlEA$rp mn Emrh] (Ce savant est né en Egypte, et il a appris le coran à l’âge de dix ans.)

Dans cette phrase, la particule و' ' [w] joue le rôle de séparateur entre propositions et segmente l’énoncé en deux propositions. Par contre, dans la phrase suivante : ��� �� �� [wld AlEAlm wAlbAHv fy mSr] (5) و�� ا���� وا� (est né le savant et le chercheur en Egypte) La même particule و' ' [w] ne joue pas le rôle de séparateur entre propositions mais plutôt celui d'une conjonction de coordination entre les mots ‘����ا’ [AlEAlm] (Savant) et ‘�� [AlbAHv] (chercheur) et donc ne ’ا�segmente pas la phrase.

2.4. Problèmes d'agglutination de mots

Contrairement à la plupart des langues latines, en arabe, les articles, les prépositions, les pronoms, etc. se collent aux adjectifs, noms, verbes et particules auxquels ils se rapportent3. Comparé au français, un mot arabe peut parfois correspondre à toute une phrase [11]. Par exemple, le mot arabe ‘#$أ)'�ّآ�و’ [Ott*k~rwnnA] correspond en français à la phrase "Est-ce que vous vous souvenez de nous ?".

Cette caractéristique engendre des ambiguïtés morphologiques au cours de l’analyse. En effet, il est parfois difficile de distinguer entre un

3 En roumain, les articles définis sont des clitiques post-nominaux. L’allemand aussi a des particules verbales qui posent le même problème d’agglutination.

Page 6: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

proclitique4 ou enclitique5 et un caractère du mot en question. Par exemple, le caractère ‘و’ [w] dans le mot ‘*+و ’ [wSl] (est arrivé) est un caractère qui fait partie de ce mot alors que dans le mot ‘,'و�’ [wftH] (et a ouvert), il s’agit d’un proclitique [11].

2.5. Problèmes d’interprétation syntaxique

Les problèmes recensés dans les paragraphes précédents, touchant la voyellation, la segmentation, l’agglutination, etc., peuvent mener à des interprétations syntaxiques distinctes d’une même phrase ou d’un même extrait de texte.

Considérons l’exemple de la phrase (5) : � ا���� وا��� �� ���ـو� (5) [wld AlEAlm wAlbAHv fy mSr]

Cette phrase peut être interprétée et traduite selon les trois interprétations suivantes qui sont toutes syntaxiquement correctes :

[wulida AlEAlm wAlbAHv fy mSr] (6) ا���� وا��� �� ���َ�ـِ�ُو (Le savant chercheur est né en Egypte).

[waladu AlEAlm wAlbAHv fy mSr] (7) ا���� وا��� �� ���ُ�ـَ�َو (Le fils du savant chercheur est en Egypte).

[walada AlEAlm wAlbAHv fy mSr] (8) ا���� وا��� �� ���َ�ـَ�َو (Le savant chercheur a engendré en Egypte).

3. BREF APERÇU SUR LES TRAVAUX D’ANALYSE DE L’ARABE

La plupart des travaux sur l’analyse syntaxique de l'arabe ont mené à la réalisation de certains prototypes de laboratoire. En effet, à notre connaissance, il n’y a pas, à l’heure actuelle, pour l’arabe d’analyseur syntaxique commercialisé ni même diffusé pour une utilisation dans un cadre scientifique. Nous présentons dans ce qui suit quelques systèmes d’analyse de l’arabe, qui ne couvrent pas forcément que la phase d’analyse syntaxique.

4 Les proclitiques apparaissent au début d’un mot ou d’un syntagme (e.g., les conjonctions de coordinations mono-consonnes (و،ل) [w,l], les prépositions, le proverbe (س) [s] indiquant le futur, l’article (ال) [Al]. 5 Les enclitiques apparaissent à la fin d’un mot ou d’un syntagme et représentent les pronoms compléments d’objet ( ،... [hmA] ه� ، � [h]، ك [k]).

Page 7: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

3.1. Le système AraParse d'analyse morpho-syntaxique de l’arabe non-voyellé

AraParse est un système capable d’analyser les textes arabes tels qu’ils se présentent habituellement, c’est-à-dire sous leurs formes voyellées, non voyellées ou partiellement voyellées [30]. L’objectif est de réaliser un noyau de système d’analyse morpho-syntaxique de grandeur réelle qui peut être réutilisé dans d’autres applications à grande échelle.

AraParse est basé sur des ressources linguistiques à large couverture. Il utilise un lexique de lemmes généré à partir du dictionnaire DIINAR.1 [18]. Ce lexique contient 19 6818 bases non voyellés réparties en 39 000 bases nominales, 79 818 bases verbales et 78 000 bases dérivables issues des 20 000 verbes de DIINAR.1 ([17], [30]). Pour reconnaître des séquences inconnues ou des mots inconnus, ce système utilise une technique d’appariement approximatif implémentée avec le formalisme AGFL et utilisant l’opérateur de priorité entre les alternatives d’une règle et les expressions régulières [30].

Ouersighni [30] a proposé, entre autres, l’utilisation de AraParse pour faire la détection et le diagnostic des fautes d’accord. Pour ce faire, il a utilisé les règles d’accord proposées par Belguith [8] dans le cadre du système DECORA. Nous présentons ce système dans le paragraphe suivant.

3.2. Le système DECORA de détection et de correction des erreurs d'accord de l'arabe

Dans le cadre de ses travaux de recherche sur l’analyse de l’arabe, Belguith [8] a proposé une méthode de détection et de correction des erreurs d’accord. Cette méthode a été implémentée dans le système DECORA. Elle repose sur une analyse syntagmatique étendue pour la détection des erreurs et une analyse multicritère pour la correction. Un syntagme étendu est défini comme un groupement d’un ou de plusieurs syntagmes initiaux qui ont un lien d’accord entre eux.

L’analyse syntagmatique étendue opère en deux étapes ([7], [10]). La première étape consiste à découper la phrase initiale en syntagmes initiaux en localisant les frontières entre eux. Ce découpage est guidé par un ensemble de règles qui utilisent les frontières syntagmatiques comme moyen de repérage des syntagmes initiaux. La deuxième étape, permet de construire les syntagmes étendus. La constitution de ces syntagmes est guidée par des indicateurs de surface et se base sur un ensemble de règles

Page 8: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

pour repérer les liens d'accord entre les syntagmes initiaux. Ces règles permettent par exemple de rattacher les pronoms possessifs aux syntagmes auxquels ils se rapportent, d'intégrer les verbes (avec ellipse du sujet) dans le syntagme qui contient le sujet considéré, de rattacher les syntagmes initiaux qui représentent des propositions anaphoriques au syntagme contenant l'unité syntaxique à laquelle il se rapporte.

3.3. Un analyseur de l’arabe Levantin parlé

Chiang et al. [15] se sont intéressés à l’analyse de l'Arabe Levantin (AL) (i.e., un groupe de dialectes arabes parlés en Syrie, en Palestine, en Jordanie occidentale et au Liban). Pour se faire, ils ont proposé une approche qui consiste à traduire l'AL à l’Arabe Standard Moderne (ASM) et ensuite à lier la phrase en AL aux analyses correspondantes en ASM.

Notons que la traduction automatique est particulièrement difficile quand il n'y a aucune ressource disponible comme les textes parallèles ou les lexiques de transfert. Ainsi, Chiang et al. se sont basés principalement sur un corpus annoté de l’arabe moderne standard (MSA Treebank) [26] ainsi que sur un corpus annoté de l’arabe levantin et plus précisément celui du dialecte jordanien (i.e., LATB Treebank [27]).

Ils ont construit un lexique comportant des paires AL/ASM de formes de mots. Ils ont aussi construit une grammaire synchrone ASM-Dialecte. Ils assument ainsi que chaque arbre dans la grammaire de l’arabe moderne standard extraite du MSA Treebank est aussi un arbre de l’arabe levantin vu la similarité syntaxique entre l’ASM et l’AL.

3.4. Un analyseur morphologique et syntaxique de textes arabes

Debili et Zouari [16] ont proposé la construction automatique d’un dictionnaire contenant toutes les formes fléchies. Cette construction est faite par un conjugueur et un dériveur.

Le principe de l’analyse morphologique consiste à faire :

� Le découpage du texte en mots graphiques. � La recherche des enclitiques et proclitiques du mot. � La vérification, pour chaque découpage possible, de la compatibilité

(proclitique / enclitique, enclitique / racine, racine / proclitique).

Page 9: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

Lors de la consultation du dictionnaire, Debili et Zouari utilisent des règles de réécriture pour trouver la forme "normale" du mot.

La phase d’analyse syntaxique suit la phase d'analyse morphologique et s’appuie sur la construction de matrices de précédence fréquentielle binaires et ternaires. Ces matrices sont construites à partir de textes de départ annotés "à la main" (ceci représente la phase d’apprentissage). Elles sont ensuite utilisées pour analyser de nouveaux textes.

3.5. L’analyseur IRLA

L’analyseur IRLA est un système d’Interrogation des Requêtes en Langage naturel Arabe [21]. Il accepte en entrée une phrase en arabe et la traduit sous forme de requête en vue de la faire exécuter par un système d'exploitation. Cet analyseur permet de traiter un sous ensemble du langage naturel (i.e., essentiellement des phrases impératives), il produit une forme parenthésée exprimant la sémantique de la requête [22]. L’analyseur peut traiter certains problèmes linguistiques de niveau simple (synonymie, négation, coordination). Il s’appuie sur la détection des indicateurs de surface linguistiques et conceptuels lors de l’analyse.

3.6. L’analyseur de phrases elliptiques

Dans le cadre de ses travaux de recherche sur l’analyse de l’arabe, Haddar [24] a réalisé un analyseur permettant la détection et la résolution des phrases elliptiques dans des textes arabes. Cet analyseur se base sur une méthode d’analyse syntaxique permettant la vérification des structures syntaxiques des propositions. Cette méthode utilise des règles d’une grammaire formelle générant des propositions verbales écrites en arabe. L’accès à ces règles est coordonné à l’aide des réseaux de transitions augmentées (ATN). L’analyseur syntaxique est couplé avec un autre analyseur traitant les ellipses sémantiques.

4. MÉTHODES D'ANALYSE ROBUSTE Nous présentons, dans ce qui suit, quelques méthodes d'analyse

robuste. Ensuite, nous proposons notre méthode d'analyse robuste de l’arabe.

Page 10: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

4.1. Appariement approximatif

La méthode d'analyse basée sur l'appariement approximatif consiste à mettre en correspondance la phrase à traiter et un sous-ensemble des règles de la grammaire. On peut alors mettre en œuvre un mécanisme ne cherchant qu’une correspondance approximative ou ne considérer qu’un nombre restreint des mots de la phrase pour ne réaliser qu’une analyse partielle [25].

4.2. Îlots de confiance

Afin de faciliter l’analyse des phrases ayant une mauvaise structure grammaticale, Fouqueré [20] a proposé une analyse non linéaire, permettant de reconnaître les zones syntaxiquement correctes (îlots de confiance) et d’en déduire des informations pour interpréter les zones non reconnues par l’analyseur. Cette analyse est fondée sur la notion des ATN.

4.3. Analyse en deux temps

Chanod et Tapanainen [14] ont proposé une analyse en deux temps : d’abord une analyse préliminaire associe à chaque phrase d’un texte une structure ordonnée, appelée esquisse syntaxique. Le résultat de l’analyse préliminaire peut alors être soumis à des traitements ultérieurs. Ces traitements concernent, par exemple, le calcul des structures prédicat-argument et le rattachement des syntagmes prépositionnels ou verbaux.

4.4. La méthode "skip and fit recovery"

Le principe de la méthode "skip and fit recovery" décrite dans les travaux de Strzalkowski [33] consiste à vérifier si l’analyse d’un constituant dépasse une durée limite prédéfinie par le système. Dans ce cas, l’analyseur ignore le constituant en cours et passe au constituant suivant. Les parties non analysées de la phrase seront donc analysées séparément, et seront par la suite intégrées dans l’arbre d’analyse global. L’algorithme de cette méthode essaiera de reconnaître ces éléments comme des constituants simples.

Page 11: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

5. MODÉLISATION D'UN SYSTÈME MULTI-AGENT POUR L'ANALYSE ROBUSTE DE L'ARABE

5.1. Motivation pour un système robuste d’analyse de l’arabe

Les textes libres peuvent contenir des fautes d’orthographe, de grammaire, ou encore être rédigés dans un style inconnu à l’avance. Ainsi, nous assistons aujourd’hui à une effervescence dans l’apparition de techniques différentes pour le développement d’analyseurs syntaxiques dont la priorité essentielle est la robustesse, c’est-à-dire capables d’analyser les types de textes que nous venons de décrire.

Par rapport à une analyse classique, une analyse robuste [23] doit être capable de :

� Renvoyer une analyse syntaxique même minimale (segmentation minimale et si possible détection des relations syntaxiques).

� Générer, en cas d’échec, des informations supplémentaires pour aider à reconnaître le type de l’erreur rencontrée (ou la cause de l’échec), et reconstituer la structure conformément à l’intention de l’auteur.

� Reconnaître le maximum de fragments de structure pour faciliter les opérations de reconstitution de la structure de la phrase.

� Pouvoir continuer l’analyse après l’échec afin de localiser d’autres erreurs éventuellement présentes dans la même phrase.

5.2. Choix de l’approche agent

L’application de l’approche agents pour notre système d’analyse de la langue arabe consiste à définir une société d’agents ainsi que les interactions possibles entre eux. Cette approche a l’avantage de permettre une coopération bilatérale entre les différents modules linguistiques (lexical, morphologique, syntaxique, etc.), non nécessairement consécutifs. Chaque module peut profiter des expertises provenant d’autres niveaux d’analyse. Ainsi, l’interaction entre les différents agents peut éviter de transmettre certaines solutions parasites, non attestées par la langue, par le moyen d’échange de connaissances avec des niveaux supérieurs.

D’autre part, avec un système basé sur une architecture orientée agent, on parvient à réduire la complexité de développement. En effet, la

Page 12: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

décomposition des modules d’analyse en des sous modules moins complexes entraîne une réduction de la complexité et donne un système plus facile à développer et à maintenir.

En terme de flexibilité, les systèmes multi-agents s’auto-organisent en fonction des situations qui se présentent ainsi qu’en fonction des textes appréhendés. Cette flexibilité d’interaction et de communication entre les différents niveaux d’analyse permet d’optimiser les ressources linguistiques et informatiques utilisées par le système d’analyse. Cependant, le contrôle distribué permet des prises de décision interactives, à l’aide de mécanismes de coopération et de négociation entre agents. En plus et grâce à un contrôle décentralisé de l’ensemble du processus d’analyse, la défaillance d’un ou de certains agents n’entraîne pas l’arrêt du système. En effet, ce dernier peut proposer des fragments de solutions, ce qui garantit une robustesse du système face à des situations non attendues.

5.3. Modélisation du système MASPAR

Pour modéliser un système complexe englobant plusieurs sous phases indépendantes mais en permanente interaction, deux démarches principales sont possibles [12] :

• La démarche fonctionnelle : elle opte pour un découpage du système par fonction. Elle est dite descendante, car son point de départ est considéré comme étant plus abstrait (moins d’information) que les points d’arrivée terminaux (fonctions plus détaillées).

• La démarche objet : elle est basée sur un concept d’unification des traitements et des données. Contrairement à une démarche fonctionnelle, une démarche objet part d’une modélisation constituée de modèles d’objets et vise à construire par assemblage des structures de plus en plus complexes (démarche ascendante).

Nous avons choisi, dans le cadre de ce travail, une démarche fonctionnelle pour le découpage de notre système. En effet, ce type de démarche s'adapte mieux aux systèmes de TALN et principalement pour la langue arabe, vu qu’il permet de répartir les connaissances sur les différents agents spécialisés, et par suite d’alléger le fonctionnement de chaque agent.

La modélisation de notre système MASPAR d’analyse de l’arabe a débouché sur l’identification des six phases (ou groupes d’agents) suivantes (voir figure 1) : phase ‘Segmentation’, phase ‘Lexicale’, phase ‘Morphologie’, phase ‘Syntaxe’, phase ‘Anaphore’ et phase ‘Ellipse’.

Page 13: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

5.3.1. La phase de segmentation

Le problème de segmentation en phrases (et en propositions) pour la langue arabe est compliqué (voir § 2.3). En effet, l’arabe n’utilise ni de caractères majuscules, ni de ponctuation régulière, ce qui rend les méthodes classiques de segmentation, non appropriés à cette langue ([1], [3]).

De plus, l’agglutination des mots (voir § 2.4) est une autre particularité de l’arabe qui rend la segmentation encore plus difficile à réaliser.

Pour traiter ces différents cas d’ambiguïtés spécifiques à la langue arabe, nous avons fait une étude sur un corpus composé de quatre livres tunisiens de l’enseignement primaire et de l’enseignement de base6. Ce corpus a été segmenté manuellement par des experts7 pour recenser les règles de segmentation. Ainsi, nous avons pu dégager 183 règles de segmentation en phrases et propositions. Ces règles se basent sur les

6 Ces livres contiennent une collection de différents textes non voyellés appartenant à la littérature moderne ou à la littérature classique. Ils comportent 279 textes formés de 82 678 mots (Il s’agit de mots-occurrences et non pas de mots différents). 7 Des enseignants, de la langue arabe, de l’enseignement secondaire.

FIG. 1 – Architecture générale du système de TALN de l’arabe [4]

Syntax Clone i

Syntax Clone1

درا�� ا������ ا������ � ��ن

ا������ر���� ا����� ا������

���اق ا������ � ��ا������ و��ا

ا���آ��()�' ا&���%$ #��"م �"ول ا�+-�, و��+�*� 0���� �-/)�ن وا����

درا�� ا������ ا������ � ��ن

ا������ر���� ا����� ا������

���اق ا������ � ��ا������ و��ا

ا���آ��()�' ا&���%$ #��"م �"ول ا�+-�, و��+�*� 0���� �-/)�ن وا����

TexteElectronique

Sortie : Texte d’entré analysé- En cas de succès de l’analyse :présentation de la structuresyntaxique de la phrase.

- En cas d’échec de l’analyse : présentation de la structuresyntaxique des fragments reconnus.

Données

Partagées

Lexical

DonnéesXML

Machine 2

Segmenteur

DonnéesXML

Machine 1

Anaphore

DonnéesXML

Machine 5 Ellipse

DonnéesXML

Machine 6

Syntax

DonnéesXML

Machine 4

Morphologie

DonnéesXML

Machine 3

Syntax Clone iSyntax Clone i

Syntax Clone1Syntax Clone1

درا�� ا������ ا������ � ��ن

ا������ر���� ا����� ا������

���اق ا������ � ��ا������ و��ا

ا���آ��()�' ا&���%$ #��"م �"ول ا�+-�, و��+�*� 0���� �-/)�ن وا����

درا�� ا������ ا������ � ��ن

ا������ر���� ا����� ا������

���اق ا������ � ��ا������ و��ا

ا���آ��()�' ا&���%$ #��"م �"ول ا�+-�, و��+�*� 0���� �-/)�ن وا����

TexteElectronique

Sortie : Texte d’entré analysé- En cas de succès de l’analyse :présentation de la structuresyntaxique de la phrase.

- En cas d’échec de l’analyse : présentation de la structuresyntaxique des fragments reconnus.

Données

Partagées

Lexical

DonnéesXML

Machine 2

Segmenteur

DonnéesXML

Machine 1

Anaphore

DonnéesXML

Machine 5 Ellipse

DonnéesXML

Machine 6

Syntax

DonnéesXML

Machine 4

Morphologie

DonnéesXML

Machine 3

e

e

e

Sortie : Texte analysé

Page 14: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

signes de ponctuation, les conjonctions de coordination et certains mots outils jouant le rôle de séparateurs entre propositions ([3], [5]).

De plus, au cours de la phase de segmentation, notre système a besoin de connaître, dans certains cas, la catégorie du mot se trouvant avant et/ou après le signe de ponctuation. Or, à ce stade, le système ne dispose pas des éléments nécessaires pour donner de telles informations. D’où la nécessité d’anticiper l’analyse et de communiquer avec les autres phases d’analyse, à savoir la phase ‘Morphologie’ pour obtenir ces informations et par conséquent lever l'ambiguïté au niveau de la segmentation.

Prenons l’exemple de l’énoncé suivant :

ا���<* و��, %37 � ا?ورو<:9 )=�� $>9 ا���+#9 ا���;:9 �� �8ب ا��رة 5(9) D:� EF;� �'�+#9 ا���ل ا;� �� :ً��دة ���9 �� ا:I�J�ا أورو< K�(9<$ 67.%

[lA tzyd nsbp Alqrsnp Albrmjyp fy grb AlqArp AlOrwbyp En 37%, wfy AlmqAbl tqf OrwbA Al$rqyp fy AlryAdp EAlmyA fy mjAl AlqrSnp Alty sjlt fyhA 67%]

Le pourcentage de piratage de logiciels en Europe de l’Ouest ne dépasse pas les 37%, et d’un autre côté l’Europe de l’Est est classée première mondiale dans le piratage de logiciels avec un pourcentage de 67%.

À la rencontre de la virgule, la phase ‘Segmentation’ se trouve incapable de décider s’il s’agit d’une fin de proposition ou non. Elle envoie donc un message de demande d’information à la phase ‘Morphologie’ pour connaître le type du mot se trouvant après la virgule. Cette dernière, incapable de proposer une solution unique, renvoie à la phase ‘Segmentation’ les caractéristiques morphologiques des deux solutions : ‘و��’ [wfy] (fidèle), et ‘و’ [w] + ‘��’ [fy] (la conjonction de coordination "et" suivi de la préposition "dans").

Pour lever cette ambiguïté, la phase ‘Segmentation’ envoie un message de demande d’information à la phase ‘Syntaxe’ afin de vérifier s’il y a une règle grammaticale validant l’une ou l’autre des solutions proposées par la phase ‘Morphologie’. La phase ‘Syntaxe’ recevra les caractéristiques morphologiques des mots qui précèdent et qui suivent le signe de ponctuation. Suite à la réponse de la phase ‘Syntaxe’, la phase ‘Segmentation’ optera pour la segmentation de l’énoncé en deux propositions vu que c’est la deuxième solution qui est validée.

Page 15: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

5.3.2. La phase d’analyse lexicale

Suite à l’identification de la première phrase par la phase ‘Segmentation’, la phase d’analyse lexicale commence à découper la phrase reçue en mots. Dès l’identification du premier mot, le système procède à son analyse selon les deux étapes décrites ci-dessous. Notons que ces étapes interviennent sur chaque mot sans tenir compte de son contexte.

5.3.2.1. Étape de prétraitement lexical

Cette étape consiste à identifier les proclitiques et les enclitiques pouvant être agglutinés au mot et ce en se basant sur une recherche dans des listes spécifiques (i.e., liste des enclitiques, liste des proclitiques). Ainsi, les mots seront filtrés en écartant les particules telles que les prépositions (;ـ��ـ�وف ا�), les coordinations (9ـ�Nـ+Nـ��ء ا�ا?�ـ). Seuls les mots restants (i.e., qui ne représentent pas des particules) subiront l’étape suivante d’analyse affixale.

5.3.2.2. Étape d'analyse affixale

Pour cette étape, nous nous sommes basés sur les travaux de Ben Hamadou [16] qui a proposé une méthode d’analyse affixale pour les mots arabes permettant d’identifier leurs racines et leurs composantes affixales (i.e., préfixes, infixes, et suffixes).

Cette étape suit l’étape de prétraitement lexical et consiste à identifier pour chaque mot analysé, la triade affixale (P : Préfixe, I; Infixe, S : Suffixe) et la racine qui le composent. Ainsi, par exemple, l’analyse affixale du mot ‘9رو���’ [mdrwsp] (étudiée) donne la décomposition suivante : Racine = ‘درس’ [drs] ; Préfixe = ‘م’ [m] ; Infixe =‘و’ [w] ; Suffixe =‘ة’ [p]. De même, l’analyse du mot ‘ ازده�ت ’8 [izdaharat] donne la décomposition suivante : Racine = ‘زه�’ [zhr] ; Préfixe =‘ا’ [A] ; Infixe =‘ت’ [t] ; Suffixe = ‘ت’ [t].

L’analyse affixale repose sur les principales étapes suivantes [16] :

� Identification des couples (P, S) : cette étape consiste à extraire tous les préfixes et suffixes candidats en se basant sur un lexique des préfixes et un lexique des suffixes du langage. Ensuite, effectuer un mécanisme de filtrage pour ne retenir que les couples acceptés par le langage.

8 Ce mot a subit une transformation morpho-phonologique. En effet, l’infixe ت [t] s’est transformé en د [d] vu le contexte phonétique ز [z].

Page 16: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

� Identification de l’infixe et des triades affixales : l’identification de l’infixe s’effectue sur la (les) chaîne(s) restante(s) après élimination des couples (P, S) retenus par une analyse basée sur une grammaire ATN. Il importe de souligner que l’usage de cette grammaire permet en particulier d’identifier les segments affectés par une transformation morpho-phonologique (e.g., le cas du mot ‘ازده�ت’ où l’infixe‘ت’ [t] est transformé en ‘د’ [d]). Les triades affixales (P, I, S) candidates obtenues en combinant les infixes obtenus avec les différents couples (P, S) subissent un mécanisme de filtrage pour éliminer les combinaisons incohérentes en se basant sur une matrice de cohérence affixale.

� Filtrage lexical : cette étape consiste à déterminer parmi les triades affixales retenues, celles qui sont effectivement des triades affixales en vérifiant l’appartenance des segments racine (R) au lexique des racines (i.e., les segments R sont obtenus en éliminant les triades affixales des chaînes analysées).

� Contrôle des associations (R) – (P,I,S) : cette étape consiste à vérifier automatiquement, pour chaque décomposition validée par le filtrage lexical, que la triade affixale et la racine identifiées peuvent s’associer pour former un mot du langage.

5.3.3. La phase d’analyse morphologique

L’objectif principal de la phase 'Morphologie' consiste à déterminer pour chaque mot, préalablement décomposé en racine et affixes, la liste de ses caractéristiques morpho-syntaxiques possibles (i.e., catégorie, genre, nombre, temps, etc.). Pour cette phase d’analyse morphologique, nous nous sommes basés sur les travaux de Belguith [8] qui a proposé une méthode d’étiquetage morpho-syntaxique robuste pour l’arabe non voyellé permettant de générer, pour chaque mot :

� Sa catégorie grammaticale (i.e., nom commun, nom propre, adjectif, adjectif interrogatif, verbe, pronom possessif, pronom relatif, pronom démonstratif, préposition, conjonction de coordination, etc.).

� Ses caractéristiques morphologiques à savoir, son genre, son nombre, son temps, sa personne, sa détermination (déterminé/ non-déterminé) et son trait sémantique (humain/ non-humain).

Le principe de base de cette méthode d’étiquetage consiste à compenser la perte d’informations due à l’absence des signes de voyelles par un enrichissement du lexique de base, initialement réduit aux racines et aux affixes du langage, par des Formes Canoniques (FC) non verbales (i.e., la forme du masculin-singulier ou bien la forme du féminin-singulier en cas où cette dernière n’est pas dérivée de la première) associées aux

Page 17: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

mots ambigus du vocabulaire9. Cet enrichissement est utilisé comme moyen de filtrage des listes de caractéristiques présumées du mot à étiqueter.

La méthode d’étiquetage repose principalement sur les trois étapes suivantes [8] :

� Étape 1 : identifier la/les catégorie(s) grammaticale(s) du mot. � Étape 2 : déterminer pour chaque catégorie grammaticale identifiée

au niveau de l’étape 1, la liste de ses caractéristiques morphologiques candidates.

� Étape 3 : faire un filtrage des listes des caractéristiques identifiées lors de l'étape 2. Ainsi, pour chaque liste de caractéristiques candidate, nous déterminons les FC correspondantes. Puis, nous cherchons chacune de ces FC dans le lexique. La liste des caractéristiques morphologiques retenue sera celle dont la FC appartient au lexique des FC.

Considérons, par exemple, le mot : ‘ارس��’ [mdArs] (écoles). Suite à l’application de la première étape, nous obtenons le schème ‘* ��’ [mfAEl]. Ce schème donne trois listes de caractéristiques morphologiques candidates à savoir :

� Nom, Masculin, Singulier (cas de : ‘� <�’ [msAEd] (Assistant)) � Nom, Masculin, Pluriel (cas de : ‘S$��’ [mSAnE] (usines)) � Nom, féminin, Pluriel (cas de : ‘��#�’ [mnAf*] (issues))

La génération des FC de ces trois listes de caractéristiques morphologiques donne respectivement : FC1 = ‘ارس��’ [mdArs] (écoles) ; FC2 = ‘رس��’ [mdrs] (Instituteur) ; FC3 = ‘9ر���’ [mdrsp] (école). La recherche dans le lexique des FC montre que seule la forme FC3 appartient au lexique, ce qui valide la troisième liste de caractéristiques morphologiques. Le mot ‘ارس��’ [mdArs] (écoles) est donc un nom à la forme du pluriel féminin.

5.3.4. La phase d’analyse syntaxique

La phase d’analyse syntaxique permet d’associer à un énoncé sa ou ses structures syntaxiques possibles, en identifiant ses différents constituants et les rôles que ces derniers entretiennent entre eux. Cette phase reçoit au fur et à mesure de la phase ‘Morphologie’ les résultats de traitement des mots de la phrase indépendamment du contexte, commence à faire

9 Dans le lexique des FC, les entrées sont classées selon le schème du pluriel, son type, et le/ les schème(s) du singulier correspondant(s).

Page 18: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

l’analyse du premier mot reçu de la phrase, et entre en communication avec les autres phases d’analyse, si nécessaire [4].

Rappelons que les deux composantes principales d’un analyseur syntaxique sont : une composante déclarative qui correspond aux connaissances linguistiques et une composante procédurale qui correspond à une stratégie d’analyse. Pour la première composante, notre choix s’est fixé sur l’utilisation des grammaires syntagmatiques guidées par les têtes (HPSG), quant à la deuxième composante, nous avons choisi d’utiliser l’algorithme de "Chart Parser" [31]. Le choix de HPSG se justifie, d’une part, par l’importance accrue du lexique dans ce type de grammaire, et d’autre part, par son organisation hiérarchique. En effet, les connaissances lexicales intégrées dans les structures HPSG permettent de représenter un grand nombre d’informations syntaxiques et sémantiques et d’assurer une meilleure couverture syntaxique. Quant au choix de l’algorithme de "Chart Parser", il est motivé par sa relative simplicité d’implémentation et sa performance (i.e., il permet d’éviter d’analyser un constituant plus d’une fois).

Dès la réception des informations morphologiques relatives au mot, la phase ‘Syntaxe’ procède à la construction de la matrice attribut/valeur10. Ensuite, un message est envoyé à la phase ‘Morphologie’ pour demander les caractéristiques suivantes du même mot ou du mot suivant. Entre temps, la phase ‘Syntaxe’ consulte la grammaire pour sélectionner la/les règle(s) correspondante(s) aux catégories des mots rencontrés [6]. Ce qui permettra à la phase ‘Syntaxe’ d’orienter la phase ‘Morphologie’ afin d’identifier les caractéristiques morphologiques et ce en lui envoyant les caractéristiques des mots attendus.

Dès la réception des caractéristiques morphologiques du deuxième mot de la phrase, la phase d’analyse syntaxique, lance une nouvelle étape d’analyse qui consiste à faire l’unification des mots analysés à ce stade. Cette étape permet de reconnaître le mot représentant la tête de la phrase, et par suite le schéma à appliquer pour faire l’unification.

Il est à noter que si la phase ’Morphologie’ propose deux caractéristiques morphologiques différentes pour un même mot, la phase ‘Syntaxe’ sera clonée afin de traiter les différentes solutions en parallèle. En cas de blocage en cours d’analyse, l’instance bloquée sera automatiquement détruite.

De plus, en cas de détection d’une anaphore ou d’une ellipse la phase ‘Syntaxe’ va coopérer respectivement avec les phases ‘Ellipse’ 10 Format relatif à HPSG et comportant les informations morphologiques du mot.

Page 19: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

‘Anaphore’ pour résoudre ces problèmes et proposer des solutions de recouvrement. En cas d'échec, l’instance clonée de la phase ‘Syntaxe’, relative à cette solution, sera détruite.

5.3.5. La phase de résolution des anaphores

L’anaphore est définie comme étant une relation textuelle entre un anaphorique (e.g., un pronom), et un antécédent (e.g., un groupe nominal) explicite ou inféré à partir du texte.

Le recouvrement d’une forme anaphorique nécessite une coopération entre les différentes phases d’analyse. Ainsi, la phase ‘lexicale’ en détectant une anaphore possible (e.g., le proclitique ‘�’ [h] d’un mot) va informer la phase ‘Anaphore’ qui va envoyer un message de demande d’information à la phase ‘Morphologie’ pour identifier les caractéristiques morphologiques de ce proclitique. S’il s’agit d’un pronom personnel conjoint, la phase ‘Anaphore’ va procéder à l’identification des antécédents possibles.

Les connaissances utilisées par la phase ‘Anaphore’ sont formalisées sous forme d’un ensemble de règles permettant l’identification de tous les antécédents possibles (e.g., accord en genre et en nombre, compatibilité sémantique). Un score est calculé pour chaque antécédent possible selon un ensemble des règles de préférence (e.g., favoriser les groupes nominaux définis sur les indéfinis, défavoriser les groupes nominaux introduisant un groupe prépositionnel, favoriser l’antécédent le plus proche, etc.) [28].

Notons que chaque règle de préférence permet d'attribuer à un antécédent l’une des valeurs suivantes : -1, 0, 1 ou 2 [29]. Le score d'un antécédent représente la somme de toutes les valeurs qui lui sont attribuées. Ainsi, l’antécédent ayant le meilleur score sera retenu.

5.3.6. La phase de résolution des ellipses

L’ellipse est un phénomène linguistique qui se manifeste par l’omission d’une partie d’un énoncé qui n’a pas une incidence sur la compréhension globale de la phrase.

L’objectif de cette phase d’analyse est de pouvoir reconstruire les différents types d’ellipses trouvées dans les phrases analysées (e.g., ellipses de sujet, de verbe, de complément ou de proposition) et qui bloquent la phase d’analyse syntaxique.

Page 20: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

La détection de l’ellipse dans une phrase s’effectue en trois étapes principales : la recherche des connecteurs, l’identification de la proposition bien formée de référence et l’étiquetage des propositions restantes.

Considérons l’exemple suivant : 9FT�� ذا?�' *V(10) د [dxl AlOstA* fAlTlbp]

(Le professeur est entré ensuite les étudiants.)

La structure de cette phrase sera partiellement reconnue au niveau de la phase 'Syntaxe', vu que cette structure, qui contient une ellipse, n'est pas reconnue par la grammaire. Afin de résoudre ce blocage au niveau de l’analyse, la phase 'Syntaxe' envoie un message d’aide à la phase 'Ellipse' afin de voir si la phrase en cours d’analyse contient une ellipse.

Cette phase de résolution des ellipses qui utilise la méthode de l’extension de la grammaire avec des règles explicites tout en appliquant des contraintes syntaxico-sémantiques [24], essaiera de reconstruire l’ellipse qui se trouve dans la phrase afin d’obtenir la phrase suivante :

����9 دV* ا?�'ذFT�] (11) اdxl AlOstA* fdxl AlTlbp[

(Le professeur est entré ensuite les étudiants sont entrés.)

6. IMPLÉMENTATION DU SYSTÈME MASPAR

6.1. Architecture du système MASPAR

Après la modélisation en phases que nous avons présentée dans la section précédente, et afin de montrer la faisabilité et de tester l’efficacité de notre approche d’analyse, nous avons développé le système MASPAR : Multi-agent System for Parsing ARabic. Pour cela, nous avons choisi de représenter chaque phase d’analyse par un agent. Toutefois, il est possible d’attribuer plus qu’un agent à une phase. Ces agents peuvent être complémentaires, ou encore concurrents.

MASPAR comporte donc six agents, à savoir l’agent ‘Segmenteur’, l’agent ‘Lexical’, l’agent ‘Morphologie’, l’agent ‘Syntaxe’, l’agent ‘Anaphore’ et l’agent ‘Ellipse’.

Notons que les deux agents ‘Ellipse’ et ‘Anaphore’ sont en cours d’intégration dans le système MASPAR.

Page 21: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

6.2. Exemple d’analyse coopérative dans MASPAR

Considérons l’énoncé suivant :

W�> *س ��� ذهّ#�ا , … (12) […,fqd *hl bED AlnAs] (…, et ainsi ébahit quelques gens11)

Comme le montre la figure 2, la décomposition de cet énoncé pose un problème pour l’agent ‘Segmentation’, qui, suite à l’identification de la virgule, ne peut pas juger s’il doit décomposer l’énoncé en deux propositions ou non. En effet, la catégorie du mot qui apparaît juste après la virgule (i.e., du mot ‘���’ [fqd]) s’avère utile pour décider si la virgule marque la fin d’une proposition ou non.

Or l’agent ‘Morphologie’ qui recevra un message de demande de service de l’agent ‘Segmentation’ va se trouver devant deux solutions possibles du mot ‘���’ [fqd] : verbe (Perdre), ou concaténation de la conjonction de coordination ‘ف’ [f] (et) avec l’adverbe ‘�I’ [qd] (ainsi). Face à ce problème, l’agent ‘Segmentation’ demandera l’avis de l’agent ‘Syntaxe’ afin de tenter de résoudre cette ambiguïté. L’agent ‘Syntaxe’ ne trouvera pas dans la grammaire une règle qui valide l’existence de deux verbes consécutifs et donc confirmera que le mot ‘���’ [fqd] représente une concaténation d’une conjonction avec un adverbe et par conséquent optera pour une décomposition de l’énoncé en deux propositions. En effet, parmi les règles de segmentation en proposition figure la règle suivante :

Si une virgule est suivie d’un espace et si l’espace est suivi de l’adverbe ‘�I’ [qd] (ainsi), précédé de la conjonction de coordination ‘ف’ [f] (et), alors la virgule marque la fin d’une proposition.

6.3. Évaluation de MASPAR

L’évaluation de MASPAR a porté sur un corpus réel de textes non voyellés pris d’un livre scolaire tunisien (Livre de lecture de 8éme année de l’enseignement de base).

Ce corpus comporte 73 textes formant 256 paragraphes, 3 871 phrases et 25 886 mots (dont 14 151 mots distincts).

11 La traduction de la phrase est faite mot à mot. Elle a pour sens : «et ainsi quelques gens sont ébahis».

Page 22: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

FIG. 2 – Analyse d’un énoncé posant une ambiguïté de segmentation

Afin de mesurer l’efficacité de l’approche agent, nous avons procédé à l’évaluation des agents ‘Segmenteur’ et ‘Morphologie’ avant et après leur intégration dans le système MASPAR ; Notons que cela était possible vu que ces agents représentent des systèmes autonomes qui ont été développés dans notre laboratoire, ensuite ils ont été adaptés et intégrés dans le système MASPAR (voir [9] et [11]).

L’agent Segmenteur se confond, à l'origine, avec le système STAr (Segmenteur de Textes Arabes) [9]. Ce système ne dispose pas d’un analyseur morphologique mais utilise quelques règles basées uniquement sur les terminaisons des mots pour reconnaître certaines catégories grammaticales (principalement les noms et les verbes).

Cependant, l’étude de notre corpus a montré que 35% des phrases ne peuvent pas être segmentées correctement sans information d’ordre morphologique (c’est le cas de 12% des phrases) et/ ou syntaxique (c’est le cas de 23% des phrases).

L’évaluation du système STAr avant son intégration dans le système MASPAR (i.e., sans possibilité de coopération avec les autres agents) a montré un taux de rappel de 87.96% et un taux de précision 81.25% [9]. Après l’intégration de STAr, en tant qu’agent ‘Segmenteur’ dans MASPAR, nous avons signalé une augmentation d’environ 7% au niveau du rappel et d’environ 12% au niveau de la précision. Ainsi, les mesures

Segmenteur Morphologie Lexical

Phrase Segmentée

Reconnaissance lexicale des mots

Phrase étiquetée

Entrée : phrase à analyser

Sortie : Phrase d’entrée analysée : présentation de la structure syntaxique de la phrase.

Message d’information Message de coopération Message de demande de service

syntaxe

Page 23: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

de rappel et de précision obtenues sont respectivement de 94.78% et 93.14%.

Cette amélioration s’explique par le fait que l’agent ‘Segmenteur’ peut obtenir, par le biais de coopération avec les agents ‘Morphologie’ et ‘Syntaxe’, les informations morphologiques et syntaxiques nécessaires pour la segmentation des phrases ambiguës.

Pour mesurer la performance de l’agent Morphologie, qui représente à l’origine le système MORPH [11], nous avons mené deux évaluations : avant et après son intégration dans MASPAR. Ces évaluations ont porté sur tous les mots différents du corpus (soit 14 151 mots). Le tableau 1 montre la répartition de ces mots selon leurs catégories grammaticales, ainsi que les mesures de rappel et de précision respectives pour la première évaluation (i.e., sans possibilité de coopération avec le reste des agents). Ainsi, nous avons obtenu un taux de rappel global de 69,77 % et un taux de précision global de 68,51 % [11].

Bien que le nombre de solutions possibles est plus faible pour les noms que pour les particules, les mesures de précision et de rappel ne sont pas plus grandes. La comparaison entre les noms et les verbes relève des écarts plus importants. Ces résultats peuvent s’expliquer par le fait que le lexique des racines utilisé par MORPH pour l’analyse des verbes est assez complet (i.e., 3 266 racines) alors que le lexique des FC utilisé pour l’analyse des noms ambigus est moins complet (i.e., 1 057 FC).

Catégorie Verbes Noms Particules

Noms propres

Mesures globales

Nombre 5878 7552 548 447 14 151 Rappel 78,01 % 52,35 % 72,57 % 73,71 % 69,77 %

Précision 71,26 % 51,73 % 70,02 % 73,71 % 68,51 % F-mesure 74,48% 52,04% 71,27% 73,71% 69,63

Nombre de solutions

possibles12

3,45 1,26 1,54 1 2,7

TAB. 1 – Résultats de la première évaluation de MORPH

La deuxième évaluation de MORPH, (i.e., avec la possibilité de coopération entre l’agent ‘Morphologie’ et les autres agents) a montré une légère amélioration de la performance de cet agent. Ainsi, nous avons obtenu un taux de rappel global de 74,20% et un taux de précision global 12 On désigne par nombre de solutions possibles d'un mot le nombre de solutions pertinentes (listes de caractéristiques morpho-syntaxiques) résultant de l'analyse morphologique de ce mot.

Page 24: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

de 72,42%. Cette amélioration s’explique par le fait que l’agent ‘Morphologie’ peut obtenir, au besoin, des informations d’ordre syntaxique qui sont utiles pour la désambiguïsation des caractéristiques morpho-syntaxiques de certains mots.

Pour mesurer l’efficacité globale du système MASPAR, nous avons procédé à l’évaluation de l’agent ‘Syntaxe’. Cette évaluation a porté sur l’ensemble des phrases du corpus. Ainsi parmi les 3 871 phrases analysées, ‘Syntaxe’ a pu analyser correctement 2 362 phrases 13, soit 61% des phrases et a pu analyser partiellement 639 phrases (soit 16,5% des phrases analysées) qui contiennent des mots non reconnus par l’agent ‘Morphologie’.

Pour les phrases restantes (soit 22,5% des phrases analysées), leur échec d’analyse est dû principalement au fait que leur structure n’est pas couverte par notre grammaire (c’est le cas par exemple de phrases longues ou de phrases anaphoriques et/ou elliptiques non reconnues) ou encore à un échec au niveau des autres agents (échec de segmentation en phrases, échec dans la reconnaissance des caractéristiques morpho-syntaxiques de certains mots, etc.).

7. CONCLUSION Dans ce travail, nous avons proposé une modélisation d'un système

d'analyse syntaxique de la langue arabe basé sur une architecture orientée agent. Cette architecture comporte six agents à savoir, les agents 'Segmentation', ' Lexical', 'Morphologie', 'Syntaxe', 'Anaphore' et 'Ellipse'. Dans cette architecture, nous avons mis l’accent sur les possibilités de coopération entre les différents agents afin d’éviter le traitement et l’analyse de solutions parasites, non attestées par la langue.

Un autre aspect de l’analyse syntaxique a été, aussi, abordé dans ce travail à savoir la robustesse des traitements. Cette qualité est très recherchée dans les systèmes d’analyse syntaxique traitant des textes réels (i.e., des textes qui peuvent contenir des mots ou des structures inconnus). Nous avons donc doté notre système de mécanismes de robustesse basés, d’une part, sur une coopération entre les différents niveaux d’analyse, et d’autre part, sur un enrichissement des structures HPSG par les connaissances lexicales qui permettent la prise en charge d’un grand nombre d’informations syntaxiques et sémantiques. 13 Notons que ces phrases ne sont pas très longues (90% de ces phrases contiennent 11 mots au maximum).

Page 25: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

Au niveau pratique, nous avons réalisé le système MASPAR qui permet, à partir d’un texte arabe non voyellé, de donner la ou les structure(s) syntaxique(s) possible(s). En cas de problèmes d’analyse (i.e., structure ou mots inconnus) MASPAR propose les fragments de solutions identifiés.

En l’état actuel et après le développement de la première version de MASPAR qui comporte les agents ‘Segmenteur’, ‘Lexical’, ‘Morphologie’ et ‘Syntaxe’, nous sommes en train d’adapter les systèmes de résolution des anaphores et de recouvrement des ellipses, afin de les intégrer en tant qu’agents dans MASPAR. Notre objectif est de réduire le taux d’échec de MASPAR en lui permettant de reconnaître les structures des phrases anaphoriques et /ou elliptiques. De plus, nous envisageons l’enrichissement des bases de connaissances lexicales et morphologiques de MASPAR afin de couvrir le maximum de mots de la langue arabe.

Par ailleurs, l’étude de l’impact d’une modélisation plus fine de notre système d’analyse attribuant, si nécessaire, plus d’un agent à chaque phase d’analyse reste très intéressante, dans la mesure où cela nous permettra d’améliorer la qualité des solutions trouvées et de couvrir plus de phénomènes linguistiques tels que la coordination.

Remerciements Nous tenons à remercier les trois lecteurs anonymes pour leurs

commentaires et suggestions utiles qui ont permis d’améliorer aussi bien le contenu que la forme de cet article.

8. REFERENCES

[1] C. Aloulou, L. Belguith Hadrich et A. Ben Hamadou, MASPAR : Multi-agent System for Parsing Arabic, IEEE international conference on systems, man and cybernetics, volume 7, pp. 6–9, Hammamet-Tunisie octobre 2002.

[2] C. Aloulou, L. Belguith Hadrich, A. Hadj Kacem et A. Ben Hamadou, Apport des approches Agent pour l'Analyse syntaxique de l'arabe, Technique et Science Informatique(RSTI2), Volume 22, pp. 47-60, 2003.

[3] C. Aloulou, L. Belguith Hadrich, G. Mourad , A. Ben Hamadou, La segmentation de textes en phrases dans le système MASPAR, MCSEAI’2004, 8th Maghrebian Conference on Software Engineering and Artificial Intelligence, pp. 535–546 Centre de publication Universitaire, 10-12 Mai 2004.

Page 26: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

[4] C. Aloulou, Un modèle multi-agent pour l’analyse syntaxique de la langue arabe, Thèse de doctorat en Informatique, Ecole Nationale des Sciences de l’Informatique de Tunis, Juin 2005.

[5] C. Aloulou, L. Belguith Hadrich, A. Hadj Kacem, A. et Ben Hamadou, Conception et développement du système MASPAR d’analyse de l’arabe selon une approche agent, 14ème Congrès Francophone AFRIF-AFIA de Reconnaissance des Formes et Intelligence Artificielle, Toulouse, France, 28–30 Janvier 2004.

[6] Y. Bahou, L. Belguith, C. Aloulou, A. Ben Hamadou, Adaptation et implémentation des grammaires HPSG pour l’analyse de textes arabes non voyellés , 15ème Congrès Francophone AFRIF-AFIA de Reconnaissance des Formes et Intelligence Artificielle, 25 au 27 janvier 2006 - Tours - France

[7] L. Belguith Hadrich, A. Ben Hamadou et C. Aloulou, Using the TOPSIS multicriteria method to direct an agreement error correction process : An application to Arabic, Recent Advanced Natural Language Processing II, vol.189, pp. 105–114, John Benjamins, Amsterdam/ Philadelphia, 2002.

[8] L. Belguith Hadrich, Traitement des erreurs d’accord de l’arabe basé sur une analyse syntagmatique étendue pour la vérification et une analyse multicritère pour la correction, Thèse de doctorat en Informatique, Faculté des Sciences de Tunis, Février 1999.

[9] L. Belguith Hadrich, L. Baccour, G. Mourad, Segmentation de textes arabes basée sur l'analyse contextuelle des signes de ponctuations et de certaines particules, Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles (TALN’2005), Vol. 1 pp. 451–456, Dourdan-France, 6 – 10 Juin 2005.

[10] L. Belguith Hadrich, A. Ben Hamadou, Traitement des erreurs d'accord : une analyse syntagmatique pour la vérification et une analyse multicritère pour la correction, Revue d'Intelligence Artificielle (RSTI – RIA), Editions Hermès-Lavoisier, vol. 18, N5 et 6, pp. 679–707, Décembre 2004.

[11] L. Belguith Hadrich, N. Chaâben, Analyse et désambiguïsation morphologiques de textes arabes non voyellés, Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles 2006 TALN’2006, pp. 493–501, Leuven, 10–13 avril 2006.

[12] M. Ben Achour, Modélisation et apprentissage d'agents artificiels adaptés à un marché financier, Thèse de doctorat, LACL, Université Paris XII, Juillet 2000.

[13] A. Ben Hamadou, Vérification et correction automatique par analyse affixale des textes écrits en langage naturel : le cas de l’arabe non voyellé, Thèse d’Etat, Faculté des Sciences de Tunis, 1993.

[14] J-P. Chanod et P. Tapanainen, A Robust Finite-State Parser for French, In ESSLLI'96 Workshop on Robust Parsing, pp. 16–25, Prague, Czech Republic, 1996.

Page 27: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

[15] D. Chiang, , M.Diab, N. Habash, O. Rambow, S. Shareef, Arabic Dialect Parsing, In Proceedings of the European chapter of the Association of Computational Linguistics EACL, , pp. 369–376, Trento, 2006.

[16] F. Debili et L. Zouari, Analyse morphologique de l’arabe écrit voyellé ou non fondée sur la construction automatique d’un dictionnaire arabe, Cognitiva, Paris, 1985.

[17] J. Dichy, Morphosyntactic Specifiers to be associated to arabic lexical entries-Methodological and theorical aspects, actes de la conférence ACIDCA’2000, Volume Corpora and Natural Language Processing, Monastir-Tunisie, pp. 55–60, 22–24 Mars 2000.

[18] J. Dichy, On lemmatization in Arabic : A formal definition of the Arabic entries of multilingual lexical databases, In proceedings of the Arabic Language Processing workshop, Association for computational linguistics (ACL) 39th annual meeting and 10th conference of the european Chapter, Toulouse, Juillet 2001.

[19] M. El Beze, B. Merialdo, B. Rozeron et A.M. Derouault, Accentuation automatique de textes par des méthodes probabilistes, Technique et Science informatique, Volume 13–N6, pp. 797–815, 1994.

[20] C. Fouqueré, Un modèle pour la correction de phrases : une grammaire à configuration minimale, In 3ème Colloque International 'Cognition et Connaissance', ARC, pp. 127–142, Toulouse, France, 1988.

[21] N. Fourati et A. Ben Hamadou, The Linguistic Portability of the Natural language Interfaces, 9th CLIN (Computational Linguistics in the Netherlands) Meeting, University of Leuven, 11 December, 1998.

[22] N. Fourati, A. Ben Hamadou et F. Gargouri, An object-orientated pivot model for the design of human-machine interfaces in natural language, 6th International Conference and Exhibition on Multi-lingual Computing Cambridge, 17–18 April 1998.

[23] D. Genthial, J. Courtin et I. Kowarski, Contribution of a Category Hierarchy to the Robustness of Syntactic Parsing, In 13th International Conference on Computational Linguistics (COLING’90), Helsinki, Finland, Vol. 2, pp. 139–144, August 1990.

[24] K. Haddar, Caractérisation formelle de l’ellipse et processus de recouvrement de la langue arabe, Thèse de doctorat, Université de Tunis II – Faculté des Sciences de Tunis, juillet 2000.

[25] P. Langlais et M. Simard, Récupération de segments sous-phrastiques dans une mémoire de traduction, 8ème conférence annuelle sur le Traitement Automatique des Langues Naturelles, Vol. 1, pp. 243–252 Tours, France, 2001.

[26] M. Maamouri, A. Bies, T. Buckwalter, The Penn Arabic Treebank : Building a large-scale annotated Arabic corpus, In NEMLAR Conference on Arabic Language Resources and Tools, pp. 102–109, Cairo, Egypt, 2004.

Page 28: De la segmentation à l’analyse syntaxique de textes arabes … · Un texte arabe non voyellé est fortement ambigu. En effet, 74% des mots qui le composent acceptent potentiellement

[27] M. Maamouri, A. Bies, T. Buckwalter, M. Diab, N. Habash, O. Rambow, D. Tabessi, Developing and using a pilot dialectal Arabic Treebank, In Proceedings of the Fifth International Conference on Language Resources and Evaluation, LREC’06, Genoa, Italy, 2006.

[28] R. Mitkov, L. Hadrich Belguith et M. Stys. Multilingual robust anaphora resolution, Third Conference on Empirical Methods in Natural Language Processig, pp. 7–16, Granada, Spain, 2 June 1998.

[29] R. Mitkov, L. Hadrich Belguith, Pronoun Resolution made simple: a robust, knowledge-poor approach in action, Cinquième Conférence Annuelle sur le Traitement Automatique des Langues Naturelles (TALN'98), pp. 42–51, Paris, 10–12 Juin, 1998.

[30] R. Ouersighni, La conception et la réalisation d’un système d’analyse morpho-syntaxique robuste pour l’arabe : utilisation pour la détection et le diagnostic des fautes d’accord, Thèse de doctorat, université lumière–Lyon2, 2002.

[31] F. Popowich, C. Vogel, “Chart parsing head-driven phrase structure grammar”, Technical Report CSS-IS TR 90-01, Simon Fraser University, 1990.

[32] E. Souissi, Etiquetage grammatical de l’arabe voyellé ou non, Thèse de doctorat, Université Paris VII, 1997.

[33] T. Strzalkowski, A Fast and Robust Parser for Natural Language, In 14th International Conference on Computational Linguistics (COLING'92), pp. 198–204, Nantes, France 1992.