17
1 UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : L’INTERFACE DE SAISIE DES DONNÉES Chokri Rejili : Doctorant, Université Lumière-Lyon 2 Yasser Zmantar : Doctorant, Université Lumière- Lyon 2 04/04/2008

1 UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : LINTERFACE DE SAISIE DES DONNÉES Chokri Rejili : Doctorant, Université Lumière-Lyon

Embed Size (px)

Citation preview

Page 1: 1 UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : LINTERFACE DE SAISIE DES DONNÉES Chokri Rejili : Doctorant, Université Lumière-Lyon

1

UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : L’INTERFACE DE SAISIE DESDONNÉES

Chokri Rejili : Doctorant, Université Lumière-Lyon 2

Yasser Zmantar : Doctorant, Université Lumière-Lyon 2

04/04/2008

Page 2: 1 UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : LINTERFACE DE SAISIE DES DONNÉES Chokri Rejili : Doctorant, Université Lumière-Lyon

2

PlanPlan

Introduction

Le schéma du mot graphique des mots outils

Architecture de la base de données des mots outils

Exploitation de la base de données des mots outils

Conclusion

Page 3: 1 UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : LINTERFACE DE SAISIE DES DONNÉES Chokri Rejili : Doctorant, Université Lumière-Lyon

3

IntroductionIntroduction

La reconnaissance automatique des différentes parties du discours passe par l’indentification des noms, des verbes et des mots outils au sein d’un corpus textuel.

Les travaux menés dans ce sens présentent un certain nombre d’ambiguїtés dues à la confusion entre mots-outils / verbes et mots outils/noms.

Exemple: أمن أم

nom ( ) mot-outil (أ�م� ) verbe (أ�م� (أ�م�ن�mot-outil ( (أ�م�ن�

mère se confier La solution envisagée est de construire d’une part une base de données des mots-outils et d’autre part un système de filtrage des résultats ambigus basé sur des règles orthographiques, morphologiques, syntaxiques et sémantiques.

Page 4: 1 UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : LINTERFACE DE SAISIE DES DONNÉES Chokri Rejili : Doctorant, Université Lumière-Lyon

4

Le schéma du mot graphique des Le schéma du mot graphique des mots outilsmots outils

Représentation du mot graphique maximal:

Absence de suffixe Absence de base Pas de schème et de racine pour les mots outils

Schéma graphique du mot maximal

Schéma graphique du mot outil

Mot maximal

Mot minimal

ENCL SUFF BASE PREF PROC

ون� ر�ب ض� ت� س� ه�م�

Post-base Pré-base Schème Racine

Mot maximal

Mot minimal

ENCL SUFF PRO-BASE PROCم� ه� ع�ن أ�

Page 5: 1 UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : LINTERFACE DE SAISIE DES DONNÉES Chokri Rejili : Doctorant, Université Lumière-Lyon

5

Architecture de la base de données Architecture de la base de données des mots outilsdes mots outils

o Point de vue informatique:Point de vue informatique:

Ressource lexicale très importante pour une application de traitement automatique de la langue arabe.

Elle est réalisée suivant un modèle relationnel basé sur: La définition des relations entre les tables La limitation de la redondance des données L’évolution et la maintenance rapide du contenu et de la

structure

Page 6: 1 UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : LINTERFACE DE SAISIE DES DONNÉES Chokri Rejili : Doctorant, Université Lumière-Lyon

6

Architecture de la base de données Architecture de la base de données des mots outilsdes mots outils

o Point de vue linguistique:Point de vue linguistique: La base de donnée des mots outils est composée suivant le

schéma du mot graphique suivant:

Enclitique + Suffixe + Mot outil + Proclitique

La génération des mots maximaux passe par la concaténation des clitiques. Nous avons donc décidé d’intégrer les clitiques à la base de données et de relier chaque mot outil à la liste de particules possibles.

Exemple:

Enclitique + Suffixe + Mot outil + Proclitique

م� ه� ع�ن أ�

Page 7: 1 UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : LINTERFACE DE SAISIE DES DONNÉES Chokri Rejili : Doctorant, Université Lumière-Lyon

7

Architecture de la base de données Architecture de la base de données des mots outilsdes mots outils

Les proclitiques:Les proclitiques: Ils sont en inventaire fini et se combinent entre eux pour

donner les traits syntaxiques qui peuvent accompagner le mot outil arabe.

Voici la liste des proclitiques simples retenus pour notre travail: االستفهام أ

العطف واو وBة المعي واو و

العطف ف

التوكيد الم Iلجر حرف Nبجر حرف Nل

التشبيه كاف ك

Page 8: 1 UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : LINTERFACE DE SAISIE DES DONNÉES Chokri Rejili : Doctorant, Université Lumière-Lyon

8

Architecture de la base de données Architecture de la base de données des mots outilsdes mots outils

Les proclitiques se combinent entre eux pour donner une liste de 26 éléments.

On s’est limité pour la construction de cette liste à la combinaison de 3 proclitiques au maximum. Exemple: ل�ك� و� ، و�ل� ، �أ�ف�ل ، �أ�ف�ب ل�ك� أ�ف، و� ، و�ل� ، �أ�ف�ل ، �أ�ف�ب أ�ف،……

La fusion des proclitiques est régie par deux types de contraintes: Une relation d’ordre: Une relation d’ordre: Dégagée suivant un vecteur d’ordre [Dichy 84,

89, 90] où chaque proclitique est incompatible, dans une relation d’ordre strict, avec un proclitique de même position. Exemple: واو واوالعطف et et العطفالعطف العطف فاء sont incompatibles entre eux parce qu’ils sont incompatibles entre eux parce qu’ils فاءoccupent tous les deux la même position sur le vecteur d’ordre.occupent tous les deux la même position sur le vecteur d’ordre.

De même qu’un proclitique qui occupe par rapport à un autre une position d’antériorité sur le vecteur n’a aucune chance de le suivre dans la construction d’un mot outil graphique. Exemple: همزة همزة occupe toujours la première position dans la construction du occupe toujours la première position dans la construction du االستفهاماالستفهامmot graphique maximal et par la suite il est impossible de la trouver mot graphique maximal et par la suite il est impossible de la trouver précédée par un autre proclitique.précédée par un autre proclitique.

Des règles de compatibilité:Des règles de compatibilité: où certains proclitiques ne sont pas compatibles entre eux pour des raisons syntaxiques et sémantiques. Exemple: NبNب et et NلNل ne peuvent pas se combiner car se sont tous les ne peuvent pas se combiner car se sont tous les deux deux جر جر حروف ..حروف

Page 9: 1 UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : LINTERFACE DE SAISIE DES DONNÉES Chokri Rejili : Doctorant, Université Lumière-Lyon

9

Architecture de la base de données Architecture de la base de données des mots outilsdes mots outils

Les enclitiques:Les enclitiques: Ils sont en inventaire fini et constituent une liste de 17

éléments. La compatibilité des enclitiques et des mots outils est

déterminée par des critères syntaxiques et sémantiques. De même les mots outils sont incompatibles avec les enclitiques combinés.

Exemple: IالN exprime le duel donc ce mot outil ne se combine كqu’avec ‘ ا ا‘ et ’ه�م� ’ك�م�

Voici la liste des enclitiques retenus pour la construction de la base de données des mots outils:

Oن �ه ه�م� ا م� �ه �ه Oه�ن ه�م� ا م� ه� ا ه� ه� Oك�ن ك�م� ا ك�م� �ك ك� ن�ا ي ن�ي

Page 10: 1 UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : LINTERFACE DE SAISIE DES DONNÉES Chokri Rejili : Doctorant, Université Lumière-Lyon

10

Architecture de la base de données Architecture de la base de données des mots outilsdes mots outils

Les suffixes:Les suffixes:

Ils sont en inventaire fini et ne se combinent pas entre eux. On s’est limité à une liste de 8 suffixes pour garantir la

compatibilité des ‘‘mots outils/suffixe’’ en excluant les suffixes compatibles uniquement avec les verbes (( fنh ,jت jمh hنf ت,jت ,jت jمh ( ( … …ت,jتet ceux compatibles uniquement avec les noms (( ,mات oي,mات oي……).).

Voici la liste des suffixes retenus dans la base de données:

�U �ا ا

Page 11: 1 UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : LINTERFACE DE SAISIE DES DONNÉES Chokri Rejili : Doctorant, Université Lumière-Lyon

11

Architecture de la base de données Architecture de la base de données des motsdes mots--outilsoutils

Les mots outils:Les mots outils: Les mots outils sont classées en plusieurs catégories:

)... , , عن ) إلى م�ن� الجر حروف )... لم ) الجزم حروف

)... , , ( ذلك هذه هذا االشارة أسماء )... لن ) النصب حروف

)... , ( التي الذي الموصولة األسماء )... , بلى ) نعم اإلجابة حروف

)... , ( ن� م� كيف االستفهام أسماء )... ( vهال التحضيض حروف

)... , ( حيثما كيفما الشرط أسماء )... قد ) التوقع حروف

)... , ( غير سوى االستثناء أدوات )... بل ) العطف حروف

, ( لعل بالفعل المشبهة الحروفليت...(

)... ا ) vأم االستفتاح حروف

)... , ( أيتها يا النداء حروف )... هل ) اإلستفهام حروف

)... , أي� ) ا vأم التفصيل حروف )... , أنت ) أنا الضمائر

Page 12: 1 UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : LINTERFACE DE SAISIE DES DONNÉES Chokri Rejili : Doctorant, Université Lumière-Lyon

12

Architecture de la base de données Architecture de la base de données des motsdes mots--outilsoutils

Ils forment un ensemble fini de mots outils simples ( , مع, إلى et se combinent avec les clitiques pour constituer des (...فيformes suffixées (Nفيه), affixées (وفي) ou les deux à la fois ( jمNوفيه).

La liste des mots outils comprend 143 éléments. Pour constituer cette liste, on s’est limité aux mots outils

appartenant aux catégories précédemment citées en excluant: Les doublons: un même mot outil peut être porteur de plusieurs

indices sémantiques et syntaxiques mais son traitement que ce soit en analyse ou en génération reste inchangé. Exemple: اIم peut avoir deux significations différentes, elle peut être soit un relatif ( اسم.(نفي ) ou exprimer la négation ( موصول

Les adverbes: qui sont en inventaire fini et qui seront traités séparément dans une autre base de données vu leurs spécificités syntaxiques différentes des mots-outils.

Les particules verbales ( الجامدة qui seront traitées dans (األفعالla base de données verbale ( ليس , .(…عسى

Page 13: 1 UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : LINTERFACE DE SAISIE DES DONNÉES Chokri Rejili : Doctorant, Université Lumière-Lyon

13

Exploitation de la base de données Exploitation de la base de données des mots-outilsdes mots-outils

La base de données des mots outils peut être utilisée que se soit en génération ou en analyse de corpus textuels.

Pour l’exploitation de la base de données, il faut spécifier un certain nombre de règles :

Les règles d’écriture :Les règles d’écriture :1. L’enclitique «ي» ne se combine qu’avec des mots outils

ayant au moins 3 consonnes Exemple:

Le mot outil ‘ jنNم’ + l’enclitique ‘ مNن�ي ’ي

Le mot outil ‘ jنIع’ + l’enclitique ‘ عIن�ي’ ي

Le mot outil ‘ Iونhد’ + l’enclitique ‘ Nي’ ي دhون

Le mot outil ‘ jنhدI ‘ l’enclitique + ’ل Nي’ ي Iدhن ل

Si le mot outil contient 2 Si le mot outil contient 2 consonnes, sa concaténation consonnes, sa concaténation avec l’enclitique ‘avec l’enclitique ‘يي’ ’ nécessite nécessite

l’ajout de la chadda l’ajout de la chadda (dédoublement de la (dédoublement de la

consonne)consonne)

Page 14: 1 UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : LINTERFACE DE SAISIE DES DONNÉES Chokri Rejili : Doctorant, Université Lumière-Lyon

14

Exploitation de la base de données Exploitation de la base de données des mots-outilsdes mots-outils

2. Le changement de alef maksoura ‘ى’en ya ‘ي’ Exemple: Le mot outil ‘ىIإل’ + l’enclitique ‘ jمhه’ jمhهj Iي إلLe mot outil ‘ىIلIع’ + l’enclitique ‘ jمhه’ jمhهj Iي عIل

Le remplacement d’une double consonne par chadda Exemple: Le mot outil ‘يNف’ + l’enclitique ‘ فNيf ’ ي

2.2. Les règles de contexte:Les règles de contexte:2. المشبهة بالفعل الحروف

Exemple: Le mot outil ‘ fلIعI ‘ l’enclitique + ’ل Nي fنNي’ ن IعIل لLe mot outil ‘ fلIعI ‘ l’enclitique + ’ل Nي IعIل�ي ’ن ل

Le mot outil ‘ fإن’ + l’enclitique ‘ Nي fنNي’ ن إن Le mot outil ‘ fإن’ + l’enclitique ‘ Nي �ي’ ن إن

بالفعل المشبهة بالفعل الحروف المشبهة الحروفpeuvent engendrer deux peuvent engendrer deux

écritures différentes en se écritures différentes en se combinant avec un même combinant avec un même

enclitique.enclitique.

Page 15: 1 UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : LINTERFACE DE SAISIE DES DONNÉES Chokri Rejili : Doctorant, Université Lumière-Lyon

15

Exploitation de la base de données Exploitation de la base de données des mots-outilsdes mots-outils

Les règles sémantiques:Les règles sémantiques: La compatibilité des clitiques et des mots outils est

déterminée par des critères syntaxiques et sémantiques.

Exemple: Le proclitique ‘ Nل’ et le mot outil ‘ jنNم’ ne peuvent pas se combiner ensemble car le premier exprime « en direction de» et le deuxième exprime « en provenance de ».

Page 16: 1 UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : LINTERFACE DE SAISIE DES DONNÉES Chokri Rejili : Doctorant, Université Lumière-Lyon

16

Pour la génération des mots maximaux nous avons relié chaque mot outil à la liste de particules possibles tout en respectant les règles précédemment citées.

Nous avons obtenus le résultat suivant:

Exploitation de la base de données Exploitation de la base de données des mots-outilsdes mots-outils

Page 17: 1 UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : LINTERFACE DE SAISIE DES DONNÉES Chokri Rejili : Doctorant, Université Lumière-Lyon

17

ConclusionConclusion

L’interaction entre la Base de données des mots outils et celle de DIINAR peut résoudre un certain nombre d’ambiguïtés et faciliter par la suite l’étiquetage de corpus textuels.

Cette interaction sera régie par : Des règles de grammaire de surface afin de garantir

une reconnaissance claire des différentes parties du discours.

La construction de réseaux sémantiques des mots outils permettant ainsi de donner des indices sur le contexte des phrases en arabe.