12
OUTILS LINGUISTIQUES POUR LE DÉVELOPPEMENT DES APPLICATIONS AUTOMATIQUES DE L’ARABE Prof. Dr. Mohamed El Hannach Université Sidi Mohamed Ben Abdellah, FES & Arabic Language Engineering Society in Morocco

Mohammed el hannach keynote anlp ieee cist 2014

Embed Size (px)

DESCRIPTION

OUTILS LINGUISTIQUES POUR LE DÉVELOPPEMENT DES APPLICATIONS AUTOMATIQUES DE L’ARABE. Prof. Dr. Mohamed El Hannach University Of Sidi Mohamed Ben Abdellah, FES & Arabic Language Engineering Society, Morocco

Citation preview

Page 1: Mohammed el hannach keynote anlp ieee cist 2014

OUTILS LINGUISTIQUES

POUR LE DÉVELOPPEMENT DES

APPLICATIONS AUTOMATIQUES DE L’ARABE

Prof. Dr. Mohamed El Hannach

Université Sidi Mohamed Ben Abdellah, FES &

Arabic Language Engineering Society in Morocco

Page 2: Mohammed el hannach keynote anlp ieee cist 2014

POSTULAT & HYPOTHÈSE

La majorité des applications informatiques développées pour

l’arabe connaissent un échec à différents degrés, en particulier

le traitement incorrecte des données linguistiques, et ce, est dû à

notre avis, à l’insuffisance des descriptions informelle des

données linguistiques de cette langue, sur lesquelles sont basés

les développeurs.

A notre avis, il est impératif d’entamer une ré-description

formelle de différents parties de discours de l’arabe, tenant en

compte le et le système algorithmique de l’arabe et le

développement que connait les techniques informatiques

destinés au traitement automatique des langues naturelles, en

particulier l’arabe qui se veut une langue fusionniste, par

opposition au reste des langues fondées sur le système

ensembliste.

Page 3: Mohammed el hannach keynote anlp ieee cist 2014

CADRE THÉORIQUE & MÉTHODOLOGIQUE

Pourquoi une ré-description de l’arabe ?

Description structurale et autres (l’histoire irrationnel)

Grammaire combinatoire, empirisme et métalangage rationnel:

La phrase est l’unité minimale du sens: Sens=: V N0 W

Le mot isolé n’a pas d’autonomie linguistique

Le verbe est une phrase simple

Les verbes se divisent en trois catégories:

Verbe ordinaire

Verbe support

Verbe figé

Chaque forme linguistique (mot ou phrase) est associée à un schéma formel qui détermine son appartenance au système linguistique de l’arabe.

Les phrases de la langue sont finies et relativement acceptables

Les règles formelles sont relatives

Page 4: Mohammed el hannach keynote anlp ieee cist 2014

BASE DE DONNÉES : MORPHOLOGIE

Le cadre morphologique générale de l’arabe:

Morphologie: Racine + Schème (ajouts)= Mot

Trois bases de données en découlent: 1, Racines, 2, Schèmes, 3, algorithmes morphologico - phonologique

Chaque mot est le résultat de la fusion / combinaison d’une racine est d’un schème en plus des ajouts=: سألتمونيها

Le schème assure la distribution des voyelles sur les consonnes des la racine

Les voyelles se divises en trois catégories à nature phonologique:

Inchoative =: lexicale

Médiane =: morphologique

Last =: flexionnelle

Noms: simple, fléchi et complétives

Verbes (simple et fléchi): trois catégories

V-a déverbaux (simples et fléchis): 10 catégories

V-n (simples et fléchis): 5 catégories

Page 5: Mohammed el hannach keynote anlp ieee cist 2014

LES FORMES LINGUISTIQUES

Les structures sont basées sur cinq cadres formels dont le schéma de base est: V N0 W conçue sous forme de sujets et prédicats:

1. V N0

2. V N0 N1

3. V N0 Prép N1

4. V N0 N1 Prép N2

5. V N0 Prép N1 Prép N2

Remarques:

- Pas de verbe sans sujet à cause de l’absence de la catégorie infinitif en arabe

- Le N peut être simple ou flexionnel

- Le N = Nj occupe une place déterminé dans la structure

- Chaque verbe sélectionne sa séquence nominale

Page 6: Mohammed el hannach keynote anlp ieee cist 2014

LES BASES DE DONNÉES: SYNTAXE

A partir de la forme de base (ci-dessus): V N0 W

P=: V (x, y, … )

Nous avons 19 classes syntaxiques, divisées selon des critères distributionnelles relevant du verbe ordinaire voire principale.

Les contraintes distributionnelles sont à la base de la classification transformationnelle

Chacune des classes syntaxiques possède ses propriétés transformationnelles.

Il y a cinq propriétés transformationnelles couvrant la totalité des verbes:

Restructuration, passif, nominalisation, adjectivation, et la propriété ‘non restreint’ =: V Nnr W, ou V N0 N1nr

N2 directe, comme se veut la tradition, n’existe pas en arabe

Page 7: Mohammed el hannach keynote anlp ieee cist 2014

COLLECTION DES DONNÉES SYNTAXIQUES

5 structures de base: V N0 W (W=: 0, 1, 2)

L’adoption du principe de transf. non orientée nous donne trois

types de structures :

Phrase ordinaire:

V N0 W < => 5 formes transformées

:=R 2من عنقها 1كسر أحمد الزجاجة< --> ( عنق الزجاجة)كسر أحمد

Phrase a verbe support:

Exemple: V N0 W < => 3 formes nominalisées

:=Nom A أثار هذا األمر القلق في علي< --> أقلق هذا األمر عليا

Phrase figés:

Exemple: V N0 W < => nombre indéfini de formes

Fig=: لقي أحمد حتفه

Page 8: Mohammed el hannach keynote anlp ieee cist 2014

SAMPLE SYNTACTIC DATABASE

Verb No Nominalization =: Vsup N0 nr V-n Prep N1 +hum

No=

: +

Con

cret

No=

: N

nr

Completive

Sab

bab

a V

-n L

i N

1

Sab

bab

a N

o D

et V

-n L

i N

1

'ath

ara

No V

-n F

i N

1

'ath

ara

No D

et V

-n F

i N

1

'ath

ara

N1 (

V-n

N1)

Xala

qa N

o D

et V

-n L

i N

1

Xala

qa N

o V

-n L

i N

1

'ad

xala

No D

et V

-n '

ala

N1

'ad

xala

No V

-n '

ala

N1

'ah

dath

a N

o D

et V

-n L

i N

1

'ah

dath

a N

o V

-n L

i N

1

Harr

ak

a N

o D

et V

-n F

i N

1

Harr

ak

a N

o V

-n F

i N

1

Ba'a

tha N

o D

et V

-n F

i N

1

'a't

a N

o D

et V

-n L

i N

1

'ad

hfa

No V

-n '

ala

N1

Jala

ba N

o D

et V

-n L

i N

1

No=

: 'a

n P

No=

: 'a

nn

a P

No=

: K

aw

n P

No=

: V

-n W

Sab

bab

a N

o (

V-n

N1)1

+ - + - - + - - - - - - - - - - - - + - + + + + أطرب

- - - - - - + - - - - - - - - + - + + + + + + - أطفأ

+ - + + + + + - - - + + - - - - - - + + + + + - أظلم

- - - - - + - - - - - - - - - - - - + - + + + - أكل

+ - + - - - + - - - - - - - - - - + + + + + + - أكمل

- - + - - - + - - - - - - - - - - + + + + + + + ألجم

- - + - + - - - - - - - - - - - - + + + + + + + ألزم

+ - + + + + + - + + + + + + + + - + + + + + + + ألم

+ - - + + + + - - + + + - + - + + + + + + + + + ألهب

- - - + - + - + - - - - - - + - - - + - + + + - ألهم

+ - + - - + - - - - - - - - - + - + + - + + + - أمات

+ - + - - - + + + + - - - - - + - + + - + + + - أنحل

- - + - - - - - - - - - - - - - - - + - + + + + أنذر

+ - + + + + + - + - - - - - - - - - + + + + + + أنعش

- - - - - - - - - - - - - - - + - + + - + + + + أنقد

+ - + + + - + - - + + + + - + - + + + + + + + - أنشي

- + - - - - + + - - - - - - - + - + + + + + + + أنهك

- - - + - + - - - - - - - - + + - + + - + + + + أنهض

- - - - - - + - - - - - - - - - - - + - + + + + أصاب

+ - - + - + + + - - - + + - + + - + + + + + + + أصحى

- - + + - + + - + + - - - - - - - - + - + + + - أصلح

+ + + + - + - - + + + + - - + - - - + + + + + - أضاء

+ + + + + + + + + + - + - - - + + + + + + + + + أضجر

+ - - + - + - - - - - - + - + - - - + + + + + + أضحك

+ + - + - + + - - + - - + + + - - - + + + + + - أضرم

+ + + + - + + + - - + + - - + + - + + + + + + + أضني

+ + + + - + + - + + - + - - - - - - + + + + + - أضعف

- - - - - - + - - - + + - - - - - - + + + + + + أعاق

- + - + - + - - + + + + + + + - - - + + + + + + أعجب

+ - - + - + - - - - - + - - + - - + + + + + + + أعدي

- - + + - + - - - - - - - - - - - - + - + + + + أعلي

- - + + - - + - - - - + - - - + - + + + + + + - أعمي

Page 9: Mohammed el hannach keynote anlp ieee cist 2014

BASE DE DONNÉES: STRUCTURES FIGÉS

30,000 expressions idiomatiques

Combinaison fixe entre les éléments de la structure syntaxique:

Structure opaque

Syntaxe locale

Sous forme de graphes

Réduction morphologique

Réduction transformationnelle

Sens métaphorique

Page 10: Mohammed el hannach keynote anlp ieee cist 2014

DICTIONNAIRES ÉLECTRONIQUES

Recueil électronique des données linguistique:

Les noms non dérivés

Les verbes

Les Adverbes

Noms déverbaux

Les sons (Kacst)

Lexicon grammar

Page 11: Mohammed el hannach keynote anlp ieee cist 2014

APPLICATIONS

Ontologie

Contenu digital

Traduction automatique

Web Sémantique, OWL

OCR

Résumé automatique

Enseignement =: teaching et évaluation

Indexation

Analyseurs automatiques

Moteur de recherche sur le net

Page 12: Mohammed el hannach keynote anlp ieee cist 2014

CONCLUSION

Nous insistons sur le fait de prendre en considération

les travaux linguistiques basés sur un cadre théorique

formel.

Nos bases de données linguistiques sont à la

disposition des chercheurs désirant collaborer avec

notre société en vue de développement des

applications sur l’arabe

Nos remercions l’équipe de chercheurs ayant travaillé

sur les bases de données pendand des années.