46
Centre de Recherche Scientifique et Technique pour le Développement de la Langue Arabe C.R.S.T.D.L.A THEME Vers un système d’extraction d’informations pour les textes de la presse arabophone en ligne ArIExtract CITALA 2009 ACHIT Abdelmadjid [email protected] Division Informatique Linguistique, CRSTDLA Dr AZZOUNE Hamid [email protected] Département d’Informatique, USTHB 3ème Conférence Internationale sur le Traitement Automatique de la Langue Arabe CITALA2009 4 – 5 Mais 2009, Rabat, Maroc

Centre de Recherche Scientifique et Technique pour le Développement de la Langue Arabe

  • Upload
    arnold

  • View
    27

  • Download
    1

Embed Size (px)

DESCRIPTION

CITALA 2009. Centre de Recherche Scientifique et Technique pour le Développement de la Langue Arabe C.R.S.T.D.L.A. THEME. Vers un système d’extraction d’informations pour les textes de la presse arabophone en ligne ArIExtract. ACHIT Abdelmadjid [email protected] - PowerPoint PPT Presentation

Citation preview

Page 1: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Centre de Recherche Scientifique et Technique pour le Développement de la Langue Arabe

C.R.S.T.D.L.A

THEME

Vers un système d’extraction d’informations pour les textes de la

presse arabophone en ligne ArIExtract

CIT

ALA

20

09

ACHIT Abdelmadjid [email protected] Division Informatique Linguistique, CRSTDLA Dr AZZOUNE Hamid [email protected] Département d’Informatique, USTHB

3ème Conférence Internationale sur le Traitement Automatique de la Langue Arabe CITALA2009

4 – 5 Mais 2009, Rabat, Maroc

Page 2: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Plan

Introduction

Présentation de l’extraction d’informations

Conception du système ArIExtract

Problèmes rencontrés dans le cas des textes arabes

Conclusion

CIT

ALA

20

09

Page 3: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

CIT

ALA

20

09

Introduction

Page 4: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

CIT

ALA

20

09

Une femme à la tête de Yahoo par Myriam Berber Article publié le 14/01/2009 Dernière mise à jour le 15/01/2009 à 15:38 TU

L’ancienne PDG de l’éditeur américain de logiciels Autodesk Carol Bartz a été désignée, mercredi 14 janvier 2009, à la tête du groupe internet Yahoo en remplacement de Jerry Yang. Carol Bartz prend les rênes d’une entreprise en difficulté face au géant Google. Les spécialistes estiment que cette nomination va relancer les discussions avortées avec Microsoft. etc

Page 5: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Une femme à la tête de Yahoopar Myriam Berber

Article publié le 14/01/2009 Dernière mise à jour le 15/01/2009 à 15:38 TU

L’ancienne PDG de l’éditeur américain de logiciels Autodesk Carol Bartz a été désignée, mercredi 14 janvier 2009, à la tête du groupe internet Yahoo en remplacement de Jerry Yang. Carol Bartz prend les rênes d’une entreprise en difficulté face au géant Google. Les spécialistes estiment que cette nomination va relancer les discussions avortées avec Microsoft. etc

CIT

ALA

20

09

Page 6: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Formulaire - NominationTitre: Une femme à la tête de Yahoo

Source: site web de RFI

Date: 14/01/2009

Date de Dernière mise à jour:15/01/2009

Horaire: 15:38

Auteur: Myriam Berber

Événement / Fait: Nomination

Responsable / cadre: Carol Bartz

Ancien poste: PDG

Ancienne organisation : l’éditeur américain de logiciels Autodesk

Nouveau poste: PDG

Nouvelle organisation: groupe internet Yahoo

En remplacement de: Jerry Yang

Date Nomination: mercredi 14 janvier 2009

CIT

ALA

20

09

Page 7: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

chiffre d'affaires de Michelin en net reculLEMONDE.FR avec AFP | 28.04.09 | 19h16

Le groupe français de pneumatiques Michelin a annoncé, mardi 28 avril, une baisse de 14,2 % de son chiffre d'affaires au premier trimestre par rapport à la même période de 2008, à 3,512 milliards d'euros. Cette baisse traduit un recul des volumes de ventes de 24,4 %, lié à la chute des marchés de pneumatiques, atténué par l'amélioration moyenne du prix des produits vendus, explique Michelin dans un communiqué.

CIT

ALA

20

09

Page 8: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Formulaire – communiqué d’entreprise – Chiffre d’affaires CA

Groupe / Entreprise: Michelin

Nationalité: Française

Domaine : pneumatiques

Date annonce: mardi 28 avril

Tendance du CA: en baisse

Période: premier trimestre 2009

Par rapport à la période: premier trimestre 2008

Tendance - Valeur (%): 14,2 %

Montant CA: 3,512 milliards d'euros

…etc

CIT

ALA

20

09

Page 9: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

باراك االمريكي الرئيس يلتقي طالباني جالل الجمهورية رئيساوباما

07 April, 2009 11:51:00

الفاو مجمع ضمن القصور احد في طالباني جالل الجمهورية رئيس التقىاوباما باراك االمريكية المتحدة الواليات رئيس الثالثاء أمس مساء ببغداد،

. له المرافق الوفد ….و

CIT

ALA

20

09

Page 10: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

سياسي - لقاء استمارة

الفيحاء الجريدة:

/www.alfayhaa.tv/alfayhaa-newspaper : االموقع

/ الكاتب:

April 07, 2009 : المقال التاريخ

لقاءالحدث:

طالباني : 1الشخص جالل

الجمهورية الوظيفة: رئيس

اوباما : 2الشخص باراك

االمريكية الوظيفة: المتحدة الواليات رئيس

الثالثاء التاريخ: أمس مساء

ببغداد المكان: الفاو مجمع ضمن القصور احد

المعلومات استخراج

CIT

ALA

20

09

Page 11: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

أوروبا أبطال رابطةأوروبية معركة أول في وأرسنال مانشستر

في اليوم، سهرة اإلنجليزيان، و يونايتد مانشستر فريقا يلتقيأوروبا، أبطال رابطة لمنافسة النهائي نصف الدور ذهاب مباراة

ترافورد '' أولد ملعب ''علىبمانشستر……

CIT

ALA

20

09

Page 12: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

رياضية - مبارة استمارة

الخبرالجريدة:

www.elkhabar.comالموقع:

/الكاتب:

29/04/2009: التاريخ

مبارة الحدث: عن اعالن

القدم الرياضة: كرة

أوروبا المنافسة: أبطال رابطة

يونايتد : 1الفريق مانشستر

انجليزيالبالد:

أرسنال :2الفريق

انجليزيالبالد:

/الفائز:

/ النتيجة:

للفريق األهداف /: 1مسجلو

للفريق األهداف / :2مسجلو

اليوم التاريخ: سهرةترافورد الملعب: أولدمانسشترالمدينة:

CIT

ALA

20

09

Page 13: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

CIT

ALA

20

09

Présentation de l’extraction

d’informations

Page 14: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

CIT

ALA

20

09

Pour leur part [Gaizauskas R. and

Wilks Y., 1998 ], ils définissent l’extraction d’information comme une activité qui consiste à remplir une source de données structurées (base de données) à partir d’une source de données non structurées (texte libre).Les conférences MUC définissent la tâche d’extraction d’informations comme la tâche consistant à extraire des informations spécifiques et bien définies à partir de textes écrits en langue naturelle dans des domaines restreints, avec l'objectif spécifique de remplir automatiquement des formulaires prédéfinis ou des bases de données.

[Cowie J. et Wilks Y. ,(2000) ] définissent l’extraction d’informations comme étant la structuration et la combinaison sélective de données issues d’un ou plusieurs documents textuels.

Selon [Soderland S., Lehnert W., 1994], un système d’extraction d’informations est un système qui produit une représentation de l’information textuelle pertinente dans un domaine particulier pour une application particulière.

L’extraction d’information est un processus automatique permettant d’extraire des informations pertinentes et précises à partir de documents non structurés ou semi structurés en langage naturel et permet leur sauvegarde sous une forme structurée du type formulaire ou base de données.

DéfinitionDéfinition

Page 15: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Processus d’Extraction d’informations

Système d’extraction

d’informationsDocuments textuels non structurés

Documents textuels structurés

BD

CIT

ALA

20

09

Page 16: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

La réflexion sur les systèmes d’extraction d’informations fut entamée dès les années 1950, par les travaux de certains linguistes. Par la suite, de nombreuses implantations ont été réalisées, nous pouvons citer celle réalisé à l'université de New York au travers du Linguistic String Project [20], dont le but était de remplir des formulaires à partir de textes médicaux (rapports de radiologie).

Manifestations scientifiques

- Conférences

- Ateliers  (Workshops)

- Campagnes d’évaluation / benchmarking

CIT

ALA

20

09

Bref Historique

Page 17: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

NTCIRNTCIR

ACEACE

IREXIREX

METMET

QA@CLEFQA@CLEF

QA@TRECQA@TREC

LRECLREC

PASCALchallenge

PASCALchallenge

TACTAC

DUCDUC

NER - CONLL

NER - CONLL

MUCMUC

EI conférences

EI conférences

Document understanding

Conference

Text Analysis Conference

PASCAL Challenge for

Evaluating Machine Learning

for Information Extraction

International Conference on Language Resources and Evaluation

Question Answering at The Text REtrieval Conference TREC

NTCIR (NII Test Collection for IR Systems) workshop

Language-Independent Named Entity

Recognition at Computational Natural

Language Learning (CoNLL) workshops

Message Conference

Understanding

Question Answering at Cross Language

Evaluation Forum CLEF

CIT

ALA

20

09

Information Retrieval and Extraction Exercise

the Multilingual Entity Task Conference (MET), TIPSTER Text project

Automatic Content

Extraction (ACE)

Page 18: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

MUC 1

MUC 2

MUC 3

MUC 4

MUC 5

MUC 6

MUC 7

Les conférences MUC

1987

1989

1991

1992

1995

1998

1993

Analyse des rapports d'opérations tactiques navales [5]

Idem que MUC 1 [5]

Analyse des textes journalistiques traitant du terrorisme en Amérique Latine, afin d’extraire des dépêches d’agence de presse le maximum d’informations sur des actes terroristes comme le nom de groupes terroristes impliqués, le nom des victimes, les types d’armes utilisées, les dates et les lieux…[15 ].

Idem que MUC 3 [ 16].

Traitement d’un corpus de nature économique (fusion, rachat, et création d’entreprises internationales et la fabrication de circuits électroniques). [ 17]

C’est une suite de MUC 5: ont traité les changements de dirigeants à la tête des entreprises. [18 ]

Analyse de textes journalistiques rapportant des crashs d’avion et de tirs de missiles. [ 19].

CIT

ALA

20

09

Page 19: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

CIT

ALA

20

09

Domaine d’applications

Domaine d’applicationsde l’EI

systèmes Q/R

Traduction automatique

Veille scientifique et technique

systèmes de IRRésumé

automatique

Extraction de terminologies

Page 20: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Structuration en sous tâches de l’extraction d’informations

CIT

ALA

20

09

Identification / reconnaissance des entités nommées

Résolution des coréférences

Extraction des relations entres les entités nommées

Extraction des événements

Désambiguïsation

Déduplication

Inférence

Fusion

Page 21: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Conférences MUC 6 & 7

- Named entity recognition (NE)

- Coreference Resolution (CO)

- Template Element construction (TE)

- Scenario Template production (ST)

- Template Relation construction (TR)

Page 22: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Tâche de l’Identification des entités nommées

CIT

ALA

20

09

Identification des entités nommées

Identification des noms …

Identification des expressions temporelles

Identification des expressions numériques

personnes Lieux

collectifs

EntreprisesPersonnages fictifs

Page 23: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Acteurs individuels

Lieux

Ville

Pays

Continent

Océans

Mers

Acteurs collectifs

Organisation

Entreprise

Institution

Filiale

Agence

Expressions temporelles

Date

Durée

Période

Age

Heure

Expressions numériques

Montant financier

Longueur

Volume

Poids

Température

U.Physiques

Pourcentage

Vitesse

Entités nommées

Acteurs

CIT

ALA

20

09

Page 24: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Exemple:

CIT

ALA

20

09

Une femme à la tête de Yahoopar Myriam Berber

Article publié le 14/01/2009 Dernière mise à jour le 15/01/2009 à 15:38 TU

L’ancienne PDG de l’éditeur américain de logiciels Autodesk Carol Bartz a été désignée, mercredi 14 janvier 2009, à la tête du groupe internet Yahoo en remplacement de Jerry Yang. Carol Bartz prend les rênes d’une entreprise en difficulté face au géant Google. Les spécialistes estiment que cette nomination va relancer les discussions avortées avec Microsoft. etc

personnes

entreprises

Expressions temporelles

Expressions de locations

Page 25: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

-Détermination de patrons / schémas/ formules linguistiques caractéristiques de relations lexicales (étude linguistique basée sur l’acquisition de marqueurs de relations liées à certaines notions/ concepts).

- Étude de la distribution de contextes autour des entités  (étude statistique);

Le Président de la république, Mr Bouteflika a reçu, hier, à la présidence, son homologue le Président tunisien Mr BenAli.

Actant 1 : Mr BouteflikaFonction : Président de la républiqueActant 2 : Mr Ben AliFonction: Président Type action : Rencontre Lieu : PrésidenceTemps / Date : hier……

CIT

ALA

20

09

Extraction des relations entre les entités nomméesExtraction des relations entre les entités nommées

Page 26: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Approches et méthodes d’extraction d’informations

Approches et

méthodes d’extraction

Approche basée sur l’analyse linguistique

Approche apprentissage automatique Approche hybride

CIT

ALA

20

09

- A base de règles contextuelles écrites à la main

-Elles exploitent des informations morphosyntaxiques et lexicales. Ainsi, elles utilisent des marqueurs lexicaux (ex. Mr pour Monsieur,.. ), des dictionnaires de noms propres et des dictionnaires de la langue générale.

- Le développement de ces règles par des experts est long et coûteux

- La méthode de l’exploration contextuelle en est un exemple.

Langue arabe:A titre d’exdemple, le travail de [Shaalan, 2007] qui a porté sur la conception d’un système de reconnaissance des entités nommées arabes de type noms de personnes PERA basé sur l’utilisation de règles sous forme d’expressions régulières, …etc.

Il s’agit d’une approche basée sur les techniques d’apprentissage automatique. Elle utilise un modèle de langage entraîné sur de larges corpus de textes pré-étiquetés… ce qui est long et coûteux.

Langue arabe:les travaux qui ont porté sur l’utilisation des supports vecteurs machines SVM pour la reconnaissance des entités nommées arabes. Egalement, il y’a eu des travaux qui ont porté sur l’utilisation des Modèles de Markov Cachés MMC ainsi que de la méthode de l’entropie maximale [Benajiba &al., 2007] [Benajiba &al., 2008].

Plus récemment sont apparues des approches hybrides tirant parti des avantages respectifs des méthodes linguistique et probabiliste.

Dans les systèmes de ce type, un ensemble de règles est généralement appris automatiquement puis révisé par un expert. Ou l’autre cas de figure, l’élaboration de règles est faite par un expert puis il y’a extension automatique de la couverture de ces règles.

Page 27: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Quelques difficultés rencontrées dans l’extraction d’informationsQuelques difficultés rencontrées dans l’extraction d’informations

1. La langue naturelle est flexible. Il y a toujours plusieurs façons d’exprimer la même idée ;

2. La langue naturelle est ambiguë. Une phrase peut être interprétée de différentes manières ;

3. La langue naturelle est dynamique. Elle évolue constamment ;

4. Multilinguisme;

5. Style de textes: textes journalistiques, textes d’un email (absence de règles et de style rédactionnel) 6. L’information peut s’étendre sur plusieurs phrases;

7. Complexité du processus d’EI du fait des différentes tâches : - Identification des entités nommées ; - Recherche des relations entre entités ; - Résolution des coréférences ; - etc. 8. Évaluation difficile;

9. Données : quantité croissante, non standardisées et de types différents;

10. Limites de l’état de l’art des systèmes d’EI. ;

11. Difficulté de conception de systèmes d’EI. génériques ;

12. Peu de systèmes d’E.I. commercialisés ;

13. Trop peu d’interdisciplinarité (non informaticiens et informaticiens).

CIT

ALA

20

09

Page 28: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Conception du Conception du systèmesystème

CIT

ALA

20

09

Page 29: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

CIT

ALA

20

09

Méthode une méthode linguistique dite méthode d’exploration contextuelle

Textes les textes journalistiques n’est pas fortuit. Il est motivé par le fait que ces textes respectent un certain style rédactionnel et sont disponible en ligne.

Objet de l’extraction

événements de rencontre entre personnes et ceux décrivant des manifestations (scientifiques, économiques, culturelles, etc.).

Nos choix :

Relation actant1 Actant2 verbe Temps

Quand?

Lieu

Où?

Rencontre …… …… …… …… …..

a rencontréQui? Qui?

Page 30: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Origine: méthode issue des travaux de recherches effectuées par l’équipe LaLICC ( ) dirigée par le Prof. DESCLES Elle a fait l’objet de plusieurs implémentations, notamment le résumé automatique, le filtrage d'informations selon différents points de vue, etc.

Fondements

1. Elle est basée sur une analyse linguistique (analyse exploratoire du contexte ), permettant le repérage des entités nommées (acteurs, lieux, temps,…) ainsi que la mise en relation des acteurs avec leur environnement dans l'espace et le temps au moyen d'indices déclencheurs, d’indices complémentaires et de règles qui les combinent;

2. Elle a une portée sémantique et ne se base pas sur une représentation profonde du texte mais sur une identification automatique de marqueurs linguistiques pertinents pour une tâche donnée;

3. Les indices déclencheurs sont retenus en fonction d’objectifs précis. Ils sont identifiés par une analyse exploratoire du contexte qui permet aussi d’identifier d’autres indices linguistiques (dits indices complémentaires) eux aussi jugés pertinents pour la tâche traitée;

4. Utilisation des règles d’Exploration Contextuelle, combinant les indices identifiés pour attribuer des étiquettes sémantiques aux segments textuels considérés (phrases, paragraphes, etc.).

CIT

ALA

20

09

Présentation de la méthode d’exploration contextuelle

Page 31: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Exemple:

1. Spécification de l’espace de rechercheE:= Créer espace(PhraseParent de l’indicateur principal) ;2. Spécification des listes des indicateurs et des indices complémentairesLi := liste de verbes / adjectif/ …3. ConditionsConcerne les contraintes d’agencements et d’ordonnancement des marqueurs ainsi que des indices complémentaires dans l’espace de recherche considéré.4. ActionsAttribuer une étiquette au segment textuel considéré (la phrase) ou déclencher une tâche.

Spécification littéraire d’une règle d’exploration contextuelle

CIT

ALA

20

09

Si nous sommes en présence d’une annotation <pays> ou <region> ou <ville> etc.

Et si elle est précédée d’une préposition de lieu de la classe PrepLieu(en, dans, à, …) OU d’un marqueur de localisation (verbe de localisation) de la classe VStatIntrodLoc: (occuper, recourvrir, border, entourer, barrer, …) ou VdynIntroduitLoc : (quitter, atteindre, envahir, traverser, évacuer, …)

Alors nous sommes en présence d’une localisation<lieu>

Sinon Le reste des entités nommées de type pays, region, ville etc. seront annotés par défaut <Actantcollectif>

Page 32: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Extraction des entités nommées et des relations

Reconnaissance des entités nommées EN arabes

CIT

ALA

20

09

 La catégorisation d’entités nommées retenue pour la conception de notre système est la suivante:

1. acteurs ou actants (agent de l’action ou cible de l’action) : - particulier / individuel (personnes) ou - collectifs (entreprise, organisme, institution, …)2. information de localisation (lieu géographique): villes, régions, pays,

continents, etc.3. information temporelle : dates, durée, période, horaire, etc.4. information numérique : mesure, monétaire ou pourcentage, etc.

Dans notre étude, nous nous sommes inspiré de la catégorisation des EN de la conférence MUC 7, mais aussi, d’autres études.

Page 33: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

N° Type entité Etiquette associée

1 Phrase <Phrase>

2 Acteur particulier <ActP>

3 Acteur collectif <ActC>

4 Exp de localisation <Lieu>

5 Exp de localisation : ville <Ville>

6 Exp de localisation : région <Région>

7 Exp de localisation : pays <Pays>

8 Exp temporelle <Temps>

9 Exp temporelle de type durée <Durée>

10 Exp temporelle de type horaire <Horaire>

11 Exp temporelle de type age <Age>

12 Exp temporelle de type date <Date>

13 Exp numérique monétaire <ExpMon>

14 Exp numérique de longueur <Long>

15 Exp numérique de poids <Poids>

16 Exp numérique de volume <Volume>

17 Exp numérique de vitesse <Vitesse>

18 Exp numérique de température <Température>

19 Exp numérique de pourcentage <Pourcentage>

20 Nom propre <NP>

21 Titre <Titre>

22 Nom organisation <Org>

23 Fonctions sociales <FS>

24 Fonctions relationnelles <FR>

25 Nationalité <Nat>

26 Appartenance religieuse <App-Rel>

27 Appartenance ethnique <App-Eth>

Quelques étiquettes sémantiques attribuées aux ENs identifiées

CIT

ALA

20

09

Page 34: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Reconnaissance des entités nommées de type actantIdentification basée sur la structure interne de l’entité nommée ainsi que sur l’analyse du contexte

Reconnaissance des actants particuliers

Un acteur particulier est une personne qui est caractérisé par son nom propre (محمد، عبد الله) et sa fonction (رئيس، وزير ، ...), son titre (السيد، الدكتور، العاهل، الملك ، ...) qui pourrait aussi avoir une classe d’appartenance : nationalité (جزائري، مغربي، تونسي ، ...), religion (مسلم، مسيحيـي، يهودي ، ...). etc.De ce fait, la reconnaissance et l’annotation des acteurs particuliers (personnes et ses attributs), nécessitent :

1. des ressources: - un ensemble d’expressions régulières décrivant des entités selon leurs structures internes - un lexique sous forme de dictionnaires et de classes d’indices: classe de fonctions sociales, classe d’appartenance (nationalité, religion, ...), etc.

2. un ensemble de règles lexico sémantiques: pour l’annotation finale de l’acteur. Ces règles sont indépendantes du domaine d’application.

CIT

ALA

20

09

الله- عبدأبوعلي -

مروان- أمبطوطة - ابن

زياد- بن طارقعلي - بن المؤمن عبد

الفارسي - سلمانالخ......

Noms propres arabes:

Page 35: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Exemple :

أكد، أمس، وزير الطاقة والمناجم الجزائري السيد شكيب خليل أن مجموعة سوناطراك تحضر حاليا إلنشاء بنك لتمويل مشاريعها

،االستثمارية المستقبلية

Règle :<Det>? <FS><Nat><Ponct>?<Titre>? <NomP> -----> <ActP>

أمس، المناجم >FS<أكد، و الطاقة <Titre<الجزائري>Nat></FS<وزير</Nat< السيد>NP></Titre< خليل أن مجموعة سوناطراك > NP</شكيب

...تحضر حاليا إلنشاء بنك لتمويل مشاريعها االستثمارية المستقبلية،

أمس و >FS> <ActP< أكد، الطاقة وزيرشكيب >NP></Titre<السيد >Titre> </Nat<الجزائري>Nat></FS<المناجم

أن مجموعة سوناطراك تحضر حاليا إلنشاء بنك لتمويل > ActP> </NP</خليل...مشاريعها االستثمارية المستقبلية،

Cas de reconnaissance d’un actant particulier

CIT

ALA

20

09

Page 36: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Pour la reconnaissance des actants collectifs (noms d’organisation, d’entreprises, filiales, groupes, administration, institution, …) nous exploitons des lexiques et nous faisons appel aux informations concernant la structure interne des entités en question ainsi qu’aux expressions régulières et aux règles dites d’exploration contextuelle. Exemple :

أكد، أمس، وزير الطاقة والمناجم الجزائري السيد شكيب خليل أن مجموعة سوناطراك ،تحضر حاليا إلنشاء بنك لتمويل مشاريعها االستثمارية المستقبلية

Règle :<Det>? <FS><Nat><Ponct>?<Titre>? <NomP> -----> <ActP><TOrg>? <Org> <Nat>? -----> <ActC>

<Nat>/الجزائري<Nat></FS>وزير الطاقة و المناجم<FS>أكد، أمس، <Titre>السيد<NP></Titre>شكيب خليل/<NP>أن<TOrg>مجموعة/<TOrg> <Org>سوناطراك/<Org> تحضر حاليا إلنشاء بنك لتمويل مشاريعها االستثمارية

...المستقبلية،

<Nat>/الجزائري<Nat></FS>وزير الطاقة و المناجم<FS>أكد، أمس، <Titre>السيد<NP></Titre>شكيب خليل/<NP> أن<TOrg> <ActC>

تحضر حاليا إلنشاء بنك لتمويل <ActC> </Org>/سوناطراك <TOrg> <Org>/مجموعة...مشاريعها االستثمارية المستقبلية،

Cas de reconnaissance d’un actant collectif

Reconnaissance des actants collectifs

CIT

ALA

20

09

Page 37: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Cas 1 : lieu géographique 

Cas 2 : actant collectif

ا الجزائرقدمت .إلطلب للتجارة الدولية المنظمة إلى نضمام

الخارجية بغدا، لوزراء اجتماع سينعقد ، الجزائرالمغاربة.

بان كي مون غزة، األمين العام لألمم المتحدةزارالبارحة، ..…

Dans notre cas, c’est une règle d’exploration contextuelle qui sera utilisé pour attribuer l’étiquette adéquate en se basant sur le contexte linguistique de l’unité en question. Cette règle sous la forme littéraire, est la suivante:

Reconnaissance des noms de pays comme actants

Le cas des noms de pays pose problème. S’agit il d’une localisation ou bien d’un actant collectif. Afin de lever ce problème nous avons eu recours à une règle d’exploration contextuelle:

Règle d’Exploration Contextuelle (description): Si l’entité nommée étiqueter par >pays< ou >ville< est précédée par une préposition (ب، إلى، نحو،... ) ou par un verbe du type (وصل، غادر، انتقل، ذهب، زار،مكث، بقي،... ) alors attribuer l’étiquette >Lieu< sinon attribuer l’étiquette >ActantCollectif<

CIT

ALA

20

09

Page 38: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Dans cette tâche, nous nous intéressons à l’étiquetage des dates, des durées, des différentes expressions temporelles. Cela permettra ultérieurement d’associer une information temporelle à la relation extraite. Pour l’achèvement de cette tâche, nous faisons appel aux expressions régulières ainsi qu’à des règles d’explorations contextuelles.

Détection des datesElles peuvent apparaîtrent sous une :- une forme numériques (1990/01/15,1990-01-15, … ) ;- une forme mixte (15 1990جانفي ) ;-seulement de motsخمسة عشر جانفي ألف و تسعة مئة و تسعون))- les dates non absolues ("5 في ماي",مارس" " ) ;- les dates absolues (" 2009 جويلية 05في ") ;

Détection des durées- Des durées quelconques (" (" سنوات3خالل - Des intervalles temporels (" (" جويلية15 جوان إلى 06من - Des durées absolues(" (" جويلية05انطالقا من - Des durées relatives au moment d’élocution ("منذ عام")

Détection des expressions temporelles- Ce sont des expressions qui regroupent : par exemple :- Des dates relatives, de forme particulière (" في القرن الماضي"،"األسيوع الفارط"،"في

; ("بداية السنة

Reconnaissance d’entités de type temporelle

CIT

ALA

20

09

Page 39: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Exemple :

من فرنسية تكنولوجية أيام إلى 29تنظم علمنا 2008ديسمبر 1نوفمبر حسبما بالجزائر، " اللقاء " بهذا المبادرة الهيئات إحدى وهي اوبيفرانس وكالة .لدى

<Date>/نوفمبر<Nb><Date>29 <Mois></Nb >منتنظم أيام تكنولوجية فرنسية </Mois> إلى<Date> <Nb>1 <Mois></Nb> ديسمبر<Nb></Mois>2008 </Date> </Nb>

بالجزائر، حسبما علمنا لدى وكالة "اوبيفرانس" وهي إحدى الهيئات المبادرة بهذا .اللقاء

Règle :<Jour>? <Nb> <Mois> <Nb>? -----------------------> <Date>

من فرنسية تكنولوجية أيام Nb>1</إلى >Mois</نوفمبر>Nb>29 <Mois></Nb<تنظم<Mois></Nb< ديسمبر>Nb></Mois>2008 </Nb< وكالة لدى علمنا حسبما بالجزائر،

" اللقاء" بهذا المبادرة الهيئات إحدى وهي .اوبيفرانس

Règle :<Det> <Date> <Det> <Date> -----------------------> <Période>

فرنسية تكنولوجية أيام <Date</ نوفمبر>Nb><Date> <Période>29 <Mois></Nb<تنظم</Mois <إلى> Nb><Date>1 <Mois></Nb< ديسمبر>Nb></Mois>2008 </Période ></Date>

</Nb< " بهذا " المبادرة الهيئات إحدى وهي اوبيفرانس وكالة لدى علمنا حسبما بالجزائر،.اللقاء

Cas de reconnaissance d’expression temporelles

CIT

ALA

20

09

Page 40: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

L’annotation de l’information spatiale, implique l’identification des noms de lieux géographiques : village, ville, pays, continent, mer, océan, fleuve, lac, montagnes, désert, plaines, etc. ainsi que toutes les unités linguistiques (noms de localisation, verbes de localisation, adjectif de localisation, adverbes de lieux, etc. ) pouvant marquer et indiquer un nom de lieu ou contribuant à dénoter un nom de lieu. De la même manière, nous utiliserons des expressions régulières ainsi que des règles d’exploration contextuelles pour leur identification.

من سيقام الذي بالجزائر األول المغاربي المعرض إلى 26سيشهد 1نوفمبرمشاركة المعارض بقصر إليه 267ديسمبر أشار حسبما المنطقة بلدان من عارضا

) المنظمة ) سافيكس والصادرات للمعارض الجزائرية الشركة مسؤولو األحد يومالتظاهرة .لهذه

األول المغاربي المعرض >prep><Lieu<سيشهدمن >Lieu></ville</الجزائر>ville></prep<ب سيقام إلى 12الذي 2 1نوفمبر

المعارض >loc> </prep <ب >Lieu> <prep<نوفمبر 267مشاركة > Lieu> </loc</قصرالجزائرية الشركة مسؤولو األحد يوم إليه أشار حسبما المنطقة بلدان من عارضا

) التظاهرة ) لهذه المنظمة سافيكس والصادرات .للمعارض

Règle : <préposition> <ville> ---> <Lieu><préposition> <Loc> ---> <Lieu>

Cas de reconnaissance d’expression de localisation

Reconnaissance d’entités de type localisation

Exemple :

CIT

ALA

20

09

Page 41: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Il peut s’agir soit d’entités de mesure soit d’entités monétaires soit des pourcentages. Un nombre est soit un:- numérique simple : 10 ،دينار 100دوالر، 15أورو مليون ،- numérique avec virgule : %5,7 - numérique négatif : -6 %- numérique composé : دينار 7أالفLes classes utilisées pour l’identification et l’annotation des informations numériques sont :- unités monétaires ) دوالر,دينار, أورو (- unité de mesure ) كم, متر, لتر, كغ , …(- de signes relatifs au pourcentage )%(

على... العمومية الخزينة معدل 137حصلت أي دينار، ثمن 3مليار دج ماليير. واحدة عمومية مؤسسة بيع

على... العمومية الخزينة <Nb><ExpMon> 137 <NbL<حصلت</Nb<مليار/>NbL> <Dev<دينار />ExpMon></Dev< معدل أي ،>Nb>< ExpMon

> 3</Nb> NbL<ماليير>Dev></NbL<دج/>ExpMon></Dev< مؤسسة بيع ثمن. واحدة عمومية

Règle : Nous aurons à employer généralement pour l’annotation des expressions de mesure, des expressions régulières.

Cas de reconnaissance d’une expression de mesure

Exemple :

Reconnaissance d’entités de type numérique (EN de mesure ou monétaire)

CIT

ALA

20

09

Page 42: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Les règles de repérage de relations entre actants s’appuient sur des segments textuels déjà annotés (>actant<, >Temps<, >Lieu<…).

Les règles d’annotation augmentent celles de la précédente étape de deux nouvelles formes: l’une qui prend en compte, dans ses prémisses, des segments textuels déjà annotés et l’autre prenant en charge les notions d’indicateur, d’indices complémentaires et d’espace de recherche selon la méthode de l’exploration contextuelle.

Du fait, de la multitude de relations qui peuvent exister entre les entités nommées, nous nous sommes limités aux relations liées à la notion rencontre (scientifique, politique, économique, culturelle, religieuse, etc.).

L’objectif étant d’essayer de repérer dans les dépêches de presse, les rencontres de personnes scientifiques, politiques, culturelles apparaissant dans les textes journalistiques et d’essayer d’extraire toutes les informations les décrivant (les personnes qui se sont rencontrées, date, lieu, …). De ce fait, nous tâcherons de recenser les verbes véhiculant cette notion du genre (، لقي، ....، عقدحاورت ).

Extraction des relations entre les ENs

CIT

ALA

20

09

Page 43: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Exemple :

<Phrase>التقى>FS><ActP< الرئيس>Nat></FS< الجزائرى>NP></Nat< بوتفليقة العزيز > ExpT>،<FS><ActP<اليوم >ActP></NP> ، <ExpT</عبد

العام الم >FS> <Org</األمين اإلسالمى ؤلمنظمة أكمل >NP></Org<تمرأوغلو أحسان يزور >ActP></NP</الدين >Lieu</الجزائر >Lieu<الذى

> Phrase.</حاليا

بوتفليقة العزيز عبد الجزائرى الرئيس العام ،التقى األمين اليوم،يزور الذى أوغلو أحسان الدين أكمل االسالمى الموءتمر لمنظمة

. نشاطات اللقاء خالل اوغلو مع بوتفليقة الرئيس وبحث حاليا الجزائرداكار قمة بعد خاصة واالنسانية واالقتصادية السياسية المنظمة

ميثاقها أقرت التى . … االخيرة

<VRenc><RencontreRel><Phrase>التقى>FS><ActP></VRenc <العزيز >NP></Nat<الجزائرى >Nat></FS<الرئيس عبد

األمين > ExpT>،<FS><ActP<اليوم >ActP></NP> ، <ExpT</بوتفليقةالم >FS> <Org</العام اإلسالمى ؤلمنظمة الدين >NP></Org<تمر أكمل

أوغلو يزور >ActP></NP</أحسان >Lieu<الذى> Phrase.</حاليا >RencontreRel></Lieu</الجزائر

Annotation des entités nommées

Annotation des relations de type Rencontre

Cas de reconnaissance d’une relation de Rencontre

CIT

ALA

20

09

Page 44: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

Problèmes rencontrés Problèmes rencontrés dans le cas des textes dans le cas des textes arabesarabes

CIT

ALA

20

09

Page 45: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

1. Forme agglutinante des mots arabes : la langue arabe est une langue agglutinante. En effet, les mots arabes, peuvent être affixés, ce qui fait que des fois il y’a des particule qui colle à certaines entités ce qui ne facilite pas leur détection.

2. Absence de casse (indice naîf): absence de majuscules et de minuscules, dont la présence faciliter la reconnaissance des entités nommées du type  noms propres par exemple.

3. Absence de normes d’écritures des noms propres : certains noms propres en langue latines sont retranscris en langue arabe mais sous plusieurs formes, par exemple : Poutine est réécrit en arabe : بوتين، بوتن d’où la difficulté à réunir l’ensemble des formes possibles et d’où la nécessité de normaliser l’écriture des noms propres d’origine non arabe.

4. Non voyélisation des textes arabes est source d’ambiguïtés. En effet, le mot en arabe « مؤسسة » sans voyelles, peut s’interpréter selon deux sens distinct :

ة¿ ÀسÀسÀؤÁم entreprise fondatrice مÁؤÀسÂسÀة

5. Problèmes de délimitation des entités nommées pour deux raisons : - mot inconnu : absence d’informations morphologiques (nécessite de disposer

d’un analyseur morphologique) - antonomase : passage du mot de la langue au nom propre

6. problème de la ponctuation qui n’est pas respectée dans la rédaction des textes arabes.

Problèmes rencontrés dans le cas des textes arabes

CIT

ALA

20

09

Page 46: Centre de Recherche Scientifique et Technique pour le Développement de la Langue  Arabe

ConclusioConclusionn

CIT

ALA

20

09