83
Méthode et outils pour la création automatique et l’évaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree TEERAPARBSEREE GETA-CLIPS-IMAG Grenoble, FRANCE Soutenance de thèse, 27 septembre 2005

Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

Embed Size (px)

Citation preview

Page 1: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

Méthode et outils pour la création automatique et l’évaluation de structures de bases lexicales multilingues (symétriques) à

lexies et axies

Aree TEERAPARBSEREEGETA-CLIPS-IMAG

Grenoble, FRANCE

Soutenance de thèse, 27 septembre 2005

Page 2: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

2

Bases lexicales multilingues (BDLM)

3 catégories principales

1. Structure en fourche

1 langue source n langues cibles

ex. JMDict, FeM

JA

FR

DE

EN

JMDict

FR

MS

EN

FeM

Page 3: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

3

Bases lexicales multilingues (BDLM)

2. Structure pivot naturel

n langues sources n langues cibles

une langue naturelle comme pivot

ex. Projet EuroWordNet

FR

DE

EN

ETCS

ES

NL IT Problème : phénomène contrastif

river (en)fleuve (fr)

rivière (fr)

?

?

Page 4: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

4

Bases lexicales multilingues (BDLM)

3. Structure pivot artificiel

n langues sources n langues cibles

un langage artificiel comme pivot

ex. Projet Papillon

LO

VT

TH

JA

FR

DEEN

MS

river (en)fleuve (fr)

rivière (fr)

?

?

river (en)fleuve (fr)

rivière (fr)

Avantage- Phénomènes contrastifs correctement traités

Page 5: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

5

Bases lexicales multilingues (BDLM)

3. Structure pivot artificiel

n langues sources n langues cibles

un langage artificiel comme pivot

ex. Projet Papillon

LO

VT

TH

JA

FR

DEEN

MS

Problème- Comment définir le pivot ?

Peut-on construire automatiquementune base à pivot artificielle à partir d'informations existantes

Page 6: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

6

Papillon : Base lexicale multilingue

But : Construction collaborative d’une grande BDLM

Dico Ja

lexie 1

Dico Fr

lexie affection 1(tendresse)

lexie affection 2(maladie)

lexie maladie 1

Dico En

lexie affection 1

axie

Dico Th

lexie 1

lexie disease 1

axie = interlinguelexie = sens de mot

Page 7: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

7

Papillon : construction des données

1 Phase d’amorçage 2 Phase de contribution

L1<->L3

L2<->L3L1

L2L3

L1<->L4

L2<->L5L3

L4L5

Données récupérées

Données récupérées

Amorçage

Ré-amorçage

Base papillon

Serveur papillon

L1

L4

L2

Axie

L3L5

Modifications/Ajouts/

Suppressions

Validation

Contributions

Intégration

Page 8: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

8

Papillon : construction des données

1 Phase d’amorçage

L1<->L3

L2<->L3L1

L2L3

Données récupérées

Amorçage

AxieV1

L1

L3

L2

Base papillon

Serveur papillon

2 Phase de contribution

Page 9: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

9

Papillon : construction des données

1 Phase d’amorçage 2 Phase de contribution

L1<->L3

L2<->L3L1

L2L3

L1<->L4

L2<->L5L3

L4L5

Données récupérées

Données récupérées

Amorçage

Ré-amorçage

Base papillon

Serveur papillon

L1

L4

L2AxieV2

L3L5

Page 10: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

10

Papillon : construction des données

Modifications/Ajouts/

Suppressions

Validation

Contributions

Intégration

Base papillon

Serveur papillon

1 Phase d’amorçage 2 Phase de contribution

L1

L4

L2AxieV3

L3L5

Page 11: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

11

Papillon : construction des données

1 Phase d’amorçage

L1<->L3

L2<->L3L1

L2L3

L1<->L4

L2<->L5L3

L4L5

Données récupérées

Données récupérées

Amorçage

Ré-amorçage

Base papillon

Serveur papillon

L1

L4

L2

Axie

L3L5

Modifications/Ajouts/

Suppressions

Validation

Contributions

Intégration

2 Phase de contribution

Page 12: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

12

Objectif de la thèse

Amorçage automatique d’une BDLM à pivot Qualité raisonnableUtilisable par humain ou machineCorrespond aux objectifs du lexicologue et aux

ressources disponiblesL2

L1

L4

L3

ressources existantes BDLM à pivot

mot

axielexie

BDmnl

Dicosbl

Page 13: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

13

Plan

1. Bases lexicales multilingues

2. Structuration d’une base d’axies Travaux existants Proposition pour la structuration d’axies Expérimentation

3. Évaluation de la qualité d’une base d’axies Proposition des mesures Expérimentation

Page 14: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

14

Problèmes de la construction des BDLM

Manque de ressources disponibles

Non cohérence des ressources disponibles : format de

données, richesse des informations, etc.

Mise en correspondance de lexies de différentes langues

Nécessité pour lexicologue de faire des compromis entre les ressources existantes et la qualité de BDLM créée

Page 15: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

15

Trois volets de problèmes d’amorçage des BDLM

1. Construction initiale des lexies et des axies Récupération de données existantes Intégration des données Création des lexies et des axies à partir des données

récupérées

2. Amélioration incrémentale par humain

3. Évaluation de la qualité de BDLM produite

Page 16: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

16

Trois volets de problèmes d’amorçage des BDLM

1. Construction initiale des lexies et des axies Récupération de données existantes

Récupdic [Haï, 1998] Intégration des données Création des lexies et des axies à partir des données

récupérées

2. Amélioration incrémentale par humain

3. Évaluation de la qualité de BDLM produite

Page 17: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

17

Exemples des travaux existants pour la structuration des lexies & axies

1. Méthode de transfert et consultation inverse de dictionnaires bilingues [Tanaka & Umemura,1994]

2. Comparaison de vecteurs conceptuels pour distinguer des lexies [Chauché,1990; Lafourcade,2002]

Page 18: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

18

Méthode de transfert et consultation inverse de dictionnaires bilingues (1/5)

But : Construire des liens traductionnels entre trois langues

Ressources nécessaires :

BDLM1-2-3

Résultat

Monolinguelangue 1

Monolinguelangue 3

Monolinguelangue 2

Bilingue L 3-> L 2

Bilingue L 2-> L 1

Bilingue L 2-> L 3

Bilingue L1-> L 2

[Tanaka & Umemura,1994]

Page 19: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

19

Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5)

Méthode de transfert

kyousou

JP EN FR

[Tanaka & Umemura,1994]

Page 20: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

20

Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5)

Méthode de transfert

competitioncontestrace

kyousou

JP EN FR

[Tanaka & Umemura,1994]

Page 21: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

21

Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5)

Méthode de transfert

competitioncontestrace

compétitionconcourscourseracehâte

kyousou

JP EN FR

[Tanaka & Umemura,1994]

On obtient toutes les relations traductionnelles possibles pour chaque entrée de la langue source

Page 22: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

22

Méthode de transfert et consultation inverse de dictionnaires bilingues (3/5)

Méthode de consultation inverse 1 fois

matchcompetitioncontestraceancestryhaste

compétitionconcourscourseracehâte

kyousou

JP EN FR

??

??

On garde : mot dont la traduction est en commun avec mot source

On enlève : mot dont aucune traduction n’est en commun avec mot source

[Tanaka & Umemura,1994]

Page 23: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

23

Méthode de transfert et consultation inverse de dictionnaires bilingues (4/5)

Méthode de consultation inverse 2 fois

matchcompetitioncontestraceancestry

compétitionconcourscourserace

kyougikyousoujinshusenzo

JP EN FR

[Tanaka & Umemura,1994]

Page 24: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

24

Avantage Facile à construire

Limitations Nécessite plusieurs dicos bilingues Ne fonctionne pas au niveau des lexies

Méthode de transfert et consultation inverse de dictionnaires bilingues (5/5)

Page 25: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

25

Exemples des travaux existants pour la structuration des lexies & axies

1. Méthode de transfert et consultation inverse de dictionnaires bilingues [Tanaka & Umemura,1994]

2. Comparaison de vecteurs conceptuels pour distinguer des lexies [Chauché,1990; Lafourcade,2002]

Page 26: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

26

Méthode de comparaison de vecteurs conceptuels (1/5)

[Chauché 1990, Lafourcade, 2002]

lexie

Idée : associer un vecteur à chaque lexie, qui code le sens donné par la définition

Vecteur : combinaison des vecteurs d’un ensemble de concepts de base (V(Ci))

Ci = un concept feuille d’un thésaurus

P.ex : 873 concepts feuilles du thésaurus Larousse V(Ci) = <0, 0, …, 0 , 1 , 0, …, 0>

Page 27: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

27

Méthode de comparaison de vecteurs conceptuels (2/5)

Calcul récursif des vecteurs des lexies

{ V(Ci) } , { mot-concepts}

Ensemble initial de VCpour les mots indexés

« bootstrap » : combinaison linéaire des concepts, selon l'index

VC associés aux lexies

1ère itération

VC associés aux mots-vedettes

combinaison linéaire des vecteurs des lexies pour chaque mot-vedette

n-ième itération

Page 28: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

28

Méthode de comparaison de vecteurs conceptuels (3/5)

Comment calculer le vecteur pour une lexie ? P. ex. lexie de « ranger »

Définition : « disposer à sa place dans l'ordre »

Mots importants : « disposer », « place », « ordre »

analyse morpho-syntaxiqueBD : VC pour les mots « disposer », « place », « ordre », ...

VC pour la lexie

combinaison linéaire des vecteurs des mots de la définition

Page 29: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

29

Méthode de comparaison de vecteurs conceptuels (4/5)

[Chauché 1990, Lafourcade, 2002]

X

Y

DA ("profit" , "profit" ) = 0DA ("profit" , "benefit" ) = 10DA ("profit" , "joy" ) = 39DA ("profit" , "sadness" ) = 65

Comparer la distance thématique entre lexies

Distance angulaire entre 2 vecteurs (DA )

DA (X,Y) = angle (X,Y) ; 0 DA (X,Y) 90

Page 30: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

30

Méthode de comparaison de vecteurs conceptuels (5/5)

Avantages Fonctionne au niveau lexie Relativement efficace

Limitations Nécessite analyseur morpho-syntaxique Besoin d’un index mot-concepts pour initialiser

des VC Les VC doivent utiliser les mêmes ensembles de

concepts pour pouvoir comparer

Page 31: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

31

Discussion

Chaque méthode nécessite des ressources lexicales spécifiques

Chaque méthode a des avantages et des limitations différents

Des méthodes peuvent être complémentaires Il est préférable de pouvoir réutiliser ces méthodes

existantes

Page 32: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

32

Notre proposition

Avantages

dépasser limitations d’utilisation de méthode

adaptabilité à de nombreuses situations possibles

1 N32algorithmes de structurationd’axies existantes …

Composer arbitrairement les algorithmes de structuration d’axies pour créer un BDLM de meilleure qualité possible selon les ressources disponibles

+ +

+ +

+

1

1

1

2

2

3

N

3

Page 33: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

33

Notre contribution

Idée : appliquer des techniques de génie logiciel

Réalisation :

Jeminie : canevas logiciel (framework) modulaire et adaptable

Conception

DéveloppementSystème de structuration automatique des BDLM

Évaluation des BDLM+

Page 34: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

34

Jeminie

Trois fonctions principales1. Préparation des données2. Production et filtrage d’axies3. Évaluation de la qualité de la base d’axies

produites

Trois types d’utilisateur1. Linguiste2. Programmeur3. Utilisateur de base de données

Page 35: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

35

Jeminie : architecture globale

linguiste

M1

Noyau de programme

M2 Mn

Interpréteur de processus

processus de structuration

Persistance O/R

Base de données

utilisateur

programmeur

Page 36: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

36

Jeminie : architecture globale

linguiste

M1

Noyau de programme

M2 Mn

Interpréteur de processus

processus / mesure de qualtié

Persistance O/R

Base de données

utilisateur

Interpréteur de mesure de qualité

programmeur

- Modèle de données- Outils de base, p. ex.

-Connexion à l’analyseur morpho-syntaxique-Connexion à la base de données-Importation de dictionnaires

Page 37: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

37

Jeminie : architecture globale

linguiste

M1

Noyau de programme

M2 Mn

Interpréteur de processus

processus de structuration

Persistance O/R

Base de données

utilisateur

programmeur

Module est uneimplémentation d’un algorithme de structuration d’axies

Page 38: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

38

Jeminie : architecture globale

linguiste

M1

Noyau de programme

M2 Mn

Interpréteur de processus

processus de structuration

Persistance O/R

Base de données

utilisateur

programmeur

Module est uneimplémentation d’un algorithme de structuration d’axies

Jeminie peut être étenduen développant de nouveaux modules

Page 39: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

39

Module de structuration d’axie

Public interface AxieCreator {

void updateAxieDatabase(AxieDatabaseContext context, List parameters)

boolean checkAxieCreatorParameters (List parameters)}

updateAxieDatabase : implémente un nouvel algorithme AxieDatabaseContext : indique la base lexicale à modifier Parameters : indique les ressources utilisées par

l’algorithme, ou les informations supplémentaires selon l’algorithme

Page 40: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

40

Jeminie : comment ça marche

Processus

entrée

Base de donnéeslexies & axies

entrée / sortieJeminie

M1

Noyau de programme

M2 M3 Mn

Interpréteur de processus

exécuter

Processus est une séquence d’exécutions de modules de structuration d’axies

Page 41: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

41

Jeminie : comment ça marche

Processus

entrée

Base de donnéeslexies & axies

entrée / sortieJeminie

M1

Noyau de programme

M2 M3 Mn

Interpréteur de processus

exécuter

Page 42: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

42

Jeminie : comment ça marche

Processus

entrée

Base de donnéeslexies & axies

entrée / sortieJeminie

M1

Noyau de programme

M2 M3 Mn

Interpréteur de processus

exécuter

Page 43: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

43kyousou competition

Exemple de modules implémentés (1/3)

Nom : BlingTransfertAxieCreator

Paramètres : Dico L1L2, Dico L2L3, Base d’axies (BDa )

Résultat : de nouvelles axies créées par la méthode de transfert ajoutées dans BDa competition

contestrace

compétitionconcourscourseracehâte

kyousou

JP EN FR

race

concourscourse

Page 44: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

44

Exemple de modules implémentés (2/3)

Nom : BlingTransfertInverseAxieCreator

Paramètres : Dico L1L2, Dico L2L3, Dico L3L2, Dico L2L1, Base d’axie (BDa )

Résultat : de nouvelles axies créées par la méthode de transfert et consultation inverse ajoutées dans BDa

competitioncontestrace

compétitionconcourscourse

kyousou

JP EN FR

kyousou competition concourscourse

Page 45: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

45

Exemple de modules implémentés (3/3)

Nom : VCAxieFilter

Paramètres : Base d’axie (BDa ) , seuil pour la distance angulaire maximale

Résultat : base BDa modifiée par la méthode de comparaison de vecteurs conceptuels

2 lexies

XY

On enlève l’axie où

DA (X,Y) > un seuil

> 2 lexies

XY

On enlève l’axie où la distanceangulaire moyenne > un seuil

Z

Page 46: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

46

Plan

1. Bases lexicales multilingues

2. Structuration d’axies Travaux existants Proposition pour la structuration d’axies Expérimentation

3. Évaluation de la qualité d’axies Proposition des mesures Expérimentation

Page 47: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

47

Expérimentation : données

Données monolingues<HTML><HEAD><TITLE>Pisang generated page for GETDEF</TITLE></HEAD><link rel="stylesheet" href="http://www.lirmm.fr/~lafourca/style.css" type="text/css"><BODY bgcolor="#fffffe"><b>Warning : server learning since the 7/8/2002 at 11:20:10 </b><p><SERVICE-RESULT> <B><VED>inexpiable</VED></B><BR><I> with 5 parts </I><blockquote><B><SUBVED>inexpiable.3</SUBVED></B> <I>as</I> <def>#s=2# Que rien n'apaise. ( Haine inexpiable ) .</def> <font color="#888888" size="3"><code>[<src>HDL</src> <i>the 3/12/2001 at 20:55:51</i>]</code></font><BR>

100015787,artifact,n100015787,artefact,n100016679,article,n100016840,psychological feature,n100016993,abstraction,n100017218,cognition,n100017218,knowledge,n

100015787,a man-made object taken as a whole100016679,one of a class of artifacts100016840,a feature of the mental life of a living organism100016993,a general concept formed by extracting common features from specific examples100017218,the psychological result of perception and learning and reasoning

Donnée de Lirmm

Royal Institute

WordNet

Page 48: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

48

Expérimentation : données

Données monolingues

Langue Monolingues # mots # lexies #lexies/mot

anglais WordNet 53 000 91 270 1,7

français Donnée de Lirmm 21 700 46 000 2,1

thaï Royal Institute 5 440 9 360 1,7

<lexie d:id="poème.3"> <headword>poème <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <government-pattern> <mod><actor/></mod> </government-pattern>

<lexie d:id="poème.3"> <headword>poème <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <government-pattern> <mod><actor/></mod> </government-pattern>

html

texte

<lexie d:id="poème.3"> <headword>poème</headword> <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <more-info> <resource name= "LAR"> </resource> </more-info></lexie>

xmlPapillon

Page 49: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

49

Expérimentation : données

Données bilingues

Dictionnaires bilingues Nombre de mots d’entrées

Oxford french mini EN-FR 8 122

Oxford french mini FR-EN 7 155

FeM 14 690

So Sethaputra EN-TH 9 900

FR-TH 18 000

<lexie d:id="poème.3"> <headword>poème <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <government-pattern> <mod><actor/></mod> </government-pattern>

xml

html

<volume name="oxford_mini" source-language="fra" target-language="eng"> <dict-entry> <entry>absent</entry> <pos>a.</pos> <translation>absent</translation> </dict-entry></volume>

xml

Page 50: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

50

Jeminie : Préparation des données

InitLexieSimple(Dico.xml, BDa, fr)

<lexie d:id="poème.3"> <headword>poème</headword> <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <government-pattern> <mod><actor/></mod> </government-pattern> <more-info> <resource name= "LAR"> </resource> </more-info></lexie>

Créer une lexie avecinformation minimale-Mot-vedette-Partie de discours-Définition-Ressource-Langue

Base BDa

Page 51: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

51

Jeminie : Préparation des données

Créer des vecteurs conceptuels associés à chaque lexie

Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2

Indexation entremots et concepts

BD VCBase de vecteurs initiaux

BD lexiesAnalyser la

définition de chaque lexie

InitLexieVC(BD-VC, BDa, fr)

Liste des motsdans la définitionde chaque lexie

Calculer d’un VC associé à cette lexie

BDa lexie +vecteur

Analyseur morpho-syntaxique

Page 52: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

52

Jeminie : Préparation des données

Créer des vecteurs conceptuels associés à chaque lexie

Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2

Indexation entremots et concepts

BD VCBase de vecteurs initiaux

BD lexiesAnalyser la

définition de chaque lexie

InitLexieVC(BD-VC, BDa, fr)

Liste des motsdans la définitionde chaque lexie

Calculer d’un VC associé à cette lexie

BDa lexie +vecteur

Analyseur morpho-syntaxique

Page 53: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

53

Jeminie : Préparation des données

Créer des vecteurs conceptuels associés à chaque lexie

Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2

Indexation entremots et concepts

BD VCBase de vecteurs initiaux

BD lexiesAnalyser la

définition de chaque lexie

InitLexieVC(BD-VC, BDa, fr)

Liste des motsdans la définitionde chaque lexie

Calculer d’un VC associé à cette lexie

BDa lexie +vecteur

Analyseur morpho-syntaxique

Page 54: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

54

Jeminie : Préparation des données

Créer des vecteurs conceptuels associés à chaque lexie

Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2

Indexation entremots et concepts

BD VCBase de vecteurs initiaux

BD lexiesAnalyser la

définition de chaque lexie

InitLexieVC(BD-VC, BDa, fr)

Liste des motsdans la définitionde chaque lexie

Calculer d’un VC associé à cette lexie

BDa lexie +vecteur

Analyseur morpho-syntaxique

Nécessite

Page 55: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

55

Expérimentation : méthodes Structuration d’une BDLM de 3 langues :

FR,EN,TH

3 méthodes Création : méthode de transfert Création : méthode de transfert et consultation inverse Filtrage : méthode de comparaison des VC

4 processus : Transfert BDLM 1 TransfertInverse BDLM 2 Transfert+FVC BDLM 3 TransfertInverse+FVC BDLM 4

Page 56: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

56

Exemples des BDLMUne lexie du mot l’anglais : transfer

BDLM1

(tr)

BDLM2

(trin)

BDLM3

(tr+fvc)

BDLM4

(trin+fvc)

1 lexie4 axies

1 lexie2 axies

1 lexie2 axies

1 lexie1 axie

Page 57: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

57

Plan

1. Bases lexicales multilingues

2. Structuration d’axies Travaux existants Proposition pour la structuration d’axies Expérimentation

3. Évaluation de la qualité d’axies Proposition des mesures Expérimentation

Page 58: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

58

Proposition des critères d’évaluation la qualité d’une BDLM produite

Critère basé sur une référence Critère structural Critère vectoriel

Page 59: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

59

Critère basé sur une référence

#axies définies dans R et G

#axies dans GQ-précision =

#axies définies dans R et G

#axies dans RQ-rappel (coverage) =

[ Hovy et al. 2002 ; Papineni et al. 2002 ]

Qualité Q-rappel Q-précision

R G= ?

Base d’axies de référence Base d’axies générée

Page 60: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

60

Critère structural

[Teeraparbseree, 2004]

Qualité Q-lexiecorrecte

Q-lexiecorrecte = | { L où |conn(L)| = 1} |

|L|

Axie1Axie2

Lexie

Incorrecte

|conn(L)| > 1

Correcte

|conn(L)| = 1

Axie1

Lexie

Incomplétude

|conn(L)| = 0

Axie1

Lexie

Page 61: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

61

Critère vectoriel

La distance moyenne entre les vecteurs conceptuels des lexies liées à une même axie

Mesure

Qualité distance

Distance moyenne =1n

n

i=1( 1nbpl(i)

nbpl(i)

k=1distancek ))

[Teeraparbseree, 2004]

Page 62: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

62

linguiste

M1

Noyau de programme

M2 Mn

Interpréteur de processus

processus de structuration / d’évaluation

Persistance O/R

Base de données

utilisateur

Q1 Q2 Qn

Interpréteur de Stratégie d’évaluation

programmeur

Ajouter la partie d’évaluation dans Jeminie

Page 63: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

63

Chaque critère = un module logiciel

Chaque module retourne une valeur numérique Qi

Jeminie

Q1

Noyau de programme

Q2 Q3 Qn

Interpréteur de Stratégie d’évaluation

Base de donnéeslexies & axies

public interface AxieEvaluation { boolean checkAxieEvaluationParameters

(List parameters);float getQualityValue(AxieDatabaseContext

context, List parameters); }

Approche similaire à celle de la structuration

Page 64: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

64

Discussion

Chaque critère évalue une dimension différente d’une BDLM

Il est très difficile (impossible ?) de maximiser simultanément tous les critères, avec les méthodes de structuration d’axies disponiblesP. ex. TraInverse augmente la précision, mais diminue le

rappel Donc il est nécessaire au lexicologue de faire un choix :

Des critères qui l’intéressentDe l’importance relative qu’il accorde aux critères

Page 65: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

65

Critère global

Notre proposition

Q n’est pas une mesure absolue (pas d’unité..) Mais est utile pour comparer la qualité de 2 BDLM

Q = #modules

i = 1poidsi • Qi

Page 66: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

66

Exemple d’évaluation

BDLM 1 BDLM 4BDLM 3BDLM 2

0

10

20

30

40

50

60

70

80

90

100

Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC

Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th

Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th)Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH

Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï

Pas d’évaluation Q-rappel pour cet exemple

Page 67: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

67

Exemple d’évaluation

BDLM 1 BDLM 4BDLM 3BDLM 2

0

10

20

30

40

50

60

70

80

90

100

Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC

Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th

Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th)Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH

Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï

Pas d’évaluation Q-rappel pour cet exemple

Page 68: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

68

Exemple d’évaluation

BDLM 1 BDLM 4BDLM 3BDLM 2

0

10

20

30

40

50

60

70

80

90

100

Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC

Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th

Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th)Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH

Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï

Pas d’évaluation Q-rappel pour cet exemple

La précision et la qualité de la structure des axies, du point de vue des lexies FR, EN et TH

Page 69: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

69

Exemple d’évaluation

BDLM 1 BDLM 4BDLM 3BDLM 2

0

10

20

30

40

50

60

70

80

90

100

Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC

Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th

Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th)Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH

Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï

Pas d’évaluation Q-rappel pour cet exemple

Page 70: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

70

Exemple d’évaluation

BDLM 1 BDLM 4BDLM 3BDLM 2

0

10

20

30

40

50

60

70

80

90

100

Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC

Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th

Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th)Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH

Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï

Pas d’évaluation Q-rappel pour cet exemple

les processus 1 et 2 ont une structure d’axies assez mauvaise, carles méthodes fonctionnent au niveau des mots,et pas au niveau des lexies.Précision avec transfert-inverse > transfert simple

Page 71: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

71

Exemple d’évaluation

BDLM 1 BDLM 4BDLM 3BDLM 2

0

10

20

30

40

50

60

70

80

90

100

Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC

Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th

Données monolingues : WordNet (en), Donnée de Lirmm (Fr), Royal Institute (th)Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH

Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï

Pas d’évaluation Q-rappel pour cet exemple

Processus 3 et 4 : utilisent FVC en plus-la précision est améliorée -la structure est très significativement amélioréecar FVC fonctione au niveau des lexies

Page 72: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

72

Exemple d’évaluation

BDLM 1 BDLM 4BDLM 3BDLM 2

0

10

20

30

40

50

60

70

80

90

100

Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC

Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th

Données monolingues : WordNet (en), Donnée de Lirmm (Fr), Royal Institute (th)Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH

Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï

Pas d’évaluation Q-rappel pour cet exemple

Combiner les techniques de structuration et de filtrage permet d’améliorer significativement la qualité des bases produites

Page 73: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

73

Remarques

0

10

20

30

40

50

60

70

80

90

100

Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC

Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th

1. Q-precision choisi comme critère important Il vaut mieux utiliser la traduction inverse, que la traduction

simple2. Si on avait pu mesurer le rappel et le choisi comme critère

important Prédiction : la traduction simple aurait eu une meilleure

mesure de rappel que la traduction bilingue inverse

La mesure de la qualité d’une BDLM-est subjective,-dépend des objectifs d’un lexicolgueexprimé sous la forme du choix des critères, et des poids.

Intérêt de notre approche modulaire et extensible pour la mesure de qualité

Page 74: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

74

Conclusion

ProblématiqueProblème : automatisation de structuration et

d’évaluation des lexies et axies Proposition

Conception d’un système de structuration et d’évaluation des lexies et axies

Réalisation de la plate-forme JeminieComposition flexible des techniquesSimilarité entre la structuration et l’évaluation

Expérimentation Création des BDLM de 3 langues : FR, EN, TH

Page 75: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

75

Recherches futures

Trouver des nouvelles techniques pour la structuration qui fonctionnent au niveau des lexies

Intégrer au système une IHM pour manipuler des données (lexies et axies)

Offrir plus de possibilité aux linguistes pour s’exprimer sur la façon de manipuler le système

Étude sur les méthodes de décision multicritères pour assister le lexicographe dans le choix des techniques de construction et d’évaluation, et pour guider leur composition

Page 76: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

76

Merci

Merci

Page 77: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

77

FIN

FIN

Page 78: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

78

Composition de modules de création d’axies pour créer ou filtrer des axies

Composition de modules de critères pour évaluer la qualité des axies

Processus itératif pour l’amorçage

Fin de l’amorçage

Page 79: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

79

[Hai, 1998]

PRODUCDIC : Opérations de base (1/4)

1. Sélection

2. Extraction

3. Regroupement

4. Inverse

5. Enchaînement

6. Combinaison parallèle

7. Combinaison en étoile

Page 80: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

80

PRODUCDIC : Opérations de base (2/4)

…accept(vt)acceptable(a)acceptance(n)access(n,vt):

…accept(vt)

access(vt)

:

sélection

abaisser lower,pull down, push down merendahkan, tarik ke bawah

abaisser merendahkan, tarik ke bawah

extraction

love(n) amourlove(v) aimer

love(n) amourlove(v) aimer

regroupementinverse

aimer(v) love, likecomme(prép) as, like

like(v) aimer;like(prép) commelove(v) aimer

[Hai, 1998]

Page 81: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

81

PRODUCDIC : Opérations de base (3/4)

enchaînement

love : mencintailike : menyukai

aimer :1. love2. like

aimer :1. love

mencintai2. like

menyukai

aimer :1 mencintai2 menyukai

paquet : packet, parcel ;

bundle

(A1)

paquet : packet, pack ;

bag, parcel

(A2)

paquet : (A1) packet, parcel; bundle(A2) packet, pack; bag, parcel

combinaison parallèle

B A A B

D A A DC A A C A

BCD

BCD

combinaison en étoile[Hai, 1998]

Page 82: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

82

PRODUCDIC : Opérations de base (4/4)

Avantage Facile à construire

Limitations Ne fonctionne pas au niveau des lexies Certaines opérations sont plus préférables dans

l’étape de la préparation des données par.ex. la sélection, l’extraction, le regroupement, et l’inversion

Page 83: Méthode et outils pour la création automatique et lévaluation de structures de bases lexicales multilingues (symétriques) à lexies et axies Aree T EERAPARBSEREE

83

Exemples des BDLM (2/2)Une lexie de mot l’anglais : arrest

BDLM1

(tr)

BDLM2

(trin)

BDLM3

(tr+fvc)

BDLM4

(trin+fvc)

1 lexie2 axies

1 lexie1 axie

1 lexie2 axies

1 lexie1 axie