Upload
abelle-fraisse
View
107
Download
1
Embed Size (px)
Citation preview
Méthode et outils pour la création automatique et l’évaluation de structures de bases lexicales multilingues (symétriques) à
lexies et axies
Aree TEERAPARBSEREEGETA-CLIPS-IMAG
Grenoble, FRANCE
Soutenance de thèse, 27 septembre 2005
2
Bases lexicales multilingues (BDLM)
3 catégories principales
1. Structure en fourche
1 langue source n langues cibles
ex. JMDict, FeM
JA
FR
DE
EN
JMDict
FR
MS
EN
FeM
3
Bases lexicales multilingues (BDLM)
2. Structure pivot naturel
n langues sources n langues cibles
une langue naturelle comme pivot
ex. Projet EuroWordNet
FR
DE
EN
ETCS
ES
NL IT Problème : phénomène contrastif
river (en)fleuve (fr)
rivière (fr)
?
?
4
Bases lexicales multilingues (BDLM)
3. Structure pivot artificiel
n langues sources n langues cibles
un langage artificiel comme pivot
ex. Projet Papillon
LO
VT
TH
JA
FR
DEEN
MS
river (en)fleuve (fr)
rivière (fr)
?
?
river (en)fleuve (fr)
rivière (fr)
Avantage- Phénomènes contrastifs correctement traités
5
Bases lexicales multilingues (BDLM)
3. Structure pivot artificiel
n langues sources n langues cibles
un langage artificiel comme pivot
ex. Projet Papillon
LO
VT
TH
JA
FR
DEEN
MS
Problème- Comment définir le pivot ?
Peut-on construire automatiquementune base à pivot artificielle à partir d'informations existantes
6
Papillon : Base lexicale multilingue
But : Construction collaborative d’une grande BDLM
Dico Ja
lexie 1
Dico Fr
lexie affection 1(tendresse)
lexie affection 2(maladie)
lexie maladie 1
Dico En
lexie affection 1
axie
Dico Th
lexie 1
lexie disease 1
axie = interlinguelexie = sens de mot
7
Papillon : construction des données
1 Phase d’amorçage 2 Phase de contribution
L1<->L3
L2<->L3L1
L2L3
L1<->L4
L2<->L5L3
L4L5
Données récupérées
Données récupérées
Amorçage
Ré-amorçage
Base papillon
Serveur papillon
L1
L4
L2
Axie
L3L5
Modifications/Ajouts/
Suppressions
Validation
Contributions
Intégration
8
Papillon : construction des données
1 Phase d’amorçage
L1<->L3
L2<->L3L1
L2L3
Données récupérées
Amorçage
AxieV1
L1
L3
L2
Base papillon
Serveur papillon
2 Phase de contribution
9
Papillon : construction des données
1 Phase d’amorçage 2 Phase de contribution
L1<->L3
L2<->L3L1
L2L3
L1<->L4
L2<->L5L3
L4L5
Données récupérées
Données récupérées
Amorçage
Ré-amorçage
Base papillon
Serveur papillon
L1
L4
L2AxieV2
L3L5
10
Papillon : construction des données
Modifications/Ajouts/
Suppressions
Validation
Contributions
Intégration
Base papillon
Serveur papillon
1 Phase d’amorçage 2 Phase de contribution
L1
L4
L2AxieV3
L3L5
11
Papillon : construction des données
1 Phase d’amorçage
L1<->L3
L2<->L3L1
L2L3
L1<->L4
L2<->L5L3
L4L5
Données récupérées
Données récupérées
Amorçage
Ré-amorçage
Base papillon
Serveur papillon
L1
L4
L2
Axie
L3L5
Modifications/Ajouts/
Suppressions
Validation
Contributions
Intégration
2 Phase de contribution
12
Objectif de la thèse
Amorçage automatique d’une BDLM à pivot Qualité raisonnableUtilisable par humain ou machineCorrespond aux objectifs du lexicologue et aux
ressources disponiblesL2
L1
L4
L3
ressources existantes BDLM à pivot
mot
axielexie
BDmnl
Dicosbl
13
Plan
1. Bases lexicales multilingues
2. Structuration d’une base d’axies Travaux existants Proposition pour la structuration d’axies Expérimentation
3. Évaluation de la qualité d’une base d’axies Proposition des mesures Expérimentation
14
Problèmes de la construction des BDLM
Manque de ressources disponibles
Non cohérence des ressources disponibles : format de
données, richesse des informations, etc.
Mise en correspondance de lexies de différentes langues
Nécessité pour lexicologue de faire des compromis entre les ressources existantes et la qualité de BDLM créée
15
Trois volets de problèmes d’amorçage des BDLM
1. Construction initiale des lexies et des axies Récupération de données existantes Intégration des données Création des lexies et des axies à partir des données
récupérées
2. Amélioration incrémentale par humain
3. Évaluation de la qualité de BDLM produite
16
Trois volets de problèmes d’amorçage des BDLM
1. Construction initiale des lexies et des axies Récupération de données existantes
Récupdic [Haï, 1998] Intégration des données Création des lexies et des axies à partir des données
récupérées
2. Amélioration incrémentale par humain
3. Évaluation de la qualité de BDLM produite
17
Exemples des travaux existants pour la structuration des lexies & axies
1. Méthode de transfert et consultation inverse de dictionnaires bilingues [Tanaka & Umemura,1994]
2. Comparaison de vecteurs conceptuels pour distinguer des lexies [Chauché,1990; Lafourcade,2002]
18
Méthode de transfert et consultation inverse de dictionnaires bilingues (1/5)
But : Construire des liens traductionnels entre trois langues
Ressources nécessaires :
BDLM1-2-3
Résultat
Monolinguelangue 1
Monolinguelangue 3
Monolinguelangue 2
Bilingue L 3-> L 2
Bilingue L 2-> L 1
Bilingue L 2-> L 3
Bilingue L1-> L 2
[Tanaka & Umemura,1994]
19
Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5)
Méthode de transfert
kyousou
JP EN FR
[Tanaka & Umemura,1994]
20
Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5)
Méthode de transfert
competitioncontestrace
kyousou
JP EN FR
[Tanaka & Umemura,1994]
21
Méthode de transfert et consultation inverse de dictionnaires bilingues (2/5)
Méthode de transfert
competitioncontestrace
compétitionconcourscourseracehâte
kyousou
JP EN FR
[Tanaka & Umemura,1994]
On obtient toutes les relations traductionnelles possibles pour chaque entrée de la langue source
22
Méthode de transfert et consultation inverse de dictionnaires bilingues (3/5)
Méthode de consultation inverse 1 fois
matchcompetitioncontestraceancestryhaste
compétitionconcourscourseracehâte
kyousou
JP EN FR
??
??
On garde : mot dont la traduction est en commun avec mot source
On enlève : mot dont aucune traduction n’est en commun avec mot source
[Tanaka & Umemura,1994]
23
Méthode de transfert et consultation inverse de dictionnaires bilingues (4/5)
Méthode de consultation inverse 2 fois
matchcompetitioncontestraceancestry
compétitionconcourscourserace
kyougikyousoujinshusenzo
JP EN FR
[Tanaka & Umemura,1994]
24
Avantage Facile à construire
Limitations Nécessite plusieurs dicos bilingues Ne fonctionne pas au niveau des lexies
Méthode de transfert et consultation inverse de dictionnaires bilingues (5/5)
25
Exemples des travaux existants pour la structuration des lexies & axies
1. Méthode de transfert et consultation inverse de dictionnaires bilingues [Tanaka & Umemura,1994]
2. Comparaison de vecteurs conceptuels pour distinguer des lexies [Chauché,1990; Lafourcade,2002]
26
Méthode de comparaison de vecteurs conceptuels (1/5)
[Chauché 1990, Lafourcade, 2002]
lexie
Idée : associer un vecteur à chaque lexie, qui code le sens donné par la définition
Vecteur : combinaison des vecteurs d’un ensemble de concepts de base (V(Ci))
Ci = un concept feuille d’un thésaurus
P.ex : 873 concepts feuilles du thésaurus Larousse V(Ci) = <0, 0, …, 0 , 1 , 0, …, 0>
27
Méthode de comparaison de vecteurs conceptuels (2/5)
Calcul récursif des vecteurs des lexies
{ V(Ci) } , { mot-concepts}
Ensemble initial de VCpour les mots indexés
« bootstrap » : combinaison linéaire des concepts, selon l'index
VC associés aux lexies
1ère itération
VC associés aux mots-vedettes
combinaison linéaire des vecteurs des lexies pour chaque mot-vedette
n-ième itération
28
Méthode de comparaison de vecteurs conceptuels (3/5)
Comment calculer le vecteur pour une lexie ? P. ex. lexie de « ranger »
Définition : « disposer à sa place dans l'ordre »
Mots importants : « disposer », « place », « ordre »
analyse morpho-syntaxiqueBD : VC pour les mots « disposer », « place », « ordre », ...
VC pour la lexie
combinaison linéaire des vecteurs des mots de la définition
29
Méthode de comparaison de vecteurs conceptuels (4/5)
[Chauché 1990, Lafourcade, 2002]
X
Y
DA ("profit" , "profit" ) = 0DA ("profit" , "benefit" ) = 10DA ("profit" , "joy" ) = 39DA ("profit" , "sadness" ) = 65
Comparer la distance thématique entre lexies
Distance angulaire entre 2 vecteurs (DA )
DA (X,Y) = angle (X,Y) ; 0 DA (X,Y) 90
30
Méthode de comparaison de vecteurs conceptuels (5/5)
Avantages Fonctionne au niveau lexie Relativement efficace
Limitations Nécessite analyseur morpho-syntaxique Besoin d’un index mot-concepts pour initialiser
des VC Les VC doivent utiliser les mêmes ensembles de
concepts pour pouvoir comparer
31
Discussion
Chaque méthode nécessite des ressources lexicales spécifiques
Chaque méthode a des avantages et des limitations différents
Des méthodes peuvent être complémentaires Il est préférable de pouvoir réutiliser ces méthodes
existantes
32
Notre proposition
Avantages
dépasser limitations d’utilisation de méthode
adaptabilité à de nombreuses situations possibles
1 N32algorithmes de structurationd’axies existantes …
Composer arbitrairement les algorithmes de structuration d’axies pour créer un BDLM de meilleure qualité possible selon les ressources disponibles
+ +
+ +
+
1
1
1
2
2
3
N
3
33
Notre contribution
Idée : appliquer des techniques de génie logiciel
Réalisation :
Jeminie : canevas logiciel (framework) modulaire et adaptable
Conception
DéveloppementSystème de structuration automatique des BDLM
Évaluation des BDLM+
34
Jeminie
Trois fonctions principales1. Préparation des données2. Production et filtrage d’axies3. Évaluation de la qualité de la base d’axies
produites
Trois types d’utilisateur1. Linguiste2. Programmeur3. Utilisateur de base de données
35
Jeminie : architecture globale
linguiste
M1
Noyau de programme
M2 Mn
Interpréteur de processus
processus de structuration
Persistance O/R
Base de données
utilisateur
programmeur
36
Jeminie : architecture globale
linguiste
M1
Noyau de programme
M2 Mn
Interpréteur de processus
processus / mesure de qualtié
Persistance O/R
Base de données
utilisateur
Interpréteur de mesure de qualité
programmeur
- Modèle de données- Outils de base, p. ex.
-Connexion à l’analyseur morpho-syntaxique-Connexion à la base de données-Importation de dictionnaires
37
Jeminie : architecture globale
linguiste
M1
Noyau de programme
M2 Mn
Interpréteur de processus
processus de structuration
Persistance O/R
Base de données
utilisateur
programmeur
Module est uneimplémentation d’un algorithme de structuration d’axies
38
Jeminie : architecture globale
linguiste
M1
Noyau de programme
M2 Mn
Interpréteur de processus
processus de structuration
Persistance O/R
Base de données
utilisateur
programmeur
Module est uneimplémentation d’un algorithme de structuration d’axies
Jeminie peut être étenduen développant de nouveaux modules
39
Module de structuration d’axie
Public interface AxieCreator {
void updateAxieDatabase(AxieDatabaseContext context, List parameters)
boolean checkAxieCreatorParameters (List parameters)}
updateAxieDatabase : implémente un nouvel algorithme AxieDatabaseContext : indique la base lexicale à modifier Parameters : indique les ressources utilisées par
l’algorithme, ou les informations supplémentaires selon l’algorithme
40
Jeminie : comment ça marche
Processus
entrée
Base de donnéeslexies & axies
entrée / sortieJeminie
M1
Noyau de programme
M2 M3 Mn
Interpréteur de processus
exécuter
Processus est une séquence d’exécutions de modules de structuration d’axies
41
Jeminie : comment ça marche
Processus
entrée
Base de donnéeslexies & axies
entrée / sortieJeminie
M1
Noyau de programme
M2 M3 Mn
Interpréteur de processus
exécuter
42
Jeminie : comment ça marche
Processus
entrée
Base de donnéeslexies & axies
entrée / sortieJeminie
M1
Noyau de programme
M2 M3 Mn
Interpréteur de processus
exécuter
43kyousou competition
Exemple de modules implémentés (1/3)
Nom : BlingTransfertAxieCreator
Paramètres : Dico L1L2, Dico L2L3, Base d’axies (BDa )
Résultat : de nouvelles axies créées par la méthode de transfert ajoutées dans BDa competition
contestrace
compétitionconcourscourseracehâte
kyousou
JP EN FR
race
concourscourse
44
Exemple de modules implémentés (2/3)
Nom : BlingTransfertInverseAxieCreator
Paramètres : Dico L1L2, Dico L2L3, Dico L3L2, Dico L2L1, Base d’axie (BDa )
Résultat : de nouvelles axies créées par la méthode de transfert et consultation inverse ajoutées dans BDa
competitioncontestrace
compétitionconcourscourse
kyousou
JP EN FR
kyousou competition concourscourse
45
Exemple de modules implémentés (3/3)
Nom : VCAxieFilter
Paramètres : Base d’axie (BDa ) , seuil pour la distance angulaire maximale
Résultat : base BDa modifiée par la méthode de comparaison de vecteurs conceptuels
2 lexies
XY
On enlève l’axie où
DA (X,Y) > un seuil
> 2 lexies
XY
On enlève l’axie où la distanceangulaire moyenne > un seuil
Z
46
Plan
1. Bases lexicales multilingues
2. Structuration d’axies Travaux existants Proposition pour la structuration d’axies Expérimentation
3. Évaluation de la qualité d’axies Proposition des mesures Expérimentation
47
Expérimentation : données
Données monolingues<HTML><HEAD><TITLE>Pisang generated page for GETDEF</TITLE></HEAD><link rel="stylesheet" href="http://www.lirmm.fr/~lafourca/style.css" type="text/css"><BODY bgcolor="#fffffe"><b>Warning : server learning since the 7/8/2002 at 11:20:10 </b><p><SERVICE-RESULT> <B><VED>inexpiable</VED></B><BR><I> with 5 parts </I><blockquote><B><SUBVED>inexpiable.3</SUBVED></B> <I>as</I> <def>#s=2# Que rien n'apaise. ( Haine inexpiable ) .</def> <font color="#888888" size="3"><code>[<src>HDL</src> <i>the 3/12/2001 at 20:55:51</i>]</code></font><BR>
100015787,artifact,n100015787,artefact,n100016679,article,n100016840,psychological feature,n100016993,abstraction,n100017218,cognition,n100017218,knowledge,n
100015787,a man-made object taken as a whole100016679,one of a class of artifacts100016840,a feature of the mental life of a living organism100016993,a general concept formed by extracting common features from specific examples100017218,the psychological result of perception and learning and reasoning
Donnée de Lirmm
Royal Institute
WordNet
48
Expérimentation : données
Données monolingues
Langue Monolingues # mots # lexies #lexies/mot
anglais WordNet 53 000 91 270 1,7
français Donnée de Lirmm 21 700 46 000 2,1
thaï Royal Institute 5 440 9 360 1,7
<lexie d:id="poème.3"> <headword>poème <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <government-pattern> <mod><actor/></mod> </government-pattern>
<lexie d:id="poème.3"> <headword>poème <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <government-pattern> <mod><actor/></mod> </government-pattern>
html
texte
<lexie d:id="poème.3"> <headword>poème</headword> <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <more-info> <resource name= "LAR"> </resource> </more-info></lexie>
xmlPapillon
49
Expérimentation : données
Données bilingues
Dictionnaires bilingues Nombre de mots d’entrées
Oxford french mini EN-FR 8 122
Oxford french mini FR-EN 7 155
FeM 14 690
So Sethaputra EN-TH 9 900
FR-TH 18 000
<lexie d:id="poème.3"> <headword>poème <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <government-pattern> <mod><actor/></mod> </government-pattern>
xml
html
<volume name="oxford_mini" source-language="fra" target-language="eng"> <dict-entry> <entry>absent</entry> <pos>a.</pos> <translation>absent</translation> </dict-entry></volume>
xml
50
Jeminie : Préparation des données
InitLexieSimple(Dico.xml, BDa, fr)
<lexie d:id="poème.3"> <headword>poème</headword> <pos>n.m.</pos> <semantic-formula> texte de poésie </semantic-formula> <government-pattern> <mod><actor/></mod> </government-pattern> <more-info> <resource name= "LAR"> </resource> </more-info></lexie>
Créer une lexie avecinformation minimale-Mot-vedette-Partie de discours-Définition-Ressource-Langue
Base BDa
51
Jeminie : Préparation des données
Créer des vecteurs conceptuels associés à chaque lexie
Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2
Indexation entremots et concepts
BD VCBase de vecteurs initiaux
BD lexiesAnalyser la
définition de chaque lexie
InitLexieVC(BD-VC, BDa, fr)
Liste des motsdans la définitionde chaque lexie
Calculer d’un VC associé à cette lexie
BDa lexie +vecteur
Analyseur morpho-syntaxique
52
Jeminie : Préparation des données
Créer des vecteurs conceptuels associés à chaque lexie
Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2
Indexation entremots et concepts
BD VCBase de vecteurs initiaux
BD lexiesAnalyser la
définition de chaque lexie
InitLexieVC(BD-VC, BDa, fr)
Liste des motsdans la définitionde chaque lexie
Calculer d’un VC associé à cette lexie
BDa lexie +vecteur
Analyseur morpho-syntaxique
53
Jeminie : Préparation des données
Créer des vecteurs conceptuels associés à chaque lexie
Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2
Indexation entremots et concepts
BD VCBase de vecteurs initiaux
BD lexiesAnalyser la
définition de chaque lexie
InitLexieVC(BD-VC, BDa, fr)
Liste des motsdans la définitionde chaque lexie
Calculer d’un VC associé à cette lexie
BDa lexie +vecteur
Analyseur morpho-syntaxique
54
Jeminie : Préparation des données
Créer des vecteurs conceptuels associés à chaque lexie
Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2Mot concep1, concept 2
Indexation entremots et concepts
BD VCBase de vecteurs initiaux
BD lexiesAnalyser la
définition de chaque lexie
InitLexieVC(BD-VC, BDa, fr)
Liste des motsdans la définitionde chaque lexie
Calculer d’un VC associé à cette lexie
BDa lexie +vecteur
Analyseur morpho-syntaxique
Nécessite
55
Expérimentation : méthodes Structuration d’une BDLM de 3 langues :
FR,EN,TH
3 méthodes Création : méthode de transfert Création : méthode de transfert et consultation inverse Filtrage : méthode de comparaison des VC
4 processus : Transfert BDLM 1 TransfertInverse BDLM 2 Transfert+FVC BDLM 3 TransfertInverse+FVC BDLM 4
56
Exemples des BDLMUne lexie du mot l’anglais : transfer
BDLM1
(tr)
BDLM2
(trin)
BDLM3
(tr+fvc)
BDLM4
(trin+fvc)
1 lexie4 axies
1 lexie2 axies
1 lexie2 axies
1 lexie1 axie
57
Plan
1. Bases lexicales multilingues
2. Structuration d’axies Travaux existants Proposition pour la structuration d’axies Expérimentation
3. Évaluation de la qualité d’axies Proposition des mesures Expérimentation
58
Proposition des critères d’évaluation la qualité d’une BDLM produite
Critère basé sur une référence Critère structural Critère vectoriel
59
Critère basé sur une référence
#axies définies dans R et G
#axies dans GQ-précision =
#axies définies dans R et G
#axies dans RQ-rappel (coverage) =
[ Hovy et al. 2002 ; Papineni et al. 2002 ]
Qualité Q-rappel Q-précision
R G= ?
Base d’axies de référence Base d’axies générée
60
Critère structural
[Teeraparbseree, 2004]
Qualité Q-lexiecorrecte
Q-lexiecorrecte = | { L où |conn(L)| = 1} |
|L|
Axie1Axie2
Lexie
Incorrecte
|conn(L)| > 1
Correcte
|conn(L)| = 1
Axie1
Lexie
Incomplétude
|conn(L)| = 0
Axie1
Lexie
61
Critère vectoriel
La distance moyenne entre les vecteurs conceptuels des lexies liées à une même axie
Mesure
Qualité distance
Distance moyenne =1n
n
i=1( 1nbpl(i)
nbpl(i)
k=1distancek ))
[Teeraparbseree, 2004]
62
linguiste
M1
Noyau de programme
M2 Mn
Interpréteur de processus
processus de structuration / d’évaluation
Persistance O/R
Base de données
utilisateur
Q1 Q2 Qn
Interpréteur de Stratégie d’évaluation
programmeur
Ajouter la partie d’évaluation dans Jeminie
63
Chaque critère = un module logiciel
Chaque module retourne une valeur numérique Qi
Jeminie
Q1
Noyau de programme
Q2 Q3 Qn
Interpréteur de Stratégie d’évaluation
Base de donnéeslexies & axies
public interface AxieEvaluation { boolean checkAxieEvaluationParameters
(List parameters);float getQualityValue(AxieDatabaseContext
context, List parameters); }
Approche similaire à celle de la structuration
64
Discussion
Chaque critère évalue une dimension différente d’une BDLM
Il est très difficile (impossible ?) de maximiser simultanément tous les critères, avec les méthodes de structuration d’axies disponiblesP. ex. TraInverse augmente la précision, mais diminue le
rappel Donc il est nécessaire au lexicologue de faire un choix :
Des critères qui l’intéressentDe l’importance relative qu’il accorde aux critères
65
Critère global
Notre proposition
Q n’est pas une mesure absolue (pas d’unité..) Mais est utile pour comparer la qualité de 2 BDLM
Q = #modules
i = 1poidsi • Qi
66
Exemple d’évaluation
BDLM 1 BDLM 4BDLM 3BDLM 2
0
10
20
30
40
50
60
70
80
90
100
Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC
Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th
Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th)Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH
Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï
Pas d’évaluation Q-rappel pour cet exemple
67
Exemple d’évaluation
BDLM 1 BDLM 4BDLM 3BDLM 2
0
10
20
30
40
50
60
70
80
90
100
Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC
Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th
Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th)Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH
Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï
Pas d’évaluation Q-rappel pour cet exemple
68
Exemple d’évaluation
BDLM 1 BDLM 4BDLM 3BDLM 2
0
10
20
30
40
50
60
70
80
90
100
Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC
Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th
Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th)Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH
Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï
Pas d’évaluation Q-rappel pour cet exemple
La précision et la qualité de la structure des axies, du point de vue des lexies FR, EN et TH
69
Exemple d’évaluation
BDLM 1 BDLM 4BDLM 3BDLM 2
0
10
20
30
40
50
60
70
80
90
100
Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC
Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th
Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th)Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH
Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï
Pas d’évaluation Q-rappel pour cet exemple
70
Exemple d’évaluation
BDLM 1 BDLM 4BDLM 3BDLM 2
0
10
20
30
40
50
60
70
80
90
100
Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC
Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th
Données monolingues : WordNet (en), Donnée de Lirmm (fr), Royal Institute (th)Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH
Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï
Pas d’évaluation Q-rappel pour cet exemple
les processus 1 et 2 ont une structure d’axies assez mauvaise, carles méthodes fonctionnent au niveau des mots,et pas au niveau des lexies.Précision avec transfert-inverse > transfert simple
71
Exemple d’évaluation
BDLM 1 BDLM 4BDLM 3BDLM 2
0
10
20
30
40
50
60
70
80
90
100
Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC
Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th
Données monolingues : WordNet (en), Donnée de Lirmm (Fr), Royal Institute (th)Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH
Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï
Pas d’évaluation Q-rappel pour cet exemple
Processus 3 et 4 : utilisent FVC en plus-la précision est améliorée -la structure est très significativement amélioréecar FVC fonctione au niveau des lexies
72
Exemple d’évaluation
BDLM 1 BDLM 4BDLM 3BDLM 2
0
10
20
30
40
50
60
70
80
90
100
Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC
Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th
Données monolingues : WordNet (en), Donnée de Lirmm (Fr), Royal Institute (th)Données bilingues : Oxford mini FREN de 100 traductions So Sethaputra ENTH
Base de référence entre EN-FR de 3300 axies + vérification humain pour le thaï
Pas d’évaluation Q-rappel pour cet exemple
Combiner les techniques de structuration et de filtrage permet d’améliorer significativement la qualité des bases produites
73
Remarques
0
10
20
30
40
50
60
70
80
90
100
Transfert Transfert-inverse Transfert+VC Transfert-inverse+VC
Q-precisionQ-lexiecorrect frQ-lexiecorrect enQ-lexiecorrect th
1. Q-precision choisi comme critère important Il vaut mieux utiliser la traduction inverse, que la traduction
simple2. Si on avait pu mesurer le rappel et le choisi comme critère
important Prédiction : la traduction simple aurait eu une meilleure
mesure de rappel que la traduction bilingue inverse
La mesure de la qualité d’une BDLM-est subjective,-dépend des objectifs d’un lexicolgueexprimé sous la forme du choix des critères, et des poids.
Intérêt de notre approche modulaire et extensible pour la mesure de qualité
74
Conclusion
ProblématiqueProblème : automatisation de structuration et
d’évaluation des lexies et axies Proposition
Conception d’un système de structuration et d’évaluation des lexies et axies
Réalisation de la plate-forme JeminieComposition flexible des techniquesSimilarité entre la structuration et l’évaluation
Expérimentation Création des BDLM de 3 langues : FR, EN, TH
75
Recherches futures
Trouver des nouvelles techniques pour la structuration qui fonctionnent au niveau des lexies
Intégrer au système une IHM pour manipuler des données (lexies et axies)
Offrir plus de possibilité aux linguistes pour s’exprimer sur la façon de manipuler le système
Étude sur les méthodes de décision multicritères pour assister le lexicographe dans le choix des techniques de construction et d’évaluation, et pour guider leur composition
76
Merci
Merci
77
FIN
FIN
78
Composition de modules de création d’axies pour créer ou filtrer des axies
Composition de modules de critères pour évaluer la qualité des axies
Processus itératif pour l’amorçage
Fin de l’amorçage
79
[Hai, 1998]
PRODUCDIC : Opérations de base (1/4)
1. Sélection
2. Extraction
3. Regroupement
4. Inverse
5. Enchaînement
6. Combinaison parallèle
7. Combinaison en étoile
80
PRODUCDIC : Opérations de base (2/4)
…accept(vt)acceptable(a)acceptance(n)access(n,vt):
…accept(vt)
access(vt)
:
sélection
abaisser lower,pull down, push down merendahkan, tarik ke bawah
abaisser merendahkan, tarik ke bawah
extraction
love(n) amourlove(v) aimer
love(n) amourlove(v) aimer
regroupementinverse
aimer(v) love, likecomme(prép) as, like
like(v) aimer;like(prép) commelove(v) aimer
[Hai, 1998]
81
PRODUCDIC : Opérations de base (3/4)
enchaînement
love : mencintailike : menyukai
aimer :1. love2. like
aimer :1. love
mencintai2. like
menyukai
aimer :1 mencintai2 menyukai
paquet : packet, parcel ;
bundle
(A1)
paquet : packet, pack ;
bag, parcel
(A2)
paquet : (A1) packet, parcel; bundle(A2) packet, pack; bag, parcel
combinaison parallèle
B A A B
D A A DC A A C A
BCD
BCD
combinaison en étoile[Hai, 1998]
82
PRODUCDIC : Opérations de base (4/4)
Avantage Facile à construire
Limitations Ne fonctionne pas au niveau des lexies Certaines opérations sont plus préférables dans
l’étape de la préparation des données par.ex. la sélection, l’extraction, le regroupement, et l’inversion
83
Exemples des BDLM (2/2)Une lexie de mot l’anglais : arrest
BDLM1
(tr)
BDLM2
(trin)
BDLM3
(tr+fvc)
BDLM4
(trin+fvc)
1 lexie2 axies
1 lexie1 axie
1 lexie2 axies
1 lexie1 axie