14
Extraction de synonymes à partir d’un corpus multilingue aligné Jean-Luc MANGUIN Jörg TIEDEMANN Lonneke Van der PLAS

Extraction de synonymes à partir dun corpus multilingue aligné Jean-Luc MANGUIN Jörg TIEDEMANN Lonneke Van der PLAS

Embed Size (px)

Citation preview

Page 1: Extraction de synonymes à partir dun corpus multilingue aligné Jean-Luc MANGUIN Jörg TIEDEMANN Lonneke Van der PLAS

Extraction de synonymes à partir d’un corpus multilingue aligné

Jean-Luc MANGUIN

Jörg TIEDEMANN

Lonneke Van der PLAS

Page 2: Extraction de synonymes à partir dun corpus multilingue aligné Jean-Luc MANGUIN Jörg TIEDEMANN Lonneke Van der PLAS

Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Introduction

• Traitement automatique d’un corpus.

• Corpus monolingue : si 2 mots partagent les mêmes contextes, alors ils sont sémantiquement liés.

• Corpus multilingue : si 2 mots partagent les mêmes traductions, alors ils sont sémantiquement proches.

Page 3: Extraction de synonymes à partir dun corpus multilingue aligné Jean-Luc MANGUIN Jörg TIEDEMANN Lonneke Van der PLAS

Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Qui fait quoi ? (ou : le plan)

• Alignement mot à mot du corpus multilingue (J. Tiedemann)

• Extraction de synonymes (L. van der Plas)

• Evaluation par comparaison avec un dictionnaire de référence (JL Manguin)

• Comparaison avec les résultats en corpus monolingue (D. Bourigault – JL Manguin)

Page 4: Extraction de synonymes à partir dun corpus multilingue aligné Jean-Luc MANGUIN Jörg TIEDEMANN Lonneke Van der PLAS

Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Le corpus utilisé

• Corpus Europarl : actes du parlement européen (Ph. Koehn)

• 11 langues différentes (par la suite, 9 en ôtant le grec et le finnois)

• Partie française : 33 millions d’occurrences dans 1 million de phrases

Page 5: Extraction de synonymes à partir dun corpus multilingue aligné Jean-Luc MANGUIN Jörg TIEDEMANN Lonneke Van der PLAS

Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

L’alignement

• Premier alignement par phrases (nécessaire avant l’étape suivante)

• Alignement mot à mot avec l’outil Open Source GIZA++ (F.J. Och)

• Lemmatisation

• Pas de détection préalable des unités composées

Page 6: Extraction de synonymes à partir dun corpus multilingue aligné Jean-Luc MANGUIN Jörg TIEDEMANN Lonneke Van der PLAS

Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Les vecteurs caractéristiques

automne_FR outono_PT autumn_EN fall_EN

herfst 102 92 75 67

najaar 89 78 90 69

Un exemple en néerlandais :

La fréquence est utilisée pour les traitements.

On impose un double seuil sur les colonnes et les lignes.

Page 7: Extraction de synonymes à partir dun corpus multilingue aligné Jean-Luc MANGUIN Jörg TIEDEMANN Lonneke Van der PLAS

Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Les traitements• La similarité est calculée avec l’indice de

Dice « pondéré » :

• La pondération est faite par l’information mutuelle spécifique :

fW2,weight+fW1,weight

fW2,weight,fW1,weightmin

2W2)Sim(W1,

P(W)P(f)

) P(W,fI(W,f) log

Page 8: Extraction de synonymes à partir dun corpus multilingue aligné Jean-Luc MANGUIN Jörg TIEDEMANN Lonneke Van der PLAS

Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Exemple de résultats

accident : (0.172) catastrophe, (0.172) incident, (0.134) naufrage, (0.110) désastre, (0.103) malheur, (0.096) sinistre, (0.089) tragédie, (0.068) drame, (0.056) événement, (0.051) calamité, (0.044) épisode, (0.033) catastrophique, (0.032) désastreux, (0.031) cataclysme, (0.025) hasard, (0.023) ravage, (0.022) lésion, (0.022) dommage, (0.019) blessure, (0.018) catastropher, (0.018) route, (0.018) mégarde, (0.017) malheureux, (0.016) fléau, (0.016) affaire, (0.015) blessé, (0.015) tort, (0.015) débâcle, (0.015) dégât

Page 9: Extraction de synonymes à partir dun corpus multilingue aligné Jean-Luc MANGUIN Jörg TIEDEMANN Lonneke Van der PLAS

Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Évaluation : méthode

• Filtrage catégoriel (avec dictionnaire externe)

• Mesures sur les synonymes proposés pour une liste de 950 mots

• Comparaison avec les synonymes proposés pour cette liste par une méthode monolingue

Page 10: Extraction de synonymes à partir dun corpus multilingue aligné Jean-Luc MANGUIN Jörg TIEDEMANN Lonneke Van der PLAS

Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Évaluation : les mesures

• Couverture

• Précision

• Rappel

Page 11: Extraction de synonymes à partir dun corpus multilingue aligné Jean-Luc MANGUIN Jörg TIEDEMANN Lonneke Van der PLAS

Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Évaluation : les résultats (1)

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0 0,1 0,2 0,3 0,4 0,5

Seuil

précision

couverture

précision_mono

couverture_mono

Page 12: Extraction de synonymes à partir dun corpus multilingue aligné Jean-Luc MANGUIN Jörg TIEDEMANN Lonneke Van der PLAS

Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Évaluation : les résultats (2)

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

0 0,1 0,2 0,3 0,4 0,5

Seuil

rappel

couverture

rappel_mono

couverture_mono

Page 13: Extraction de synonymes à partir dun corpus multilingue aligné Jean-Luc MANGUIN Jörg TIEDEMANN Lonneke Van der PLAS

Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Bilan et perspectives

• Technique améliorable par la prise en compte des unités composées

• Méthode déjà plus précise que le traitement monolingue basé sur la syntaxe

• Importantes perspectives lexicographiques

Page 14: Extraction de synonymes à partir dun corpus multilingue aligné Jean-Luc MANGUIN Jörg TIEDEMANN Lonneke Van der PLAS

Van der Plas, Tiedemann, Manguin - JLC Lorient 2007

Merci de votre attention !

• Des questions ?• Any questions ?• ¿ Preguntas ? • Irgendwelche Fragen ?• Vragen ?• Domande ?• Alguma pergunta ?