28
Exposé de Recherche D’information Word Sense Disambiguation (WSD) Présenté par: BENDJELLOUL Fatima Zahra LAROUSSI Khadidja Enseignant de module: Mr.bentaallah.M 1

Word-sense disambiguation

Embed Size (px)

DESCRIPTION

1.Introduction 2.Qu’est ce que les sens d’un mot ? 3.Ambiguïtés sémantiques 4.Définition de WSD 5.Pourquoi la WSD ? 6.Les types de WSD 7.Les méthodes de WSD 8.Evaluation Conclusion

Citation preview

Page 1: Word-sense disambiguation

1

Exposé de Recherche D’information

Word Sense Disambiguation (WSD)

Présenté par:

BENDJELLOUL Fatima ZahraLAROUSSI Khadidja

Enseignant de module:

Mr.bentaallah.M

Page 2: Word-sense disambiguation

2

Plan de travail

IntroductionQu’est ce que les sens d’un mot ?Ambiguïtés sémantiquesDéfinition de WSDPourquoi la WSD ?Les types de WSDLes méthodes de WSDEvaluationConclusion

Page 3: Word-sense disambiguation

3

Introduction L’ambiguïté des mots est un phénomène omniprésent dans les

langues naturelles.

Elle représente une des grandes difficultés du traitement automatique du langage naturel,

Pour cela, la WSD permet de traiter et de lever cet ambiguïté.

Page 4: Word-sense disambiguation

4

Qu’est ce que les sens d’un mot ?

Sens, en linguistique, est synonyme de signification. Il désigne le contenu conceptuel d'une expression.

Les différent sens d’un mot:

Mot a un seul sens : appartient à une vocabulaire technique, scientifique

Mot a plusieurs sens : c’est qu’on nomme la polysémie, certain mot a un sens propre et un sens figuré.

Sens d’après le contexte: pour comprendre le sens il faut relire la phrase qui précède et celle qui suit

Page 5: Word-sense disambiguation

5

Ambiguïtés sémantiques

Beaucoup de mots de la langue peuvent être interprétés de manières variées en fonction du contexte dans lequel ils apparaissent,

1. Les homonymes2. Les polysémies

Page 6: Word-sense disambiguation

6

Mouse Windows

1. Les homonymes2. Les polysémies

mots avec des sens non liés

Page 7: Word-sense disambiguation

7

Papier

. . .

1. Les homonymes2. Les polysémies

mots dont les sens sont liés d’une certaine manière

Page 8: Word-sense disambiguation

8

Définition de la WSD

Une tâche nécessaire à la bonne réalisation de nombreuses applications du TALN,

Consiste à déterminer le sens correct des mots ambigus dans un contexte.

Page 9: Word-sense disambiguation

9

Pourquoi la WSD ?

Recherche d’information: filtrer les réponses retournées par le systèmes et garder juste les réponses pertinents,

Traduction automatique: Ex: le mot en espagnol muñeca peut être traduit en français par « poupée » ou par « poignée » en fonction du contexte

Traitement du discours:

Ex: La prononciation/kuR/peut être écrite comme « cour », « court», « cours » ou encore « coure ».

Traitement de texte: pour la correction orthographique

Ex: Les mots « comte » et « comté ».

Page 10: Word-sense disambiguation

10

Les types de désambiguïsation

Désambiguïsation ciblée (Targeted Word Sense Disambiguation)

Désambiguïsation d’un mot en particulier dans un texte.

Ex: The mouse is an animal very active, very acrobatic, they live in groups.

A mouse is a pointing device that connects to the computer

WSD est considérée comme un problème de classification

Page 11: Word-sense disambiguation

11

Les types de désambiguïsation

Désambiguïsation ciblée (Targeted Word Sense Disambiguation) Corpus d’apprentissage contenant les occurrences du mot, chaque

occurrence est annotée par un sens.

Extraction de vecteurs de traits qui représentent le contexte d’apparition du mot.

Trouver le sens approprié du mot en contexte

Page 12: Word-sense disambiguation

12

Les types de désambiguïsation

Désambiguïsation complète (All words Word Sense Disambiguation)

Désambiguïsation de tous les mots pleins d’un texte.

Ex: The mouse and rats are widely used in animal research laboratories for testing the toxicity of certain substances

- Exploitation de définitions de dictionnaires.

- Exploitation de relations sémantiques

Page 13: Word-sense disambiguation

13

Les méthodes de WSD

Méthodes fondées sur les connaissances

Méthodes fondées sur l’apprentissage

Page 14: Word-sense disambiguation

14

Méthodes fondées sur les connaissances

la désambiguïsation automatique est matérialisée par les méthodes basées sur les connaissances qui essayent d’extraire de manière automatique l’information nécessaire à la désambiguïsation.

Page 15: Word-sense disambiguation

15

Ressources lexicales/sémantiques

Les dictionnaires électroniques ex: le petit larousse

Les thésaurus ex: Roget’s Thesaurus

Réseaux sémantiques ex: WordNet

Page 16: Word-sense disambiguation

16

Méthode de Lesk (Michael Lesk 1986)

Récupérer de MRD toutes les définitions du sens des mots à ambigus.

Mesurer le chevauchement entre les différents définitions dans le dictionnaire, d'un mot ambigu et les définitions de ses voisins immédiats.

Choisissez le sens qui conduisent à plus de chevauchement

Page 17: Word-sense disambiguation

17

Exemple: désambiguïser mouse computer

Mouse1. any of numerous small rodents typically resembling diminutive rats having

pointed snouts 2. person who is quiet or timid3. a hand-operated electronic device that controls the coordinates of a cursor on

your computer screen as you move it around on a pad Computer4. computing machine, computing device, data processor, electronic computer,

information processing system5. calculator, reckoner, figurer, estimator

Méthode de Lesk (Michael Lesk 1986)

Mouse1 computer1 =0 mouse2 computer2 =0Mouse1 computer2 =0 mouse3 computer1 =3Mouse2 computer1 =0 mouse3 computer2 =0

Page 18: Word-sense disambiguation

18

Les inconvénients de la méthode de Lesk

Fondée sur la correspondance exacte des mots trouvés dans les définitions

Ne permet pas de capter des relations moins explicites (par ex. sémantiques) entre les mots

Vise la désambiguïsation d’un mot à la fois

Explosion combinatoire si l’on essaie de désambiguïser tous les mots du texte

Page 19: Word-sense disambiguation

19

Méthodes fondés sur l’apprentissage

Utilisation d’informations sémantiques acquises directement à partir de textes

Désambiguïsation supervisée : exploitation des données annotées

Désambiguïsation non supervisée : acquisition des données non annotées

Désambiguïsation semi supervisée : création d’un classifieur avec peu de données annotées, beaucoup de données non annotées

Application de techniques d’apprentissage automatique à la désambiguïsation

 

Page 20: Word-sense disambiguation

20

Méthodes supervisées• Utilisation d’un ensemble de méthodes pour l’apprentissage de classifieurs a

partir de corpus annotés Types de corpus

- corpus avec les sens d’un mot particulier annotés, ex : corpus d’évaluation de Senseval - corpus avec chaque mot plein annoté, ex : SemCor (234000 mots annotés avec les sens de WordNet)

Problème de classification

Extraction de traits (features) des textes utiles pour prédire dessens particuliers des mots

Apprentissage de classifieurs particuliers, ex : classifieurs naïfs de Bayes, listes de décisions, etc.

Un classifieur doit ici attribuer un sens a un mot (non annoté) en se basant sur le contexte de ce mot

Page 21: Word-sense disambiguation

21

Méthodes superviséesAvantages

• elles ont les meilleures performances• elles donnent les meilleurs résultats dans les évaluations des systèmes de

désambiguïsation sémantique

Inconvénients

• élaboration coûteuse des données d’entraînement (Ng, 1997)• dispersion des données (data sparseness) : difficile d’avoir un ensemble

d’entraînement annoté qui couvre tout le lexique d’une langue• désambiguïsation souvent focalisée sur un petit ensemble de mots ambigus

(target words)

Page 22: Word-sense disambiguation

22

Méthodes semi-supervisées:

Apprentissage de classifieurs de sens de mots avec un minimum de textes annotés (peu de données disponibles)

Approches par amorçage (bootstrapping) : produire un classifieur qui améliore les performances

Apprentissage d’un classifieur pour la désambiguïsation ciblée[Yarowsky, 1995]

Page 23: Word-sense disambiguation

23

Méthodes non-supervisées offrent une solution au problème de la disponibilité limitée de données annotées

Ni de corpus d’exemples sémantiquement annotés, ni de sources externes de connaissances (dictionnaires, thésaurus, etc.)

Exploitent de grands corpus de données non annotées

Basée sur les résultats de méthodes d’induction de sens (Word Sense Induction (WSI))Identifient les sens possibles des mots à partir de grands corpus de textes non annotés

Les instances d’un mot ambigu sont clustérisées sur la base de la similarité des contextes dans lesquels elles apparaissent

Chaque cluster décrit un sens du mot ambigu 

Page 24: Word-sense disambiguation

24

Méthodes non-supervisées

Avantages

Une performance presque comparable aux approches supervisées [Manning et Schutze, 2000]

Inconvénients [Jurafsky et Martin, 2000]

Les sens corrects peuvent ne pas être connus Les clusters obtenus peuvent contenir plusieurs sens

Page 25: Word-sense disambiguation

25

EvaluationCorrection par des humains, vérification de la nature des relations entre les membres des clusters

Evaluation non superviséeLes sens induits sont évalués en tant que clusters d’exemples et comparés à des exemples annotés par des sens gold standard (GS)

Evaluation superviséeMise en correspondence des clusters obtenus avec des sens du GS (OntoNotes, Hovy et al., 2006)Utilisation des correspondences établies pour annoter des instances dans le corpus de test avec des sens GS

Page 26: Word-sense disambiguation

26

ConclusionLa désambiguïsation sémantique est un problème très complexe relié à la richesse de la langue.

Combinaison de plusieurs méthodes capables de résoudre le problème WSD.

La méthode Lesk est assez simple et a donnée des résultats intéressants.

Les algorithmes d’apprentissage sont maintenant plus performants que les algorithmes de désambiguïsation à l’aide de dictionnaires

La technique Naïve Bayes a une bonne performance sur les tâches de classification.

Page 27: Word-sense disambiguation

27

Bibliographie www.iro.umontreal.ca/~felipe/Papers/paper-taln-2004a.pdf

www.images.hachette-livre.fr/media/.../2543807769.pdf

http://perso.limsi.fr/amax/enseignement/tal/Cours-DesambiguisationLexicale-M2R.pdf

Page 28: Word-sense disambiguation

28