68
Xavier Tannier [email protected] Recherche - Évaluation Extraction d’Information dans les textes I

Recherche - Évaluation

  • Upload
    milos

  • View
    32

  • Download
    1

Embed Size (px)

DESCRIPTION

Recherche - Évaluation. Extraction d’Information dans les textes I. Rappels des épisodes précédents. Les acteurs de la Recherche d'Information. Collection : un ensemble de documents. Les systèmes de RI doivent pouvoir traiter : De grandes masses d'information - PowerPoint PPT Presentation

Citation preview

Page 1: Recherche - Évaluation

Xavier [email protected]

Recherche-

Évaluation

Extraction d’Information dans les textes I

Page 2: Recherche - Évaluation

Rappels des épisodes précédents

Page 3: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Les acteurs de la Recherche d'Information

Utilisateur : un besoin

d'information et/ou une tâche

à accomplir

Collection : un ensemble de

documents

Les systèmes de RI doivent pouvoir traiter :

• De grandes masses d'information• En langage naturel (et créée pour

des humains)• De façon rapide et pertinente

Page 4: Recherche - Évaluation

Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation

Recherche d'Information

4

Collections dynamiquesvs. statiques

Requête

Indexation(modèle de document)

Modèle derecherche Évaluation

Page 5: Recherche - Évaluation

Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation

Construction de l’index : vue générale

5

TEXTERien ne sert de courir; il faut partir à point :Le lièvre et la tortue en sont un témoignage.

«Gageons, dit celle-ci, que vous n'atteindrez pointSitôt que moi ce but. - Sitôt? Êtes-vous sage ?

Repartit l'animal léger : Ma commère, il vous faut purger Avec quatre grains d'ellébore.) - Sage ou non, je parie encore."

Ainsi fut fait; et de tous deux On mit près du but les enjeux :

Savoir quoi, ce n'est pas l'affaire, Ni de quel juge l'on convint.

Notre lièvre n'avait que quatre pas à faire,J'entends de ceux qu'il fait lorsque, prêt d'être atteint,

Il s'éloigne des chiens, les renvoie aux calendes, Et leur fait arpenter les landes.

Ayant, dis-je, du temps de reste pour brouter, Pour dormir et pour écouter

D'où vient le vent, il laisse la tortue Aller son train de sénateur.

Elle part, elle s'évertue, Elle se hâte avec lenteur.

Lui cependant méprise une telle victoire, Tient la gageure à peu de gloire,

Croit qu'il y a de son honneur De partir tard. Il broute, il se repose,

Il s'amuse à toute autre chose Qu'à la gageure. A la fin, quand il vit

Que l'autre touchait presque au bout de la carrière,Il partit comme un trait; mais les élans qu'il fit

Furent vains : la tortue arriva la première."Eh bien! lui cria-t-elle, avais-je pas raison ?

De quoi vous sert votre vitesse ? Moi l'emporter! et que serait-ce Si vous portiez une maison ?"

TERMES

Rien ne sert de

courir il faut

partir à point

TERMES NORMALISÉS

rien sert

courir faut

partir point

DOCUMENTS INDEX

Page 6: Recherche - Évaluation

Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation

Fichier inverse

6

Page 7: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Sac de mots

Modèles « sac de mots » pour l’indexation et la recherche :– On oublie l’ordre des mots– On raisonne en termes de présence / absence des termes dans un document,

ou en terme de fréquence de ces termes

7

Page 8: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

tf.idf• Intuition #1 : plus un document contient d'occurrences

d'un terme, plus il est "à propos" de ce terme • Intuition #2 : des termes très fréquents dans tous les documents ne

sont pas si importants (ils sont moins discriminants)• Le poids d’un terme (tf.idf) est la combinaison de ces deux

intuitions pour rendre compte du caractère discriminant d’un terme dans un document

8

¿𝒕𝒇 𝒕 ,𝒅× 𝒍𝒐𝒈𝟏𝟎𝑵𝒅𝒇 𝒕

𝒘 𝒕 ,𝒅=𝒕𝒇 𝒕 ,𝒅× 𝒊𝒅𝒇 𝒕

(ou sa variante)

Page 9: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Proposition temporaire de similarité

• Proposition pour le score de similarité d’un document D en fonction d’une requête Q

• On ne la conservera pas!

9

𝑠𝑖𝑚𝑄 ,𝐷= ∑𝑡∈𝑄∩ 𝐷

𝑤𝑡 ,𝐷

Page 10: Recherche - Évaluation

Du modèle booléen

aux modèles à listes de

résultats ordonnés

Page 11: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Modèles de recherche : les trois courants• Modèles fondés sur la théorie des ensembles

► Modèle booléen• Modèles algébriques

► Modèle vectoriel• Modèles probabilistes

► Modélisation de la notion de "pertinence"

• Courants fondés à l'aube de la discipline (années 60, 70)• Passage à l'échelle : des bases documentaires "jouets" au téraoctet

de TREC et au Web

11

Page 12: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Modèle booléen• Le premier et le plus simple des modèles• Basé sur la théorie des ensembles et l'algèbre de Boole• Les termes de la requête sont soit présents soit absents

– Poids binaire des termes, 0 ou 1• Un document est soit pertinent soit non pertinent

– Pertinence binaire, et jamais partielle (modèle exact)• La requête s'exprime avec des opérateurs logiques

– AND, OR, NOT– (cyclisme OR natation) AND NOT dopage– le document est pertinent si et seulement si son contenu respecte la formule

logique demandée

12

Page 13: Recherche - Évaluation

Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation

Modèle booléen : exemple

13

Requête Q : (cyclisme OR natation) AND NOT dopage

Le document contient Pertinence du

documentcyclisme natation cyclisme OR natation

dopage NOT dopage

0 0 0 0 1 0

0 0 0 1 0 0

0 1 1 0 1 1

0 1 1 1 0 0

1 0 1 0 1 1

1 0 1 1 0 0

1 1 1 0 1 1

1 1 1 1 0 0

Page 14: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Modèle booléen : avantages et inconvénients• Avantages :

– Le modèle est transparent et simple à comprendre pour l'utilisateur :• Pas de paramètres "cachés"• Raison de sélection d'un document claire : il répond à une formule logique

– Adapté pour les spécialistes (vocabulaire contraint)• Inconvénients :

– Il est difficile d'exprimer des requêtes longues sous forme booléenne– Le critère binaire peu efficace

• Il est admis que la pondération des termes améliore les résultats• cf. modèle booléen étendu

– Il est impossible d'ordonner les résultats• Tous les documents retournés sont sur le même plan• L'utilisateur préfère un classement lorsque la liste est grande

14

Page 15: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Extensions possibles

• Opérateurs d'adjacence ou de proximité :– « base NEAR données »– Nécessite la conservation des positions des mots dans les documents

• Pondération des mots-clés– « JO AND Pékin AND (natation:3 OR cyclisme:4 OR athlétisme:2) »– Permet un classement des résultats, mais selon des préférences exprimées par

l'utilisateur

• Voir aussi plus loin le modèle booléen étendu

15

Page 16: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Vers des listes ordonnées de résultats• La plupart des utilisateurs :

– ont du mal à écrire des requêtes booléennes– ne veulent pas parcourir trop de résultats (des milliers, voire des millions)

On préfère donc des listes ordonnées– Du plus utile à l’utilisateur (pertinent) au moins utile– Le nombre de résultats n’est plus un problème– L’utilisateur en parcourt autant qu’il le souhaite

• La condition : avoir un algorithme d’ordonnancement efficace• Modèle statistique :

– Aspect quantitatif des termes et des documents– Degré de similarité entre une requête et un document

16

Page 17: Recherche - Évaluation

Modèle vectoriel

Page 18: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Modèle vectoriel• Mesure de similarité : Plus deux représentations contiennent les mêmes éléments,

plus la probabilité qu’elles représentent la même information est élevée.

• Documents et requête sont représentés par un vecteur– Les coordonnées du vecteur sont exprimées dans un espace euclidien à n

dimensions (n : nombre de termes)– La longueur du vecteur (i.e. de sa projection sur chacun des axes/termes) est

proportionnelle au poids des termes.• La pertinence du document correspond au degré de similarité entre

le vecteur de la requête et celui du document

On ordonne les documents du plus similaire à la requête au moins similaire

18

Page 19: Recherche - Évaluation

Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation

0.45

D

Modèle vectoriel

19

t3

t1

t2

Q

Requête Q : t1 t2 t3

Document D : … t1 … t3 …

Poids wD,t1 = 0.45

Poids wD,t3 = 0.80

0.80

Page 20: Recherche - Évaluation

Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation

Quelle mesure de similarité ?

20

Produit scalaire ?

D1t2

t1

Q

D4D3

D2

D1t2

t1

Q

D4D3

D2

Distance euclidienne ?

¿ (�⃗� , �⃗� )=�⃗� ∙ �⃗�=∑𝑖=1

𝑛

𝑤𝑖 ,𝑄×𝑤𝑖 ,𝐷

Une mauvaise idée… … Pourquoi ?

Page 21: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Quelle mesure de similarité ?• La solution : travailler avec l’angle entre les vecteurs

21

D1t2

t1

Q

D4D3

D2

Cosinus

¿ (�⃗� , �⃗� )= �⃗� ∙ �⃗�|⃗𝑄|×|⃗𝐷|

=∑𝑖=1

𝑛

𝑤𝑖 ,𝑄×𝑤𝑖 ,𝐷

√∑𝑤 ²𝑖 ,𝑄×√∑𝑤 ² 𝑖 ,𝐷

(Le produit scalaire avecnormalisation de la longueur des vecteurs)

Quelle est la contribution d’un terme isolé ?

Page 22: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Quelle mesure de similarité ?• Autres mesures :

– Dice

– Jaccard

– Overlap

22

𝑅𝑆𝑉 (Q⃗ , D⃗ )= ∑𝑤𝑖Q ×𝑤 𝑖D

𝑚𝑖𝑛 (∑𝑤 𝑖D ,∑𝑤𝑖Q )∣ 𝐴∩𝐵∣

𝑚𝑖𝑛 (∣ 𝐴∣ , ∣𝐵∣ )

𝑅𝑆𝑉 (Q⃗ , D⃗ )=2∑𝑤𝑖Q ×𝑤𝑖D

∑𝑤𝑖Q+∑𝑤𝑖D

2∣ 𝐴∩𝐵∣∣ 𝐴 ∣+∣ 𝐵∣

𝑅𝑆𝑉 (Q⃗ , D⃗ )= ∑𝑤𝑖Q ×𝑤 𝑖D

∑𝑤𝑖Q+∑𝑤𝑖D −∑𝑤𝑖Q ×𝑤 𝑖D

∣ 𝐴∩𝐵∣∣ 𝐴∪𝐵∣

Page 23: Recherche - Évaluation

Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation

23

Modèle vectoriel – résumé

• On représente la requête comme un vecteur (quelle pondération ?)

• On représente chaque document comme un vecteur pondéré

• On calcule la similarité (cosinus par exemple) entre chaque vecteur document et le vecteur requête

• On ordonne les résultats dans l’ordre inverse des scores obtenus

• On fournit les k premiers résultats à l’utilisateur

À retenir pour le projet !

Page 24: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Modèle vectoriel : avantages et inconvénients• Avantages :

– Le langage de requête est plus simple (liste de mot-clés)– Les performances sont meilleures grâce à la pondération des termes– Le renvoi de documents à pertinence partielle est possible– La fonction d'appariement permet de trier les documents

• Inconvénients :– Le modèle considère que tous les termes sont indépendants

(inconvénient théorique)– Le langage de requête est moins expressif– L'utilisateur voit moins pourquoi un document lui est renvoyé

Le modèle vectoriel est le plus populaire en RI

24

Page 25: Recherche - Évaluation

Autres modèles

Page 26: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Modèle probabiliste (1/4)• Estimation de la probabilité de pertinence d'un document par rapport à une requête• Probability Ranking Principle (Robertson 77)• R : D est pertinent pour Q• ¬R : D n'est pas pertinent pour Q• Le but : estimer

– P(R/D) : probabilité que le document D soit contienne de l'information pertinente pour Q– P(¬R/D)

26

variables indépendantes, deux ensembles de documents séparés

si 𝑃 (𝑅/ D )𝑃 (¬𝑅/ D )

>1 ou si log 𝑃 (𝑅 / D )𝑃 (¬𝑅 / D )

>0 alors D est pertinent

Page 27: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Modèle probabiliste• Rappel du théorème de Bayes :

• On ne sait pas calculer P(R/D), mais on peut calculer P(D /R)

27

)()()/()/(

BPAPABPBAP

)()()/()/(

DPRPRDPDRP

Probabilité d'obtenir D en connaissant les pertinents

Probabilité d'obtenir un document pertinent en piochant au hasard

Probabilité de piocher D au hasard

Page 28: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Modèle probabiliste• En utilisant l'hypothèse d'indépendance des termes :

• Pour estimer les probabilités sur les termes, on peut utiliser des requêtes déjà résolues (apprentissage) puis des pondérations

• Exemple (système Okapi) :– le tf.idf– la longueur du document– la longueur moyenne des documents

28

n

ii RDtPRDP

1

)/()/(

Page 29: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Modèle probabiliste : conclusion• Deux modèles phares :

– 2-poisson– Okapi

• Autres modèles de type probabiliste :– Réseaux bayésiens– Modèle de langage

• Conclusion :– Problème des probabilités initiales– Termes indépendants– Résultats comparables à ceux du modèle vectoriel

29

Page 30: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Modèle booléen étendu• Idée : permettre l'utilisation des opérateurs logiques tout en proposant une pertinence graduée• Combinaison des modèles booléen et vectoriel• Utilisation de la pondération des termes dans un document (tf.idf)• Comme dans le modèle vectoriel, positionnement des documents dans un espace euclidien dont les axes sont les termes de la requête

• Calcul de la distance entre les coordonnées du document et :– les coordonnées idéales (requête ET)– les coordonnées nulles (requête OU)

30

Page 31: Recherche - Évaluation

Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation

Modèle booléen étendu : exemple (1/2)

31

Requête Q : t1 AND/OR t2

Document D1 : ... t1 ... t2 ...

poids wD1,t1 = 0.75

poids wD1,t2 = 0.65

Document D2 : ... t1 ... t2 ...

poids wD2,t1 = 0.25

poids wD2,t2 = 0.50

D1D2

t2

0,65

0,75t1

1

1

0,5

0,25(0,0)

(1,1)

x2 x1

y2

y1

Page 32: Recherche - Évaluation

Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation

Modèle booléen étendu : exemple (2/2)

32

t2

0,65

0,75t1

1

1

0,5

0,25(0,0)

(1,1)

D1D2

x2 x1

y2

y1

t2

0,65

0,75t1

1

1

0,5

0,25(0,0)

(1,1)

D1D2y2

y1

t1 OR t2 t1 AND t2

𝑅𝑆𝑉 (D⃗ , Q⃗OR )=√ 𝑥2+𝑦 2

2 𝑅𝑆𝑉 (D⃗ , Q⃗AND )=1 −√ (1− 𝑥 )2+(1 − 𝑦 )2

2

x2 x1

Page 33: Recherche - Évaluation

Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation

Modèle booléen étendu : formule finale

33

𝑅𝑆𝑉 (D⃗ , Q⃗OR )=𝑝√ ∑

𝑖=1. .m𝑐𝑚𝑝

𝑚

𝑅𝑆𝑉 (D⃗ , Q⃗AND )=1 −𝑝√ ∑

𝑖=1. .m(1−𝑐 )𝑚

𝑝

𝑚

avec :• c les coordonnées des mots• m le nombre de termes

de la requête• 1 ≤ p ≤ ∞ p = 1 modèle booléen classique

p = 2 exemple précédent

Page 34: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Autres modèles algébriques• Modèle vectoriel généralisé

– Représente les dépendances entre termes– Théoriquement intéressant, mais efficacité non démontrée

• Latent Semantic Indexing– Propose d'étudier les "concepts" plutôt que les termes, car ce sont eux qui relaient les idées d'un texte.– Lie les documents entre eux et avec la requête– Permet de renvoyer des documents ne contenant aucun mot de la requête– Moins de dimensions

• Réseaux de neurones• ...

34

Page 35: Recherche - Évaluation

Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation

Pour aller plus loin...

35

(Dominik Kuropka 04)

Page 36: Recherche - Évaluation

Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation

Quelques outils

36

• lucy/zettair• cheshire• dataparksearch engine• lemur• lucene (et solr)• terrier• wumpus• xapian

http://www.seg.rmit.edu.au/zettair/http://cheshire.lib.berkeley.edu/http://www.dataparksearch.org/http://www.lemurproject.org/http://jakarta.apache.org/lucene/docs/http://ir.dcs.gla.ac.uk/terrier/http://www.wumpus-search.org/http://www.xapian.org/

liste et liens sur http://www.emse.fr/~mbeig/IR/tools.html

Page 37: Recherche - Évaluation

Relevance feedback

Page 38: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Relevance feedback (1/2)• "Réinjection de la pertinence"• Hypothèse : la requête initiale de l'utilisateur n'est pas la requête idéale pour obtenir les documents qu'il cherche• But : déplacer le vecteur de la requête pour la rapprocher des documents pertinents

38

Q Q'

documents non pertinents

documents pertinents

Page 39: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Relevance feedback (2/2)• "Manuel explicite" :

– L'utilisateur visualise les n premiers résultats– Il estime la pertinence de chacun (0 ou 1)– Nouvelle requête obtenue à partir des documents jugés pertinents et non pertinents

• Automatique (blind relevance feedback) :– Les n premiers résultats du premier run sont supposés pertinents – Même processus que pour le relevance feedback manuel (sans les documents non pertinents)

39

Page 40: Recherche - Évaluation

Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation

Relevance feedback : formule de Rocchio

40

𝑄 ′=α �⃗�+ β𝑃+γ �⃗�𝑃

moyenne des vecteurs des documents non pertinents

moyenne des vecteurs des documents pertinents

vecteur requête initial

nouveau vecteur requête

valeur négative (ex : -0,25)

valeur positive (ex : 0.5)

valeur positive supérieure aux autres (ex : 1)

Page 41: Recherche - Évaluation

Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation

Formule de Rocchio : exemple

41

�⃗�=(5,0,3,0,1 )

�⃗�= (2,1,2,0,0 )=D1

�⃗�𝑃= (1,0,0,0,2 )=D 2

𝑄 ′=�⃗�+ �⃗� − �⃗�𝑃𝑄 ′= (5.75,0 .5,4,0,0 .5 )

𝑄 ′=α �⃗�+ β𝑃+γ �⃗�𝑃

cosinus D1 D2Q1 0,90 0,53

Q2 0,95 0,43

Page 42: Recherche - Évaluation

Divers

42

Page 43: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Recherche multimédia• Texte et/ou image et/ou audio et/ou vidéo...• Des collections très volumineuses :

– ex : collection Wikipédia pour INEX– 4.6 Go en texte seul, 60 Go avec les images

• Documents structurés (MPEG-7...)

• Utilisation :– des métadonnées– du texte "environnant" les images (légende, point de référence...)– des caractéristiques propres des documents autres que le texte :

• Analyse d'image• Speech-to-text• ...

43

Page 44: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Quels résultats présenter ?• Il est inutile et coûteux de présenter trop de résultats• Où s'arrêter ?• Un seuil :

– Fixe• Difficile à trouver• Risque de ne rien présenter

– Fonction du meilleur score• Quelle signification ?• Comportement variable

• Augmentation brutale de la pente• La méthode du « coude »

44

cosinus

rang

Page 45: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Expansion de la requête• Ajouter des mots pertinents à la requête initiale et les pondérer

efficacement

• Méthodes pour palier les problèmes liés au langage naturel– « bateau » ne ramène pas le mot « navire »– « thermodynamique » ne ramène pas « chaleur »– « félin » ne ramène pas « chat »– …

• Le relevance feedback sert aussi à ça (en partie)

45

Pourquoi ?

Page 46: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Expansion de la requête• Les thesaurus « manuels »

• Les thesaurus automatiques (voir page suivante)

• L’analyse des logs de requêtes

46

Page 47: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Génération automatique de thesaurus• Fondée sur la similarité entre deux mots• Co-occurrence de deux mots : deux mots qui apparaissent

fréquemment ensemble possèdent une relation sémantique entre eux– Ex: « location » et « appartement »– Conduit à des relations sémantiques non spécifiées

• Co-occurrence des contextes : deux mots sont similaires s’ils co-occurrent avec des mots similaires– Ex: « bateau » et « navire », « chat » et « félin », mais aussi « chat » et

« chien », « PS » et « UMP », etc.– Conduit plutôt à des relations lexicales de synonymie ou hyperonymie, mais

peut également être plus large– Possibilité d’utiliser les relations syntaxiques également

47

Page 48: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Génération automatique de thesaurus• chat animal de compagnie, siamois, client IRC, persan, chien, …• télévision TV, séries, programme, radio, images, …

• Expansion de requêtes à base de thesaurus :– Ajouter les mots jugés similaires à la requête– Éventuellement, donner des pondérations en fonction du niveau de similarité

• Quand s’arrête-t-on d’étendre la requête ?

48

Quels sont les effets de ces expansions de requêtes sur la précision et le rappel ?

Page 49: Recherche - Évaluation

Évaluation

Page 50: Recherche - Évaluation

Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation

Recherche d'Information

50

Collections dynamiquesvs. statiques

Requête

Indexation(modèle de document)

Modèle derecherche

Évaluation

Page 51: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Qu’est-ce qu’un bon moteur de recherche ?• Il est rapide !

Une analyse rapide de la requête Une recherche rapide dans l’index Un tri rapide des résultats

• Il est complet et à jour !– Tous les (ou de nombreux) documents de la collection sont traités– Les nouveaux documents sont incorporés rapidement aux résultats Une construction rapide de l’index (sur le Web) Une découverte permanente, efficace et rapide des nouveaux

documents

51

Page 52: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Qu’est-ce qu’un bon moteur de recherche ?• Son langage de requêtes est simple et expressif

– Ces notions dépendent des types d’utilisateurs Un modèle de recherche et d’indexation approprié

• Son interface est sympa De nombreuses recherches dans ce domaine

• Il est gratuit ou pas cher Les moteurs de recherche (sur le Web mais pas seulement) sont un enjeu économique très important (et il faut trouver des recettes)

52

Page 53: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Qu’est-ce qu’un bon moteur de recherche ?• Mais surtout… il est pertinent !

– Ses résultats doivent satisfaire le besoin d’information de l’utilisateur– Mais ce point est plus difficile à mesurer– Il n’est pas indépendant des autres points

(la satisfaction de l’utilisateur dépend de l’ensembledes critères)

• Ce point dépend des utilisateurs– Les humains sont subjectifs– Ils ont leurs propres connaissances– Ils ont des besoins différents qui n’apparaissent

pas toujours dans leur expression de ces besoins

53

Page 54: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Comment mesurer la pertinence ?• Un moteur sur le Web

– L’utilisateur clique sur certains liens et pas sur d’autres– L’utilisateur retourne sur le moteur– L’utilisateur effectue une certaine tâche

• Un site de e-commerce– L’utilisateur achète (mais alors de qui mesure-t-on la satisfaction ?)

– Il achète vite– Une forte proportion de visiteurs achètent

• Un site d’entreprise– L’utilisateur gagne-t-il en productivité ?– L’accès est-il sécurisé ?– Etc.

54

Page 55: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Qu’est-ce qu’une bonne évaluation ?• Évaluer un système sert à :

– Savoir s’il remplit la tâche assignée– Savoir s’il est meilleur que la concurrence– Savoir où on peut l’améliorer

• Il faut donc une évaluation :– Reproductible

• Pour évaluer plusieurs systèmes de la même façon• Pour estimer les progrès accomplis

– Interprétable• Pour identifier les zones de progrès possible

– Rapide• Pour pouvoir évaluer chaque modification du système indépendamment

– Objective

55

Page 56: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Comment rendre la pertinence objective ?• Rappel :

– Le besoin de l’utilisateur est d’abord transformé en requête, ce qui comporte déjà une perte d’information.

– On mesure la pertinence des résultats par rapport au besoin d’information initial, pas par rapport à la requête ! (ex: « java »)

– Des résultats peuvent être « très pertinents », « pas du tout pertinent », mais aussi « un peu pertinents », « moui » ou « je le savais déjà »

• Pour rendre la pertinence objective :– On en simplifie la définition

• Les documents sont traités indépendamment les uns des autres• La pertinence est transformée en notion binaire

– On utilise des « collections de test »

56

Page 57: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Collections de test

La collection de test rend les expériences reproductibles

• On met au point un protocole • On juge manuellement un nombre significatif d’exemples

– « Gold standard »– Une partie peut également servir d’ensemble de « développement » et/ou

d’ « apprentissage »• On calcule un accord inter-annotateurs

– Pour valider le caractère objectif• On compare les résultats du système aux résultats attendus• On définit des mesures imparfaites mais précises

57

Page 58: Recherche - Évaluation

Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation

Documents pertinents P

Évaluation : précision et rappel

58

Retour dusystème S

Documents renvoyés ET pertinents

silence

bruit

SSP

Précision

PSP

Rappel Rappel- 1 Silence

Précision- 1 Bruit

Page 59: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Précision et rappel• Pourquoi pas juste la précision ?

– La précision évalue la capacité d’un système à renvoyer SURTOUT des documents pertinents

– Renvoyer un seul document pertinent suffit à obtenir 100 % de précision Ce n’est pas compatible avec la satisfaction de l’utilisateur !

• Pourquoi pas juste le rappel ?– Le rappel évalue la capacité d’un système à renvoyer TOUS les documents

pertinents– Renvoyer tous les documents de la collection permet d’obtenir 100 % de

rappel Ce n’est pas compatible avec la satisfaction de l’utilisateur !

59

Page 60: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Courbe rappel/précision• Le rappel augmente bien sûr avec le nombre de réponses• La précision diminue (en général)• On utilise la courbe rappel/précision pour caractériser les systèmes

de recherche d'information

60

0

0,2

0,4

0,6

0,8

1

,1 ,2 ,3 ,4 ,5 ,6 ,7 ,8 ,9 1

Page 61: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Évaluation : F-mesure• Pour obtenir une valeur unique entre 0 et 1, on utilise la F-mesure

(moyenne harmonique)

• Pour donner autant d'importance à la précision qu'au rappel, on choisit = 1

• < 1 favorise la précision, > 1 favorise le rappel

61

RPRP

Rp

F

2

2 )1(1)1(1

1

11 avec 2

RPRPF

.2

Page 62: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Évaluation : autres mesures• MAP (Mean Average Precision) : aire sous la courbe R/P• P@5, P@10 : précision après 10 documents retrouvés favorise

la haute/très haute précision• P@100, ...• Taux d'erreur = (faux positifs + faux négatifs) / pertinents• et de nombreuses autres...

62

MAP

Page 63: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Le pooling (1/3)• Problème du rappel dans les collections importantes

– Le rappel impose en théorie de connaître tous les documents pertinents– Impossible en pratique

• Le pooling :– Une fusion "intelligente" des résultats– Les n premiers documents produits par les systèmes sont fusionnés

(n = 100 ou plus)– Seuls ces documents sont jugés par les experts humains– Les documents non jugés sont considérés comme non pertinents– Le calcul du rappel fait comme si tout avait été jugé

63

Page 64: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Le pooling (2/3)• L’accord inter-annotateurs est d'environ 80%• Au mieux 50 à 70 % des documents pertinents seraient retrouvés par cette méthode (Zobel 98)• Le biais qui en résulte :

– Le rappel est surévalué– La précision est sous-évaluée– Les systèmes "originaux" qui s'entraînent sur ces collections peuvent être pénalisés

• Mais :– Le biais est faible s'il y a suffisamment de requêtes et de systèmes– L'évaluation "relative" (comparaison entre systèmes) reste valable– On n'a pas le choix

64

Page 65: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Le pooling (3/3)

65

Documents

pertinentsDocumen

tspertinent

spooling

Retour du

Système

Précision perdue

Rappel gagné

Page 66: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Campagnes d'évaluation• TREC (Text REtrieval Conference) :

– Événement phare du domaine, tous les ans depuis 1992– Sponsorisée par la DARPA– De nombreux axes de recherche :

• Multimédia : image, vidéo, Web• Types de recherche spécifiques : questions-réponses, interactif, filtrage,

"cross-language", "home page« • Domaines spécifiques : génomique, légal• Modes d'expression spécifiques : blogs, spams• ...

• CLEF (Cross-Language Evaluation Forum), spécialisée dans les langages européens• NTCIR, spécialisée dans les langages asiatiques

66

Page 67: Recherche - Évaluation

Retour sur la normalisation

Page 68: Recherche - Évaluation

Extraction d’Information dans les Textes I

Recherche, évaluationXavier Tannier

Influence de la normalisation

Quelle est l’influence des techniques de normalisation sur la précision et le rappel ?

• Utilisation des mots vides• Lemmatisation• Racinisation• …

Quelle peut être l’influence d’autres techniques sur la précision et le rappel ?

• Ajout de synonymes ?• Utilisation de la syntaxe des phrases ?• Requête

68