58
Recherche d’information et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

Embed Size (px)

Citation preview

Page 1: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

Recherche d’information et TAL

Ludovic TANGUY(J. Mothe, A. Picton, M. Vergez, etc.)

Master Recherche TAL

Page 2: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

2

Plan

• Principes généraux en RI• Schéma global d’une application de RI• Quelle place et quels résultats pour un

traitement « linguistique » ?• L’évaluation en RI

• Principes• Programmes Internationaux• Critique de l’évaluation globale

• Vers un traitement adaptatif : projet ARIEL

Page 3: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

3

Présentation générale de la RI

Page 4: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

4

La RI en quelques mots

• Étant donné :• Une collection de documents• Un besoin exprimé (requête)

• Retrouver les documents correspondants à ce besoin

• Le plus précisément et le plus exhaustivement possible

Page 5: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

5

Schéma général

Indexation

Représentation

Requête

Mise en cor-respondance

Page 6: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

6

Caractéristiques du modèle dominant

• Représentation des documents et requêtes par « sac de mots »

• Modèle vectoriel avec pondération• Fréquence relative• Mots vides

• Quelques variations• Critères de position• Syntagmes ou assimilés au lieu de mots

simples

Page 7: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

7

Place(s) pour la linguistique

• Extraction des unités pertinentes (docs+requêtes)

• Segmentation (mots / syntagmes)• Normalisation des formes (orthographe,

morphologie, syntaxe)• Expansion de requêtes

• Ajout de termes à ceux de la requête initiale• E.g. : morphologie dérivationnelle, utilisations

de ressources sémantiques, etc.• « La linguistique doit aider au repérage du

sens »

Page 8: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

8

La RI pour le TAL des linguistes

• La RI comme valorisation des ressources produites par le TAL

• Lexiques, grammaires, réseaux sémantiques, etc.

• Slogan classique de fin d’article : « Application à la recherche d’information »

• Sans doute utile, mais pas de véritable évaluation de l’impact sur des chaînes de RI

Page 9: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

9

Bilan mitigé (pour le moins)

• De Loupy 2001 : • « Les expériences publiées dans la littérature ne

font pas apparaître clairement que les systèmes utilisant des connaissances linguistiques obtiennent de meilleures performances. »

• Voorhes 1999 : • « Currently, the most succesful general purpose

retrieval systems are statistical methods that treat text as little more than a bag of words. However, attempts to improve retrieval performance through more sophisticated linguistic processing have been largely unsuccessful. »

Page 10: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

10

Quelques explications…

• Méthodologie de l’évaluation• Évaluation globale d’un système

• Coût des calculs supplémentaires• Temps de réponse du système plus important

que la pertinence• Types de documents traités

• Bases documentaires généralistes• Exigence de l’utilisateur

• Modèle du Web

Page 11: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

11

Présentation générale de la RI

• Problématique de l’évaluation

Page 12: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

12

L’évaluation en RI

• Coût énorme de la définition d’un banc de test• Communauté scientifique mobilisée très tôt pour la

mise en commun de ressources• Text REtrieval Conference (TREC), 1992

• Langue anglaise exclusivement• Cross-Language Evaluation Forum (CLEF), 2000

• Autres langues européennes et recherche d’information trans-langue

• NII-Nacsis Test Collections for Information Retrieval (NTCIR), 1998

• Langues asiatiques• Passages obligés pour tout système de RI

Page 13: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

13

Évaluation « à la TREC »

• Plusieurs tâches• Adhoc, WEB, Hard, QA, Terabyte, SPAM, Novelty, etc.• Collections de documents (presse, Web, mails, etc.)• Collection de requêtes (« topics »), 50 par tâche par an

• Texte de la requête (plus ou moins structuré)• Liste des documents « pertinents »

• Chaque campagne (annuelle)• Définition de la collection• Distribution des requêtes• Exécution des recherches par le système évalué

(différents paramètres possibles, ou « runs »)• Retour des résultats et évaluation du « run »

Page 14: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

14

Exemple de requête (topic 35, 2003)

Title: NATO, Poland, Czech Republic, HungaryDescriptive: Accession of new NATO members: Poland,

Czech Republic, Hungary, in 1999. Narrative: Identity of current and newly-invited members,

statements of support for and opposition to NATO enlargement and steps in the accession process and related special events are relevant. Impact on the new members, i.e., requirements they must satisfy, and their expectations regarding the implications for them are relevant. Progress in the ratification process is relevant. Future plans for NATO expansion, identification of nations admitted on previous occasions, and comments on future NATO structure or strategy are not relevant.

Page 15: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

15

Notion de pertinence

• Décision humaine pour chaque requête• « Pooling method » : les juges ne se basent

que sur un sous-ensemble de documents• Uniquement ceux ramenés par au moins un

système• Pas de méthodologie claire ni de classement

pour les documents pertinents

Page 16: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

16

Critères d’évaluation

• Précision (documents pertinents parmi ceux retrouvés)

• Rappel (documents retrouvés parmi ceux pertinents)

• F-mesure : 2xPxR/(P+R)• Système parfait : P=R=1• Tous les documents sont retrouvés : R=1, P~0• Aucun document n’est retrouvé : P=1, R~0• Différents seuils de mesure (5, 10, 20…

premiers documents ramenés)

Page 17: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

17

Scores et évaluation

• Courbes rappel/précision

• Préférence pour les scores de précision

Page 18: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

18

Évaluation « globale »

• Plusieurs scores globaux (moyenne) pour chaque « run »

• Classement des systèmes sur cette base• Le score pour chaque requête est disponible,

mais pas utilisé• Uniquement une moyenne sur les requêtes

• En moyenne, très peu de différences entre les « bons » systèmes

• Même si des variations importantes peuvent exister d’une requête à l’autre

Page 19: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

19

Conséquences

• Peu de visibilité des difficultés rencontrées par les systèmes

• Pas de prise en compte de l’efficacité par rapport à une requête « difficile »

• Pas de retour précis sur les techniques utilisées

• Peu d’information sur les caractéristiques des systèmes de toute façon

Page 20: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

20

Présentation générale de la RI

• Evaluation « locale »

Page 21: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

21

Études locales souhaitables

• Observer le comportement d’un système par rapport à une requête particulière

• Évaluer un traitement linguistique « sur site »• Permettre un jugement plus fin des méthodes

employées• En voir les faiblesses et les avantages en

fonction des données traitées• Pouvoir conjuguer des méthodes spécifiques

• Adapter le traitement aux données

Page 22: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

22

Quelques études locales« For most IR algorithms, we do not sufficiently understand the reason for retrieval variability well enough to be able to predict whether the algorithm will succeed or fail on a topic » Buckley & Harman 2003

• Workshop RIA « Where can IR go from here? »• 6 semaines de test locaux de plusieurs systèmes• Étude de la variabilité topics-systèmes-documents• Typologie des problèmes rencontrés

• Termes, relations sémantiques, orthographes, etc.• Concentration sur le paramétrage des techniques

statistiques• Réinjection de pertinence aveugle (blind feedback)• Pondération des termes réinjectés

• Pas de lien direct avec des ressources linguistiques

Page 23: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

23

Le projet ARIEL

• Présentation générale

Page 24: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

24

Le projet ARIEL

• Adaptation d’une chaîne de Recherche d’Information à l’Expression des besoins sur la base de traitements Linguistiques

• IRIT / ERSS – J. Mothe – 2005-06• Utilisation de la plateforme RFIEC (IRIT)

• Observatoire de l’impact de traitements linguistiques

• Repérage des contextes favorables et défavorables pour chaque méthode

• Vers un système adaptatif ?

Page 25: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

25

Traitements envisagés

• Étude sur le français et l’anglais• Indexation des documents et requêtes

• Lemmatisation• Stemmatisation (troncation)

• Expansion de requêtes• Morphologie dérivationnelle • (Dictionnaires de synonymes)• Voisins distributionnels

Page 26: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

26

Traitements morphologiques

• Normalisation des formes : • Troncation : « déterminons -> détermi »

• 5, 6 ou 7 caractères pour le français• Lemmatisation : « déterminons -> déterminer »

• Retour à la forme de citation• Nécessite un étiquetage morphosyntaxique

(TreeTagger)• Expansion de requêtes par BD morphologique :

« déterminer -> détermination »• Verbaction : couples N/V• Nécessite une lemmatisation

Page 27: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

27

Traitements sémantiques

• Dictionnaires de synonymes• Déterminer -> entraîner, provoquer, pousser,

susciter, occasionner…• Voisins distributionnels

• Déterminer -> correspondre, indiquer, définir, s’interroger, ignorer, préciser…

• Morphosynonymie• Déterminer -> arrêter, décider, fixer, préciser,

caractériser, délimiter, estimer…• Expansion de requêtes

• Après lemmatisation

Page 28: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

28

Le projet ARIEL

• Travaux préliminaires

Page 29: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

29

Première étape : étude de l’existant

• Problèmes de développement de la plateforme d’expérimentation

• État des lieux des variations de résultats d’une requête à l’autre

• Étude des résultats passés des campagnes TREC et CLEF

• Pour quelques systèmes bien décrits, étude détaillée des différences locales

Page 30: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

30

Typologie naïve des requêtes

• Première approche : requête « faciles » vs « difficiles »

• Étude des runs passés de TREC (5 années, 250 requêtes)

• Scores de précision, rappel et F-mesure de tous les systèmes et pour toutes les requêtes

• Analyses statistiques• Classification hiérarchique ascendante• Christment et al. (2004)

Page 31: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

31

Requêtes faciles vs. difficiles

Page 32: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

32

Typologie des systèmes

• Différences de performances en fonction des requêtes

• Identification de deux groupes de systèmes• Analyse factorielle

• Individus = requêtes• Variables = scores des runs

Page 33: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

33

Classification des systèmes

Groupe 1 de systèmes

Groupe 2 de systèmes

Page 34: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

34

Premiers résultats

• Comportements variés entre les requêtes• Requêtes difficiles et faciles

• Comportement variés entre les systèmes• Efficacité variable d’une requête à l’autre

• Première utilisation : adaptation aveugle• Pour chaque requête, un type de système plus

approprié• Fusion de systèmes : « mixer » les résultats de

deux systèmes orthogonaux• MAIS : pas d’ « explication » de la difficulté ni

de la variation

Page 35: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

35

Le projet ARIEL

• Typologie linguistique des requêtes

Page 36: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

36

Typologie linguistique des requêtes

• Principe : définition de traits linguistiques génériques

• « À la Biber »• Définition de profils de requêtes

• Études :• Quel est l’impact des caractéristiques

linguistiques sur les performances des systèmes ?

• Peut-on associer ces caractéristiques aux variations d’efficacité de différents traitements ?

Page 37: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

37

Traits linguistiques des requêtes

• Une trentaine de traits définis, répartis en trois niveaux

• Lexique : • Complexité lexicale (taille des mots, suffixation,

rareté, répétition, etc.)• Syntaxe :

• Complexité syntaxique (subordonnées, négation, profondeur, etc.)

• Sémantique : • Polysémie des termes de la requête

Page 38: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

38

Concrètement…• Pour chaque requête : étiquetage morpho-syntaxique

(TreeTagger) et analyse syntaxique (Syntex)• Profilage :

• Calculs de caractéristiques (numériques)• Construction d’un vecteur pour chaque requête (n=30)

• Au total, une matrice avec • En colonnes, les valeurs des traits + les scores obtenus• En ligne, les requêtes• EXEMPLE

• Grande complexité du problème : • Méthodes d’indexation, type de tâche, année, traits

linguistiques, mesures d’évaluation, parties de la requête prises en compte

Page 39: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

39

Quelques traits particuliers

• Polysémie • Utilisation de ressources génériques• Anglais : Wordnet

• Nombre de synsets différents par item lexical• Français : TLFi

• Nombre d’entrées par item

• Complexité syntaxique : deux approches complémentaires

Page 40: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

40

Complexité syntaxique : profondeur

Term limitations for members of the US congress

NP

NP

PP

NP

PP

NP

SyntacticDepth

5

SyntacticLinksSpan

10/7 = 1.43

Page 41: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

41

Complexité syntaxique : distance syntaxique

of mutual funds in individual 'san retirement strategy

NP

PP

NPNPNP

PP

NP

SyntacticDepth

4

SyntacticLinksSpan19/9 = 2.11

Use

Page 42: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

42

Méthodes

• Statistiques descriptives • Traits linguistiques : variables explicatives• Scores des runs : variables dépendantes

• Première approche : corrélations• Mesure de l’existence d’une relation linéaire

entre deux variables• E.g. : plus la requête est longue, plus elle contient

de mots• Corrélations significatives• Corrélations positives ou négatives

Page 43: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

43

Notion de corrélation

0

100

200

300

400

500

600

0 20 40 60 80 100 120

Série1

Page 44: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

44

Résultats

• Phénomène connu (Mandl & Womser 2004): les noms propres

• Corrélation significativement positive • Confirmé sur TREC et CLEF

• Phénomènes nouveaux (Mothe & Tanguy 2005, Vergez 2005) :

• « Distance syntaxique » : négative• Polysémie moyenne : négative• Présence de mots suffixés : négative

• Détecteur de requêtes difficiles• Utilisation envisageable : interaction avec l’utilisateur

pour reformulation

Page 45: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

45

Le projet ARIEL

• Évaluation de techniques linguistiques

Page 46: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

46

Premier lien avec les méthodes utilisées• Exemple (rare) : les runs de l’Université

d’Amsterdam en 2002• 3 versions du même système, seule variation :

lemmatisation (TreeTagger) / stemmatisation (Porter) / les deux traitements cumulés

• Extraction de règles de décisions par apprentissage

• Plateforme Weka : divers algos d’apprentissage• Si (% de prépositions > X) Alors

Préférer la troncation• Fusion de systèmes requête par requête

Page 47: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

47

Évaluation de différentes méthodes

• Utilisation de la plateforme RFIEC• Différentes méthodes d’indexation

(documents/requêtes) et d’expansion• Calcul des scores globaux• Calcul des scores pour chaque requête

• Corrélations entre traits des requêtes et variation de performance

• M. Vergez & A. Picton, 2005

Page 48: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

48

Normalisation des formes : résultats globaux• Lemmatisation vs. troncation vs. formes de

surface• Lemmatisation > troncation > formes de surface

• Bilan net pour la lemmatisation, étude novatrice pour le français

• Nombreuses erreurs de traitement dans les expériences précédentes…

• Lemmatisation vs. formes : • Tendance lourde pour la lemmatisation :

pluriels de noms, formes verbales, etc.

Page 49: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

49

Normalisation des formes : explications locales• Lemmatisation vs. troncation :

• Flexion de mots courts (loi/lois) : +Lemm, -Tronc

• Formes proches non apparentées (information /informatique) : -Tronc, +Lemm

• Morphologie dérivationnelle (ménopausique/ménopause/ménopausé) : +Tronc –Lemm

• Problèmes de lemmatisation de certaines formes : accouché (Adj) / accoucher (V)

Page 50: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

50

Normalisation des formes : traits linguistiques liés• Corrélé positivement avec un gain positif en

faveur de la lemmatisation :• Longueur de la requête (Nb de mots)• Nombre de mots suffixés !!!!

• Résultats contre-intuitifs ?• Danger de la dérivation non contrôlée :

Information / informatique• Danger accru avec le nombre de mots

• Moralité : l’assimilation abusive de la troncation est bien son handicap principal

Page 51: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

51

Expansion morphologique de requêtes • Base Verbaction (Hathout et al.)

• 9000 couples N/V validés manuellement• TLF + acquisition sur le Web

• Intervention lors de l’indexation de la requête après lemmatisation

• Double sens : N->V et V->N• Base MorphoSyn (Hathout tout seul)

• Cf. la semaine prochaine• Besoin de paramétrage plus fin…

Page 52: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

52

Bilan global

• Lemmatisation + Verbaction vs. Lemmatisation seule

• Globalement pas d’amélioration• Certaines requêtes reçoivent un gain énorme

(+135%)• Lemmatisation + Verbaction vs Troncation

• Globalement très positif (+10%)

Page 53: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

53

Phénomènes linguistiques locaux

• Bruit induit par Verbaction• Problèmes de catégorisation : égaler/également (N vs.

Adv)• Polysémie des dérivés : faire/faction, faire/facture,

faire/façon• Gain de Verbaction :

• Bon couples dans les deux sens (N-V et V-N)• Investir/investissement, adhésion/adhérer, union/unir,

etc.• Insuffisance de Verbaction (vs. troncation) :

• Liens morphologiques autres que N/V : ménopausique/ménopause (Adj/N)

Page 54: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

54

Traits linguistiques corrélés

• Traits positivement corrélés avec un gain de Verbaction :

• Taux de verbes• Profondeur syntaxique• Type/Token Ratio

• Explications : • Profondeur syntaxique : présence de SN

imbriqués (N de N de N de N) -> déverbaux en tête

• TTR : besoin d’expansion criant !

Page 55: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

55

Conclusions

Page 56: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

56

Bilan jusqu’ici

• Démonstration du gain de méthodes linguistiques

• Méthodes simples• Bien contrôlées et articulées• Avantage aux ressources limitées mais

validées• Encouragement pour leur développement• Extension de la couverture

Page 57: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

57

Perspectives à court terme

• Construction d’un classifieur de requêtes• Par apprentissage sur les traits pertinents

• Application et validation sur plus de campagnes

• Participation à TREC/CLEF avec un système adaptatif

Page 58: Recherche dinformation et TAL Ludovic TANGUY (J. Mothe, A. Picton, M. Vergez, etc.) Master Recherche TAL

58

Perspectives à long terme

• Affinement des traits descriptifs• Étude des documents et pas seulement des

requêtes• Contrôle local des expansions plus

acrobatiques