Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

Extraction et recherche d'information

en langage naturel

dans les documents semi-structurés

Soutenance de thèse

Xavier Tannier

Ecole Nationale Supérieure des Mines de Saint-Etienne

27 septembre 2006

27/09/2006

2/42

– Analyse syntaxique– Règles sémantiques– Construction de la requête

• Interface de requêtes en langage naturel

Plan

• Les documents XML et la recherche d'information

• Recherche contextuelle

• Expérimentations– Méthodologie– Résultats avec NEXI et XOR– Conclusion

– Problématique– Recherche contextuelle avec XOR

– Les documents semi-structurés (XML)– Les spécificités de la RI semi-structurée– Les interfaces de requêtes en langage naturel

27/09/2006

3/42

<article titre=“Un exemple d'article” auteur=“Dupont et Dupond” > <section>

<par> Le travail d'Untel <ref>Untel03</ref>, illustré par la figure <fig>fig1</fig>, ainsi que mes propres <gras>expérimentations</gras> conduites en 2002, semblent montrer…

</par> </section> <bibliographie> <bib id=“Untel03” auteur=“Untel” titre=“Voici mon travail”/> </bibliographie> …</article>

balise d'emphase

XML orienté document

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes

27/09/2006

4/42

XML orienté document

article

titre auteur section bibliographie

Un exemple d'article

Dupont et Dupond

par …

…

bib …

…




27/09/2006

5/42

<agenda> <personne nom=“Nougaro” prénom=“Claude”> <numéro type=“mobile”>06 79 30 94 29</numéro> <numéro type=“fixe” >05 62 39 92 04</numéro> <adresse> <n>19</n> <rue>quai Saint-Pierre</rue> <code_postal>31000 </code_postal> <ville>Toulouse</ville> </adresse> </personne>…

(par opposition aux documents orientés documents)

XML orienté données




27/09/2006

6/42

Recherche d'information

Analyse des documents

(1.)

Analyse du

besoin

(2.)

fonction desimilarité

résultats

<article titre=“Un exemple d'article” auteur=“Dupont et Dupond” > <section> <par>Le travail d'Untel <ref>Untel03</ref>, illustré par la figure <fig>fig1</fig>, ainsi que mes <b>expérimentations</b> conduites en 2002, semble montrer…</par> </section> <bibliographie> <bib id=“Untel03” auteur=“Untel” titre=“Voici mon travail”/> </bibliographie> …</article>




27/09/2006

7/42

Les spécificités de la RI semi-structurée

• L'unité d'information pertinente– document entier vs. élément XML (doxel)– exhaustivité et spécificité

• Recherche sur contenu et structure

d46.d25.d94.d53.d32.d61.

d4d2d9d3d3d6

/sec[3]/sec[5]/table[2]

/resume[1]/bib/item[4]

/sec[2]/p[4]/fig[1]/sec[3]/p[2]

6.5.4.3.2.1.

RI "plate" RI semi-structurée

1. d62. d33. d54. d9

1. d6 /sec[3]/p[2]2. d3 /sec[2]/p[4]/fig[1]3. d3 /bib/item[4]4. d9 /resume[1]





27/09/2006

8/42

Une figure montrant un sondage dans un article sur l'élection de 2007.

<article titre = “Ségo et Sarko sont dans un bateau”> <paragraphe> En 2007, les Français éliront un nouveau président … … </paragraphe> <paragraphe> …

<figure n=“7” caption="Dernier sondage"> Sarkozy : 30 % Royal : 30 % de Villepin : 0.2 % Hollande : 0.12 % </figure>

</paragraphe> … </article>

<figure n=“7” caption="Dernier sondage"> Sarkozy : 30 % Royal : 30 % de Villepin : 0.2 % Hollande : 0.12 %

</figure>

Structure et Contenu




27/09/2006

9/42

<article titre = “Saint-Etienne”> <paragraphe> … musée d'Art Moderne … </paragraphe> <paragraphe> … biennale du Design … </paragraphe> … </article>

Que faire à Saint-Etienne ?

<article titre = “Les villes de France”> <paragraphe> … </paragraphe> <paragraphe> … Saint-Etienne … mines … histoire … culture … </paragraphe> … </article>

<article titre = “Guide des vacances au calme”> <paragraphe> … </paragraphe> <figure légende="listes des activités possibles à Saint-Etienne"> Balades Musées Cinéma C'est tout </figure> </article>

Structure et Contenu




27/09/2006

10/42

Les spécificités de la RI semi-structurée

• L'unité d'information pertinente– document entier vs. élément XML (doxel)– exhaustivité et spécificité

• Recherche sur contenu et structure– besoin de langages de requêtes structurés– NEXI

• Interprétation de la requête– stricte pour les bases de données (documents orientés données)– vague pour la recherche d'information //article[about(.//res, "spécialités Sud-Ouest")]//par[about(., magret)]

Support Cible

1. d62. d33. d54. d9

1. d6 /sec[3]/p[2]2. d3 /sec[2]/p[4]/fig[1]3. d3 /bib/item[4]4. d9 /resume[1]


//article[about(.//abs, "spécialités Sud-Ouest")]//par[about(., magret)]




27/09/2006

11/42

Documents plats XML Bases de données

contenu : texte seulement balises + texte structure + donnée

unité de RI : document entier élément -

besoin : texte seulement texte et structure

requête : mots-clés langage de requête structuré

interprétation : vague vague stricte

trop compliqué pour les utilisateurs occasionnels

besoin de connaître la structure (DTD) du document

pas de réponse "idéale"

interpréter la requête fait partie intégrante du processus

on peut espérer construire des requêtes meilleures

Motivation pour les interfaces en LN




confort

performances

27/09/2006

12/42

Les enjeux

• Les besoins– Structure et contenu– Robustesse (toujours retourner un résultat)– Généricité (dépendance vis-à-vis de la collection)– Simplicité

• Les libertés– Compréhension la requête (≠ bases de données)– Indépendance des requêtes– Courtoisie de l'utilisateur

pas de calculs (fréquences, maximum, moyennes), de jointure, de restructuration des résultats




• Les buts– Confort– Performance comparable

27/09/2006

13/42

L'approche de Woodley et Geva [2004]

• Patrons sémantiques (template matching)

Find figures …//fig

<ELEMENT> + <RELATION> + <TEXTE> "//<ELEMENT>[about(., <TEXTE>)]"

sections containing something

//sec[about(., something)]

<INSTRUCTION> + <ELEMENT> "//<ELEMENT>"• Avantages :– Efficacité (en temps de calcul)– Pas d'ambiguïté

• Limites :– Seulement les constructions prévues à l'avance– Peu robuste– Difficile à adapter– Pas de constructions "implicites"




un article qui cite un autre article bibliographie

27/09/2006

14/42

Plan (rappel)

– Analyse syntaxique– Règles sémantiques– Construction de la requête




• Expérimentations

27/09/2006

15/42

Architecture générale

analysesyntaxique

règlessémantiques

constructionde la

requête

requête en langage naturel

requête en NEXI

première représentation (syntaxique)

deuxième représentation (sémantique)

Indépendante de la collection

Dépendantes de la collection

27/09/2006

16/42

Analyse syntaxique

Analyse syntaxique Règles sémantiques Construction de la requête

We are searching paragraphs dealing with management

NNINV(ger)NNVPP

NP NP

VP

NP

VP

NP

S

NP → DET? NNNP → PP

NP → NP VP(ger)

VP → V IN? NP

S → NP VP… → …

We are searching paragraphs dealing with version managementin articles about object databases.



27/09/2006

17/42


a b c d e1 e2

a : (paragraph, sym:paragraphs, cat:nn, tag:p)b : (version management, cat:np)c : (article, sym:articles, cat:nn, tag:article)d : (object databases, cat:np)e1 : (search, sym:are searching, cat:v)e2 : (deal, sym:dealing, cat:v)

objet(e1, a)sujet(e2, a)with(e2, b)in(a, c)about(c, d)

elements

valeurs

relations

cibles

Analyse syntaxique : représentation

Valeurs :

lemmetermes initiaux

catégorie

balisecat:np

cat:np

NP (JJ | NN)+ NN

NP PN (IN? PN)+

Relations :

sujet, objet…

in, with, of, on, …




27/09/2006

18/42


a b c d e1 e2

a : (paragraph, tag:p)b : (version management)c : (article, tag:article)d : (object databases)e1 : (search)e2 : (deal)


elements

valeurs

relations

cibles

VP

NP

a, b, e2

a : (paragraph, cat:nn, tag:p)b : (management, cat:nn)e2 : (deal, cat:v)

with(e2, b)sujet(e2, a)

Analyse syntaxique

dealing with managementNNINV(ger)

b

b : (management, cat:nn)

with(?, ?)

e2

e2 : (deal, cat:v)

b, e2

b : (management, cat:nn)e2 : (deal, cat:v)

with(e2, b)

a

a : (paragraph, cat:nn, tag:p)

dealing with managementparagraphs

NN




27/09/2006

19/42

We are searching paragraphs dealing with version managementin articles about object databases.to search + <objet>

to deal + <with>

valeurs

relations

cibles

ae1 : (search)

objet(e1, a)

a

a

a : (tag:_)be2 : (deal)

sujet(e2, a)with(e2, b)

ab

about(a, b)

valeurs

relations

cibles

a b c d

a : (paragraph, tag:p)b : (version management)c : (article, tag:article)d : (object databases)

about(a, b)in(a, c)about(c, d)

a

Règles sémantiques

a b c d e1 e2






27/09/2006

20/42

- Détection de la cible :find <objet>, look <for>, …

- Relations verbales :speak <about>, concern <objet>, precede <objet>, …

- Relations prépositionnelles :<with>, <in>, <about>

a : (tag:_)be : (cite)

sujet(e, a)objet(e, b)

abc (tag:bib)

about(c, b)

valeurs

relations

cibles

an article that cite … an article citing

- <sujet> cite <objet>

• Règles dépendant de la structure

- introduction

• Règles "fixes"

- <tag> <by>

a : (tag:_)b

by(a, b)

abc (tag:au)

about(c, b)

valeurs

relationscibles

an article by …

Règles sémantiques

a:(introduction) ab (tag:sec)c (tag:st)

includes(b, c)about(c, a)




27/09/2006

21/42

Désambiguïsation syntaxique

• par le nombre de règles

Les règles permettent la désambiguïsation syntaxique

• par leurs modalités d'application

Trouvez un article sur Napoléon qui cite Max Gallo

<article> citer <objet>

Je cherche des sections sur les impressionnistesdans des articles sur la peinture




27/09/2006

22/42

(sujet) citer (objet)(dans) citer (objet)

Modèle de la collection

article bib

un élément bibliographique

un article un élément bibliographique

un articleest cité par

est cité dans

cite

au article

(par)(de)

écrirepublier

un auteur

un article un auteur

un articlepublieécrit

depar




27/09/2006

23/42

vita

être

yr

(obj

et) p

ublie

r (da

ns)

ti

(dans) publier (objet)

publier .

(de)

Modèle de la collection

bib(sujet) citer (objet)

(dans) citer (objet)écrirepublier

au article

(par)(de)

abs

résumer

atl

intit

uler

(de)

(objet) publier (dans)

ack remercier

st

sec

intituler




27/09/2006

24/42


//article[about(., "object databases")]

//p[about(., "version management")]

//article[about(., "object databases")]//p[about(., "version management")]

Obtention de la requête finale (NEXI)

a b c d e1 e2



a b c d

a : (paragraph, tag:p)b : (version management)c : (article, tag:article)d : (object databases)

about(a, b)in(a, c)about(c, d)

a




27/09/2006

25/42

Plan (rappel)




• Expérimentations

– Problématique– Recherche contextuelle avec XOR

27/09/2006

26/42

Source majeure d'erreurs pour les moteurs de recherche :

ex. : Navigation systems for automobiles (Top. 128, INEX 2004)

Beaucoup d'éléments bien classés concernaient navigation systems for planes or ships…

Pourquoi ?

NP NP (PREP NP)+

automobile est le contexte, et le terme n'apparaît pas dans les

éléments les plus profonds.

article

abs intro sec

p

ss1

automobilesplanesships

navigation systems

Problématique

Problématique Recherche contextuelle avec XOR



27/09/2006

27/42

<article title="… automobiles …"> <paragraph> … … … … </paragraph> <paragraph> … navigation systems … </paragraph> … </article>

a paragraph about navigation systems for automobiles//p[about(. , navigation systems for automobiles)]

<article> <abstract> … navigation systems … </abstract> <paragraph> … automobiles … </paragraph> … </article>

<article> <paragraph> … </paragraph> <paragraph> … … … navigation systems … … automobiles … … … </paragraph> </article>

Problématique




27/09/2006

28/42

Pondération d'un élément avec le score du document

La rétro-propagation [Sigurbjörnsson et al]


se

Sd

Se = f (Sd , se )




//p[about(. , navigation systems for automobiles)]

27/09/2006

29/42

a paragraph about navigation systems for automobiles GN1 PREP GN2

//article[about(. , automobile)]//p[about(. ,“navigation systems”)

OR

//article[about(. , “navigation systems”)]//p[about(. , automobile)

OR

//article//p[about(. , automobile) AND about(. ,“navigation systems”)]

Recherche contextuelle avec XOR

• hypothèse : gain de rappel et pas de perte de précision



• impossible avec NEXI

XOR (XML Oriented Language), proposé avec Shlomo Geva et Marcus Hassler


27/09/2006

30/42

… PAS d'article sur le football à Saint-Etienne GN1 PREP GN2

//article[… AND NOT about(. , football Saint-Etienne)]

Recherche contextuelle et négation

Exception pour la négation




27/09/2006

31/42

Plan (rappel)




• Expérimentations– Méthodologie– Résultats avec NEXI et XOR– Conclusion

27/09/2006

32/42

• INEX (depuis 2002) : ensemble de requêtes avec une description en Anglais et une expression NEXI manuelle, avec des jugements de pertinence

• Les requêtes automatiques et manuelles sont exécutées avec le même moteur de recherche E (GPX).

• Comparaison entre l'interface et les requêtes manuelles.

EENEXI / XORNEXI / XOR

NEXI (manuel)NEXI (manuel)

DescriptionDescription(langage (langage naturel)naturel)

"baseline""baseline"

"run""run"

Méthodologie

Méthodologie Résultats Conclusion



27/09/2006

33/42

• Métriques d'INEX [Kazai et Lalmas 04]

– mesures spécifiques à la recherche XML– gain cumulé normalisé étendu (nxCG[n]) rappel– effort-précision / gain-rappel précision

• Jugements de pertinence des éléments fournis par INEX

Méthodologie : métriques





"run""run"




27/09/2006

34/42

• Content and Structure : requêtes avec des indications de structure– VVCAS– VSCAS– SVCAS– SSCAS

• Content Only : requêtes sans indications de structure– Focussed : chevauchement interdit– Thorough : chevauchement autorisé– Fetch and Browse : article puis liste d'éléments dans cet article

Différentes tâches (2005)

Différence de traitement (vague ou strict) des contraintes structurelles du support ou de la cible

//article[about(.//abs, "spécialités Sud-Ouest")]//par[about(., magret)]




27/09/2006

35/42

Résultats (VVCAS)

"Baseline"NEXI simpleXOR avec recherche contextuelle




27/09/2006

36/42

Résultats (autres CAS)





27/09/2006

37/42

Résultats (CO.Thorough)





27/09/2006

38/42

Résultats (autres CO)





27/09/2006

39/42

Influence du regroupement en NP

"Baseline"NEXI simpleNEXI sans les NP




27/09/2006

40/42

Résultats : conclusion


• Evaluation très positive : - le langage naturel est une alternative viable- la structure des requêtes est une aide à l'analyse

• Bons résultats pour les requêtes CAS, moins bons pour les CO.

- traduction mentale des humains pas toujours appropriée- utilisation organisée des groupes nominaux plus efficace- trop de bruit pour les questions longues

• Recherche contextuelle - améliore les bons résultats- utile avec une analyse bien maîtrisée



27/09/2006

41/42

Conclusion générale

• Confrontation des techniques de TAL et de la problématique des documents semi-structurés :

– Analyse textuelle des contenus XML– Analyse de requêtes en langage naturel– Utilisation de la structure pour la recherche contextuelle

• Résultats expérimentaux à chaque étape

• Validité des approches confirmée

27/09/2006

42/42

Améliorations

• Intégration des techniques "classiques" de TAL

• Amélioration du comportement du système face aux questions "difficiles"

• Simplification de la gestion des règles sémantiques

27/09/2006

43/42

Perspectives

• Application d'autres techniques de traitement de la langue

• Collections hétérogènes

• Dialogue

• Question-réponse

• Synthèse automatique

• Gestion des connaissances (Semantic Web…)

27/09/2006

Merci !

27/09/2006

45/42

- "hard" tags : interrompent la linéarité du texte. ex: titres, chapitres, paragraphes

- "soft" tags : identifient des parties significatives de texte, maisrestent "transparents" à la lecture.

ex: gras, italiques, souligné

- "jump" tags : elements particuliers, comme les notes de marges, les citations, les définitions…

<tag>texte A</tag><tag>texte B</tag>

texte A <gras>texte B</gras> texte C

texte A<note>texte B</note> texte C

proximité physique ≠ proximité logique

Classification des balises [Lizi et al., 2001]

Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger

Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel


27/09/2006

46/42

<news> <item>Dernier sondage, à quatre jours des élections</item> <item>Aux Etats-Unis, une fausse alerte provoque la panique dans un avion</item></news>

Recherche du motif "Elections aux Etats-Unis"

Balises dures




27/09/2006

47/42

<par> Les élections aux <gras>Etats-Unis</gras> sont prévues pour l'année 2008. </par>

<titre> Les commentaires de Noam Chomsky au sujet des <gras>élections</gras> aux <italiques>Etats-Unis</italiques>. </titre>

Balises transparentes




27/09/2006

48/42

<transcription_orale> Les nouvelles ne parlent plus que des élections aux Etats- <commentaire>une porte claque</commentaire>Unis.</transcription_orale>

<paragraphe> En 2004, les élections<note>Voir p.163 un article général sur les modes électoraux dans le monde.</note> aux Etats-Unis furent moins controversées qu'en 2000. </paragraphe>

<résumé> Cet article traite du prochain voyage du président roumain <nbp>Traian Basescu, qui a remporté de justesse les dernières élections</nbp> aux Etats-Unis.</résumé>

Balises de saut




27/09/2006

49/42

En 2004, les élections<note>Voir p.163 un article général sur les modes électoraux dans le monde.</note> aux Etats-Unis furent moins controversées

• Une portion de texte syntaxiquement et sémantiquement auto-suffisante dans le document XML.

• Connaître la nature des balises permet de retrouver les contextes de lecture.

• C'est la condition pour permettre l'utilisation des méthodes d'analyse textuelle sur le contenu XML(étiquetage POS, analyse syntaxique/sémantique, indexation, etc.)

Le contexte de lecture




27/09/2006

50/42

• Détermination automatique des classes

• L'idée est de prendre le problème "à l'envers" :

- Supposons qu'une balise donnée est transparente(resp. de saut ou dure)

- Les contextes de lecture sont-ils préservés ?

La balise est transparente (resp. de saut ou dure)

La balise n'est pas transparente (resp. de saut ou dure)

oui non

Le contexte de lecture




27/09/2006

51/42

- Balise transparente : un élément est transparent s'ilest possible de supprimer le balisage et d'obtenir untexte syntaxiquement correct.

Les élections aux <bold>Etats-Unis</bold> sont prévues pour 2008.

En 2004, les élections<note>Voir p. 163 un article général sur les modes électoraux.</note> aux Etats-Unis furent moins controversées

Définitions "linguistiques" (1/3)


Les élections aux Etats-Unis sont prévues pour 2008.

* En 2004, les élections Voir p. 163 un article général sur les

modes électoraux. aux Etats-Unis furent moins controversées.Classification des balises et contextes de lecture

Analyse des requêtes en langage naturelRecherche contextuelle

Expérimentations

27/09/2006

52/42

- Balise de saut : un élément est "de saut" s'il est possible dede le supprimer en entier (balises + contenu) et d'obtenir autour un texte syntaxiquement correct.



Les élections aux <bold>Etats-Unis</bold> sont prévues pour 2008.

En 2004, les élections<note>Voir p. 163 un article général sur les modes électoraux.</note> aux Etats-Unis furent moins controversées

* Les élections aux sont prévues pour 2008.

En 2004, les élections aux Etats-Unis furent moins controversées.



27/09/2006

53/42

- Balise dure : un élément "dur" n'est ni un élément transparent ni un élément "de saut".

<news> <item>Dernier sondage, à quatre jours des élections</item> <item>Aux Etats-Unis, une fausse alerte provoque la panique dans un avion</item></news>





27/09/2006

54/42

une classe correspond à un nom de balise, et non à une balise isolée. traitement statistique nécessité d'un large corpus

- Souvent les définitions s'appliquent au même élément.

- Une analyse syntaxique n'est pas efficace à 100 % pour le langage "courant".

- Dans certains cas, les définitions ne permettent pas de conclure.

<title><bold>Introduction</bold></title>

(need some text before OR after)

Les problèmes

<par>Napoléon<note>qui naquit en 1769</note> mourut à l'âge de 52 ans. </par>

Napoléon qui naquit en 1769 mourut à l'âge de 52 ans.

Napoléon mourut à l'âge de 52 ans.

Mais :

<par>For each <gras><tt>v</tt>(t)</gras> such as <it><tt>v</tt>(t)</it> = <it>n + t</i></par>

Classification automatique




27/09/2006

55/42

- Corpus d'INEX 2004- 12000 articles de l'IEEE.- 600 Mo.- 192 balises différentes.

- Analyse syntaxique avec Cass (S. Abney)

- Pour les balises transparentes- entre 50 et 70 % de validation pour les véritables balises transparentes. - entre 0 et 5 % de validation pour les autres balises.

- Pour les balises de saut et transparentes- un seuil de 20 % conduit à une précision proche de 100 %.

Expérimentations




27/09/2006

56/42

- XGTagger est un logiciel libre et gratuit.

- XGTagger utilise la classification et exécute sur des contenus XML tous types d'outils existant pour l'analyse textuelle.

- Il conserve la structure initiale des documents et ajoute de l'information grâce aux attributs XML.

XGTagger




27/09/2006

57/42

<article> <titre><w pos="V" id="1">Visitez</w> <w pos="PN" id="2">I</w> <pc><w pos="PN" id="2">stanbul</w></pc> </titre> <par> <w pos="DT" id="3">Cette</w> <w pos="JJ" id="4">ancienne</w> ………… <w pos="CD" id="7">trois</w> <w pos="NN" id="8">empires</w> <note> <w pos="PN" id="16">Istanbul</w> ……… </note> <w pos="V" id="9">est</w> ………….. </par></article>

Analyse textuelle(ex: étiquetage morphosyntaxique)

Contextes delecture

Visitez Istanbul -- Cette ancienne capitale de trois empires

VPN -- DT JJ NN INCD NN

Reconstitution

XGTagger (example)


<article> <titre>Visitez I<pc>stanbul</pc></titre> <par>Cette ancienne capitales de trois empires<note>Istanbul a

été successivement la capitale des empires romain, byzantinet ottoman</note> est désormais la capitale économique de la<gras>Turquie</gras>.

</par></article>

Visitez Istanbul -- Cette ancienne capitales de trois empires est désormais la capitale économique de la Turquie. -- Istanbul a été successivement la capitale des empires romain, byzantin et ottoman



27/09/2006

58/42

27/09/2006

59/42

La négation

• Pour les termes qui ne doivent PAS apparaître

• Report de la négation du verbe vers le complément

We are not interested in filtration

a e

a:(lem:filtration…)e:(lem:interest…)

in(e, a)neg(a)

Les spécificités de la RI semi-structurée Analyse syntaxique Règles sémantiques Construction de la requête

Introduction : les documents XMLAnalyse des requêtes en langage naturel

Recherche contextuelle

Expérimentations

27/09/2006

60/42

27/09/2006

61/42

Le langage XOR

Problématique Le langage XOR Recherche contextuelle avec XOR

(proposé avec Shlomo Geva et Marcus Hassler)

Les limites de NEXI

- prédicat 'about' seulement

- requêtes simples seulement

- aucune caractéristique supplémentaire


Les réponses de XOR

- prédicats génériques

- requêtes multiples

- extensions des chemins et mots-clés


OR//article[about(. , automobile)]

//p[about(. ,“navigation systems”)

- problème de négation - opérateur NOT

contains(), linkToAbout(), etc…

pas d'article sur le football à Saint-Etienne

-football -Saint-Etienne ?-"football Saint-Etienne" ?

pas d'article sur le football à Saint-Etienne

NOT about(., football Saint-Etienne)

about(., été{cat:nn})//*{taille_min:200}[about(., …)]NEXI est compatible avec XOR



27/09/2006

62/42

a paragraph about navigation systems for automobiles//p[about(. , navigation systems for automobiles)]

Modification de la requête

un paragraphe sur "navigation systems" dans un article sur "automobiles"


perte de précision




27/09/2006

63/42

a paragraph about navigation systems for automobiles GN1 PREP GN2


OR

//article[about(. , “navigation systems”)]//p[about(. , automobile)

OR

//article//p[about(. , automobile) AND about(. ,“navigation systems”)]

Recherche contextuelle avec XOR

Problématique Le langage XOR Recherche contextuelle avec XOR

<article title="… automobiles …"> <paragraph> … … … … </paragraph> <paragraph> … navigation systems … </paragraph> … </article>


<article> <paragraph> … </paragraph> <paragraph> … … … navigation systems … … automobiles … … … </paragraph> </article>

• hypothèse : gain de rappel et pas de perte de précision

• généralisé pour GN (PREP GN)+ (GN1 PREP GN2 PREP GN3, etc.)



27/09/2006

64/42

• Métriques d'INEX [Kazai et Lalmas 04]

– gain cumulé normalisé étendu (nxCG[n]) : compare le gain du système avec le gain d'un système idéal au bout de n éléments consultés

– effort-précision / gain-rappel : courbe évaluant l'effort que doit fournir l'utilisateur pour parvenir à un certain gain

• Jugements de pertinence des éléments fournis par INEX

Méthodologie : métriques





"run""run"