64
Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure des Mines de Saint-Etienne 27 septembre 2006

Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

Embed Size (px)

Citation preview

Page 1: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

Extraction et recherche d'information

en langage naturel

dans les documents semi-structurés

Soutenance de thèse

Xavier Tannier

Ecole Nationale Supérieure des Mines de Saint-Etienne

27 septembre 2006

Page 2: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

2/42

– Analyse syntaxique– Règles sémantiques– Construction de la requête

• Interface de requêtes en langage naturel

Plan

• Les documents XML et la recherche d'information

• Recherche contextuelle

• Expérimentations– Méthodologie– Résultats avec NEXI et XOR– Conclusion

– Problématique– Recherche contextuelle avec XOR

– Les documents semi-structurés (XML)– Les spécificités de la RI semi-structurée– Les interfaces de requêtes en langage naturel

Page 3: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

3/42

<article titre=“Un exemple d'article” auteur=“Dupont et Dupond” > <section>

<par> Le travail d'Untel <ref>Untel03</ref>, illustré par la figure <fig>fig1</fig>, ainsi que mes propres <gras>expérimentations</gras> conduites en 2002, semblent montrer…

</par> </section> <bibliographie> <bib id=“Untel03” auteur=“Untel” titre=“Voici mon travail”/> </bibliographie> …</article>

balise d'emphase

XML orienté document

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes

Page 4: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

4/42

XML orienté document

article

titre auteur section bibliographie

Un exemple d'article

Dupont et Dupond

par …

bib …

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes

Page 5: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

5/42

<agenda> <personne nom=“Nougaro” prénom=“Claude”> <numéro type=“mobile”>06 79 30 94 29</numéro> <numéro type=“fixe” >05 62 39 92 04</numéro> <adresse> <n>19</n> <rue>quai Saint-Pierre</rue> <code_postal>31000 </code_postal> <ville>Toulouse</ville> </adresse> </personne>…

(par opposition aux documents orientés documents)

XML orienté données

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes

Page 6: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

6/42

Recherche d'information

Analyse des documents

(1.)

Analyse du

besoin

(2.)

fonction desimilarité

résultats

<article titre=“Un exemple d'article” auteur=“Dupont et Dupond” > <section> <par>Le travail d'Untel <ref>Untel03</ref>, illustré par la figure <fig>fig1</fig>, ainsi que mes <b>expérimentations</b> conduites en 2002, semble montrer…</par> </section> <bibliographie> <bib id=“Untel03” auteur=“Untel” titre=“Voici mon travail”/> </bibliographie> …</article>

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes

Page 7: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

7/42

Les spécificités de la RI semi-structurée

• L'unité d'information pertinente– document entier vs. élément XML (doxel)– exhaustivité et spécificité

• Recherche sur contenu et structure

d46.d25.d94.d53.d32.d61.

d4d2d9d3d3d6

/sec[3]/sec[5]/table[2]

/resume[1]/bib/item[4]

/sec[2]/p[4]/fig[1]/sec[3]/p[2]

6.5.4.3.2.1.

RI "plate" RI semi-structurée

1. d62. d33. d54. d9

1. d6 /sec[3]/p[2]2. d3 /sec[2]/p[4]/fig[1]3. d3 /bib/item[4]4. d9 /resume[1]

RI "plate" RI semi-structurée

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes

Page 8: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

8/42

Une figure montrant un sondage dans un article sur l'élection de 2007.

<article titre = “Ségo et Sarko sont dans un bateau”> <paragraphe> En 2007, les Français éliront un nouveau président … … </paragraphe> <paragraphe> …

<figure n=“7” caption="Dernier sondage"> Sarkozy : 30 % Royal : 30 % de Villepin : 0.2 % Hollande : 0.12 % </figure>

</paragraphe> … </article>

<figure n=“7” caption="Dernier sondage"> Sarkozy : 30 % Royal : 30 % de Villepin : 0.2 % Hollande : 0.12 %

</figure>

Structure et Contenu

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes

Page 9: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

9/42

<article titre = “Saint-Etienne”> <paragraphe> … musée d'Art Moderne … </paragraphe> <paragraphe> … biennale du Design … </paragraphe> … </article>

Que faire à Saint-Etienne ?

<article titre = “Les villes de France”> <paragraphe> … </paragraphe> <paragraphe> … Saint-Etienne … mines … histoire … culture … </paragraphe> … </article>

<article titre = “Guide des vacances au calme”> <paragraphe> … </paragraphe> <figure légende="listes des activités possibles à Saint-Etienne"> Balades Musées Cinéma C'est tout </figure> </article>

Structure et Contenu

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes

Page 10: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

10/42

Les spécificités de la RI semi-structurée

• L'unité d'information pertinente– document entier vs. élément XML (doxel)– exhaustivité et spécificité

• Recherche sur contenu et structure– besoin de langages de requêtes structurés– NEXI

• Interprétation de la requête– stricte pour les bases de données (documents orientés données)– vague pour la recherche d'information //article[about(.//res, "spécialités Sud-Ouest")]//par[about(., magret)]

Support Cible

1. d62. d33. d54. d9

1. d6 /sec[3]/p[2]2. d3 /sec[2]/p[4]/fig[1]3. d3 /bib/item[4]4. d9 /resume[1]

RI "plate" RI semi-structurée

//article[about(.//abs, "spécialités Sud-Ouest")]//par[about(., magret)]

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes

Page 11: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

11/42

Documents plats XML Bases de données

contenu : texte seulement balises + texte structure + donnée

unité de RI : document entier élément -

besoin : texte seulement texte et structure

requête : mots-clés langage de requête structuré

interprétation : vague vague stricte

trop compliqué pour les utilisateurs occasionnels

besoin de connaître la structure (DTD) du document

pas de réponse "idéale"

interpréter la requête fait partie intégrante du processus

on peut espérer construire des requêtes meilleures

Motivation pour les interfaces en LN

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes

confort

performances

Page 12: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

12/42

Les enjeux

• Les besoins– Structure et contenu– Robustesse (toujours retourner un résultat)– Généricité (dépendance vis-à-vis de la collection)– Simplicité

• Les libertés– Compréhension la requête (≠ bases de données)– Indépendance des requêtes– Courtoisie de l'utilisateur

pas de calculs (fréquences, maximum, moyennes), de jointure, de restructuration des résultats

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes

• Les buts– Confort– Performance comparable

Page 13: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

13/42

L'approche de Woodley et Geva [2004]

• Patrons sémantiques (template matching)

Find figures …//fig

<ELEMENT> + <RELATION> + <TEXTE> "//<ELEMENT>[about(., <TEXTE>)]"

sections containing something

//sec[about(., something)]

<INSTRUCTION> + <ELEMENT> "//<ELEMENT>"• Avantages :– Efficacité (en temps de calcul)– Pas d'ambiguïté

• Limites :– Seulement les constructions prévues à l'avance– Peu robuste– Difficile à adapter– Pas de constructions "implicites"

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes

un article qui cite un autre article bibliographie

Page 14: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

14/42

Plan (rappel)

– Analyse syntaxique– Règles sémantiques– Construction de la requête

• Interface de requêtes en langage naturel

• Les documents XML et la recherche d'information

• Recherche contextuelle

• Expérimentations

Page 15: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

15/42

Architecture générale

analysesyntaxique

règlessémantiques

constructionde la

requête

requête en langage naturel

requête en NEXI

première représentation (syntaxique)

deuxième représentation (sémantique)

Indépendante de la collection

Dépendantes de la collection

Page 16: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

16/42

Analyse syntaxique

Analyse syntaxique Règles sémantiques Construction de la requête

We are searching paragraphs dealing with management

NNINV(ger)NNVPP

NP NP

VP

NP

VP

NP

S

NP → DET? NNNP → PP

NP → NP VP(ger)

VP → V IN? NP

S → NP VP… → …

We are searching paragraphs dealing with version managementin articles about object databases.

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 17: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

17/42

We are searching paragraphs dealing with version managementin articles about object databases.

a b c d e1 e2

a : (paragraph, sym:paragraphs, cat:nn, tag:p)b : (version management, cat:np)c : (article, sym:articles, cat:nn, tag:article)d : (object databases, cat:np)e1 : (search, sym:are searching, cat:v)e2 : (deal, sym:dealing, cat:v)

objet(e1, a)sujet(e2, a)with(e2, b)in(a, c)about(c, d)

elements

valeurs

relations

cibles

Analyse syntaxique : représentation

Valeurs :

lemmetermes initiaux

catégorie

balisecat:np

cat:np

NP (JJ | NN)+ NN

NP PN (IN? PN)+

Relations :

sujet, objet…

in, with, of, on, …

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Analyse syntaxique Règles sémantiques Construction de la requête

Page 18: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

18/42

We are searching paragraphs dealing with version managementin articles about object databases.

a b c d e1 e2

a : (paragraph, tag:p)b : (version management)c : (article, tag:article)d : (object databases)e1 : (search)e2 : (deal)

objet(e1, a)sujet(e2, a)with(e2, b)in(a, c)about(c, d)

elements

valeurs

relations

cibles

VP

NP

a, b, e2

a : (paragraph, cat:nn, tag:p)b : (management, cat:nn)e2 : (deal, cat:v)

with(e2, b)sujet(e2, a)

Analyse syntaxique

dealing with managementNNINV(ger)

b

b : (management, cat:nn)

with(?, ?)

e2

e2 : (deal, cat:v)

b, e2

b : (management, cat:nn)e2 : (deal, cat:v)

with(e2, b)

a

a : (paragraph, cat:nn, tag:p)

dealing with managementparagraphs

NN

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Analyse syntaxique Règles sémantiques Construction de la requête

Page 19: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

19/42

We are searching paragraphs dealing with version managementin articles about object databases.to search + <objet>

to deal + <with>

valeurs

relations

cibles

ae1 : (search)

objet(e1, a)

a

a

a : (tag:_)be2 : (deal)

sujet(e2, a)with(e2, b)

ab

about(a, b)

valeurs

relations

cibles

a b c d

a : (paragraph, tag:p)b : (version management)c : (article, tag:article)d : (object databases)

about(a, b)in(a, c)about(c, d)

a

Règles sémantiques

a b c d e1 e2

a : (paragraph, tag:p)b : (version management)c : (article, tag:article)d : (object databases)e1 : (search)e2 : (deal)

objet(e1, a)sujet(e2, a)with(e2, b)in(a, c)about(c, d)

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Analyse syntaxique Règles sémantiques Construction de la requête

Page 20: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

20/42

- Détection de la cible :find <objet>, look <for>, …

- Relations verbales :speak <about>, concern <objet>, precede <objet>, …

- Relations prépositionnelles :<with>, <in>, <about>

a : (tag:_)be : (cite)

sujet(e, a)objet(e, b)

abc (tag:bib)

about(c, b)

valeurs

relations

cibles

an article that cite … an article citing

- <sujet> cite <objet>

• Règles dépendant de la structure

- introduction

• Règles "fixes"

- <tag> <by>

a : (tag:_)b

by(a, b)

abc (tag:au)

about(c, b)

valeurs

relationscibles

an article by …

Règles sémantiques

a:(introduction) ab (tag:sec)c (tag:st)

includes(b, c)about(c, a)

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Analyse syntaxique Règles sémantiques Construction de la requête

Page 21: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

21/42

Désambiguïsation syntaxique

• par le nombre de règles

Les règles permettent la désambiguïsation syntaxique

• par leurs modalités d'application

Trouvez un article sur Napoléon qui cite Max Gallo

<article> citer <objet>

Je cherche des sections sur les impressionnistesdans des articles sur la peinture

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Analyse syntaxique Règles sémantiques Construction de la requête

Page 22: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

22/42

(sujet) citer (objet)(dans) citer (objet)

Modèle de la collection

article bib

un élément bibliographique

un article un élément bibliographique

un articleest cité par

est cité dans

cite

au article

(par)(de)

écrirepublier

un auteur

un article un auteur

un articlepublieécrit

depar

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Analyse syntaxique Règles sémantiques Construction de la requête

Page 23: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

23/42

vita

être

yr

(obj

et) p

ublie

r (da

ns)

ti

(dans) publier (objet)

publier .

(de)

Modèle de la collection

bib(sujet) citer (objet)

(dans) citer (objet)écrirepublier

au article

(par)(de)

abs

résumer

atl

intit

uler

(de)

(objet) publier (dans)

ack remercier

st

sec

intituler

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Analyse syntaxique Règles sémantiques Construction de la requête

Page 24: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

24/42

We are searching paragraphs dealing with version managementin articles about object databases.

//article[about(., "object databases")]

//p[about(., "version management")]

//article[about(., "object databases")]//p[about(., "version management")]

Obtention de la requête finale (NEXI)

a b c d e1 e2

a : (paragraph, tag:p)b : (version management)c : (article, tag:article)d : (object databases)e1 : (search)e2 : (deal)

objet(e1, a)sujet(e2, a)with(e2, b)in(a, c)about(c, d)

a b c d

a : (paragraph, tag:p)b : (version management)c : (article, tag:article)d : (object databases)

about(a, b)in(a, c)about(c, d)

a

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Analyse syntaxique Règles sémantiques Construction de la requête

Page 25: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

25/42

Plan (rappel)

• Interface de requêtes en langage naturel

• Les documents XML et la recherche d'information

• Recherche contextuelle

• Expérimentations

– Problématique– Recherche contextuelle avec XOR

Page 26: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

26/42

Source majeure d'erreurs pour les moteurs de recherche :

ex. : Navigation systems for automobiles (Top. 128, INEX 2004)

Beaucoup d'éléments bien classés concernaient navigation systems for planes or ships…

Pourquoi ?

NP NP (PREP NP)+

automobile est le contexte, et le terme n'apparaît pas dans les

éléments les plus profonds.

article

abs intro sec

p

ss1

automobilesplanesships

navigation systems

Problématique

Problématique Recherche contextuelle avec XOR

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 27: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

27/42

<article title="… automobiles …"> <paragraph> … … … … </paragraph> <paragraph> … navigation systems … </paragraph> … </article>

a paragraph about navigation systems for automobiles//p[about(. , navigation systems for automobiles)]

<article> <abstract> … navigation systems … </abstract> <paragraph> … automobiles … </paragraph> … </article>

<article> <paragraph> … </paragraph> <paragraph> … … … navigation systems … … automobiles … … … </paragraph> </article>

Problématique

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Problématique Recherche contextuelle avec XOR

Page 28: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

28/42

Pondération d'un élément avec le score du document

La rétro-propagation [Sigurbjörnsson et al]

<article> <abstract> … navigation systems … </abstract> <paragraph> … automobiles … </paragraph> … </article>

se

Sd

Se = f (Sd , se )

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Problématique Recherche contextuelle avec XOR

//p[about(. , navigation systems for automobiles)]

Page 29: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

29/42

a paragraph about navigation systems for automobiles GN1 PREP GN2

//article[about(. , automobile)]//p[about(. ,“navigation systems”)

OR

//article[about(. , “navigation systems”)]//p[about(. , automobile)

OR

//article//p[about(. , automobile) AND about(. ,“navigation systems”)]

Recherche contextuelle avec XOR

• hypothèse : gain de rappel et pas de perte de précision

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

• impossible avec NEXI

XOR (XML Oriented Language), proposé avec Shlomo Geva et Marcus Hassler

Problématique Recherche contextuelle avec XOR

Page 30: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

30/42

… PAS d'article sur le football à Saint-Etienne GN1 PREP GN2

//article[… AND NOT about(. , football Saint-Etienne)]

Recherche contextuelle et négation

Exception pour la négation

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Problématique Recherche contextuelle avec XOR

Page 31: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

31/42

Plan (rappel)

• Interface de requêtes en langage naturel

• Les documents XML et la recherche d'information

• Recherche contextuelle

• Expérimentations– Méthodologie– Résultats avec NEXI et XOR– Conclusion

Page 32: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

32/42

• INEX (depuis 2002) : ensemble de requêtes avec une description en Anglais et une expression NEXI manuelle, avec des jugements de pertinence

• Les requêtes automatiques et manuelles sont exécutées avec le même moteur de recherche E (GPX).

• Comparaison entre l'interface et les requêtes manuelles.

EENEXI / XORNEXI / XOR

NEXI (manuel)NEXI (manuel)

DescriptionDescription(langage (langage naturel)naturel)

"baseline""baseline"

"run""run"

Méthodologie

Méthodologie Résultats Conclusion

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 33: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

33/42

• Métriques d'INEX [Kazai et Lalmas 04]

– mesures spécifiques à la recherche XML– gain cumulé normalisé étendu (nxCG[n]) rappel– effort-précision / gain-rappel précision

• Jugements de pertinence des éléments fournis par INEX

Méthodologie : métriques

EENEXI / XORNEXI / XOR

NEXI (manuel)NEXI (manuel)

DescriptionDescription(langage (langage naturel)naturel)

"baseline""baseline"

"run""run"

Méthodologie Résultats Conclusion

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 34: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

34/42

• Content and Structure : requêtes avec des indications de structure– VVCAS– VSCAS– SVCAS– SSCAS

• Content Only : requêtes sans indications de structure– Focussed : chevauchement interdit– Thorough : chevauchement autorisé– Fetch and Browse : article puis liste d'éléments dans cet article

Différentes tâches (2005)

Différence de traitement (vague ou strict) des contraintes structurelles du support ou de la cible

//article[about(.//abs, "spécialités Sud-Ouest")]//par[about(., magret)]

Méthodologie Résultats Conclusion

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 35: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

35/42

Résultats (VVCAS)

"Baseline"NEXI simpleXOR avec recherche contextuelle

Méthodologie Résultats Conclusion

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 36: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

36/42

Résultats (autres CAS)

"Baseline"NEXI simpleXOR avec recherche contextuelle

Méthodologie Résultats Conclusion

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 37: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

37/42

Résultats (CO.Thorough)

"Baseline"NEXI simpleXOR avec recherche contextuelle

Méthodologie Résultats Conclusion

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 38: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

38/42

Résultats (autres CO)

"Baseline"NEXI simpleXOR avec recherche contextuelle

Méthodologie Résultats Conclusion

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 39: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

39/42

Influence du regroupement en NP

"Baseline"NEXI simpleNEXI sans les NP

Méthodologie Résultats Conclusion

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 40: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

40/42

Résultats : conclusion

Méthodologie Résultats Conclusion

• Evaluation très positive : - le langage naturel est une alternative viable- la structure des requêtes est une aide à l'analyse

• Bons résultats pour les requêtes CAS, moins bons pour les CO.

- traduction mentale des humains pas toujours appropriée- utilisation organisée des groupes nominaux plus efficace- trop de bruit pour les questions longues

• Recherche contextuelle - améliore les bons résultats- utile avec une analyse bien maîtrisée

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 41: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

41/42

Conclusion générale

• Confrontation des techniques de TAL et de la problématique des documents semi-structurés :

– Analyse textuelle des contenus XML– Analyse de requêtes en langage naturel– Utilisation de la structure pour la recherche contextuelle

• Résultats expérimentaux à chaque étape

• Validité des approches confirmée

Page 42: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

42/42

Améliorations

• Intégration des techniques "classiques" de TAL

• Amélioration du comportement du système face aux questions "difficiles"

• Simplification de la gestion des règles sémantiques

Page 43: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

43/42

Perspectives

• Application d'autres techniques de traitement de la langue

• Collections hétérogènes

• Dialogue

• Question-réponse

• Synthèse automatique

• Gestion des connaissances (Semantic Web…)

Page 44: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

Merci !

Page 45: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

45/42

- "hard" tags : interrompent la linéarité du texte. ex: titres, chapitres, paragraphes

- "soft" tags : identifient des parties significatives de texte, maisrestent "transparents" à la lecture.

ex: gras, italiques, souligné

- "jump" tags : elements particuliers, comme les notes de marges, les citations, les définitions…

<tag>texte A</tag><tag>texte B</tag>

texte A <gras>texte B</gras> texte C

texte A<note>texte B</note> texte C

proximité physique ≠ proximité logique

Classification des balises [Lizi et al., 2001]

Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger

Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 46: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

46/42

<news> <item>Dernier sondage, à quatre jours des élections</item> <item>Aux Etats-Unis, une fausse alerte provoque la panique dans un avion</item></news>

Recherche du motif "Elections aux Etats-Unis"

Balises dures

Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger

Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 47: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

47/42

<par> Les élections aux <gras>Etats-Unis</gras> sont prévues pour l'année 2008. </par>

<titre> Les commentaires de Noam Chomsky au sujet des <gras>élections</gras> aux <italiques>Etats-Unis</italiques>. </titre>

Balises transparentes

Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger

Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 48: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

48/42

<transcription_orale> Les nouvelles ne parlent plus que des élections aux Etats- <commentaire>une porte claque</commentaire>Unis.</transcription_orale>

<paragraphe> En 2004, les élections<note>Voir p.163 un article général sur les modes électoraux dans le monde.</note> aux Etats-Unis furent moins controversées qu'en 2000. </paragraphe>

<résumé> Cet article traite du prochain voyage du président roumain <nbp>Traian Basescu, qui a remporté de justesse les dernières élections</nbp> aux Etats-Unis.</résumé>

Balises de saut

Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger

Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 49: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

49/42

En 2004, les élections<note>Voir p.163 un article général sur les modes électoraux dans le monde.</note> aux Etats-Unis furent moins controversées

• Une portion de texte syntaxiquement et sémantiquement auto-suffisante dans le document XML.

• Connaître la nature des balises permet de retrouver les contextes de lecture.

• C'est la condition pour permettre l'utilisation des méthodes d'analyse textuelle sur le contenu XML(étiquetage POS, analyse syntaxique/sémantique, indexation, etc.)

Le contexte de lecture

Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger

Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 50: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

50/42

• Détermination automatique des classes

• L'idée est de prendre le problème "à l'envers" :

- Supposons qu'une balise donnée est transparente(resp. de saut ou dure)

- Les contextes de lecture sont-ils préservés ?

La balise est transparente (resp. de saut ou dure)

La balise n'est pas transparente (resp. de saut ou dure)

oui non

Le contexte de lecture

Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger

Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 51: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

51/42

- Balise transparente : un élément est transparent s'ilest possible de supprimer le balisage et d'obtenir untexte syntaxiquement correct.

Les élections aux <bold>Etats-Unis</bold> sont prévues pour 2008.

En 2004, les élections<note>Voir p. 163 un article général sur les modes électoraux.</note> aux Etats-Unis furent moins controversées

Définitions "linguistiques" (1/3)

Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger

Les élections aux Etats-Unis sont prévues pour 2008.

* En 2004, les élections Voir p. 163 un article général sur les

modes électoraux. aux Etats-Unis furent moins controversées.Classification des balises et contextes de lecture

Analyse des requêtes en langage naturelRecherche contextuelle

Expérimentations

Page 52: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

52/42

- Balise de saut : un élément est "de saut" s'il est possible dede le supprimer en entier (balises + contenu) et d'obtenir autour un texte syntaxiquement correct.

Définitions "linguistiques" (2/3)

Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger

Les élections aux <bold>Etats-Unis</bold> sont prévues pour 2008.

En 2004, les élections<note>Voir p. 163 un article général sur les modes électoraux.</note> aux Etats-Unis furent moins controversées

* Les élections aux sont prévues pour 2008.

En 2004, les élections aux Etats-Unis furent moins controversées.

Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 53: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

53/42

- Balise dure : un élément "dur" n'est ni un élément transparent ni un élément "de saut".

<news> <item>Dernier sondage, à quatre jours des élections</item> <item>Aux Etats-Unis, une fausse alerte provoque la panique dans un avion</item></news>

Définitions "linguistiques" (3/3)

Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger

Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 54: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

54/42

une classe correspond à un nom de balise, et non à une balise isolée. traitement statistique nécessité d'un large corpus

- Souvent les définitions s'appliquent au même élément.

- Une analyse syntaxique n'est pas efficace à 100 % pour le langage "courant".

- Dans certains cas, les définitions ne permettent pas de conclure.

<title><bold>Introduction</bold></title>

(need some text before OR after)

Les problèmes

<par>Napoléon<note>qui naquit en 1769</note> mourut à l'âge de 52 ans. </par>

Napoléon qui naquit en 1769 mourut à l'âge de 52 ans.

Napoléon mourut à l'âge de 52 ans.

Mais :

<par>For each <gras><tt>v</tt>(t)</gras> such as <it><tt>v</tt>(t)</it> = <it>n + t</i></par>

Classification automatique

Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger

Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 55: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

55/42

- Corpus d'INEX 2004- 12000 articles de l'IEEE.- 600 Mo.- 192 balises différentes.

- Analyse syntaxique avec Cass (S. Abney)

- Pour les balises transparentes- entre 50 et 70 % de validation pour les véritables balises transparentes. - entre 0 et 5 % de validation pour les autres balises.

- Pour les balises de saut et transparentes- un seuil de 20 % conduit à une précision proche de 100 %.

Expérimentations

Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger

Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 56: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

56/42

- XGTagger est un logiciel libre et gratuit.

- XGTagger utilise la classification et exécute sur des contenus XML tous types d'outils existant pour l'analyse textuelle.

- Il conserve la structure initiale des documents et ajoute de l'information grâce aux attributs XML.

XGTagger

Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger

Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 57: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

57/42

<article> <titre><w pos="V" id="1">Visitez</w> <w pos="PN" id="2">I</w> <pc><w pos="PN" id="2">stanbul</w></pc> </titre> <par> <w pos="DT" id="3">Cette</w> <w pos="JJ" id="4">ancienne</w> ………… <w pos="CD" id="7">trois</w> <w pos="NN" id="8">empires</w> <note> <w pos="PN" id="16">Istanbul</w> ……… </note> <w pos="V" id="9">est</w> ………….. </par></article>

Analyse textuelle(ex: étiquetage morphosyntaxique)

Contextes delecture

Visitez Istanbul -- Cette ancienne capitale de trois empires

VPN -- DT JJ NN INCD NN

Reconstitution

XGTagger (example)

Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger

<article> <titre>Visitez I<pc>stanbul</pc></titre> <par>Cette ancienne capitales de trois empires<note>Istanbul a

été successivement la capitale des empires romain, byzantinet ottoman</note> est désormais la capitale économique de la<gras>Turquie</gras>.

</par></article>

Visitez Istanbul -- Cette ancienne capitales de trois empires est désormais la capitale économique de la Turquie. -- Istanbul a été successivement la capitale des empires romain, byzantin et ottoman

Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 58: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

58/42

Page 59: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

59/42

La négation

• Pour les termes qui ne doivent PAS apparaître

• Report de la négation du verbe vers le complément

We are not interested in filtration

a e

a:(lem:filtration…)e:(lem:interest…)

in(e, a)neg(a)

Les spécificités de la RI semi-structurée Analyse syntaxique Règles sémantiques Construction de la requête

Introduction : les documents XMLAnalyse des requêtes en langage naturel

Recherche contextuelle

Expérimentations

Page 60: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

60/42

Page 61: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

61/42

Le langage XOR

Problématique Le langage XOR Recherche contextuelle avec XOR

(proposé avec Shlomo Geva et Marcus Hassler)

Les limites de NEXI

- prédicat 'about' seulement

- requêtes simples seulement

- aucune caractéristique supplémentaire

//article[about(. , automobile)]//p[about(. ,“navigation systems”)

Les réponses de XOR

- prédicats génériques

- requêtes multiples

- extensions des chemins et mots-clés

//article[about(. , automobile)]//p[about(. ,“navigation systems”)

OR//article[about(. , automobile)]

//p[about(. ,“navigation systems”)

- problème de négation - opérateur NOT

contains(), linkToAbout(), etc…

pas d'article sur le football à Saint-Etienne

-football -Saint-Etienne ?-"football Saint-Etienne" ?

pas d'article sur le football à Saint-Etienne

NOT about(., football Saint-Etienne)

about(., été{cat:nn})//*{taille_min:200}[about(., …)]NEXI est compatible avec XOR

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 62: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

62/42

a paragraph about navigation systems for automobiles//p[about(. , navigation systems for automobiles)]

Modification de la requête

un paragraphe sur "navigation systems" dans un article sur "automobiles"

//article[about(. , automobile)]//p[about(. ,“navigation systems”)

perte de précision

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Problématique Recherche contextuelle avec XOR

Page 63: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

63/42

a paragraph about navigation systems for automobiles GN1 PREP GN2

//article[about(. , automobile)]//p[about(. ,“navigation systems”)

OR

//article[about(. , “navigation systems”)]//p[about(. , automobile)

OR

//article//p[about(. , automobile) AND about(. ,“navigation systems”)]

Recherche contextuelle avec XOR

Problématique Le langage XOR Recherche contextuelle avec XOR

<article title="… automobiles …"> <paragraph> … … … … </paragraph> <paragraph> … navigation systems … </paragraph> … </article>

<article> <abstract> … navigation systems … </abstract> <paragraph> … automobiles … </paragraph> … </article>

<article> <paragraph> … </paragraph> <paragraph> … … … navigation systems … … automobiles … … … </paragraph> </article>

• hypothèse : gain de rappel et pas de perte de précision

• généralisé pour GN (PREP GN)+ (GN1 PREP GN2 PREP GN3, etc.)

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations

Page 64: Extraction et recherche d'information en langage naturel dans les documents semi-structurés Soutenance de thèse Xavier Tannier Ecole Nationale Supérieure

27/09/2006

64/42

• Métriques d'INEX [Kazai et Lalmas 04]

– gain cumulé normalisé étendu (nxCG[n]) : compare le gain du système avec le gain d'un système idéal au bout de n éléments consultés

– effort-précision / gain-rappel : courbe évaluant l'effort que doit fournir l'utilisateur pour parvenir à un certain gain

• Jugements de pertinence des éléments fournis par INEX

Méthodologie : métriques

EENEXI / XORNEXI / XOR

NEXI (manuel)NEXI (manuel)

DescriptionDescription(langage (langage naturel)naturel)

"baseline""baseline"

"run""run"

Méthodologie Résultats Conclusion

Les documents XML et la recherche d'informationInterface de requêtes en langage naturel

Recherche contextuelleExpérimentations