21
Copyright © 2004-2007 Yves Marcoux - Reproduction interdi te 1 BLT6052 Informatique documentaire NatQuest Pro: un logiciel de recherche en texte intégral (LRTI)

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite1 BLT6052 Informatique documentaire NatQuest Pro: un logiciel de recherche en texte intégral

Embed Size (px)

Citation preview

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 1

BLT6052 Informatique documentaire

NatQuest Pro:un logiciel de recherche en texte

intégral (LRTI)

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 2

NatQuest versus recherche textuelle de Windows et Office

• NatQuest appelle document l’unité documentaire indexée et repérée

• Parfois, 1 document = 1 fichier: dans les cas où on ne spécifie pas de séparateur de documents

• Si on spécifie un séparateur de documents, alors 1 fichier contient plusieurs documents

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 3

(suite)

• La recherche est toujours indexée (donc, rapide), jamais séquentielle

• L'antidictionnaire est modifiable séparément pour chaque base

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 4

(suite)

• Fait un meilleur travail pour extraire les contenus textuels (filtres)

• La recherche ignore les signes diacritiques (accents, cédilles, etc.)

• On peut visualiser l'index au moment de composer les requêtes de recherche, on voit donc quels mots se trouvent vraiment dans les documents indexés

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 5

(suite)

• Par défaut, les résultats d'une recherche sont triés par « ordre de pertinence estimée », ordre basé sur le nombre de termes de recherche présents dans le document et leur proximité

• Si on demande explicitement un autre ordre de tri ou s'il y a un opérateur explicite (autre chose qu'un OU), l'ordre de pertinence estimé n'est pas utilisé

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 6

(suite)

• À partir de l'affichage des résultats d'une recherche, on peut « entrer à l'intérieur » des documents repérés:– Les termes recherchés sont mis en évidence– On peut naviguer d'un document repéré à

l'autre, et d'une occurrence à l'autre des termes recherchés

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 7

Création d'index parNatQuest Pro

• Références:– Protocole TP2 (§1.1 et p.33 « Processus

d’indexation, antidictionnaire »)– Appendice B du cahier de protocoles

(Construction d’index par NatQuest Pro)

• Les deux fichiers indexés sont les fichiers texte suivants:– commu1.xml.txt– commu2.xml.txt

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 8

(suite)

• Dans le second index:– Le mot "communique" n'apparaît plus car la

chaîne "<Communiqué>" sert maintenant de séparateur de documents (et que le mot "communique" n'apparaît pas ailleurs dans les fichiers)

– Certains nombres de documents sont plus élevés que dans le premier index

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 9

Opérateurs de recherche de NatQuest

• Pluriels simples automatiques– Cette fonction est active par défaut, mais peut

être désactivée– Dans les deux directions: chat recherche

aussi chats, et chats recherche aussi chat– Limité au pluriels réguliers: cheval

recherchera aussi chevals– Insensible au sens des mots: tracas (ennui)

recherchera aussi traça (du verbe tracer)

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 10

Caractères génériques

* troncature– représente 0 caractères ou plus– peut être utilisé à droite et/ou à gauche et/ou

à l'intérieur d'un terme de recherche

? masque– représente exactement 1 caractère– peut être utilisé n'importe où dans un terme

de recherche

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 11

Autres opérateurs de recherche

• Voir protocole du TP 2– Opérateurs booléens OU, ET, SAUF:

«  », « & », « - »(le OU est implicite: un simple espace)

– Intervalle: 1985@2025– Distance: nw– Recherche d’expression: guillemets ou

adjacence (adj)• adj est exactement équivalent à 0w

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 12

Divers

• L’opérateur de distance (nw) tient compte de l’ordre des mots– L’adjacence (adj) aussi

• Antidictionnaire– Fichier <nom-de-la-base>.NQS– Il s'agit d'un fichier texte ISO-8859-1 (ANSI)– Donc, modifiable dans le Bloc-notes

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 13

Bruit et silence

• Définitions: dans toute démarche de recherche d'information*– bruit = repérage d'information non pertinente– silence = non repérage d'information pertinente– peu de bruit = bonne précision– peu de silence = bon rappel

• N.B.: Seule la personne éprouvant le besoin d’information à l’origine de la démarche peut évaluer la pertinence

* Pas seulement avec un LRTI

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 14

(suite)

• Théoriquement, il est possible qu'une modification à une démarche de recherche (ex.: modifier une requête de recherche) augmente à la fois le rappel et la précision

• En pratique, toutefois, une mesure prise pour augmenter le rappel (ex.: changer un "ET" booléen par un "OU" booléen) diminue souvent la précision, et vice-versa

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 15

Délimiteurs de champs

• Si les documents contiennent des délimiteurs de champs, on peut les "déclarer" à NatQuest avant l'indexation

• En plus de noter dans l'index la position de chaque occurrence de mot, NatQuest notera aussi le nom du champ dans lequel cette occurrence survient

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 16

(suite)

• Il est alors possible (mais non obligatoire) de limiter la recherche de certains termes à un champ précis (voir protocole TP2 pour détails)

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 17

Recherche en langue naturelle?

• Comment NatQuest arrive-t-il à donner l'impression de "comprendre" les requêtes en langue naturelle?– pluriels simples automatiques– élimination des mots vides de la requête– OU booléen implicite entre les termes de

recherche– tri des résultats par ordre de pertinence

estimée

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 18

Notes sur les opérateurs booléens

• "ET" et "OU" dans la langue courante n'ont pas toujours la même signification qu'en logique booléenne:– Pour avoir "tout ce qui s'est publié au Québec

et en France" il faut utiliser un "OU" booléen sur le lieu de publication

– En logique booléenne, le "OU" est toujours inclusif (et non exclusif): "chien OU chat" veut dire "chien" ou "chat" ou les deux!

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 19

Notes sur l’antidictionnaire

• S'il est trop vide:– L'index est encombré de mots inutiles– Avec NatQuest: ces mots inutiles vont causer

du bruit dans les requêtes en langue naturelle

• S'il est trop plein, risque de silence, dû à:– Problèmes d'homographie– Problèmes de polysémie– Problèmes aggravés par l'élimination des

signes diacritiques

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 20

(suite)

• Problèmes d'homographie– Deux mots différents s'écrivent de la même

façon, mais un seul nous intéresse• thé (breuvage) vs the (article anglais)• lis (verbe lire) vs lis (fleur) vs LIS

(Library & Information Studies)• mille (nombre) vs mille (distance)• enceinte (acoustique) vs (femme) enceinte

Copyright © 2004-2007 Yves Marcoux - Reproduction interdite 21

(suite)

• Problèmes de polysémie– Un même mot a plusieurs sens, dont un seul

nous intéresse• table (de logarithmes) vs table (d'opération)• travail (en relations industrielles) vs travail (en

obstétrique)• laser (appareil optique) et laser (marque de voilier)

• Homographie et polysémie affectent la recherche en général, pas seulement les choix de mots vides