Upload
said-radhouani-phd
View
3.806
Download
11
Embed Size (px)
DESCRIPTION
Information retrieval, search, vertical search, domain-specific search, faceted search, ontology, Description Logics, Medical Search, CLEF, precision-oriented search,
Citation preview
UNIVERSITE DE GENEVE UNIVERSITE JOSEPH FOURIER
Un modele de recherche d’information
oriente precision fonde sur les dimensions
de domaine
THESE
en co-tutelle presentee par
Saıd RADHOUANI
pour l’obtention des titres
Docteur es sciences economiques et sociales (Universite de Geneve)
Mention : Systemes d’Information
Docteur en informatique (Universite Joseph Fourier)
Composition du jury :
Monsieur Mohand BOUGHANEM, Universite de Toulouse
Madame Sylvie CALABRETTO, INSA Lyon
Messieurs Jean-Pierre CHEVALLET, IPAL Singapour, co-directeur de these
Yves CHIARAMELLA, Universite de Grenoble, co-directeur de these
Gilles FALQUET, Universite de Geneve, co-directeur de these
Dimitri KONSTANTAS, Universite de Geneve, president du jury
These No 671
Geneve, 2008
La Faculte des sciences economiques et sociales, sur preavis du jury, a autorise
l’impression de la presente these, sans entendre, par la, emettre aucune opinion sur
les propositions qui s’y trouvent enoncees et qui n’engagent que la responsabilite de
leur auteur.
Geneve, le 18 juillet 2008
Le doyen
Bernard MORARD
Impression d’apres le manuscrit de l’auteur.
c© Saıd Radhouani 2008. Tous droits reserves.
i
Remerciements
C’est un grand plaisir pour moi de remercier toutes les personnes qui ont permis
a ce travail d’etre ce qu’il est.
Je remercie tout d’abord M. Dimitri Konstantas qui m’a fait l’honneur de presider
le jury de cette these.
Je tiens ensuite a remercier Mme Sylvie Calabretto ainsi que M. Mohand Bou-
ghanem pour avoir accepte de rapporter mon travail de these, ainsi que pour l’interet
qu’ils ont manifeste a son egard.
Je tiens a adresser mes plus vifs remerciements a M. Yves Chiaramella de m’avoir
encadre pendant mon travail de these. Il a su me transmettre sa passion pour le do-
maine de la Recherche d’Information et je lui en suis profondement reconnaissant.
Je voudrais egalement remercier M. Jean-Pierre Chevallet d’avoir accepte de co-
diriger mon travail de these malgre les milliers de kilometres qui nous separaient. Sa
patience et ses nombreuses remarques tres pertinentes m’ont ete des plus precieuses
durant ce travail.
Durant ma these, j’ai eu la toute grande chance de connaıtre et de travailler avec
M. Gilles Falquet, un directeur de these exceptionnel tant pour ses competences
scientifiques que pour ses qualites humaines. Sans sa patience, sa disponibilite et son
appui de tous les instants, cette these n’aurait probablement jamais vu le jour. Je
lui en suis donc tres profondement reconnaissant.
Je remercie les membres du laboratoire IPAL-I2R, en particulier Dr. Joo-Hwee
Lim, pour leurs conseils et leurs soutiens tout au long de mon stage a Singapour.
Je remercie aussi les membres de l’equipe MRIM pour leurs remarques et leurs
questions pertinentes lors des reunions de travail.
Un grand merci a tous les membres du groupe ISI pour les moments agreables
ii
que l’on a toujours partages : les moments sympathiques passes a “La Petite Italie”,
les pauses the, les branches Cailler, les ecoles de printemps, et tellement d’autres
choses dont je ne peux faire la liste. Merci tout particulierement a Claire-Lise pour
sa disponibilite, son ecoute, et son soutien permanent. Merci a Jean-Pierre pour les
corrections multiples de mon manuscrit, et les discussions sur l’histoire et la physique
(dont les fameux trous noirs). Un grand merci a Jacques pour ses conseils et sa colla-
boration qui m’ont ete d’une grande utilite pendant mon travail et me seront d’une
grande utilite dans toute ma vie. Merci a Mathieu pour les longues discussions que
l’on a eues sur la logique descriptive. Merci aussi a Claudine, Gabriela, Jean-Claude,
Kaveh, Luka, Mustapha et Patrick pour toutes sortes de raisons qu’il serait trop long
d’enumerer ici.
Je remercie egalement Evelyne Kohl, Marie-France Culebras et Celine Marleix-
Bardeau pour leur soutien administratif, ainsi que Daniel Agulleiro et Nicolas Mayen-
court, Ingenieurs systeme du CUI, pour leur disponibilite permanente.
Je tiens a adresser mes plus sinceres remerciements a toute la famille Falquet en
temoignage de ma profonde reconnaissance pour son hospitalite, son encouragement
et son soutien permanent tout au long de mon sejour a Geneve.
Je remercie mon oncle Mustapha Kouki en reconnaissance de son interminable
encouragement et de ses precieux conseils.
Je remercie egalement mon instituteur M. Othman Bouzidi, a qui je dois tout ce
que je suis.
Je tiens a remercier mon cousin Badra pour son soutien pendant mon sejour en
France.
Mes sinceres remerciements a Jonas pour sa comprehension, son soutien, et sa
patience en partageant mes periodes difficiles.
Je tiens a remercier toute ma famille pour son encouragement constant ; avec une
mention speciale a mes parents en temoignage de ma profonde reconnaissance pour
leur patience et tous les sacrifices qu’ils ont consentis a mon egard. Un grand merci
iii
a Radhouane, Haykel, Marouane et l’adorable Amira pour leur soutien, encourage-
ment, et tellement de merveilleuses choses.
J’adresse mes sinceres remerciements a Takoua qui a su me reconforter et soute-
nir pendant la derniere ligne droite de ma these.
Je remercie enfin tous mes amis (Isaac, Michael, Ramzi, Rim, . . .) et tous ceux
que j’aime et qui m’aiment.
iv
Resume
Nous nous interessons a un contexte de Recherche d’Information (RI) dans des mi-
lieux professionnels, ou les besoins d’information sont formules a travers des requetes
precises. Notre travail consiste a definir un modele de RI capable de resoudre ce type
de requetes.
Notre approche est fondee sur les dimensions de domaine. Celles-ci sont definies a
travers des ressources externes, et utilisees pour produire une representation precise
du contenu semantique des documents et des requetes.
Nous definissons notre modele en utilisant la logique de descripton (LD). Nous
profitons de l’algorithme de calcul de subsomption offert par la LD afin de definir
la fonction de correspondance mettant en œuvre la pertinence systeme. A travers
cet algorithme, la LD offre une capacite de raisonnement qui permet de deduire
des connaissances implicites a partir de celles representees explicitement dans la
ressource externe, et permet ainsi de retrouver des documents pertinents pour une
requete meme s’ils ne partagent pas les memes concepts que cette derniere.
Afin de tester la faisabilite de notre approche, une serie d’experiences a ete ef-
fectuee sur la collection ImageCLEFmed-2005. Ces experiences nous ont permis de
savoir jusqu’a quel point notre modele peut etre applique, et quelles sont les limites
formelles et techniques qui lui sont liees.
Afin d’evaluer l’apport de l’usage des dimensions en termes de performance
de recherche, nous avons mene une deuxieme serie d’experiences sur la collection
ImageCLEFmed-2005. Les resultats obtenus nous ont permis de conclure que la
prise en compte des dimensions est un moyen efficace pour la resolution des requetes
precises.
Mots cles : Recherche d’Information, requetes precises, recherche multi-dimensions
(multi-facettes), dimensions de domaine, ressources externes, indexation semantique,
Logique de description.
v
Abstract
We are interested in a context of Information Retrieval (IR) in professional envi-
ronments, where information needs are expressed through precise queries. Our goal
is to define an IR model capable to solve such queries.
Our approach is based on domain dimensions. These are defined through external
resources, and used to produce a precise representation of the semantic content of
documents and queries.
We define our model using the description logic (DL). We take advantage of the
algorithm for computing subsomption offered by the LD, in order to define the mat-
ching function implementing the system’s relevance. Through this algorithm, the DL
has a capacity of reasoning which can deduce implicit knowledge from those expli-
citly represented in the external resource, and thus find relevant documents for a
query even if they do not share the same concepts with this query.
In order to test the feasibility of our approach, a series of experiments was carried
out on the ImageCLEFmed-2005 collection. These experiences have enabled us to
know the extent to which our model can be applied, and what are the formal and
technical limits associated with it.
In order to evaluate the contribution of the use of dimensions in terms of retrieval
performance, we conducted a second series of experiments on the ImageCLEFmed-
2005 collection. The obtained results have shown that taking into account dimensions
is an effective way to solve precise queries.
Keywords : Information Retrieval, precise queries, multi-dimensional (faceted)
search, domain dimensions, external resources, semantic indexing, Description Logic.
vi
Table des matieres
1 Introduction generale 1
1.1 Preambule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Modeles de RI bases sur les mots-cles . . . . . . . . . . . . . . . . . . 2
1.3 Modeles de RI bases sur les concepts . . . . . . . . . . . . . . . . . . 4
1.4 Vers un modele de RI base sur les dimensions de domaine . . . . . . . 7
1.5 Problematique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.6 Plan de la these . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2 Ressources externes et dimensions de domaine 15
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Ressources externes & RI . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1 Credibilite des approches basees sur les ressources externes . . 17
2.2.2 Exemple de ressource externe utilisee en RI : WordNet . . . . 18
2.3 Usage des ressources externes pour la representation des documents . 19
2.3.1 La desambiguısation . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.2 Indexation conceptuelle/semantique . . . . . . . . . . . . . . . 23
2.3.3 Evaluation de la desambiguısation . . . . . . . . . . . . . . . . 33
2.4 Usage des ressources externes pour l’expansion des requetes . . . . . . 39
2.4.1 Expansion de requetes basee sur les relations lexico-semantiques
de WordNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.4.2 Utilisation de WordNet pour une expansion “guidee” de requetes 43
2.4.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.5 Dimensions & RI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.5.1 Le paradigme de la recherche basee sur les facettes . . . . . . 46
2.5.2 Outils bases sur le paradigme de recherche multi-facettes . . . 48
2.5.3 Fabrication des dimensions/facettes . . . . . . . . . . . . . . . 50
vii
2.5.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3 Un Modele de RI fonde sur les dimensions de domaine 57
3.1 Preambule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.2 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.3 Specificites du modele . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.3.1 Exemples typiques de besoins d’information precis . . . . . . . 62
3.3.2 Vers un modele de RI oriente precision . . . . . . . . . . . . . 67
3.4 La logique descriptive . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.4.1 Syntaxe et semantique du langage ALCQ . . . . . . . . . . . . 70
3.4.2 Logique Descriptive et Recherche d’Information . . . . . . . . 72
3.5 Modele de RI : notation et definitions . . . . . . . . . . . . . . . . . . 73
3.5.1 Ressource externe . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.5.2 Indexation des documents . . . . . . . . . . . . . . . . . . . . 76
3.5.3 Formulation de la requete . . . . . . . . . . . . . . . . . . . . 77
3.5.4 Correspondance entre la requete et le document . . . . . . . . 77
3.6 Modele de RI oriente precision . . . . . . . . . . . . . . . . . . . . . . 78
3.6.1 Modele de document . . . . . . . . . . . . . . . . . . . . . . . 79
3.6.2 Modele de requete . . . . . . . . . . . . . . . . . . . . . . . . 83
3.6.3 Evaluation des requetes . . . . . . . . . . . . . . . . . . . . . 95
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4 Mise en œuvre du modele 99
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.2 Etapes necessaires pour la mise en œuvre du modele . . . . . . . . . . 100
4.2.1 E1 : Identification des elements de dimension . . . . . . . . . . 100
4.2.2 E2 : Indexation pour la correspondance . . . . . . . . . . . . . 101
4.2.3 E3 : Selection des documents . . . . . . . . . . . . . . . . . . 101
4.2.4 E4 : Indexation pour l’ordonnancement . . . . . . . . . . . . . 102
4.2.5 E5 : Ordonnancement des documents . . . . . . . . . . . . . . 102
4.3 Realisation des etapes necessaires pour la mise en œuvre du modele . 102
4.3.1 Realisation des etapes E2 & E3 . . . . . . . . . . . . . . . . . 103
4.3.2 Realisation des etapes E4 & E5 . . . . . . . . . . . . . . . . . 109
4.4 Experimentations sur la collection CLEF-2005 . . . . . . . . . . . . . 110
viii
4.4.1 Contexte des experimentations . . . . . . . . . . . . . . . . . . 110
4.4.2 Mise en œuvre du modele a base de la logique descriptive sur
la collection ImageCLEFmed-2005 . . . . . . . . . . . . . . . . 114
4.4.3 Definition des elements de dimensions par des mots . . . . . . 120
4.4.4 Definition des elements de dimensions par des concepts . . . . 124
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
5 Conclusion 133
5.1 Apport theorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
5.2 Apport pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
5.3 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
ix
Table des figures
1.1 Objectif et processus de la Recherche d’Information . . . . . . . . . . 3
1.2 Schema global de notre approche . . . . . . . . . . . . . . . . . . . . 12
1.3 Dimensions de domaine stockees dans une ressource externe . . . . . 13
2.1 Denotation d’un concept par un ensemble de termes synonymes dans
differentes langues. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Enonce de la requete 122 de la collection TREC-1 . . . . . . . . . . . 41
2.3 Interface d’acces multi-vues [38][39] . . . . . . . . . . . . . . . . . . . 48
2.4 Interface multi-facettes du systeme Flamenco . . . . . . . . . . . . . . 50
3.1 Correspondance entre une requete et un document representes en lo-
gique descriptive. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.2 Representation graphique du modele de document . . . . . . . . . . . 82
3.3 Calcul de la correspondance entre un document doc et une requete q
au niveau de l’indexation pour la correspondance . . . . . . . . . . . 96
3.4 Calcul du RSV entre une requete et un document au niveau de l’in-
dexation pour l’ordonnancement . . . . . . . . . . . . . . . . . . . . . 97
4.1 Representation graphique des etapes necessaires pour la mise en œuvre
du modele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.2 Exemple pour la mise en œuvre du modele . . . . . . . . . . . . . . . 103
4.3 Representation graphique du modele de document . . . . . . . . . . . 105
4.4 Representation graphique de la T-Box . . . . . . . . . . . . . . . . . 107
4.5 Calcul de la correspondance entre un document doc et une requete q . 108
4.6 La hierarchie de subsomption fabriquee par le raisonneur Pellet . . . 109
4.7 Calcul du RSV entre une requete et un document au niveau de l’in-
dexation pour l’ordonnancement . . . . . . . . . . . . . . . . . . . . . 110
4.8 Exemple de requete de la collection ImageCLEFmed-2005 . . . . . . . 111
x
4.9 Premier niveau de la structure hierarchique de MeSH . . . . . . . . . 113
4.10 Resultats experimentaux de la prise en compte des elements de di-
mensions definis par des mots . . . . . . . . . . . . . . . . . . . . . . 124
4.11 Variations des performances de notre systeme applique sur trois index
differents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
xi
Liste des tableaux
2.1 Pourcentage des documents corrects retrouves en premiere position [32] 37
3.1 Syntaxe et semantique du langage ALCQ. . . . . . . . . . . . . . . . 71
4.1 Comparaison des resultats de notre approche avec le baseline. . . . . 122
4.2 Comparaison des resultats de notre approche avec le baseline. . . . . 127
4.3 Variations des performances de notre systeme applique sur trois index
differents. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
xii
Chapitre 1
Introduction generale
1.1 Preambule
Depuis l’apparition de l’informatique, les connaissances stockees sur support
numerique n’ont cesse de s’accumuler, et le nombre des documents qui les stockent
s’accroıt tres rapidement. Nous arrivons ainsi a une situation parfaitement contradic-
toire : jamais il n’y a eu autant d’informations disponibles, mais trouver dans cette
accumulation, precisement ce que l’on recherche, devient de plus en plus ardu.
Devant le nombre important de documents disponibles, la recherche sequentielle1
est bien sur tres limitee et l’acces a l’information base sur une requete semble plus
efficace. Ainsi, la Recherche d’Informations (RI) devient davantage cruciale et les
Systemes de Recherche d’Information (SRI) deviennent une aide inestimable pour
rechercher une information.
La RI est un processus qui, a partir d’une requete (expression des besoins en
information d’un utilisateur), permet de retrouver l’ensemble des documents conte-
nant l’information recherchee. La mise en œuvre de ce processus passe par une
specification d’un modele de RI integrant : i) une representation des documents ;
ii) une representation de la requete ; et iii) un appariement entre le document et la
requete. Plusieurs modeles ont ete proposes dans la litterature dont l’objectif com-
mun est de satisfaire au mieux les besoins de l’utilisateur. Chacun de ces modeles se
differencie par sa maniere de representer les documents et la requete, et de les mettre
en correspondance. Ceci depend generalement du contexte de la recherche : la na-
1En explorant manuellement une collection de documents.
1
ture du besoin de l’utilisateur, sa maniere d’exprimer son besoin, ses exigences, les
connaissances qu’il a sur le domaine2 et les documents, etc. Dans la section suivante,
nous detaillons les principes de base de ces modeles et presentons leurs limites.
1.2 Modeles de RI bases sur les mots-cles
L’objectif de la RI est de selectionner les documents qui traitent le mieux pos-
sible du theme de la requete (cf. Figure 1.1). A notre connaissance, il n’y pas de
consensus sur la notion de theme en RI. Dans notre these, nous adoptons la definition
suivante : un theme est une idee, un sujet developpe dans un discours, un ecrit, un
ouvrage3.
Pour atteindre l’objectif precite, les approches existantes4 en RI textuelle s’ap-
puyent sur des methodes purement statistiques basees sur les distributions de mots-
cles, pour calculer la similarite entre la requete et les documents du corpus. La
pertinence d’un document par rapport a une requete est calculee en fonction de
la similarite du vocabulaire et non pas en fonction de la similarite thematique qui
existe entre le document et la requete. En effet, pour qu’un document soit selectionne
par le systeme, il doit partager les memes mots (du moins une partie d’entre eux)
avec la requete. Dans le cas du modele booleen, pour etre selectionne, le document
doit contenir tous les mots (conjonction) ou une partie des mots (disjonction) de la
requete. Dans le modele vectoriel, plus un document partage des mots avec la requete
et dans la meme proportion de poids, plus il est pertinent pour cette requete. En
realite, un document peut etre pertinent meme s’il ne partage pas les memes mots
avec la requete. Par exemple, un document contenant le mot “voiture” peut consti-
tuer une reponse pertinente a une requete contenant le mot “automobile”, meme si
le mot “automobile” n’existe pas dans le document. Salton a souligne ce probleme
ou les auteurs de documents et les utilisateurs des SRI utilisent une grande variete
de mots pour denoter le meme concept [75]. Ce probleme, qualifie de term mismatch
ou word mismatch [25][103], est du au fait que l’analyse purement statistique, sur
laquelle est basee la fonction de correspondance, permet seulement l’extraction des
2Selon le dictionnaire de l’Academie francaise, un domaine est tout ce qu’embrasse un art, une
science, une faculte de l’esprit, etc. (exemples : le domaine de la peinture, de la sculpture, de lapolitique, etc.).
3Definition donnee par le Centre National de Ressources Textuelles et Lexicales.4Basees sur les modeles classiques de RI.
2
descripteurs mais pas leur signification.
Fig. 1.1 – Objectif et processus de la Recherche d’Information
Ainsi, nous observons un fosse entre l’objectif de la RI et la methode qui la realise :
les techniques de RI existantes traitent essentiellement le signifiant, mais tres peu
le signifie. En effet, l’objectif de la RI est de retrouver des documents qui traitent
du theme de la requete, c’est-a-dire, dont le contenu semantique est similaire a
celui de la requete. Mais en pratique, la mise en œuvre des SRI est faite de facon a
ce que ces systemes recherchent les documents partageant les memes mots avec la
requete. Dans ce cas, soit les modeles de RI sous-jacents ignorent le sens des mots
(signifie), soit ils supposent implicitement qu’il y a une correspondance stricte entre
les mots (signifiants) et les sens (signifies). Cette derniere supposition est erronee car
un signifie peut etre exprime par differents signifiants, et un signifiant peut expri-
mer plusieurs signifies differents (selon le contexte). Par exemple, pour une requete
contenant le mot “Java” (langage de programmation), le systeme peut completement
ignorer le sens du mot Java et retourner des documents qui parlent de l’ıle de Java
situee en Indonesie.
Il est clair que les SRI bases sur les modeles de RI classiques ont fait beaucoup de
progres pour representer et comparer la requete et les documents. Nous avons quand
3
meme constate, dans les campagnes d’evaluation (TREC5, NTCIR6, CLEF7, etc.),
que la plupart des systemes semblent avoir atteint leurs limites de performances, bien
que la marge d’amelioration semble encore grande (selon les mesures utilisees pour
l’evaluation). Ceci est une indication que les optimisations de nature essentiellement
statistiques des modeles existants ont atteint leurs limites.
Il nous apparaıt qu’une amelioration supplementaire des performances des SRI
requiert l’utilisation de connaissances externes8 a celles du corpus, notamment grace
a la disponibilite croissante des ressources qui les stockent (dictionnaire, thesaurus,
ontologie, etc.). Un certain nombre de ces ressources ont rencontre beaucoup de
succes dans le domaine de RI, que ce soit dans des domaines specialises (ex. MeSH
et UMLS pour le domaine medical), ou dans un domaine generaliste (ex. WordNet).
Grace a l’apparition de nouvelles ressources dans des domaines de plus en plus divers
(geographie, genomique, droit, etc.), cette tendance ne cesse de s’amplifier.
1.3 Modeles de RI bases sur les concepts
Parmi les travaux de recherche qui ont essaye de surmonter les limites presentees
dans la section precedente, il existe une approche de RI dite “basee-concepts” (Conce-
pt-Based Information Retrieval).
Selon les communautes (Intelligence Artificielle, Philosophie, Linguistique, Scien-
ce de la cognition, etc.), il existe differentes definitions de la notion de concept [31].
De facon generale, un concept est un objet mental (son milieu, c’est l’esprit hu-
main) qui peut etre defini comme une abstraction generalisee a partir de proprietes
communes a des objets concrets (leur milieu, c’est la realite telle qu’on la ren-
contre). En d’autres termes, une conceptualisation est une abstraction qui consiste
a analyser la realite pour en tirer les proprietes pertinentes qui permettent de passer
du particulier au general. Un concept possede une extension et une comprehension.
L’extension est l’ensemble des objets qui possedent les proprietes correspondant au
concept. En d’autres termes, c’est la quantite de realite a laquelle le concept se rap-
5http ://trec.nist.gov/6http ://research.nii.ac.jp/ntcir/7http ://www.clef-campaign.org/8“externes” car non presentes dans les documents a traiter, du moins sous une forme explicite
et complete.
4
porte. Par exemple, le concept “Personne” a une plus grande extension que le concept
“Femme”. La comprehension quant a elle est l’ensemble des proprietes qui donnent
son contenu a un concept (l’ensemble des proprietes qui caracterisent les objets du
concept). Elle varie en fonction inverse de l’extension. Par exemple, le concept “Fem-
me” a une comprehension plus grande que le concept “Personne” (on peut enumerer
plus de proprietes a son sujet).
Un concept est construit par l’etre humain d’une maniere non-ambigue, indepen-
damment des langues, des supports et des formalismes de representation [18]. Meme
s’il est exprime a travers une forme materielle (des mots), le concept n’est pas
materiel.
En considerant cette definition, il est tres difficile pour une machine d’extraire
des concepts a partir d’une source numerique. Cependant, il est possible d’associer
un concept a des elements decrits dans des documents numeriques (textes, images,
etc.). C’est pour cette raison pratique qu’en RI la notion de concept est souvent
liee au sens des mots : un concept correspond a une signification particuliere d’un
mot (ou sequence de mots). De son cote, un terme est une paire (mot ou sequence
de mots, concept). C’est-a-dire, un terme est constitue d’un mot (ou sequence de
mots) qui sert pour denoter un concept dans un domaine particulier. Le mot, quant
a lui, est l’unite du discours oral ou ecrit. Dans des langues comme le francais ou
l’anglais ecrits, le mot est represente par une sequence de lettres entre deux blancs.
Pour alleger l’ecriture, nous utilisons “terme” egalement pour designer le mot ou la
sequence de mots correspondant a un terme.
Une approche de RI basee-concepts se caracterise par la notion d’espace concep-
tuel dans lequel les documents et les requetes sont representes par opposition a l’es-
pace de mots simples utilises dans les modeles classiques [3]. Les travaux presentes
dans le cadre de notre these se situent dans cette classe d’approches.
Nous nous interessons ici a l’amelioration de la precision en RI. A cette fin, nous
etudions l’utilisation des connaissances externes pour identifier les themes au niveau
des documents et la requete. Plus precisement, il s’agit de concevoir des modeles de
representation du contenu semantique des documents et des requetes.
5
L’utilisation des connaissances externes a fait l’objet de plusieurs travaux souvent
orientes vers l’amelioration de la precision (desambiguısation de termes, indexation
conceptuelle), et/ou vers l’amelioration du rappel (expansion de requetes). Dans ce
contexte, elles servent a expliciter le sens des termes dans le corpus en identifiant des
concepts et eventuellement des relations entre ces concepts. Ceci permet au systeme
de prendre en compte la semantique sous-jacente aux termes ; d’abord, au moment
de l’indexation, la ressource externe est utilisee pour extraire des termes faisant
reference aux entites conceptuelles traitees dans les documents ; ensuite, au moment
de l’interrogation (reformulation de requete et correspondance), elle sert a identifier
les concepts des documents denotes par les descripteurs de la requete. Enfin, son
utilisation permet d’avoir des informations supplementaires sur la semantique as-
sociee aux termes issus du contenu (document et requete), et d’aider ainsi le SRI a
interpreter le contenu semantique et a ameliorer les performances de recherche.
Cette classe d’approches presente plusieurs avantages. L’utilisateur peut faire
usage des connaissances presentes dans la ressource externe a partir de laquelle le
corpus a ete indexe. Cela peut l’aider a augmenter sa connaissance par rapport
a l’information qui lui est disponible dans le corpus. L’utilisateur peut egalement
utiliser le vocabulaire controle, present dans la ressource externe et utilise pour la
representation des documents, pour mieux exprimer son besoin. Dans ce cas, la
description du besoin d’information a les memes caracteristiques que celles des do-
cuments.
Nous pouvons dire que le principal avantage des approches basees-concepts est
que l’utilisateur et le systeme arrivent a “parler” le meme langage (celui qui cor-
respond au vocabulaire de la ressource externe utilisee). Cependant, ces approches
considerent les documents et requetes comme des sacs de concepts. Ainsi, les relations
semantiques qui peuvent exister entre les concepts ne sont pas toujours exploitees.
Ceci peut provoquer des problemes comme mentionnes dans la section precedente :
un document est considere pertinent seulement s’il partage les memes concepts de la
requete (requete initiale ou etendue). Par exemple, pour la requete donne-moi les do-
cuments qui parlent du politicien americain qui a eu le prix Nobel de la paix en 2007,
un document pertinent doit contenir le nom Al Gore. Ce document ne peut cepen-
dant pas etre retrouve par un systeme qui n’exploite pas les relations semantiques.
Pour pouvoir resoudre cette requete, un SRI a besoin de connaissances externes pour
6
inferer que Al Gore est un politicien originaire des Etats Unis, etc.
Nous pensons que le principal probleme de ces modeles de RI est qu’ils considerent
peu la structure semantique des documents (requetes) lors de l’interpretation de
leurs contenus [4][58][68][92][96]. Nous sommes convaincus, qu’en plus de decrire les
connaissances du(des) domaine(s) present(s) dans le corpus, les ressources externes
peuvent apporter des information utiles pour l’interpretation des themes developpes
dans les documents de ce corpus. Nos travaux vont actuellement dans ce sens.
1.4 Vers un modele de RI base sur les dimensions
de domaine
Dans notre travail de these, nous nous interessons a un processus de RI dont le
contexte est precise par le domaine d’interet de l’utilisateur.
Nous avons vu precedemment qu’un document qui partage les memes descrip-
teurs (que ce soient des mots ou des concepts) avec la requete n’est pas forcement
pertinent pour cette requete. Ainsi, la question que nous nous sommes posee est :
“Y a-t-il des elements, autres que les descripteurs, qu’un document doit
partager9 avec la requete pour qu’il soit considere pertinent ?”
Dans un processus de RI, l’utilisateur souffre d’un manque d’information, mais a
une idee des lacunes de ses connaissances et donc de son besoin en information. Une
premiere difficulte majeure a laquelle doit faire face un SRI est que le besoin d’infor-
mation est une chose particuliere a l’utilisateur. Comme il est rarement integre dans
le processus de RI, son besoin d’information est souvent mal interprete. Pour pouvoir
satisfaire l’utilisateur, le SRI doit d’abord “comprendre” son besoin d’information.
Une premiere question se pose alors : Q1 “comment aider le SRI a interpreter ce que
l’utilisateur essaye de decrire”. Autrement dit, en plus des descripteurs de la requete,
y a-t-il d’autres elements qui peuvent aider le SRI a avoir plus d’informations sur le
9Ce n’est pas seulement une intersection au sens simpliste du terme : ca pourrait etre uneimplication logique, ou une probabilite, etc.
7
besoin de l’utilisateur ?
Une deuxieme difficulte a laquelle doit faire face un SRI est que l’utilisateur juge
les documents qui lui sont retournes par rapport a l’interpretation de son besoin et
non pas par rapport a l’ensemble des documents du corpus susceptibles de l’interesser
[91]. Une deuxieme question se pose alors : Q2 “comment integrer l’utilisateur lors
du processus d’indexation et du calcul de pertinence des documents ?”
Pour repondre aux questions Q1 et Q2, nous avons choisi d’utiliser les connais-
sances du domaine d’interet de l’utilisateur qui peuvent etre decrites a travers des
ressources externes. Nous avons suppose que ces ressources peuvent : i) nous ren-
seigner sur les besoins de l’utilisateur pendant sa tache de recherche ; et ii) aider le
SRI a interpreter le contenu semantique du document et a calculer la pertinence en
prenant en compte la similarite thematique entre le document et la requete10.
En pratique, nous avons analyse plusieurs requetes extraites de differentes collec-
tions des campagnes d’evaluation des SRI (ex. TREC, CLEF, etc.). A titre d’exemple,
nous presentons ici deux requetes extraites de deux collections de la campagne CLEF-
2005 : la premiere est extraite de la collection multilingue Multi-8, et la deuxieme de
la collection des comptes-rendus medicaux ImageCLEFmed.
Requete 1 : “Donne-moi les documents qui parlent du general francais responsable
de la creation de la zone de securite pendant le conflit des Balkans ?”
Pour un lecteur humain, il est clair que l’on recherche des documents qui parlent
d’une personne : general francais. Un document pertinent, contenant le nom de la
personne en question, ne contient pas forcement les termes “general” et “francais”.
Pour y remedier, une solution possible est de faire une expansion “intelligente” de
la requete pour informer le systeme qu’on est a la recherche d’une personne et pas
seulement des termes “general” et “francais”. Le fait d’identifier l’element personne
dans cette requete n’est pas suffisant pour la resoudre. En effet, cet element ap-
paraıt dans un contexte particulier qui est decrit par d’autres elements. La personne
10Nous verrons dans le chapitre de l’etat de l’art que ces deux hypotheses sont inspirees decertaines idees qui ont ete deja developpees.
8
que l’on cherche a cree une zone de securite. Celle-ci a ete creee dans un lieu
geographique : les Balkans. Enfin, la creation de cette zone a eu lieu suite a un
evenement : conflit des Balkans.
Ainsi, pour interpreter le besoin d’information formule a travers la requete 1, nous
allons supposer qu’il est necessaire d’expliciter11 tous les elements-cles introduits par
l’utilisateur, et de disposer d’un langage de requete expressif pour mieux cerner ce
que l’utilisateur recherche.
Requete 2 : “Show me x-ray images with fractures of femur”
Pour un etre humain, il est clair que l’on cherche des images qui contiennent un
aspect anatomie (le femur) et un aspect pathologie (fracture). Ces deux elements,
qui sont semantiquement relies12, doivent apparaıtre dans une image dont la moda-
lite est rayon-x. Ainsi, une image au rayon-x qui contient “une fracture du crane”
ou “un femur sans fracture” est supposee non pertinente par rapport a cette requete.
De meme pour les images contenant “une fracture du femur” dont la modalite n’est
pas rayon-x.
En observant plusieurs documents (requetes) de differents domaines13, nous avons
remarque une regularite au niveau des elements qui decrivent les themes developpes
dans les documents (requetes) appartenant a un meme domaine. Par exemple, les
themes du domaine de la politique internationale peuvent etre developpes en utili-
sant des elements tels que Personne, Lieu geographique, Epoque, Evenement, etc. En
medecine, un theme peut etre developpe en utilisant des elements tels que Anatomie,
Pathologie, Stade de la maladie, Type de traitement, etc. Ainsi, nous appellerons ces
elements les dimensions de domaine et nous les definissons comme suit :
“Une dimension d’un domaine est un concept utilise pour exprimer des themes
dans ce domaine.”
11Par exemple, en procedant par une expansion “intelligente”.12En medecine, une fracture est une pathologie d’un os tel que le femur.13Medical, politique internationale, astronomie, etc.
9
Le concept associe a la dimension est en pratique general, c’est-a-dire, possede une
vaste extension et une comprehension minimale. Si l’on peut construire une hierarchie
des concepts du domaine, il devrait se trouver pres de la racine de la hierarchie, c’est-
a-dire, il aurait de nombreux sous-concepts et peu ou pas de concepts super-ordonnes.
L’idee sous-jacente a notre approche est qu’un auteur, quand il redige son docu-
ment, s’interesse a un domaine particulier pour developper un theme. Ainsi, il fait
reference a des dimensions de son domaine d’interet pour detailler l’idee exprimee
dans son document. Pour ce faire, il fait reference aux concepts relatifs aux dimen-
sions choisies. Pour denoter ces concepts dans son texte, il utilise des termes de son
domaine d’interet.
Par exemple, pour rediger un compte-rendu medical, un medecin peut faire
reference dans son texte aux dimensions “Pathologie” et “Anatomie”. Ensuite, il
fait reference a des concepts relatifs a ces dimensions, et enfin il utilise des termes
pour denoter ces concepts. Par exemple, il peut utiliser les termes “seins” et “can-
cer”, ou “femur” et “fracture”, etc.
De la meme maniere, un utilisateur s’interesse a un domaine particulier pour
decrire son besoin d’information. Il fait d’abord reference a des dimensions de son
domaine d’interet. Ensuite, il fait reference a des concepts relatifs a ces dimensions.
Enfin, il emploie des termes pour denoter ces concepts dans la requete qui exprime
son besoin d’information.
1.5 Problematique
Nous nous placons dans un contexte de recherche ou l’utilisateur decrit un be-
soin precis. Ce contexte est typiquement celui des milieux professionnels, ou les
utilisateurs ont de bonnes connaissances de leur domaine d’interet, ainsi que des
documents (comptes-rendus, textes de loi, etc.) qu’ils consultent regulierement. Lors
d’une tache de recherche, les professionnels essayent de completer l’information qu’ils
ont deja mais qui est insuffisante. Leurs besoins dans ce cas sont precis et decrits
10
a travers une terminologie specifique a leurs domaines d’interet. Par exemple, un
medecin desirant retrouver un compte-rendu, voudrait pouvoir formuler son besoin
d’information de la maniere suivante :
“Je cherche un compte-rendu sur le type de traitements a effectuer en cas d’un
cancer du sein de stade M0”.
Nous remarquons, a partir de cet exemple, que le medecin connaıt bien la ter-
minologie de son domaine, et par consequent, que la description de son besoin est
tres precise. Nous remarquons egalement qu’il se sert des dimensions de son domaine
pour decrire son besoin : anatomie, pathologie, traitement, stade de la maladie, etc.
Les professionnels sont des utilisateurs qui s’attendent a trouver une reponse
precise et de qualite a leur requete, leur permettant de realiser leur tache profession-
nelle (etablir un diagnostic, rediger un article de presse, se documenter, etc.). Afin
de permettre au systeme de retrouver des documents en meilleure adequation avec
le reel besoin de tels utilisateurs, nous pensons qu’il est necessaire de prendre en
compte les dimensions du domaine d’interet de l’utilisateur. La question principale
que nous posons ainsi est :
“Comment satisfaire, a partir de l’information “brute”14, une requete precise
formulee par un utilisateur qui s’interesse a un domaine particulier ?”
Nous denotons par le qualificateur “precise” une requete qui, au contraire d’une
requete vague, contient une terminologie tres specialisee. Elle presente une complexite
au niveau de sa structure semantique qui peut etre materialisee par un ensemble de
relations semantiques et d’operateurs15. Ce type de requete semble etre adapte a une
indexation relationnelle qui permet de prendre en compte les relations semantiques
lors de la representation du contenu du document a indexer.
L’objectif du travail decrit dans notre these est donc de definir un modele de Re-
cherche d’Information qui soit en adequation avec le contexte particulier dans lequel
14Sac de mots dans les documents textuels, etc.15Booleens, quantificateurs, etc.
11
nous nous situons :
– L’utilisateur a une forte connaissance sur son domaine d’interet qui doit etre
represente au sein du systeme ;
– La formulation de la requete est une description precise du document recherche
par l’utilisateur. Celui-ci decrit le document qu’il souhaite retrouver en utilisant
une terminologie specifique a son domaine. Il peut preciser ce qui est important
(critere obligatoire) ou moins important (critere optionnel) que ce document
contienne. Il peut egalement utiliser des operateurs booleens, ou des quantifi-
cateurs pour preciser le nombre d’elements que le document doit contenir.
Fig. 1.2 – Schema global de notre approche
12
Fig. 1.3 – Dimensions de domaine stockees dans une ressource externe
Nous proposons d’utiliser les dimensions de domaine afin de mettre en exergue les
aspects lies aux descriptions semantiques du contenu des documents (requetes), et
d’identifier ainsi les themes qui y sont developpes. A cette fin, un modele de RI fonde
sur les dimensions est propose. En considerant les exigences en termes de precision
du systeme, le langage de document et le langage de requete sur lesquels est
fonde notre modele doivent etre expressifs. Ils permettent d’une part, d’indexer
avec precision le contenu semantique des documents, et d’autre part, d’interpreter le
contenu semantique des requetes precises. Evidemment, notre modele doit permettre
a l’utilisateur d’exprimer son besoin d’information precis a travers une requete.
La mise en œuvre de notre modele necessite d’abord de definir les dimensions de
domaine puis de les reperer au niveau des documents (requetes). Pour reperer ces
dimensions, il faut identifier les concepts qui leur sont associes, et donc les termes
qui les denotent dans les documents (requetes). Ceci peut necessiter une etape de
desambiguısation des sens des termes presents dans les documents (requetes).
Nous avons decide de definir les dimensions a travers une ressource externe16 a
large couverture qui associe un ensemble de termes a un concept. Dans la figure
1.2, nous presentons le schema global de notre approche. Disposant d’un ensemble
16Semantique : ontologie, linguistique : thesaurus, terminologique : dictionnaire terminologique,etc.
13
de dimensions definies a travers une ressource externe (figure 1.3), notre approche
interprete le contenu semantique des documents et des requetes et les mets en cor-
respondance.
1.6 Plan de la these
Apres ce chapitre introductif exposant notre problematique et les idees que nous
defendons, nous consacrons chapitre 2 a l’etat de l’art. Nous passons en revue
les travaux qui utilisent les ressources externes pour la representation du contenu
semantique des documents (requetes) lors du processus de RI. Nous etudions egalement
les travaux qui s’interessent a la notion de dimensions de domaine.
Dans le troisieme chapitre, nous presentons une definition formelle de notre
modele de RI, et nous discutons plus particulierement de maniere approfondie le
modele de documents et le modele de requete. Nous montrons comment, en se basant
sur les dimensions de domaines, notre modele parvient a representer avec precision
le contenu semantique des documents et satisfaire ainsi des requetes precises.
Le quatrieme chapitre decrit les etapes necessaires a la mise en œuvre de notre
modele dans le cadre d’application de documents textuels. Il decrit egalement une
evaluation experimentale, de l’utilisation des dimensions pour la RI, basee sur des
criteres d’evaluation orientes systeme [23] operee sur une collection de la campagne
CLEF.
Le cinquieme chapitre resume les contributions apportees par ce travail au do-
maine de la RI et evoque egalement les perspectives de developpement et d’optimi-
sation du modele propose.
14
Chapitre 2
Ressources externes et dimensions
de domaine
2.1 Introduction
Dans le chapitre precedent, nous avons presente les limites des approches de RI
existantes qui ne prennent pas en compte la semantique des documents (requetes).
Devant ces limites, plusieurs travaux, tentant d’incorporer l’information semantique
dans le processus de RI, sont apparus en se basant sur la disponibilite de ressources
externes telles que les ontologies ou les thesaurus. Dans le cas du processus d’indexa-
tion, nous pouvons principalement identifier l’indexation conceptuelle ou l’indexation
semantique1 [10][58]. Pour ce qui est du processus d’interrogation, l’accent a surtout
porte sur l’expansion de requetes. Les ressources externes peuvent egalement aider
a la formulation du besoin de l’utilisateur a travers une interface graphique. C’est
dans cette derniere direction que Hearts [37] et Hyvonen [38] ont propose d’utiliser
les dimensions de domaines .
Dans le but de comprendre comment les ressources externes ont ete utilisees pour
la prise en compte de la semantique lors du processus de RI, nous presentons, dans
la suite de ce chapitre, les approches les plus representatives dans la litterature.
Ainsi, nous avons etudie des travaux sur l’indexation conceptuelle/semantique, puis
des travaux sur l’expansion de requetes. Avant de conclure ce chapitre avec une
synthese des travaux existants, nous y discutons des travaux qui prennent en compte
1Ces deux terminologies sont utilisees parfois par les chercheurs en RI avec quelques confusions.
15
la notion de dimensions lors du processus de RI. Mais commencons d’abord par
definir quelques notions sur les ressources externes.
2.2 Ressources externes & RI
De facon generale, selon les communautes (Linguistique, Sciences de la cognition,
Intelligence artificielle, Philosophie, etc.), il existe differentes definitions des notions
que nous presentons ici. Dans la suite, nous presentons les definitions telles qu’elles
sont utilisees en Recherche d’Information et telles que nous les utilisons dans notre
approche.
Par ressource externe, nous entendons toute structure externe au corpus conte-
nant des concepts et des termes qui les denotent. Cette ressource peut egalement
contenir des relations entre les differents concepts ; par extension, nous appelons
connaissances externes toutes les informations stockees dans la ressource externe
(concept, termes, relations, definition, etc.).
Nous avons opte pour cette terminologie parce que, dans la communaute de RI,
on utilise les memes notations pour designer des ressources differentes. Par exemple,
par abus de langage, le mot “ontologie” est utilise pour designer des ressources telles
que, les thesaurus, les taxonomies, les hierarchies de concepts, etc. [32][51][62]. Nous
n’allons pas detailler ici les definitions de ces differents types de ressources ; nous
allons seulement decrire, dans la suite du manuscrit, les caracteristiques de celle
dont nous avons besoin pour definir notre modele de RI. Ensuite, en fonction de nos
besoins, nous choisissons la ressource qui nous convient le mieux, quelle que soit sa
nature.
Les concepts correspondent generalement aux nœuds (entrees) d’une ressource
externe. Ces nœuds peuvent contenir des informations supplementaires telles que la
definition du concept, le terme le plus couramment utilise pour le denoter, les termes
synonymes qui le denotent, etc.
Par exemple, dans le meta-thesaurus UMLS2, le concept correspondant au “li-
2http ://www.nlm.nih.gov/research/umls/
16
gament croise anterieur” est identifie par le code “C0630058”, et denote, dans le
domaine medical, par un ensemble de termes dans differentes langues naturelles (cf.
figure 2.1).
Fig. 2.1 – Denotation d’un concept par un ensemble de termes synonymes dansdifferentes langues.
2.2.1 Credibilite des approches basees sur les ressources ex-
ternes
Nous sommes convaincus que les ambitions des approches basees sur les res-
sources externes sont de plus en plus credibles car le spectre d’applications et de
domaines concernes ne cesse de s’elargir, ce qui favorise le developpement de ces
ressources. Parmi celles-ci, nous mentionnons particulierement les ontologies qui de-
viennent de plus en plus utiles dans une large famille de systemes d’information.
Par exemple, elles sont utilisees pour decrire et traiter des ressources multimedias,
permettre l’integration de sources heterogenes d’information, piloter des traitements
automatiques de la langue naturelle, construire des solutions multilingues et inter-
culturelles, etc. Ces utilisations se retrouvent dans de nombreux domaines d’applica-
tion : Recherche d’Information, integration d’informations geographiques, commerce
electronique, enseignement assiste par ordinateur, suivi medical informatise, etc.
Un cadre d’application particulierement prometteur pour le developpement des
systemes a base d’ontologies est celui du Web semantique3 [8][15]. En effet, dans ce
3Il s’agit d’une extension du Web actuel, dans laquelle l’information se voit associee a un sensbien defini, ameliorant la capacite des logiciels a traiter l’information disponible sur le Web.
17
contexte, l’annotation des ressources d’information repose sur des ontologies (elles-
memes disponibles et echangees sur le Web). Grace au Web semantique, l’ontologie
a trouve un formalisme standard a l’echelle mondiale et s’integre dans de plus en
plus d’applications Web, sans meme que les utilisateurs ne le sachent.
De ce fait, de plus en plus d’ontologies de domaines deviennent disponibles : on-
tologie medicale, ontologie de la genetique, ontologie de la geometrie, ontologie pour
le batiment, ontologie de systemes documentaires, ontologie dans le secteur automo-
bile, etc.4
La croissance du nombre d’ontologies sur le Web a meme favorise le developpement
d’outils specialises dans la recherche de ce genre de ressources. A ce sujet, men-
tionnons par exemple swoogle5 (semantic Web search engine) qui est un moteur de
recherche qui permet de retrouver des ressources ontologiques disponibles sur le Web.
Malgre toutes ces realisations, l’expansion du developpement des ontologies est
loin d’etre achevee. Ainsi, les ontologies qui s’appliquaient essentiellement a des
donnees (multimedias) sont desormais utilisees pour decrire des logiciels (ex. les
services Web). Elles commencent egalement a etre utilisees pour decrire l’utilisateur
en specifiant par exemple son contexte d’interaction (les preferences de l’utilisateur :
langue, gouts, droits, etc. ; les caracteristiques de son terminal : mobile, vocal, etc. ; sa
situation geographique : l’etranger, dans une salle avec imprimante, etc. ; l’historique
d’utilisation, etc.).
2.2.2 Exemple de ressource externe utilisee en RI : WordNet
WordNet6 est une base lexicale organisee sous forme hierarchique autour de la
notion de synset (ensemble de synonymes). Un synset regroupe des termes (simples
ou composes) ayant un meme sens dans un contexte donne. Par definition, chaque
synset dans lequel un terme apparaıt represente un sens different de ce terme.
Les synsets sont organises par des relations definies sur eux, qui different selon la
4http ://ontology.buffalo.edu/, http ://www.geneontology.org/, http ://diseaseonto-logy.sourceforge.net/, http ://ontolingua.stanford.edu/, etc.
5http ://swoogle.umbc.edu/ [visite le 08/07/07]6Le choix de presenter WordNet est motive par le fait qu’il est largement utilisee dans la plupart
des approches que nous etudions dans notre travail, et dans la RI d’une maniere generale.
18
categorie grammaticale (Part Of Speech). Les principales relations semantiques is-
sues de WordNet utilisees en RI sont les suivantes : la synonymie, la meronymie7,
et l’hyperonymie8 (is-a). Celle-ci est la plus dominante. Elle organise les synsets
dans un ensemble de hierarchies.
En plus d’etre gratuitement disponible, l’avantage d’utiliser WordNet est qu’il
couvre la majorite de la langue anglaise, ce qui la place souvent en adequation avec
les donnees traitees en RI dans le cas general.
2.3 Usage des ressources externes pour la represe-
ntation des documents
Afin de representer le contenu des textes par des concepts, l’indexation concep-
tuelle se base sur des techniques de desambiguısation qui servent a identifier les
concepts denotes par les termes dans le texte. Dans la section suivante, nous rap-
pelons quelques techniques de desambiguısation capable de realiser cette tache. En-
suite, nous examinons des approches qui utilisent les ressources externes pour la
representation du contenu des documents.
Nous verrons dans la suite de ce chapitre que les performances d’une approche
de RI dependent de plusieurs facteurs. Dans notre cas, elles peuvent dependre de
la qualite de la ressource externe utilisee, de la qualite du desambiguıseur utilise,
du modele de RI sous-jacent, etc. Donc, afin de bien evaluer une approche de RI,
il est interessant d’evaluer l’impact de chacun de ces facteurs sur ses performances.
De cette facon, nous avons la possibilite d’identifier ce qui a bien fonctionne et ce
qui a mal fonctionne lors d’une experimentation de RI. C’est dans cette direction
que nous presentons un ensemble de travaux sur l’utilisation des ressource externe
et l’utilisation de desambiguıseur pour la RI.
7La classe des meronymes contient respectivement les concepts constituant des parties du concept(... is a part of this concept, ... is a member of this concept), ou dont le concept est une partie (thisconcept is a part of ... etc.). Exemple : voiture a pour meronymes porte, moteur.
8La classe des Hyperonymes contient les concepts peres pour la relation de generalisation. Larelation inverse est l’hyponymie (specialisation).
19
2.3.1 La desambiguısation
La desambiguısation automatique des sens des mots est un probleme qui a ete
longuement etudie : Gale, Church et Yarowsky [30] citent par exemple un travail re-
montant a 1950. Dans ce chapitre, nous nous concentrons seulement sur les approches
les plus recentes. Une revue plus detaillee de la desambiguısation est presentee par
Krovetz [47] et Voorhees [27] et plus recemment une autre exposee par Mark San-
derson [79].
Plusieurs travaux ont etudie l’utilite de la desambiguısation pour la RI [32][47][77]
[78][80]. Ces efforts ont clairement montre que la desambiguısation est un probleme
plus subtil que l’on pensait. Une des premieres tentatives d’utiliser un desambiguıseur
avec un systeme de RI a ete faite par Stephen Weiss [100]. En utilisant son desambiguıs-
eur pour resoudre les sens de cinq mots ambigus extraits a la main de la collection
de ADI, Weiss a rapporte une amelioration de seulement 1% des performances de
recherche. Une des recherches les plus approfondies sur l’ambiguıte et la RI a ete
effectuee par Krovetz et Croft [47] qui ont examine manuellement deux collections
test (CACM et TIME) pour etudier l’ampleur de l’ambiguıte lexicale dans ces col-
lections, ainsi que son effet sur la performance de la recherche. Ils ont trouve que ces
collections, meme si elles sont relativement petites et specialisees, contiennent des
mots utilises dans de multiples sens ; ils ont cependant conclu que les performances
de recherche ne sont pas fortement affectees par l’ambiguıte des mots. En effet, les
documents qui partagent plusieurs mots avec la requete tendent a utiliser ces mots
avec les memes sens que ceux de la requete. Les auteurs presument neanmoins que
la desambiguısation des mots est probablement benefique a la recherche quand les
collections contiennent des themes divers, et qu’il y a peu de mots en commun entre
le document et la requete [47].
Selon Mark Sanderson [77], les premiers essais a grande echelle d’application d’un
desambiguıseur a un systeme de RI ont ete realises par Voorhees [95] et Wallis [99].
Voorhees a construit un desambiguıseur de mots base sur WordNet [28][60]. Elle a
applique le desambiguıseur aux collections de CACM, de CISI, de CRAN, de MED et
de TIME. Les tests menes sur ces dernieres collections desambiguısees ont eu comme
consequence paradoxale une baisse dans la performance de la RI. Wallis a employe
un desambiguıseur en tant qu’element d’une experience plus raffinee dans laquelle il
20
a remplace les mots dans une collection de textes par le texte de leurs definitions
issues d’un dictionnaire. Ceci a ete fait de sorte que des mots synonymes (qui ont
des definitions similaires) soient representes par les memes descripteurs, et donc que
les documents contenant ces mots synonymes soient representes par les memes des-
cripteurs. En remplacant un mot par sa definition, un desambiguıseur a ete employe
pour choisir la definition qui represente le mieux le mot. Wallis a realise des essais
sur les collections CACM et TIME, mais n’a trouve aucune amelioration significative
des performances de recherche.
Les resultats de Voorhees et de Wallis sont surprenants car il semble raisonnable
que la performance de RI augmente si l’ambiguıte est resolue. Parmi les problemes
qu’ils ont souleves, nous pouvons citer le manque de fiabilite au niveau de la perfor-
mance de leurs desambiguısations : par exemple, Voorhees a signale des problemes
lors du choix du sens correct de certains des mots dans les requetes. De tels problemes
ne permettent pas d’etablir clairement au juste ce qui a mal fonctionne lors de
l’experience. Pour cette raison, plusieurs travaux sur l’evaluation des desambiguıseurs
ont ete entrepris.
L’evaluation reste un probleme majeur de la recherche dans le domaine de la
desambiguısation car jusqu’a present l’evaluation d’un desambiguıseur necessite une
verification manuelle de ses propositions. Comme c’est un processus tres long, la
plupart des desambiguıseurs ont ete evalues seulement sur une poignee de mots.
Cependant, Yarowsky a presente une technique completement automatique pour
l’evaluation des desambiguıseurs [104] ; elle consiste a introduire, dans une collection
de textes, des mots ambigus crees artificiellement, appeles des “pseudo-mots”. Cette
technique consiste a remplacer toutes les occurrences de deux mots, par exemple
“banane” et “kalashnikov” par un nouveau mot ambigu “banana/kalashnikov”. Le
desambiguıseur est alors applique a chaque occurrence du nouveau mot. L’evaluation
de la precision du desambiguıseur est alors facilitee car on connaıt a l’avance le sens
correct de chaque occurrence des mots. Cependant, comme n’importe quelle simu-
lation, celle-ci a ses limites. La methode choisie pour former des pseudo-mots de
differents mots consiste a faire un choix aleatoire. Par consequent, les divers sens
d’un pseudo-mot sont peu susceptibles d’etre etroitement lies. Cela differe des mots
ambigus reels dont les sens peuvent dans certains cas etre relies d’une facon quel-
conque. La signification de cette difference est peu claire, et donc on ne peut pas
21
affirmer que l’ambiguıte introduite artificiellement correspond exactement a l’am-
biguıte que l’on trouve dans des situations reelles.
Bien que Yarowsky ait invente les pseudo-mots seulement pour l’evaluation des
desambiguıseurs, sa methode semble a priori bien adaptee a l’etude du rapport entre
l’ambiguıte des mots et la RI [77][78]. Pour verifier cette idee, Sanderson a fait
d’abord une premiere experience pour evaluer les performances d’un SRI sur une
collection de test. Ensuite, il a introduit de l’ambiguıte dans la collection en utilisant
des pseudo-mots. Ainsi, il a pu comparer les performances du SRI sur cette collection
accompagnee d’ambiguıte avec les performances du systeme obtenues sur la collection
initiale. De cette maniere, Sanderson peut changer a volonte la quantite d’ambiguıte
dans une collection. Ainsi, par exemple, des niveaux d’ambiguıte qui depassent de
loin ceux des collections test standards peuvent etre etudies. Cependant, l’avantage
principal d’utiliser des pseudo-mots est que la desambiguısation des pseudo-mots
peut etre controlee avec precision par l’experimentateur. Par consequent, les effets
d’un desambiguıseur sur les performances d’un SRI, fonctionnant a des niveaux va-
riables de precision, peuvent egalement etre etudies.
Suite a ces experimentations, Sanderson a montre que l’ambiguıte des mots a des
effets mineurs sur la precision de la recherche, confirmant vraisemblablement que
les strategies d’appariement (matching), entre la requete et le document, effectuent
deja une desambiguısation implicite. C’est a dire, quand un ensemble de mots appa-
raissent simultanement dans un contexte, que la signification appropriee de chacun
peut etre determinee (meme si chacun de ces mots pris individuellement est ambigu).
Nous reprenons l’exemple utilise par Vooheers ou, dans l’ensemble base, bat, glove,
hit , la plupart des mots ont plusieurs sens. Mais pris conjointement, ces mots font
reference au jeu du Baseball. Sanderson estime que, si la desambiguısation automa-
tique des mots est effectuee avec moins de 90% de precision, les resultats sont plus
mauvais que si on ne desambiguısait pas du tout.
Un etat de l’art sur cette question de desambiguısation des mots dans le cadre
de la RI est presente par Sanderson [79]. Les resultats obtenus par differents cher-
cheurs sont parfois contradictoires. A partir de ces experiences, nous pouvons tirer la
conclusion que, pour ameliorer les performances d’un SRI, il est necessaire d’utiliser
un desambiguıseur fonctionnant avec une grande precision.
22
Sanderson [79] et Zernik [106] ont egalement conclu que les dictionnaires ne four-
nissent pas une bonne source de definitions des termes (sens) pour les desambiguıseurs,
parce que leurs distinctions entre les definitions sont trop fines car souvent basees
sur des criteres grammaticaux plutot que semantiques. Heureusement, d’autres res-
sources externes sont devenues de plus en plus disponibles. Ces ressources representent
le sens de termes a travers les concepts qu’ils denotent. En plus, elles offrent des
connaissances en organisant les concepts dans une structure basee sur des relations
semantiques. Ceci offre des capacites non negligeables a la RI, meme si l’utilisa-
tion des concepts exige une etape de desambiguısation des termes qui les denotent
dans le texte. En effet, les connaissances presentes dans la ressource externe peuvent
etres utiles tant pour la desambiguısation que pour la representation du contenu
semantique des textes.
Voyons maintenant les travaux les plus representatifs qui utilisent des ressources
externes, principalement WordNet, pour representer le contenu semantique des textes.
2.3.2 Indexation conceptuelle/semantique
Dans la litterature, l’indexation conceptuelle (ou l’indexation semantique) a ete
presentee comme une solution pour pallier les defauts de l’indexation classique basee
sur des mots simples. Differentes methodes ont ete proposees. Nous pouvons les
repartir en deux categories qui ne sont pas totalement disjointes :
- Celles qui utilisent seulement les connaissances presentes dans le corpus [80][86][106] ;
- Celles qui utilisent les connaissances externes au corpus [64][71][83][88][89][97][98],
utilisent WordNet [60] ; et [45][46][99] utilisent le dictionnaire LDOCE9 [67].
Dans la suite, nous presentons seulement les methodes les plus representatives
qui utilisent les connaissances externes pour la desambiguısation [4][58][95]. Nous
presentons egalement deux approches qui etudient l’impact de la desambiguısation
sur les performances de la RI [32][77].
9The Longman Dictionary of Contemporary English.
23
Utilisation de WordNet pour la desambiguısation des sens de mots
Voorhees a exploite les connaissances codees dans WordNet pour ameliorer les
effets que les synonymes et les homographes ont sur les SRI bases sur les mots. Au
lieu d’utiliser les mots eux-memes, elle a utilise les concepts que ces mots denotent.
Dans cette direction, elle a essaye de voir si les synsets de WordNet peuvent etre
utilises comme des concepts dans un SRI a usage non limite a un domaine particu-
lier. Ainsi, elle a propose une technique pour desambiguıser les mots utilises lors du
processus d’indexation automatique. La technique consiste a selectionner un concept
pour chaque mot ambigu apparaissant dans les textes des documents et des requetes.
Pour ce faire, l’auteur utilise la base WordNet. Ainsi, l’approche proposee consiste
a selectionner un synset de WordNet comme un concept denote par un mot. Dans
WordNet, les synsets sont lies par differentes relations. Voorhees utilise l’ensemble
des synsets correspondants aux noms10 ainsi que les relations suivantes : antonymie,
hyperonymie/hyponymie (is-a) et meronymie/holonomie (part-of ).
La technique de desambiguısation utilisee dans ce travail est basee sur l’idee qu’un
ensemble de mots, apparaissant ensemble dans un contexte, determine la significa-
tion appropriee pour un autre mot, en depit du fait que chaque mot present dans
texte pris individuellement est ambigu (comme montre plus haut dans l’exemple des
mots dont l’ensemble denote le baseball). Pour desambiguıser un mot m, une tech-
nique a ete proposee pour classer les synsets auxquels m appartient. Le classement
est effectue en se basant sur la valeur de cooccurrence calculee entre le contexte du
mot en question et un voisinage contenant les mots du synset dans la hierarchie de
WordNet (Voorhees l’a appele hood).
Pour definir le voisinage d’un synset s donne, Voorhees considere l’ensemble des
synsets et les relations d’Hyponymie dans WordNet comme un ensemble de sommets
et d’arcs diriges d’un graphe. Par la suite, le voisinage de s est le plus large sous-
graphe connexe qui contient s et seulement les descendants d’un ancetre de s, et qui
ne contient aucun synset ayant un descendant qui inclut une autre instance d’un
membre (mot) de s. Le synset le mieux classe est selectionne comme etant le sens
du mot m dans le texte. Il est possible qu’un mot ne corresponde a aucun synset de
WordNet. Dans ce cas, aucun synset n’est selectionne.
10Dans WordNet, il y a quatre categories : les noms, les verbes, les adjectifs et les adverbes.
24
Apres l’etape de desambiguısation, vient l’etape d’indexation qui prend en compte
le sens des mots. Voorhees a utilise le modele vectoriel etendu introduit par Fox [29].
Dans ce modele, chaque vecteur est compose d’un ensemble de sous-vecteurs de
differents types de concept (appeles ctypes)11. Ainsi, un vecteur peut contenir trois
ctypes : les lemmes des mots qui n’apparaissent pas dans WordNet ou qui ne sont
pas des noms, les identificateurs des synsets des noms desambiguıses, et les lemmes
des noms desambiguıses.
Dans le modele vectoriel etendu, la similitude entre un document et une requete
est calculee comme suit :
sim(D, Q) =∑
ctypei
αisimi(Di, Qi) (2.1)
Avec simi, la fonction de similarite pour le ctypei, Di et Qi sont les iemes sous-
vecteurs des vecteurs D et Q, et αi, un nombre reel qui reflete l’importance du ctypei
relativement aux autres ctypes.
Pour evaluer son approche, Voorhees a mene des experimentations sur les col-
lections CACM [75], CISI, Cranfield 1400, MED, et TIME [41]. Elle a compare son
approche avec une approche basee seulement sur les lemmes de tous les mots du texte.
Plusieurs tests ont ete effectues en faisant differentes combinaisons avec les ctypes
et la valeur de α. Les resultats de ces experimentations ont montre paradoxalement
que les performances du SRI diminuent sensiblement dans le cas de l’utilisation des
collections desambiguısees.
Voorhees a pu constater que les requetes courtes sont difficiles a desambiguıser
et que ceci est la cause majeure de la degradation des performances de recherche.
Par consequent, elle a evalue son approche en desambiguısant seulement les mots
dans les documents. En effet, au lieu de selectionner un seul sens pour un mot m
11Ce modele permet la manipulation d’autres types de concepts que ceux qui sont representespar les descripteurs du document : les citations, les cocitations, les donnees bibliographiques, etc.Ainsi, chaque sous-vecteur represente un aspect different des documents de la collection.
25
ambigu appartenant a la requete, elle a ajoute tous les identificateurs des synsets
de m au vecteur de la requete. Les resultats de cette approche ont montre que les
performances du SRI diminuent sensiblement dans la plupart des collections utilisees.
Dans ce travail, la qualite de la desambiguısation n’a pas ete mesuree empi-
riquement. Une evaluation subjective a ete effectuee par l’auteur qui conclut que
l’etiquetage avec les sens tel qu’il est realise n’est pas exact, ce qui est la cause la
plus probable de la degradation des performances. L’auteur mentionne egalement une
grande difficulte a desambiguıser les mots dans des requetes courtes. Enfin, elle pense
que les relations is-a qui definissent une hierarchie generalisation/specialisation ne
sont pas suffisantes pour selectionner correctement le sens exact d’un mot a partir
des sens presents dans WordNet.
Combinaison de donnees lexicales et semantiques pour la representation
des textes
Pour construire une representation semantique de texte, Mihalcea et Moldovan
ajoutent des informations lexicales et semantiques aux documents et aux requetes
durant une phase de pretraitement dans laquelle le texte des requetes et des docu-
ments est desambiguıse. Le processus de desambiguısation se base sur l’information
contextuelle, et sur l’identification des sens des mots a partir de WordNet. Un nou-
veau mot est desambiguıse en tenant compte de sa relation avec les mots du corpus
qui sont deja desambiguıses. Ce processus iteratif leur permet d’identifier dans le
corpus d’origine les mots qui peuvent etre desambiguıses avec une grande precision.
Au lieu d’utiliser un algorithme de desambiguısation complet12 et peu precis, ils
ont opte pour un algorithme semi-complet qui desambiguıse environ 55% des noms
et des verbes mais avec un taux de precision de 92%. La sortie du desambiguıseur
est un texte dont les mots ont la forme suivante : Pos|Stem|POS |Offset.
Ou : Pos est la position du mot dans le texte ; Stem est le lemme du mot ; POS
est la categorie grammaticale du mot, et Offset est l’identifiant du synset de Word-
Net dans lequel ce mot apparaıt. Au cas ou aucun sens ne serait attribue par le
desambiguıseur, ou si le mot ne se trouve pas dans WordNet, le dernier champ reste
12Qui desambiguıse TOUT le texte.
26
vide. Apres l’ajout de ces etiquettes lexicales et semantiques, les documents sont
indexes. L’index est cree en combinant les mots simples (recherche basee mots), et
les etiquettes semantiques (recherche basee sens).
Au moment de l’interrogation, chaque requete est desambiguısee, ensuite elle
est adaptee a un format specifique qui incorpore l’information semantique, comme
trouvee dans l’index, et utilise les operateurs AND et OR.
Leur systeme a ete teste sur la collection Cranfield. Celle-ci contient 1400 docu-
ments du domaine de l’aerodynamique. Parmi les 225 requetes de cette collection,
les auteurs en ont choisi aleatoirement 50 et ont construit pour chacune d’entre elles
trois types de requetes :
1) Une requete contenant seulement les mots selectionnes a partir de la requete
initiale lemmatisee ;
2) Une requete contenant les mots cles de la requete initiale et les synsets qui lui
sont associes ;
3) Une requete contenant les mots cles de la requete initiale, les synsets qui leur
sont associes, et les synsets des hyperonymes des mots cles.
Nous reprenons ici l’exemple presente par les auteurs. Soit la requete suivante :
“Has anyone investigated the effect of surface mass transfer on hypersonic vis-
cous interactions ?”
Apres l’etiquetage lexical et semantique, la requete se presente comme suite :
Has anyone investigated |VB|535831 the effect |NN|7766144
of surface|NN|3447223 mass|NN|3923435 transfer |NN|132095
on hypersonic|JJ viscous|JJ interactions|NN|7840572|
Les auteurs rapportent que la selection des mots-cles (les 55%) a desambiguıser
(par l’algorithme semi-complet) n’est pas simple, et qu’ils utilisent pour cela huit
heuristiques [61]. Pour chaque requete, les trois types de requetes precitees sont
27
formees en utilisant les operateurs booleens AND et OR. Ainsi, pour la requete de
type 2 par exemple, les auteurs obtiennent :
(effect OR 7766144|NN) AND (surface OR 3447223|NN)
AND (mass OR 3923435|NN) AND (transfer OR 132095|NN)
AND (interaction OR 7840572|NN).
Suite a leurs experimentations, les auteurs ont pu constater que la combinaison
des mots-cles avec les synsets ameliore les performances du systeme de RI par rapport
a la recherche basee seulement sur les mots (+16% de rappel et +4% de precision).
Nous pensons que ce resultat est du au fait que la base WordNet ne couvre pas la
totalite du vocabulaire de la collection utilisee. Donc, une combinaison des synsets
avec les mots peut garantir une couverture de tout le vocabulaire en question. Ce
resultat est en accord avec d’autres resultats positifs obtenus par des chercheurs qui
ont fait une indexation combinee de la sorte [4].
En utilisant les hyperonymes, les auteurs ont constate une amelioration de 28%
du rappel mais une baisse de 9% de la precision. Il est probable que l’augmenta-
tion du rappel est du au fait que l’expansion a permis de retrouver des documents
pertinents mais qui ne partagent pas exactement les memes termes avec la requete.
En revanche, la degradation de la precision pourrait etre expliquee par le fait que
l’expansion a ete faite d’une maniere imprudente, ce qui ajoute parfois des concepts
a la requete qui ne sont pas en rapport avec son theme. Par consequent, le contenu
de la requete etendu devient bruite par rapport au contenu original, et les documents
reponses ne sont pas forcement pertinents pour la requete originale. Nous verrons
dans la suite des solutions possibles a ce probleme d’expansion imprudente [4][68].
Le modele DocCore
Baziz considere que le theme developpe dans un document (requete) est decrit
par un ensemble de concepts. Ainsi, au lieu de representer les documents (requetes)
par une liste de mots cles, il propose de les representer par des concepts. Pour ce
faire, il utilise une ressource externe pour extraire, a partir d’un texte, les termes qui
font references aux concepts decrits dans ce texte. Une etape de desambiguısation a
28
ete proposee afin d’associer chaque terme a un seul concept de la ressource externe
utilisee.
Baziz construit pour chaque document de la collection ce qu’il appelle un Reseau
Semantique de Document. Le modele de representation qu’il propose, DocCore, est
base sur un processus automatise faisant appel a une ressource externe pour identifier
les concepts du document et calculer les liens de proximite entre eux. Les arcs entre
les nœuds du reseau semantique sont ponderes en fonction de la proximite semantique
que peuvent avoir les deux nœuds correspondants. Le processus de desambiguısation
propose s’accomplit en trois etapes :
1) Extraction des concepts candidats : l’objectif de cette etape est d’ex-
traire tous les termes du document susceptibles de representer des concepts de la
ressource externe. Ces termes sont extraits en projetant13 le texte sur la ressource
externe. De ce fait, pour un texte donne, seuls les mots ou groupes de mots recon-
nus comme des entrees dans la ressource externe sont conserves. De cette facon, les
termes representant les concepts candidats sont extraits. Concernant la combinaison
des mots, le terme le plus long qui denote un concept est retenu. Une fois ces termes
extraits du document, un poids leur est affecte pour determiner leur importance dans
ce document. Pour cela, Baziz a propose une variante du TF.IDF qui tient compte
de la longueur du terme (en nombre de mots). Cette variante est appelee CF.IDF et
est calculee de la maniere suivante :
cf(T ) = count(T ) +∑
ST∈sub terms(T )
Length(ST )
Length(T ).count(ST ) (2.2)
ou T est un terme compose de n mots, Length(T) represente le nombre de mots
dans T et sub terms(T) le nombre de tous les sous-termes (qui doivent denoter a
leur tour des concepts de la ressource externe) derives de T : sous-termes de n-1
mots, sous-termes de n-2, ... et tous les mots simple de T.
13Faire un appariement entre le texte et les entrees de la ressource externe.
29
Une fois les termes14 importants extraits du document, ils sont utilises pour
construire le reseau semantique de ce document. Comme chaque terme extrait peut
avoir plusieurs sens, des mesures de similarite entre les differents sens des termes sont
calculees en vue de selectionner, pour chaque terme, le meilleur sens correspondant
dans la ressource externe.
2) Calcul de similarite entre concepts candidats : la mesure de similarite
entre deux nœuds represente une valeur condensee resultant de la comparaison de
deux sens possibles pour deux termes (donc deux concepts candidats) en utilisant la
distance entre les positions des deux concepts candidats dans la ressource externe,
ou encore les relations semantiques de celle-ci. Pour ce faire, Baziz emploie quatre
mesures de proximite semantique connues dans la litterature utilisant des structures
de reseaux semantiques ou hierarchiques (Lch [22], Lin [50], Lesk [81] et Resnik [70]).
3) Construction du reseau semantique : la derniere etape de l’approche
concerne la construction du “meilleur” reseau semantique qui represente au mieux
le contenu du document. Pour chaque terme du document, un score C score est
calcule pour chacun des concepts candidats qu’il denote. Le score d’un concept can-
didat est obtenu en sommant les valeurs de similarite qu’il a avec les autres concepts
candidats (correspondant aux differents sens des autres termes du document). Cela
permet, selon l’auteur, de desambiguıser les termes compte tenu du contexte du do-
cument. Les concepts candidats ayant les plus grands scores sont alors selectionnes
pour representer les nœuds du “meilleur” reseau semantique. Les liens (arcs) entre
ces differents nœuds sont etiquetes alors par les valeurs de similarite semantique
deja calculees dans la phase 2. Enfin, les reseaux semantiques des documents sont
construits pour chacune des quatre mesures (Lch, Lin, Lesk et Rensik). Lors de l’in-
dexation, les descripteurs des documents a indexer sont alors les nœuds des reseaux
semantiques.
L’auteur ne precise pas comment il procede pour construire les reseaux semantiqu-
es des requetes. D’apres l’exemple presente, l’auteur ne fait pas de desambiguısation
des termes de la requete, mais detecte seulement le(s) concept(s) denotes par les
termes les plus longs a partir de la requete en utilisant WordNet.
14Denotant les concepts candidats.
30
Etant donne que les requetes sont courtes, il nous semble difficile de construire
un reseau semantique pour chacune d’entre elles. Voorhees, dans sa methode de
desambiguısation, tient compte du contexte d’un mot pour le desambiguıser [95].
Elle a deja souleve le probleme de la desambiguısation des requetes courtes. Elle a
constate qu’il est difficile de desambiguıser les mots des requetes courtes, ainsi elle a
propose de desambiguıser seulement les documents.
Baziz a evalue son approche en utilisant une collection issue du projet Much-
More15 [7]. Cette collection contient 7823 documents qui traitent du domaine medical
et qui contiennent des resumes d’articles extraits de SpringerLink. La collection
contient egalement 25 topics a partir desquels les requetes sont extraites. L’auteur a
utilise WordNet en considerant ses synsets comme des concepts.
Pour les requetes, seule la detection des termes et leur ponderation avec CF.IDF
sont appliquees du fait de leur taille relativement reduite.
Impact de l’indexation conceptuelle : Seuls les concepts (nœuds) des reseaux
semantiques construits sont utilises pour indexer les documents. Ces concepts sont
ponderes en utilisant la variante CF.IDF. Les resultats ont montre que cette methode
ne permet pas d’ameliorer les resultats par rapport la methode classique basee sur
les mots cles. L’auteur justifie ce resultat par le fait que WordNet ne couvre pas
tout le vocabulaire utilise dans la collection (le taux de couverture represente 87%
du vocabulaire des documents et 77% du vocabulaire utilise dans les requetes). Par
consequent, et afin de couvrir la totalite des documents/requetes lors de l’indexation,
Baziz a fait une indexation combinee utilisant les mots cles et les concepts. De ce fait,
les concepts des reseaux semantiques ponderes avec CF.IDF sont ajoutes aux mots
qui sont resultants de l’indexation classique. De cette maniere, les performances du
systeme en precision ont ete ameliorees de 26%.
Impact de la ponderation avec les C scores : Baziz a egalement essaye d’evaluer
l’impact de la ponderation sur les performances de recherche. Ainsi, au lieu d’utiliser
le CF.IDF, il a utilise les C scores correspondant aux quatre mesures de similarite
15http ://muchmore.dfki.de (visite le 15-12-2006).
31
semantique utilisees. Les documents et les requetes sont, dans ce cas, representes a la
fois par des concepts et des mots cles. Lors de l’indexation, si le concept est denote par
un multi-mots, il est pondere par le C score, sinon il est pondere par le TF.IDF. Les
resultats ont montre que cette methode peut ameliorer les performances de recherche.
Tout comme Gonzalo [32], Baziz a propose une expansion de document en utili-
sant les synsets de WordNet. Ainsi, chaque concept du reseau semantique est etendu
par ses synonymes (les termes appartenant au meme synset de WordNet que lui).
Dans ce cas, deux ponderations differentes ont ete testees :
1) Les poids des concepts d’origine et de ceux qui sont issus de l’extension sont
calcules de la meme maniere : les resultats restent globalement meilleurs compares
a l’indexation.
2) Les synonymes ajoutes ont un poids inferieur (multiplie par 0.5) a ceux des
concepts d’origine : les resultats sont meilleurs compares a l’indexation classique, ce
qui est est en accord avec Voorhees [96] ou un facteur α entre 0 et 1 est utilise pour
ponderer les mots ajoutes (il est reporte que la valeur optimale pour α est 0.5). Ceci
paraıt valable aussi pour l’expansion de document [95].
Baziz a pu conclure que les poids utilisant les mesures de similarite donnent
des precisions meilleures que celles obtenues avec CF.IDF. Il a egalement conclu
que, dans sa methode de desambiguısation, le choix de la mesure de similarite a
un impact sur la precision de la selection des concepts adequats. En particulier, la
meilleure mesure, d’apres ses resultats, est celle de Resnik, suivie par les mesures de
Lin, Lch et Lesk.
Discussion
La plupart des travaux rapportes ici ne permettent pas une amelioration signi-
ficative des performances des SRI. Un des facteurs qui influencent les performances
est sans doute la qualite de la ressource externe utilisee, et surtout sa couverture
par rapport au vocabulaire du corpus. Dans son experience, Baziz a rapporte que
WordNet ne couvre pas tout le vocabulaire utilise dans la collection (le taux de cou-
verture represente 87% du vocabulaire des documents et 77% du vocabulaire utilise
32
dans les requetes) [4]. Par consequent, et afin de couvrir la totalite du vocabulaire
des documents/requetes, Baziz a fait une indexation combinee utilisant les mots-cles
et les concepts. C’est le seul moyen qui lui a permis d’avoir des resultats significatifs.
Ces resultats sont confirmes par Mihalcea et Moldovan, et Schutze et Pederson qui
ont constate qu’une indexation par concepts combinee avec une indexation par mots-
cles est plus performante qu’une indexation basee seulement sur les concepts [58][80].
Le deuxieme facteur duquel dependent les performances est la qualite (precision)
du desambiguıseur. Afin de mesurer l’impact de la desambiguısation sur les perfor-
mances de recherche, il faut evaluer le desambiguıseur utilise en termes de precision.
Nous presentons donc dans la suite, les travaux les plus representatifs qui se rap-
portent a ce champ de recherche. Ceci nous permettra de comprendre davantage les
raisons d’echecs des approches basees sur la desambiguısation des termes.
2.3.3 Evaluation de la desambiguısation
L’impact de la desambiguısation des termes sur les performances des SRIs a fait
l’objet de plusieurs travaux de recherche. En voici deux parmi les plus representatifs.
Usage d’une simulation d’ambiguıte a base de pseudo-mots
Sanderson simule l’ambiguıte dans une collection de test en utilisant des pseudo-
mots [104]. Un pseudo-mot de taille n a n sens differents. Afin d’eviter de creer une
ambiguıte au niveau des pseudo-mots eux-memes, un mot ne peut etre membre que
d’un seul pseudo-mot [77][78].
Dans ses experimentations Sanderson a utilise la collection de categorisation
de texte Reuters (creee par Hayes [35] et modifiee par Lewis [49]). La principale
difference entre la collection Reuters et les collections de test de RI est que Reuters
ne dispose pas d’ensemble de requetes avec les documents pertinents correspondants.
Neanmoins, les documents de Reuters sont balises par des codes de sujets assignes
manuellement. Sanderson se sert de ces codes pour utiliser Reuters comme une col-
lection de test. Ainsi, il divise aleatoirement la totalite des documents de Reuters
en deux ensembles egaux : Q (l’ensemble des requetes) et T (l’ensemble des tests).
Ensuite, l’ensemble S est defini comme l’ensemble de tous les codes de sujets qui ont
33
ete assignes a au moins un document dans Q et un document de T. Par consequent,
une recherche peut etre effectuee en selectionnant un des codes de sujets de S.
Par exemple, pour effectuer une recherche pour le code C, Sanderson selectionne
tous les documents dans Q qui sont etiquetes par C. Ensuite, il effectue une reinjection
de pertinence (relevance feedback) en utilisant les documents selectionnes auparavant
pour avoir comme resultat le code C, plus des mots des documents selectionnes. Le
resultat produit constitue une requete. De cette maniere, Sanderson a la possibilite
de varier la taille de la requete en jouant sur le nombre de mots selectionnes. La
requete est utilisee pour effectuer une recherche sur les documents de l’ensemble T.
Les documents qui sont etiquetes par C sont consideres pertinents pour cette requete.
La liste des documents retrouves est examinee pour voir a quel rang apparaissent
les documents etiquetes par C. En fonction de ce rang, des courbes rappel/precision
sont generees.
Sanderson compare les performances du SRI en effectuant d’abord des experiences
sur la collection initiale, ensuite des experiences sur la meme collection en y intro-
duisant de l’ambiguıte a l’aide des pseudo-mots. Ensuite, il etudie l’impact de la
desambiguısation des pseudo-mots, avec un desambiguıseur fonctionnant a differents
taux de precision, sur les performances de la RI.
Suite a ses experimentations, Sanderson a pu conclure que quand le desambiguıseur
fonctionne a un taux d’erreurs de 25%, les performances du SRI sont plus mauvaises
que celles qui sont obtenues en utilisant la collection ambigue. Avec un taux d’erreurs
de 10%, les performances du systeme sont similaires a celles qui sont obtenues sur
la collection ambigue. Il conclut que la desambiguısation peut etre benefique a la RI
quand les requetes sont courtes (un ou deux mots) et si le desambiguıseur ne fait
pas beaucoup d’erreurs (moins de 10%). Ceci confirme la conclusion de Krovetz et
Croft [47] selon qui, l’ambiguıte des mots a des effets mineurs sur la precision de la
recherche.
Le fait que l’ambiguıte des mots pose problemes au SRI seulement quand les
requetes sont courtes confirme vraisemblablement que les strategies de recouvrement
(matching) entre la requete et le document effectuent deja une desambiguısation im-
plicite.
34
Nous pensons que la desambiguısation partielle est une faiblesse des experiences
de Sanderson. Par exemple, sa desambiguısation du mot spring/bank donne le mot
“bank” ; or ce dernier mot peut etre employe dans plus qu’un sens dans le texte de
la collection.
Evaluation de l’impact d’un desambiguıseur base sur WordNet
Gonzalo et ses collegues proposent d’etudier le benefice d’une recherche a par-
tir d’une collection de documents completement desambiguısee [32]. Pour ce faire,
ils ont transforme une partie du corpus SEMCOR en une collection de test de RI.
SEMCOR, un sous-ensemble du corpus Brown, est desambiguıse manuellement avec
des synsets de WordNet. La collection ainsi construite permet d’evaluer un SRI
independamment des outils de desambiguısation. Elle permet egalement d’evaluer
l’impact de la desambiguısation des termes sur les performances des SRI et ce en in-
troduisant volontairement des erreurs de desambiguısation (a differents taux). Ainsi,
les auteurs peuvent determiner jusqu’a quel taux d’erreurs le SRI donne de meilleurs
resultats.
Pour construire la collection test, les auteurs ont pris un ensemble de documents
textuels de SEMCOR. A partir de chaque document, ils ont extrait des fragments de
texte. Chaque fragment contient une portion coherente de texte. En tout, 117 frag-
ments constituent leur collection test avec en moyenne 1331 mots par fragment. Pour
chaque fragment, un resume decrivant le contenu thematique a ete ecrit manuelle-
ment. Afin de desambiguıser les termes des resumes, les auteurs les ont etiquetes
manuellement par des synsets de WordNet. Plus precisement, les auteurs utilisent
les numeros de sens dans WordNet pour etiqueter un terme. Chaque etiquette est
composee de la categorie grammaticale (Part Of Speech ou POS), suivie du fichier
de WordNet auquel appartient le terme, suivie du numero du sens dans ce fichier.
Ainsi, le terme “debate” du fichier 10 de WordNet ayant le sens 1 sera etiquete par
“debate%1 :10 :1 : :”. Dans ce cas, le sens des termes est considere, mais les termes
synonymes ne sont pas encore identifies. Pour ce faire, les auteurs substituent chaque
sens par l’identifiant du synset qui lui est associe. Ainsi, “debate%1 :10 :1 : :” sera
substitue par l’identifiant du synset “argument, debate” (a discussion in which rea-
sons are advanced for and against some proposition or proposal ; “the argument over
35
foreign aid gœs on and on”).
Les resumes ont chacun une taille moyenne de 22 mots. Ils deviennent les requetes
pour la collection. Par consequent, pour chaque requete, il y a exactement une seule
reponse pertinente (le fragment pour lequel le resume a ete ecrit).
Dans leur etude experimentale, les auteurs ont utilise le systeme SMART [74]
avec trois espaces d’indexation differents : les mots initiaux des documents, les mots-
sens (word-senses) correspondant aux termes des documents (c’est a dire, la version
des documents desambiguıses manuellement), et les synsets de WordNet correspon-
dant aux termes des documents. En se basant sur ces trois espaces d’indexation, les
auteurs ont mene 6 experiences :
1. Les documents et les requetes sont representes par des mots simples ;
2. Les documents et les requetes sont representes par ce que les auteurs appellent
les mots-sens (ex. debate et argument seront substitues respectivement par
“debate%1 :10 :1 : :” et “argument%1 :10 :3 : :)” ;
3. Les documents et les requetes sont representes par les synsets de WordNet. En
d’autres termes, les mots-sens equivalents seront representes par un seul synset
(ex. “debate%1 :10 :1 : :” et “argument%1 :10 :3 : :)” seront representes par
l’identifiant n04616654 du synset correspondant) ;
4. Differentes versions de la collection sont produites en introduisant volontairement
des erreurs de desambiguısation a differents taux : 5%,10%,20%,30% et 60% ;
5. Pour completer l’experience precedente, une version de la collection a ete produite
en utilisant tous les sens possibles (dans leurs versions mot-sens et synset) pour
chaque terme. Ceci represente une limite pour la desambiguısation automa-
tique : on ne doit pas desambiguıser si la performance est plus mauvaise que si
l’on considere tous les sens possibles ;
6. Enfin, les auteurs ont produit une version non-desambiguısee pour les requetes
(avec les deux variantes mots-sens et synsets).
Les resultats ainsi obtenus (cf. tableau 2.1) representent la precision pour les
documents retournes en premiere position. Ils montrent que les meilleurs resultats
36
Tab. 2.1 – Pourcentage des documents corrects retrouves en premiere position [32]Experimentation % de documents correct re-
trouves en premiere position
Indexation (Id.) avec les synsets 62.0Id. avec les mots-sens 53.2Id. avec les mots simples 48.0Id. avec les synsets avec 5% detaux d’erreurs
62.0
Id. avec 10% de taux d’erreurs 60.8Id. avec 20% de taux d’erreurs 56.1Id. avec 30% de taux d’erreurs 54.4Id. avec tous les synsets possibles(pas de desambiguısation)
52.6
Id. avec 60% de taux d’erreurs 49.1Id. avec les synsets avec desrequetes non desambiguısees
48.5
Id. avec les mots-Sens avec desrequetes non desambiguısees
40.9
sont obtenus avec l’indexation par synsets ou 62% des documents pertinents ont ete
retrouves en premiere position. Ceci represente une amelioration de 29% par rapport
au resultat obtenu avec l’indexation par des mots simples qui est de 48%.
De son cote, l’indexation par mots-sens a permis de retourner 53.2% de docu-
ments pertinent en premiere position, ameliorant ainsi les performances de 11% (par
rapport aux mots simples).
Les resultats obtenus avec les synsets sont meilleurs que ceux obtenus avec les
mots-sens. Ceci peut etre explique par le fait que la representation par synset est
plus riche vu qu’un synset contient les synonymes d’un mot-sens.
Meme avec une indexation par les synsets et sans desambiguısation manuelle
(chaque terme est represente par tous les synsets possibles qui correspondent a ses
differents sens), les resultats (52.6%) sont superieurs a ceux qui sont obtenus par
la representation par mots simples (48%). Avec une methode aussi simpliste, une
interpretation possible de ce resultat est que la prise en compte des synonymes, qui
sont regroupes dans un synset, a un impact positif dans cette situation de recherche.
37
En analysant l’impact de la desambiguısation sur les performances du SRI, Gon-
zalo et al. ont pu conclure que, dans le cas de l’indexation par des synsets, moins de
10% d’erreurs de desambiguısation n’affecte pas sensiblement les performances. Et
a partir de 10% d’erreurs, les performances commencent a se degrader. Ces conclu-
sions sont en accord avec celles de Sanderson [77]. Neanmoins, l’indexation par des
synsets donne de meilleurs resultats que ceux de l’indexation par mots simples et
ce jusqu’a un taux d’erreurs de 30%. De 30% a 60%, les resultats ne montrent pas
des differences significatives entre l’indexation par synsets et l’indexation par mots
simples. Cette conclusion n’est pas en accord avec celle de Sanderson [77] qui pretend
qu’il vaut mieux desambiguıser avec au moins une precision de 90% pour avoir des
bonnes performances. Selon Gonzalo et al., la principale difference entre leur travail
et celui de Sanderson [77] est le langage d’indexation utilise. Tandis que Gonzalo
et al. utilisent des synsets qui regroupent les synonymes des mots-sens, Sanderson
utilise des pseudo-mots ambigus crees artificiellement (tels que “bank/spring”). Il
n’est pas garanti que ces pseudo-mots se comportent comme de vrais mots ambi-
gus. D’ailleurs, par desambiguısation, Sanderson veut dire selectionner - a partir de
l’exemple - bank ou spring qui restent eux-memes des mots ambigus.
Discussion
Comme note par plusieurs chercheurs ([77], [47]), la principale difficulte pour
ameliorer les performances de recherche est due a l’inefficacite des desambiguıseurs
utilises. En effet, il est judicieux de penser qu’en utilisant un desambiguıseur par-
fait (ayant une precision de 100%), les performances de recherche seront au moins
egales a celles d’une indexation basee sur les mots-cles. Les etudes menees jusqu’a
present ont montre que, pour ameliorer les performances de recherche, l’indexation
ne doit pas etre seulement basee sur les concepts mais egalement sur les mots, et ce
en grande partie a cause des erreurs provoquees par les desambiguıseurs.
Nous pouvons constater, a partir des travaux existants, que la prise en compte du
contenu semantique des documents (requetes) passe seulement par leur representation
par des concepts au lieu de simples mots. En effet, les documents (requetes) dans
ce cas sont consideres comme des sacs de concepts, et les relations semantiques qui
peuvent exister entre ces concepts ne sont pas exploitees. C’est pourquoi les docu-
38
ments traitant du meme theme que celui de la requete ne pourront pas etre retrouves
avec ces approches s’ils ne partagent pas les memes concepts avec cette requete. Pour
resoudre ce probleme, certains travaux ont propose d’utiliser des ressources externes
pour enrichir la representation du contenu des requetes. Ces travaux sont bases sur
l’expansion de requetes et visent a avoir une representation etendue du contenu de
la requete afin d’augmenter les chances de sa correspondance avec les documents qui
lui sont pertinents. Dans la section suivante, nous presentons les travaux les plus
representatifs qui traitent cet aspect.
2.4 Usage des ressources externes pour l’expan-
sion des requetes
Les techniques d’expansion de requetes sont apparues depuis plus de 30 ans [76].
En procedant par une expansion de requetes, on peut augmenter le rappel et/ou la
precision de recherche. Les techniques d’expansion de requetes peuvent etre reparties
en deux categories :
- Expansion basee sur les connaissances presentes dans le corpus : cette technique uti-
lise des donnees statistiques extraites de la collection etudiee (ex. co-occurrences
de termes [65], thesaurus de similarite [68], etc.). Elle peut etre egalement basee
sur l’injection de pertinence [14][33][84][102]. L’etape de desambiguısation des
mots n’est pas indispensable pour que cette technique fonctionne. Cette ap-
proche n’a pas rencontre beaucoup de succes ; ainsi, Peat a pu conclure que les
requetes etendues avec cette methode ne sont pas meilleures que les requetes
d’origine, et que des requetes etendues avec des mots choisis aleatoirement
donnent des resultats parfois meilleurs [65]. Mais avec la disponibilite des res-
sources externes, la methode suivante a vu le jour ;
- Expansion basee sur les ressources externes : [5][7][59][96] utilisent WordNet pour
ajouter des termes qui sont semantiquement lies a ceux presents dans la requete
initiale. Cette technique demande une desambiguısation des mots de la requete
initiale. Elle peut etre utile si la desambiguısation s’avere performante, notam-
ment dans le cas des requetes courtes qui sont difficiles a desambiguıser et qui
39
exigent donc une expansion [47][78].
Ces deux techniques peuvent etre combinees [11][62]. Par exemple, Bodner et
Song utilisent deux sources de connaissances differentes. La premiere reflete les
connaissances specifiques au domaine decrit a travers la collection utilisee. Il s’agit
d’une base de connaissances construite automatiquement en utilisant une methode
statistique. La deuxieme contient des connaissances universelles et est utilisee pour
completer les lacunes de la premiere base. Il s’agit d’une adaptation manuelle de
WordNet [11].
2.4.1 Expansion de requetes basee sur les relations lexico-
semantiques de WordNet
Voorhees examine l’utilite de l’expansion de requete par l’utilisation des rela-
tions lexicales-semantiques dans une grande collection contenant plusieurs domaines.
Elle utilise la collection TREC [34] ou chaque requete contient un ensemble de
champs identifies par des balises speciales. Le champ Narrative fournit une des-
cription detaillee de ce que constitue un document pertinent ; le champ Concepts
contient des mots et des expressions qui sont lies au theme de la requete. Le champ
Description contient une courte description de chaque requete generalement sous la
forme d’une simple phrase ; le champ Topic contient un resume de la requete ; le
dernier champ designe le domaine auquel appartient la requete (cf. figure 2.2).
Elle ajoute un nouveau champ a la requete : une liste de synsets de WordNet,
selectionnes a la main, contenant des mots en rapport avec le sujet de la requete
(Topic). Le but est de selectionner, pour une requete particuliere, les synsets qui ac-
centuent les concepts importants du sujet. Le choix des synsets a ete fait par l’auteur
en se basant sur sa propre comprehension de la requete entiere et sur le fait que les
synsets selectionnes seront utilises pour l’expansion.
Par exemple, concernant la requete 122, le synset drug a plusieurs descendants
dans WordNet a travers la hierarchie is-a (pharmaceutical, stimulants, intoxicants,
sedatives, etc.) mais qui ne sont pas tous relies au concept “cancer fighting”. Dans
ce cas, Voorhees ajoute seulement le synset qui est en relation avec les concepts de
la requete, c.-a-d. le synset pharmaceutical . La liste complete des synsets ajoutes a
40
Fig. 2.2 – Enonce de la requete 122 de la collection TREC-1
la requete 122 est : cancer , skin cancer , and pharmaceutical .
Rien n’a ete ajoute aux requetes dont les concepts n’ont pas des synsets corres-
pondants dans WordNet.
Une fois les requetes etendues par des synsets, le reste du processus est auto-
matique. Les champs de la requete originale sont d’abord indexes par le systeme
SMART [13]. Le processus d’expansion est lance quand le champ de synsets est at-
teint.
Pour un synset donne, il y a un large choix de mots a ajouter a un vecteur de
requete : on peut ajouter au choix seulement les synonymes presents dans le synset,
ou bien tous les descendants presents dans la hierarchie is-a, ou bien tous les syno-
nymes presents dans les synsets qui ont un lien quelconque avec le synset original,
etc. Le processus d’expansion est parametre pour faciliter la comparaison de l’effi-
cacite d’une variete de ces schemas. Tous les synonymes presents dans les synsets
ajoutes a la requete sont utilises lors du processus d’expansion.
Voorhees utilise le modele vectoriel etendu presente par Fox [29]. Chaque vecteur
de requete est compose de sous-vecteurs correspondant a differents types de concepts
(appeles ctypes) ou ctype correspond a une relation lexicale. Un vecteur de requete
41
a potentiellement onze ctypes comme par exemple : un pour les mots originaux de
la requete, un pour les synonymes, un pour chaque type de relation present dans la
categorie des noms de WordNet, etc.
Lors des experimentations, l’efficacite du systeme a ete evaluee en fonction des
types de relations utilises pendant l’expansion et le poids relatif donne a chaque type
de relation (les αi dans la fonction de similarite). Quatre types d’expansion ont ete
effectues :
1. Seulement par les synonymes ;
2. Par synonymes plus tous les descendants dans la hierarchie is-a ;
3. Par synonymes plus les parents plus tous les descendants dans la hierarchie
is-a ;
4. Par synonymes plus tous les synsets lies directement au synset donne. La va-
leur de α du sous-vecteur des mots originaux est plus eleve que celles des α des
autres sous-vecteurs.
Les resultats ont clairement montre qu’aucune des strategies d’expansion n’ameliore
de maniere significative les performances de recherche comparees aux requetes non
etendues. Etant donne que l’expansion de requete telle qu’elle est utilisee ici est
une methode qui sert a ameliorer le rappel, il n’est pas etonnant que les requetes
longues beneficient moins du processus d’expansion que les requetes courtes. Voo-
rhees a mentionne que certaines requetes courtes ont pu beneficier du processus
d’expansion. Supposant que les requetes courtes ont le potentiel d’etre sensiblement
amelioree par l’expansion, Voorhees a essaye de voir si ce potentiel peut etre revele
par un procede completement automatique. Ainsi, elle a propose un algorithme d’ex-
pansion automatique. De nouveau, les resultats n’ont pas ete satisfaisants.
Voorhees signale que les requetes longues sont tres sensibles a l’expansion et
provoquent des resultats negatifs. En effet, si l’expansion n’est pas controlee, elle
devient “agressive” et produit un bruit dans la requete. Dans cette direction, Qiu
et Frei [68] ont revele comment une expansion peut etre utile quand la requete est
etendue en choisissant soigneusement les mots a ajouter. Contrairement aux autres
methodes, leurs requetes sont etendues en ajoutant les mots qui sont similaires au
42
concept de la requete16, plutot que de choisir les mots qui sont similaires aux mots
de la requete. Ils proposent un modele d’expansion de requetes base sur un thesaurus
de similarite construit automatiquement. Ce thesaurus reflete la connaissance du
domaine decrit dans la collection de documents a partir de laquelle il est construit.
Il est represente par une matrice contenant des similarites mot-mot. Le principe de
leur methode peut etre compare a la traduction d’un texte d’une langue naturelle
vers une autre : la consultation des dictionnaires pour un mot ne donne pas souvent
la reponse finale. Au contraire, le traducteur qui connaıt la signification du texte
doit choisir le mot approprie a partir d’une liste entiere de traductions possibles.
Les experimentations qu’ils ont menees sur les collections MED, CACM et NPL
ont donne de bons resultats. Les performances ont ete ameliorees respectivement
de 18.31%, 22.85% et de 29.21%. Dans cette meme idee d’etendre les requetes d’une
maniere “controlee”, Baziz prend en compte le contexte de toute la requete et suppose
que meme si chaque mot dans une requete est individuellement ambigu, l’ensemble
des mots de cette requete pris ensemble contribue a exprimer une meme idee (sens)
[4][6].
2.4.2 Utilisation de WordNet pour une expansion “guidee”
de requetes
La demarche d’expansion de requete suivie par Baziz consiste d’abord a detecter
les termes de la requete qui renvoient a des concepts d’une ressource externe, puis,
de les etendre par des termes representant d’autres concepts proches de ceux de la
requete. Ces termes sont identifies grace aux liens semantiques entre concepts qu’offre
l’ontologie. Baziz rapporte que la desambiguısation s’effectue en meme temps que
l’expansion, en prenant en compte le contexte de la requete et en cherchant a iden-
tifier les concepts correspondant aux plus longs termes que l’on peut former a partir
des mots de la requete [4][6].
Baziz a etudie trois points importants lors du processus d’expansion de requete :
i) L’apport de chaque type de relation semantique ;
ii) L’impact de la ponderation des termes ajoutes ;
16Qui veut dire la requete entiere (selon la propre terminologie des auteurs).
43
iii) La quantite de termes a ajouter.
En etudiant l’usage de differents types de relations semantiques pour l’expansion
de requete, Baziz a propose les trois methodes suivantes :
1) L’expansion aveugle : chaque terme de la requete est etendu en utilisant les
differentes relations semantiques. Le resultat de cette expansion est un ensemble de
concepts candidats (nœuds possibles) relies au terme. Une expansion aveugle consiste
alors a ajouter a la requete initiale tous les concepts possibles pour toutes les rela-
tions.
Une autre maniere de proceder est de faire une selection des concepts qui sont lies
aux termes de la requete initiale. Ainsi, Baziz a propose une technique qui permet de
selectionner le “meilleur” concept a ajouter au moment de l’expansion. En se basant
sur cette technique, il a propose deux methodes d’expansion :
2) L’expansion moderee : ajouter pour chaque terme de la requete, le meilleur
(un seul donc) concept par type de relation. Dans ce cas, le nombre de concepts
ajoutes est egal au nombre de termes dans la requete. Cette approche traduit l’hy-
pothese que l’utilisateur utilise differents termes pour faire allusion a plusieurs concepts
differents dans sa requete.
3) L’expansion prudente : ajouter pour toute la requete, le meilleur (un seul
donc) concept (pour chaque type de relation). Cette approche traduit l’hypothese
que meme si les termes de la requete peuvent decrire individuellement des concepts
differents, ensemble ils contribuent a denoter un seul concept (idee). Cette idee a
ete developpee par Qiu et Frei qui representent le contenu de la requete par un seul
concept qu’ils appellent “concept virtuel” [68]. Cependant Qiu et Frei ne considerent
pas differents types de relations vu qu’ils utilisent un thesaurus de similarite mot-mot.
Ces trois methodes d’expansion ont ete evaluees pour mesurer leurs impacts sur
les performances de recherche. Ainsi, Baziz a utilise la collection CLEF-2001. Il a
egalement utilise WordNet pour la desambiguısation et l’utilisation des relations
semantiques. Les resultats presentes montrent que les trois methodes d’expansion
44
ameliorent les performances de recherche. Les meilleurs resultats ont ete obtenus
avec l’expansion prudente (+55%). Ceci confirme la conclusion tiree par Qiu et Frei,
a savoir qu’une expansion peut etre utile si la requete est etendue en choisissant
soigneusement les mots a ajouter [68].
Baziz a egalement etudie l’impact de la ponderation des termes ajoutes a la
requete. Les resultats obtenus montrent qu’une ponderation uniforme (egale a 1) des
termes d’origine et des termes ajoutes degrade les performances de recherche de plus
de 80%. Baziz a egalement remarque que les performances s’ameliorent sensiblement
des qu’il affecte aux termes ajoutes un poids inferieur a celui des termes d’origine.
Par exemple, en affectant le poids 0.9 aux termes ajoutes, les performances ont aug-
mente de plus de 60%. Tout comme Voorhees [94], Baziz a remarque l’existence d’un
poids optimal a utiliser pour les termes ajoutes (0.5) ce qui a permis d’ameliorer les
performances de 78%. Voorhees a trouve la meme valeur (0.5) mais il ne s’agit pas
du poids des termes ajoutes mais plutot d’un nombre reel qui reflete l’importance de
termes ajoutes relativement aux termes d’origine.
Finalement Baziz a etudie l’impact du type de relation utilisee lors de l’expan-
sion sur les performances de recherche. Ainsi, il a pu conclure que l’apport de la
relation d’holonymie, est le moins important, puis vient celui de sa relation inverse,
la meronymie. La relation d’hyponymie qui exprime la specialisation a un meilleur
apport mais vient derriere sa relation inverse l’hyperonymie. Cette derniere a re-
tourne un resultat superieur a celui de la synonymie.
L’effet de plusieurs expansions successives d’une requete s’est revele negatif sur la
precision du systeme. En etudiant le nombre de termes a ajouter a une requete lors
de l’expansion, Baziz a conclu que le nombre de termes, a retenir dans le processus
d’expansion, doit etre limite pour ne pas engendrer un bruit trop important.
2.4.3 Discussion
Nous avons montre que l’expansion de requete peut etre un moyen efficace pour
avoir une representation riche du contenu de la requete, et ameliorer ainsi la per-
formance du systeme. Le point cle de la reussite de cette methode reside dans le
choix “prudent” des concepts a ajouter a la requete initiale. En effet, une expansion
45
“aveugle” ne fait que degrader les resultats en ajoutant du bruit a la description
de la requete. Malgre l’apport des approches existantes, une limite persiste encore.
En effet, meme apres l’expansion, la requete est toujours consideree comme un sac
de concepts. Ceci ne favorise pas la resolution d’une requete precise qui dispose
d’une structure semantique complexe, et demande ainsi un traitement specifique
pour mettre en exergue tous les aspects lies a son contenu semantique. Nous sommes
convaincus que la prise en compte des dimensions de domaine est une solution pos-
sible pour satisfaire des requetes precises. C’est pourquoi nous etudions, dans la
section suivante, les travaux les plus representatifs qui s’interessent a la notion de
dimensions et qui sont proches de notre problematique.
2.5 Dimensions & RI
A notre connaissance, les travaux qui s’interessent a la notion de dimensions sont
lies principalement aux developpements d’outils de navigation dans des bases de
documents. Ces outils sont bases sur le paradigme de la recherche dite “basee sur
les facettes” (faceted search) [36][54][66][82][105] ou “basee sur les vues” (view-based
search) [52][53]. Dans la litterature, les termes “facette”, “vue”, et “dimension” sont
utilisees pour designer la meme chose. La recherche basee sur les facettes est un
paradigme qui a ete propose a la fin des annees 1920, et qui retrouve un regain
d’interet (durant la conference SIGIR 2006, il a ete organise un atelier17 sur ce
theme). Dans la suite, nous decrivons ce paradigme et nous examinons quelques
travaux qui s’inscrivent dans ce champ de recherche.
2.5.1 Le paradigme de la recherche basee sur les facettes
La recherche multi-facettes est un paradigme base sur la classification a facettes
qui a ete elaboree par le mathematicien et bibliothecaire S. R. Ranganathan. Celui-ci
a propose ce paradigme comme reponse au probleme suivant : “Comment ranger les
livres dans une bibliotheque quand on sait qu’il y en a des grands et des petits, des
livres d’histoire et des romans, des auteurs qui ont ecrit les deux et des collections
reliees qui traitent de tout et que l’on doit y ajouter les dossiers correspondant aux
differents sujets ?”
17SIGIR’2006 Workshop on Faceted Search : http ://facetedsearch.googlepages.com/
46
D’un point de vue editeur, l’idee derriere le paradigme de recherche multi-facettes
est qu’un document, pour etre classe, possede generalement differentes caracteristiques
(facettes), chacune peut etre decrite par une hierarchie de concepts differente [72].
De cette maniere, les resultats de recherche (les documents) peuvent etre organises a
travers des facettes (generalement) orthogonales. Par exemple, dans une bibliotheque
numerique, les resultats peuvent etre groupes par auteur, annee de publication, theme,
etc.
D’un point de vue utilisateur, l’idee est de permettre a l’usager, a travers une
interface graphique, d’avoir plusieurs points d’entree pour explorer une base de do-
cuments. Dans ce cas, les facettes offrent differentes hierarchies (generalement or-
thogonales) que l’utilisateur peut utiliser pour naviguer dans une base. Les facettes
peuvent ainsi etre vues comme une maniere de categoriser le contenu d’une base
de documents pour permettre des interactions utilisateur intuitives. Les hierarchies
decrivant les facettes offrent a l’usager une vue d’ensemble sur le contenu de la
collection, et un moyen pour le guider a formuler son besoin et la requete correspon-
dante. Elles sont donc utilisables pour la navigation, la recherche, et l’organisation
des reponses [53][105].
Generalement ce paradigme marche bien dans le cas ou les documents sont an-
notes (de preference manuellement), la collection est statique et relativement de
petite taille, et son contenu est homogene [42].
Bien que d’une maniere generale la structure d’une facette soit hierarchique, il
peut y avoir des facettes dont la structure est plate. Dans ce cas, la facette est
representee par un ensemble18 de termes sans aucune structure entre eux [21]. Le
contenu des facettes peut correspondre a des proprietes thematiques ou a des pro-
prietes meta-donnees19 des documents [40].
18Generalement de taille reduite19Langue, type du document, date de creation, etc.
47
2.5.2 Outils bases sur le paradigme de recherche multi-facettes
Le systeme du musee de l’Universite d’Helsinki
Les auteurs utilisent le paradigme de recherche multi-facettes pour developper
une interface graphique pour la navigation dans une base de photos. Celles-ci sont
extraites a partir de la base du musee de l’Universite d’Helsinki. Elles contiennent
des personnes, des evenements, des lieux, des objets physiques, etc. Les auteurs pro-
posent d’utiliser une ontologie pour l’annotation des photos et le developpement de
l’interface. L’ontologie est construite manuellement et son contenu est extrait a par-
tir de celui des photos. Elle est constituee d’un ensemble de categories hierarchiques
qui correspondent a des facettes. L’annotation des photos est egalement effectuee
manuellement en utilisant les instances des concepts de l’ontologie.
Fig. 2.3 – Interface d’acces multi-vues [38][39]
A travers l’interface, l’utilisateur peut naviguer dans les facettes de l’ontologie
pour : i) formuler son besoin d’information au cas ou il ne connaıt pas le contenu de
la base ; et ii) formuler la requete correspondante.
L’ontologie est egalement utilisee par le systeme pour “fabriquer” des reponses
plus significatives en proposant a l’utilisateur, non seulement l’image qu’il cherche,
48
mais aussi les images dont le contenu est proche.
Dans la figure 2.3, nous presentons une copie d’ecran de l’interface developpee
par Hyvonen et ses collegues. Du cote gauche de l’ecran, l’utilisateur peut choisir
les facettes ontologiques (ontological view) selon lesquelles il veut explorer la base.
Ceci s’effectue en choisissant des entrees depuis le menu deroulant add more views.
Ces facettes ontologiques sont celles qui ont ete employees pour annoter manuelle-
ment les photos. Elles indiquent a l’utilisateur les termes pertinents lies aux photos.
L’utilisateur peut focaliser son besoin d’information en naviguant dans ces facettes.
En choisissant des entrees des facettes ontologiques, un filtrage de la base se fait,
et les photos correspondantes apparaissent sur la partie droite de l’interface. Dans
la figure 2.3, le choix est Personne=GarlandBinder et Place=Building. Une photo
annotee par ces deux termes est ainsi affichee20. Le systeme recommande egalement
d’autres photos en se basant sur leurs annotations et les definitions ontologiques. A
titre d’exemple, le systeme peut recommander des photos ou le meme GarlandBinder
figure mais pas dans un batiment, ou encore des photos prises dans un batiment mais
decrivant d’autres personnes.
La difficulte principale mentionnee par les auteurs est l’effort supplementaire
necessaire pour la creation de l’ontologie et les annotations detaillees des photos. Ils
ne presentent aucune evaluation, ni au niveau des performances de recherche ni au
niveau de l’utilisabilite de leur interface.
Le systeme Flamenco
Le systeme Flamenco21 propose une interface (cf. figure 2.4) qui permet a la fois
la recherche par mot-cles et la navigation dans une base d’images selon plusieurs
facettes [36][105]. La base d’images gerees par le systeme est annotee manuellement
par des descriptions textuelles. Chaque image est associee manuellement a une ou
plusieurs facettes qui sont elles-memes fabriquees manuellement. Le systeme permet
d’afficher ces facettes (hierarchiques ou plates) en proposant des liens hypertextes
sur lesquels l’utilisateur peut cliquer pour faire une recherche. Chaque fois que l’uti-
lisateur clique sur un lien, un ensemble d’images est propose par le systeme. Lors de
20Le choix de la photo a afficher en premier en cas ou plusieurs photos sont annotees par lesmemes termes n’a pas ete evoque par les auteurs.
21http ://flamenco.berkeley.edu/
49
la recherche par mots-cles, la notion de multi-facettes n’est pas prise en compte, et
le systeme affiche tout simplement les images qui sont annotees par ces mots22.
Fig. 2.4 – Interface multi-facettes du systeme Flamenco
2.5.3 Fabrication des dimensions/facettes
La plupart des travaux existants construisent les facettes manuellement. Une
premiere methode consiste a diviser une ressource existante (ontologie, thesaurus,
etc.) en differentes hierarchies, chacune correspond a une facette. Cette methode a
22Le choix de l’ordre dans lequel les images doivent etre affichees n’est pas discute par les auteurs.
50
ete adoptee par Aussenac-Gilles et Mothe qui ont divise manuellement une onto-
logie de domaine en differentes hierarchies dans le but de developper une interface
d’acces multi-facettes [1]. Une autre methode consiste a fabriquer individuellement
les facettes. Dans ce cas, elles peuvent etre structurees separement ou dans une seule
ontologie [39][52].
En ce qui concerne la construction automatique de facettes, le peu de travaux
qui s’interessent a cet aspect n’ont pas encore conduit a des resultats aboutis mais
proposent seulement quelques idees [101][26][87].
Dakka et ses collegues ont propose un algorithme qui permet d’enrichir automa-
tiquement des facettes existantes [26]. Ils utilisent des techniques de classification
supervisee pour classer des nouveaux termes dans des facettes existantes. Pour ce
faire, ils utilisent une base d’images annotees manuellement. A chaque image est as-
socie un ensemble de mots-cles, chacun appartenant a une des facettes. Pour enrichir
une facette F, les auteurs utilisent WordNet pour extraire les synonymes des mots
utilises pour annoter les images appartenant a F. Ces synonymes seront ajoutes au
vocabulaire de F. Les auteurs utilisent la structure de WordNet pour organiser le vo-
cabulaire de chaque facette “enrichie” autour d’une hierarchie. Pour cela, ils utilisent
des heuristiques pour extraire automatiquement des relations (generique/specifique,
et equivalent) entre les mots du vocabulaire de F.
La limite de cette methode est que l’algorithme utilise est supervise, par conseque-
nt, les facettes doivent etre connues a l’avance, et aucune nouvelle facette ne peut
etre decouverte. Une idee interessante serait de decouvrir automatiquement des nou-
velles facettes, ce qui pourrait passer par trois etapes : i) decouvrir automatique-
ment, et d’une maniere non supervisee, a partir d’une base textuelle, un ensemble de
termes candidats pour le vocabulaire d’une facette ; ii) regrouper automatiquement
les termes qui appartiennent a la meme facette ; iii) construire la structure de chaque
facette.
Pour franchir la premiere etape, Dakka et ses collegues ont propose un algorithme
qui se base sur des connaissances externes [101]. L’idee est que les termes utilises
dans les documents sont specifiques et ne decrivent generalement pas la facette. Par
exemple, dans un article de presse, un journaliste va mentionner “Jacques Chirac”
51
sans dire qu’il s’agit d’un “homme politique” ou qu’il est originaire de “l’Europe”
ou meme de “France”. Ainsi, pour decouvrir des termes generiques qui decrivent
les facettes, les auteurs utilisent des ressources externes23 pour etendre le contenu
des documents. L’idee de base est d’interroger ces ressources et de voir quels termes
co-occurrent souvent avec les termes de la base. L’hypothese est que les termes qui
decrivent les facettes sont des termes rares dans la base de documents mais qui co-
occurrent frequemment dans les ressources externes avec les termes de la base. Le
contenu de chaque document est alors etendu en utilisant certains termes de la res-
source externe, et ces documents etendus sont par la suite utilises pour extraire les
facettes. Finalement, les auteurs font l’hypothese que les termes candidats doivent
etre peu frequents dans les documents originaux, mais frequents dans les documents
etendus. Ce travail est en cours d’elaboration, et les auteurs ne presentent aucune
evaluation experimentale.
Pour franchir la deuxieme et la troisieme etape, Stoica et Hearst proposent de
decouper WordNet en facettes en utilisant la relation d’hyperonymie (is-a) [87].
L’algorithme propose suppose que chaque document de la collection est annote par
une description textuelle. Celle-ci est utilisee pour fabriquer les hierarchies des fa-
cettes. Le processus consiste a selectionner un ensemble de termes (selon certains
criteres statistiques simples) a partir des descriptions textuelles. L’ensemble des
termes selectionnes forme un “noyau d’arbre” (tree core). Ce dernier est enrichi par
des termes extraits de WordNet. Ces termes appartiennent aux chemins d’hyperony-
mie qui existent entre les termes du noyau d’arbre dans WordNet. L’etape suivante
consiste a reduire la taille du noyau d’arbre enrichi. Pour ce faire, les auteurs utilisent
des criteres simples comme un concept pere qui a moins de x fils est elimine. Fina-
lement, ils suppriment les nœuds tres generiques de sorte a produire les hierarchies
desirees. Quelques experiences ont ete effectuees afin d’evaluer l’algorithme propose.
Comme l’algorithme est destine a etre utilise par des architectes d’informations (in-
formation architects), son evaluation a ete effectuee par des utilisateurs de ce type.
85% des 34 participants ont souhaite utiliser l’outil dans leur travail.
23Comme WordNet ou Wikipedia.
52
2.5.4 Discussion
La recherche multi-facettes est un paradigme prometteur pour la resolution des
requetes precises. Toutefois, les approches basees sur ce paradigme ne peuvent fonc-
tionner que dans un cadre limite. En effet, les documents doivent etre annotes de
preference manuellement. Ceci impose donc une limite sur la collection qui doit etre
statique et relativement de petite taille, et dont le contenu doit etre homogene.
Vu que la recherche se fait par navigation, une grande taille de la hierarchie de
concepts peut representer une surcharge cognitive a laquelle l’utilisateur doit faire
face pour choisir les entrees qui l’interessent. Dans ce sens, il y a quelques tentatives
pour afficher dynamiquement les hierarchies de concepts a l’utilisateur, mais il n’y
a pas encore de resultats aboutis [90]. A notre avis, ceci restera un probleme delicat
dans le sens ou les requetes precises contiennent une terminologie tres specifique qui
demande une navigation profonde dans la hierarchie de concepts.
La complexite de la structure semantique des requetes precises represente une
autre difficulte que les interfaces multi-facettes n’arrivent pas a surmonter. En ef-
fet, ce type de requetes peut contenir des operateurs, et/ou mettre en relation
des concepts qu’elles contiennent. Ceci demande un traitement specifique pour in-
terpreter la semantique vehiculee par la structure de la requete.
Les travaux bases sur le paradigme de recherche multi-facettes supposent que les
facettes existent, et que les documents leurs sont associes manuellement. A notre
connaissance, le seul travail qui associe automatiquement des documents a des fa-
cettes est celui de Aussenac-Gilles et Mothe [1].
Tel qu’il est utilise, le paradigme de recherche multi-facettes represente une
maniere de structurer une collection de documents sous forme de “bases de donnees”
ou les facettes correspondent a des attributs. Ainsi, pendant la navigation, l’usa-
ger choisit les attributs qui l’interessent et le systeme lui fournit leurs valeurs. Les
systemes existants n’ont pas ete testes en termes de performance de recherche. A
notre connaissance, la seule evaluation a ete effectuee par Yee et ses collegues qui
ont fait une etude d’utilisabilite d’une interface multi-facettes sur une base d’images
[105]. Leurs resultats ont montre que les utilisateurs preferent utiliser ce type d’in-
53
terface aux interfaces d’interrogation basees sur les mots-cles.
2.6 Conclusion
Nous nous sommes interesses aux travaux qui utilisent les ressources externes
pour prendre en compte la semantique vehiculee par les documents et les requetes.
Ainsi, nous avons pu identifier une classe d’approches qui representent les documents
(requetes) par des concepts au lieu des mots-cles. Ces approches necessitent un pro-
cessus de desambiguısation afin d’associer des concepts aux termes presents dans les
documents (requetes). Les resultats obtenus jusqu’a present ont montre les limites
de ces approches par rapport a celles basees sur les mots-cles. Un premier facteur
qui influe sur les performances d’un SRI base sur les concepts est la precision du
desambiguıseur utilise. Pour cette raison, nous avons examine les travaux les plus
representatifs qui s’interessent a l’evaluation des desambiguıseurs dans le cadre de
la RI. Une telle evaluation permet de savoir avec precision l’impact de la precision
du desambiguıseur sur les performances de recherche. De cette facon, la plupart des
travaux ont pu conclure que l’ambiguıte n’a pas un effet dramatique sur les perfor-
mances de recherche. Au cas ou un desambiguıseur est utilise, il faut qu’il soit tres
precis (≥90%) pour qu’on puisse avoir des bons resultats.
Un deuxieme facteur dont depend les performances de recherche est le degre de
couverture de la ressource externe utilisee par rapport au vocabulaire du corpus. A ce
sujet, les rares travaux qui ont obtenu des resultats positifs, sont ceux qui combinent
l’indexation conceptuelle avec l’indexation a base de mots-cles.
Le troisieme facteur dont depend les performances de recherche est la methode
utilisee pour “interpreter” le contenu semantique du document et du besoin d’infor-
mation. Dans les approches existantes, une fois les concepts extraits, les documents
(requetes) sont considere(e)s comme des sacs de concepts. Par consequent, les rela-
tions semantiques qui peuvent exister entre les differents concepts qu’ils contiennent
ne sont pas exploitees. C’est pourquoi des documents qui ne partagent pas les memes
concepts avec une requete ne pourront pas etre retrouves avec ces approches meme
s’ils sont pertinents pour cette requete. L’expansion de requetes represente une so-
lution possible a ce probleme. Plusieurs travaux se sont interesses a cet aspect, mais
54
rares sont ceux qui ont eu des resultats positifs. Face a ces echecs, des chercheurs ont
propose d’etendre les requetes d’une maniere “prudente”. Dans cette direction Baziz
a obtenu des resultats positifs. Baziz s’est egalement interesse a la representation des
documents par des reseaux semantiques qui mettent en relation les concepts du meme
document. Cependant, ces reseaux sont utilises seulement pour la desambiguısation
et pas durant le processus de RI. Meme s’il a propose une approche d’expansion
prudente qui lui a permis d’ameliorer les resultats, Baziz considere de nouveau la
requete etendue comme un sac de concepts.
Ces resultats nous ont persuades que le fait de passer d’un niveau mot a un niveau
concept n’est pas suffisant pour prendre en compte le contenu semantique des docu-
ments (requetes), et resoudre ainsi des requetes precises. Nous sommes convaincus
que la prise en compte des dimensions de domaine represente un moyen pour at-
teindre ces objectifs. Nous avons donc etudie les principaux travaux qui s’interessent
aux dimensions de domaine en RI.
Les travaux qui s’interessent aux dimensions concernent pour le moment la re-
cherche basee sur le paradigme multi-facette. Les approches basees sur ce type de re-
cherche sont prometteuses, mais leur application reste limitee a petite echelle vu que
tout le processus d’annotation des documents est manuel. La complexite de la struc-
ture des requetes precises represente une difficulte que les interfaces multi-facettes
n’arrivent pas a surmonter. De plus, ce type de requetes contient une terminologie
tres specifique qui demande une navigation profonde dans les hierarchies de concepts
qui definissent les facettes. Ceci represente une lourde surcharge cognitive pour l’uti-
lisateur lors du choix des entrees qui l’interessent.
Pour conclure, nous pouvons constater que, malgre les efforts fournis par de
nombreux chercheurs, la prise en compte du contenu semantique des documents
(requetes) reste encore un probleme largement ouvert. Nous sommes donc persuades
que les approches existantes qui considerent les documents (requetes) comme des
sacs de concepts ne peuvent pas resoudre des requetes precises. Pour notre part,
l’approche que nous avons adoptee consiste a utiliser les dimensions de domaines.
L’utilisation des dimensions en dehors du paradigme multi-facette a pour but d’ex-
pliciter la structure semantique au niveau de la representation des documents et des
requetes. Nous utilisons les dimensions afin d’extraire les elements importants qui
55
contribuent au developpement du theme present dans le document et dans la requete.
En se basant sur ces elements, nous tentons de representer le contenu des documents
(requetes) en mettant en exergue la semantique qu’ils(elles) vehiculent. Dans la suite
du document, nous presentons en details notre contribution et son apport theorique
et pratique par rapport a l’etat de l’art.
56
Chapitre 3
Un Modele de RI fonde sur les
dimensions de domaine
3.1 Preambule
L’objectif de la Recherche d’Information est de selectionner les documents per-
tinents qui traitent du theme de la requete. Pour atteindre cet objectif, l’indexation
joue un role primordial en definissant les descripteurs qui representent les documents
et a partir desquels ils peuvent etre accedes ou analyses. Dans les approches exis-
tantes, les descripteurs utilises sont les mots ou les termes ou les concepts. Comme
nous l’avons presente dans le premier chapitre, ces descripteurs ne sont pas suffisants
pour interpreter le contenu semantique des documents/requetes, et prendre correc-
tement en compte le theme lors de l’interrogation.
Dans notre travail, nous proposons une nouvelle approche qui consiste a utiliser
un nouveau type de descripteurs lors de l’indexation : les dimensions de domaine.
L’interet principal de cette approche est de mettre en exergue les aspects lies aux
descriptions semantiques du contenu du document et de la requete. Nous utilisons
les dimensions comme un moyen pour completer l’information partielle transmise
par le contenu brut1 des documents/requetes. Ceci permet au systeme de produire,
d’une part, une representation precise du contenu semantique des documents, et
d’interpreter, d’autre part, le besoin de l’utilisateur. Ainsi, le jugement de la perti-
nence d’un document pour une requete fait intervenir les aspects lies aux descriptions
1sac de mots, sac de termes, sac de concepts, etc.
57
semantiques du contenu du document et de la requete.
Notre approche concerne l’acces a un corpus ou plusieurs domaines peuvent co-
exister. Selon le dictionnaire de l’Academie francaise, un domaine est tout ce qu’em-
brasse un art, une science, une faculte de l’esprit, etc. (exemples : le domaine de
la peinture, de la sculpture, de la politique, etc.). Nous travaillons uniquement sur
des domaines “connus”, c’est-a-dire qui ont atteint une certaine notoriete et par la
meme une certaine stabilite (par opposition a des domaines “nouveaux” qui corres-
pondent a des theories en cours d’elaboration et dont la terminologie n’est pas fixee).
Pour pouvoir acceder a ce corpus, nous faisons coexister des ressources externes
decrivant chacun de ces domaines. Si plusieurs ecoles de pensees/conceptions s’af-
frontent a l’interieur d’un domaine, nous pensons qu’il est preferable de les traiter
comme des domaines separes : le but n’est pas de forcer un consensus artificiel sur
les definitions des concepts d’un domaine. Le role d’une ressource externe n’est pas
de normaliser un domaine, mais de donner une representation de l’existant.
Chaque domaine present dans le corpus est decrit a travers la ressource externe
par trois types de descripteurs :
- Dimensions : une dimension d’un domaine est un concept general utilise pour
exprimer des themes dans ce domaine. Par exemple, dans le domaine de la Politique
internationale, un theme peut etre developpe par un redacteur en faisant reference
aux dimensions “Lieux geographiques”, “Personne”, “Evenement”, etc. Une meme
dimension peut appartenir a differents domaines a la fois. Par exemple, la dimension
“Lieu geographique” peut etre utilisee pour developper les themes du domaine de la
Politique internationale et du domaine du Sport, etc.
- Concepts : un concept correspond a une signification particuliere d’un mot
(ou sequence de mots). Dans un domaine, chaque dimension contient un ensemble
de concepts. Par exemple, la dimension “Personne” dans le domaine du Sport peut
contenir les concepts Joueur, Arbitre, Entraineur, etc.
- Termes : un terme est constitue d’un mot (ou sequence de mots) qui sert
pour denoter un concept dans un domaine particulier. La signification d’un terme
58
est determinee par les concepts qu’il denote a l’interieur du meme domaine.
3.2 Introduction
Nous proposons ici de definir un modele de RI capable de satisafaire des utilisa-
teurs souhaitant formuler leurs requetes de la maniere suivante :
R1 : “Donne-moi les documents qui parlent du general francais responsable de la
creation de la zone de securite pendant le conflit des Balkans” ;
R2 : “Donne moi des documents qui parlent de Bill Gates et de Steve Jobes et au
moins de deux societes d’informatique” ;
R3 : “Donne-moi des images de type rayon-x contenant une fracture ou une luxa-
tion d’un tibia” ;
R4 : “Donne-moi des images de type rayon-x des fractures de tous les os de la
jambe” ;
R5 : “Donne-moi des images de type rayon-x de femur sans fracture” ;
R6 : “Donne-moi des images de la peau de la main sans aucune pathologie” ;
etc.
Les besoins formules a travers ces requetes sont dits “precis”. En effet, un utilisa-
teur fait reference a des dimensions de son domaine d’interet pour decrire precisement
son besoin d’information en utilisant des concepts et des relations semantiques entre
eux. Par exemple, dans la requete R1 l’utilisateur cherche un element de la dimension
Personne, en particulier, le nom d’une personne P. Celle-ci est decrite a travers deux
dimensions, en utilisant les deux concepts suivants : General qui est un concept de la
dimension Personne, et France qui est un concept de la dimension Lieu geographique.
En effet, la personne recherchee est un General, et originaire de France.
59
Lors de la formulation d’une requete precise, l’utilisateur pourrait souhaiter
decrire davantage son besoin en employant des quantificateurs (au moins deux,
tous, etc.) ou bien des operateurs booleens ET/OU/NON, etc.
En considerant les exigences de l’utilisateur, un langage expressif de requete est
necessaire. Il doit permettre a l’usager d’utiliser des concepts et des dimensions pour
decrire son besoin. Il doit egalement permettre a l’utilisateur d’employer des relations
entre les descripteurs de sa requete. Finalement, l’utilisateur doit pouvoir enrichir la
description de son besoin a travers des operateurs.
Pour interpreter les requetes precises ainsi formulees, un traitement specifique est
necessaire :
- Prise en compte des deux types de descripteurs (concepts et dimensions) pour in-
terpreter le contenu semantique vehicule dans la requete ;
- Prise en compte des relations entre descripteurs de la requete ;
- Prise en compte des operateurs.
Pour pouvoir repondre precisement a ce type de requetes, leurs specificites doivent
etre prises en compte lors de l’indexation des documents. Pour etre retrouve, un do-
cument doit donc etre represente par des concepts et des dimensions, et sa description
doit permettre de satisfaire des requetes qui contiennent des relations semantiques
ainsi que des operateurs.
En se basant sur des ressources externes, nous proposons dans la suite un modele,
fonde sur les dimensions, associant des concepts et des relations semantiques dans la
description du contenu des documents(requetes). Ce modele s’appuie sur un langage
d’indexation expressif permettant une description precise du contenu des documents.
Il s’appuie egalement sur un langage de requete expressif permettant a l’utilisateur
d’exprimer des requetes precises. Les connaissances du domaine sont utilisees lors de
la definition de notre modele tout en garantissant une representation uniforme des
documents, des requetes et de la ressource externe. Ceci a ete effectue en utilisant
60
un formalisme de representation de connaissances adequat : il s’agit de la logique
descriptive.
3.3 Specificites du modele
Usage des dimensions
Les dimensions dans notre modele peuvent etre vues comme une couche descrip-
tive qui permet d’associer a un concept un role particulier lors de la description du
contenu d’un document ou d’une requete. Par exemple, sachant que “Joueur” est un
element de la dimension Personne, meme s’il ne contient pas le terme “joueur”, un do-
cument contenant “Zidane” peut etre retrouve comme reponse a la requete suivante :
R7 : “Donne-moi les documents qui parlent du joueur francais qui a ete elu
meilleur footballeur en 2004”.
Usage des relations
Nous nous interessons aux relations semantiques que l’on peut trouver dans la res-
source externe et qui permettent d’apporter une precision sur une entite ambigue du
document, comme les relations “est un”, ou “partie de”, etc.
Exemple : un document reponse a la requete R7 doit contenir le nom d’une
personne P. P est un “joueur”, et P est originaire de “France”. En utilisant les
relations semantiques presentes dans la ressource externe, nous pouvons selectionner
l’ensemble des joueurs francais. Les documents qui contiennent un des noms de
ces joueurs est un candidat pour repondre a cette requete. Mais pour repondre
entierement et avec precision, il faut prendre en compte les autres informations de
la requete : la date (2004) et la consecration (meilleur footballeur).
Usage des operateurs
Nous nous interessons a une formulation precise du besoin de l’utilisateur. Celui-
ci veut exprimer a travers sa requete un besoin tel que : “donne-moi les images qui
61
decrivent une main sans aucune pathologie”. Il faut donc permettre a l’utilisateur
d’employer un operateur de negation pour exprimer ce genre de besoin.
Dans la section suivante, nous presentons avec detail des exemples typiques de
besoins d’informations precis que nous proposons de satisfaire a travers notre modele
de recherche. L’expression de ces requetes dans notre modele est presentee dans la
section 3.6.2.
3.3.1 Exemples typiques de besoins d’information precis
Le but de cette section est d’analyser ce genre de requete afin de proposer un
modele de recherche adequat. Nous presentons donc un ensemble de requetes en
detaillant leurs specificites et en suggerant des moyens pour les resoudre. Nous men-
tionnons la necessite d’introduire explicitement les dimensions dans la description
des documents et des requetes, ainsi que la necessite d’utiliser les operateurs sur les
dimensions et pas seulement sur les concepts et les termes comme cela a ete deja fait
(ex. dans le modele booleen).
Pour les besoins des exemples, nous supposons que les dimensions suivantes sont
disponibles a travers une ressource externe :
Personne : contenant des politiciens, des sportifs, des celebrites, etc.
Organisation : contenant des entreprises, des organisations internationales, etc.
Lieu geographique : contenant l’ensemble des lieux dans le monde (continent,
pays, villes, etc.) ;
Evenement : contenant des evenements de la vie courante (guerre en Iraq, raz-de-
maree, etc.) ;
Anatomie : contenant les differents membres du corps humain ;
62
Pathologie : contenant l’ensemble des maladies qui peuvent affecter le corps hu-
main ;
Modalite : contenant l’ensemble des types des images medicales.
Voici maintenant quelques exemples de besoins d’information precis.
R8 : “Donne-moi les documents qui parlent de Bill Gates et d’une societe d’infor-
matique”.
L’utilisateur cherche des documents relatifs a un element de la dimension Per-
sonne : Bill Gates et a un element de la dimension Organisation : societe d’infor-
matique. Un document pertinent doit traiter des deux elements de dimensions. Ceci
se traduit par l’operateur booleen de conjonction ET.
R9 : “Donne-moi les documents qui parlent de Steve Jobs ou de Apple, Inc.”.
L’utilisateur cherche des documents relatifs a un element de la dimension Per-
sonne : Steve Jobs ou un element de la dimension Organisation : Apple, Inc. Un
document pertinent doit traiter d’un des deux elements de dimensions. Ceci se tra-
duit par l’operateur booleen de disjonction OU.
R10 : “Donne-moi des images qui montrent un tibia sans aucune pathologie”.
L’utilisateur cherche des images qui contiennent un element de la dimension Ana-
tomie : tibia sans aucun element de la dimension Pathologie : pas de fracture ou
luxation, etc. Un document pertinent doit contenir l’element de la dimension Ana-
tomie et ne doit pas contenir l’element de la dimension Pathologie. Ceci se traduit
par l’operateur booleen de negation NON.
Il est possible qu’un document presente un tibia sans aucune pathologie, mais
montre aussi une autre partie de l’anatomie avec d’autres pathologies que celles qui
63
peuvent affecter le tibia. Dans ce cas, ce document peut etre considere pertinent. Il
faut donc distinguer, au moment de l’interrogation, qu’il faut exclure seulement les
documents qui contiennent des pathologies du tibia. Ceci peut se traduire par une
relation entre les elements de dimensions au moment de la formulation de la requete.
R1 : “Donne-moi les documents qui parlent du general francais responsable de la
creation de la zone de securite pendant le conflit des Balkans”.
Un utilisateur peut preciser a travers sa requete ce dont le document doit obli-
gatoirement parler. Il peut egalement introduire des descripteurs dont le document
reponse ne doit pas obligatoirement parler. Par exemple, a travers la requete R1,
l’utilisateur cherche un element de la dimension Personne, en particulier, le nom
d’un general francais. Donc un document pertinent doit obligatoirement parler du
nom de cette personne. Meme si ce document ne parle pas du conflit ou des Bal-
kans, il peut etre considere pertinent. Donc tandis que l’element de la dimension
Personne est obligatoire, les autres elements de dimensions peuvent etre option-
nels (evenement et lieu geographique). Les operateurs booleens ne sont pas suffisants
pour exprimer ces deux notions. En effet, l’emploi d’un operateur booleen implique
toujours l’utilisation de deux elements. Ceci ne permet donc pas a l’utilisateur d’ex-
primer qu’il y a un seul element qui est obligatoire ou bien un seul element qui est
optionnel. D’une part, l’utilisation du ET implique que les deux elements en ques-
tion sont obligatoires. D’autre part, l’utilisation du OU implique que l’un des deux
elements en question est optionnel, sans preciser lequel. La notion d’obligation n’est
pas nouvelle : certains moteurs de recherche 2 utilisent un tel critere (represente par
le prefixe “+”) afin de fournir une syntaxe plus simple et plus intuitive, permet-
tant ainsi de resoudre la difficulte rencontree par les utilisateurs pour exprimer des
requetes booleennes.
Ces deux types d’expressions de besoins peuvent etre prises en compte en uti-
lisant des operateurs sur les elements de dimensions presents dans la requete. Ces
operateurs peuvent etre : obligatoire ou optionnel. Ils ont ete detailles dans [48][44]
dans un contexte ou l’utilisateur a deja vu les documents et ne se souvient pas exac-
tement de leur contenu. Nous pouvons reprendre ces operateurs afin de donner les
2ex. Google, Altavista, etc.
64
moyens a l’utilisateur de decrire avec precision son besoin d’information.
Il est possible que l’utilisateur n’arrive pas a utiliser les deux operateurs precedents.
Par exemple, imaginons que l’utilisateur puisse considerer que les documents qui
traitent du theme de sa requete sont pertinents, mais en privilegiant ceux qui contien-
nent le nom de la personne d’abord, ensuite ceux qui parlent du conflit, ensuite ceux
qui parlent des Balkans. Dans ce cas, l’expression de ce besoin peut etre mise en
œuvre avec un operateur priorite. Celui-ci permet a l’utilisateur d’avoir plus de flexi-
bilite lors de la definition de son besoin. Ainsi, il peut donner la plus grande priorite
aux documents qui contiennent le nom de la personne recherchee, et une priorite
moins importante aux documents qui contiennent les autres elements de dimensions.
Nous pouvons imaginer un scenario ou l’utilisateur veut donner des poids aux
elements de dimensions de sa requete . La valeur de chaque poids peut etre comprise
entre 0 et 1. 1 etant la valeur la plus elevee qui signifie que l’element de dimension
correspondant est tres importante dans la requete et obligatoire, et 0 signifie que
l’element de dimension correspondant est optionnel. L’expression de ce besoin peut
se faire a travers un operateur jauge. Ainsi, l’utilisateur peut preciser explicitement
les degres d’importance relatifs aux elements de dimensions presents dans sa requete.
Jusqu’a present, nous avons vu des cas ou la requete contient un seul element de
chaque dimension. Il est possible que la requete contienne plusieurs elements de la
meme dimension. La question est donc de savoir quel(s) operateur(s) utiliser entre
les elements d’une meme dimension. Nous essayons de repondre a cette question a
travers les exemples suivants.
R11 : “Donne-moi les documents qui parlent de Bill Gates et Steve Jobs et d’une
societe d’informatique”.
Dans cette requete, il y a deux elements de la dimension Personne : Bill Gates et
Steve Jobs, et un element de la dimension Organisation : societe d’informatique.
Un document pertinent doit parler des DEUX elements de la dimension Personne
presents dans la requete ET d’un element de la dimension Organisation. Dans ce
cas, il faut utiliser l’operateur ET entre les elements de la dimension Personne.
65
R12 : “Donne-moi les images qui montrent une fracture ou une luxation d’un ti-
bia”.
Deux dimensions sont presentes dans cette requete : la dimension Pathologie : frac-
ture, luxation ; la dimension Anatomie : tibia. Une image pertinente doit contenir
une fracture OU une luxation, ET un tibia. Dans ce cas, il suffit d’utiliser l’operateur
OU entre les elements de la dimension Pathologie pour preciser le besoin de l’utili-
sateur.
R13 : “Donne-moi des images qui montrent un tibia sans fracture”.
L’utilisateur cherche des images qui contiennent un element de la dimension Anato-
mie : tibia sans l’element de la dimension Pathologie : fracture. Il est possible qu’un
document contenant un autre element de la dimension Pathologie (ex. luxation) soit
pertinent pour cette requete. Pour bien preciser ce besoin d’information, il faut uti-
liser l’operateur de negation NON sur la pathologie de type fracture seulement et
pas sur tous les elements de la dimension Pathologie.
R2 : “Donne-moi les documents qui parlent de Bill Gates et Steve Jobs et au
moins de deux societes d’informatique”.
Nous remarquons a partir de cette requete que l’utilisateur cherche un document
qui parlent de deux elements de la dimension Personnes : Bill Gates et Steve Jobs,
dont les noms sont connus ET AU MOINS DE DEUX elements de la dimension
Organisation : societe d’informatique, dont les noms sont inconnus. Par consequent,
un document qui parlent des deux personnes avec une seule societe informatique ne
satisfait pas le besoin de l’utilisateur. Il est donc necessaire d’introduire un operateur
quantificateur qui permet a l’utilisateur de preciser a travers sa requete le nombre
d’elements de dimension recherches. L’utilisateur pourra donc preciser qu’il cherche
des documents qui parlent de deux societes d’informatique ou plus.
66
R14 : “Donne-moi les images qui montrent une hanche sans pathologie”.
Nous remarquons que l’utilisateur ne precise pas le nom de l’element de la dimension
Pathologie qu’il cherche. La seule information qu’il fournit est qu’il s’agit d’une
pathologie de la hanche. Dans ce cas, il est possible que les documents pertinents
ne contiennent pas le terme “pathologie” mais contiennent plutot des termes comme
“Fracture” et/ou “Luxation”, etc. Afin que le systeme puisse bien interpreter le
contenu semantique de cette requete, il faut qu’il arrive a inferer que “pathologie”
n’est pas le terme recherche mais plutot une description des elements recherches. Un
moyen possible est de permettre a l’utilisateur de faire explicitement cette precision.
Il peut ainsi specifier qu’un terme de sa requete represente une description d’un
element recherche. On peut aussi fournir a l’utilisateur les moyens pour utiliser des
relations semantiques. Ainsi, il peut preciser que les elements recherches sont des
“pathologies qui affectent la hanche”. Ainsi, lors de la recherche, le systeme ne se
contente pas de rechercher les documents qui contiennent le terme “pathologie”,
mais surtout les documents qui contiennent des types de pathologies qui affectent la
hanche.
3.3.2 Vers un modele de RI oriente precision
Les approches existantes semblent insuffisantes devant les exigences que nous
avons presentees. Elles traitent les documents et les requetes comme des sacs de
concepts lors de l’indexation et sont donc incapables de resoudre des requetes precises.
Le modele booleen represente une solution possible pour prendre en compte les
operateurs booleens, mais il reste toutefois limite devant la complexite de la struc-
ture semantique des requetes precises auxquelles nous nous interessons. Il faut donc
avoir recours a de nouveaux formalismes de representation de connaissances pour
introduire plus de semantique lors de l’indexation. Il faut utiliser une ressource ex-
terne pour representer le contenu semantique des documents et requete. Il serait ainsi
souhaitable d’avoir une representation uniforme des documents, requetes, et de la res-
source externe. Ceci peut etre atteint en utilisant un formalisme de representation
de connaissances commun a ces trois elements. Ce formalisme doit aussi proposer
une operation de comparaison jouant le role de la fonction de correspondance d’un
SRI. Il doit egalement prendre en compte les exigences des utilisateurs en termes
d’operateurs (booleens, quantificateurs, etc.).
67
Plusieurs formalismes ont ete experimentes dans ce sens. Nous notons parti-
culierement les Arborescences Semantiques [9], les Graphes Conceptuels [16][63] et
les Logiques Descriptives [55][56][57].
Le choix du formalisme de representation de connaissances adequat depend evide-
mment de nos besoins. Nous avons opte pour les Logiques Descriptives qui per-
mettent d’exprimer la connaissance d’un domaine particulier et raisonner sur cette
derniere de facon efficace. Ainsi, il est possible que les trois sources de connais-
sances (representation du document, de la requete, et de la ressource externe) soient
representees par le meme formalisme, ce qui assure que toutes ces sources de connais-
sances participent au processus de recherche d’une maniere uniforme. Ce formalisme
dispose par ailleurs d’un niveau d’expressivite assez eleve qui convient tres bien a
la representation precise des documents et des besoins d’informations. Par exemple,
il contient tous les operateurs dont nous avons besoin dans notre modele. Ces rai-
sons font des Logiques Descriptives une solution particulierement appropriee pour la
modelisation dans notre contexte de RI.
Dans la section suivante, nous introduisons les logiques descriptives, puis nous
presentons leurs applications dans notre modele de RI.
3.4 La logique descriptive
La logique descriptive (DL) [2], appelee egalement logique terminologique [12] est
une famille de formalismes de representation de la connaissance basee sur la logique.
Elle est concue pour representer et raisonner sur la connaissance d’un domaine d’ap-
plication d’une maniere structuree. Elle descend des formalismes plus anciens que
sont les reseaux semantiques et les “frames”.
Les notions de base de la DL sont les concepts atomiques et les roles atomiques.
Les concepts sont interpretes comme des sous-ensembles d’individus constituant soit
des entites, soit des elements particuliers du domaine a modeliser. Dans ce deuxieme
cas, ils sont appeles des constantes individuelles. Les roles, quant a eux, representent
des relations binaires entre des concepts, toujours sur le meme domaine. Une majo-
68
rite de DLs permet d’exprimer qu’une constante individuelle est une instance d’un
concept particulier, ou qu’une paire de constantes individuelles est une instance d’un
role donne.
Chaque DL est caracterisee par les constructeurs qu’elle fournit pour former des
concepts et roles complexes a partir des concepts et roles atomiques. D’abord, deux
constructeurs de concepts assez particuliers sont generalement introduits : il s’agit
des constructeurs “Top” et “Bottom”, denotant respectivement, l’ensemble de tous
les individus du domaine de discours et l’ensemble vide. Les deux constructeurs
conjonction (⊓) et disjonction (⊔) sont respectivement l’intersection et l’union de
concepts. Le quantificateur existentiel type (∃R.C ou R est un role et C un concept)
et le quantificateur universel (∀R.C) sont tels que :
- Pour qu’un objet a soit l’instance de l’ensemble ∃R.C, il doit exister un objet b,
qui est une instance de C et qui est lie a a via R ;
- a est une instance de l’ensemble ∀R.C, si tous les objets lies a a via R sont des
instances de C.
Le composant terminologique de la logique descriptive est la T(erminologique)-
Box. Elle est utilisee pour introduire des noms (abreviations) pour les concepts
complexes. Elle permet la declaration des axiomes generaux d’inclusion de concepts
(General Concepts Inclusion (GCI) axiomes). Un GCI est de la forme C ⊑ D ou
C ≡ Dou C et D sont des concepts sans restriction. Une T-Box est donc un en-
semble, qui peut etre vide, de GCI.
Les DL adoptent toutes une semantique reposant sur une interpretation ensem-
bliste des termes. Ce procede est connu sous l’appellation de semantique denotationn-
elle (denotational semantics). Ils introduisent ainsi une interpretation I = (∆I , .I)
qui consiste en un ensemble non vide ∆I appele le domaine de discours de I, et en
une fonction .I qui associe pour chaque nom de concept C un ensemble CI ⊆ ∆I , et
pour chaque nom de role R, une relation binaire RI ⊆ ∆I × ∆I .
Une interpretation I satisfait le GCI C ⊑ D si CI ⊆ DI . I satisfait la T-Box
69
T , si I satisfait tous les GCI dans T . Dans ce cas, I est appele modele de T . Un
concept C est satisfiable par rapport a une T-Box T s’il y a un modele I de T tel
que CI 6= ∅. Ainsi, un algorithme de satisfiabilite (consistance) teste si un concept
donne peut effectivement etre instancie. Un element d ∈ CI est appele une instance
de C.
Le composant assertionnel de la logique descriptive est la A(ssertion)-Box. Celle-
ci contient l’ensemble des assertions. Par exemple, si la T-Box contient le concept
Personne, alors la A-Box peut contenir Jacques qui en est une instance.
Il existe des algorithmes, pour certaines logiques descriptives, pour calculer la
taxonomie de la T-Box : c’est la hierarchie de subsomption de tous les concepts
introduits dans la T-Box. Ils offrent une capacite de raisonnement qui deduit de la
connaissance implicite a partir de celle qui est donnee explicitement dans la T-Box T .
Ainsi, l’algorithme de subsomption determine les relations de sous et super-concepts :
un concept C est subsume par un concept D (C ⊑T D), si chaque instance de C est
aussi une instance de D, c’est-a-dire, si chaque modele I de la T-Box T interprete
C comme un sous ensemble de l’interpretation de D (CI ⊆ DI). Deux concepts sont
dits equivalents s’ils se subsument mutuellement : C ≡ D si C ⊑ D et D ⊑ C.
Il existe plusieurs logiques descriptives, la minimale etant le langageAL (Attribut-
ive Langauge). Ce langage ne remplit pas les exigences de notre modele, a savoir
contenir tous les operateurs booleens, l’operateur de quantification, etc. En fonc-
tion de nos besoins, nous avons choisi un langage DL qui a un pouvoir d’expressivite
superieur a AL. Il s’agit du langage ALCQ (Attributive Language with Complements
and Qualified number restrictions) dont la syntaxe et la semantique sont representees
dans la section suivante.
3.4.1 Syntaxe et semantique du langage ALCQ
Les descriptions de concepts sont formees selon les regles syntaxiques presentees
dans le tableau 3.1. Soient c un concept atomique, r un role atomique et C et D des
descriptions de concepts. L’interpretation de concepts complexes est definie dans le
tableau 3.1.
70
Tab. 3.1 – Syntaxe et semantique du langage ALCQ.Constructeur Syntaxe SemantiqueNom de concept c cI
Top (concept univer-sel)
⊤ ∆I
Negation de conceptsnon necessairementprimitifs
¬C ¬CI = ∆I�CI
Bottom ⊥ ∅Conjonction C ⊓ D CI ∩ DI
Disjonction C ⊔ D CI ∪ DI
Quantificateur univer-selle
∀R.C {d ∈ ∆I |∀ e ∈ ∆I .(RI(d, e) → e ∈ CI)}
Quantificateur exis-tentiel type
∃R.C {d ∈ ∆I |∃ e ∈ ∆I .(RI(d, e), e ∈ CI)}
Restriction de nombrequalifiee
> nR.C {d ∈ ∆I ||{e|RI(d, e), e ∈ CI}| > n}
Restriction de nombrequalifiee
6 nR.C {d ∈ ∆I ||{e|RI(d, e), e ∈ CI}| 6 n}
Voici quelques exemples pouvant etre exprimes en ALCQ :
Soient Personne et F eminin des concepts atomiques. Alors Personne⊓F eminin
(les personnes qui sont feminines) et Personne ⊓ ¬F eminin (les personnes qui ne
sont pas feminines) sont des concepts ALCQ.
Soit a-enfant un role atomique, nous pouvons alors former les concepts :
- Personne ⊓ ∃ a-enfant .⊤ denote les personnes qui ont un enfant ;
- Personne ⊓ ∀ a-enfant .F eminin denote toutes les personnes dont les enfants sont
des filles ;
- Personne ⊓ ∀ a-enfant .⊥ denote les personnes qui n’ont pas d’enfant.
Si Femme ≡ Personne ⊓ F eminin, alors :
- ¬Femme denote les individus qui ne sont pas des femmes ;
71
- Femme ⊓ ∃ a-enfant .P ersonne denote les meres ;
- Femme⊓ > 3a-enfant .P ersonne denote les meres qui ont au moins trois enfants.
3.4.2 Logique Descriptive et Recherche d’Information
L’application de la logique descriptive au domaine de la RI est prometteuse, car
il suffit de considerer le corpus des documents comme un sous-ensemble du domaine
de discours choisi, et y representer les documents et les requetes par des concepts.
Ainsi, chaque document d (requete q) sera represente(e) dans la T-Box T par son
index docI (qI) qui est une expression (concept) ALCQ. docI est une abstraction
(representation) d’un ensemble de documents qui ont le meme contenu. Les docu-
ments physiques representent alors les instances de docI. Conformement a la termi-
nologie des DL, la correspondance entre une requete q et un document doc se calcule
ainsi dans la hierarchie de subsomption : un document doc est pertinent pour une
requete q si le concept docI est subsume par le concept qI : docI ⊑T qI (cf. figure 3.1).
Ainsi, pour repondre a une requete q, le SRI selectionne les documents dont l’index
docI est subsume par le concept qI. Cette idee s’appuie sur le modele logique propose
par Van Rijsbergen qui considere le processus de recherche comme une evaluation
d’une implication logique entre la requete q et chaque document doc du corpus, re-
lativement a un ensemble de connaissances K [93]. Ceci independemment du choix
de formalisme de representation de doc, q et K. Selon la suggestion de Van Rijsber-
gen, seuls doivent etre consideres pertinents, les documents dont on peut deduire la
requete d’une maniere logique. La correspondance revient donc a donner une mesure
d’incertitude PK(doc → q).
Meghini et ses collaborateurs [56] ont propose une DL nommee MIRTL comme un
formalisme adequat pour la conception des SRI bases sur le modele logique. La DL
ainsi proposee a ete utilisee pour la representation des documents selon differentes
caracteristiques : le contenu du document, la structure, le contexte, etc. Nous allons
nous inspirer de ce travail afin de tirer profit des DL dans notre modelisation.
Dans les sections suivantes, nous allons voir comment nous utilisons les DL dans
notre contexte de modelisation d’un modele de RI oriente precision.
72
Fig. 3.1 – Correspondance entre une requete et un document representes en logiquedescriptive.
3.5 Modele de RI : notation et definitions
Nous definissons ici, d’une maniere generale, les composantes de notre modele de
Recherche d’Information.
3.5.1 Ressource externe
Nous presentons ici le modele formel de la ressource externe K decrivant l’en-
semble des connaissances presentes dans le corpus.
Soit C = {c1 . . . cnc} un ensemble de nc concepts atomiques, R = {r1 . . . rnr} un
ensemble de nr roles. Nous appelons S = (C, R) la signature de K. Une fois que la
signature S est fixee, une interpretation I pour S est une paire I = (∆I , .I) ou :
- ∆I est un ensemble non vide ;
- .I est une fonction assignant :
◦ Un sous-ensemble CIi ⊆ ∆I a chaque concept atomique ci ∈ C ;
◦ Une relation RIi ⊆ ∆I × ∆I a chaque role Ri ∈ R ;
73
Dans notre contexte de RI, nous nous interessons a la modelisation du contenu des
documents et non a la modelisation du monde reel. Ainsi, la fonction d’interpretation
.I depend du contenu des documents. C’est-a-dire, l’interpretation d’un concept ne
represente pas des entites du monde reel, mais plutot un ensemble d’instances dans les
documents. Par exemple, l’interpretation de “Berlusconi” n’est pas la personne elle-
meme dans le monde reel, mais plutot ses apparitions dans les documents. Chaque
apparition de “Berlusconi” dans un document different est une instance : “Berlusconi
en tant que president du club Milan AC”, “Berlusconi en tant que Premier ministre
de l’Italie”, etc. Pour cette raison, dans notre modelisation la A-Box est un ensemble
vide, et les documents et les requetes sont representes uniquement par des concepts.
Par exemple, Zidane, qui est en principe une instance du concept Joueur, donnera
lieu au concept Zidane ⊑ Joueur qui sera stocke dans la T-Box. Comme nous le
verrons dans la suite, ceci ne represente aucune contrainte lors de la representation
du contenu des documents et des requetes. Bien au contraire, nous aurons un cadre
unifie ou la requete de l’utilisateur peut faire reference a la fois a des “instances”
(Zidane) et a des “concepts” (joueur). De plus, en RI il n’y a pas un besoin evident
de separer les concepts des instances. Parfois, afin de bien decrire un element, il est
meme necessaire d’utiliser dans la meme phrase des termes qui denotent des concepts
et d’autres denotant des instances. Par exemple, pour chercher des documents qui
parlent de Berlusconi, il est parfois necessaire de preciser le besoin d’information
en utilisant, en plus de l’instance “Berlusconi”, le concept “president du club Milan
AC” ou bien le concept “Premier ministre de l’Italie”.
Etant donne le langage de description ALCQ et une signature S, une ressource
externe K dans ALCQ est un quadruple K = (S, T, A, Dim), tel que T est la T-Box,
A est la A-Box, et Dim est l’ensemble des dimensions.
Pour des contraintes pratiques (l’existence des ressources hierarchiques), nous im-
posons une condition necessaire pour definir une dimension a travers la hierarchie3
de la ressource externe K. Ainsi, une dimension dimi est definie par un concept
rac dimi et tous les concepts qu’il subsume. Formellement une dimension dimi issue
d’une ressource K est definie comme suit :
3Definie par l’ensemble d’axiomes terminologiques de la forme C ⊑ D, ou C et D sont desexpressions ALCQ sur la signature S.
74
dimi = (rac dimi, Ci)
ou :
- rac dimi ∈ C est le concept racine de la hierarchie definissant dimi ;
- Ci = {c ∈ C | c ⊑ rac dimi} est l’ensemble des concepts specifiques a dimi.
Ainsi, Dim = {dimi . . . dimnd} forme l’ensemble des nd dimensions definies a
travers la ressource externe K.
Cette definition est simplifiee car elle correspond seulement a des ressources or-
ganisees autour d’une hierarchie de concepts. La realite peut etre plus complexe,
notamment en organisant les connaissances d’un domaine dans une ressource non
hierarchique. Il peut donc exister des dimensions de domaine qui ne font pas partie
de la categorie des dimensions que nous avons definies.
Dans un cas reel, il est possible qu’il n’y ait pas une sous-hierarchie qui definisse
explicitement la dimension. Dans ce cas, il est possible que la dimension en ques-
tion puisse etre definie a travers plusieurs sous hierarchies de la ressource externe
utilisee. Par consequent, nous pouvons creer manuellement la racine pour regrou-
per toutes ces sous-hierarchies et definir ainsi une dimension. Par exemple, pour
definir les dimensions “Anatomie”, “Pathologie”, et “Modalite” dans le cadre de nos
experimentations dans le domaine de l’imagerie medicale, nous avions le choix entre
les ressources MeSH4 et UMLS5. Supposons que ces deux ressources aient ete decrites
en DL (les entrees sont des concepts, et la structure hierarchique est formee par des
axiomes de subsomption)6. Ainsi, dans la premiere ressource, ces dimensions peuvent
etre definies respectivement a travers les sous hierarchies suivantes : Anatomy [A],
Diseases [C], et Analytical, Diagnostic and Therapeutic Techniques and Equipment
[E]. En revanche, dans la ressource UMLS nous avons du creer manuellement les
4http ://www.nlm.nih.gov/mesh/5http ://www.nlm.nih.gov/research/umls/6En realite, et d’apres nos experiences, il est tres difficile de modeliser UMLS en DL. En effet,
ce meta-thesaurus dispose d’une caracteristique unique qui consiste a avoir plusieurs hierarchiesparalleles et pas forcement compatibles. Pour plus d’informations sur ce sujet, nous invitons lelecteur a lire les travaux de Barry Smith [http ://ontology.buffalo.edu/smith/]
75
racines pour regrouper des sous hierarchies de la ressource et definir ainsi les di-
mensions en question. Par exemple, pour definir la dimension “Pathologie”, nous
avons cree une racine pour regrouper les sous-hierarchies “Disease or Syndrome”,
“Finding”, et “Injury or Poisoning”.
3.5.2 Indexation des documents
Soit Doc = {doci|1 6 i 6 nd} l’ensemble des nd documents presents dans le
corpus. Un document doci peut etre un article de presse, un compte-rendu medical,
une image, etc.
Dans notre cas, une requete represente une description textuelle des documents
recherches.
Vocabulaire d’indexation
Le vocabulaire d’indexation VDoc constitue l’ensemble des descripteurs qui servent
a la description du contenu des documents Doc lors de la phase d’indexation. Chaque
document est represente par les descripteurs presents dans la ressource externe.
VDoc contient donc l’union de l’ensemble des concepts et de l’ensemble des dimen-
sions extraits de la ressource externe K.
VDoc = (V cDoc ∪ V dimDoc)7, avec V cDoc = C, V dimDoc = Dim.
Collection de documents indexes
Chaque document doc ∈ Doc contient un ensemble de concepts docc = {c ∈ C}.
A partir de docc nous pouvons deduire l’ensemble des dimensions docdim = {dim}
presentes dans doc.
7Dans notre modele, il est possible de former un besoin d’information en utilisant uniquementdes dimensions. Pour cette raison, nous separons ici les dimensions et les concepts meme s’ils sontrelies dans la base de connaissances.
76
Chaque concept c ∈ docc a un poids wc,doc qui caracterise son degre d’importance
a decrire le contenu de doc8.
Le contenu semantique d’un document doc sera represente par l’index docI qui
est une expression ALCQ sur le vocabulaire VDoc. La definition formelle de docI est
presentee plus loin dans ce chapitre.
3.5.3 Formulation de la requete
Vocabulaire d’interrogation
Le vocabulaire d’interrogation sert a la formulation des requetes de l’utilisateur.
Celui-ci peut utiliser le vocabulaire present dans la ressource externe K. Il peut
preciser davantage son besoin d’information en ajoutant a sa requete des operateurs
et des relations semantiques entre les descripteurs.
D’une maniere generale, nous definissons le vocabulaire d’interrogation VQ comme
etant le resultat d’une combinaison de dimensions, de concepts, de relations et
d’operateurs. Le contenu semantique d’une requete q est donc representee par qI
qui est une expression ALCQ sur le vocabulaire VQ. La definition formelle de qI est
presentee plus loin dans ce chapitre.
3.5.4 Correspondance entre la requete et le document
Pour repondre a une requete, deux operations sont necessaires :
i. La premiere consiste a selectionner, parmi les documents indexes, ceux qui satis-
font la requete. Cette operation est effectuee a l’aide d’une fonction fSel qui
doit respecter, lors de l’evaluation des documents, les operateurs et les relations
presents dans la requete. Nous verrons plus loin que cette fonction est basee
sur la hierarchie de subsomption. En effet, afin de calculer la correspondance
entre un document et une requete, nous procederons par un premier niveau
d’indexation base sur la logique descriptive : il s’agit de l’indexation pour la
8Dans notre modelisation, les poids ne font pas partie de la DL. Nous les utilisons plus loin lorsde l’ordonnancement des documents pertinents pour une requete.
77
correspondance.
ii. La deuxieme operation est effectuee a l’aide d’une fonction fOrd qui permet d’or-
ganiser l’ensemble des documents selectionnes (par fSel) dans leur ordre de
pertinence par rapport a la requete. La valeur de pertinence d’un document
d par rapport a une requete q est calculee par fOrd en fonction des poids
des descripteurs dans d et q. Afin de mettre en œuvre la fonction fOrd, nous
procederons par un deuxieme niveau d’indexation : l’indexation pour l’or-
donnancement.
Selon Meghini [56], la complexite d’integration des ponderations dans un modele
de RI a base de logique descriptive est tres elevee. Pour cette raison, nous avons
decide de separer ces deux niveaux d’indexation de telle sorte que les ponderations
ne feront pas partie de notre modele a base de logique descriptive.
Les definitions formelles des fonctions fSel et fOrd sont presentees dans la suite
de ce chapitre.
3.6 Modele de RI oriente precision
A partir des notations presentees dans la section precedente, nous introduisons
ici une description de notre modele de Recherche d’Information oriente precision qui
comprend les elements suivants :
- Une ressource externe contenant des dimensions, des concepts, et des relations
semantiques ;
- Les concepts et les dimensions constituent le vocabulaire d’indexation et le voca-
bulaire d’interrogation :
- Le contenu semantique d’un document est decrit par ces descripteurs mis en
relations les uns avec les autres ;
- La requete est representee par ces descripteurs mis en relations les uns avec les
autres. Elle est egalement enrichie avec des operateurs ;
78
- La correspondance entre la requete et les documents est realisee en utilisant les
deux types de descripteurs et en respectant les operateurs qui leur sont associes
dans la requete.
3.6.1 Modele de document
Nous avons montre lors du deuxieme chapitre que les approches qui considerent les
documents (requetes) comme des sacs de concepts ne permettent pas de resoudre des
requetes precises. Dans notre approche, nous proposons d’utiliser les dimensions de
domaine pour mettre en exergue les elements pertinents qui contribuent a la descrip-
tion du contenu semantique des documents et des requetes. Ainsi, nous utilisons les
dimensions, les concepts et les relations pour definir une nouvelle unite d’indexation
qui nous permet de produire une representation precise du contenu des documents et
des requetes tout en considerant les aspects lies a leur semantique. Par consequent,
au lieu de considerer un document qui parle du “president francais Jacques Chirac”
comme un sac de concepts, nous representons son contenu par l’element appartenant
a la dimension “Personne” qui est “Jacques Chirac” et qui est “president” originaire
de “France”. De meme, lors de l’interrogation, l’utilisateur peut decrire son besoin
en identifiant l’element qu’il recherche (ex. le nom d’un joueur : “Zidane”) et/ou en
le decrivant en utilisant un ou plusieurs concepts. De cette maniere, en voulant cher-
cher un element qui correspond a un president francais, l’utilisateur peut preciser
que l’element appartient a la dimension “Personne”, et qu’il est “President” decrit
par le concept “France”9.
L’element de dimension : une nouvelle unite d’indexation
Tout concept specifique a une dimension est susceptible de constituer un element
de cette dimension lorsqu’il est utilise dans un document ou une requete. Un element
d’une dimension dimi est une expression ALCQ qui cherche a correspondre le plus
precisement possible au concept specifique de dimi auquel il est fait reference dans
un document ou une requete. Cette expression est une conjonction dont au moins
un des concepts appartient a dimi. Elle peut contenir d’autres concepts qui servent
a “raffiner” la description de l’element de dimension en question. Formellement, un
9Deux concepts appartenant chacun a une dimension differente : “France” appartient a la di-mension “Lieu geographique”, et “President” appartient a la dimension “Personne”.
79
element de la dimension dimi est une expression ALCQ de la forme suivante :
edimie ≡ cidf 1 ⊓ . . . ⊓ cidf n ⊓ ∃ decrit par.cdes 1 ⊓ . . . ⊓ ∃ decrit par.cdes m
ou :
- les concepts cidfiappartiennent a dimi ;
- les concepts cdes j appartiennent a d’autres dimensions que dimi.
edimie est donc identifie par les concepts cidfi
, et decrit par les concepts cdes j.
decrit par est une relation utilisee uniquement lors de la modelisation pour decrire
un element de dimension. Dans la pratique, elle est remplacee par d’autres relations
concretes (Par ex. President originaire de France, Pathologie affecte Femur, etc.).
Exemple 1
Soit un document qui contient l’element de la dimension “Personne” SteveJobs
et l’element de la dimension “Organisation” Apple, Inc.. Supposons que ces deux
elements de dimensions sont representes respectivement par edimp et edimo. Nous
aurons ainsi :
edimP ≡ Steve Jobs
edimO ≡ Apple, Inc
Exemple 2
Dans un document qui contient le “General francais Philippe Morillon”, l’element
de la dimension “Personne” est identifie par “Philippe Morillon” et “General”, et
decrit par “France”. Supposons que cet element de dimension soit represente par
edimp. Nous aurons ainsi :
edimp ≡ Philippe Morillon ⊓ General ⊓ ∃ originaire de.France
80
Si l’on indexe un document par l’element edimp, cela peut paraıtre redondant
car Philippe Morillon ⊑ General et Philippe Morillon ⊑ ∃ originaire de.France.
Mais ca ne l’est pas car la ressource externe ne contient pas forcement toutes les
connaissances presentes dans les documents (on ne sait pas forcement que Philippe
Morillon est originaire de France). Ceci permettra par exemple de repondre a une
requete dont le contenu est represente par ∃ originaire de.France.
Dans notre modele de document, les elements de dimension sont utilises afin de
produire une representation precise du contenu semantique des documents. Nous
proposons ainsi le role indexe par afin d’associer un element de dimension a un
document. Soit un document doc contenant d dimensions, pour chacune il existe ni
elements de dimension. La representation (l’index) docI du contenu semantique de
doc est une expression ALCQ sur VDoc ∪ {indexe par} representee de la forme sui-
vante :
docI ≡ ∃ indexe par.edim11 ⊓ . . .⊓ ∃ indexe par.edim1
n1 ⊓ . . .⊓ ∃ indexe par.edimi1 ⊓
. . . ⊓ ∃ indexe par.edimini ⊓ . . . ⊓ ∃ indexe par.edimd
1 ⊓ . . . ⊓ ∃ indexe par.edimdnd
Apres le processus d’indexation, toutes les representations docI des documents
doc sont ajoutees a la T-Box. Celle-ci contient alors, en plus des connaissances du
domaine, les index des documents presents dans la collection.
Dans la figure 3.2, nous presentons la representation graphique de notre modele
de document. Le contenu semantique d’un document physique doc est represente par
le concept docI qui est une expression ALCQ. docI est defini par la conjonction d’un
ensemble d’elements de dimensions edim qui sont relies a docI par le role indexe par.
Chaque element de dimension edim est identifie par un concept de la dimension a
laquelle il appartient (⊑ cidf ) ou bien sa racine (⊑ rac dim). edim peut etre decrit
par zeros ou plusieurs concepts (∃ decrit par.cdes). Notons que les documents phy-
siques qui ont le meme contenu sont representes par des concepts (expression ALCQ)
81
Fig. 3.2 – Representation graphique du modele de document
equivalents.
Exemple
Soit un document doc qui parle des “deux societes d’informatique Microsoft et
Apple, Inc.” et de “Bill Gates” et “Steve Jobs”. A partir de ce document, nous pou-
vons identifier deux elements de la dimension “Organisation”, que nous appelons res-
pectivement edimo1 et edimo
2, et deux elements de la dimension “Personne” que nous
appelons respectivement edimp1 et edim
p2. edimo
1 et edimo2 sont decrits par “Societe
d’informatique” et identifies respectivement par “Microsoft” et “Apple, Inc.”. edimp1
et edimp2 sont identifies respectivement par “Bill Gates” et “Steve Jobs”. Ainsi, ces
elements seront representes comme suit :
edimo1 ≡ Microsoft ⊓ Societe d’informatique
edimo2 ≡ Apple, Inc. ⊓ Societe d’informatique
edimp1 ≡ Bill Gates
82
edimp2 ≡ Steve Jobs
Finalement la representation du contenu semantique du document doc dans la
T-Box est definie comme suit :
docI ≡ ∃ indexe par.edimo1 ⊓ ∃ indexe par.edimo
2 ⊓ ∃ indexe par.edimp1 ⊓
∃ indexe par.edimp2
Chaque element de dimension edimini a un poids wedimi
ni
qui caracterise son
degre d’importance a decrire le contenu du document auquel il appartient10. La
valeur de wedimi
ni
depend des poids des concepts qui l’identifie et des concepts qui le
decrivent. En effet, nous supposons que plus le poids des concepts identifiant edimini
est grand, plus wedimi
ni
est eleve. Nous supposons egalement que plus il y a des
concepts decrivant edimini, plus la valeur de wedimi
ni
est elevee.
3.6.2 Modele de requete
Preambule
Dans les systemes de recherche existants, le mode d’interaction typique avec l’uti-
lisateur est base sur les mots-cles ou sur le processus de requete par l’exemple : dans
le premier cas, l’utilisateur introduit une liste de mots-cles pour decrire son besoin
d’information. A partir de la requete, le systeme essaye d’interpreter le besoin de
l’utilisateur et repondre par un ensemble de documents. Dans le deuxieme cas, un
utilisateur propose une image en entree du systeme qui genere une requete puis pro-
pose en sortie les images qui lui sont les plus ’proches’ ou ’similaires’.
Ces modes d’interaction souffrent du fait que les besoins de l’utilisateur restent
implicites. En effet, le systeme doit utiliser sa connaissance du contenu de la requete
(mots-cles ou image) afin d’extraire l’information explicite et mettre en œuvre les
representations correspondantes. Ce processus peut aboutir a des ambiguıtes et des
resultats de recherche peu satisfaisants lorsque le besoin de l’utilisateur est tres precis.
10Dans notre modelisation, les poids ne font pas partie de la DL. Nous les utilisons plus loin pourl’ordonnancement des documents pertinents pour une requete.
83
Nous proposons ici un modele base sur un langage de requete textuel expressif
dans le sens ou il permet a l’utilisateur d’exprimer des requetes precises en combi-
nant dimensions, concepts et relations de son domaine d’interet. La requete peut etre
enrichie, en cas de besoin, par un ensemble d’operateurs.
Ainsi, l’interaction avec l’utilisateur est directe puisque, contrairement aux syste-
mes existants, l’utilisateur prend en charge le processus de formulation de requete
en traduisant ses besoins au systeme de maniere explicite et precise11.
Nous presentons apres les elements de base de notre modele de correspondance.
Nous decrirons dans un premier temps le langage de requetes puis nous aborderons les
conditions a verifier pour tout couple (q, doc) afin que le document doc soit considere
pertinent pour la requete q selon le processus de correspondance defini pour notre
modele de recherche oriente precision.
Langage de requetes
Dans notre modele de requete, les elements de dimension sont utilises afin de
produire une representation precise du contenu semantique des requetes. Ainsi, la
representation d’une requete q est definie par la combinaison de criteres de selection
sur les elements de dimensions introduit par l’utilisateur pour identifier les docu-
ments recherches. Nous proposons a l’utilisateur d’employer explicitement des re-
lations semantiques afin d’identifier et/ou decrire des elements de dimensions (cf.
section 3.6.1). Formellement, une requete est representee de la meme maniere qu’un
document avec en plus les operateurs qui permettent a l’utilisateur de decrire son
besoin avec precision.
Soit une requete q contenant d dimensions, pour chacune il existe ni elements
de dimension. La representation qI du contenu semantique de q est une expression
ALCQ sur VQ ∪ {indexe par}. Le role indexe par, introduit precedemment, permet
d’associer un element de dimension a une requete.
Chaque element de dimension edimini peut avoir un poids wedimi
ni
qui pondere
11Evidemment, une interface graphique doit etre proposee a l’utilisateur pour qu’il exprime sonbesoin en langue naturel.
84
son degre d’importance pour decrire le contenu de la requete a laquelle il appartient.
La valeur de wedimi
ni
peut etre introduite par l’utilisateur a travers une interface au
cas ou il le souhaite.
Expression de requetes
L’expression de requetes a pour but d’extraire un ensemble de documents juges
pertinents par le systeme. La representation d’une requete q doit donc denoter l’en-
semble des documents qui lui sont pertinents. De cette maniere, nous pourrons
selectionner tous les documents doc tel que docI est subsume par qI.
Relations d’interrogation
Comme dans le modele de document, les relations de subsomption, et decrit par
sont utilisees pour l’interrogation. La difference ici par rapport au modele de docu-
ment est que l’utilisateur doit employer explicitement ces deux relations afin d’iden-
tifier et decrire les elements de dimension dans sa requete. Pour cette raison, nous
fournissons a l’utilisateur ces deux relations lors du processus de formulation de
requetes. L’usage de ces relations peut etre effectue d’une maniere graphique simple
en proposant a l’utilisateur des zones de texte pour les concepts qui servent a iden-
tifier les elements de dimensions, et d’autres zones de texte pour les concepts qui
servent a les decrire.
La relation de subsomption
L’utilisateur emploie la relation de subsomption (est un) pour identifier un element
de dimension dans sa requete.
Exemple
Dans la requete R9, l’utilisateur est a la recherche d’un document qui contient un
element de la dimension “Personne” : “Steve Jobs” ou un element de la dimension
“Organisation” : “Apple, Inc.”. Dans ce cas, les elements des dimensions “Person-
ne” et “Organisation” sont identifies respectivement par les concepts “Steve Jobs”
et “Apple, Inc.”. Supposons que ces deux elements de dimensions soient representes
85
respectivement par edimp et edimo. Nous aurons ainsi :
edimp ≡ Steve Jobs
edimo ≡ Apple, Inc.
Dans le langage ALCQ, la requete R9 se traduit donc par la notation suivante :
R9 ≡ ∃ indexe par.edimp ⊔ ∃ indexe par.edimo
Le systeme interprete cette requete de la maniere suivante : l’utilisateur est a la
recherche d’un document qui contient un element de la dimension “Personne” qui
est “Steve Jobs” ou un element de la dimension “Organisation” qui est “Apple, Inc.”.
La relation decrit par :
Cette relation est employee par l’utilisateur afin de decrire un element de dimen-
sion par un ou plusieurs concepts.
Exemple
R15 : “Donne-moi les documents qui parlent du joueur francais qui a eu un
carton rouge lors de la finale de la coupe du monde FIFA 2006”.
L’utilisateur cherche un document qui contient un element de la dimension “Per-
sonne” : un “Joueur” qui est originaire de “France”. Soit edimp l’element recherche
par l’utilisateur. edimp est decrit par un concept de la dimension “Personne” :
“Joueur”, et un concept de la dimension “Lieu geographique” : “France”. Il est
donc represente comme suit :
edimp ≡ Joueur ⊓ ∃ originaire de.France
La requete R15 se traduit donc par la notation suivante :
86
R15 ≡ ∃ indexe par.edimp
Dans les sections suivantes, nous presentons comment ces relations sont utilisees
par le systeme pour repondre a une requete. Mais avant cela, nous introduisons
maintenant les operateurs que notre systeme fournit a l’utilisateur pour preciser son
besoin.
Operateurs d’interrogation
En fonction des besoins d’information que nous avons presentes au debut de ce
chapitre, nous distinguons trois types d’operateurs : booleens, quantificateurs, jauge.
Nous detaillons chacun d’eux dans les sections suivantes.
Operateurs booleens
Nous distinguons trois operateurs booleens : la conjonction notee ⊓, la disjonc-
tion notee ⊔, et lanegation materialisee par ¬. Nous presentons quelques exemples
de requetes afin de montrer l’utilite de ces operateurs et leur usage dans notre modele.
La conjonction
Exemple
La requete R8 met en œuvre un element de la dimension “Personne : “Bill Ga-
tes” et un element de la dimension “Organisation” : “Societe d’informatique”, par
l’intermediaire d’une conjonction. Nous representons ces deux elements de dimension
respectivement par edimp et edimo.
edimp ≡ Bill Gates
edimo ≡ Societe d′informatique
La requete R8 a donc l’expression suivante dans notre modele :
87
R8 ≡ ∃ indexe par.edimp ⊓ ∃ indexe par.edimo
La disjonction
Exemple
La requete R9 met en œuvre un element de la dimension “Personne” : “Steve
Jobs” et un element de la dimension “Organisation” : “Apple, Inc.”, par l’intermediai-
re d’une disjonction. Nous representons ces deux elements respectivement par edimp
et edimo.
edimp ≡ Steve Jobs
edimo ≡ Societe d′informatique
La requete R9 a donc l’expression suivante dans notre modele :
R9 ≡ ∃ indexe par.edimp ⊔ ∃ indexe par.edimo
La negation
Exemple 1
La requete R10 met en œuvre un element de la dimension “Anatomie” : “Tibia” et
un element de la dimension “Pathologie” : “Pathologie du tibia”, par l’intermediaire
d’une negation. Nous representons ces deux elements respectivement par edima et
edimp.
edima ≡ T ibia
edimp ≡ rac Pathologie ⊓ ∃ affecte.T ibia
88
La requete R10 a donc l’expression suivante dans notre modele :
R10 ≡ ∃ indexe par.edima ⊓ ¬∃ indexe par.edimp
Ceci se traduit par le fait qu’un document pertinent doit contenir un tibia et
aucune pathologie liee a cette partie de l’anatomie. Comme la pathologie dans cette
requete est un element generique, il faut donc identifier tous les types de pathologies
que l’on peut avoir sur un tibia et les utiliser pour repondre a cette requete.
Exemple 2
La requete R13 met en œuvre un element de la dimension “Anatomie” : “Tibia”
et un element de la dimension “Pathologie” : “Fracture”, par l’intermediaire d’une
negation. Nous representons ces deux elements respectivement par edima et edimp.
edima ≡ Tibia
edimp ≡ Fracture
La requete R13 a donc la transcription suivante dans notre modele :
R13 ≡ ∃ indexe par.edima ⊓ ¬∃ indexe par.edimp
Ceci se traduit par le fait qu’un document pertinent doit contenir un tibia sans
fracture. Il est possible qu’une image contenant un tibia avec une luxation puisse
etre consideree comme pertinente par l’utilisateur. Comme la pathologie dans cette
requete est identifiee, l’appariement se fait entre le document et la requete en prenant
en compte seulement la pathologie “fracture” pour eliminer les documents corres-
pondants.
Combinaisons des operateurs booleens
89
Exemple
La requete R12 met en œuvre un element de la dimension “Anatomie” : “Tibia”,
et deux elements de la dimension “Pathologie” : “Fracture” ou “Luxation”, par l’in-
termediaire d’une conjonction. Nous representons ces trois elements respectivement
par edima, edimp1, et edim
p2.
edima ≡ T ibia
edimp1 ≡ Fracture
edimp2 ≡ Luxation
La requete R12 a donc l’expression suivante dans notre modele :
R12 ≡ ∃ indexe par.edima ⊓ (∃ indexe par.edimp1 ⊔ ∃ indexe par.edim
p2)
Operateur quantificateur
L’operateur quantificateur permet a l’utilisateur de preciser le nombre d’elements
de dimensions qu’il aimerait trouver dans le document pertinent. Nous distinguons
trois valeurs possibles a cet operateur : egal materialise par “=”, au moins material-
isee par >, et au plus materialisee par 6. La restriction de nombre “= nR.C” n’est
pas incluse dans le langage ALCQ mais nous pouvons l’exprimer par (> nR.C ⊓ 6
nR.C).
Le cas egal
Exemple
Soit la requete R16 “Donne-moi une image qui contient Zinedine Zidane tout
seul”.
Cette requete contient un element de la dimension “Personne” : “Zinedine Zida-
ne”, avec une restriction de nombre (tout seul). Nous representons cet element par
90
edimp1. Le document pertinent doit contenir un seul element de la dimension per-
sonne. Afin d’exprimer ce besoin d’information, nous avons besoin des deux elements
suivants :
edimp1 ≡ Zinedine Zidane
edimp2 ≡ rac Personne
La requete R16 a donc l’expression suivante dans notre modele :
R16 ≡ ∃ indexe par.edimp1 ⊓ ∃ = 1 indexe par.edim
p2
Les cas au moins et au plus
Exemple
La requete R2 contient deux element de la dimension Personne : Bill Gates et
Steve Jobs, et un element de la dimension Organisation : Societe d’informatique.
Nous representons ces trois elements respectivement par edimp1, edim
p2, et edimo
1.
edimp1 ≡ Bill Gates
edimp2 ≡ Steve Jobs
edimo1 ≡ Societe d’informatique
Nous remarquons que le document recherche doit contenir au moins deux
societe d’informatique. Ceci se traduit dans notre modele par l’operateur quanti-
ficateur > 2.
La requete R2 a donc l’expression suivante dans notre modele :
91
R2 ≡ ∃ indexe par.edimp1 ⊓ ∃ indexe par.edim
p2 ⊓ > 2 indexe par.edimo
1
Le cas “au plus” est idem a ce cas en changeant le symbole “>” par “6”.
Operateur jauge
Cet operateur permet a l’utilisateur de preciser les degres d’importance relatifs
aux elements de dimension de sa requete. Ce degre peut etre materialise par un poids
qui correspond a une valeur reelle appartenant a l’intervalle [0,1]12.
En effet, comme deja discute, il est possible qu’un utilisateur veuille preciser qu’il
y a des elements de dimensions de sa requete qui sont obligatoires et d’autres qui sont
optionnels. En realite, un element de dimension marque comme obligatoire dans
une requete doit absolument apparaıtre dans les documents retrouves, alors qu’un
element de dimension optionnel peut y apparaıtre ou non. Cette notion d’obligation
n’est pas nouvelle : Kefi et ses collaborateurs [48] ont propose d’utiliser les criteres
obligatoire et optionnel dans un contexte ou l’utilisateur a deja vu les documents
et ne se souvient pas exactement de leur contenu. Leur but etait de permettre une
formulation precise mais neanmoins aisee de la requete. Nous nous inspirons ici de
leur travail pour utiliser ces deux criteres.
Ces deux modalites d’expression de besoin peuvent etre prises en compte dans
notre modele en utilisant les poids. Ainsi, un element obligatoire doit avoir un poids
egal a 1, tandis qu’un element optionnel doit avoir un poids egal a 0.
Il est possible que l’utilisateur n’arrive pas a decider quels elements sont obliga-
toires et quels elements sont optionnels. Dans ce cas, nous lui fournissons a travers
notre modele un moyen pour privilegier certains elements a d’autres sans pour autant
preciser ce qui est obligatoire et ce qui est optionnel. Ceci peut etre mis en œuvre
par des valeurs de priorite que l’utilisateur donne a chaque element de dimension de
sa requete.
12Nous rappelons que les poids ne sont pas integre dans notre modele a base de logique descriptive.Ils sont uniquement utilises pour l’ordonnancement des documents pertinents pour une requete.
92
L’element de dimension qui a une priorite i doit apparaıtre dans tous les docu-
ments retrouves, sinon, c’est l’element de dimension qui a une priorite i+1. Avec i
est un entier qui appartient a l’intervalle [2, nd+1], et nd est le nombre d’elements
de dimensions presents dans la requete.
Les documents reponses a une requete sont classes en fonction des priorites des
elements de dimensions qu’ils contiennent. Une classe de documents est creee pour
chaque valeur de priorite. Comme un document peut contenir plusieurs elements de
dimensions qui ont des priorites differentes, il peut appartenir a plusieurs classes a
la fois. Les classes des documents reponses sont presentees a l’utilisateur en fonction
de la valeur de priorite de dimension en question : d’abord, la classe des documents
contenant les elements de dimensions de priorite i, ensuite celle des documents conte-
nant les elements de dimensions de priorite i+1, ainsi de suite. L’ordre d’affichage
des documents au sein d’une meme classe est calcule a l’aide de la fonction d’ordon-
nancement que nous verrons plus loin dans ce manuscrit.
Obligatoire vs optionnel
Exemple
A travers la requete R1, l’utilisateur cherche des documents qui parlent d’une per-
sonne. Donc un document pertinent doit obligatoirement contenir l’element decrivant
cette personne. Meme si ce document ne parle pas du conflit ou des Balkans, il peut
etre considere pertinent.
Soit edimp la representation de l’element de la dimension “Personne” : “General
francais”, edime represente l’element de la dimension “Evenement” : “Conflit des
Balkans”, et ediml1 et ediml
2 representent respectivement les deux elements de la
dimension “Lieu geographique”.
edimp ≡ General ⊓ ∃ originaire de.France
edime ≡ Conflit des Balkans
ediml1 ≡ Balkans
ediml2 ≡ Zone de securite ⊓ ∃ cree pendant.Conflit des Balkans
93
Supposons que l’element de la dimension “Personne” est obligatoire, et les autres
elements sont optionnels. Dans ce cas, la requete R1 a la transcription suivante dans
notre modele :
R1 ≡ ∃ indexe par.edimp
Priorite
Supposons maintenant que l’utilisateur veuille preciser des priorites sur les eleme-
nts de dimension de sa requete. Par exemple, l’element de la dimension “Personne”
est le plus prioritaire, et ceux de la dimension “Lieu geographique” sont les moins
prioritaires.
Formellement, il est relativement complique de definir cet operateur dans le lan-
gage ALCQ que nous avons adopte. Mais techniquement, il est tres simple de l’ap-
pliquer. En effet, il suffit de retourner les documents qui contiennent l’element de
dimension de priorite i, suivis par les documents qui contiennent l’element de dimen-
sion de priorite i + 1, et ainsi de suite.
Afin de specifier les criteres de recherche les plus exigeants dans le processus de
recherche, il est possible qu’une requete combine tous les operateurs proposes dans
notre modele.
Finalement, comme pour les documents (cf. la figure 3.2), la representation qI
du contenu semantique de q est une expression ALCQ. Lors de l’interrogation, l’ex-
pression qI est ajoutee a la T-Box qui contient deja les connaissances du domaine
ainsi que les index des documents de la collection. Il ne reste donc qu’a evaluer la
requete.
94
3.6.3 Evaluation des requetes
Pour evaluer une requete, nous avons besoin d’une fonction qui respecte les
contraintes imposees par l’utilisateur pour la correspondance entre un document
et une requete. Cette fonction est definie au niveau de l’indexation pour la corres-
pondance qui est basee sur la logique descriptive.
Nous avons egalement besoin d’une fonction qui permette d’organiser les docu-
ments dans leur ordre de pertinence par rapport a la requete. cette fonction est
definie au niveau de l’indexation pour l’ordonnancement que nous presentons dans
la suite.
Nous illustrons dans la suite comment ces deux fonctions sont integrees dans
notre modele.
La fonction de correspondance fSel
La fonction de correspondance est basee sur le calcul de la subsomption dans la
T-Box. En effet, en logique descriptive, le processus de RI peut etre vu comme la
tache de retrouver les documents representes par des concepts qui sont subsumes par
le concept representant la requete. Pour deux concepts C1 et C2 appartenant a la
T-Box T , on considere que C1 est subsume par C2 dans T (C1 ⊑T C2) si et seulement
si, pour chaque modele I de T , il est vrai que CI1 ⊆ CI
2 .
Dans la figure 3.3, un document doc et une requete q sont representes respec-
tivement, au niveau de l’indexation pour la correspondance, par docI et qI
dans la T-Box. La correspondance entre doc et q se traduit en logique descriptive
par la subsomption : doc est considere pertinent pour q si docI est subsume par qI
(docI ⊑T qI) (c’est-a-dire, en verifiant que docII ⊆ qII est vrai). Cette verification
prend en compte les documents qui satisfont l’operateur booleen, l’operateur quan-
tificateur, et l’operateur jauge qui sont utilises pour la definition du concept qI
representant la requete.
Finalement, l’ensemble des documents pertinents pour une requete q est defini
comme suit :
95
DPert = {doc ∈ Doc|docI ⊑K qI}
Fig. 3.3 – Calcul de la correspondance entre un document doc et une requete q auniveau de l’indexation pour la correspondance
Afin de proposer a l’utilisateur une liste de documents ordonnes, nous organi-
sation l’ensemble DPert en fonction du degre de pertinence de ses documents par
rapport a la requete. Cette etape est decrite dans la section suivante.
La fonction d’ordonnancement fOrd
La fonction d’ordonnancement fOrd a pour but d’organiser les documents re-
tournes pour une requete. Comme nous l’avons deja mentionne, cette fonction n’est
pas modelisee en DL dans notre modele. Nous n’avons pas encore aborde precisement
ce probleme d’ordonnancement, c’est pourquoi nous n’avons pas defini une fonction
particuliere a cet effet. Il existe plusieurs metriques dont nous pouvons nous inspirer
pour definir une fonction d’ordonnancement.
D’une maniere generale, la fonction fOrd doit calculer une valeur de pertinence,
notee RSV13, d’un document doc par rapport a une requete q en tenant compte des
13Retrieval Status Value.
96
parametres suivants :
- Les poids des elements de dimension dans doc : plus le poids des elements de di-
mension partages par q et doc est grand, plus la valeur de pertinence de doc
est elevee par rapport a q ;
- Les poids des elements de dimension dans q : plus doc contient des elements de
dimension dont le poids est eleve dans q, plus la valeur de pertinence de doc
est grande ;
- Les valeurs de priorite des elements de dimension dans q : un document contenant
un element de dimension dont la valeur de priorite est egale a Π est plus per-
tinent qu’un document contenant un element de dimension dont la valeur de
priorite est egale a Π + 1.
Fig. 3.4 – Calcul du RSV entre une requete et un document au niveau de l’indexationpour l’ordonnancement
Dans nos experimentations (cf. chapitre 4), nous avons utilise le modele vectoriel
pour mettre en œuvre la fonction fOrd. Dans ce cas, comme presente dans la figure
3.4, un document doc et une requete q sont representes respectivement, au niveau de
l’indexation pour l’ordonnancement, par les vecteurs−→doc et −→q . Le RSV entre
doc et q est calcule en appliquant le cosinus sur l’angle forme par les deux vecteurs−→doc et−→q .
97
3.7 Conclusion
En considerant les exigences de l’utilisateur en termes de precision, nous avons
propose un modele de Recherche d’Information capable de resoudre des requetes
precises. En se basant sur des connaissances du domaine representees a travers une
ressource externe, nous avons propose d’utiliser les dimensions de domaine pour
mettre en exergue les elements pertinents qui contribuent a la description du contenu
semantique des documents et des requetes. Ainsi, nous utilisons les dimensions, les
concepts et les relations pour definir une nouvelle unite d’indexation : l’element
de dimension. L’utilisation des elements de dimension nous permet de produire
une representation precise des documents tout en considerant les aspects lies a leur
semantique. Un langage expressif de requete a ete propose afin de permettre a l’usa-
ger d’utiliser des elements de dimensions et des operateurs pour decrire avec precision
son besoin d’information.
Afin de definir notre modele, nous avons choisi un formalisme de representation de
connaissances adequat qui permet la representation precise du contenu semantique
des documents et des requetes : il s’agit de la logique descriptive. Ainsi, nous avons
pu incorporer les connaissances du domaine lors de la definition de notre modele
tout en garantissant une representation uniforme des documents, des requetes et de
la ressource externe. Nous avons montre que ce formalisme dispose d’un niveau d’ex-
pressivite assez eleve qui convient tres bien a la representation precise du contenu
semantique des documents et des requetes. Ce formalisme offre egalement un moyen
pour calculer la correspondance entre un document et une requete mettant en œuvre
la pertinence systeme : il s’agit de l’algorithme de calcul de subsomption.
Dans le chapitre suivant, nous montrons, a travers la mise en œuvre de notre
modele, ses apports significatifs par rapport aux approches existantes. Nous presentons
en particulier, comment le calcul de la subsomption est un moyen efficace pour
resoudre des requetes precises representees dans notre modele. Nous presentons
egalement l’impact positif de l’utilisation des dimensions de domaine sur les per-
formances d’un Systeme de Recherche d’Information.
98
Chapitre 4
Mise en œuvre du modele
4.1 Introduction
La premiere partie de ce chapitre est consacree a la mise en œuvre de notre modele
base sur la logique descriptive. Nous y presentons les etapes necessaires pour cette
mise en œuvre (Section 4.2) et illustrons leur realisation par des exemples concrets
(Section 4.3).
La deuxieme partie quant a elle est consacree aux evaluations experimentales
de l’apport de l’usage des dimensions de domaine. D’abord, nous presentons le
contexte dans lequel nous avons mene nos experiences (Section 4.4.1). Ensuite, nous
exposons les conclusions tirees de l’application de notre modele sur des requetes
de la collection CLEF-2005 (Section 4.4.2). Dans les sections 4.4.3 et 4.4.4, nous
evaluons experimentalement l’apport de l’utilisation des dimensions de domaine pour
la resolution de requetes precises (issues du domaine medical). Les performances
de notre systeme sont ainsi evaluees en termes de precision moyenne. Enfin, nous
concluons ce chapitre par une synthese des resultats obtenus et quelques perspec-
tives (Section 4.5).
99
4.2 Etapes necessaires pour la mise en œuvre du
modele
Nous presentons dans la figure 4.1 une description graphique des etapes necessaires
pour la mise en œuvre de notre modele.
Fig. 4.1 – Representation graphique des etapes necessaires pour la mise en œuvredu modele
4.2.1 E1 : Identification des elements de dimension
La premiere etape consiste a identifier les elements de dimension au niveau des
documents (requetes). Cette etape demande l’extraction, a partir des documents
(requetes), des concepts et des relations qui servent a definir les elements de dimen-
sion. Ce processus peut necessiter un traitement automatique de la langue guide par
100
l’utilisation des ressources externes.
Du cote des documents, nous n’avons pas encore propose une methode pour ex-
traire automatiquement les elements de dimensions. Ceci s’inscrit dans le cadre de
nos perspectives a court terme. Dans les experiences que nous presentons ici, nous
avons fait des simplifications pour identifier les elements de dimension. En effet, dans
une premiere experience, nous definissons un element de dimension par un simple mot
(Section 4.4.3). Dans une deuxieme experience, nous le definissons par un concept
(Section 4.4.4).
Du cote des requetes, le probleme d’extraction des elements de dimension ne se
pose pas vu qu’une interface graphique doit etre proposee a l’utilisateur afin qu’il
puisse decrire son besoin en langue naturelle. Il y aura donc des champs de texte
pour decrire explicitement les elements de dimensions.
4.2.2 E2 : Indexation pour la correspondance
Lors de cette etape, nous utilisons la logique descriptive pour modeliser la res-
source externe, les documents, et les requetes en se basant respectivement sur le
modele de connaissances, le modele de document, et le modele de requete que nous
avons defini. Chaque document (requete) est represente(e) par la conjonction (et/ou
la disjonction) d’un ensemble d’elements de dimension. Dans la terminologie de la
logique descriptive, cette etape permet de construire la T-Box.
4.2.3 E3 : Selection des documents
La troisieme etape concerne la resolution des requetes. Une requete peut conte-
nir une combinaison de criteres de selection sur les elements de dimensions definis
par l’utilisateur pour identifier les documents recherches. Il n’y a pas de combinai-
son “ideale” d’operateurs pour former une requete. C’est a l’utilisateur de choisir,
en fonction de ses besoins et de son domaine d’interet, un ou plusieurs operateurs
parmi ceux que nous proposons dans notre modele de requete.
Pour effectuer cette etape, nous utilisons une fonction de selection (fSel) qui nous
permet de selectionner les documents pertinents pour une requete donnee. Cette
101
fonction est basee sur le calcul de la subsumption dans la T-Box construit lors de
l’etape E2.
A la fin de cette etape, les documents pertinents pour une requete sont selectionnes.
En vue de pouvoir les organiser dans leur ordre de pertinence par rapport a la requete,
nous procedons par les deux etapes qui suivent.
4.2.4 E4 : Indexation pour l’ordonnancement
Dans notre modele, un element de dimension peut avoir un poids qui reflete son
degre de representativite dans un document (requete). Cette etape est consacree donc
a la ponderation des elements de dimension au niveau des documents (requetes). A
ce niveau, nous n’avons pas encore propose une methode particuliere, mais nous
envisageons d’utiliser une des metriques existantes. En l’occurrence, cette etape a
ete effectuee, lors de nos experimentations, a l’aide du modele vectoriel.
4.2.5 E5 : Ordonnancement des documents
La cinquieme et derniere etape consiste a organiser, en utilisant la fonction fOrd,
les documents selectionnes (par fSel) dans leur ordre de pertinence par rapport a la
requete en question. Dans notre modele, nous n’avons pas defini une fonction par-
ticuliere a cette fin. Nous nous sommes bornes a utiliser le modele vectoriel pour le
calcul d’une valeur de similarite entre une requete et un document en prenant en
compte les poids des elements de dimensions.
Nous detaillons maintenant la realisation de ces etapes en illustrant par des
exemples concrets.
4.3 Realisation des etapes necessaires pour la mise
en œuvre du modele
Nous reprenons ici l’exemple que nous avons presente dans la problematique (cf.
figure 4.2). Nous montrons comment, en disposant d’une ressource externe, d’un
document, et d’une requete, la T-Box est construite. Par la suite, nous presentons
102
comment le calcul de la hierarchie de subsomption dans la T-Box est utilise pour la
resolution de requetes.
Fig. 4.2 – Exemple pour la mise en œuvre du modele
4.3.1 Realisation des etapes E2 & E3
Il s’agit ici de construire la T-Box contenant les connaissances traitees par notre
systeme. La logique descriptive represente un moyen pour presenter des informations
a l’etre humain. Pour que ces informations soient traitees par des applications, elles
doivent etre representees dans un langage adequat. Dans notre cas, nous avons choisi
d’utiliser le langage OWL1 (Web Ontology Language). Celui-ci a ete propose par le
1http ://www.w3.org/TR/owl-features/
103
consortium W3C2 pour etre utilise par des applications qui doivent traiter des onto-
logies.
Techniquement, la T-Box, contenant la ressource externe K, les representations
docI des documents et qI des requetes, est stockee dans un fichier que nous appelons
T-Box.owl (cf. le contenu de ce fichier dans l’annexe).
Modele de connaissances
Il s’agit ici de traduire une ressource externe, representee en logique descriptive,
en OWL et la stocker dans le fichier T-Box.owl. Dans notre modele, nous supposons
que les ressources externes sont deja representees en logique descriptive. Dans le cas
contraire, nous avons developpe un outil qui permet de representer une ressource
externe existante en logique descriptive et la traduire en format OWL. Nous nous
basons sur des heuristiques tres simples pour effectuer la traduction : les entrees de
la ressource externe sont traduites en concepts, et les relations en roles [43][85].
Pour notre exemple (figure 4.2), voici la description en logique descriptive de la
ressource externe. Sa traduction en OWL est presentee dans l’annexe.
⊤
Personne ⊑ ⊤
General ⊑ Personne
Philippe Morillon ⊑ General
Philippe Morillon ≡ ∃Originaire de.France
Lieu geographique ⊑ ⊤
France ⊑ Lieu geographique
Balkans ⊑ Lieu geographique
Ex-Yougoslavie ⊑ Lieu geographique
Ex-Yougoslavie ≡ ∃Partie de.Balkans
Zone de securite ⊑ Lieu geographique
Serbie ⊑ Ex-Yougoslavie
2http ://www.w3.org/TR/owl-ref/
104
Slovenie ⊑ Ex-Yougoslavie
Zone de securite ≡ ∃Cree pendant.Conflit des Balkans
Evenement ⊑ ⊤
Guerre civile ⊑ Evenement
Conflit des Balkans ⊑ Guerre civile
Conflit des Balkans ≡ ∃A lieu a.Balkans
A ce niveau, le fichier T-Box.owl contient seulement la ressource externe.
Modele de documents
Il s’agit ici d’ajouter, a la T-Box, les representations des documents tout en res-
pectant le modele de documents (cf. figure 4.3). Ainsi, chaque document doc de la
collection est represente, dans le fichier T-Box.owl, par un concept docI qui est une
expression en logique descriptive qui decrit le contenu de doc.
Fig. 4.3 – Representation graphique du modele de document
105
En supposant que les elements de dimension ont ete extraits a partir du docu-
ment presente dans la figure 4.2, leur representation en logique descriptive est de la
maniere suivante :
edim1 ≡ Philippe Morillon
edim2 ≡ Zone de securite ⊓ ∃Cree pendant.Guerre civile
edim3 ≡ Ex-Yougoslavie
edim4 ≡ Serbie
edim5 ≡ Slovenie
Le document de notre exemple est donc represente en logique descriptive par
l’expression suivante :
docI ≡ ∃indexe par.edim1 ⊓ ∃indexe par.edim2 ⊓ ∃indexe par.edim3 ⊓
∃indexe par.edim4 ⊓ ∃indexe par.edim5
Cette expression est ajoutee automatiquement a la T-Box. En effet, nous avons
developpe un outil qui permet de representer un document en logique descriptive et
le traduire en format OWL. Cet outil accepte en entree un ensemble d’elements de
dimensions, et produit en sortie le concept docI et l’ajoute dans le fichier T-Box.owl.
Modele de requetes
Il s’agit ici d’ajouter a la T-Box la representation de la requete en respectant
le modele de requete propose. Ainsi, chaque requete est representee, dans le fichier
T-Box.owl, par un concept qI.
En supposant que les elements de dimensions sont extraits a partir de la requete
de notre exemple (4.2), leur representation en logique descriptive est la suivante :
edim6 ≡ General ⊓ ∃Orginaire de.France
edim7 ≡ Zone de securite ⊓ ∃Cree pendant.Conflit des Balkans
106
De la meme maniere que pour les documents, notre outil permet de representer
une requete en logique descriptive et la traduire automatiquement en format OWL.
La requete de notre exemple est donc representee en logique descriptive par l’ex-
pression suivante :
qI ≡ ∃indexe par.edim6 ⊓ ∃indexe par.edim7
En ajoutant le concept qI au fichier T-Box.owl, la T-Box est construite, et la cor-
respondance entre documents et requetes peut etre effectuee. Nous presentons dans la
figure 4.4 une representation graphique de la T-Box. Les concepts sont presentes dans
l’ordre alphabetique : d’abord le concept docI, ensuite les concepts de la ressource
externe K (contenant les dimensions Evenement, Lieu geographique, et Personne),
enfin le concept qI.
Fig. 4.4 – Representation graphique de la T-Box
107
Correspondance
La correspondance entre le document et la requete se traduit en logique descrip-
tive par la subsomption : le document d est considere pertinent pour la requete q si
docI est subsume par qI (docI ⊑T qI) (cf. figure 4.5). Techniquement, il faut faire
des inferences dans le fichier T-Box.owl et fabriquer la hierarchie de subsomption. Il
existe plusieurs raisonneurs qui permettent d’effectuer cette tache (Racer3, Fact++4,
etc.). Dans nos experimentations, nous avons choisi le raisonneur Pellet5.
Fig. 4.5 – Calcul de la correspondance entre un document doc et une requete q
Le raisonneur prend en entree le fichier T-Box.owl qui est represente graphique-
ment dans la figure 4.4. En faisant des inferences, le raisonneur produit la hierarchie
de subsomption qui est presentee dans la figure 4.6. Dans celle-ci, nous pouvons
constater que le concept docI est plus specifique que le concept qI dans la hierarchie
ainsi fabriquee. Cette information implique que le concept qI subsume le concept
docI, ce qui veut dire que le document doc peut etre considere comme une reponse
pertinente pour la requete q.
A ce niveau, notre systeme arrive a selectionner les documents pertinents pour
une requete. Il ne reste qu’a les classer dans leur ordre de pertinence par rapport a
la requete. Ce processus est decrit dans la section suivante.
3http ://www.racer-systems.com/4http ://owl.man.ac.uk/factplusplus/5http ://pellet.owldl.com/
108
Fig. 4.6 – La hierarchie de subsomption fabriquee par le raisonneur Pellet
4.3.2 Realisation des etapes E4 & E5
Nous avons utilise le modele vectoriel pour mettre en œuvre ces deux etapes.
Comme presente dans la figure 4.7, un document doc et une requete q sont representes
respectivement par les vecteurs−→doc et −→q . Le RSV6 entre doc et q est calcule en ap-
pliquant le cosinus sur l’angle forme par les deux vecteurs−→doc et −→q .
Dans les experiences presentees ici, nous considerons un element de dimension
comme un concept ou un mot. Ainsi, l’application du modele vectoriel est tres simple
car chaque document (requete) est represente(e) par un vecteur de concepts ou mots.
Nous presentons maintenant les experiences menees sur la collection CLEF-2005
qui ont pour but d’evaluer l’apport de l’utilisation des dimensions pour la resolution
des requetes precises.
6Retrieval Status Value.
109
Fig. 4.7 – Calcul du RSV entre une requete et un document au niveau de l’indexationpour l’ordonnancement
4.4 Experimentations sur la collection CLEF-2005
Avant d’exposer nos experiences, nous presentons d’abord le contexte dans lequel
elles ont ete menees.
4.4.1 Contexte des experimentations
Protocole d’evaluation
Nous avons utilise une collection de la campagne d’evaluation CLEF-2005. Elle
a ete utilisee dans la tache de recherche d’images medicales (MedIR) [24] qui fait
partie de la piste ImageCLEF qui concerne la recherche multilingue d’images.
Dans la campagne CLEF, les systemes sont evalues selon l’approche d’evaluation
caracteristique des systemes de Recherche d’Information. Celle-ci est basee sur la
notion de pertinence qui consiste en la quantification de la correspondance d’un do-
cument par rapport a une requete. Elle repose sur une mesure des performances des
systemes basee sur le calcul de deux indicateurs : le rappel et la precision [23]. Un
Systeme de Recherche d’Information de qualite maximise ces deux valeurs, bien que
celles-ci soient generalement antinomiques.
La methode d’evaluation des systemes est faite selon le protocole TREC7. Pour
chaque requete, les 1000 premiers documents sont restitues par le systeme et des
7http ://trec.nist.gov/
110
precisions sont calculees a differents points (5, 10, 15, 30, 100, et 1000 premiers
documents restitues), puis une moyenne Avg Pr de toutes ces precisions est calculee.
Le corpus
Les experimentations sont conduites sur le corpus ImageCLEFmed-2005. Celui-ci
contient 50,026 images avec des annotations en format XML. La majorite des anno-
tations sont en anglais, mais il y a un nombre significatif en francais et en allemand,
avec quelques cas sans aucune annotation.
Le corpus comprend egalement 25 requetes contenant chacune une ou plusieurs
images exemples (positives, negatives). Chaque requete contient trois courtes des-
criptions textuelles respectivement en francais, en anglais, et en allemand.
Dans la figure 4.8, nous presentons un exemple typique d’une requete de la col-
lection ImageCLEFmed-2005 :
Fig. 4.8 – Exemple de requete de la collection ImageCLEFmed-2005
111
Pourquoi la collection ImageCLEFmed ?
Nous pensons que la collection ImageCLEFmed est particulierement pertinente
pour evaluer notre approche. En effet, cette collection contient des requetes qui
expriment des besoins precis de medecins. A travers ces requetes, l’etre humain com-
prend clairement que l’on cherche des images qui contiennent deux elements en rap-
port l’un avec l’autre : i) une partie de l’anatomie du corps humain (ex. femur), ii)
une pathologie liee a cette partie de l’anatomie (ex. fracture), iii) enfin, ces elements
doivent etre decrits dans une image d’une modalite particuliere (ex. x-ray). Ces
trois types d’elements d’informations representent des dimensions du domaine de la
medecine.
Notre defi est de resoudre ces requetes precises Nous proposons ainsi de prendre
en compte les dimensions susmentionnees et montrer que leur utilisation permet d’in-
terpreter avec precision les requetes de la collection ImageCLEFmed, et d’augmenter
ainsi la precision du systeme.
Les ressources externes utilisees
Nous avons utilise deux ressources externes pour definir les dimensions du do-
maine medical. Nous les presentons brievement dans les sections suivantes.
Le thesaurus MeSH
MeSH8 (Medical Subject Headings) est un thesaurus developpe par la “National
Library of Medicine9”. Il se compose d’un ensemble de termes de la medicine fai-
sant reference a des descripteurs organises dans une structure hierarchique. MeSH
contenait 22997 descripteurs classes a la fois dans une structure alphabetique et
hierarchique. Au niveau superieur de la structure hierarchique, on trouve des termes
tres generiques tels que “Anatomy” ou “Diseases”. Des termes plus specifiques tels
que “Femur” et “Cancer” se trouvent a des niveaux plus bas de la hierarchie qui
contient onze niveaux. Nous presentons, dans la figure 4.9, les premiers niveaux de
la hierarchie de MeSH.
8http ://www.nlm.nih.gov/mesh/ [visite le 19-6-2007]9http ://www.nlm.nih.gov/ [visite le 19-6-2007]
112
Fig. 4.9 – Premier niveau de la structure hierarchique de MeSH
Dans notre experience, nous avons utilise la structure hierarchique de MeSH
pour definir les dimensions “Anatomie”, “Pathologie”, et “Modalite”. Celles-ci sont
definies respectivement par les hierarchies suivantes :
- Anatomy [A] ;
- Diseases [C] ;
- Analytical, Diagnostic and Therapeutic Techniques and Equipment [E]
Le meta-thesaurus UMLS
UMLS (Unified Medical Language System) resulte de la fusion de 140 sources de
donnees terminologiques (UMLS knowledge sources) du domaine medical. Il contient
egalement des outils linguistiques destines a faciliter les taches d’acces, de recherche,
d’integration, et d’agregation des informations biomedicales et de sante. Il est com-
pose de trois elements : le Meta-thesaurus, le Semantic Network, et le Specialist Lexi-
con. Le Meta-thesaurus est la partie la plus importante par sa taille et son contenu.
Il regroupe des concepts denotes par des termes differents. Ces termes peuvent
eventuellement provenir de sources differentes. La structure du meta-thesaurus com-
prend les quatre niveaux suivants :
113
- Atome : c’est le plus petit element dans la structure. Il represente les instances
d’une chaıne de caracteres venant de differentes sources ;
- Chaınes : represente les variations de forme d’une chaıne de caracteres. C’est le
regroupement des atomes qui ont la meme forme de chaıne de caracteres ;
- Terme : represente les variations de denotation d’un concept. Ce sont donc les
termes des synonymes qui regroupent un ensemble de chaınes ;
- Concept : represente le sens des termes. C’est le regroupement des synonymes.
UMLS comprend environ 170 types de relations entre les concepts presents dans
le Meta-thesaurus. La relation de synonymie est representee implicitement dans la
structure des concepts. Tous les concepts sont organises en 135 categories, appelees
types semantiques dans le Semantic Network. Cette structure est un ajout a la fusion
des thesaurus. Elle permet de “couvrir” cette fusion d’une classification hierarchique.
C’est precisement cette structure que nous utilisons pour definir les dimensions.
Pour les requetes d’ImagCLEFmed-2005, nous avons utilise les dimensions Ana-
tomie, Pathologie, et Modalite. En analysant manuellement les requetes et UMLS,
nous avons choisi les concepts qui definissent chacune de ces dimensions :
- Anatomie “Anatomical Structure”, “Body System”, “Body Space or Junction”,
“Body Location or Region” ;
- Pathologie “Disease or Syndrome”, “Finding”, “Injury or Poisoning” ;
- Modalite “Diagnostic Procedure”, “Manufactured Object”.
Les concepts de chaque categorie sont organises autour d’une sous-hierarchie
d’UMLS. Donc, pour definir une dimension, nous regroupons les sous-hierarchies qui
correspondent au concept definissant cette dimension.
4.4.2 Mise en œuvre du modele a base de la logique descrip-
tive sur la collection ImageCLEFmed-2005
L’objectif a travers cette experience est de tester la faisabilite de l’application de
notre approche sur des requetes extraites d’une collection reference. Il s’agit princi-
palement de savoir a quel point notre modele peut etre applique et quelles sont les
114
limites techniques et formelles qui lui sont liees.
Nous avons effectue des tests sur quelques requetes choisies en fonction de leur
complexite. Pour chacune de ces requetes, nous construisons une T-Box constituee
de la requete elle-meme, des documents qui lui sont pertinents et d’une partie de
UMLS. Ensuite, nous calculons la correspondance a l’aide du raisonneur Pellet et
comparons le resultat avec la correspondance calculee par un modele de RI classique
(i.e. le modele vectoriel).
Analyses concernant les donnees
La premiere difficulte concerne la selection d’un sous-ensemble de UMLS pour
chacune des requetes etudiees. Techniquement cette tache est assez simple a realiser :
il suffit de selectionner, a partir de UMLS, les hierarchies auxquelles appartiennent
les concepts de la requete et les traduire dans un format OWL. Lors du calcul de la
subsomption, ces hierarchies sont utilisees par le raisonneur Pellet afin de retrouver
les documents pertinents pour la requete en question.
Le probleme majeur a ce niveau est que UMLS contient plusieurs hierarchies pa-
ralleles provenant chacune d’une ressource independante. Ceci represente une diffi-
culte lors de la representation de UMLS en logique descriptive. Une solution possible
est de choisir une seule hierarchie (par exemple, provenant d’une ressource parti-
culiere) et l’utiliser pour le calcul de la subsomption.
Le deuxieme probleme rencontre consiste en l’extraction automatique des elements
de dimension a partir des documents. Cette tache n’est pas facile a realiser. Elle de-
mande une analyse precise de la langue naturelle afin d’extraire les concepts et les
relations qui servent a definir les elements de dimension. Nous avons simplifie le
modele en supposant qu’un element de dimension est defini par un concept. Du cote
de la requete, ce probleme est mineur vu que l’extraction des elements de dimension
se fait tres facilement d’une maniere manuelle.
Le troisieme probleme est lie au contenu des documents de la collection ImageCL-
EFmed-2005. Certains de ces documents contiennent un texte (meta-donnees) qui
ne decrit pas le contenu de l’image associee. En effet, les jugements de pertinence
115
dans la collection ImageCLEFmed-2005 ont ete effectues en se basant sur les images
et non pas sur les textes qui leur sont associes. Ceci represente un handicap lors de
l’evaluation de la fonction de correspondance, surtout quand le systeme ne retrouve
pas les documents pertinents. En effet, dans ce cas, on ne peut pas determiner ce qui
a mal fonctionne lors de l’experience : est-ce que notre fonction de correspondance ne
fonctionne vraiment pas bien, ou bien les documents ne contiennent-ils effectivement
pas de texte decrivant l’image.
Analyses concernant le modele
La fonction de correspondance
Apres moult essais, nous avons conclu que la qualite de la conception de la res-
source externe utilisee a un impact majeur sur la performance de la fonction de
correspondance basee sur le calcul de la subsomption. En effet, plus cette ressource
contient des relations de subsomption (is-a), plus la fonction de correspondance est
capable de retrouver des documents pertinents a une requete meme s’ils ne partagent
pas les memes concepts qu’elle. Par exemple, pour une requete contenant “Tibia”,
la correspondance a base du modele vectoriel n’a pu retrouver que 3 documents per-
tinents alors que notre fonction de correspondance a permis d’en retrouver 12, en
utilisant la relation “Tibia is-a Bone”. En effet, a travers l’algorithme qui calcule
la subsomption, l’utilisation de la Logique Descriptive offre une capacite de raison-
nement qui peut deduire des connaissances implicites a partir de celles qui sont
explicitement definies dans la T-Box, et permet ainsi de retrouver des documents
pertinents pour une requete meme s’ils ne partagent aucun concept avec elle.
Cependant, nous avons rencontre quelques problemes en utilisant la hierarchie de
subsomption. En effet, selon le domaine, la ressource externe peut etre organisee a
travers des hierarchies semantiques differentes. Par exemple, dans le domaine de la
Geographie, la relation part of est probablement une des relations les plus utilisees
dans les hierarchies de concepts. Il en est de meme pour l’anatomie humaine. Par
exemple, si un utilisateur cherche ”fracture in the leg”, il va certainement considerer
un document contenant “fracture of the hip” comme pertinent. Ainsi, le systeme de
recherche doit prendre en compte, lors du calcul de la subsomption, la hierarchie
part of decrivant l’anatomie humaine.
116
Une facon de resoudre ce probleme est d’effectuer une expansion guidee de la
requete telle que propose par Baziz [4]. Il s’agit de specifier les relations a utiliser
lors de l’expansion de requete. Dans l’exemple precedent, une expansion possible
serait de rechercher les documents qui contiennent “Leg” et les membres de l’ana-
tomie qui font partie de “Leg” (Leg ⊔ ∃ part of.Leg). Evidemment, pour que cette
solution marche, il faut etudier le nombre de niveaux dans la hierarchie a utiliser
lors de l’expansion. En l’occurrence, l’expansion doit etre faite d’une facon a pouvoir
ajouter “Hip”, “Femur”, “Tibia”, etc.
Une deuxieme facon de resoudre ce probleme est de “tordre” la relation de sub-
somption et de representer ainsi la hierarchie part of comme une hierarchie de sub-
somption, donc declarer implicitement, par exemple, que Hip is a Leg. Avec cette
approche, nous aurions les elements de dimensions suivants respectivement dans la
requete et le document :
edimq ≡ Fracture ⊓ ∃ affect .Leg
edimd ≡ Fracture ⊓ ∃ affect .Hip
Ayant declare que Hip ⊑ Leg, le raisonneur va correctement inferer que edimd ⊑
edimq. Dans nos experimentations, nous avons implemente cette approche “rapide
et naıve”. Cependant, l’utilisation de la subsomption pour mimer une autre relation
peut conduire, dans certains cas, a des deductions contre-intuitives imprevues. Une
approche plus “sure et propre” consiste a definir des proprietes transitives afin de
representer les differents types de hierarchies qui peuvent exister dans un domaine
donne. Ainsi, les elements de dimension de l’exemple precedent seront presentes
comme suit :
edimq ≡ Fracture ⊓ ∃ affect ∃part of .Leg
edimd ≡ Fracture ⊓ ∃ affect ∃part of .Hip
Si un axiome specifie que part of est transitive, et si la definition de Hip est de
la forme “... ⊓ ∃part of.Leg”, alors le raisonneur peut inferer que edimd ⊑ edimq.
117
Nous pouvons donc conclure que la fonction de correspondance basee sur le calcul
de la subsomption a l’avantage d’etre tres flexible dans le sens ou elle permet d’uti-
liser n’importe quelle relation pour calculer la correspondance entre un document et
une requete. Mais, comme nous le verrons dans la section suivante, le prix a payer
peut survenir au niveau de la fonction d’ordonnancement.
La fonction d’ordonnancement
Avec notre fonction de correspondance, un document peut etre retrouve comme
reponse a une requete meme s’il ne partage pas les memes concepts qu’elle. Dans ce
cas, il n’est pas possible de calculer (a l’aide du modele vectoriel) une valeur de si-
milarite entre un document et une requete qui ne partagent pas les memes concepts.
Par exemple, pour la requete contenant “Tibia” et un document contenant “Bone”,
le modele vectoriel a retourne une valeur de similarite nulle alors que le document
est pertinent pour la requete en question.
Une solution possible a ce probleme consiste a etendre la requete ou le docu-
ment avant de fabriquer leurs vecteurs respectifs et calculer la valeur de similarite
entre eux. En effet, lors du calcul de la subsomption, il est possible de savoir quelles
sont les relations qui ont ete utilisees par le raisonneur pour fabriquer la hierarchie
de subsomption. Ces relations peuvent etre utilisees pour etendre la requete ou ses
documents reponses. Par exemple, pour la requete contenant “Tibia” et le docu-
ment contenant “Bone”, nous pouvons utiliser la relation “is-a” pour etendre soit la
requete par le concept “Bone”, soit le document par le concept “Tibia”.
Suite a ce probleme, deux questions meritent d’etre posees :
1. Est-ce que l’ordonnancement dans un contexte de recherche precise est indis-
pensable ?
2. Est-ce que la notion de pertinence dans un contexte de recherche precise est la
meme que celle qui est utilisee dans la recherche generale ?
Nous pensons que dans une tache de recherche precise, l’utilisateur peut se satis-
118
faire de n’importe quelle reponse pertinente retournee par le systeme. Etant donne
que la fonction de correspondance est censee ne retourner que des documents tres
pertinents, l’ordonnancement devient moins important que dans un cas de recherche
generale (comme sur le Web par exemple). Cependant, on peut penser que la no-
tion de pertinence dans un contexte de recherche precise differe de celle qui est
utilisee dans une recherche generale. Par exemple, pour une requete demandant la
liste des joueurs de l’equipe de Rugby de France, un document contenant les 15
joueurs peut etre considere par l’utilisateur comme plus pertinent qu’un document
contenant seulement quelques joueurs.
Nous pensons qu’avant de proposer une fonction d’ordonnancement, il faut d’abord
definir la notion de pertinence dans un contexte de recherche precise. Il est possible
que la definition de cette notion depende du domaine d’application considere. Pour
cette raison, il semble souhaitable de collaborer avec des utilisateurs d’un domaine
particulier afin de definir leur notion de pertinence et proposer par la suite une fonc-
tion d’ordonnancement.
Consideration des performances en temps de calcul
Il est evident que l’utilisation d’un raisonneur pour mettre en œuvre la fonction
de correspondance conduit a des temps de calcul nettement plus longs que dans le
cas des SRI bases sur un index classique. Neanmoins, plusieurs points peuvent etre
interessants a etudier afin d’ameliorer les performances d’une approche basee sur la
logique descriptive : i) le contenu des documents est generalement represente par une
simple expression logique en utilisant les constructeurs ⊓ et ∃. Ainsi, nous pouvons
imaginer un algorithme de raisonnement plus simple que ceux utilises dans le cas
general ; ii) le contenu de la collection est generalement stable, et peut donc etre
pre-traite afin de minimiser les calculs au moment de l’interrogation. Par exemple,
nous pouvons pre-calculer la hierarchie de subsomption, et une fois la requete posee,
le raisonneur n’a qu’a placer le concept representant la requete au bon endroit de
cette hierarchie. De plus, il est inutile de calculer la subsomption entre les concepts
representant les documents ; iii) en cas ou les requetes sont representees par des ex-
pressions logiques simples ou regulieres, un traitement specifique peut etre applique
afin de faciliter la tache du raisonneur et eviter des calculs inutiles.
119
Apres cette analyse sur la mise en œuvre du modele, nous detaillons maintenant
deux experiences preliminaires dediees a l’evaluation, en terme de performance de
recherche, de l’apport de l’utilisation des dimensions de domaine. Dans chacune
de ces deux experiences, nous avons utilise le systeme d’experimentation X-IOTA
developpe par l’equipe MRIM du laboratoire LIG [17].
4.4.3 Definition des elements de dimensions par des mots
Dans cette nouvelle experience10, nous avons utilise le thesaurus MeSH comme
ressource externe pour la definition des dimensions du domaine medical. Nous avons
egalement utilise les mots pour identifier les elements de dimensions au niveau des
documents/requetes. Le but de cette experience est de montrer comment, en dispo-
sant d’un thesaurus de petite taille et d’un index a base de mots-cles, l’application
de l’usage des dimensions de domaine peut resoudre des requetes precises et depasser
les approches basees sur les modeles existants.
Identification et ponderation des elements de dimensions
Une fois les dimensions definies, nous les utilisons pour identifier les elements
de dimension au niveau des documents (requetes) du corpus ImageCLEFmed. Nous
avons fait une simplification en definissant un element de dimension par un simple
mot. Donc si un mot appartenant a un document (requete) existe dans une des
dimensions definies, alors il sera considere comme un element de cette dimension.
Une fois les elements de dimensions identifies, nous les ponderons en employant le
schema de ponderation LTC du modele vectoriel.
Selection et ordonnancement des documents pertinents pour une requete
Afin de resoudre les requetes du corpus ImageCLEFmed, nous utilisons trois
criteres parmi ceux que nous avons proposes dans notre modele : obligatoire, option-
nel, et priorite.
Rappelons qu’un element de dimension marque comme obligatoire dans une
requete doit absolument apparaıtre dans les documents retrouves, alors qu’un element
de dimension optionnel peut y apparaıtre ou non. Enfin, un element de dimension qui
10Cette experience a ete menee en collaboration avec Dr. J-P. Chevallet et Dr. J-W. Lim [20] [19]
120
a une priorite i doit apparaıtre dans les documents retrouves, sinon, c’est l’element
de dimension qui a une priorite i + 1.
En se basant sur ces trois criteres, nous avons effectue quatre tests afin de pou-
voir interpreter le contenu des requetes. Nous presentons ces tests dans la section
suivante, ainsi que les resultats obtenus.
Notre objectif ici n’est pas d’evaluer la fonction de correspondance, basee sur le
calcul de la subsomption, mais plutot l’apport de l’utilisation des dimensions pour
la resolution de requetes precises. Ainsi, lors du calcul de la correspondance, nous
n’avons pas besoin de faire des inferences dans la ressource externe pour le cal-
cul de la subsomption. La correspondance entre une requete et un document peut
etre effectuee avec un modele booleen classique ou les documents (requetes) sont
represente(e)s comme une conjonction (et/ou disjonction) d’elements de dimension.
Une fois les documents selectionnes, nous utilisons le modele vectoriel pour les
ordonner en fonction de leur pertinence par rapport a la requete en question. Comme
la correspondance a ete effectuee sans aucune inference dans la ressource externe,
chaque document retrouve partage forcement les memes elements de dimension que
la requete. Ainsi, l’application du modele vectoriel pour le calcul d’une valeur de
similarite entre un document et une requete ne pose aucun probleme.
Resultats experimentaux
Nous avons d’abord effectue une indexation classique basee sur le modele vec-
toriel (avec le schema de ponderation LTC) sans prise en compte des dimensions.
Le resultat de cette methode d’indexation classique servira de reference (baseline)
pour evaluer l’apport de l’usage des dimensions de domaine. La precision moyenne
(MAP : Mean Average Precision) obtenu avec le baseline est egale a 0.1725.
Les resultats obtenus sont presentes dans le tableau 4.1, ou les lignes corres-
pondent aux tests, et les valeurs correspondent aux resultats et leur taux de variation
compare au baseline.
Voici les quatre tests effectues lors de nos experiences. Evidemment, ce sont de
121
Tab. 4.1 – Comparaison des resultats de notre approche avec le baseline.Tests MAP Comparaison avec le baseline (%)T1 0.1463 -17.90T2 0.1956 +13.39T3 0.2075 +20.28T4 0.2130 +23.47
simples tests sur des cas particuliers qui n’ont pas de portee generale. Le but ici etant
de montrer comment les operateurs que nous avons proposes peuvent etre utilises
pour mieux preciser un besoin d’information.
T1 : “Un document est considere pertinent s’il contient les trois dimensions presentes
dans la requete”.
Cette requete se traduit par le fait que les elements des dimensions Anatomie,
Pathologie, et Modalite sont obligatoires et doivent donc etre presents dans les do-
cuments pertinents.
Nous nous attendions a ce que ce test ameliore les resultats mais les experiences
demontrent le contraire : une baisse de 17.90%. Apres analyse de la collection, nous
avons remarque que ce resultat est du au fait que les documents de ImageCLEFmed-
2005 ne contiennent pas souvent les termes decrivant la modalite des images. Le fait
que la modalite ne soit pas assez explicitee dans les documents nous paraıt normal
car un compte-rendu decrit une pathologie sur une partie de l’anatomie, et l’informa-
tion sur le type d’image est souvent implicite. Pour cette raison, nous avons propose
le test suivant :
T2 : “Un document est considere pertinent s’il contient au moins une des dimen-
sions de la requete”.
Cette requete se traduit par le fait que les elements des dimensions Anatomie,
Pathologie, et Modalite sont tous optionnels et qu’au moins un d’entre eux doit etre
present dans les documents pertinents.
122
Avec ce test, nous avons obtenu une amelioration du resultat de 13.39%. Dans
ce cas, nous avons suppose que toutes les dimensions ont la meme importance dans
la requete. Cette supposition n’est pas toujours valide. En effet, les termes decrivant
la modalite dans la requete ne sont pas discriminants (ex : une CT 11 peut etre
“une image d’un rein” ou “une image d’un emphyseme”, etc.). De meme, les termes
decrivant la pathologie sont parfois ambigus (ex : une fracture peut etre “une frac-
ture d’un femur” ou “une fracture d’un crane”, etc.). Donc, il nous a semble que
l’anatomie est la dimension la plus importante parce qu’elle est discriminante et non
ambigue. Ceci nous a suggere le test suivant :
T3 : “Un document pertinent doit contenir l’anatomie, sinon la pathologie, sinon la
modalite”.
Avec ce test, nous avons ameliore les performances de recherche de 20.28%.
Comme les termes decrivant la modalite ne sont pas souvent presents dans les
documents, nous avons considere dans notre quatrieme test que les elements des
dimensions Anatomie et Pathologie sont obligatoires, et que les elements de la di-
mension Modalite sont optionnels.
T4 : “Un document est considere pertinent s’il contient les dimensions anatomie et
pathologie”.
Avec ce test, nous avons obtenu une amelioration des performances de recherche
de 23.47%.
Dans la figure 4.10, nous proposons une comparaison graphique des performances
de notre systeme par rapport au baseline.
Nous presentons dans la section suivante la deuxieme experience que nous avons
menee en se basant sur une indexation conceptuelle. Nous revenons a la fin de ce
chapitre aux interpretations de ces resultats et aux conclusions que l’on peut tirer
apres ces experiences.
11Computed Tomography.
123
Fig. 4.10 – Resultats experimentaux de la prise en compte des elements de dimen-sions definis par des mots
4.4.4 Definition des elements de dimensions par des concepts
Dans le but de confirmer et consolider12 les resultats obtenus dans la premiere
experience, nous avons mene une deuxieme experience sur la meme collection Ima-
geCLEFmed. Dans cette deuxieme experience, nous avons utilise les concepts pour
l’identification des elements de dimensions au niveau des documents/requetes. Nous
avons ainsi utilise le meta-thesaurus UMLS pour l’extraction des concepts a partir
des documents/requete, et pour la definition des dimensions du domaine medical. La
mien en œuvre de cette experience suit les memes etapes que nous avons presentees
dans la premiere experience.
Mise en œuvre de l’indexation conceptuelle
Dans le present travail, l’indexation conceptuelle n’est pas un objectif en soi. Il
s’agit tout simplement d’un moyen pour extraire, a partir des documents (requetes),
les concepts qui nous servent a identifier les elements de dimension.
12C’est dans le sens ou dans la premiere experience il y avait une forte simplification en definissantles elements de dimensions par des simples mots-cles.
124
Voyons brievement la mise en œuvre de l’indexation conceptuelle que nous avons
utilisee. Une description detaillee avec tous les resultats est disponible dans [73].
L’outil13 que nous avons utilise est adapte aux textes ecrits en anglais. Nous l’avons
egalement utilise pour les textes ecrits en allemand et en francais.
Le principe general de l’extraction des termes et des concepts qu’ils denotent est
base sur l’utilisation des outils de TAL traditionnellement utilises en RI, guides par
les donnees terminologiques de UMLS. Tout d’abord, tous les textes de la collection
sont analyses a l’aide de TreeTagger14 qui fournit comme resultat des mots segmentes,
etiquetes syntaxiquement et lemmatises. Ensuite, une correspondance est faite entre
les (groupes de) mots fournis par TreeTagger et les entrees de UMLS. L’hypothese
sur laquelle se base la mise en œuvre de l’indexation conceptuelle est que seuls les
termes presents dans UMLS et retrouves, avec seulement des variantes lexicales dans
les textes, permettent d’identifier un terme. Cette hypothese est restrictive car il
est possible que les donnees terminologiques dans UMLS ne couvrent pas toutes les
formes textuelles possibles.
La mise en œuvre de l’indexation conceptuelle est une tache difficile. Par exemple,
le meta-thesaurus UMLS ne contient pas toutes les formes textuelles possibles qui
denotent un concept. Ainsi, la correspondance stricte entre le texte des documents
et les entrees de UMLS ne permet pas d’extraire tous les concepts. Cette limite peut
etre contournee en tenant compte de deux types de variations :
i) La variation au niveau de la casse (utiliser les formes en majuscule ou en mi-
nuscule) : selon les resultats, il semble difficile de pouvoir dire quelle methode
effectue la meilleure correspondance entre les (groupe de) mots des textes et
les entrees de UMLS. En tout cas, d’un point de vue RI, la suppression de la
casse est plus simple a mettre en œuvre et semble donc plus interessante.
ii) La variation au niveau lexical (la forme d’origine d’un mot ou sa forme lem-
matisee). A ce niveau il existe un probleme de non-detection des termes qui
13Developpe par Loıc Maisonnasse.14http ://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html
125
pourraient denoter des concepts dans le texte. Ce type d’erreur provient de
l’analyse lexicale de TreeTagger qui ne permet pas de retrouver les lemmes de
tous les mots utilises dans le corpus medical. Par exemple, le terme “angio-
grams”, qui est present dans une requete sous la forme au pluriel, ne peut pas
etre associe au concept correspondant car UMLS ne contient que la forme au
singulier (angiogram) et TreeTagger n’est pas capable de retrouver le lemme
correspondant a “angiograms”. En effet, l’analyseur TreeTagger est un ana-
lyseur general et donc non adapte au vocabulaire medical. L’utilisation d’un
analyseur specialise sur le domaine pourrait ameliorer les resultats.
Un autre probleme concerne l’association entre une chaıne de caracteres et les
entrees d’UMLS. Faut-il considerer seulement les termes presents dans le texte et qui
sont les plus longs (contiennent le plus grand nombre de mots), ou bien considerer
tous les termes independamment de leurs tailles ? Dans le premier cas, notamment
considere par Baziz [4], le terme pertinent a extraire de la sequence “Images of right
middle lobe”, est “right middle lobe” et non pas seulement “lobe”.
Les experiences que nous avons effectuees ont montre que la correspondance basee
sur les termes les plus longs donne des resultats inferieurs a ceux qui sont obtenus a
l’aide des mots. Cette baisse de performance s’explique par l’extreme precision des
concepts extraits. En effet, des concepts denotes par “Right middle lobe” ou “Chest
CT” sont trop precis de sorte que leur utilisation a la place de leurs constituants
entraıne une forte baisse du rappel. D’autres problemes tels que la metonymie influe
sur la correspondance entre les concepts.
En extrayant les concepts denotes par tous les termes presents dans le texte, on
obtient une nette amelioration dans les performances du systeme, surpassant ainsi
les resultats obtenus par l’indexation basee sur les mots cles. Cette amelioration est
la consequence d’une augmentation du taux du rappel qui est du a l’extraction de
certains concepts plus generaux.
Dans la presente experimentation, nous n’avons pas traite le probleme de l’am-
biguıte des termes. Nous avons suppose que dans un domaine tres specifique, tel que
la medecine, le taux d’ambiguıte des termes n’est pas eleve. Dans ce cas, l’indexation
126
Tab. 4.2 – Comparaison des resultats de notre approche avec le baseline.Tests Documents en Anglais Documents de toute la collection
MAP Compare au baseline (%) MAP Compare au baseline (%)T1 0.1335 -10.03 0.1428 -1.61T2 0.156 +6.19 0.1534 +5.72T3 0.1617 +10.07 0.1579 +8.82T4 0.1707 +16.2 0.1742 +20.05
conceptuelle sert principalement a la prise en compte de la variation terminologique.
Resultats experimentaux
Nous avons mene deux experiences : la premiere est effectuee sur les seuls docu-
ments en anglais, et la deuxieme sur toute la collection ImageCLEFmed-2005. Les
resultats presentes plus loin sont compares a deux resultats de reference obtenus
avec la seule indexation conceptuelle basee sur le modele vectoriel (avec le schema
de ponderation LTC) sans prise en compte des dimensions. Le premier resultat de
reference correspond a l’indexation conceptuelle effectuee sur les documents en an-
glais : 0,1469 de precision moyenne (MAP) ; le deuxieme resultat de reference corres-
pond a l’indexation conceptuelle effectuee sur les documents de toute la collection :
0,1451 de precision moyenne. Dans la suite, chacun de ces deux resultats sera appele
baseline.
Nous remarquons que les valeurs des baselines obtenus avec l’indexation concep-
tuelle sont plus faibles que ceux obtenus avec l’indexation basee sur les mots-cles (cf.
section 4.4.3). Ceci est du en partie aux difficultes de la mise en œuvre de l’indexa-
tion conceptuelle que nous avons evoquees dans la section precedente.
Comme dans l’experience presentee dans la section 4.4.3, nous reutilisons les
quatre tests bases sur les criteres suivants : obligatoire, optionnel, et priorite. Les
nouveaux resultats sont presentes dans le tableau 4.2 ou chaque ligne correspond
a un test, et les valeurs representent les resultats et leur variation par rapport au
baseline correspondant.
Ces resultats montrent que les quatre tests provoquent les memes variations des
performances que celles qui ont ete obtenues dans la premiere experience (cf. tableau
127
Tab. 4.3 – Variations des performances de notre systeme applique sur trois indexdifferents.
Index 1 Index 2 Index 3
T1 -17.90 -10.03 -1.61T2 +13.39 +6.19 +5.72T3 +20.28 +10.07 +8.82T4 +23.47 +16.2 +20.05
4.315). Le test T1 provoque une baisse dans les performances, et tous les autres tests
conduisent a des ameliorations dont les meilleures ont ete obtenues par le test T4 :
+16.2% pour les seuls documents en anglais, et +20.05% pour l’ensemble des docu-
ments de la collection.
Ces resultats confirment les conclusions tirees suite a la premiere experience :
- Les documents de la collection ImageCLEFmed-2005 ne contiennent pas souvent
les concepts decrivant la modalite des images. Ainsi, il suffit de considerer que
les elements de la dimension modalite sont optionnels pour obtenir une forte
amelioration des performances ;
- Les dimensions de domaine n’ont pas toujours la meme importance dans la requete :
les elements de la dimension Anatomie ne sont pas ambigus et il est donc
benefique de leur donner une priorite plus elevee que celles des elements des
autres dimensions. Le fait de mettre des priorites sur les elements de dimen-
sions des requetes conduit dans tous les cas a de nettes ameliorations au niveau
des performances de notre systeme.
La figure 4.11 illustre les variations des performances de notre systeme en effec-
tuant les tests respectivement sur Index1, Index2, et Index3.
15ou Idex1 = Documents de toute la collection (elements de dimensions definis par des mots-cles) ;Index2 = Documents en Anglais (elements de dimensions definis par des concepts), et Index3 =Documents de toute la collection (elements de dimensions definis par des concepts)
128
Fig. 4.11 – Variations des performances de notre systeme applique sur trois indexdifferents
4.5 Conclusion
Dans tout ce quatrieme chapitre, nous avons detaille la mise en œuvre de notre
modele et son application sur des exemples de la collection ImageCLEFmed-2005.
Plus particulierement, nous avons montre comment le calcul de subsomption est
utilise pour mettre en œuvre la fonction de correspondance a base de la logique
descriptive. Ainsi, nous avons pu conclure que la performance de la fonction de cor-
respondance depend principalement de la qualite de la ressource externe utilisee :
plus cette ressource contient de relations de subsomption, plus la fonction de corres-
pondance est capable de retrouver des documents pertinents a une requete, meme
s’ils ne partagent pas les memes concepts qu’elle.
Nous avons montre que la fonction de correspondance est tres flexible dans le sens
ou elle permet d’utiliser n’importe quelle relation pour calculer la correspondance
entre un document et une requete. Il suffit de specifier des proprietes transitives afin
de permettre a un raisonneur d’utiliser n’importe quel type de relation lors du calcul
de la subsomption.
En utilisant les relations lors du calcul de la subsomption, un document peut etre
retrouve comme reponse a une requete meme s’il ne partage pas les memes concepts
avec elle. Ceci pose probleme au niveau de la fonction d’ordonnancement car elle
129
est incapable de calculer une valeur de similarite entre un document et une requete
qui ne partagent pas les memes concepts. Une solution tres simple est d’etendre la
requete ou le document durant le calcul de l’ordonnancement. Jusqu’a present, nous
n’avons pas propose une fonction d’ordonnancement particuliere et nous envisageons
d’etudier ce probleme dans nos futurs travaux. En particulier, nous souhaiterions
definir la notion de pertinence dans un contexte de recherche precise. Ceci devrait
nous permettre de proposer une fonction d’ordonnancement qui soit encore plus en
adequation avec les besoins precis d’utilisateurs professionnels.
Apres la mise en œuvre du modele, nous avons presente deux experiences prelimin-
aires dediees a l’evaluation, en terme de performance de recherche, de l’apport de
l’utilisation des dimensions de domaine :
i) La premiere est basee sur l’usage d’elements de dimensions representes par des
mots-cles. Dans cette experience, nous avons utilise la structure hierarchique du
thesaurus MeSH pour definir les dimensions. Malgre une approche simplifiee
de la definition des elements de dimension, nous avons reussi a depasser les
performances des systemes qui ne prennent pas en compte les dimensions de
domaine. Les resultats obtenus lors de cette experience ont clairement montre
l’avantage de l’usage des dimensions de domaine pour l’interpretation des be-
soins precis (une amelioration de plus de 23% de la precision moyenne). Cette
meme idee nous a permis d’obtenir le meilleur resultat lors de notre participa-
tion16 a la piste de recherche d’images medicales de la campagne d’evaluation
CLEF-2005 [20][19] ;
ii) La deuxieme est basee sur l’usage d’elements de dimensions representes par des
concepts. Dans cette experience, nous avons utilise le meta-thesaurus UMLS
pour la definition des dimensions et la mise en œuvre de l’indexation concep-
tuelle. Les elements de dimensions ont ete representes par les concepts extraits
de ce meta-thesaurus. Bien que la technique d’extraction des concepts, et donc
la reconnaissance des dimensions, ne soit pas totalement fiable, nous avons
reussi a ameliorer les performances de notre systeme de 20%. Les resultats
obtenus lors de cette experience consolident ceux obtenus lors de la premiere
16En collaboration avec Dr. J-P. Chevallet et Dr. J-W. Lim.
130
experience, et confirment l’apport significatif de l’usage des dimensions pour la
resolution des requetes precises.
L’ensemble des resultats obtenus ici nous permet d’affirmer que la prise en compte
des dimensions permet d’augmenter la precision moyenne du SRI. En effet, il s’agit
d’un complement d’information qui permet d’identifier les elements pertinents qui
decrivent le theme detaille dans la requete (document). En identifiant ces elements,
que nous avons appeles elements de dimensions, notre systeme arrive a interpreter
avec plus de precision le contenu de la requete et donc de mieux la resoudre. Nous
avons egalement propose un langage de requete expressif qui permet a l’usager d’uti-
liser des operateurs sur les elements de dimensions de sa requete, et de mieux preciser
son besoin en information. Nos experiences ont montre l’impact positif de l’usage de
ces operateurs17 sur la precision du contenu de la requete, et sur les performances.
Comme notre systeme s’adresse a des utilisateurs professionnels qui connaissaient
bien leur domaine d’interet, il est relativement facile d’utiliser notre langage de
requete pour decrire avec precision les besoins d’information. Dans le cas ou l’uti-
lisateur ne souhaiterait pas utiliser notre langage de requete, et se contente d’un
texte brut pour decrire son besoin, il semble neanmoins que notre systeme soit ca-
pable d’identifier les dimensions et de les prendre en compte lors du processus d’in-
terrogation. Dans cette direction, nous avons mene une experience sur la collection
imageCLEFmed-2005 sans utiliser explicitement les operateurs sur les elements de di-
mensions. La requete est alors toujours consideree comme une conjonction d’elements
de dimensions. Apres la selection des documents pertinents, nous les organisons dans
leur ordre de pertinence en fonction du nombre d’elements de dimensions qu’ils par-
tagent avec la requete en question. Ce processus se fait d’une maniere transparente
sans aucune intervention humaine. Les resultats obtenus lors de cette experience ont
montre une amelioration superieure a 12% dans les performances. Ceci prouve en-
core l’apport significatif de l’usage des dimensions lors du processus de RI meme
sans aucune intervention de l’utilisateur.
Nous pouvons conclure apres les resultats encourageant obtenus ici que la prise
en compte des dimensions de domaine est un moyen efficace pour la resolution des
17les criteres obligatoire, optionnel, et priorite
131
requetes precises. Cependant, nous considerons que les resultats presentes ici ne sont
qu’une premiere etape en vue de valider l’apport de l’usage des dimensions dans
un processus de RI oriente precision. Afin de quantifier l’apport de notre approche,
nous projetons de mettre en œuvre l’integralite de notre modele. La prochaine etape
consiste donc a representer les elements de dimensions tel que nous les avons definis.
C’est-a-dire, a les representer par un ensemble de concepts et des relations. Une fois
les elements de dimension extraits, il reste seulement a appliquer la fonction de cor-
respondance pour evaluer l’integralite de notre approche. Une deuxieme perspective
est de proposer une fonction d’ordonnancement adequate au contexte de recherche
precise. La troisieme perspective est de developper une interface graphique afin que
les utilisateurs puissent tester l’utilisabite de notre systeme.
132
Chapitre 5
Conclusion
Nous nous sommes interesses a un contexte de RI dans des milieux profession-
nels, ou les besoins d’information des utilisateurs sont formules a travers des requetes
precises. L’objectif de notre travail de these a donc ete de definir un modele de RI
capable de resoudre ce type de requetes. Pour ce faire, nous avons opte pour l’uti-
lisation des connaissances du domaine d’interet de l’utilisateur afin de considerer
la semantique vehiculee par les documents et les requetes. Ces connaissances sont
decrites a travers des ressources externes, et leur usage a pour but d’“augmenter”
les connaissances du systeme sur le domaine traite afin qu’il puisse expliciter la
semantique vehiculee par le document, et resoudre ainsi des requetes precises.
Nous nous sommes interesses aux travaux qui utilisent les ressources externes
pour la representation du contenu semantique des documents et des requetes. Ces
travaux concernent principalement l’approche de RI dite “basee-concepts” (Concept-
Based Information Retrieval). L’etude des travaux les plus significatifs situes dans
cette classe d’approches nous a montre leurs limites face aux exigences de l’utilisateur
en termes de precision du systeme. En effet, ces approches considerent les documents
et les requetes comme des sacs de concepts (ponderes), et ne peuvent donc mettre
en exergue les aspects lies aux descriptions semantiques du contenu du document et
de la requete. Pour notre part, l’approche que nous avons adoptee consiste a utiliser
les dimensions de domaine.
133
5.1 Apport theorique
Dans notre approche, nous definissons d’abord les dimensions de domaine a tra-
vers des ressources externes. Il s’agit d’ajouter une structure dans la ressource externe
en creant des concepts definissant les dimensions. Ensuite, nous utilisons les dimen-
sions pour mettre en avant les elements pertinents qui contribuent a la description
du contenu semantique des documents et des requetes. Ainsi, au lieu de considerer
les documents et les requetes comme des sacs de concepts, nous avons propose une
nouvelle unite d’indexation definie par des dimensions, des concepts et des relations
semantiques : il s’agit de l’element de dimension. Nous utilisons cette nouvelle
unite d’indexation afin de produire une representation precise des documents et des
requetes tout en considerant les aspects lies a leur semantique. Ainsi, nous avons
propose un langage de document expressif qui permet une indexation precise du
contenu semantique des documents. Nous avons egalement propose un langage de
requete expressif permettant a l’usager d’utiliser ces elements de dimensions et des
operateurs pour decrire avec precision son besoin d’information. En considerant les
exigences de l’utilisateur en termes de precision, nous avons propose un modele de
Recherche d’Information capable de resoudre des requetes precises.
Pour definir notre modele, nous avons choisi un formalisme de representation de
connaissances disposant d’un niveau d’expressivite assez eleve qui convient tres bien
a la representation precise du contenu semantique des documents et des requetes : il
s’agit de la logique descriptive. Ainsi, nous avons pu incorporer les connaissances du
domaine lors de la definition de notre modele tout en garantissant une representation
uniforme des documents, des requetes et de la ressource externe. Nous avons egalement
profite de l’algorithme de calcul de subsomption offert par la logique descriptive afin
de definir la fonction de correspondance mettant en œuvre la pertinence systeme.
5.2 Apport pratique
Dans le but de tester la faisabilite de notre approche, nous avons effectue une serie
d’experiences sur des requetes de la collection ImageCLEFmed-2005. Ces experiences
nous ont permis de savoir jusqu’a quel point notre modele, base sur la logique des-
criptive, peut etre applique et quelles sont les limites formelles et techniques qui lui
sont liees. Nous avons principalement conclu que la qualite de la conception de la
134
ressource externe, utilisee pour la representation du contenu des documents et des
requetes, a un impact majeur sur les performances de recherche. En effet, la fonc-
tion de correspondance basee sur le calcul de subsomption s’avere souvent benefique
quand la ressource externe est riche en terme de relation de subsomption (is-a). En
effet, c’est surtout a travers l’algorithme de calcul de subsomption que la logique des-
criptive offre une capacite de raisonnement qui permet de deduire des connaissances
implicites a partir de celles representees explicitement dans la T-Box, et permet ainsi
de retrouver des documents pertinents pour une requete meme s’ils ne partagent pas
les memes concepts que cette derniere. Nos experiences ont cependant montre que
la relation de subsomption n’est pas suffisante pour calculer la correspondance entre
un document et une requete. Pour cette raison, nous avons entrepris d’utiliser des
proprietes transitives. Ainsi, nous avons rendu notre fonction de correspondance tres
flexible dans le sens ou elle permet d’utiliser n’importe quel type de relation lors du
calcul de la correspondance entre un document et une requete.
Dans le but d’evaluer l’apport de l’usage des dimensions en terme de performance
de recherche, nous avons mene une deuxieme serie d’experiences sur la collection
ImageCLEFmed-2005. L’ensemble des resultats encourageant obtenus nous a permis
de conclure que la prise en compte des dimensions de domaine est un moyen efficace
pour la resolution des requetes precises.
5.3 Perspectives
Avant de pouvoir utiliser les dimensions de domaine, il faut d’abord les construire.
Dans les experiences presentees dans ce manuscrit, les dimensions ont ete construites
manuellement a travers des ressources externes existantes. Pour nos futures experien-
ces, nous projetons de les construire automatiquement. Nous avons deja commence
l’etude de ce probleme et concu un algorithme preliminaire pour cette construction
[69]. La prochaine etape consiste a evaluer experimentalement cet algorithme. Pour
ce faire, nous allons nous inspirer des travaux de Stoica et Hearst sur la construction
automatique des facettes [87].
Les resultats presentes dans ce manuscrit ne sont qu’une premiere etape en vue
de la validation de l’apport de l’usage des dimensions dans un processus de RI oriente
135
precision. Afin de quantifier plus precisement l’apport de notre approche, nous proje-
tons de mettre en œuvre l’integralite de notre modele. La prochaine etape consistera
donc a identifier automatiquement les elements de dimension au niveau des docu-
ments. Cette etape demande de savoir extraire, a partir des documents, des concepts
et des relations qui servent a definir les elements de dimension. Ce processus peut
necessiter un traitement automatique de la langue, guide par l’utilisation des res-
sources externes. Une fois les elements de dimension extraits, il ne restera plus qu’a
appliquer la fonction de correspondance pour evaluer l’integralite de notre approche.
Une troisieme perspective est de proposer une fonction d’ordonnancement adequ-
ate au contexte de recherche dans les milieux professionnels. Mais avant de proposer
une telle fonction, nous pensons qu’il faut d’abord definir la notion de pertinence
dans ce contexte particulier. Il est possible que la definition de cette notion puisse
dependre du domaine d’application considere. Pour cette raison, il apparaıt sou-
haitable de collaborer avec des utilisateurs d’un domaine particulier afin de definir
leur notion de pertinence et proposer par la suite une fonction d’ordonnancement
adequate.
La fonction d’ordonnancement recherchee devrait s’appuyer sur les ponderations
des elements de dimension afin de permettre le calcul d’une valeur de pertinence
d’un document par rapport a une requete. Une quatrieme perspective concerne donc
l’etude de la possibilite d’integrer les ponderations dans notre modele base sur la lo-
gique descriptive. Ceci semble necessiter l’extension du modele actuel par la logique
floue.
La cinquieme perspective est de developper une interface graphique afin que les
utilisateurs puissent tester l’utilisabite de notre systeme. Cette interface devrait per-
mette a l’utilisateur de tirer pleinement profit de notre modele, en particulier, en
exploitant le langage de requete lors de l’expression de son besoin d’information. Le
developpement de cette interface devrait etre centre sur les utilisateurs afin qu’elle
soit adaptee a leur besoin.
136
Bibliographie
[1] Nathalie Aussenac-Gilles and Josiane Mothe. Ontologies as Background Know-
ledge to Explore Document Collections . In RIAO 2004, Avignon,, pages 129–
142, April 2004.
[2] Franz Baader, Diego Calvanese, Deborah L. McGuinness, Daniele Nardi, and
Peter F. Patel-Schneider, editors. The description logic handbook : theory,
implementation, and applications. Cambridge University Press, New York,
NY, USA, 2003.
[3] Ricardo A. Baeza-Yates and Berthier Ribeiro-Neto. Modern Information Re-
trieval. Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA,
1999.
[4] Mustapha Baziz. Indexation conceptuelle guidee par ontologie pour la recherche
d’information. These de doctorat, Universite Paul Sabatier, Toulouse, France,
decembre 2005.
[5] Mustapha Baziz, Nathalie Aussenac-Gilles, and Mohand Boughanem.
Desambiguisation et Expansion de Requetes dans un SRI, Etude de l’apport
des liens semantiques. Revue des Sciences et Technologies de l’Information
(RSTI) serie ISI, 8(4/2003) :113–136, decembre 2003.
[6] Mustapha Baziz, Mohand Boughanem, and Nathalie Aussenac-Gilles. IRIT
at CLEF 2004 : The English GIRT task . In Carol Peters, Paul Clough,
Julio Gonzalo, and Gareth J. F. Jones, editors, Cross Language Evaluation
Forum CLEF’2004 Workshop , Bath, UK, 15/09/04-17/09/04, pages 283–291.
Lecture Notes in Computer Science LNCS Volume 3491/2005, Springer-Verlag,
September 2004.
[7] Mustapha Baziz, Mohand Boughanem, Nathalie Aussenac-Gilles, and Claude
Chrisment. Semantic cores for representing documents in ir. In SAC’05 :
137
Proceedings of the 2005 ACM symposium on Applied computing, pages 1011–
1017, New York, NY, USA, 2005. ACM.
[8] Tim Berners-Lee, James Hendler, and Ora Lasilla. The semantic web. Scientific
American, May 2001.
[9] Catherine Berrut. Une methode d’indexation fondee sur l’analyse semantique
de documents specialises. Le prototype RIME et son application a un corpus
medical. These de doctorat, Universite Joseph Fourier, Grenoble, France, 1988.
[10] C. Biemann. Semantic indexing with typed terms using rapid annotation. In
Proceedings of the TKE-05-Workshop on Methods and Applications of Seman-
tic Indexing, Copenhagen, 2005.
[11] Richard C. Bodner and Fei Song. Knowledge-based approaches to query ex-
pansion in information retrieval. In AI ’96 : Proceedings of the 11th Bien-
nial Conference of the Canadian Society for Computational Studies of Intelli-
gence on Advances in Artificial Intelligence, pages 146–158, London, UK, 1996.
Springer-Verlag.
[12] R. J. Brachman and J. G. Schmolze. An overview of the kl-one knowledge
representation system. In J. Mylopoulos and M. L. Brodie, editors, Artifi-
cial Intelligence & Databases, pages 207–230. Kaufmann Publishers, INC., San
Mateo, CA, 1989.
[13] Chris Buckley. The smart lab report : The modern smart years (1980-1996).
SIGIR Forum, 31(1), 1997.
[14] Chris Buckley, Gerard Salton, James Allan, and Amit Singhal. Automatic
query expansion using smart : Trec 3. In TREC, pages 0–, 1994.
[15] Jean Charlet, Philippe Laublet, and Chantal Reynaud. Web semantique :
Rapport final. Technical report, Action specifique 32 CNRS / STIC, December
2003.
[16] Jean-Pierre Chevallet. Un Modele Logique de Recherche d’Informations ap-
plique au formalisme des Graphes Conceptuels. Le prototype ELEN et son
experimentation sur un corpus de composants logiciels. PhD thesis, Univer-
site Joseph Fourier, Grenoble, 1992.
[17] Jean-Pierre Chevallet. X-iota : An open xml framework for ir experimentation
application on multiple weighting scheme tests in a bilingual corpus. Lecture
138
Notes in Computer Science (LNCS), AIRS’04 Conference Beijing, 3211 :263–
280, 2004.
[18] Jean-Pierre Chevallet, Joo-Hwee Lim, and Diem Thi Hoang Le. Domain know-
ledge conceptual inter-media indexing : application to multilingual multimedia
medical reports. In CIKM, pages 495–504. ACM, 2007.
[19] Jean-Pierre Chevallet, Joo-Hwee Lim, and Saıd Radhouani. A structured visual
learning approach mixed with ontology dimensions for medical queries. In Ca-
rol Peters, Fredric C. Gey, Julio Gonzalo, Henning Muller, Gareth J. F. Jones,
Michael Kluck, Bernardo Magnini, and Maarten de Rijke, editors, CLEF, vo-
lume 4022 of Lecture Notes in Computer Science, pages 642–651. Springer,
2005.
[20] Jean-Pierre Chevallet, Joo-Hwee Lim, and Saıd Radhouani. Using ontology
dimensions and negative expansion to solve precise queries in clef medical task.
In CLEF Workhop, Working Notes Medical Image Track, Vienna, Austria, 21–
23 September 2005.
[21] Paul-Alexandru Chirita Christian Kohlschutter and Wolfgang Nejdl. Using link
analysis to identify aspects in faceted web search. In ACM SIGIR Workshop
on Faceted Search, Seattle, USA, August 2006.
[22] Martin Chodorow Claudia Leacock and George Miller. Using corpus statis-
tics and wordnet relations for sense identification. computational linguistics.
Computational Linguistics, 24(1) :147–165, 1998.
[23] C. Cleverdon and M. Kean. Factors determining the performance of indexing
systems. Aslib Cranfield Research Project, Cranfield, England, 1968.
[24] Paul Clough and Henning Muller. The clef cross language image retrieval track
2005. In http ://ir.shef.ac.uk/imageclef2005/, visited on November 2005.
[25] Fabio Crestani. Exploiting the similarity of non-matching terms at retrieval
time. Information Retrieval, 2(1) :23–43, 2000.
[26] Wisam Dakka, Panagiotis G. Ipeirotis, and Kenneth R. Wood. Automatic
construction of multifaceted browsing interfaces. In Otthein Herzog, Hans-
Jorg Schek, Norbert Fuhr, Abdur Chowdhury, and Wilfried Teiken, editors,
CIKM, pages 768–775. ACM, 2005.
139
[27] Claudia Leacock Ellen Marie Voorhees and Geoffrey Towell. Learning context
to disambiguate word senses. In the 3rd Computational Learning Theory and
iVatural Learning Systems Conference. MIT Press, 1992.
[28] Christiane Fellbaum, editor. WordNet : an electronic lexical database. Massa-
chusetts : The MIT Press, 1998. p.423.
[29] Edward Alan Fox. Extending the boolean and vector space models of infor-
mation retrieval with p-norm queries and multiple concept types. PhD thesis,
Ithaca, NY, USA, 1983.
[30] William Gale, Kenneth Ward Church, and David Yarowsky. Estimating upper
and lower bounds on the performance of word-sense disambiguation programs.
In Proceedings of the 30th annual meeting on Association for Computational
Linguistics, pages 249–256, Morristown, NJ, USA, 1992. Association for Com-
putational Linguistics.
[31] Joseph A. Goguen. What is a concept ? In Frithjof Dau, Marie-Laure Mugnier,
and Gerd Stumme, editors, Proceedings of the 13th International Conference on
Conceptual Structures (ICCS 2005), volume 3596 of Lecture Notes in Computer
Science, pages 52–77. Springer, 2005.
[32] Julio Gonzalo, Felisa Verdejo, Irina Chugur, and Juan Cigarran. Indexing
with wordnet synsets can improve text retrieval. In Proceedings of the CO-
LING/ACL ’98 Workshop on Usage of WordNet for NLP, pages 38–44, Mon-
treal, Canada, 1998.
[33] Donna Harman. Relevance feedback revisited. In SIGIR ’92 : Proceedings of
the 15th annual international ACM SIGIR conference on Research and deve-
lopment in information retrieval, pages 1–10, New York, NY, USA, 1992. ACM
Press.
[34] Donna Harman. The first text retrieval conference (trec-1), rockville, md, usa,
4-6 november 1992. Inf. Process. Manage., 29(4) :411–414, 1993.
[35] Philip J. Hayes. Intelligent high-volume text processing using shallow, domain-
specific techniques. pages 227–241, 1992.
[36] Marti A. Hearst. Clustering versus faceted categories for information explora-
tion. Commun. ACM, 49(4) :59–61, 2006.
140
[37] Marti A. Hearst. Design recommendations for hierarchical faceted search in-
terfaces. In ACM SIGIR Workshop on Faceted Search, Seattle, USA, August
2006.
[38] Eero Hyvonen, Samppa Saarela, Avril Styrman, and Kim Viljanen. Ontology-
based image retrieval. In WWW (Posters), 2003.
[39] Eero Hyvonen, Avril Styrman, and Samppa Saarela. Ontology-based image
retrieval. In Towards the semantic web and web services, Proceedings of XML
Finland 2002 Conference, pages 15–27, October 21–22 2002.
[40] Haward Jie and Yi Zhang. Personalized faceted query expansion. In ACM
SIGIR Workshop on Faceted Search, Seattle, USA, August 2006.
[41] Karen Sparck Jones and C.J. Keith van Rijsbergen. Progress in documentation.
Journal of Documentation, 32(1) :59–75, 1976.
[42] Uwe Thaden Jorg Diederich and Wolf-Tilo Balke. The semantic growbag de-
monstrator for automatically organizing topic facets. In ACM SIGIR Workshop
on Faceted Search, Seattle, USA, August 2006.
[43] Vipul Kashyap and Alexander Borgida. Representing the umls semantic net-
work using owl : (or ”what’s in a semantic web link ?”). In Dieter Fensel,
Katia P. Sycara, and John Mylopoulos, editors, International Semantic Web
Conference, volume 2870 of Lecture Notes in Computer Science, pages 1–16.
Springer, 2003.
[44] Leila Kefi. Modele general de recherche d’information : Application a la re-
cherche de documents techniques. These de doctorat, Universite Joseph Fou-
rier, Grenoble, France, 2006.
[45] Robert Krovetz. Viewing morphology as an inference process. In Proc. of 16th
Annual International ACM/SIGIR Conference on Research & Development in
Information Retrieval, pages 191–203, 1993.
[46] Robert Krovetz. Homonymy and polysemy in information retrieval. In ACL,
pages 72–79, 1997.
[47] Robert Krovetz and W. Bruce Croft. Lexical ambiguity and information re-
trieval. ACM Transactions on Information Systems, 10(2) :115–141, 1992.
[48] Catherine Berrut Leila Kefi and Eric Gaussier. un modele de ri base sur des
criteres d’obligation et de certitude. In CORIA06 COnference en Recherche
Information, Lyon (France), 15–17 mars 2006.
141
[49] David D Lewis. Representation and learning in information retrieval. Technical
report, Amherst, MA, USA, 1991.
[50] Dekang Lin. An Information-Theoretic Definition of Similarity. In Proceedings
of the 15th International Conference on Machine Learning, pages 296–304.
Morgan Kaufmann, San Francisco, CA, 1998.
[51] Shuang Liu, Fang Liu, Clement Yu, and Weiyi Meng. An effective approach to
document retrieval via utilizing wordnet and recognizing phrases. In SIGIR,
2004.
[52] Eetu Makela, Eero Hyvonen, and Samppa Saarela. Ontogator - a semantic
view-based search engine service for web applications. In International Se-
mantic Web Conference, pages 847–860, 2006.
[53] Eetu Makela, Eero Hyvonen, and Teemu Sidoroff. View-based user interfaces
for information retrieval on the semantic web. In ISWC-2005 Workshop End
User Semantic Web Interaction, November.
[54] Mourad Mechkour. A multifacet formal image model for information retrieval.
In Ian Ruthven, editor, MIRO, Workshops in Computing. BCS, 1995.
[55] Carlo Meghini, Fabrizio Sebastiani, and Umberto Straccia. A model of multi-
media information retrieval. J. ACM, 48(5) :909–970, 2001.
[56] Carlo Meghini, Fabrizio Sebastiani, Umberto Straccia, and Costantino Thanos.
A model of information retrieval based on a terminological logic. In SIGIR
’93 : Proceedings of the 16th annual international ACM SIGIR conference on
Research and development in information retrieval, pages 298–307, New York,
NY, USA, 1993.
[57] Carlo Meghini and Umberto Straccia. A relevance terminological logic for
information retrieval. In Hans-Peter Frei, Donna Harman, Peter Schuble, and
Ross Wilkinson, editors, SIGIR, pages 197–205. ACM, 1996.
[58] Rada Mihalcea and Dan Moldovan. Semantic indexing using wordnet senses. In
Proceedings of the ACL-2000 workshop on Recent advances in natural language
processing and information retrieval, pages 35–45, Morristown, NJ, USA, 2000.
Association for Computational Linguistics.
[59] Rada Mihalcea and Dan I. Moldovan. An iterative approach to word sense di-
sambiguation. In Proceedings of the Thirteenth International Florida Artificial
Intelligence Research Society Conference, pages 219–223. AAAI Press, 2000.
142
[60] George Miller. Wordnet : an on-line lexical database. International Journal of
Lexicography, 4(3), 1990.
[61] Dan I. Moldovan, Sanda M. Harabagiu, Marius Pasca, Rada Mihalcea, Richard
Goodrum, Roxana Girju, and Vasile Rus. Lasso : A tool for surfing the answer
net. In TREC, 1999.
[62] Dan I. Moldovan and Rada Mihalcea. Using wordnet and lexical operators to
improve internet searches. IEEE Internet Computing, 4(1) :34–43, 2000.
[63] Iadh Ounis. Un modele d’indexation relationnel pour les graphes conceptuels
fonde sur une interpretation logique. These de doctorat, Universite Joseph
Fourier, Grenoble, France, 1998.
[64] Ozlem Uzuner, Boris Katz, and Deniz Yuret. Word sense disambiguation for
information retrieval. In AAAI/IAAI, page 985, 1999.
[65] Helen J. Peat and Peter Willett. The limitations of term co-occurrence data
for query expansion in document retrieval systems. JASIS, 42(5) :378–383,
1991.
[66] A Steven Pollitt. The key role of classification and indexing in view-based
searching. In Proceedings of the 63rd International Federation of Library As-
sociations and Institutions General Conference (IFLA’97), 1997.
[67] Paul Procter. Longman Dictionary of Contemporary English. Longman Group,
1978.
[68] Yonggang Qiu and Hans-Peter Frei. Concept based query expansion. In Robert
Korfhage, Edie M. Rasmussen, and Peter Willett, editors, SIGIR, pages 160–
169. ACM, 1993.
[69] Saıd Radhouani. Un algorithme pour la construction automatique de dimen-
sions a partir de resources existantes. Technical report, CUI, University of
Geneva, Switzerland, September 2007.
[70] Philip Resnik. Semantic similarity in a taxonomy : An information-based mea-
sure and its application to problems of ambiguity in natural language. Journal
of Artificial Intelligence Research, 11 :95–130, 1999.
[71] Ray Richardson and Alan F. Smeaton. Using WordNet in a knowledge-based
approach to information retrieval. Technical Report CA-0395, Dublin, Ireland,
1995.
143
[72] Giovanni Maria Sacco. Research results in dynamic taxonomy and faceted
search systems. In DEXA Workshops, pages 201–206. IEEE Computer Society,
2007.
[73] Joo-Hwee Lim Le Thi-Hoang-Diem Saıd Radhouani, Loıc Maisonnasse, , and
Jean-Pierre Chevallet. Une indexation conceptuelle pour un filtrage par di-
mensions, experimentation sur la base medicale imageclefmed avec le meta-
thesaurus umls. In CORIA06 COnference en Recherche d’Information, Lyon
(France), 15–17 mars 2006.
[74] G. Salton. The SMART Retrieval System ;Experiments in Automatic Document
Processing. Prentice-Hall, Inc., Upper Saddle River, NJ, USA, 1971.
[75] Gerard Salton. Some research problems in automatic information retrieval. In
Jennifer J. Kuehn, editor, SIGIR, pages 252–263. ACM, 1983.
[76] Gerard Salton and Michael Lesk. Computer evaluation of indexing and text
processing. J. ACM, 15(1) :8–36, 1968.
[77] Mark Sanderson. Word sense disambiguation and information retrieval. In
Proc. of the 17th ACM/SIGIR Conference, pages 142–150, 1994.
[78] Mark Sanderson. Word Sense Disambiguation and Information Retrieval.
Ph.d. thesis, University of Glasgow, Glasgow G12 8QQ, UK, 1997.
[79] Mark Sanderson. Retrieving with good sense. Information Retrieval, 2(1) :45–
65, 2000.
[80] Hinrich Schutze and Jan O. Pedersen. Information Retrieval Based on Word
Senses. In Fourth Annual Symposium on Document Analysis and Information
Retrieval, 1995.
[81] Satanjeev Banerjee Siddharth Patwardhan and Ted Pedersen. Using measures
of semantic relatedness for word sense disambiguation. In Proceedings of the
Fourth International Conference on Intelligent Text Processing and Computa-
tional Linguistics, pages 241–257, 2003.
[82] Malika Smaıl. Raisonnement a base de cas pour une recherche evolutive d’in-
formation. These de doctorat, Universite de Nancy, Nancy, France, 1994.
[83] Alan F. Smeaton and Ian Quigley. Experiments on using semantic distances
between words in image caption retrieval. In Proc. of 19th International Confe-
rence on Research and Development in Information Retrieval, Zurich, Switzer-
land, 1996.
144
[84] Alan F. Smeaton and C. J. van Rijsbergen. The retrieval effects of query
expansion on a feedback document retrieval system. Comput. J., 26(3) :239–
246, 1983.
[85] Lina Fatima Soualmia, Christine Golbreich, and Stefan Jacques Darmoni. Re-
presenting the mesh in owl : Towards a semi-automatic migration. In Udo
Hahn, editor, KR-MED, volume 102 of CEUR Workshop Proceedings, pages
81–87. CEUR-WS.org, 2004.
[86] J.A. Stein. Alternative methods of indexing legal material : Development of a
conceptual index. In Conference ”Law Via the Internet g7”, Sydney, Australia,
1997.
[87] Emilia Stoica and Marti A. Hearst. Demonstration : Using wordnet to build
hierarchical facet categories. In ACM SIGIR Workshop on Faceted Search,
Seattle, USA, August 2006.
[88] Michael Sussna. Word sense disambiguation for free-text indexing using a
massive semantic network. In Proc. of 2nd International Conference on Infor-
mation and Knowledge Management, Arlington, Virginia, 1993.
[89] Michael John Sussna. Text retrieval using inference in semantic metanetworks.
PhD thesis, University of California at San Diego, La Jolla, CA, USA, 1997.
[90] Daniel Tunkelang. Dynamic category sets : An approach for faceted search. In
ACM SIGIR Workshop on Faceted Search, Seattle, USA, August 2006.
[91] Howard R. Turtle and W. Bruce Croft. Inference networks for document re-
trieval. In Jean-Luc Vidick, editor, SIGIR, pages 1–24. ACM, 1990.
[92] David Vallet, Miriam Fernandez, and Pablo Castells. An ontology-based in-
formation retrieval model. In Asuncion Gomez-Perez and Jerome Euzenat,
editors, ESWC, volume 3532 of Lecture Notes in Computer Science, pages
455–470. Springer, 2005.
[93] C.J. Keith van Rijsbergen. A new theoretical framework for information re-
trieval. In ACM Conference on Research and development in Information
Retrieval, Pisa, pages 194–200, 1986.
[94] Ellen Marie Voorhees. On expanding query vectors with lexically related words.
In TREC, pages 223–232, 1993.
145
[95] Ellen Marie Voorhees. Using wordnet to disambiguate word senses for text
retrieval. In Robert Korfhage, Edie M. Rasmussen, and Peter Willett, editors,
SIGIR, pages 171–180. ACM, 1993.
[96] Ellen Marie Voorhees. Query expansion using lexical-semantic relations. In
SIGIR ’94 : Proceedings of the 17th annual international ACM SIGIR confe-
rence on Research and development in information retrieval, pages 61–69, New
York, NY, USA, 1994. Springer-Verlag New York, Inc.
[97] Ellen Marie Voorhees. Using WordNet for Text Retrieval. In C. Fellbaum,
editor, WordNet : an electronic lexical database. MIT Press, 1998.
[98] Ellen Marie Voorhees. Natural language processing and information retrie-
val. In Maria Teresa Pazienza, editor, SCIE, volume 1714 of Lecture Notes in
Computer Science, pages 32–48. Springer, 1999.
[99] Peter Wallis. Information retrieval based on paraphrase. In the 1st Pacific
Association for Computational Linguistics Conference, 1993.
[100] Stephen F. Weiss. Learning to disambiguate. Information Storage and Retrie-
val, 9(1) :33–41, 1973.
[101] Rishabh Dayal Wisam Dakka and Panagiotis G. Ipeirotis. Automatic discovery
of useful facet terms. In ACM SIGIR Workshop on Faceted Search, Seattle,
USA, August 2006.
[102] Jinxi Xu and W. Bruce Croft. Query expansion using local and global docu-
ment analysis. In Hans-Peter Frei, Donna Harman, Peter Schauble, and Ross
Wilkinson, editors, SIGIR, pages 4–11. ACM, 1996.
[103] Jinxi Xu and W. Bruce Croft. Improving the effectiveness of information
retrieval with local context analysis. ACM Trans. Inf. Syst., 18(1) :79–112,
2000.
[104] David Yarowsky. One sense per collocation. In Proceedings ARPA Human
Language Technology Workshop, pages 266–271, 1993.
[105] Ka-Ping Yee, Kirsten Swearingen, Kevin Li, and Marti Hearst. Faceted meta-
data for image search and browsing. In CHI ’03 : Proceedings of the conference
on Human factors in computing systems, pages 401–408. ACM Press, 2003.
[106] Uri Zernik. Train1 vs. train2 : Tagging word senses in corpus. In Lexical
Acquisition : Exploiting On-Line Resources to Build a Lexicon, pages 91–112.
Lawrence Erlbaum, Hillsdale, NJ, 1991.
146