L’expressivité des modèles de recherche d’informations ... · L’expressivité des modèles de recherche d’informations précises Le support de vocabulaires et son application

L’expressivité des modèles de recherche

d’informations précises

Le support de vocabulaires et son application à la re-

cherche d’information médicale

Loïc Maisonnasse1, Catherine Berrut1, Jean-Pierre Chevallet2

1 LIG-UJF - 38041 Grenoble Cedex 9, [email protected], [email protected] IPAL-I2R, Singapore [email protected]

RÉSUMÉ. Nous proposons dans cet article de modéliser l’expressivité des systèmes de recherched’information (SRI). En effet peu de cadres de modélisation sont disponibles pour spécifier lesSRIs. Nous proposons un tel cadre sur lequel nous portons un intérêt particulier à la modé-lisation de l’expressivité. Le niveau d’expressivité est important dans les SRIs, et positionnerun système au bon niveau permet d’obtenir de meilleurs résultats. Le cadre de modélisationque nous proposons permet ainsi de choisir l’expressivité d’un modèle et de comparer des mo-dèles sur leur niveau d’expressivité. Nous montrons en dernier lieu les possibilités offertes parce cadre pour sélectionner le niveau d’expressivité sur une tâche de recherche d’informationmédicale, où les utilisateurs expriment des besoins complexes.

ABSTRACT. This article proposes to model the expressiveness of information retrieval systems.Indeed few modeling framework are available to model retrieval systems. We propose here sucha framework, where we focus on the modeling of expressiveness. Indeed the level of expressivityis important in information retrieval and positioning system at the right level allows to achievebetter results. The modelling framework that we propose allows to compare or to choose theexpressiveness of one or more models. We show the possibilities provided by this framework toselect the level of expressiveness on a medical information retrieval task, where users expresscomplex needs.

MOTS-CLÉS : recherche d’information, expressivité, modèle

KEYWORDS: information retrieval, expressiveness, model

Actes du XXVIe congrès INFORSID 263 Fontainebleau, mai 2008

1. Introduction

La Recherche d’Information (RI), comme presque toutes les activités scientifiques,

doit construire un modèle sur lequel se base la réalisation d’un Système de Recherche

d’Information1 (SRI). La courte histoire du domaine de la RI a vu l’émergence de

nombreux modèles, bien différents les uns des autres : le modèle vectoriel, le modèle

logique, le modèle probabiliste et le modèle de langue pour ne citer que quelques-

un. Modéliser, c’est représenter partiellement mais formellement la réalité. En RI,

cela consiste à représenter le contenu d’un document dans le but de le retrouver plus

tard, lorsque survient une requête d’un utilisateur. Un SRI est en effet un médiateur

informatique entre le besoin d’information d’un utilisateur et l’information contenue

dans des documents.

Quelques efforts de modélisation comme les travaux de Sandor (Sándor, 2000) ou

de Nie (Nie, 1988) ont tenté de réaliser une modélisation plus générale. Cependant,

nous n’avons trouvé aucun travail dont l’objectif est de représenter l’expressivité des

modèles de RI.

D’abord, qu’entendons nous par "expressivité" ? L’expressivité d’un modèle de RI

représente ce que ce modèle est effectivement capable de décrire. Souvenons nous

qu’un modèle de RI est destiné à représenter une partie du contenu des documents et

des requêtes. En fait, la particularité de la RI est de ne représenter que la partie du

contenu susceptible d’être utilisée pour la recherche des documents.

Ensuite, quel peut être l’intérêt d’exprimer explicitement cette expressivité ? Mo-

déliser est non seulement utile pour construire un système, mais aussi pour en com-

prendre le fonctionnement et en évaluer, par exemple, les limites. Exprimer explicite-

ment l’expressivité d’un modèle de RI doit donc nous permettre de le comparer et de

le positionner par rapport à d’autres. Aussi, le choix du niveau d’expressivité pour la

mise au point d’un modèle peut avoir un impact important sur les performances du fu-

tur système. Concrètement, un modèle de RI sans structure, comme les modèles à base

de "sac de mots" est incapable de représenter les liens entre les mots des documents,

l’ordre des mots dans le document n’est donc pas pris en considération. Rajouter plus

d’expressivité au modèle, par exemple en représentant certaines relations entre les

mots, permet d’être plus précis et donc de répondre plus précisément à une recherche.

C’est notamment le cas dans les domaines d’expertise où la résolution de requêtes pré-

cises nécessite des représentations expressives. Essayez donc de trouver : "comment

enlever les hyper-liens dans le logiciel Pages de chez Apple". Une requête comme :

pages "remove hyperlink" apple, ne fonctionne pas sur un moteur de recherche (ex :

Google), simplement parce que le système ne peux pas établir de lien entre le mot

"pages" et "apple" pour exprimer que "pages" est un logiciel de la société "Apple".

Nous proposons dans cet article de modéliser l’expressivité des modèles utilisés en

RI. Dans ce but nous définissons la notion de support de vocabulaires pour décrire les

modèles dans un seul et même formalisme. Nous présentons de prime abord un pano-

1. également appelé "moteur de recherche" s’il opère sur le Web


rama de l’expressivité telle que l’utilisent les SRIs textuels. Suite à ce panorama, nous

présentons un cadre pour la modélisation de l’expressivité. Nous utilisons finalement

le cadre proposé pour définir des modèles d’expressivité variable que nous évaluons

sur une tâche de RI médicale.

2. L’expressivité en RI

2.1. Présentation

L’expressivité représente le nombre de points de vue utilisés pour représenter les

documents et l’espace d’expression de chacun de ces points de vue. Sur un même

document, plusieurs points de vue peuvent être proposés. Par exemple sur la figure 1,

nous proposons plusieurs points de vue sur une image ; l’un à l’aide d’un histogramme

de couleur, l’autre à l’aide de mots désignant ce qui apparaît sur l’image, ou encore

un dernier à l’aide de mots donnant un sens à l’image. Ces points de vue n’ont pas le

même espace d’expression, en revanche ils peuvent être complémentaires.

Figure 1. Exemple de points de vues sur une image

Dans cet article, nous nous intéressons à l’information textuelle. Pour ce type d’in-

formation, nous supposons que l’expressivité est mono-dimentionnelle et peut se re-

présenter sur un axe qui s’étend des systèmes à expressivité faible vers ceux à ex-

pressivité forte. Les systèmes à expressivité faible représentent le document à l’aide

d’un seul point de vue et ce point de vue utilise des descripteurs simples, c’est le cas

des systèmes à base de mots-clefs. Les systèmes à expressivité forte représentent les

documents à l’aide de plusieurs points de vue et utilisent des descripteurs expressifs

tels que des descripteurs sémantiques. Par exemple, les systèmes à base de graphes de

concepts sont expressifs, leurs représentations fournissent plusieurs points de vue et

ces points de vue sont sémantiques.

L’expressivité d’un SRI se manifeste à travers le langage de représentation des do-

cuments (langage d’indexation) et le langage de représentation des requêtes (langage

d’interrogation). Au sein de ces représentations, elle se manifeste par le nombre de

points de vue adoptés, ce qui correspond aux différents types de descripteurs utilisés.


Figure 2. Positionnement des familles d’indexation en RI

Elle se manifeste aussi par l’expressivité de ces descripteurs. Actuellement, il n’existe

pas de modélisation générique qui mette en avant l’expressivité, et de fait, comparer

ou positionner des systèmes sur leur niveau d’expressivité se révèle difficile. Pourtant

une telle modélisation est particulièrement intéressante dans des domaines d’exper-

tise où sélectionner la bonne expressivité permet de mieux répondre à des besoins

d’information complexes.

2.2. À travers l’état de l’art

Nous classons dans cet état de l’art des SRIs textuels qui utilisent des langages

d’indexation d’expressivité diverse. La figure 2 symbolise l’expressivité des modèles

selon cet axe qui s’étend des langages à expressivité faible (ou langages simples) vers

des langages à expressivité forte (langages complexes). Sur cet axe, nous présentons

différentes familles de langages d’indexation utilisées en RI :

– Les langages fondés sur des informations morphologiques sont essentiellement

des langages à base de mots-clefs. Ces langages constituent la majorité des représen-

tations utilisées en RI, mais leur expressivité est faible.

– Les langages fondés sur des informations syntaxiques sont des langages qui in-

tègrent des descripteurs ou des structures syntaxiques. Cette intégration se fait sou-

vent par l’ajout de descripteurs syntaxiques dans des langages à base de mots-clefs

(Strzalkowski et al., 1998, Zhai et al., 1997, Gaussier et al., 2000). Plus rarement, des

modèles plus expressifs utilisent directement les structures syntaxiques (Matsumura

et al., 2000, Metzler et al., 1989, Smeaton, 1999, Gao et al., 2004) et effectuent une

correspondance sur ces structures.

– Les langages fondés sur des informations sémantiques utilisent des descripteurs

ou des structures sémantiques. Certains sont à base de concepts, notamment sur le

domaine médical (Vintar S, 2003, Zhou et al., 2007), d’autres utilisent des structures

sémantiques (Berrut et al., 1989, Genest et al., 2005, Maisonnasse et al., 2007). Ces

langages sont les plus expressifs, toutefois leur obtention à partir du texte est difficile.


Nous constatons qu’en RI différents niveaux d’expressivité sont utilisés, cependant

comparer ces systèmes sur leur expressivité est complexe. S’il est facile de positionner

un système utilisant des informations morphologiques d’un autre utilisant des infor-

mations sémantiques, il est plus difficile de différencier des systèmes proches et plus

encore de sélectionner le niveau d’expressivité adapté à une tâche. Pour ces diverses

raisons, nous proposons de modéliser l’expressivité.

3. Modélisation de l’expressivité

3.1. Présentation

Nous proposons la définition de modèles dans lesquels des supports de vocabu-

laires mettent en avant l’expressivité. Le support de vocabulaires définit l’ensemble

des vocabulaires utilisés pour représenter les documents ou les requêtes. Un vocabu-

laire correspond à un point de vue sur le document, il est constitué d’un ensemble

de descripteurs, ou unités de vocabulaires. La majorité des modèles de RI reposent

sur une expressivité faible, ils n’utilisent qu’un seul vocabulaire formé d’une seule

sorte de descripteurs éventuellement associé à un poids. Par exemple, dans les mo-

dèles vectoriels sur les mots-clefs, le support de vocabulaires est constitué d’un seul

vocabulaire : l’ensemble des mots-clefs pondérés. Sur d’autres médias, des modèles

utilisent plusieurs vocabulaires, cela permet d’exprimer différents points de vue. Par

exemple, une vidéo peut se représenter à l’aide d’un vocabulaire visuel et d’un voca-

bulaire auditif. Dans ce cas, le support de vocabulaires contient deux vocabulaires qui

fournissent deux points de vue sur le document. Le support de vocabulaires dénote

l’expressivité de la représentation par deux aspects :

– Le premier aspect correspond au nombre de vocabulaires utilisés. Cela consti-

tue le nombre de points de vue par lesquels le système interprète le document ou la

requête.

– Le deuxième aspect correspond à l’expressivité de chaque vocabulaire utilisé.

Cela dépend de la définition des unités de vocabulaires. Les mots-clefs constituent

un type simple dont l’expressivité correspond au niveau morphologique. Les relations

syntaxiques constituent des unités de vocabulaires complexes formées de plusieurs

types : deux lemmes et une étiquette de relation. Leur niveau d’expressivité est syn-

taxique.

Ces deux aspects nous permettent de positionner les systèmes les uns par rapport

aux autres sur l’axe de l’expressivité. Les supports de vocabulaires, tels que nous les

proposons, permettent de modéliser l’expressivité des systèmes de RI. Ils modélisent

le langage d’indexation et le langage d’interrogation.Nous les utilisons pour définir un

cadre dans lequel différentsmodèles peuvent s’exprimer. Ce cadre permet de comparer

plus facilement des systèmes entre eux.


3.2. Cadre de modèlisation

Nous définissons au préalable deux éléments qui servent à la formation d’un mo-dèle de RI : le support de types et le support de vocabulaires. À partir de ces éléments,nous donnons la définition d’un SRI.

3.2.1. Support de types d’un SRI

Nous définissons le support de types qui détermine les types de base manipuléspar un SRI.

3.2.1.1. Les types d’un SRI

Un SRI dispose d’un certain nombre de types T . Un Ttype se compose d’élémentst ayant des caractéristiques communes, par exemple :

– Tmots un ensemble qui représente les mots détectés dans des textes :

Tmots = {la, plevre, dans, la, cage, thoracique, ...}

– Ttermes un ensemble de termes :

Ttermes = {plevre, cage thoracique, ...}

– Tconcepts un ensemble de concepts. Un concept est une entité abstraite que nousécrivons à l’aide d’un identifiant (ex : C0817096) et d’un terme entre parenthèsesillustrant le concept :

Tconcepts = {C0817096(poumon), C0032225(plevre),

C0222762(cage thoracique), ...}

– Trelations un ensemble de noms de relations sémantiques.

Trelations = {localisation, partie de, touche, ...}

3.2.1.2. Support de types

On appelle support de types ST la liste des types utilisés par un SRI. Un supportde types ST est constitué d’un n-uplet formé de nst types que l’on ordonne de 1 ànst.

ST = (T1, T2, ..., Tnst) avec nst >= 1

Par exemple, pour un SRI basé sur des graphes, on peut définir le support de types :

STgraphes = (T1, T2) où nst = 2, T1 = Tconcepts, T2 = Trelations

3.2.2. Support de vocabulaires d’un SRI

Nous définissons les supports de vocabulaires qui permettent de modéliser desreprésentations. Ces supports possèdent l’avantage de définir les éléments qui consti-tuent une représentation, leur expressivité, leur complexité et par conséquent l’expres-sivité de la représentation.


3.2.2.1. Vocabulaire d’un SRI

Un vocabulaire V se compose à partir d’un ou plusieurs types Ti de ST . Ce mêmevocabulaire peut posséder une ou plusieurs pondérations restituant l’importance des

éléments. Nous distinguons de fait deux axes pour classer les différents vocabulaires :

– Un vocabulaire V représente un vocabulaire simple si et seulement si il n’utilise

qu’un seul Ti , ou représente un vocabulaire complexe si et seulement si il en utilise

plusieurs.

– Un vocabulaire V désigne un vocabulaire pondéré si et seulement si V associe

une ou plusieurs pondérations à un vocabulaire simple ou complexe.

Vocabulaire simple Un vocabulaire simple V correspond à un seul type.

V ! Ti avec 1 " i " nst

On appelle unité de vocabulairesuv un élément du vocabulaireV . Pour un vocabulairesimple, si uv appartient à V alors uv appartient à Ti.

Sur le support STgraphes, présenté dans la section 3.2.1.2, nous définissons le

vocabulaire simple VsimpleConcepts. Ce vocabulaire est constitué d’unités de vocabu-

laires simples : les concepts, définis par le type Tconcept. Il s’écrit :

VsimpleConcepts ! Tconcept

Une unité de vocabulaire uv appartenant à VsimpleConcepts est un des concepts de

Tconcept, par exemple uv = C0817096(poumon).

Vocabulaire complexe Un vocabulaire complexe V se compose de plusieurs

types Ti d’un support de types ST . Un vocabulaire V formé de nt types s’écrit :

V ! Tfv(1) # Tfv(2)... # Tfv(nt) avec nt > 1 et fv : [1..nt] $ [1...nst]

La fonction fv détermine le type fv(i) du support ST utilisé par le ième type du

vocabulaire. Une unité de vocabulaireuv se décompose ici en plusieurs élémentsuv =(v1, ..., vnt) qui correspondent aux types utilisés par le vocabulaire vj % Tfv(j).

Par exemple, sur le support de types STgraphes (section 3.2.1.2), le vocabu-

laire complexe VcplxRelations qui représente des relations sémantiques entre concepts

s’écrit :

VcplxRelations ! Tfv(1) # Tfv(2) # Tfv(3) avec nt = 3

VcplxRelations ! Tconcepts # Trelations # Tconcepts

Ce vocabulaire utilise la relation fv : {1 $ 1, 2 $ 2, 3 $ 1}

Une unité de vocabulaire uv appartenant à VcplxRelations s’écrit par exemple :

uv = (C0817096(poumon), partie de, C0222762(cage thoracique)) où l’unité uvdécrit le fait qu’un poumon est une partie de la cage thoracique.


Vocabulaire pondéré Soit V ! un vocabulaire simple ou complexe tel que défini

précédemment. Un vocabulaire pondéréV consiste en l’association d’une ou plusieurs

pondérations à ce vocabulaire V !. Soit np le nombre de pondérations associées à V ,nous définissons l’ensemble V par le produit cartésien entre un vocabulaire V ! et un

ensemble de np pondérations P .

V = V ! ! Pnp avec P = R et np > 0

Une unité de vocabulaire uv se compose alors d’une unité de vocabulaire simple oucomplexe uv! et d’une pondération np :

uv " V avec uv = (uv!, p) tel que uv! " V !, p " Pnp

Sur un vocabulaire simple V ! = VsimpleConcepts, nous formons le vocabulaire pon-

déré VpdsConcepts en utilisant une seule pondération :

VpdsConcepts = V ! ! P 1 avec np = 1

Une unité de vocabulaire uv appartenant à VpdsConcepts se représente par exemple :

uv = (C0817096(poumon), 0.4) avec C0817096(poumon) " VsimpleConcepts et

0.4 " P 1 qui représente l’importance de ce concept dans un document.

Sur un vocabulaire complexe V ! = VcplxRelations, nous formons le vocabulaire

pondéré VpoidsRelations en utilisant deux pondérations :

VpoidsRelations = V ! ! P 2 avec np = 2

Une unité de vocabulaire uv appartenant à VpdsRelation s’écrit par exemple :

uv = ((C0817096(poumon), partie de, C0222762(cage thoracique)), 0.4, 0.7)avec uv! " VcplxRelations et (0.4, 0.7) " P 2 où, par exemple, l’une des pondéra-

tions représente l’importance de la relation dans un document et la deuxième réflète

la confiance dans la détection de cette relation sur le document.

Résumé des vocabulaires Un vocabulaire se compose donc de nt types et nppondérations :

V # Tfv(1) ! Tfv(2)... ! Tfv(nt) ! Pnp

avec nt $ 1, np $ 0, fv : [1..nt] % [1..nst]

Un vocabulaire simple est formé avec un seul type (nt = 1) et aucune pondération(np = 0). Un vocabulaire complexe est formé avec plusieurs types (nt > 1) et sanspondération (np = 0). Enfin un vocabulaire pondéré se compose d’un ou de plusieurstypes (nt $ 1) et avec une ou plusieurs pondérations (np $ 1).


3.2.2.2. Support de vocabulaires

On appelle support de vocabulaires SV une liste de vocabulaires utilisée par unSRI qui définit un langage de représentation. Ce support constitue un n-uplet formé densv vocabulaires ordonnés de 1 à nsv :

SV = (V1, V2, ..., Vnsv) avec nsv ! 1

Par exemple, un SRI qui représente des graphes utilise un support de vocabulairesconstitué de deux vocabulaires, soit nsv = 2, l’un représentant les concepts, l’autrereprésentant les relations entre ces concepts.

SVgraphes = (V1, V2) où V1 = VpdsConcepts = , V2 = VpdsRelations

Nous écrivons directement : SVgraphes = (VpdsConcepts, VpdsRelations)

3.2.3. Définition d’un SRI

Un SRI manipule un corpus de documents qu’il transpose à l’aide d’une fonc-tion d’indexation en un corpus indexé. Ce corpus lui permet de résoudre des requêtestraduites à partir de besoins utilisateur. Un tel système repose sur la définition d’unmodèle de RI M qui effectue ces deux transpositions et qui fait correspondre les do-cuments aux requêtes. La transposition d’un document en un document indexé reposesur un modèle de document. De même, la transformation du besoin utilisateur en re-quête repose sur un modèle de requête. Enfin, la correspondance entre une requête etdes documents s’établit par une relation de pertinence. Le modèleM définit ces troiséléments.

3.2.3.1. Éléments manipulés par un SRI

Corpus Nous disposons d’un corpusC de documents d de cardinalité nc et d’uncorpus indexé CI constitué de l’ensemble des documents di indexés. A chaque docu-ment d du corpus C correspond une indexation de ce document di qui représente lecontenu du document d selon le modèle de documents.

Requêtes Le besoin d’information b représente la motivation de l’activité de re-cherche. Lorsque l’utilisateur s’adresse directement au SRI, il formule le besoin d’in-formation b sous forme d’une requête q. Cette requête représente de manière plus oumoins approximative le besoin d’information sous-jacent dans le modèle de requête.

3.2.3.2. Modèle de RI

Un modèle M de RI se définit par un quadruplet formé d’un support de typesST , de deux supports de vocabulaires SV définis sur le support de types ST que


l’on nomme SV D et SV Q qui représentent le modèle de document et le modèle de

requête, et d’une relation de correspondanceRC.

M = (ST, SV Q, SV D, RC) avec :

ST = (T1, T2, ..., Tns)

SV D = (V1, V2, ..., Vnvd) avec !Vi " [1..nvd] , Vi défini sur ST

SV Q = (V1, V2, ..., Vnvq) avec !Vi " [1..nvq] , Vi défini sur ST

RC = {(q, di)} avec q défini sur SV Q et di défini sur SV D

Nous remarquons que dans de nombreux SRI, le modèle de document SV D et le

modèle de reqête SV Q sont identiques.

3.2.3.3. Modèle de document

Pour un modèle M , nous appelons support de vocabulaires de document SV Dla liste des vocabulaires utilisés pour représenter les documents indexés. Le support

SV D correspond à un support de vocabulaires constitué de nvd vocabulaires :

SV D = (V1, V2, ..., Vnvd) avec nvd # 1

Ce support forme le modèle de document et spécifie le langage d’indexation. Nous

distinguons deux types de modèles de document :

– nvd = 1 : les modèles de document mono-index qui utilisent un seul ensemblede vocabulaires. Ces types d’index constituent ceux habituellement utilisés en RI tex-

tuelle. Un système d’indexation conceptuel n’utilise qu’un seul vocabulaire pour l’in-

dexation, celui des concepts.

– nvd > 1 : les modèles de documentmulti-index qui utilisent plusieurs ensemblesde vocabulaires. Ces systèmes utilisent plusieurs vocabulaires pour représenter de fa-

çon multiple les documents : un système de recherche de vidéos peut utiliser d’une

part un vocabulaire textuel pour décrire les scènes du film et d’autre part un vocabu-

laire visuel pour décrire les images de ce film.

Dans un modèle de RI multi-index Mgraphes où le modèle de document repré-

sente les documents à l’aide de concepts et de relations entre concepts. Le support

d’indexation consiste en un multi-index SV Dgraphes tel que :

SV Dgraphes = (VpdsConcepts, VpdsRelations) avec nvd = 1

3.2.3.4. Représentation d’un document indexé

Un document indexé di se compose de nvd ensemblesDV tels que :

di = (DV1, ..., DVi, ..., DVnvd) avecDVi $ Vi


DVi forme un sous-ensemble de vocabulaires défini par la sélection dans Vi des élé-

ments représentant le document. Un ensemble DVi se constitue de nui unités de vo-

cabulaires uv, tel que :

uv ! DVi et "DVi" = nui

Dans le support de vocabulaires de document SV Dgraphes la représentation did’un document d se définit par :

di = (DVpdsConcepts, DVpdsRelations) avec :

DVpdsConcepts # VpdsConcepts etDVpdsRelations # VpdsRelations

Une représentation de di pour un document s’écrit par exemple :

di = ({(C0817096(poumon), 0.4), (C0032225(plevre), 0.6), ...},

{((C0817096(poumon), partie de,C0222762(cage thoracique)), 0.4, 0.7),

((C0032225(plevre), partie de, C0222762(cage thoracique)), 0.4, 0.7), ...})

Où le document est constitué d’un ensemble de concepts pondérés selectionnés dans

VpdsConcepts et d’un ensemble de relations pondérées de VpdsRelations.

3.2.3.5. Modèle de requête

Pour un modèle de RI M , on appelle support de vocabulaires de requête SV Qla liste des vocabulaires utilisés pour représenter les requêtes, ce support détermine

le modèle des requêtes. Le support de vocabulaires de requête SV Q représente un

support de vocabulaires constitué de nvq vocabulaires de SV :

SV Q = (V1, V2, ..., Vnvq) avec nvq $ 1

3.2.3.6. Représentation d’une requête

Une requête q se compose de nvq ensemblesQV et s’écrit :

q = (QV1, ..., QVi, ..., QVnvd) avec QVi # Vi

QVi forme un sous-ensemble de vocabulaires défini par la sélection dans Vi des élé-

ments représentant la requête. Ces représentations sont identiques dans leur construc-

tion à celles proposées pour les documents dans la section précédente.

3.2.3.7. Modèle de correspondance

Le modèle de correspondance se base sur la définition d’une relation de correspon-

dance entre les documents et les requêtes. La relation de correspondance RC définit

un ensemble de relations entre les documents et les requêtes :

RC = {(q, di)}


RC s’appuie sur la fonction de pertinence Pert qui, pour chaque document de la col-lection et chaque requête, calcule la pertinence du document vis-à-vis de la requête :

Pert : SV Q ! SV D " R

(q, d) " valeur

3.3. Bilan

Le cadre proposé permet d’établir des modèles qui expriment plusieurs points de

vue (modèle multi-index) sur les documents. Ce dernier met en avant la création de

supports de vocabulaires qui permettent de décrire le modèle des documents et le

modèle des requêtes. L’intérêt de ce cadre est de représenter des modèles divers par un

même formalisme. Cette représentation, par l’utilisation de supports de vocabulaires,

met en avant l’expressivité des modèles et permet de positionner des modèles les uns

par rapport aux autres. Dans la suite, nous proposons quatre modèles basés sur ce

cadre. Ces modèles expriment différents niveaux d’expressivité et nous testons leur

performance en RI médicale.

4. Application

Nous utilisons le cadre proposé pour évaluer l’intérêt de l’expressivité et de sa mo-

délisation pour des requêtes expertes dans le domaine médical. Dans ce but nous utili-

sons la collection CLEF médicale (Müller et al., 2007). Cette collection fait partie de

la campagne d’évaluationCLEF. Nous utilisons les requêtes anglaises2 des campagnes

de 2005 et de 2006 (50412 documents et 55 requêtes avec jugements de pertinence)

pour évaluer plusieurs modèles basés sur des expressivités variables.

4.1. Modèles

Nous proposons quatre modèles de RI présentés selon le cadre de modèlisation.

Nous souhaitons étudier l’expressivité, par conséquent les quatre modèles ont tous

des expressivités différentes mais ils restent des variations du modèle vectoriel. Nous

représentons ces modèles sur l’axe de l’expressivité sur la figure 3.

4.1.1. Modèle à base de lemmes

Ce premier modèle se base sur un vocabulaire de lemmes. Les lemmes Tlemmes

sont obtenus avec l’analyseur syntaxique MiniPar (Lin, 1998). Ils sont détectés dans

2. par exemple : gastrointestinal endoscopy with polyp


Figure 3. Positionnement des modèles proposés

les documents après un filtrage des types syntaxiques qui ne conserve que les noms,

les adjectifs et les abréviations.

IL = (STIL, SV DIL, SV QIL, RCIL) avec :

STIL = (Tlemmes)

SV DIL = SV QIL = (V ILlemmes) où V IL

lemmes ! Tlemmes " P 1

Dans ce modèle, un document indéxé di est représenté par DV ILlemmes # V IL

lemmes

qui forme l’ensemble des lemmes du document et où P 1 est une variation du tf.idf 3.Une requête est représentée par QV IL

lemmes # V ILlemmes qui constitue l’ensemble des

lemmes de la requête et où P 1 est leur fréquence. Enfin, RCIL effectue le produit

scalaire de ces deux ensembles.

4.1.2. Modèle à base de structures syntaxiques

Le second modèle utilise la structure syntaxique, il se base sur un vocabulaire de

lemmes et un vocabulaire de dépendances. Les lemmes et les noms de dépendances

Tdependances sont produit par l’analyse syntaxique en dépendance de MiniPar. La dé-

tection sur les documents ne conserve que les lemmes qui correspondent à des noms,

des adjectifs ou abréviations et seulement les dépendances qui relient ces lemmes.

ID = (STID, SV DID, SV QID, RCID) avec :

STID = (Tlemmes, Tdependances)

SV DID = SV QID = (V IDlemmes, V

IDdependances) où

V IDlemmes ! Tlemmes " P 1

V IDdependance ! Tdependances " Tlemmes " Tlemmes " P 1

Un document indexé di est constitué de DV IDlemmes # V ID

lemmes, l’ensemble des

lemmes du document, et de DV IDdependance # V ID

dependance, l’ensemble des dépen-

dances du document. Dans les deux cas P 1 est calculé par une variation du tf.idf . De

3. Le tf représente la fréquence d’un descripteur dans le document, l’idf est l’inverse de safréquence dans les documents de la collection, et le tf.idf est la combinaison des deux


même sur les requêtes, où pour les deux vocabulaires P 1 est la fréquence. Ici RCID

effectue la somme des produits scalaires entre chaque vocabulaire.

4.1.3. Modèle à base de concepts

Nous évaluons ensuite un modèle d’indexation conceptuelle IC. Ce modèle sebase naturellement sur un vocabulaire de concepts. Les unités de vocabulaire qui

forment la représentation du document sont des concepts détectés selon la méthode

proposée dans (Radhouani et al., 2006). Ils correspondent aux concepts Tconcepts dé-

finis dans UMLS4, une source de connaissance du domaine médical. Ce modèle est

défini comme :

IC = (STIC , SV DIC , SV QIC , RCIC) avec :

STIC = (Tconcepts)

SV DIC = SV QIC = V ICconcepts où V IC

concepts ! Tconcepts " P 1

Un document indexé di se constitue de DV ICconcepts # V IC

concepts, l’ensemble des

concepts détectés dans les phrases du document, où P 1 est une variation du tf.idf .Une requête se constitue de QV IC

concepts # V ICconcepts, l’ensemble des concepts détec-

tés dans la requête, avec P 1 leur fréquence. Enfin,RCIC effectue le produit scalaire.

4.1.4. Modèle à base de graphes

Le dernier modèle utilise une structure sémantique, il se base sur un vocabulaire

de concepts et un vocabulaire de relations sémantiques. Ces concepts et ces relations

forment un graphe dont l’extraction à partir des phrases est détaillée dans (Maison-

nasse et al., 2007), les relations utilisées Trelations sont celles du réseau sémantique

d’UMLS. Ce modèle est exprimé par :

IG = (STIG, SV DIG, SV QIG, RCIG) avec :

STIG = (Tconcepts, Trelations)

SV DIG = SV QIG = (V IGconcepts, V

IGrelations) où

V IGconcepts ! Tconcepts " P 1

V IGrelation ! Trelations " Tconcepts " Tconcepts " P 1

Un document indexé di se constitue de DV IGconcepts # V IG

concepts, l’ensemble des

concepts du document, et de DV IGrelation # V IG

dependance, l’ensemble des relations du

document. Dans les deux cas P 1 est une variation du tf.idf , de même pour les re-quêtes où P 1 est la fréquence des éléments. Finalement,RCID effectue la somme des

produits scalaires entre les éléments de chaque vocabulaire.

4. http ://www.nlm.nih.gov/research/umls/


Modèle

Pondération IL ID IC IG

tf 0.1405 0.1415 0.1649 0.1711

idf 0.1108 0.1194 0.1507 0.1614

tf.idf 0.1296 0.1337 0.1464 0.1584

Tableau 1. Résultats obtenus en précision moyenne par les quatre modèles sur les 55

requêtes de la collection CLEF médical

4.2. Résultats et discussion

Le tableau 1 présente les résultats obtenus par les différents modèles sur la collec-

tion. Pour cette collection qui fournit des besoins d’information experts, les résultats

montrent que plus le modèle est expressif plus les résultats obtenus sont bons, cela

quelle que soit la pondération. Nous remarquons que dans tous les cas le tf seul donneles meilleurs résultats. L’idf a un impact négatif, les mots et les concepts utilisés dansles requêtes sont des mots précis, et ils apparaissent rarement dans la collection, par

conséquent l’idf n’a pas un impact positif.

Les expérimentations présentées montrent la capacité de notre cadre de modélisa-

tion à représenter des modèles différents. Nous avons présenté quatre modèles dont

deux multi-index, sur ces quatre modèles, l’utilisation du cadre facilite leur compa-

raison. Ces modèles varient essentiellement sur leur expressivité (nombre de vocabu-

laires et espace d’expression des vocabulaires). Ils utilisent les mêmes pondérations et

des relations de correspondance proches. Cela permet d’étudier directement l’impact

de l’expressivité, ce qui est fait lors de l’expérimentation.

La tâche Clef médical fournit des besoins précis, plus ces besoins sont représentés

expressivement, plus les résultats sont bons. Nous pouvons en conclure qu’amélio-

rer l’expressivité est bénéfique pour cette tâche. Dans cette application, nous avons

présenté des modèles simples pour lesquels nous avons fait varier d’une part l’expres-

sivité et d’autre part les pondérations. Le cadre de modélisation permet d’aller plus

loin, par exemple sur une même expressivité, il permet de tester des modèles diffé-

rents, notamment en ne variant que la relation de correspondance.

5. Conclusion

Dans certains domaines, notamment les domaines d’expertise, il est important de

bien choisir l’expressivité du SRI. Cependant, peu d’outils sont disponibles pour posi-

tionner et évaluer l’impact de l’expressivité. Nous proposons dans cet article un cadre

de définition des modèles de RI qui met en avant cette expressivité. Ce cadre permet,

par l’utilisation de supports de vocabulaires, de définir différents modèles en mettant

en avant leur expressivité, ce que nous avons fait dans les expérimentations. L’utili-

sation de ce cadre nous permet d’établir une étude sur l’intérêt de l’expressivité pour


la résolution de requêtes expertes dans le domaine médical. Cette étude montre l’inté-

rêt du cadre pour modéliser l’expressivité et pour étudier son impact dans différentes

tâches de RI.

6. Bibliographie

Berrut C., Chiaramella Y., « Indexing medical reports in a multimedia environment : the RIME

experimental approach », SIGIR Forum, vol. 23, p. 187-197, 1989.

Gao J., Nie J.-Y., Wu G., Cao G., « Dependence language model for information retrieval »,

Research and Development in Information Retrieval, 2004.

Gaussier E., Grefenstette G., Hull D., Roux. C., « Recherche d’informations en francais et

traitement automatique des langues », Traitement Automatique des Langues, 2000.

Genest D., Chein M., « A content-search information retrieval process based on conceptual

graphs », Knowl. Inf. Syst., vol. 8, n˚ 3, p. 292-309, 2005.

Lin D., « Dependency-based Evaluation of MiniPar »,Workshop on the Evaluation of Parsing

Systems, Granada, Spain, May, ACM, 1998.

Maisonnasse L., Chevallet J.-P., Berrut C., « Incomplete and Fuzzy Conceptual Graphs to Au-

tomatically Index Medical Reports », NLDB, p. 240-251, 2007.

Matsumura A., Takasu A., Adachi J., « The effect of information retrieval method using depen-

dency relationship between words », Proceedings of the RIAO 2000, p. 1043-1058, 2000.

Metzler D. P., Haas S. W., « The constituent object parser : syntactic structure matching for

information retrieval », ACM Trans. Inf. Syst., vol. 7, n˚ 3, p. 292-316, 1989.

Müller H., Deselaers T., Kim E., Kalpathy-Cramer J., Deserno T. M., Clough P., Hersh W.,

« Overview of the ImageCLEFmed 2007 Medical Retrieval and Annotation Tasks », Wor-

king Notes of the 2007 CLEF Workshop, Budapest, Hungary, September, 2007.

Nie J., « An outline of a general model for information retrieval systems », Research and Deve-

lopment in Information Retrieval, Grenoble, France, p. 495-506, June, 1988.

Radhouani S., Maisonnasse L., Lim J.-H., Le T.-H.-D., Chevallet J.-P., « Une Indexation

Conceptuelle pour un Filtrage par Dimensions », CORIA’2006, p. 257-271, mars, 2006.

Sándor D., « A unified mathematical definition of classical information retrieval », J. Am. Soc.

Inf. Sci., vol. 51, n˚ 7, p. 614-624, 2000.

Smeaton A. F., « Using NLP or NLP resources for information retrieval tasks », in , T. Strzal-

kowski (ed.), Natural language information retrieval, Kluwer Academic, p. 99-111, 1999.

Strzalkowski T., Stein G. C., Wise G. B., Carballo J. P., Tapanainen P., Jarvinen T., Voutilai-

nen A., Karlgren J., « Natural Language Information Retrieval : TREC-7 Report », Text

REtrieval Conference, p. 164-173, 1998.

Vintar S Buitelaar P. V. M., « Relations in Concept-Based Cross-Language Medical Information

Retrieval », ECML/PKDDWorkshop on Adaptive Text Extraction and Mining, 2003.

Zhai C., Tong X., Milic-Frayling N., Evans D., « Evaluation of syntactic phrase indexing -

CLARIT NLP track report », 1997.

Zhou W., Yu C., Smalheiser N., Torvik V., Hong J., « Knowledge-intensive Conceptual Re-

trieval and Passage Extraction of Biomedical Literature », Research and Development in

Information Retrieval, 2007.


Documents

L’expressivité des modèles de recherche d’informations ... · L’expressivité des modèles de recherche d’informations précises Le support de vocabulaires et son application