184
THÈSE THÈSE En vue de l’obtention du DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Délivré par : l’Université Toulouse 3 Paul Sabatier (UT3 Paul Sabatier) Cotutelle internationale Université de Tunis El Manar Présentée et soutenue le 30/06/2016 par : Contribution à l’analyse et l’évaluation des requêtes expertes : cas du domaine médical JURY Chantal Soulé-Dupuy Professeur, Université Toulouse 1, Capitole Présidente Catherine Berrut Professeur, Université Joseph Fourier Rapporteur Ikram Amous MCF/HDR, Université de Sfax Rapporteur Lina Soualmia MCF/HDR, Université de Rouen Examinatrice Rim Faiz Professeur, Université de Carthage Examinatrice Lynda Tamine Professeur, Université de Toulouse 3 Directrice Chiraz Latiri MCF/HDR, Université de la Manouba Co-directrice Cécile Chouquet MCF, Université de Toulouse 3 Invitée École doctorale et spécialité : MITT : Image, Information, Hypermedia Unité de Recherche : Institut de Recherche en Informatique de Toulouse (UMR 5505) Directeur(s) de Thèse : Lynda Tamine et Chiraz Latiri Rapporteurs : Ikram Amous et Catherine Berrut

IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

THÈSETHÈSEEn vue de l’obtention du

DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE

Délivré par : l’Université Toulouse 3 Paul Sabatier (UT3 Paul Sabatier)Cotutelle internationale Université de Tunis El Manar

Présentée et soutenue le 30/06/2016 par :Eya ZNAIDI

Contribution à l’analyse et l’évaluation des requêtes expertes : cas dudomaine médical

JURYChantal Soulé-Dupuy Professeur, Université Toulouse 1, Capitole PrésidenteCatherine Berrut Professeur, Université Joseph Fourier RapporteurIkram Amous MCF/HDR, Université de Sfax RapporteurLina Soualmia MCF/HDR, Université de Rouen ExaminatriceRim Faiz Professeur, Université de Carthage ExaminatriceLynda Tamine Professeur, Université de Toulouse 3 DirectriceChiraz Latiri MCF/HDR, Université de la Manouba Co-directriceCécile Chouquet MCF, Université de Toulouse 3 Invitée

École doctorale et spécialité :MITT : Image, Information, Hypermedia

Unité de Recherche :Institut de Recherche en Informatique de Toulouse (UMR 5505)

Directeur(s) de Thèse :Lynda Tamine et Chiraz Latiri

Rapporteurs :Ikram Amous et Catherine Berrut

Page 2: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier
Page 3: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Contribution à l’analyse et l’évaluation des requêtes expertes : casdu domaine médical

Eya ZNAIDI

5 juillet 2016

Page 4: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier
Page 5: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Dédicace

À cœur vaillant rien d’impossibleÀ conscience tranquille tout est accessible.Quand il y a la soif d’apprendreTout vient à point à qui sait attendre.Quand il y a le souci de réaliser un desseinTout devient facile pour arriver à nos fins.Malgré les obstacles qui s’opposentEn dépit des difficultés qui s’interposent.Les études sont avant toutNotre unique et seul atout.Ils représentent la lumière de notre existenceL’étoile brillante de notre réjouissance.Comme un vol de gerfauts hors du charnier natalNous partons ivres d’un rêve héroïque et brutal.Espérant des lendemains épiques...

Je dédie cette thèseÀ mes parents Mounir et Dalila

iii

Page 6: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier
Page 7: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Remerciements

Je souhaite avant tout exprimer mes plus vifs remerciements à Lynda Tamine-Lechani ma direc-trice de thèse , pour m’avoir fait confiance pour m’avoir guidé, encouragé, aidé, pour ses multiplesconseils et pour toutes les heures qu’elle a consacré à diriger cette recherche. J’aimerais égalementlui dire à quel point j’ai apprécié sa grande disponibilité, sa patience et son soutien indéfectible. J’aiété extrêmement sensible à ses qualités humaines d’écoute et de compréhension tout au long de cetravail. Mes chaleureux remerciements pour son attention de tous les instants sur mes travaux, pourses conseils avisés et son écoute qui ont été prépondérants pour la bonne réussite de cette thèse.Son énergie et sa confiance ont été des éléments moteurs pour moi.

Je souhaite exprimer ma sincère reconnaissance et mes remerciements à ma co-directrice de thèseChiraz Latiri, pour la gentillesse et la patience qu’elle a manifesté à mon égard durant cette thèse,pour tous les conseils, son respect sans faille des délais serrés de relecture des documents que jelui ai adressés. Je la remercie également pour sa bienveillance et ses remarques précieuses. Je laremercierai pas assez pour la confiance, le soutien et la sympathie qu’elle m’a témoigné au cours decette thèse.

Je remercie également Mme Cécile Chouquet pour son aide, sa collaboration et participation pource travail.

Je voudrais remercier les rapporteurs de cette thèse Mme. Catherine Berrut, Professeur des Univer-sités de l’Université Joseph Fourier, et Mme Ikram Amous, MCF/HDR de l’Université de Sfax, ouravoir accordé du temps à une lecture attentive et détaillée de mon manuscrit ainsi que pour leursremarques encourageantes et constructives.

J’associe à ces remerciements Mme Lina Soualmia MCF/HDR de l’Université de Rouen, et MmeRim Faiz, Professeur de l’Université de Carthage, pour avoir accepté d’examiner mon travail.

Je souhaite exprimer ma gratitude à M. Claude Chrisment, puis Mme Josiane Mothe, pour m’avoiraccueillie au sein de l’équipe SIG. Je remercie l’ensemble des membres de l’équipe SIG pour leurgentillesse et les différents échanges que j’ai pu avoir avec chacun d’entre eux. Des remerciementstout particuliers aux membres de l’équipe IRIS, merci à Gilles de m’avoir accordé sa confiance enme laissant participer à ses enseignements.

v

Page 8: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Merci également à tous les doctorants amis et collègues : Ghada, Laure, Bilel, Amjed, Firas, Rafik,Manel, Chiraz, Faten, Mariem, Diep, Ismail, Ophélie, Imen, Thomas, Inès, Lynda Said L’hadj,..pour leur sympathie, leur amitié. J’ai eu beaucoup de plaisir à travailler avec eux merci pour lesbons moments partagés. Je tiens à remercier Thibaut pour ses nombreuses relectures, pour sesconseils, pour son aide écoute et support sans failles. Merci Ghada, j’ai trouvé en toi plus qu’uneamie.

Ma reconnaissance va à ceux qui ont plus particulièrement assuré le soutien affectif pendant mathèse : ma famille, merci pour votre irremplaçable et inconditionnel soutien. Je tiens à remerciertout particulièrement papa et maman pour leur soutien quotidien indéfectible et leur enthousiasmecontagieux à l’égard de mes travaux comme de la vie en général. Ils sont mon moteur, ma source demotivation, ils n’ont jamais cessé de me soutenir, me supporter, m’encourager. Je n’aurais pas assezde mots pour vous remercier et vous dire ce que vous représentez pour moi. Vous m’avez toujoursencouragé à aller de l’avant malgré la difficulté d’être loin de ses proches. Merci d’avoir été là pourécarter les doutes, soigner les blessures et partager les joies. Cette thèse est aussi la vôtre.Enfin, je remercie mon futur époux Fares pour sa patience.

Encore un grand merci à tous pour m’avoir conduit à ce jour mémorable.

vi

Page 9: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Résumé

La recherche d’information nécessite la mise en place de stratégies qui consistent à (1) cerner lebesoin d’information ; (2) formuler le besoin d’information ; (3) repérer les sources pertinentes ; (4)identifier les outils à exploiter en fonction de ces sources ; (5) interroger les outils ; et (6) évaluer laqualité des résultats. Ce domaine n’a cessé d’évoluer pour présenter des techniques et des approchespermettant de sélectionner à partir d’un corpus de documents l’information pertinente capable desatisfaire le besoin exprimé par l’utilisateur. De plus, dans le contexte applicatif du domaine de la RIbiomédicale, les sources d’information hétérogènes sont en constante évolution, aussi bien du pointde vue de la structure que du contenu. De même, les besoins en information peuvent être expriméspar des utilisateurs qui se caractérisent par différents profils, à savoir : les experts médicaux commeles praticiens, les cliniciens et les professionnels de santé, les utilisateurs néophytes (sans aucuneexpertise ou connaissance du domaine) comme les patients et leurs familles, etc.

Plusieurs défis sont liés à la tâche de la RI biomédicale, à savoir : (1) la variation et la diversitédu besoin en information, (2) différents types de connaissances médicales, (3) différences de compé-tences linguistiques entre experts et néophytes, (4) la quantité importante de la littérature médicale ;et (5) la nature de la tâche de RI médicale. Cela implique une difficulté d’accéder à l’informationpertinente spécifique au contexte de la recherche, spécialement pour les experts du domaine qui lesaideraient dans leur prise de décision médicale.

Nos travaux de thèse s’inscrivent dans le domaine de la RI biomédicale et traitent les défis de laformulation du besoin en information experte et l’identification des sources pertinentes pour mieuxrépondre aux besoins cliniques.

Concernant le volet de la formulation et l’analyse de requêtes expertes, nous proposons des analysesexploratoires sur des attributs de requêtes, que nous avons définis, formalisés et calculés, à savoir :(1) deux attributs de longueur en nombre de termes et en nombre de concepts, (2) deux facettesde spécificité terme-document et hiérarchique, (3) clarté de la requête basée sur la pertinence etcelle basée sur le sujet de la requête. Nous avons proposé des études et analyses statistiques sur descollections issues de différentes campagnes d’évaluation médicales CLEF et TREC, afin de prendreen compte les différentes tâches de RI. Après les analyses descriptives, nous avons étudié d’une part,les corrélations par paires d’attributs de requêtes et les analyses de corrélation multidimensionnelle.Nous avons étudié l’impact de ces corrélations sur les performances de recherche d’autre part. Nousavons pu ainsi comparer et caractériser les différentes requêtes selon la tâche médicale d’une manière

vii

Page 10: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

plus généralisable.

Concernant le volet lié à l’accès à l’information, nous proposons des techniques d’appariement etd’expansion sémantiques de requêtes dans le cadre de la RI basée sur les preuves cliniques. Eneffet, les médecins ont appris à formuler leur requêtes selon les facettes PICO (Population/Problem(P), Intervention (I), Comparaison (C) et Outcome (O)). Ces facettes sont rarement annotées ouidentifiées dans le texte des documents et des requêtes.

Dans le but de mieux répondre aux questions cliniques PICO, nous avons proposé différentes ap-proches pour évaluer les questions cliniques expertes : (i) une représentation sémantique sous formede graphes conceptuels des questions PICO, (ii) une approche d’expansion de requêtes basée surun algorithme de propagation de scores pour sélectionner les meilleurs concepts ; et (iii) un modèled’ordonnancement requête-document, basé sur une méthode d’agrégation prioritaire de scores depertinence. Ainsi, nous avons contextualisé les scores d’importance des facettes aux documents etaux requêtes dans l’objectif d’améliorer la performance de recherche et de retourner des réponsespertinentes. Nous avons mené des évaluation expérimentales pour évaluer nos contributions dansla cadre de la recherche PICO. Nous avons utilisé pour cela la collection de données CLIREC,construite dans le but d’évaluer la RI clinique (Boudin et al., 2010c). Les résultats ont montré laperformance des différentes approches proposées.

viii

Page 11: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Abstract

The research topic of this document deals with a particular setting of medical information retrieval(IR), referred to as expert based information retrieval. We were interested in information needsexpressed by medical domain experts like praticians, physicians, etc. It is well known in informationretrieval (IR) area that expressing queries that accurately reflect the information needs is a difficulttask either in general domains or specialized ones and even for expert users. Thus, the identificationof the users’ intention hidden behind queries that they submit to a search engine is a challengingissue. Moreover, the increasing amount of health information available from various sources such asgovernment agencies, non-profit and for-profit organizations, internet portals etc. presents oppor-tunities and issues to improve health care information delivery for medical professionals, patientsand general public. One critical issue is the understanding of users search strategies and tactics forbridging the gap between their intention and the delivered information.In this thesis, we focus, more particularly, on two main aspects of medical information needs dealingwith the expertise which consist of two parts, namely :— Understanding the users intents behind the queries is critically important to gain a better

insight of how to select relevant results. While many studies investigated how users in generalcarry out exploratory health searches in digital environments, a few focused on how are thequeries formulated, specifically by domain expert users. We address more specifically domainexpert health search through the analysis of query attributes namely length, specificity andclarity using appropriate proposed measures built according to different sources of evidence.In this respect, we undertake an in-depth statistical analysis of queries issued from IR evalua-tion compaigns namely Text REtrieval Conference (TREC) and Conference and Labs of theEvaluation Forum (CLEF) devoted for different medical tasks within controlled evaluationsettings.

— We address the issue of answering PICO (Population, Intervention, Comparison and Outcome)clinical queries formulated within the Evidence Based Medicine framework. The contributionsof this part include (1) a new algorithm for query elicitation based on the semantic mappingof each facet of the query to a reference terminology, and (2) a new document ranking modelbased on a prioritized aggregation operator. we tackle the issue related to the retrieval of thebest evidence that fits with a PICO question, which is an underexplored research area. Wepropose a new document ranking algorithm that relies on semantic based query expansionleveraged by each question facet. The expansion is moreover bounded by the local searchcontext to better discard irrelevant documents. The experimental evaluation carried out onthe CLIREC dataset shows the benefit of our approaches.

ix

Page 12: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier
Page 13: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Table des matières

Dédicace iii

Remerciements v

Résumé vii

Abstract ix

Contexte de recherche et contributions de la thèse 91 Contexte et problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 Organisation de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 Publications dans le cadre de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . 15

I Recherche d’information et domaine médical : Synthèse des travaux del’état de l’art 17

1 Recherche d’information : Concepts et modèles 191 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 Concepts de base de la RI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.1 Fondements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.2 Mise en œuvre d’un SRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.2.1 Indexation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.2.2 Interrogation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3 Taxonomie des modèles de RI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.1 Modèle booléen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2 Modèle vectoriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.3 Modèles probabilistes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4 Reformulation de la requête . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294.1 Reformulation par réinjection de la pertinence . . . . . . . . . . . . . . . . . 314.2 Reformulation par pseudo-réinjection de la pertinence . . . . . . . . . . . . . 32

5 Évaluation des performances en RI . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335.1 Collections de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335.2 Campagnes d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5.2.1 Protocole d’évaluation TREC . . . . . . . . . . . . . . . . . . . . . . 34

1

Page 14: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

5.2.2 Protocole d’évaluation CLEF . . . . . . . . . . . . . . . . . . . . . . 355.3 Mesures d’évaluation en RI . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2 Recherche d’information médicale : principes de base 411 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432 Aperçu du domaine de la RI médicale . . . . . . . . . . . . . . . . . . . . . . . . . . 44

2.1 Enjeux et défis du domaine . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442.2 Typologie de l’information médicale . . . . . . . . . . . . . . . . . . . . . . . 45

2.2.1 La littérature biomédicale . . . . . . . . . . . . . . . . . . . . . . . . 462.2.2 Les dossiers médicaux des patients . . . . . . . . . . . . . . . . . . . 48

2.3 Quelques ressources termino-ontologiques du domaine biomédical . . . . . . . 482.3.1 Thésaurus MeSH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 492.3.2 Méta-thésaurus UMLS . . . . . . . . . . . . . . . . . . . . . . . . . 502.3.3 Nomenclature SNOMED . . . . . . . . . . . . . . . . . . . . . . . . 512.3.4 Gene Ontology GO . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3 Étude des besoins en information médicale . . . . . . . . . . . . . . . . . . . . . . . . 523.1 Catégories de requêtes médicales . . . . . . . . . . . . . . . . . . . . . . . . . 533.2 Caractéristiques des requêtes médicales . . . . . . . . . . . . . . . . . . . . . 56

3.2.1 Caractéristiques selon les utilisateurs . . . . . . . . . . . . . . . . . 573.2.2 Caractéristiques linguistiques . . . . . . . . . . . . . . . . . . . . . . 593.2.3 Sujet de la requête . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

3.3 Stratégies et comportements de recherche . . . . . . . . . . . . . . . . . . . . 624 Techniques et modèles de RI médicale . . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.1 Expansion de requêtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.2 Expansion de documents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5 Modèles de RI basées sur le paradigme PICO . . . . . . . . . . . . . . . . . . . . . . 685.1 EBM et paradigme PICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 685.2 Identification des éléments PICO . . . . . . . . . . . . . . . . . . . . . . . . . 725.3 Modèles de RI basés sur les facettes PICO . . . . . . . . . . . . . . . . . . . . 75

6 Campagnes d’évaluation pour la RI biomédicale . . . . . . . . . . . . . . . . . . . . . 786.1 Campagne d’évaluation TREC . . . . . . . . . . . . . . . . . . . . . . . . . . 786.2 Campagne d’évaluation ImageCLEF . . . . . . . . . . . . . . . . . . . . . . . 81

7 Aperçu de systèmes de RI médicaux . . . . . . . . . . . . . . . . . . . . . . . . . . . 837.1 PubMed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 837.2 EMERSE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 847.3 CisMef . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 857.4 Doctissimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 867.5 iMed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 867.6 MedSearch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

II Analyse et évaluation de requêtes médicales 89

3 Analyses statistiques exploratoires des facteurs caractéristiques des requêtes ex-pertes 951 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

2

Page 15: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

2 Motivations et questions de recherche . . . . . . . . . . . . . . . . . . . . . . . . . . 962.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 962.2 Objectifs et questions de recherche . . . . . . . . . . . . . . . . . . . . . . . . 97

3 Définition et formalisation des attributs de requêtes . . . . . . . . . . . . . . . . . . 993.1 Longueur de la requête . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 993.2 Spécificité de la requête . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1003.3 Clarté de la requête . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

4 Caractérisation du besoin en information des experts du domaine médical . . . . . . 1024.1 Description des données d’analyses . . . . . . . . . . . . . . . . . . . . . . . . 103

4.1.1 Collections de la campagne d’évaluation TREC . . . . . . . . . . . . 1034.1.2 Collections de la campagne d’évaluation CLEF . . . . . . . . . . . . 104

4.2 Analyses et résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1064.2.1 Identification des Caractéristiques de requêtes . . . . . . . . . . . . 1064.2.2 Analyses de corrélation des attributs de requêtes . . . . . . . . . . . 108

4.3 Synthèse et discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1094.3.1 Analyses multidimensionnelles des corrélations entre les attributs . . 1104.3.2 Impact des attributs des requêtes sur les performances de recherche 112

5 Caractérisation des requêtes PICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1145.1 Analyses descriptives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1145.2 Analyses de corrélations entre attributs de requêtes PICO . . . . . . . . . . . 115

6 Bilan et conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

4 Évaluation des requêtes cliniques : Modèles sémantiques pour mieux répondreaux questions PICO 1211 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1232 Motivations et hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1253 Aperçu général de nos contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . 1274 Processus d’élicitation sémantiques des requêtes PICO . . . . . . . . . . . . . . . . . 128

4.1 Méthode de génération de graphes . . . . . . . . . . . . . . . . . . . . . . . . 1284.2 Identification de concepts les plus pertinents . . . . . . . . . . . . . . . . . . 130

5 Évaluation des requêtes cliniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1335.1 Expansion sémantique des requêtes cliniques . . . . . . . . . . . . . . . . . . 1335.2 Modèle d’ordonnancement basé sur un opérateur d’agrégation prioritaire des

scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1355.2.1 Cadre général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1355.2.2 Calcul de scores de pertinence des documents . . . . . . . . . . . . . 136

6 Évaluation expérimentale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1376.1 Données expérimentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1376.2 Évaluation de l’approche d’expansion de requêtes . . . . . . . . . . . . . . . . 137

6.2.1 Métriques d’évaluation et modèles de référence . . . . . . . . . . . . 1376.2.2 Ajustement des paramètres . . . . . . . . . . . . . . . . . . . . . . . 1386.2.3 Analyse de l’efficacité de la recherche : évaluation comparative . . . 1406.2.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

6.3 Évaluation du modèle d’ordonnancement de documents . . . . . . . . . . . . 1416.3.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1416.3.2 Métriques et protocole d’évaluation . . . . . . . . . . . . . . . . . . 1416.3.3 Efficacité du modèle de pertinence basé sur l’agrégation des scores . 1426.3.4 Analyse de la robustesse du modèle d’agrégation de pertinence . . . 143

3

Page 16: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

6.3.4.1 Analyse globale . . . . . . . . . . . . . . . . . . . . . . . . 1446.3.4.2 Analyse au niveau requête . . . . . . . . . . . . . . . . . . 146

7 Bilan et conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

Conclusion générale 151Synthèse des contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

Bibliographie 171

4

Page 17: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Table des figures

1.1 Processus en U de la RI. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241.2 Taxonomie des modèles en RI (Baeza-Yates et Ribeiro-Neto, 2011). . . . . . . . . . . 251.3 Représentation algébrique des documents et des requêtes dans l’espace des termes à

deux dimensions. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271.4 Aperçu du processus de la reformulation de requête. . . . . . . . . . . . . . . . . . . 301.5 Description graphique des éléments nécessaires pour calculer le rappel et la précision. 38

2.1 Exemple de résultats utilisant GO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522.2 Distribution de requêtes médicales selon le type (White et Horvitz, 2012). . . . . . . 552.3 Stratégie de recherche globale de la MFF. . . . . . . . . . . . . . . . . . . . . . . . . 692.4 Approche de l’évidence basée sur les faits. . . . . . . . . . . . . . . . . . . . . . . . . 692.5 Aperçu de domaines du système PubMed. . . . . . . . . . . . . . . . . . . . . . . . . 842.6 Capture d’écran de EMERSE montrant les termes d’expansion du mot "cigarette". . 852.7 Aperçu du système CisMef . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 852.8 Aperçu du site web Doctissimo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

3.1 Distribution des facettes d’attributs de requêtes par collection . . . . . . . . . . . . 1073.2 Nuage de points résultats de l’ACP, 1 désigne la collection TRECMedical ; 2 désigne

la collection ImageCLEF ; 3 désigne la collection TRECGenomics03 ; 4 désigne lacollection TRECGenom04 et 5 désigne la collection TRECGenom06. . . . . . . . . . 111

3.3 Scores moyens des performances de recherche par tâche médicale. . . . . . . . . . . . 1133.4 Distribution des attributs de requêtes par collection . . . . . . . . . . . . . . . . . . 1163.5 Analyses de corrélations des attributs de requêtes PICO . . . . . . . . . . . . . . . . 1173.6 Distribution des deux facettes de la longueur pour les sous-graphes PICO . . . . . . 118

4.1 Aperçu du processus d’élicitation sémantique de requêtes PICO. . . . . . . . . . . . 1284.2 Exemple de graphe sémantique de requête PICO . . . . . . . . . . . . . . . . . . . . 1294.3 Exemple d’un appariement sémantique requête-document . . . . . . . . . . . . . . . 1304.4 Exemple de graphes sémantiques conceptuels . . . . . . . . . . . . . . . . . . . . . . 1334.5 Aperçu de notre modèle de traitement des questions PICO. . . . . . . . . . . . . . . 1344.6 Architecture de notre modèle de traitement des questions PICO. . . . . . . . . . . . 1354.7 Variation du paramètre pour le modèle PRF . . . . . . . . . . . . . . . . . . . . . . 1394.8 Variation du paramètre pour le modèle BQE . . . . . . . . . . . . . . . . . . . . . . 1394.9 Variation du paramètre pour l’expansion de requête . . . . . . . . . . . . . . . . . . 1394.10 Paramétrage du modèle GQE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1404.11 Variation du paramètre α. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

5

Page 18: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

4.12 Statistiques sur l’amélioration/dégradation en terme de MAP comparée au modèlePLM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

4.13 Statistiques sur l’amélioration/dégradation en terme de MAP comparée au modèleAGM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

6

Page 19: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Liste des tableaux

1.1 Fonctions principales de classement de termes basés sur l’analyse des distributionsdes termes dans les documents de pseudo-réinjection de pertinence (Carpineto etRomano, 2012). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

1.2 Notations des mesures d’évaluation en RI. . . . . . . . . . . . . . . . . . . . . . . . . 37

2.1 Classification de la littérature médicale . . . . . . . . . . . . . . . . . . . . . . . . . . 472.2 Classification de l’information textuelle médicale . . . . . . . . . . . . . . . . . . . . 472.3 Le processus de réalisation d’un examen systématique et du méta-analyse . . . . . . 482.4 Les différentes catégories ou domaines du MeSH . . . . . . . . . . . . . . . . . . . . 502.5 Les onze axes de la nomenclature SNOMED . . . . . . . . . . . . . . . . . . . . . . . 512.6 Catégories de requêtes médicales selon le modèle de (Pratt et Wasserman, 2000) . . 542.7 Questions les plus posées, poursuivies et satisfaites selon (Ely et al., 2002). . . . . . 552.8 Types d’information médicale selon l’utilisateur . . . . . . . . . . . . . . . . . . . . . 562.9 Tableau récapitulatif des études et observations sur les caractéristiques des requêtes

médicales (Tamine et al., 2015) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 612.10 Tableau récapitulatif des études et observations sur le comportement de recherche

dans le domaine médical (Partie 1) (Tamine et al., 2015) . . . . . . . . . . . . . . . . 632.11 Tableau récapitulatif des études et observations sur le comportement de recherche

dans le domaine médical (Partie 2) (Tamine et al., 2015) . . . . . . . . . . . . . . . . 642.12 Exemple de requête clinique PICOTT . . . . . . . . . . . . . . . . . . . . . . . . . . 702.13 Exemple de requête PICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 712.14 Classification de travaux selon l’utilisation des éléments cliniques . . . . . . . . . . . 782.15 Statistiques des collections TREC Medical . . . . . . . . . . . . . . . . . . . . . . . . 792.16 Statistiques des collections TREC Genomics . . . . . . . . . . . . . . . . . . . . . . . 792.17 Tâches de la campagne TREC Genomics (Hersh, 2009) . . . . . . . . . . . . . . . . . 802.18 Statistiques sur la piste TREC de prise de décision médicale . . . . . . . . . . . . . . 802.19 Questions cliniques utilisées dans les campagnes 2014 et 2015 . . . . . . . . . . . . . 812.20 Statistiques des collections ImageCLEF (Case-based IR) . . . . . . . . . . . . . . . . 822.21 Statistiques des collections CLEF eHealth. . . . . . . . . . . . . . . . . . . . . . . . . 83

3.1 Formalisation des facettes des attributs de requêtes . . . . . . . . . . . . . . . . . . . 993.2 Tableau des notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1003.3 Exemples de requêtes avec les facettes de la longueur . . . . . . . . . . . . . . . . . . 1013.4 Exemples de requêtes avec les facettes de la spécificité . . . . . . . . . . . . . . . . . 1023.5 Exemples de requêtes avec leurs différents scores de clarté . . . . . . . . . . . . . . . 103

7

Page 20: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

3.6 Descriptions des collections utilisées pour l’analyse . . . . . . . . . . . . . . . . . . . 1033.7 Exemples de requêtes de la collection de test de la tâche TRECMedical 2011. . . . . 1043.8 Exemples de requêtes de différentes collections de test de la tâche TRECGenomics. . 1043.9 Récapitulatif des critères selon la tâche médicale. . . . . . . . . . . . . . . . . . . . . 1053.10 Résultats des corrélations entre les facettes d’attributs de requêtes des différentes

collections . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1093.11 Scores moyens de performance par collection (et écart-type) avec la p-value du test

de comparaison des scores entre collections († † † : p-value < 0, 001)) . . . . . . . . . 1123.12 Résultats de la modélisation du score de performance P@100 en fonction des attributs

des requêtes (par une MANCOVA) : estimation des paramètres associés aux attributssignificatifs (et erreur standard, s.e.) et p-value (ns : †† : 0, 001 < p-value < 0, 01 ; ) 113

3.13 Résultats de corrélations deux à deux entre les attributs de requêtes relatives à lacollection CLIREC (N = 423) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

4.1 Notations utilisées pour les différents algorithmes. . . . . . . . . . . . . . . . . . . . 1264.2 Exemple de requête textuelle avec les annotations PICO correspondantes. . . . . . . 1324.3 Top 5 documents retournés pour la requête A3.1 par le modèle BM25. . . . . . . . . 1324.4 Exemple de sous requêtes PICO de la requête A3.1. . . . . . . . . . . . . . . . . . . 1324.5 Exemple de concepts médicaux actifs . . . . . . . . . . . . . . . . . . . . . . . . . . . 1324.6 Exemple de concepts de documents avec les scores associés. . . . . . . . . . . . . . . 1334.7 Statistiques de la collection de test CLIREC. . . . . . . . . . . . . . . . . . . . . . . 1374.8 Comparaison de l’impact sur la performance de recherche de l’expansion de requêtes

basée sur le graphe sémantique. %Acc : Test de significativité de Student sur lamétrique MAP † : 0, 01 < t ≤ 0, 05 ; †† : 0, 001 < t ≤ 0, 01 ; † † † : t ≤ 0, 001. . . . . . 141

4.9 Comparaison de l’impact de notre modèle sur l’efficacité de recherche. %Acc indiqueles taux d’amélioration du modèle PSM en terme de MAP . Les Symboles †, ††et † † † indiquent le test de significativité de Student : † : 0, 01 < t ≤ 0, 05 ; †† :0, 001 < t ≤ 0, 01 ; † † † : t ≤ 0, 001. . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

4.10 Statistiques pour comparer la performance entre le modèle PSM et le modèle PLM. 1454.11 Statistiques pour comparer la performance entre le modèle PSM et le modèle AGM. 1454.12 Analyse comparative de cas de requêtes types PSM vs. PLM . . . . . . . . . . . . 1474.13 Analyses de l’échec et de l’amélioration de la performance des requêtes avec le modèle

PLM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1484.14 Description des requêtes de l’analyse (Cf. Tableau 4.13). . . . . . . . . . . . . . . . . 1484.15 Analyse de l’échec et de l’amélioration de la performance des requêtes avec le modèle

AGM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1484.16 Description des requêtes de l’analyse (Cf. Tableau 4.15). . . . . . . . . . . . . . . . . 149

8

Page 21: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Contexte de recherche et introductiongénérale

1 Contexte et problématique

La recherche d’information (RI) est l’ensemble des techniques permettant de sélectionner à partird’une collection de documents ceux qui sont susceptibles de répondre au besoin de l’utilisateurexprimé via une requête (Salton, 1970). À travers cette définition, nous retenons trois conceptsclés : le document, le besoin et la pertinence. La recherche d’information nécessite ainsi la miseen place d’une stratégie qui consiste à (1) cerner le besoin en information ; (2) formuler le besoinen information ; (3) repérer les sources pertinentes ; (4) identifier les outils à exploiter en fonctionde ces sources ; (5) interroger ces outils ; et (6) évaluer la qualité des résultats. Durant la dernièredécennie, le domaine de la RI n’a cessé d’évoluer du point de vue de la définition de modèlesd’indexation, de modèles d’appariement requête-document ainsi que de la spécification de cadresd’évaluation. Il a été décliné en plusieurs domaines d’application tels que la RI multilingue, la RIcontextuelle ou encore la RI médicale.

Nos travaux s’inscrivent spécifiquement dans le cadre de la RI biomédicale où des utilisateurs ex-perts ou néophytes utilisent divers moteurs de recherche pour effectuer leurs tâches de recherched’information. Ils peuvent s’orienter vers des sites spécialisés dans le domaine de la santé, vers desmoteurs de recherche généraux ou encore vers des systèmes de RI généraux ou médicaux. En effet,les SRI médicaux ont connu une grande évolution depuis ces deux dernières décennies tant du pointde vue de leur architecture que de la qualité et de la diversité des services autour du stockage del’information, de l’accès à l’information pertinente pour une médecine basée sur des niveaux depreuve ainsi que de l’aide à la décision pour l’amélioration de la qualité des soins (Hersh, 2006).

Dans ce cadre général, l’information biomédicale utilisée comme support pour les tâches derecherche, d’extraction d’information et de connaissances concerne principalement la littératuremédicale et les dossiers médicaux des patients. Grâce aux immenses progrès réalisés dans le domainebiomédical, la littérature scientifique biomédicale publiée augmente de manière exponentielle, nouscitons à titre d’exemple la ressource MEDLINE.

Toutefois, la diversification au niveau du volume de données, de l’hétérogénéité de la structure etdu contexte ainsi que l’exigence de qualité et de la sécurité des informations sont à l’origine dedéfis dans le domaine de RI biomédicale. Ces défis se traduisent par les difficultés rencontrées par

9

Page 22: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

des utilisateurs qui cherchent l’information médicale pertinente en vue de prendre une décision.Ces utilisateurs se caractérisent souvent par différents niveaux d’expertise, des connaissanceshétérogènes et des comportements de recherche multiples ainsi qu’une manière spécifique à chacunselon son contexte d’exploiter les ressources à disposition pour une prise de décision pertinente.

Autour de ce sujet, la revue de la littérature liée à la RI biomédicale révèle plusieurs limites, àsavoir : la difficulté de formulation des requêtes, la difficulté de l’interprétation des besoins eninformation induits par les SRI et plus spécifiquement, la non-exploitation des éléments PICO(Population/problème, Intervention, Comparaison, Output) de la médecine basée sur les niveauxde preuves, qui représentent une source d’évidence pour améliorer la réponse aux questions cliniques,etc.Plusieurs verrous restent donc à lever, notamment l’étude d’une manière précise et approfondie dubesoin en information exprimé par les experts du domaine médical en vue d’améliorer la prise dedécision ainsi que l’optimisation des modèles d’appariement requête-document en RI.

Dans ce cadre général, nous nous positionnons dans le cadre spécifique de l’analyse et de l’évaluationdes requêtes d’experts du domaine médical en vue d’améliorer les systèmes d’aide à la décision enmédecine, permettant de mieux répondre à des besoins en information spécifiques. Ce sujet aborde,plus spécifiquement, le problème de la formulation des requêtes expertes ainsi que la pertinencedes résultats retournés pour mieux répondre aux questions des professionnels de santé étant donnéque les requêtes médicales sont particulièrement complexes.

La problématique de recherche a été abordée dans un double objectif, à savoir :1. Mener des analyses statistiques qui portent sur les spécificités des requêtes expertes afin d’étu-

dier leurs caractéristiques et analyser les corrélations existantes. Le but est de révéler lesfacteurs caractéristiques des requêtes en analysant leurs points communs et différences ainsique leur impact sur la performance de recherche en considérant différentes tâches du domainemédical.

2. Se focaliser sur les requêtes cliniques PICO 1 dans le cadre de la médecine basée sur les faits,en s’intéressant à leur identification et leur exploitation dans le cadre de la RI médicale.Nous proposons une approche sémantique d’expansion de requêtes ainsi qu’un algorithme depropagation de scores basé sur les relations entre les concepts médicaux dans les requêtes etles documents. Un modèle d’ordonnancement basé sur un opérateur prioritaire d’agrégationde scores exploitant ces facettes PICO est également proposé, en vue de mieux répondre auxquestions cliniques.

1. Patient/Problem, Intervention, Comparaison, Output

10

Page 23: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

2 Contributions

Les travaux présentés dans ce mémoire se situent dans le contexte précis de l’analyse et del’extraction de connaissances ainsi que l’accès à l’information médicale. Plus précisément, nousnous sommes intéressés à un volet du domaine médical qui traite le besoin en information desexperts.

Nos contributions sont scindées en deux parties, à savoir :

1. Caractérisation et analyses des besoins en information des experts du domainemédical. Dans ce contexte, nous nous sommes intéressés à : (a) Étudier les requêtes expertesdes cliniciens. Nous avons mené pour cela des analyses statistiques sur 173 requêtes issues de 3tâches de recherche d’information médicales issues de deux campagnes d’évaluation différentesTREC 2 et CLEF 3. Nous avons défini différents attributs de requêtes comme éléments etcritères d’analyse, à savoir : la longueur des requêtes en nombre de termes et en nombre deconcepts, la clarté de la requête avec la clarté basée sur le sujet de la requête et la clarté baséesur la pertinence, la spécificité de la requête avec la spécificité hiérarchique et la spécificitéterme-document.(b) Analyser les besoins en information exprimés par les experts médicaux dans l’objectifde les caractériser et mesurer l’impact de leur structure sur les résultats de recherche. Nousavons mené une étude exploratoire basée sur des analyses statistiques multidimensionnellesissues de campagnes d’évaluation internationales en l’occurrence TREC et CLEF. Nous noussommes focalisés sur deux aspects ; un premier aspect consiste à identifier et analyser lescorrélations entre attributs de requêtes (la longueur, la spécificité et la clarté), en utilisantdes mesures appropriées construites selon différentes sources d’évidence. Un deuxième aspectporte sur l’étude de l’impact de ces attributs sur les performances de recherche des SRI liéesà ces requêtes.

Ces travaux d’analyse statistique exploratoire ont montré le besoin de contextualiser lesmodèles de RI médicale à la tâche. De plus, les résultats obtenus suggèrent la prise en comptede plusieurs caractéristiques et spécificités à inclure dans les nouveaux SRI médicaux commel’utilisation de niveaux de concepts terminologiques appropriés afin d’améliorer la clarté dela requête, la personnalisation des résultats de recherche selon le niveau d’expertise, la priseen compte de la catégorie de la requête et de la nature de la tâche de RI.

2. Évaluation des requêtes cliniques PICO en proposant une représentation séman-tique des requêtes sous forme de graphes ainsi que des approches de calcul descores de pertinence pour mieux répondre aux questions PICO. Notre contributionest triple, à savoir :

(a) Proposition d’une approche de génération de graphes sémantiques, permettant de mieuxreprésenter chacune des facettes PICO de la requête. La particularité de notre approcheréside dans la représentation des requêtes en se basant sur les concepts extraits à partirde MeSH, permettant de représenter le contexte spécifique de la requête, où chacune desfacettes PICO est représentée par un sous-graphe conceptuel.

2. Text Retrieval Conference3. Cross-language Forum

11

Page 24: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

(b) Proposition d’une approche d’expansion de requêtes pour mieux répondre aux questionscliniques PICO. Nous avons adressé le problème lié à la recherche des preuves cliniquespertinentes, adaptées aux questions PICO. Nous proposons un nouvel algorithme d’or-donnancement de documents basé sur une approche d’expansion de requêtes délimitéepar le contexte local de la recherche qui permet d’éliminer les documents non pertinents.Ensuite, nous avons proposé un algorithme de classement de documents qui permet de lierchacun des éléments de la requête à un document qui lui est pertinent afin de retournerdes réponses qui correspondent au mieux au besoin exprimé par la requête ;

(c) Pour mieux répondre aux requêtes cliniques, nous avons proposé l’application d’uneapproche d’agrégation prioritaire de l’information sémantique identifiée au sein dubesoin en information exprimé via les requêtes PICO. Nous avons proposé un nouveaumodèle d’ordonnancement basé sur une approche sémantique de requête qui prenden compte le contexte de chacune des facettes PICO. La spécificité de cette méthoderéside dans le nouvel algorithme de propagation de scores qui permet de sélectionner lesmeilleurs concepts qui correspondent à la fois aux requêtes et aux documents pertinentspour classer et identifier les meilleures preuves qui traduisent les documents pertinents.

Afin de prendre en compte l’importance de chacune des facettes P, I, C et O dans le cal-cul de score global de pertinence des documents, nous avons proposé : (i) une méthodede génération de graphes PICO, qui englobe une technique de calcul de score concep-tuel correspondant à chaque facette PICO, (ii) une approche d’appariement sémantiquerequête-document permettant de sélectionner les meilleurs concepts de chaque graphe et(iii) une approche de calcul de scores de pertinence basée sur un opérateur prioritaired’agrégation de scores.

3 Organisation de la thèse

Cette thèse est constituée d’un chapitre introductif ainsi que de deux parties principales. La pre-mière partie présente une synthèse des travaux de l’état de l’art et donne un aperçu sur le contextede recherche et la problématique dans le cadre de la RI biomédicale, présentée en deux chapitres :Recherche d’information : concepts et modèles (Chapitre 1), Recherche d’information médicale (Cha-pitre 2). La deuxième partie présente nos contributions et est subdivisée en deux chapitres : Analysesexploratoires des facteurs caractéristiques des requêtes médicales expertes (Chapitre 3), Évaluationdes requêtes cliniques : Modèles sémantiques pour mieux répondre aux questions PICO. (Chapitre4). Enfin, nous concluons le manuscrit et discutons des perspectives de recherche. Nous présentonsle contenu ci-après.— Le Chapitre 1, Recherche d’Information : concepts et modèles, présente les principes

et concepts de base de la RI classique. Nous présentons en particulier dans la section 2 lesnotions et concepts de base en RI de manière générale. Ensuite, nous décrivons le processusgénéral de la RI dans la section 2.2. Nous passons par la suite en revue les modèles de RIles plus représentatifs de l’état de l’art dans la section 3. Les techniques de reformulation derequêtes sont présentées dans la section 4. Puis, nous abordons le protocole d’évaluation ainsique les mesures d’évaluation des performances de la RI dans la section 5.

— Le Chapitre 2, Recherche d’information médicale : principes de base, présente d’unemanière spécifique les fondements et les concepts de la RI médicale. Nous présentons enparticulier dans la section 2 les principes et notions de base de la RI médicale en exposant

12

Page 25: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

les enjeux du domaine ainsi qu’une description de la typologie de l’information médicale etde quelques ressources termino-ontologiques du domaine. Nous donnons dans la section 3une classification du besoin du domaine médical, où nous détaillons la typologie des requêtesmédicales et les caractéristiques de la recherche experte. Les différents techniques et modèlesde la RI médicale sont présentés dans la section 4. Nous présentons les modèles de RI baséssur le paradigme PICO dans la section 5. Nous détaillons ainsi les deux volets de travauxconcernant l’identification des éléments PICO et de leur utilisation en RI. Enfin, la section 6présente les principales campagnes d’évaluation pour la RI médicale et la section 7 donne unaperçu sur les systèmes de RI médicaux.

— Le Chapitre 3, Analyses statistiques exploratoires des requêtes d’experts médicaux,présente nos contributions sur l’analyse des caractéristiques des besoins en information desexperts du domaine médical. Le chapitre commence par les motivations et les questions derecherche posées dans le cadre de cette contribution. La section 3 détaille la formalisation desattributs de requêtes, utilisés pour nos analyses exploratoires. Nous décrivons dans la section4 les données d’analyse. Les résultats des deux principales contributions sont détaillés dansles sections 5 et 6. La section 7 présente une analyse statistique complémentaire conduite surles requêtes PICO.

— Le chapitre 4, Évaluation des requêtes cliniques : Modèles sémantiques pour mieuxrépondre aux questions PICO, nous commençons par présenter les motivations concernantla RI médicale basée sur le paradigme PICO ainsi que les hypothèses de recherche dans lasection 2. La section 3 détaille notre approche de génération de graphes sémantiques. Nousprésentons dans la section 4 nos contributions dans le cadre de l’évaluation des requêtescliniques PICO, structurés en deux sections : la section 4.1 présente l’approche d’expansion derequêtes, la section 4.2 détaille le modèle d’ordonnancement basé sur une agrégation prioritairedes scores de pertinence que nous détaillons dans ce qui suit :— Nous présentons une approche sémantique d’expansion de requêtes médicales PICO.

Nous donnons un aperçu général de notre approche sémantique basée sur un modèle decalcul de pertinence combiné, qui exploite les propriétés sémantiques de la requête etles documents pertinents. Nous présentons par la suite les expérimentations, avec unedescription du cadre expérimental. Les résultats expérimentaux obtenus sont présentéset discutés en utilisant la collection biomédicale dédiée à la médecine basée sur les faits,et les requêtes PICO, appelée CLIREC. Afin de montrer l’efficacité de notre approchede RI, nous comparons nos résultats expérimentaux aux meilleurs résultats obtenus avecun modèle testé sur cette même collection.

— Notre modèle d’appariement sémantique dans le cadre de la RI basée sur le paradigmePICO, qui a pour but d’améliorer la représentation des requêtes PICO et de répondreau mieux à ces questions. Cela comprend un aperçu général de l’architecture du modèleproposé, suivi des différentes approches de calcul de scores proposées : d’une part, le calculde scores de pertinence des documents utilisant une fonction d’agrégation de scores avecl’ordre de priorité des éléments PICO ; d’autre part, le calcul de scores de pertinencepour ordonner les documents basés sur l’approche combinée qui se base sur les termeset les concepts. Les résultats expérimentaux obtenus sont présentés et discutés. Nousprésentons tout d’abord le cadre d’évaluation, puis les résultats des deux contributionsmajeures : l’évaluation de l’impact de la représentation sémantique des requêtes sur la RIet l’évaluation des performances du modèle proposé. Nous terminons par une évaluationcomparative des différentes approches avec les modèles de l’état de l’art.

L’évaluation expérimentale conduite ainsi que les résultats des performances de recherche sont

13

Page 26: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

présentés dans la section 5.Ce manuscrit se termine par une conclusion générale dans la laquelle nous présentons lasynthèse de nos contributions et nous énonçons quelques perspectives de recherche.

14

Page 27: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

4 Publications dans le cadre de la thèse

Articles publiés dans des conférences internationales avec comités de lecture

1. Eya Znaidi, Lynda Tamine, Chiraz Latiri (2015). Aggregating Semantic InformationNuggets for Answering Clinical Queries. Dans : 31st ACM Symposium on AppliedComputing (SAC 2016), Pisa, Italy, April 4-8, 2016.

2. Eya Znaidi, Lynda Tamine, Chiraz Latiri (2015). Answering PICO Clinical Questions : ASemantic Graph-Based Approach. Dans : The 15th Conference on Artificial Intelligencein Medicine (AIME 2015), Pavia, Italy, June 17-20, 2015 (Short paper).

3. Eya Znaidi, Lynda Tamine, Cécile Chouquet, Chiraz Latiri (2013). Characterizinghealth-related information needs of domain experts. Dans : The 14th Conference onArtificial Intelligence in Medicine (AIME 2013) May 29 - June 1, 2013, Murcia, Spain.Artificial Intelligence in Medicine, 48-57.

Articles publiés dans des conférences et ateliers nationaux avec comités de lecture

1. Eya Znaidi, Lynda Tamine, Chiraz Latiri (2016). Répondre à des requêtes cliniquesPICO. COnférence en Recherche d’Information et Applications (CORIA 2016), Tou-louse 08/03/2016-11/03/2016.

2. Eya Znaidi, Lynda Tamine, Cécile Chouquet, Chiraz Latiri (2013). Analyse exploratoiredes requêtes d’experts médicaux : cas des campagnes d’évaluation TREC et CLEF.Dans : 2e édition du Symposium sur l’Ingénierie de l’Information Médicale (SIIM2013), Lille, 1 Juillet 2013.

15

Page 28: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier
Page 29: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Première partie

Recherche d’information et domainemédical : Synthèse des travaux de

l’état de l’art

17

Page 30: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier
Page 31: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Chapitre 1

Recherche d’information : Conceptset modèles

Sommaire1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 Concepts de base de la RI . . . . . . . . . . . . . . . . . . . . . . . . 20

2.1 Fondements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.2 Mise en œuvre d’un SRI . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.2.1 Indexation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.2.2 Interrogation . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3 Taxonomie des modèles de RI . . . . . . . . . . . . . . . . . . . . . . 243.1 Modèle booléen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2 Modèle vectoriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263.3 Modèles probabilistes . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4 Reformulation de la requête . . . . . . . . . . . . . . . . . . . . . . . 294.1 Reformulation par réinjection de la pertinence . . . . . . . . . . . . . 314.2 Reformulation par pseudo-réinjection de la pertinence . . . . . . . . . 32

5 Évaluation des performances en RI . . . . . . . . . . . . . . . . . . . 335.1 Collections de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335.2 Campagnes d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5.2.1 Protocole d’évaluation TREC . . . . . . . . . . . . . . . . . . 345.2.2 Protocole d’évaluation CLEF . . . . . . . . . . . . . . . . . . 35

5.3 Mesures d’évaluation en RI . . . . . . . . . . . . . . . . . . . . . . . . 376 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

19

Page 32: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

1 Introduction

La recherche d’information (RI) traite de la représentation, du stockage, de l’organisation etde l’accès à l’information (Manning et al., 2008). Le but principal de la RI est de permettre àl’utilisateur d’exprimer son besoin en information et de chercher l’information pertinente quirépond à son besoin spécifique. Ce besoin en information est souvent formulé en langage naturelpar une requête décrite par un ensemble de mots clés. Satisfaire un besoin en information setraduit concrètement par la mise en correspondance d’une requête exprimée souvent sousforme de mots-clés, d’une part, et des informations disponibles dans les documents textuelsd’une collection. Ce processus se déroule au sein d’un système de recherche d’informations(SRI).L’essor du web avec la diversité des tâches et des utilisateurs, ainsi que l’évolution exponen-tielle des données, représente plusieurs défis pour l’accès à l’information, à savoir : retrouverl’information pertinente, qui répond au besoin spécifique de l’utilisateur, en tenant comptedu cadre de recherche et du contexte de la tâche de RI. En effet, la difficulté majeureà laquelle sont soumis la plupart des moteurs de recherche provient de deux éléments :l’expression de requêtes non spécifiques qui ne couvrent pas la thématique de rechercheet donc ne retournent pas de documents pertinents, et l’inadéquation de l’appariementrequête-document, provenant essentiellement des modèles sur lesquels se basent les moteursde RI classiques. Ces approches généralistes considèrent le besoin comme une requêtereprésentée principalement par son sujet. Pour pallier ces lacunes, des réflexions ont étémenées dans le but de mieux cerner la notion de pertinence du point de vue de l’utilisateuret d’identifier les différents facteurs ayant un impact sur cette notion (Borlund, 2003).Les études menées dans ce cadre ont montré que la pertinence n’est pas une relationisolée entre un document et une requête ; elle intègre différents facteurs liés à l’utilisateuret son environnement dans le cadre d’une tâche de recherche d’information, à savoir : ladiversité, l’accessibilité et la fraîcheur des résultats de recherche, la crédibilité des auteurs, etc.

Ce premier chapitre est dédié à la représentation des concepts et fondements du domaine dela recherche d’information. En effet, il traite des concepts de base de la RI classique et il estorganisé comme suit : la section 2 présente les notions et les modèles de base de la RI classique,ainsi que la démarche d’évaluation des systèmes de RI. Dans la section 3, nous présentons unetaxonomie des différents modèles de RI. La section 4 détaille les approches de reformulationde requêtes. Nous détaillons dans la section 5 les mesures d’évaluation utilisées dans la RIsuivis d’un aperçu des principales campagnes d’évaluation. La section 6 conclut le chapitre.

2 Concepts de base de la RI

2.1 Fondements

La recherche d’information (RI) est un domaine de recherche qui intègre des modèles et destechniques dont le but est de faciliter l’accès à l’information pertinente pour un utilisateurayant un besoin en information. L’objectif principal de la RI est de trouver l’informationpertinente qui répond et satisfait le besoin en information/requête via un SRI (Systèmede Recherche d’Informaion). Ce dernier permet de retrouver, à partir d’une collection dedocuments, les documents susceptibles d’être pertinents au besoin en information d’unutilisateur.

20

Page 33: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Plusieurs concepts clés s’articulent autour de la définition d’un système de RI, à savoir :

— Besoin en information : cette notion est souvent assimilée au besoin exprimé parl’utilisateur (Bigot, 2013). Afin de déterminer différentes classes de besoins en informationselon un critère de difficulté, l’auteur a identifié des groupes de besoins qualifiés defaciles, moyens, difficiles ou encore très difficiles en se basant sur l’hypothèse que lessystèmes de RI sont plus ou moins performants selon la difficulté des besoins traités.Par ailleurs, (Cutrell et Guan, 2007) ont classé les besoins utilisateurs selon la recherchenavigationnelle ou exploratoire.

— Une requête : il s’agit de l’expression d’un besoin en information par l’utilisateur.C’est un ensemble de mots clés, termes ou expression, exprimés en langage naturel, quel’utilisateur soumet aux moteurs de recherche afin de récupérer les documents ciblés. Pourla recherche documentaire ad hoc, l’utilisateur spécifie son besoin en information par unerequête qui déclenche la recherche (exécutée par un SRI) des documents pertinents.

— Collection de documents : la collection de documents (ou corpus) constitue l’ensembledes informations (des documents) exploitables et accessibles. Nous utiliserons dans lasuite du manuscrit les termes : corpus ou collection.

— Un document : un document est souvent assimilé à une pièce écrite, servant d’informa-tion ou de preuve. C’est un support qui contient des informations qui peuvent être hété-rogènes au niveau de la forme et du contenu. Le contenu peut être du texte, graphique,image, son, vidéo, références, liens hypertextes, etc. Quant à la forme, les documentspeuvent être structurés, semi-structurés ou non structurés. Les méta-données peuvent ap-porter des informations supplémentaires aux documents décrivant son contexte, commepar exemple date de rédaction, support de publication, etc.

— La pertinence : les chercheurs et les concepteurs de SRI ont distingué deux types depertinence, à savoir : la pertinence système, c’est-à-dire l’évaluation par un systèmede l’adéquation entre des documents et une requête, et la pertinence utilisateur qui setraduit par des jugements de pertinence sur les documents fournis en réponse à unerequête. Dans (Mizzaro, 1997), l’auteur met en évidence la complexité et la diversitédes types de pertinence. Il définit la pertinence de manière générale comme une relationentre deux entités, l’une étant liée à la collection de documents et l’autre à l’utilisateur.Il distingue ainsi trois dimensions : (1) le contexte qui comprend par exemple lesdocuments déjà connus de l’utilisateur (et qui ne seront donc pas pertinents pour lui)ou le temps voire l’argent alloué pour la recherche, (2) la tâche qui représente l’activitéque l’utilisateur va réaliser avec les documents retrouvés ; et (3) le domaine du sujet,le champ disciplinaire auquel l’utilisateur se rapporte.

Par ailleurs, une définition de la pertinence donnée par (Boughanem et Savoy, 2008),consiste en la correspondance entre un document et une requête, ou encore la mesured’informativité du document par rapport à la requête.

Nous abordons dans la suite de cette section le processus général d’un système de RI avec lesdifférentes étapes de sa mise en œuvre. Nous passons ensuite en revue les principaux modèlesde RI et nous présentons le processus de reformulation de requêtes. Nous décrivons enfin ladémarche classique d’évaluation des systèmes de RI classique.

21

Page 34: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

2.2 Mise en œuvre d’un SRI

Un système de recherche d’information (SRI) permet d’automatiser la tâche de RI. L’objectifd’un SRI est de retourner un ensemble de documents, en réponse au besoin en informationde l’utilisateur, traduit par la requête qu’il a soumis. L’enjeu est de trouver et retournerl’information pertinente qui satisfait le besoin en information. Pour cela, un SRI emploie unprocessus bien défini pour identifier les documents pertinents, à partir d’une collection, enréponse à un besoin en information spécifique.

Ce processus est composé de trois fonctions principales, à savoir : (1) l’indexation des docu-ments et des requêtes ; (2) l’appariement requête-document, qui permet de comparer la requêteet le document ; (3) et la fonction de modification, qui intervient en réponse aux résultats ob-tenus. Les modifications éventuelles concernent les documents (ajout ou suppression éventuelsde la collection documentaire) ou la requête sachant que les plus courantes concernent la re-quête seulement, appelée : reformulation de la requête ou encore expansion de requête.Dans ce qui suit, nous introduisons dans un premier temps les éléments de base de la mise enoeuvre du système de RI, à savoir l’indexation et l’interrogation.

2.2.1 Indexation

L’objectif principal de cette étape est de fournir des représentations des documents et desrequêtes facilement exploitables par le système dans la phase de recherche. Cette représen-tation est souvent une liste pondérée de mots-clés significatifs que l’on nomme descripteursdu document (ou de la requête). Dès lors, l’indexation consiste à détecter les termes les plusreprésentatifs, i.e., discriminants, du contenu du document.

Le processus d’indexation est constitué de trois étapes principales, à savoir : (1) définir lasource de données, (2) transformer le contenu du document pour générer un aperçu ou uneapproche logique ; et (3) construire l’index selon cette approche. La tâche d’indexation re-couvre un ensemble de techniques visant à transformer les documents pour faciliter l’accès àl’information textuelle. Plus spécifiquement, le but principal de cette étape est de fournir desreprésentations des documents et des requêtes facilement exploitables par le système dans laphase de recherche. L’indexation peut être manuelle, semi-automatique ou automatique. Elleest définie comme suit :— Indexation manuelle : C’est un spécialiste ou un documentaliste qui analyse le docu-

ment et sélectionne par la suite les termes qu’il juge représentatifs. L’indexation manuellefournit une terminologie spécifique pour indexer et rechercher les documents, garantissantainsi une meilleure représentation des documents et une meilleure qualité des résultats.Ce type d’indexation permet d’avoir un vocabulaire d’index contrôlé, ce qui permet d’ac-croître la consistance et la qualité de la représentation obtenue.

— Indexation automatique : C’est la forme la plus répandue d’indexation utilisée parla plupart des SRI. Le processus consiste en la production automatique des descripteurs(termes d’index) d’un texte. Dans le cas des documents textuels, chaque terme est unélément potentiel de l’index du document qui le contient. Il est identifié selon un processusstandard intégrant l’extraction, la suppression des mots vides, la normalisation et lapondératio (Pirkola et Järvelin, 2001).

— Indexation semi-automatique : Elle se base sur l’indexation automatique. Toutefois,une intervention humaine peut être réalisée afin d’effectuer des choix sur les termes

22

Page 35: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

significatifs, dans le but de valider la représentation finale des descripteurs. Ces choixsont souvent réalisés en utilisant un thésaurus ou une base terminologique qui est uneliste organisée de descripteurs (mots-clés) liés à des règles terminologiques propres etreliés entre eux par des relations sémantiques.

D’une manière générale, l’indexation comprend un certain nombre de traitements qui sontappliqués sur les documents et les requêtes. On distingue : l’extraction des mots, l’élimina-tion des mots vides de sens, la lemmatisation et la pondération. À la fin de cette étape, lesdocuments sont représentés dans des fichiers index qui stockent la cartographie des couplesterme-document en y associant un poids. La formule de pondération la plus utilisée est cellebasée sur la fréquence des termes dans les documents, appelée tf − idf (Salton et McGill,1986). Ces facteurs permettent de combiner les pondérations locales (dans le document) etglobales (dans la collection) d’un terme.La mesure tf − idf est donnée par la multiplication des deux mesures TF et IDF comme suit :

tf-idf = log(1 + tf) ∗ idf (1.1)

Les mesures tf et idf sont définies comme suit :1. tf (Term Frequency) : Cette mesure est proportionnelle au nombre d’occurrences d’un

terme dans un document (pondération locale). Toutefois, il existe différentes variantesde cette mesure qui dépendent de la façon dont la pertinence est mesurée.

tf1ij = 1 + log(tdij)

tf2ij = tdij∑

k tdkj

(1.2)

où tdij est le nombre d’occurrences du terme ti dans le document dj . Le dénominateurest la taille du document df en nombre de termes. La dernière déclinaison permet denormaliser la fréquence du terme pour éviter les biais liés à la longueur du document.

2. idf (Inverse Document Frequency) : ce facteur mesure l’inverse de la fréquence d’unterme dans toute la collection, définie comme la pondération globale. En effet, un termefréquent dans la collection, a moins d’importance qu’un terme moins fréquent. Cettemesure est exprimée selon l’une des déclinaisons suivantes :

idf1t = log

N

nt, idft

idf2t = log(N − nt

nt)

(1.3)

où N est la taille (nombre de documents) de la collection et nt le nombre de documentscontenant le terme ti.

2.2.2 Interrogation

L’interrogation est le processus qui consiste à soumettre une requête par l’utilisateur au SRIcomme l’illustre la Figure 1.1. C’est l’interaction entre l’utilisateur et le SRI qui comprendtrois phases, à savoir : (1) l’utilisateur formule son besoin en information par la requête qu’il

23

Page 36: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Figure 1.1 – Processus en U de la RI.

soumet au système ; (2) la requête est représentée selon un langage d’indexation défini ; et (3)la correspondance entre la requête et les documents est effectuée par exploitation de l’index.Plus précisément, l’interrogation décrit le scénario suivant : l’utilisateur exprime son besoinen information sous la forme d’une requête. Le système interprète la requête et crée son indexqui sera compatible avec le modèle d’index des documents. Le système évalue ensuite lapertinence des documents par rapport à cette requête en utilisant une fonction de correspon-dance. C’est l’appariement requête-document qui permet d’associer à chaque document unevaleur de pertinence vis à vis d’une requête. Plus concrètement, c’est un poids de pertinencecalculé, reflétant le degré de similarité entre la requête et le document, noté RSV (q, d), oùq représente la requête de l’utilisateur et d le document considéré. Le résultat est une listede documents (pondérés ou non), généralement triée par ordre de valeur de correspondancedécroissante, du plus pertinent au moins pertinent. L’ensemble de documents renvoyés parle système est ensuite jugé par l’utilisateur selon son besoin, la satisfaction et le contexte derecherche.

Pour le mécanisme d’appariement document-requête, il est indispensable d’utiliser un modèlequi assure le calcul du degré de pertinence des documents pour les requêtes. Dans la sectionqui suit, nous décrivons les principaux modèles de RI.

3 Taxonomie des modèles de RI

Un modèle de recherche d’information est au cœur d’un SRI. Il est composé des représenta-tions des documents, des représentations des requêtes d’un utilisateur, et d’une fonction decorrespondance entre ces deux éléments. Les modèles de RI fournissent un cadre pour inter-préter la notion de pertinence vis-à-vis d’un besoin en information. Appelés aussi modèlesd’appariement document-requête, ils peuvent être classés en trois catégories principales, à sa-voir : modèles booléens, modèles vectoriels et modèles probabilistes. La Figure 1.2 présente

24

Page 37: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

une classification des différents modèles de RI, proposée dans (Baeza-Yates et al., 1999). Nousdistinguons les modèles suivants :

— Les modèles booléens (Salton, 1969) sont fondés sur la théorie des ensembles et l’algèbrede Boole pour modéliser l’appariement document-requête. Son principe est simple, etrepose sur trois éléments : (1) des requêtes exprimées en expressions booléennes, (2) unenotion de pertinence ; et (3) de poids binaires (présence/absence). Il existe trois variationsprincipales : le modèle booléen classique, le modèle booléen étendu et le modèle booléenflou.

— Les modèles vectoriels (Salton et al., 1975) reposent sur une représentation vectorielle desdocuments et des requêtes. Il revient sur les limites du modèle booléen en proposant, à ladifférence des poids binaires, un poids positif de chaque terme pour les documents et lesrequêtes. Ils comprennent le modèle vectoriel généralisé, le modèle LSI (Latent SemanticIndexing) et le modèle connexionniste.

— Les modèles probabilistes (Maron et Kuhns, 1960; Robertson et Sparck Jones, 1988; Saltonet McGill, 1986) ont été adoptés pour modéliser le degré de pertinence. D’une manièregénérale, ils calculent la probabilité qu’un document soit pertinent pour une requêtedonnée. Ils englobent le modèle de langue, le modèle probabiliste général et le modèle deréseau inférentiel (Document Network).

Figure 1.2 – Taxonomie des modèles en RI (Baeza-Yates et Ribeiro-Neto, 2011).

Nous détaillons dans ce qui suit ces différents modèles, en mettant l’accent sur les techniquesutilisées par la communauté RI.

3.1 Modèle booléen

Le modèle booléen a été introduit par (Salton, 1969). C’est le premier modèle utilisé, et ilest considéré le plus simple des modèles du domaine de la RI. Un modèle booléen est baséprincipalement sur la théorie des ensembles et l’algèbre de Boole, où les termes de requêtes

25

Page 38: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

sont soit présents, soit absents (poids binaire des termes 0 ou 1), et un document est soitpertinent, soit non pertinent (pertinence binaire, jamais partielle).

La spécificité du modèle booléen est que la requête s’exprime avec des opérateurs logiques"AND", "OR", "NOT" et le document est pertinent si et seulement si son contenu respecte laformule logique demandée. Le score de chaque document sera ainsi représenté respectivementpar 0 ou 1 selon la fonction booléenne RSV qui calcule la similarité entre la requête q etle document d. Un document d est représenté par un ensemble de termes comme suit : d =t1 ∧ t2 ∧ t3... ∧ tn ; une requête q est représentée par une expression logique de termes commesuit : q = (t1 ∧ t2) ∨ (t3 ∧ t4). La fonction de correspondance est basée sur l’hypothèse deprésence/absence des termes de la requête dans le document et vérifie si l’index de chaquedocument d implique l’expression logique de la requête q. Le résultat de cette fonction, décritecomme RSV (q, d) est binaire (0 ou 1), soit :

— RSV (d, ti) = 1 si ti ∈ d; 0 sinon— RSV (d, q1 ∧ q2) = 1 si RSV (d, q1) = 1 ∧RSV (d, q2) = 1; 0 sinon— RSV (d, q1 ∨ q2) = 1 si RSV (d, q1) = 1 ∨RSV (d, q2) = 1; 0 sinon— RSV (d,¬q) = 1 si RSV (d, q) = 0; 1 sinon

3.2 Modèle vectoriel

Le modèle vectoriel a été introduit par (Salton et al., 1975), représentant les modèles al-gébriques/statistiques, qui se basent sur un aspect quantitatif des termes et des documentsavec un degré de similarité entre une requête et un document. Tout modèle vectoriel est basésur l’hypothèse suivante : plus deux représentations contiennent les mêmes éléments, plus laprobabilité qu’elles représentent la même information est élevée. Documents et requêtes sontreprésentés ainsi par un vecteur tel que :

— Les coordonnées du vecteur sont exprimées dans un espace euclidien à n dimensions (nest le nombre de termes) ;

— La longueur du vecteur (i.e. de sa projection sur chacun des axes/termes) est propor-tionnelle au poids des termes ;

— La pertinence du document correspond au degré de similarité entre le vecteur de larequête et celui du document.

Ce modèle représente les documents et les requêtes dans l’espace vectoriel des termes del’index, comme illustré dans la Figure 1.3 qui considère un index de deux termes.Le coefficient de similarité (i.e., RSV) est calculé entre chaque document et chaque requêteafin de trouver les documents dont le vecteur de représentation est le plus colinéaire avec levecteur de la requête. La corrélation de deux vecteurs document-requête, qui représente lamesure de similarité entre les vecteurs de q et de d, peut être calculé par :

— Produit scalaire :

RSV (−→q ,−→dj ) = cos(−→q ,−→dj ) (1.4)

— Mesure Cosinus :

26

Page 39: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Figure 1.3 – Représentation algébrique des documents et des requêtes dans l’espace des termes àdeux dimensions.

RSV (−→q ,−→dj )) =−→q · −→dj∣∣∣−→q ∣∣∣ ∗ ∣∣∣−→dj

∣∣∣ (1.5)

où∣∣∣−→x ∣∣∣ représente la norme euclidienne du vecteur −→x .

— La mesure de Jaccard :

RSV (q, dj) = |q ∩ dj||q ∪ dj|

(1.6)

où |q ∩ dj| correspond au nombre de termes présents à la fois dans la requête q et ledocument dj , tandis que |q∪dj| représente le nombre de termes contenus dans la requêteq ou le document d.

— La mesure de Dice :RSV (q, dj) = 2 ∗ |q ∩ dj|

|q|+ |dj|(1.7)

où |dj| et |q| désignent le nombre de termes dans le document dj et dans la requête q,respectivement.

Les avantages principaux du modèle vectoriel sont les suivants : tout d’abord, la pondérationnon binaire des termes favorise une meilleure qualité des résultats. De plus, le modèle per-met une correspondance partielle ou approximative entre les documents et les requêtes (bestmatch). Les documents sont triés selon leur degré de similarité vis-à-vis de la requête. Lalongueur des documents est traitée naturellement dans l’appariement, car elle est considéréedans le calcul des poids des termes.

3.3 Modèles probabilistes

Les modèles probabilistes ont été proposés par (Robertson, 1997), basés principalement sur lesprobabilités. Ils permettent la modélisation de la notion de pertinence, en estimant la probabi-lité de pertinence d’un document par rapport à une requête. L’idée de base est de sélectionnerles documents ayant à la fois une forte probabilité d’être pertinents et une faible probabilité

27

Page 40: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

d’être non pertinents. Autres modèles de type probabiliste sont ceux fondés sur les réseauxbayésiens et le modèle de langue. La mesure de similarité document/requête est fondée sur uneestimation de probabilité. Différentes approches de calcul de probabilités ont été introduitesdans le domaine de la RI, afin d’optimiser les performances de recherche (Robertson, 1997;Song et Croft, 1999), nous citons les approches suivantes :

1. Approche par modèle classique : à partir d’un document et d’une requête, on déterminela probabilité d’avoir l’évènement "le document est pertinent pour la requête".

2. Approche par réseau d’inférence : à partir du contenu d’un document, on détermine laprobabilité pour que la requête soit vraie.

3. Approche par modèle de langue : déterminer la probabilité pour qu’une requête soit gé-nérée à partir d’un document.

Ainsi, on modélise la pertinence comme un évènement probabiliste : pour une requête donnéeq, il s’agit d’estimer P (q|d) la probabilité qu’on obtienne une information pertinente par ledocument d. On peut estimer de la même façon P (NR|d) la probabilité de non pertinencede d. On retourne le document d si P (R|d) > P (NR|d). D’après le théorème de Bayes, laprobabilité que le document d soit pertinent pour la requête q est donnée par :

P (R, d|q) ∝∏t∈q

P (R, d|t) (1.8)

ou P (R, d|t) est la probabilité que le document d soit pertinent en observant le terme t. Plusen détail, cette formule peut être représentée comme suit :

P (R, d|t) = P (t, d|R) ∗ P (R)P (t) (1.9)

Le modèle probabiliste est représenté par deux modèles phares, à savoir : modèle de langue(2poisson) et modèle BM25 (Okapi) détaillés ci dessous.

— Modèle de pondération BM25 : le schéma de pondération est la fonction d’apparie-ment document-requête du modèle BM25 1 (Robertson et al., 1996) est un des modèlesles plus performants en RI. Le calcul du poids d’un terme dans un document intègredifférents aspects relatifs à la fréquence locale des termes (tfi), leur rareté et la longueurdes documents. Il est calculé comme suit :

xi = (k1 + 1) ∗ tfik1 ∗ (1− b+ b ∗ dl

avgdl ) + tfi(1.10)

avec dl la taille du document dj , avgdl est la moyenne des tailles des documents dans lacollection ; et k1, b sont des paramètres qui déterminent l’importance de la fréquence duterme dans le document et dans la requête.

— Modèle de langue : le modèle de langue pour la RI repose sur l’idée que l’utilisateurlorsqu’il formule sa requête a une idée du document idéal qu’il souhaite trouver et quela requête est formulée pour trouver ce document idéal (Maron et Kuhns, 1960). Cetteidée a été formulée depuis les années 60 dans les premiers travaux des RI probabilistes,et un des premiers modèles de langues en RI a été proposé par (Ponte et Croft, 1998).L’idée des modèles de langue est de capter les régularités linguistiques d’une langue,

1. Best Match

28

Page 41: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

proposant un modèle probabiliste qui assigne une probabilité à toute séquence de mots.Plus précisément, ces modèles visent à déterminer la probabilité que la requête q soitgénérée par le modèle de langue Md du document d. Le principe est d’ordonner chaquedocument d de la collection C suivant leur capacité à générer la requête q. Ainsi, il s’agitd’estimer la probabilité de génération P (q|d) comme suit :

P (q|d) =∏t∈q

P (t|Θd)c(t;q) (1.11)

où c(t; q) est la fréquence du terme t dans la requête q, et Θd est le modèle de langue dudocument.Les modèles de langue se différencient par le type de distribution probabiliste où on observela présence ou l’absence des termes dans les documents ou les requêtes.

4 Reformulation de la requête

La reformulation du besoin en information consiste à redéfinir le besoin de l’utilisateur au furet à mesure de la session de recherche. Cette étape peut être effectuée de différentes manières :— Manuellement, dans le cas où l’utilisateur soumet lui-même une nouvelle requête.— De façon automatique, lorsque le système de RI s’appuie sur les termes importants dans

les documents les plus pertinents ou visités par l’utilisateur, qui sont réutilisés.L’approche automatique suppose que l’utilisateur soumet une requête au SRI afin derécupérer les documents pertinents, sinon cette requête devrait être ré-écrite ou reformuléeafin de récupérer plus de documents pertinents. La Figure 1.4 donne un aperçu du principede la reformulation de requête dans le cadre d’un SRI.

La reformulation de requête est un processus qui a pour objectif de générer une nouvellerequête plus adéquate afin d’obtenir un ensemble de résultats plus pertinents, à partir deconnaissances du domaine cible, en utilisant les concepts clés contenus dans les documents.La requête initiale est formulée par l’utilisateur, sa modification peut se faire soit par réin-jection de pertinence (relevance feedback) (Salton et Buckley, 1997), soit par expansionde requêtes (query expansion) (Efthimiadis, 1996).

La reformulation de la requête se fait en deux étapes principales, à savoir : (i) trouver destermes d’extension à la requête initiale, et (ii) re-pondérer les termes dans la nouvelle requête.

Le principe fondamental de la stratégie d’expansion de requête est de comparer simplementle contenu de la requête avec les documents de la collection. L’ensemble des documentspertinents restitué est alors très souvent incomplet. Des travaux de recherche ont proposéd’ajouter d’autres termes contenus dans les documents pertinents ou d’ajouter des termessémantiquement proches ou encore d’ajouter des termes voisins en utilisant des calculsde poids de similarité entre termes. Différentes méthodes d’expansion de requêtes ont étéproposées dans la littérature (Xu et Croft, 1996; Adriani et Rijsbergen, 1999; Baziz et al.,2003; Latiri et al., 2012; Carpineto et Romano, 2012; Nawab et al., 2016). L’objectif de cesméthodes d’expansion est d’augmenter le nombre de documents pertinents retrouvés ainsique d’améliorer le classement des documents les plus pertinents.

29

Page 42: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Figure 1.4 – Aperçu du processus de la reformulation de requête.

Dans le cadre de la RI, la barrière de la non compatibilité entre les termes des documents ettermes des requêtes, connu aussi par "term mismatch" représente un obstacle pour retournerdes résultats. Cela est connu comme étant le problème de vocabulaire (Furnas et al., 1987),amplifié par les synonymes (mots différents avec le même sens comme "java"), la polysémie(différents termes avec le même sens, comme "tv" et "télévision"). Les synonymes avec lesinflexions de mots (comme pour les formes au pluriel "télévision" et "télévisions"), peutentrainer un échec pour récupérer les documents pertinents, avec une diminution du rappel(la capacité du système à retourner tous les documents pertinents en réponse à la requête).Par ailleurs, la polysémie est à l’origine de la récupération de documents erronés et nonpertinents, ce qui implique une baisse dans la précision des résultats (la capacité de retourneruniquement les documents pertinents).

Pour faire face au problème de vocabulaire, plusieurs approches on été proposées, y comprisles raffinements interactifs de requêtes, la reformulation de requêtes par réinjection de lapertinence, la désambiguisation des sens de mots et le clustering des résultats de recherche.Une des approches les plus naturelles et ayant du succès, est la technique d’expansion/dereformulation des requêtes initiales avec d’autres termes qui représentent au mieux l’intentiondes utilisateurs, ou simplement produire une requête plus utile et plus susceptible de récupérerdes documents pertinents.

Durant la dernière décennie, un grand nombre de techniques d’expansion automatique derequêtes a été présenté en utilisant une variété d’approches qui se basent sur plusieurs sourcesde données et utilisent des méthodes sophistiquées pour trouver de nouvelles fonctionnalitésen corrélation avec les termes de la requête (Mitra et al., 1998; Carpineto et al., 2002; Liuet al., 2004; Lee et al., 2008; Latiri et al., 2012). Ces contributions ont montré à travers lesétudes expérimentales que les résultats de l’expansion automatique de la requête permettent

30

Page 43: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

de donner des résultats plus pertinents avec des améliorations de 10% et plus.

Dans (Carpineto et Romano, 2012), les auteurs ont conduit une large étude comparativedes approches qui concernent l’expansion automatique des requêtes. Ils ont montré quemalgré la persistance du problème de vocabulaire dans certains travaux, l’expansion au-tomatique de requêtes a le potentiel de surmonter le problème majeur des SRI, à savoir :la difficulté à fournir aux utilisateurs une description plus précise de leur besoin en information.

Dans (Huang et Efthimiadis, 2009), les auteurs ont analysé et évalué différentes stratégies dereformulation de requêtes à partir des fichiers logs du web. De cette analyse, ils ont concluque les différentes stratégies de reformualtion ont différentes caractéristiques, et que ceux quisemblent les plus effectives sont ajout/suppression de mots, substitution de mots, expansionavec acronymes et la correction orthographique.D’autres travaux se sont intéressés à l’expansion sémantique des requêtes, en vue de pallierle problème de dérive sémantique, i.e., semantic mismatch, (Packer et al., 2012; Curé et al.,2013). En effet, ils considèrent que les termes d’expansion qui ont une liaison sémantique avecles termes initiaux de la requête rajoutent plus de spécificité au contexte de la recherche et amé-liore donc la pertinence des résultats. Différents domaines ont adopté l’expansion sémantique,comme la RI sociale, la RI biomédicale, etc. Ils utilisent les concepts issus des terminologies etdes thésaurus ou encore les relations sémantiques entre les termes ou concepts afin de mieuxreprésenter le thème, i.e., le topic, de la requête.Par ailleurs, la reformulation par retour de pertinence propose de formuler la requête initialepour amorcer la recherche d’information, puis la modifier d’une manière itérative à partir desjugements de pertinence et/ou de non-pertinence de l’utilisateur afin d’ajuster la requête parexpansion, re-pondération ou combinaison des deux procédures, jusqu’à ce que le résultat dela recherche soit satisfaisant.Dans (Carpineto et Romano, 2012), les auteurs ont donné une classification des approcheset techniques d’expansion automatique de requêtes en cinq groupes selon le paradigmeconceptuel utilisé pour trouver les propriétés d’expansion, à savoir : méthodes linguistiques,approches statistiques spécifiques au contexte, approches statistiques spécifiques aux requêtes,analyse des fichiers de log et les données du web.

Nous détaillons dans ce qui suit deux principales techniques de reformulation de la requête,à savoir : (1) reformulation par réinjection de la pertinence (relevance feedback), (2) refor-mulation par pseudo-réinjection de la pertinence (pseudo-relevance feedback ou blind queryexpansion) (Rocchio, 1971).

4.1 Reformulation par réinjection de la pertinence

La réinjection de la pertinence est une technique utilisée pour améliorer la performance dela RI (Rocchio, 1971; Salton et Buckley, 1997). Au cours de ce processus, l’utilisateur utiliseune requête initiale, puis fournit un retour sur la pertinence des documents. Les termes deces documents (jugés pertinents) sont donc ajoutés à la requête initiale. La reformulation parréinjection de la pertinence est une technique qui vise à améliorer la qualité de recherchelorsque la seule évaluation de la similarité entre les requêtes et les documents n’est plussuffisante. Le principe de la reformulation par réinjection de pertinence se résume en quatreétapes principales, à savoir :

31

Page 44: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

1. Les utilisateurs effectuent une première requête ;

2. Des documents sont retournés en fonction de cette première interrogation ;

3. Les utilisateurs doivent ensuite indiquer parmi les documents retournés, lesquels sontpertinents, et/ou lesquels ne le sont pas ;

4. La requête de départ est alors modifiée automatiquement pour tenir compte des juge-ments des utilisateurs.

La méthode de la réinjection de la pertinence a été utilisée dans différents domaines de re-cherche, integrée dans des SRI (Kwan et al., 2015), utilisée dans le cadre de la RI d’image(Duan et al., 2016) ou encore pour la recherche de vidéos (Fernandez-Beltran et Pla, 2016). Cestravaux ont montré une amélioration de performance en utilisant cette méthode par rapportaux techniques standards de recherche.

4.2 Reformulation par pseudo-réinjection de la pertinence

La reformulation par pseudo-réinjection de la pertinence (Blind Feedback ou encore PseudoRelevance Feedback, notée PRF) utilise des techniques de réinjection automatique à l’aveuglepour construire la nouvelle requête. L’idée de base de la PRF est basée sur l’hypothèse que lespremiers documents pertinents contiennent de nombreux termes utiles qui aident à distinguerles documents pertinents des non pertinents. En général, les termes d’expansion sont extraitssoit selon leur distribution dans les documents retournés, ou selon la comparaison entre la dis-tribution de termes dans les documents retournés et l’ensemble de documents de la collection.Plusieurs autres critères ont été proposés par exemple idf (Rocchio, 1971). De plus, la PRFest une technique courament utilisée pour faire face à l’explosion de l’information sur le webafin d’améliorer la performance de recherche (Buckley et al., 1992; Yu et al., 2003).L’utilisation de Pseudo-Relevance Feedback a fait l’objet d’un grand nombre d’études depuisplusieurs décennies et beaucoup de modèles ont été proposés dans ce cadre (Thesprasithet Jaruskulchai, 2014; Min et al., 2010; Hammache et al., 2013). À titre d’exemple, dans(Hammache et al., 2013), les auteurs additionnent les poids des relations d’un terme candidatavec chacun des termes de la requête pour déterminer les termes d’expansion. Les termescandidats sont choisis s’ils sont fortement en relation avec les termes de la requête. Ils ontintégré cette technique dans le cadre de modèle de langue. Dans le même cadre du modèlede langue, dans une étude plus récente (Hazimeh et Zhai, 2015), les auteurs procèdent à uneanalyse des méthodes de lissage dans les modèles de langue pour la PRF. Par ailleurs, (Li etWang, 2012) a utilisé la technique de PRF pour estimer la difficulté des requêtes permettantd’estimer la performance de la recherche pour les requêtes de recherche d’images. Le Tableau1.1 montre quelques fonctions de classement de termes basées sur la distribution des termesdans les documents de pseudo-réinjection de la pertinence.La notation dans le Tableau 1.1 est comme suit :

— t est un terme ;

— w(t, d) indique le poids du terme t dans le document de pseudo-réinjection de pertinenced ;

— p(t|R) et p(t|C) représentent respectivement la probabilité d’occurrence du terme t dansles documents de la pseudo-réinjection de pertinence R ainsi que dans toute la collectionde documents C

32

Page 45: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Référence Fonction Forme mathématique(Rocchio, 1971) Poids de Rocchio

∑d∈R w(t, d)

(Robertson et Sparck Jones, 1988) Modèle Indépendant Binaire log p(t|R)[1−p(t|C)]p(t|C)[1−p(t|R)]

(Doszkocs, 1979) Chi-square [p(t|R)−p(t|C)]2p(t|C)

(Robertson, 1991) Robertson selection value (RSV)∑dw(t, d).[p(t|R)− p(t|C)]

(Carpineto et al., 2001) Kullback-Leibler distance (KLD) p(t|R).log p(t|R)p(t|C)

Tableau 1.1 – Fonctions principales de classement de termes basés sur l’analyse des distributionsdes termes dans les documents de pseudo-réinjection de pertinence (Carpineto et Romano, 2012).

5 Évaluation des performances en RI

L’évaluation est un processus primordial pour toutes les tâches de recherche d’informationafin d’estimer leur performance. C’est une stratégie qui permet d’étudier les systèmes de RIet d’identifier l’impact des méthodes et techniques employées dans les approches de recherche.Un but d’un SRI est de satisfaire au mieux le besoin en information des utilisateurs, enretournant les documents pertinents. De ce fait, la qualité des résultats par rapport au besoinexprimé par l’utilisateur ainsi que la capacité du système à retourner ces résultats d’unemanière optimale en temps et avec facilité représentent les principaux facteurs pour évaluerun SRI (Heuwing et Mandl, 2007).

Dans cette section, nous présentons le cadre d’évaluation d’un système de RI ainsi que lesmesures d’évaluation sous-jacentes.

5.1 Collections de test

Les collections de test permettent de comparer directement des résultats obtenus par dessystèmes en utilisant des modèles différents. Nous détaillons ci-dessous différents éléments deces collections.— Les requêtes sont un ensemble de besoins en information utilisés pour le test. Cet

ensemble est appelé également topics dans le jargon des campagnes d’évaluation tellesque TREC, CLEF, etc. Le nombre de requêtes doit être important afin d’être le plusreprésentatif possible de la réalité et pour avoir une évaluation objective. Il faut au moins25 requêtes pour garantir la qualité de l’évaluation au regard de la statistique (Buckleyet Voorhees, 2000). Les requêtes sont souvent créées par les assesseurs des organismes quiorganisent l’évaluation. Toutefois, elles peuvent être de vraies requêtes extraites à partirdes logs des moteurs de recherche (Baeza-Yates et al., 1999).

— Le corpus de documents est l’ensemble de documents pré-sélectionnés. Il existe plu-sieurs corpus disponibles. Ces corpus diffèrent selon plusieurs critères en fonction de latâche de recherche que l’on veut évaluer, des documents plus ou moins généraux, plus oumoins spécialisés dans un domaine, exprimés dans une ou plusieurs langues, etc.

— Les jugements de pertinence identifient les documents pertinents pour une requête etreprésentent la vérité du terrain. Un score de pertinence graduel peut éventuellement êtreassocié à chaque couple document/requête. La réalisation de ces jugements est loin d’êtreune tâche facile. Il s’agit d’un processus long et coûteux impliquant des humains. Pour depetites collections comme celle de Cranfield (Cleverdon, 1991), il existe des jugements de

33

Page 46: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

pertinence exhaustifs pour chaque paire requête-documents. Cependant, pour les grandescollections modernes, les jugements ne se font généralement que pour un sous-ensembledes documents pour chaque requête.

Ces éléments constituent le contexte de l’évaluation, en d’autres termes, ils représententles éléments principaux qui vont servir à évaluer un modèle de RI. Ce cadre d’évaluationcorrespond au paradigme de Cranfield (Cleverdon, 1997) qui a suscité la mise en place deplusieurs campagnes d’évaluation. Ces dernières permettent de cibler une tâche particulièreet d’évaluer l’efficacité des SRI répondant à cette tâche.

5.2 Campagnes d’évaluation

Les campagnes d’évaluation les plus réputées sont :1. La campagne TREC 2 (Text REtrieval Conference) est une campagne de référence en RI

permettant d’évaluer des SRI au regard de la dimension thématique. C’est le protocolele plus utilisé pour évaluer les performances de la RI, fournissant plusieurs collections detest. Initiée en 1992 comme une partie du programme TIPSTER, la campagne TRECest un projet du NIST 3 et la DARPA 4.

2. La campagne CLEF 5(Conference and Labs of the Evaluation Forum) est une initiativepermettant de promouvoir la recherche d’information multilingue basée sur les langueseuropéennes. Nous trouvons plus de détails sur l’évaluation à base de différentes collec-tions de test dans (Clough et Sanderson, 2013).

3. La campagne INEX (Initiative for the Evaluation of XML Retrieval) oriente ses tâchesde recherche vers des collections de documents structurés.

4. Le projet NTCIR 6 a développé diverses collections de test de tailles similaires aux col-lections de TREC, en se concentrant sur les langues d’Asie de l’Est et la recherche d’in-formation multilingue. Les requêtes sont faites dans une langue, toutefois, les collectionsde documents contiennent des documents dans une ou plusieurs autres langues.

Nous détaillons dans ce suit les deux campagnes les plus populaires TREC et CLEF ainsi quequelques tâches associées.

5.2.1 Protocole d’évaluation TREC

Les différentes méthodes et mesures d’évaluation sont le cœur des campagnes d’évaluationTREC (Text REtrieval Conference) (Voorhees, 2005). TREC vise à fournir une plate-formecommune pour évaluer les systèmes de recherche d’information en développant des collectionsde test. Comme présenté ci-dessus une collection de test est constituée d’un corpus dedocuments, un ensemble de requêtes et un ensemble de jugement de pertinence fournis pardes utilisateurs experts. Le corpus de documents et les requêtes associées sont mises à ladisposition des différentes équipes participant au TREC.

2. http ://trec.nist.gov3. National Institute of Standards and Technology4. Defence Advanced Research Projects Agency5. http ://www.clef-initiative.eu/6. http ://research.nii.ac.jp/ntcir/ntcir-12/tasks.html

34

Page 47: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Les équipes utilisent les méthodes de recherche qu’ils ont développé pour exécuter les requêteset soumettre les résultats aux organisateurs, sous forme d’une liste ordonnée de documents.Ces derniers évaluent donc les soumissions de chacune des équipes selon les jugements depertinence.TREC traite plusieurs domaines et concerne les documents des collections de blogs (Ouniset al., 2006), de vidéos (Smeaton et al., 2006), de tweets (LaRock et al., 2014) et la RIbiomédicale dans le cadre de TREC Genomics (Hersh et Voorhees, 2009).L’évaluation de performance des résultats renvoyés par les différentes approches de RI estprincipalement basée sur le modèle de Cranfield (Voorhees, 2002). Cette approche d’évalua-tion est basée sur l’hypothèse que chaque document de la collection est jugé pertinent ounon-pertinent pour chaque requête à évaluer (Cleverdon, 1991). Selon le protocole de TREC,la collection de test contient des documents originaux et elle est fournie pour chaque groupeparticipant. Une première phase est d’indexer la collection selon une technique choisie par lesparticipants. Ensuite, le SRI retourne les 1000 premiers documents pour chaque requête. Lesrésultats finaux sont soumis à TREC pour être évalués d’une manière officielle.

Plusieurs tâches sont apparues, considérant diverses dimensions et domaines de la RI, tellesque la RI orientée utilisateur, la RI médicale, la RI contextuelle, etc. Parmi ces tâches, nouscitons :1. La tâche TREC Filtering : c’est une tâche dans laquelle l’algorithme de recherche décide

uniquement si un document est pertinent (cas ou il a été sélectionné) ou pas (cas ou iln’a pas été sélectionné).

2. La tâche TREC Interactive : c’est une tâche qui consiste en la résolution d’un besoincomplexe. L’utilisateur interagit avec les systèmes de RI pour sélectionner les documentspertinents.

3. La tâche TREC NLP : le but de cette tâche est de vérifier si les algorithmes basés surle traitement du langage naturel présentent des avantages comparés aux algorithmestraditionnels de RI basés sur les termes de l’index.

4. La tâche Cross language : c’est une tâche ad-hoc dans laquelle les documents paraissentdans une seule langue mais les requêtes sont de diverses langues.

5. La tâche TREC Contextual Suggestion : elle consiste en une suggestion de lieux d’activitésà partir d’un ensemble de profils utilisateur et d’un contexte, traduisant respectivementles préférences et la localisation des utilisateurs.

5.2.2 Protocole d’évaluation CLEF

Cette campagne offre une infrastructure pour diverses tâches, à savoir : évaluer les systèmesmultilingues et multimodaux ; possibilité de réglage de paramètres et d’évaluation ; possibilitéd’utiliser et d’accéder aux données non structurées, semi-structurées ou très structuréesainsi que les données sémantiquement enrichies ; création des collections de test réutilisablespour les analyses comparatives ; exploration de nouvelles méthodes et approches d’expéri-mentations et d’évaluation innovantes ; et possibilité de discuter les résultats, comparer lesapproches et échanger les idées afin de partager les connaissances.

CLEF propose différentes pistes d’évaluation : Ad-Hoc Track editions in CLEF pour larecherche de documents multilingues (de 2000 à 2009), Cross-Language Retrieval in Image

35

Page 48: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Collections (ImageCLEF)(de 2003 à 2009), Multilingual Web Track (WebCLEF)(de 2005à 2008) et beaucoup d’autres pistes comme GeoCLEF et videoCLEF. Plus de détails surl’évaluation à base de collections de test sont donnés dans (Sanderson, 2010).

Différentes tâches apparaissent au fil du temps dans le cadre de plusieurs initiatives CLEF,telles que :1. CLEF eHealth : cette tâche explore des scénarios dont le but est d’aider les patients à

comprendre et accéder à l’information médicale en ligne "eHealth". Le but est de dé-velopper des méthodes et des ressources dans un cadre multilingue afin d’améliorer lacompréhension des textes médicaux difficiles. Dans le cadre de CLEF eHealth, il existedeux tâches :— Tâche 1 - Information Extraction from Clinical Data : elle comprend deux parties, à

savoir : (a) Clinical speech recognition et (b) Named entity recognition from clinicalnarratives in European languages.

— Tâche 2 - User-centered Health Information Retrieval qui comprend deux parties,à savoir : (a) Monolingual IR (English), et (b) Multilingual IR (Chinese, Czech,French, German, Portuguese, Romanian).

2. ImageCLEF : ImageCLEF offre quatre tâches dans un objectif global de l’évaluationautomatique des annotations et d’indexation des images. Cette tâche s’adresse à différentsaspects problématiques de l’annotation dans différents domaines, à savoir :— Tâche 1 - Image Annotation : cette tâche a pour but de développer des systèmes

pour l’annotation multi-concept des images, de la localisation ainsi que la générationdes descriptions médicales.

— Tâche 2 - Medical Classification : propose de résoudre le problème de la séparationdes figures composées de la littérature biomédicale.

— Tâche 3 - Medical Clustering : résout les problèmes de l’agrégation des images repré-sentant différentes parties du corps en radiologie médicale (x-rays).

— Tâche 4 - Liver CT Annotation : permet d’étudier les rapports automatiques struc-turés en offrant un système qui aide à annoter automatiquement les scanners appelésaussi computed tomography.

3. Question answering (QA) : dans le cadre de cette tâche, un effort pour améliorer lesrequêtes ou les questions de utilisateurs. En effet, répondre à une question initiale écrite enlangage naturel peut demander des données liées à cette requête, des inférences textuellesou encore un requêtage en texte libre. Les tâches associées sont donc :— Tâche 1 – QALD : Question Answering over Linked Data ;— Tâche 2 – Entrance Exams : Questions from reading tests ;— Tâche 3 – BioASQ : Large-Scale Biomedical Semantic Indexing ;— Tâche 4 – BioASQ : Biomedical Question answering.

Afin d’accomplir la tâche d’évaluation expérimentale, des SRI expérimentaux ont été dévelop-pés, les deux principaux dans le domaine de la RI, étant Terrier 7 et Lemur 8. Terrier est unmoteur de recherche à accès libre très flexible, efficace et facilement déployable sur les grandescollections de documents. Il offre des fonctionnalités pour différentes tâches de RI, comme

7. http ://terrier.org/8. http ://www.lemurproject.org/

36

Page 49: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

l’indexation, la recherche et l’évaluation expérimentale sous la dernière version (Terrier 4.0).Le projet Lemur développe et offre des moteurs de recherche, les barres d’outils, des outilsd’analyse de texte, et les ressources de données qui appuient la recherche et le développementde la RI ainsi que des outils de fouille de textes. Ces deux moteurs de recherche expérimentauxsont les plus utilisés par la communauté de RI. Dans le cadre de notre travail, nous avonsutilisé la dernière version de Terrier (Terrier 4.0).

5.3 Mesures d’évaluation en RI

En RI, l’évaluation des résultats de SRI est une phase essentielle et primordiale basée sur lescomposants (documents, requêtes, jugements) décrits précédemment. La phase expérimentalesuppose l’utilisation des métriques d’évaluation qui visent à comparer les modèles utilisés etmettre au point leurs paramètres. En effet, le SRI sélectionne des documents de la collectionen utilisant un modèle de RI spécifique et les renvoie à l’utilisateur. Pour mesurer la capacitéd’un SRI à retrouver les documents pertinents et à rejeter ceux qui ne le sont pas, deux mé-triques de base sont utilisés pour évaluer l’efficacité de la RI, à savoir : la précision et le rappel.

Soit |B| le nombre de documents renvoyés par le système pour la requête q, |S| le nombre dedocuments pertinents dans la collection pour cette requête et |S + | le nombre de documentspertinents renvoyés par le système (cf. Figure1.5).

Nous présentons dans la suite les mesures les plus classiques de "Rappel" et de "Précision",ainsi qu’un ensemble de mesures les plus courantes. Le Tableau 1.2 présente les notationsutilisées pour les mesures d’évaluation.

Notation Decriptionq la requête qQ l’ensemble de requêtes|B| le nombre de documents renvoyés par le système

pour la requête q|S| le nombre de documents pertinents dans la col-

lection pour la requête q|S + | Le nombre de documents pertinents renvoyés

par le système pour la requête q

Tableau 1.2 – Notations des mesures d’évaluation en RI.

1. PrécisionLa mesure de précision indique la capacité d’un SRI à retourner des documents perti-nents par rapport aux résultats renvoyés par le système. Donnée par le rapport entre lesdocuments sélectionnés comme pertinents et la totalité des documents sélectionnés, laprécision est calculée comme suit :

Précision = |S + ||B|

∈ [0, 1] (1.12)

37

Page 50: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

2. RappelLa mesure de rappel calcule la capacité d’un SRI à restituer un maximum de documentspertinents pour une requête. Il mesure la proportion des documents pertinents sélection-nés relativement à l’ensemble des documents pertinents de la collection. Formellement :

Rappel = |S + ||S|

∈ [0, 1] (1.13)

La Figure 1.5 donne une description des mesures du rappel et de la précision.

Figure 1.5 – Description graphique des éléments nécessaires pour calculer le rappel et la précision.

La précision et le rappel sont calculés indépendamment de l’ordre avec lequel lesrésultats sont représentés. Pour pallier ce manque, d’autres mesures tenant comptede l’ordre de classement des documents ont été proposées. Ces mesures ne se basentpas uniquement sur le classement de documents pertinents retournés mais aussi sur lenombre de premiers documents pertinents retournés. L’ordre d’apparition des documentsétant crucial, nous citons la précision@n documents et la précision moyenne (MAP).

3. La précision exacte à n documentsLa précision@n est la précision des résultats vis-à-vis de la requête à n documents,et permet de mesurer la capacité d’un SRI à retourner les documents pertinents parles n-premiers documents retournés en réponse à la requête. Par exemple, pour unerequête q, une précision à 10 documents notée P@10, est calculée par la proportion dedocuments pertinents retournés parmi les dix premiers documents.

4. Précision Moyenne (Mean Average Precision)C’est la moyenne des valeurs de précision moyennes (Average Precision-AP) pourchaque document pertinent, appelée aussi la précision à 11 points de rappel. Ellepermet de calculer la précision des résultats vis-à-vis d’un ensemble de requêtes et sefocalise principalement sur les documents pertinents classés dans les premiers rangs, soit :

38

Page 51: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

MAP =∑q∈QAPq

|Q|(1.14)

avec APq est la précision moyenne d’une requête q, Q est l’ensemble des requêtes et |Q|est le nombre de requêtes.

5. F-mesureLa F-mesure est une mesure qui combine la précision et le rappel et leur pondération.Cette mesure permet d’évaluer la performance globale du SRI. Dans (Blair et Maron,1985), l’auteur a proposé de combiner le rappel et la précision dans la F-mesure, qui secalculent comme suit :

Fγ = (1 + γ2) ∗ (Précision ∗Rappel)(γ2 ∗ Précision+Rappel) (1.15)

pour des valeurs réelles positives de γ traduisant l’importance relative du rappelet de la précision. Un cas particulier de la mesure générale Fγ est F1 (γ = 1), dansce cas particulier la F-mesure définit la moyenne harmonique du rappel et de la précision :

F -mesure = 2 ∗ Précision ∗Rappel(Précision+Rappel) (1.16)

6. La mesure BPREF : pour les collections volumineuses, la construction de jugementsde pertinence complets est difficile voir impossible puisque elle est très coûteuse en termede temps. Afin de pallier cet inconvénient, (Buckley et Voorhees, 2000) ont proposé lamesure BPREF (Binary PREFerence-based measure). Cette mesure ne considère que lesdocuments jugés et elle prend en compte les documents pertinents et les documents nonpertinents. Elle est donnée par la formule suivante :

bpref = 1R

∑r

1− n classés avant rR

(1.17)

Avec R le nombre de documents pertinents pour la requête, r est un document pertinentet n est le nombre de documents non pertinents classés avant le document pertinent r.

6 Conclusion

Ce chapitre a porté principalement sur les notions et concepts de base du domaine de larecherche d’information. Nous avons présenté et décrit les étapes principales du processus deRI, à savoir : l’indexation de la collection de documents et l’interrogation de l’informationqui est basée sur les modèles d’appariement document-requête. Les principaux modèles deRI ont été présentés ainsi que les caractéristiques de chaque modèle. Nous avons présentéensuite la notion de reformulation/expansion de requêtes, une stratégie permettant de pallierles problèmes rencontrés lors de la phase de l’appariement document-requête. Nous avonségalement présenté les fondements du processus d’évaluation à travers la présentation descampagnes d’évaluation de référence ainsi que les mesures d’évaluation. Le chapitre qui suitest consacré aux fondements et aux spécificités de la RI médicale.

39

Page 52: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier
Page 53: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Chapitre 2

Recherche d’information médicale :principes de base

Sommaire1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432 Aperçu du domaine de la RI médicale . . . . . . . . . . . . . . . . . 44

2.1 Enjeux et défis du domaine . . . . . . . . . . . . . . . . . . . . . . . . 442.2 Typologie de l’information médicale . . . . . . . . . . . . . . . . . . . 45

2.2.1 La littérature biomédicale . . . . . . . . . . . . . . . . . . . . 462.2.2 Les dossiers médicaux des patients . . . . . . . . . . . . . . . 48

2.3 Quelques ressources termino-ontologiques du domaine biomédical . . . 482.3.1 Thésaurus MeSH . . . . . . . . . . . . . . . . . . . . . . . . . 492.3.2 Méta-thésaurus UMLS . . . . . . . . . . . . . . . . . . . . . 502.3.3 Nomenclature SNOMED . . . . . . . . . . . . . . . . . . . . 512.3.4 Gene Ontology GO . . . . . . . . . . . . . . . . . . . . . . . 51

3 Étude des besoins en information médicale . . . . . . . . . . . . . . 523.1 Catégories de requêtes médicales . . . . . . . . . . . . . . . . . . . . . 533.2 Caractéristiques des requêtes médicales . . . . . . . . . . . . . . . . . 56

3.2.1 Caractéristiques selon les utilisateurs . . . . . . . . . . . . . 573.2.2 Caractéristiques linguistiques . . . . . . . . . . . . . . . . . . 593.2.3 Sujet de la requête . . . . . . . . . . . . . . . . . . . . . . . . 61

3.3 Stratégies et comportements de recherche . . . . . . . . . . . . . . . . 624 Techniques et modèles de RI médicale . . . . . . . . . . . . . . . . . 65

4.1 Expansion de requêtes . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.2 Expansion de documents . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5 Modèles de RI basées sur le paradigme PICO . . . . . . . . . . . . 685.1 EBM et paradigme PICO . . . . . . . . . . . . . . . . . . . . . . . . . 685.2 Identification des éléments PICO . . . . . . . . . . . . . . . . . . . . . 725.3 Modèles de RI basés sur les facettes PICO . . . . . . . . . . . . . . . . 75

6 Campagnes d’évaluation pour la RI biomédicale . . . . . . . . . . . 786.1 Campagne d’évaluation TREC . . . . . . . . . . . . . . . . . . . . . . 786.2 Campagne d’évaluation ImageCLEF . . . . . . . . . . . . . . . . . . . 81

41

Page 54: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

7 Aperçu de systèmes de RI médicaux . . . . . . . . . . . . . . . . . . 837.1 PubMed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 837.2 EMERSE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 847.3 CisMef . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 857.4 Doctissimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 867.5 iMed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 867.6 MedSearch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

42

Page 55: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

1 Introduction

Les progrès technologiques et le poids croissant des facteurs sociaux et économiques de pro-duction de l’information ont profondément transformé le fonctionnement et le comportementdes utilisateurs dans le domaine de la RI médicale. En effet, la médecine est un champd’information-intensive. Comme l’accès à l’information pertinente et en un temps limitéest essentiel pour délivrer des services de santé efficaces, la médecine est ainsi dépendantede la technologie de l’information et plus spécifiquement des SRI médicaux. Une grandepartie des données médicales disponibles aujourd’hui est sous forme non structurée, à savoirtexte libre. La recherche et l’interprétation de ces données présente des défis spécifiques audomaine médical. Au cœur de ces défis est le problème du "fossé sémantique", défini comme ladifférence entre les informations brutes et la façon dont un être humain peut les interpréter.

Par ailleurs, le développement d’internet a transformé l’accès à l’information médicale. Eneffet, des études larges et exhaustives menées par Pew Internet and American Life Projectrévèlent que 80% des utilisateurs cherchent l’information de santé en ligne et que l’informationretournée impacte leurs décisions quant à la prise en charge de leur propre santé ou cellede leurs proches (Fox et Jones, 2009). En outre, ces études montrent que la populationd’utilisateurs est caractérisée par une variabilité significative à la fois sur le volet de l’âge quedu niveau d’expertise ; les besoins en information liés à la santé sont également très variéscouvrant des besoins liés à la médication, santé et bien-être, traitements et pathologies.

Malgré la diversité des SRI, qu’ils soient généraux ou dédiés tel que PubMed 1, ainsi que lamultiplicité des sources d’information, les utilisateurs demeurent insatisfaits de la pertinencedes résultats retournés par ces systèmes (Zhang, 2010). En effet, formuler des requêtes claireset qui reflètent le besoin en information spécifique est une tâche difficile pour les expertsainsi que les novices du domaine médical (Spink et Jansen, 2006; White et Moris, 2008). Plusspécifiquement, dans le cadre de la recherche médicale experte, médecins et cliniciens ont étééduqués à formuler des questions cliniques selon la structure PICO qui désigne Population/-Problem, Intervention, Comparison et Outcome (Boudin et al., 2010b; Boudin et al., 2010a).Cette structure a été introduite dans le cadre de la médecine basée sur les faits afin d’aider lespraticiens à poser des questions bien structurées et à trouver les meilleures preuves leur per-mettant une prise de décision optimale. Néanmoins, malgré de nombreux travaux du domaine(Schardt et al., 2007; Boudin et al., 2010b; Chabou et Iglewski, 2015), accéder à l’informationpertinente reste une tâche difficile dans le domaine médical.Nous décrivons dans la section qui suit les fondements de la RI médicale, en passant en revueles enjeux du domaine, la typologie de l’information médicale ainsi que quelques ressourcesterminologiques. La section 3 présente les travaux sur les besoins en information médicale,répartis selon trois sous-sections, à savoir : (1) typologie des requêtes médicales, (2) caracté-ristiques de ces requêtes et les stratégies de recherche ; et (3) comportement de recherche d’in-formation des utilisateurs. Nous détaillons plus précisément les besoins des experts médicaux.Différentes approches concernant l’expansion des requêtes et des documents sont présentéesdans la section 4. Nous détaillons par la suite dans la section 5 les travaux portant sur la RIbasée sur le paradigme PICO. Dans la section 6, nous passons en revue les principales cam-pagnes d’évaluation du domaine médical. Enfin, la section 7 donne un aperçu sur les systèmesde RI médicaux.

1. http ://www.ncbi.nlm.nih.gov/pubmed

43

Page 56: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

2 Aperçu du domaine de la RI médicale

2.1 Enjeux et défis du domaine

La RI médicale se réfère à des méthodologies et des technologies qui visent à améliorerl’accès aux archives d’informations médicales via un processus de RI. Ces informationssont potentiellement accessibles à partir de nombreuses sources, y compris le Web engénéral, les médias sociaux, des articles de journaux, et les dossiers hospitaliers. Le contenumédical, ainsi que l’information sur la santé est le sujet le plus abordé par les utilisateurssur internet (Sadasivam et al., 2013), ce qui rend ce domaine important pour les travaux de RI.

L’information médicale est d’intérêt à un large éventail d’utilisateurs, y compris les patientset leurs familles, les chercheurs, les médecins généralistes, les cliniciens et les praticiens ayantune expertise spécifique. De ce fait, il existe plusieurs services dédiés qui cherchent à rendrecette information plus facilement accessible, tels que les systèmes de recherche médicaux surinternet "Health on the Net", destinés au public général et aux praticiens 2.

Malgré la popularité du domaine médical pour les utilisateurs de moteurs de recherche, et del’intérêt actuel qu’accorde la communauté en RI à ce sujet, le développement des technologiesde recherche et d’accès demeure particulièrement difficile et sous exploré. Un des problèmesprincipaux dans le domaine de la RI médicale est la diversité des utilisateurs de ces services,correspondant à des différences dans les types et les champs de leurs besoins individuels.Autrement dit, la nature de la question médicale dépend des objectifs des utilisateurs, quiont généralement des niveaux de connaissance médicale très variés. Ces compétences sont enétroite relation avec le comportement des utilisateurs ainsi que leur stratégie de recherche lorsde la tâche de RI.Ces défis peuvent être résumés comme suit :

1. La diversité des besoins en information (Clarke et al., 2013; Dixon et al., 2013) :Un patient avec une maladie récemment diagnostiquée bénéficie généralement d’une in-formation introductrice à sa maladie et son traitement. Les patients vivants avec unemaladie et qui essayent de gérer leur état de santé à long terme sont, quant à eux, àla recherche d’une information plus avancée, ou encore de groupes de discussion et deforums de santé.De la même façon, un médecin généraliste a besoin de l’information de base rapidementpendant une consultation pour conseiller le patient, mais d’une information plus détailléelors de la prise de décision pendant la consultation. Cependant, un clinicien spécialistepourrait chercher/être intéressé par une liste exhaustive de cas semblables ou de do-cuments/articles scientifiques liés au cas des patients qui cherchent a être conseillés etguidés. Comprendre les différents types d’utilisateurs et leurs besoins en information estl’un des enjeux de la RI médicale. Ainsi, adapter le processus de RI pour mieux traiterces besoins en vue de développer des systèmes efficaces, potentiellement personnalisés,est un des plus grands défis du domaine.

2. Connaissances médicales différentes (Zickuhr, 2006) : Les différentes catégoriesd’utilisateurs de SRI médicaux ont des niveaux très variés de connaissances médicales.De plus, la connaissance médicale des différents individus au sein de la catégorie d’uti-lisateurs peut varier considérablement. Cela affecte la façon avec laquelle les personnes

2. http ://www.hon.ch/

44

Page 57: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

soumettent les requêtes au système et aussi le niveau de complexité de l’information quidoit être retournée, ou encore le type de support pour la compréhension et la désambi-guisation qui s’avère nécessaire pour appréhender les résultats de recherche.

3. Compétences linguistiques différentes (Pang et al., 2014) : Étant donné les différentsprofils d’utilisateurs, experts ou néophytes, la tâche de RI reste une tâche difficile. Eneffet, les experts médicaux comme les praticiens médecins et professionnels de santé sefocalisent sur la structure PICO pour formuler leurs questions. De plus, ils se basent surleurs connaissances du domaine en utilisant des ressources externes comme les ontologiesdu domaine. Cependant, les utilisateurs néophytes comme les patients et leurs familles,manifestent des difficultés dans la tâche de recherche dans les choix des termes.

Ainsi, plusieurs problèmes se posent, nous citons les plus abordés par la communauté de RI :

— La quantité importante de littérature médicale (Nourbakhsh et al., 2012; Califfet al., 2013). Prenant l’exemple de Entrez 3 qui publie des références de plus de 34000journaux chaque année (plus d’un million d’articles de journaux au total). Cela rend latâche de trouver l’information spécifique au besoin en information difficile.

— Expression des besoins en information d’une manière inadéquate (Soldainiet al., 2015c; Hanbury, 2012). La plupart du temps, les médecins ignorent leur besoinen information, ce qui rend difficile d’exprimer leur besoin avec des requêtes appropriées.Par ailleurs, exprimer des requêtes claires et spécifiques, par les experts ou les non expertsdu domaine médical demeure une tâche compliquée.

— La nature de la tâche de RI médicale avec la contrainte du temps "Time-consuming" (Keenan et al., 2013). En raison de la grande quantité de littérature médi-cale, le temps nécessaire pour trouver les documents pertinents dans la littérature liés auxpatients s’est considérablement élargi. Dans la plupart des cas, le processus de collecteprend plus de temps que le médecin peut épargner. Selon (Merry et Korsmeyer, 1997),une tâche de recherche de plus de 30 secondes n’est pas acceptable pour les médecins.

2.2 Typologie de l’information médicale

Dans (Hersh, 2009), l’auteur a classé l’information médicale selon deux catégories, à savoir :(1) la littérature du domaine médical et (2) l’information qui concerne le patient.

La première catégorie représente la littérature primaire qui englobe les informations qui ap-paraissent dans les livres et les rapports. Ce sont les publications des travaux de recherche,produits par des chercheurs, comme les brevets, les rapports, les articles originaux de la pressespécialisée, conférences, livres, thèses et mémoires, nous citons :

— La littérature grise, qualifiée aussi de "non conventionnelle" ou de "souterraine", est consti-tuée de la multitude de documents qui échappent aux circuits commerciaux traditionnelsde l’édition (rapports de recherche, thèses, actes de congrès etc.). Ils ont la particularitéd’être mal diffusés et mal répertoriés dans les bases bibliographiques.

— Les documents EBM (Evidence Based Medicine) constitués des consensus et recomman-dations faisant partie de cette catégorie. Il s’agit de documents émanant d’instancesofficielles comme l’ANAES ou l’AFFSAPS ou semi officielles comme les sociétés savantes.

3. http ://www.ncbi.nlm.nih.gov/gquery/

45

Page 58: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

En plus de l’information primaire, la première catégorie englobe l’information secondaire.Cette dernière est la synthèse de la littérature primaire comme les articles de revue dansles journaux et les livres. Elle comprend les données bibliographiques et les commentairesdes documents primaires. L’information secondaire concerne les informations spécifiques auxpatients visant à informer ceux qui cherchent une information précise sur la maladie dupatient, les praticiens et peuvent être présentes sous forme de comptes-rendus médicaux.

Nous détaillons dans ce qui suit les deux catégories principales d’information biomédicalesusmentionnées.

2.2.1 La littérature biomédicale

La littérature biomédicale comprend l’information disponible dans les bases de donnéesbibliographiques, faisant référence aux revues scientifiques et aux comptes rendus desconférences du milieu médical. MEDLINE est la base de données de référence dans ledomaine. Créée et gérée par la National Library of Medicine 4 (NLM), MEDLINE contientdes citations de journaux et des résumés pour la littérature médicale regroupant desinformations et des références de millions d’articles scientifiques indexés en langue anglaise.Ces informations couvrent toute l’information du domaine de la médecine, de la médecinedentaire, des soins infirmiers, la médecine vétérinaire, des para-médicaux, etc. PubMed estun portail dédié à fournir un accès gratuit à l’information dans MEDLINE ainsi qu’auxliens des résumés d’articles ou d’articles en texte intégral. Couvrant plus de 24 millionsde citations de la littérature biomédicale de MEDLINE, les citations et résumés de Pub-Med comprennent les champs du domaine biomédical et de santé, la science de la vie, lascience du comportement, les sciences de la chimie, et la bio-ingénierie. De plus, PubMedfournit l’accès à des sites web supplémentaires pertinents et des liens pour d’autres res-sources de la biologie moléculaire du National Center for Biotechnology Information (NCBI 5).

La base MEDLINE est constituée d’un ensemble de documents, qui sont produits par unensemble de spécialistes de l’information de la NLM, à savoir : (1) les bibliothécaires quiobtiennent les revues et vérifient les problèmes récurrents des journaux ; (2) les indexeurshumains, qui sont des spécialistes du domaine médical, analysent les contenus des articles etdécrivent les concepts présentés en utilisant le vocabulaire contrôlé MeSH 6. Plus précisément,l’indexation est soit manuelle ou semi-automatique en utilisant les termes MeSH ; et (3) lesspécialistes de l’informatique et de l’information, qui développent et entretiennent le systèmeou le moteur de recherche.

Pour la langue française, un catalogue des sites médicaux en langue française a été crée :CiSMeF 7. Ce portail fournit une sélection de sites, d’articles et de documents en libre accès.D’une manière générale, une classification de la littérature médicale est donnée par le Tableau2.1.Par ailleurs, une classification de l’information textuelle médicale est donnée dans le Tableau2.2.

4. http ://www.nlm.nih.gov5. http ://www.ncbi.nlm.nih.gov/6. http ://www.nlm.nih.gov/mesh/MBrowser.html7. http ://www.chu-rouen.fr/cismef/

46

Page 59: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Littérature Primaire Littérature Secondaire Littérature TernaireRecherche originale Services d’indexation et de résumés ManuelsRésultats des journaux Articles de revues EncyclopédiesDissertations Revues systématiques JournauxConférences Méta-analyses GuidesActes de conférence Guides de pratiqueCorrespondanceSources : NEJM, JAMA Sources : PubMed, CINAHL, Cochrane

Library, Web of ScienceSources : Goodman and Gil-man’s, Williams Obstetrics

Tableau 2.1 – Classification de la littérature médicale

1. Information spécifique au patient— Structurée : résultats du laboratoire, signes vi-

taux— Narratif : histoire et physique, notes de progrès,

rapport de radiologie2. Information basée sur les connaissances

— Primaire : recherche originale— Secondaire : résumés de recherche (comptes ren-

dus des articles, livres, directives cliniques)

Tableau 2.2 – Classification de l’information textuelle médicale

D’une manière plus spécifique, les revues internationales et les publications scientifiques dansle domaine de la recherche biologique, médicale et de la santé occupent une place prépon-dérante dans la littérature scientifique en langue française depuis 30 ans. Plus précisément,les revues systématiques permettent d’aider les praticiens à être informés de la littératuremédicale, en offrant un résumé des grandes parties de preuves médicales et en aidant àexpliquer les différences entre les études qui traitent les même questions (Cook et al., 1997).Une méta-analyse est un type de revue systématique qui utilise des méthodes statistiquespour combiner et résumer les résultats de plusieurs études primaires (Lundahl et al., 2013).

Les articles de revues traditionnelles et non structurées sont utiles pour obtenir une vued’ensemble d’un état clinique, mais ne peuvent pas fournir une réponse fiable et non biaiséeà une question clinique ciblée. Une revue systématique est un résumé de la rechercheportant sur une question clinique ciblée d’une manière reproductible structurée. Elle estsouvent accompagnée d’une méta-analyse, qui est une mise en commun des statistiques oude l’agrégation des résultats des différentes études qui fournissent une estimation unique del’effet. Le Tableau 2.3 résume le processus typique d’une revue systématique et méta-analyseincluant la garantie contre des résultats erronés (Murad et al., 2014).

47

Page 60: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

1. Formuler une question2. Définir les critères d’éligibilité des études qui peuvent être inclus,

comme Patient, Intervention, Comparaison, Outcome (PICO), etla conception de l’étude.

3. Développer les hypothèses pour expliquer les hétérogénéités4. Conduire les recherches5. Filtrage des titres et résumés pour leur incorporation6. Voir les textes intégraux des études éligibles7. Évaluer les risques de biais8. Résumer les données9. Après l’analyse des données :

— Générer des sommaires d’estimation et intervalles de confiance— Chercher des explications sur l’hétérogénéité— Taux de confiance dans les estimations de l’effet

Tableau 2.3 – Le processus de réalisation d’un examen systématique et du méta-analyse

2.2.2 Les dossiers médicaux des patients

Le dossier médical d’un patient ou personnel (DMP) est un dossier médical informatisé. Il per-met aux professionnels de santé qui prennent en charge le patient de partager les informationsde santé. Il rassemble les informations médicales, strictement nécessaires à la coordination dessoins : prescriptions, synthèses médicales, comptes rendus d’hospitalisation, résultats d’ana-lyses, antécédents médicaux et chirurgicaux, etc. Il est organisé en huit espaces : synthèsemédicale, traitements et soins, comptes rendus (hospitalisations, consultations), imagerie mé-dicale (radios, IRM, etc.), analyses de laboratoire (sang, urine, etc.), prévention (rappels devaccination) et certificats et déclarations. Le DMP peut être créé lors d’une consultation mé-dicale ou lors d’une admission dans une structure de soins. Il constitue le noyau fondamentalde la qualité des soins dans les hôpitaux et a deux objectifs principaux, à savoir :— Fournir au médecin traitant l’information la plus complète pour qu’il puisse proposer le

traitement ou les examens les plus adaptés et également d’éviter des redondances inutilesd’examens ou de prescriptions.

— Accélérer les capacités de l’ensemble des acteurs à produire et à partager des données desanté de manière sécurisée, dans le but de mieux coordonner les soins.

2.3 Quelques ressources termino-ontologiques du domaine biomédical

Les professionnels de santé ont recours à une terminologie spécifique au domaine de la Santépour exprimer des besoins divers. De nombreuses terminologies médicales existent et chacuned’entre elles a été créée pour répondre à un besoin donné. Les besoins sont globalement dequatre natures : (1) coder l’information, en particulier l’information de soin de patient oula Santé Publique ; (2) indexer des documents, en particulier la littérature biomédicale ; (3)représenter les entités dans les systèmes experts et les systèmes d’aide à la décision en général ;et (4) servir de support "en interface" pour le recueil d’informations.

48

Page 61: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Nous présentons dans ce qui suit les terminologies les plus utilisées dans le domaine médi-cal : MeSH et UMLS, qui sont des ontologies médicales, la nomenclature SNOMED et GeneOntology (GO).

2.3.1 Thésaurus MeSH

Créée par la NLM 8 en 1954, le thésaurus MeSH (Medical Subject Heading) permet d’indexer,classer et rechercher des documents (notamment ceux de MEDLINE). MeSH comprend essen-tiellement des termes qui désignent les concepts biomédicaux, des descripteurs, des relationset des qualificatifs. Concrètement, MeSH a un moteur de recherche en ligne qui évolue chaqueannée. Il est régulièrement mis à jour, et la traduction vers le Français a été assurée parl’INSERM 9. La structure de MeSH est hiérarchique avec une arborescence composée de :

— Terme : Un terme est un mot ou un ensemble de mots ayant un sens particulier.— Concept : Un concept est constitué de un ou plusieurs termes synonymes et il est désigné

par le nom de l’un de ces termes appelé terme préféré (preferred terms).— Relation : Elle représente les relations qui existent entre les concepts dans la hiérar-

chie MeSH. Il existe deux types de relations : les relations hiérarchiques et les relationsassociatives (associé à). La hiérarchie dans MeSH est représentée par un code reflétantl’arborescence à laquelle le concept appartient et peut véhiculer plusieurs sens, tels queà titre d’exemple :

1. relation "est une partie de" (méronymie), par exemple le concept "nez"(A01.456.505.733) est une partie de "visage" (A01.456.505).

2. relation "est sémantiquement proche de" (aboutness), par exemple le concept "sécu-rité" (G03.850.110.060.075) est sémantiquement proche de "accidents" (G03.850.110).

3. relation "est un type de" (hyponymie), par exemple le concept "prémolaire"(A14.549.167.860.200) est un type de "dent" (A14.549.167.860).

— Descripteur : connu sous le nom de Main Headings (MH), un descripteur est constituéd’un ou plusieurs concepts ayant des significations proches et porte le nom d’un de sesconcepts dit préféré. Les autres concepts présentent des relations sémantiques avec leconcept préféré, soit hiérarchiques soit associatives. Les descripteurs MeSH sont répartisen 16 catégories recouvrant différents domaines de la médecine.Chaque catégorie est structurée en arborescence hiérarchique pouvant comprendre jus-qu’à 11 niveaux de hiérarchie. Chaque descripteur est représenté par un code alpha-numérique, la lettre indiquant la catégorie et la séquence numérique précisant la lo-calisation dans la hiérarchie (Cf. Tableau 2.4). Un descripteur peut avoir plusieurslocalisations, au sein d’une même catégorie ou de catégories différentes, et plusieurscodes alphanumériques représentant chacun une localisation. Par exemple, le descripteur"Pain" appartient à plusieurs hiérarchies, C10.597.617, C23.888.592.612, C23.888.646,F02.830.816.444, G11.561.600.810.444.

— Qualificatif : Les qualificatifs servent à décrire un aspect particulier sur les entréesMeSH, qui sont utilisés seuls ou associés à un descripteur. Notons que le sens du descrip-teur est plus précis quand il est accompagné du qualificatif.

8. National Library of Medicine9. Institut National de la Santé et de la Recherche Médicale- http ://inserm.com/

49

Page 62: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

[A] Anatomie[B] Organismes[C] Maladies[D] Produits chimiques et pharmaceutiques[E] Techniques et équipements analytiques, diagnostics et thé-

rapeutiques[F] Psychiatrie et psychologie[G] Phénomènes et processus[H] Disciplines et professions[I] Anthropologie, enseignement, sociologie et phénomènes so-

ciaux[J] Technologie, industrie et agriculture[K] Sciences humaines[L] Sciences de l’information[M] Groupes individualisés[N] Soins de santé[V] Caractéristiques d’une publication[Z] Lieux géographiques

Tableau 2.4 – Les différentes catégories ou domaines du MeSH

2.3.2 Méta-thésaurus UMLS

UMLS (Unified Medical Language System) est un ensemble de fichiers et de logiciels quiréunit de nombreux vocabulaires biomédicaux et de santé, ainsi que des standards et desnormes pour permettre l’interopérabilité entre les systèmes informatiques. L’UMLS permetd’améliorer ou développer des applications, telles que les dossiers de santé électroniques, lesoutils de classification, les dictionnaires et traducteurs automatiques.

Dans la pratique, un des points forts de UMLS est de relier l’information de santé avec lestermes médicaux, les noms des médicaments, et les codes de facturation à travers les différentssystèmes informatiques. Par exemple lier les termes et codes entre le médecin, le pharmacienet la compagnie d’assurance du patient. Il offre plusieurs fonctionnalités supplémentaires ycompris un moteur de recherche, l’exploration de données, les rapports sur les statistiques dela santé publique et la recherche terminologique.Il dispose de trois outils principaux, à savoir :— Méta-thésaurus : il constitue la base unifiée des concepts médicaux. Il comprend des

synonymes, des variations lexicales et des concepts associés, afin de dresser la liste detout le vocabulaire des expressions médicales disponibles. Chaque concept, dans le Méta-thésaurus, permet de regrouper différentes expressions des différentes sources qui ex-priment le même concept.

— Le réseau sémantique : il spécifie les types sémantiques qui permettent de catégoriser tousles concepts médicaux définis dans le Métathésaurus. Il contient également les relationssémantiques existantes entre chaque type sémantique. Il existe 135 types sémantiquesdans l’UMLS avec 54 relations sémantiques.

— Le SPECIALIST Lexicon : offre des outils nécessaires (informations syntaxiques, mor-phologiques et orthographiques) de traitement automatique du langage naturel.

50

Page 63: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

2.3.3 Nomenclature SNOMED

La SNOMED 10 est une nomenclature pluri-axiale couvrant tous les champs de la médecineet de la dentisterie humaines, ainsi que la médecine animale (Cf. Tableau 2.5). Il s’agit d’unsystème de classification permettant de normaliser l’ensemble des termes médicaux utilisés parles praticiens de santé. La SNOMED a pour fonction d’attribuer un code à chaque conceptpermettant un grand nombre de combinaisons entre eux. Elle comprend également une listedes diagnostics interfacée avec la CIM 10 11. La SNOMED permet ainsi de stocker des informa-tions médicales individuelles dans des entrepôts de données afin d’établir des outils d’analysedécisionnelle, de faciliter des décisions thérapeutiques, de contribuer aux études épidémiolo-giques et à l’enseignement. L’utilisation de SNOMED garantit l’universalité du vocabulairemédical.La première traduction française de la SNOMED a été réalisée en 1998. Des mises à jour decette version SNOMED 3.5 VF ont été effectuées depuis 1998 indépendamment des évolutionset mises à jour de la SNOMED International, actuellement utilisée dans sa version SNOMEDCT 12. Il existe donc des différences entre la SNOMED 3.5 VF et la SNOMED InternationalCT.

Axe Nom de l’axeA Agents physiquesC Produits chimiquesD DiagnosticsF FonctionsG QualificatifsJ MétiersL Organismes vivantsM MorphologieP ProcédureS Contexte socialT Topographie

Tableau 2.5 – Les onze axes de la nomenclature SNOMED

Chaque axe représente une hiérarchie de concepts qui peuvent représenter une combinaisonde concepts. Ces concepts sont représentés par une série de termes au sein de laquelle on peutdistinguer une formulation préférée et des synonymes de diverses natures syntaxiques.

2.3.4 Gene Ontology GO

Le projet Gene Ontology a été mis en place pour fournir un langage commun pour décrireles aspects d’une biologie du produit du gène (Ashburner et al., 2000). L’utilisation d’unvocabulaire cohérent permet de comparer les gènes provenant d’espèces différentes en fonctionde leurs annotations GO. L’objectif de GO est de fournir des vocabulaires contrôlés pour ladescription du processus biologique, fonction moléculaire, et composant cellulaire de produitsde gènes. Ces termes sont utilisés en tant qu’attributs de produits génétiques de banques de

10. Systematized Nomenclature of Medicine11. Classification Internationale des Maladies12. SNOMED Clinical Terms

51

Page 64: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

données de l’organisme, ce qui facilite les requêtes uniformes à travers eux. La Figure 2.1présente un exemple de résultats de recherche avec le terme cancer utilisant le moteur GeneOntology Consortium.

Figure 2.1 – Exemple de résultats utilisant GO.

Les vocabulaires contrôlés de termes sont structurés de manière à permettre l’annotation deproduits de gènes à GO à différents niveaux de détail et d’interroger des produits de gènesqui sont impliqués dans des processus similaires.

Dans ce qui suit, nous allons donner un aperçu des travaux sur le besoin en information dansle domaine médical selon deux volets. Le premier volet concerne les travaux sur le besoin eninformation d’une manière générale. Plus spécifiquement, nous introduisons les typologies derequêtes médicales selon trois axes, à savoir : la nature du besoin en information, la nature desquestions posées et la nature des utilisateurs. Le deuxième volet détaille d’une manière plusspécifique le besoin en information des experts. Autrement dit, les requêtes expertes dans lecadre de la RI médicale du point de vue de leur formulation, caractéristiques et utilisation.

3 Étude des besoins en information médicale

La RI médicale se caractérise par une diversité des différentes méthodes et techniquesutilisées afin d’aboutir à des résultats pertinents. Concrètement, cette diversité se manifestevia l’analyse des besoins en information médicale sur plusieurs volets, tenant compte de ladiversité des profils des personnes qui cherchent l’information par exemple, experts et novices,de l’utilisation des SRI médicaux vs. l’utilisation de moteurs de recherche du web ainsi queles différentes stratégies utilisées pour aboutir à des résultats pertinents.Il est communément admis dans le domaine de la RI biomédicale, que l’expression des requêtestraduisant fidèlement les besoins en information est une tâche difficile aussi bien pour desnovices que pour des experts (Spink et al., 2004; White et Moris, 2008). En conséquent,l’analyse et la représentation des besoins en information "cachés" derrière les requêtes, sontdevenues un réel défi dans le domaine.

52

Page 65: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Nous présentons dans ce qui suit une synthèse des travaux de l’état de l’art sur l’analyse dubesoin en information médicale et biomédicale selon trois volets : la catégorisation des requêtesmédicales en exposant les catégories des requêtes et les types de besoins en information, lescaractéristiques des requêtes médicales en détaillant les caractéristiques linguistiques ; et lesstratégies et comportements de recherche.

3.1 Catégories de requêtes médicales

La tâche de recherche d’information est motivée par les besoins en information, qui est laperception de l’insuffisance des connaissances (Griffin et al., 2004). Les besoins en informationmédicaux incluent les besoins cognitifs qui comprennent l’information sur la maladie, letraitement et les besoins affectifs qui comprennent des informations pour faire face à lamaladie émotionnellement (Wilson, 1999). L’information médicale peut être utilisée soit pardes personnes malades (patients) dans le but de comprendre le diagnostic et les modalités detraitement ou par des gens en bonne santé (familles du patient ou autres) pour évaluer lesrisques et la prévention de la maladie (Brashers et al., 2000).La classification de questions a pour objectif d’assigner pour une question donnée, une ouplusieurs catégories. Plusieurs classifications des questions médicales ont été proposées dansla littérature. En effet, dans le domaine médical, les médecins posent des questions en sebasant sur leurs connaissances spécifiques au domaine (Graber et al., 1999). Selon (Ely et al.,2000) les questions cliniques sur les soins primaires peuvent être classées en un nombre limitéde types génériques.

Nous allons dans ce qui suit caractériser les requêtes selon le but de la recherche.Les utilisateurs de l’information basée sur les connaissances ont des différences basées sur lanature de leur besoin en information et les ressources disponibles. Le besoin en informationet la recherche d’information dépendent de l’utilisateur. Pour les médecins, dans (Gormanet Helfand, 1995; Dawes et Sampson, 2003), les auteurs ont défini quatre types de besoin eninformation dans le contexte clinique :— besoin méconnu : clinicien ignorant le besoin en information ;— besoin reconnu : clinicien conscient du besoin mais il peut ne pas le poursuivre ;— besoin poursuivi : la recherche d’information se produit mais peut être sans succès ou

peut ne pas aboutir ;— besoin satisfait : la recherche d’information a abouti avec succès.

Plusieurs autres études avaient pour objectif d’identifier la nature du besoin en informationobservé (Timpka et Arborelius, 1990; Ely et al., 1999). Tous ont montré que les questionsmédicales sont spécifiques au problème du patient.Plus récement, (Andualem et al., 2013) ont analysé le besoin en information des pro-fessionnels de santé dans les hôpitaux d’Éthiopie. Les premiers ont trouvé que le besoinen information le plus couramment perçu concerne trois sujets, à savoir : (1) soins cli-niques, (2) se tenir à jour et (3) fournir des informations pour le patient. Les ressources lesplus utilisées sont les collections personnelles des médecins suivies des ressources électroniques.

Les auteurs de (Pratt et Wasserman, 2000) ont proposé une catégorisation des requêtes mé-dicales, présentée dans le Tableau 2.6.Les obstacles pour la formulation de la bonne question clinique sont nombreux (Ely et al.,2002). Ces derniers ont identifié 59 obstacles, parmi lesquels les suivants : reconnaître

53

Page 66: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Catégorie DéfinitionPrévention appartenant à une prévention d’un problème

médical, maladie, syndrome ou blessureRisque ou étiologie facteurs de risque, corrélations ou causes de ma-

ladiesTests de diagnostics test de diagnostics ou bilans d’un problème mé-

dical spécifiqueDiagnostics concernant un diagnostic ou des symptômes spé-

cifiquesSymptômes symptômes d’une maladie ou un syndrome spé-

cifiquesTraitement traitement ou thérapies pour un problème spé-

cifiqueEffets concernant des effets positifs ou négatifs, ou des

complications d’un traitement ou une thérapiespécifique

Pronostic psychophysiologie ou progression naturelled’une maladie sur la durée, incluant desquestions pronostiques comme le taux demortalité

Synthèse demande de synthèse sur quelques sujets médi-caux

Autre autre catégorie

Tableau 2.6 – Catégories de requêtes médicales selon le modèle de (Pratt et Wasserman, 2000)

une lacune dans les connaissances, formuler une question, rechercher des informationspertinentes, formuler une réponse, et utiliser la réponse aux soins directs aux patients.Six obstacles ont été considérés comme particulièrement marquants par les médecins : letemps excessif nécessaire pour trouver l’information ; la difficulté de modifier la questioninitiale, qui était souvent vague ; la difficulté à choisir une stratégie optimale pour recher-cher l’information ; ressources non appropriées pour couvrir le sujet ; l’incertitude sur lafaçon de savoir quand toute la preuve pertinente a été trouvée afin d’arrêter la recherche ; etla synthèse inadéquate d’un grand volume de données dans une déclaration cliniquement utile.

Par ailleurs, dans (Ely et al., 2002), les auteurs ont développé une taxonomie de questionsgénériques, trouvant 69 types différents, les 1 à 10 meilleurs de chacun d’eux est représentédans le Tableau 2.7.Dans (White et Horvitz, 2012), les auteurs ont récupéré des fichiers de log du web, et ontanalysé le comportement de recherche des utilisateurs via une analyse de la composition desrequêtes. La Figure 2.2 montre la répartition de requêtes médicales selon le type de la préoc-cupation des utilisateurs.Selon (Marchionini, 1995), la plupart des activités intellectuelles, comme le processus de RI,implique une planification (sélection de termes de la requête), un suivi de l’évolution (nombrede documents retournés), une prise de décision (continuer ou arrêter la recherche) et uneréflexion sur l’historique de recherche (modification de requête pour de meilleurs résultats).Selon lui, la personne avec la plus haute aptitude cognitive devrait mieux faire dans la tâche

54

Page 67: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Question générique Combienposées (%)

Combien posées etpoursuivies (%)

Combien poursui-vies et satisfaites(%)

Quelle est la cause du symptôme X? 9 9 50Quelle est la dose du médicament X ? 8 85 97Comment gérer la maladie ou les résultats ? 7 29 83Comment je m’y prends avec l’observation ou la ma-ladie ?

7 33 72

Quelle est la cause de ce signe physique ? 7 18 46Quelle est la cause du contrôle de l’observation X ? 4 40 72Est ce que le patient a cette maladie ou conditionX ?

4 14 67

Est ce que le test X est indiqué dans la situation Y ? 4 29 83Quel médicament X choisir pour l’état Y ? 3 47 76Est ce que le médicament X est indiqué dans la si-tuation Y ?

3 25 78

Tableau 2.7 – Questions les plus posées, poursuivies et satisfaites selon (Ely et al., 2002).

Figure 2.2 – Distribution de requêtes médicales selon le type (White et Horvitz, 2012).

de RI qu’une personne avec moins d’aptitudes. Dans (Hersh et al., 2002), les auteurs ontévalué trois facteurs cognitifs, à savoir : la visualisation spatiale, le raisonnement logique etle raisonnement verbal, qui affectent la performance de la RI. Selon la revue de la littérature,rechercher l’information de santé s’est avéré lié aux caractéristiques individuelles de l’utili-sateur ainsi qu’aux facteurs situationnels (Lambert et Loiselle, 2007). Dans (Wilson, 2006),l’auteur a donné une définition de la RI comme étant une activité centrée sur la personne, etelle est conduite par le rôle dans le but de réduire les incertitudes dans la prise de décisionmédicale. Ainsi, pour répondre aux besoins en information, les professionnels de santé peuventsélectionner l’information à partir des différentes sources d’information soit dans leur lieu detravail (libraires des hopitaux) ou à partir des sources externes (ressources médicales du web)(Clarke et al., 2013).De plus, du point de vue de l’utilisateur, le besoin en information dépend de l’objectif spéci-fique de sa recherche. Le Tableau 2.8 donne une classification du type de l’information selonles consommateurs de l’information médicale en ligne.Une autre catégorisation des requêtes des utilisateurs de PubMed est présentée comme suit :Requêtes informationnelles conçues pour accomplir le besoin en information (exemple

55

Page 68: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Type d’information DéfinitionInformation pour connaitre L’information sur les maladies ;

les traitements, le système desoins, partage d’expérience : pourmieux comprendre la maladie, seprendre en charge, décider, bénéfi-cier d’un accompagnement psycho-logique, suivre des actions de pré-vention, le self care

Information pour choisir L’information qui aide les patients àchoisir un médecin, une assurance,etc.

Information pour superviser L’information portant sur l’actiondes producteurs et des assurances :elle est mobilisée par les patients in-dividuellement, des associations, desreprésentants de patients

Information pour produire Données médicales personnelles :énoncé des symptômes, résultatsd’examens, carnet de santé, etc.

Information pour se coordonner L’information de coordination ad-ministrative et financière : feuillesde soins, prise de rendez-vous, etc.

Tableau 2.8 – Types d’information médicale selon l’utilisateur

"diabetes mellitus"[MeSH]), les requêtes de navigation conçues pour trouver et récupérerles documents pertinents (Yoo et Mosa, 2015), les requêtes mixtes qui ont pour but derechercher un sujet spécifique dans un journal spécifique.Dans ce contexte, (Broder, 2002) a donné trois classes de requêtes selon le contexte de l’inten-tion derrière le besoin en information exprimé : navigationnelle avec l’intention d’atteindreun site particulier, informationnel avec l’intention d’acquérir des informations supposées êtreprésentes dans une ou plusieurs pages web, transactionnel ou l’intention est de réaliser uneactivité intermédiaire sur le web. Dans (Nabarette, 2002), les auteurs ont donné une classifi-cation des facteurs explicatifs des différents types d’information des patients (Cf. Tableau 2.8).

3.2 Caractéristiques des requêtes médicales

Plusieurs travaux ont étudié les particularités des besoins en information dans le domainemédical afin de comprendre les différents aspects qui caractérisent les requêtes de la RIbiomédicale comme l’analyse du besoin en information (Spink et al., 2004; Zhang et Fu,2011; Lykke et al., 2012), l’analyse de la difficulté de la requête (Hersh et al., 2002; Boudinet al., 2012; Lykke et al., 2012), l’impact du contexte de la recherche (Freund et al., 2005;White et Moris, 2008; Cartright et al., 2011; Lykke et al., 2012), la précision de la rechercheainsi que la qualité de l’information médicale (Pandolfini et Bonati, 2002; Moturu et al., 2008).

56

Page 69: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

En général, ces études s’appuient sur des méthodes et techniques empiriques conduites surun échantillon d’utilisateurs afin d’examiner les particularités et les caractéristiques du besoinen information des utilisateurs (Spink et al., 2004; Zhang et Fu, 2011; Lykke et al., 2012),la difficulté de la requête (Hersh et al., 2002; Lykke et al., 2012; Boudin et al., 2012), lecomportement de l’utilisateur (Dogan et al., 2009; Ely et al., 1999), l’effet du contexte sur larecherche (Freund et al., 2005; White et al., 2008; Cartright et al., 2011; Lykke et al., 2012) ,et l’efficacité de la recherche ; la qualité et la fiabilité de l’information médicale (Pandolfini etBonati, 2002; Moturu et al., 2008). Les conclusions relatives à ces travaux donnent un aperçusur l’activité de recherche d’information médicale et l’implication pour améliorer les systèmesde RI médicaux.Les critères caractérisant les requêtes d’une manière générale du web, ou d’une manière spé-cifique concernant le domaine médical, ont été définis et mesurés dans la littérature et sontclassés selon :— le but de la recherche— la structure et le vocabulaire de la requête— la longueur de la requête— la difficulté de la requête

De nombreux travaux (Cartright et al., 2011) ont montré l’impact d’attributs comme laprésence de catégories médicales, d’acronymes, spécificité et longueur des requêtes sur lesrésultats des performances. Par ailleurs, d’autres travaux ont montré l’impact du niveaud’expertise des utilisateurs sur la formulation des requêtes ainsi que sur les résultats derecherche (White et Moris, 2008; Lykke et al., 2012). Ces travaux ont également montrél’importance de l’environnement professionnel pour l’interprétation des besoins en information.

Nous présentons dans ce qui suit les caractéristiques des requêtes médicales selon trois vo-lets, à savoir : les caractéristiques liées à l’utilisateur, les caractéristiques linguistiques et lescaractéristiques selon le sujet.

3.2.1 Caractéristiques selon les utilisateurs

Plusieurs études ont montré que les méthodes utilisées pour accomplir la tâche de RI sontdifférentes entre les experts du domaine et les utilisateurs novices (Downing et al., 2005;Vibert et al., 2007). De plus, la performance globale des experts du domaine est meilleure quecelle des novices pour différents SRI comme le web et la recherche hypertexte (Marchioniniet al., 1993; Patel, 1994; Hölscher et Strube, 2000), ainsi que la recherche en ligne dans lesbases bibliographiques (Hsieh-Yee, 1993; Wildemuth et al., 1995).Dans (White et al., 2009), les auteurs ont montré que les experts au sein de leur domained’expertise effectuent la tâche de la recherche autrement que les non experts, du point devue des sites visités, du vocabulaire utilisé dans la requête, de leur comportement et de laréussite de la recherche. Par ailleurs, dans (Liu et al., 2012), les auteurs ont étudié l’impact dela difficulté de la tâche sur le comportement de recherche. Ils ont conclu que les utilisateurspassent moins de temps à voir le contenu des pages lorsque la tâche est difficile que quand ils’agit de tâches faciles. Par ailleurs, leur étude a montré une forte interaction entre la difficultéde la tâche et les connaissances du domaine.En effet, les professionnels de santé considèrent PubMed comme l’une des sources les plusimportantes et fiables pour la recherche de preuves médicales pertinentes et elle est mise à

57

Page 70: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

jour régulièrement. Les auteurs dans (Yoo et Mosa, 2015) ont analysé des fichiers de log desutilisateurs PubMed, et ont comparé les utilisateurs expérimentés et non expérimentés dePubMed en terme de comportement de recherche ainsi que le nombre de requêtes par sessionde recherche. Ainsi, l’analyse des requêtes des utilisateurs de PubMed a permis de les classeren deux catégories :— Les utilisateurs PubMed expérimentés : ils utilisent les fonctionnalités de recherche d’in-

formation du système comme les termes MeSH et les différents tags de recherche pourformuler leur requêtes, permettant d’avoir des documents pertinents d’une façon rapide.

— Les utilisateurs PubMed non expérimentés : ils se caractérisent par des sessions de re-cherche plus longues que celles des utilisateurs expérimentés, qui identifient leurs besoinsen information à travers les requêtes ultérieurs.

Cette analyse confirme que les utilisateurs PubMed expérimentés obtiennent rapidement desdocuments pertinents en terme de longueur de session tandis que les non expérimentés secaractérisent par des sessions de recherche plus longues.Selon Pew Survey 2013 (Fox et Duggan, 2013), un adulte Américain sur trois fait desrecherches en ligne sur une condition médicale spécifiques. En outre, ces études montrentque la population d’utilisateurs est caractérisée par une variabilité significative à la fois surle volet de l’âge que des niveaux d’expertise (Zickuhr, 2006) ; les besoins en information liésà la santé sont également très variés couvrant des besoins liés à la médication, la santé et lebien-être, les traitements et pathologies.Cependant, force est de constater que malgré la diversité des Systèmes de RI (SRI), qu’ilssoient généraux ou dédiés tels que PubMed, ainsi que la multiplicité des sources d’infor-mation, les utilisateurs demeurent insatisfaits de la pertinence des résultats retournés parces systèmes (Zhang, 2010). L’une des causes fondamentales à l’origine de ce constat est ladifficulté de formulation des requêtes de la part des utilisateurs, d’une part, et l’interprétationdes besoins en informations induits du côté des SRI, d’autre part. Ceci a encouragé unebranche de recherches liées à l’analyse des besoins en information médicale. Plus précisément,les investigations de recherche ont porté sur deux volets, le premier est lié à l’analyse ducomportement des utilisateurs de SRI médicaux et le deuxième à l’analyse des requêtesexprimées par leurs utilisateurs.Dans (Bhavnani, 2001; Bhavnani, 2002), les auteurs ont observé des différences significativesdans la façon avec laquelle les utilisateurs explorent la recherche du point de vue desressources clés utilisées, où les experts se basent sur leur expertise du domaine tandis que lesnovices se référent aux ressources générales du web. Les résultats dans (Wildemuth, 2004)suggèrent que le comportement de recherche change selon le gain de l’expertise du domainemédical.

Les études sur le domaine d’expertise ont montré plusieurs différences entre les experts et nonexperts, du point de vue de la sélection de sites (Bhavnani, 2002), du temps pour accomplir latâche de recherche (Bhavnani, 2001), du vocabulaire et les expressions utilisés (Allen, 1991),du nombre et de la longueur de requêtes ainsi que la performance de recherche (Zhang et al.,2005).Les experts d’un domaine accomplissent la tâche de recherche différemment des gens avec peude connaissances du domaine. Les recherches antérieures ont montré que les experts utilisentdes stratégies différentes et plus performantes pour trouver ce qu’il veulent par rapport auxnon experts. Ceux qui cherchent l’information sur le web sont différents les uns des autres surplusieurs plans qui influencent considérablement les résultats de la recherche (HOBU et al.,

58

Page 71: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

1987). Une différence peut être au niveau de leurs connaissances acquises sur un sujet ou undomaine précis. Dans (White et Morris, 2007), les auteurs différencient domaine d’expertisede la recherche experte, du fait que cette dernière concerne plus le sujet ou le thème exprimépar le besoin en information que les connaissances utilisées pour le processus de recherche.En effet, lors d’une tâche difficile, les utilisateurs avec une bonne connaissance du domainemettent moins de temps à voir le contenu des pages. L’expertise concerne aussi les caractéris-tiques des utilisateurs au niveau de leur expérience à faire des recherches et leurs différentescompétences cognitives. Dans ce contexte, dans (Al-Maskari et Sanderson, 2011), les auteursont montré que les utilisateurs avec plus de compétences et d’expérience ont tendance àtrouver plus de documents pertinents et à accomplir la tâche de RI avec succès.Partant de l’hypothèse qu’il existe une différence entre les experts et les novices dans larecherche, les auteurs de (Hembrooke et al., 2005) ont conduit une étude comparative descomportements de recherche pour explorer ces différences et ont constaté les principauxpoints suivants : niveau de la complexité du choix de termes de la requête, différences dansle nombre de termes utilisés, et une différence au niveau de la définition de la stratégie derecherche. Ils ont conclu que les experts du domaine soumettent des requêtes plus complexeset plus longues que les novices.

3.2.2 Caractéristiques linguistiques

Des observations issues de travaux sur le sujet "topic" de la requête médicale (Zeng et al.,2006; Dogan et al., 2009; Zhang, 2010) ont permis de définir la notion de sujet de requête enutilisant des propriétés linguistiques ou des articles médicaux. Cela veut dire que les utilisa-teurs n’utilisent pas en général les terminologies et taxonomies du domaine, par contre uneutilisation accentuée de leurs propres termes a été observée entrainant beaucoup de fautesd’orthographe et utilisation excessive d’abréviations. Ces études concernent des recherchessur le web et incluent des participants de différents milieux, diverses tâches et une variété decompétences. Plus spécifique au domaine médical, des études ont été conduites pour, d’unepart, analyser les différences de stratégies de recherche utilisées entre les experts du domainemédical et les novices (Bhavnani, 2001; Bhavnani, 2002), et se sont focalisés sur le comporte-ment de recherche d’information des experts (Ely et al., 2002; Wildemuth, 2004) d’autre part.Par ailleurs, plusieurs caractéristiques du besoin en information concernent les caractéristiqueslinguistiques. En effet, les requêtes ou les questions représentent un des principaux moyens parlequel les utilisateurs interagissent avec un système d’information. Par conséquent, les carac-téristiques des expressions des utilisateurs impactent la qualité des résultats dans l’interactionutilisateur-système. Dans (Zhang et Fu, 2011), les auteurs ont analysé les caractéristiques lin-guistiques des besoins en information de santé sous le moteur de recherche Yahoo selon deuxniveaux :— Niveau Terme : les erreurs les plus courantes sont les fautes d’orthographe, les utilisateurs

ont des difficultés dans l’écriture des termes/concepts médicaux (niveau orthographique).Sur un autre niveau, les utilisateurs ne trouvent pas les termes appropriés pour décrireleurs conditions.

— Niveau Question : le nombre de questions posées dans un message sont au nombre d’une(75%), deux (18%) ou trois questions (7%).

Un ensemble de critères et de propriétés caractérisent le besoin en information de la requêtemédicale, résumés dans le Tableau 2.9, et donne un aperçu sur les critères de requêtes médicales

59

Page 72: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

et les principales conclusions des travaux de l’état de l’art. Nous avons étudié et analysé lescaractéristiques des besoins en information, en identifiant les critères examinés, formellementdéfinis et mesurés dans la littérature. Ces critères sont décris ci dessous.— Longueur de la requête : La longueur de la requête est un critère important, qui

permet de comprendre le but de la recherche de l’utilisateur et de retourner des documentssusceptibles de répondre au besoin spécifique de l’utilisateur. En effet, dans un contextegénéral de recherche (recherche sur le web) et d’une manière spécifique (médical, social,etc.), les travaux ont montré la fiabilité de la longueur dans la mesure où elle a un rôleimportant dans la phase de RI. Dans le domaine médical, les requêtes exprimées par lesutilisateurs sont généralement courtes et la plupart ne dépassent pas les 4 termes, et celaconcerne les requêtes soumises aux moteurs de recherche et aux SRI médicaux.

— Difficulté de la requête : La difficulté de la requête est liée au succès ou l’échec duprocessus de recherche lancé par la requête. Plusieurs stratégies de recherche accompliesau niveau de la requête influencent la difficulté de la requête comme par exemple lareprésentation entre le vocabulaire de la requête et les entrées des terminologies médicales,l’utilisation des facettes sémantiques, l’utilisation de termes additionnels, etc.

— Structure et vocabulaire : Ce critère fournit des indices connus sur lesquels se basenttout les modèles de RI connus (Baeza-Yates et al., 1999). En effet, le vocabulaire et lastructure de la requête sont des propriétés caractérisant les modèles de RI qui se basentsur l’appariement requête-document ou les requêtes et les documents sont considéréscomme des sacs de mots. De ce fait, et dans le contexte de RI médicale, ces caractéris-tiques ont été étudiées. Il s’est avéré que le vocabulaire de la requête médicale contientbeaucoup de fautes d’orthographe et se caractérise par l’utilisation d’abréviations etd’acronymes ce qui augmente l’écart d’appariement document-requête basé sur les mots.Notons que, plusieurs études ont montré que les termes de la requête ne correspondaientpas forcément aux termes des terminologies médicales, ce qui crée le problème de l’écartsémantique.

— Objectif de recherche : L’objectif de la recherche d’information médicale représentele but derrière l’expression de besoin en information. Comprendre donc le besoin eninformation des utilisateurs a une grande importance pour identifier les stratégies derecherche d’information optimales et efficaces. L’analyse des sessions de recherche mé-dicales via les questionnaires et les analyses sémantiques des résultats a montré que lesutilisateurs effectuent leur recherche sur un grand nombre d’informations médicales etqui couvrent différents aspects : la gestion des maladies, le diagnostic, des conseils, ledosage de médicaments et l’actualisation des savoirs et des connaissances, etc.

Concernant les formes des requêtes, trois principales conclusions émergent d’études anté-rieures, énumérées ci dessous.1. Les requêtes médicales sont courtes : Plusieurs études (Hong et al., 2002; Zeng

et al., 2002b; Natarajan et al., 2010) ont conclu que les requêtes sont généralementcourtes, contenant moins de 3 termes avec un nombre moyen de termes égal à 2. Dans(Zeng et al., 2002b), les auteurs ont analysé les requêtes de MedlinePlus et les sessions derecherche d’information en santé dans les hôpitaux, et ont trouvé que le nombre de termesdes requêtes est compris ente 1 et 3. Les mêmes résultats ont été trouvés dans (Honget al., 2002) qui ont analysé les requêtes de Healthlink sur la base de 377000 requêtesissues des fichiers de transaction.

2. Les termes de la requête ne sont pas fortement liés aux vocabulaires médi-caux : Des études (McCray et Tse, 2003; Yang et al., 2011) ont identifié les sujets des

60

Page 73: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

requêtes en utilisant des critères linguistiques. Ces études montrent que les utilisateursn’utilisent pas forcément les terminologies médicales, en revanche, ils utilisent leur proprevocabulaire avec des fautes typographiques et des abréviations. À titre d’exemple, (Yanget al., 2011) ont étudié un moteur de recherche spécialisé dans les dossiers de patientsappelé EMERSE. L’étude expérimentale a montré que 18.9% des requêtes contiennentau moins un acronyme. Une autre étude développée dans (McCray et Tse, 2003) montre,suite à l’analyse de 4700 requêtes issues de ClinicalTrials.gov et MedlinePlus, que l’échecdes requêtes a été principalement lié aux fautes typographiques et à l’utilisation d’abré-viations.

3. Les sujets des requêtes sont peu précis : De nombreuses études (Song et al., 2010;Liu et Huang, 2011) ont montré que les sujets des requêtes sont vagues. Les auteurs ontalors proposé des systèmes de recommandation de requêtes en s’appuyant sur le résul-tat qui indique que les requêtes contenant des termes les mieux corrélés aux catégoriesmédicales retournent plus de documents pertinents.

Critère Observations et constatationsLongueur de la requête Les requêtes sont généralement courtes de 1.5 à 4 termes

(Magrabi et al., 2005; Zhang, 2014) ; de 1.5 à 2 termes selon(Lykke et al., 2012), de 1.79 à 5 termes avec une moyenne de2.81 (Zhang, 2014), une moyenne de 3 termes selon (Hers-kovic et al., 2007b) et moins de 3 termes dans le moteur derecherche Caseof (Spink et al., 2004).

Structure et vocabulaire Utilisation fréquente des associations de catégories séman-tiques (Dogan et al., 2009) ; les termes ne correspondentpas forcément aux vocabulaires standards (Keselman et al.,2008; Zhang et Fu, 2011) ; l’utilisation fréquente des termesinappropriés et des erreurs d’orthographe et de syntaxe ainsique l’utilisation fréquente des abréviations (Boden, 2009;Zhang et Fu, 2011), une requête peut contenir deux ou troissous-requêtes qui couvrent différentes facettes du besoin eninformation (Zhang et Fu, 2011).

Tableau 2.9 – Tableau récapitulatif des études et observations sur les caractéristiques des requêtesmédicales (Tamine et al., 2015)

3.2.3 Sujet de la requête

Le sujet de la requête reflète généralement le thème de la recherche. Dans (Zhang et Fu,2011), les auteurs ont examiné les différents types d’information des utilisateurs ainsi que lescaractéristiques des requêtes formulées par les utilisateurs en analysant des questions postéessur Yahoo. Cela a révélé un ensemble de typologies du besoin en information médicale, àsavoir :— Information sur une maladie/problème particuliers : ces questions concernent un aspect

spécifique d’une maladie, principalement des symptômes des causes diagnostic, traite-ments et pronostiques.

— Information sur les médicaments ou suppléments : des questions sur les médicaments ou

61

Page 74: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

des suppléments selon différents thèmes, à savoir : si un médicament est efficace, quelmédicament prendre, combien et quand, s’il y a des effets secondaires, etc.

— Information sur le mode de vie, notamment l’alimentation et l’exercice : Les questionsconcernant le mode de vie sont souvent demandées pour des recommandations pour unealimentation saine ou un exercice de routine, étant donné le poids, la taille, l’âge ou l’étatde santé spécifique ou encore pour vérifier avec d’autres si leur programme d’entraînementactuel est raisonnable.

— Les personnes ayant des conditions similaires : Certaines personnes utilisent le moteurde recherche pour chercher des cas similaires de personnes ayant la même maladie ou lesmême symptômes, avoir des informations sur un traitement ou un médicament.

— Les sources d’information : Certaines questions posées concernent les sources d’informa-tion, comme les sites Web fiables pour acheter des médicaments, pour poser des questionsprécises, ou encore voir ou consulter des statistiques.

— Autres : Certaines questions concernent des professions médicales, des mécanismes defonctionnement de l’organisme, des lectures des tests médicaux, des informations pourfaire face à des situations difficiles de la vie et de la gestion du stress ou encore l’assurancede santé.

Les travaux de (Nicholas et al., 2003; Andreassen et al., 2007; Zhang et Fu, 2011) ont rapportéque les recherches médicales conduites par les utilisateurs sur le web couvrent un large spectrede besoins en information sur différents thèmes, à savoir : les causes et les traitements desmaladies, des informations sur la nutrition et l’alimentation et des conseils pour une mode devie sain.Les auteurs dans (Herskovic et al., 2007a) ont analysé des fichiers de log de PubMed et ontidentifié une catégorisation des sujets de requêtes en utilisant la hiérarchie MeSH. Ils ontrapporté que les thèmes des requêtes sont variés, sans qu’il n’y ait de thèmes et de termesdominants.

3.3 Stratégies et comportements de recherche

De manière générale, la stratégie et le comportement de recherche sont des facteurs corrélés.Le comportement de recherche durant la tâche de RI médicale fait partie de la stratégie derecherche. En effet, le comportement des utilisateurs influence la stratégie de recherche etconcerne 4 critères importants, à savoir : les ressources utilisées, la stratégie de recherche, lemodèle du processus de recherche et la difficulté de la recherche. Les Tableaux 2.10 et 2.11présentent un récapitulatif des études conduites dans ce cadre ainsi que les conclusions etobservations notées. Nous retenons :

— Stratégie de recherche : Les stratégies de recherche des utilisateurs dans le domainemédical ne se caractérisent pas par des particularités spécifiques comparées au processusde recherche général. Les stratégies principales sont en effet les suivantes : affiner larequête, consulter, rechercher et examiner les résultats retournés, plus spécifiquement lestop-ranked.

— Difficulté de la recherche : À la différence de la difficulté de la requête, la difficulté dela recherche est traitée du côté de l’utilisateur. Plusieurs facteurs sont liés à l’utilisateur,comme la catégorie ou le type de l’utilisateur (étudiant, infirmier, médecin, etc.), l’expé-rience de l’utilisateur et la tâche visée par l’utilisateur, représentant tous des indicateursimportants de la difficulté de recherche.

62

Page 75: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

— Ressources utilisées : Plusieurs ressources d’information sont exploitées par les utili-sateurs (experts vs non experts) pour mener leur tâche de recherche d’information.

— Processus de recherche : Ce critère, lié au "mouvement" cognitif de l’utilisateur estspécifique aux tâches de RI médicale comme par exemple les diagnostics. Les conclusionssur les préoccupations majeures sur le processus de recherche sont les suivantes : (1) lesapproches de raisonnementd par hypothèse/déduction sont largement adoptées par lesmédecins et comportent deux phases d’analyse (phase dirigée par les preuves et phasedirigée par les hypothèses) ; (2) le raisonnement basé sur les preuves ayant pour but de lierles symptômes aux maladies correspondantes ; (3) intensification liée au modèle mentalde l’utilisateur qui vise à construire un lien entre les symptômes et maladies graves d’uncôté, et les symptômes graves et les troubles bénins d’un autre côté.

Critère Observations et constatationsStratégie de recherche La recherche fréquente utilisant les mots clés de MEDLINE, les

filtres des méta-données (langues, date de publication, auteurs,etc.), les opérateurs booléens et les profils afin de limiter la du-rée de la recherche ; amélioration de la requête, reformulation derequêtes (Lykke et al., 2012; Zhang, 2014), utilisation de compo-santes sémantiques pour la recherche par facettes (Mu et al., 2011;Lykke et al., 2012), commencer la recherche par des moteurs de re-cherche généraux (Spink et Jansen, 2006), examiner généralementles top pages web retournées (les 5 premiers) ou la première page(Toms et Latter, 2007; Zhang, 2012) ; les stratégies de rechercheévoluent avec les connaissances du domaine (Wildemuth, 2004) ;le classement des savoirs et des connaissances commençant par lesressources spécifiques du domaine (Bhavnani, 2001) ; la transitionentre recherche et navigation pour les tâches complexes (Kules etXie, 2011).

Difficulté de la recherche La formation et l’expérience acquise avec les moteurs de recherchemédicaux induisent l’amélioration des résultats ; le type de l’utili-sateur (Pao et al., 1994; Hersh et al., 2000; Hersh et al., 2002) etla tâche de l’utilisateur (Hersh et al., 2002; Inthiran et al., 2012;Zhang, 2014).

Tableau 2.10 – Tableau récapitulatif des études et observations sur le comportement de recherchedans le domaine médical (Partie 1) (Tamine et al., 2015)

La stratégie de recherche dépend aussi de la tâche et de la situation surtout dans le domainemédical (Kules et Xie, 2011). Selon ces derniers, les utilisateurs peuvent regarder et utiliserplus les facettes de recherche quand les conditions médicales sont perçues comme étant graves,la transition entre la recherche et la navigation pour les tâches complexes. Les étudiants enmédecine ont tendance à regarder l’ensemble des résultats mais moins de références, ils sontplus capables que les étudiants en soins infirmiers et les praticiens de convertir les réponsesincorrectes en réponses correctes (Hersh et al., 2002).

De nombreux travaux ont révélé des stratégies typiques spécifiques aux utilisateurs de SRImédicaux, dépendant de leur niveau d’expertise (Bhavnani, 2001). De manière générale,les travaux ont mis en évidence trois principales facettes du comportement, à savoir : (1)

63

Page 76: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Critère Observations et constatationsRessources utilisées Utilisation de ressources non informatiques (livres, jour-

naux..), ressources personnelles (parents ou amis médecins),ressources électroniques comme MEDLINE, bases de don-nées médicales électroniques de plus en plus utilisées par lesdocteurs parfois quand les patients sont en train d’attendreou au cours d’une consultations, utilisation de différentesressources du web pour une même tâche de recherche : lesmoteurs de recherche comme Google pour la santé, les agentsde santé, les sources du Web 2.0, l’utilisation d’une combi-naison de bases de données médicales disponibles améliorel’efficacité de la recherche (Alper et al., 2001; Cullen, 2002;Magrabi et al., 2005; Andrews et al., 2005; Zhang, 2012).

Processus de recherche Les recherches basées sur les hypothèses (vérifier les hypo-thèses, recherche proche d’une hypothèse, rechercher sanshypothèse) (White et Horvitz, 2009a), les recherches baséessur les preuves (construire des modèle mentaux sur les signeset les symptômes en relation avec les troubles) (White etHorvitz, 2009a), raisonnement déductif basé sur les hypo-thèses en deux phases : dirigé par les preuves puis dirigé parles hypothèses (Eastin et Guinsler, 2006), partir des symp-tômes connus aux maladies graves vs. symptômes rares auxinterprétations bénignes (White et al., 2009), un processusd’essais et d’erreurs (Toms et Latter, 2007).

Tableau 2.11 – Tableau récapitulatif des études et observations sur le comportement de recherchedans le domaine médical (Partie 2) (Tamine et al., 2015)

approche globale de recherche (Zhang, 2010) : les études montrent que la recherche estbasée sur un processus itératif essai-erreur caractérisé par des transitions entre rechercheet navigation ; (2) accès aux résultats (Toms et Latter, 2007) : de manière analogue auxautres utilisateurs de SRI, une préférence est clairement exprimée pour la haute précision ;(3) intentions, buts et motivations (Oh, 2012) : les résultats d’études empiriques montrentque la motivation est le principal facteur qui détermine l’échec ou le succès des sessions derecherche, plus particulièrement dans un cadre de recherche sociale.

Plus spécifiquement, concernant les experts médicaux, les auteurs dans (Ely et al., 2002), ontmontré que les experts n’ont pas de stratégie optimale de recherche, qu’ils sont démotivés ense doutant de trouver des réponses crédibles à leurs requêtes et enfin, qu’ils ne choisissentpas des ressources fiables. En complément, les auteurs dans (Lykke et al., 2012) ont analyséla différence entre les pratiques de recherche d’information initiée par des médecins enconsidérant le lieu d’émission : dans l’environnement professionnel ou en dehors. Ils ontconclu que les requêtes en milieu professionnel sont très ciblées visant une haute précisionalors que les requêtes émises en dehors du milieu professionnel sont exprimées à l’aide d’unvocabulaire généraliste.

De plus, les études sur les stratégies de recherche ont montré qu’il n’y a pas de particularités

64

Page 77: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

spécifiques qui caractérisent les utilisateurs qui cherchent l’information médicale comparé àd’autres types de recherche. Les stratégies principales se résument en trois catégories, à savoir :(1) raffinement de la requête, (2) la navigation et la recherche ; et (3) l’analyse des résultats.D’après (Lykke et al., 2012; Zhang, 2014), la recherche fréquente dans MEDLINE avec lesmots clés, utilisant les filtres de méta-données (la langue utilisée, la date de publication, etc),les opérateurs booléens et les profiles permet de limiter le nombre de résultats retournés,l’amélioration de requêtes et la reformulation de requêtes. Dans (Mu et al., 2011; Lykke et al.,2012), les auteurs ont observé l’utilisation de composantes sémantiques pour la recherchebasée sur les facettes. Par ailleurs, les auteurs de (Spink et al., 2004) ont remarqué que lesutilisateurs commencent la recherche avec des moteurs de recherche généraux, ils examinentles premières pages retournées par le moteur de recherche en générale ; les 5 premières, ouuniquement la première page (Toms et Latter, 2007; Zhang, 2012). L’importance d’élaborerune stratégie de recherche a été montrée par (Wildemuth, 2004).

Concernant le comportement des utilisateurs, les travaux se sont globalement intéressés àla caractérisation des sessions de recherche, le principe de reformulation de requêtes, lesclics de souris, et l’influence du comportement sur la qualité des résultats (Richesson et al.,2010). D’autres études se sont focalisées sur les pratiques de recherche comme le jugement depertinence, les sites visités, les types d’information utilisés et ce, dans le but d’identifier lesfacteurs qui contribuent au succès ou à l’échec de la recherche (Dogan et al., 2009).

4 Techniques et modèles de RI médicale

Dans le domaine médical, la plupart des techniques et modèles d’appariement reposent surdes modèles de RI sémantiques ou conceptuels qui se basent sur les terminologies biomé-dicales comme MeSH, UMLS ainsi que différentes ressources médicales pour améliorer lesperformances des systèmes de RI (Mao et al., 2015). Une partie des travaux se sont intéressésà proposer des approches de reformulation de requêtes afin d’améliorer leur représentation(Zhou et al., 2007; Stokes et al., 2009; Trieschnigg, 2010). D’autres travaux se sont basés surl’extraction des concepts à partir des documents et des requêtes pour améliorer leur représenta-tion (Diem et al., 2007; Gobeill et al., 2009). Nous présentons dans ce qui suit deux approchesfondamentales dans le domaine de la RI vu leur influence sur le processus de recherche, àsavoir : l’expansion de requêtes et l’expansion de documents.

4.1 Expansion de requêtes

L’expansion de requêtes est une technique très répandue pour traiter le problème d’inadéqua-tion du vocabulaire entre les requêtes et les documents. L’approche générale consiste à ajouterou re-pondérer les termes de la requête initiale de l’utilisateur pour améliorer les résultatsde recherche (Voorhees, 1994). Plusieurs techniques ont été développées pour améliorer laperformance de la recherche d’information, une des techniques est l’expansion de requêtes,i.e., ajouter des termes supplémentaires à la requête initiale (Baeza-Yates et al., 1999). Lessources typiques de ces termes sont les thésaurus ou les documents retournés par les SRI.Le thésaurus propose des synonymes, antonymes, descendants, ou autres termes connexes.La fréquence des termes dans la requête et d’autres termes dans certaines collections, desdonnées du log qui enregistrent le comportement de recherche des utilisateurs, sont devenus

65

Page 78: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

aussi des sources pour les termes d’expansion (Cui et al., 2003). Dans la littérature récente,plusieurs variations des techniques d’expansion de requêtes ont été proposées. Quelquestechniques combinent différentes méthodes d’expansion, par exemple, combiner le feedbackde recherche avec la cooccurrence de l’information (Xu et Croft, 1996) ou combiner différentsthésaurus (Mandala et al., 1999). Certains ont exploré la nature floue de la liaison entre lestermes ou les concepts (Akrivas et al., 2002).

Un des problèmes de la complexité des requêtes cliniques est le "fossé" sémantique entrele vocabulaire de la requête et celui du document. Pour traiter cette question, plusieurstravaux ont proposé des techniques de reconnaissance et identification des éléments derequêtes, basées sur des vocabulaires spécifiques au domaine. Cela consiste à lier le texte desrequêtes et les documents aux concepts appartenant aux entrées des terminologies médicalestelles que UMLS, MeSH et ICD. Plus particulièrement, l’expansion de requêtes basée surles concepts est une méthodologie efficace pour traiter les problèmes d’inadéquation duvocabulaire (Hersh et al., 2000; Plovnick et Zeng, 2004; Stokes et al., 2009). La plupart deces approches ont exploré l’utilisation des synonymes (Plovnick et Zeng, 2004), ou encore lesrelations hypernymes et hyponymes définies dans UMLS (Hersh et al., 2000; Stokes et al.,2009) afin d’étendre les requêtes originales avec les concepts préférés qui ont le sens le plusproche des termes originaux de la requête. Les analyses basées sur les règles spécifiquesse sont montrées efficaces dans (King et al., 2011). Ces règles ont permis de détecterl’incertitude permettant de réduire le nombre de concepts candidats utilisés pour l’expansionde la requête. La reformulation conceptuelle de la requête basée sur les terminologiesmédicales a été le sujet de plusieurs travaux (Srinivasan, 1996; Zhou et al., 2007; Stokes et al.,2009). Ils ont montré une amélioration de la performance de RI avec ces méthodes d’expansion.

Dans (Zhu et al., 2014), les auteurs ont utilisé une technique d’expansion de requêtes pourextraire les termes d’expansion à partir de quatre collections de documents, à savoir :documents du web, dossiers médicaux des patients et deux collections d’articles médicaux.Plus particulièrement, ils ont suggéré que le fait d’utiliser les termes d’expansion extraitsde ces quatre collections pour étendre la requête est plus efficace qu’utiliser les termesd’expansion pour chaque collection individuellement.

D’autres travaux ont conclu qu’il n’y a aucune amélioration des performances de RI avecl’expansion conceptuelle de la requête. En effet, les performances de la RI dépendent notam-ment de la façon dont les concepts sont identifiés dans le texte et comment ils sont exploitéspour modifier ou reformuler la requête. Par exemple, l’approche conceptuelle proposée par(Hersh et al., 2000) est basée sur l’identification manuelle des concepts issus d’UMLS àpartir de chaque requête de la collection OHSUMED. Les requêtes sont ensuite reformuléesavec une expansion des termes désignant les concepts. Les termes qui sont ajoutés à larequête originale sont : des synonymes, les termes issus des relations hiérarchiques (parent,ascendant, descendant), les termes reliés aux concepts ou encore les termes qui représententla définition du concept. La phase de recherche est basée sur un modèle vectoriel. Ils ontainsi observé une dégradation des performances de la RI, au niveau du rappel et de la précision.

Dans le cadre de la campagne TREC Medical 2011, une tendance commune des participantsétait d’utiliser l’expansion de requêtes, en soulignant la nécessité d’aborder le niveau de richessede la synonymie dans les textes cliniques. Il y avait des variations dans les ressources utilisées

66

Page 79: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

pour effectuer l’expansion. Les ontologies spécifiques au domaine médical comme UMLS ouMeSH (Daoud et al., 2011), ou les ressources du web comme MEDLINE (Córdoba et al., 2011).D’autres approches ont utilisé des ressources non spécifiques au domaine médical, commeDBpedia (Karimi et al., 2011) ou encore Wikipédia. D’autres techniques de pseudo-réinjectionde pertinence (PRF) ont été proposées et utilisées afin de générer les requêtes étendues baséessur les concepts identifiés dans les documents les mieux classés (Trieschnigg, 2010). Ces travauxont montré l’avantage de combiner les termes et les concepts pour étendre les requêtes (Stokeset al., 2009). Plus spécifiquement, dans le cadre de la RI biomédicale, plusieurs travaux ontexploité la technique de reformulation de requêtes PRF pour améliorer les performances de larecherche d’information (Srinivasan, 1996; Jiang et Zhai, 2007; Zhou et al., 2007).Dans (Zhou et al., 2007), les auteurs ont proposé une méthode pour étendre la requête originalepar les termes désignant les concepts MeSH trouvés dans les 15 premiers paragraphes retournéspar le système de RI. Ensuite, les k premiers concepts les plus significatifs pour la requêtesont retenus pour la reformulation. Afin de sélectionner les concepts, ils se sont basés sur unemesure de similarité concept/requête.De plus, (Voorhees et Ellis, 2014; Soldaini et al., 2015b; Soldaini et al., 2015a) montrentque les systèmes de prise de décision médicaux utilisent des techniques de reformulation derequêtes afin d’améliorer les résultats de recherche. Par exemple, (Soldaini et al., 2015b) ontproposé une approche de reformulation de requêtes pour aider les praticiens du domainemédical à sélectionner des publications pertinentes utilisées pour leur rapports cliniques. Encomparant différentes méthodes de reformulation et d’expansion d’une part, et de réductionde requêtes d’une autre part, leur étude a montré que la méthode de réduction de requêteaméliore la performance.

Depuis des années, les techniques d’expansion de requêtes sont utilisées d’une manièreoptimale dans la RI médicale. Hersh et al (Hersh et al., 2000) ont étendu les requêtes avec destermes manuellement sélectionnés et identifiés à partir des relations du métathésaurus UMLSpour améliorer la performance de la recherche d’information. Les résultats expérimentaux ontmontré que l’expansion de la requête basée sur le thésaurus n’améliore pas nécessairement lesrésultats de recherche.

Dans une étude récente, les auteurs dans (Limsopatham et al., 2015) ont exploré deuxapproches pour modéliser la probabilité que les termes d’expansion extraits de la collectionde documents soient efficaces pour améliorer la représentation de la requête. Une premièreapproche adapte une technique de sélection de ressources pour mesurer la vraisemblancequ’un document de la collection peut fournir de bons termes d’expansion extraits de cettecollection, puis utiliser la probabilité pour mesurer les poids des termes d’expansion dansla collection. La deuxième approche combine les scores de pertinence des requêtes étenduescalculés pour chaque document de la collection utilisant une technique d’ordonnancement(Learning To Rank).

4.2 Expansion de documents

Plusieurs approches d’expansion de documents ont été proposées dans la littérature dans lecontexte de la RI pour résoudre le problème de défaut d’appariement entre les documents etles requêtes. L’expansion des documents a été appliquée dans divers domaines de la recherched’information, comme la recherche de textes courts (Efron et al., 2012), de discours (Singhal

67

Page 80: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

et Pereira, 1999), la recherche d’images (Min et al., 2010) et la RI dans le domaine médical(Trieschnigg et al., 2006; Thesprasith et Jaruskulchai, 2014; Diem et al., 2007; Dinh et Ta-mine, 2011b; Ghezaiel et al., 2012). Plusieurs méthodes et techniques ont été utilisées pour lamanipulation des vecteurs de documents en ajoutant les termes qui sont les plus significatifset proches par rapport au vecteur de la requête. D’autres se sont orientés vers l’expansiondocumentaire basée sur des ressources et terminologies comme Wordnet (Agirre et al., 2010),ou encore dans le contexte biomédical avec l’extraction de concepts du thésaurus MeSH (Thes-prasith et Jaruskulchai, 2014) ou encore méta-thésaurus UMLS (Trieschnigg et al., 2006; Diemet al., 2007). En effet, dans le domaine de la RI biomédicale, la technique d’expansion concep-tuelle a été introduite, permettant l’exploitation des concepts et des ressources médicales àla fois dans les documents et dans les requêtes (Trieschnigg et al., 2006; Diem et al., 2007;Thesprasith et Jaruskulchai, 2014; Dinh et Tamine, 2011b; ?; ?).(Thesprasith et Jaruskulchai, 2014) ont proposé une approche d’indexation et de RI concep-tuelle basées sur une expansion combinée de documents et de requêtes utilisant les conceptsMeSH. Ils se basent sur la construction d’une structure d’index qui comprend chacun desconcepts MeSH, sa description et ses synonymes indexés comme un document unique. Letexte des documents et requêtes sont associés aux meilleurs concepts issus du thésaurus MeSHen utilisant une approche d’extraction de concepts. Enfin, les termes identifiés dénotant lesconcepts MeSH sont utilisés pour étendre le document et la requête. Par ailleurs, (Trieschnigget al., 2006) ont proposé d’ajouter les concepts issus du méta-thésaurus UMLS aux documentset à la requête. La recherche d’information a été effectuée en exploitant les concepts identifiésdans les documents et dans la requête dans un modèle de langue unigramme avec la méthodede lissage de Jelinek-Mercer. Utilisant l’outil MetaMap, (Diem et al., 2007) ont étendu lecontenu des requêtes et documents en exploitant les concepts ainsi que leurs relations séman-tiques extraites de UMLS. L’évaluation de leur approche sur la collection ImageCLEFMed amontré une amélioration significative.

5 Modèles de RI basées sur le paradigme PICO

5.1 EBM et paradigme PICO

Plusieurs facteurs jouent un rôle très important dans la prise de décision médicale. Une desapproches, est basée sur les preuves scientifiques, permettant de retrouver et évaluer l’in-formation pertinente et nécessaire à la prise de décision est la médecine basée sur les faits(EBM 13), le concept en français appelé MFF 14. La médecine basée sur les preuves est fondéeprincipalement sur quatre étapes :

1. La formulation claire et précise d’une question clinique à partir d’un problème cliniquedonné ;

2. La recherche d’articles pertinents dans la littérature (quel article lire ?) ;3. L’évaluation systématique de la validité et de l’intérêt des résultats, et l’extraction des

preuves qui sont à la base des décisions cliniques (quel article croire ?) ;4. L’intégration de ces preuves dans la pratique médicale courante afin de répondre à la

question posée au départ.

La Figure 2.3 présente les étapes fondamentales pour récupérer l’information nécessaire à laprise de décision clinique.

68

Page 81: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Figure 2.3 – Stratégie de recherche globale de la MFF.

Figure 2.4 – Approche de l’évidence basée sur les faits.

L’Evidence-Based Medicine (EBM) ou médecine factuelle se définit donc comme l’utilisationconsciencieuse et judicieuse des meilleures données (preuves) actuelles de la recherche cliniquedans la prise en charge personnalisée de chaque patient (Sackett et al., 1996). Ces preuvesproviennent d’études cliniques systématiques, telles que des essais contrôlés randomisés, desméta-analyses, éventuellement des études transversales ou de suivi bien construites. La Figure2.4 donne les composantes principales de l’approche EBM.Les soins basés sur les preuves concernent trois volets :— Soin de santé basé sur les preuves : utilisation des meilleures preuves pour la prise de

décision médicale sur le soin des patients ou les services de santé. Les meilleures preuvesactuelles sont les preuves mises à jour, à partir des travaux pertinents et valides sur

13. Evidence-Based Medicine14. Médecine fondée sur les faits

69

Page 82: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

les effets de différentes forme de soins, les risques potentiels, la précision des tests dediagnostic et les facteurs prédictifs de pronostic (Greenhalgh, 2004).

— La pratique clinique basée sur les preuves : une approche de prise de décision, dans laquellele clinicien utilise la meilleure preuve disponible, lors de la consultation avec le patient,pour prendre une bonne décision pour le patient (Paton, 1999).

— La médecine basée sur les preuves : c’est l’utilisation des meilleures preuves pour la prisede décision sur la santé des patients. La pratique de la médecine basée sur les faits signifiel’intégration de l’expertise clinique individuelle avec la meilleure preuve clinique externeissue des recherches systématiques (Sackett et al., 1996).

Les requêtes cliniques se composent de quatre aspects fondamentaux : Patient/Problème (P),Intervention (I), Comparaison (C) et Outcome (O) connus comme éléments PICO. La struc-ture PICO est utilisée par les experts du domaine médical pour exprimer leurs requêtes etses éléments peuvent être identifiés à partir des documents de la littérature. Une extension dela question PICO est PICOTT 15. Le Tableau 2.12 présente un exemple de requête cliniquePICOTT. Ces questions sont formulées par les experts du domaine médical dans le cadre dela RI basée sur les preuves. Malgré l’expertise, formuler une question précise avec un contextebien spécifique reste une tâche complexe.

P Patient, Population, or Problem How would I describe a groupof patients similar to mine ?

I Intervention, Prognostic Factor, or Exposure Which main intervention, pro-gnostic factor, or exposure amI considering ?

C Comparison or Intervention What is the main alternativeto compare with the interven-tion ?

O Outcome you would like to measure or achieve What can I hope to accom-plish, measure, improve, or af-fect ?

T What type of question are you asking ? Diagnosis, Etiology/Harm,Therapy, Prognosis, Preven-tion

T Type of study you want to find What would be the best studydesign/methodology ?

Tableau 2.12 – Exemple de requête clinique PICOTT

Nous avons distingué deux volets de travaux : (1) l’identification des éléments PICO, (2)l’utilisation de ces éléments dans la RI médicale, détaillés dans ce qui suit.

La théorie de la médecine fondée sur des preuves soulève des questions fondamentales surla façon avec laquelle les médecins génèrent d’une manière fréquente des questions dans lapratique clinique, ainsi que les catégories de questions fréquemment posées (Ely et al., 2000).Au cours des deux dernières décennies, un certain nombre d’études ont abordé directementou indirectement, les besoins d’information des médecins. Une étude en particulier a décritl’état du besoin en information clinique (Smith, 1996). Cette revue systématique met à jour

15. Population, Intervention, Comparison, Type of study, Type of questions

70

Page 83: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Question Clinique : In people with recurrent aggressionhaving any antiepileptic drug in any dosage, whats is thelength of time of placebo for observer reported aggression ?P women with locally advanced cervical carcinomaI hyperthermia radiotherapyC radiotherapyO local tumor control

Tableau 2.13 – Exemple de requête PICO

cet examen et évalue les habitudes de recherche d’information des médecins en déterminantla nature de leurs préférences en matière de ressources d’information. En analysant lecomportement des médecins, les auteurs de (Dawes et Sampson, 2003) ont conclu que lessources d’information les plus utilisées sont textuelles. De plus, les médecins ont tendanceà demander l’information à des collègues et il est rare d’utiliser les différentes bases dedonnées médicales. Par ailleurs, ils ont noté une grande variation dans le comportementde recherche d’information. Cela implique la nécessité de poursuivre la catégorisation desbesoins en information et de sources d’information. De ce fait, une planification minutieusede la prestation de renseignement aux médecins est nécessaire pour leur permettre de tenir àjour et d’améliorer le transfert des connaissances.Plusieurs problèmes empêchent l’implémentation de la médecine basée sur les preuves au seinde la pratique clinique (Francke et al., 2008). Ces problèmes proviennent de : (1) la complexitéde la formulation d’une question précise, spécifique au contexte de la recherche qui permet defaciliter l’identification des preuves pertinentes, (2) un manque de niveau d’expertise suffisant,qui peut être utilisé pour réaliser une évaluation efficace de ces preuves. Selon (Richardsonet al., 1995), une question PICO est bien composée de 4 facettes clés : P (Patient/Problem),I (Exposure/Intervention), C (Comparison) et O (Outcome). Le Tableau 2.13 représente unexemple de question PICO. Peu de travaux ont traité le problème de répondre spécifiquementaux questions PICO (Demner-Fushman et Lin, 2007; Boudin et al., 2010b; Boudin et al.,2010c). Ces approches se basent sur deux étapes, à savoir : (1) l’identification des facettesPICO dans les documents et les requêtes, et (2) intégrer ces facettes PICO dans le pro-cessus de recherche, et plus spécifiquement dans les modèles d’appariement requête-document.

Les travaux sur l’évaluation automatique des requêtes PICO sont peu abondants et sescindent en deux volets. Dans la première catégorie de travaux (Boudin et al., 2010a; Zhaoet al., 2010), le problème principal traité par les auteurs est la détection des facettes PICO,comme une étape en amont à la sélection de documents pertinents. La plupart des approchessont basées sur des techniques d’apprentissage supervisé afin d’identifier les éléments PICOà partir du texte. Par exemple, dans (Boudin et al., 2010a), le processus d’identification deséléments PICO à partir du document a été conduit selon deux étapes : une première étapepour la segmentation du texte des documents en plusieurs phrases, puis dans une secondeétape, chaque phrase est transformée en un vecteur de propriétés utilisant les caractéristiquesstatistiques et linguistiques pour désigner les facettes P , IC et O. Les expérimentationssur un ensemble de 260000 résumés de PubMed ont montré que la combinaison linéaire deplusieurs classifieurs est l’approche la plus efficace pour la détection des éléments PICO.

La deuxième catégorie de travaux (Boudin et al., 2010c; Boudin et al., 2010b; Demner-

71

Page 84: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Fushman et Lin, 2007) concerne la définition de modèles de recherche d’information quiexploitent les facettes PICO pour calculer les scores de pertinence des documents. Pouratteindre cet objectif, Boudin et al. (Boudin et al., 2010c; Boudin et al., 2010b) ont proposéune extension de la version originelle du modèle de langue (Song et Croft, 1999). Les auteursont modifié le modèle de pondération basé sur les termes des documents en tenant comptede la distribution des éléments PICO dans les différents passages de documents ainsi quela distribution des termes dans les différentes parties PICO. L’évaluation expérimentaleconduite sur une collection de 1.5 millions de documents et 423 requêtes a montré quele modèle proposé a permis une amélioration de 28% de la MAP 16 sur l’ensemble desmodèles de référence. Demner-Fushman et Lin (Demner-Fushman et Lin, 2007) ont égalementproposé un modèle unifié pour détecter et utiliser les éléments PICO dans une fonction decalcul de pertinence des documents SEBM . Cette dernière est basée sur une combinaisonlinéaire des scores de pertinence partiels des documents, considérant trois éléments del’EBM, à savoir, la structure PICO (SPICO), la crédibilité de la preuve médicale (SSoE)et le type de la tâche (Stask). Les expérimentations sur 24 questions cliniques ont mon-tré que cette approche dépasse, en terme de performance, la recherche classique dans PubMed.

Nous détaillons ces travaux dans ce qui suit.

5.2 Identification des éléments PICO

Un premier volet de travaux concerne l’identification des éléments PICO (P, I, C et O) àpartir des documents et des requêtes. Cette étape est cruciale, et représente la phase enamont pour récupérer les documents pertinents. Les travaux dans (Boudin et al., 2010a; Zhaoet al., 2010) se sont basés sur des techniques d’apprentissage supervisés afin d’identifier leséléments PICO du texte. Les auteurs de (Boudin et al., 2010a) ont transformé les résumésde PubMed en un ensemble de phrases, qui sont ensuite représentées par des descripteursbasés sur les propriétés tout en se basant sur des attributs structurels comme le nombrede "cue-verbs" et de "cue-words". De plus, ils ont exploité les propriétés statistiques etlinguistiques pour reconnaitre les éléments via les types sémantiques fournis par UMLS.Le processus d’identification des éléments PICO à partir du document a été conduit selonplusieurs étapes : tout d’abord, le texte des documents est segmenté en plusieurs phrases,ensuite chaque phrase est transformée en un vecteur de propriétés utilisant les caractéristiquesstatistiques et linguistiques préalablement définies pour désigner P, I, C et O. Chaque vecteurest soumis à un ou plusieurs classifieurs. Plusieurs algorithmes de classification de l’état del’art ont été utilisés tels que Random forest (decision trees), SVM (radial kernel of degree3), multi-layer perception (MLP) et Naive Bayes (NB). Les expérimentations ont montré queles éléments I et C sont plus difficiles à identifier que l’élément P. De plus, cela a montréque la détection des éléments PICO au niveau des phrases et non terme ou concept estpossible si cela se restreint à définir un ensemble de propriétés utilisées avec les techniquesd’apprentissage.

Pour pallier ces restrictions, (Zhao et al., 2010) ont proposé une classification basée sur diffé-rentes classes PICO qui prend en compte les différences de format structure et présentationdes documents. Pour cela, ils ont proposé une classification au niveau phrase et au niveauterme afin d’identifier les éléments PICO. Puis ils assignent les phrases aux 5 classes PICO

16. Mean Average Precision

72

Page 85: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

utilisant un classifieur binaire en se basant sur Maximum Entropy avec les caractéristiquessuivantes : tokens (N-gram de la phrase), phrases (longueur de la phrase et sa positiondans le paragraphe ou dans l’article), entités nommées (extraites de OpenNLP Package),MeSH (si la phrase contient un terme Mesh qui appartient à l’une des 16 catégories),Lexica (si la phrase contient un mot qui désigne le sexe ou l’age). Au niveau terme, ils ontprocédé à une classification basée sur les mots utilisant des caractéristiques différentes :token (les termes), syntagmes nominaux (position du mot dans le syntagme et le nom quiconstitue le noyau du syntagme), entités nommées (extraites de OpenNLP Package), MeSHet Lexica. Dans (Chung, 2009), les auteurs proposent d’utiliser une méthode de traitementdu langage naturel pour catégoriser les phrases et les associer aux différents types sémantiques.

Les auteurs de (Boudin et al., 2010d) ont proposé une approche automatique d’identificationdes éléments PICO à partir des requêtes et des documents biomédicaux. Ensuite, ils ont testéplusieurs modèles en se basant sur le modèle de langue afin de comparer l’utilisation de ceséléments dans la RI. Les termes de la requête qui correspondent aux éléments P, I, O sontpondérés grâce à une extension du modèle de langue, soit :

p1(t|MQ) = γ ∗ count(t, Q)Q

∗(

1 +∑

E∈P,I,OwQ,E ∗ δ(QE , t)

)(2.1)

où :— wQ,E est le poids de l’élément E dans la requête Q, dénoté QE— δ(QE , t) est une fonction binaire :

δ(QE , t) ={

1sit ∈ QE0sinon (2.2)

— γ est un facteur de normalisation— count(t, Q) est la fréquence du terme t dans Q et Q est la longueur de la requête.

Le score du document vis-à-vis de la requête Q est donné par une combinaison linéaire d’in-terpolation des poids comme suit :

Score(Q,D) = score(Qall, D) +∑

E∈P,I,OwQ,E ∗ score(QE , D) (2.3)

où score(QX , D) est le score correspondant à une partie de la requête, c-à-d P, I, O ou lereste, qui est calculé par la somme des poids des termes figurant dans la requête.

Afin de tenir compte de l’importance des termes dans chaque élément PICO dans le document,(Boudin et al., 2010d) ont proposé d’étendre le modèle de représentation du document Dcomme suit :

p2(t|MD) = γ ∗(p(t|MDall

) +∑

E∈P,I,OwD,E ∗ p(t|MDE

))

(2.4)

ou :— γ est un facteur de normalisation

73

Page 86: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

— p(t|MDX) est la probabilité que le terme soit généré par le modèle de langue correspon-

dant aux éléments E du document en utilisant la fonction de lissage de Dirichlet.Enfin, le score final du document D vis-à-vis de la requête Q est recalculé par le produit desprobabilités p1 et p2 comme suit :

score(Q,D) =∑t∈Q

p1(t|MQ) ∗ p2(t|MD) (2.5)

Ces travaux ont montré l’efficacité de l’utilisation des éléments PICO dans la tâche dela RI. Par ailleurs, le problème principal de l’utilisation du paradigme PICO est non pasl’identification correcte de ces éléments, mais leur bonne exploitation dans les modèles de RI.Des études antérieures ont cherché à résoudre les problèmes de détection des éléments PICOet de développer des algorithmes plus applicables et des méthodes de classification efficaces(McKnight et Srinivasan, 2003). Chung a apporté des rôles rhétoriques, à savoir : But,Méthode, Résultats et Conclusion, en utilisant un cadre séquentiel avec une méthode deCRF pour étiqueter PICO au niveau de la phrase (Chung, 2009). Sur cette base, Boudinet al. ont construit des classificateurs avec de plus grandes collections de données (Boudinet al., 2010a), puis ils ont ajouté la pondération de termes basée sur la localisation des termesdans le texte (Boudin et al., 2010b). La plupart de ces travaux ont récupéré l’information àpartir d’une portion spécifique de données, mais peu d’entre eux ont pris en compte la partierestante des données pour la tâche de classification. Dans (Demner-Fushman et Lin, 2007;Kim et al., 2011), les auteurs ont rajouté une catégorie appelée "autre", où ils ont recueillitoutes les informations non ciblées. Dans (Kim et al., 2011), les auteurs ont conclu que parmiles différents critères, les titres des sections aident à identifier la nature de la tâche.

Comme mentionné précédemment, (Boudin et al., 2010b) ont comparé différents classifica-teurs complexes mettant l’accent sur les premières phrases. Ils ont affirmé que la majorité desinformations importantes est contenue dans la première phrase de chaque section et que lefait d’annoter toutes les phrases dans les sections P/I/O ne peut pas être plus pragmatique.Néanmoins, il n’y a eu aucune preuve de l’applicabilité des ensembles de données de premièrephrase. Pour cette raison, les auteurs dans (Huang et al., 2013) ont mené une étude pourdéterminer si un classifieur correspondant à la première phrase d’une section annotéeexplicitement est efficace pour détecter les éléments PICO au niveau de la phrase dans letexte. En effet, ils ont proposé une approche automatique pour reconnaître les éléments PICOà partir du texte des études cliniques avec moins d’implication d’experts humains. Pourcela, ils ont extrait 19, 854 résumés structurés à partir des essais cliniques étiquetés selon leséléments P/I ou C de PubMed, utilisées dans les classifieurs Bayésiens comme suit :

Pour un ensemble d’éléments f = (f1, ..., fn), la probabilité que chaque classe c appartient àune classe positive cp ou une classe négative cn est calculée comme suit :

P (c|f) = P (c) ∗ P (f |c)P (f) , c ∈ {cp, cn} (2.6)

Selon l’hypothèse d’indépendance, P (f |c) peut être décomposée en :

P (f |c) =n∏i=1

P (fi|c) (2.7)

74

Page 87: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Donc, la probabilité d’une classe c pour un ensemble de facettes donné f1, .., fn devient :

P (c|f) = P (c)∏ni=1 P (fi|c)P (f) (2.8)

Dans une étude plus récente (Chabou et Iglewski, 2015), les auteurs ont proposé une approchehybride en combinant la robustesse des méthodes d’apprentissage (machine learning methods)et le plus haut niveau de précision des méthodes basées sur les règles (rule-based methods)pour améliorer le processus d’extraction des éléments PICO et faciliter la validité et lapertinence des réponses aux questions cliniques formulées dans le cadre de la recherche PICO.

Leur méthode d’extraction des éléments PICO repose sur deux étapes :1. La première étape : extraction des éléments PICO au niveau des phrases en utilisant

les méthodes d’apprentissage avec l’algorithme CRF (Conditional Random Fields).Cette méthode assigne la séquence des étiquettes Y les plus probables, à une séquenced’observations X utilisation une probabilité conditionnelle P (Y |X) calculée comme suit :

P (Y |X) = 1zxexp

T∑f=1

∑k

λkfk(Yf=1, Yf , x, t)

(2.9)

Pour une phrase donnée X, cette équation estime la probabilité que cette phrase soitclassée comme étant un élément PICO Y ; Y = {P, I, CouP} ; λk est le poids associé àchaque propriété (feature) fk(Yf=1, Yf , x, t). L’algorithme CRF utilise avec un ensemblede propriétés, à savoir : propriétés sémantiques, propriétés lexico-syntaxiques, propriétésselon la position.

2. La deuxième étape : reconnaissance des termes afin d’exploiter la sémantique des motsdans les phrases déjà marqués pour les éléments PICO et utiliser cette sémantique commeun moyen d’obtenir la pertinence. Le texte clinique est traité selon les étapes suivantes :— Les phrases déjà annotées avec les éléments PICO par la méthode d’apprentissage

sont utilisées dans cTAKES (Clinical Text Analysis and Knowledge Extraction Sys-tem) qui est un outil open source pour l’extraction d’informations à partir du textenaturel clinique ;

— cTAKES traite le texte clinique et extrait les parties sémantiques au niveau destermes en utilisant différents dictionnaires dont UMLS. Les parties médicales sé-mantiques extraites sont enregistrées dans des fichiers.

— Les annotateurs basés sur les règles traitent ce fichier, et extraient les instances deséléments PICO à partir des phrases, chaque implémentation d’annotateur est baséesur un ensemble de règles produites à la main ;

— La création des phrases annotées avec les éléments PICO au plus haut niveau deprécision.

5.3 Modèles de RI basés sur les facettes PICO

Le deuxième volet sur les questions PICO concerne l’utilisation des facettes PICO dans lamise en oeuvre de modèles de RI capables d’exploiter les facettes et de les incorporer dans le

75

Page 88: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

calcul de scores de pertinence des documents (Demner-Fushman et Lin, 2007; Boudin et al.,2010c; Boudin et al., 2010b).

Dans (Demner-Fushman et Lin, 2007), les auteurs ont proposé une méthode qui utilise soitun ensemble de règles de filtrage par motif définies manuellement ou une combinaison declassifieurs basiques afin de détecter les éléments PICO à partir des résumés médicaux. Aupréalable, les auteurs ont utilisé MetaMap (Aronson, 2001) pour annoter les concepts biomé-dicaux dans les résumés et SemRep (Arnold et Rahm, 2015) pour extraire les relations entreces concepts. Les deux outils sont basés sur UMLS (Unified Medical Language System). Lemodèle propose de détecter les éléments PICO et de les utiliser dans une fonction de calculde pertinence SEBM calculée comme suit :

SEBM = SPICO + SSoE + Stask (2.10)

Ce score est basé sur une combinaison linéaire de scores de pertinence partiels calculés pourles documents vis-à-vis de chaque facette PICO SPICO, la force des preuves fournies SSoE , quiest un schéma de classification qui aide les médecins à évaluer les citations pour des objectifscliniques et le type de la tâche STask.Pour chacun des éléments P, I, C, et O, ils ont proposé un extracteur spécifique à chaquefacette qui permet de les identifier à partir des résumés, soit :

SPICO = Sproblem + Spopulation + Sintervention + Soutcome (2.11)

— Pour Population : elle représente en général les patients. Pour les identifier, les auteursont utilisé un ensemble de motifs pour les extraire du texte, en se basant sur un ensembled’hypothèses, à savoir :— les concepts qui décrivent "population" appartiennent au type sémantique "Group"

ou à l’un de ses descendants. En plus, certains noms sont utilisés pour décrire lesparticipants des études dans les textes médicaux ;

— le nombre de sujets qui participent à une étude sont souvent précédés ou suivis parun concept de type "Group" ;

— une clause qui contient la population est influencée par sa position, selon les résumésstructurés ou non structurés.

Le score de confiance est donc attribué à chaque motif, dépendant de sa position dans lerésumé et de sa position dans la clause de laquelle il a été extrait.

— Pour Problem : cette facette correspond aux concepts UMLS de type sémantique"Disorder". Afin d’attribuer les scores de confiance, ils se sont intéressés aux conceptsdans les titres des résumés, avec les deux premières phrases et enfin dans tout le résumé.

— Pour Intervention/Comparison : les auteurs ont choisi de traiter l’intervention et lacomparaison ensemble vu leur appartenance au même groupe sémantique "Exposures".L’algorithme d’extraction de ces deux éléments traite d’abord les entités qui peuventparticiper aux relations du réseau sémantique UMLS associés à chaque tâche clinique.Ensuite, selon les types sémantiques identifiés comme diagnostic procedure, clinical drugs,health care activity,etc. Les scores sont ajustés selon si les concepts apparaissent dans lessections titre, objectif ou encore méthodes. Pour ces concepts, un poids supplémentaireest ajouté vu leur importance. Pour les résumés non structurés, les concepts des résumés

76

Page 89: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

sont favorisés. D’une autre part, l’algorithme prend en compte certaines expressions quidécrivent l’étude comme "cette étude examine.." ou "Ce papier décrit..".

— Pour Outcome : les auteurs considèrent la tâche d’identification et d’extraction desrésultats comme un problème de classification au niveau des phrases. Ils utilisent unecombinaison de classifieurs et calculent un score d’interpolation linéaire des poids, soit :

Soutcome = λ1Scues+λ2Sunigram+λ3Sn−gram+λ4Sposition+λ5Slength+λ6Ssemantictype (2.12)

Le score de pertinence basé sur la force de la preuve est calculé comme suit :

SSoE = Sjournal + Sstudy + Sdate (2.13)

Sjournal est calculé selon le type du journal dans lequel la citation est publiée, elle a un scorede 0.6 si le journal est important et 0 sinon. Pour Sstudy les essais cliniques reçoivent 0.5, lesétudes d’observation comme par exemple des rapports d’études de cas 0.3, les publicationsnon cliniques −1.5 et 0 sinon.

Sdate = (yearpublication − yearcurrent)100 (2.14)

Stask =∑

t∈MeSH

α(t) (2.15)

où α(t) attribue au terme MeSH un score positif si le terme représente un indicateur positifpour le type de la tâche, ou à un score négatif si le terme représente un indicateur négatifpour le type de la tâche.Cette méthode a obtenu des résultats intéressants avec un taux de justesse de 80% pourl’identification de population et intervention, 86% pour problème et entre 68% et 95% pouroutcome. Les expérimentations ont été effectuées sur 24 questions cliniques avec un corpus detest modeste (143 résumés pour l’élément outcome et 100 résumés pour les autres éléments),et ont montré que la performance de cette approche dépasse les méthodes traditionnelles derecherche PubMed.

Dans (Boudin et al., 2010c), les auteurs ont analysé la distribution des éléments PECO dansles documents pertinents, et ont proposé ensuite une approche de RI basée sur le modèle delangue. Le modèle de langue assume que les requêtes et les documents sont générés de la mêmedistribution de probabilité du texte (Ponte et Croft, 1998).L’approche proposée se base sur la distribution des éléments PECO, utilisée pour la phasede pondération. Dans le modèle proposé, les auteurs ont intégré la distribution des élémentsPECO observés dans les documents afin d’identifier les éléments les plus informatifs des do-cuments. L’idée est de résoudre en amont le problème de la détection des éléments PECOen utilisant un modèle de langue basé sur la position. Pour intégrer la position, les auteursestiment une série de probabilités concernant le nombre de mots dans une partie spécifiquedu document au lieu du document entier. Chaque document D est classé selon une interpola-tion linéaire pondérée. Pour un document donné D, divisé en 10 parties p ∈ [P1, P2, ..., P10],P (w|D) est estimée comme suit :

77

Page 90: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

P (w|D) = α ∗ P (w|D) + β ∗ Ptitle(w|D) + γ ∗∑pi∈D

θe ∗ Ppi(w|D) (2.16)

ou θe est le poids de chaque élément PECO, fixé d’une manière empirique selon les valeurs dela distribution des éléments observés dans les documents. Il proposent ensuite une fonction decalcul en intégrant les éléments PECO au modèle de langue de base. L’idée était d’utiliser lastructure PECO pour identifier l’importance de chacun des éléments d’une manière équilibré.La fonction de calcul finale est définie comme suit :

Scorefinal(Q,D) =∑

e∈PECOδe ∗ score(Qe, D) (2.17)

Les paramètres de pondération du modèle ont été déterminés par validation croisée, sur unecollection de 1.5 millions de documents MEDLINE et 423 questions cliniques. Cette approchea montré une amélioration de performance de la RI de 28% de la MAP et 50% par rapportaux modèles de langues classiques.Le Tableau 2.14 donne une classification de quelques travaux qui se basent sur des élémentsPICO ainsi que d’autres propriétés comme la situation ou encore le type de l’étude.

Patie

nt/P

opulation

Interventio

n

Com

paraiso

n

Outcome

Tim

eFrame

Con

text

Typ

eof

questio

n

Typ

eof

stud

yde

sign

Professio

nals

Health

CareSe

tting

Expo

sure

Duration

Results

Environm

ent

Stakeh

olde

rs

Situation

(Richardson et al., 1995; Boudin et al.,2010a; Boudin et al., 2010d)(Huang et al., 2013)(Fineout-Overholt et Johnston, 2005)(Petticrew et Roberts, 2006)(Schardt et al., 2007)(Attia, 2013)(Dawes et al., 2007)(Schlosser et O’Neil-Pirozzi, 2006)

Tableau 2.14 – Classification de travaux selon l’utilisation des éléments cliniques

6 Campagnes d’évaluation pour la RI biomédicale

Il existe à ce jour deux campagnes d’évaluation en RI proposant des tâches dédiées à l’éva-luation de la RI biomédicale : CLEF et TREC. Les sections suivantes présentent des élémentsdescriptifs de ces tâches.

6.1 Campagne d’évaluation TREC

Dans le cadre du domaine médical, on s’intéresse à deux pistes : (1) TRECMed pour la RI desdossiers médicaux des patients et (2) TRECGenomics pour la RI de la littérature biomédicale.

78

Page 91: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

— TRECMed : TRECMed est destinée pour la RI biomédicale des comptes-rendus médicauxde patients. La piste TRECMed a pour but de favoriser la recherche et la récupérationde documents liés aux dossiers médicaux de patients en fournissant l’accès basé sur lecontenu des champs de dossiers médicaux électroniques. Introduite pour la première foisdans TREC en 2011, TRECMed représente un grand effort de la communauté de la RIbiomédicale, fournissant une large collection de documents de test dans le cadre de l’éva-luation de dossiers médicaux de patients.La tâche principale de TRECMed est liée à la recherche ad-hoc des patients qui cor-respondent au besoin de l’utilisateur exprimé par une requête. La collection de test estcaractérisée par un ensemble de dossiers médicaux, de rapports de comptes rendus quisont associés à une ou plusieurs visites. La collection est fournie aux participants vial’accord avec l’université de Pittsburgh. Le Tableau 2.15 donne quelques statistiques surles collections TRECMed2011 et 2012.

Année Nb. de requêtes Nb. de documents Nb. documents pertinents2011 35 95,701 17652012 50 95,701 58,640

Tableau 2.15 – Statistiques des collections TREC Medical

— TRECGenomics : La piste TREC Genomics destinée à la RI de la littérature biomédicalea duré de 2003 à 2007 et représente une des pistes de recherche les plus importantes dansle domaine médical. Lancé pour la première fois en 2003, pour répondre aux défis degestion et de récupération de la littérature médicale afin d’identifier les interactions po-tentielles entre les gènes, les maladies et d’autres entités biologiques (Radhouani et al.,2009). Cette tâche modélise un cadre où un chercheur en génomique entrant dans unnouveau secteur exprime une requête qu’il soumet à un moteur de recherche qui gèrela littérature scientifique biomédicale, qui est la collection MEDLINE. Le Tableau 2.16donne quelques statistiques sur les collections de 2003 à 2007. Les requêtes TREC Ge-nomics ont évolué à travers les années : en 2003 les noms de gènes (eg. "arginine vaso-pressin"), le besoin en information exprimé par les nouveaux chercheurs en génomiqueen 2005 (eg. "provide information about the role of the gene PRNP in the disease MadCow Disease"), question-réponse dans le domaine biomédical en 2007 (eg. "What is therole of gene gamma-aminobutyric acid receptors (GABABRs) in the process of inhibitorysynaptic transmission ?").

Année Nb. de requêtes Nb. de documents Nb. documents pertinents2003 50 525,938 5662005 50 4,591,008 45842007 36 162,259 2001

Tableau 2.16 – Statistiques des collections TREC Genomics

La piste de TREC Genomics (http ://ir.ohsu.edu/genomics/) est l’une des campagnesles plus importantes et longues dans la biomédecine, dirigée par (Hersh et al., 2006a).Les différentes tâches sont données dans le Tableau 2.17.

— TREC Clinical Decision Support Track : La piste de la prise de décision clinique,proposée par (Simpson et al., 2014), étudie les techniques pour lier les cas médicaux aux

79

Page 92: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Travaux Tâche Collection dedocuments

Topics

(Hersh et Bhupati-raju, 2003)

recherche adhoc 525, 938 dossiersMEDLINE

noms de gènes, avec l’objectif detrouver toutes les références MED-LINE qui concernent la biologie desgènes ou leur production de protéineà partir de l’organisme concerné

(Hersh et Bhupati-raju, 2003)

GeneRRIF (ou Gene ReferenceInto Function utilisé dans labanque de données LocusLink 17)annotation des titres d’articles etrésumés

139 articles as-signés à Gene-RIFs

GeneRIFs concernés

(Hersh et al., 2004) recherche adhoc 4, 591, 008documentsMEDLINE

50 besoins en information avec lestitres, le besoin et le contexte

(Hersh et al., 2004) catégorisation des documentscontenant des données sur lesgènes, assigner des annotationsdes code Gene Ontology pour labase Mouse Genome Informatics

11, 880 articlesde journauxcomplets

50 besoins en information avec lestitres, le besoin et le contexte

(Hersh et al., 2005) recherche adhoc 4, 591, 008documentsMEDLINE

50 besoins en information similaireà celle de 2004 mais classés selon 5Generic Topic Types (GTTs)

(Hersh et al., 2005) catégorisation des documentscontenant des données sur lesgènes, assigner des codes Geneonto pour identifier les tumeursbiologiques, expressions sur lesgènes, allèles mutant pour la baseMouse Genome Informatics

11, 880 articlesde journauxcomplets

50 besoins en information similaireà celle de 2004 mais classés selon 5Generic Topic Types (GTTs)

(Hersh et al.,2006b)

recherche des passages (des par-ties de phrases et des para-graphes) en lien avec cinq entités(exemple : gènes, protéines) et lasource de l’article

une collectionde 162, 259 do-cuments HTMLissus de 49journal

28 questions basées sur les GTTs

(Hersh et al., 2007) question-réponse basée sur lesentités pour rechercher les pas-sages liés au 14 entités et à lasource de l’article

162, 259 docu-ments HTMLissus de 49journal

36 questions basées sur 14 entités

Tableau 2.17 – Tâches de la campagne TREC Genomics (Hersh, 2009)

informations pertinentes concernant les soins aux patients.

Le but de cette piste d’aide à la décision clinique est de simuler les exigences de cessystèmes et d’encourager la création d’outils et les ressources nécessaires pour leur miseen œuvre. Une description des collections de 2014 et 2015 est donnée par le Tableau 2.18.

Année Nb. de requêtes Nb. de documents2014 30 733,138 articles PubMed2015 30 733,138 articles PubMed

Tableau 2.18 – Statistiques sur la piste TREC de prise de décision médicale

Les "topics" de cette piste sont crées par des experts médicaux et représentent des casde patients. Ces cas décrivent des informations telles que les antécédents médicaux d’un

80

Page 93: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

patient, les symptômes actuels du patient, les tests effectués par un médecin pour lediagnostic de l’état du patient, le diagnostic final du patient, et enfin, les mesures prisespar un médecin pour traiter le patient. Afin de simuler l’information réelle au besoindes médecins, les sujets sont annotés selon les trois types de questions cliniques les plusgénériques selon (Ely et al., 2000) figurant dans le Tableau 2.19 ci-dessous. Les parti-cipants seront chargés de la récupération des articles biomédicaux utiles pour répondreaux questions génériques du type spécifié sur chaque rapport de cas.

Type Questions cliniques génériques Nombre de requêtesDiagnostic What is the patient’s diagnosis ? 10Test What tests should the patient receive ? 10Traitement How should the patient be treated ? 10

Tableau 2.19 – Questions cliniques utilisées dans les campagnes 2014 et 2015

6.2 Campagne d’évaluation ImageCLEF

CLEF est en évolution permanente et couvre différentes tâches de recherche d’images. Parmiplusieurs pistes d’évaluation, la piste ImageCLEF apparait pour la première fois en 2003, et apour principal objectif d’encourager l’évolution dans différents domaines comme l’analyse desmédias visuels, l’indexation, la classification et la RI. Elle fournit pour cela une infrastructurepour l’évaluation des SRI que ce soit par le contexte ou par le contenu. Cela a impliqué ladéfinition de diverses sous-tâches qui varient d’une année à une autre. Par exemple, en 2012les quatre sous-tâches définies dans ImageCLEF 2012 sont : recherche de cas de patients,recherche d’images et classification de modalités.

La tâche de recherche de cas de patients a été introduite pour la première fois en 2009, et apour but de rechercher les cas de patients incluant des images qui répondent potentiellementà un cas clinique. Contrairement à la tâche ad-hoc, l’unité de recherche est le cas de patientet non l’image. Pour cet objectif, un cas est un identifiant PubMed "ID" qui correspond à unarticle de journal. Les documents sont constitués du texte intégral y compris les légendes desphotos biomédicales. Les requêtes sont constituées d’une description de cas de patients, avecla démographie, les symptômes et les résultats de tests y compris les études des imageries.Quelques statistiques sur les collections ImagesCLEF (case-based retrieval) sont présentéesdans le Tableau 2.20.

La tâche Image-CLEF médicale lancée en 2004 par (Müller et al., 2007) se base sur l’utilisationde l’information multimodale (images et texte) dans le domaine médical. Depuis 2009, la tâchede la recherche des cas de patients (case-based retrieval) a été introduite, avec pour objectifde promouvoir la recherche des diagnostics. Le but principal de cette tâche est de récupérerles cas de patients incluant des images que les médecins jugent pertinentes ou pas par rapportaux différents diagnostics. En gros, l’objectif de cette tâche est de fournir au clinicien quia formulé la requête une aide afin de lui permettre de prendre une décision pertinente surun diagnostic ou un traitement considérant un cas difficile. Les requêtes sont créées à partird’une base médicale de cas incluant des descriptions en langage naturel des cas médicaux depatients, avec la démographie des patients, les symptômes, les résultats des tests et les étudesdes images. Par exemple une requête peut être : "A 49-year-old woman with a prolapsed mass

81

Page 94: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

in the opening of her urethra. Pelvic CT shows a heterogeneously enhanced mass on the femaleurethra. Pathology shows ramifying papillae, high nuclear/cytoplasmic ratio, and brisk mitoticactivity".

Année Nb. de requêtes Nb. de documents Nb. documents pertinents2009 5 5706 952010 14 77,506 952011 10 55,635 5212012 26 74,654 2472013 35 74,654 709

Tableau 2.20 – Statistiques des collections ImageCLEF (Case-based IR)

Les tâches de la campagne ImageCLEF sont différentes d’une année à l’autre. Par exemple,pour l’année 2011, plusieurs tâches ont été proposées, nous citons :

— La recherche médicale : elle comprend des tâches de classification d’images et de textesainsi que la recherche adhoc des images et des cas de patients (Kalpathy-Cramer et al.,2011).

— L’annotation d’images : c’est une tâche d’annotation de de détection visuelle des concepts.Elle de divise en deux sous-tâches : (1) l’annotation, et (2) la recherche basée sur lesconcepts.

— L’identification de plantes : l’objectif principal de cette tâche est d’associer les espècesde plantes à l’image correspondante.

— La recherche Wikipédia : l’objectif est d’étudier les approches de RI dans le cadre d’unegrande collection hétérogène d’images et de textes issus des besoins en information ex-primés par les utilisateurs.

Un des défis les plus connus dans le domaine de la RI médicale est de répondre aux questionsdes patients (Burstein et al., 2005) dans un format compréhensible par les utilisateursnéophytes. Les prescriptions médicales et les résumés de décharge sont écrits dans la termi-nologie médicale professionnelle qui n’a aucun sens pour l’utilisateur final (patient). Pourcette raison, la communauté ShARe/CLEF a proposé la tâche eHealth en 2013 (Suominenet al., 2013) avec l’objectif de développer un tel système en attirant les jeunes chercheurs dediverses organisations et universités du monde de l’informatique et du domaine biologique ;et présente une plate-forme commune pour mener la recherche. De plus, le but est d’évaluerles systèmes qui assistent les utilisateurs néophytes dans leur recherche et la compréhensionde l’information médicale.

La campagne ShARE/CLEF eHealth 2014 (Kelly et al., 2014) comprend trois tâches princi-pales, à savoir :

— Tâche 1 - Visualisation de l’information : la première tâche de CLEF eHealth 2014(Kelly et al., 2014) vise à fournir une visualisation de l’information médicale extraite desrésumés de décharge de manière convenable et compréhensible pour les néophytes dudomaine médical ;

— Tâche 2 - Extraction de l’information : cette tâche nécessite la normalisation et l’expan-sion des abréviations et des acronymes présents dans les résumés de décharge. Le cas

82

Page 95: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

d’utilisation suppose que, compte tenu des résumés de décharge et les troubles diagnos-tiqués, les patients ont souvent des questions au sujet de leur état de santé (Zhu et al.,2013) ;

— Tâche 3 - Recherche d’information : l’objectif de la troisième tâche (Goeuriot et al., 2014;Goeuriot et al., 2013) est de fournir des documents utiles et pertinents pour les patients,en développant un système de recherche médical centré sur l’utilisateur ou basé sur lecontexte de manière à satisfaire leurs besoins en informations médicales.

Avec l’évolution dans ce domaine, eHealth 2015 (Goeuriot et al., 2015) s’est focalisé sur lescliniciens qui ont des problèmes à comprendre le jargon médical. Cette campagne proposedeux tâches, à savoir : (1) extraction de l’information à partir du texte clinique ; et (2) la RIcentrée sur l’utilisateur. Le Tableau 2.21 donne des statistiques sur les différentes collectionsde eHealth.

Année Nb. de requêtes Nb. de documents Nb. documents pertinents2013 50 1 million 372014 50 1 million 642015 66 1 million 66

Tableau 2.21 – Statistiques des collections CLEF eHealth.

7 Aperçu de systèmes de RI médicaux

Les systèmes informatiques médicaux ont connu une grande évolution depuis ces deux der-nières décennies tant du point de vue de leur architecture que de la qualité et de la diversitédes services autour du stockage de l’information, l’accès à l’information pertinente pour unemédecine basée sur des niveaux de preuves, l’aide à la décision pour l’amélioration de la qualitédes soins (Hersh, 2006). De ce fait, plusieurs moteurs de recherche ont été proposés, nous dé-taillons dans ce qui suit les quatre portails les plus utilisés dans le domaine médical : PubMed,EMERSE, CisMef et Doctissimo.

7.1 PubMed

PubMed est le moteur de recherche principal de données bibliographiques de l’ensemble desdomaines de spécialisation de la biologie et de la médecine. Il a été développé par le centreaméricain pour les informations bio-technologiques (NCBI), et est hébergé par la bibliothèqueaméricaine de médecine des instituts américains de la santé. PubMed est un moteur derecherche gratuit donnant accès à la base de données bibliographique MEDLINE, rassemblantdes citations et des résumés d’articles de recherche biomédicaux. PubMed contient plus de 24millions de citations et résumés de journaux biomédicaux et de santé. Les professionnels desanté considèrent PubMed comme une des plus importantes sources de preuves pour les soinsde santé (Haux et al., 1996). PubMed joue un rôle important dans le processus de découvertebasée sur la littérature (Baker et Hemminger, 2010).

Le système PubMed inclut plusieurs fonctionnalités comme des champs d’exploration et derecherche, les termes MeSH (utilisés pour indexer les articles PubMed), des raccourcis etdes fonctionnalités utilisant l’historique de la recherche. Les données bibliographiques sont

83

Page 96: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

enregistrées dans des bases de données structurées concernant 65 domaines incluant les titres,résumés, auteurs, journaux, types de publication et dates de publication. PubMed fournit 48tags de recherche dans les divers domaines de la base ; une description de chaque domaineest disponible sur le site NLM 18. PubMed est donc un système de recherche orienté domaineavec les différents tags et annexes utilisant les opérateurs booléens (AND, OR, NOT). NLMindexe les documents PubMed en utilisant le vocabulaire MeSH. La Figure 2.5 présente unecapture d’écran du système PubMed.

Figure 2.5 – Aperçu de domaines du système PubMed.

7.2 EMERSE

EMERSE (The Electronic Medical Record Search Engine) (Hanauer, 2006) est un moteur derecherche puissant et intuitif, pour la recherche de documents dans les dossiers électroniquesmédicaux (Hanauer, 2006). Il offre de multiples options pour créer des requêtes complexespour réaliser la tâche de RI. Le moteur de recherche est idéal pour un examen rétrospectifdes dossiers et revues ainsi que l’abstraction de données ; il peut également être utile pourles traitements cliniques. EMERSE concerne diverses tâches incluant la recherche clinique,l’amélioration de la qualité des initiatives ainsi que les tâches opérationnelles des hôpitaux.Le système a été utilisé par les agents de conformité pour gérer les risques et par différentsétablissements de prévention des infections. Il offre plusieurs fonctionnalités permettant untravail rapide et à jour. Par exemple, il comprend une liste large de synonymes et de mots cléspour aider à étendre la recherche si la personne ne connait pas les termes appropriés à utiliser.Cela inclut une large collection de noms de gènes, de médicaments, d’acronymes, d’abréviationset d’autres variations de mots prenant en compte même les fautes d’orthographe. La Figure2.6 montre une capture d’écran du système EMERSE avec les termes d’expansion.

18. http ://www.nlm.nih.gov/bsd/mms/medlineelements.html

84

Page 97: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Figure 2.6 – Capture d’écran de EMERSE montrant les termes d’expansion du mot "cigarette".

7.3 CisMef

Le Catalogue et Index des Sites Médicaux Francophones (Darmoni et Joubert, 2000) du CHUde Rouen propose l’essentiel de la documentation biomédicale francophone en ligne (Figure2.7). Il recense plus de 25248 documents (au 07/02/07) et sa mise à jour est hebdomadaire. Lesdocuments sont classés selon le thésaurus MeSH. Il s’organise autour de 3 axes prioritaires :

— Ressources pour l’enseignement : cours, guides, QCM, cas cliniques, lecture critique d’ar-ticles, etc.

— Médecine factuelle (fondée sur des données validées) : recommandations de bonne pra-tique, conférences de consensus, méta-analyses, etc.

— Documents destinés aux patients et au grand public, pour participer à l’amélioration del’éducation sanitaire.

Figure 2.7 – Aperçu du système CisMef

CISMeF est l’outil de choix pour une recherche sur un sujet médical général, car son corpus estlimité aux sites institutionnels, universitaires et aux sociétés savantes. La recherche s’effectueen deux étapes : (1) Sélectionner l’axe correspondant au type de recherche, et (2) utiliserla fonction "Terminologie", le descripteur MeSH en langue française, pour la sélection desmots-clés et des limites de la recherche. CISMeF permet également de trier les ressources par

85

Page 98: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

type de documents et d’étendre la recherche (vers d’autres mots-clés ou d’autres moteurs derecherche).

7.4 Doctissimo

Doctissimo 19 est un site Web francophone consacré à la santé et au bien-être. Le sitecomprend une encyclopédie médicale touchant à plusieurs domaines de santé, comme lagrossesse, la forme, la nutrition, les médicaments, etc. Il propose également des articles surdifférents phénomènes afin de répondre aux questions des utilisateurs sur un sujet de santébien précis, par exemple pour arrêter de fumer ou encore les moyens pour perdre du poids.

Figure 2.8 – Aperçu du site web Doctissimo.

Le site internet comprend des forums de discussions ce qui le rend interactif et permet d’être àjour sur les actualités et les questions du moment. La Figure 2.8 donne un aperçu des différentsthèmes d’articles recherchés sur le site Doctissimo.

7.5 iMed

iMed est un moteur de recherche intelligent pour la recherche d’information médicale sur leweb (Luo et Tang, 2008). C’est le premier moteur de recherche intelligent destiné à faciliterla tâche de la RI médicale, et qui utilise d’une manière extensive les connaissances médicalesainsi que les questionnaires interactifs. Ces derniers sont utilisés par le système pour guiderles utilisateurs dans la formulation de leurs requêtes. De plus, iMed exploite les connaissancesmédicales à partir des réponses aux questions, pour constituer d’une manière automatiquesun ensemble de requêtes susceptibles d’intéresser l’utilisateur. Dans (Luo, 2009), l’auteur adonné une évaluation du système en mettant en avant les avantages et les inconvénients, eta montré que iMed améliore considérablement la performance de recherche par rapport àd’autres systèmes comme Healthline et Google Health.

7.6 MedSearch

Proposé par (Luo et al., 2008), MedSearch 20 est un moteur de recherche médical sur le webmis en place dans le but d’aider les utilisateurs à mieux formuler leur requêtes et à avoir desréponses pertinentes. Le système est basé sur un ensemble de techniques pour améliorer laqualité des résultats retournés, à savoir : (1) il accepte les requêtes longues des utilisateurs et

19. http ://www.doctissimo.fr/20. http ://www.intelligence.tuc.gr/medsearch/

86

Page 99: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

les transforme en requêtes courtes représentées par un ensemble de mots clés les plus repré-sentatifs, et (2) il offre divers résultats de recherche. MedSearch est un système de recherchecomplet utilisant la base MEDLINE, et différentes méthodes comme SSRM et VSM.

8 Conclusion

Ce chapitre donne un aperçu de l’état de l’art de la RI biomédicale. Nous avons doncprésenté une typologie de l’information biomédicale, y compris la littérature biomédicaleet les dossiers médicaux personnels. La littérature biomédicale a fait l’objet de nouveauxtravaux de recherche en RI biomédicale, en particulier dans le cadre de TREC Genomics2003-2007.

Nous avons donc décrit les principales ressources termino-ontologiques les plus utilisées dansle domaine. Les typologies des requêtes médicales sont présentées dans le contexte de larecherche d’information médicale. Nous avons présenté dans ce cadre les différents travaux decatégorisation de requêtes médicales.

Dans le cadre de la RI biomédicale, nous avons présenté en catégorisant les différentesapproches existantes, à savoir l’approche basée sur l’expansion des requêtes, l’approchebasée sur la reformulation de la requête PRF ainsi que l’approche basée sur l’expansiondocumentaire automatique ou manuelle. En particulier, nous avons présenté les différentesapproches de la RI biomédicale, à savoir : l’expansion conceptuelle de la requête, l’expansionde la requête par la méthode PRF ainsi que l’expansion documentaire.De plus, les nouveaux modèles d’appariement basés sur les patrons de besoins cliniques,appelés modèle PICO, peuvent être utiles afin de mieux cerner les besoins en informationspécifiques aux professionnels de la santé. En effet, le modèle PICO représente plusieurschallenges dans le domaine du point de vue de l’ identification de ces éléments à partir desrequêtes et des documents ainsi que leur utilisation dans la RI afin d’améliorer les systèmesde prise de décision médicale.

Enfin, nous avons présenté les campagnes d’évaluation spécifiques au domaine médical,comme TRECMed et TRECGenomics. Ces campagnes offrent des collections de test spé-cifiques au domaine en évoluant à travers les années afin d’évaluer au mieux les travauxproposés. Pour clôturer ce chapitre, nous avons donné un aperçu des systèmes de RI médicauxles plus utilisés dans le domaine et qui offrent une plateforme et interface de recherche avancées.

Nous allons présenter dans ce qui suit la deuxième partie du manuscrit qui comprend les deuxchapitres de nos contributions dans le cadre de la RI médicale.

87

Page 100: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier
Page 101: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Deuxième partie

Analyse et évaluation de requêtesmédicales

89

Page 102: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier
Page 103: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Introduction

La communauté des utilisateurs d’informations médicales est extrêmement variée selon plu-sieurs critères tels que, sa facon d’exploiter l’expertise dans la recherche, sa familiarité avecles différents vocabulaires d’indexation biomédicale et ses exigences en matière d’utilisationde l’information. Par exemple, l’expertise biomédicale varie entre les patients et les famillesqui sont confrontés à des notions et des termes médicaux pour la première fois, à des spécia-listes dans des domaines de recherche ciblés qui sont considérés comme des experts. Dans ledomaine biomédical, l’analyse des besoins en information des utilisateurs de SRI biomédicauxont été abordés sous l’angle de l’étude des stratégies de recherche d’une part et de l’analysedes requêtes d’autre part. De nombreux travaux ont cependant révélé des stratégies typiquesdes utilisateurs de SRI médicaux dépendantes de leur niveau d’expertise (Bhavnani, 2002).Dans le cadre de la RI sur le web les auteurs de (Eysenbach et Köhler, 2002) ont montré queles groupes de personnes qui cherchent l’information pour évaluer la crédibilité d’un site web,regardent la source, la conception, la langue utilisée et la facilité d’utilisation. Par ailleurs,les auteurs de (Haynes et al., 2005) ont analysé des critères associés aux termes des requêtescliniques ; ils ont identifié 4 critères stratégiques : la sensibilité, la spécificité, la précision et lajustesse des termes.D’une manière globale, l’expression des requêtes traduisant les besoins en information spéci-fiques est une tâche difficile aussi bien pour des novices que pour des experts (Spink et al.,2004; White et Moris, 2008). En effet, avec la diversité des ressources disponibles en ligne ainsique la multiplicité des SRI médicaux, il est difficile de trouver l’information pertinente. Celaest dû à deux problèmes majeurs : d’une part, la difficulté de formuler une requête claire, etl’interprétation des besoins en information induits par les SRI, d’une autre part. En effet, lesutilisateurs se caractérisent par une variabilité significative à la fois sur le volet de l’âge quesur le niveau d’expertise, les besoins en information liés à la santé sont également très variés,couvrant des besoins liés à la médication, santé et bien-être, traitements et pathologies.Plus proche de notre domaine d’étude, la tâche de recherche conduite par les experts a étéétudiée dans le contexte de l’analyse du besoin exprimé par la formulation de requête. Cetteanalyse concerne les caractéristiques des requêtes lors de la formulation du besoin en infor-mation, comme le nombre de termes, le nombre de concepts, le vocabulaire utilisé, etc. D’uneautre part, cela comprend le comportement de recherche comme le facteur temps, la naviga-tion, la re-formulation de requête, etc.Concernant la forme des requêtes, trois principales conclusions émergent des études anté-rieures, à savoir : (1) les requêtes médicales sont courtes (Hong et al., 2002; Zeng et al., 2002b;Natarajan et al., 2010; Tracy Edinger et al., 2012), (2) les termes de la requête ne sont pasfortement liés aux vocabulaires médicaux (Yang et al., 2011; McCray et Tse, 2003), et (3) lessujets des requêtes sont ambigus (Song et al., 2010; Liu et al., 2012).D’après notre état de l’art du domaine, peu de travaux se sont intéressés à des analyses spé-cifiques à la caractérisation des requêtes des experts médicaux, considérant une populationspécifique d’utilisateurs ainsi que le contexte de la tâche de RI. Dans ce contexte, nous nousintéressons à l’analyse des besoins en information exprimés par les experts médicaux, noustraitons un axe de recherche dans le chapitre 3 qui concerne les analyses exploratoires desrequêtes expertes via l’analyse des attributs de requêtes. Nous formalisons un ensemble d’at-tributs de requêtes, à savoir : la longueur en nombre de termes, la longueur en nombre deconcepts, la spécificité terme-document, la spécificité hiérarchique, la clarté de la requête ba-sée sur la pertinence et la clarté basée sur le sujet de la requête. Ces attributs sont utilisés dans

91

Page 104: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

le cadre d’une méthodologie statistique dans le but de caractériser le besoin en informationdes experts et de mesurer l’impact de leur structure sur les résultats de recherche.Un deuxième volet de contribution concerne la RI dans le cadre de la médecine basée sur lesfaits et preuves médicales. L’EBM consiste à fonder les décisions cliniques sur des connaissancesthéoriques et sur les preuves scientifiques tout en tenant compte des préférences des patients.La médecine basée sur les preuves est conçue comme une méthodologie explicite de recherchede meilleures preuves disponibles pour résoudre un problème clinique, elle s’effectue en quatreétapes :1. la formulation du problème médical en une question claire et précise.2. la recherche dans la littérature des articles les plus pertinents en rapport avec la question

posée.3. l’évaluation de la fiabilité et l’applicabilité des conclusions extraites des articles retenus,

la pertinence clinique.4. l’intégration des conclusions retenues pour répondre à la question initiale posée.

Ces étapes présentent la démarche systématique de l’EBM. La question se formule selonle modèle PICO élaboré par la Cochrane Collaboration. Les questions posées concernent lediagnostic, l’étiologie, le traitement, le pronostic selon le modèle PICO comme suit :— P : Patient (âge, sexe..) et le problème qu’il pose Who is affected ?— I : Intervention qu’est ce qui est envisagé ? Qu’est ce qui est fait ? L’intervention envisagée

peut être une méthode de diagnostic ou de traitement.— C : Comparaison par rapport à une autre intervention, How effective are different inter-

ventions ?— O : Output qui représente l’issue clinique recherchée, Does it work ?

De nombreux travaux (Schardt et al., 2007; Boudin et al., 2010a; Boudin et al., 2010b;Boudin et al., 2010d) se sont intéressés à l’identification de ces éléments PICO à partir desrequêtes et des documents dans le contexte de la RI médicale. Cette phase est primordialepour une utilisation optimale de ces facettes dans les modèles de RI médicaux. Un deuxièmevolet des travaux est l’utilisation des éléments PICO dans la RI médicale. Peu de travauxont été proposés dans ce cadre (Boudin et al., 2010d), vu la complexité de l’identificationpertinente des facettes à partir du texte, ainsi que la mise en évidence des preuves et leurintégration dans un modèle de RI qui intègre le contexte de recherche spécifique et assure lapertinence des résultats pour la prise de décision médicale.Dans ce contexte, nous nous intéressons particulièrement dans cette partie du manuscrit,à la problématique de répondre au mieux aux questions cliniques PICO, qui comporte uneidentification explicite de ces facettes et leur utilisation dans la recherche d’information.

Dans ce cadre, nous présentons nos contributions sous forme de trois sections dans le chapitre4 :

— Une représentation sémantique sous forme de graphes des requêtes PICO. Nous proposonspour cela un algorithme de génération de graphes conceptuels.

— Une approche d’expansion sémantique de requêtes pour mieux répondre aux questionsPICO. Pour atteindre cet objectif, nous avons proposé deux algorithmes : un premieralgorithme permettant de sélectionner les meilleurs concepts à partir des graphes sé-mantiques, un deuxième algorithme pour l’expansion de requêtes en se basant sur uneapproche de propagation de scores.

92

Page 105: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

— Une méthode d’ordonnancement des documents permettant de calculer les scores depertinence selon une approche d’agrégation prioritaire des scores selon les facettes PICO.

Dans le chapitre 3, nous détaillons les facteurs caractéristiques des requêtes expertes et les mé-thodes statistiques utilisées pour nos analyses exploratoires ainsi que l’étude de l’impact de cesfacteurs sur la pertinence des résultats. Dans le chapitre 4, nous présentons nos contributionsvisant à mieux répondre aux requêtes PICO.

93

Page 106: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier
Page 107: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Chapitre 3

Analyses statistiques exploratoiresdes facteurs caractéristiques des re-quêtes expertes

Sommaire1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 962 Motivations et questions de recherche . . . . . . . . . . . . . . . . . 96

2.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 962.2 Objectifs et questions de recherche . . . . . . . . . . . . . . . . . . . . 97

3 Définition et formalisation des attributs de requêtes . . . . . . . . 993.1 Longueur de la requête . . . . . . . . . . . . . . . . . . . . . . . . . . . 993.2 Spécificité de la requête . . . . . . . . . . . . . . . . . . . . . . . . . . 1003.3 Clarté de la requête . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

4 Caractérisation du besoin en information des experts du domainemédical . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

4.1 Description des données d’analyses . . . . . . . . . . . . . . . . . . . . 1034.1.1 Collections de la campagne d’évaluation TREC . . . . . . . . 1034.1.2 Collections de la campagne d’évaluation CLEF . . . . . . . . 104

4.2 Analyses et résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1064.2.1 Identification des Caractéristiques de requêtes . . . . . . . . 1064.2.2 Analyses de corrélation des attributs de requêtes . . . . . . . 108

4.3 Synthèse et discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . 1094.3.1 Analyses multidimensionnelles des corrélations entre les at-

tributs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1104.3.2 Impact des attributs des requêtes sur les performances de

recherche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1125 Caractérisation des requêtes PICO . . . . . . . . . . . . . . . . . . . 114

5.1 Analyses descriptives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1145.2 Analyses de corrélations entre attributs de requêtes PICO . . . . . . . 115

6 Bilan et conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

95

Page 108: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

1 Introduction

Dans ce chapitre, nous nous intéressons au contexte de la RI biomédicale, où les utilisateurssont caractérisés par un niveau d’expertise vis-à-vis du besoin en information. Nous abordonsle problème de la caractérisation des requêtes des experts médicaux. En effet, les investigationsde recherche portant sur l’analyse de comportements des utilisateurs de SRI médicaux, surl’analyse de la formulation des requêtes médicales ainsi que sur les pratiques de rechercheont montré que plusieurs facteurs contribuent au succès ou à l’échec de la recherche etimpactent la pertinence des résultats (Richesson et al., 2010; Cartright et al., 2011; Lykkeet al., 2012). À la différence des précédents travaux dans le domaine, notre objectif n’estpas d’évaluer l’impact du degré d’expertise sur les résultats de recherche en considérant unepopulation large d’utilisateurs, mais de caractériser les requêtes expertes du point de vue dela formulation, en considérant la tâche médicale associée qui constitue son contexte.

Nous proposons deux volets de travaux portant sur le besoin des experts médicaux : (1)l’analyse des requêtes expertes pour caractériser le besoin des experts médicaux, via l’analysedes attributs de requêtes et de leur impact sur la pertinence des résultats ; et (2) l’analyse desattributs de requêtes PICO. Nous avons mené des études exploratoires expérimentales pourla caractérisation du besoin en information des experts du domaine médical (Znaidi et al.,2013a; Znaidi et al., 2013b). Dans la littérature de la recherche d’information, nous avonsconstaté que comprendre les intentions des utilisateurs lors de la formulation de leurs requêtesest très important pour améliorer la phase de sélection des résultats pertinents. Plusieursétudes ont analysé comment les utilisateurs effectuent des recherches exploratoires dans desenvironnements numériques, mais peu se sont intéressées à comprendre comment les requêtessont formulées spécifiquement par les experts du domaine. Cette étude vise à combler cettelacune en analysant un ensemble de requêtes expertes issues de différentes tâches médicales.

Nous nous sommes intéressés aussi à l’analyse des besoins en information exprimés par desexperts médicaux dans l’objectif de les caractériser puis mesurer l’impact de leur structuresur la performance des résultats de recherche. À cet effet, nous menons une étude exploratoirebasée sur des analyses statistiques multidimensionnelles sur des collections de requêtes issuesde campagnes d’évaluation internationales standards en l’occurrence, TREC et CLEF.

La suite du chapitre est organisée comme suit. La section 2 présente les motivations et introduitles questions de recherche de nos contributions. La section 3 détaille la formalisation desattributs de requêtes que nous avons défini. Nous présentons dans la section 4 les résultatsdes analyses statistiques, en détaillant les données, les méthodes et les résultats obtenus. Lasection 5 conclut le chapitre.

2 Motivations et questions de recherche

2.1 Motivations

Les professionnels de santé représentent une classe sensible de personnes en raison de leurbesoin d’un accès à l’information médicale d’une bonne qualité afin d’améliorer leur qualitéde service (Case, 2012). De ce point de vue, la qualité de l’information médicale disponiblesur Internet est un facteur critique pour la réalisation de services de soins de santé de haute

96

Page 109: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

qualité et la prise de décision (Hersh, 2009; Jamal et al., 2009; Clarke et al., 2013). Dans lecontexte des soins de santé, cela nécessite une bonne connaissance et une demande accrue desavoir-faire spécialisé qui ont un effet sur la formulation des besoins en information pour lepersonnel médical et infirmier (Thain et Wales, 2005). En outre, cette complexité a généréune hétérogénéité des besoins en information, qui varient selon les différentes spécialités etles fonctions des professionnels de la santé. Par exemple, dans (Kostagiolas et al., 2014), lesauteurs ont conclu que plusieurs facteurs influencent la décision des professionnels de santécomme la motivation personnelle, en soulignant le rôle important des ressources d’informationmédicale.

Dans les deux dernières décennies, de nombreuses études et revues ont été publiées dans ledomaine de la RI médicale, afin de souligner l’importance d’étudier le besoin en informationdes experts pour améliorer la prise de décision médicale (White et al., 2008; Francke et al.,2008; Xiao et al., 2014).En effet, exprimer des requêtes qui reflètent un besoin en information clair et précis est unetâche difficile dans tous les domaines et même pour les utilisateurs experts (Spink et Jansen,2006; White et Moris, 2008). Ainsi, identifier l’intention des utilisateurs cachée derrière lesrequêtes qu’ils soumettent aux systèmes de RI est un problème complexe.

Malheureusement, la littérature a révélé qu’en dépit de la diversité des systèmes médicauxdisponibles et la diversité des sources d’information utilisées, les utilisateurs se trouvaienttoujours en difficulté pour sélectionner les informations pertinentes qui répondent à leursbesoins spécifiques (Zeng et al., 2004; Arora et al., 2007). Pour répondre à cette question,plusieurs études ont porté sur l’analyse du comportement des personnes qui recherchentl’information médicale, incluant les attitudes, les stratégies de recherche, les tâches et lesrequêtes (Hong et al., 2002; Wildemuth, 2004; Toms et Latter, 2007). Ces études concernentun grand nombre de sujets sur les paramètres de recherche Web générale, avec des condi-tions expérimentales non contrôlées, ce qui rend difficile de généraliser leurs conclusionsà des recherches d’experts impliqués par les médecins. En outre, la plupart de ces étudesont porté sur le comportement de recherche grâce à des stratégies et des tactiques de recherche.

2.2 Objectifs et questions de recherche

Les études antérieurs dans le contexte de la caractérisation du besoin médical concernaientgénéralement des populations larges et/ou ciblées dans des scénarios de recherche qui sontcependant non reproductibles. Contrairement aux travaux de l’état de l’art, nous abordonsplus spécifiquement la recherche basée sur le besoin expert des cliniciens du domaine à traversl’analyse des différentes facettes d’attributs de requêtes définis et formalisés, à savoir : lalongueur de la requête (en termes et en concepts), la spécificité de la requête (spécificitéterme-document et spécificité hiérarchique) et la clarté de la requête (clarté basée sur lesujet de la requête et clarté basée sur la pertinence), en utilisant des mesures appropriéesproposées et construites selon différentes sources de données.

Notre objectif est de caractériser les requêtes expertes du point de vue de la formulation, enconsidérant la tâche médicale associée qui constitue son contexte. Nous nous sommes inté-ressés à l’analyse des requêtes d’experts médicaux, établies dans des scénarios de recherchereproductibles puisqu’elles sont issues de campagnes d’évaluation standards dans le domaine

97

Page 110: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

de la RI. De plus, notre analyse est exploratoire et adossée à des tâches biomédicales bienspécifiques dans le cadre de ces mêmes campagnes.Pour atteindre cet objectif, nous avons procédé à une analyse statistique approfondie desrequêtes issues des campagnes d’évaluation de la recherche d’information, à savoir TREC etCLEF, destinées à différentes tâches médicales avec des paramètres d’évaluation contrôlés.

Notre étude expérimentale comprend une analyse statistique de corrélations entre pairesd’attributs, une analyse multidimensionnelle à travers les différentes tâches caractérisant lescollections, ainsi qu’une étude de l’impact des attributs de requêtes sur la performance de RI.Ainsi, l’objectif principal est d’identifier les particularités de la RI des experts médicaux dansle but de personnaliser la recherche qui impacte la RI médicale et les décisions cliniques.

Nos objectifs de recherche sont les suivants :— Caractériser le besoin en information des experts du domaine médical ;— Étudier l’impact du contexte de la tâche sur la performance de RI ;— Étudier les attributs de requêtes expertes.

Pour atteindre ces objectifs, nous formalisons tout d’abord un ensemble de facettes d’attributsde requête, à savoir :— Attribut 1 : La longueur de la requête. Nous proposons d’étudier deux facettes de

l’attribut longueur, qui sont la longueur en nombre de termes et la longueur en nombrede concepts. En effet, dans (Cartright et al., 2011), les auteurs ont montré l’impact dunombre de termes utilisés pour formuler la requête sur la performance de recherche. Parailleurs, la longueur en nombre de concepts permet de traduire en quelle mesure lesutilisateurs utilisent les terminologies médicales en s’appuyant sur leurs connaissancesdu domaine pour formuler les requêtes médicales.

— Attribut 2 : La spécificité de la requête. Nous proposons deux facettes de la spécificité :spécificité terme-document et spécificité hiérarchique. La spécificité est considérée commeun critère important pour identifier les descripteurs (Jones, 1972). Pour cette raison,nous avons considéré les deux facettes précédentes ; la première est basée sur les termeset représente la singularité des termes dans les documents et une deuxième spécificitéconceptuelle est basée sur la profondeur du sens des termes selon la hiérarchie MeSH.

— Attribut 3 : La clarté de la requête. Nous étudions deux facettes de la clarté, à savoirla clarté basée sur le sujet de la requête et la clarté basée sur la pertinence. Nous avonsproposé deux facettes de l’attribut clarté vu son importance dans la mesure de l’ambiguïtédu sujet de la requête. Les deux facettes de clarté représentent deux mesures différentes :la première représente la divergence entre le modèle de langue de la requête et celui dudocument, et la deuxième se base sur le nombre de termes en commun partagés entre lesrequêtes et les documents.

Nous menons ensuite des analyses statistiques exploratoires sur un ensemble de requêtesexpertes issues de diverses tâches médicales, à savoir : TRECMedical, ImageCLEF etTRECGenomics. Cette diversité nous conduira à caractériser le besoin en information desexperts du domaine médical du point de vue de leur formalisation ainsi que de leur utilisationdans la tâche de recherche d’information.

Nous mettons en œuvre des analyses descriptives, des analyses de corrélations entre facettesdeux à deux, des analyses de corrélations multidimensionnelles basée sur une Analyse aux

98

Page 111: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Composantes Principales (ACP), et des analyses comparatives par tâche et toutes tâchesconfondues.

Nous nous sommes appuyés sur les résultats de performance des requêtes en terme de précision,d’une part pour décrire chaque tâche médicale selon son niveau de performance ; et analyser leséventuelles corrélations entre les mesures de performance et pour expliquer les performancesde recherche en fonction des attributs via une analyse de covariance multivariée (MANCOVA),d’autre part.

3 Définition et formalisation des attributs de requêtes

Dans notre étude, nous considérons un scénario de recherche d’information médicale, oùun expert du domaine soumet une requête Q pour une collection de documents C. Nousproposons trois attributs qui caractérisent les requêtes : 1) la longueur, 2) la spécificité et3) la clarté. Nous proposons une formalisation de ces trois attributs, et nous justifions leurutilisation.

Nous avons formalisé un ensemble de facettes d’attributs de requêtes (Cf. Tableau 3.1) ,définies et formalisées dans les sous-sections suivantes.

Attributs Facette 1 Facette 2Longueur de la requête Nombre de termes Nombre de conceptsSpécificité de la requête Spécificité terme-document Spécificité hiérarchiqueClarté de la requête Clarté basée sur le sujet de la requête Clarté basée sur la pertinence

Tableau 3.1 – Formalisation des facettes des attributs de requêtes

Nous considérons pour le reste du chapitre les notations définies par le Tableau 3.2.

3.1 Longueur de la requête

Comme mentionné dans l’état de l’art, le facteur de la longueur des requêtes médicales aété étudié dans le cadre de plusieurs travaux (Hong et al., 2002; Zeng et al., 2002b; Spinket al., 2004). Ces derniers ont rapporté que les requêtes sont courtes et que cela impacteles résultats de recherche. En effet, le nombre de termes utilisés dans la formulation de larequête joue un rôle important dans les résultats retournés par les SRI, dans la mesure où ilspeuvent augmenter le bruit s’il y a des termes non pertinents ou qui ne représentent pas lebesoin spécifique exprimé. De plus, les experts formulent leurs requêtes en se référant à uneou plusieurs terminologies médicales comme MeSH ou UMLS (Zeng et al., 2002a; Zeng et al.,2002b; Jonnalagadda et al., 2012), ce qui explique la présence des concepts médicaux. Ceprocédé très utilisé par les experts n’est pas très efficace quand le concept concerne plusieurstraitements ou maladies, ce qui crée l’ambiguïté et donc induit des résultats de recherche nonpertinents.Dans le cadre de notre étude, nous définissons deux facettes de l’attribut longueur :

— Longueur en nombre de termes (LgT(Q)) : concerne la longueur de la requête ennombre de termes. Nous considérons ainsi le nombre de mots significatifs utilisés pourformuler les requêtes.

99

Page 112: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Notation DéfinitionQ requêteC collectionN nombre total de documents dans la collection CV le vocabulaire de la collectionR l’ensemble des documents qui contiennent au moins un terme de la requêted un documentti un termeci un conceptni le nombre de documents contenant le terme tiLgT (Q) longueur de la requête en nombre de termesLgC(Q) longueur de la requête en nombre de conceptsDSpe(Q) spécificité terme-documentHspe(Q) spécificité hiérarchiqueSCla(Q) clarté basée sur le sujet de la requêtePCla(Q) clarté basée sur la pertinencetermes(Q) ensemble de termes de la requête QConcepts(Q) ensemble de concepts de la requête Qlevel(ci) le niveau du concept ci dans MeSHMaxlevel(MeSH) le niveau maximal de la hiérarchie MeSHPC(t) la fréquence relative du terme tP (t|Q) est estimé par P (t|Q) =

∑d∈R P (t|d)P (d|Q)

R(Q) ensemble de documents pertinents pour la requête Q jugés par les experts|Concepts(d)| le nombre de concepts extraits des documents|Concepts(Q)| le nombre de concepts extraits des requêtes

Tableau 3.2 – Tableau des notations

— Longueur en nombre de concepts (LgC(Q)) : c’est la longueur de la requête ennombre de concepts. Ces concepts représentent les entrées préférées (termes préférésdésignant le concept) issues de la terminologieMeSH. Notre choix de cette terminologie sejustifie par le fait que c’est l’ontologie la plus utilisée dans le domaine médical. Pour cela,chaque requête est liée à la terminologie MeSH, en utilisant la technique d’extraction deconcepts contextuelle proposée dans (Dinh et Tamine, 2011a). Cette méthode s’appuiesur une technique d’indexation sémantique pour récupérer les documents médicaux àtravers un processus d’identification de concepts du domaine extraits de MeSH.

Le Tableau 3.3 donne un exemple de requêtes avec le nombre de termes et de concepts extraitspour différentes tâches médicales.

3.2 Spécificité de la requête

La spécificité est une propriété sémantique des termes de l’index : la spécificité d’un termeest définie comme le niveau de détail et de précision de son sens.

Dans notre étude, nous nous sommes intéressés à deux facettes de la spécificité, à savoir :

— Spécificité terme-document (Dspe(Q)) : la spécificité terme-document désignel’unicité des termes de la requête dans l’index de la collection de documents. Notrehypothèse justifiant l’utilisation de la spécificité terme-document s’énonce comme suit :moins la collection contient des termes de la requête, plus les sujets de la requête sont

100

Page 113: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Id Collection Description # Termes # Concepts102 TRECMedical 2011 Patients with complicated

GERD who receive endoscopy7 2

32 ImageCLEF 2011 Pain and incapacity to moveafter an accident. Slight defor-mation can be seen in the x-ray

16 2

6 TRECGenomics03 phosphatase and tensin homo-log (mutated in multiple ad-vanced cancers 1)

11 2

OHSU1 Ohsumed 50 year old menopausal wo-man without hormone replace-ment therapy

9 2

Tableau 3.3 – Exemples de requêtes avec les facettes de la longueur

spécifiques. Elle est calculée par :

DSpe(Q) = 1LgT (Q) ∗

∑ti∈termes(Q)

−log(niN

) (3.1)

Où LgT (Q) est la longueur de la requête en nombre de termes, termes(Q) est l’ensembledes termes de la requête, ni est le nombre de documents contenant le terme ti et N estle nombre total des documents de la collection C.

— Spécificité hiérarchique (Hspe(Q)) : la spécificité hiérarchique dépend de la pro-fondeur du sens du concept défini dans la terminologie MeSH. Nous avons exploité laposition arborescente des concepts dans la hiérarchie MeSH. Notre hypothèse est qu’unconcept fils est plus spécifique que le concept père dans la hiérarchie de la terminologie.Nous définissons la spécificité hiérarchique de la manière suivante :

HSpe(Q) = 1LgC(Q) ∗

∑ci∈Concepts(Q)

level(ci)− 1Maxlevel(MeSH)− 1 (3.2)

où LgC(Q) est la longueur de la requête en nombre de concepts, Concepts(Q) est lenombre de concepts de la requête, level(ci) est le niveau du concept ci dans MeSH,Maxlevel(MeSH) est le niveau maximal de la hiérarchie MeSH.

Le Tableau 3.4 donne un exemple de requêtes avec les deux facettes de la spécificité pour lescollections TREC Medical 2011 et ImageCLEF 2011.

3.3 Clarté de la requête

D’une manière générale, une requête claire dégage un sens pertinent et significatif du sujet,tandis qu’une requête ambiguë dégage une variété de sujets et de significations/sens qui nesont pas corrélés. L’attribut de la clarté reflète d’une manière générale le degré d’ambiguïté dela requête par rapport au document retourné. Nous proposons deux facettes pour l’attributde la clarté :

101

Page 114: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Id Collection Description DSpe(Q) Hspe(Q)104 TRECMedical 2011 Patients diagnosed with loca-

lized prostate cancer and trea-ted with robotic surgery

0.543 0.271

40 ImageCLEF 2011 Young female gymnast pre-sents with leg pain

0.147 0.253

Tableau 3.4 – Exemples de requêtes avec les facettes de la spécificité

— Score de clarté basé sur le sujet de la requête (SCla(Q)) : le score de clartéd’une requête est calculé par la divergence de Kullback-Leibler entre le modèle de languede la requête et le modèle de langue de la collection, donnée par (Cronen-Townsend etCroft, 2002), soit :

SCla(Q) =∑t∈V

P (t|Q)log2P (t|Q)PC(t) (3.3)

où V est le vocabulaire de la collection, t un terme, PC(t) est la fréquence relative duterme t et P (t|Q) est estimée comme suit :

P (t|Q) =∑d∈R

P (t|D)P (D|Q) (3.4)

où d est un document, R est l’ensemble des documents qui contiennent au moins unterme de la requête.

— Score de clarté basé sur la pertinence (PCla(Q)) : une requête est supposée êtred’autant plus claire qu’elle partage plus de concepts avec les documents jugés pertinentspar les experts. Cette hypothèse est la base des modèles de recherche d’information. Parconséquent, nous calculons PCla(Q) comme suit :

PCla(Q) = 1R(Q) ∗

∑d∈R(Q)

|Concepts(Q) ∩ Concepts(d)|LgC(Q) (3.5)

où R(Q) est l’ensemble de documents pertinents pour la requête Q jugés par les experts,Concepts(d), (respectivement Concepts(Q)), est l’ensemble de concepts des documents(respectivement des requêtes).

Le Tableau 3.5 donne un exemple de requêtes avec les deux facettes de la clarté pour lescollections TRECGenomics 2003 et ImageCLEF 2011.

4 Caractérisation du besoin en information des experts du do-maine médical

Cette section détaille les méthodologies d’analyse avec lesquelles nous étudions comment lesrequêtes sont formulées spécifiquement par les utilisateurs experts du domaine médical ainsique les résultats des analyses expérimentales conduites.

102

Page 115: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Id Collection Description SCla(Q) PCla(Q)3 TRECGenomics 2003 eukaryotic translation initia-

tion factor 4E0,083 0,0071

38 ImageCLEF 2011 68-year-old male, GlasgowComa Score of 6. Foundunconscious by family.

0,091 0,0087

Tableau 3.5 – Exemples de requêtes avec leurs différents scores de clarté

Nous étudions 173 requêtes médicales expertes issues de 3 tâches de RI médicales dans lecadre de deux campagnes d’évaluation différentes, CLEF et TREC. Les tâches représententdifférentes collections de plusieurs années de TRECMedical, ImageCLEF et TRECGenomics.Nous procédons à des analyses statistiques pour étudier, d’une part, les variations et lescorrélations des attributs de requêtes médicales définis auparavant, à savoir : la longueur, laclarté et la spécificité , et, d’autre part, l’impact des attributs de requêtes sur les résultats derecherche.

4.1 Description des données d’analyses

Pour réaliser l’étude statistique, nous avons utilisé les données issues de deux campagnesd’évaluation du domaine de RI, à savoir : TREC et CLEF. Nous avons exploité les requêtes,les documents et les données de jugement de pertinence des médecins en suivant les différentestâches de la RI médicale. Des statistiques des différentes collections de test utilisées dansnotre étude sont illustrées dans le Tableau 3.6. Nous décrivons dans ce qui suit chacune descollections.

Collections Nb.requêtes Nb.documentsTREC Medical 2011 35 95, 701TREC Genomics 2003 50 525, 938TREC Genomics 2004 50 4, 591, 008TREC Genomics 2006 28 55634ImageCLEF 2011 10 55, 635

Tableau 3.6 – Descriptions des collections utilisées pour l’analyse

4.1.1 Collections de la campagne d’évaluation TREC

Dans le cadre de nos analyses, nous nous sommes intéressés à deux collections de la recherchemédicale ad hoc, à savoir : TREC medical et TREC Genomics, décrites dans ce qui suit.

— TREC Medical record task : la tâche de recherche consiste à identifier les groupes pourcomparer l’efficacité de la recherche. Les requêtes décrivent un ensemble de maladieset états développés par les médecins et les documents représentent des rapports devisites médicales. Pour nos analyses, nous avons utilisé la tâche TREC Medical 2011qui comprend 35 requêtes et 95701 documents. Le Tableau 3.7 donne des exemples derequêtes de la collection TRECMedical 2011.

103

Page 116: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

101 : Patients with hearing loss.102 : Patients with complicated GERD who receive endo-scopy.103 : Hospitalized patients treated for methicillin-resistantStaphylococcus aureus (MRSA) endocarditis.104 : Patients diagnosed with localized prostate cancer andtreated with robotic surgery.

Tableau 3.7 – Exemples de requêtes de la collection de test de la tâche TRECMedical 2011.

— TREC Genomics series task : TREC Genomics représente la tâche la plus courammentutilisée en RI biomédicale. La tâche modélise un cadre où un utilisateur qui cherche l’in-formation sur le génome exprime une requête et la soumet à un moteur de recherche qui sebase sur une collection de documents médicaux de la littérature scientifique MEDLINE.Pour nos analyses, nous exploitons la TRECGenomics 2003 qui traite les noms de gènes(50 requêtes et 525928 documents), TRECGenomics 2004 où les besoins en informationsont exprimés en acronymes (50 requêtes et 4591008 documents) et TRECGenomics 2006qui concerne la question-réponse (28 requêtes et 55634 documents). Le Tableau 3.8 donnedes exemples de requêtes des différentes collections de TRECGenomics.

TrecGeomics2003 Protein tyrosine phosphatase, non-receptor type 1.TrecGeomics2004 How do AAA proteins mediate interaction with lipids or

DNA and what is their functional impact ?TrecGeomics2006 How do alpha7 nicotinic receptor subunits affect ethanol me-

tabolism ?

Tableau 3.8 – Exemples de requêtes de différentes collections de test de la tâche TRECGenomics.

4.1.2 Collections de la campagne d’évaluation CLEF

ImageCLEF case-based task. Le but de cette tâche est de chercher et sélectionner les casde patients en se basant sur des images que les médecins jugent pertinents par rapport àdifférents diagnostics. Les requêtes ont été créées à partir d’une base médicale de cas depatients existante, qui comprend la description démographique des patients, les symptômes,les résultats de tests ainsi que les études d’images.Le Tableau 3.9 synthétise les descriptions des différentes collections de test utilisées pourl’analyse.

104

Page 117: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Collection-Requête TRECMedical11 ImageCLEF11 TRECGenomics03 TRECGenomics04 TRECGenomics06Moyenne σ Moyenne σ Moyenne σ Moyenne σ Moyenne σ

Nombre de requêtes 35 10 50 50 28

Critères

LgT(Q) 7,22 2,85 24 15,9 4,6 2,41 9,4 3,35 9 2,91LgC(Q) 3,22 1,28 5,2 2,61 1,36 0,72 2,52 1,31 2,46 1,31DSpe(Q) 0,44 0,07 0,17 0,08 0,25 0,08 0,0010 0,0016 0,0070 0,0076HSpe(Q) 0,20 0,13 0,13 0,06 0,26 0,21 0,27 0,31 0,20 0,07SCla(Q) 1.10 0,84 0,95 0,69 1,5 0,80 1,32 0,90 1,28 0,84PCla(Q) 0,026 0,03 0,041 0,027 0,19 0,16 0,003 0,001 0,007 0,004

Tableau 3.9 – Récapitulatif des critères selon la tâche médicale.

105

Page 118: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

4.2 Analyses et résultats

Nous présentons dans ce qui suit les méthodologies des analyses statistiques ainsi que lesrésultats obtenus en utilisant deux outils d’analyse principaux : SAS statistiques et R. Deplus, notre analyse est exploratoire et adossée à des tâches biomédicales bien spécifiques dansle cadre de ces mêmes campagnes. À notre connaissance, aucune étude de requêtes médicalescapitalisées lors des différentes campagnes d’évaluation TREC et CLEF n’a été menée à cejour.

4.2.1 Identification des Caractéristiques de requêtes

Pour identifier les différences entre les collections issues des différentes tâches médicales, nousavons commencé par des analyses statistiques descriptives. La Figure 3.1 montre la distribu-tion des six facettes des attributs de requêtes par collection et pour l’ensemble des requêtes,présentées par des boites à moustache.Nous avons procédé à des analyses de variance (i.e., non-parametric Kruskall Wallis testadapté aux petits échantillons) dans le but de comparer les moyennes des scores des facettesd’attributs de requêtes et détecter les différences significatives entre les collections étudiées(indiquées par p-value<0,05 ).

À partir des figures 3.1.(a) et 3.1.(b), nous observons des tendances similaires pour les deuxattributs de la longueur. De plus, l’attribut longueur de la requête est significativementdifférent entre les 5 collections (p-value<0,0001 ) malgré le fait que toutes les requêtesreprésentent des besoins en information des experts. La valeur la plus élevée pour l’attributlongueur a été observée pour la collection ImageCLEF avec des nombres moyens de 24 termeset 5 concepts. À l’opposé, les requêtes les plus courtes ont été observées pour la collectionTRECGenomics 2003 avec en moyenne 4, 6 termes et 1, 4 concepts.

Cela peut s’expliquer par les différences majeures des tâches associées. En effet, pourImageCLEF, les médecins expriment des requêtes longues qui décrivent les cas des patientsincluant des images alors que pour TRECGenomics 2003, les experts médicaux expriment desrequêtes courtes sur les noms de gènes. De ce fait, il est rare d’utiliser les concepts médicauxà partir d’une ressource terminologique.

Les figures 3.1.(c) et 3.1.(d) représentent les distributions respectives des scores de spécificitéterme-document et spécificité hiérarchique basée sur la terminologie MeSH. En considérantles définitions de ces deux facettes, les scores sont différents. On observe des écarts significatifspour la spécificité terme-document à travers toutes les collections (p-value<0,0001 ), tandisque les spécificités hiérarchiques ne sont pas significativement différentes entre les collections.Comme le montre la figure 3.1.(c), les collections TRECGenomics 2004 et TRECGenomics2006 sont caractérisées par des valeurs faibles de la spécificité terme-document (valeurmaximale de 0, 000964 pour TRECGenomics 2004 et 0, 0032 pour TRECGenomics 2006 ),comparés aux autres collections (0, 549 pour TRECMedical 2011 et 0, 310 pour ImageCLEF2011 ). Cela peut être expliqué par la nature de la tâche : dans la collection TRECGenomics2004, les experts utilisent d’une manière intensive les acronymes et les abréviations qui sontmal répartis dans les documents MEDLINE. Dans TRECGenomics 2006, les requêtes sontexprimées sous forme de questions basées sur des entités spécifiques portant sur les gènes et

106

Page 119: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

(a) Longueur en termes (b) Longueur en concepts

(c) Spécificité terme-document (d) Spécificité hiérarchique

(e) Clarté basé sur le sujet (f) Clarté basé sur la pertinence

Figure 3.1 – Distribution des facettes d’attributs de requêtes par collection

les protéines.

En ce qui concerne la spécificité hiérarchique, nous observons une plage de valeurs plus largepour TRECGenomics 2003, TRECGenomics 2004 et potentiellement TRECMedical 2011.Cela indique que les experts médicaux utilisent des termes médicaux spécifiques à traversles terminologies. Les valeurs les plus élevées des attributs de la spécificité indiquent queles experts utilisent leurs connaissances du domaine médical afin d’exprimer leur besoin eninformation spécifique.

107

Page 120: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Par ailleurs, en analysant l’attribut de la clarté des Figures 3.1.(e) et 3.1.(f), nous observonsdes différences entre les collections. Ces dernières sont plus importantes pour la clarté baséesur la pertinence (p-value<0,0001 ) que pour la clarté basée sur le sujet (p-value<0,05 ).Cela est probablement dû à la large variance des scores de cette dernière comme illustréepar les boites a moustache dans la Figure 3.1.(e). Cependant, il y a des tendances simi-laires : les scores les plus élevés sont identifiés pour les requêtes TRECGenomics 2003,par opposition de ceux de ImageCLEF. Cela indique que la recherche sur les gènes et lesprotéines favorise l’expression de requêtes non ambiguës alors que les descriptions de cas depatients montre les différentes intentions des experts. On a précédemment découvert queles requêtes sur les gènes et les protéines sont courtes, on peut ainsi conclure que les re-quêtes courtes peuvent être claires et que cela dépend de la nature de la tâche de RI concernée.

4.2.2 Analyses de corrélation des attributs de requêtes

Nous visons à étudier les liens entre les facettes d’attributs de requêtes. En d’autres termes,notre but est d’identifier les corrélations significatives qui peuvent caractériser les requêtesmédicales expertes. Dans un premier temps, nous analysons les corrélations entre chaquefacette au sein de la même collection médicale. Dans un deuxième temps, nous étudions lescorrélations entre attributs des différentes collections. Pour étudier les corrélations entre lesattributs de requêtes, nous avons calculé le coefficient de Spearman (Spearman correlationcoefficient ρ) entre les six attributs quantitatifs des requêtes. Nous présentons les corrélationsfortement significatives dans le Tableau 3.10.

Pour les quatre collections les plus importantes en nombre de requêtes et documents, à savoir,TRECMedical 2011, TRECGenomics 2003 2004 et 2006, nous observons systématiquementdes corrélations significatives positives entre les deux facettes de longueur en nombre de termeset en nombre de concepts (pvalue <0,0001 ). Intuitivement, nous l’expliquons ainsi :1. Une entrée d’un concept biomédical dans la terminologie est généralement, par définition,

un ensemble de termes. En effet, dans la terminologie MeSH, les concepts médicaux sontreprésentés par un ou plusieurs termes.

2. La deuxième raison, comme mentionné dans le précédent chapitre, est liée à la stratégiede recherche des experts médicaux, qui cherchent l’information médicale en favorisantl’utilisation des concepts en se basant sur leurs connaissances du domaine.

Nous observons également que toutes les corrélations significatives entre attributs impliquentla longueur de la requête en nombre de termes associés, reflétant l’importance de cette facettedans la caractérisation des besoins en information des experts du domaine. Nous pouvonségalement observer d’autres corrélations significatives sur les autres collections. Notons queces corrélations ne sont pas systématiques.

Dans les collections TRECMedical et TRECGenomics 2006, nous observons des corrélationssignificatives positives entre le nombre de termes et la spécificité basée sur le sujet de larequête. Cela peut être expliqué en partie par le fait que, selon la Formule (3.3), plus la requêteest longue, plus sa spécificité basée sur le sujet est importante. D’une manière générale, lesscores de corrélation sont particulièrement élevés pour les deux collections, ce qui est dû à lanature de la tâche de recherche indépendamment de la représentation du besoin sous la forme

108

Page 121: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

d’une requête simple ou d’une question factuelle liée à un cas de patient spécifique. Toutefois,la longueur de la requête en nombre de termes et la spécificité hiérarchique sont corréléesnégativement pour la collection TRECGenomics 2003 (pvalue < 0,0001 ). Cela s’explique parla nature de la tâche ainsi que du fait que la terminologie MeSH utilisée pour extraire lesconcepts n’est probablement pas appropriée. L’utilisation de l’ontologie GENE Ontology pouridentifier les termes spécifiques est probablement la ressource la plus adéquate pour cettetâche. Enfin, pour la collection ImageCLEF, il n’existe aucune corrélation significative entreles attributs de requête. Cela s’explique par le nombre faible de requêtes de cette collection.

Collection Facette1 Facette2 ρ p− valueTREC Medical2011 (N = 35) LgT (Q) LgC(Q) 0, 69 < 0, 0001

LgT (Q) DSpe(Q) 0, 39 < 0, 02TREC Genomics2003 (N = 50) LgT (Q) LgC(Q) 0, 55 < 0, 0001

LgT (Q) HSpe(Q) −0, 54 < 0, 0001TREC Genomics2004 (N = 50) LgT (Q) LgC(Q) 0, 47 < 0, 001TREC Genomics2006 (N = 28) LgT (Q) LgC(Q) 0, 67 < 0.0001

LgT (Q) DSpe(Q) 0, 58 < 0, 001

Tableau 3.10 – Résultats des corrélations entre les facettes d’attributs de requêtes des différentescollections

4.3 Synthèse et discussion

Les résultats d’analyses issues de cette étude donnent un aperçu détaillé sur les particularitésdes requêtes des experts du domaine médical selon les différentes tâches du domaine (Znaidiet al., 2013a; Znaidi et al., 2013b). Les principales conclusions montrent que contrairementaux requêtes des utilisateurs qui cherchent l’information de santé sur internet (Zeng et al.,2002b), les requêtes des médecins sont relativement longues et dépendent de la nature de latâche : la recherche de cas de patients se caractérise par des requêtes plus longues comparéeà la recherche basée sur les entités. En effet, les médecins utilisent leurs connaissances dudomaine ainsi que les ressources sémantiques pour formuler les requêtes, ce qui rend leurrecherche plus spécifique, particulièrement pour la recherche des cas de patients.

Ces différentes constatations suggèrent de nouvelles fonctionnalités pour la conceptiondes futurs systèmes de RI médicaux, telles que la reformulation et suggestion de requêtesutilisant les niveaux de terminologies appropriées pour améliorer la clarté de la requête, lapersonnalisation des résultats de recherche basés sur le niveau d’expertise, la catégorie desrequêtes et la tâche de RI (Znaidi et al., 2013b).

De plus, la spécificité de la requête des experts est influencée par la nature de la tâche in-diquant, d’une part, l’utilisation d’acronymes et d’abréviations qui sont fréquents/répandusdans la collection MEDLINE, d’une autre part, l’usage significatif par les experts de leursconnaissances du domaine. Nos analyses ont également montré que rechercher les informa-tions sur les gènes et les protéines favorise l’expression des requêtes clairement formulées alorsque les descriptions des cas de patients sont traduites de façon plus ambiguë par les expertsce qui laisse supposer que l’appariement de cas pathologiques est une tâche experte.Dans ce qui suit, nous présentons notre deuxième contribution dans le cadre des analyses

109

Page 122: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

exploratoires du besoin en information des experts. La section 4 décrit le deuxième voletd’analyses sur les collections TREC et CLEF avec une étude de l’impact des attributs derequêtes sur la performance de la recherche. Il faut noter que nous utilisons les mêmes attributsde requêtes formalisés dans la section précédente (section 3.1). La section 5 présente desanalyses statistiques conduites sur les requêtes PICO, spécifiques à la recherche d’informationmédicale basée sur les preuves.Nous complétons la précédente étude en traitant les questions de recherche suivantes :

1. Comment les attributs caractéristiques des requêtes sont corrélés en consi-dérant les tâches médicales ? Pour répondre à cette question, nous avons utilisél’ensemble d’attributs de requête définis dans la première partie de l’étude, à savoir :longueur, spécificité et clarté. Nous proposons de mener une analyse de corrélationsmultidimensionnelles à l’aide d’une Analyse en Composantes Principales (ACP), toutestâches confondues.

2. Comment les attributs de requêtes impactent les performances de recherche ?Pour répondre à cette question, nous nous sommes appuyés sur les performances des re-quêtes en terme de mesure de précision, d’une part, pour décrire chaque tâche médicaleselon son niveau de performance et analyser les éventuelles corrélations entre les me-sures de performance ; d’une autre part, pour expliquer les performances de recherche enfonction des attributs via une analyse de covariance multivariée (MANCOVA).

Pour répondre à ces questions, et en considérant l’ensemble d’attributs de requêtes déjàdéfinis, nous avons conduit deux types d’analyses, à savoir : une première partie porte surune analyse multidimensionnelle des corrélations entre les attributs et une seconde séried’analyses des mesures de performance de recherche et leurs corrélations avec les attributs derequêtes.

Nous considérons un cadre de recherche d’information où un expert du domaine soumet unerequête Q à une collection de documents cibles C. Rappelons que nous utilisons trois attributsqui caractérisent les requêtes : 1) la longueur, 2) la spécificité, et 3) la clarté.

4.3.1 Analyses multidimensionnelles des corrélations entre les attributs

Dans le cadre de cette deuxième contribution, nous nous concentrons sur l’analyse des requêtesformulées par des experts du domaine médical. Notre analyse statistique est conduite endeux phases. La première a pour objectif l’analyse multidimensionnelle des corrélations entreles attributs. La seconde phase de notre analyse met en avant les mesures de performanceet leurs éventuelles corrélations avec les attributs de requêtes. Pour ces deux phases, nousavons effectué des analyses en composantes principales (ACP). Les différences entre tâchesou entre requêtes cliniques et non-cliniques ont été testées par des analyses de variance oudes tests non-paramétriques de Kruskall-Wallis (adaptés aux petits échantillons). Dans undernier temps, une analyse de covariance multidimensionnelle a permis de modéliser lesmesures de performance en fonction des attributs quantitatifs et de la classification cliniqueou non-clinique des requêtes.

Pour étudier les corrélations entre les six attributs des requêtes, nous avons réalisé une analyseen composantes principales (ACP) permettant de prendre en compte les corrélations entre

110

Page 123: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

attributs d’un point de vue multidimensionnel. L’étude des trois premiers axes principaux apermis de dégager les tendances principales de chaque collection. La Figure 3.2 représente laprojection des 173 requêtes selon les deux premiers axes. Elle illustre que :

— La collection TRECGenomics 2003, spécialisée dans la recherche sur les gènes etprotéines, est caractérisée par des requêtes courtes en nombre de termes et de concepts,et claires (selon le score de clarté basée sur la pertinence).

— Les requêtes de la collection TRECMed 2011 regroupant des compte-rendus médicauxde patients sont spécifiques, claires et écrites avec un nombre assez important deconcepts, mais avec un nombre réduit de termes non identifiés comme des concepts. Elless’opposent aux requêtes des collections TRECGenomics 2004 et TRECGenomics 2006dont la spécificité est plus faible (comme nous l’avons mis en évidence Figure 3.1.(c)).

— La collection ImageCLEF, principalement axée sur la recherche de cas de patients, sedistingue des autres collections par un faible nombre de requêtes qui peuvent être longues,voire très longues.

En outre, l’interprétation du troisième axe de cette ACP révèle l’indépendance du score declarté (basé sur le sujet de la requête) vis-à-vis des autres attributs : l’ambiguïté d’une requêtene dépend ni de sa longueur, ni de sa spécificité, et ceci dans les cinq collections étudiées.

Figure 3.2 – Nuage de points résultats de l’ACP, 1 désigne la collection TRECMedical ; 2 dé-signe la collection ImageCLEF ; 3 désigne la collection TRECGenomics03 ; 4 désigne la collectionTRECGenom04 et 5 désigne la collection TRECGenom06.

111

Page 124: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

4.3.2 Impact des attributs des requêtes sur les performances de recherche

Cette phase des analyses est complémentaire à l’analyse des facettes des attributs présentéeà la section précédente. Les performances de recherche sur l’ensemble des requêtes ont étémesurées suite à une évaluation avec le système Terrier 1, et l’outil d’évaluation standardtrec-eval. Plus précisément, nous avons généré quatre scores de performance calculés sur labase du modèle BM25, à savoir : MAP (Mean Average Precision) et les précisions exactes à10, 20 et 100 documents (notées respectivement P@10, P@20 et P@100).

Dans un premier temps, nous avons mené une étude comparative des scores afin de caractériserles performances relatives à chaque tâche et de mettre en évidence d’éventuelles différencesentre les tâches. Le Tableau 3.11 présente les moyennes (m) et écart-types (sd) des quatrescores calculés pour chaque tâche, et le résultat du test non-paramétrique de Kruskall-Wallisde comparaison des scores (p-value).

Cette analyse révèle que les performances des requêtes issues de la collection TRECGenomics2003 sont caractérisées par des scores moyens significativement plus faibles (inférieurs à0, 07) que les quatre autres collections (dont les scores moyens sont compris entre 0, 28 et0, 54). Ceci s’explique par la difficulté de la tâche lors de son année de lancement en 2003 :les documents résultats sont jugés effectivement pertinents seulement dans le cas où ilss’apparentent avec des Gene Reference Into Function (GeneRIF). Or, étant donné que peud’annotations textuelles GeneRIF étaient disponibles en 2003, les performances des SRI sontde ce fait sous-estimées (Hersh et Voorhees, 2009).

Nous soulignons que les scores moyens de ces quatre collections ne sont pas significativementdifférents, suggérant une performance homogène des requêtes des quatre collections.Par ailleurs, l’analyse des corrélations entre les quatre scores de performance a montré quetous les scores sont très fortement corrélés positivement deux-à-deux (p-value < 0, 0001), etceci sur l’ensemble des collections ; autrement dit, une requête évaluée comme performantepar l’un des scores le sera également par les trois autres mesures.

Scores de performances : m (sd)

Tâche/Score MAP P@10 P@20 P@100

TRECMed 2011 0,32 (0,22) 0,45 (0,34) 0,43 (0,32) 0,28 (0,22)ImageClef 0,30 (0,24) 0,54 (0,45) 0,48 (0,38) 0,31 (0,27)TrecGenom 2003 0,067 (0,130) 0,038 (0,085) 0,045 (0,080) 0,028 (0,047)TrecGenom 2004 0,36 (0,25) 0,53 (0,35) 0,47 (0,32) 0,34 (0,26)

TrecGenom 2006 0,34 (0,23) 0,45 (0,36) 0,11 (0,34) 0,31 (0,27)

p-value † † † † † † † † † † † †

Tableau 3.11 – Scores moyens de performance par collection (et écart-type) avec la p-value du testde comparaison des scores entre collections († † † : p-value < 0, 001))

L’objectif final de cette étude est d’évaluer l’impact des attributs sur les performances des1. http ://terrier.org

112

Page 125: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

requêtes. Les performances étant mesurées par quatre scores (fortement corrélés), elle consti-tue une variable multidimensionnelle. Nous avons donc mis en œuvre un modèle d’analyse decovariance multivariée permettant d’expliquer les performances en fonction des six attributsquantitatifs. Une démarche de sélection descendante a permis de mettre en évidence les attri-buts pouvant avoir un impact significatif sur les performances. Nous avons choisi d’illustrerces résultats sur le score de performance P@100, présentés dans le Tableau 3.12.

Attributs Paramètres estimés (s.e.) p-value

Longueur en concepts 0,04 (0,01) ††

Spécificité terme-document 0,74 (0,26) ††

Tableau 3.12 – Résultats de la modélisation du score de performance P@100 en fonction des attributsdes requêtes (par une MANCOVA) : estimation des paramètres associés aux attributs significatifs(et erreur standard, s.e.) et p-value (ns : †† : 0, 001 < p-value < 0, 01 ; )

La Figure 3.3 montre les scores moyens de la performance de recherche selon les mesures dela MAP, P@10, P@20 et P@100 des différentes collections médicales.

Figure 3.3 – Scores moyens des performances de recherche par tâche médicale.

Suite à ces analyses, nous avons pu mettre en évidence que les requêtes sont d’autant plusperformantes qu’elles contiennent un nombre important de concepts (le score P@100 augmenteen moyenne de 0, 04 point par concept supplémentaire). Toutefois, cet effet du type de requêteest à mettre en relation avec la spécificité terme-document de la requête. En effet, les requêtescliniques sont d’autant plus performantes qu’elles sont spécifiques. En revanche, des requêtesnon-cliniques auront tendance à être moins performantes quand leur spécificité augmente.Ces résultats montrent globalement que la recherche de cas pathologiques ou l’étude de cohorteconstitue une tâche plus difficile qu’une recherche ad hoc sur des gènes. Nous pouvons conclureque :1. La longueur de la requête favorise la clarification de la requête et par conséquent sa

"facilité" ; ceci est à la base même des techniques d’expansion de requêtes qui ont montréleur efficacité en RI ;

2. Le type de la requête joue un rôle important conjointement à certains attributs caracté-ristiques du besoin en information des experts. Plus précisément, les requêtes cliniques,

113

Page 126: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

même si elles sont naturellement longues, demeurent difficiles si leur vocabulaire estgénéral, non suffisamment caractéristiques du cas pathologique considéré. En effet, lesdifférences, même infimes, entre description du cas à travers la requête et cas retourné àpartir de la base de cas, amèneront les experts à un jugement de pertinence négatif ;

3. En revanche, un besoin en information non clinique, ciblant des termes rares dans lacollection, est plus difficile à satisfaire.

5 Caractérisation des requêtes PICO

Dans le cadre de nos analyses statistiques exploratoires, nous avons étudié les particularités desrequêtes PICO, afin de les caractériser par rapport aux différentes tâches médicales. Nous avonsutilisé les même attributs que pour nos analyses précédentes. Nous présentons dans ce qui suit lesrésultats des analyses.

5.1 Analyses descriptives

Nous menons une analyse descriptive afin d’identifier et mettre en avant les caractéristiques desrequêtes PICO, issues de la collection CLIREC et les distinguer par rapport à d’autres besoins eninformation exprimés dans le cadre d’autres tâches médicales. La Figure 3.5 montre la distributiondes six attributs de requêtes par collection médicale, présentés par des boîtes à moustache. Nousavons mené des analyses de variance sous forme de tests de Kruskal-Wallis non-paramétriques pourcomparer les moyennes des attributs et distinguer la recherche médicale PICO des autres recherchesissues de différentes tâches médicales (en terme de p-value < 0, 05).Dans la Figure 3.4.(a) et 3.4.(b), nous remarquons une variabilité de la distribution des termes etdes concepts. Les deux attributs de la longueur sont significativement différents à travers toutes lescollections malgré le fait qu’ils représentent tous le besoin en information des experts. Les valeursles plus élevées en nombre de termes et en nombre de concepts sont observées pour les collectionsImageCLEF et CLIREC (en moyenne 31 termes et 6 concepts pour CLEF, 15 termes et 5 conceptspour CLIREC). En effet, les cliniciens expriment des requêtes longues : ImageCLEF pour décrireles cas de patients et CLIREC pour décrire les questions PICO avec les différentes facettes.Les Figures 3.4.(c) et 3.4.(d) représentent respectivement la distribution des scores de spécificitéterme-document et spécificité hiérarchique basée sur la terminologie MeSH. Nous remarquons quela distribution des scores de spécificité terme-document pour les requêtes PICO est plus élevée avecles plus grandes valeurs par rapport aux autres collections (une moyenne 0, 5188), par contre unefaible distribution avec les valeurs les moins importantes pour la spécificité hiérarchique comparéeaux autres collections. Les premières conclusions montrent que les experts formulent des requêtesPICO utilisant des termes se caractérisant par une forte distribution dans les documents PubMedde la littérature médicale.De plus, la faible valeur de la spécificité hiérarchique montre que les experts formulent des requêtesPICO avec une description de ces facettes (P, I, C et O) en se basant sur leurs connaissances dudomaine, sans forcément se référer à une terminologie fiable du domaine médical. La facette de laspécificité hiérarchique est basée sur deux facteurs principaux : la longueur de la requête en nombrede concepts et le niveau de ces concepts dans la terminologie.Ayant conclu que les requêtes PICO sont longues en nombre de concepts, nous pouvons constaterque les requêtes malgré cette longueur ne sont pas spécifiques au contexte de la recherche.

114

Page 127: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

En analysant les attributs de la clarté à partir des Figures 3.4.(e) et 3.4.(f), nous pouvons conclureque les requêtes PICO se caractérisent par une plus faible variabilité par rapport aux autres collec-tions pour la pertinence basée sur le sujet et par une moyenne importante de valeurs. Cela montreque les requêtes PICO sont relativement claires.Concernant la clarté basée sur la pertinence, la collection CLIREC se distingue des autres collectionspar les scores de clarté les plus importants. Cet attribut suppose que la requête est claire si ellepartage le plus grand nombre de concepts avec les documents pertinents jugés par les experts. Celas’explique par le fait que les cliniciens utilisent des concepts pertinents correspondant aux meilleursdocuments répondant au mieux aux questions cliniques PICO.Pour résumer, les requêtes PICO sont longues, les termes utilisés sont bien distribués dans la collec-tion PubMed et elles sont claires par rapport à la présence des concepts utilisés dans les documentspertinents. La recherche PICO favorise l’utilisation des concepts qui reflètent les connaissances dudomaine des experts. Toutefois, ces concepts ne sont pas assez spécifiques au contexte de la re-cherche où ils sont ambigus. En d’autres termes, il peut y avoir des concepts désignant un élémentPICO mais qui peuvent être sémantiquement liés à un autre élément PICO de la requête, sourceainsi d’ambiguïté. Se référer à leurs connaissances du domaine ne suffit donc pas.

5.2 Analyses de corrélations entre attributs de requêtes PICO

Pour étudier les corrélations entre les attributs de requêtes, nous avons calculé le coefficient decorrélation de Spearman ρ entre les 6 attributs quantitatifs. Nous représentons uniquement lescorrélations significatives entre paires d’attributs dans le Tableau 3.13.Nous observons la plupart de corrélations avec les attributs de la longueur LgT (Q) et LgC(Q). Uneforte corrélation positive entre la longueur en termes et la longueur en concepts (p-value<0,0001).De fortes corrélations positives significatives entre la longueur en termes et la spécificité terme-document (p-value<0,0001) d’une part, et la longueur en concepts et la spécificité terme-document(p-value<0,01) d’autre part.La première corrélation, LgT (Q) et DSpe(Q) s’explique par le fait que, selon la formule (3.1), plusla requête est longue, plus sa spécificité terme-document est élevée. Ceci est justifié par le besoinexprimé sous forme de question clinique basée sur des termes bien distribués dans les documents.Toutefois, les deux attributs de la longueur sont négativement corrélés à la spécificité hiérarchique.Cela montre que l’utilisation de termes qui désignent les concepts de la terminologie MeSH ne sontpas appropriés pour désigner spécifiquement chacun des éléments PICO de la question.

De plus, nous notons que les deux attributs de la longueur sont corrélés négativement à la clartébasée sur le sujet, avec une corrélation plus significative avec la longueur en nombre de concepts(p-value<0,0005 ). Cela peut être expliqué par le fait que les cliniciens qui formulent leurs requêtesPICO n’utilisent pas des termes qui désignent des concepts pertinents de la terminologie MeSH.

Enfin, la spécificité hiérarchique est positivement corrélée à la clarté basée sur la pertinence(p-value<0,01 ). Il en résulte que les concepts médicaux sont importants pour traduire le besoinPICO sans ambiguïté. La Figure 3.5 résume les différentes corrélations entre les attributs pour lesquestions PICO.

Pour synthétiser, les différentes analyses statistiques effectuées sur les requêtes cliniques PICO ontrévélé que :

115

Page 128: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

(a) Longueur en termes (b) Longueur en concepts

(c) Spécificité terme-document (d) Spécificité hiérarchique

(e) Clarté basée sur le sujet (f) Clarté basée sur la pertinence

Figure 3.4 – Distribution des attributs de requêtes par collection

— Les requêtes PICO sont longues en termes et en concepts. Plus particulièrement, les requêtesPICO se distinguent des autres requêtes médicales issues des campagnes TREC et CLEF parun nombre plus élevé de concepts. Cela s’explique par la nature de ces questions dont le but estd’identifier les meilleures preuves médicales, ce qui pousse les experts à utiliser d’une manièreintensive les connaissances médicales et les ressources disponibles.

— Les scores de spécificité terme-document sont importants (les experts formulent des requêtesPICO utilisant des termes se caractérisant par une forte distribution dans les documents Pub-Med), et les scores de spécificité hiérarchique sont faibles (les experts formulent des requêtesPICO avec une description de ces facettes (P, I, C et O) en se basant sur leurs connaissancesdu domaine sans forcément se référer à une terminologie du domaine médical de référencepertinente) : les requêtes PICO sont longues en nombre de concepts, nous pouvons conclure

116

Page 129: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

)

Longueur

LgT(Q)) LgC(Q))

)

Spécificité

Dspec(Q)) Hspec(Q))Pcla(Q)))

Clarté

Scla(Q))

(+)

(+)

(+)(-)

(-)(-)

(-) (+)

Figure 3.5 – Analyses de corrélations des attributs de requêtes PICO

Facette 1 Facette 2 ρ p-valueLgT (Q) LgC(Q) 0, 2156 < 0, 0001LgT (Q) DSpe(Q) 0, 2388 < 0, 0001LgT (Q) HSpe(Q) −0, 1460 < 0, 01LgT (Q) SCla(Q) −0, 1354 < 0, 01LgC(Q) DSpe(Q) 0, 1474 < 0, 005LgC(Q) HSpe(Q) −0, 1041 < 0, 05LgC(Q) SCla(Q) −0, 1805 < 0, 0005HSpe(Q) PCla(Q) 0, 1492 < 0, 005

Tableau 3.13 – Résultats de corrélations deux à deux entre les attributs de requêtes relatives à lacollection CLIREC (N = 423)

que les requêtes, bien que longues, ne sont pas spécifiques au contexte de recherche.— Les scores de clarté basée sur la pertinence sont élevés : les cliniciens utilisent des concepts

pertinents qui permettent d’identifier les meilleurs documents qui répondent au mieux auxquestions cliniques PICO.

— Corrélation positive significative de LgT et LgC avec DSpe : plus la requête est longue, plus saspécificité terme-document est élevée et importante. L’hypothèse de ce score est la suivante :moins les documents sont concernés par les termes de la requête, plus le sujet de la requêteest spécifique.

— Corrélation négative de LgT et LgC avec HSpe : l’utilisation des termes qui désignent lesconcepts de la terminologie MeSH ne sont pas appropriés pour désigner spécifiquement chacundes éléments PICO de la question. Les requêtes longues ne sont pas forcément spécifiques siles termes qui désignent les concepts ne sont pas appropriés pour le besoin PICO.

— Corrélation négative de LgT et LgC avec SClar : les cliniciens qui formulent leurs requêtesPICO n’utilisent pas des termes qui désignent des concepts pertinents de la terminologieMeSH.

— Corrélation positive significative entre HSpe et PClar : les concepts médicaux sont significatifs

117

Page 130: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

pour traduire le besoin PICO sans ambiguïté ou d’une manière claire. Le sens du concept dela requête est bien traduit/représenté dans les documents pertinents.

La Figure 3.6 donne la distribution des deux facettes de la longueur pour les sous-graphes PICO.

Figure 3.6 – Distribution des deux facettes de la longueur pour les sous-graphes PICO

6 Bilan et conclusion

Nous avons réalisé une étude statistique exploratoire sur les requêtes exprimées par les expertsbiomédicaux dans le cadre des campagnes d’évaluation TREC et CLEF. Les résultats de notreétude donnent un aperçu sur les spécificités des requêtes d’experts selon les différentes tâches.Trois attributs impactent les résultats de recherche, plus spécifiquement la longueur en termes, lescore de clarté basé sur le sujet et la spécificité terme-document en fonction du type clinique ounon de la requête. Ces résultats suggèrent le besoin de contextualiser les modèles de RI médicale àla tâche. Plus précisément, un besoin de clarification et spécification par expansion/reformulationde requête serait appropriée pour les requêtes cliniques. Au delà, en effectuant un croisement avecles travaux de l’état de l’art, il en ressort un besoin de personnaliser la recherche, selon le niveaud’expertise des utilisateurs. Pour asseoir cette hypothèse, nous envisageons dans un futur prochede mener une analyse exploratoire des besoins en information des experts vs. novices du domainemédical.Dans un premier temps, nous avons défini un ensemble d’attributs de requêtes au sein d’unecollection de tâches médicales et nous avons analysé les corrélations des attributs de requêtes. Dansun deuxième temps, nous nous sommes intéressés à étudier l’impact des attributs de requêtes surla performance de recherche. Dans ces deux contributions, nous avons défini les mêmes facettesdes attributs et nous avons utilisé les mêmes collections d’analyse. Cette modélisation peut êtreutilisée dans le cadre de l’évaluation expérimentale moyennant d’autres collections ainsi que pourla formalisation de modèles de RI médicaux contextuels ou personnalisés.De plus, les principales conclusions issues de ces analyses mettent en évidence les spécificités desrequêtes médicales qui varient selon la nature de la tâche. Cela implique plusieurs recommandationspour les modèles de RI ainsi que les systèmes de RI ou de prise de décision médicale pour exploiterla sémantique, l’information contextuelle et personnalisée pour améliorer la performance et lesrésultats de recherche.

Nous avons analysé également les requêtes PICO, issues de la campagne CLIREC. Les principalesconclusions soulignent la particularité des questions expertes PICO par rapport aux autres tâches

118

Page 131: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

médicales, du point de vue des caractéristiques des attributs. Cela montre la nécessité de proposerdes modèles et approches de RI spécifiques aux requêtes PICO.

Les études de l’état de l’art dans le cadre de la médecine basée sur les faits ont montré que laplupart des médecins pratiquent l’EBM pendant leur travail. Cependant, l’EBM présente plusieursproblèmes qui empêchent son utilisation dans la pratique. À ce titre, dans le chapitre suivant, nousprésentons nos contributions portant sur la médecine basée sur les faits, où les utilisateurs se basentsur des requêtes PICO pour formuler leur besoin en information. Un premier volet détaille notreapproche d’expansion de requêtes, où nous traitons le problème lié à la recherche des meilleurespreuves cliniques qui correspondent aux facettes PICO. Un deuxième volet propose un modèled’appariement sémantique basé sur une algorithme d’agrégation de scores de pertinence pour mieuxrépondre aux questions cliniques PICO.

119

Page 132: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier
Page 133: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Chapitre 4

Évaluation des requêtes cliniques :Modèles sémantiques pour mieux ré-pondre aux questions PICO

Sommaire1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1232 Motivations et hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . 1253 Aperçu général de nos contributions . . . . . . . . . . . . . . . . . . . . . 1274 Processus d’élicitation sémantiques des requêtes PICO . . . . . . . . . 128

4.1 Méthode de génération de graphes . . . . . . . . . . . . . . . . . . . . . . . 1284.2 Identification de concepts les plus pertinents . . . . . . . . . . . . . . . . . 130

5 Évaluation des requêtes cliniques . . . . . . . . . . . . . . . . . . . . . . . 1335.1 Expansion sémantique des requêtes cliniques . . . . . . . . . . . . . . . . . 1335.2 Modèle d’ordonnancement basé sur un opérateur d’agrégation prioritaire des

scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1355.2.1 Cadre général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1355.2.2 Calcul de scores de pertinence des documents . . . . . . . . . . . . 136

6 Évaluation expérimentale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1376.1 Données expérimentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1376.2 Évaluation de l’approche d’expansion de requêtes . . . . . . . . . . . . . . . 137

6.2.1 Métriques d’évaluation et modèles de référence . . . . . . . . . . . 1376.2.2 Ajustement des paramètres . . . . . . . . . . . . . . . . . . . . . . 1386.2.3 Analyse de l’efficacité de la recherche : évaluation comparative . . 1406.2.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

6.3 Évaluation du modèle d’ordonnancement de documents . . . . . . . . . . . 1416.3.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1416.3.2 Métriques et protocole d’évaluation . . . . . . . . . . . . . . . . . 1416.3.3 Efficacité du modèle de pertinence basé sur l’agrégation des scores 1426.3.4 Analyse de la robustesse du modèle d’agrégation de pertinence . . 143

6.3.4.1 Analyse globale . . . . . . . . . . . . . . . . . . . . . . . 1446.3.4.2 Analyse au niveau requête . . . . . . . . . . . . . . . . . 146

121

Page 134: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

7 Bilan et conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

122

Page 135: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

1 Introduction

De nombreuses études ont clairement montré que la recherche d’information médicale est lar-gement pratiquée aussi bien par des experts que par des novices (Fox et Duggan, 2013; Zhang,2014). Plus spécifiquement, la recherche d’information médicale pratiquée par les experts est unerecherche verticale basée sur l’usage de ressources, comme les dossiers médicaux de patients ou lalittérature scientifique médicale (e.g., MEDLINE 1, Cochrane 2), en vue de répondre à différentsobjectifs comme l’aide au diagnostic, l’aide à la prescription médicale ou encore la recherche clinique.

Ce type de besoins en information induit en grande partie l’évaluation de requêtes cliniques quiont pour objectif de sélectionner, à partir de la littérature scientifique du domaine, des procédéscliniques et/ou des preuves d’études systématiques (Yang et al., 2011). Plus globalement, lestâches de recherche d’information cliniques expertes sont généralement conduites par les cliniciensdans le cadre de la médecine basée sur les faits connue sous l’acronyme EBM (Evidence-BasedMedicine) (Sackett et al., 1996). Cette dernière consiste à utiliser de manière rigoureuse, expliciteet judicieuse, les preuves scientifiques les plus récentes et plus pertinentes lors de la prise dedécision concernant les soins à prodiguer à chaque patient. Sa pratique implique que l’on conjuguel’expertise clinique individuelle avec les meilleures preuves cliniques externes obtenues actuellementpar la recherche systématique (Sackett et al., 1996).

La recherche de ces meilleures preuves d’études cliniques, à partir de la littérature scientifique,est, à juste titre, l’objet de notre contribution présentée dans ce chapitre. Cela suppose d’abordla formulation d’un besoin en information clinique. Selon l’approche EBM, un moyen qui a étéproposé aux experts en vue de clarifier leur besoin est de structurer leur requête selon la formePICO, à savoir : Patient/Problem (P), Intervention (I), Comparison (C) et Outcome (O), appelésles éléments ou facettes PICO (Schardt et al., 2007) détaillés dans le précédent chapitre.

En plus du verrou largement reconnu lié à l’ambiguité des expressions médicales et acronymes(Trieschnigg, 2010), l’évaluation de ce type de requêtes pose deux difficultés supplémentaires etnon triviales à surmonter : (1) considérer la structure de la requête en facettes dans le processusd’appariement avec des documents qui ne sont pas ainsi structurés ; et (2) considérer leur im-portance relative dans l’estimation du score de pertinence. À notre connaissance, c’est un champd’investigation peu exploré ; on recense en effet peu de travaux qui ont abordé spécifiquement leproblème d’évaluation des questions cliniques PICO (Boudin et al., 2010c; Boudin et al., 2010b;Demner-Fushman et Lin, 2007). Dans l’ensemble des travaux précédents, une étape préliminaire àla recherche est la détection des facettes PICO dans les documents. Au niveau de l’appariementrequête-document, les auteurs dans (Demner-Fushman et Lin, 2007), se sont basés sur une approched’appariement sémantique entre les types sémantiques extraits d’UMLS de chacune des facettesdétectées dans les requêtes et les documents. Cependant, cette méthode ne prend pas en comptel’importance des facettes PICO dans le texte, lors du calcul des scores de pertinence.

Cependant, plusieurs problèmes empêchent le développement et l’implémentation des meilleurespreuves dans la pratique clinique (Francke et al., 2008). Ces problèmes proviennent principalementde :

1. https ://www.nlm.nih.gov/bsd/pmresources.html accessible à l’aide PubMed2. http ://www.ncbi.nlm.nih.gov/pubmed, Cochrane http ://www.cochranelibrary.com/

123

Page 136: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

1. La complexité d’exprimer une requête précise, spécifique au contexte de la recherche permet-tant d’identifier facilement les preuves pertinentes ;

2. L’absence du niveau de compétence qui peut être utilisé pour effectuer l’évaluation des preuves.Nous nous intéressons dans le contexte de nos recherches au premier problème.

Dans Boudin et al. (Boudin et al., 2010c), les auteurs ont proposé un modèle d’appariement quiconsidère l’importance de chaque facette PICO pour calculer le score de pertinence des documents.Toutefois, les scores d’importance sont calculés d’une manière statique, sur la base de la distributiondes mots appartenant à chaque facette sur l’ensemble de la collection de documents.

Dans ce contexte de recherche, nous proposons un modèle d’appariement requête PICO-document,qui, à la différence des précédents travaux, (1) ne requiert pas l’identification préalable desfacettes P , I, C et O dans les documents ; et (2) utilise un opérateur d’agrégation prioritaire(Da Costa Pereira et al., 2009) dans le calcul des scores d’appariement requête-document enpersonnalisant les poids de chaque facette selon la requête et le document en cours d’évaluation.Comme dans (Demner-Fushman et Lin, 2007), nous privilégions une représentation sémantique desrequêtes et documents, qui est cependant basée sur la génération de graphes sémantiques par facette.

Ainsi, notre objectif est de contribuer à ce domaine de recherche qui reste insuffisamment exploréavec l’espoir de concevoir les systèmes de RI qui assistent les cliniciens dans leur pratique quoti-dienne de l’EBM. Les travaux pionniers de la littérature (Demner-Fushman et Lin, 2007; Boudinet al., 2010c; Boudin et al., 2010b) nous ont permis de conclure que les différentes techniquesproposées reposent sur deux étapes principales, à savoir : (1) la détection des facettes PICO àpartir des requêtes et des documents compris dans les entrepôts scientifiques médicaux ; et (2)l’intégration des éléments PICO dans le modèle d’appariement document-requête.Cependant, nous proposons d’aborder la problématique différemment de la manière suivante : (1)faciliter les conditions d’identification des éléments PICO à partir des documents ; et (2) résumerla formulation de la question clinique en mettant en relief une image sémantique de chaque facettePICO.

À ce titre, nous proposons d’étendre séparément chaque facette de la question en utilisant lesconcepts extraits des documents les mieux classés. Ce classement est donné au préalable par unmodèle de RI. Notre intuition est que ces documents comportent des indices de contexte utiles quipermettent de distinguer les documents pertinents des documents non pertinents en se basant surces différentes facettes.

La suite du chapitre est organisée comme suit : dans la section 2, nous donnons quelques motivationset les hypothèses de recherche. Ensuite, nous détaillons l’approche de l’élicitation sémantique desquestions cliniques PICO dans la section 3, où nous proposons deux algorithmes : (1) un algorithmede génération de graphes sémantiques conceptuels, et (2) processus d’identification de concepts quireprésentent au mieux les preuves cliniques entre la question et les documents. La section 4 détaillenos méthodes d’évaluation des requêtes cliniques, composée de deux sous-sections : la section 4.1décrit l’approche d’expansion sémantique conceptuelle des requêtes ; et la section 4.2 détaille lemodèle d’ordonnancement de documents basé sur l’agrégation prioritaire des scores pour calculer lescore de pertinence des documents. Enfin, l’évaluation expérimentale menée dans l’objectif d’évaluer

124

Page 137: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

la pertinence de nos contributions est détaillée dans la section 5. Nous présentons un bilan etconcluons dans la section 6.

2 Motivations et hypothèses

Notre objectif est de répondre au mieux aux questions cliniques expertes. Plus spécifiquement,dans le cadre de la médecine basée sur les preuves, identifier la preuve médicale pertinente pourrépondre à des questions PICO est une tâche difficile (Boudin et al., 2010b; Schardt et al., 2007).

En effet, la RI basée sur les requêtes PICO repose sur deux étapes principales : la première estd’identifier les éléments P, I, C et O à partir du texte des requêtes et des documents, une deuxièmeétape est d’intégrer ces éléments dans un modèle de RI afin de retourner un ensemble de documentsqui constituent la preuve médicale, qui aidera les médecins à prendre une décision clinique.

Pour atteindre cet objectif, nous nous sommes basés sur les hypothèses suivantes :— Hypothèse 1. Dans un cadre de recherche d’information clinique, plus la requête est courte

en nombre de termes avec une faible spécificité hiérarchique (se réfère à la spécificité "is-a"extraite de la terminologie médicale), plus la requête est difficile (Tamine et al., 2015).

— Hypothèse 2. Un document est d’autant plus pertinent qu’il s’apparie avec plus de facettesde la requête (Boudin et al., 2010c; Demner-Fushman et Lin, 2007).

— Hypothèse 3. En phase d’évaluation de la pertinence des résultats, l’expert médical n’accordepas la même importance à l’adéquation des facettes. La facette I/C est plus importante quela facette P qui, à son tour, est plus importante que la facette O (Weifield et Finkelstein,1996; Boudin et al., 2010c).

Avec ces hypothèses, et selon les conclusions des travaux antérieurs, nos motivations sont doubles :— Pour l’approche d’expansion des requêtes PICO utilisant les termes les plus spécifiques issus

des ressources sémantiques est justifiée. Afin d’alléger le sens du sujet attendu dû à l’expansion"aveugle" basée sur les concepts, on favorise l’utilisation de l’expansion guidée par les meilleursconcepts qui représentent le contexte local sémantique des questions issues d’une premièrerecherche basée sur les termes.

— Pour le modèle d’appariement basé sur l’agrégation prioritaire de scores, nous avons intégréla représentation sémantique conceptuelle dans le calcul des scores de pertinence des docu-ments. En effet, le calcul des scores selon l’ordre de priorité met en évidence le contexte dechaque facette PICO de la requête à l’égard du document. Par ailleurs, les travaux traitantles questions PICO n’ont pas intégré l’ordre d’importance des différentes facettes PICO dansle calcul des scores de pertinence. Nous avons donc proposé de calculer des poids dynamiques,qui représentent l’importance de chaque facette PICO et de les intégrer dans le modèle d’or-donnancement de documents.

Nos contributions se déclinent en quatre volets : (1) nous proposons une approche de générationde graphes sémantiques conceptuels selon chacun des éléments PICO ; (2) nous introduisons uneapproche spécifique d’expansion de requêtes PICO, en utilisant l’information sémantique extraitedes documents les mieux classés par une première recherche selon chaque facette ; (3) nous proposonsun modèle d’appariement sémantique qui repose sur une approche d’agrégation prioritaire des scoresPICO, et (4) nous évaluons notre approche en utilisant une collection expérimentale CLIREC fournie

125

Page 138: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

par (Boudin et al., 2010b). Nous considérons une requête clinique ; notre objectif est de mieuxrépondre aux questions cliniques expertes PICO, et d’étudier comment considérer chacune desfacettes de la structure PICO pour identifier et sélectionner les meilleures preuves adaptées à chacunedes facettes de la question. Dans cette optique, les contributions majeures de ces travaux sont lessuivantes :

1. Nous introduisons une approche de génération de graphes qui représente d’une manière efficaceles facettes de la requête, en identifiant les parties sémantiques de l’information extraites àpartir des meilleurs documents retournés, suite à une phase de recherche effectuée au préalable,selon chaque facette de la question.

2. Nous proposons une approche d’expansion de requêtes qui s’appuie sur une méthode sélectivede concepts médicaux. Pour la sélection des concepts, nous introduisons un algorithme spéci-fique permettant de proposer les concepts pertinents qui représentent au mieux l’informationsémantique commune entre la requête et le document.

3. Nous proposons un modèle d’ordonnancement utilisant un opérateur de calcul de scores depertinence des documents, basé sur un ordre de priorité, qui s’appuie sur et complète unmodèle d’ordonnancement de documents conçu spécifiquement pour répondre aux questionscliniques PICO.

Le Tableau 4.1 présente les notations utilisées pour les différents algorithmes proposés et pour lereste du chapitre.

Notation DescriptionQ une requête textuelled un documentc un concept actifD∗N N top documents retournés par une première rechercheQPICO requête annotée avec P, IC et OQP sous-requête correspondant au facette PQIC sous-requête correspondant au facette ICQO sous-requête correspondant au facette OT Terminologie MeSHC collection de documentsNd la liste de documents les mieux classés D∗N de la collection CNc ensemble de conceptsMaxLevel niveau maximal considéré pour l’expansionGP sous graphe correspondant au facette PGIC sous graphe correspondant au facette ICGO sous graphe correspondant au facette OConcepts(QP ) concepts extraits correspondant à QPConcepts(QIC) concepts extraits correspondant à QICConcepts(QO) concepts extraits correspondant à QOHypG(Gx) fonction qui génère les graphes sémantiques, x ∈ {P, IC,O}Expand(Gx) fonction d’expansion de la requête avec les concepts candidats

CexpandScore(c) score d’importance du concept actif c de la requêteNormalisé(Score(c)) score normalisé du concept cEntrée(Qex) termes qui correspondent aux termes des entrées préférées dans

MeSH selon la catégories sémantique x

Tableau 4.1 – Notations utilisées pour les différents algorithmes.

126

Page 139: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

3 Aperçu général de nos contributions

Soit une requête Q avec les annotations PICO associées donnant lieu aux sous-requêtes QP , QICet QO, manuellement ou automatiquement identifiées. Comme dans de précédents travaux (Boudinet al., 2010c), nous considérons les facettes I et C regroupées étant donné qu’elles sont associées aumême type sémantique. Notre objectif est de sélectionner les documents d qui sont pertinents aubesoin en information expert véhiculé par la requête Q et ce en accord avec les facettes P, I/C etO. Nous avons proposé un algorithme de génération de graphes sémantiques conceptuels exploitantla ressource MeSH. Nous avons ensuite proposé un processus d’appariement sémantique document-requête afin d’identifier les meilleurs concepts associés, en appliquant un algorithme de propagationde scores concept-document. Ces scores ont permis de sélectionner les meilleurs concepts associésaux requêtes et aux documents. Nous décrivons ci-dessous les trois premières étapes, savoir :

1. Étape 1 : Recherche d’une liste de documents pertinents utilisant un modèle de base de RI(Robertson et Sparck Jones, 1988). Cette étape repose sur une méthode d’appariement préli-minaire document-requête basé sur les mots, qui retourne une liste de documents pertinentscandidats ;

2. Étape 2 : Représentation sémantique sous forme de graphe des éléments PICO de requêtes,permettant de représenter une requête textuelle annotée en graphes sémantiques soulignantles concepts extraits de chacun des éléments PICO. En effet, à partir des sous-requêtes facettesQP , QIC et QO, un algorithme génère les graphes sémantiques de requêtes QcP , QcIC et QcO,en effectuant une extraction de concepts MeSH pour chacune des facettes en remontant deproche en proche concept commun de la hiérarchie de MeSH ;

3. Étape 3 : Appariement sémantique document-requête sur la base des facettes PICO, basésur les concepts actifs extraits, en commun entre les requêtes et les documents les mieuxclassés. Plus précisément, pour chaque arbre sous-requête associé à une facette QcP , QcIC etQcO et chaque document d résultat de l’étape 1, identifier les Nc meilleurs concepts associésen appliquant un algorithme de propagation de scores d’appariement concept-document paraccumulation des scores des concepts associés au document d jusqu’aux concepts feuilles deMeSH.

Comme indiqué précédemment, notre objectif est de répondre au mieux aux questions cliniquesPICO. En d’autres termes, sélectionner les meilleures preuves cliniques (documents) permettantde satisfaire le besoin en information exprimé via la question médicale PICO. Pour atteindre cetobjectif, et à partir des Nc meilleurs concepts identifiés, nous avons proposé deux approches, àsavoir :

— Expansion conceptuelle sélective des requêtes, qui permet d’étendre chaque partie PICO de larequête avec les entrées préférées des concepts appartenant au document et à la requête. Nousavons conduit ensuite une évaluation des requêtes étendues, qui permet de retourner une listefinale de documents les mieux classés comme réponse aux questions cliniques.

— Application d’un opérateur d’agrégation prioritaire (Da Costa Pereira et al., 2009) afin decalculer le score global de pertinence du document d par combinaison de ses scores partielsd’appariement avec les sous-requêtes facettes QP , QIC et QO.

127

Page 140: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

4 Processus d’élicitation sémantiques des requêtes PICO

Afin d’identifier explicitement les parties sémantiques des questions PICO, et de mettre en évidencele contexte de recherche, nous avons proposé une approche d’élicitation sémantique. Notre méthode,comme décrite dans les sections qui suivent, est sous forme de deux algorithmes : le premier ayantpour objectif la génération de graphes sémantiques conceptuels selon chacune des facettes P, I, Cet O. Le deuxième algorithme vient compléter le premier, et permet d’identifier à partie de cesgraphes les meilleurs concepts pertinents permettant de représenter au mieux les preuves cliniques.Comme indiqué auparavant, ces concepts ont ensuite été utilisés dans l’approche d’expansion derequêtes ainsi que le modèle d’ordonnancement. La Figure 4.1 donne un aperçu du processus dereprésentation sémantique.

Figure 4.1 – Aperçu du processus d’élicitation sémantique de requêtes PICO.

Nous détaillons dans ce qui suit la méthode de génération de graphes ainsi que le processus d’iden-tification des meilleurs concepts pertinents.

4.1 Méthode de génération de graphes

Nous avons proposé une représentation sémantique des requêtes PICO basée sur l’extraction deconcepts médicaux à partir de la terminologie MeSH. Nous nous basons sur un algorithme degénération de graphes sémantiques décrit par l’Algorithme 1.

Pour une requête textuelle donnée Q, avec l’annotation associée QPICO, les différentes facettes dela requête QP , QIC et QO, ainsi que la liste Nd de documents les mieux classés D∗N (de la collectionC) retournés comme réponse à la requête Q, l’algorithme commence par construire des graphessémantiques GP , GIC et GO après un ensemble d’opérations. Ces opérations sont les suivantes :(1) extraction des concepts actifs de chaque facette de la requête en utilisant la terminologie MeSHavec la méthode d’extraction des concepts (eg., (Dinh et Tamine, 2011a; Ruch, 2006)) ; chacundes concepts actifs c est considéré à un niveau relatif 0 et possède un score d’importance Score(c)qui souligne la similarité de vraisemblance entre les entrées préférées de concepts et les termes

128

Page 141: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Algorithme 1 Génération de graphes et ordonnancement de documentsEntrées: Q,QPICO, T,Nd, Nc,MaxLevelSortie: GP , GIC , GO, D∗N1: {Recherche initiale}2: D∗N ← TopD(Q,Nd, C) ;3: {Construction du graphe de la requête}4: QP ← Substr(Q,P );5: QIC ← Substr(Q, IC);6: QO ← Substr(Q,O);7: Concepts(QP )← Extract(QP , T );8: GP ← HypG(Concepts(QP ), T );9: Concepts(QIC)← Extract(QIC , T );

10: GIC ← HypG(Concepts(QIC), T );11: Concepts(QO)← Extract(QO, T );12: GO ← HypG(Concepts(QO), T );13: QeP ← Expand(GP );14: QeIC ← Expand(GIC);15: QeO ← Expand(GO);16: Words(Qe)←Words(Q) ∪ Entries(QeP ) ∪ Entries(QeIC) ∪ Entries(QeO);17: {Recherche finale}18: D∗N ← TopD(Qe, Nd, C) ;

de la requête ; (2) construction des graphes associés GP , GIC et GO (basées respectivement surConcepts(QP ), Concepts(QIC) et Concepts(QO)) en joignant les concepts actifs aux hyponymescorrespondants via la terminologie, avec la fonction HypG, jusqu’à atteindre le premier concept encommun.La Figure 4.2 illustre les résultats de cette étape pour la requête Q donnée en introduction del’algorithme, où les concepts actifs identifiés et les scores associés sont représentés en gras.

Figure 4.2 – Exemple de graphe sémantique de requête PICO

La Figure 4.3 donne un exemple d’appariement sémantique requête-document pour la requête sui-vante : "In people with recurrent aggression having any antiepileptic drug in any dosage, what islength of time of placebo for observer reported aggression ?" avec les éléments PICO suivants : P )"people with recurrent aggression" ; I )"any antiepileptic drug in any dosage" ; C ) "length of time ofplacebo" ; O ) "reported aggression".

129

Page 142: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Figure 4.3 – Exemple d’un appariement sémantique requête-document

Les concepts actifs, identifiés en commun entre le document et la requête sont mentionnés parun carré noir. Nous avons proposé ensuite un algorithme de propagation de scores, qui propageles scores des concepts actifs de chaque sous-graphe du niveau 0 jusqu’au niveau Maxlevel d’unemanière itérative. Nous détaillons cet algorithme dans ce qui suit.

4.2 Identification de concepts les plus pertinents

Nous décrivons dans l’Algorithme 2 le processus qui détaille l’identification des meilleurs conceptsde la requête, à savoir : (i) extraction de concepts communs entre les meilleurs documents retournéset les sous-graphes PICO, et (ii) propagation des scores de poids de concepts pour identifier lesmeilleurs concepts TopConcepts, utilisés ensuite pour l’expansion.

Nos intuitions derrière cette approche sont les suivantes : (1) plus les concepts de la requête sontspécifiques au contexte de la recherche, plus ils sont significatifs ; et (2) plus le niveau de l’apparie-ment est élevé entre les documents et chacune des facettes de la requête, plus ils sont pertinents.En se basant sur cette intuition générale, nous décrivons dans l’Algorithme 2, la fonction pour leclassement des meilleures preuves (concepts médicaux) à retourner comme réponse pertinente pourles cliniciens.

Pour construire l’ensemble des concepts candidats TopConcepts qui représentent au mieux la requêteQ, nous considérons chaque document d dans D∗N et ensuite, (1) nous procédons à l’extraction deconcepts de chaque sous-graphe Gx (ou x ∈ {P, IC,O}) qui correspond à un document d ; (2) nousappliquons un algorithme de propagation de scores normalisés qui propage les scores des conceptsactifs jusqu’aux sous-concepts (Score(csub)), en considérant chacun des sous-graphes de requêtesGx à partir du niveau 0 jusqu’au niveau Maxlevel et en ajoutant d’une manière itérative la somme

130

Page 143: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Algorithme 2 Propagation de scores et identification des meilleurs conceptsEntrées: GxSortie: TopConcepts1: {Traitement sur les meilleurs documents sélectionnés}2: Pour tout d ∈ D∗N Faire3: {Extraction des concepts des documents}4: TopConcepts← Extract(d,Gx);5: level← 0;6: {Propagation de scores}7: Pour tout c ∈ TopConcepts et level < Maxlevel Faire8: Pour tout csub ∈ Hypo(c,Gx) Faire9: Score(csub)← (Score(csub) + Lev(csub) ∗ Score(c));10: Score(csub)← Normalisé(Score(csub));11: level← level + 1;12: Fin Pour13: Fin Pour14: Fin Pour15: TopConcepts← TopC(Gx, Nc); TopConcepts;

des scores de concepts hyponymes Hypo(c,Gx) tout en respectant les sous-graphes Gx.Selon l’hypothèse H1, l’idée de base est d’identifier les concepts les plus spécifiques qui représententla facette x de la requête Q, ce qui les rend moins difficiles. La fonction CSelect retourne les Nc

concepts les mieux pondérés du sous-graphe Gx. La Figure 4.4 illustre cette étape sur la requêteQ. Les concepts en gris sont ceux qui correspondent au document donné en exemple, en plus desconcepts en gras entourés qui appartiennent à la requête. Les scores de concepts résultant de lapropagation de scores sont représentés en gras.

La liste des concepts les mieux pondérés Nc retournés par TopConcepts qui sont extraits de chaquesous-graphe Gx sont utilisés pour générer les sous-requêtes basées sur les concepts QcP , QcIC et QcOliés respectivement aux sous-graphes GP , GIC et GO.

Nous donnons dans ce qui suit un exemple de déroulement des différentes étapes du processus degénération de graphes ainsi que l’identification des meilleurs concepts.

Exemple illustratifNous allons présenter dans ce qui suit un déroulement des étapes de l’algorithme 1 et 2. Nousprenons comme exemple la requêtes textuelle présentée dans le Tableau 4.2 avec les annotationsPICO correspondantes.

— Étape 1 : Les cinq documents les plus pertinents pour la requête A3.1 retournés par un modèleBM25 sont illustrés dans le Tableau 4.3.

— Étape 2 : À partir de la requête annotée, l’algorithme construit les sous-requêtes QP , QIC etQO comme le montre le Tableau 4.4 pour la requête A3.1.Le Tableau 4.5 montre les concepts actifs de la requête extraits en utilisant la terminologieMeSH et la Figure 4.4 donne les graphes sémantiques correspondant à P, IC et O.Le Tableau 4.6 donne le résultat de l’appariement sémantique entre les deux meilleurs do-

131

Page 144: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Id desc QPICOA3.1 Adult patients Primary Hypertension Beta-

blockers and drug from another class of anti-hypertensive the other drug from another classof anti-hypertensive alone effect on blood pres-sure and heart rate

<P>Adult patients Primary HypertensionBeta-blockers and drug from another class ofanti-hypertensive<P> <IC>the other drugfrom another class of anti-hypertensive</IC><O>alone effect on blood pressure and heartrate</O>.

Tableau 4.2 – Exemple de requête textuelle avec les annotations PICO correspondantes.

UID Desc MAP25761100 Beta-blockers use for hypertension in the elderly. 0.631426306578 Blood pressure lowering efficacy of dual alpha

and beta blockers for primary hypertension.0.6266

27048839 Preoperative treatment with -blockers is asso-ciated with elevated postoperative mortality andcardiac morbidity in patients with uncomplicatedhypertension undergoing non-cardiac surgery.

0.6289

24911300 Beta-blockers and depression in elderly hyper-tension patients in primary care.

0.5704

26298028 Thirty-day mortality leads to underestimation ofpostoperative death after liver resection : A novelmethod to define the acute postoperative period.

0.5444

Tableau 4.3 – Top 5 documents retournés pour la requête A3.1 par le modèle BM25.

QP Adult patients Primary Hypertension Beta-blockers and drug from another class of anti-hypertensive.

QIC the other drug from another class of anti-hypertensive.

QO alone effect on blood pressure and heart rate.

Tableau 4.4 – Exemple de sous requêtes PICO de la requête A3.1.

Requête Concepts actifs (CUI)A3.1 Adult(M01.060.116), Patients(M01.643),

Hypertension(C14.907.489), Pharma-ceutical Preparations (D26), BloodPressure(E01.370.600.875.249), HeartRate(E01.370.600.875.500)

Tableau 4.5 – Exemple de concepts médicaux actifs

cuments (top ranked) retournés par la première recherche et les sous-graphes de la requêteavec les scores des meilleurs concepts sélectionnés pour la reformulation de la requête. Nousdonnons aussi les concepts extraits de ces documents.

— Étape 3 : La propagation de scores d’appariement concept-document permet d’identifier lesmeilleurs concepts en sélectionnant les meilleurs poids.

Nous détaillons dans ce qui suit les deux contributions dans le cadre de l’évaluation des requêtescliniques PICO.

132

Page 145: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Figure 4.4 – Exemple de graphes sémantiques conceptuels

UID concepts (CUI)[Scores]25761100 Adult(M01.060.116)[0, 0914], Patients(M01.643)[0.0972],

Hypertension(C14.907.489)[0, 1058], Nebivolol(D03.438.150.755)[0, 0286], Celiprolol (D02.948.681.241)[0, 0356].

26306578 Adult(M01.060.116)[0, 0714], Patients(M01.643)[0, 0863],Hypertension(C14.907.489)[0, 0767], Blood Pressure(G09.330.380.076)[0, 0664], Adrenergic beta-1 Receptor Anta-gonists (D27.505.519.625.050.200.200.100)[0, 0418], Placebos(D26.660)[0, 557]

Tableau 4.6 – Exemple de concepts de documents avec les scores associés.

5 Évaluation des requêtes cliniques

Une des plus grandes difficultés à développer chaque aspect de la question PICO est de fournir unequantité suffisante d’information où chaque composante de la question PICO doit être indiquée dansune phrase concise (Miller et Forrest, 2001). Du point de vue de la manière d’intégrer ces élémentsavec les meilleures preuves cliniques pour mieux répondre à une situation spécifique est d’autantplus difficile vu le grand volume de la littérature médicale. Nous avons proposé d’évaluer les requêtescliniques PICO en proposant deux approches : (1) une méthode d’expansion sémantique basée surune technique spécifique d’extraction de concepts médicaux ; et (2) un modèle d’ordonnancementbasé un opérateur d’agrégation prioritaire des scores. Nos contributions, dont le but est de mieuxrépondre aux questions cliniques PICO, sont décrites dans les sections qui suivent.

5.1 Expansion sémantique des requêtes cliniques

Nous nous sommes basés sur les hypothèses (H1 et H2 de la Section 2), ainsi que les conclusionsétablies par les travaux précédents, qui ont motivé la proposition de notre méthode d’expansion des

133

Page 146: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

requêtes PICO utilisant les termes les plus spécifiques issus des ressources sémantiques médicales.

Pour pallier le problème de la dérive/ambiguïté du sujet de la requête, notre approche d’expansionrepose sur l’utilisation des meilleurs concepts, et elle est guidée par le contexte sémantique localde la question PICO issus d’une phase de recherche conduite au préalable. En outre, pour mieuxcouvrir les différentes facettes PICO, nous avons utilisé chacune des facettes P, IC et O comme unesource pertinente pour la sélection des concepts utilisés pour étendre la requête.

La Figure 4.5 donne un aperçu global de l’approche d’expansion sémantique des requêtes PICO.

Figure 4.5 – Aperçu de notre modèle de traitement des questions PICO.

Pour chaque sous-graphe GP , GIC et GO, on construit l’ensemble de concepts Nc utilisés plus tardpour l’expansion de la requête, utilisant la fonction Expand(Gx), tout en tenant compte de Max-level qui est le niveau maximal considéré pour l’expansion de requête, commençant à partir duniveau 0. Afin de construire l’ensemble de concepts candidats TopConcepts, on considère chaquedocument d dans D∗N , ensuite : extraction de l’ensemble des concepts pondérés communs avec Gxou x ∈ {P, IC,O} du niveau 0 jusqu’au niveau Maxlevel en additionnant les scores d’une manièreitérative. Ces scores sont les hyponymes de concepts Hypo(c,Gx) identifiés pour chacun des sous-graphes Gx (Cf. Algorithme 1). L’idée est d’identifier l’importance et la spécificité des concepts enassignant des scores normalisés Nomalisé(Score(c)) obtenu étape par étape du concept le moinsspécifique jusqu’au concept le plus spécifique, considérant leur niveau level(c).Le score final du concept reflète son importance dans l’ensemble des meilleurs documents sélection-nés (top-ranked) en terme de spécificité et de degré d’appariement avec les documents D∗N . Celacorrespond à notre intuition qui favorise la sélection des concepts les plus spécifiques qui corres-pondent au mieux avec le contexte de recherche issu des documents les mieux classés retournés.L’ensemble Nc de concepts les mieux pondérés Cexpand de chaque sous graphe Gx est utilisé pourétendre respectivement les sous-requêtes QP QIC et QO (ayant abouti a QeP QeIC et QeO) en ajou-tant aux requêtes initiales Q les termes correspondant à leurs entrées préférées (Entrées(QeP ),Entrées(QeIC) et Entrées(QeO)) dans la terminologie T . La requête finale étendue Qe est généréeet permet la sélection de la liste finale des documents D∗N qui sont retournés comme réponse à larequête initiale PICO Q.

134

Page 147: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

5.2 Modèle d’ordonnancement basé sur un opérateur d’agrégation prioritairedes scores

5.2.1 Cadre général

De nombreux travaux en RI ont mis en exergue à la fois l’importance et la complexité du concept depertinence (Da Costa Pereira et al., 2009). Ces derniers se sont focalisés sur la modélisation d’ap-proches théoriques pour la combinaison des critères de pertinence potentiels identifiés. D’autres tra-vaux fondamentaux récents se sont intéressés en revanche à la définition d’opérateurs d’agrégation,indépendamment du cadre applicatif, qui permettent de traiter en partie le biais de l’interactivité(Pereira et al., 2012).

Nous nous sommes basés sur un opérateur d’agrégation prioritaire, sur l’ensemble des facettes PICO,pour proposer un modèle d’ordonnancement de documents, qui donne un score de pertinence facette-document (Znaidi et al., 2016b; Znaidi et al., 2016a; Znaidi et al., 2015). Notre modèle se base sur uneapproche d’agrégation prioritaire des scores tenant compte de l’importance des différentes facettesde la requête.

Figure 4.6 – Architecture de notre modèle de traitement des questions PICO.

Comme le montre la Figure 4.6, notre approche se base sur 4 étapes principales : (1) un appariementdocument-requête basé sur les termes, effectué en amont, qui retourne une liste initiale de documentspertinents candidats ; (2) une représentation sémantique des requêtes, qui retourne les graphesconceptuels associés à chaque facette PICO de la requête ; (3) un appariement requête-documentqui permet de sélectionner les concepts les mieux pondérés de chaque facette du graphe ; et (4) uncalcul de pertinence des documents basé sur un opérateur d’agrégation prioritaire (Da Costa Pereiraet al., 2009). Les étapes (1), (2) et (3) sont détaillées dans la Section 4. Nous détaillons dans cequi suit l’étape 4 de calcul de pertinence en se basant sur une approche d’agrégation prioritaire desscores PICO.

135

Page 148: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

5.2.2 Calcul de scores de pertinence des documents

Au niveau de l’étape (4), nous considérons une fonction d’agrégation F qui calcule, pour chaquedocument d, un score global PICO de pertinence, exprimé comme suit :

RSVPICO(Q, d) = F (RSVP (Q, d), RSVIC(Q, d), RSVO(Q, d)) (4.1)

où F représente la fonction d’agrégation et P, IC et O sont les critères de pertinence PICO.

Nous calculons pour chacun des critères P, IC et O un score d’importance qui reflète son poids etqui prend en compte son importance dans le document et la nature de la tâche de RI. Nous noussommes basés sur un opérateur prioritaire d’agrégation de scores (Da Costa Pereira et al., 2009),qui permet de calculer un score global en prenant en compte un ensemble de critères. Le poids dechaque critère est calculé en fonction des poids ainsi que le degré de satisfaction du critère le plusimportant. Le principe est le suivant : plus le degré de satisfaction du critère le plus important esthaut, plus le degré de satisfaction du critère le moins important influence le score global. Selon notrehypothèse (H2), on calcule le score PICO comme suit :

RSVPICO(Q, d) = λP ∗RSV (QP , d) + lambdaIC ∗RSV (QIC , d) + lambdaO ∗RSV (QO, d) (4.2)

où x ∈ {P, IC,O} et :

RSVx(Q, d) =∑c∈Qc

xSIM(c, d)∑

c∈∪xQcxSIM(c, d) (4.3)

sachant que :— Qcx est l’ensemble Nc de concepts pondérés, associés à chaque facette de la requête Qx, résultat

de l’Algorithme 2.— SIM(c, d) est la mesure de similarité à base de cosinus entre les vecteurs TF/IDF du docu-

ment d et les entrées préférées associées au concept c (Boudin et al., 2010a; Ruch, 2006).— les poids d’importance des éléments PICO, sont calculés selon le principe de l’opérateur d’agré-

gation des scores (Da Costa Pereira et al., 2009), en tenant compte de l’hypothèse H3, commesuit :

λP , λIC , λO ∈ [0..1], tels que λIC > λP > λO et λIC = 1λP = λIC ∗RSV (QcIC , d)λO = λP ∗RSV (QcP , d)

(4.4)

Pour prendre en compte la pertinence du document en se basant sur les termes et sur les conceptscomme recommandé dans (Stokes et al., 2009), le score de pertinence du document d par rap-port à la requête Q est la combinaison linéaire des scores de pertinence basés sur les concepts(ScorePICO(Q, d)) et le score de pertinence basé sur les termes (Scorew(Q, d)). Le score global depertinence est ainsi calculé comme suit :

RSV (Q, d) = α ∗RSVPICO(Q, d) + (1− α) ∗RSVw(Q, d) (4.5)

136

Page 149: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

où α ∈ [0..1] est un paramètre de combinaison linéaire identifié dans la phase des expérimentations.

6 Évaluation expérimentale

6.1 Données expérimentales

Nous utilisons la collection de données CLIREC dont la description est donnée dans le Tableau4.7 ; construite dans le but d’évaluer la RI clinique (Boudin et al., 2010c). Pour atteindre cet ob-jectif, les auteurs dans (Boudin et al., 2010c) ont construit la collection de test d’une manièresemi-automatique à partir d’un ensemble de revues systématiques de la ressource Cochrane. Plusspécifiquement, les auteurs ont demandé à un groupe d’experts (un professeur et quatre étudiantsen master de médecine) de générer les requêtes qui correspondent aux questions cliniques fourniespar un sous ensemble du répertoire Cochrane. Chaque question est annotée manuellement avec lesparties P (Patient,Problème), I (Intervention), C (Comparaison) et O (Outcome). Les citations dedocuments correspondants sont extraites de la section référence attachée à chaque revue, qui listetoutes les études pertinentes en traitant la question clinique considérée.Enfin, une liste de documents pertinents (articles de journaux) pour chaque question clinique estgénérée de PubMed. Nous avons utilisé la terminologie MeSH, dont le vocabulaire est le plus uti-lisé pour indexer les citations biomédicales (Stokes et al., 2009). Chaque nœud de la terminologiereprésente un concept qui fait référence à une entrée préférée dans la terminologie.

Nombre de documents 1.212.040 résumés PubMedLongueur moyenne de document 246 termesNombre de requêtes 423Nombre moyen de termes de la requête 4.3 termesLongueur moyenne de la requête (PICO) 18.7 termesNombre moyen de doc pertinents 19

Tableau 4.7 – Statistiques de la collection de test CLIREC.

6.2 Évaluation de l’approche d’expansion de requêtes

6.2.1 Métriques d’évaluation et modèles de référence

Pour évaluer et comparer notre approche dans le cadre de la performance en RI, nous avons utiliséun ensemble de ressources sous la version 4.0 du moteur de recherche Terrier 3, à savoir :

1. Mesures de performance : la mesure de la MAP (Mean Average Precision) mesure de laprécision moyenne sur l’ensemble de requêtes, et est utilisée pour fournir une mesure de per-formance globale unique. Plusieurs études antérieures ont montré la stabilité de la métriqueMAP (Buckley et Voorhees, 2000). Les mesures de performance sont calculées en utilisantl’outil standard TREC-eval 4.

3. http ://www.terrier.org4. http ://trec.nist.gov/trec-eval

137

Page 150: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

2. Modèle de référence (Baseline) : nous avons comparé notre approche d’expansion de requêtesbasée sur les graphes, appelée GQE, aux baselines suivantes :— Deux modèles de RI de l’état de l’art : BM25 (Okapi Probabilistic model) (Robertson

et Sparck Jones, 1988) et le modèle de langue (LM) (Song et Croft, 1999). Nous avonsparamétré le modèle Okapi comme recommandé dans la littérature k1 = 1.2, k3 = 7 etb = 0.75. Pour le modèle de langue, nous avons utilisé la méthode de lissage "Dirichlet"avec µ = 1000.

— Méthode de la ré-injection de la pertinence PRF (Pseudo Relevance Feedback) (Xu etCroft, 1996) que l’on considère proche de notre approche d’expansion proposée.

6.2.2 Ajustement des paramètres

Pour nos évaluations expérimentales, nous avons commencé par ajuster les paramètres des méthodesde comparaison PRF et BQE, et de notre algorithme d’expansion de requêtes basé sur les graphes,nommé GQE. Le modèle PRF dépend du nombre de documents et du nombre de termes utili-sés pour l’expansion de la requête, variant respectivement dans un intervalle de valeurs [10..100]et [5..35] pour le nombre de documents et le nombre de termes, respectivement. Le modèle BQEdépend uniquement du niveau maximal de l’expansion de requêteMaxLevel. Nous avons fait varierle paramètre "niveau" en choisissant différents level dans l’intervalle [0..4]. Nous avons fixé la limitede niveau à 4, compte tenue de la profondeur maximale de la propagation des scores qui peut êtreatteinte pour toutes les requêtes du test.Nous visons à évaluer la précision des concepts en estimant leur impact sur l’efficacité de la recherche.Étant donnée l’absence ou le manque d’annotation conceptuelle humaine des requêtes PICO, nousavons évalué la précision des concepts résultats de l’Algorithme 1, en estimant leur impact sur lapertinence de la RI par l’approche d’expansion de requête.En pratique, nous avons étendu la requête PICO initiale, avec les entrée principales des meilleursconcepts retournés par l’Algorithme 1. Ensuite, nous avons évalué la performance des requêtes éten-dues en utilisant le modèle probabiliste Okapi (BM25). Nous avons comparé la pertinence de cetteméthode d’expansion conceptuelle, appelée GQE, aux deux modèles de référence suivants : 1) lemodèle probabiliste Okapi (BM25), paramétré comme recommandé dans la littérature k1 = 1.2,k3 = 7 et b = 0.75, et 2) Pseudo-Relevance-Feedbak (PRF ) (Xu et Croft, 2006). Pour effectuerdes comparaisons équitables, nous commençons par paramétrer les algorithmes PRF et GQE puisnous avons comparé leur performance respective.

Comme le montre la Figure 4.7, les valeurs optimales du paramètre obtenues pour le modèle PRFsont 80 et 15, respectivement pour le nombre de documents et le nombre de termes d’expansion,permettant d’atteindre une valeur de MAP optimale de 0, 1265. Nous pouvons remarquer aussià partir de la Figure 4.8 que le paramètre optimal MaxLevel = 4 pour le modèle BQE permetd’atteindre une valeur de la MAP de 0, 1103.

Notre algorithme GQE dépend de trois paramètres, à savoir : Nc le nombre de concepts utiliséspour l’expansion de requêtes, MaxLevel utilisé pour limiter la profondeur lors du processus depropagation des scores et Nd qui est le nombre de premiers documents sélectionnés, utilisés pourl’extraction des concepts. Nous avons commencé par ajuster les paramètres Nc et MaxLevel, enles faisant varier respectivement dans un intervalle de [1..5] et [0..4], utilisant Nd = 1000. Commele montre la Figure 4.10, la valeur optimale de la MAP est de 0, 1334, avec une configuration de 4meilleurs concepts et une profondeur de propagation qui atteint le niveau 4. Nous avons retenu ce

138

Page 151: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Figure 4.7 – Variation du paramètre pour le modèle PRF

Figure 4.8 – Variation du paramètre pour le modèle BQE

Figure 4.9 – Variation du paramètre pour l’expansion de requête

paramétrage optimal pour faire varier le paramètre Nd. Comme présenté par la Figure 4.9, la valeuroptimale de la MAP est de 0, 1346 et est obtenue avec les 40 meilleurs documents retournés par lesystème.

Pour le reste de l’évaluation comparative, nous utilisons ces valeurs de paramètres optimales.

139

Page 152: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Figure 4.10 – Paramétrage du modèle GQE

6.2.3 Analyse de l’efficacité de la recherche : évaluation comparative

Nous avons comparé l’efficacité de la recherche en terme de MAP de notre algorithme d’expansionde requêtes basé sur les graphes (GQE), avec les modèles d’ordonnancement de l’état de l’art BM25,LM, PRF et BQE. Le Tableau 4.8 montre les résultats obtenus en terme de MAP, du nombre dedocuments pertinents sélectionnés ainsi que le taux d’accroissement et le taux de significativité tde la mesure statistique t-test. Notre modèle donne de meilleurs résultats par rapport à toutes lesbaselines. Plus précisément, en considérant la mesure de la MAP, nous avons observé que la perfor-mance de notre algorithme dépasse les approches d’ordonnancement de documents basées sur lestermes (BM25, LM et PRF ) de 6, 40% à 27, 94%, ainsi que l’approche d’évaluation basée sur lesconcepts de 22, 03%.

Ces résultats montrent que :1. notre approche sémantique permet d’obtenir de meilleurs résultats par rapport aux modèles

de RI basés sur les termes de l’état de l’art, qui ne prennent pas en compte la structure PICO(BM25, LM et PRF ). Cela confirme notre intuition de la représentation des questions sur labase de la sémantique cachée derrière chacune des facettes PICO de la requête ;

2. notre algorithme de propagation de scores permet de sélectionner des concepts plus précispour l’expansion de requêtes, par rapport à chaque facette PICO, puisque il permet de dé-passer d’une manière significative le modèle BQE. Cependant, nous observons que les tauxd’amélioration sont moins importants comparé au modèle PRF . Selon l’hypothèse Hypothèse3 annoncée au-dessus (Section 2) , cela suggère que les requêtes ne sont pas au même niveaude difficulté, et cela nécessite donc un algorithme approprié de propagation de scores.

6.2.4 Discussion

Nous avons présenté dans cette section une nouvelle approche pour répondre aux questions cli-niques PICO. L’idée sous-jacente est d’améliorer chaque facette de la requête avec les conceptsterminologiques les plus représentatifs du contexte local de la recherche. De plus, nous appliquonsun algorithme de propagation de scores, qui permet de sélectionner les concepts avec le degré leplus élevé de correspondance avec le contexte de recherche et à travers les différentes facettes. Lesexpérimentations utilisant une collection de données standard ont montré que l’approche propo-sée dépasse significativement les modèles de RI proposés de l’état de l’art. Cette approche n’est

140

Page 153: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Model MAP % Acc t Rel. Ret % AccBM25 0, 1073 +25, 44% †† 4783 +15, 28%LM 0, 1052 +27, 94% †† 4685 +17, 69%PRF 0, 1265 +6, 40% † 4983 +10, 65%BQE 0, 1103 +22, 03% † 4819 +14, 42%GQE 0.1346 - - 5514 -

Tableau 4.8 – Comparaison de l’impact sur la performance de recherche de l’expansion de requêtesbasée sur le graphe sémantique. %Acc : Test de significativité de Student sur la métrique MAP † :0, 01 < t ≤ 0, 05 ; †† : 0, 001 < t ≤ 0, 01 ; † † † : t ≤ 0, 001.

cependant pas sans limite. Nous supposons que les différentes facettes des questions PICO ont lamême importance lors de l’évaluation de la pertinence des documents, ce qui n’est pas le cas dansla pratique EBM dans la vie réelle.

En conséquence, il est instructif de proposer une approche pour améliorer le modèle d’appariementsémantique requête-document avec le calcul de différents poids des facettes, afin d’entreprendre unecomparaison équitable avec les travaux antérieurs qui ont pris en compte cet aspect (Boudin et al.,2010c; Demner-Fushman et Lin, 2007).

Dans ce contexte, et dans le cadre de notre deuxième contribution, la section suivante décrit l’évalua-tion expérimentale de notre modèle d’ordonnancement pour mieux répondre aux questions cliniquesPICO.

6.3 Évaluation du modèle d’ordonnancement de documents

6.3.1 Objectifs

Les objectifs principaux de l’évaluation expérimentale sont : (1) évaluer la précision de la repré-sentation sémantique des requêtes PICO sous forme de graphes ; (2) évaluer l’efficacité du modèled’ordonnancement basé sur une approche d’agrégation prioritaire des scores PICO ; (3) mesurerl’efficacité du modèle d’évaluation des requêtes PICO en analysant l’effet de chacun des élémentscontributifs (représentation conceptuelle, principe de combinaison des facettes, principe de pondéra-tion des facettes) ; et (4) analyser la robustesse du modèle en identifiant les raisons possibles d’échecvs. succès des requêtes.

Nous détaillons dans ce qui suit le cadre expérimental ; nous présentons et nous discutons par lasuite les résultats obtenus. Nous précisons que nous utilisons la collection CLIREC décrite dans laSection 6.1 pour les expérimentations.

6.3.2 Métriques et protocole d’évaluation

Dans le but d’évaluer la précision de la représentation sémantique des requêtes PICO et de comparerl’efficacité de recherche de notre opérateur de calcul de score, nous avons utilisé les mesures de laprécision moyenne (MAP ) et de précision exacte P@X (X = 5, 10), calculées utilisant l’outil

141

Page 154: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

standard TREC-eval 5. Nous avons mis en œuvre un protocole de validation croisée 10-fold (pourla phase de paramétrage et de test) afin de mesurer l’efficacité et la performance sur les 10 partiesaprès une recherche de la valeur optimale qui maximise la MAP .

6.3.3 Efficacité du modèle de pertinence basé sur l’agrégation des scores

Dans un premier temps, nous avons identifié la valeur optimale du paramètre α utilisé dans l’équa-tion (6) et ce en le faisant varier dans l’intervalle [0..1]. Comme le montre la Figure 4.11, la valeuroptimale du paramètre α est de 0.7 permettant d’atteindre un score de précisionMAP égal à 0.170.Ces résultats montrent que le score basé sur les éléments PICO confirme que ces derniers contri-buent de façon significative au calcul du score global optimal. Nous retenons cette valeur pour lereste des expérimentations.

Figure 4.11 – Variation du paramètre α.

Nous avons comparé ensuite notre méthode d’ordonnancement de documents prioritaire, notéePSM, aux modèles de référence suivants :

— Deux modèles de RI de l’état de l’art : (1) Okapi probabilistic model (BM25) (Robertson etSparck Jones, 1988) et (2) le modèle de langue (LM) (Song et Croft, 1999). Pour le modèlede langue, nous avons utilisé la méthode de lissage de Dirichlet avec µ = 1000.

— Un calcul de scores basé sur un opérateur de priorité appliqué à un ensemble de documentsordonnés par un modèle BM25 noté (PSBM25), résultat de l’évaluation de chacune des sous-requêtes QP , QIC et QO.

— Deux modèles de RI conçus spécifiquement pour répondre aux requêtes PICO : (1) un modèled’agrégation sans pondération noté (AGM), comme les travaux de (Demner-Fushman et Lin,2007), où le modèle BM25 est utilisé pour calculer la similarité entre les facettes des requêteset les documents, et (2) Positional Language Model (PLM) décrit dans (Boudin et al., 2010c),basé sur une extension du modèle de langue (LM). Les résultats présentés sont ceux obtenusdans (Boudin et al., 2010c) sur la même collection de test qui incluent uniquement les mesuresde MAP et P@5.

Le Tableau 4.9 compare les résultats de l’efficacité de recherche de notre modèle d’agrégation prio-ritaire sémantique, notée PSM, avec ceux des cinq modèles de référence cités ci-dessus, selon les

5. http//trec.nist.gov/trec_eval

142

Page 155: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

mesures de précision et du nombre de documents pertinents sélectionnés (#RR). Les résultatsmontrent d’importantes améliorations significatives pour toutes les mesures d’évaluation, sauf pourle modèle PSM où l’amélioration est basse et non significative. Plus spécifiquement, pour la me-sure de la MAP, les améliorations varient de +4, 60% à +52, 36%. De plus, le nombre de documentspertinents retournés (#RR) est plus élevé pour notre modèle.

Modèle Précision % Acc # RRMAP P@5 P@10

BM25 0, 112 0, 1561 0, 127 +51, 42%†† 4574

LM 0, 111 0, 156 0, 130 +52, 36%††† 4491

PSBM25 0, 123 0, 151 0, 139 +37, 94%†† 4904

AGM 0, 121 0, 148 0, 135 +40, 09%†† 4835

PLM 0, 163 0, 240 − +4, 60% 5770

PSM 0,170 0,254 0,198 − 5894

Tableau 4.9 – Comparaison de l’impact de notre modèle sur l’efficacité de recherche. %Acc indiqueles taux d’amélioration du modèle PSM en terme de MAP . Les Symboles †, †† et † † † indiquentle test de significativité de Student : † : 0, 01 < t ≤ 0, 05 ; †† : 0, 001 < t ≤ 0, 01 ; † † † : t ≤ 0, 001.

D’une manière générale, ces résultats mettent en avant quatre observations majeures :1. Exploiter la sémantique cachée derrière les facettes des requêtes à travers les concepts est

efficace étant donné que le modèle PSM dépasse les modèles BM25 et LM mais aussi lemodèle PSBM25 qui se base sur l’opérateur d’agrégation prioritaire.

2. L’importante amélioration de performance du modèle PSM par rapport au modèle GQEmontre l’intérêt d’intégrer la structure de la requête en facettes P , I/C et O dans le calculdes scores de pertinence des documents.

3. Le modèle PSM donne de meilleurs résultats que le modèle AGM basé sur la représentationsémantique de la requête ainsi que l’agrégation additive des scores d’importance des facettes ;ces résultats montrent l’avantage d’assigner des scores partiels de pertinence, en adéquationavec l’importance des facettes PICO avec le document en cours d’évaluation.

4. Le modèle PSM est légèrement mais pas significativement plus performant que le modèlePLM (+4, 60% en terme de MAP). Ce point sera particulièrement exploré lors de l’analysede robustesse du modèle PSM , présentée dans ce qui suit.

Pour mieux comprendre cette dernière observation, nous présentons une analyse de gain et d’échecde notre modèle, noté PSM en comparaison avec le modèle PLM . Nous étudions ensuite les per-formances selon les cas de requêtes.

6.3.4 Analyse de la robustesse du modèle d’agrégation de pertinence

Ici, notre objectif est d’analyser la robustesse du modèle PSM . Rappelons qu’un modèle de recherched’information robuste doit impacter positivement la plupart des requêtes (Wang et al., 2012). Pourcela, nous menons tout d’abord une analyse globale d’amélioration/baisse des performances surl’ensemble des requêtes en comparaison avec les modèles de recherche d’information PICO de l’étatde l’art, en l’occurrence les modèles PLM et AGM . Ensuite, nous nous focalisons sur l’étude de cas

143

Page 156: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Figure 4.12 – Statistiques sur l’amélioration/dégradation en terme de MAP comparée au modèlePLM

Figure 4.13 – Statistiques sur l’amélioration/dégradation en terme de MAP comparée au modèleAGM

de requêtes typiques du succès vs. échec du modèle PSM comparativement au modèle de référencele plus performant pour lequel les améliorations observées sont non significatives.Les Tableaux 4.10 et 4.11 présentent le nombre (# requêtes ), le pourcentage de requêtes (% ) etle rapport moyen de changement positif (+) et négatif (−) : (Avg. %Acc) pour trois ensembles derequêtes, à savoir : R+, R et R−, pour lesquels le modèle PSM donne un niveau de performancerespectivement plus important, équivalent ou plus faible que le modèle PLM , en terme de MAP.L’équivalence de la performance est évaluée sur un intervalle de valeurs de %Acc dans l’intervalle[−5%...+ 5%].

6.3.4.1 Analyse globale

Les Figures 4.12 et 4.13 résument les statistiques concernant le nombre de requêtes pour lesquellesla performance du modèle PSM a été plus élevée vs. dégradée en comparaison avec les modèlesPLM et AGM . L’axe des abscisses représente le taux l’amélioration (+) vs. dégradation (-) de laperformance en terme de MAP . L’axe des ordonnées représente le nombre de requêtes concernéespar cette amélioration vs. dégradation. Les barres à gauche de [0%..25%] représentent les requêtes

144

Page 157: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

dont les performances sont plus élevées en considérant les modèles de comparaison AGM et PLM .Les barres à droite (incluant [0%..25%]) représentent les requêtes dont la performance est plus élevéepour le modèle PSM . On peut observer d’après ces figures que la proportion des requêtes avec uneamélioration de la performance plus élevée en faveur du modèle PSM est plus importante.

À partir de la Figure 4.12, nous constatons plus particulièrement un grand nombre de requêtesavec une amélioration de performance dans l’intervalle [0%..25%] suivi de (25%..50%] par rapportau modèle PLM . Dans la Figure 4.13, nous observons un plus grand nombre de requêtes avec uneamélioration de performance dans (25%..50%] suivi de l’intervalle [0%..25%] par rapport au modèleAGM . Nous remarquons également que l’amélioration est plus importante par rapport au modèleAGM avec un plus grand nombre de requêtes dans [25%..50%]. Cela montre l’utilité et l’efficacitéd’appliquer l’opérateur d’agrégation de scores avec des poids d’importance variable d’une requête àl’autre. La performance de quelques requêtes dépasse les 100% d’amélioration.

Pour résumer, comparé aux modèles PLM et AGM , les résultats montrent que le modèle PSM estrobuste.

Nous pouvons constater à partir du Tableau 4.11 que le pourcentage des requêtes pour lesquellesnotre modèle PSM dépasse le modèle PLM est considérablement élevé (64, 3% vs. 30, 73%). Afind’analyser et expliquer d’une manière précise les raisons de l’amélioration (vs. échec), nous avonsanalysé les deux meilleures requêtes de R+ et les deux plus mauvaises de R−, présentées dans leTableau 4.13. Nous mentionnons la requête (Id), sa description (Des) ainsi que le ratio d’augmenta-tion vs. diminution par rapport au modèle PLM (%Acc), la longueur de la requête en terme de mots(#W ) et de nombre de concepts (#C). Notons que la longueur de la requête peut expliquer par-tiellement les différences observées entre les deux ensembles de requêtes. Nous pouvons clairementremarquer que le modèle PSM présente une meilleure performance pour les requêtes relativementcourtes (M6.2 et Q37.2) et inversement, le modèle PLM est performant pour les requêtes longues(C21.1 et Q48.3).

#Requêtes (% ) Avg.%AccR+ 272 (64, 3%) +26.97%R 21 (4, 96%) -R- 130 (30, 73%) −22.41%

Tableau 4.10 – Statistiques pour comparer la performance entre le modèle PSM et le modèle PLM.

# Requêtes (% ) Avg.%AccR+ 315 (74, 4%) +34.82%R 12 (2, 83%) -R- 96 (22, 69%) −15.43%

Tableau 4.11 – Statistiques pour comparer la performance entre le modèle PSM et le modèle AGM.

Cela peut être expliqué par le fait que, en comparaison avec le modèle PLM , la représentationconceptuelle des facettes de requêtes et des documents dans notre modèle PSM permet de réduirel’effet négatif de défaillance ou défaut de mapping entre les représentations basées sur les termes. Àl’opposé, pour les requêtes longues, le problème de défaut de mapping est clairement réduit en faveur

145

Page 158: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

du modèle PLM . Il est plus probable que le document corresponde à la requête selon les différentesfacettes avec des interprétations trompeuses des intentions de recherche. À titre d’exemple, pour larequête Q48.3, les termes comme older, rheumatoid et arthritis methotrexate peuvent correspondreaux facettes implicites qui apparaissent dans les documents candidats. Cette ambiguïté n’existepas pour le modèle PLM car les auteurs traitent des documents annotés avec les éléments PICO.Par contre, dans notre modèle, ne pas prendre en compte le contexte dans le calcul des poidsd’importance des facettes PICO rend les résultats de recherche moins pertinents.

6.3.4.2 Analyse au niveau requête

Dans le but de comprendre les raisons de l’amélioration vs. dégradation de la performance desrequêtes du modèle PSM comparativement au modèle de référence PSM , nous avons analyséles deux meilleures requêtes R+ et les deux plus faibles R− en terme de performance MAP. LeTableau 4.12 présente les ensembles R+ et R− en mentionnant l’identifiant de la requête (Id), sadescription (Des) ainsi que le taux de changement (augmentation vs. dégradation) par rapport aumodèle PLM (%Acc), la longueur en nombre de mots (#T ), le nombre de concepts extraits (#C)et le score de clarté (#Cla) de la requête. Ce score traduit le degré d’appariement de la requête Qavec la collection. Il est calculé sur la base d’une mesure de divergence entre le modèle de languede la requête et celui de la collection (Steve et Croft, 2002), soit :

Cla(Q) =∑t∈V

P (t|Q)log2P (t|Q)Pcoll(t)

(4.6)

où V est le vocabulaire de la collection, t est un mot, Pcoll(t) est la fréquence relative du mot tet P (t|Q) est estimée P (t|Q) =

∑d∈R P (t|d)P (d|Q) où d est un document et R est l’ensemble des

documents indexés par au moins un mot de la requête Q.

Les résultats présentés dans le Tableau 4.12 montrent que le modèle PSM présente une meilleureperformance pour les requêtes relativement courtes (M6.2 et Q37.2) ; inversement, le modèle PLMest plus performant pour les requêtes longues (C21.1 et Q48.3). L’amélioration de la MAP atteint78, 08% et 74, 60% respectivement pour les requêtes M6.2 et Q37.2. À l’opposé, pour les requêteslongues, la dégradation de la MAP atteint respectivement −45, 07% et −83, 21% pour les requêtesC21.1 et Q48.3. On remarque que les requêtes sont bien plus longues en mots (7, 8 vs. 18, 26) maispas nécessairement plus longues en concepts avec le même ordre de grandeur (4, 5 vs. 7, 6). Mêmesi on constate que ces requêtes sont moins claires (0, 062 et 0, 020) que les requêtes plus longues(0, 080 et 0, 071) en défaveur du modèle PLM , ce dernier s’avère plus performant. Ceci peut êtreexpliqué par le fait que plus la requête est longue, plus le risque d’appariement des mots avec lesdocuments candidats est grand. Cependant la non prise en compte du contexte de la facette, commecela est fait dans le modèle PSM , conduit au calcul d’un score de pertinence selon la formule (3) quipourrait être erroné. À titre d’exemple, pour la requête Q48.3, des mots comme older, rheumatoidet arthritis methotrexate présents dans un document candidat peuvent s’apparier indifféremmentavec les facettes IC et P dans le cas du modèle PSM . En revanche, dans le modèle PLM , ce défautd’appariement lié à la facette ne peut survenir puisque les documents sont préalablement annotéset l’appariement est effectué facette à facette.

Afin de comprendre davantage les raisons de l’amélioration/baisse de performance des requêtes denotre modèle par rapport aux autres modèles, nous avons analysé les deux meilleures requêtes de

146

Page 159: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Q Id Desc %Acc #T #C #ClaR+ M6.2 (P) In obese patients

diabetes(\P)(IC) orlistatPlacebo(\IC) (O)Weightloss(\O).

+78, 08% 7 4 0, 080

Q37.2 (P) Adults 18 years or moremigraine(\P)(IC)aspirin plusan antiemetic placebo (\IC)O)pain free(\O).

+74, 60% 8 5 0, 071

R− C21.1 (P) Adults 14 years and olderGORD (\P)(IC)Medical mana-gement : proton pump inhibi-tors/histamine receptor antago-nists Laparoscopic fundoplicationsurgery(\IC)(O) Health-relatedquality of life (\O).

−45, 07% 18 7 0, 062

Q48.3 (P) Adults 18 years or olderrheumatoid arthritis (\P)(IC)methotrexate combined withother non-biologic disease mo-difying anti-rheumatic drugs(DMARDs) methotrexatealone(\IC)(O)ACR response ofnon-MTX DMARDS inadequateresponse(\O).

−83, 21% 26 6 0, 020

Tableau 4.12 – Analyse comparative de cas de requêtes types PSM vs. PLM

R+ et les deux les plus faibles de R−, présentés dans les Tableaux 4.13 et 4.14 respectivementcomparé aux modèles PLM et AGM . Nous mentionnons la requête (Id), sa description (Des)ainsi que le ratio d’augmentation vs. diminution par rapport au modèle PLM et AGM (%Acc), lalongueur de la requête en terme de mots (#W ), le nombre de concepts (#C), la spécificité terme-document (#Tspe) et hiérarchique (#Hspe), la clarté basée sur le sujet(#Scla) et celle basée surla pertinence (#Pcla). On peut mentionner que la longueur de la requête peut expliquer partiel-lement les différences observées entre les deux ensembles de requêtes. Nous pouvons clairementremarquer que le modèle PSM présente une meilleure performance pour les requêtes relativementcourtes (M6.2 et Q37.2) et inversement, le modèle PLM est performant pour les requêtes longues(C21.1 et Q48.3). Cela peut être expliqué par le fait que, en comparaison avec le modèle PLM , lareprésentation conceptuelle des facettes de requêtes et des documents dans notre modèle PSM per-met de réduire l’effet négatif du défaut de mapping entre les représentations basées sur les termes.À l’opposé, pour les requêtes longues, le problème de défaut de mapping est clairement réduit enfaveur du modèle PLM , il est plus probable que le document soit associé à la requête selon lesdifférentes facettes avec des interprétations non précises des intentions de recherche. Par exemplepour la requête Q48.3, les termes comme older, rheumatoid et arthritis methotrexate peuvent cor-respondre aux facettes implicites qui apparaissent dans les documents candidats. Cette ambiguïtén’existe pas pour le modèle PLM car les auteurs traitent des documents annotés avec les élémentsPICO. Cela peut induire à des poids d’importance de facettes PICO inappropriés (selon la formuleX), et par conséquence diminue l’efficacité de recherche par rapport au modèle PSM .

En terme de spécificité : les scores de la spécificité terme-document sont légèrement différents pourles deux catégories de requêtes et sont plus importants pour les requêtes plus performantes pour

147

Page 160: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Q Id %Acc #T #C #Tspe #Hspe #Scla #PclaR+ M6.2 +78, 08% 7 4 0, 603 0, 212 0, 080 1, 642

Q37.2 +74, 60% 8 5 0, 520 0, 136 0, 071 1, 658R− C21.1 −45, 07% 18 7 0, 491 0, 106 0, 062 1, 5851

Q48.3 −83, 21% 26 6 0, 519 0, 097 0, 020 1, 367

Tableau 4.13 – Analyses de l’échec et de l’amélioration de la performance des requêtes avec le modèlePLM.

Id DescM6.2 (P) In obese patients diabetes(\P)(IC) orlistat Placebo(\IC)

(O)Weight loss(\O).Q37.2 (P) Adults 18 years or more migraine(\P)(IC)aspirin plus an

antiemetic placebo (\IC) O)pain free(\O).C21.1 (P) Adults 14 years and older GORD (\P)(IC)Medical mana-

gement : proton pump inhibitors/histamine receptor antagonistsLaparoscopic fundoplication surgery(\IC)(O) Health-related qua-lity of life (\O).

Q48.3 (P) Adults 18 years or older rheumatoid arthritis (\P)(IC)methotrexate combined with other non-biologic disease mo-difying anti-rheumatic drugs (DMARDs) methotrexatealone(\IC)(O)ACR response of non-MTX DMARDS inade-quate response(\O).

Tableau 4.14 – Description des requêtes de l’analyse (Cf. Tableau 4.13).

notre modèle. Cela montre que notre modèle traite bien les concepts qui représentent le sujet dela requête dans les documents pertinents. Le modèle PLM se base sur la distribution de termespar facette PICO dans les documents sans prendre en compte leur importance ce qui réduit leurpertinence. En terme de spécificité hiérarchique, les requêtes plus performantes pour notre modèlesont plus spécifiques par rapport au modèle PLM et AGM , avec des scores de spécificité plusimportants. Malgré le fait que les requêtes les plus performantes pour notre modèle contiennentmoins de concepts, ces derniers représentent mieux la sémantique de la requête appariée à celledu document. Les scores de clarté sont plus importants pour les requêtes plus performantes pournotre modèle. On remarque aussi qu’il y a une différence en comparant les scores de clarté entreles meilleures requêtes/plus faibles via les deux modèles PLM et AGM . Pour le modèle AGM ,les scores de clarté sont clairement plus faibles pour les requêtes moins performantes comparés aumodèle PLM . Ce modèle ne prend pas en compte l’importance des termes par facette, ce qui lesrend plus difficile à traiter. Les Tableaux 4.15 et 4.16 donnent les résultats d’analyses de performancedes requêtes avec le modèle PLM .

Q Id %Acc #T #C #Tspe #Hspe #Scla #PclaR+ A24.2 +82, 36% 11 4 0, 604 0, 155 0, 055 1, 931

C9.3 +77, 49% 19 5 0, 523 0, 145 0, 050 2, 144R− C13.2 −18, 65% 19 4 0, 495 0, 106 0, 047 1, 164

Q26.3 −51, 23% 20 10 0, 465 0, 136 0, 004 1, 4497

Tableau 4.15 – Analyse de l’échec et de l’amélioration de la performance des requêtes avec le modèleAGM.

Nous avons effectué des analyses plus approfondies sur les requêtes ou il y a eu une baisse de

148

Page 161: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Id DescA24.2 (P) Adults Advanced renal cell carcinoma(\P)(IC) Targeted

agents Standard interferon-alfa(\IC) (O)Overall survival(\O).C9.3 (P) Adults aged 18 or older Lower back pain

(LBP)(\P)(IC)Post-treatment exercise consisting of strength,endurance and aerobic training (\IC) O)No intervention Numberof recurrences of LBP(\O).

C13.2 (P) Adults (18 years and older) MI, angina, or who had un-dergone revascularisation or heart failure (\P)(IC)Home-basedcardiac rehabilitation(\IC)(O) Centre-based cardiac rehabilitationSystolic blood pressure (\O).

Q26.3 (P) adults 18 years and over any type of wound in anycare setting (\P)(IC) wound dressings containing silver wounddressings(\IC)(O)without silver number of patients that develo-ped wound infection(\O).

Tableau 4.16 – Description des requêtes de l’analyse (Cf. Tableau 4.15).

performance par notre modèle :— Par rapport au modèle PLM (C21.1 et Q48.3) : la requête C21.1 contient un acronyme mé-

dical GORD (Gastro Oesophageal Reflux Disease), notre modèle ne traite pas les acronymesd’une manière à bien identifier le problème gastrique dans la facette P (patient/problème).De plus, les termes que contient la facette IC, qui est la facette la plus importante de la ques-tion PICO, et qui sont proton pump inhibitors/histamine receptor antagonists Laparoscopicfundoplication surgery, sont représentés dans notre approche sémantique par l’ensemble deconcepts Receptors Histamine, General Surgery, Fundoplication, Proton Pump Inhibitors. Vuque le modèle PLM se base sur la distribution des termes dans un modèle de langue, tenantcompte de la position de chacun des termes dans les documents, ceci explique la meilleureperformance de ce modèle par rapport au notre. De même, la requête Q48.3 contient plusieursacronymes DMARDs, MTX, DMARDS, ACR, or notre approche sémantique basée sur l’ex-traction de concepts de MeSH ne prend pas en compte ces cas de figure ce qui rend le sujetde la requête peu claire.

— Par rapport au modèle AGM (C13.2 et Q26.3) : nous remarquons plusieurs termes redon-dants dans ces requêtes, comme pour C13.2 les termes Cardiac et rehabilitation qui appa-raissent dans les facettes P et IC de la requête. De même pour la requête Q26.3, le termewound apparait 3 fois dans les trois facettes P, IC et O de la requête. La méthode AGMdonne de meilleurs résultats vu qu’elle n’utilise pas l’algorithme de propagation de scores quidésigne l’importance de chacun des concepts de la requête.

7 Bilan et conclusion

Dans cette partie, nous nous sommes intéressés à la RI clinique basée sur les requêtes PICO dans lecontexte de la médecine basée sur les preuves (EBM). La principale motivation de nos contributionsrepose sur la complémentarité des parties/informations sémantiques dans le cadre de l’appariementrequête-document. Elles permettent d’apporter plus de couverture au niveau sujet et contexte entrerequête et document (Demner-Fushman et Lin, 2007; Boudin et al., 2010b), pour apparier la re-quête avec les documents pertinents et donc mieux répondre aux questions cliniques expertes PICO.

149

Page 162: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Chapitre 4. Évaluation des requêtes cliniques : Modèles sémantiques pour mieux répondre auxquestions PICO 150

Dans un premier temps, nous avons proposé une approche d’expansion de requêtes cliniques PICOdans l’objectif d’améliorer les résultats retournés par le système. Nous avons également mis enévidence l’importance des caractéristiques sémantiques dans l’identification de meilleures preuvesmédicales, capables d’améliorer les résultats de recherche. Un premier volet a traité l’exploitation desparties sémantiques représentées par la reformulation conceptuelle des requêtes PICO afin d’amélio-rer la performance de la recherche. Le deuxième volet est complémentaire au premier dans la mesureou les deux algorithmes se basent sur un une approche de génération de graphes sémantique. Cettepartie propose un modèle d’appariement requête-document basé sur une méthode d’agrégation prio-ritaire des scores pour classer d’une manière optimale les documents selon leur pertinence à unerequête.

Nous avons proposé l’application d’un opérateur d’agrégation prioritaire pour l’évaluation de re-quêtes cliniques PICO. L’opérateur ne requiert pas une annotation préalable des facettes PICO dansles documents et permet d’adapter le score d’importance des facettes aux documents et requêtesen cours d’évaluation. Les expérimentations conduites sur la collection CLIREC ont montré quel’opérateur proposé est significativement plus performant que la majorité des modèles de référencebasés sur l’appariement mot-mot, la reformulation sémantique des requêtes et des modèles d’agré-gation classiques des ordonnancements issus de l’évaluation de chaque sous-requête associée à unefacette. Bien que robuste, l’analyse des performances de recherche au niveau requête montre quel’opérateur PSM présente des limites. En effet, le modèle d’ordonnancement des documents neprend pas en compte le lien entre le contexte des mots dans les documents et leur contexte dansla requête, représenté par les facettes auxquelles les mots font référence. Nous prévoyons de vérifierle bien fondé de ces limites en menant une analyse statistique sur l’ensemble de la collection quipermettrait de déterminer les facteurs d’échec des requêtes. Il en suivra une réflexion concernantl’intégration de ces facteurs comme éléments contextuels dans l’opérateur d’agrégation prioritairedes scores.

Page 163: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Conclusion générale

Synthèse des contributions

Les travaux présentés dans ce manuscrit s’inscrivent dans le contexte de la recherche d’informationbiomédicale, qui correspond à un des domaines émergents de la recherche d’information avec denombreux enjeux multidisciplinaires tels que la formalisation des modèles d’ordonnancement, ana-lyse de l’expertise dans le domaine médical, la prise en compte des caractéristiques et conditions dubesoin exprimé pour améliorer les systèmes de prise de décision dans le domaine médical.

Dans cette thèse, nous nous sommes particulièrement intéressés à l’analyse des requêtes expertesdu domaine médical, de point de vue de leur formulation ainsi que les caractéristiques linguistiques.L’importance de caractériser les requêtes médicales des experts s’est manifestée à travers les travauxde l’état de l’art.

En effet, la plupart des études ont analysé les caractéristiques des requêtes dans un cadre spécifiquequi ne peut pas être généralisé. Nous avons levé une partie d’ambiguïté sur le besoin en informationdes expert du domaine médical. Nous nous sommes focalisés sur la proposition de modèles derecherche d’information médicaux, spécifiques aux requêtes cliniques PICO dans le cadre de lamédecine basée sur les preuves. D’une part, l’identification des éléments PICO à partir des questionscliniques et des documents ; et l’utilisation de ces éléments pour accomplir la tâche de recherched’information en vue de mieux répondre aux questions cliniques PICO, d’autre part.

Dans ce contexte, nous avons proposé deux types de contributions, respectivement focalisées sur lesrequêtes expertes des cliniciens et le cadre de la recherche basée sur les preuves cliniques utilisantles requêtes PICO. Nous les rappelons brièvement ci-dessous :

1. Analyse statistique comparative de requêtes expertes, issues de différentes tâches de RI mé-dicaux : nous avons mis en évidence le fait que : (a) Il y a des variabilités significatives à lafois dans la morphologie des requêtes que des besoins et des performances, (b) Trois attributsimpactent les résultats de recherche, plus spécifiquement la longueur en termes, le score declarté basé sur le sujet et la spécificité terme-document, (c) contrairement aux utilisateurs quicherchent l’information en ligne, les requêtes des médecins sont relativement longues, et cettelongueur dépend de la nature de la tâche de RI, et (d) les experts médicaux se basent sur leursconnaissances du domaine et utilisent des ressources sémantiques pour formuler les requêtes,ce qui les rends spécifiques surtout pour la recherche des cas médicaux de patients.

151

Page 164: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Chapitre 4. Évaluation des requêtes cliniques : Modèles sémantiques pour mieux répondre auxquestions PICO 152

Ces résultats suggèrent le besoin de contextualiser les modèles de RI médicale à la tâche. Plusprécisément, un besoin de clarification et spécification par expansion/reformulation de requêteserait approprié pour des requêtes cliniques expertes.

De plus, les résultats de cette étude ont un impact sur la conception de systèmes de recherched’information médicaux, plus spécifiquement celle de prise de décision médicale.

2. Analyse des requêtes cliniques PICO, dans le cadre de la recherche d’information médicale ba-sée sur les preuves cliniques (EBM). Nous nous sommes intéressés à l’évaluation de requêtescliniques exprimées avec les facettes PICO (Population/Problem (P), Intervention (I), Com-paraison (C) et Outcome (O)). D’après les travaux de l’état de l’art, la recherche médicalebasée sur le paradigme PICO, en vue d’identifier les preuves cliniques pertinentes, est un do-maine sous exploré Ainsi, nous avons proposé de considérer la recherche basée sur les requêtesPICO selon deux axes, à savoir : (i) identification des facettes PICO, à partir des documents etdes requêtes et (ii) l’utilisation des facettes dans la RI pour rechercher les meilleures preuvescorrespondant à chacune des facettes P, IC et O. Nous avons ainsi formulé un ensemble d’hy-pothèses, dans la mesure où un document est d’autant plus pertinent qu’il s’apparie avec plusde facettes de la requête (Boudin et al., 2010c; Demner-Fushman et Lin, 2007) ; et en phased’évaluation de la pertinence des résultats, l’expert médical n’accorde pas la même importanceà l’adéquation des facettes. La facette I/C est plus importante que la facette P qui, à sontour, est plus importante que la facette O (Weifield et Finkelstein, 1996; Boudin et al., 2010c).

Nous avons donc proposé : (1) un algorithme de classement basé sur une expansion séman-tique de requêtes qui prend en compte chacune des facettes PICO ; (2) une représentationsémantique sous forme de graphes conceptuels correspondant à chacun des éléments P ICet O ; (3) une approche d’appariement sémantique requête-document pour mieux répondreaux questions cliniques PICO. Ces contributions se basent sur l’application d’un opérateurd’agrégation prioritaire des scores permettant de : (a) agréger les scores de pertinence partielsissus de l’évaluation de représentations sémantiques associées aux sous-requêtes facettes et (b)contextualiser le score d’importance des facettes au document et requête en cours d’évaluation.

Perspectives

Les différentes analyses et évaluations expérimentales menées pour évaluer nos différentes contri-butions ont montré leur efficacité vis-à-vis des modèles de l’état de l’art. Ce manuscrit ouvre denombreuses perspectives que nous synthétisons dans ce qui suit.À moyen terme, nous proposons de généraliser nos contributions selon deux dimensions, liées auxscénarios de recherche médicale sur le web.

1. Assistance à la recherche d’information médicale par suggestion de requêtes adaptées au profildes utilisateurs. Nous avons proposé un modèle spécifique à la tâche de RI médicale experte.L’expertise du domaine est étroitement liée aux connaissances du domaine. Nous pensons qu’ilpourrait être intéressant d’intégrer une modélisation des utilisateurs en prenant en compte leurniveau d’expertise. Nous proposerons alors : 1) des ressources permettant spécifiquement laréécriture de requêtes d’un lexique avec un niveau d’expertise vers un autre lexique d’unautre niveau d’expertise ; cela convient particulièrement à la traduction du niveau expertvers le niveau novice de manière à rendre l’information plus accessible à ces derniers, 2) des

Page 165: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

153 7. Bilan et conclusion

techniques de suggestions de requêtes suite à une détection de sessions de recherche complexescaractérisées par une dérive du sujet.

2. RI médicale sur le web. Avec la quantité abondante des sources d’information médicales sur leweb, l’utilisateur qui n’est pas forcément un professionnel de santé peut avoir des difficultésà analyser les réponses retournées par les moteurs de recherche et, plus spécifiquement, às’assurer de la crédibilité de cette information lors de l’auto-diagnostic. En effet, plusieurstravaux ont montré que la recherche sur le web en lien avec la santé peut amener à l’anxiétéchez l’utilisateur, et cela a des répercussions sur les décisions à prendre quant à la priseen charge de santé. Ce phénomène est connu sous le nom Cyberchondria (White et Horvitz,2009b). Les auteurs ont montré que le web est une source potentielle d’inquiétude inopportunepour les utilisateurs. Pour faire face à ce phénomène, nous envisageons de proposer un cadred’évaluation multicritère de la pertinence en RI médicale en exploitant différents facteurs depertinence selon par exemple les profils des utilisateurs, la nature du besoin en information etla crédibilité des sources d’information.

Page 166: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier
Page 167: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Bibliographie

Adriani, M. et Rijsbergen, C. J. V. (1999). Term similarity-based query expansion for cross-language information retrieval. In In Proceedings of the third European Conference on Researchand Advanced Technology for Digital Libraries (ECDL ’99, pages 311–322.

Agirre, E., Arregi, X. et Otegi, A. (2010). Document expansion based on wordnet for robust ir.In Proceedings of the 23rd International Conference on Computational Linguistics : Posters,COLING ’10, pages 9–17, Stroudsburg, PA, USA. Association for Computational Linguistics.

Akrivas, G., Wallace, M., Andreou, G., Stamou, G. et Kollias, S. (2002). Context-sensitivesemantic query expansion. In Artificial Intelligence Systems, 2002. (ICAIS 2002). 2002 IEEEInternational Conference on, pages 109–114.

Al-Maskari, A. et Sanderson, M. (2011). The effect of user characteristics on search effectivenessin information retrieval. Inf. Process. Manage., 47(5):719–729.

Allen, B. (1991). Topic knowledge and online catalog search formulation. The Library Quarterly :Information, Community, Policy, 61(2):pp. 188–213.

Alper, B. S., Stevermer, J. J., White, D. S. et Ewigman, B. G. (2001). Answering familyphysicians’ clinical questions using electronic medical databases. Journal of Family Practice,50(11):960–965.

Andreassen, H. K., Bujnowska-Fedak, M. M., Chronaki, C. E., Dumitru, R. C., Pudule,I., Santana, S., Voss, H. et Wynn, R. (2007). European citizens’ use of e-health services : astudy of seven countries. BMC public health, 7(1):1.

Andrews, J. E., Pearce, K. A., Ireson, C. et Love, M. M. (2005). Information-seeking behaviorsof practitioners in a primary care practice-based research network (PBRN). Journal of theMedical Library Association : JMLA, 93(2):206–212.

Andualem, M., Kebede, G. et Kumie, A. (2013). Information needs and seeking behaviour amonghealth professionals working at public hospital and health centres in bahir dar, ethiopia. BMCHealth Services Research, 13(1):1–9.

Arnold, P. et Rahm, E. (2015). Semrep : A repository for semantic mapping. In Datenbanksystemefür Business, Technologie und Web (BTW), 16. Fachtagung des GI-Fachbereichs "Datenbankenund Informationssysteme" (DBIS), 4.-6.3.2015 in Hamburg, Germany. Proceedings, pages 177–194.

Aronson, A. R. (2001). Effective mapping of biomedical text to the umls metathesaurus : themetamap program. Proc AMIA Symp, pages 17–21.

155

Page 168: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Bibliographie 156

Arora, N., Hesse, B., B.K, R., Viswanath, K., Clayman, M. et Croyle, R. (2007). Frustratedand confused : the american and public rates its cancer-related information-seeking experiences.Journal of General Internal Medicine, 23(3):223–228.

Ashburner, M., Ball, C. A., Blake, J. A., Botstein, D., Butler, H., Cherry, J. M., Davis,A. P., Dolinski, K., Dwight, S. S., Eppig, J. T. et al. (2000). Gene ontology : tool for theunification of biology. Nature genetics, 25(1):25–29.

Attia, A. (2013). Adaptation of international evidence based clinical practice guidelines : Theadapte process. Middle East Fertility Society Journal, 18(2):123–126.

Baeza-Yates, R. et Ribeiro-Neto, B. (2011). Modern Information Retrieval : The Concepts andTechnology behind Search (2nd Edition) (ACM Press Books). Addison-Wesley Professional, 2édition.

Baeza-Yates, R., Ribeiro-Neto, B. et al. (1999). Modern information retrieval, volume 463.ACM press New York.

Baker, N. C. et Hemminger, B. M. (2010). Mining connections between chemicals, proteins, anddiseases extracted from medline annotations. Journal of Biomedical Informatics, 43(4):510 –519.

Baziz, M., Aussenac-Gilles, N. et Boughanem, M. (2003). Désambiguisation et Expansionde Requêtes dans un SRI,Etude de l’apport des liens sémantiques. Revue des Sciences etTechnologies de l’Information (RSTI) série ISI, 8(4/2003):113–136.

Bhavnani, S. K. (2001). Important Cognitive Components of Domain-Specific Search Knowledge.pages 571–578.

Bhavnani, S. K. (2002). Domain-specific search strategies for the effective retrieval of healthcareand shopping information. In CHI ’02 Extended Abstracts on Human Factors in ComputingSystems, CHI EA ’02, pages 610–611, New York, NY, USA. ACM.

Bigot, A. (2013). Adapter les moteurs de recherche aux besoins en information - Prise en comptede la difficulté du besoin (regular paper). pages 59–74, http ://www.univ-paris1.fr/. UniversitéParis 1.

Blair, D. C. et Maron, M. E. (1985). An evaluation of retrieval effectiveness for a full-textdocument-retrieval system. Commun. ACM, 28(3):289–299.

Boden, C. (2009). Overcoming the linguistic divide : a barrier to consumer health information.Journal Canadian Health Libraries Association, 30(3):75–80.

Borlund, P. (2003). The concept of relevance in ir. Journal of the American Society for informationScience and Technology, 54(10):913–925.

Boudin, F., Nie, J., Bartlett, J., Grad, R., Pluye, P. et Dawes, M. (2010a). Combiningclassifiers for robust pico element detection. BMC Medical Informatics and Decision Making,10(1):29.

Boudin, F., Nie, J. Y. et Dawes, M. (2010b). Clinical information retrieval using document andPICO structure. In NAACL HLT, pages 822–830.

Boudin, F., Nie, J.-Y. et Dawes, M. (2010c). Positional language models for clinical informationretrieval. In EMNLP, pages 108–115.

Boudin, F., Nie, J.-Y. et Dawes, M. (2012). Using a medical thesaurus to predict query difficulty.In Baeza-Yates, R. A., de Vries, A. P., Zaragoza, H., Cambazoglu, B. B., Murdock,V., Lempel, R. et Silvestri, F., éditeurs : ECIR, volume 7224 de Lecture Notes in ComputerScience, pages 480–484. Springer.

Page 169: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

157 Bibliographie

Boudin, F., Shi, L. et Nie, J.-Y. (2010d). Improving medical information retrieval with picoelement detection. In Proceedings of the 32Nd European Conference on Advances in InformationRetrieval, ECIR’2010, pages 50–61, Berlin, Heidelberg. Springer-Verlag.

Boughanem, M. et Savoy, J. (2008). Recherche d’information : état des lieux et perspectives.Collection Recherche d’information et web. Hermès science publ. Lavoisier, Paris.

Brashers, D. E., Neidig, J. L., Haas, S. M., Dobbs, L. K., Cardillo, L. W. et Russell, J. A.(2000). Communication in the management of uncertainty : The case of persons living withhiv or aids. Communication Monographs, 67(1):63–84.

Broder, A. (2002). A taxonomy of web search. SIGIR Forum, 36(2):3–10.Buckley, C., Salton, G. et Allan, J. (1992). Automatic retrieval with locality information using

smart. In Harman, D. K., éditeur : TREC, volume Special Publication 500-207, pages 59–72.National Institute of Standards and Technology (NIST).

Buckley, C. et Voorhees, E. M. (2000). Evaluating evaluation measure stability. In Proceedingsof the 23rd Annual International ACM SIGIR Conference on Research and Development inInformation Retrieval, SIGIR ’00, pages 33–40, New York, NY, USA. ACM.

Burstein, F., Fisher, J., McKemmish, S., Manaszewicz, R. et Malhotra, P. (2005). Usercentred quality health information provision : Benefits and challenges. In 38th Hawaii Inter-national Conference on System Sciences (HICSS-38 2005), CD-ROM / Abstracts Proceedings,3-6 January 2005, Big Island, HI, USA.

Califf, R. M., McCall, J. et Harrington, R. A. (2013). Assessing research results in the medicalliterature : trust but verify. JAMA internal medicine, 173(12):1053–1055.

Carpineto, C., de Mori, R., Romano, G. et Bigi, B. (2001). An information-theoretic approachto automatic query expansion. ACM Trans. Inf. Syst., 19(1):1–27.

Carpineto, C. et Romano, G. (2012). A survey of automatic query expansion in informationretrieval. ACM Comput. Surv., 44(1):1 :1–1 :50.

Carpineto, C., Romano, G. et Giannini, V. (2002). Improving retrieval feedback with multipleterm-ranking function combination. ACM Trans. Inf. Syst., 20(3):259–290.

Cartright, M.-A., White, R. W. et Horvitz, E. (2011). Intentions and attention in exploratoryhealth search. In Proceedings of the 34th international ACM SIGIR conference on Research anddevelopment in Information Retrieval, SIGIR ’11, pages 65–74, New York, NY, USA. ACM.

Case, D. O. (2012). Looking for information : A survey of research on information seeking, needsand behavior. Emerald Group Publishing.

Chabou, S. et Iglewski, M. (2015). Pico extraction by combining the robustness of machine-learning methods with the rule-based methods. In Information Technology and ComputerApplications Congress (WCITCA), 2015 World Congress on, pages 1–4. IEEE.

Chung, G. Y. (2009). Sentence retrieval for abstracts of randomized controlled trials. BMC MedInform Decis Mak, 9:10.

Clarke, M. A., Belden, J. L., Koopman, R. J., Steege, L. M., Moore, J. L., Canfield,S. M. et Kim, M. S. (2013). Information needs and information-seeking behaviour analysis ofprimary care physicians and nurses : a literature review. Health Information Libraries Journal,30(3):178–190.

Cleverdon, C. W. (1991). The significance of the cranfield tests on index languages. In Proceedingsof the 14th Annual International ACM SIGIR Conference on Research and Development inInformation Retrieval, SIGIR ’91, pages 3–12, New York, NY, USA. ACM.

Page 170: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Bibliographie 158

Clough, P. D. et Sanderson, M. (2013). Evaluating the performance of information retrievalsystems using test collections. Inf. Res., 18(2).

Cook, D. J., Mulrow, C. D. et Haynes, R. B. (1997). Systematic reviews : Synthesis of bestevidence for clinical decisions. Annals of Internal Medicine, 126(5):376–380.

Córdoba, J. M., López, M. J. M., Díaz, N. P. C., Vázquez, J. M., Aparicio, F., de Bue-naga Rodríguez, M., Glez-Peña, D. et Fdez-Riverola, F. (2011). Medical-miner at trec2011 medical records track. In TREC.

Cronen-Townsend, S. et Croft, W. B. (2002). Quantifying query ambiguity. HLT ’02, pages104–109, San Francisco, CA, USA. Morgan Kaufmann Publishers Inc.

Cui, H., Wen, J.-R., Nie, J.-Y. et Ma, W.-Y. (2003). Query expansion by mining user logs. IEEETrans. on Knowl. and Data Eng., 15(4):829–839.

Cullen, R. J. (2002). In search of evidence : family practitioners’ use of the internet for clinicalinformation. JOURNAL-MEDICAL LIBRARY ASSOCIATION, 90:370–379.

Curé, O., Maurer, H., Shah, N. et LePendu, P. (2013). Refining health outcomes of interest usingformal concept analysis and semantic query expansion. In Proceedings of the 7th InternationalWorkshop on Data and Text Mining in Biomedical Informatics, DTMBIO ’13, pages 5–6, NewYork, NY, USA. ACM.

Cutrell, E. et Guan, Z. (2007). What are you looking for ? : An eye-tracking study of informationusage in web search. In Proceedings of the SIGCHI Conference on Human Factors in ComputingSystems, CHI ’07, pages 407–416, New York, NY, USA. ACM.

Da Costa Pereira, C., Dragoni, M. et Pasi, G. (2009). Multidimensional Relevance : A NewAggregation Criterion. In Boughanem, M., Berrut, C., Mothe, J. et Soule-Dupuy, C., édi-teurs : Advances in Information Retrieval, volume 5478 de Lecture Notes in Computer Science,chapitre 25, pages 264–275. Springer Berlin Heidelberg, Berlin, Heidelberg.

Daoud, M., Kasperowicz, D., Miao, J. et Huang, J. (2011). York university at trec 2011 :Medical records track. In TREC.

Darmoni, S. et Joubert, M. (2000). Cismef. Methods of information in medicine, 39(1):30–35.Dawes, M., Pluye, P., Shea, L., Grad, R., Greenberg, A. et Nie, J.-Y. (2007). The

identification of clinically important elements within medical journal abstracts : Pa-tient–population–problem, exposure–intervention, comparison, outcome, duration and results(pecodr). Informatics in Primary care, 15:9–16.

Dawes, M. et Sampson, U. (2003). Knowledge management in clinical practice : a systematicreview of information seeking behavior in physicians. Int J Med Inform, 71(1):9–15.

Demner-Fushman, D. et Lin, J. (2007). Answering clinical questions with knowledge-based andstatistical techniques. Comput. Linguist., 33(1):63–103.

Diem, L., Chevallet, J.-P. et Thuy, D. T. B. (2007). Thesaurus-based query and documentexpansion in conceptual indexing with umls.

Dinh, D. et Tamine, L. (2010). Sense-based biomedical indexing and retrieval. In InternationalConference on Application of Natural Language to Information Systems, pages 24–35. Springer.

Dinh, D. et Tamine, L. (2011a). Biomedical concept extraction based on combining the content-based and word order similarities. In Proceedings of the 2011 ACM Symposium on AppliedComputing, SAC ’11, pages 1159–1163, New York, NY, USA. ACM.

Dinh, D. et Tamine, L. (2011b). Combining global and local semantic contexts for improvingbiomedical information retrieval. In Proceedings of the 33rd European Conference on Advancesin Information Retrieval, ECIR’11, pages 375–386, Berlin, Heidelberg. Springer-Verlag.

Page 171: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

159 Bibliographie

Dinh, D. et Tamine, L. (2011c). Voting techniques for a multi-terminology based biomedi-cal information retrieval (regular paper). In Conference on Artificial Intelligence in Medi-cine (AIME), Bled, Slovenia, 02/07/2011-06/07/2011, volume 6747 de LNAI, pages 184–193,http ://www.springerlink.com. Springer. acceptance rate : 26

Dixon, B. E., Lai, P. et Grannis, S. J. (2013). Variation in information needs and quality : Im-plications for public health surveillance and biomedical informatics. In AMIA 2013, AmericanMedical Informatics Association Annual Symposium, Washington, DC, USA, November 16-20,2013.

Dogan, R. I., Murray, G. C., Névéol, A. et Lu, Z. (2009). Understanding pubmed R© user searchbehavior through log analysis. Database, 2009.

Doszkocs, T. (1979). AID : An Associative Interactive Dictionary for Online Bibliographic Sear-ching. University of Maryland.

Downing, R. E., Moore, J. L. et Brown, S. W. (2005). The effects and interaction of spatialvisualization and domain expertise on information seeking. Computers in Human Behavior,21(2):195–209.

Duan, L., Dong, S., Cui, S. et Ma, W. (2016). Proceedings of ELM-2015 Volume 1 : Theory,Algorithms and Applications (I), chapitre Extreme Learning Machine with Gaussian KernelBased Relevance Feedback Scheme for Image Retrieval, pages 397–408. Springer InternationalPublishing, Cham.

Eastin, M. S. et Guinsler, N. M. (2006). Worried and wired : Effects of health anxiety oninformation-seeking and health care utilization behaviors. Cyberpsy., Behavior, and Soc. Net-working, 9(4):494–498.

Efron, M., Organisciak, P. et Fenlon, K. (2012). Improving retrieval of short texts throughdocument expansion. In Proceedings of the 35th International ACM SIGIR Conference onResearch and Development in Information Retrieval, SIGIR ’12, pages 911–920, New York,NY, USA. ACM.

Efthimiadis, E. N. (1996). Query expansion. Annual review of information science and technology,31:121–187.

Ely, J., Osheroff, J. A., Ebell, M. H., Chambliss, M. L., Vinson, D., Stevermer, J. J.et Pifer, E. A. (2002). Obstacles to answering doctors’ questions about patient care withevidence : Qualitative study. BMJ, 324(7339):710.

Ely, J. W., Osheroff, J. A., Ebell, M. H., Bergus, G. R., Levy, B. T., Chambliss, M. L.et Evans, E. R. (1999). Analysis of questions asked by family doctors regarding patient care.BMJ, 319(7206):358–361.

Ely, J. W., Osheroff, J. A., Gorman, P. N., Ebell, M. H., Chambliss, M. L., Pifer, E. A.et Stavri, P. Z. (2000). A taxonomy of generic clinical questions : classification study. BMJ,321(7258):429–432.

Eysenbach, G. et Köhler, C. (2002). How do consumers search for and appraise health informa-tion on the world wide web ? qualitative study using focus groups, usability tests, and in-depthinterviews. BMJ, 324(7337):573–577.

Fernandez-Beltran, R. et Pla, F. (2016). Latent topics-based relevance feedback for videoretrieval. Pattern Recognition, 51:72 – 84.

Fineout-Overholt, E. et Johnston, L. (2005). Teaching ebp : Asking searchable, answerableclinical questions. Worldviews on Evidence-Based Nursing, 2(3):157–160.

Page 172: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Bibliographie 160

Fox, S. et Duggan, M. (2013). The social life of health information. Rapport technique, PewInternet & American Life Project.

Fox, S. et Jones, S. (2009). The social life of health information. Rapport technique, Pew Internet& American Life Project.

Francke, A., Smit, M. et de Veer, A. (2008). Factors influencing the implementation of clinicalguidelines for health care professionals : a systematic meta-review. BMC Medical InformationDecision Making, 8:8–38.

Freund, L., Toms, E. G. et Waterhouse, J. (2005). Modeling the information behaviour ofsoftware engineers using a work-task framework. Proceedings of the American Society for In-formation Science and Technology, 42(1).

Furnas, G. W., Landauer, T. K., Gomez, L. M. et Dumais, S. T. (1987). The vocabularyproblem in human-system communication. Commun. ACM, 30(11):964–971.

Ghezaiel, L. B., Latiri, C. C. et Ahmed, M. B. (2012). Conceptual indexing documents in IR ba-sed on ontology enrichment. In Advances in Knowledge-Based and Intelligent Information andEngineering Systems - 16th Annual KES Conference, San Sebastian, Spain, 10-12 September2012, pages 1920–1931.

Gobeill, J., Ruch, P. et Zhou, X. (2009). Query and document expansion with medical subjectheadings terms at medical imageclef 2008. In Peters, C., Deselaers, T., Ferro, N., Gon-zalo, J., Jones, G., Kurimo, M., Mandl, T., Peñas, A. et Petras, V., éditeurs : EvaluatingSystems for Multilingual and Multimodal Information Access, volume 5706 de Lecture Notes inComputer Science, pages 736–743. Springer Berlin Heidelberg.

Goeuriot, L., Jones, G. J., Kelly, L., Leveling, J., Hanbury, A., Müller, H., Salantera,S., Suominen, H. et Zuccon, G. (2013). Share/clef ehealth evaluation lab 2013, task 3 :Information retrieval to address patients’ questions when reading clinical reports. CLEF 2013Online Working Notes, 8138.

Goeuriot, L., Kelly, L., Li, W., Palotti, J., Zuccon, G., Hanbury, A., Jones, G. J. et Mül-ler, H. (2014). Share/clef ehealth evaluation lab 2014, task 3 : User-centred health informationretrieval. CLEF 2014 Online Working Notes, 1180:43–61.

Goeuriot, L., Kelly, L., Suominen, H., Hanlen, L., Névéol, A., Grouin, C., Palotti, J. etZuccon, G. (2015). Experimental IR Meets Multilinguality, Multimodality, and Interaction :6th International Conference of the CLEF Association, CLEF’15, Toulouse, France, September8-11, 2015, Proceedings, chapitre Overview of the CLEF eHealth Evaluation Lab 2015, pages429–443. Springer International Publishing, Cham.

Gorman, P. N. et Helfand, M. (1995). Information seeking in primary care how physicians choosewhich clinical questions to pursue and which to leave unanswered. Medical Decision Making,15(2):113–119.

Graber, M. A., Bergus, G. R. et York, C. (1999). Using the World Wide Web to answer clinicalquestions : how efficient are different methods of information retrieval ? The Journal of familypractice, 48(7):520–524.

Greenhalgh, T. (2004). Effectiveness and efficiency : Random reflections on health services. BMJ,328(7438):529.

Griffin, R. J., Neuwirth, K., Dunwoody, S. et Giese, J. (2004). Information sufficiency andrisk communication. Media Psychology, 6(1):23–61.

Hammache, A., Boughanem, M. et Ahmed-Ouamer, R. (2013). Pseudo-réinjection de pertinencebasée sur un modèle de langue mixte combinant les termes simples et composés. In CORIA 2013

Page 173: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

161 Bibliographie

- Conférence en Recherche d’Infomations et Applications - 10th French Information RetrievalConference, Neuchâtel, Suisse, April 3-5, 2013., pages 175–190.

Hanauer, D. A. (2006). Emerse : the electronic medical record search engine. In AMIA annualsymposium proceedings, volume 2006, page 1189. American Medical Informatics Association.

Hanbury, A. (2012). Medical information retrieval : An instance of domain-specific search. InProceedings of the 35th International ACM SIGIR Conference on Research and Developmentin Information Retrieval, SIGIR ’12, pages 1191–1192, New York, NY, USA. ACM.

Haux, R., Grothe, W., Runkel, M., Schackert, H., Windeler, H.-J., Winter, A., Wirtz,R., Herfarth, C. et Kunze, S. (1996). Knowledge retrieval as one type of knowledge-baseddecision support in medicine : results of an evaluation study. International Journal of Bio-Medical Computing, 41(2):69 – 86.

Haynes, R. B., McKibbon, K. A., Wilczynski, N. L., Walter, S. D. et Werre, S. R. (2005).Optimal search strategies for retrieving scientifically strong studies of treatment from medline :analytical survey. BMJ, 330(7501):1179.

Hazimeh, H. et Zhai, C. (2015). Axiomatic analysis of smoothing methods in language models forpseudo-relevance feedback. In Proceedings of the 2015 International Conference on The Theoryof Information Retrieval, ICTIR ’15, pages 141–150, New York, NY, USA. ACM.

Hembrooke, H. A., Granka, L. A., Gay, G. K. et Liddy, E. D. (2005). The effects of expertiseand feedback on search term selection and subsequent learning : Research articles. J. Am. Soc.Inf. Sci. Technol., 56(8):861–871.

Hersh, W. (2009). Information Retrieval : A Health and Biomedical Perspective. Springer, 3édition.

Hersh, W., Price, S. et Donohoe, L. (2000). Assessing thesaurus-based query expansion usingthe umls metathesaurus. In AMIA Symposium, pages 344–348.

Hersh, W. et Voorhees, E. (2009). Trec genomics special issue overview. Inf. Retr., 12(1):1–15.Hersh, W. R. (2006). Viewpoint paper : Who are the informaticians ? what we know and should

know. JAMIA, 13(2):166–170.Hersh, W. R. et Bhupatiraju, R. T. (2003). TREC GENOMICS track overview. In Proceedings of

The Twelfth Text REtrieval Conference, TREC 2003, Gaithersburg, Maryland, USA, November18-21, 2003, pages 14–23.

Hersh, W. R., Bhupatiraju, R. T., Greene, P. S., Smothers, V. et Cohen, C. (2006a). Adop-ting e-learning standards in health care : Competency-based learning in the medical informaticsdomain. In AMIA 2006, American Medical Informatics Association Annual Symposium, Wa-shington, DC, USA, November 11-15, 2006.

Hersh, W. R., Bhupatiraju, R. T., Ross, L., Cohen, A. M., Kraemer, D. et Johnson, P.(2004). TREC 2004 genomics track overview. In Proceedings of the Thirteenth Text REtrievalConference, TREC 2004, Gaithersburg, Maryland, USA, November 16-19, 2004.

Hersh, W. R., Cohen, A. M., Roberts, P. M. et Rekapalli, H. K. (2006b). TREC 2006 geno-mics track overview. In Proceedings of the Fifteenth Text REtrieval Conference, TREC 2006,Gaithersburg, Maryland, USA, November 14-17, 2006.

Hersh, W. R., Cohen, A. M., Ruslen, L. et Roberts, P. M. (2007). TREC 2007 genomicstrack overview. In Proceedings of The Sixteenth Text REtrieval Conference, TREC 2007,Gaithersburg, Maryland, USA, November 5-9, 2007.

Page 174: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Bibliographie 162

Hersh, W. R., Cohen, A. M., Yang, J., Bhupatiraju, R. T., Roberts, P. M. et Hearst, M. A.(2005). TREC 2005 genomics track overview. In Proceedings of the Fourteenth Text REtrievalConference, TREC 2005, Gaithersburg, Maryland, USA, November 15-18, 2005.

Hersh, W. R., Crabtree, M. K., Hickam, D. H., Sacherek, L., Friedman, C. P., Tidmarsh,P., Mosbaek, C. et Kraemer, D. (2002). Research paper : Factors associated with success insearching medline and applying evidence to answer clinical questions. JAMIA, 9(3):283–293.

Herskovic, J. R., Tanaka, L. Y., Hersh, W. et Bernstam, E. V. (2007a). A day in the life ofpubmed : analysis of a typical day’s query log. Journal of the American Medical InformaticsAssociation, 14(2):212–220.

Herskovic, J. R., Tanaka, L. Y., Hersh, W. R. et Bernstam, E. V. (2007b). Research paper :A day in the life of pubmed : Analysis of a typical day’s query log. JAMIA, 14(2):212–220.

Heuwing, B. et Mandl, T. (2007). Robust retrieval experiments at the university of hildesheim.In Advances in Multilingual and Multimodal Information Retrieval, 8th Workshop of the Cross-Language Evaluation Forum, CLEF 2007, Budapest, Hungary, September 19-21, 2007, RevisedSelected Papers, pages 134–136.

HOBU, P. P. M., SCHMIDT, H. G., BOSHUIZEN, H. P. A. et PATEL, V. L. (1987). Contextualfactors in the activation of first diagnostic hypotheses : expert-novice differences. MedicalEducation, 21(6):471–476.

Hölscher, C. et Strube, G. (2000). Web search behavior of internet experts and newbies. Com-puter networks, 33(1):337–346.

Hong, Y., Cruz, N., Marnas, G., Early, E. et Gillis, R. (2002). A query analysis of consumerhealth information retrieval. In Proceedings of Annual Symposium for biomedical and healthinformatics, pages 791–792.

Hsieh-Yee, I. (1993). Effects of search experience and subject knowledge on the search tactics ofnovice and experienced searchers. Journal of the American Society for Information Science,44(3):161.

Huang, J. et Efthimiadis, E. N. (2009). Analyzing and evaluating query reformulation strategiesin web search logs. In Proceedings of the 18th ACM Conference on Information and KnowledgeManagement, CIKM ’09, pages 77–86, New York, NY, USA. ACM.

Huang, K.-C., Chiang, I.-J., Xiao, F., Liao, C.-C., Liu, C. C.-H. et Wong, J.-M. (2013). Picoelement detection in medical text without metadata : Are first sentences enough ? Journal ofbiomedical informatics, 46(5):940–946.

Inthiran, A., Alhashmi, S. M. et Ahmed, P. K. (2012). The affects of task difficulty on medicalsearches. In Proceedings of the 21st International Conference on World Wide Web, WWW ’12Companion, pages 533–534, New York, NY, USA. ACM.

Jamal, A., McKenzie, K., Clark, M. J. et al. (2009). The impact of health information technologyon the quality of medical and health care : a systematic review. Health Information ManagementJournal, 38(3):26.

Jiang, J. et Zhai, C. (2007). An empirical study of tokenization strategies for biomedical informa-tion retrieval. Inf. Retr., 10(4-5):341–363.

Jones, S. (1972). A statistical interpretation of term specificity and its application to retrieval.Journal of documentation, 28(1):11–20.

Jonnalagadda, S., Cohen, T., Wu, S. et Gonzalez, G. (2012). Enhancing clinical conceptextraction with distributional semantics. Journal of biomedical informatics, 45(1):129–140.

Page 175: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

163 Bibliographie

Kalpathy-Cramer, J., Müller, H., Bedrick, S., Eggel, I., García Seco de Herrera, A. etTsikrika, T. (2011). The CLEF 2011 medical image retrieval and classification tasks. InWorking Notes of CLEF 2011 (Cross Language Evaluation Forum).

Karimi, S., Martinez, D., Ghodke, S., Cavedon, L., Suominen, H. et Zhang, L. (2011). Searchfor medical records : Nicta at trec 2011 medical track. In TREC.

Keenan, G., Yakel, E., Lopez, K. D., Tschannen, D. et Ford, Y. B. (2013). Challenges tonurses’ efforts of retrieving, documenting, and communicating patient care information. Journalof the American Medical Informatics Association, 20(2):245–251.

Kelly, L., Goeuriot, L., Suominen, H., Schreck, T., Leroy, G., Mowery, D. L., Velupillai,S., Chapman, W. W., Martinez, D., Zuccon, G. et Palotti, J. (2014). Information Ac-cess Evaluation. Multilinguality, Multimodality, and Interaction : 5th International Conferenceof the CLEF Initiative, CLEF 2014, Sheffield, UK, September 15-18, 2014. Proceedings, cha-pitre Overview of the ShARe/CLEF eHealth Evaluation Lab 2014, pages 172–191. SpringerInternational Publishing, Cham.

Keselman, A., Smith, C. A., Divita, G., Kim, H., Browne, A. C., Leroy, G. et Zeng-Treitler,Q. (2008). Consumer Health Concepts That Do Not Map to the UMLS : Where Do They Fit ?J Am Med Inform Assoc, 15(4):496–505.

Kim, S. N., Martinez, D., Cavedon, L. et Yencken, L. (2011). Automatic classification ofsentences to support evidence based medicine. BMC bioinformatics, 12(2):1.

King, B., Wang, L., Provalov, I. et Zhou, J. (2011). Cengage learning at TREC 2011 medicaltrack. In Proceedings of The Twentieth Text REtrieval Conference, TREC 2011, Gaithersburg,Maryland, USA, November 15-18, 2011.

Kostagiolas, P., Korfiatis, N., Kourouthanasis, P. et Alexias, G. (2014). Work-relatedfactors influencing doctors search behaviors and trust toward medical information resources.International Journal of Information Management, 34(2):80–88.

Kules, B. et Xie, B. (2011). Older adults searching for health information in medlineplus – anexploratory study of faceted online search interfaces. Proceedings of the American Society forInformation Science and Technology, 48(1):1–10.

Kwan, P. W., Welch, M. C., Foley, J. J., Kwan, P., Welch, M. et Foley, J. (2015). Aknowledge-based decision support system for adaptive fingerprint identification that uses rele-vance feedback. Knowledge-Based Systems, 73(Complete):236–253.

Lambert, S. D. et Loiselle, C. G. (2007). Health information—seeking behavior. QualitativeHealth Research, 17(8):1006–1019.

LaRock, T., Mathews, L., Roberts, M., Lim, D. et Small, S. G. (2014). Siena’s twitter infor-mation retrieval system : The 2014 microblog track. In Proceedings of The Twenty-Third TextREtrieval Conference, TREC 2014, Gaithersburg, Maryland, USA, November 19-21, 2014.

Latiri, C., Haddad, H. et Hamrouni, T. (2012). Towards an effective automatic query expansionprocess using an association rule mining approach. Journal of Intelligent Information Systems,39(1):209–247.

Lee, K. S., Croft, W. B. et Allan, J. (2008). A cluster-based resampling method for pseudo-relevance feedback. In Proceedings of the 31st Annual International ACM SIGIR Conferenceon Research and Development in Information Retrieval, SIGIR ’08, pages 235–242, New York,NY, USA. ACM.

Li, C. et Wang, J. (2012). A clustering approach to improving pseudo-relevance feedback : Impro-ving retrieval effetiveness by removing noisy documents. 2012 Fourth International Symposiumon Information Science and Engineering, 0:35–38.

Page 176: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Bibliographie 164

Limsopatham, N., Macdonald, C. et Ounis, I. (2015). Modelling the usefulness of documentcollections for query expansion in patient search. In Proceedings of the 24th ACM Internationalon Conference on Information and Knowledge Management, CIKM ’15, pages 1739–1742, NewYork, NY, USA. ACM.

Liu, C., Liu, J., Cole, M., Belkin, N. J. et Zhang, X. (2012). Task difficulty and domainknowledge effects on information search behaviors. Proceedings of the American Society forInformation Science and Technology, 49(1):1–10.

Liu, R.-L. et Huang, Y.-C. (2011). Medical query generation by term-category correlation. Inf.Process. Manage., 47(1):68–79.

Liu, S., Liu, F., Yu, C. et Meng, W. (2004). An effective approach to document retrieval viautilizing wordnet and recognizing phrases. In Proceedings of the 27th Annual InternationalACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR ’04,pages 266–272, New York, NY, USA. ACM.

Lundahl, B., Moleni, T., Burke, B. L., Butters, R., Tollefson, D., Butler, C. et Rollnick,S. (2013). Motivational interviewing in medical care settings : A systematic review and meta-analysis of randomized controlled trials. Patient Education and Counseling, 93(2):157 – 168.

Luo, G. (2009). Lessons learned from building the imed intelligent medical search engine. In Engi-neering in Medicine and Biology Society, 2009. EMBC 2009. Annual International Conferenceof the IEEE, pages 5138–5142. IEEE.

Luo, G. et Tang, C. (2008). On iterative intelligent medical search. In Proceedings of the 31stAnnual International ACM SIGIR Conference on Research and Development in InformationRetrieval, SIGIR ’08, pages 3–10, New York, NY, USA. ACM.

Luo, G., Tang, C., Yang, H. et Wei, X. (2008). Medsearch : A specialized search engine formedical information retrieval. In Proceedings of the 17th ACM Conference on Information andKnowledge Management, CIKM ’08, pages 143–152, New York, NY, USA. ACM.

Lykke, M., Price, S. et Delcambre, L. M. L. (2012). How doctors search : A study of querybehaviour and the impact on search results. Inf. Process. Manage., 48(6):1151–1170.

Magrabi, F., Coiera, E. W., Westbrook, J. I., Gosling, A. S. et Vickland, V. (2005). Generalpractitioners’ use of online evidence during consultations. I. J. Medical Informatics, 74(1):1–12.

Mandala, R., Tokunaga, T. et Tanaka, H. (1999). Combining multiple evidence from differenttypes of thesaurus for query expansion. In Proceedings of the 22Nd Annual International ACMSIGIR Conference on Research and Development in Information Retrieval, SIGIR ’99, pages191–197, New York, NY, USA. ACM.

Manning, C. D., Raghavan, P. et Schütze, H. (2008). Introduction to Information Retrieval.Cambridge University Press, New York, NY, USA.

Mao, J., Lu, K., Mu, X. et Li, G. (2015). Mining document, concept, and term associationsfor effective biomedical retrieval : Introducing mesh-enhanced retrieval models. Inf. Retr.,18(5):413–444.

Marchionini, G. (1995). Information Seeking in Electronic Environments. Cambridge UniversityPress, New York, NY, USA.

Marchionini, G., Dwiggins, S., Katz, A. et Lin, X. (1993). Information seeking in full-text end-user-oriented search systems : The roles of domain and search expertise. Library & informationscience research, 15(1):35–69.

Maron, M. E. et Kuhns, J. L. (1960). On relevance, probabilistic indexing and informationretrieval. J. ACM, 7(3):216–244.

Page 177: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

165 Bibliographie

McCray, A. T. et Tse, T. (2003). Understanding search failures in consumer health informationsystems. AMIA, pages 430–434.

McKnight, L. et Srinivasan, P. (2003). Categorization of sentence types in medical abstracts.In AMIA.

Merry, D. E. et Korsmeyer, S. J. (1997). Bcl-2 gene family in the nervous system. AnnualReview of Neuroscience, 20(1):245–267.

Miller, S. A. et Forrest, J. L. (2001). Enhancing your practice through evidence-based decisionmaking : Pico, learning how to ask good questions. Journal of Evidence Based Dental Practice,1(2):136 – 141.

Min, J., Leveling, J., Zhou, D. et Jones, G. J. F. (2010). Document expansion for image retrie-val. In Adaptivity, Personalization and Fusion of Heterogeneous Information, RIAO ’10, pages65–71, Paris, France, France. LE CENTRE DE HAUTES ETUDES INTERNATIONALESD’INFORMATIQUE DOCUMENTAIRE.

Mitra, M., Singhal, A. et Buckley, C. (1998). Improving automatic query expansion. In Procee-dings of the 21st Annual International ACM SIGIR Conference on Research and Developmentin Information Retrieval, SIGIR ’98, pages 206–214, New York, NY, USA. ACM.

Mizzaro, S. (1997). Relevance : The whole history. J. Am. Soc. Inf. Sci., 48(9):810–832.Moturu, S., Liu, H. et Johnson, W. G. (2008). Trust evaluation in health information on the

world wide web. In Engineering in Medicine and Biology Society, 2008. EMBS 2008. 30thAnnual International Conference of the IEEE, pages 1525–1528.

Mu, X., Ryu, H. et Lu, K. (2011). Supporting effective health and biomedical information retrievaland navigation : A novel facet view interface evaluation. J. of Biomedical Informatics, 44(4):576–586.

Müller, H., Deselaers, T., Deserno, T. M., Kalpathy-Cramer, J., Kim, E. et Hersh, W.(2007). Overview of the imageclefmed 2007 medical retrieval and medical annotation tasks. InAdvances in Multilingual and Multimodal Information Retrieval, pages 472–491. Springer.

Murad, M. H., Montori, V. M., Ioannidis, J. P., Jaeschke, R., Devereaux, P., Prasad, K.,Neumann, I., Carrasco-Labra, A., Agoritsas, T., Hatala, R. et al. (2014). How to reada systematic review and meta-analysis and apply the results to patient care : users’ guides tothe medical literature. Jama, 312(2):171–179.

Nabarette, H. (2002). L’internet médical et la consommation d’information par les patients.Réseaux, (4):249–286.

Natarajan, K., Stein, D., Jain, S. et Elhadad, N. (2010). An analysis of clinical queries in anelectronic health record search utility. International journal of medical informatics, 79(7):515–522.

Nawab, R., Stevenson, M. et Clough, P. (2016). An ir-based approach utilising query expansionfor plagiarism detection in medline. International Journal of Computational Biology and DrugDesign.

Nicholas, D., Huntington, P., Gunter, B., Withey, R. et Russell, C. (2003). The britishand their use of the web for health information and advice : a survey. In Aslib Proceedings,volume 55, pages 261–276. MCB UP Ltd.

Nourbakhsh, E., Nugent, R., Wang, H., Cevik, C. et Nugent, K. (2012). Medical literaturesearches : a comparison of pubmed and google scholar. Health Information Libraries Journal,29(3):214–222.

Page 178: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Bibliographie 166

Oh, S. (2012). The characteristics and motivations of health answerers for sharing information,knowledge, and experiences in online environments. JASIST, 63(3):543–557.

Ounis, I., Macdonald, C., de Rijke, M., Mishne, G. et Soboroff, I. (2006). Overview of theTREC 2006 blog track. In Proceedings of the Fifteenth Text REtrieval Conference, TREC2006, Gaithersburg, Maryland, USA, November 14-17, 2006.

Packer, H. S., Samangooei, S., Hare, J. S., Gibbins, N. et Lewis, P. H. (2012). Event detectionusing twitter and structured semantic query expansion. In Proceedings of the 1st InternationalWorkshop on Multimodal Crowd Sensing, CrowdSens ’12, pages 7–14, New York, NY, USA.ACM.

Pandolfini, C. et Bonati, M. (2002). Follow up of quality of public oriented health informationon the world wide web : systematic re-evaluation. BMJ, 324(7337):582–583.

Pang, P. C.-I., Verspoor, K., Chang, S. et Pearce, J. M. (2014). Designing for health explora-tory seeking behaviour.

Pao, M., Grefsheim, S., Barclay, M., Woolliscroft, J., Shipman, B. et M., M. (1994). Effectof search experience on sustained medline usage by students. Academic Medicine.

Patel, S. (1994). Effectiveness of Expert Semantic Knowledge as a Navigational Aid Within theHypertext. State University of New York at Buffalo.

Paton, C. R. (1999). Evidence-based medicine ; evidence-based health care : How to make healthpolicy and management decisions. BMJ, 318(7177):201.

Pereira, C. D. C., Dragoni, M. et Pasi, G. (2012). Multidimensional relevance : Prioritized ag-gregation in a personalized information retrieval setting. Information Processing Management,48(2):340 – 357.

Petticrew, M. et Roberts, H. (2006). Systematic Reviews in the Social Sciences : A PracticalGuide. Blackwell Publishing.

Pirkola, A. et Järvelin, K. (2001). Employing the resolution power of search keys. JASIST,52(7):575–583.

Plovnick, M. R. et Zeng, T. Q. (2004). Reformulation of consumer health queries with professionalterminology : A pilot study. J Med Internet Res, 6(3):27.

Ponte, J. M. et Croft, W. B. (1998). A language modeling approach to information retrieval.In Proceedings of the 21st Annual International ACM SIGIR Conference on Research andDevelopment in Information Retrieval, SIGIR ’98, pages 275–281, New York, NY, USA. ACM.

Pratt, W. et Wasserman, H. (2000). QueryCat : automatic categorization of MEDLINE queries.Proceedings / AMIA ... Annual Symposium. AMIA Symposium, pages 655–659.

Radhouani, S., Kalpathy-Cramer, J., Bedrick, S., Bakke, B. et Hersh, W. R. (2009). Usingmedia fusion and domain dimensions to improve precision in medical image retrieval. In Pe-ters, C., Caputo, B., Gonzalo, J., Jones, G. J. F., Kalpathy-Cramer, J., Müller, H.et Tsikrika, T., éditeurs : CLEF (2), volume 6242 de Lecture Notes in Computer Science,pages 223–230. Springer.

Richardson, W. S., Wilson, M. C., Nishikawa, J. et Hayward, R. S. (1995). The well-builtclinical question : a key to evidence-based decisions. Acp j club, 123(3):A12–3.

Richesson, R. L., Shereff, D., Spisla, C., Albarracin, N., Konicek, D. J. et Andrews, J. E.(2010). The use of snomed ct to support retrieval and re-use of question and answer sets forpatient registries. I. J. Functional Informatics and Personalised Medicine, 3(4):342–365.

Page 179: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

167 Bibliographie

Robertson, S., Walker, S., Jones, S., Hancock-Beaulieu, M. et Gatford, M. (1996). Okapiat trec-3. pages 109–126.

Robertson, S. E. (1991). On term selection for query expansion. J. Doc., 46(4):359–364.Robertson, S. E. (1997). Readings in information retrieval. chapitre The Probability Ranking

Principle in IR, pages 281–286. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.Robertson, S. E. et Sparck Jones, K. (1988). Document retrieval systems. chapitre Relevance

Weighting of Search Terms, pages 143–160. Taylor Graham Publishing, London, UK, UK.Rocchio, J. J. (1971). Relevance feedback in information retrieval. In Salton, G., éditeur :

The Smart retrieval system - experiments in automatic document processing, pages 313–323.Englewood Cliffs, NJ : Prentice-Hall.

Ruch, P. (2006). Automatic assignment of biomedical categories : toward a generic approach.Bioinformatics, 22(6):658–664.

Sackett, D. L., Rosenberg, W. M. C., Gray, J. A. M., Haynes, R. B. et Richardson, W. S.(1996). Evidence based medicine : what it is and what it isn’t. BMJ, 312(7023):71–72.

Sadasivam, R. S., Kinney, R. L., Lemon, S. C., Shimada, S. L., Allison, J. J. et Houston,T. K. (2013). Internet health information seeking is a team sport : Analysis of the pew internetsurvey. International Journal of Medical Informatics, 82(3):193 – 200.

Salton, G. (1969). A comparison between manual and automatic indexing methods. AmericanDocumentation, 20(1):61–71.

Salton, G. (1970). Evaluation problems in interactive information retrieval. Information Storageand Retrieval, 6(1):29–44.

Salton, G. et Buckley, C. (1997). Readings in information retrieval. chapitre Improving RetrievalPerformance by Relevance Feedback, pages 355–364. Morgan Kaufmann Publishers Inc., SanFrancisco, CA, USA.

Salton, G. et McGill, M. J. (1986). Introduction to Modern Information Retrieval. McGraw-Hill,Inc., New York, NY, USA.

Salton, G., Wong, A. et Yang, C. S. (1975). A vector space model for automatic indexing.Commun. ACM, 18(11):613–620.

Sanderson, M. (2010). Test collection based evaluation of information retrieval systems. Founda-tions and Trends in Information Retrieval, 4(4):247–375.

Schardt, C., Adams, M. B., Owens, T., Keitz, S. et Fontelo, P. (2007). Utilization of the picoframework to improve searching pubmed for clinical questions. BMC medical informatics anddecision making, 7(1):16.

Schlosser, R. W. et O’Neil-Pirozzi, T. (2006). Problem formulation in evidence-based practiceand systematic reviews. Contemp Issues Commun Sci Disord, 33:5–10.

Simpson, M. S., Voorhees, E. M. et Hersh, W. (2014). Overview of the trec 2014 clinical decisionsupport track. Rapport technique, DTIC Document.

Singhal, A. et Pereira, F. (1999). Document expansion for speech retrieval. In Proceedingsof the 22Nd Annual International ACM SIGIR Conference on Research and Development inInformation Retrieval, SIGIR ’99, pages 34–41, New York, NY, USA. ACM.

Smeaton, A. F., Over, P. et Kraaij, W. (2006). Evaluation campaigns and trecvid. In Proceedingsof the 8th ACM International Workshop on Multimedia Information Retrieval, MIR ’06, pages321–330, New York, NY, USA. ACM.

Page 180: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Bibliographie 168

Smith, R. (1996). What clinical information do doctors need ? BMJ, 313(7064):1062–1068.Soldaini, L., Cohan, A., Yates, A., Goharian, N. et Frieder, O. (2015a). Query reformulation

for clinical decision support search. The Twenty-Third Text REtrieval Conference Proceedings(TREC 2014).

Soldaini, L., Cohan, A., Yates, A., Goharian, N. et Frieder, O. (2015b). Retrieving medicalliterature for clinical decision support. In Hanbury, A., Kazai, G., Rauber, A. et Fuhr,N., éditeurs : Advances in Information Retrieval, volume 9022 de Lecture Notes in ComputerScience, pages 538–549. Springer International Publishing.

Soldaini, L., Yates, A., Yom-Tov, E., Frieder, O. et Goharian, N. (2015c). Enhancing websearch in the medical domain via query clarification. Information Retrieval Journal, 19(1):149–173.

Song, F. et Croft, W. B. (1999). A general language model for information retrieval. In Pro-ceedings of the Eighth International Conference on Information and Knowledge Management,CIKM ’99, pages 316–321, New York, NY, USA. ACM.

Song, M., Spallek, H., Polk, D., Schleyer, T. et Wali, T. (2010). How information systemsshould support the information needs of general dentists in clinical settings : suggestions froma qualitative study. BMC Medical Informatics and Decision Making, 10(1):1–9.

Spink, A. et Jansen, B. J. (2006). Web search : Public searching of the Web, volume 6. SpringerScience & Business Media.

Spink, A., Yang, Y., Jansen, J., Nykanen, P., Lorence, D. P., Ozmutlu, S. et Ozmutlu,H. C. (2004). A study of medical and health queries to web search engines. Health Information& Libraries Journal, 21(1):44–51.

Srinivasan, P. (1996). Query expansion and medline. Inf. Process. Manage., 32(4):431–443.Steve, C. R. et Croft, W. (2002). Quantifying query ambiguity. In Proceedings of the second

international conference on Human Language Technology Research, HLT ’02, pages 104–109,San Francisco, CA, USA.

Stokes, N., Li, Y., Cavedon, L. et Zobel, J. (2009). Exploring criteria for successful queryexpansion in the genomic domain. Inf. Retr., 12(1):17–50.

Suominen, H., Salanter, S., Velupillai, S., Chapman, W., Savova, G., Elhadad, N.,Pradhan, S., South, B., Mowery, D., Jones, G., Leveling, J., Kelly, L., Goeuriot,L., Martinez, D. et Zuccon, G. (2013). Overview of the share/clef ehealth evaluation lab2013. In Forner, P., Muller, H., Paredes, R., Rosso, P. et Stein, B., éditeurs : Infor-mation Access Evaluation. Multilinguality, Multimodality, and Visualization, volume 8138 deLecture Notes in Computer Science, pages 212–231. Springer Berlin Heidelberg.

Tamine, L., Chouquet, C. et Palmer, T. (2015). Analysis of biomedical and health queries :Lessons learned from trec and clef evaluation benchmarks. Journal of the Association forInformation Science and Technology, 66(12):2626–2642.

Thain, A. et Wales, A. (2005). Information needs of specialist healthcare professionals : a preli-minary study based on the west of scotland colorectal cancer managed clinical network. HealthInformation & Libraries Journal, 22(2):133–142.

Thesprasith, O. et Jaruskulchai, C. (2014). Query expansion using medical subject headingsterms in the biomedical documents. In Nguyen, N., Attachoo, B., Trawiński, B. et Som-boonviwat, K., éditeurs : Intelligent Information and Database Systems, volume 8397 deLecture Notes in Computer Science, pages 93–102. Springer International Publishing.

Page 181: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

169 Bibliographie

Timpka, T. et Arborelius, E. (1990). The gp’s dilemmas : A study of knowledge need and useduring health care consultations. Rapport technique R-90-30. Also published in Methods ofInformation in Medicine 1990 ;29 :23-29.

Toms, E. G. et Latter, C. (2007). How consumers search for health information. Health informaticsjournal, 13(3):223–235.

Tracy Edinger, N., Cohen, A. M., Bedrick, S., Ambert, K. et Hersh, W. (2012). Barriersto retrieving patient information from electronic health record data : failure analysis from thetrec medical records track.

Trieschnigg, D. (2010). Proof of concept : concept-based biomedical information retrieval. Thèsede doctorat, University of Twente.

Trieschnigg, R., Kraaij, W. et Schuemie, M. (2006). Concept based document retrieval forgenomics literature. In Voorhees, E. et Buckland, L., éditeurs : The Fifteenth Text REtrievalConference (TREC 2006) Proceedings, pages 453–460.

Vibert, N., Rouet, J.-F., Ros, C., Ramond, M. et Deshoullieres, B. (2007). The use ofonline electronic information resources in scientific research : The case of neuroscience. LibraryInformation Science Research, 29(4):508 – 532.

Voorhees, E. M. (1994). Query expansion using lexical-semantic relations. In Proceedings of the17th Annual International ACM SIGIR Conference on Research and Development in Infor-mation Retrieval, SIGIR ’94, pages 61–69, New York, NY, USA. Springer-Verlag New York,Inc.

Voorhees, E. M. (2002). The philosophy of information retrieval evaluation. In Revised Papersfrom the Second Workshop of the Cross-Language Evaluation Forum on Evaluation of Cross-Language Information Retrieval Systems, CLEF ’01, pages 355–370, London, UK, UK. Springer-Verlag.

Voorhees, E. M. (2005). The TREC robust retrieval track. SIGIR Forum, 39(1):11–20.Voorhees, E. M. et Ellis, A., éditeurs (2014). Proceedings of The Twenty-Third Text REtrieval

Conference, TREC 2014, Gaithersburg, Maryland, USA, November 19-21, 2014, volume SpecialPublication 500-308. National Institute of Standards and Technology (NIST).

Wang, J., Xiao, N. et Rao, H. R. (2012). An exploration of risk information search via a searchengine : Queries and clicks in healthcare and information security. Decision Support Systems,52(2):395 – 405.

Weifield, J. et Finkelstein, K. (1996). How to answer your clinical questions more efficiently.Family practice management, 12(7):37.

White, R. et Moris, D. (2008). How medical expertise influences web search behaviour. InProceedings of the 31st international ACM SIGIR conference on Research and development inInformation Retrieval, SIGIR ’08, pages 791–792.

White, R. W., Dumais, S. et Teevan, J. (2008). How medical expertise influences web searchinteraction. In Proceedings of the 31st Annual International ACM SIGIR Conference on Re-search and Development in Information Retrieval, SIGIR ’08, pages 791–792, New York, NY,USA. ACM.

White, R. W., Dumais, S. T. et Teevan, J. (2009). Characterizing the influence of domainexpertise on web search behavior. In Proceedings of the Second ACM International Conferenceon Web Search and Data Mining, WSDM ’09, pages 132–141, New York, NY, USA. ACM.

White, R. W. et Horvitz, E. (2009a). Cyberchondria : Studies of the escalation of medical concernsin web search. ACM Trans. Inf. Syst., 27(4):23 :1–23 :37.

Page 182: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Bibliographie 170

White, R. W. et Horvitz, E. (2009b). Cyberchondria : Studies of the escalation of medicalconcerns in web search. ACM Trans. Inf. Syst., 27(4):23 :1–23 :37.

White, R. W. et Horvitz, E. (2012). Studies of the onset and persistence of medical concerns insearch logs. In Proceedings of the 35th International ACM SIGIR Conference on Research andDevelopment in Information Retrieval, SIGIR ’12, pages 265–274, New York, NY, USA. ACM.

White, R. W. et Morris, D. (2007). Investigating the querying and browsing behavior of advancedsearch engine users. In Proceedings of the 30th Annual International ACM SIGIR Conferenceon Research and Development in Information Retrieval, SIGIR ’07, pages 255–262, New York,NY, USA. ACM.

Wildemuth, B. (2004). The effects of domain-knowledge on search tactic formulation. volume 55,pages 246–258.

Wildemuth, B. M., de Bliek, R., Friedman, C. P. et File, D. D. (1995). Medical students’personal knowledge, searching proficiency, and database use in problem solving. Journal of theAmerican Society for Information Science, 46(8):590–607.

Wilson, T. (2006). Revisiting user studies and information needs. Journal of Documentation,62(6):680–684.

Wilson, T. D. (1999). Models in information behaviour research. Journal of documentation,55(3):249–270.

Xiao, N., Sharman, R., Rao, H. et Upadhyaya, S. (2014). Factors influencing online healthinformation search : An empirical analysis of a national cancer-related survey. Decision SupportSystems, 57:417 – 427.

Xu, J. et Croft, B. (2006). Query expansion using local and global document analysis. In ACMSIGIR Conference on Research and Development in Information Retrieval, pages 4–11.

Xu, J. et Croft, W. B. (1996). Query expansion using local and global document analysis. InProceedings of the 19th Annual International ACM SIGIR Conference on Research and Deve-lopment in Information Retrieval, SIGIR ’96, pages 4–11, New York, NY, USA. ACM.

Yang, L., Mei, Q., Zheng, K. et Hanauer, D. A. (2011). Query log analysis of an electronichealth record search engine. AMIA, 2011:915–924.

Yoo, I. et Mosa, A. S. M. (2015). Analysis of pubmed user sessions using a full-day pubmed querylog : A comparison of experienced and nonexperienced pubmed users. Journal of the AmericanSociety for Information Science, 3(3).

Yu, S., Cai, D., Wen, J.-R. et Ma, W.-Y. (2003). Improving pseudo-relevance feedback in webinformation retrieval using web page segmentation. In Proceedings of the 12th InternationalConference on World Wide Web, WWW ’03, pages 11–18.

Zeng, Q., Cimino, J. J. et Zou, K. H. (2002a). Providing concept-oriented views for clinical datausing a knowledge-based system. Journal of the American Medical Informatics Association,9(3):294–305.

Zeng, Q., Crowell, J., Plovnick, R., Kim, E., Ngo, L. et Dibble, E. (2006). Research pa-per : Assisting consumer health information retrieval with query recommendations. Journal ofAmerican Medical Informatics Associations, 13(1):80–90.

Zeng, Q., Kogan, S., Ash, N., Greenes, R. A. et Boxwala, A. A. (2002b). Characteristics ofconsumer terminology for health information retrieval. Methods of information in medicine,41(4):289–298.

Page 183: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

171 Bibliographie

Zeng, Q. T., Kogan, S., Plovnick, R. M., Crowell, J., Lacroix, E.-M. et Greenes, R. A.(2004). Positive attitudes and failed queries : an exploration of the conundrums of consumerhealth information retrieval. I. J. Medical Informatics, 73(1):45–55.

Zhang, X., Anghelescu, H. G. B. et Yuan, X.-J. (2005). Domain knowledge, search behaviour,and search effectiveness of engineering and science students : an exploratory study. Inf. Res.,10(2).

Zhang, Y. (2010). Contextualizing consumer health information searching : an analysis of questionsin a social q/a community. IHI ’10, pages 210–219, New York, NY, USA. ACM.

Zhang, Y. (2012). Consumer health information searching process in real life settings. Proceedingsof the American Society for Information Science and Technology, 49(1):1–10.

Zhang, Y. (2014). Searching for specific health-related information in medlineplus : Behavioral pat-terns and user experience. Journal of the Association for Information Science and Technology,65(1):53–68.

Zhang, Y. et Fu, W.-T. (2011). Designing consumer health information systems : What do user-generated questions tell us ? In Schmorrow, D. et Fidopiastis, C., éditeurs : Foundations ofAugmented Cognition. Directing the Future of Adaptive Systems, volume 6780 de Lecture Notesin Computer Science, pages 536–545. Springer Berlin Heidelberg.

Zhao, J., yen Kan, M., Procter, P. M., Zubaidah, S., Yip, W. K. et Li, G. M. (2010). Improvingsearch for evidence-based practice using information extraction. BMC Medical Informatics andDecision Making, 10(29).

Zhou, W., Yu, C., Smalheiser, N., Torvik, V. et Hong, J. (2007). Knowledge-intensive concep-tual retrieval and passage extraction of biomedical literature. In Proceedings of the 30th AnnualInternational ACM SIGIR Conference on Research and Development in Information Retrieval,SIGIR ’07, pages 655–662, New York, NY, USA. ACM.

Zhu, D., Wu, S. T., Carterette, B. et Liu, H. (2014). Using large clinical corpora for queryexpansion in text-based cohort identification. Journal of Biomedical Informatics, 49:275–281.

Zhu, D., Wu, S. T.-I., Masanz, J. J., Carterette, B. et Liu, H. (2013). Using discharge sum-maries to improve information retrieval in clinical domain. In CLEF (Working Notes).

Zickuhr, K. (2006). Generations 2010. Rapport technique, Pew Internet & American Life Project.Znaidi, E., Tamine, L., Chouquet, C. et Latiri, C. (2013a). Analyse exploratoire des requêtes

d’experts médicaux : cas des campagnes d’évaluation TREC et CLEF (regular paper). InSoualmia, L. et Tamine, L., éditeurs : Symposium sur l’Ingénierie de l’Information Médicale,Lille, 01/07/2013-05/07/2013, page (en ligne), http ://univ-lille1.fr, France. Université de Lille.

Znaidi, E., Tamine, L., Chouquet, C. et Latiri, C. C. (2013b). Characterizing health-relatedinformation needs of domain experts. In Artificial Intelligence in Medicine - 14th Conferenceon Artificial Intelligence in Medicine, AIME 2013, Murcia, Spain, May 29 - June 1, 2013.Proceedings, pages 48–57.

Znaidi, E., Tamine, L. et Latiri, C. (2015). Answering PICO clinical questions : A semanticgraph-based approach. In Artificial Intelligence in Medicine - 15th Conference on ArtificialIntelligence in Medicine, AIME 2015, Pavia, Italy, June 17-20, 2015. Proceedings, pages 232–237.

Znaidi, E., Tamine, L. et Latiri, C. (2016a). Aggregating semantic information nuggets foranswering clinical queries. In ACM SAC- 2016. 31st Symposium on Applied Computing. Pisa,Italy, April 4-8, 2016.

Page 184: IRIT · THÈSE Envuedel’obtentiondu DOCTORATDEL’UNIVERSITÉDETOULOUSE Délivrépar:l’UniversitéToulouse3PaulSabatier(UT3PaulSabatier

Bibliographie 172

Znaidi, E., Tamine, L. et Latiri, C. (2016b). Répondre à des requêtes cliniques PICO. InCORIA 2016 - Conférence en Recherche d’Informations et Applications- 13th French Informa-tion Retrieval Conference. CIFED 2016 Colloque International Francophone sur l’Ecrit et leDocument, Toulouse, France, March 9-11, 2016, Toulouse, France, March 9-11, 2016., pages447–462.