10
TEXTES DES COMMUNICATIONS - Tome I Système d'Aide à l’Indexation et à la recherche d’Information sur le Web Laïd BOUZIDI [email protected] IAE - Université Jean Moulin - Lyon3 / 6, cours Albert Thomas – B.P .8242 69355 Lyon cedex 08 Mots clefs : Indexation, Gestion des Connaissances, Aide à la Décision, Raisonnement par Cas, Systèmes Multi- Agent, Apprentissage, Recherche d’information sur le web Keywords : Indexation, Knowledge management, Decision support, Case based reasoning, Multi-agent systems, learning, research for information web Palabras claves : Indexacion, busqueda de informacion en la red, bases de conocimiento, ayuda a la toma de decisiones, rasonamiento por casos, aprentizaje Résumé L'explosion des sources d’information et le développement des outils d’accès à l’information en particulier les accès à distance font que le problème aujourd’hui n’est plus l’absence d’information mais plutôt sa pertinence. Plusieurs étapes sont nécessaires pour aboutir à la fois à une représentation fiable des sources d’information, mais aussi, à une bonne formulation des besoins des utilisateurs. Certaines des étapes qui constituent l'activité de pilotage du processus de recherche d’information deviennent de plus en plus complexes et un outil d’aide à la décision devient une nécessité, particulièrement dans les étapes d'analyse, de conception de scénario, de cheminement et d’exploitation, d'évaluation des différents cas possibles et de réutilisation de cas précédents pour en traiter de nouveaux . Les technologies informatiques en particulier celles associées au web, offrent des possibilités d’accès à des bases d’informations hétérogènes, réparties aux quatre coins du monde, traitant de domaines différents. Néanmoins, l’utilisateur est de plus en plus noyé dans cette masse énorme d’information et le choix de l’information pertinente par rapport à son besoin réel reste actuellement le problème fondamental. Plusieurs techniques existent tant au niveau de la phase d’indexation des ressources documentaires qu’au niveau de la phase de recherche. Nous essayons dans notre approche de proposer une technique « hybride » qui permet d’augmenter le taux de satisfaction des usagers. Elle est fondée sur une architecture de système d’aide à la prise de décision utilisant en particulier les expériences antérieures en matière d’indexation et de recherche d’information. IRIT - DELTA VEILLE 25

Système d'aide à l’indexation et à la recherche d’information sur le web

  • Upload
    espenel

  • View
    36

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Système d'aide à l’indexation et à la recherche d’information sur le web

TEXTES DES COMMUNICATIONS - Tome I

Système d'Aide à l’Indexation et à la recherche d’Information sur le Web

Laïd BOUZIDI

[email protected]

IAE - Université Jean Moulin - Lyon3 / 6, cours Albert Thomas – B.P .8242 69355 Lyon cedex 08 Mots clefs : Indexation, Gestion des Connaissances, Aide à la Décision, Raisonnement par Cas, Systèmes Multi-Agent, Apprentissage, Recherche d’information sur le web Keywords : Indexation, Knowledge management, Decision support, Case based reasoning, Multi-agent systems, learning, research for information web Palabras claves : Indexacion, busqueda de informacion en la red, bases de conocimiento, ayuda a la toma de decisiones, rasonamiento por casos, aprentizaje Résumé L'explosion des sources d’information et le développement des outils d’accès à l’information en particulier les accès à distance font que le problème aujourd’hui n’est plus l’absence d’information mais plutôt sa pertinence. Plusieurs étapes sont nécessaires pour aboutir à la fois à une représentation fiable des sources d’information, mais aussi, à une bonne formulation des besoins des utilisateurs. Certaines des étapes qui constituent l'activité de pilotage du processus de recherche d’information deviennent de plus en plus complexes et un outil d’aide à la décision devient une nécessité, particulièrement dans les étapes d'analyse, de conception de scénario, de cheminement et d’exploitation, d'évaluation des différents cas possibles et de réutilisation de cas précédents pour en traiter de nouveaux . Les technologies informatiques en particulier celles associées au web, offrent des possibilités d’accès à des bases d’informations hétérogènes, réparties aux quatre coins du monde, traitant de domaines différents. Néanmoins, l’utilisateur est de plus en plus noyé dans cette masse énorme d’information et le choix de l’information pertinente par rapport à son besoin réel reste actuellement le problème fondamental. Plusieurs techniques existent tant au niveau de la phase d’indexation des ressources documentaires qu’au niveau de la phase de recherche. Nous essayons dans notre approche de proposer une technique « hybride » qui permet d’augmenter le taux de satisfaction des usagers. Elle est fondée sur une architecture de système d’aide à la prise de décision utilisant en particulier les expériences antérieures en matière d’indexation et de recherche d’information.

IRIT - DELTA VEILLE 25

Page 2: Système d'aide à l’indexation et à la recherche d’information sur le web

VSST'2001

1 Introduction L'explosion des sources d’information et le développement des outils d’accès à l’information en particulier les accès à distance font que le problème aujourd’hui n’est plus l’absence d’information mais plutôt sa pertinence. Plusieurs étapes sont nécessaires pour aboutir à la fois à une représentation fiable des sources d’information, mais aussi, à une bonne formulation des besoins des utilisateurs. Certaines des étapes qui constituent l'activité de pilotage du processus de recherche d’information deviennent de plus en plus complexes et un outil d’aide à la décision devient une nécessité, particulièrement dans les étapes d'analyse, de conception de scénario, de cheminement et d’exploitation, d'évaluation des différents cas possibles et de réutilisation de cas précédents pour en traiter de nouveaux . Les technologies informatiques en particulier celles associées au web, offrent des possibilités d’accès à des bases d’informations hétérogènes, réparties aux quatre coins du monde, traitant de domaines différents. Néanmoins, l’utilisateur est de plus en plus noyé dans cette masse énorme d’information et le choix de l’information pertinente par rapport à son besoin réel reste actuellement le problème fondamental. La décision de sélectionner telle ou telle source d’information dépend de plusieurs critères, je citerai en particulier : le profil de l’utilisateur, son domaine de compétence, la catégorie de l’information qu’il recherche, son niveau et sa capacité d’utiliser les différentes techniques de recherche, la convivialité qu’offrent ces outils. L’émergence de nouvelles techniques informatiques plus adaptées aux processus non structurés tel que la prise de décision permettent l'intégration de l'outil informatique dans la gestion des processus de décision en général. Les systèmes d’aide à la décision [10] intègrent différents types d'informations et de connaissances dans les différentes étapes du processus de décision Dans le processus de décision relatif à l’indexation des sources d’information, la phase de stockage des informations conditionne la phase d’exploitation des sources d’information. Dans ce processus sont utilisées les données relatives au domaine traité, les connaissances des différents experts qui analysent les sources d’information, les données historiques et statistiques ainsi que les expériences précédentes en matière de prise de décision tant au niveau de la phase d’indexation que lors de la phase d’exploitation et de recherche. Certes, plusieurs techniques existent et sont utilisées lors des deux phases : indexation et recherche d’information, telle que l’indexation et la recherche en full-text (texte intégral), mais ces techniques si elles permettent de générer et de stocker l’information dans sa totalité, elle posent aussi le problème du tri de l’information par rapport au besoin réel de l’utilisateur. Actuellement, l’utilisateur acquiert une démarche de recherche plutôt par tâtonnement que par une méthode précise. C’est de cette façon qu’il se définit lui même son propre cheminement en faisant référence à une trame ou trace d’exploitation qu’il se constitue par une technique d’apprentissage empirique. Cette démarche, l’utilisateur essaie de l’appliquer lors de chaque recherche d’information sans se soucier ni du contexte, ni du domaine, ni du thème et encore moins de l’information recherchée. Se pose alors le problème de la pertinence des résultats fournis par les différents processus de recherche . Nous proposons ici un système d'aide à la décision pour l’indexation et la recherche d’information associant différentes approches. Les techniques de représentation des sources d’information et des connaissances et la réutilisation des cas antérieurs touchant au processus de décision pour l’indexation et la formulation des besoins des utilisateurs en matière d’accès et de recherche d’information constituent l'essentiel de ces approches. Ce système d’aide que l’on propose peut être adapté à différents contextes et domaines d’application même si nous proposons de développer ici le cas de l'indexation et la recherche de documents dans des sites web.

2 L'utilisation de méthodes de recherche documentaires Dans un système de recherche d’information, on trouve généralement deux types de moteurs de recherche, d'une part ceux développés autour d'un système de gestion de base de données relationnel et d'autre part ceux qui ont été conçu autour d'un logiciel documentaire. De nombreux systèmes proposent également une recherche de type navigationnel ou en mode hypermédia.

26

Page 3: Système d'aide à l’indexation et à la recherche d’information sur le web

TEXTES DES COMMUNICATIONS - Tome I

Les moteurs de recherche développés autour d'un système de gestion de base de données relationnel sont particulièrement destinés à des applications de type dossier ou nomenclature et dans lesquelles la recherche est conduite de manière arborescente (thème, sous thème, dossier, sous dossier, document), ces systèmes permettent également la recherche sur des mots clés.

Toutefois et malgré l'intérêt que présentent certaines techniques d'accès à l'information, il convient de noter que l'utilisation de méthodes de recherches documentaires est primordiale dans le cadre d'un système de recherche d’information utilisant la technologie WEB.

En effet, l'objectif n'est plus alors de trouver des informations mais de sélectionner la plus pertinente parmi une masse importante et très diversifié de documents (information structurée ou non).

L'ensemble des moteurs de recherche développés autour d'un logiciel documentaire classique sont essentiellement utilisés pour leurs fonctions de recherche sur le texte des documents.

Dans ce cas, il est possible d'utiliser n'importe quel mot du texte comme critère de recherche (recherche plein texte ou texte intégral).

Ces logiciels offrent également un ensemble de possibilités à l'utilisateur comme la recherche sur racine de mots ou la recherche de mots dans un contexte.

Notons également que la formulation des questions se fait de plus en plus dans un mode d'interrogation qui s'apparente au langage naturel et ainsi apporte un plus grand confort d'utilisation dans le mécanisme de recherche d'informations.

2.1 Description des processus de recherche existants Le document a été pendant longtemps synonyme de texte, mais depuis plusieurs années il recouvre une réalité bien différente.

Aussi, de par l'interpénétration des médias et des supports, nous nous trouvons face à une typologie documentaire de plus en plus complexe.

Typologie qu'il nous est possible de résumer de la façon suivante :

Documents textuels : Il s'agit essentiellement de documents existants sous une forme papier, qu'ils soient produits ou non par une application informatique. Un document textuel se présente généralement comme un ensemble de termes qui constitue un écrit ou une œuvre originale.

Documents visuels : On entend par documents visuels l'ensemble des sources d'information de nature graphique (plan, carte, schéma, etc.) ou iconographique (dessin, peinture, photographie, etc.) directement visibles par l'œil humain.

Documents sonores : La production de sons intelligibles, par l'homme sans transformation ni utilisation d'une machine, constitue un document sonore qu'il convient d'identifier et de conserver en l'état. Son contenu étant porteur de sens, il représente un témoignage qu'il est nécessaire de stocker le plus fidèlement possible afin de pouvoir le reproduire ultérieurement sans altération ni déformation d'aucune sorte.

Documents audiovisuels : Les documents audiovisuels rassemblent l'ensemble des sources d'information qui utilisent la présentation d'images, de films et d'enregistrements sonores (séquences vidéos, diaporamas, etc.). Il s'agit en fait de documents n'appartenant pas à l'univers de l'écrit, ils apportent une illustration sur des événements ou des objets avec une sensibilité plus importante que la seule description verbale.

Documents structurés : Un document structuré se caractérise par un ensemble d'éléments organisés dont la présentation relève un aspect significatif. Deux niveaux de structuration peuvent être retenus pour définir un document, la structure physique et la structure logique. Cette séparation permet au document électronique d'acquérir sa virtualité et d'être indépendant des matériels de visualisation ou d'impression. Une série de normes internationales permettent de définir cette structuration.

IRIT - DELTA VEILLE 27

Page 4: Système d'aide à l’indexation et à la recherche d’information sur le web

VSST'2001

Bien que l'objectif principal d'un système de recherche d’information via le Web, soit de manipuler différentes sources d'information, il est important de noter que le type de documents à appréhender est parfois très éloigné de la notion de document électronique.

Ce qui sous-entend, qu'un processus de transformation doit être opéré afin de parvenir à stocker sous une forme numérique un document préexistant dont l'aspect dépend essentiellement de son mode de production. Cette transformation a une répercussion sur le processus d'indexation de l'information et donc par conséquent sur le mode d'interrogation du fonds documentaire en particulier les systèmes de Gestion Electronique de Documents (GED), qui deviennent de plus en plus accessibles via le Web.

2.2 Les principales méthodes de recherche et leur limites Dans la plupart des sources d’informations, les documents sont généralement organisés autour de leur descriptif et/ou de leur contenu, alors qu’il est plus pertinent qu’ils soient organisés plutôt selon l'approche de recherche d'informations souhaitée. Le problème réside dans le fait que ces approches de recherches d’informations dépendent de plusieurs critères et qu’aucune démarche ne peut être généralisée. Les techniques utilisées ont pour principal objectif de résoudre efficacement le problème du repérage et de l'accessibilité aux informations. Parmi les principales méthodes de recherche, il convient de citer :

La recherche booléenne consiste à présenter une requête sous la forme d'une expression mathématique composée de mots clés appartenant à un dictionnaire ou à un thesaurus, séparés par des opérateurs booléens.

La recherche plein texte ou texte intégral évite l'indexation préalable des documents. Ils sont décrits par eux-mêmes, c'est-à-dire par les chaînes de caractères qui les constitue. Les recherches booléennes s'appliquent également à ce cas.

La recherche par navigation ou technique hypertextuelle : Cette technique suppose une structuration préalable des documents avec la mise en œuvre de liens hypertextuels.

L'interrogation en langage naturel : Il s'agit d'un mécanisme d'interrogation reposant sur une analyse linguistique de la requête de l'utilisateur et conduisant à l'élaboration d'une requête "interne" à partir de laquelle la recherche est réalisée.

Nous pouvons citer par les limites des techniques de recherche existantes :

L'absence de convivialité dans le mécanisme de recherche : lourdeur des systèmes d’interrogation

La complexité de la recherche dite en texte intégral : masquée par l'apparente facilité de la forme d'interrogation.

Les limites de la représentation du contenu par le langage : la description d’un document dépend fortement de l’utilisateur, de son expérience et de ses compétences dans le domaine d’activité traité.

L'apport limité des systèmes linguistiques dans les systèmes de représentation et de recherche d’information : Le manque de maturité des systèmes de recherche en langage naturel intégrant une aide sémantique et l'absence de dictionnaires de jargon d'entreprise ou de secteur, constituent des éléments qui vont à l'encontre d'une amélioration des performances dans le domaine de la recherche d'information.

3 Notre approche L'approche que l'on propose est fondée un modèle de système d'aide à la décision [2]. Il s'agit d'un système d'aide à l'indexation et à la recherche d'information fondé sur . des données textuelles des informations et des connaissances liées aux savoirs d'experts du domaine traité l'expérience et la trace des différentes exploitations antérieures

28

Page 5: Système d'aide à l’indexation et à la recherche d’information sur le web

TEXTES DES COMMUNICATIONS - Tome I

Il s'agit en fait d'un système basé sur la capitalisation des indexations et des recherches d'informations antérieures pour en traiter de nouvelles . L’architecture du système que l’on propose, repose sur :

Une composante qui représente l’ensemble des données brutes (informations numérisées) et données structurées sous forme de bases de données (informations index)

Une composante qui représente les connaissances et les savoirs liés aux domaines Une composante qui représente la trace des indexations et des recherches effectuées :

c’est ce qui permet de capitaliser et de traiter les nouveaux besoins en matière d’indexation et de recherche d’information. Pour cette composante, l’utilisation du raisonnement à partir de cas (RpC) nous paraît adéquate. Nous présentons ci dessous comment cette approche de RpC est utilisée.

L'architecture du système général d'aide à la décision est composée de sous systèmes. La figure 1 représente cette architecture.

Evaluation

LEGENDE

BC. : Base Connaissances M.I. : Moteur d’Inférence BD. : Base de Données SGBD : Système de Gestion de Bases de Données B.M. : Bases de Modèles SGBM : Système de Gestion de Bases de Modèles

Mise à jour de la Base de cas Evaluation des résultats des

actions

Actions mise en oeuvre

Adaptation à la situation courante

Décision

Base de Cas

Choix de Décision et

B de Décisions

Semi Structuré

Sous-système 3

Infos Résultats BC Experts

Structuré

Sous-système 1

Semi Structuré

Sous-système2

SGBM SGBD

BM BD M.I. BC.

Figure1:Architecture Générale du Système d'Aide à La Décision Proposé [3]

IRIT - DELTA VEILLE 29

Page 6: Système d'aide à l’indexation et à la recherche d’information sur le web

VSST'2001

3.1 Les composantes du système général Le sous-système 1 collecte des informations représentatives des sources d’information en utilisant différentes techniques de représentation : des bases de données classiques aux systèmes de gestion électronique de documents. L’objectif étant de recueillir des informations pertinentes sous une forme adéquate aidant à la prise de décision (information brute par les techniques de numérisation, tableaux de critères, scénario, simulations de prévision, tableaux de bord,…). Le sous-système 2 assure la collecte d’informations dynamiques, fondée sur des bases de connaissances et le savoir du décideur. Ce sous-système caractérise l’intervention du décideur par la prise en considération du savoir de ce dernier. Les procédures qui caractérisent ce sous-système sont des procédures touchant plutôt à l’informel, qui utilisent et génèrent des informations et/ou des connaissances. Ces procédures utilisent des modèles de structuration relevant plutôt du domaine de l’intelligence artificielle et aboutissant à la définition de bases de connaissances et des modèles qualitatifs reposent sur les connaissances d’experts et les méthodes de raisonnement fondées sur des règles de production. Pour pouvoir utiliser ces méthodes qualitatives, il est nécessaire de surmonter le problème de l’acquisition des connaissances provenant d’experts, la détection d’heuristiques et l’implémentation des bases de connaissances. Le sous-système 3 concerne la conception et la génération de la base de décisions.. L’élaboration de cet ensemble de décision est fondée sur les informations résultats issues du sous-système 1, la base de connaissances expertes issue du sous système 2 et l’analyse des différents cas précédemment enregistrés dans la base de cas du sous-système 5 . Le sous-système 4 détermine le choix de la décision et évalue son impact en considérant les actions qu'elle engendre. L'actualisation de la base de cas a lieu en conséquence. Dans un premier temps, ce sous-système permet au décideur d’analyser, d’exploiter la base de décision et d’évaluer et de pondérer les différentes décisions. Dans un deuxième temps , il permet d’établir la liste des actions qui découlent de la décision choisie. Le sous-système 5 mémorise et restitue les cas étudiés en utilisant le raisonnement par cas(RpC). L'approche RpC comprend l'ensemble des étapes nécessaires pour établir un raisonnement par analogie. Deux fonctions complémentaires interviennent dans le cycle du RpC : le stockage des cas à l'aide du module d"indexation des nouveaux cas" et le module de "recherche des cas". La base de cas contient les cas des évènements qui comportent des faits concernant les différentes étapes de la prise de décision. Durant l'étape de recherche, le module RpC calcule un score de similarité structurale entre les objets composites représentant les cas précédemment stockés et le nouveau cas d’indexation et/ou de recherche d’information actuellement considéré.

3.2 Le modèle de raisonnement à partir de cas (RpC) Il s’agit essentiellement d’une technique qui se fonde sur des situations antérieures pour en traiter des nouvelles. Le raisonnement par cas (RpC) est un concept puissant qui fournit un mode de raisonnement analogique pour résoudre des problèmes [1]. Cette technique de raisonnement consiste à capitaliser les expériences antérieures à une situation donnée et ainsi de générer des connaissances liées à ces dernières. C’est une approche qui permet d'exprimer la connaissance liée à l'expérience et au savoir-faire. Cette connaissance sera utilisée pour traiter les nouveaux cas jugés similaires. Le RpC est fondé sur la comparaison des nouveaux cas avec des cas indexés et précédemment stockés. Il s'agit ensuite de rechercher ceux qui sont similaires et de proposer d’appliquer les éléments de décision et les actions correspondantes en espérant que "ce qui sera efficace une fois le sera plusieurs fois" [7]. Cette façon d’intégrer l’expérience pour le traitement de cas similaires est, selon le domaine traité, d’un apport important, citons le cas de la médecine et le cas de l’indexation de textes et la formulation des besoins informationnels dans des sites web. L’approche Rpc est fondamentalement constituée de deux modules : «indexation des nouveaux cas » et « Recherche des cas »

30

Page 7: Système d'aide à l’indexation et à la recherche d’information sur le web

TEXTES DES COMMUNICATIONS - Tome I

3.2.1 Mémorisation et restitution des cas Le module « indexation des nouveaux cas » permet le stockage des cas. La recherche des cas similaires quant à elle, est assurée par le module « recherche des cas ». La base de cas contient les cas des évènements qui comportent des faits concernant les différentes étapes de la prise de décision, représentant ainsi l’expérience capitalisée dans le domaine traité. Dans le raisonnement par cas, durant l'étape de recherche, le module « recherche des cas » calcule un score de similarité structurale entre les objets composites représentant les cas précédemment stockés et le nouveau cas actuellement considéré. Un processus de décomposition de l'objet composite cas produit des sous-objets de types suivants : la définition du problème et but , la représentation de l'environnement , le protocole de raisonnement, la décision prise, les actions nécessaires et le résultat réellement obtenu. Durant l'étape d'indexation, le nouvel objet cas est instancié et il comprend des composants concernant les étapes de la prise de décision. L'utilisateur doit fournir des informations concernant les caractéristiques du cas et les circonstances. Enfin, le nouveau cas est indexé et stocké dans la base de cas. [4] L'indexation des cas repose sur le calcul d'une distance. Différents modèles de distance peuvent être utilisés pour ordonner les cas : la logique floue et la théorie de la preuve [9].

4 Utilisation de cette architecture pour l'aide en matière de recherche d’information et d’indexation de textes (ou indexation de sources informationnelles)

Le système d’aide à la décision nous permet d’indexer au mieux les sources d’information et les requêtes de recherche proposées par les utilisateurs. Pour cela plusieurs étapes sont nécessaires : de l’analyse de la source à la qualification de la pertinence des réponses. Pour chaque étape, des sources de données et de connaissances doivent être sollicitées. Certaines données proviennent de l'interface avec l'utilisateur, d'autres sont stockées dans des bases de données, des bases de connaissances et des bases d’objets cas où sont capitalisées les expériences antérieures. La figure 2 décrit les éléments de connaissance nécessaires pour parvenir à la décision et au choix de sélectionner les informations jugées pertinentes pour représenter et rechercher des sources d’informations.

IRIT - DELTA VEILLE 31

Page 8: Système d'aide à l’indexation et à la recherche d’information sur le web

VSST'2001

TD

Prd

c

p

do

qf

Figure 2 : Etapes et sources d’un sy

32

Analyse extuelle

es sources

EdIq

Icc

TdEq

Mq

oposition es Index

Décision de

lassement/ pertinence

Suivi de ertinence

des cuments, Textes

lectionnés Et des uestions

ormulées

stème d’ai

Eléments de connaissance décisionnelle

SDC

Sources de données et de connaissances

Contexte – cadre S1 Données sur le texte Connaissances liées au langage d’indexation

S2 Connaissances académiques du

domaine Données S1 Etudes sur les

pratiques dans le domTrace et techniques

d’indexation précédentes RpC Indexation

précédentes Méthode de décision AEF Superviseur :

Automate d'états finis In

Eléments de connaissance décisionnelle

SDC

Sources de données et de connaissances

Evaluation sémantique du texte/document

S1 Données sur le texte

Connaissances expertes sur l'évolution des Indexations

/Recherches/Cibles

S2 Base connaissances linguistique

Données statistiques sur lesl’indexation et la recherche

(bruit, silence)

S1 Etudes statistiques sur les techniques d’indexation et de requêtes utilisés

Expérience de cas de textes RpC Cas d’indexation et

Analyse de la Cible

dexation

Eléments de connaissance décisionnelle

SDC

Sources de données et de connaissances

Indexation précédentes de texte de même classes,

S1 Données du texte

Indications sémantiques des contenus et

caractérisation des cibles

S2 Données et

connaissances linguistiques

Tests de requêtes données statistiques

S1 Etudes et tests de recherche

Expérience d’indexation RpC Cas de précédentes indexation - recherche

Méthodes de décision AEF Superviseur :

léments de connaissanceécisionnelle

SDC

Sources de donnéeset de connaissances

ndexation précédentes deuestions de même classe,

S1 Formulation desquestions

ndications sémantiques desontenus des questions etaractérisation des cibles

S2 Données etconnaissances linguistiques

ests de requêtesonnées statistiques

S1 Etudes et tests derecherche

xpérience d’indexationuestions

RpC Cas de précédentesindexations desquestions

éthodes d’indexation et desuestions

AEF Superviseur : Assistance

d’indexation et de recherche

Assistance

de à l’indexation et à la recherche d’information

Analyse

Recherch

e

Phase

Phase

Page 9: Système d'aide à l’indexation et à la recherche d’information sur le web

TEXTES DES COMMUNICATIONS - Tome I

5 Conclusion L’approche que nous proposons nécessite que différents mécanismes de recherche provenant de l'expérience humaine soient préalablement modélisés puis stockés dans une base de connaissances. Elle souligne également la nécessité de s'appuyer sur des méthodes de recherche traditionnelles tout en s'intéressant à la logique d'interrogation de l'utilisateur et à la façon dont il formule sa demande d'informations. Notre approche se voulant avant tout pragmatique, elle devrait donner lieu à une réalisation pratique dans le cadre d'un projet Intranet où différents outils devraient être implémentés. En somme, le système d’aide que l’on propose décrit les éléments de connaissance nécessaires pour parvenir à la décision et au choix de sélectionner les informations jugées pertinentes pour représenter et rechercher des sources d’informations. Il intègre différents paradigmes de décision. Nous pensons que la mise en œuvre d'un système d'aide à la décision, comme celui qu'on propose, peut se faire par une approche de type multi-agents (SMA). Un système SMA [12] fondé sur un langage de communication comme KQML [5] et un protocole de négociation comme le "contract net protocol" [6] nous paraît adéquat pour le développement de notre système . Ce type de système RpC que l’on intègre comme partie entière dans le processus d’aide à la l’indexation et la recherche d’information nécessite que des cas provenant de l'expérience et de la pratique humaines soient modélisés et stockés dans une base initiale. Une telle tâche est certes complexe, mais c’est essentiellement ce qui ressort des pratiques de recherche d’information effectuées aujourd’hui sur internet. Les expériences enregistrées par le système des différents cas d’utilisation du système, tant lors de la phase d’indexation et lors de la phase de recherche d’information, Le contrôle d’exploitation du système qui peut être soit totalement assuré par le système lui même : c’est l’apprentissage non supervisé où le système détermine lui-même quels sous-ensembles de caractéristiques ou groupes de caractéristiques de cet ensemble sont pertinents pour représenter situation identifiée (la source d’information et la formulation des requêtes de l’utilisateur) [11].), soit au contraire l’intervention d’experts pour l’indexation et de l’utilisateur pour la formulation des questions pour la recherche sont nécessaires à plusieurs niveaux d’exécution : c’est l’apprentissage supervisé, où pour chaque cas, la solution jugée correcte est fournie au système par un ou plusieurs experts et/ou utilisateurs.

6 Bibliographie [1.] AAMODT A., PLAZA E., Case-based reasoning : foundational issues, methodological variations, and system approaches, AI Communications, IOS Press, Vol. 7 : 1, 1994, pp. 39-59 [2.] BOUZIDI L., SYBORD C., Système d’aide à la décision : proposition d’une architecture, Congrès Afcet, Toulouse, 1995 [3.] BOUZIDI L., COLLOC J., Utilisation du raisonnement par cas pour élaborer un système d'aide à la décision en médecine, INFORMATIK N°1, Zürich, 2001. [4.] COLLOC J., BOUZIDI L., A framework for clinical decision making and medical experience storing, Proceedings of ECIS'2000, Vienne (Autriche), 2000, pp. 1245-1252 [5.] FININ, WEBER, WIEDERHOLD,GENESERETH, FRITZON, MCKAY, MCGUIRE, PELAVIN, SHAPIRO, BECK, Specification of the KQML Agent Communication Language, Technical Report EIT 92-04, Entreprise Integration Technologies, Palo Alto, USA, 1993 [6.] JENNINGS N.R., Specification and Implementation of a Belief-Desire-Joint-Intention Architecture for Collaborative Solving, Int. Journal of Intelligent and Cooperative Information Systems, 1993, Vol. 2, N°3.., pp 289-318. [7.] GUPTA HG, How Case-based Reasoning Solves new Problems, Interfaces, Vol24, n°6, 1994 [8.] POMEROL J.C., BOY B., ROSENTHAL-SEHOUX C. and SAAD A., An intelligent DSS for the Multicriteria Evaluation of Railway Timetables, EuroConference, Lisbonne Portugal, 1993. [9.] SCHUSTER A., DUBITZKY W., ADAMSON K., BELL D.A. and HUGHES J.G., Processing Similarity between a Mix of Crisply and Fuzzily Defined Case Properties, in Applied Intelligence: Int.

IRIT - DELTA VEILLE 33

Page 10: Système d'aide à l’indexation et à la recherche d’information sur le web

VSST'2001

Journ of Artificial Intelligence, Neural Networks, and Complex Problem-Solving Technologies, Vol.7, pp1-18, Kluwer Academic Publishers, US, 1997. [10.]SIMON H.A., The new Science of Managerial Decision, ed; Prentice-Hall, New-Jersey, 1977. [11.]VAN BEMMEL J.H., MUSEN M.A., MILLER R.A. and VAN DER MASS A.A.F, Methods for Decision Support, chap 15. in Medical Informatics, ed. by J.H. Van Bemmel and M.A. Musen, Springer Verlag, 1997, pp. 233- 260. [12.]WIEDERHOLD G., Mediators in the Architecture of Future Information Systems, IEEE Computer, 1992, N°3, pp.38-49.

34