Resoudre La Surcharge Informationnelle Sans Decontextualiser x

Embed Size (px)

DESCRIPTION

gy

Citation preview

  • 3e congrs du chapitre franais de l'ISKO Filtrage et rsum automatique de l'information sur les rseaux,Paris Nanterre, 5-6 juillet 2001, Actes publis par S. Chaudiron et Ch. Fluhr, pp. 149-158.

    Rsoudre la surcharge informationnellesans dcontextualiser

    Bndicte Pincemin

    CNRS & Laboratoire de Linguistique Informatique, Universit de Paris XIIIAvenue Jean-Baptiste Clment 93430 [email protected]

    Rsum : Face laccroissement massif des informations disponibles, la stratgiecommunment employe est celle dune rduction volumique des documentsprsents lutilisateur, principalement par limination. Or le contexte, ainsioccult, joue un rle primordial pour la construction du sens par le lecteur.Do une gne, pas toujours identifie, mais bien avre, dans lusage de cestechnologies. Nous proposons plusieurs dispositifs correctifs. Le filtragepourrait tre invers en diffusion cible, tenant compte de lorganisation desdestinataires dans un contexte dactivit. Llimination de documents estavantageusement remplaable par des outils de parcours slectif et daide lanavigation (pertinence diffrentielle). Le rsum automatique bas surlextraction de phrases aurait tout intrt se muer en un surlignage encontexte, accompagn daide au reprage des zones denses (histogrammemarginal). Les modles utilisateurs et profils pour la personnalisation dessystmes et le routing sont des formes complmentaires de contextualisation,dans la mesure o ils ne sont pas individualistes ou restrictifs.

    Mots-cls : filtrage dinformations, rsum automatique, diffusion cible dedocuments, routage, profils utilisateurs, pertinence, interface, usages.

    Abstract :

    Information overload is usually tackled by reducing the amount of text givento the user. Some context is then suppressed, whereas it is of primeimportance for assessing the meaning of the text. This accounts forsubstantial difficulties in the use of information systems. Our propositionsaim at keeping context within selective processes. The filtering applicationscould be turned into targeted distribution, considering a collectivity of users.Text adapted browsing, according to a new model for relevance, avoids thehazardous removal of documents. In-text highlighting would be a betterchoice for automatic abstracting than extracting sentences, and we present avizualization tool to get an overall view of the selected passages and of theirdistribution. User models or profiles, for information personalization orrouting, can add valuable context, as far as they do not turn intoindividualistic or restrictive views.

    Keywords : information filtering, automatic abstracting, targeted electronicdistribution of documents, routing, user profiles, relevance, visualization,user studies.

  • 3e congrs du chapitre franais de l'ISKO Filtrage et rsum automatique de l'information sur les rseaux,Paris Nanterre, 5-6 juillet 2001, Actes publis par S. Chaudiron et Ch. Fluhr, pp. 149-158.

    1. Introduction : la rduction du volume dinformationsLeffervescence des recherches dans le domaine de la matrise des fluxdinformations saccompagne dun foisonnement de termes, souvent significationvariable : nous devons donc dabord convenir de ce que nous entendons par filtrage et rsum .

    Partant du constat dune surcharge informationnelle des usagers des TIC(Technologies de linformation et de la communication), la conception dessystmes de mdiation et de personnalisation soriente spontanment vers destactiques de rduction du volume dinformations prsentes. Parmi les diffrentsmodes de rduction (projection, slection/limination, regroupement, analyse pardes lois) [Bommier-Pincemin, 1999], cest la slection/limination qui estprivilgie. Pour linformation textuelle, elle se ralise deux niveaux :(i) llimination de documents dans un flux ou une collection, que nous appelleronsfiltrage, et (ii) la slection de passages lintrieur dun document, qui est une desprincipales formes de rsum automatique.

    La motivation centrale de cette communication tient lobservation suivante :la slection/limination engendre une perte de contexte ; or la linguistique textuellemontre que le contexte joue un rle smantique primordial. Cettedcontextualisation de linformation est une des causes du dploiement encorelimit de ces systmes, et de leur adoption partielle et souvent phmre par lesutilisateurs pionniers. Lenjeu est donc dintroduire, dans les systmes de rductionet de personnalisation de linformation textuelle, une perception du contexte delinformation : contexte intertextuel pour le filtrage ( 2.), contexte intratextuel pourle rsum ( 3.). Plus gnralement, il nous faudra aussi raffirmer et concrtiserlincidence dune multiplicit dautres contextes : la nature de lapplication, lesgenres textuels considrs, lutilisateur dans sa dimension individuelle mais aussisociale, les circonstances de la recherche ou de la rception de linformation, etc.Lexprience acquise dans la conception et la mise en service dune application dediffusion cible dinformations en entreprise compltera et illustrera nospropositions.

    2. Filtrage de flux dinformations

    2.1. A lapproche ngative du filtrage rpond lapproche positivede la diffusion cible

    A la base de lide de filtrage, est le consensus sur un contexte alarmant : onredoute dtre noy sous un flux dinformations. Trivialement, le principe dufiltrage ne fait que retourner, en ngatif, un principe de slection. Laccent est missur lide que lon limine de linformation (inutile...), ce qui est porteur dans uncontexte dattitude dfensive devant une surcharge dinformations.

    La rduction du volume dinformations se situe en aval des circuits decommunication : la diffusion cible renverse ce schma et opre en amont.

  • 3e congrs du chapitre franais de l'ISKO Filtrage et rsum automatique de l'information sur les rseaux,Paris Nanterre, 5-6 juillet 2001, Actes publis par S. Chaudiron et Ch. Fluhr, pp. 149-158.

    Lapplication de diffusion cible, telle que le serveur DECID sur lintranet EDF,consiste calculer, pour un document soumis, un ensemble de destinatairespotentiellement concerns et intresss. Elle suppose la constitution dune base deprofils reprsentant lensemble des destinataires possibles. Il est crucial que cettebase soit reprsentative de lensemble dun organisme et soit actualiseautomatiquement et priodiquement. Pour DECID, les profils reprsententlensemble des chercheurs de la Division R&D, et sont issus de lanalyseautomatique des programmes de recherches rdigs chaque anne pour la Direction.

    En vitant une diffusion gnrale aveugle (broadcast) et en aidant identifierles personnes les plus concernes pour faire un envoi slectif, la diffusion ciblesupprime le besoin de filtrage, dsencombre les circuits dinformation, etconomise, par un traitement au niveau de lmetteur, n traitements au niveau desdestinataires.

    Lorientation positive de la diffusion cible nest pas sans susciter quelquesinquitudes. Si lon aide diffuser, najoute-t-on pas linformation dj encirculation ( plus cest facile de diffuser, plus on reoit de documents ) ? Erreur :loptique de la diffusion cible est non seulement de faire parvenir des informationsde valeur qui sinon auraient t ignores (lexpditeur ne prend linitiative dunenvoi, et ne simplique, que si le document en vaut la peine), mais aussi de rduirede faon drastique les diffusions aveugles, abusivement gnrales, qui avaient djcours. Lapplication sert aussi beaucoup au simple reprage dexperts etdinterlocuteurs, sans gnrer denvoi.

    La focalisation de lenvoi est dailleurs en soi un facteur de russite de ladiffusion, car cela responsabilise le destinataire. De plus, la vision densemble desdestinataires possibles quoffre le systme permet de prendre en compte le contexteorganisationnel de lorganisme, et de rpartir au mieux les envois dans sesdiffrents secteurs. Localement, linformation est relaye de faon informelle et parbouche--oreille [Harvey, 1994].

    Notons que a diffusion cible apporte en outre une rponse la circulation desdocuments confidentiels. Jusqu prsent, faute de savoir qui faire suivrelinformation, celle-ci reste sous-exploite, car on ne peut se permettre unediffusion approximative ou large. Le systme de diffusion cible signale lesquelques destinataires concerns, et permet une diffusion contrle delinformation.

    2.2. De la pertinence boolenne la pertinence diffrentielleLes messageries sont un terrain de prdilection des systmes de filtrage. Maisllimination pure et simple de courriers, non supervise (faite automatiquement parle systme), est incontestablement dangereuse. En effet, le propritaire de la boteaux lettres est destinataire explicite des courriers quil reoit [Malone, 1987] ; et ilest extrmement dlicat de fixer des critres infaillibles pour faire la part entre lesmessages qui doivent tre prsents et ceux qui ne mriteraient aucune attention.Comme llimination par erreur par le systme dun message peut tre trs grave, laprudence voudrait que le destinataire puisse contrler les messages que le systmepropose llimination. Le gain en temps apport par le systme de filtrage est alorsdouteux. Une alternative consiste limiter le filtrage des sources dinformation

  • 3e congrs du chapitre franais de l'ISKO Filtrage et rsum automatique de l'information sur les rseaux,Paris Nanterre, 5-6 juillet 2001, Actes publis par S. Chaudiron et Ch. Fluhr, pp. 149-158.

    supplmentaires, ni essentielles ni stratgiques, sur lesquelles il ny a rien perdre . L encore, le filtrage ne tient pas ses promesses initiales : en incitant considrer des sources dinformation secondaires, il accrot linformation prsente,au lieu de la rduire.

    En dfinitive, le filtrage est un procd trop brutal. Dailleurs, dans la ralitdu travail de bureau, llimination prend la forme aimable et progressive dunchangement de statut : le document est mis sur la pile en attente, pile qui joue lerle dune zone transitoire. La coupure binaire qui tranche entre les documentsslectionns et les documents limins sapparente une pertinence boolenne.Dautres modlisations de la pertinence sont envisageables.

    Ainsi, la pertinence diffrentielle [Bommier-Pincemin, 1999] consiste prsenter lensemble des rsultats sous forme arborescente. En premier lieu sontindiques les pistes, savoir les principaux domaines et approches reprsents.Lutilisateur a ainsi une vue densemble des rsultats, en particulier il peut carterefficacement les pans entiers qui ne lintressent pas, mais aussi se voir indiquer desaspects intressants auxquels il navait pas pens. Ensuite, lintrieur de chaquepiste, sont prcises les originalits, qui orientent le choix des documents slectionner et motive leur consultation. Enfin, et seulement ce niveau, lesdocuments issus dune mme piste et caractriss par la mme originalit sontprsent par ordre de proximit dcroissante avec lexpression initiale (requte,profil, filtre)1.

    Dans les systmes dinformation, deux grands types de recherche sedistinguent : lune, qui vise retrouver un document connu ou obtenir unrenseignement, privilgie la prcision (un seul document pertinent suffit, et onlidentifie dautant plus efficacement quil y a peu de mauvaises propositions).Lautre est une recherche souvent plus exploratoire, qui vise recueillir unensemble de documents exhaustif, ou tout au moins reprsentatif, sur le sujetindiqu : cest le rappel2 qui est alors essentiel, savoir le fait de ne pas laisser danslombre une information importante. La pertinence diffrentielle estparticulirement approprie ce second type de recherche. En effet, elle a tconue dans le contexte de la diffusion cible, dans lequel il est moins grave davoirquelques suggestions de destinataires errones, que dignorer des personnes

    1 La mise en uvre de la pertinence diffrentielle repose sur un algorithme de classificationautomatique original, qui autorise la fois les multiclassements et les non classements. Eneffet, un document peut relever de multiples points de vue. Il faut galement sattendre avoir des documents originaux et inclassables, qui sont prsents part (trouvailles).

    2 Lvaluation des systmes de recherche documentaire est traditionnellement mesure parles grandeurs suivantes : dune part, la prcision, qui est la proportion de documentspertinents parmi les documents prsents, ou son complmentaire, le bruit, proportion dedocuments non pertinents parmi les documents prsents ; dautre part, le rappel, qui est laproportion de documents prsents parmi lensemble des documents pertinents accessibles,ou son complmentaire, le silence, proportion de documents non prsents parmilensemble des documents pertinents accessibles.Ces mesures sont videmment discutables, en ce quelles drivent directement duneconception boolenne de la pertinence. Elles restent cependant clairantes pour rendrecompte de la qualit des rsultats en termes de compromis entre couverture (rappel) etslectivit (prcision).

  • 3e congrs du chapitre franais de l'ISKO Filtrage et rsum automatique de l'information sur les rseaux,Paris Nanterre, 5-6 juillet 2001, Actes publis par S. Chaudiron et Ch. Fluhr, pp. 149-158.

    concernes. Pour avoir un bon rappel sans tre gn par le bruit, la tactique consiste organiser les rsultats de faon efficace.

    En mnageant un parcours dans lensemble des propositions du systme, lapertinence diffrentielle rend compte du cheminement interprtatif la base delintrt port ou non un document. La pertinence nest pas une proprit dudocument, y compris dans le contexte de tel profil ou de telle requte : la pertinenceest construite par un utilisateur. Reprer un document au cours dune navigationhypertexte linscrit dans une dynamique, clairant finalement sa slection.

    2.3. Pertinence et point de vue : repres pour lintgration deprofils

    Lapplication de routing sapparente au filtrage, puisquelle consiste au reprage,dans un flux dinformations, des documents pertinents pour un utilisateur,reprsent par un profil. Ce profil est typiquement constitu initialement partir dequelques mots-cls ou de lanalyse de quelques documents pertinents. Certainssystmes prvoient ensuite que le profil tire parti des indications de lutilisateur surla pertinence des documents signals (relevance feedback), pour sajuster de lui-mme au mieux aux attentes de lutilisateur, et suivre lvolution de ses intrts.

    Deux dangers guettent cette famille de systmes de routage partir de profils.Le premier concerne lopacit du profil : au fur et mesure de son volution, onperd la vision de ce quoi il correspond, de ce quil recouvre. En gnral lareprsentation interne du profil est un norme amoncellement de mots pondrs,continuellement aliment et rectifi en fonction des jugements de pertinence fournispar lutilisateur. Mais ces mots sont privs de leur contexte, accumuls sansorganisation intelligible, et les pondrations numriques ne sont pas interprtables(on ne matrise pas limpact qua le choix de telle valeur numrique plutt que telleautre). Le second danger mentionner est la dgnrescence du profil. Si le systmeenrichit rgulirement le profil, sans par ailleurs le rquilibrer (cohsiondensemble, dvalorisation ou oubli des lments inactifs ou peu efficaces), lecumul des caractristiques finit par mousser la prcision des attentes reprsentes,en se dispersant ; ou linverse il se polarise sur un aspect qui occulte les autres.Les algorithmes gntiques pourraient tre un moyen original de modliser desprofils volutifs, qui se renouvellent par mutations et crossing-over [Sheth, 1993].

    3. Rsum automatique par extraction

    3.1. Lapport de techniques de navigation et la proposition dunlment dergonomie textuelle : lhistogramme marginal

    [Descls, 2000] fait le bilan des mthodes de rsum automatique en distinguantdeux premires approches. Les mthodes fondes sur la comprhension recourent une reprsentation smantique du texte, partir de laquelle est cr un rsum.Lanalyse du contenu ncessite suppose des dictionnaires et des grammaires trs

  • 3e congrs du chapitre franais de l'ISKO Filtrage et rsum automatique de l'information sur les rseaux,Paris Nanterre, 5-6 juillet 2001, Actes publis par S. Chaudiron et Ch. Fluhr, pp. 149-158.

    fins et trs complets, ce qui limite en pratique lapplication de ces mthodes desdomaines trs circonscrits.

    Le second type de mthodes de rsum automatique consiste en lextraction desegments textuels (gnralement des phrases ou des paragraphes), sur des critresindicateurs de leur importance ou de leur pertinence pour un point de vue donn.Comme ces critres sont soit de nature mathmatique (en utilisant des mesures defrquence, de proximit et de spcificit des mots en fonction de leur distributiondans les textes ; en calculant des similarits entre des vecteurs correspondant desensembles de mots), soit des (combinaisons d) expressions-cl (cue-phrases)indices de telle ou telle valeur pour la slection (par ex. importance souligne parlauteur, dfinition, annonce de thme, rcapitulation et conclusion), les ressourcesutilises par le systme de rsum automatique sont relativement indpendantes dudomaine dapplication. Cette approche est sduisante au plan pratique pour sonefficacit potentielle pour une large varit de textes3 : elle modlise unecomptence documentaire gnrique (la synthse de texte, lactivit rsumante)plutt que de mobiliser des connaissances encyclopdiques [Le Roux, 1993]. Cestce second type de rsum automatique qui nous intresse ici.

    Le rsum par extraction contraste avec les rsums rdigs traditionnels parau moins deux aspects. Puisquil reprend directement des passages du texte, il nepeut comporter de reformulations synthtiques ; il garde le niveau de dtail du textesans gnraliser, sans privilgier des dsignations standard et mtatextuelles (alorsquelles sont les bienvenues dans le rsum documentaire, pour favoriserlidentification et les mises en relation), sans expliciter tel prsuppos sous-jacent lensemble du texte. Second aspect frappant : les phrases cueillies et l dans letexte ne senchanent pas naturellement. La lecture est chaotique, ou sinon induitdes effets de sens trangers au texte source. Il faudrait donc viter de prsenter lersultat dune extraction comme un texte, puisque cest interprtativementpnalisant et trompeur.

    Le rsum rdig est, lui, lgitimement un texte, qui entretient un rapport dercriture vis vis du texte source. Le rsum par extraction est un artfact, uncurieux sous-produit de forme linguistique ; pour garder une intelligibilit textuelle,il faut prserver son ancrage au texte source. Nous envisagerons deux manires dele faire : (i) le remplacement du rsum par un surlignage au fil du texte ;(ii) lutilisation de liens hypertextes pour garder en vue le texte en facilitant laccs lensemble et tout point du contexte.

    Mettre en valeur typographiquement certains passages tout en gardantlensemble du texte prserve non seulement lentour textuel immdiat de chaquepassage, mais aussi les effets smantiques globaux qui jouent un rle primordialdans la lecture des textes. La structure logique du texte (son dcoupage en parties,les intituls de celles-ci, leur embotement) et sa structure physique (disposition,nombre de pages,) contribuent directement la construction du sens. Ainsi, levolume accord un sujet peut devenir un signe dimportance, ou encore lintituldune partie oriente sa comprhension. Dailleurs, les mthodes de lecture rapide

    3 Il est clair que ces systmes, sils ne sont pas directement sensibles la thmatique destextes rsumer, sont en revanche dpendants des genres textuels [Malrieu, 1994] : ainsi,beaucoup dentre eux ont t conus partir et pour des articles scientifiques, et seraienttout fait inadquats pour rsumer un roman, voire un article de quotidien.

  • 3e congrs du chapitre franais de l'ISKO Filtrage et rsum automatique de l'information sur les rseaux,Paris Nanterre, 5-6 juillet 2001, Actes publis par S. Chaudiron et Ch. Fluhr, pp. 149-158.

    font grand cas de ces repres globaux : il est vraiment dommage de sen priverlorsque le but mme du systme est de donner un accs rapide et efficace linformation !

    Cependant, le surlignage en contexte reste un marquage local, il faut donclassocier un dispositif qui larticule avec une vision globale et synthtique. Eneffet, il nest pas satisfaisant de devoir feuilleter le texte pour rechercher lespassages surligns.

    Le concept dhistogramme marginal apporteune rponse approprie. Il est n de lobservationsuivante : les fentres, qui servent afficher lestextes sur les crans dordinateur, donnent une vuelocale des textes, puisquelles visualisent despassages. Seul lascenseur apporte desinformations densemble sur le texte : sa taille estune indication de la taille du texte4, et sa positionrenseigne sur la place du passage entre le dbut etla fin du texte.

    Lhistogramme marginal sadjoint lascenseur pour en tendre la porte significative.Sa base sajuste la glissire de lascenseur, avecla mme reprsentation du droulement linairedu texte, du dbut (haut) la fin (bas).Lhistogramme devient une graduation qualitativede cette glissire. A chaque tranche de texte estassocie une barre de lhistogramme. Ainsi, pourun texte surlign, la barre est dautant plus longueque le surlignage de cette rgion du texte estdense. Lhistogramme associe donc la fentreune visualisation de la totalit du texte comme unesuccession de pics et de creux. Les pics signalentdemble les zones fortement slectionnes, et lescreux donnent une ide de ltendue et de larpartition des parties laisses dans lombre.

    Fig. 1 : Histogrammemarginal

    Il sagit ici dun cran delapplication de diffusioncible. Le texte affich est

    celui dun document envoyer ; le systme a

    surlign automatiquementles zones du document quicorrespondent au profil du

    destinataire considr.Lhistogramme indique ainsi

    clairement que cedestinataire nest concernque par la partie initiale du

    texte.

    Lhistogramme devient spontanment le point dappui de la navigation travers le texte : cliquer sur une barre de lhistogramme positionne dans la fentrelaffichage du passage correspondant. On peut aussi dplacer lascenseur,lhistogramme donnant des repres pour le positionner avec prcision.

    Lautre mode envisag pour linscription, dans le texte source, du rsum parextraction, est lutilisation de liens hypertextes. Une possibilit triviale consiste prsenter le rsum tel quel, mais en le rendant en tout point cliquable, de sorte quele lecteur puisse, par simple dsignation dun endroit du rsum, consulter sonentour textuel initial. Cette manire de faire, conome en termes de transferts etdaffichage (on ne manipule que des portions rduites du texte, jamais le texte dunseul bloc), pourrait convenir particulirement un usage en rseau, lorsquelinfrastructure limite les dbits dchange. Cependant, la lecture du rsum sollicite

    4 Le rapport de la longueur du curseur la hauteur de la fentre est gal celui de lalongueur du passage affich ltendue du texte entier : cest un rapport dhomothtie.

  • 3e congrs du chapitre franais de l'ISKO Filtrage et rsum automatique de l'information sur les rseaux,Paris Nanterre, 5-6 juillet 2001, Actes publis par S. Chaudiron et Ch. Fluhr, pp. 149-158.

    de nombreux va et vient, et donne une perception morcele. Nous prfrons unautre usage, dans le contexte du rsum automatique dune collection de textes5.Lutilisateur se voit prsent lensemble des textes, chacun tant voqusuccinctement par quelques informations indicatives, et accompagn dun lienhypertexte qui permette de consulter un surlignage en contexte pour un parcoursinformatif6.

    3.2. Synthse densemble ou focalisation circonstancielle :questions lies la personnalisation de linformation

    Il ny a pas de rsum neutre : le reprage des lments significatifs dans un texte,comme lvaluation de leur importance, suppose un point de vue, mme implicite.On peut nanmoins distinguer deux niveaux de subjectivit. Pour le premier, lersum vise rendre compte de lensemble du texte, en donner une imagereprsentative, mme si cest ncessairement avec un angle de vue et uneperspective particulire. Cest un rsum du ct du texte . Le second niveau desubjectivit introduit explicitement le contexte de consultation du texte : il sefocalise sur les lments du texte en rapport avec une autre entit circonstancielle(le profil de lutilisateur, la requte traduisant son besoin dinformation, etc). Cestun rsum ct utilisateur .7

    Certes, la pertinence nest pas une proprit inhrente un texte, ni mme untexte en tant que rponse texte : la pertinence se dfinit dans la rencontre duntexte et dun lecteur, dans des circonstances qui faonnent la perception du texte.Ceci ne permet cependant pas de conclure la supriorit du rsum focalis sur lersum densemble : en effet, lutilisateur peut parfaitement choisir de faire siennela perspective adopte par tel rsum densemble.

    Les rsums focaliss ont un intrt vident dans le cadre de la recherchedinformations. Le trs populaire moteur de recherche internet Google8 en donnelillustration, en affichant, pour chaque rsultat, les quelques lignes du documentconcentrant les occurrences des mots-cls de la requte. Cette fonctionnalitastucieuse sapparente la gnration de mini-concordances slectives : or lesconcordances sont depuis longtemps connues comme un outil fondamental pourlanalyse textuelle centre sur quelques mots-cls.

    Lexemple instructif des ditions de journaux personnalises montre que leprocessus de focalisation doit tre men avec doigt, pour ne pas faire effetdillres. Dans lexprience de [Kamba, 1996], chaque lecteur reoit une ditionspciale de son quotidien, avec sa propre maquette et une slection darticlescorrespondant ses attentes. Cette dition met en valeur ses rubriques favorites,

    5 Par exemple, lutilisation du rsum automatique pour explorer les rsultats dunerecherche dinformations sur internet.

    6 Notre formulation sinspire directement des concepts de rsum indicatif (dont lobjectifest de permettre dvaluer lintrt de consulter le document) et de rsum informatif (dontlobjectif est de rendre compte des principales informations apportes par le document).

    7 La distinction entre rsum densemble et rsum focalis est utilise par [Descls, 2000]pour opposer le filtrage (focalis) au sens du logiciel ContextO, et le rsum parextraction.

    8 http://www.google.com/

  • 3e congrs du chapitre franais de l'ISKO Filtrage et rsum automatique de l'information sur les rseaux,Paris Nanterre, 5-6 juillet 2001, Actes publis par S. Chaudiron et Ch. Fluhr, pp. 149-158.

    facilite laccs aux informations que le lecteur veut reprer et suivre, propose unparcours de lecture de lactualit orient par ce qui proccupe le lecteur. Desquestions dontologiques sont apparues : doit-on fournir au lecteur uniquement cequi lui plat ? na-t-on pas aussi le devoir de lui faire part des proccupationspartages par tous, des questions en dbat dans la socit qui lentoure ? Un justequilibre est trouver, pour une personnalisation ouverte, non gocentre. Il y amatire rflexion, avant demboter trop promptement le pas ceux quiproclament que vous tes unique , et que le prt--porter doit disparatre auprofit du seul sur mesure .

    Ainsi faut-il saluer la prudence dans le recours aux modles utilisateurs .Dans lapplication documentaire prsente par [Lain-Cruzel, 1994] par exemple, lemodle opre une prslection grossire dune partie de lensemble des documents,sur lequel est lance la requte. On escompte un gain en prcision et en efficacitpuisquon a cart tout un pan de la base a priori non pertinent, suivant en cela unestratgie documentaire prouve et efficace. Le profil na pas lenvergure dunemodlisation fine (mais contestable) permettant de prdire lensemble desdocuments intressant une personne, et cest pour le mieux.

    4. ConclusionPlusieurs propositions originales ont t exposes, en vue damliorer lergonomiedes systmes existants : la pertinence diffrentielle, comme mode dorganisationdes rsultats dune recherche pour un reprage efficace des informationspertinentes ; la conversion des rsums automatiques par extraction en surlignage,avec un dispositif dhistogramme marginal pour laide au reprage de zones denses.Un point de vue critique nous a permis de souligner les limites dun filtrageboolen, et de nuancer le degr de personnalisation souhaitable dans lesapplications documentaires, notamment de rsum automatique.

    Notre exprience de la diffusion cible de documents en entreprise, qui a tvoque plusieurs reprises, rvle encore dautres formes de contextualisation,notamment socio-culturelles et professionnelles [Pincemin, 1999].

    5. Rfrences bibliographiques[ALL 96] ALLAN J., Incremental Relevance Feedback for Information Filtering , 19 th.

    International ACM SIGIR Conference on Research and Development in InformationRetrieval, Zurich, 18-22 aot 1996, pp. 270-278.

    [ALL 90] ALLEN R. B., User models : theory, method and practice , International Journalof Man-Machine Studies, 32, 1990, pp. 511-43.

    [BOM 99] BOMMIER-PINCEMIN B., Diffusion cible automatique dinformations : conception etmise en uvre dune linguistique textuelle pour la caractrisation des destinataires et desdocuments, Thse de Doctorat, Linguistique, Universit Paris IV (Sorbonne), 6 avril1999, n99PA040027, 806 pages

  • 3e congrs du chapitre franais de l'ISKO Filtrage et rsum automatique de l'information sur les rseaux,Paris Nanterre, 5-6 juillet 2001, Actes publis par S. Chaudiron et Ch. Fluhr, pp. 149-158.

    [DES 00] DESCLS J.-P., MINEL J.-L., Rsum automatique et filtrage smantique de textes, inPierrel J.-M. (dir.), Ingnierie des langues, Paris : Herms Science Publications, 2000,pp. 253-270.

    [HAR 94] HARVEY C. F., SMITH P., LUND P., BELL G., The Word-of-Mouth Emulator -Representing expertise and interest in a research and development environment ,Proceedings of the 18th International Online Information Meeting, London, 6 dcembre1994, pp. 423-436.

    [KAM 96] KAMBA T., BHARAT K., An interactive, personalized, newspaper on the WWW ,Proceedings of the SPIE, vol.2667, 1996, pp. 290-301.

    [LAI 94] LAIN-CRUZEL S., Vers de nouveaux systmes dinformation prenant en compte leprofil des utilisateurs , Documentaliste - Sciences de linformation, 31(3), 1994,pp. 143-147.

    [LER 93] LE ROUX D., MONTEIL M.-G., Perspectives dautomatisation de lactivitrsumante : prsentation du projet SERAPHIN, Note interne EDF-DER, 93NO00036,juillet 1993, accessibilit libre, 13 pages.

    [MAL 87] MALONE T. W., GRANT K. R., TURBAK F. A., BROBST S. A., COHEN M. D., Intelligent Information-sharing systems , Communications of the ACM, 30 (5), mai1987, pp. 390-402.

    [MAL 94] MALRIEU D., Genre textuel, surlignages et marques linguistiques dimportance ,Linx, 31, 1994, pp. 123-140.

    [PIN 99] PINCEMIN B., LEMESLE X., Information Routing in an Industrial Research Center :Using Textual Documents to Build Researchers and Teams Profiles , 10th Mini EUROConference Human Centered Processes, Brest, 22-24 septembre 1999, pp. 249-255.

    [PIN a] PINCEMIN B., Traitement automatique de la textualit, Paris : Champion, coll. Lettresnumriques, paratre.

    [SHE 93] SHETH B., MAES P. (1993) - Evolving Agents for Personalized InformationFiltering , Proceedings of the 9th IEEE Conference on Artificial Intelligence forApplications, Orlando, 1-5 March 1993, pp. 345-352.