54
La Recherche d’Information La Recherche d’Information Janvier 2001

La Recherche dInformation Janvier 2001. Max CHEVALIER - [email protected] zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Embed Size (px)

Citation preview

Page 1: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

La Recherche La Recherche d’Informationd’Information

Janvier 2001

Page 2: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

2

PlanPlanLa Recherche d'Informations (RI)Evaluation Méta-donnéesle « vague » en RIDomaines d’application :

Informations Multilingues Informations Multimédia Librairies numériques Web Documents structurés

Page 3: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

3

La Recherche d'Informations La Recherche d'Informations 1/81/8

Née il y a plus de 40 ansTâche principale : retrouver des documents

pertinents en réponse à un besoin en informations.

Sujets de la RI : Comparaison Exacte vs Partielle Modèles Déterministes vs

Probabilistes Langage de requête Artificiel vs Naturel Représentation A priori vs A posteriori Classification …

La RI : 3 « ciments » : La théorie, l’expérimentation, la pratique.

Page 4: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

4

La Recherche d'Informations La Recherche d'Informations 2/82/8

La ThéorieLa Théorie Devenue à tâtons Sujets

Fusion de donnéesRésuméVisualisation du WebTraitement du langage naturel en RI (NLP in

IR)Logique & modèles « incertains »Dimensions temporelles...

Page 5: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

5

La Recherche d'Informations La Recherche d'Informations 3/83/8

L'ExpérimentationL'Expérimentation Nécessaire pour valider une idée, un

projet Sujets

IHMVisualisationTravail en contexte, approches cognitivesCroisement de languesCroisement de médiaRI basée sur des corpusLibrairies numériquesTREC

Page 6: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

6

La Recherche d'Informations La Recherche d'Informations 4/84/8

La Pratique La Pratique Permet d'apprécier le comportement de

l'utilisateur en « grandeur nature » Pour le Web, l'étude pratique est aussi

importante que l'expérimentation Sujets

Publication électroniqueRI orientée tâcheExploration des données (data mining)Découverte de connaissanceApprentissage des distances (distance

Learning)

Page 7: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

7

Processus général de la RI Processus général de la RI Processus en U

La Recherche d'Informations La Recherche d'Informations 5/85/8

Besoin en Informations

Objets "fictifs"

Représentation Représentation

Requête Objets indexés

Comparaison (matching)

Où se trouve l'utilisateur ??

Page 8: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

8

La Recherche d'Informations La Recherche d'Informations 6/86/8

Les modèles dans la RILes modèles dans la RIBases théoriques pour calculer la réponse à

une requête. Syntaxe, expressivité du langage de

requête + représentation des documents.

Plus courants :• BooléenBooléen• VectorielVectoriel • Probabiliste• …

N. Fuhr : Modèles en logique propositionnelle (Datalog)

Page 9: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

9

La Recherche d'Informations La Recherche d'Informations 7/87/8

Modèle BooléenModèle BooléenRepose sur les opérateurs booléens (et, ou, non)

Permet d ’établir des requêtes complexes

En général : Réponse exacte (les réponses correspondent ou pas)

Ex de requête : Recherche ET InformationsRecherche ET Informations

• La réponse à cette requête ne seront que les documents qui possèdent à la fois les termes « Recherche » et « Informations »

Page 10: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

10

La Recherche d'Informations La Recherche d'Informations 8/88/8

Modèle VectorielModèle VectorielRepose sur l’algèbre vectoriel

Les documents et la requête = vecteur poids termes d ’indexation

La correspondance entre les vecteurs documents et celui de la requête :

produit scalairemesure de cosinusdistance métrique

Autres Modèles : cf [Baeza-Yates, 1998] ou [Salton, 1983]

Page 11: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Evaluation en RI

Page 12: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

12

Evaluation Evaluation 1/51/5

Pourquoi Evaluer ?Pourquoi Evaluer ?

Tout système conçu pour aider l’homme dans une tâche doitdoit être évalué.

IR : domaine non cartésien

Divers angles pour évaluer :

• Performance de la RI (vitesse de réponse par ex)

• Efficacité de la RIEfficacité de la RI

Efficacité de la RI

Page 13: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

13

Evaluation Evaluation 2/52/5

Evaluation en Laboratoire :Evaluation en Laboratoire : Déf :

Un systèmeUn système : Ens. Méthodes et procédures pour l’indexation & la recherche.

Une collection de documentsUne collection de documents : Ens. d’informations structurées par un auteur.

Une collection de requêtesUne collection de requêtes

Critère Basique d’évaluation Critère Basique d’évaluation : Que constitue un bon document (pertinent) ?

Page 14: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

14

Evaluation Evaluation 3/53/5

Mesure de l’efficacité Mesure de l’efficacité :

RappelRappel PrécisionPrécision

Concevoir une ExpérimentationConcevoir une Expérimentation• Documents et requêtes réutilisés dans différents

tests pour pouvoir comparer les systèmes• Un grand nombre de tests doivent être réalisés

pour vérifier l’étendue des paramètres du système

Intérêt d’expérimentations ParallèlesIntérêt d’expérimentations Parallèles• TREC (Text REtrieval Conference)• CLEF, NCTIR...

CollectioninentsDansNbDocsPert

ouvésinentsRetrNbDocsPert

lRetrouvésNbDocsTota

ouvésinentsRetrNbDocsPert

Page 15: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

15

Evaluation Evaluation 4/54/5

Impliquer l’utilisateurImpliquer l’utilisateurProblème posés par :

– l’interaction– le jugement propre à l’utilisateur

D’un point de vue cognitif :• Un besoin d’informations provient d’un état des

connaissances (EC) incomplet• Le processus pour améliorer cet EC est purement

cognitif pour la part de l’utilisateur• La RI n ’est qu’une partie de ce processus

OKAPIOKAPI : famille de SRI expérimentaux pour utilisateurs finals.

Page 16: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

16

Evaluation Evaluation 5/55/5

IR Expérimentale :IR Expérimentale :Non interactive, orientée système,

algorithmique, – -> Performances relatives au système

IR Interactive :IR Interactive :Cognitive, centrée sur l’utilisateur

– -> Permet de comprendre quel système, quelles structures d’informations et fonctionnalités de l’interface, permettent au mieux la recherche d’informations dans le contexte.

Page 17: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Les Méta-données

Page 18: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

18

Méta-Données Méta-Données 1/41/4

Méta-Données ?Méta-Données ?« Données sur les données »Différentes disciplines, différents « sens »Divers types de Méta-données sont nécessaires

:• DécouverteDécouverte : Qu’est-ce qui existe ? Localisation ?• Termes & ConditionsTermes & Conditions : Règle pour y accéder ? • Données administrativesDonnées administratives : Date de création ?• ProvenanceProvenance : Origine de tout ou partie d’un objet• Contexte Contexte : Qui l’a créé ? Pourquoi ?• StructureStructure : Format de fichier ? Table des matières ?• ContenuContenu : De quoi traite l’objet ?• Historique de l’utilisationHistorique de l’utilisation • Liens, RelationsLiens, Relations : Liens vers d’autres objets ?

Page 19: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

19

Méta-Données Méta-Données 2/42/4

Typologie des méta-donnéesTypologie des méta-données

(Dempsey & Heery sur le Web)

Type 1 Type 2 Type 3

But Localiser Sélectionner Evaluer, Analyser

Format Simple Structuré StandardsInternationaux

Caractéristiques Propriétaires,Indexation en « texte

plein »

Standards émergeants,Structure de champs

Balisage élaboré

Génération Robot Robot + Manuel Manuel

Exemples Lycos,Altavista,

Yahoo

Dublin Core,IAFA

RFC 1807SOIFLDIF

MARC,CIMI,EAD,TEI

Page 20: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

20

Méta-Données Méta-Données 3/43/4

Dublin CoreDublin CoreStuart Weibel 1995-> Identifier et définir un jeu simple d’éléments

permettant de décrire des ressources sur les réseaux.

SimpleIndépendant de la syntaxeModifiableQuelques exemples :Title, Subject, Creator, Description, Date, Language…Subject(scheme=Dewey Decimal System)=004.251

SupercomputersRelation(type = ContainedIn)(identifier =

url)=www.dlib.org

Page 21: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

21

Méta-Données Méta-Données 4/44/4

MARCMARCMachine Readable Catalogue Format1960, -> bibliothèquesBeaucoup de formats (USMARC, UNIMARC,

BIBSYS MARC…)Ex : UNIMARC

– 00x Identification block– 1xx Coded Information block– 2xx Descriptive Information block– 3xx Notes block– 4xx Linking entry block– 5xx Related title block– 6xx Subject Analysis block– 7xx Intellectual responsability block– 8xx International use block– 9xx National use block

Page 22: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Le « vague » en RI

Page 23: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

23

Le « Vague » en RI Le « Vague » en RI 1/21/2

Vague : modélisé en RI par des travaux sur la logique floue

Travaux de G. Pasi & G. Bordogna :Appliquer les concepts de Logique floue sur

le modèle booléen.

« Trouver les documents récentsrécents qui traitent principalementprincipalement du SIDA »

Page 24: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

24

Le « Vague » en RI Le « Vague » en RI 2/22/2

Travaux de G. Pasi & G. Travaux de G. Pasi & G. BordognaBordogna

Langage de requête :• Pondération des termes de la requête

– q = <Meurtres, 1> AND <Journalistes, 0.6>

• Utilisation de « poids linguistiques »– Très important, moyennement important, peu important...– q = <Meurtres, très important> AND <Journalistes, moyennement

important>

• Quantifieurs linguistiques pour agréger les conditions de sélection

– at least n– all

– Exemple : au moins 2 termes parmi 4...

Page 25: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Les applications de la RI

Page 26: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

26

Applications de la RIApplications de la RIInformations multilinguesInformations multilingues

Informations multimédiaInformations multimédia

Bibliothèques digitalesBibliothèques digitales

Documents structurés & WebDocuments structurés & Web

Page 27: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

RI Multilingue

Page 28: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

28

Informations Multilingues Informations Multilingues 1/61/6

MLIAMLIA : MultiLingual Information Access Définition :

Accéder, rechercher, retrouver des informations dans des collections en quelque langage que ce soit à n’importe quel niveau de spécificité et inclut tous les problèmes induits par la gestion d’informations multilingues (encodage des caractères, identification du langage…)

Multidisciplinaire : RI, TALN...

CLIRCLIR : Cross-Lingual Information Retrieval : requête dans un langage pour retrouver des documents dans un autre langage

Page 29: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

29

Informations Multilingues Informations Multilingues 2/62/6

Gestion des textes multilinguesGestion des textes multilinguesconversion des caractèresextraction des mots (tokenization)suppression des mots videsnormalisation (radicalisation : GB/Porter…)

CLIRCLIRMachine de traduction (Machine-translation)Basée sur la Connaissance (Knowledge

based)Basée sur les Corpus (Corpus based)

Page 30: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

30

Informations Multilingues Informations Multilingues 3/63/6

Traduction automatiqueTraduction automatique

Traduction dans tous les autres langages cibles.

• De tous les documents Tâches lourdes et redondance de l’information Non viable si plusieurs langages de requête car

les documents sont traduits dans toutes les langues

• De la requêteRapide ambiguïté car pas de contexte

Page 31: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

31

Informations Multilingues Informations Multilingues 4/64/6

Basées sur la ConnaissanceBasées sur la ConnaissanceThésaurusThésaurus

• Multilingues avec vocabulaire contrôlé : bon résultats pour la recherche et l ’indexation

Pas de problème d'ambiguïté Ontologie lourde à construire et à mettre à jour Affectation des termes au document lourde Entrainement nécessaire pour utiliser le

thésaurus

Dictionnaires bilinguesDictionnaires bilingues• Remplacement des mots de la requête par les

traductions possiblesExpansion de requête Pour des langues : difficile de trouver un dictionnaire Ambiguïté, termes généraux, expressions

Page 32: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

32

Informations Multilingues Informations Multilingues 5/65/6

Basées sur les corpusBasées sur les corpusProposent une équivalence lexicale entre les lang.Corpus parallèlesCorpus parallèles

• Documents traduits dans les lang. cible/destination• Latent Semantic IndexingBons résultats avec GB & FR, Espagne, Grèce et JP Collections difficiles à obtenir

Corpus comparablesCorpus comparables• Documents : même thème, même période, même genre• Aligne les documents par rapport à leur descripteurs

(date, mots-clés, noms propres…)• Ex: Swiss News Agency : Allemand, Français, ItalienPlus faciles a trouver Alignement plus complexe à réaliser

Page 33: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

33

Informations Multilingues Informations Multilingues 6/66/6

RésuméRésumé La plupart des travaux se basent uniquement

sur 2 langues Limitations de chaque méthode Manque de ressources (corpus, dictionnaires…)Plus de travaux doivent se concentrer sur les

mécanismes inter-langues.

• MT : 80 % monolingue Domaine général• Dict : 80 % … …• Corpus : 80 % … …

90 % … Domaine spécifique

Page 34: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

RI Multimédia

Page 35: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

35

Informations Multimédia Informations Multimédia 1/31/3

ImagesImagesApplications :

• Prévention des crimes, Propriété intellectuelle (TradeMark)• Journalisme & publication, diagnostic médical

3 Niveaux d’études :• 1 - Bas niveau : attributs primitifs

– forme, texture, couleur, localisation spatiale• 2 - Niveau dérivé ou attributs logiques

– objets d’un type donné, objets nommés• 3 - Niveau Subjectif ou attributs abstraits

– événements spécifiés ou type d’activité– signification émotionnelle ou symbolique

Importance de l’interface et intégration de l’utilisateur

Page 36: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

36

Informations Multimédia Informations Multimédia 2/32/3

SonSonFormat de base : WAV, MIDIDifférents formats de compression (MP3,

AIFF…)MusiqueMusique : Méta-données ou RI

traditionnelle (MIDI).DialogueDialogue :

• Phonèmes : « More details » -> m oo r d ii t ei l z • 4 Approches :

– Repérage de mots– Reconnaissance du locuteur– Recherche basée sur les phonèmes– Recherche basée sur les mots (Tâche TREC)

Page 37: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

37

Informations Multimédia Informations Multimédia 3/33/3

VidéoVidéoTaille importante (1 sec = 18 Mo à 720Ko/im) Vidéo = 3 dimensions (x, y, t)4 Formats compression : MPEG 1 - 2 - 4 - 7

• MPEG 1 & 2 : 3 types de Frames I,B,P.• MPEG 4 : Identifie les objets dans les séquences.• MPEG 7 : Inclus un aspect sémantique,

Le « descripteur » : langage balisé (XML)

Indexation par identification de séquences et méta-données

Indexation son & vidéo synchronisés

« navigation » vs « recherche » pour les médias « navigation » vs « recherche » pour les médias continus (vidéo, son)continus (vidéo, son)

Page 38: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Librairies Digitales

Page 39: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

39

Librairies Digitales Librairies Digitales 1/31/3

Une LD est :Une LD est : un service,une architecture,un ensemble de ressources informatives,

bases de données textuelles, sons, images…un ensemble d’outils et fonctionnalités

permettant de localiser, d’utiliser les ressources disponibles.

normalement centrée sur l’utilisateur

RI joue un rôle clé, mais… Chercher ne suffit pas !

Page 40: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

40

Librairies Digitales Librairies Digitales 2/32/3

Bibliothèque classique :Bibliothèque classique : trouver, identifier, sélectionner, obtenir

les documents à partir d’informations.Bibliothèque numérique:Bibliothèque numérique:

Localiser, sélectionner parmi des sources pertinentes

Y retrouver des documents Interpréter ce qui est retrouvé Gérer les informations filtrées localement Partager ces résultats avec les autres.

Page 41: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

41

Librairies Digitales Librairies Digitales 3/33/3

Le Web est-il une DL ? Le Web est-il une DL ? NONNON

Web :• a un contenu incomplet• manque de standards et de contrôles de qualité• non catalogué• rappel trop élevé par rapport à la pertinence• pas d’organisation responsable

Mais il y a plusieurs LD sur le Web !!

Page 42: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Le WEB

Page 43: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

43

Web Web 1/71/7

Comment retrouver des Comment retrouver des documents sur le Web ?documents sur le Web ? Par navigation :

URL connuePar lien présent dans une autre page WebService d’alerte (méthode PUSH)

Par recherche :Moteur de recherche Web

1 Page Web = 1 document

Page 44: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

44

Web Web 2/72/7

Indexation sur le WebIndexation sur le Web

Automatique

Manuelle

Moteurs basés sur les requêtesLes index sont construits automatiquement.

Listes classiféesLes catalogues répertoriant les pages par thèmes sont construits manuellement

Page 45: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

45

Web Web 3/73/7

Différences au sein de l’indexationDifférences au sein de l’indexation

Particularités du WebParticularités du WebLiens hypertextes = relations entre les

documents• classification

– Avantage : [Botafogo93] proposer des classes de documents qui dépendent d’un contexte, d’un thème… à partir des liens qu’ils possèdent entre eux = Réduction de la quantité d’informations à stocker

RI Classique (Textuelle) RI WebCollection Physique Collection Virtuelle

Construction de la collection manuelle Construction de la collection automatique(Spiders, Bots)

Analyse du balisage

Page 46: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

46

Web Web 4/74/7

Utilisation des liens HypertextesUtilisation des liens HypertextesHypertexte bien réalisé :

• Baisse du risque de « perte » de l’utilisateur (hiérarchie)

• Organisation plus rigoureuse de l’information (navigation)

Analyse de l’hypertexte [Botafogo93]• Plus le nombre entre 2 nœuds est grand, plus la

relation entre les nœuds est importante• Permettant de :

– détecter le nœud index de l’hypertexte (liens out)

– détecter les nœuds références (liens in)– mesurer la compacité de l’hypertexte– mesurer la stratification (nbre de « couches »)

Page 47: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

47

Web Web 5/75/7

Utilisation dans la RIUtilisation dans la RIClassification :

• Par contenu• Par liens• => Utilisation mixte des 2

Analyse Structurelle :• Identification de pages d’acceuil et pages

références– indexation de la structure globale

Mesures :• Non spécifique au Web mais adéquates

– qualité et complexité d’une portion du Web

Page 48: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

48

Web Web 6/76/7

Algorithmes existantsAlgorithmes existants HITS (Hyperlink Induced Topic Search) PageRank

Algo. de génération de liens auto.Algo. de génération de liens auto. [Salton96], [Allan97], [Agosti97],

[Melluci99]relation de similarité entre nœudsdétection de liens de différents types

(révision, résumé, extension, équivalence, contraste, comparaison, tangence, agrégation)

Page 49: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

49

Web Web 7/77/7

Evaluation de la RI sur le WebEvaluation de la RI sur le WebPb :

• Dynamique du Web• Hétérogénéité des pages et des requêtes• Hyperliens entre les pages

Base de test : tâche Web de TREC• performance de la RI sur le Web (1999)

– Small Task - 2 Go (250.000 docs)– Large Task - 100 Go (18.5 Millions docs)

Page 50: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Documents structurés

Page 51: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

51

Documents structurés Documents structurés 1/41/4

RI InteractiveRI Interactive

Début

Commande

Interprétation de la Commande

Affichage du résultat

Evaluation du résultat

Utilisateur Satisfait ?

OuiFin

Révision de la Commande

Non

Effort Cognitif

Utilisateur

Besoins en Information

s

Page 52: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

52

Documents structurés Documents structurés 2/42/4

Recherche vs NavigationRecherche vs Navigation

Impact des informations structurées :• Recherche : Pas ou peu de prise en compte de la

structure• Navigation : Surcharge cognitive lorsque la

structure de l’hypermédia n’est pas explicite

-> Interaction mixte

Effort Cognitif DésorientationRecherche Evaluation de la réponse

Reformulation appropriée

Taille des réponses Mauvais classement

(ranking)Navigation Enregistrer le chemin et le

jugement de pertinencedes étapes précédentes

Longueur du parcours Boucles Redondance

Page 53: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

53

Documents structurés Documents structurés 3/43/4

Modèle intégréModèle de RI étendu (fonctionnalités

hypermédia)• prendre en considération la structure du

document

Modèle Hypermédia étendu• gestion du contenu• liens typés• liens pondérés• construction de liens

Approche :

HyperIndex

Treillis de concepts RECHERCHE

HyperBase

NAVIGATION

BeamDown

BeamUp

Page 54: La Recherche dInformation Janvier 2001. Max CHEVALIER - chevalie@irit.fr2Plan zLa Recherche d'Informations (RI) zEvaluation zMéta-données zle « vague

Max CHEVALIER - [email protected]

54

Documents structurés Documents structurés 4/44/4

ConclusionConclusionprise en considération de la structure permet

d’accroître les performances de la RI en terme d’interaction et P/R

permet l’intégration de la recherche et la navigation comme des façons complémentaires de trouver l’information

permet l’intégration de divers médias dans une stratégie d’indexation/recherche unique

améliorer focus / précision : important pour le Webimplique une meilleur compréhension des notions

« core » des documents, des besoins de l’utilisateur, de la pertinence