64
Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

Embed Size (px)

Citation preview

Page 1: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

Panorama des évolutions de la recherche d’information

sur Internet

Marie-Laure MALINGRE

Alexandre SERRESCo-responsables URFIST Rennes

Février 2005

Page 2: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 20042

PLAN

1/ Introduction : grandes évolutions de la RI

2/ Panorama, typologies des outils

3/ Evolutions économiques 4/ Evolutions technologiques 5/ La collecte des données 6/ L’indexation, les méthodes

de TAL

7/ Gestion des requêtes 8/ Méthodes de

classement et de traitement

9/ Présentation des résultats

10/ Personnalisation 11/ Autres évolutions :

métadonnées…

Page 3: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 20043

Information préalable…

Ce support Power Point est complété par un support HTML, à consulter librement :– « Panorama de la recherche d'information sur

Internet : approfondissement des aspects théoriques et techniques »

– Disponible sur : http://www.uhb.fr/urfist/Supports/Rechinfo2/Rechinfo2_cadre.htm

Page 4: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 20044

1/ Introduction : les 7 grandes tendances de la recherche d’information

Repères historiques : – 60’s : la recherche « en

différé »– 70’s : « mode

conversationnel »– 80’s : micro et minitel– 90’s : « la révolution

Internet » – 2000’s : explosion du

web Voir « Chronologie des outils

de recherche… »

Difficultés de l’état des lieux de la recherche d’information :

– Abondance, explosion des outils

– Rapidité des évolutions– Hybridation des outils– Changement d’échelle de

la RI 7 tendances de fond, selon

les composants de la RI

Page 5: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 20045

1/ Introduction : les 7 grandes tendances de la recherche d’information

Du côté des usagers : – De la dépendance totale (recherche médiatisée :

documentaliste + informaticien) à l’autonomie relative Du côté de l’offre d’information :

– De « l’explosion documentaire » au « déluge informationnel »

Triple changement : – d’échelle– de support– de système éditorial

Page 6: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 20046

1/ Introduction : les 7 grandes tendances de la recherche d’information

Du côté de la chaîne de l’information : – De la validation a priori à la validation a posteriori

Du côté des outils de recherche : – De la rareté à l’explosion, de la distinction à

l’hybridation des outils, de la complexité à la simplification

Du côté des processus de recherche : – Du « retrouvage » booléen à la « sérendipité »

Page 7: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 20047

1/ Introduction : les 7 grandes tendances de la recherche d’information

Du côté des modèles de la recherche d’information : – Du paradigme de l’accès à celui du traitement

Du côté de l’économie de la RI : – De la gratuité à la vente des mots-clés

Page 8: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 20048

2/ Panorama et typologies des outils 2.1 Contexte et spécificités de l’information et de la « RII »

– surabondance, « déluge informationnel »– structuration encore majoritairement faible– hétérogénéité : formats, langues, supports,

technologies, sources, etc.– instabilité de l ’information– multiplicité des espaces d’information : web

visible / invisible, intranet/extranet, ouverts/fermés, gratuits/marchands…

– coexistence contenus statiques/dynamiques (PHP)

Page 9: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 20049

2.1 Les blogs

Définition : – Weblog : journal de bord du web– Site web, régulièrement mis à jour, comportant des liens,

des appels à commentaires… Très nombreuses applications :

– journaux personnels : adolescents– Tribunes politiques : Dominique Strauss-Khan– Outils journalistiques : blogs du Monde– Outils collaboratifs de veille… : blog de l’Urfist

Explosion du phénomène des blogs Evolution du web ?

Page 10: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200410

2/ Panorama et typologies des outils 2.2 Quelles typologie des outils aujourd’hui ?

Les difficultés de la typologie classique :– Par type d’outils :

Annuaires de recherche :Il présente, dans une hiérarchie de domaines et de sous-domaines divers, le contenu du Web au travers de ses sites décrits par un nom et un commentaire de quelques mots rédigés par un documentaliste de l'outil de recherche.

Moteurs Métamoteurs Agents intelligents :

un outil logiciel qui accomplit des tâches sur Internet de façon automatisée, en fonction de ce que vous lui demandez

Page 11: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200411

2/ Panorama et typologies des outils 2.2 Quelles typologie des outils aujourd’hui ?

Les difficultés de la typologie classique :– Par type d’outils :

Portails Moteurs « humains » Agrégateurs de fils RSS

Sa validité n’est plus aussi évidente en raison de la convergence de outils.

Page 12: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200412

2/ Panorama et typologie des outils 2.2 Quelles typologies aujourd’hui ?

– Différents critères permettent d’envisager d’autres typologies possibles :

– Selon le référentiel internet : Outils généralistes Outils spécialisés Diversité des spécialisations : supports, formats,

géographiques, disciplinaires, web invisible…> Evolution vers la spécialisation

– Selon le mode d’indexation : indexation des documents web (tout ou partie) indexation sur le contenu d ’une classification

Page 13: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200413

2/ Panorama et typologie des outils 2.2 Quelles typologies aujourd’hui ?

– Selon le contenu des ressources indexées : Articles de presse / dépêches d ’actualité Littérature grise (Lancement de Google Scholar) Blogs : Technorati, Daypop Flux RSS : Savoirs CDI... Wiki : Wikipédia…

Page 14: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200414

2/ Panorama et typologie des outils 2.3.1 Les moteurs de recherche

Quelques typologies possibles des moteurs :

– selon le référentiel Internet : moteurs généralistes moteurs spécialisés :

– par domaines disciplinaires : Spinoo– par type de données, de ressources– par type d ’objets Internet

– selon le classement des résultats : – Indice de pertinence : Exalead– Indice de popularité : Google

– Selon le degré de traitement– recherche exclusivement– traitement, gestion et exploitation des résultats

Page 15: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200415

2/ Panorama de l’offre 2.4 Métamoteurs

Repères : – outils interrogeant en parallèle plusieurs outils (moteurs et

annuaires)– possibilité de fusion et de tri des résultats– diversité des métamoteurs

Evolutions : – amélioration des performances techniques : fusion et synthèse

des résultats– spécialisation– présentation graphique des résultats– personnalisation et services de veille; exploitation des résultats

Page 16: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200416

2/ Panorama de l’offre 2.5 Portails

Définition : – "Ressource accessible via Internet, constituant un point d'accès unique,

simplifié, facile d'emploi et unifié, pour un public cible, à des ressources (services, produits) électroniques distantes, variées et hétérogènes". (Sylvie Dalbin, Instruments de recherche sur le Web, in La Recherche d'information sur les réseaux, cours INRIA 2002)

Dispositif : – documentaire (ressources informationnelles), communicationnel,

éditorial, technique... Diversité des ressources et services :

– recherche d ’information, achats/ventes, informations générales, spécialisées, personnalisation, messagerie, forums, services d’alerte…

Portails généralistes / spécialisés Exemples : Yahoo.fr, ConnectSciences, Ploteus, BusinessCom,

Fabula, Culture.fr, Educlic

Page 17: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200417

2/ Panorama de l’offre 2.6 La syndication de contenus

Définition : – Agrégation de contenus divers sur un même navigateur – possibilité de publier automatiquement sur un site web des

informations issues d‘autres sites web Outils :

– Agrégateur de fils RSS : en lecture – Editeur de fils RSS : pour l’édition

Très nombreuses applications, liens avec les blogs Nombreux enjeux et questions Explosion du phénomène du RSS

Page 18: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200418

2/ Panorama de l’offre 2.6 Les agrégateurs de fils RSS

Outils personnalisables :– Permettent la réception automatique de fils RSS de diverses

sources : Presse : ex. de Libération Blogs : ex. de UrfistInfo Sites web : Savoirs CDI

Deux types d’outils : – Outils autonomes : FeedReader, FeedDemon…– Agrégateurs intégrés dans le navigateur : Firefox

Deux possibilités d’utilisation : En ligne : NewsIsFree Hors ligne : FeedReader…

Beaucoup d’outils gratuits

Page 19: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200419

2/ Panorama de l’offre 2.7 Les moteurs de bureau (desktop search)

Définition :– Outils d’indexation et de recherche de fichiers sur disque dur– Développement de ces solutions par les moteurs de recherche en

complément de la recherche sur le web– Recherche sur le PC d’un document Word, d’un e-mail, d’une vidéo, d’un

fichiers PDF, etc. Outils :

– Yahoo Desktop Search (sous Windows XP et 2000, recherche sur 200 types de fichiers)

– Copernic Desktop Search (recherche des formats les plus courants : Microsoft Office, WordPerfect, PDF, fichiers texte et RTF)

– Google Desktop Search (recherche sur les fichiers Word, Excel, Powerpoint, les e-mails)

– Autres : Lycos, Ask Jeeves, HotBot …

Page 20: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200420

3/ Evolutions économiques

Concurrence des outils : taille d’index, services … Concentration du marché (Yahoo) / fragilisation Passage du tout gratuit au payant « Marchandisation » croissante de la recherche

d’information– bannières publicitaires sur les outils– soumissionnement payant des sites : Nomade, Voila, Alta

Vista… mais retour de Yahoo au principe du référencement gratuit ! A voir

– positionnement payant dans les lots de résultats : présence en tête des résultats, avec ou sans signe distinctif « liens sponsorisés » : placés dans une zone distincte,

« insertions contextuelles »

Page 21: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200421

3/ Evolutions économiques

Vente de mots-clés : – pour le positionnement payant, système de vente aux

enchères de mots-clés, par sociétés spécialisées (Overture, Espotting)

– sites classés selon système de mise aux enchères des mots-clés : site ayant eu plus forte enchère classés en tête

– achat des mots-clés : par CPM (coût pour mille affichages) : nombre d ’affichages de

liens, cliqués ou non par CPC (coût par clic) : paiement au clic, a largement

remplacé le CPM

Page 22: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200422

4/ Panorama des évolutions technologiques des moteurs et métamoteurs

Définition : outil automatisé d’indexation et de recherche des ressources du web

Fonctionnement : – 3 modules autonomes :

robot collecteur : collecte des données module d’indexation : base de données du moteur module de requête : gestion des requêtes et des

résultats– principes communs entre les moteurs

parfois utilisation commune du même robot– mais nombreuses spécificités

Page 23: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200423

4/ Panorama des évolutions… : problèmes

posés aux moteurs de recherche

Le « web opaque » : – récupération des pages "orphelines" – difficulté de récupération des pages liées à une indexation partielle

Le « web privé » : – pages interdisant le référencement par les moteurs (fichier robots.txt)

Le « web propriétaire » : – pages à accès contrôlé (par logon), non collectées (plateforme Phare)

Le « vrai web invisible » : – prise en compte de formats autres que html (ex : base Mémofiches)– prise en compte de protocoles internet autres que celui du web– difficultés d'indexation face aux frames, scripts, technologies

propriétaires comme Flash, etc.– difficultés de recherche sur les pages dynamiques (.asp, php…)

pas d'exhaustivité des outils de recherche

Page 24: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200424

4/ Panorama des évolutions technologiques

Collecte des données – Élargissements de la

collecte

Indexation des données :

– traitements linguistiques

– Indexation sémantique

Interfaces de recherche – simplification, aide

Fonctionnalités de recherche

– Possibilités de filtrage– Enrichissement des

requêtes

Page 25: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200425

4/ Panorama des évolutions technologiques

Classement des résultats:

– Indice de popularité– Clusterisation

(rangement des liens en dossiers thématiques), catégorisation…

Traitement des résultats :

– Résumés automatiques – « Géolocalisation »

Présentation des résultats :

– Cartographie– Moteur parlant…

Personnalisation :– Profils de requête– Sauvegarde, partage des

résultats…

Page 26: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200426

5/ La collecte des données : fonctionnement

Principes du robot collecteur Partage du même robot par plusieurs outils Modalités d’exploration du web :

– exploration initiale : soumission manuelle par les webmestres, référencement payant sélection des meilleurs sites explorations aléatoires

– parcours des liens : en largeur en profondeur

Page 27: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200427

6/ L’indexation des données :6.1 Fonctionnement, évolutions...

Principes : – base de données : index principal et fichiers inverses– index : « cœur » du moteur de recherche

4 éléments pour l ’indexation : – taille de l’index – objets de l’indexation– nature des ressources indexées

– méthodes de traitement des données

Page 28: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200428

6/ L’indexation des données :6.1 Fonctionnement, évolutions...

Taille de l’index : – Nombre de pages indexées– « course à l’index le plus grand » :

Google : passage brusque à un index de 8 milliards de pages Yahoo Search Technology : 4 milliards Exalead : un milliard de pages

Objets de l ’indexation : – quels champs indexés ? titre, URL, métadonnées, frames…

Différences entre moteurs.

Nature des ressources : – développement de l’indexation des documents images, sonores...

Page 29: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200429

6.2 L’indexation : Les techniques de traitement linguistique

TAL (Traitement Automatique des Langues) : au fondement de l’indexation automatisée

Différences indexation manuelle / indexation automatisée : – indexation documentaire manuelle : les concepts– indexation automatisée : les mots, texte intégral

Méthodes de TAL : – issues de travaux et de problématiques différents de ceux de

la RI ; – traitement en « local », pour l’analyse de corpus de textes…

Page 30: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200430

6.2 L’indexation : Les techniques de traitement linguistique

Evolution majeure des moteurs de recherche : intégration des techniques du TAL, notamment dans la gestion des requêtes

Différents types de traitements linguistiques Présence des méthodes de TAL à la fois dans les

modules d’indexation et de requête : différences difficiles à établir

Enjeu majeur de développement de la RI : – quelles techniques de TAL pour l’indexation,

notamment avec le web sémantique ?

Page 31: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200431

6.4 Indexation : Méthodes de traitement statistique

Principale méthode d’indexation sur le web : traitement statistique des mots (pour l’estimation de pertinence)

Problème : localisation des traitements statistiques– dans le module d’indexation (sur la base de données) ?– Ou dans le module de requêtes (sur les lots de

résultats) (cf plus loin) ?> les deux à la fois ; identification difficile des méthodes statistiques utilisées

Page 32: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200432

7/ La gestion des requêtes et des résultats

Généralités : – partie visible du moteur de recherche ; trois

grandes fonctions : gestion des requêtes : fonctions de recherche en

mode simple et avancé, différentes options de filtrage, affinement...

gestion des résultats : catégorisation, classement, question des critères de pertinence …

gestion de la présentation des résultats : linéaire, graphique

Page 33: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200433

7/ Gestion des requêtes :7.1 Fonctionnalités de recherche

Simplification des procédures, éclatement des formulaires

– diversification des options de recherche en mode simple et avancé ;

4 types d’options : linguistiques, recherche booléenne, filtrage, affinement– options linguistiques :

> innovations : requêtes en langage naturel, correction orthographique, lemmatisation...

– options de recherche booléenne : > innovations : généralisation du ET implicite, utilisation (encore rare) de l’opérateur de proximité

Page 34: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200434

7.2 Développement des technologies de filtrage

Innovation majeure et la plus répandue : nombreuses possibilités de filtrage

– géographique du web : mondial, francophone– linguistique : choix de la langue des ressources– des types de ressources : images, audio…– des ressources internet : web, forum, messagerie, weblogs– des formats : HTML, PDF, DOC, PPT, XLS, RTF…– des dates : nombreuses options– des champs : titre, URL, host, domaine…– thématique : choix du domaine de recherche (Alta Vista)– du contenu : filtrage « parental » (Alta Vista)

Page 35: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200435

7.3 Les fonctionnalités d’affinement des requêtes

possibilité d’affiner une requête à partir d’un premier lot de résultats

– reposent sur plusieurs techniques, +- spécifiques aux moteurs ; différents niveaux d ’affinement :

– affinement « simple » : restriction de la recherche à un lot de résultats, à un site...

– affinement/extension : propositions de pages similaires (similar pages)

– techniques de classification automatique (cf plus loin)

Page 36: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200436

8/ Méthodes de classement des résultats : autre typologie

Méthodes de classement fondées sur le contenu des documents :

– indice de pertinence– classifications automatiques

Méthodes de classement fondées sur l’infrastructure hypertextuelle du web :

– exploitation des liens des auteurs / éditeurs de sites web : indice de popularité de Google, navigation dans les résultats

– exploitation des activités des utilisateurs : mesure d’audience, mesure des parcours

Page 37: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200437

8.1 Classement des résultats : indice de pertinence

Principes :– classement fondé sur la fréquence d’apparition et la localisation

des termes de la requête dans une page web (cf. réponses dans BCDI)

– attribution d’une valeur aux pages indexées : absolue : indépendante des requêtes (module d ’index) relative : dépendante des recherches (module de requête)

– affichage des résultats à partir du calcul d’un score pour chaque réponse

Utilisation :– première méthode de classement utilisée sur le web, la plus répandue ;

Problèmes : – détournement par le spamdexing

Page 38: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200438

8.1 Classement des résultats : indice de pertinence

Critères d’estimation automatique de pertinence : – pondération : calcul du « poids » d’un mot selon :

sa position sur la page : « poids » plus important dans le titre, en début de texte, en majuscules...

sa fréquence dans la base : calcul des occurrences du mot dans la base d’index ; mots rares favorisés, mots fréquents sous-évalués, mots-vides éliminés...

sa densité : calcul des occurrences du mot par rapport à la taille du document ; poids supérieur pour les documents plus petits

– similarité : appariement entre mots de la requête et du document

Page 39: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200439

8.2 Classement des résultats : indice de popularité

Principes, origines : – Utilisation de la nature hypertextuelle du web : prise en compte

des liens entre sites, considérés comme des liens de parenté sémantique

– calcul de la notoriété d’un site en fonction du nombre de liens pointant vers le site

– principes scientométriques, pratiques de citation entre articles

Utilisation : – indice de popularité lancé par Google en 98

originalité et succès de Google et de son PageRank– Projet Clever, Teoma

Page 40: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200440

8.2 Classement des résultats : indice de popularité

Critères de calcul de popularité : – classement des pages par combinaison de plusieurs

facteurs ; deux niveaux de pondération :

– 1ère pondération plus forte : des « pages pivots » : listes de liens, sélections de

ressources… des « pages de référence » : pages recevant de nombreux

liens

– 2ème pondération plus forte : des pages de référence fréquemment citées par pages pivots

Page 41: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200441

8.2 Classement des résultats : indice de popularité

Avantages de l ’indice de popularité :– renforcement de la pertinence– élimination du spamming

Problèmes et limites : – renforcement de la notoriété : « effet Saint-Matthieu »

(favorise les sites jouissant déjà d’une certaine notoriété)– problème des sites peu connus, des ressources

nouvelles...– problème des liens artificiels, pas toujours éliminés :

exemple de requêtes sur Google sur la psychiatrie – Nouvelles pratiques de spamdexing

Page 42: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200442

8.3 Classement… : classification automatique des résultats

Concerne à la fois les technologies d’affinement des requêtes et le classement des résultats

Technologies les plus complexes ; domaine des innovations les plus importantes des moteurs : cf Exalead

Principes : – organisation d’un lot de résultats pour donner possibilité

d’affiner ou étendre la requête– répartition des objets dans des classes– deux méthodes :

classifications a priori classification a posteriori

Page 43: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200443

8.3 Classement… : classification automatique des résultats

Principes : – classement des informations par sujets

> traitement sémantique– modélisation des domaines de connaissance– automatisation du classement des informations– enjeu essentiel : mise en ordre du « chaos

informationnel »

Page 44: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200444

8.3 Classement… : classification automatique des résultats

Classification a priori : « classification par apprentissage supervisé » :

classement des éléments dans des classes préétablies ; problème de l ’élaboration et du suivi des classes

– exemple : Voilà et ses domaines prédéfinis (sports, arts..) principe des annuaires, avec classification

préétablie

Page 45: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200445

8.3 Classement… : classification automatique des résultats

Classification a posteriori : – « classification par apprentissage non supervisé »,

« clustering » : regroupement des résultats par comparaison sur la base de similarités trouvées dans les documents

– analyse des caractéristiques statistiques, linguistiques, sémantiques du corpus

– processus automatisé : création de groupes répartition des documents dans les groupes et attribution d ’un

nom à la classe tri par pertinence au sein des groupes

Page 46: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200446

8.3 Classement… : classification automatique des résultats

Classification a posteriori (suite) :– Intérêt pour la recherche :

aide à la sélection d’un mot-résultat aide à l’élimination des corrélations inintéressantes,

évidentes ou connues suggestion d’idées et de pistes nouvelles

– Complémentarité avec les techniques de représentation graphique de l’information

exemples : Exalead, Vivisimo, AllTheWeb

Page 47: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200447

8.4 Traitement des résultats :la « géolocalisation »

Innovation récente : – Sur Yahoo, Google (USA), FindWhat…

Principes : – Identification de l’emplacement géographique de

l’internaute – Fourniture de résultats, de services locaux, proches de lui

: Liste d’adresses proches (hôtels, professionnels…) Visualisation des résultats sur une carte Itinéraires routiers

Enjeux financiers importants : – Lutte pour les marchés locaux des annonceurs

Page 48: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200448

9/ Présentation et traitement des résultats

Evolutions dans la présentation des résultats : deux modèles :– listes– cartographies

Enrichissement de la structure et du contenu des listes : – structure des pages : identification plus claire des différentes

parties (rappel de requête, liste des résultats « naturels » et liens sponsorisés…)

– représentation des documents : enrichissement de la description (titre, catégorie, taille du fichier, date, extrait ou résumé, pages en cache…)

> cf Google

Page 49: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200449

9.1 Présentation graphique des résultats

Principale innovation dans la présentation : utilisation des techniques de cartographie de l ’information

Technologie ancienne (veille) mais difficile à mettre en œuvre sur Internet ; ressources techniques importantes

Pionniers : les métamoteurs : Kartoo, MapStan, Vivisimo Principes :

– présentation des résultats sous forme de carte de nœuds et de liens :

nœuds = documents liens = relations entre documents

– représentation en réseau de sphères (Kartoo), en « plans de quartiers » avec places et rues (Mapstan), en arborescence (Vivisimo)

Page 50: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200450

9.1 Présentation graphique des résultats

Valeur des nœuds : – document (Kartoo) : taille variable selon degré de

pertinence

– ensemble de documents (cluster) sur Mapstan Valeur des liens :

– liens sémantiques, de similarité des thèmes

Intérêt : – vision synthétique des résultats– mise en évidence des relations entre sites

Page 51: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200451

9.2. Présentation des résultats : évolutions récentes

La « lecture » orale des résultats : – Cf le « moteur qui parle » Speegle (lancé par la

société écossaise CEC Systems)

Speegle utilise la catalogue web de Google + 1 logiciel de reconnaissance vocale pour lire les notices.

3 formats pour la lecture :– méta-titre et méta-description– url et méta-description– url, méta-titre et méta-description

comprend aussi un catalogue d’actualités

Page 52: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200452

9.3 Synthèse des présentations de résultats (d ’après S. Dalbin)

Mots-clés, listes de référence : – Indicateurs de contenu d ’un document

Regroupement de références : – Indicateurs de thèmes

Cartes : – Indicateur du positionnement des documents

par rapport aux autres par rapports aux thèmes

Page 53: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200453

9.5 Traitement des résultats : extraits et résumés automatiques

Extraits automatiques : – présentation d’un extrait d’un document sur les pages de résultats

(Exalead)– correspond soit aux mots recherchés, soit aux premières lignes du

document> pas de véritable « résumé », car pas de reformulation

Résumés automatiques : – Développement encore limité des technologies de résumé

automatique sur le web : système Pertinence extraction d’une liste de phrases représentant idées essentielles

d ’un texte techniques d’analyse de discours, système de marqueurs

linguistiques, affectation d’une valeur aux tournures linguistiques

Page 54: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200454

10. Personnalisation10.1 Des interfaces

Tendance lourde de la recherche d’information

Personnalisation des interfaces proposées par les outils : – barre d’outils téléchargeable et personnalisable

(Google, HotBot, Voilà, Mapstan…)– extension du formulaire de requête (Alta Vista)– services d ’aide à la recherche

Page 55: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200455

10. Personnalisation10.2 De la recherche et des résultats

Plusieurs fonctionnalités de personnalisation des requêtes :

– systèmes d ’alerte et de veille (Alta Vista, Kartoo…) Google Alert : alerte des changements dans les pages de

résultats pour des mots-clés favoris

– exploitation des résultats : envoi, sauvegarde, classement dans des catégories, annotations… (AskJeeves, My Yahoo Search…)

– historique des recherches– prise en compte des préférences de l’internaute, mémorisation

et utilisations des requêtes précédentes (Ujiko, Eurekster…)

Page 56: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200456

12/ Autres évolutions de la recherche d ’information : le web sémantique

– Evolution du côté de la structuration et de l’indexation de l’information :

travaux du web sémantique, généralisation de XML, des métadonnées…

> mutations peut-être les plus profondes, conditionnant toutes les autres

touchent à la structuration du document numérique

Page 57: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200457

12.1 Evolutions à venir :le web sémantique

Définition du « Semantic Web » :– chantier de recherche du W3C

Constat des insuffisances du web actuel : – absence de description et d’indexation des ressources, etc– hétérogénéité des formats…– pas de structure explicite du web

Objectifs : – meilleure structuration du web, exploitation sémantique de

la nature du web...

Page 58: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200458

12.1 Evolutions à venir :le web sémantique

Projet du Web sémantique (d’après P. Laublet) :– « Introduction d’une « couche » sémantique permettant :

la description des ressources La description des contenus (métadonnées) La structuration des ressources, avec un certain niveau de

formalisation – > permettre la recherche d’informations à partir des concepts,

des notions, et non plus de simples chaînes de caractères (mots-clés)

Web sémantique = – (ré) introduction des problématiques documentaires de

catalogage (avec les métadonnées) et d’indexation (avec les ontologies), MAIS :

de manière totalement automatisée sur les connaissances et plus seulement sur les documents

Page 59: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200459

12.1 Evolutions à venir :le web sémantique

Principes et outils du web sémantique : – quadruple normalisation nécessaire, quatre

directions de recherche : identification des ressources numériques : le DOI description des ressources : systèmes de métadonnées structuration des documents numériques : XML indexation des ressources : langages de description,

thésaurus, ontologies, classifications…

– principe fondamental du web sémantique : séparation du contenu des documents de l’organisation

de ce contenu

Page 60: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200460

12. Evolutions :12.2. Les métadonnées

Ancienneté du principe : catalogage Données à propos d’autres données

– informations pour la description des ressources ; enjeu important pour l ’indexation et la recherche

Resource Description Framework (préconisation du W3C).

Diversité des formats, standards, normes de métadonnées

Page 61: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200461

12.2 Evolutions :Les métadonnées

Quels apports des métadonnées ? – Structures plus stables que HTML– amélioration des performances des moteurs de recherche

exemple d ’application : utilisation des métadonnées par Google dans le cadre de son projet avec les universités américaines et le MIT.

– description plus fine des contenus et des relations entre documents

– facilitation du classement des contenus– meilleure visibilité des droits de propriété intellectuelle– information sur la gestion du document– partage des informations plus facile

Page 62: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200462

12.2 Les métadonnées : le LOM

LOM (Learning Object Metadata ) : Pour les productions sur les web liées aux objets d’apprentissage :

– Métadonnées sur les objets d'apprentissage – Norme permettant de décrire les objets d'enseignement. A partir des métadonnées du Dublin Core en les détaillant davantage :

structure de l'objet (structure, niveau d'agrégation), gestion de versions (version, état), gestion plus fine des contributeurs (rôle), description fine des métadonnées utilisées, description de l'implémentation technique

au-delà du format : taille, localisation, prérequis techniques, gestion plus fine des droits ( gestion plus fine du sujet (par mots-clés ou classification) : type et niveau

d'interactivité, type de ressource : « densité sémantique », type d'utilisateur : Le document LOM va probablement être repris par l'ISO. Si l'on souhaite faire de la

veille sur les métadonnées et le web sémantique, l'IEEE est l'institut dont il faut suivre les travaux.

Page 63: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200463

12.4 Quelles conséquences du web sémantique… sur la documentation ?

Une menace ? – Vers l’automatisation complète de la recherche

d’information?

Une chance ? – Travail en profondeur dans la « trame » des documents,

notion de « granularité » de l’information– Possibilités inédites de recherche intelligente sur le contenu

Une revanche ? – Généralisation des concepts documentaires : organisation

documentaire du web.

Page 64: Panorama des évolutions de la recherche d’information sur Internet Marie-Laure MALINGRE Alexandre SERRES Co-responsables URFIST Rennes Février 2005

URFIST Rennes 200464

MERCI DE VOTRE ATTENTION !