12
LES OUTILS DE RECHERCHE

Les outils de recherche internet

Embed Size (px)

Citation preview

Page 1: Les outils de recherche internet

LES OUTILS DE RECHERCHE

Page 2: Les outils de recherche internet

TYPOLOGIE DES OUTILS DE RECHERCHE : MOTEURS ET ANNUAIRES

Moteurs- Gestion automatisée- Entrée par indexation- Tout le web a vocation à être indexé- Tout le contenu des pages est indexé- Navigation par requêtes

Annuaires- Gestion humaine- Entrée par soumission- Des choix éditoriaux sont faits- Seules les références aux sites sont indexées- Navigation arborescente (recherche possible)

Page 3: Les outils de recherche internet

FONCTIONNEMENT D'UN MOTEUR DE RECHERCHE (VERSION SIMPLE)

Index

Moteurde recherche

IndexeurWeb

Page 4: Les outils de recherche internet

FONCTIONNEMENT D'UN MOTEUR (VERSION MOINS SIMPLE)

Web

CrawlersServeur d'URLs Serveur tampon

DépôtIndexeur

Dicte les URLs à crawler Indexent, envoient le contenu des pages

Compresse, numérote et envoie

Décompresse, parse

Résolveur d'URLsAncres

Silos

Stocke les liens et ancres associées

Convertit les URLs en URLs absolues, et lie les documents entre eux

Liens Index des documents

Pagerank

Trieur

Moteur de recherche

LexiqueTrie le contenu des silos et produit un index inversé

Répond aux requêtes des utilisateurs

Contient une copie de chaque page HTML indexée (cache)

Stocke une cartographie du web

Répertories l'ensemble des documents indexés(index direct)

SilosSilosMaintient une correspondance mots / documents (index inversé)

(Schema basé sur l'article « The Anatomy of a Large-Scale Hypertextual Web Search Engine », par Sergey Brin et Lawrence Page)

Page 5: Les outils de recherche internet

COMMENT PENSE UN MOTEUR ?

Juger de la pertinence d'une page web, c'est un peu comme juger du contenu d'un livre dans une bibliothèque :

Contenu Titre4ème de couvertureTable des matièreContenu général

Balise <title>Balise <meta> descriptionTitraille (balises <h1> à <h6>)Ensemble des textes

Structure Lisibilité Accessibilité technique et structuration

Popularité Recommandations Quantité, qualité et teneur des liens entrants

Page 6: Les outils de recherche internet

ANATOMIE GENERALE D'UNE PAGE DE RESULTATS

Résultats « Onebox »

Résultats naturels

Liens sponsorisés

Page 7: Les outils de recherche internet

ELEMENTS D'INTERFACE GOOGLE

- Déterminés algorithmiquement- Jusque 8 éléments

Sitelinks

Classic sitelinks

Jumplinks

Résultats indentés

Hiérarchie de site- Déterminés algorithmiquement- Jusque 4 éléments

- Contextuels- Basés sur les ancres

- Contextuels

- Basées sur les fils d'ariane des sites

Page 8: Les outils de recherche internet

RECHERCHE UNIVERSELLE

Objectif : « faire tomber les silos de l'information qui existent sur le web » (Marissa Mayer, 16/05/07)

Actualités

Pages web

Billets de blogs

Images

Vidéos

Page 9: Les outils de recherche internet

PERSONNALISATION DES RESULTATS DE RECHERCHE

Localisation de l'utilisateur(IP, langue du navigateur)

Comportement del'utilisateur(loggé ou non)

Personnalisationspar l'utilisateur(Searchwiki)

Interface utilisée(.com, .fr...)

Plusieurs critères concourent la personnalisation des résultats :

Page 10: Les outils de recherche internet

PERSONNALISATION POUR TOUT LE MONDE !

Page 11: Les outils de recherche internet

LES OPERATEURS UTILES AU REFERENCEUR : GOOGLE

Guillemets "

Pour rechercher une chaine de mots

Tiret -

Pour exclure des mots ou sites

Site:

Pour rechercher sur un domaine, un sous-domaine, un répertoire

Filetype:

Pour rechercher un type de fichier donné

Inurl: et allinurl:

Pour rechercher les pages dont l'URL contient une expression

Intitle: et allintitle:

Pour rechercher les pages dont le <title> contient une expression

Link:

Pour recherche des pages pointant vers une URL donnée

Page 12: Les outils de recherche internet

LES OPERATEURS UTILES AU REFERENCEUR : BING

Linkfromdomain:

Pour rechercher les liens sortants d'un domaine

Ip:

Pour rechercher les sites hébergés sur une IP

Inanchor:

Pour rechercher les sites liés avec une ancre donnée