LES OUTILS DE RECHERCHE
TYPOLOGIE DES OUTILS DE RECHERCHE : MOTEURS ET ANNUAIRES
Moteurs- Gestion automatisée- Entrée par indexation- Tout le web a vocation à être indexé- Tout le contenu des pages est indexé- Navigation par requêtes
Annuaires- Gestion humaine- Entrée par soumission- Des choix éditoriaux sont faits- Seules les références aux sites sont indexées- Navigation arborescente (recherche possible)
FONCTIONNEMENT D'UN MOTEUR DE RECHERCHE (VERSION SIMPLE)
Index
Moteurde recherche
IndexeurWeb
FONCTIONNEMENT D'UN MOTEUR (VERSION MOINS SIMPLE)
Web
CrawlersServeur d'URLs Serveur tampon
DépôtIndexeur
Dicte les URLs à crawler Indexent, envoient le contenu des pages
Compresse, numérote et envoie
Décompresse, parse
Résolveur d'URLsAncres
Silos
Stocke les liens et ancres associées
Convertit les URLs en URLs absolues, et lie les documents entre eux
Liens Index des documents
Pagerank
Trieur
Moteur de recherche
LexiqueTrie le contenu des silos et produit un index inversé
Répond aux requêtes des utilisateurs
Contient une copie de chaque page HTML indexée (cache)
Stocke une cartographie du web
Répertories l'ensemble des documents indexés(index direct)
SilosSilosMaintient une correspondance mots / documents (index inversé)
(Schema basé sur l'article « The Anatomy of a Large-Scale Hypertextual Web Search Engine », par Sergey Brin et Lawrence Page)
COMMENT PENSE UN MOTEUR ?
Juger de la pertinence d'une page web, c'est un peu comme juger du contenu d'un livre dans une bibliothèque :
Contenu Titre4ème de couvertureTable des matièreContenu général
Balise <title>Balise <meta> descriptionTitraille (balises <h1> à <h6>)Ensemble des textes
Structure Lisibilité Accessibilité technique et structuration
Popularité Recommandations Quantité, qualité et teneur des liens entrants
ANATOMIE GENERALE D'UNE PAGE DE RESULTATS
Résultats « Onebox »
Résultats naturels
Liens sponsorisés
ELEMENTS D'INTERFACE GOOGLE
- Déterminés algorithmiquement- Jusque 8 éléments
Sitelinks
Classic sitelinks
Jumplinks
Résultats indentés
Hiérarchie de site- Déterminés algorithmiquement- Jusque 4 éléments
- Contextuels- Basés sur les ancres
- Contextuels
- Basées sur les fils d'ariane des sites
RECHERCHE UNIVERSELLE
Objectif : « faire tomber les silos de l'information qui existent sur le web » (Marissa Mayer, 16/05/07)
Actualités
Pages web
Billets de blogs
Images
Vidéos
PERSONNALISATION DES RESULTATS DE RECHERCHE
Localisation de l'utilisateur(IP, langue du navigateur)
Comportement del'utilisateur(loggé ou non)
Personnalisationspar l'utilisateur(Searchwiki)
Interface utilisée(.com, .fr...)
Plusieurs critères concourent la personnalisation des résultats :
PERSONNALISATION POUR TOUT LE MONDE !
LES OPERATEURS UTILES AU REFERENCEUR : GOOGLE
Guillemets "
Pour rechercher une chaine de mots
Tiret -
Pour exclure des mots ou sites
Site:
Pour rechercher sur un domaine, un sous-domaine, un répertoire
Filetype:
Pour rechercher un type de fichier donné
Inurl: et allinurl:
Pour rechercher les pages dont l'URL contient une expression
Intitle: et allintitle:
Pour rechercher les pages dont le <title> contient une expression
Link:
Pour recherche des pages pointant vers une URL donnée
LES OPERATEURS UTILES AU REFERENCEUR : BING
Linkfromdomain:
Pour rechercher les liens sortants d'un domaine
Ip:
Pour rechercher les sites hébergés sur une IP
Inanchor:
Pour rechercher les sites liés avec une ancre donnée