Les moteurs de recherche Paul de Theux. Sommaire Google: leader presque incontesté Fonctionnement...

Preview:

Citation preview

Les moteurs de recherche

Paul de Theux QuickTime™ et undécompresseur

sont requis pour visionner cette image.

Sommaire

• Google: leader presque incontesté

• Fonctionnement

• Syntaxe

• Limites

Domination de Google en France

Moindre aux Etats-Unis

Google ne domine pas partout

Pays où Google

n’est pas leader:

- Chine

- Russie

- République tchèque

Google ne domine pas partout

Pays où Google n’est pas leader:

- Japon

- Corée du Sud

QuickTime™ et undécompresseur

sont requis pour visionner cette image.

Les japonais préfèrent les portails

Les Coréens préfèrent questions-réponses

Fonctionnement des moteurs de recherche

Fonctionnement simplifié

• Trois composants d ’un moteur– Le « spider » (fouineur) qui référence les sites

– L ’« index », qui organise les informations collectées

– Le « moteur » proprement dit, qui répond aux requêtes

Spider

Moteur

Index

Fonctionnement plus détaillé

QuickTime™ et undécompresseur

sont requis pour visionner cette image.

Traces de la base de données: le cache

Le classement

• C’est le défi de tous les moteurs de recherche. Google se base sur de multiples critères dont:

• la présence du mot dans la page

• le pagerank, c’est à dire la popularité de la page

La popularité est un critère de satisfaction mais aussi de nivellement

Principe du Pagerank

Une multitude de petits sites (verts) à faible PR vont mettre un lien vers un autre site (bleu) qui verra son PR augmenter.

Un site à fort Pagerank (jaune) possède des liens provenant vers des sites à faible, moyen et fort Pagerank.

Un site peut posséder un Pagerank important, alors qu’un seul lien mène à lui.

QuickTime™ et undécompresseur

sont requis pour visionner cette image.

• Pagerank: valeur (ou score) proportionnelle au nombre de fois que passerait par cette page un utilisateur parcourant le graphe du Web en cliquant aléatoirement

Problème du Pagerank

• Les résultats se modifient de temps à autre, ce qui provoque la colère du secteur

• Le Pagerank, trop complexe, serait remplacé par un Pagerank allégé, moins précis

• Google lutte contre la triche, sans détailler ses méthodes

• Bref: manque de transparence

Comment faire les requêtes

• Utiliser plusieurs mots; l’ordre des mots est important

• Utiliser les guillemets pour obtenir une expression exacte

• Éliminer certains mots en utilisant le -

• Utiliser la recherche avancée

Note: 1000 liens maximum…

Les limites

• Il est impossible de tout indexer:- pages dynamiques qui se renouvellent

constamment- Bases de données accesibles avec des outils

spécfiques- etc

Google a mis en place les « actualités » pour coller à l’évolution de l’information

Comparer les moteurs

• Exemple: seeky http://www.seeky.net/

QuickTime™ et undécompresseur

sont requis pour visionner cette image.

Les métamoteurs

• Des outils qui utilisent les moteurs existants

• Limites: les syntaxes et le classement ne concordent pas

Pour en savoir plus ? Abondance.com ?

• Une entreprise spécialisée dans le référencement

• Des informations synthétiques gratuites

• Une newletter pour le grand public

Comment référencer un site dans un travail

• L’auteur, le titre, l’adresse URL, la date de mise à jour ou de consultation

• Exemple: Gingras François-Pierre, Comment citer des

sources sur Internet dans un travail scientifique, http://aix1.uottawa.ca/~fgingras/metho/citation.html, mis à jour le 24 septembre 1999.

L’auteur

• Pas toujours facile à déterminer

• De nombreuses pages ne sont pas signées

• Beaucoup de pages institutionnelles

Le titre

• Titre de la fenêtre ou de la page ?– Exemple:

Adresse URL

• Sans ou avec http:// (utile pour cliquer sur le lien)

• Problème des sites n’utilisant qu’une adresse

La date

• Date de mise à jour: pas toujours présente ou exacte

• Date de consultation: repère imprécis

• Choisir la moins mauvaise solution

Les six thématiques

Producteurs

Publics

Langages

Technologies

Représentations

Typologies

= qui, pourquoi, quand, où

= quoi, pourquoi

= comment

= pourquoi, pour qui

= comment

Analyse critique de sites

http://users.skynet.be/ameurant/francinfo/validite/index.html

Recommended