Analyse des moteurs de recherche Paul de Theux. Sommaire Google: leader presque incontesté...

Preview:

Citation preview

Analyse des moteurs de recherche

Paul de Theux QuickTime™ et undécompresseur

sont requis pour visionner cette image.

Sommaire

• Google: leader presque incontesté• Fonctionnement• Syntaxe• Limites

Domination de Google en France

2010

Moindre aux Etats-Unis

Google ne domine pas partout

Google ne domine pas partout

Pays où Google

n’est pas leader:- Chine- Russie

QuickTime™ et undécompresseur

sont requis pour visionner cette image.

QuickTime™ et undécompresseur

sont requis pour visionner cette image.

Les (autorités) chinois(es) favorisent les outils nationaux

Google ne domine pas partout

Pays où Google n’est pas leader:- Japon- Corée du Sud

QuickTime™ et undécompresseur

sont requis pour visionner cette image.

QuickTime™ et undécompresseur

sont requis pour visionner cette image.

Les japonais préfèrent les portails

Les Coréens préfèrent questions-réponses

Fonctionnement des moteurs de recherche

Fonctionnement simplifié

• Trois composants d ’un moteur– Le « spider » (fouineur) qui référence les sites

– L ’« index », qui organise les informations collectées

– Le « moteur » proprement dit, qui répond aux requêtes

Spider

Moteur

Index

Fonctionnement plus détaillé

QuickTime™ et undécompresseur

sont requis pour visionner cette image.

Traces de la base de données: le cache

Le classement

• C’est le défi de tous les moteurs de recherche. Google se base sur de multiples critères dont:

• la présence du mot dans la page• le pagerank, c’est à dire la popularité de la page

La popularité est un critère de satisfaction mais aussi de nivellement

Principe du Pagerank

Une multitude de petits sites (verts) à faible PR vont mettre un lien vers un autre site (bleu) qui verra son PR augmenter.

Un site à fort Pagerank (jaune) possède des liens provenant vers des sites à faible, moyen et fort Pagerank.

Un site peut posséder un Pagerank important, alors qu’un seul lien mène à lui.

QuickTime™ et undécompresseur

sont requis pour visionner cette image.

• Pagerank: valeur (ou score) proportionnelle au nombre de fois que passerait par cette page un utilisateur parcourant le web en cliquant aléatoirement

Problème du Pagerank

• Les résultats se modifient de temps à autre, ce qui provoque la colère du secteur

• Le Pagerank, trop complexe, serait remplacé par un Pagerank allégé, moins précis

• Google lutte contre la triche, sans détailler ses méthodes

• Bref: manque de transparence

Comment faire les requêtes

• Utiliser plusieurs mots; l’ordre des mots est important

• Utiliser les guillemets pour obtenir une expression exacte

• Éliminer certains mots en utilisant le -• Utiliser la recherche avancée

Note: 1000 liens maximum…

Les limites

• Il est impossible de tout indexer:- pages dynamiques qui se renouvellent

constamment- Bases de données accessibles avec des outils

spécifiques- etc

Google a mis en place les « actualités » pour coller à l’évolution de l’information

Les usages

Les usages

Les usages

Pour en savoir plus ? Abondance.com ?

• Une entreprise spécialisée dans le référencement

• Des informations synthétiques gratuites

• Une newletter pour le grand public QuickTime™ et un

décompresseur sont requis pour visionner cette image.

Comment référencer un site dans un travail

• L’auteur, le titre, l’adresse URL et éventuellement la date de mise à jour ou de consultation

• Exemple: Gingras François-Pierre, Comment citer des

sources sur Internet dans un travail scientifique, http://aix1.uottawa.ca/~fgingras/metho/citation.html, mis à jour le 21 mars 2005.

L’auteur

• Pas toujours facile à déterminer• De nombreuses pages ne sont pas signées• Beaucoup de pages institutionnelles

Le titre

• Titre de la fenêtre ou de la page ?– Exemple:

Adresse URL

• Sans ou avec http://• Problème des sites n’utilisant qu’une

adresse. Il faut alors mentionner les rubriques.

La date

• Date de mise à jour: pas toujours présente ou exacte

• Date de consultation: repère imprécis• Choisir la moins mauvaise solution

Recommended