View
40
Download
0
Category
Preview:
DESCRIPTION
Google. Exemple de fonctionnement d’un moteur. Que sont les moteurs ?. Les moteurs sont en fait des programmes Le premier fut www worm (w4) 3 ou 4 seulement ont la puissance d’explorer tout le web : Google – AltaVista – Alltheweb – Inktomi - PowerPoint PPT Presentation
Citation preview
JL Ferrier
Exemple de fonctionnement d’un
moteur
JL Ferrier
Que sont les moteurs ? Les moteurs sont en fait des programmes Le premier fut www worm (w4) 3 ou 4 seulement ont la puissance d’explorer
tout le web : Google – AltaVista – Alltheweb – Inktomi
Microsoft, AOL … travaillent au développement et/ou à l’achat de moteurs
L’annuaire Yahoo a acquis Overture, Fast/Alltheweb, AltaVista, and Inktomi
JL Ferrier
Qu’est Google ? Né à l’université de Stanford Googol = 10100. Nombre absurde (il y a
1080 particules dans l’univers). Illustre l’intention d’indexer à très
grande échelle. Basé sur des principes nouveaux à
l’époque pour indexer les pages.
JL Ferrier
Indexation - Définition« tortue »
… … …
tortillon … www.dotapea.com/
tortue … www.tortue.com
tortue … www.caramax.com
tortue … universdelulue.free.fr/
tortue ... www.tortuemagique.com
torture ... www.cpt.coe.int/en/
... ... ...
L’index ordonne l’information pour la retrouver très vite.
Structures de données très complexes. Indexation = construction des tables d’index
JL Ferrier
Indexation - Principe Les index sont en fait basés sur des
lexiques. Google possédait au départ un lexique
de 14 millions de mots. Google indexe de plus la proximité des
mots dans une matrice.
JL Ferrier
Indexation - Principe Une page doit être proposée au robot
pour être indexée (soumission). Les robots « lisent » le contenu et
indexent les mots. Ils suivent les liens, reconstituent le site
et l’indexent. L’indexation est lexicale, et pas
sémantique.
JL Ferrier
JL Ferrier
Indexation - Principe La balise keywords a été mise en place
pour faciliter le travail d’indexation des robots.
<html><head>
<meta name="Keywords" content="Molière, Moliere, théâtre français, littérature classique, comédie française, French comedy, seventeenth-century France, French playwrights, French literature, illustre théâtre">
</head>
JL Ferrier
Indexation - Limite Le détournement des mots-clés. Exemples dans la jurisprudence :
Itineris et SFR. Nombreux « spamdexing » autour des
mots-clés. Le spamdexing marque la limite
définitive des moteurs.
JL Ferrier
Principes de Google Ne tient pas compte des mots-clés. Applique une indexation basée sur la
proximité des mots (donc de leur ordre) : http://www.google.fr/search?hl=fr&ie=UTF-8&q=chine+japon http://www.google.fr/search?hl=fr&ie=UTF-8&q=japon+chine
Indexe les liens, pour plusieurs raisons. Introduit la notion de popularité d’un site.
JL Ferrier
Abandon des mots-clés
Google préfère le texte dans les balises de titre : <H1>Les menus d’automne</H1>.
Il prend aussi en compte la taille de la police, les caractères gras.
Il considère le texte des liens pointant sur une page comme autant de mots-clés !!!
JL Ferrier
Indexation des liens - 1 Le texte des liens est censé remplacer
avantageusement les mots-clés. Exemple sur la daube provençale >> Ceci a une conséquence sur la manière
d’être indexé !!! C’est un moyen de faire du spamdexing
et du « google bombing ».
JL Ferrier
Indexation des liens - 2 Comment estimer la POPULARITÉ d’un
site ? Nombre de visites ? Estimable grâce aux log files. Inaccessible pour un moteur. Idée force de Google : bâtir un indice de
popularité basé sur les liens.
JL Ferrier
PageRank - 1 Exprime la popularité d’une page en
calculant la manière dont elle est pointée par d’autres pages.
Indice objectif d’inspiration libérale (« le talent finit toujours par être reconnu »).
Incompatible avec d’autres formes de systèmes politiques et/ou économiques.
Google est-il inscrit dans un système libéral ?
JL Ferrier
PageRank – 2Chezdede.com
Chez Dédé, Le menu d’automne vous attend avec sa farandole de gibiers et de champignons (…)
Chezmomo.com
Chez Momo, Le menu d’automne vous attend avec sa farandole de poulets bas de gamme et de champignons en boite (…)
JL Ferrier
PageRank – 2 PR(Chezdede.com)=7 PR(Chezmomo.com)=1
Menu d'automneChez Dédé, Le menu d’automne vous attend avec sa farandole de gibiers et de champignons…
www.chezdede.com/index.htm - 5k - En cache - Pages similaires [… et bien plus loin, on trouve … ]automneChez Momo, Le menu d’automne vous attend avec sa farandole de poulets bas de gamme et de champignons en boîte …www.chezmomo.com/degueu.htm - 9k - En cache - Pages similaires
JL Ferrier
PageRank – 3 Le PR positionne la page dans les
réponses de Google Les liens ne se valent pas tous. Une lien provenant d’une page qui est
très populaire (PR élevé) donne plus de points.
JL Ferrier
PageRank – 3
Chezdede.com
Chez Dédé, Le menu d’automne vous attend avec sa farandole de gibiers et de champignons (…)
Bonsplans.com
Trifouilli-les-oies.com
yahoo.com
JL Ferrier
PageRank – 3PR(chezdede.com)
=PR(bonsplans.com)+PR(trifouilli-les-oies.com)+PR(yahoo.com)
=1+2+ 474 000
Indice de popularité intéressant. Besoin d’affiner la valeur du « lien »
JL Ferrier
PageRank – 4 Les liens ne se valent pas tous. Une page qui n’a qu’un seul lien est
considérée comme étant un référent (authority page)
Une page qui en a beaucoup est un « moyeu » (hub page). Ses liens ont moins de « valeur » (ex des annuaires) car expriment moins la popularité.
JL Ferrier
PageRank – 4Cotebleue.com
La côte bleue vous attend en toute occasion (…)
Le meilleur resto de la côte >>
Rendez-vous est pris avec tous les motards dès que (….)
Chezdede.com
Chez Dédé, Le menu d’automne vous attend avec sa farandole de gibiers et de champignons (…)
TousLesRestos.com
Chez Marcel >>
Chez Dédé >>
Chez Totoche >>
Le rendez-vous de la Méduse >>
JL Ferrier
PageRank – 4 C(cotebleue.com)=1 C(touslesrestos.com)=4 Fonction C() : donne le nombre de liens
pointés par une page. PR(Chezdede.com)
=PR(cotebleue.com)/ C(cotebleue.com)
+ PR(touslesrestos.com)/ C(touslesrestos.com)
JL Ferrier
PageRank – 4Soit une page A ayant N liens pointant vers elle, provenant de N pages. Le page rank de A vaut :
N
i i
i
TCTPRddAPR
1 )()()1()(
La valeur de d (coef d’amortissement) est de 0,85
JL Ferrier
Explication intuitive
Le PageRank peut se voir comme une loi de probabilité.
Un internaute clique au hasard et suit les liens sans revenir en arrière, mais peut zapper sur une autre page.
Le PR est la probabilité qu’il tombe sur la page en question
JL Ferrier
Connaître le PR
Par une recherche link: Par la Google ToolBar (attention elle
affiche TAF : quel est le réel intérêt de la
Google ToolBar ?
)(log10 PR
JL Ferrier
It’s non sense ! Les failles des moteurs tels que Google sont
liés à l’absence de traitement sémantique des contenus informationnels
Cette carence est comblée partiellement par le programme adwords.
Google intégrera des technos à base d’ontologies.
L’idée est de comprendre la requête de l’internaute, de lui apporter les BONS résultats.
JL Ferrier
Biblio Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd « The PageRank
Citation Ranking: Bringing Order to the Web », Stanford Digital Library Technologies Project 1998
Sergey Brin and Lawrence Page, "The anatomy of a large-scale hypertextual search engine", in Computer Networks and ISDN Systems, vol 30,1998.
Junghoo Cho, Hector Garcia-Molina, « Synchronizing a database to Improve Freshness » Stanford Press (2000)
Recommended