27
JL Ferrier Goog le Exemple de fonctionnement d’un moteur

Google

  • Upload
    ban

  • View
    40

  • Download
    0

Embed Size (px)

DESCRIPTION

Google. Exemple de fonctionnement d’un moteur. Que sont les moteurs ?. Les moteurs sont en fait des programmes Le premier fut www worm (w4) 3 ou 4 seulement ont la puissance d’explorer tout le web : Google – AltaVista – Alltheweb – Inktomi - PowerPoint PPT Presentation

Citation preview

Page 1: Google

JL Ferrier

Google

Exemple de fonctionnement d’un

moteur

Page 2: Google

JL Ferrier

Que sont les moteurs ? Les moteurs sont en fait des programmes Le premier fut www worm (w4) 3 ou 4 seulement ont la puissance d’explorer

tout le web : Google – AltaVista – Alltheweb – Inktomi

Microsoft, AOL … travaillent au développement et/ou à l’achat de moteurs

L’annuaire Yahoo a acquis Overture, Fast/Alltheweb, AltaVista, and Inktomi

Page 3: Google

JL Ferrier

Qu’est Google ? Né à l’université de Stanford Googol = 10100. Nombre absurde (il y a

1080 particules dans l’univers). Illustre l’intention d’indexer à très

grande échelle. Basé sur des principes nouveaux à

l’époque pour indexer les pages.

Page 4: Google

JL Ferrier

Indexation - Définition« tortue »

… … …

tortillon … www.dotapea.com/

tortue … www.tortue.com

tortue … www.caramax.com

tortue … universdelulue.free.fr/

tortue ... www.tortuemagique.com

torture ... www.cpt.coe.int/en/

... ... ...

L’index ordonne l’information pour la retrouver très vite.

Structures de données très complexes. Indexation = construction des tables d’index

Page 5: Google

JL Ferrier

Indexation - Principe Les index sont en fait basés sur des

lexiques. Google possédait au départ un lexique

de 14 millions de mots. Google indexe de plus la proximité des

mots dans une matrice.

Page 6: Google

JL Ferrier

Indexation - Principe Une page doit être proposée au robot

pour être indexée (soumission). Les robots « lisent » le contenu et

indexent les mots. Ils suivent les liens, reconstituent le site

et l’indexent. L’indexation est lexicale, et pas

sémantique.

Page 7: Google

JL Ferrier

Page 8: Google

JL Ferrier

Indexation - Principe La balise keywords a été mise en place

pour faciliter le travail d’indexation des robots.

<html><head>

<meta name="Keywords" content="Molière, Moliere, théâtre français, littérature classique, comédie française, French comedy, seventeenth-century France, French playwrights, French literature, illustre théâtre">

</head>

Page 9: Google

JL Ferrier

Indexation - Limite Le détournement des mots-clés. Exemples dans la jurisprudence :

Itineris et SFR. Nombreux « spamdexing » autour des

mots-clés. Le spamdexing marque la limite

définitive des moteurs.

Page 10: Google

JL Ferrier

Principes de Google Ne tient pas compte des mots-clés. Applique une indexation basée sur la

proximité des mots (donc de leur ordre) : http://www.google.fr/search?hl=fr&ie=UTF-8&q=chine+japon http://www.google.fr/search?hl=fr&ie=UTF-8&q=japon+chine

Indexe les liens, pour plusieurs raisons. Introduit la notion de popularité d’un site.

Page 11: Google

JL Ferrier

Abandon des mots-clés

Google préfère le texte dans les balises de titre : <H1>Les menus d’automne</H1>.

Il prend aussi en compte la taille de la police, les caractères gras.

Il considère le texte des liens pointant sur une page comme autant de mots-clés !!!

Page 12: Google

JL Ferrier

Indexation des liens - 1 Le texte des liens est censé remplacer

avantageusement les mots-clés. Exemple sur la daube provençale >> Ceci a une conséquence sur la manière

d’être indexé !!! C’est un moyen de faire du spamdexing

et du « google bombing ».

Page 13: Google

JL Ferrier

Indexation des liens - 2 Comment estimer la POPULARITÉ d’un

site ? Nombre de visites ? Estimable grâce aux log files. Inaccessible pour un moteur. Idée force de Google : bâtir un indice de

popularité basé sur les liens.

Page 14: Google

JL Ferrier

PageRank - 1 Exprime la popularité d’une page en

calculant la manière dont elle est pointée par d’autres pages.

Indice objectif d’inspiration libérale (« le talent finit toujours par être reconnu »).

Incompatible avec d’autres formes de systèmes politiques et/ou économiques.

Google est-il inscrit dans un système libéral ?

Page 15: Google

JL Ferrier

PageRank – 2Chezdede.com

Chez Dédé, Le menu d’automne vous attend avec sa farandole de gibiers et de champignons (…)

Chezmomo.com

Chez Momo, Le menu d’automne vous attend avec sa farandole de poulets bas de gamme et de champignons en boite (…)

Page 16: Google

JL Ferrier

PageRank – 2 PR(Chezdede.com)=7 PR(Chezmomo.com)=1

Menu d'automneChez Dédé, Le menu d’automne vous attend avec sa farandole de gibiers et de champignons…

www.chezdede.com/index.htm - 5k - En cache - Pages similaires [… et bien plus loin, on trouve … ]automneChez Momo, Le menu d’automne vous attend avec sa farandole de poulets bas de gamme et de champignons en boîte …www.chezmomo.com/degueu.htm - 9k - En cache - Pages similaires

Page 17: Google

JL Ferrier

PageRank – 3 Le PR positionne la page dans les

réponses de Google Les liens ne se valent pas tous. Une lien provenant d’une page qui est

très populaire (PR élevé) donne plus de points.

Page 18: Google

JL Ferrier

PageRank – 3

Chezdede.com

Chez Dédé, Le menu d’automne vous attend avec sa farandole de gibiers et de champignons (…)

Bonsplans.com

Trifouilli-les-oies.com

yahoo.com

Page 19: Google

JL Ferrier

PageRank – 3PR(chezdede.com)

=PR(bonsplans.com)+PR(trifouilli-les-oies.com)+PR(yahoo.com)

=1+2+ 474 000

Indice de popularité intéressant. Besoin d’affiner la valeur du « lien »

Page 20: Google

JL Ferrier

PageRank – 4 Les liens ne se valent pas tous. Une page qui n’a qu’un seul lien est

considérée comme étant un référent (authority page)

Une page qui en a beaucoup est un « moyeu » (hub page). Ses liens ont moins de « valeur » (ex des annuaires) car expriment moins la popularité.

Page 21: Google

JL Ferrier

PageRank – 4Cotebleue.com

La côte bleue vous attend en toute occasion (…)

Le meilleur resto de la côte >>

Rendez-vous est pris avec tous les motards dès que (….)

Chezdede.com

Chez Dédé, Le menu d’automne vous attend avec sa farandole de gibiers et de champignons (…)

TousLesRestos.com

Chez Marcel >>

Chez Dédé >>

Chez Totoche >>

Le rendez-vous de la Méduse >>

Page 22: Google

JL Ferrier

PageRank – 4 C(cotebleue.com)=1 C(touslesrestos.com)=4 Fonction C() : donne le nombre de liens

pointés par une page. PR(Chezdede.com)

=PR(cotebleue.com)/ C(cotebleue.com)

+ PR(touslesrestos.com)/ C(touslesrestos.com)

Page 23: Google

JL Ferrier

PageRank – 4Soit une page A ayant N liens pointant vers elle, provenant de N pages. Le page rank de A vaut :

N

i i

i

TCTPRddAPR

1 )()()1()(

La valeur de d (coef d’amortissement) est de 0,85

Page 24: Google

JL Ferrier

Explication intuitive

Le PageRank peut se voir comme une loi de probabilité.

Un internaute clique au hasard et suit les liens sans revenir en arrière, mais peut zapper sur une autre page.

Le PR est la probabilité qu’il tombe sur la page en question

Page 25: Google

JL Ferrier

Connaître le PR

Par une recherche link: Par la Google ToolBar (attention elle

affiche TAF : quel est le réel intérêt de la

Google ToolBar ?

)(log10 PR

Page 26: Google

JL Ferrier

It’s non sense ! Les failles des moteurs tels que Google sont

liés à l’absence de traitement sémantique des contenus informationnels

Cette carence est comblée partiellement par le programme adwords.

Google intégrera des technos à base d’ontologies.

L’idée est de comprendre la requête de l’internaute, de lui apporter les BONS résultats.

Page 27: Google

JL Ferrier

Biblio Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd « The PageRank

Citation Ranking: Bringing Order to the Web », Stanford Digital Library Technologies Project 1998

Sergey Brin and Lawrence Page, "The anatomy of a large-scale hypertextual search engine", in Computer Networks and ISDN Systems, vol 30,1998.

Junghoo Cho, Hector Garcia-Molina, « Synchronizing a database to Improve Freshness » Stanford Press (2000)