29
Promotion Ranking

Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Embed Size (px)

Citation preview

Page 1: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Promotion Ranking

Page 2: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Défault des Méthodes de ranking

• Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles.

• Exemple : PageRank, HITS

Page 3: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Pourquoi

• Les nouvelles page font partie du « IN » dans le WebGraph. Elles ne possèdent pas de liens qui les référencent.

• Il est donc très difficiles de connaître leurs « qualité ».

• Il faut attendre qu’elles fassent partie du « core » du « WebGraph ». Ceci demande un facteur temps important.

Page 4: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Objectif

• Trouver un moyen d’inclure les nouvelles pages (de qualité) dans les résultats des moteurs de recherches avant qu’elles ne fassent parties du « core » du « WebGraph »

Page 5: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Idée : Rank Promotion

• Promouvoir les pages lointaines de la liste des résultats d’un moteur de recherche

• Pour cela on les fait artificiellement grimper au sommet de la liste.

Résultat 11

Résultat 22

Résultat 33

Résultat 44

Résultat 55

Résultat 66

Résultat 500500

Page 6: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Expérience

• Site Internet dans lequel se trouve plusieurs milliers de pages au contenu amusant ou comique.

• Presque un millier de « surfeurs », qui n’avaient aucune connaissance préalable du sujet d’expérience.

Page 7: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Expérience : pages du site

• Les pages ont été créées dynamiquement à partir d’une base de données contenant des blagues.

• La qualité des pages est le degré de « funniness ».• Des pages contenant des citations ont été ajoutées

pour que l’ensemble des pages du site ait une distribution par PageRank normale. C’est à dire, que la distribution ressemble à celle de n’importe quel autre site Internet.

Page 8: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Expérience : la page principale du site

• La homepage du site présente les blagues et citations à la manière d’une moteur de recherche, par groupe de dix et en ordre descendant de « funniness ».

• Le niveau de « funniness » est établi par les utilisateurs. Ils ont le choix de cliquer sur les boutons « drôle », « neutre » et « pas drôle ».

• Pour limiter la fraude, une fois que l’utilisateur a cliqué sur un bouton, ils disparaissent.

Page 9: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Expérience : les utilisateurs

• La publicité faite pour le site a attiré un total de 962 visiteurs pendant 45 jours.

• Chaque surfeur qui visite le site pour la première fois se voit attribué un numéro de groupe: 1 ou 2.

• Pour le 1er groupe, les blagues sont présentées en ordre descendant de popularité.

• Pour le 2ième groupe, les blagues sont également présentées en ordre descendant de popularité. Mais les pages qui n’ont pas été évaluées sont insérées dans la page principale par Rank Promotion.

Page 10: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Expérience : rotation du contenu

• Pour chaque visiteur, le maximum de pages accessibles est fixé à mille.

• La durée de vie des page est fixée au hasard de 1 à 30 jours.

• Pour simuler un état stationnaire dans lequel chaque page a une durée de vie réelle de 30 jours, chaque page qui disparaît est remplacée par une page de même qualité avec une durée de vie fixée à 30 jours et une popularité de zéro.

Page 11: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Evaluation

• Le site est capable de « monitorer » l’activité de 10% des utilisateurs.

• Ceci permet d’utiliser deux indices pour évaluer les effets du promotion ranking.

• TBP => Time To Become Popular

• QPC => Quality Per Click

Page 12: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

TBP

• Temps que met une page de bonne qualité à devenir populaire dans un moteur de recherche.

• C’est à dire, qu’elle va figurer au début de la liste des résultats pour un mot clef donné.

Page 13: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

QPC

• Mesure la qualité moyenne des pages visionnées par les « surfeurs » sur une grande période de temps.

t

tl Pp

t

tl Pp

t tlpVu

pQtlpVuQPC

0

0

)),((

))(),((lim

Page 14: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

t

tl Pp

t

tl Pp

t tlpVu

pQtlpVuQPC

0

0

)),((

))(),((lim

Qualité intrinsèquede la page « p »

Nombre de visiteursde la page « p » pendant

sa durée de vie « tl »Somme de touteles pages du site

Sur une durée infinie

Normalisation

QPC

Page 15: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Evaluation : Constats

• Le but du du Promotion Ranking est de diminuer TBP et d’augmenter QPC.

• Plus une page est référencée tôt dans un moteur de recherche, plus sa popularité va devenir importante.

• Pour promouvoir une nouvelle page, il faut donc l’insérer au début de la liste des résultats du moteur de recherche.

Page 16: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Promotion Ranking : Méthodes

• Pour le promotion ranking, il existe plusieurs méthodes.

• Ici, il y en a deux :

• 1) Randomized Rank Promotion

• 2) Selective Randomized Rank Promotion.

Page 17: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Randomized Rank Promotion

• Instanciation de 3 listes : L, Ld, et Lp.

• Ld contient l’ensemble des pages de résultats suite à une requête lancée dans un moteur de recherche.

• Lp contient la liste des pages à promouvoir.

• L est la liste finale, présentée à l’utilisateur.

Page 18: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Randomized Rank Promotion suite

• Les k-1 premiers éléments de Ld sont insérés dans L.

• Les k+i éléments de L sont pris soit de Ld, soit de Lp.

• Ce choix dépend de la valeur probabiliste d’une variable aléatoire r.

• Exemple : la variable r peut être le résultat du jet d’une pièce de monnaie (pile ou face).

Page 19: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Selective Randomized Rank Promotion

• Différences avec le modèle précédant :1) Toutes les pages n’ont pas les mêmes chances d’être

choisies. Seul le pages avec une « awareness » de 0 sont promues.

• Méthode :1) Utiliser les informations supplémentaires fournies par

les visiteurs « monitorés » du moteur de recherche.2) Utiliser la relation entre la popularité d’une page et son

nombre attendu de visiteurs.

Page 20: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Selective Randomized Rank Promotion (suite)

• La relation popularité par rapport au nombre de visiteur s’exprime par :

• F2 = nombre de visiteurs attendus.

• F1 = popularité de la page.

xFFxF 12

Page 21: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Selective Randomized Rank Promotion (suite 1)

• F2 est déduite empiriquement par les résultats fournis par le moteur de recherche AltaVista (loi de puissance).

xxF2/3

2

Teta = cte de normalisation

n

i iv

1

2/3 v = nombre de visteurs par unité de temps

Page 22: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Selective Randomized Rank Promotion (suite 2 )

• La popularité F1(x) d’une page s’exprime par la relation :

Pp

m

pQxmi

pQmifxF

/1

1 1

m = nombre d’utilisateurs « monitorés »

Q(p) = Qualité intrinsèque de la page

F1 = 1 + toutes les autres pages dont la popularité surpasse x.

« awareness »

Page 23: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Selective Randomized Rank Promotion (suite 3)

• Formule finale:

z

rkxFrxF

xF

xF,

11min 1

1

1

'1

Si F1(x) < k

Autrement

z = pages avec une « awareness » de zéro

F1 = formule précédente

Page 24: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Selective Randomized Rank Promotion (suite 4 )

• F1 étant une formule approximative :1) On ignore les effets de valeurs proches en popularité. 2) On oublie de compter une page.

• On combine F1 avec la formule suivante, par « curve fitting » (simulation par régression non-linéaire):

xxF logloglog 2

x = popularité de la page

Page 25: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Selective Randomized Rank Promotion (suite 5)

• Question :

• Quelles valeurs faut-il donner à k (point d’entrée dans la liste), r (degré de hasard) et Wp (pages à promouvoir).

• Réponse par simulation

Page 26: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Effet sur TBP

-no promotion

- uniform promotion

- selective promotion

k=1 and r=0.2

Page 27: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Ajustement de k et r

Page 28: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Résultats

0

0.2

0.4

0.6

0.8

1

1E+03 1E+04 1E+05 1E+06

# pages

0

0.2

0.4

0.6

0.8

1

1E+02 1E+04 1E+06

# users

0

0.2

0.4

0.6

0.8

1

0.75 2.25 3.75 5.25

page lifetime

qu

alit

y-p

er-c

lick

0

0.2

0.4

0.6

0.8

1

1E+01 1E+04 1E+07

visit rate

qu

alit

y-p

er-c

lick

(par simulation)

Page 29: Promotion Ranking. Défault des Méthodes de ranking Les pages nouvellement créées ne sont pas tout de suite référencées pas les méthodes de ranking traditionnelles

Résultat final (réel)