31
Le rôle des mesures de similarité Le rôle des mesures de similarité dans l'algorithme de Google dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition Président de l’association SEOCamp

Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

Embed Size (px)

Citation preview

Page 1: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

Le rôle des mesures de similarité Le rôle des mesures de similarité dans l'algorithme de Googledans l'algorithme de GoogleSEO Camp BRUXELLES du 29 novembre 2008

Philippe YONNETDirecteur du pôle métiers – ApositionPrésident de l’association SEOCamp

Page 2: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

L'association SEO CampL'association SEO Camp

Née d'une initiative d'Alexandre Villeneuve et David Degrelle en décembre 2007

Constituée en mars 2008

Uniquement des membres personnes physiques

85 cotisants – 225 sympathisants

Page 3: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

L'association SEO Camp : les membresL'association SEO Camp : les membres

Amateurs passionnés par le référencement

Salariés d'agences spécialisées ou d'agences horizontales

Indépendants – free lance Webmasters Référenceurs in house

Page 4: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

L'association SEO Camp : les activitésL'association SEO Camp : les activités

Organiser des rencontres conviviales◦ "SEO Camp", Repas, Apéros SEO Camp

Page 5: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

L'association SEO Camp : les activitésL'association SEO Camp : les activités

◦ Les évènements précédemment organisés

◦ Paris◦ Toulouse◦ Marseille◦ Nantes

Page 6: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

L'association SEO Camp : L'association SEO Camp : l'emploi et la formationl'emploi et la formation

Matinales de l’APEC

Etude sur l’emploi dans le référencement

Page 7: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

L'association SEO Camp : L'association SEO Camp : promotion de la professionpromotion de la profession

Interventions dans les évènements destinés aux webmasters(salons emarketing, ecommerce)

Articles dans la presse économique

Projet de certification et de formation

SEO Campus

Page 8: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

Algorithmes de classement :Algorithmes de classement :Les grands principes Les grands principes

1. La pertinence : notion fondamentale2. La recherche full text à l’aide des opérateurs booléens3. Comment classer les pages ?4. Comment mesurer le poids des termes5. Utilisation d’une mesure de similarité : le poids des

termes6. L’apport et le rôle exact du pagerank7. Conclusion

Page 9: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

La question de la pertinenceLa question de la pertinence

Page 10: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

La pertinenceLa pertinence

Une notion intimement liée au jugement de l’utilisateur

Il existe un « socle commun » des critères d’appréciation deLa pertinence

Page 11: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

Focus sur l'indexationFocus sur l'indexation

Page 12: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

RECHERCHE CLASSIQUEDANS UN INDEX INVERSE

Chercher dans l’index inversé : “extraction”

1 0.66611 report1 0.71866 algebraic1 1.00000 international1 0.86409 preliminary1 0.40147 language2 0.47467 computers2 0.90061 repeated2 0.49718 digital2 0.66983 roots2 1.00000 subtractions2 0.84247 extraction3 0.51141 techniques

La recherche "full text"La recherche "full text"

Trouvé ici !Document numéro 2

Page 13: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

Nombre d’occurrences du terme dans la page :

Comment classer les pages : première idéeComment classer les pages : première idée

ExtractionExtraction

Extraction

Extraction

Extraction

Extraction

Extraction

Extraction

Poids = 1 Poids = 3

Page 14: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

Comment classer les pages : première idéeComment classer les pages : première idée

AJOUT DE CRITERESPOUR AMELIORER LA PERTINENCE

<TITLE> ...<H1><H2><strong> ...<TABLE><DIV> ...Alt, title, <a href>, anchor textproximité...

Page 15: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

Problème : les documents ne contiennent pas le même nombre de mots

Comment classer les pages : première idéeComment classer les pages : première idée

Extraction

100 mots

Extraction

100 mots

Extraction

Extraction

Extraction

1000 mots

Extraction

Extraction

Extraction

1000 mots

Poids du terme = fréquence = « densité du mot clé »

Critère de poids retenu : nombre d’occurrences

divisé par le nombre de mots du document

Poids = 0,01 Poids = 0,003

Page 16: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

Problème : les mots n’ont pas la même fréquence d’apparition

dans la langue

Comment classer les pages : première idéeComment classer les pages : première idée

Combien de pages contiennent le mot clé internet d’après Google ?

2 110 000 000

Combien de pages contiennent le mot clé globicéphale d’après Google ?

9 530

Page 17: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

tf*idf

tf = fréquence des termes dans le document

idf = inverse du nombre de documents dans lequel le terme est présent

Vers un meilleur critère de poidsVers un meilleur critère de poids

Page 18: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

CALCULER LE POIDS D’UN TERME DANS UN DOCUMENT

tf*idfExemple de formule réellement utilisée

Le principe du Cosinus de SaltonLe principe du Cosinus de Salton

Page 19: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

Exemple de calcul sans et avec tf*idfExemple de calcul sans et avec tf*idf

Internet

Internet

Internet

1000 mots

Internet

Internet

Internet

1000 mots

Globicéphale

1000 mots

Globicéphale

1000 mots

Densité 3 pour mille Densité 1 pour mille

Page 20: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

Exemple de calcul sans et avec tf*idfExemple de calcul sans et avec tf*idf

Internet

Internet

Internet

1000 mots

Internet

Internet

Internet

1000 mots

Globicéphale

1000 mots

Globicéphale

1000 motsIndex de Google20 milliards de pages(?)

10^9 pages

DF[internet] =

2 x 10^9 / 20 x 10^9 = 0,1

DF[globicephale] =

10^4 / 20 x 10^9 = 5 x 10^-7

Page 21: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

Exemple de calcul sans et avec tf*idf (simplifié)Exemple de calcul sans et avec tf*idf (simplifié)

Internet

Internet

Internet

1000 mots

Internet

Internet

Internet

1000 mots

Globicéphale

1000 mots

Globicéphale

1000 motsIndex de Google20 milliards de pages(?)

10^9 pages

TF*iDF[internet] =

0,003 / 0,1 = 0,03

TF*iDF[globicephale] =

0,001/5 x 10^7= 2000 !

2000 >>>> 0,03

Page 22: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

Pourquoi il faut abandonnerPourquoi il faut abandonner la densité de mots clés la densité de mots clés

C’est un critère qui n’est plus utilisé par les outils de recherche

Pertinent que pour les requêtes à un seul terme

Induit le « keyword stuffing » facilement détectable

Page 23: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

Focus sur les critères de qualité d'un moteurFocus sur les critères de qualité d'un moteur

Bruit et silence : mesurer la qualité d’un moteur

Page 24: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

La recherche booléenne et ses défautsLa recherche booléenne et ses défauts

Page 25: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

Les documents proches dans l’espaceont un contenu similaire

Documents dans un espace à 3 dimensions :

Le principe du Cosinus de SaltonLe principe du Cosinus de Salton

Page 26: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

Le principe du Cosinus de SaltonLe principe du Cosinus de Salton

• Tout document peut être situé dans l’espace vectoriel de Salton, par un vecteur de coordonnées sur les axes correspondant à chaque terme de l’index

Page 27: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

Le principe du Cosinus de SaltonLe principe du Cosinus de Salton

Une requête est un document composé de quelques termes uniquement. Elle a donc aussi des coordonnées dans l’espace de Salton

Page 28: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

Le principe du Cosinus de SaltonLe principe du Cosinus de Salton

Un calcul de distance (cosinus) entre la requête et les documents permet de classer les pages en fonction de leur proximité sémantique avec la requête…

Page 29: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

Le principe du Cosinus de SaltonLe principe du Cosinus de Salton

Page 30: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

En réalité, il y’a autant de dimensions que de “termes”C’est un espace à n dimensions

Le principe du Cosinus de SaltonLe principe du Cosinus de Salton

Page 31: Le rôle des mesures de similarité dans l'algorithme de Google SEO Camp BRUXELLES du 29 novembre 2008 Philippe YONNET Directeur du pôle métiers – Aposition

Les bases théoriques de l’alignement Les bases théoriques de l’alignement sémantiquesémantique

L’alignement sémantique consiste à changer le contenu textuel des pages pour les « orienter » comme la requête