View
109
Download
2
Category
Preview:
Citation preview
Le rôle des mesures de similarité Le rôle des mesures de similarité dans l'algorithme de Googledans l'algorithme de GoogleSEO Camp BRUXELLES du 29 novembre 2008
Philippe YONNETDirecteur du pôle métiers – ApositionPrésident de l’association SEOCamp
L'association SEO CampL'association SEO Camp
Née d'une initiative d'Alexandre Villeneuve et David Degrelle en décembre 2007
Constituée en mars 2008
Uniquement des membres personnes physiques
85 cotisants – 225 sympathisants
L'association SEO Camp : les membresL'association SEO Camp : les membres
Amateurs passionnés par le référencement
Salariés d'agences spécialisées ou d'agences horizontales
Indépendants – free lance Webmasters Référenceurs in house
L'association SEO Camp : les activitésL'association SEO Camp : les activités
Organiser des rencontres conviviales◦ "SEO Camp", Repas, Apéros SEO Camp
L'association SEO Camp : les activitésL'association SEO Camp : les activités
◦ Les évènements précédemment organisés
◦ Paris◦ Toulouse◦ Marseille◦ Nantes
L'association SEO Camp : L'association SEO Camp : l'emploi et la formationl'emploi et la formation
Matinales de l’APEC
Etude sur l’emploi dans le référencement
L'association SEO Camp : L'association SEO Camp : promotion de la professionpromotion de la profession
Interventions dans les évènements destinés aux webmasters(salons emarketing, ecommerce)
Articles dans la presse économique
Projet de certification et de formation
SEO Campus
Algorithmes de classement :Algorithmes de classement :Les grands principes Les grands principes
1. La pertinence : notion fondamentale2. La recherche full text à l’aide des opérateurs booléens3. Comment classer les pages ?4. Comment mesurer le poids des termes5. Utilisation d’une mesure de similarité : le poids des
termes6. L’apport et le rôle exact du pagerank7. Conclusion
La question de la pertinenceLa question de la pertinence
La pertinenceLa pertinence
Une notion intimement liée au jugement de l’utilisateur
Il existe un « socle commun » des critères d’appréciation deLa pertinence
Focus sur l'indexationFocus sur l'indexation
RECHERCHE CLASSIQUEDANS UN INDEX INVERSE
Chercher dans l’index inversé : “extraction”
1 0.66611 report1 0.71866 algebraic1 1.00000 international1 0.86409 preliminary1 0.40147 language2 0.47467 computers2 0.90061 repeated2 0.49718 digital2 0.66983 roots2 1.00000 subtractions2 0.84247 extraction3 0.51141 techniques
La recherche "full text"La recherche "full text"
Trouvé ici !Document numéro 2
Nombre d’occurrences du terme dans la page :
Comment classer les pages : première idéeComment classer les pages : première idée
ExtractionExtraction
Extraction
Extraction
Extraction
Extraction
Extraction
Extraction
Poids = 1 Poids = 3
Comment classer les pages : première idéeComment classer les pages : première idée
AJOUT DE CRITERESPOUR AMELIORER LA PERTINENCE
<TITLE> ...<H1><H2><strong> ...<TABLE><DIV> ...Alt, title, <a href>, anchor textproximité...
Problème : les documents ne contiennent pas le même nombre de mots
Comment classer les pages : première idéeComment classer les pages : première idée
Extraction
100 mots
Extraction
100 mots
Extraction
Extraction
Extraction
1000 mots
Extraction
Extraction
Extraction
1000 mots
Poids du terme = fréquence = « densité du mot clé »
Critère de poids retenu : nombre d’occurrences
divisé par le nombre de mots du document
Poids = 0,01 Poids = 0,003
Problème : les mots n’ont pas la même fréquence d’apparition
dans la langue
Comment classer les pages : première idéeComment classer les pages : première idée
Combien de pages contiennent le mot clé internet d’après Google ?
2 110 000 000
Combien de pages contiennent le mot clé globicéphale d’après Google ?
9 530
tf*idf
tf = fréquence des termes dans le document
idf = inverse du nombre de documents dans lequel le terme est présent
Vers un meilleur critère de poidsVers un meilleur critère de poids
CALCULER LE POIDS D’UN TERME DANS UN DOCUMENT
tf*idfExemple de formule réellement utilisée
Le principe du Cosinus de SaltonLe principe du Cosinus de Salton
Exemple de calcul sans et avec tf*idfExemple de calcul sans et avec tf*idf
Internet
Internet
Internet
1000 mots
Internet
Internet
Internet
1000 mots
Globicéphale
1000 mots
Globicéphale
1000 mots
Densité 3 pour mille Densité 1 pour mille
Exemple de calcul sans et avec tf*idfExemple de calcul sans et avec tf*idf
Internet
Internet
Internet
1000 mots
Internet
Internet
Internet
1000 mots
Globicéphale
1000 mots
Globicéphale
1000 motsIndex de Google20 milliards de pages(?)
10^9 pages
DF[internet] =
2 x 10^9 / 20 x 10^9 = 0,1
DF[globicephale] =
10^4 / 20 x 10^9 = 5 x 10^-7
Exemple de calcul sans et avec tf*idf (simplifié)Exemple de calcul sans et avec tf*idf (simplifié)
Internet
Internet
Internet
1000 mots
Internet
Internet
Internet
1000 mots
Globicéphale
1000 mots
Globicéphale
1000 motsIndex de Google20 milliards de pages(?)
10^9 pages
TF*iDF[internet] =
0,003 / 0,1 = 0,03
TF*iDF[globicephale] =
0,001/5 x 10^7= 2000 !
2000 >>>> 0,03
Pourquoi il faut abandonnerPourquoi il faut abandonner la densité de mots clés la densité de mots clés
C’est un critère qui n’est plus utilisé par les outils de recherche
Pertinent que pour les requêtes à un seul terme
Induit le « keyword stuffing » facilement détectable
Focus sur les critères de qualité d'un moteurFocus sur les critères de qualité d'un moteur
Bruit et silence : mesurer la qualité d’un moteur
La recherche booléenne et ses défautsLa recherche booléenne et ses défauts
Les documents proches dans l’espaceont un contenu similaire
Documents dans un espace à 3 dimensions :
Le principe du Cosinus de SaltonLe principe du Cosinus de Salton
Le principe du Cosinus de SaltonLe principe du Cosinus de Salton
• Tout document peut être situé dans l’espace vectoriel de Salton, par un vecteur de coordonnées sur les axes correspondant à chaque terme de l’index
Le principe du Cosinus de SaltonLe principe du Cosinus de Salton
Une requête est un document composé de quelques termes uniquement. Elle a donc aussi des coordonnées dans l’espace de Salton
Le principe du Cosinus de SaltonLe principe du Cosinus de Salton
Un calcul de distance (cosinus) entre la requête et les documents permet de classer les pages en fonction de leur proximité sémantique avec la requête…
Le principe du Cosinus de SaltonLe principe du Cosinus de Salton
En réalité, il y’a autant de dimensions que de “termes”C’est un espace à n dimensions
Le principe du Cosinus de SaltonLe principe du Cosinus de Salton
Les bases théoriques de l’alignement Les bases théoriques de l’alignement sémantiquesémantique
L’alignement sémantique consiste à changer le contenu textuel des pages pour les « orienter » comme la requête
Recommended