Upload
philippe-yonnet
View
1.492
Download
2
Embed Size (px)
DESCRIPTION
Slides de ma présentation à la conférence SMX le mercredi 16 juin.
Citation preview
Les Indicateurs deClassement SEO en 2011
Philippe YONNET
Global SEO Strategist
EasyRoommate / Vivastreet
Vivastreet ?
Easyroommate (Appartager) ?
Un objectif commun => Une hiérarchie de critères similaires
Tous les moteurs de recherche ont pour objectif de renvoyer des résultats PERTINENTS
La pertinence est une notion subtile, mais quelques grands principes communs existent
Il y’a plus de points communs que de différences entre les algorithmes de moteurs de recherche
Connaître la recette ne fait pas tout
Le « tour de main » du cuisinier compte aussi
Le poids de chaque ingrédient a une importance cruciale
Un simple changement de coefficient (poids) a une influence énorme sur les classements
La question de Matt Cutts ?
Le problème de la pertinence :
Qui doit être premier sur la requête
« Barack Obama » ?
Obama
Le site de la Maison Blanche ?
Wikipedia : bio de B. Obama ?
Site perso B. Obama ?
Les caractéristiques d’un bon critère
• Un bon critère doit vraiment permettre de classer une page en fonction de sa pertinence en tant que réponse à une requête
Pertinent
• Un bon critère doit être facile à calculer. Les valeurs doivent pouvoir être précalculées/préfetchées pour faciliter la génération des pages de résultat
Facile à calculer
• Un critère qui n’est pas facilement manipulable par un spammeur est un critère intéressant
Non sujet au spam
Quels critères choisir ?
1
• Renvoyer des pages qui contiennent les termes de la requête
• Occurrences des termes, recherche « booléenne »
2
• Renvoyer des pages dont le contenu est proche de la requête
• Calcul de similarité (ex : Cosinus de Salton)
3. Quels critères choisir ?
3
• Utiliser les infos fournies par le code HTML pour attribuer des poids différents aux termes contenus dans ces balises
<TITLE> : balise décrivant le contenu de la page
<a>Anchor text</a> : balise décrivant le contenu de la
page
www.mon-domaine.com/produit : mot clé relatif au
contenu
<H1> : élément le plus important de la page
Etc…
La « recette » de l’algo d’Altavista
Altavista
Balises
Similarité
Occurrences
La hiérarchie des balises HTML
Mot clé dans le title
Mot clés dans les anchor text des backlinks
Texte en rapport avec la requête
Mot clé dans l’url (domaine inclus)
Mot clé dans le H1
Balises <B>, <EM> etc…
Balises Alt
Le problème : beaucoup de « bruit »
Sur des requêtes concurrentielles, les 100 premiers résultats ont des résultats très proches sur ces critères
Le premier résultat a donc autant de chances d’être jugé pertinent que le dernier !
Il faut ajouter d’autres critères pour reclasser les résultats dans un ordre plus pertinent
Google ajoute une mesure d’importance de la page : le pagerank
Les signaux renvoyés par les liens
• Mesure de la popularité de la page
• Pagerank et alter…Importance
• La page reçoit-elle des liens de pages sur la même thématique ?
• Topic Sensitive PageRank ? Topicality
• Liens en provenance de sites faisant autorité
• Pagerank biaisés, algo Hilltop ?Autorité
• Pages recevant des liens de sites de confiance
• Pages liées à des pages spammy
• Trusrank (Yahoo!), Spamrank etc….Trust / Spam
La hiérarchie des signaux liés aux backlinks
Importance :
recevoir des liens de sites avec un PR élevé
Qualité :
Diversité / Trust / Non spam
Topicality
On page / off page ?
Critères indépendants de
la requête
Critères dépendant de la
requête
Le distinguo critères off page / on
page n’est pas vraiment pertinent
Lui préférer la notion de :
- Critère dépendant de la requête
- Critère indépendant de la requête
Dans l’algorithme, le poids des
critères dépendants de la requête
est obligatoirement plus élevé
Intéressant à étudier : l’évolution
de l’algorithme de Google avec
l’update MayDay
Algorithme ? NON !
Ce que l’on appelle l’algorithme est en fait une fonction
d’évaluation
Rank = k1xC1 + k2xC2 + k3xC3…
Les coefficients K peuvent eux même être des fonctions
!
Localement, le poids des critères semblera changer !
Le reverse engineering complet de la formule de l’algo
est pratiquement impossible : on ne peut en avoir qu’une
idée imprécise, et grossière
Le problème du spam
Les critères susceptibles d’être « spammés » , ou de renvoyer
des signaux de mauvaise qualité doivent recevoir un traitement
particulier dans l’algorithme.
Ex :
• beaucoup de mots de clé dans le nom de domaine
=>spammy ?
• beaucoup de mots clés dans les balises alt =>spammy ?
• balises title systématiquement renseignées => spammy ?
• longueur de la balise keyword => spammy ?
La combinaison de critères de ce type permet de détecter des
pages de spam avec un bon taux de reconnaissance
Le Pagerank et ses limites
• Tous les liens ne sont pas égaux
• Le PR est tourné vers le passé de la page
• Les vrais internautes ne vont pas que sur des
sites de confiance
• Le surfer « lassé » ne se téléporte pas
n’importe où
=> Utilisation des critères d’usage ?
Les critères d’usage
CTR depuis les SERPS
Taux de rebond depuis les SERPS
Données de la toolbar ?
Requêtes de notoriété ?
Données de search wiki ?
….
Les indicateurs temporels
• Champ IMS => peu fiable
• Age / fraîcheur des pages
• Rythme de renouvellement des pages dans le
site
• Rythme de l’évolution du contenu dans la
page
• Horodatage de la page
• ….
Les critères de géolocalisation (country)
Utilisation d’un ccTLD
Utilisation d’une IP géolocalisée correctement
Linking en provenance du pays ??
Géo DC : non pour Google ?
Les critères linguistiques
Vocabulaire utilisé spécifique à une langue
Langue déclarée dans l’en-tête et dans les
balises : Google y accorde une confiance limitée
Typologie de pages
Forums, blogs, sites d’avis ?
Critères multiples :
- Templates
- Structure
- indication dans l’url
- Plateforme utilisée
Les nouveaux critères à prendre en compte
Algorithme
Temporalité
Personnalisation REN
Données du graphe social
Query Intent Resolution
Les moteurs cherchent à déterminer quel type
d’informations vous recherchez :
- Requêtes liées à des évènements, des dates,
une actualité
- Requêtes marchandes, non marchandes
- Un nom de personne, de société
- Un lieu
Exemple de REN chez Bing
La recherche « géolocalisée »
Deux approches
Reconnaître un nom de lieu dans la requête
Ou partir du principe que la requête demande une
géolocalisation
Beaucoup de requêtes transactionnelles
appellent une géolocalisation
Exemple dans Google avec REN
Exemple dans Google avec Géolocalisationautomatique
Je tape seulement
hôtel
Je suis géolocalisé
à Paris par ma
connexion internet
: on me propose
automatiquement
les hôtels à Paris
Les requêtes transactionnelles
Requête dénotant une intention d’achat ou non ?
Il faut distinguer les cas d’internautes cherchant des informations sur un produit, de ceux qui veulent trouver un endroit où l’acheter
Ce sont parfois les mêmes internautes pris à quelques minutes d’intervalle
Exemple des recherches menées chez Yahoo!
Identification de l’intention de l’utilisateur ?
•Trouver un avis sur un produit ou un élément de comparaison (review)
•Acheter un produit au meilleur prix ? (price)
•Résoudre un problème d’utilisation de ce produit (support)
Of Search and Semantics
Patrick Pantel
NSF Symposium on Semantic Knowledge
Discovery, Organization and Use
November 15, 2008
Exemple avec l’outil « OCI » de Bing
http://adlab.microsoft.com/Online-Commercial-Intention/Default.aspx
Les requêtes QDF
QDF = Query Deserves Freshness !
« La requête mérite de la fraîcheur »
Fonctionnement révélé dans une interview d’Amit
Singhal dans le NYT.
TSUNAMI !
Exemple dans Google
Requêtes appelant un type déterminé de résultat
Nouvelle interface
de Google :
Permet de
sélectionner
uniquement les
réponses de :
- Forums
- Sites d’avis
- Videos…
- [… et demain ?]
Données du graphe social ?
Liens / citations dans Twitter
Liens / citations dans Facebook
Présence dans les digg likes
Notes dans les sites d’avis
…
Pourrait prendre de plus en plus d’ampleur (=>
remplacer la partie disparue du graphe des
liens)
La personnalisation et ses limites
Tous les résultats sont potentiellements personnalisés
Mais : la pertinence dépend du contexte de la
recherche. Ce contexte inconnu empêche une
personnalisation poussée ET pertinente
Merci !
Si vous avez des questions
n’ hésitez pas