Deck smx 16 juin 9h00 criteres de recherche

Preview:

DESCRIPTION

Slides de ma présentation à la conférence SMX le mercredi 16 juin.

Citation preview

Les Indicateurs deClassement SEO en 2011

Philippe YONNET

Global SEO Strategist

EasyRoommate / Vivastreet

philippe@vivastreet.com

Vivastreet ?

Easyroommate (Appartager) ?

Un objectif commun => Une hiérarchie de critères similaires

Tous les moteurs de recherche ont pour objectif de renvoyer des résultats PERTINENTS

La pertinence est une notion subtile, mais quelques grands principes communs existent

Il y’a plus de points communs que de différences entre les algorithmes de moteurs de recherche

Connaître la recette ne fait pas tout

Le « tour de main » du cuisinier compte aussi

Le poids de chaque ingrédient a une importance cruciale

Un simple changement de coefficient (poids) a une influence énorme sur les classements

La question de Matt Cutts ?

Le problème de la pertinence :

Qui doit être premier sur la requête

« Barack Obama » ?

Obama

Le site de la Maison Blanche ?

Wikipedia : bio de B. Obama ?

Site perso B. Obama ?

Les caractéristiques d’un bon critère

• Un bon critère doit vraiment permettre de classer une page en fonction de sa pertinence en tant que réponse à une requête

Pertinent

• Un bon critère doit être facile à calculer. Les valeurs doivent pouvoir être précalculées/préfetchées pour faciliter la génération des pages de résultat

Facile à calculer

• Un critère qui n’est pas facilement manipulable par un spammeur est un critère intéressant

Non sujet au spam

Quels critères choisir ?

1

• Renvoyer des pages qui contiennent les termes de la requête

• Occurrences des termes, recherche « booléenne »

2

• Renvoyer des pages dont le contenu est proche de la requête

• Calcul de similarité (ex : Cosinus de Salton)

3. Quels critères choisir ?

3

• Utiliser les infos fournies par le code HTML pour attribuer des poids différents aux termes contenus dans ces balises

<TITLE> : balise décrivant le contenu de la page

<a>Anchor text</a> : balise décrivant le contenu de la

page

www.mon-domaine.com/produit : mot clé relatif au

contenu

<H1> : élément le plus important de la page

Etc…

La « recette » de l’algo d’Altavista

Altavista

Balises

Similarité

Occurrences

La hiérarchie des balises HTML

Mot clé dans le title

Mot clés dans les anchor text des backlinks

Texte en rapport avec la requête

Mot clé dans l’url (domaine inclus)

Mot clé dans le H1

Balises <B>, <EM> etc…

Balises Alt

Le problème : beaucoup de « bruit »

Sur des requêtes concurrentielles, les 100 premiers résultats ont des résultats très proches sur ces critères

Le premier résultat a donc autant de chances d’être jugé pertinent que le dernier !

Il faut ajouter d’autres critères pour reclasser les résultats dans un ordre plus pertinent

Google ajoute une mesure d’importance de la page : le pagerank

Les signaux renvoyés par les liens

• Mesure de la popularité de la page

• Pagerank et alter…Importance

• La page reçoit-elle des liens de pages sur la même thématique ?

• Topic Sensitive PageRank ? Topicality

• Liens en provenance de sites faisant autorité

• Pagerank biaisés, algo Hilltop ?Autorité

• Pages recevant des liens de sites de confiance

• Pages liées à des pages spammy

• Trusrank (Yahoo!), Spamrank etc….Trust / Spam

La hiérarchie des signaux liés aux backlinks

Importance :

recevoir des liens de sites avec un PR élevé

Qualité :

Diversité / Trust / Non spam

Topicality

On page / off page ?

Critères indépendants de

la requête

Critères dépendant de la

requête

Le distinguo critères off page / on

page n’est pas vraiment pertinent

Lui préférer la notion de :

- Critère dépendant de la requête

- Critère indépendant de la requête

Dans l’algorithme, le poids des

critères dépendants de la requête

est obligatoirement plus élevé

Intéressant à étudier : l’évolution

de l’algorithme de Google avec

l’update MayDay

Algorithme ? NON !

Ce que l’on appelle l’algorithme est en fait une fonction

d’évaluation

Rank = k1xC1 + k2xC2 + k3xC3…

Les coefficients K peuvent eux même être des fonctions

!

Localement, le poids des critères semblera changer !

Le reverse engineering complet de la formule de l’algo

est pratiquement impossible : on ne peut en avoir qu’une

idée imprécise, et grossière

Le problème du spam

Les critères susceptibles d’être « spammés » , ou de renvoyer

des signaux de mauvaise qualité doivent recevoir un traitement

particulier dans l’algorithme.

Ex :

• beaucoup de mots de clé dans le nom de domaine

=>spammy ?

• beaucoup de mots clés dans les balises alt =>spammy ?

• balises title systématiquement renseignées => spammy ?

• longueur de la balise keyword => spammy ?

La combinaison de critères de ce type permet de détecter des

pages de spam avec un bon taux de reconnaissance

Le Pagerank et ses limites

• Tous les liens ne sont pas égaux

• Le PR est tourné vers le passé de la page

• Les vrais internautes ne vont pas que sur des

sites de confiance

• Le surfer « lassé » ne se téléporte pas

n’importe où

=> Utilisation des critères d’usage ?

Les critères d’usage

CTR depuis les SERPS

Taux de rebond depuis les SERPS

Données de la toolbar ?

Requêtes de notoriété ?

Données de search wiki ?

….

Les indicateurs temporels

• Champ IMS => peu fiable

• Age / fraîcheur des pages

• Rythme de renouvellement des pages dans le

site

• Rythme de l’évolution du contenu dans la

page

• Horodatage de la page

• ….

Les critères de géolocalisation (country)

Utilisation d’un ccTLD

Utilisation d’une IP géolocalisée correctement

Linking en provenance du pays ??

Géo DC : non pour Google ?

Les critères linguistiques

Vocabulaire utilisé spécifique à une langue

Langue déclarée dans l’en-tête et dans les

balises : Google y accorde une confiance limitée

Typologie de pages

Forums, blogs, sites d’avis ?

Critères multiples :

- Templates

- Structure

- indication dans l’url

- Plateforme utilisée

Les nouveaux critères à prendre en compte

Algorithme

Temporalité

Personnalisation REN

Données du graphe social

Query Intent Resolution

Les moteurs cherchent à déterminer quel type

d’informations vous recherchez :

- Requêtes liées à des évènements, des dates,

une actualité

- Requêtes marchandes, non marchandes

- Un nom de personne, de société

- Un lieu

Exemple de REN chez Bing

La recherche « géolocalisée »

Deux approches

Reconnaître un nom de lieu dans la requête

Ou partir du principe que la requête demande une

géolocalisation

Beaucoup de requêtes transactionnelles

appellent une géolocalisation

Exemple dans Google avec REN

Exemple dans Google avec Géolocalisationautomatique

Je tape seulement

hôtel

Je suis géolocalisé

à Paris par ma

connexion internet

: on me propose

automatiquement

les hôtels à Paris

Les requêtes transactionnelles

Requête dénotant une intention d’achat ou non ?

Il faut distinguer les cas d’internautes cherchant des informations sur un produit, de ceux qui veulent trouver un endroit où l’acheter

Ce sont parfois les mêmes internautes pris à quelques minutes d’intervalle

Exemple des recherches menées chez Yahoo!

Identification de l’intention de l’utilisateur ?

•Trouver un avis sur un produit ou un élément de comparaison (review)

•Acheter un produit au meilleur prix ? (price)

•Résoudre un problème d’utilisation de ce produit (support)

Of Search and Semantics

Patrick Pantel

NSF Symposium on Semantic Knowledge

Discovery, Organization and Use

November 15, 2008

Les requêtes QDF

QDF = Query Deserves Freshness !

« La requête mérite de la fraîcheur »

Fonctionnement révélé dans une interview d’Amit

Singhal dans le NYT.

TSUNAMI !

Exemple dans Google

Requêtes appelant un type déterminé de résultat

Nouvelle interface

de Google :

Permet de

sélectionner

uniquement les

réponses de :

- Forums

- Sites d’avis

- Videos…

- [… et demain ?]

Données du graphe social ?

Liens / citations dans Twitter

Liens / citations dans Facebook

Présence dans les digg likes

Notes dans les sites d’avis

Pourrait prendre de plus en plus d’ampleur (=>

remplacer la partie disparue du graphe des

liens)

La personnalisation et ses limites

Tous les résultats sont potentiellements personnalisés

Mais : la pertinence dépend du contexte de la

recherche. Ce contexte inconnu empêche une

personnalisation poussée ET pertinente

Merci !

Si vous avez des questions

n’ hésitez pas

Recommended