SEO et Machine Learning : comment préparer l'après Rankbrain ?

  • View
    2.823

  • Download
    1

  • Category

    Internet

Preview:

Citation preview

#OnCrawlBreakfast

SEO et Machine Learning : comment préparer l’après-Rankbrain ?

#seocamp

@FrancoisGoube, CEO @OncrawlSEOCAMP’us 2017

A propos

Francois GoubeFounder @OnCRAWL15 years SEO experience, Serial Entrepreneur. Membre du CA SEOCamp, Trésorier Frenchtech Bordeaux

Semantic NerdData addict & SEO maniac

Le prochain combat du SEO:Eviter le jugement dernier !

Alors que nous allons tous passer 2 journées formidables…

Retrouver de vieux amis SEO

Alors que nous allons tous passer 2 journées formidables…

Faire le Troll auprès d’Experts

Un bouleversement est en cours

L’intelligence artificielle, le machine learning

Changent radicalement les algorithmes de search

Après l’indexation, Google classe les documents (pages) en fonctionDe la puissance des liensDe l’interpretation du contenu…

Ensuite Google utilise des statsCTRBounce rate…

Pour mesurer la qualité de ses résultats(l’utilisateur est-il satisfait du SERP?)

Le Machine Learning permet d’automatiser l’ajustement des SERPs en fonction de leur qualité induite par l’ensemble des données collectées

Le machine learning et les moteurs

Retours sur la R&D de Google pour mieux comprendre ses mises à jour

Toujours une question de sémantique, de statistiques, et de capacité de calcul

Bien comprendre les enjeux SEO derrière Rankbrain Comment hacker Rankbrain ? Comment se préparer aux prochaines évolutions algorithmiques?

Au programme

Remontons un peu le temps !

1997 : Method for node ranking in a linked database 1998 : Improved Text Searching in Hypertext Systems

L’impact des ancres de liens sur le SEO est un bug de Google !!!

2007 : Determining the User Intent of Web Search Engine Queries

2009 : Navigational resources for queries (Google)Un résultat Informationel amène un usage 3 fois meilleur (Temps passé, Fidélisation, Pages vues…)

Il était une fois la R&D de Google

InformationalTransactionalNavigational

2009 : Query rewriting with entity detectionAmélioration de la détection de marques (Navigational queries) et de produit (Hello Google Shopping)

2010 : Google buys MetawebGoogle comprend que :

Il était une fois la R&D de Google

= = = =Terminator GovernatorMr Universe

1969

Conan Arnold

Schwarzenegger

A partir de 2010, la co-occurrence prend plus de poids dans l’algorithme de Google

Premières implications SEO

Schema.org vise l’interopérabilité du webAvec un boost pour les pages ayant les microdonnées, Google a forcé les webmasters à l’adopter

Aujourd’hui il n’y a plus de boost, mais un impact lié au CTR plus élevé

2010: Prise en compte de Schema.org

Panda qui fut alimenté par CTRNb of wordsDuplicates detectionUser behaviour metrics...

Un algorithme de Machine Learning a besoin de quantité gigantesques de données afin d’entrainer des modèles d’analyse

2011: le début de l’intégration du Machine Learning

Google veut apporter des réponses à vos requêtesAller au delà des résultats classiques

Le knowledge graph est inclu dans HummingBirdPermet à Google d’aller au delà de la co-occurrenceInfère la notion de contexte

2012 : Release du Knowledge Graph

“We’ve always believed that the perfect search engine should understand exactly what you mean and give you back exactly what you want”

Amit Singhal ,Google May 2012

Depuis 2016

Hello ”Position Zero” (instant Answers)

Rankbrain est le nom donné par Google à ses procédés de Machine Learning visant à affiner ses resultats

Il s’agit de l’un des 200 paramètres sur lesquels communique Google (vs +10.000 ranking factors)Selon Greg Corrado :

Rankbrain est une extension de Hummingbird sauf que…... Rankbrain est un système auto-apprenant basé sur un réseau neuronal informatique

2016: Rankbrain

“RankBrain has become the third-most important signal contributing to the result of a search query”

Comment ça marche ?

Interprétation de la requête

Matching avec la base de connaissances

Supposition de ce que l’internaute cherche

(Context)

Le résultat plait-il à l’utilisateur ?

Oui NonParfait, je conserve mon classement

J’essaierai un nouveau classement la prochaine

fois

Rankbrain = Des millions de sites web impactés

“Rankbrain interprets language, interprets your queries, in a way that has some of the gut feeling and guessability

of people”

Le TAL comme fondement de Rankbrain

Our (Rankbrain) algorithm is able to represent strings of text in very high-dimensional space and “see” how they relate to another

Ca veut dire quoi ?

Le Traitement Automatisé du Language & Rankbrain

Google maintient une base de connaissance sur les entités nommées Et comprend les relations entre entités:

Pour que les machines comprennent

Chaque entité ou concept est vectorisé

Google peut alors évaluer la distance entre deux concepts

Concrètement ?

how old is the wife of bill gates ?

Supposition d’une

demande sur l’âge

Type de relation

=épouse

Individu/

Personnalité

Concrètement ?

Pour chaque entité google connait:

Entité#1

Les phrases qui contiennent

l’entité

Dans quel contexte / topic

l’entité est utilisée

Souvent utilisée avec entité #2

dans un paragraphe

Souvent utilisée avec entité #2 dans un site sur le sujet

Souvent utilisée avec entité #2 dans

ne même page

Des lieux :

C’est bien le contexte de la recherche qui prime

Un exemple : “La Halle”

Une marque

Un exemple : “La Halle”

Présence de concepts reliés

Une exemple : ”La Halle”

Chaussures

Sacs

Marque/La Halle

Lieux/”La Halle”

Une exemple : ”La Halle”

Chaussures

Sacs

Marque/La Halle

Lieux/”La Halle”

C’est la détection d’entité qui infère le contexte de la recherche

et qui affine les résultats

Le puzzle de Google s’assemble…

Il connait parfaitement notre manière de nous exprimer

Le puzzle de Google s’assemble…

Il se sert depuis longtemps d’une approche mathématique permettant de mesurer la “distance” entre deux pages / Sites :

Near duplicates

Le puzzle de Google s’assemble…

Il se sert depuis longtemps d’une approche mathématique permettant de mesurer la “distance” entre deux pages / Sites :

Near duplicates

Entités

PBN

Google a plus d’armes que ce que vous pensez…

… et d’évaluation de la qualité des résultats

User behaviour metrics pour évaluer la qualité de votre site pour évaluer la qualité des résultats positionnant vos pages

Toujours une question de stats…

Pour savoir si une page est à la bonne position, Google s’appuie sur le CTR Les classements sont revus très rapidement

Prise en compte de la notion de CTR

1 2 3 4 5 6 to 10 2nd page 3rd Page + 0

5

10

15

20

25

30

35

CTR

Etude de 2014 par Moz

Téléchargez vos CTR Pour déduire les CTR moyens de votre thématiquePour identifier les “positions faibles”

Est-ce que mon CTR est bon ?

3 SEO tricks to hack Rankbrain

Est-ce que mon titre est une ?💩

Pour Maximiser vos CTR

Vous pouviez le faire pour chaque url dans notre Toolbox Oncrawl

Désormais intégré dans nos rapports de crawl !!

Quelles sont mes pages avec entités?

Oncrawl détecte les entités pour vous !

1. Télécharger vos CTR

2. Lancer un crawl avec Oncrawl

3. Rapprocher Pages avec entités / CTR

4. Modifiez vos titres pour les rendres plus ”accrocheurs”

5. Boostez vos positions

Trick 1: Focus sur les pages à potentiel

Utilisez Word2Vec (opensource)

Evaluez la distance entre vos contenus

Optimisez vos maillages internes sémantiquement

Trick 2: Fini le cocon, passez à la vectorisation !

Trick 3: Maitrisez vos metrics d’usage

1 mois offertAnalyse de logs / Crawl

Nous vous attendons sur notre stand !

Spécial SEOCAMPUS 2017

MERCI !Votre contact

hello@oncrawl.comFollow us : @Oncrawl