Upload
oncrawl
View
2.823
Download
1
Embed Size (px)
Citation preview
#OnCrawlBreakfast
SEO et Machine Learning : comment préparer l’après-Rankbrain ?
#seocamp
@FrancoisGoube, CEO @OncrawlSEOCAMP’us 2017
A propos
Francois GoubeFounder @OnCRAWL15 years SEO experience, Serial Entrepreneur. Membre du CA SEOCamp, Trésorier Frenchtech Bordeaux
Semantic NerdData addict & SEO maniac
Le prochain combat du SEO:Eviter le jugement dernier !
Alors que nous allons tous passer 2 journées formidables…
Retrouver de vieux amis SEO
Alors que nous allons tous passer 2 journées formidables…
Faire le Troll auprès d’Experts
Un bouleversement est en cours
L’intelligence artificielle, le machine learning
Changent radicalement les algorithmes de search
Après l’indexation, Google classe les documents (pages) en fonctionDe la puissance des liensDe l’interpretation du contenu…
Ensuite Google utilise des statsCTRBounce rate…
Pour mesurer la qualité de ses résultats(l’utilisateur est-il satisfait du SERP?)
Le Machine Learning permet d’automatiser l’ajustement des SERPs en fonction de leur qualité induite par l’ensemble des données collectées
Le machine learning et les moteurs
Retours sur la R&D de Google pour mieux comprendre ses mises à jour
Toujours une question de sémantique, de statistiques, et de capacité de calcul
Bien comprendre les enjeux SEO derrière Rankbrain Comment hacker Rankbrain ? Comment se préparer aux prochaines évolutions algorithmiques?
Au programme
Remontons un peu le temps !
1997 : Method for node ranking in a linked database 1998 : Improved Text Searching in Hypertext Systems
L’impact des ancres de liens sur le SEO est un bug de Google !!!
2007 : Determining the User Intent of Web Search Engine Queries
2009 : Navigational resources for queries (Google)Un résultat Informationel amène un usage 3 fois meilleur (Temps passé, Fidélisation, Pages vues…)
Il était une fois la R&D de Google
InformationalTransactionalNavigational
2009 : Query rewriting with entity detectionAmélioration de la détection de marques (Navigational queries) et de produit (Hello Google Shopping)
2010 : Google buys MetawebGoogle comprend que :
Il était une fois la R&D de Google
= = = =Terminator GovernatorMr Universe
1969
Conan Arnold
Schwarzenegger
A partir de 2010, la co-occurrence prend plus de poids dans l’algorithme de Google
Premières implications SEO
Schema.org vise l’interopérabilité du webAvec un boost pour les pages ayant les microdonnées, Google a forcé les webmasters à l’adopter
Aujourd’hui il n’y a plus de boost, mais un impact lié au CTR plus élevé
2010: Prise en compte de Schema.org
Panda qui fut alimenté par CTRNb of wordsDuplicates detectionUser behaviour metrics...
Un algorithme de Machine Learning a besoin de quantité gigantesques de données afin d’entrainer des modèles d’analyse
2011: le début de l’intégration du Machine Learning
Google veut apporter des réponses à vos requêtesAller au delà des résultats classiques
Le knowledge graph est inclu dans HummingBirdPermet à Google d’aller au delà de la co-occurrenceInfère la notion de contexte
2012 : Release du Knowledge Graph
“We’ve always believed that the perfect search engine should understand exactly what you mean and give you back exactly what you want”
Amit Singhal ,Google May 2012
Depuis 2016
Hello ”Position Zero” (instant Answers)
Rankbrain est le nom donné par Google à ses procédés de Machine Learning visant à affiner ses resultats
Il s’agit de l’un des 200 paramètres sur lesquels communique Google (vs +10.000 ranking factors)Selon Greg Corrado :
Rankbrain est une extension de Hummingbird sauf que…... Rankbrain est un système auto-apprenant basé sur un réseau neuronal informatique
2016: Rankbrain
“RankBrain has become the third-most important signal contributing to the result of a search query”
Comment ça marche ?
Interprétation de la requête
Matching avec la base de connaissances
Supposition de ce que l’internaute cherche
(Context)
Le résultat plait-il à l’utilisateur ?
Oui NonParfait, je conserve mon classement
J’essaierai un nouveau classement la prochaine
fois
Rankbrain = Des millions de sites web impactés
“Rankbrain interprets language, interprets your queries, in a way that has some of the gut feeling and guessability
of people”
Le TAL comme fondement de Rankbrain
Our (Rankbrain) algorithm is able to represent strings of text in very high-dimensional space and “see” how they relate to another
Ca veut dire quoi ?
Le Traitement Automatisé du Language & Rankbrain
Google maintient une base de connaissance sur les entités nommées Et comprend les relations entre entités:
Pour que les machines comprennent
Chaque entité ou concept est vectorisé
Google peut alors évaluer la distance entre deux concepts
Concrètement ?
how old is the wife of bill gates ?
Supposition d’une
demande sur l’âge
Type de relation
=épouse
Individu/
Personnalité
Concrètement ?
Pour chaque entité google connait:
Entité#1
Les phrases qui contiennent
l’entité
Dans quel contexte / topic
l’entité est utilisée
Souvent utilisée avec entité #2
dans un paragraphe
Souvent utilisée avec entité #2 dans un site sur le sujet
Souvent utilisée avec entité #2 dans
ne même page
Des lieux :
C’est bien le contexte de la recherche qui prime
Un exemple : “La Halle”
Une marque
Un exemple : “La Halle”
Présence de concepts reliés
Une exemple : ”La Halle”
Chaussures
Sacs
Marque/La Halle
Lieux/”La Halle”
Une exemple : ”La Halle”
Chaussures
Sacs
Marque/La Halle
Lieux/”La Halle”
C’est la détection d’entité qui infère le contexte de la recherche
et qui affine les résultats
Le puzzle de Google s’assemble…
Il connait parfaitement notre manière de nous exprimer
Le puzzle de Google s’assemble…
Il se sert depuis longtemps d’une approche mathématique permettant de mesurer la “distance” entre deux pages / Sites :
Near duplicates
Le puzzle de Google s’assemble…
Il se sert depuis longtemps d’une approche mathématique permettant de mesurer la “distance” entre deux pages / Sites :
Near duplicates
Entités
PBN
Google a plus d’armes que ce que vous pensez…
… et d’évaluation de la qualité des résultats
User behaviour metrics pour évaluer la qualité de votre site pour évaluer la qualité des résultats positionnant vos pages
Toujours une question de stats…
Pour savoir si une page est à la bonne position, Google s’appuie sur le CTR Les classements sont revus très rapidement
Prise en compte de la notion de CTR
1 2 3 4 5 6 to 10 2nd page 3rd Page + 0
5
10
15
20
25
30
35
CTR
Etude de 2014 par Moz
Téléchargez vos CTR Pour déduire les CTR moyens de votre thématiquePour identifier les “positions faibles”
Est-ce que mon CTR est bon ?
3 SEO tricks to hack Rankbrain
Est-ce que mon titre est une ?💩
Pour Maximiser vos CTR
Vous pouviez le faire pour chaque url dans notre Toolbox Oncrawl
Désormais intégré dans nos rapports de crawl !!
Quelles sont mes pages avec entités?
Oncrawl détecte les entités pour vous !
1. Télécharger vos CTR
2. Lancer un crawl avec Oncrawl
3. Rapprocher Pages avec entités / CTR
4. Modifiez vos titres pour les rendres plus ”accrocheurs”
5. Boostez vos positions
Trick 1: Focus sur les pages à potentiel
Utilisez Word2Vec (opensource)
Evaluez la distance entre vos contenus
Optimisez vos maillages internes sémantiquement
Trick 2: Fini le cocon, passez à la vectorisation !
Trick 3: Maitrisez vos metrics d’usage
1 mois offertAnalyse de logs / Crawl
Nous vous attendons sur notre stand !
Spécial SEOCAMPUS 2017
MERCI !Votre contact
[email protected] us : @Oncrawl