Upload
oncrawl
View
2.398
Download
0
Embed Size (px)
Citation preview
#OnCrawlBreakfast
Budget de crawl et SEO, tout ce que vous devez savoir pour l’optimiser
#seocampus
SEOCAMP’usErlé Alberton
#seocampus
J’adore voir Google dépenser un max de budget sur vos sites…
ERLE
ALBERTONCUSTOMER
SUcCESS manager10 ans de dev / 5 ans de SEO dont 2
ans en tant que responsable SEO des
boutiques en ligne Orange et Sosh
spécialiste schema.org
seo monk
ONCRAWL
TRAinER
customer climax
GOOD IDEAS
#seocampus
www.oncrawl.comwww.oncrawl.com
We help Ecommerce & Online media take
better SEO decisions and grow their revenues
By providing access to the Most Advanced SEO Software
Semantic
SEO Crawler
Comprehensive
Log Analyser
API & Platform
to combined all
website’s data
#seocampus
+300 Happy Customers
#seocampus
+300 Happy Customers
#seocampus
Budget de Crawl Google
C’est le crédit que Google alloue à ses robots pour parcourir
l’ensemble des ressources d’un site web
Même si ce budget plutôt dédié aux gros sites, les sites de moyenne ou
petite taille doivent tout de même optimiser les temps de Crawl
Google pour montrer leur qualité
Chez OnCrawl on constate que, plus Google alloue de crédit à un
site plus le site reçoit de visites SEO
Source : Qu'entend donc Google quand il parle de "Crawl Budget" (budget d'exploration) ?
#seocampus
Ce que dit Google sur le « Crawl Budget »
Si vous observez que les nouvelles pages sont généralement explorées le jour même
de leur publication, alors vous n'avez pas vraiment à vous préoccuper du budget
d'exploration
[…] si un site dispose de moins de quelques milliers d'URL, il sera exploré correctement
la plupart du temps
[…] nous ne disposons pas d'un terme unique pour décrire tout ce que ce terme semble
signifier en externe
#seocampus
Ce que dit Google sur le « Crawl Budget »
#seocampus
• 100% des sites déclarés dans GSC ont des
données d’exploration
• Suivre son « Crawl Behavior » grâce à l’analyse
de ses logs permet de détecter rapidement une
anomalie dans le comportement du bot
• Un mauvais maillage interne - pagination, facette,
pages orphelines, spider trap - peut empêcher
Google d’explorer les bonnes pages
Le budget de Crawl est en relation avec le
ranking
Tous les sites doivent s’intéresser à leur budget de crawl
#seocampus
Les brevets liés a la notion de Crawl
• US 8666964 B1 : Managing items in crawl schedule
• US 8707312 B1 : Document reuse in a search engine crawler
• US 8037054 B2 : Web crawler scheduler that utilizes sitemaps from
websites
• US 7305610 B1 : Distributed crawling of hyperlinked documents
• US 8407204 B2 : Minimizing visibility of stale content in web
searching including revisine web crawl intervals of documents
• US 8386459 B1 : Scheduling a recrawl
• US 8042112 B1 : Scheduler for search engine crawler
A priori, la planification du crawl ca compte beaucoup !
#seocampus
Pourquoi ? Comment ?
Il faut prioriser pour économiser les ressources
NB : crawler du JS ca coute très chèr
oubliez Angular sans prerender
#seocampus
#seocampus
Données issues du Google Search Appliance Documentation
https://www.google.com/support/enterprise/static/gsa/docs/admin/72/gsa_doc_set/admin_crawl/introduction.html
Schématisation du crawl
#seocampus
Crawl budget = host load + URL scheduling
Both of these still matter in migrations !
Host Load : Que Google visite par IP/host – basé sur les capacités du server
URL scheduling : Quelles pages Google a envie de visiter et à quelle fréquence ?
http://searchengineland.com/crawl-budget-url-scheduling-might-impact-rankings-website-migrations-255624
#seocampus
Les composants importants pour Google
Page Importance
Change managment & Freshness
#seocampus
Page Importance
La notion de « Page Importance » n’est pas le Page Rank
• Localisation de la page dans le site – a profondeur sur le taux de crawl
• Page Rank : TF/CF de la page - Majestic
• Le Page Rank interne – InRank OnCrawl
• Type de document : PDF, HTML, TXT
• L’inclusion dans le sitemap.xml
• Le nb de liens internes
• La qualité/l’importance des ancres
• Contenu de qualité : nombre de mots, peu de near duplicate
• L’importance de la page mère
L’analyse croisée du crawl OnCrawl avec vos logs permet de
suivre ces données en continu
#seocampus
Les 3 types de crawl de Google
Si vous étiez à l’EXCELLENTE conférence de Vincent Terrasi et Remi
Bacha au SEOCamp’us Paris vous connaissez le sujet BEA
• Google hit continuellement la Home Page et les pages avec la
meilleure « Page Importance »
• Google hit des groupes de pages de manière compulsive
• Google hit toutes les ressources pour les comprendre (js,css,ajax)
Chez OnCrawl on sait que Google hit des pages avec des problèmes
pour vérifier s’ils sont résolus
#seocampus
Les erreurs à ne pas commettre
• robots.txt en 404 !!
• sitemap.xml & sitemap.html out of date
• erreurs 50x / 40x / soft 404
• avoir chaines de redirections
• canonicals errors
• contenu dupliqué (footer) / near duplicate / HTTP vs HTTPS
• temps de réponse trop long
• poids des pages trop important
• erreurs AMP
• mauvais maillage interne + Rel=nofollow
• utiliser AngularJS
https://support.google.com/webmasters/answer/35120?hl=fr
https://www.google.com/killer-robots.txt
#seocampus
Les solutions
• Avoir un robots.txt qui autorise le crawl des parties importantes
• Mettre à jour son sitemap.xml dynamiquement avec les pages ROI à faible
fréquence de crawl
• Monitorer ses logs pour détecter les pages en erreur - checker GSC
• Créez des redirections courtes et claires
• Tester ses canonicals – adapter les src en fonction du near duplicate
• Utiliser des serveurs performants – nginx – des serveurs de cache – varnish
• Minimiser le poids des ressources – img, css, html, fonts, js – lazy loadinghttps://developers.google.com/web/fundamentals/performance/optimizing-content-efficiency/image-optimization
• Vérifier son code AMP avec GSC
• Créer des plans de sites HTML intelligents
https://support.google.com/webmasters/answer/35120?hl=fr
#seocampus
TIPS bien tricky pour améliorer le temps de chargement
62% du trafic Web Internet (hors vidéo) provient des images
51% des pages chargent plus de 40 images
• WebP est le nouveau format poussé par Google pour réduire le
poids des images
45% de réduction de poids vs JPG
64% de réduction du poids des Gifs animés
#seocampus
Passer en HTTPS sans passer en HTTP2
c’est USELESS !!
#seocampus
Quand optimiser son budget de crawl ?
Lors des refontes…
Les Cas Manageo avec Philippe Laine
Expert SEO
13 ans d’expérience en webmarketing
En agence et en interne
#seocampus
#seocampus
Manageo le bon élève
• 1 Million de visites/mois
• 15 Millions de pages indexables par Google
• Chaque entreprise de France a sa page
Le trafic naturel sur les milliers de landing pages
dépend essentiellement de dizaines de milliers de
requêtes très « long tail »
D’où l’importance de surveiller et de bien utiliser notre
budget de crawl pour avoir la meilleure indexation possible
#seocampus
Refonte = inquiétude + occasion d’optimiser
• Les metrics à suivre
• Budget de crawl avant vs après
• Suivi des « New crawled Pages pour s’assurer de
la prise en compte de la nouvelle architecture
• Suivi et qualification des « status code » de
redirection
• Amélioration de la qualité – tps de chargement,
réduction du duplicate, …
#seocampus
Manageo le bon élève
• Est-ce que Google aime mon site ?
• Est-ce qu’il m’aime toujours depuis que j’ai changé
de coiffure – migration HTTPS + refonte
• Il y a une corrélation entre la fréquence de crawl
d’une page et sa visibilité dans les SERPs
Surveiller le budget de crawl est complémentaire au suivi du ranking !
Cela permet d’avoir l’information des changements de ranking plusieurs
jours à l’avance
#seocampus
Les tableaux de bord de Manageo sont issus des données GSC
Le temps de chargement impacte le budget de crawl
#seocampus
Une réalité plus complexe
Seule l’analyse de logs permet vraiment de savoir ce qu’il se passe
#seocampus
Les pages uniques crawlées la granularité ultime du SEO
#seocampus
Les prochaines étapes
• Optimiser les temps de chargement serveur
• Utiliser une architecture basée sur le Cache
serveur + navigateur
• Retravailler la profondeur des pages importantes
• Maitriser l’InRank en optimisant le linking interne
Utiliser l’API d’oncrawl pour construire des dashboard de reporting pour
le top managnment
#seocampus
Avec OnCrawl adoptez
les reflexes “360° SEO
VIEW”
#seocampus
Comment suivre son budget… gratuitement !
Avec l’Analyseur de Logs SEO Open Source d’OnCrawl,
découvrez comment Google et les robots se comportent
sur votre site
• OnCrawl ELK (ElasticSearch, LogStash, Kibana) est disponible
pour tous sur GitHub https://github.com/cogniteev/oncrawl-elk
• Surveillez toute l’activité des robots et les performances de pages
au quotidien
• Contrôlez le taux de crawl de chaque robot pour n’importe quel
groupe de pages
• Notre stack est agnostique en termes de formats de logs mais
certains d’entre eux nécessiteront peut être une configuration
supplémentaire
#seocampus
Ce que la solution gratuite ne fera pas ?
Croiser les données !
#seocampus
• Impact des KPI SEO sur les visites
• Pages crawlées vs pages visitées vs pages indexées
• Pages actives vs pages non actives par clusters
• Taux de crawl par groupes de pages
• Fréquence de crawl par profondeur
• Fréquence de crawl par popularité
• Fréquence de crawl par nombre de mots
• Taux de crawl par temps de chargement
• Taux de crawl par volume de texte
Les bonnes données à croiser
Toutes ces données doivent être suivies dans le temps
La création d’un dashboard de pilotage est un plus
#seocampus
Savoir être constant s’appelle être
éclairé…
Lao TseuVIe s. av. J.-C.
#seocampus
Vos questions
#seocampus
Quels sont les 2 facteurs essentiels du
Crawl Google ?
Les questions
#seocampus
Citez un des sites pour lequel Philippe
Laine à travaillé
Les questions
#seocampus
A quoi correspond le status code 418 ?
Les questions
#seocampus
Comment s’appelle notre programme de
formation à OnCrawl ?
Les questions