Budget de crawl et SEO - Tout ce que vous devez savoir

  • View
    2.398

  • Download
    0

  • Category

    Internet

Preview:

Citation preview

#OnCrawlBreakfast

Budget de crawl et SEO, tout ce que vous devez savoir pour l’optimiser

#seocampus

SEOCAMP’usErlé Alberton

#seocampus

J’adore voir Google dépenser un max de budget sur vos sites…

ERLE

ALBERTONCUSTOMER

SUcCESS manager10 ans de dev / 5 ans de SEO dont 2

ans en tant que responsable SEO des

boutiques en ligne Orange et Sosh

spécialiste schema.org

seo monk

ONCRAWL

TRAinER

customer climax

GOOD IDEAS

#seocampus

www.oncrawl.comwww.oncrawl.com

We help Ecommerce & Online media take

better SEO decisions and grow their revenues

By providing access to the Most Advanced SEO Software

Semantic

SEO Crawler

Comprehensive

Log Analyser

API & Platform

to combined all

website’s data

#seocampus

+300 Happy Customers

#seocampus

+300 Happy Customers

#seocampus

Budget de Crawl Google

C’est le crédit que Google alloue à ses robots pour parcourir

l’ensemble des ressources d’un site web

Même si ce budget plutôt dédié aux gros sites, les sites de moyenne ou

petite taille doivent tout de même optimiser les temps de Crawl

Google pour montrer leur qualité

Chez OnCrawl on constate que, plus Google alloue de crédit à un

site plus le site reçoit de visites SEO

Source : Qu'entend donc Google quand il parle de "Crawl Budget" (budget d'exploration) ?

#seocampus

Ce que dit Google sur le « Crawl Budget »

Si vous observez que les nouvelles pages sont généralement explorées le jour même

de leur publication, alors vous n'avez pas vraiment à vous préoccuper du budget

d'exploration

[…] si un site dispose de moins de quelques milliers d'URL, il sera exploré correctement

la plupart du temps

[…] nous ne disposons pas d'un terme unique pour décrire tout ce que ce terme semble

signifier en externe

#seocampus

Ce que dit Google sur le « Crawl Budget »

#seocampus

• 100% des sites déclarés dans GSC ont des

données d’exploration

• Suivre son « Crawl Behavior » grâce à l’analyse

de ses logs permet de détecter rapidement une

anomalie dans le comportement du bot

• Un mauvais maillage interne - pagination, facette,

pages orphelines, spider trap - peut empêcher

Google d’explorer les bonnes pages

Le budget de Crawl est en relation avec le

ranking

Tous les sites doivent s’intéresser à leur budget de crawl

#seocampus

Les brevets liés a la notion de Crawl

• US 8666964 B1 : Managing items in crawl schedule

• US 8707312 B1 : Document reuse in a search engine crawler

• US 8037054 B2 : Web crawler scheduler that utilizes sitemaps from

websites

• US 7305610 B1 : Distributed crawling of hyperlinked documents

• US 8407204 B2 : Minimizing visibility of stale content in web

searching including revisine web crawl intervals of documents

• US 8386459 B1 : Scheduling a recrawl

• US 8042112 B1 : Scheduler for search engine crawler

A priori, la planification du crawl ca compte beaucoup !

#seocampus

Pourquoi ? Comment ?

Il faut prioriser pour économiser les ressources

NB : crawler du JS ca coute très chèr

oubliez Angular sans prerender

#seocampus

#seocampus

Données issues du Google Search Appliance Documentation

https://www.google.com/support/enterprise/static/gsa/docs/admin/72/gsa_doc_set/admin_crawl/introduction.html

Schématisation du crawl

#seocampus

Crawl budget = host load + URL scheduling

Both of these still matter in migrations !

Host Load : Que Google visite par IP/host – basé sur les capacités du server

URL scheduling : Quelles pages Google a envie de visiter et à quelle fréquence ?

http://searchengineland.com/crawl-budget-url-scheduling-might-impact-rankings-website-migrations-255624

#seocampus

Les composants importants pour Google

Page Importance

Change managment & Freshness

#seocampus

Page Importance

La notion de « Page Importance » n’est pas le Page Rank

• Localisation de la page dans le site – a profondeur sur le taux de crawl

• Page Rank : TF/CF de la page - Majestic

• Le Page Rank interne – InRank OnCrawl

• Type de document : PDF, HTML, TXT

• L’inclusion dans le sitemap.xml

• Le nb de liens internes

• La qualité/l’importance des ancres

• Contenu de qualité : nombre de mots, peu de near duplicate

• L’importance de la page mère

L’analyse croisée du crawl OnCrawl avec vos logs permet de

suivre ces données en continu

#seocampus

Les 3 types de crawl de Google

Si vous étiez à l’EXCELLENTE conférence de Vincent Terrasi et Remi

Bacha au SEOCamp’us Paris vous connaissez le sujet BEA

• Google hit continuellement la Home Page et les pages avec la

meilleure « Page Importance »

• Google hit des groupes de pages de manière compulsive

• Google hit toutes les ressources pour les comprendre (js,css,ajax)

Chez OnCrawl on sait que Google hit des pages avec des problèmes

pour vérifier s’ils sont résolus

#seocampus

Les erreurs à ne pas commettre

• robots.txt en 404 !!

• sitemap.xml & sitemap.html out of date

• erreurs 50x / 40x / soft 404

• avoir chaines de redirections

• canonicals errors

• contenu dupliqué (footer) / near duplicate / HTTP vs HTTPS

• temps de réponse trop long

• poids des pages trop important

• erreurs AMP

• mauvais maillage interne + Rel=nofollow

• utiliser AngularJS

https://support.google.com/webmasters/answer/35120?hl=fr

https://www.google.com/killer-robots.txt

#seocampus

Les solutions

• Avoir un robots.txt qui autorise le crawl des parties importantes

• Mettre à jour son sitemap.xml dynamiquement avec les pages ROI à faible

fréquence de crawl

• Monitorer ses logs pour détecter les pages en erreur - checker GSC

• Créez des redirections courtes et claires

• Tester ses canonicals – adapter les src en fonction du near duplicate

• Utiliser des serveurs performants – nginx – des serveurs de cache – varnish

• Minimiser le poids des ressources – img, css, html, fonts, js – lazy loadinghttps://developers.google.com/web/fundamentals/performance/optimizing-content-efficiency/image-optimization

• Vérifier son code AMP avec GSC

• Créer des plans de sites HTML intelligents

https://support.google.com/webmasters/answer/35120?hl=fr

#seocampus

TIPS bien tricky pour améliorer le temps de chargement

62% du trafic Web Internet (hors vidéo) provient des images

51% des pages chargent plus de 40 images

• WebP est le nouveau format poussé par Google pour réduire le

poids des images

45% de réduction de poids vs JPG

64% de réduction du poids des Gifs animés

#seocampus

Passer en HTTPS sans passer en HTTP2

c’est USELESS !!

#seocampus

Quand optimiser son budget de crawl ?

Lors des refontes…

Les Cas Manageo avec Philippe Laine

Expert SEO

13 ans d’expérience en webmarketing

En agence et en interne

#seocampus

#seocampus

Manageo le bon élève

• 1 Million de visites/mois

• 15 Millions de pages indexables par Google

• Chaque entreprise de France a sa page

Le trafic naturel sur les milliers de landing pages

dépend essentiellement de dizaines de milliers de

requêtes très « long tail »

D’où l’importance de surveiller et de bien utiliser notre

budget de crawl pour avoir la meilleure indexation possible

#seocampus

Refonte = inquiétude + occasion d’optimiser

• Les metrics à suivre

• Budget de crawl avant vs après

• Suivi des « New crawled Pages pour s’assurer de

la prise en compte de la nouvelle architecture

• Suivi et qualification des « status code » de

redirection

• Amélioration de la qualité – tps de chargement,

réduction du duplicate, …

#seocampus

Manageo le bon élève

• Est-ce que Google aime mon site ?

• Est-ce qu’il m’aime toujours depuis que j’ai changé

de coiffure – migration HTTPS + refonte

• Il y a une corrélation entre la fréquence de crawl

d’une page et sa visibilité dans les SERPs

Surveiller le budget de crawl est complémentaire au suivi du ranking !

Cela permet d’avoir l’information des changements de ranking plusieurs

jours à l’avance

#seocampus

Les tableaux de bord de Manageo sont issus des données GSC

Le temps de chargement impacte le budget de crawl

#seocampus

Une réalité plus complexe

Seule l’analyse de logs permet vraiment de savoir ce qu’il se passe

#seocampus

Les pages uniques crawlées la granularité ultime du SEO

#seocampus

Les prochaines étapes

• Optimiser les temps de chargement serveur

• Utiliser une architecture basée sur le Cache

serveur + navigateur

• Retravailler la profondeur des pages importantes

• Maitriser l’InRank en optimisant le linking interne

Utiliser l’API d’oncrawl pour construire des dashboard de reporting pour

le top managnment

#seocampus

Avec OnCrawl adoptez

les reflexes “360° SEO

VIEW”

#seocampus

Comment suivre son budget… gratuitement !

Avec l’Analyseur de Logs SEO Open Source d’OnCrawl,

découvrez comment Google et les robots se comportent

sur votre site

• OnCrawl ELK (ElasticSearch, LogStash, Kibana) est disponible

pour tous sur GitHub https://github.com/cogniteev/oncrawl-elk

• Surveillez toute l’activité des robots et les performances de pages

au quotidien

• Contrôlez le taux de crawl de chaque robot pour n’importe quel

groupe de pages

• Notre stack est agnostique en termes de formats de logs mais

certains d’entre eux nécessiteront peut être une configuration

supplémentaire

#seocampus

Ce que la solution gratuite ne fera pas ?

Croiser les données !

#seocampus

• Impact des KPI SEO sur les visites

• Pages crawlées vs pages visitées vs pages indexées

• Pages actives vs pages non actives par clusters

• Taux de crawl par groupes de pages

• Fréquence de crawl par profondeur

• Fréquence de crawl par popularité

• Fréquence de crawl par nombre de mots

• Taux de crawl par temps de chargement

• Taux de crawl par volume de texte

Les bonnes données à croiser

Toutes ces données doivent être suivies dans le temps

La création d’un dashboard de pilotage est un plus

#seocampus

Savoir être constant s’appelle être

éclairé…

Lao TseuVIe s. av. J.-C.

#seocampus

Vos questions

#seocampus

Quels sont les 2 facteurs essentiels du

Crawl Google ?

Les questions

#seocampus

Citez un des sites pour lequel Philippe

Laine à travaillé

Les questions

#seocampus

A quoi correspond le status code 418 ?

Les questions

#seocampus

Comment s’appelle notre programme de

formation à OnCrawl ?

Les questions

MERCI !

hello@oncrawl.com

Follow us : @Oncrawl