31
Indexation et désindexation SEO Campus 14 mars 2013 Olivier Andrieu (Abondance) [email protected] http://www.abondance.com/

Désindexation

Embed Size (px)

Citation preview

Page 1: Désindexation

Indexation et désindexation

SEO Campus14 mars 2013Olivier Andrieu (Abondance)

[email protected]://www.abondance.com/

Page 2: Désindexation

Olivier Andrieu

Basé à Heiligenstein (67140)

- Premiers pas sur Internet en 1993

- Création de la société Abondance en 1996

- Audit, conseil, accompagnement, formations, etc.autour du référencement naturel (SEO)

Présentation

Page 3: Désindexation

1. Pourquoi désindexer ?

2. Que désindexer ?

3. Comment désindexer ?

4. Suivre une désindexation

Les slides seront en ligne demain

Indexation et désindexation

Page 4: Désindexation

Pourquoi désindexer ?

- Pour fournir aux internautes uniquement des pages de bonne qualité

- Pour améliorer le taux de rebond sur son site

- Pour améliorer le "pogo sticking" de Google

- Désindexer = parfois "ne pas encore indexer"

- Pour des raisons de confidentialité

- Pour "bétonner" la non-indexation d'un intranetou d'une zone accessible aux abonnés/clients…

- Pour éviter d'indexer des fichiers inutiles (CSS, JS, cgi-bin, etc.)

- Pour obliger l'internaute à venir sur votre site chercher un document

- Pour être en conformité avec les "guidelines" de Google(pages de résultats du moteur interne)

- Pour des problèmes de droits

- Pour faciliter le travail de crawl de Google

- Pour cause de diffamation ou demande à finalité juridique

- Pour interdire l'accès à des robots "exotiques”

- Pour éviter les foudres de Panda

Indexation et désindexation

Page 5: Désindexation

Les risques de la désindexation

- Moins de pages indexées = perte de confiancede la part de Google ?

- Moins de trafic de Longue Traîne ?

- Montrer aux autres les "zones d'ombre"du site

- La perte de transmission de PR (augmentation des "dangling pages")

Pourquoi s'embêter à désindexer ?

- On n'a pas l'habitude :-)

- Une pratique récente

- Pourquoi faire le boulot de Google à sa place ?

Indexation et désindexation

Page 6: Désindexation

Que désindexer ?

- Les pages en "duplicate content" ?

- Les pages obsolètes ?

- Les pages avec peu de contenu textuel

- Les pages peu intéressantes (formulaires)

- Les images (copyright ?)

- Les versions de test d'un site web

- Les pages de résultats de votre moteur interne

- Des pages diffamantes

Globalement, les pages qui n'apportent pas une réponse satisfaisante aux internautes si on les trouve dans les SERP, notamment si elles sont présentes en grande quantité sur votre site…

- Rappel : Google demande que vous ne désindexiez pas les JS et CSS (http://www.abondance.com/actualites/20120326-11319-matt-cutts-laissez-googlebot-crawler-vos-css-et-javascript.html).

Indexation et désindexation

Page 7: Désindexation

Que désindexer ?

- Les pages en "duplicate content" ?

Exemples :

- Mêmes produits dans des couleurs différentes- Même article dans des rubriques différentes- Article repris depuis une source originale- DUST (Duplicate URL, Same Text)

A priori, préférer la balise canonicalqui transfère les backlinks des pages dupliquéesvers les canoniques.

La désindexation peut être obligatoiresi la source le demande (mais c'est dommagepour tout le monde, la canonical est préférable)

Problématique des contenus disponibles sous différents formats (Doc, PDF, etc.)

Indexation et désindexation

Page 8: Désindexation

Que désindexer ?

- Les pages obsolètes ?

A traiter au cas par cas…

Leur Contenu est-il vraiment totalement inintéressant ?Dans ce cas, ne vaut-il pas mieuxenvisager une 301 vers unepage plus intéressante ?

Indexation et désindexation

Page 9: Désindexation

Que désindexer ?

- Les pages de faible qualité

Oui, ça semble logique…

- Formulaires- Pages avec très peu de texte- Pages ne répondant pas potentiellement

aux questions des internautes

Mais désindexer uniquement si leur volume est important

Faites preuve de bon sens…

Indexation et désindexation

Page 10: Désindexation

Comment désindexer ?

- Fichier robots.txt(interdit le crawl)

- Balise meta "robots"(interdit l'indexation)

- Directive X-Robots-Tag(interdit l'indexation)

- Google Webmaster Tools(interdit l'indexation)

Indexation et désindexation

Page 11: Désindexation

Comment désindexer ?

- Fichier robots.txt(interdit le crawl)

http://www.votresite.com/robots.txt

User-agent:*Disallow: /images/Disallow: /fichiers

Indexation et désindexation

User-agent: *Disallow:

User-agent: *Disallow: /

User-agent: GooglebotDisallow:

User-agent: *Disallow: /

User-Agent: * Disallow: /repertoire/chemin/page.html Disallow: /repertoire/chemin/page2.html Disallow: /repertoire/chemin/page3.html

Opérations portes ouvertes

Fermé à double tour

Seul Googlebot est autorisé

User-Agent: * Disallow: /repertoire/chemin/page

Comment autoriser /repertoire/chemin/page2 au crawl ?

Désindexation d'URL précises

Page 12: Désindexation

Comment désindexer ?

- Fichier robots.txt(interdit le crawl)

- Les robots de Google >

- Liste des autres robots : http://www.robotstxt.org/db.html

Indexation et désindexation

Source : http://support.google.com/webmasters/bin/answer.py?hl=fr&answer=1061943

Page 13: Désindexation

Comment désindexer ?

- Fichier robots.txt(interdit le crawl)

- Eviter les jokers (*, $, etc.) qui ne sont compatibles qu'avec Google et BingDisallow: /*price=Disallow: /*{{config path=$Disallow: /*.flv$

- Idem pour "Allow:"

- Ne pas insérer de lignes blanches après le User-agent:

Indexation et désindexation

QuickTime™ and aGraphics decompressor

are needed to see this picture.

Page 14: Désindexation

Comment désindexer ?

- Fichier robots.txt(interdit le crawl)

- Le bloc le plus spécifique sera pris en compte :

User-agent: *Disallow:User-agent: BingbotDisallow: /

Attention aux directives contradictoires !

Indexation et désindexation

Page 15: Désindexation

Comment désindexer ?

- Fichier robots.txt(interdit le crawl)

- Testez vos robots.txt :

* Google Webmaster Tools (Etat de santé > URL bloquées)

* Outils dédiés : http://tool.motoricerca.info/robots-checker.phtml

Indexation et désindexation

Page 16: Désindexation

Comment désindexer ?

- Fichier robots.txt(interdit le crawl)

- Les pages sont connues de Google, les URL sont donc indexées mais pas explorées (mais un titre explicite est parfois indiqué par Google)

Indexation et désindexation

Page 17: Désindexation

Comment désindexer ?

- Fichier robots.txt(interdit le crawl)

- L'URL est indexée, pas le contenu.

- Mais elle est "présente" dans les SERP !

- Que se passe-t-il si le contenu étaitindexé avant la mise en place du robots.txt ?> Délai avant remise à jour des données

- Le fichier robots.txt d'un site n'est pas lu par Google à chaque visite.Il faut le créer bien avant la mise en ligne des contenus "interdits"

Indexation et désindexation

Page 18: Désindexation

Comment désindexer ?

- Fichier robots.txt(interdit le crawl)

- Attention si vous recevez ce type de message :

- Conclusion : le robots.txt est une solution plutôt à déconseiller

Indexation et désindexation

Page 19: Désindexation

Comment désindexer ?

- Balise meta robots(interdit l'indexation)

<meta name="robots" content="noindex,follow"><meta name="robots" content="noindex,nofollow">

<meta name="googlebot" content="noindex,follow">

- Fonctionne pour les pages web

- Ne fonctionne pas pour les autres formats (PDF, Word, PPT, images, etc.)

- Bien penser à ne pas mettre les URL dans le fichier robots.txt

Indexation et désindexation

Page 20: Désindexation

Comment désindexer ?

- Directive X-Robots-Tag(interdit l'indexation)

- Dans l'en-tête HTTP

- Convient pour tous les formats de documents.

- Bien penser à ne pas mettre les URL dans le fichier robots.txt

- Peut être intéressant pour ne pas indexer les pages https déjà disponibles en http (http://www.yapasdequoi.com/apache/2983-len-tete-x-robot-tag-ou-comment-vite-desindexer-des-pages.html)

- Plus d'infos : https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag

Indexation et désindexation

Page 21: Désindexation

Comment désindexer ?

- Directive X-Robots-Tag(interdit l'indexation)

Quelques exemples :

HTTP/1.1 200 OKDate: Tue, 25 May 2010 21:42:43 GMT(…)X-Robots-Tag: noindex(…)

HTTP/1.1 200 OKDate: Tue, 25 May 2010 21:42:43 GMT(…)X-Robots-Tag: noarchiveX-Robots-Tag: unavailable_after: 25 Jun 2013 15:00:00 PST(…)

Indexation et désindexation

HTTP/1.1 200 OKDate: Tue, 25 May 2010 21:42:43 GMT(…)X-Robots-Tag: googlebot: nofollowX-Robots-Tag: otherbot: noindex, nofollow(…)

Page 22: Désindexation

Comment désindexer ?

- Directive X-Robots-Tag(interdit l'indexation)

Indexation et désindexation

Source : https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag

Page 23: Désindexation

Comment désindexer ?

- Directive X-Robots-Tag(interdit l'indexation)

Exemple PHP :

header("X-Robots-Tag: noindex", true);

header("X-Robots-Tag: noindex, nofollow", true);

Exemple via le .htaccess :

<FilesMatch "\.doc$">Header set X-Robots-Tag "noindex, noarchive"</Files>

<FilesMatch "\.(doc|pdf)$">Header set X-Robots-Tag "noindex, noarchive"</Files>

Indexation et désindexation

Page 24: Désindexation

Comment désindexer ?

- Google Webmaster Tools(interdit l'indexation)

Indexation et désindexation

Le contenu supprimé à l'aide de cet outil est exclu de l'index Google pour une période minimale de 90 jours. Au cours de cette période, vous pouvez à tout moment utiliser l'outil de demande de suppression d'URL pour réintégrer votre contenu.

Voir : https://support.google.com/webmasters/bin/answer.py?hl=fr&answer=59819

Page 25: Désindexation

Comment désindexer ?

- Google Webmaster Tools(interdit l'indexation)

Indexation et désindexation

"Gardez à l'esprit que cet outil supprime toutes les versions d'une page (http/https et www/non www), même la version principale."Autre cas ici : http://support.google.com/webmasters/bin/answer.py?hl=fr&answer=1269119

Page 26: Désindexation

Comment suivre une désindexation ?

- Requête "site:"

- Google Webmaster Tools : Etat de santé > Etat de l'indexation

- Eventuellement, créer un Sitemap spécial "Désindexation" et le suivre dans les GWT

Indexation et désindexation

Page 27: Désindexation

Quelques infos supplémentaires

- Google n'a pas de limite de nombre de pagescrawlées / indexées par site.

- Vous ne pouvez pas désindexer lessites de vos concurrents :-)

- Si vous demandez à Google de désindexer un contenu pour cause de diffamation ou autre motif, le seul moyen d'arriver à vos fins est de faire un procès…

- Mais vous pouvez faire une demande Digital Millennium Copyright Act (DMCA) (http://www.google.fr/intl/fr/dmca.html) en cas de violation des droits d’auteur

Indexation et désindexation

Page 28: Désindexation

Conclusion

- La désindexation, une pratique nouvellemais parfois utile et nécessaire

- Séparer le bon grain de l’ivraie sur son site

- Ne donner à manger à Goole que ce qu’il peut bien digérer

- Préférer la balise meta “robots”et la directive X-Robots-Tag

Indexation et désindexation

Page 29: Désindexation

Quelques liens :

Protocole robots.txt et standards associés : http://www.robotstxt.org/

Page de référence de Google sur les balises meta robots et x-robots-tag : https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag

Pages de référence de Google sur le fichier robots.txt et les extensions du standard propres à ce moteur :

http://googlewebmastercentral.blogspot.fr/2008/06/improving-on-robots-exclusion-protocol.html

http://support.google.com/webmasters/bin/answer.py?hl=fr&answer=156449&from=40367&r d=1

https://developers.google.com/webmasters/control-crawl-index/docs/faq

Indexation et désindexation

Page 30: Désindexation

Indexation et désindexation

MERCI !!Merci à Philippe Yonnet et David Degrelle

pour la relecture et les suggestions :))

Page 31: Désindexation

CONTENT IS KING, LINK IS HIS QUEEN, OPTIMIZED CONTENT IS EMPEROR !!!

Le référencement sert à donner une bonne visibilité à un contenu de qualité !

Support proposé par Olivier Andrieu

[email protected]

Indexation et désindexation