28
Utiliser les logs serveurs Philippe YONNET Global SEO Strategist EasyRoommate / Vivastreet [email protected]

Deck seo campus 2011 utiliser les logs serveurs

Embed Size (px)

Citation preview

Page 1: Deck seo campus 2011   utiliser les logs serveurs

Utiliser les logs serveurs

Philippe YONNETGlobal SEO StrategistEasyRoommate / [email protected]

Page 2: Deck seo campus 2011   utiliser les logs serveurs

Les logs serveurs c’est quoi ?

-------------------------------------------------------

Enregistrement dela requête = ajout d’une ligne dans le fichier de logs

Log

Page 3: Deck seo campus 2011   utiliser les logs serveurs

Les logs serveurs c’est quoi ?

Les « logs » sont des fichiers texte créés par les serveurs web.

Chaque requête envoyée à un serveur web est enregistrée dans le fichier log.

Chaque ligne du fichier de logs représente une requête http

Page 4: Deck seo campus 2011   utiliser les logs serveurs

A quoi cela ressemble ?

194.116.215.20 - - [14/Nov/2005:22:28:57 +0000] “GET / HTTP/1.0″ 200 1644087.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET / HTTP/1.1″ 200 3682187.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F35-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 214687.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F34-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 4644

Format Apache par défaut

Remarque : on ajoute en général d’autres champs comme :- Le referrer (et le query string : la chaine de paramètres)- Le User Agent- L’hôte

Page 5: Deck seo campus 2011   utiliser les logs serveurs

Quelles informations y trouve-t’on ?

• L’adresse IP de la source

• L’identité du client

• Le nom de l’utilisateur distant (si http auth)

• Date, heure, fuseau de la requête

• La requête http://

• Le code réponse renvoyé par le serveur

• La taille du bloc de données retourné par le serveur en octets

• Les “-” symbolisent une information manquante

Page 6: Deck seo campus 2011   utiliser les logs serveurs

Pourquoi pas une solution de web analytics

Deux types de mesure différents et

complémentaires

Le problème des « signaux faibles »

Le problème de la volumétrie des

rapports

Tracker correctement un robot avec un tag

javascript : impossible

Les « autres »

Page 7: Deck seo campus 2011   utiliser les logs serveurs

Pb spécifique à Google Analytics : la source « autres »

Près de 10% d’ « autres »…Comment fait-on si on veut justement

analyser ces urls là ?

Page 8: Deck seo campus 2011   utiliser les logs serveurs

Usage n°1 : connaître les pages crawlées

Homes / Rubriques

Pages catégories

Fiches Produits

Pages recherches

Pages Tags Divers0

200000

400000

600000

800000

1000000

1200000

1400000

1600000

1800000

Non crawlées

Crawlées

Identifier les urls des pages non crawlées, et identifier les raisons de cet « oubli » : pb technique, pagerank faible, duplicates, pages vides …

Page 9: Deck seo campus 2011   utiliser les logs serveurs

Usage n°1ter : caractériser le comportement de crawl

Les courbes de GWT concernent tout le site, et n’indiquent pas le nombre de pages uniques crawlées

23-J

un-1

0

24-J

un-1

0

25-J

un-1

0

26-J

un-1

0

27-J

un-1

0

28-J

un-1

0

29-J

un-1

0

30-J

un-1

0

01-J

ul-10

02-J

ul-10

03-J

ul-10

04-J

ul-10

05-J

ul-10

06-J

ul-10

07-J

ul-10

08-J

ul-10

09-J

ul-10

10-J

ul-10

11-J

ul-10

0

2000

4000

6000

8000

10000

12000

14000

16000

18000

20000

Crawl des fiches produits : pages uniques

Crawl des fiches produits : avec recrawl

L’analyse des logs permet d’analyser les logs

templates par template et de savoir si les pages sont crawlées plus souvent ou si

plus de pages sont crawlées

Page 10: Deck seo campus 2011   utiliser les logs serveurs

Usage n°2 : déterminer les pages qui reçoivent du trafic organique

Homes / Rubriques

Pages catégories

Fiches Produits

Pages recherches

Pages Tags

Divers0

200000

400000

600000

800000

1000000

1200000

1400000

1600000

1800000

Non crawlées

Crawlées

Les pages qui ne reçoivent pas de visites en provenance d’un moteur au cours d’un mois donné sont, soit non indexées, soit très mal classées

Une augmentation du ratio pages visitées sur pages ignoréesmesure en règle générale une meilleure indexation et de meilleurs classements

Page 11: Deck seo campus 2011   utiliser les logs serveurs

Usage n°3 : analyser les requêtes qui rapportent du trafic pour une url donnée

Ratios intéressant :

Longueur des requêtes / type de pagesNombre d’expressions différentes / page

Page 12: Deck seo campus 2011   utiliser les logs serveurs

Usage n°4 : identifier les pb techniques

Erreurs 404, 403Pics d’erreur 500 si Asp .NETPics de 301 non prévus après une mise à jour de site

Page 13: Deck seo campus 2011   utiliser les logs serveurs

Usage n°5 : monitorer les perfs côté serveur

Apache 2 : temps pour délivrer la page mesuré en microsecondes

LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\" %T/%D" combined

Résultat[31/Jan/2008:14:19:07 +0000] "GET / HTTP/1.1" 200 7918 "" "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.11) Gecko/20061201 Firefox/2.0.0.11 (Ubuntu-feisty)" 0/95491

Soit 0,095491 secondes

Avec Apache 1,3 seul le temps en sec est disponible

Ne pas confondre avec le temps de génération de la page

Page 14: Deck seo campus 2011   utiliser les logs serveurs

COMMENT FAIRE ?

Page 15: Deck seo campus 2011   utiliser les logs serveurs

1. Vérifier que vos logs sont bien générés

Les logs prennent de la place

Personne ne les consulte

Les logs finissent par être désactivés volontairement ou involontairement

Page 16: Deck seo campus 2011   utiliser les logs serveurs

2. Vérifiez le format de vos logs

HostSéparer

correctement les données des sous domaines

ReferrerIdentifier les

visites organiques

Identifier les backlinks

User Agent

Identifier les visites des

robots

Les trois champs indispensables qui, pourtant, peuvent manquer dans vos logs

Page 17: Deck seo campus 2011   utiliser les logs serveurs

3. Utiliser une application du marché

Awstats / Webalizer : peu d’infos SEO

Page 18: Deck seo campus 2011   utiliser les logs serveurs

3. Utiliser une application du marché : Urchin

Page 19: Deck seo campus 2011   utiliser les logs serveurs

3. Utiliser une application du marché : Urchin

Rapports riches, graphes

Relativement facile à installer et à utiliser

QualitésGourmand en ressources

Plante facilement sur des logs corrompus

Analyse SEO limitée

Défauts

Page 20: Deck seo campus 2011   utiliser les logs serveurs

3. Utiliser une application du marché

SawMill

Page 21: Deck seo campus 2011   utiliser les logs serveurs

3. Utiliser une application du marché

Gère des volumétries importantes

API disponible

QualitésGraphes intégrés indigents

Plus fiable en version Linux

Analyse SEO limitée

Défauts

Sawmill

Page 22: Deck seo campus 2011   utiliser les logs serveurs

3. Utiliser une application du marché

Analogx http://www.analog.cx/

Page 23: Deck seo campus 2011   utiliser les logs serveurs

3. Utiliser une application du marché

Analogx http://www.reportmagic.org/index.html

Page 24: Deck seo campus 2011   utiliser les logs serveurs

4. Créer ses propres outils

Permet de créer un monitoring personnalisé

Alertes pb de crawl Alertes rescodes

Permet de s’adapter à tous les contextes

CDN, proxies, load balancers Formats exotiques, lignes corrompues

Permet de réaliser toutes les analyses détaillées

Rescodes Crawl Referrers Visites organiques Mots clés

Page 25: Deck seo campus 2011   utiliser les logs serveurs

4. Créer ses propres outils : les obstacles

Utiliser les bons algorithmes

Utiliser un langage bas niveau

(langage C par exemple)

Utiliser une machine puissante

(système 64 bits, gros proc, mémoire >

4 Go)

Stocker des volumes impressionnant de

données

(téraoctets)

Etre rigoureux(nombreuses sources

d’erreur possibles)

La volumétrie importante des données représente souvent un défi insurmontablepour le développeur du dimanche

Page 26: Deck seo campus 2011   utiliser les logs serveurs

5. Utiliser des outils spécialisés

ssed et nawk : Outils Unix / Linux

Awk, Nawk, Gawk sont des langages de

traitement de lignes• Awk : l’ancêtre (se trouve plutôt sur plateforme Unix)

• Nawk : New Awk => disponible sur plateformes Linux (Ubuntu)

• Gawk : GNU Awk => version en licence GNU, disponible sur plateforme Linux

Page 27: Deck seo campus 2011   utiliser les logs serveurs

Quelques exemples de commandes awk

awk -F\" '{print $6}' combined_log | sort | uniq -c | sort –fr

Affiche la liste des user agents triées par ordre décroissant de nombre de hits

awk -F\" '($6 ~ /Googlebot/){print $2}' combined_log | awk '{print $2}‘

Affiche la liste des hits (visites) de Googlebot

awk '($9 ~ /404/)' combined_log

Liste les erreurs 404

Page 28: Deck seo campus 2011   utiliser les logs serveurs

Merci !

Si vous avez des questions, n’hésitez pas