Deck seo campus 2011 utiliser les logs serveurs

6,817 views

Published on

Published in: Technology
2 Comments
4 Likes
Statistics
Notes
No Downloads
Views
Total views
6,817
On SlideShare
0
From Embeds
0
Number of Embeds
3,519
Actions
Shares
0
Downloads
9
Comments
2
Likes
4
Embeds 0
No embeds

No notes for slide

Deck seo campus 2011 utiliser les logs serveurs

  1. 1. Utiliser les logs serveurs<br />Philippe YONNET<br />Global SEO Strategist<br />EasyRoommate / Vivastreet<br />philippe@vivastreet.com<br />
  2. 2. Les logs serveurs c’est quoi ?<br />Log<br />-----------<br />-----------<br />-----------<br />-----------<br />-----------<br />Enregistrement dela requête = ajout d’une ligne dans le fichier de logs<br />
  3. 3. Les logs serveurs c’est quoi ?<br />Les « logs » sont des fichiers texte créés par les serveurs web.<br />Chaque requête envoyée à un serveur web est enregistrée dans le fichier log.<br />Chaque ligne du fichier de logs représente une requête http<br />
  4. 4. A quoi cela ressemble ?<br />Format Apache par défaut<br />194.116.215.20 - - [14/Nov/2005:22:28:57 +0000] “GET / HTTP/1.0″ 200 1644087.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET / HTTP/1.1″ 200 3682187.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F35-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 214687.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F34-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 4644<br />Remarque : on ajoute en général d’autres champs comme :<br /><ul><li> Le referrer (et le query string : la chaine de paramètres)
  5. 5. Le User Agent
  6. 6. L’hôte </li></li></ul><li>Quelles informations y trouve-t’on ?<br /><ul><li>L’adresse IP de la source
  7. 7. L’identité du client
  8. 8. Le nom de l’utilisateur distant (si http auth)
  9. 9. Date, heure, fuseau de la requête
  10. 10. La requête http://
  11. 11. Le code réponserenvoyé par le serveur
  12. 12. La taille du bloc de donnéesretourné par le serveur en octets
  13. 13. Les “-” symbolisentune information manquante</li></li></ul><li>Pourquoi pas une solution de web analytics<br />
  14. 14. Pb spécifique à Google Analytics : la source « autres » <br />Près de 10% d’ « autres »…<br />Comment fait-on si on veut justementanalyser ces urls là ? <br />
  15. 15. Usage n°1 : connaître les pages crawlées <br />Identifier les urls des pages non crawlées, et identifier les raisons de cet « oubli » : pb technique, pagerank faible, duplicates, pages vides … <br />
  16. 16. Usage n°1ter : caractériser le comportement de crawl<br />Les courbes de GWT concernent tout le site, et n’indiquent pas le nombre de pages uniques crawlées<br />L’analyse des logs permet d’analyser les logs templates par template et de savoir si les pages sont crawlées plus souvent ou si plus de pages sont crawlées<br />
  17. 17. Usage n°2 : déterminer les pages qui reçoivent du trafic organique<br />Les pages qui ne reçoivent pas de visites en provenance d’un moteur au cours d’un mois donné sont, soit non indexées, soit très mal classéesUne augmentation du ratio pages visitées sur pages ignoréesmesure en règle générale une meilleure indexation et de meilleurs classements<br />
  18. 18. Usage n°3 : analyser les requêtes qui rapportent du trafic pour une url donnée<br />Ratios intéressant :<br />Longueur des requêtes / type de pages<br />Nombre d’expressions différentes / page<br />
  19. 19. Usage n°4 : identifier les pb techniques<br />Erreurs 404, 403<br />Pics d’erreur 500 si Asp .NET<br />Pics de 301 non prévus après une mise à jour de site<br />
  20. 20. Usage n°5 : monitorer les perfs côté serveur<br />Apache 2 : <br />temps pour délivrer la page mesuré en microsecondes<br />LogFormat "%h %l %u %t "%r" %>s %b "%{Referer}i" "%{User-Agent}i" %T/%D" combined<br />Résultat<br />[31/Jan/2008:14:19:07 +0000] "GET / HTTP/1.1" 200 7918 "" "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.11) Gecko/20061201 Firefox/2.0.0.11 (Ubuntu-feisty)" 0/95491<br />Soit 0,095491 secondes<br />Avec Apache 1,3 seul le temps en sec est disponible<br />Ne pas confondre avec le temps de génération de la page<br />
  21. 21. COMMENT FAIRE ?<br />
  22. 22. 1. Vérifier que vos logs sont bien générés<br />
  23. 23. 2. Vérifiez le format de vos logs<br />Les trois champs indispensables qui, pourtant, peuvent manquer dans vos logs<br />
  24. 24. 3. Utiliser une application du marché<br />Awstats / Webalizer : peu d’infos SEO<br />
  25. 25. 3. Utiliser une application du marché : Urchin<br />
  26. 26. 3. Utiliser une application du marché : Urchin<br />
  27. 27. 3. Utiliser une application du marché<br />SawMill<br />
  28. 28. 3. Utiliser une application du marché<br />Sawmill<br />
  29. 29. 3. Utiliser une application du marché<br />Analogx<br />http://www.analog.cx/<br />
  30. 30. 3. Utiliser une application du marché<br />Analogx<br />http://www.reportmagic.org/index.html<br />
  31. 31. 4. Créer ses propres outils<br />
  32. 32. 4. Créer ses propres outils : les obstacles<br />La volumétrie importante des données représente souvent un défi insurmontablepour le développeur du dimanche<br />
  33. 33. 5. Utiliser des outils spécialisés<br />ssed et nawk : Outils Unix / Linux<br />Awk, Nawk, Gawk sont des langages de <br />traitement de lignes<br /><ul><li>Awk : l’ancêtre (se trouve plutôt sur plateforme Unix)
  34. 34. Nawk: New Awk => disponible sur plateformes Linux (Ubuntu)
  35. 35. Gawk : GNU Awk => version en licence GNU, disponible sur plateforme Linux</li></li></ul><li>Quelques exemples de commandes awk<br />awk -F" '{print $6}' combined_log | sort | uniq -c | sort –fr<br />Affiche la liste des user agents triées par ordre décroissant de nombre de hits<br />awk -F" '($6 ~ /Googlebot/){print $2}' combined_log | awk '{print $2}‘<br />Affiche la liste des hits (visites) de Googlebot<br />awk '($9 ~ /404/)' combined_log<br />Liste les erreurs 404<br />
  36. 36. Merci !<br />Si vous avez des questions, n’hésitez pas<br />

×