Your SlideShare is downloading. ×
Deck seo campus 2011   utiliser les logs serveurs
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Deck seo campus 2011 utiliser les logs serveurs

6,222
views

Published on

Published in: Technology

2 Comments
4 Likes
Statistics
Notes
No Downloads
Views
Total Views
6,222
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
6
Comments
2
Likes
4
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Utiliser les logs serveurs
    Philippe YONNET
    Global SEO Strategist
    EasyRoommate / Vivastreet
    philippe@vivastreet.com
  • 2. Les logs serveurs c’est quoi ?
    Log
    -----------
    -----------
    -----------
    -----------
    -----------
    Enregistrement dela requête = ajout d’une ligne dans le fichier de logs
  • 3. Les logs serveurs c’est quoi ?
    Les « logs » sont des fichiers texte créés par les serveurs web.
    Chaque requête envoyée à un serveur web est enregistrée dans le fichier log.
    Chaque ligne du fichier de logs représente une requête http
  • 4. A quoi cela ressemble ?
    Format Apache par défaut
    194.116.215.20 - - [14/Nov/2005:22:28:57 +0000] “GET / HTTP/1.0″ 200 1644087.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET / HTTP/1.1″ 200 3682187.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F35-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 214687.113.68.91 - - [15/Nov/2005:22:45:56 +0000] “GET /index.php?=PHPE9568F34-D428-11d2-A769-00AA001ACF42 HTTP/1.1″ 200 4644
    Remarque : on ajoute en général d’autres champs comme :
    • Le referrer (et le query string : la chaine de paramètres)
    • 5. Le User Agent
    • 6. L’hôte
  • Quelles informations y trouve-t’on ?
    • L’adresse IP de la source
    • 7. L’identité du client
    • 8. Le nom de l’utilisateur distant (si http auth)
    • 9. Date, heure, fuseau de la requête
    • 10. La requête http://
    • 11. Le code réponserenvoyé par le serveur
    • 12. La taille du bloc de donnéesretourné par le serveur en octets
    • 13. Les “-” symbolisentune information manquante
  • Pourquoi pas une solution de web analytics
  • 14. Pb spécifique à Google Analytics : la source « autres »
    Près de 10% d’ « autres »…
    Comment fait-on si on veut justementanalyser ces urls là ?
  • 15. Usage n°1 : connaître les pages crawlées
    Identifier les urls des pages non crawlées, et identifier les raisons de cet « oubli » : pb technique, pagerank faible, duplicates, pages vides …
  • 16. Usage n°1ter : caractériser le comportement de crawl
    Les courbes de GWT concernent tout le site, et n’indiquent pas le nombre de pages uniques crawlées
    L’analyse des logs permet d’analyser les logs templates par template et de savoir si les pages sont crawlées plus souvent ou si plus de pages sont crawlées
  • 17. Usage n°2 : déterminer les pages qui reçoivent du trafic organique
    Les pages qui ne reçoivent pas de visites en provenance d’un moteur au cours d’un mois donné sont, soit non indexées, soit très mal classéesUne augmentation du ratio pages visitées sur pages ignoréesmesure en règle générale une meilleure indexation et de meilleurs classements
  • 18. Usage n°3 : analyser les requêtes qui rapportent du trafic pour une url donnée
    Ratios intéressant :
    Longueur des requêtes / type de pages
    Nombre d’expressions différentes / page
  • 19. Usage n°4 : identifier les pb techniques
    Erreurs 404, 403
    Pics d’erreur 500 si Asp .NET
    Pics de 301 non prévus après une mise à jour de site
  • 20. Usage n°5 : monitorer les perfs côté serveur
    Apache 2 :
    temps pour délivrer la page mesuré en microsecondes
    LogFormat "%h %l %u %t "%r" %>s %b "%{Referer}i" "%{User-Agent}i" %T/%D" combined
    Résultat
    [31/Jan/2008:14:19:07 +0000] "GET / HTTP/1.1" 200 7918 "" "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.11) Gecko/20061201 Firefox/2.0.0.11 (Ubuntu-feisty)" 0/95491
    Soit 0,095491 secondes
    Avec Apache 1,3 seul le temps en sec est disponible
    Ne pas confondre avec le temps de génération de la page
  • 21. COMMENT FAIRE ?
  • 22. 1. Vérifier que vos logs sont bien générés
  • 23. 2. Vérifiez le format de vos logs
    Les trois champs indispensables qui, pourtant, peuvent manquer dans vos logs
  • 24. 3. Utiliser une application du marché
    Awstats / Webalizer : peu d’infos SEO
  • 25. 3. Utiliser une application du marché : Urchin
  • 26. 3. Utiliser une application du marché : Urchin
  • 27. 3. Utiliser une application du marché
    SawMill
  • 28. 3. Utiliser une application du marché
    Sawmill
  • 29. 3. Utiliser une application du marché
    Analogx
    http://www.analog.cx/
  • 30. 3. Utiliser une application du marché
    Analogx
    http://www.reportmagic.org/index.html
  • 31. 4. Créer ses propres outils
  • 32. 4. Créer ses propres outils : les obstacles
    La volumétrie importante des données représente souvent un défi insurmontablepour le développeur du dimanche
  • 33. 5. Utiliser des outils spécialisés
    ssed et nawk : Outils Unix / Linux
    Awk, Nawk, Gawk sont des langages de
    traitement de lignes
    • Awk : l’ancêtre (se trouve plutôt sur plateforme Unix)
    • 34. Nawk: New Awk => disponible sur plateformes Linux (Ubuntu)
    • 35. Gawk : GNU Awk => version en licence GNU, disponible sur plateforme Linux
  • Quelques exemples de commandes awk
    awk -F" '{print $6}' combined_log | sort | uniq -c | sort –fr
    Affiche la liste des user agents triées par ordre décroissant de nombre de hits
    awk -F" '($6 ~ /Googlebot/){print $2}' combined_log | awk '{print $2}‘
    Affiche la liste des hits (visites) de Googlebot
    awk '($9 ~ /404/)' combined_log
    Liste les erreurs 404
  • 36. Merci !
    Si vous avez des questions, n’hésitez pas