Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Upcoming SlideShare
Google Tag Manager Advanced - SEO CAMPIXX 2016
Next
Download to read offline and view in fullscreen.

Share

Workshop Logfile Analyse mit Splunk

Download to read offline

Campixx Session 2017: Logfile Analyse mit Splunk

Logfiles verraten eine Menge darüber, wie sich Google auf den eigenen Seiten bewegt. Aber nicht nur das. PageSpeed Monster, Link Juice Probleme und vieles mehr lassen sich durch einen tiefen Blick mit Tools wie Splunk identifizieren.

Related Books

Free with a 30 day trial from Scribd

See all
  • Be the first to like this

Workshop Logfile Analyse mit Splunk

  1. 1. @mindbox_dd@hannes3686 Logfile Analyse mit Splunk
  2. 2. @mindbox_dd@hannes3686
  3. 3. @mindbox_dd@hannes3686 Aufbau von Logdaten domain.de-2017-02-16:66.249.66.188 - - [16/Feb/2017:00:40:41 +0100] "GET / mieten/ http/1.1" 301 29737 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" Web Access Logfiles erfassen jeden einzelnen Zugriff
  4. 4. @mindbox_dd@hannes3686 domain.de-2017-02-16:66.249.66.188 - - [16/Feb/2017:00:40:41 +0100] "GET / mieten/ http/1.1" 301 29737 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" HTTP User Agent = Visitenkarte des Browsers Aufbau von Logdaten
  5. 5. @mindbox_dd@hannes3686 domain.de-2017-02-16:66.249.66.188 - - [16/Feb/2017:00:40:41 +0100] "GET / mieten/ http/1.1" 301 29737 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" IP Adresse des Besuchers Aufbau von Logdaten
  6. 6. @mindbox_dd@hannes3686 domain.de-2017-02-16:66.249.66.188 - - [16/Feb/2017:00:40:41 +0100] "GET / mieten/ http/1.1" 301 29737 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" IP Adresse des Besuchers Achtung! Personenbeziehbare Daten. https://www.heise.de/newsticker/meldung/BGH-verhandelt-zur-Zulaessigkeit- von-IP-Adressen-Speicherung-auf-Websites-3625336.html Aufbau von Logdaten
  7. 7. @mindbox_dd@hannes3686 domain.de-2017-02-16:66.249.66.188 - - [16/Feb/2017:00:40:41 +0100] "GET / mieten/ http/1.1" 301 29737 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" geladene Bytes Aufbau von Logdaten
  8. 8. @mindbox_dd@hannes3686 domain.de-2017-02-16:66.249.66.188 - - [16/Feb/2017:00:40:41 +0100] "GET / mieten/ http/1.1" 301 29737 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" HTTP Status Code Aufbau von Logdaten
  9. 9. @mindbox_dd@hannes3686 domain.de-2017-02-16:66.249.66.188 - - [16/Feb/2017:00:40:41 +0100] "GET / mieten/ http/1.1" 301 29737 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" aufgerufene URL Aufbau von Logdaten
  10. 10. @mindbox_dd@hannes3686 domain.de-2017-02-16:66.249.66.188 - - [16/Feb/2017:00:40:41 +0100] "GET / mieten/ http/1.1" 301 29737 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" Zeitstempel Aufbau von Logdaten
  11. 11. @mindbox_dd@hannes3686 domain.de-2017-02-16:66.249.66.188 - - [16/Feb/2017:00:40:41 +0100] "GET / mieten/ http/1.1" 301 29737 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" Domain + Tag Aufbau von Logdaten
  12. 12. @mindbox_dd@hannes3686 Aufbau von Logdaten jeder Zugriff = 1 Zeile bedeutet Millionen von Datensätzen schon bei mittelgroßen Websites Logfile im *.txt Format ist schnell mehrere GB groß
  13. 13. @mindbox_dd@hannes3686 Herausforderung
  14. 14. @mindbox_dd@hannes3686 Lösung: Splunk Business Intelligence Software => ideal für Big Data
  15. 15. @mindbox_dd@hannes3686 Lösung: Splunk Kostenlos: bis 500MB zusätzliche Daten / Tag
  16. 16. @mindbox_dd@hannes3686 Herausforderung !$#&%$ 5GB!?
  17. 17. @mindbox_dd@hannes3686 Gepackte Logdatei verwenden
  18. 18. @mindbox_dd@hannes3686 … oder Logdatei verkleinern
  19. 19. @mindbox_dd@hannes3686 Vorbereitung | Terminalbefehle
  20. 20. @mindbox_dd@hannes3686 Vorbereitung | Logdatei verkleinern 1. Terminal aufrufen 2. In das Verzeichnis mit den entpackten Logdateien wechseln 3. Mit grep-Befehl relevante Zeilen in eine neue Datei kopieren Mac
  21. 21. @mindbox_dd@hannes3686 Vorbereitung | Terminalbefehle pwd - Gibt aus, in welchem Ordner man sich befindet ls - Listet Dateien und Unterordner auf cd Verzeichnisname - wechselt Unterverzeichnis cd .. - wechselt ins übergeordnete Verzeichnis Mac
  22. 22. @mindbox_dd@hannes3686 Vorbereitung | Terminalbefehle Durchsucht alle Dateien im Verzeichnis & kopiert relevante Googlebot-Zeilen in die neue Datei logfile.txt Grep „66.249.“ *.*>logfile.txt Mac
  23. 23. @mindbox_dd@hannes3686 Vorbereitung | Logdatei verkleinern 1. Eingabeaufforderung aufrufen 2. In das Verzeichnis mit den entpackten Logdateien wechseln 3. Mit findstr-Befehl relevante Zeilen in eine neue Datei kopieren Windows
  24. 24. @mindbox_dd@hannes3686 Vorbereitung | Terminalbefehle pwd - Gibt aus, in welchem Ordner man sich befindet ls - Listet Dateien und Unterordner auf cd Verzeichnisname - wechselt Unterverzeichnis cd .. - wechselt ins übergeordnete Verzeichnis Windows
  25. 25. @mindbox_dd@hannes3686 Vorbereitung | Terminalbefehle Durchsucht alle Dateien im Verzeichnis & kopiert relevante Googlebot-Zeilen in die neue Datei logfile.txt findstr /I /C:66.249 *.* >>logfile.txt Windows
  26. 26. @mindbox_dd@hannes3686 Splunk | Datenanalyse vorbereiten
  27. 27. @mindbox_dd@hannes3686 Splunk | Datenanalyse vorbereiten Logdaten bei Splunk importieren
  28. 28. @mindbox_dd@hannes3686 Splunk | Datenanalyse vorbereiten Logdaten bei Splunk importieren einmalig, einzelne Datei mehrere Dateien, Verzeichnis überwachen
  29. 29. @mindbox_dd@hannes3686 Splunk | Datenanalyse vorbereiten Logdaten bei Splunk importieren
  30. 30. @mindbox_dd@hannes3686 Splunk | Datenanalyse vorbereiten Typ der Datenquelle wählen: access_combined Splunk zerlegt die Zeilen automatisch in ihre Bestandteile und indiziert sie
  31. 31. @mindbox_dd@hannes3686 Splunk | Datenanalyse vorbereiten „Host“ definieren > beliebig definierbar, idealerweise wird Domainname gewählt
  32. 32. @mindbox_dd@hannes3686 Splunk | Datenanalyse vorbereiten „Index“ neu anlegen, sonst werden später Daten verschiedener Server gemischt
  33. 33. @mindbox_dd@hannes3686 Splunk | Datenanalyse vorbereiten Name definieren genügt
  34. 34. @mindbox_dd@hannes3686 Splunk | Oberfläche Befehlszeile Zeitraum wählbar extrahierte Felder Suchtreffer
  35. 35. @mindbox_dd@hannes3686 Splunk | Oberfläche Wechsel zwischen Diagrammen & tabellarischen Daten
  36. 36. @mindbox_dd@hannes3686 Splunk | Oberfläche unterschiedliche Diagrammtypen wählbar
  37. 37. @mindbox_dd@hannes3686 Splunk | Analysen Jede Suche beinhaltet host & clientip, um nur Google-Einträge zur richtigen Seite zu analysieren.
  38. 38. @mindbox_dd@hannes3686 Splunk | Analysen Die wichtigsten Anweisungen: • Die häufigsten … - | top 10 FELDNAME
 • Diagramm mit Zeitverlauf - | timechart count by day - | timechart count by uri - | timechart span=1w count by uri • Tabellarische Statistik - | stats count by status • gewöhnliche Diagramme - | chart count by date_hour • Pipe „|“ startet einen Befehl
  39. 39. @mindbox_dd@hannes3686 Splunk | Analysen Suche nach IP = 18.452 Ereignisse Suche nach „googlebot“ = 19.082 Ereignisse 1. Generelles Crawl-Verhalten host="MBXIT-256-HaRi.local" clientip="66.249.*" | timechart count by day
  40. 40. @mindbox_dd@hannes3686 Splunk | Analysen 2. Welche URLs werden am häufigsten aufgesucht? host="MBXIT-256-HaRi.local" clientip="66.249.*" | top 10 uri Startseite, Favicon, robots.txt, Hauptkategorien / gut rankende Seiten stehen hier irrelevante URIs? => ggf. Optimierungsbedarf f. interne Verlinkung
  41. 41. @mindbox_dd@hannes3686 Splunk | Analysen 3. Mit welchen User-Agents greift der Bot am meisten zu? host="MBXIT-256-HaRi.local" clientip="66.249.*" | top 10 useragent
  42. 42. @mindbox_dd@hannes3686 Splunk | Analysen 4. Wird „Link Juice“ vergeudet? Gibt es Fehlerseiten?
  43. 43. @mindbox_dd@hannes3686 Splunk | Analysen 4. Wird „Link Juice“ vergeudet? Gibt es Fehlerseiten? host="MBXIT-256-HaRi.local" clientip="66.249.*" | stats count by status 4** - 5** vermeiden, 302-307 Codes prüfen Status Codes erklärt unter: https://de.wikipedia.org/wiki/HTTP-Statuscode
  44. 44. @mindbox_dd@hannes3686 Splunk | Analysen 5. Welche Seiten sind betroffen? host="MBXIT-256-HaRi.local" clientip="66.249.*" status=404 OR status=410 OR status=500 | stats count by uri host="MBXIT-256-HaRi.local" clientip="66.249.*" status=302 OR status=307 | stats count by uri host="MBXIT-256-HaRi.local" clientip="66.249.*" status>301 status<400 | stats count by status
  45. 45. @mindbox_dd@hannes3686 Splunk | Analysen 6. Sind Status-Code Probleme zeitlich bedingt? host="MBXIT-256-HaRi.local" clientip="66.249.*" status=500 | timechart count by date_hour host="MBXIT-256-HaRi.local" clientip="66.249.*" status=404 | timechart count by date_hour
  46. 46. @mindbox_dd@hannes3686 Splunk | Analysen 7. Sind Status-Code Probleme zeitlich bedingt? host="MBXIT-256-HaRi.local" clientip="66.249.*" status=404 | timechart limit=4 count by date_hour
  47. 47. @mindbox_dd@hannes3686 Splunk | Analysen 8. Auf welche Dateigrößen trifft Google am häufigsten? host="MBXIT-256-HaRi.local" clientip="66.249.*" | top 30 bytes Welche Größen treten am häufigsten auf? 5,7kb ist nicht groß - ggf. eine Ressource, die sehr oft vorkommt und optimiert werden kann host="MBXIT-256-HaRi.local" clientip="66.249.*" bytes=5729 | stats count by uri
  48. 48. @mindbox_dd@hannes3686 Splunk | Analysen 9. Welche Requests produzieren die größte Datenlast? host="MBXIT-256-HaRi.local" clientip="66.249.*" | stats max(bytes) count by uri
  49. 49. @mindbox_dd@hannes3686 Splunk | Analysen 10. Welche HTML-URLs produzieren die größte Datenlast? host="MBXIT-256-HaRi.local" clientip="66.249.*" uri!="*.pdf" AND uri!="*.jpg" | stats max(bytes) count by uri Bis zu 2,8MB für Quellcode!
  50. 50. @mindbox_dd@hannes3686 Splunk | Analysen 11. Wie verhält sich Google beim Crawling von Parameter-URLs host="MBXIT-256-HaRi.local" clientip="66.249*" uri="*?*" | timechart count by status
  51. 51. @mindbox_dd@hannes3686 Splunk | Analysen 12. Welche Parameter begegnen Google am häufigsten? neues Feld aus Logdaten extrahieren
  52. 52. @mindbox_dd@hannes3686 Splunk | Analysen 12. Welche Parameter begegnen Google am häufigsten? neues Feld aus Logdaten extrahieren
  53. 53. @mindbox_dd@hannes3686 Splunk | Analysen 12. Welche Parameter begegnen Google am häufigsten? Ich möchte einen regulären Ausdruck selbst schreiben (?<=[?|&])+(?<parameter>[a-zA-Z0-9]+)
  54. 54. @mindbox_dd@hannes3686 Splunk | Analysen 12. Welche Parameter begegnen Google am häufigsten? 299 Zugriffe über utm-Source in 2 Tagen? host="MBXIT-256-HaRi.local" clientip=„66.249.*" | chart count by param utm-Parameter in interner Linkstruktur verwendet
  55. 55. @mindbox_dd@hannes3686 Splunk | Analysen 12. Welche Parameter-URLs crawlt Google am häufigsten Website-Events werden nicht über Analytics-Parameter getrackt!
  56. 56. @mindbox_dd@hannes3686 Splunk | Monitoring Auswertungen als Dashboard fürs Monitoring jede Analyse lässt sich umwandeln
  57. 57. @mindbox_dd@hannes3686 Splunk | Monitoring Auswertungen als Dashboard fürs Monitoring
  58. 58. L e i p z i g , d e n 2 8 . N o v e m b e r 2 0 1 1 MÄRKTE VERSTEHEN MARKEN ENTWICKELN: DIE ZEBRA-GROUP

Campixx Session 2017: Logfile Analyse mit Splunk Logfiles verraten eine Menge darüber, wie sich Google auf den eigenen Seiten bewegt. Aber nicht nur das. PageSpeed Monster, Link Juice Probleme und vieles mehr lassen sich durch einen tiefen Blick mit Tools wie Splunk identifizieren.

Views

Total views

543

On Slideshare

0

From embeds

0

Number of embeds

5

Actions

Downloads

14

Shares

0

Comments

0

Likes

0

×