Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
SERVER LOGY A JAK JE
POUŽÍT PRO
SEO
Co je vlastně log?
Tohle!
Ale Google to vysvětluje lépe :-)
Představ si tabulku běžců. Každý nový řádek s pozicí a časem je vlastně nový řádek logu
Jakýkoli přístup na web se zaznamená do access logu
✓ Server log
✓ Access log
✓ Error log
Pozor, logů je více. Budeme se bavit o access logu
WEB
LOGS
Který spolehlivě pokrývá největší část vašeho webu. I když udělá screaming frog v rámci
crawlingu dotaz, zapíše s...
K čemu nám můžou sloužit?
Dávají nám odpovědi! Jako třeba na:
Jak často mě boti crawlují?
Které stránky nejvíce navštěvují?
Jak často a kteří mě boti crawlují?
Které stránky prochází lidé a boti
se na ně nedostanou
Kde se dostávají na chybové stránky
Kde se uživatelé dostávají na chybové
stránky
Necrawluje někdo moje stránky?
A neschovává za bot user-agent?
Jaké stavové kódy dostávají při
průchodu webem uživatelé a boti?
Nedostávají se boti nebo uživatelé
tam, kam by neměli?
Využití?
✓ Optimalizace crawl budgetu
✓ Chyby v interním/externím prolinkování
✓ Identifikace priorit robotů
Typy zpracování
Zdroj: https://litabi.com/evolution-of-storage-devices/
GB
Pozor, jsou fakt velké... většinou v rámci GB či TB.
Stupně stupidity při otevírání velkých logu
Stupně stupidity při otevírání velkých logu
1)Zkusil jsem to prostě otevřít
Stupně stupidity při otevírání velkých logu
1)Zkusil jsem to prostě otevřít
7) Zkusil jsem to otevřít v Excelu
Static Real-time
Zpracování logů dělíme na statické a real-time zpracování.
Static
GNU +
Real-time
ELK
Docela drahá sranda...
GNU +
My si dneska budeme hrát s GNU.
Work Work
Macbooky a Linuxáci jsou v pohodě. Windowsáci si musí nainstalovat GOW.
Bit.ly/voknagnu
filetype:log inurl:access
Aneb jak si jednoduše najít podkladové logy
http://www.smallbusinessseospecialists.com/access.log
Tyto logy jsem použil já k ukázce.
GNU Basics
Podklady
- http://www.panix.com/~elflord/unix/grep.html
- http://www.grymoire.com/Unix/Awk.html
- https://docstore.mik.ua/...
--help
Pomoz!!!
>>
Export do ...
|
Pipeline
Grep "word" filename
Hledej v souboru
Sort
Seřaď výstup sestupně
Uniq
Vyhoď duplicity.
Uniq -c
Vyhoď duplicity a spočti jejich výskyt
Dotazy botů
grep "nazev-bota" soubor.log >> bot.log
Dotazy botů na chybové
stránky
grep "nazev-bota" soubor.log | grep "404" >>
error.log
Serverové chyby botů na
stránkách
grep "nazev-bota" soubor.log | grep "50" >>
error.log
Výpis přehledu stavových
kódů
awk "{print $9}" access.log | sort | uniq -c | sort
Výpis přehledu stavových
kódů pro Googlebota
grep "Googlebot" access.log | awk "{print $9}" | sort
| uniq -c | sort
Nejnavštěvovanější stránky
Googlebota
grep "Googlebot" access.log.txt | awk "{print $7,$9}"
| sort | uniq -c | sort
Nejnavštěvovanější chybové
stránky Googlebotem
grep "Googlebot" access.log.txt | grep "404" | awk
"{print $7,$9}" | sort |...
Nejnavštěvovanější parametry
grep "?" access.log.txt >> otazniky
Využití GNU
- Exporty z GA či GSC
- Práce s crawl logy Xenu a
Screaming Frog
- Zpracování dat z analýzy
interního prolinko...
Zpracování
V čem poté zpracovávat a vizualizovat výstupy?
A co dál?
Co by se třeba dalo dělat dál?
Třeba rozšířit logy o další metriky (počet interních/externích odkazů,...)
✓ ✗
Identifikovat stránky kam chodí boti a lidé ne.
Zdroj: https://www.ladyvirtual.cz/Mining dat o URL, ke kterému lze použít:
URL minery
Na co si dát pozor?
Disallow: /soubor/ <meta name="robots"
content="noindex,nofollow">
Pro noindex si bot stejně musí stáhnout obsah stránky. ...
Pozor na nekončné stránkování a zacyklení na něm.
Podívejte se do Search Console do sekce parametrů a zjistěte, které bot crawluje zbytečně a
odstřihněte je v robots.txt.
✗ Kanonizované
✗ Neindexovatelné
+ Pozor na skryté bloky
Pozor na to, kde a jak moc crawleři procházejí kanonizované a nei...
Pozor na tzv. thin content a míru jeho crawlingu boty.
Speed Matters
Rychlost načtení rozhoduje. V tomto případě hlavně rychlost odezvy serveru.
Zdroj: https://varvy.com/ifmodified.html
If-Modified-Since:
U webů, kde to dává smysl a obsah se tak čast nemění,používejt...
Dopady optimalizace
crawl budgetu
Seologer naživo - Analýza logů
Seologer naživo - Analýza logů
Seologer naživo - Analýza logů
Seologer naživo - Analýza logů
Seologer naživo - Analýza logů
Seologer naživo - Analýza logů
Seologer naživo - Analýza logů
Seologer naživo - Analýza logů
Seologer naživo - Analýza logů
Upcoming SlideShare
Loading in …5
×

Seologer naživo - Analýza logů

1,175 views

Published on

Prezentace s popisem z akce SEOloger naživo:
https://nazivo.seologer.cz/

Published in: Marketing
  • Be the first to comment

  • Be the first to like this

Seologer naživo - Analýza logů

  1. 1. SERVER LOGY A JAK JE POUŽÍT PRO SEO
  2. 2. Co je vlastně log?
  3. 3. Tohle!
  4. 4. Ale Google to vysvětluje lépe :-)
  5. 5. Představ si tabulku běžců. Každý nový řádek s pozicí a časem je vlastně nový řádek logu
  6. 6. Jakýkoli přístup na web se zaznamená do access logu
  7. 7. ✓ Server log ✓ Access log ✓ Error log Pozor, logů je více. Budeme se bavit o access logu
  8. 8. WEB LOGS Který spolehlivě pokrývá největší část vašeho webu. I když udělá screaming frog v rámci crawlingu dotaz, zapíše se tak i do access logu.
  9. 9. K čemu nám můžou sloužit?
  10. 10. Dávají nám odpovědi! Jako třeba na:
  11. 11. Jak často mě boti crawlují?
  12. 12. Které stránky nejvíce navštěvují?
  13. 13. Jak často a kteří mě boti crawlují?
  14. 14. Které stránky prochází lidé a boti se na ně nedostanou
  15. 15. Kde se dostávají na chybové stránky
  16. 16. Kde se uživatelé dostávají na chybové stránky
  17. 17. Necrawluje někdo moje stránky? A neschovává za bot user-agent?
  18. 18. Jaké stavové kódy dostávají při průchodu webem uživatelé a boti?
  19. 19. Nedostávají se boti nebo uživatelé tam, kam by neměli?
  20. 20. Využití?
  21. 21. ✓ Optimalizace crawl budgetu ✓ Chyby v interním/externím prolinkování ✓ Identifikace priorit robotů
  22. 22. Typy zpracování
  23. 23. Zdroj: https://litabi.com/evolution-of-storage-devices/ GB Pozor, jsou fakt velké... většinou v rámci GB či TB.
  24. 24. Stupně stupidity při otevírání velkých logu
  25. 25. Stupně stupidity při otevírání velkých logu 1)Zkusil jsem to prostě otevřít
  26. 26. Stupně stupidity při otevírání velkých logu 1)Zkusil jsem to prostě otevřít 7) Zkusil jsem to otevřít v Excelu
  27. 27. Static Real-time Zpracování logů dělíme na statické a real-time zpracování.
  28. 28. Static
  29. 29. GNU +
  30. 30. Real-time
  31. 31. ELK
  32. 32. Docela drahá sranda...
  33. 33. GNU + My si dneska budeme hrát s GNU.
  34. 34. Work Work
  35. 35. Macbooky a Linuxáci jsou v pohodě. Windowsáci si musí nainstalovat GOW.
  36. 36. Bit.ly/voknagnu
  37. 37. filetype:log inurl:access Aneb jak si jednoduše najít podkladové logy
  38. 38. http://www.smallbusinessseospecialists.com/access.log Tyto logy jsem použil já k ukázce.
  39. 39. GNU Basics
  40. 40. Podklady - http://www.panix.com/~elflord/unix/grep.html - http://www.grymoire.com/Unix/Awk.html - https://docstore.mik.ua/orelly/unix/sedawk/
  41. 41. --help Pomoz!!!
  42. 42. >> Export do ...
  43. 43. | Pipeline
  44. 44. Grep "word" filename Hledej v souboru
  45. 45. Sort Seřaď výstup sestupně
  46. 46. Uniq Vyhoď duplicity.
  47. 47. Uniq -c Vyhoď duplicity a spočti jejich výskyt
  48. 48. Dotazy botů grep "nazev-bota" soubor.log >> bot.log
  49. 49. Dotazy botů na chybové stránky grep "nazev-bota" soubor.log | grep "404" >> error.log
  50. 50. Serverové chyby botů na stránkách grep "nazev-bota" soubor.log | grep "50" >> error.log
  51. 51. Výpis přehledu stavových kódů awk "{print $9}" access.log | sort | uniq -c | sort
  52. 52. Výpis přehledu stavových kódů pro Googlebota grep "Googlebot" access.log | awk "{print $9}" | sort | uniq -c | sort
  53. 53. Nejnavštěvovanější stránky Googlebota grep "Googlebot" access.log.txt | awk "{print $7,$9}" | sort | uniq -c | sort
  54. 54. Nejnavštěvovanější chybové stránky Googlebotem grep "Googlebot" access.log.txt | grep "404" | awk "{print $7,$9}" | sort | uniq -c | sort
  55. 55. Nejnavštěvovanější parametry grep "?" access.log.txt >> otazniky
  56. 56. Využití GNU - Exporty z GA či GSC - Práce s crawl logy Xenu a Screaming Frog - Zpracování dat z analýzy interního prolinkování
  57. 57. Zpracování V čem poté zpracovávat a vizualizovat výstupy?
  58. 58. A co dál? Co by se třeba dalo dělat dál?
  59. 59. Třeba rozšířit logy o další metriky (počet interních/externích odkazů,...)
  60. 60. ✓ ✗ Identifikovat stránky kam chodí boti a lidé ne.
  61. 61. Zdroj: https://www.ladyvirtual.cz/Mining dat o URL, ke kterému lze použít:
  62. 62. URL minery
  63. 63. Na co si dát pozor?
  64. 64. Disallow: /soubor/ <meta name="robots" content="noindex,nofollow"> Pro noindex si bot stejně musí stáhnout obsah stránky. Pro větší vzory používejte Disallow na úrovni robots.txt.
  65. 65. Pozor na nekončné stránkování a zacyklení na něm.
  66. 66. Podívejte se do Search Console do sekce parametrů a zjistěte, které bot crawluje zbytečně a odstřihněte je v robots.txt.
  67. 67. ✗ Kanonizované ✗ Neindexovatelné + Pozor na skryté bloky Pozor na to, kde a jak moc crawleři procházejí kanonizované a neindexovatelné URL. A také pozor na bloky indexace, které nejsou přímo ve zdrojovém kódu (hlavička, odstřihnutí user-agenta,...)
  68. 68. Pozor na tzv. thin content a míru jeho crawlingu boty.
  69. 69. Speed Matters Rychlost načtení rozhoduje. V tomto případě hlavně rychlost odezvy serveru.
  70. 70. Zdroj: https://varvy.com/ifmodified.html If-Modified-Since: U webů, kde to dává smysl a obsah se tak čast nemění,používejte if-modified-since.
  71. 71. Dopady optimalizace crawl budgetu

×