Successfully reported this slideshow.
Your SlideShare is downloading. ×

Seologer naživo - Analýza logů

More Related Content

Related Books

Free with a 30 day trial from Scribd

See all

Seologer naživo - Analýza logů

  1. 1. SERVER LOGY A JAK JE POUŽÍT PRO SEO
  2. 2. Co je vlastně log?
  3. 3. Tohle!
  4. 4. Ale Google to vysvětluje lépe :-)
  5. 5. Představ si tabulku běžců. Každý nový řádek s pozicí a časem je vlastně nový řádek logu
  6. 6. Jakýkoli přístup na web se zaznamená do access logu
  7. 7. ✓ Server log ✓ Access log ✓ Error log Pozor, logů je více. Budeme se bavit o access logu
  8. 8. WEB LOGS Který spolehlivě pokrývá největší část vašeho webu. I když udělá screaming frog v rámci crawlingu dotaz, zapíše se tak i do access logu.
  9. 9. K čemu nám můžou sloužit?
  10. 10. Dávají nám odpovědi! Jako třeba na:
  11. 11. Jak často mě boti crawlují?
  12. 12. Které stránky nejvíce navštěvují?
  13. 13. Jak často a kteří mě boti crawlují?
  14. 14. Které stránky prochází lidé a boti se na ně nedostanou
  15. 15. Kde se dostávají na chybové stránky
  16. 16. Kde se uživatelé dostávají na chybové stránky
  17. 17. Necrawluje někdo moje stránky? A neschovává za bot user-agent?
  18. 18. Jaké stavové kódy dostávají při průchodu webem uživatelé a boti?
  19. 19. Nedostávají se boti nebo uživatelé tam, kam by neměli?
  20. 20. Využití?
  21. 21. ✓ Optimalizace crawl budgetu ✓ Chyby v interním/externím prolinkování ✓ Identifikace priorit robotů
  22. 22. Typy zpracování
  23. 23. Zdroj: https://litabi.com/evolution-of-storage-devices/ GB Pozor, jsou fakt velké... většinou v rámci GB či TB.
  24. 24. Stupně stupidity při otevírání velkých logu
  25. 25. Stupně stupidity při otevírání velkých logu 1)Zkusil jsem to prostě otevřít
  26. 26. Stupně stupidity při otevírání velkých logu 1)Zkusil jsem to prostě otevřít 7) Zkusil jsem to otevřít v Excelu
  27. 27. Static Real-time Zpracování logů dělíme na statické a real-time zpracování.
  28. 28. Static
  29. 29. GNU +
  30. 30. Real-time
  31. 31. ELK
  32. 32. Docela drahá sranda...
  33. 33. GNU + My si dneska budeme hrát s GNU.
  34. 34. Work Work
  35. 35. Macbooky a Linuxáci jsou v pohodě. Windowsáci si musí nainstalovat GOW.
  36. 36. Bit.ly/voknagnu
  37. 37. filetype:log inurl:access Aneb jak si jednoduše najít podkladové logy
  38. 38. http://www.smallbusinessseospecialists.com/access.log Tyto logy jsem použil já k ukázce.
  39. 39. GNU Basics
  40. 40. Podklady - http://www.panix.com/~elflord/unix/grep.html - http://www.grymoire.com/Unix/Awk.html - https://docstore.mik.ua/orelly/unix/sedawk/
  41. 41. --help Pomoz!!!
  42. 42. >> Export do ...
  43. 43. | Pipeline
  44. 44. Grep "word" filename Hledej v souboru
  45. 45. Sort Seřaď výstup sestupně
  46. 46. Uniq Vyhoď duplicity.
  47. 47. Uniq -c Vyhoď duplicity a spočti jejich výskyt
  48. 48. Dotazy botů grep "nazev-bota" soubor.log >> bot.log
  49. 49. Dotazy botů na chybové stránky grep "nazev-bota" soubor.log | grep "404" >> error.log
  50. 50. Serverové chyby botů na stránkách grep "nazev-bota" soubor.log | grep "50" >> error.log
  51. 51. Výpis přehledu stavových kódů awk "{print $9}" access.log | sort | uniq -c | sort
  52. 52. Výpis přehledu stavových kódů pro Googlebota grep "Googlebot" access.log | awk "{print $9}" | sort | uniq -c | sort
  53. 53. Nejnavštěvovanější stránky Googlebota grep "Googlebot" access.log.txt | awk "{print $7,$9}" | sort | uniq -c | sort
  54. 54. Nejnavštěvovanější chybové stránky Googlebotem grep "Googlebot" access.log.txt | grep "404" | awk "{print $7,$9}" | sort | uniq -c | sort
  55. 55. Nejnavštěvovanější parametry grep "?" access.log.txt >> otazniky
  56. 56. Využití GNU - Exporty z GA či GSC - Práce s crawl logy Xenu a Screaming Frog - Zpracování dat z analýzy interního prolinkování
  57. 57. Zpracování V čem poté zpracovávat a vizualizovat výstupy?
  58. 58. A co dál? Co by se třeba dalo dělat dál?
  59. 59. Třeba rozšířit logy o další metriky (počet interních/externích odkazů,...)
  60. 60. ✓ ✗ Identifikovat stránky kam chodí boti a lidé ne.
  61. 61. Zdroj: https://www.ladyvirtual.cz/Mining dat o URL, ke kterému lze použít:
  62. 62. URL minery
  63. 63. Na co si dát pozor?
  64. 64. Disallow: /soubor/ <meta name="robots" content="noindex,nofollow"> Pro noindex si bot stejně musí stáhnout obsah stránky. Pro větší vzory používejte Disallow na úrovni robots.txt.
  65. 65. Pozor na nekončné stránkování a zacyklení na něm.
  66. 66. Podívejte se do Search Console do sekce parametrů a zjistěte, které bot crawluje zbytečně a odstřihněte je v robots.txt.
  67. 67. ✗ Kanonizované ✗ Neindexovatelné + Pozor na skryté bloky Pozor na to, kde a jak moc crawleři procházejí kanonizované a neindexovatelné URL. A také pozor na bloky indexace, které nejsou přímo ve zdrojovém kódu (hlavička, odstřihnutí user-agenta,...)
  68. 68. Pozor na tzv. thin content a míru jeho crawlingu boty.
  69. 69. Speed Matters Rychlost načtení rozhoduje. V tomto případě hlavně rychlost odezvy serveru.
  70. 70. Zdroj: https://varvy.com/ifmodified.html If-Modified-Since: U webů, kde to dává smysl a obsah se tak čast nemění,používejte if-modified-since.
  71. 71. Dopady optimalizace crawl budgetu

Editor's Notes

  • Rozdělují se na statické a real-time
    To co budete mít, budou asi static co vám pošlou

×