Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Crawl budget (Vladimír Saur)

5,988 views

Published on

Co to je crawl budget a proč byste se o něj měli zajímat? U jakých webů jej má smysl řešit, u jakých naopak ne? Jakým způsobem můžete ovlivnit, jak robot vyhledávače stahuje vaše stránky? A má vůbec smysl robota nějak limitovat?

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

Crawl budget (Vladimír Saur)

  1. 1. CRAWL BUDGET VLADIMÍR SAUR saur@dedouch.cz @dedouch
  2. 2. JAKÝ JE CRAWL BUDGET VAŠEHO WEBU?
  3. 3. JAKÝ JE CRAWL BUDGET VAŠEHO WEBU?
  4. 4. JE TO MOC?
  5. 5. CO OVLIVŇUJE PŘIDĚLENÝ CRAWL BUDGET?
  6. 6. CO OVLIVŇUJE PŘIDĚLENÝ CRAWL BUDGET? • Počet stránek webu • Rank/popularita • Častost aktualizace • Rychlost webu/odezvy serveru
  7. 7. SEZNAM VS. GOOGLE
  8. 8. SEZNAMBOT robots.txt 552x homepage 10x sitemap 16x URL GET Vše 20 700 27 600 HTML 11 400 15 200 Obrázky 9 300 11 700 <lastmod> Stahuje se i se starším datem
  9. 9. GOOGLEBOT URL GET POST OPTIONS Vše 85 700 304 700 14 400 130 HTML 52 500 103 100 14 400 130 Obrázky 32 700 79 900 Fonty 5 32 000 CSS 1 2 000 Javascript 15 86 700 <lastmod> Stahuje jen poslední datum (aktuální den), starší ne robots.txt 68x homepage 196x sitemap 11x
  10. 10. JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT? Velký počet URL s nízkou hodnotou • Duplicity • Podobnosti • Soft errors
  11. 11. JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT? Další linkované soubory • Javascripty • CSS • Fonty
  12. 12. JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT? Technické nedostatky • Redirect chains • URL bez obsahu
  13. 13. JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT? SPA (Single-Page Applications) Indexace pomocí hashbang: 1. www.example.com/#!klic1=hod nota1&klic2=hodnota2 2. <meta name="fragment" content="!"> 3. www.example.com/? _escaped_fragment_=klic1=hod nota1%26klic2=hodnota2
  14. 14. ŘÍZENÍ CRAWLINGU – CO (TÉMĚŘ) NEFUNGUJE? • Meta robots • X-Robots-Tag • Javascriptové odkazy • Kanonizace
  15. 15. ŘÍZENÍ CRAWLINGU – CO MŮŽE FUNGOVAT? • Sitemaps • Google Search Console – parametry • Robots.txt • If-Modified-Since v HTTP hlavičce
  16. 16. SITEMAPS <?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://www.example.com/</loc> <lastmod>2005-01-01</lastmod> <changefreq>monthly</changefreq> <priority>0.8</priority> </url> </urlset>
  17. 17. GOOGLE SEARCH CONSOLE – PARAMETRY
  18. 18. ROBOTS.TXT User-agent: * Disallow: / User-agent: SeznamBot Disallow: User-agent: googlebot Disallow: /cat*.php Disallow: /cat*.php3$
  19. 19. ROBOTS.TXT 2.0 User-agent: * Robot-version: 2.0 Disallow: /test* Disallow: /ko?? Disallow: /file? Disallow: /[0-9][^0-9]*
  20. 20. ? VLADIMÍR SAUR saur@dedouch.cz @dedouch

×