Co to je crawl budget a proč byste se o něj měli zajímat? U jakých webů jej má smysl řešit, u jakých naopak ne? Jakým způsobem můžete ovlivnit, jak robot vyhledávače stahuje vaše stránky? A má vůbec smysl robota nějak limitovat?
GOOGLEBOT
URL GET POST OPTIONS
Vše 85 700 304 700 14 400 130
HTML 52 500 103 100 14 400 130
Obrázky 32 700 79 900
Fonty 5 32 000
CSS 1 2 000
Javascript 15 86 700
<lastmod>
Stahuje jen poslední
datum (aktuální
den), starší ne
robots.txt 68x
homepage 196x
sitemap 11x
JAK SI CRAWL BUDGET CO
NEJLÉPE VYPLÁCAT?
Velký počet URL
s nízkou
hodnotou
• Duplicity
• Podobnosti
• Soft errors
JAK SI CRAWL BUDGET CO
NEJLÉPE VYPLÁCAT?
Další linkované
soubory
• Javascripty
• CSS
• Fonty
JAK SI CRAWL BUDGET CO
NEJLÉPE VYPLÁCAT?
Technické
nedostatky
• Redirect chains
• URL bez obsahu
JAK SI CRAWL BUDGET CO
NEJLÉPE VYPLÁCAT?
SPA
(Single-Page
Applications)
Indexace pomocí hashbang:
1. www.example.com/#!klic1=hod
nota1&klic2=hodnota2
2. <meta name="fragment"
content="!">
3. www.example.com/?
_escaped_fragment_=klic1=hod
nota1%26klic2=hodnota2
ŘÍZENÍ CRAWLINGU – CO
(TÉMĚŘ) NEFUNGUJE?
• Meta robots
• X-Robots-Tag
• Javascriptové odkazy
• Kanonizace
ŘÍZENÍ CRAWLINGU – CO
MŮŽE FUNGOVAT?
• Sitemaps
• Google Search Console – parametry
• Robots.txt
• If-Modified-Since v HTTP hlavičce