Advertisement
Advertisement

More Related Content

Advertisement
Advertisement

Crawl budget (Vladimír Saur)

 1. CRAWL BUDGET VLADIMÍR SAUR saur@dedouch.cz @dedouch
 2. JAKÝ JE CRAWL BUDGET VAŠEHO WEBU?
 3. JAKÝ JE CRAWL BUDGET VAŠEHO WEBU?
 4. JE TO MOC?
 5. CO OVLIVŇUJE PŘIDĚLENÝ CRAWL BUDGET?
 6. CO OVLIVŇUJE PŘIDĚLENÝ CRAWL BUDGET? • Počet stránek webu • Rank/popularita • Častost aktualizace • Rychlost webu/odezvy serveru
 7. SEZNAM VS. GOOGLE
 8. SEZNAMBOT robots.txt 552x homepage 10x sitemap 16x URL GET Vše 20 700 27 600 HTML 11 400 15 200 Obrázky 9 300 11 700 <lastmod> Stahuje se i se starším datem
 9. GOOGLEBOT URL GET POST OPTIONS Vše 85 700 304 700 14 400 130 HTML 52 500 103 100 14 400 130 Obrázky 32 700 79 900 Fonty 5 32 000 CSS 1 2 000 Javascript 15 86 700 <lastmod> Stahuje jen poslední datum (aktuální den), starší ne robots.txt 68x homepage 196x sitemap 11x
 10. JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT? Velký počet URL s nízkou hodnotou • Duplicity • Podobnosti • Soft errors
 11. JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT? Další linkované soubory • Javascripty • CSS • Fonty
 12. JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT? Technické nedostatky • Redirect chains • URL bez obsahu
 13. JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT? SPA (Single-Page Applications) Indexace pomocí hashbang: 1. www.example.com/#!klic1=hod nota1&klic2=hodnota2 2. <meta name="fragment" content="!"> 3. www.example.com/? _escaped_fragment_=klic1=hod nota1%26klic2=hodnota2
 14. ŘÍZENÍ CRAWLINGU – CO (TÉMĚŘ) NEFUNGUJE? • Meta robots • X-Robots-Tag • Javascriptové odkazy • Kanonizace
 15. ŘÍZENÍ CRAWLINGU – CO MŮŽE FUNGOVAT? • Sitemaps • Google Search Console – parametry • Robots.txt • If-Modified-Since v HTTP hlavičce
 16. SITEMAPS <?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://www.example.com/</loc> <lastmod>2005-01-01</lastmod> <changefreq>monthly</changefreq> <priority>0.8</priority> </url> </urlset>
 17. GOOGLE SEARCH CONSOLE – PARAMETRY
 18. ROBOTS.TXT User-agent: * Disallow: / User-agent: SeznamBot Disallow: User-agent: googlebot Disallow: /cat*.php Disallow: /cat*.php3$
 19. ROBOTS.TXT 2.0 User-agent: * Robot-version: 2.0 Disallow: /test* Disallow: /ko?? Disallow: /file? Disallow: /[0-9][^0-9]*
 20. ? VLADIMÍR SAUR saur@dedouch.cz @dedouch
Advertisement