Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
CRAWL
BUDGET
VLADIMÍR SAUR
saur@dedouch.cz
@dedouch
CO OVLIVŇUJE PŘIDĚLENÝ
CRAWL BUDGET?
• Počet stránek webu
• Rank/popularita
• Častost aktualizace
• Rychlost webu/odezvy s...
JAK SI CRAWL BUDGET
CO NEJLÉPE VYPLÁCAT?
• Velký počet URL s nízkou hodnotou
• Duplicity
• Podobnosti
• Soft errors
• Dalš...
JEŠTĚ STÁLE MÁME MOC
URL…
0
1000
2000
3000
4000
5000
6000
7000
0 1000 2000 3000 4000 5000 6000
traffic
počet URL
ŘÍZENÍ CRAWLINGU – CO
(TÉMĚŘ) NEFUNGUJE?
• Meta robots
• Javascriptové odkazy
• Kanonizace
ŘÍZENÍ CRAWLINGU – CO
MŮŽE FUNGOVAT?
• Meta robots v HTTP hlavičce?
• Sitemaps?
• Google Search Console – parametry
• Robo...
X-ROBOTS-TAG HTTP
HEADER
HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)
HTTP/1.1 200 OK...
SITEMAPS
<?xml version="1.0" encoding="UTF-8"?>
<urlset
xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>ht...
GOOGLE SEARCH
CONSOLE – PARAMETRY
ROBOTS.TXT
User-agent: *
Disallow: /
User-agent: SeznamBot
Disallow:
User-agent: googlebot
Disallow: /cat*.php
Disallow: /...
ROBOTS.TXT 2.0
User-agent: *
Robot-version: 2.0
Disallow: /test*
Disallow: /ko??
Disallow: /file?
Disallow: /[0-9][^0-9]*
...
?
VLADIMÍR SAUR
saur@dedouch.cz
@dedouch
AHOJ!
VLADIMÍR SAUR
saur@dedouch.cz
@dedouch
SEOloger: Optimalizace crawl budgetu (host: Vladimír Saur)
SEOloger: Optimalizace crawl budgetu (host: Vladimír Saur)
Upcoming SlideShare
Loading in …5
×

SEOloger: Optimalizace crawl budgetu (host: Vladimír Saur)

1,025 views

Published on

Co to je crawl budget a proč byste se měli o něj zajímat? U jakých webů jej má smysl řešit, u jakých naopak ne? Jakým způsobem můžete ovlivnit, jak robot vyhledávače stahuje vaše stránky – a má vůbec smysl robota nějak limitovat? Přijďte si popovídat o tom, jak neházet robotům klacky pod nohy.

Published in: Marketing
  • Be the first to comment

  • Be the first to like this

SEOloger: Optimalizace crawl budgetu (host: Vladimír Saur)

  1. 1. CRAWL BUDGET VLADIMÍR SAUR saur@dedouch.cz @dedouch
  2. 2. CO OVLIVŇUJE PŘIDĚLENÝ CRAWL BUDGET? • Počet stránek webu • Rank/popularita • Častost aktualizace • Rychlost webu/odezvy serveru
  3. 3. JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT? • Velký počet URL s nízkou hodnotou • Duplicity • Podobnosti • Soft errors • Další linkované soubory • Javascripty • CSS • Technické chyby • Redirect chains • URL, co nejsou URL • Like atp.
  4. 4. JEŠTĚ STÁLE MÁME MOC URL… 0 1000 2000 3000 4000 5000 6000 7000 0 1000 2000 3000 4000 5000 6000 traffic počet URL
  5. 5. ŘÍZENÍ CRAWLINGU – CO (TÉMĚŘ) NEFUNGUJE? • Meta robots • Javascriptové odkazy • Kanonizace
  6. 6. ŘÍZENÍ CRAWLINGU – CO MŮŽE FUNGOVAT? • Meta robots v HTTP hlavičce? • Sitemaps? • Google Search Console – parametry • Robots.txt OMEZENÍ CRAWLINGU OMEZENÍ INDEXACE OMEZENÍ TRAFFICU • Zrychlete web • Sežeňte si dost unikátního obsahu
  7. 7. X-ROBOTS-TAG HTTP HEADER HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: noindex (…) HTTP/1.1 200 OK Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: googlebot: nofollow X-Robots-Tag: otherbot: noindex, nofollow (…)
  8. 8. SITEMAPS <?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://www.example.com/</loc> <lastmod>2005-01-01</lastmod> <changefreq>monthly</changefreq> <priority>0.8</priority> </url> </urlset>
  9. 9. GOOGLE SEARCH CONSOLE – PARAMETRY
  10. 10. ROBOTS.TXT User-agent: * Disallow: / User-agent: SeznamBot Disallow: User-agent: googlebot Disallow: /cat*.php Disallow: /cat*.php3$
  11. 11. ROBOTS.TXT 2.0 User-agent: * Robot-version: 2.0 Disallow: /test* Disallow: /ko?? Disallow: /file? Disallow: /[0-9][^0-9]* https://napoveda.seznam.cz/cz/fulltext-hledani-v-internetu/robots-txt/robots-txt-verze-2/ http://www.conman.org/people/spc/robots2.html
  12. 12. ? VLADIMÍR SAUR saur@dedouch.cz @dedouch
  13. 13. AHOJ! VLADIMÍR SAUR saur@dedouch.cz @dedouch

×