Crawl budget (Vladimír Saur)

•

0 likes•6,757 views

Co to je crawl budget a proč byste se o něj měli zajímat? U jakých webů jej má smysl řešit, u jakých naopak ne? Jakým způsobem můžete ovlivnit, jak robot vyhledávače stahuje vaše stránky? A má vůbec smysl robota nějak limitovat?

Data & Analytics

CRAWL
BUDGET
VLADIMÍR SAUR
saur@dedouch.cz
@dedouch

CO OVLIVŇUJE PŘIDĚLENÝ
CRAWL BUDGET?
• Počet stránek webu
• Rank/popularita
• Častost aktualizace
• Rychlost webu/odezvy serveru

SEZNAMBOT
robots.txt 552x
homepage 10x
sitemap 16x
URL GET
Vše 20 700 27 600
HTML 11 400 15 200
Obrázky 9 300 11 700
<lastmod>
Stahuje se i se starším
datem

GOOGLEBOT
URL GET POST OPTIONS
Vše 85 700 304 700 14 400 130
HTML 52 500 103 100 14 400 130
Obrázky 32 700 79 900
Fonty 5 32 000
CSS 1 2 000
Javascript 15 86 700
<lastmod>
Stahuje jen poslední
datum (aktuální
den), starší ne
robots.txt 68x
homepage 196x
sitemap 11x

JAK SI CRAWL BUDGET CO
NEJLÉPE VYPLÁCAT?
Velký počet URL
s nízkou
hodnotou
• Duplicity
• Podobnosti
• Soft errors

JAK SI CRAWL BUDGET CO
NEJLÉPE VYPLÁCAT?
Další linkované
soubory
• Javascripty
• CSS
• Fonty

JAK SI CRAWL BUDGET CO
NEJLÉPE VYPLÁCAT?
Technické
nedostatky
• Redirect chains
• URL bez obsahu

JAK SI CRAWL BUDGET CO
NEJLÉPE VYPLÁCAT?
SPA
(Single-Page
Applications)
Indexace pomocí hashbang:
1. www.example.com/#!klic1=hod
nota1&klic2=hodnota2
2. <meta name="fragment"
content="!">
3. www.example.com/?
_escaped_fragment_=klic1=hod
nota1%26klic2=hodnota2

ŘÍZENÍ CRAWLINGU – CO
(TÉMĚŘ) NEFUNGUJE?
• Meta robots
• X-Robots-Tag
• Javascriptové odkazy
• Kanonizace

ŘÍZENÍ CRAWLINGU – CO
MŮŽE FUNGOVAT?
• Sitemaps
• Google Search Console – parametry
• Robots.txt
• If-Modified-Since v HTTP hlavičce

SITEMAPS
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.example.com/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>

ROBOTS.TXT
User-agent: *
Disallow: /
User-agent: SeznamBot
Disallow:
User-agent: googlebot
Disallow: /cat*.php
Disallow: /cat*.php3$

ROBOTS.TXT 2.0
User-agent: *
Robot-version: 2.0
Disallow: /test*
Disallow: /ko??
Disallow: /file?
Disallow: /[0-9][^0-9]*

?
VLADIMÍR SAUR
saur@dedouch.cz
@dedouch

Viewers also liked

SEO restart 2017 - Případová studie MeyraSun Marketing

Přestaňme dělat analýzy, začněme dělat SEO!Pavel Ungr

Jak se dostat do Featured Snippets - SEO restart 2017RobertNemec.com

Rychlá analýza zahraničních trhů pro SEO a PPCRobertNemec.com

HTTPS vs. Heureka (Martin Humpál)Taste Medio

Deutsche seo (Milan Fiala)Taste Medio

Lokalizace webu z pohledu SEO (SEO restart 2017)Martin Kůra

Marketing Festival 2017 By Istropolitana OgilvyIstropolitana Ogilvy

Viewers also liked (8)

SEO restart 2017 - Případová studie Meyra

Přestaňme dělat analýzy, začněme dělat SEO!

Jak se dostat do Featured Snippets - SEO restart 2017

Rychlá analýza zahraničních trhů pro SEO a PPC

HTTPS vs. Heureka (Martin Humpál)

Deutsche seo (Milan Fiala)

Lokalizace webu z pohledu SEO (SEO restart 2017)

Marketing Festival 2017 By Istropolitana Ogilvy

Similar to Crawl budget (Vladimír Saur)

SEOloger: Optimalizace crawl budgetu (host: Vladimír Saur)Pavel Ungr

Vyhledávače a JavaScriptTaste Medio

Expertia Digital SEO Best practices při redesignu webuPetra Ondráčková

Workshop Analýza klíčových slovLukáš Pítra

Oxygen Builder - Kyslík pro WordPressAleš Sýkora

Rychlejší web snadno a rychle: Nové technologie a nástroje pro vývojářeMartin Michálek

Screen scraping se ScraperWiki (Jindřich Mynarz)Národní technická knihovna (NTK)

Lukáš Pítra: Analýza klíčových slov (Shopcamp 2014)Shopcamp 2014

Optimalizace webových aplikacíVašek Purchart

Základy internetuCIWire s.r.o.

SEO pohledem datového analytikaTaste Medio

PoSobota 96 ČB 28.4.2018Brilo Team

Hobby Developer 3.0: Tipy a triky pro webTomáš Muchka

Čtvrtkon #71 - Marian Benčat - Angular a NativeScriptCtvrtkoncz

Similar to Crawl budget (Vladimír Saur) (14)

SEOloger: Optimalizace crawl budgetu (host: Vladimír Saur)

Vyhledávače a JavaScript

Expertia Digital SEO Best practices při redesignu webu

Workshop Analýza klíčových slov

Oxygen Builder - Kyslík pro WordPress

Rychlejší web snadno a rychle: Nové technologie a nástroje pro vývojáře

Screen scraping se ScraperWiki (Jindřich Mynarz)

Lukáš Pítra: Analýza klíčových slov (Shopcamp 2014)

Optimalizace webových aplikací

Základy internetu

SEO pohledem datového analytika

PoSobota 96 ČB 28.4.2018

Hobby Developer 3.0: Tipy a triky pro web

Čtvrtkon #71 - Marian Benčat - Angular a NativeScript

More from Taste Medio

Zodpovědně na automatizovaný účetTaste Medio

Pépécéčkaři versus Google Analytics 4Taste Medio

Jak (a proč) pracovat s klíčovkou?Taste Medio

Vyhodnocování tendrů aneb insighty z B2B průzkumůTaste Medio

Právní bitvy o PPCčka aneb věděli jste, že...?Taste Medio

Retenční analýza - krok za krokemTaste Medio

Dejte data z vašeho XML feedu do správné kondiceTaste Medio

Impresní remarketing RTB a FBTaste Medio

Symboly značky praktickyTaste Medio

Marketingový framework PAVRDTaste Medio

Pozornost jako spouštěč i zabiják krizíTaste Medio

DOBRO-INFLUENCE: Jak propojit síť influencerů ke smysluplné změně?Taste Medio

Od luxusu k ekologické odpovědnosti, aneb jak s pomocí PR a kampaně na sociál...Taste Medio

Bageta plná hejtuTaste Medio

Collabim: behind the scene (part #001)Taste Medio

"Jak výhodně incestovat" aneb srandy s klíčovkamiTaste Medio

Agentura/In-house/Freelance - kde dělat SEO?Taste Medio

Příběh zákazníka po 3 letech od první návštěvy až k CLV a vlastní atribuciTaste Medio

Kde jsou limity zákaznické 360°?Taste Medio

Marketing a data. Umíme v nich najít hodnotu?Taste Medio

More from Taste Medio (20)

Zodpovědně na automatizovaný účet

Pépécéčkaři versus Google Analytics 4

Jak (a proč) pracovat s klíčovkou?

Vyhodnocování tendrů aneb insighty z B2B průzkumů

Právní bitvy o PPCčka aneb věděli jste, že...?

Retenční analýza - krok za krokem

Dejte data z vašeho XML feedu do správné kondice

Impresní remarketing RTB a FB

Symboly značky prakticky

Marketingový framework PAVRD

Pozornost jako spouštěč i zabiják krizí

DOBRO-INFLUENCE: Jak propojit síť influencerů ke smysluplné změně?

Od luxusu k ekologické odpovědnosti, aneb jak s pomocí PR a kampaně na sociál...

Bageta plná hejtu

Collabim: behind the scene (part #001)

"Jak výhodně incestovat" aneb srandy s klíčovkami

Agentura/In-house/Freelance - kde dělat SEO?

Příběh zákazníka po 3 letech od první návštěvy až k CLV a vlastní atribuci

Kde jsou limity zákaznické 360°?

Marketing a data. Umíme v nich najít hodnotu?

Crawl budget (Vladimír Saur)

1. CRAWL BUDGET VLADIMÍR SAUR saur@dedouch.cz @dedouch

2. JAKÝ JE CRAWL BUDGET VAŠEHO WEBU?

3. JAKÝ JE CRAWL BUDGET VAŠEHO WEBU?

4. JE TO MOC?

5. CO OVLIVŇUJE PŘIDĚLENÝ CRAWL BUDGET?

6. CO OVLIVŇUJE PŘIDĚLENÝ CRAWL BUDGET? • Počet stránek webu • Rank/popularita • Častost aktualizace • Rychlost webu/odezvy serveru

7. SEZNAM VS. GOOGLE

8. SEZNAMBOT robots.txt 552x homepage 10x sitemap 16x URL GET Vše 20 700 27 600 HTML 11 400 15 200 Obrázky 9 300 11 700 <lastmod> Stahuje se i se starším datem

9. GOOGLEBOT URL GET POST OPTIONS Vše 85 700 304 700 14 400 130 HTML 52 500 103 100 14 400 130 Obrázky 32 700 79 900 Fonty 5 32 000 CSS 1 2 000 Javascript 15 86 700 <lastmod> Stahuje jen poslední datum (aktuální den), starší ne robots.txt 68x homepage 196x sitemap 11x

10. JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT? Velký počet URL s nízkou hodnotou • Duplicity • Podobnosti • Soft errors

11. JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT? Další linkované soubory • Javascripty • CSS • Fonty

12. JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT? Technické nedostatky • Redirect chains • URL bez obsahu

13. JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT? SPA (Single-Page Applications) Indexace pomocí hashbang: 1. www.example.com/#!klic1=hod nota1&klic2=hodnota2 2. <meta name="fragment" content="!"> 3. www.example.com/? _escaped_fragment_=klic1=hod nota1%26klic2=hodnota2

14. ŘÍZENÍ CRAWLINGU – CO (TÉMĚŘ) NEFUNGUJE? • Meta robots • X-Robots-Tag • Javascriptové odkazy • Kanonizace

15. ŘÍZENÍ CRAWLINGU – CO MŮŽE FUNGOVAT? • Sitemaps • Google Search Console – parametry • Robots.txt • If-Modified-Since v HTTP hlavičce

16. SITEMAPS <?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://www.example.com/</loc> <lastmod>2005-01-01</lastmod> <changefreq>monthly</changefreq> <priority>0.8</priority> </url> </urlset>

17. GOOGLE SEARCH CONSOLE – PARAMETRY

18. ROBOTS.TXT User-agent: * Disallow: / User-agent: SeznamBot Disallow: User-agent: googlebot Disallow: /cat*.php Disallow: /cat*.php3$

19. ROBOTS.TXT 2.0 User-agent: * Robot-version: 2.0 Disallow: /test* Disallow: /ko?? Disallow: /file? Disallow: /[0-9][^0-9]*

20. ? VLADIMÍR SAUR saur@dedouch.cz @dedouch

Crawl budget (Vladimír Saur)

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (8)

Similar to Crawl budget (Vladimír Saur)

Similar to Crawl budget (Vladimír Saur) (14)

More from Taste Medio

More from Taste Medio (20)

Crawl budget (Vladimír Saur)