Říjnový SEOloger 2019 - Screaming Frog a crawlování webů
Nov. 3, 2019•0 likes•493 views
Download to read offline
Report
Marketing
V říjnu 2019 jsem mluvil na SEOlogeru na téma ohledně crawlování webů pomocí nástroje Screaming Frog. Konkrétně jsme si ukázali šikovné nastavení, verzi 11 a tradiční i netradiční využití.
4. Martin Žatkovič - @zatkoma
Dva rekordy
🏎 1 395 URL/s 🏎
📦 4 317 847 URL 📦
* s 16 GB ram
6. Martin Žatkovič - @zatkoma
• Zejména technické SEO, data a automatizace
• Skripty, API a další zábava
• SEO konzultant pro zbozi.cz
• Zakladatel Marketingové Plzně
Martin Žatkovič
SEO konzultant v Seznam.cz
13. Martin Žatkovič - @zatkoma
Rychlost
• Můžete si nastavit vlastní placebo.
• Fyzická vlákna nebo virtuální?
• Maximální počet URL pro případ omezení.
• 💽 Někteří vývojáři se bojí o servery.
14. Martin Žatkovič - @zatkoma
User Agent
• Buďte féroví k ostatním.
• Buďte pozorní k sobě.
• $ “Bot” a Německo.
• Co zkusit nějaký custom user-agent.
• Bude se vám hodit při analýze accesslogů.
15. Martin Žatkovič - @zatkoma
Memory
• Důležité zejména v případě ukládání crawlu do RAM.
• Doporučuji zvýšit na 1/2 z kapacity zařízení nebo 75%.
• Pozor, občas chcete dělat i něco jiného, než crawlovat.
• Automaticky rovnou zvýšit!
16. Martin Žatkovič - @zatkoma
Storage
• RAM je pouze dočasná.
• Database toho zvládne víc.
• Zvykněte si používat Google Disk, Dropbox, iCloud,…
• Nejenom při crawlování!
• 🏹 Migrace na nové řešení.
17. Martin Žatkovič - @zatkoma
Robots.txt
• Tato sekce je vaším největším přítelem.
• Většinou chcete jen nějakou část webu.
• Instantní zrychlení crawlování a nepřetěžování serveru.
• Disallow: /
• Allow: /…
• 📦 4 317 847 URL
18. Martin Žatkovič - @zatkoma
Rendrování JavaScriptu
• Kdo z vás tu má web s Angularem nebo Reactem?
• Jak hlídáte, že se robotovi zobrazí to samé co uživateli?
• Jak zjistit, že dynamic rendering funguje správně?
19. Martin Žatkovič - @zatkoma
Extrakce
• Ohromná výhoda proti nástroji Sitebulb.
• Potřebujete něco získat z webovky a použít jinde.
• Kontrola analytiky, ID produktů, Autoři,…
• XPath / CSSPath
• 🔪 Rozšíření Scraper
20. Martin Žatkovič - @zatkoma
List
• Nemusíte používat Screaming Frog jen v “discovery” módu.
• Lze jej poslat pouze na určité URL, které chcete zkontrolovat.
• Kontrola externích odkazů, přesměrování,…
28. Martin Žatkovič - @zatkoma
Pravidla pro úspěch
• ' Nikdy nechcete sestřelit cílový web.
• ( Zanechejte po sobě stopu.
• ) Robots.txt je svaté.
• * Používejte Scraper / OpenRefine
• + Extrakcí si ušetříte práci.
41. Martin Žatkovič - @zatkoma
…ale…
• Stále SB nedokáže SF nahradit ve 100%.
• Nedělejme z toho další souboj!
• Udělej si sám versus vše na podnose.
• Agentura versus in-house.
42. Martin Žatkovič - @zatkoma
V čem je lepší?
• Vše si musíte vyřešit sami.
• Vytáhnete si co potřebujete.
• Musíte myslet.
• Vše máte na zlatém podnose.
• Krásné interface.
• Problémy a priority.
57. Martin Žatkovič - @zatkoma
Případ co nastal
• “Líbil by se nám reporting na základě kategorií”
• “Rozhodně není problém - to dává smysl”
• Kombinace dat: Google Sheet + GSC + GA + Colllabim
• “V GDS to nedělejte, nedává to smysl”
65. Martin Žatkovič - @zatkoma
Jak ukládat a kde?
• Vše si pečlivě třiďte a ukládejte.
• Optimálně využívejte jeden disk a roztřídit pěkně po klientech.
• Je dobré si pamatovat, co jste chtěli nacrawlovat a proč.
• Špatné / nekopletní crawly rovnou mažte.
67. Martin Žatkovič - @zatkoma
Disk může kdykoliv odejít
• Cloud vám pofičí neustále.
• Chcete-li mít přístup k projektům a starým crawlům.
• Neukládejte jenom .seospider soubory ale i výsledky.
• Používáte-li nějakou transformaci, tak ukládejte před i po.
• Google Drive - 1 TB = 299 Kč / měsíc
• iCloud - 2 TB = 249 Kč / měsíc
69. Martin Žatkovič - @zatkoma
Server je váš přítel
• Optimálně AWS / Google Cloud.
• Lze jednoduše škálovat a brát si větší výkon.
• V případě větších firem interní server, kde to budete ovládat.
• Má to smysl?
70. Martin Žatkovič - @zatkoma
Opravdu interní server?
• Opravdu potřebujete provést kompletní crawl celého webu?
• Opravdu má smysl crawlovat weby s 5 000 000 stránek a víc?
• Opravdu má smysl udržovat v provozu server?
• Vyzkoušíte a uvidíte.
• SF jede i na linuxu.
• Hledejte spot instance.
71. Martin Žatkovič - @zatkoma
AWS, Google Cloud
• Buď používáte Windows Server, kde máte okno a můžete klikat.
• Předpřipravený balíček v Dockeru.
• Po spuštění provede instalaci a nastavení.
• Spustí crawl webu.
• Data pošle do Big Querry / FTP.
• Zabije se jakmile je hotovo.
73. Martin Žatkovič - @zatkoma
Naučte se s CLI
• Máte-li stejné případy využití (technický audit, analýza,…).
• Můžete si vytvořit jednoduché spouštění pomocí .bat / .sh skriptů.
• Vše (/ exporty) si připravíte jednou a následně máte vyřešeno.
• Po dokončení crawlu se vám vše nahraje do složek a zazálohuje se.
• Výsledné složky můžete “odposlouchávat” a výstupy obohacovat.
81. Martin Žatkovič - @zatkoma
Analýza klíčových slov
• Použil někdo už Screaming Frog při analýze klíčových slov?
• V jakém segmentu? Jaké jste dopadli?
• Většinou jde o extrakci konkrétních částí webu na míru projektu.
82. Martin Žatkovič - @zatkoma
Dva případy
• 💂 Vykradení obsahu
• Obsah konkurence.
• Používaná klíčová slova.
• N-Gramy
• Frekvenční analýza
• 📚 Knihy, filmy a další díla
• Názvy děl a autoři.
• Případně herci a další…
• Unikátní seznam
83. Martin Žatkovič - @zatkoma
Generování XML feedu
• Potřebujete-li si něco rychle otestovat.
• Nechcete ubírat kapacitu programátorům.
• Podpora pro jiné týmy.
• Podpora pro DSA kampaně.
• Podpora pro akce / e-mailing.
• Otestování datových zdrojů.
85. Martin Žatkovič - @zatkoma
Generování sitemap
• Chcete-li si vytvořit obrázkovou sitemapu.
• Stačí vám využít jedno tlačítko na export.
• Screaming Frog ohlídá základní pravidla.
86. Martin Žatkovič - @zatkoma
Rozdíly na webu
• Jak poznat, že se něco na nové verzi webu něco změnilo?
• Jak jednoduše srovnat dva crawly webu?
• Lze to vůbec srovnat nějak jednoduše?
87. Martin Žatkovič - @zatkoma
Jak to udělat jednoduše?
• Pomocí “SQL” 1:1
• Stavové kódy, titulky, H1,…
• Export všech odkazů
• Navázat pomocí URL
• Push nových souborů.
• Můžete srovnat celé HTML.
• git add —all
• git commit -m "crawl 1"
• git push
88. Martin Žatkovič - @zatkoma
Případ Muziker
• “Večer budeme spouštět novou verzi webu”
• Jednoduché srovnání crawlů by odhalilo většinu problémů.
90. Martin Žatkovič - @zatkoma
Co si odnést / udělat?
1.Proklikejte (ale opravdu) si zítra ráno Screaming Frog.
2.Projděte si nastavení vašeho workflow a aktualizujte jej.
3.Propojte spojený crawl s daty z GSC a něco určitě vymyslíte.