SlideShare a Scribd company logo
1 of 21
Download to read offline
SeznamBot: renderování stránek
Martin Kirschner
Product Manager Senior
Renderovaná stránka
Renderovaná stránka
Náhodná stránka
Pokrytí elementů 90 %
F1
0.87
Přesnost 85 %
Zpravodajský článek
Pokrytí elementů 84 %
F1
0.90
Přesnost 97 %
Plain stránka
Náhodná stránka
Pokrytí elementů 57 %
F1
0.66
Přesnost 80 %
Zpravodajský článek
Pokrytí elementů 64 %
F1
0.77
Přesnost 96 %
Na renderované stránce
udělá detekce hlavního textu
chybu asi ve třetině případů
oproti plain stránce.
Technikálie
WEB
PREFETCH
RENDER
DOWNLOADER
SCHEDULING&SHAPING
CACHE
• k8s
• 73.x (latest stable)
• Virtual time budget
• Request interception
• 3 tabs per instance
• Prefetch
Dopady na crawl budget
• Aktuální objem renderu: asi 100 tis. URL denně
• Jeden render vyžaduje průměrně desítky requestů
• Všechny requesty shapujeme
Bezpečnost a správný render je těžký.
Crawl budget bude těžší.
Budoucí plány
Robot začíná víc robotovat
• Chytřejší výběr
• Volnější shaping
• Identifikace problematických webů
WEB
DB
Obrázky
50 MB
Web stránky
6 MB
PDF
50 MB
E-mail: martin.kirschner@firma.seznam.cz
Twitter: @martin_kirschne, @SeznamBot
Martin Kirschner
Product Manager Senior

More Related Content

Similar to SeznamBot a renderování stránek - 30.3.2019 COE2019

SEOloger: Optimalizace crawl budgetu (host: Vladimír Saur)
SEOloger: Optimalizace crawl budgetu (host: Vladimír Saur)SEOloger: Optimalizace crawl budgetu (host: Vladimír Saur)
SEOloger: Optimalizace crawl budgetu (host: Vladimír Saur)Pavel Ungr
 
Nové »bezhlavé« CMS — přechod od monolitů ke službám
Nové »bezhlavé« CMS — přechod od monolitů ke službámNové »bezhlavé« CMS — přechod od monolitů ke službám
Nové »bezhlavé« CMS — přechod od monolitů ke službámJaroslav Vrána
 
Výkonnost webových aplikací
Výkonnost webových aplikacíVýkonnost webových aplikací
Výkonnost webových aplikacíTaste Medio
 
Výběr vhodných technologii pro startup v prostředí cloudu
Výběr vhodných technologii pro startup v prostředí clouduVýběr vhodných technologii pro startup v prostředí cloudu
Výběr vhodných technologii pro startup v prostředí clouduJan Kodera
 
Hledání příčin pomalého webu a jak to řešit
Hledání příčin pomalého webu a jak to řešitHledání příčin pomalého webu a jak to řešit
Hledání příčin pomalého webu a jak to řešitDesingdev
 
SEO Restart 2022: Šárka Jakubcová - Redesign iVysílání České televize z pohle...
SEO Restart 2022: Šárka Jakubcová - Redesign iVysílání České televize z pohle...SEO Restart 2022: Šárka Jakubcová - Redesign iVysílání České televize z pohle...
SEO Restart 2022: Šárka Jakubcová - Redesign iVysílání České televize z pohle...Taste
 
PHP Vysočina - WordPress - 25.10.2018
PHP Vysočina - WordPress - 25.10.2018PHP Vysočina - WordPress - 25.10.2018
PHP Vysočina - WordPress - 25.10.2018Brilo Team
 
Oxygen Builder - Kyslík pro WordPress
Oxygen Builder - Kyslík pro WordPressOxygen Builder - Kyslík pro WordPress
Oxygen Builder - Kyslík pro WordPressAleš Sýkora
 
Jak vypadá ideální bankovní API?
Jak vypadá ideální bankovní API? Jak vypadá ideální bankovní API?
Jak vypadá ideální bankovní API? Petr Dvorak
 
Anatomie mobilního webu
Anatomie mobilního webuAnatomie mobilního webu
Anatomie mobilního webuFilip Mares
 
SEO pohledem datového analytika
SEO pohledem datového analytikaSEO pohledem datového analytika
SEO pohledem datového analytikaTaste Medio
 
Kontinualni testovani a monitoring SEO - SEO robot
Kontinualni testovani a monitoring SEO - SEO robotKontinualni testovani a monitoring SEO - SEO robot
Kontinualni testovani a monitoring SEO - SEO robotJaroslav Hlavinka
 
Péhápkaři v Pecce: Naše cesta k read-modelu – Vojtěch Buba –18. 5. 2022
Péhápkaři v Pecce: Naše cesta k read-modelu – Vojtěch Buba –18. 5. 2022Péhápkaři v Pecce: Naše cesta k read-modelu – Vojtěch Buba –18. 5. 2022
Péhápkaři v Pecce: Naše cesta k read-modelu – Vojtěch Buba –18. 5. 2022PeckaDesign.cz
 
Symfony vs Nette vs Phalcon
Symfony vs Nette vs PhalconSymfony vs Nette vs Phalcon
Symfony vs Nette vs PhalconVojta Svoboda
 
Zrychlování mobilního webu aneb LTE máme jenom v Praze | Jarda Hanslík - Slev...
Zrychlování mobilního webu aneb LTE máme jenom v Praze | Jarda Hanslík - Slev...Zrychlování mobilního webu aneb LTE máme jenom v Praze | Jarda Hanslík - Slev...
Zrychlování mobilního webu aneb LTE máme jenom v Praze | Jarda Hanslík - Slev...skrzczdev
 

Similar to SeznamBot a renderování stránek - 30.3.2019 COE2019 (20)

SEOloger: Optimalizace crawl budgetu (host: Vladimír Saur)
SEOloger: Optimalizace crawl budgetu (host: Vladimír Saur)SEOloger: Optimalizace crawl budgetu (host: Vladimír Saur)
SEOloger: Optimalizace crawl budgetu (host: Vladimír Saur)
 
TNPW2-2014-05
TNPW2-2014-05TNPW2-2014-05
TNPW2-2014-05
 
Výkon WordPress
Výkon WordPressVýkon WordPress
Výkon WordPress
 
Nové »bezhlavé« CMS — přechod od monolitů ke službám
Nové »bezhlavé« CMS — přechod od monolitů ke službámNové »bezhlavé« CMS — přechod od monolitů ke službám
Nové »bezhlavé« CMS — přechod od monolitů ke službám
 
Výkonnost webových aplikací
Výkonnost webových aplikacíVýkonnost webových aplikací
Výkonnost webových aplikací
 
Výběr vhodných technologii pro startup v prostředí cloudu
Výběr vhodných technologii pro startup v prostředí clouduVýběr vhodných technologii pro startup v prostředí cloudu
Výběr vhodných technologii pro startup v prostředí cloudu
 
Hledání příčin pomalého webu a jak to řešit
Hledání příčin pomalého webu a jak to řešitHledání příčin pomalého webu a jak to řešit
Hledání příčin pomalého webu a jak to řešit
 
SEO Restart 2022: Šárka Jakubcová - Redesign iVysílání České televize z pohle...
SEO Restart 2022: Šárka Jakubcová - Redesign iVysílání České televize z pohle...SEO Restart 2022: Šárka Jakubcová - Redesign iVysílání České televize z pohle...
SEO Restart 2022: Šárka Jakubcová - Redesign iVysílání České televize z pohle...
 
TNPW2-2012-03
TNPW2-2012-03TNPW2-2012-03
TNPW2-2012-03
 
PHP Vysočina - WordPress - 25.10.2018
PHP Vysočina - WordPress - 25.10.2018PHP Vysočina - WordPress - 25.10.2018
PHP Vysočina - WordPress - 25.10.2018
 
Oxygen Builder - Kyslík pro WordPress
Oxygen Builder - Kyslík pro WordPressOxygen Builder - Kyslík pro WordPress
Oxygen Builder - Kyslík pro WordPress
 
Jak vypadá ideální bankovní API?
Jak vypadá ideální bankovní API? Jak vypadá ideální bankovní API?
Jak vypadá ideální bankovní API?
 
Anatomie mobilního webu
Anatomie mobilního webuAnatomie mobilního webu
Anatomie mobilního webu
 
TNPW2-2016-03
TNPW2-2016-03TNPW2-2016-03
TNPW2-2016-03
 
SEO pohledem datového analytika
SEO pohledem datového analytikaSEO pohledem datového analytika
SEO pohledem datového analytika
 
Kontinualni testovani a monitoring SEO - SEO robot
Kontinualni testovani a monitoring SEO - SEO robotKontinualni testovani a monitoring SEO - SEO robot
Kontinualni testovani a monitoring SEO - SEO robot
 
JS2016
JS2016JS2016
JS2016
 
Péhápkaři v Pecce: Naše cesta k read-modelu – Vojtěch Buba –18. 5. 2022
Péhápkaři v Pecce: Naše cesta k read-modelu – Vojtěch Buba –18. 5. 2022Péhápkaři v Pecce: Naše cesta k read-modelu – Vojtěch Buba –18. 5. 2022
Péhápkaři v Pecce: Naše cesta k read-modelu – Vojtěch Buba –18. 5. 2022
 
Symfony vs Nette vs Phalcon
Symfony vs Nette vs PhalconSymfony vs Nette vs Phalcon
Symfony vs Nette vs Phalcon
 
Zrychlování mobilního webu aneb LTE máme jenom v Praze | Jarda Hanslík - Slev...
Zrychlování mobilního webu aneb LTE máme jenom v Praze | Jarda Hanslík - Slev...Zrychlování mobilního webu aneb LTE máme jenom v Praze | Jarda Hanslík - Slev...
Zrychlování mobilního webu aneb LTE máme jenom v Praze | Jarda Hanslík - Slev...
 

SeznamBot a renderování stránek - 30.3.2019 COE2019