SlideShare a Scribd company logo
1 of 25
Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň
O čem to bude?
Fulltextové hledání
•   Získání dokumentů
•   Analýza a tvorba hledací databáze
•   Vyhledání a prezentace výsledků
•   Zpětná vazba
Fulltextové hledání
•   Co je to “Index”
•   Tvorba
•   Údržba
•   Hledání
Fulltextové hledání v internetu
Jak pracuje fulltextové hledání

                            ?


   WWW                     INDEX
              DOKUMENTY
Získání a uložení dokumentů
•   Kolik dokumentů chceme mít?
•   Jak efektivně stahovat dokumenty?
•   Kam je uložíme?
•   Jak často je budeme obnovovat?
Získání a uložení dokumentů


                      PLÁNOVAČ




  WWW    DOWNLOADER




                      DOKUMENTY   ANALÝZA
Indexace

            FEEDER

DOKUMENTY
                     INDEXER   INDEXER



                     MERGE     MERGE




                     INDEX     INDEX
Indexy pod lupou
• Složení indexu
  – seznam dokumentů a jejich atributy
  – seznam dokumentů pro každé slovo
  – extrakt textu dokumentů pro úryvky


• Druhy indexů
  – complete
  – daily
  – fresh
Hledání a prezentace výsledků
• zpracování uživatelského dotazu
• distribuované hledání
• prezentace výsledků
Hledání a prezentace výsledků
                   ?
             Příprava
              dotazu




             Hledání




             INDEX
Pochopení dotazu
•   doplnění diakritiky
•   doplnění skloňovaných tvarů slov
•   detekce čísel
•   generování podobných slov
•   desambiguace
•   detekce zkratek
•   ....
Strom dotazu
       sip tmobile babybox weisser universita
Hledání - distribuované hledání
                  Příprava
                   dotazu



                      A

              A              A


          H   H   H              H

          I   I   I              I
Hledání - prezentace výsledku
•   seřazení
•   generování úryvku (snippet)
•   náhled
•   zpětná vazba
Seznam.cz Vyhledávání
• Odkud přícházíme
• Kdo jsme
• Kam jdeme
Odkud přicházíme
• Rok = 2005
• Stroje = 11
• Lidé = 4
Kdo jsme
•   Celkem 70 lidí
•   32 programátorů
•   16 produkt manažerů
•   12 výzkumníků
•   6 administrátorů

• 100 brigádníků
Kdo jsme
•   Celkem 500 strojů
•   300 vyhledávání
•   150 robot
•   50 vývoj a výzkum
•   2 serverovny
Kdo jsme
•   500TB dat
•   50M dokumentů denně
•   Rychlostí několik GBit/s
•   Hledáme v 800M dokumentech
•   350 až 500 dotazů za sekundu
Kdo jsme
Kam jdeme
•   “kniha o nemeckych tancich” ?
•   Relevance
•   Relevance
•   Relevance
•   Relevance
•   …
Děkuji za pozornost…
Tomáš Hlucháň
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání

More Related Content

Similar to Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání

Novinky ve vyhledávání Seznam.cz (Otakar Smrž)
Novinky ve vyhledávání Seznam.cz (Otakar Smrž)Novinky ve vyhledávání Seznam.cz (Otakar Smrž)
Novinky ve vyhledávání Seznam.cz (Otakar Smrž)eeeliska
 
Dynamica: Komunikační centrum zlepšuje komfort občanů, ISSS 2014
Dynamica:  Komunikační centrum zlepšuje komfort občanů, ISSS 2014Dynamica:  Komunikační centrum zlepšuje komfort občanů, ISSS 2014
Dynamica: Komunikační centrum zlepšuje komfort občanů, ISSS 2014ivovrana
 
Elektronické informační zdroje: cesta ke kvalitním informacím
Elektronické informační zdroje: cesta ke kvalitním informacímElektronické informační zdroje: cesta ke kvalitním informacím
Elektronické informační zdroje: cesta ke kvalitním informacímÚstřední knihovna FF MU
 
Já dělám "to SEO" dobře, jen vyhledávače ho zatím nepochopily... BarCamp Brno...
Já dělám "to SEO" dobře, jen vyhledávače ho zatím nepochopily... BarCamp Brno...Já dělám "to SEO" dobře, jen vyhledávače ho zatím nepochopily... BarCamp Brno...
Já dělám "to SEO" dobře, jen vyhledávače ho zatím nepochopily... BarCamp Brno...Jan Kalianko
 
Průvodce EIZ aneb Kvalitní zdroje pro vaše studium
Průvodce EIZ aneb Kvalitní zdroje pro vaše studiumPrůvodce EIZ aneb Kvalitní zdroje pro vaše studium
Průvodce EIZ aneb Kvalitní zdroje pro vaše studiumÚstřední knihovna FF MU
 
SeznamBot a Kanonizace pro SEOloger 18.4.2018
SeznamBot a Kanonizace pro SEOloger 18.4.2018SeznamBot a Kanonizace pro SEOloger 18.4.2018
SeznamBot a Kanonizace pro SEOloger 18.4.2018Martin Kirschner
 
Knihovny.cz v Bloku expertů KISK 2017
Knihovny.cz v Bloku expertů KISK 2017 Knihovny.cz v Bloku expertů KISK 2017
Knihovny.cz v Bloku expertů KISK 2017 Knihovny.cz
 
Elektronické informační zdroje
Elektronické informační zdrojeElektronické informační zdroje
Elektronické informační zdrojeCEINVE
 
Yeseter: Přehled platformy
Yeseter: Přehled platformyYeseter: Přehled platformy
Yeseter: Přehled platformyVáclav Novák
 
Průvodce databázemi ScienceDirect a JSTOR (jaro 2013)
Průvodce databázemi ScienceDirect a JSTOR (jaro 2013)Průvodce databázemi ScienceDirect a JSTOR (jaro 2013)
Průvodce databázemi ScienceDirect a JSTOR (jaro 2013)Ústřední knihovna FF MU
 
Školení -- o databázi Emerald a publikování v odborných časopisech
Školení -- o databázi Emerald a publikování v odborných časopisechŠkolení -- o databázi Emerald a publikování v odborných časopisech
Školení -- o databázi Emerald a publikování v odborných časopisechKnihovnaUTB
 
Knihovny.cz - centrální portál českých knihoven
Knihovny.cz - centrální portál českých knihovenKnihovny.cz - centrální portál českých knihoven
Knihovny.cz - centrální portál českých knihovenKnihovny.cz
 
Novinky v seznam.cz vyhledávání (Martin Kirschner, Petr Vondrášek)
Novinky v seznam.cz vyhledávání (Martin Kirschner, Petr Vondrášek)Novinky v seznam.cz vyhledávání (Martin Kirschner, Petr Vondrášek)
Novinky v seznam.cz vyhledávání (Martin Kirschner, Petr Vondrášek)Taste Medio
 
Internetové vyhledávače
Internetové vyhledávačeInternetové vyhledávače
Internetové vyhledávačeMarek Trčka
 

Similar to Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání (20)

Průvodce databázemi JSTOR a ScienceDirect
Průvodce databázemi JSTOR a ScienceDirectPrůvodce databázemi JSTOR a ScienceDirect
Průvodce databázemi JSTOR a ScienceDirect
 
Odborné informace onlie
Odborné informace onlie Odborné informace onlie
Odborné informace onlie
 
Novinky ve vyhledávání Seznam .cz (Otakar Smrž)
Novinky ve vyhledávání Seznam .cz (Otakar Smrž)Novinky ve vyhledávání Seznam .cz (Otakar Smrž)
Novinky ve vyhledávání Seznam .cz (Otakar Smrž)
 
Novinky ve vyhledávání Seznam.cz (Otakar Smrž)
Novinky ve vyhledávání Seznam.cz (Otakar Smrž)Novinky ve vyhledávání Seznam.cz (Otakar Smrž)
Novinky ve vyhledávání Seznam.cz (Otakar Smrž)
 
Dynamica: Komunikační centrum zlepšuje komfort občanů, ISSS 2014
Dynamica:  Komunikační centrum zlepšuje komfort občanů, ISSS 2014Dynamica:  Komunikační centrum zlepšuje komfort občanů, ISSS 2014
Dynamica: Komunikační centrum zlepšuje komfort občanů, ISSS 2014
 
Elektronické informační zdroje: cesta ke kvalitním informacím
Elektronické informační zdroje: cesta ke kvalitním informacímElektronické informační zdroje: cesta ke kvalitním informacím
Elektronické informační zdroje: cesta ke kvalitním informacím
 
Já dělám "to SEO" dobře, jen vyhledávače ho zatím nepochopily... BarCamp Brno...
Já dělám "to SEO" dobře, jen vyhledávače ho zatím nepochopily... BarCamp Brno...Já dělám "to SEO" dobře, jen vyhledávače ho zatím nepochopily... BarCamp Brno...
Já dělám "to SEO" dobře, jen vyhledávače ho zatím nepochopily... BarCamp Brno...
 
Průvodce EIZ aneb Kvalitní zdroje pro vaše studium
Průvodce EIZ aneb Kvalitní zdroje pro vaše studiumPrůvodce EIZ aneb Kvalitní zdroje pro vaše studium
Průvodce EIZ aneb Kvalitní zdroje pro vaše studium
 
SeznamBot a Kanonizace pro SEOloger 18.4.2018
SeznamBot a Kanonizace pro SEOloger 18.4.2018SeznamBot a Kanonizace pro SEOloger 18.4.2018
SeznamBot a Kanonizace pro SEOloger 18.4.2018
 
Knihovny.cz v Bloku expertů KISK 2017
Knihovny.cz v Bloku expertů KISK 2017 Knihovny.cz v Bloku expertů KISK 2017
Knihovny.cz v Bloku expertů KISK 2017
 
Knihovny.cz v Bloku expertů 2017
Knihovny.cz v Bloku expertů 2017Knihovny.cz v Bloku expertů 2017
Knihovny.cz v Bloku expertů 2017
 
EIZ v oboru psychologie (podzim2012)
EIZ v oboru psychologie (podzim2012)EIZ v oboru psychologie (podzim2012)
EIZ v oboru psychologie (podzim2012)
 
Elektronické informační zdroje
Elektronické informační zdrojeElektronické informační zdroje
Elektronické informační zdroje
 
Yeseter: Přehled platformy
Yeseter: Přehled platformyYeseter: Přehled platformy
Yeseter: Přehled platformy
 
Průvodce databázemi ScienceDirect a JSTOR (jaro 2013)
Průvodce databázemi ScienceDirect a JSTOR (jaro 2013)Průvodce databázemi ScienceDirect a JSTOR (jaro 2013)
Průvodce databázemi ScienceDirect a JSTOR (jaro 2013)
 
EIZ pro klasická studia
EIZ pro klasická studiaEIZ pro klasická studia
EIZ pro klasická studia
 
Školení -- o databázi Emerald a publikování v odborných časopisech
Školení -- o databázi Emerald a publikování v odborných časopisechŠkolení -- o databázi Emerald a publikování v odborných časopisech
Školení -- o databázi Emerald a publikování v odborných časopisech
 
Knihovny.cz - centrální portál českých knihoven
Knihovny.cz - centrální portál českých knihovenKnihovny.cz - centrální portál českých knihoven
Knihovny.cz - centrální portál českých knihoven
 
Novinky v seznam.cz vyhledávání (Martin Kirschner, Petr Vondrášek)
Novinky v seznam.cz vyhledávání (Martin Kirschner, Petr Vondrášek)Novinky v seznam.cz vyhledávání (Martin Kirschner, Petr Vondrášek)
Novinky v seznam.cz vyhledávání (Martin Kirschner, Petr Vondrášek)
 
Internetové vyhledávače
Internetové vyhledávačeInternetové vyhledávače
Internetové vyhledávače
 

More from StartupYard

Czech the tech scene
Czech the tech sceneCzech the tech scene
Czech the tech sceneStartupYard
 
Warrantly - Cloud Warranty Management Platform
Warrantly - Cloud Warranty Management PlatformWarrantly - Cloud Warranty Management Platform
Warrantly - Cloud Warranty Management PlatformStartupYard
 
StartupYard 2014 Demo Day - Brochure
StartupYard 2014 Demo Day - BrochureStartupYard 2014 Demo Day - Brochure
StartupYard 2014 Demo Day - BrochureStartupYard
 
If You Fail to Plan Will Your Plan Fail? by Jaroslav Trojan
If You Fail to Plan Will Your Plan Fail? by Jaroslav TrojanIf You Fail to Plan Will Your Plan Fail? by Jaroslav Trojan
If You Fail to Plan Will Your Plan Fail? by Jaroslav TrojanStartupYard
 
Facebook Concepts For Startups by Jakub Svoboda
Facebook Concepts For Startups by Jakub SvobodaFacebook Concepts For Startups by Jakub Svoboda
Facebook Concepts For Startups by Jakub SvobodaStartupYard
 
Principy prodeje - Sylvie Šulcová
Principy prodeje - Sylvie ŠulcováPrincipy prodeje - Sylvie Šulcová
Principy prodeje - Sylvie ŠulcováStartupYard
 
Tipy a triky k testování použitelnosti - Lukáš Marvan
Tipy a triky k testování použitelnosti - Lukáš MarvanTipy a triky k testování použitelnosti - Lukáš Marvan
Tipy a triky k testování použitelnosti - Lukáš MarvanStartupYard
 
No PR Bullshit by Vojta Bednar for SummerStart
No PR Bullshit by Vojta Bednar for SummerStartNo PR Bullshit by Vojta Bednar for SummerStart
No PR Bullshit by Vojta Bednar for SummerStartStartupYard
 
StartupYard 2013 Demo Day - Handout
StartupYard 2013 Demo Day - HandoutStartupYard 2013 Demo Day - Handout
StartupYard 2013 Demo Day - HandoutStartupYard
 
StartupYard 2013 Demo Day - Y Combinator Lessons Learned by Andrej Pancik
StartupYard 2013 Demo Day - Y Combinator Lessons Learned by Andrej PancikStartupYard 2013 Demo Day - Y Combinator Lessons Learned by Andrej Pancik
StartupYard 2013 Demo Day - Y Combinator Lessons Learned by Andrej PancikStartupYard
 
StartupYard 2013 Demo Day - Yummy Food pitch by Kristina Sediva
StartupYard 2013 Demo Day - Yummy Food pitch by Kristina SedivaStartupYard 2013 Demo Day - Yummy Food pitch by Kristina Sediva
StartupYard 2013 Demo Day - Yummy Food pitch by Kristina SedivaStartupYard
 
StartupYard 2013 Demo Day - Agenda
StartupYard 2013 Demo Day - AgendaStartupYard 2013 Demo Day - Agenda
StartupYard 2013 Demo Day - AgendaStartupYard
 

More from StartupYard (20)

Czech the tech scene
Czech the tech sceneCzech the tech scene
Czech the tech scene
 
Warrantly - Cloud Warranty Management Platform
Warrantly - Cloud Warranty Management PlatformWarrantly - Cloud Warranty Management Platform
Warrantly - Cloud Warranty Management Platform
 
Famely
FamelyFamely
Famely
 
Evolso
EvolsoEvolso
Evolso
 
Gjirafa
GjirafaGjirafa
Gjirafa
 
MyPrepApp
MyPrepAppMyPrepApp
MyPrepApp
 
VerifiQua
VerifiQuaVerifiQua
VerifiQua
 
SentiSquare
SentiSquareSentiSquare
SentiSquare
 
YourPlace
YourPlaceYourPlace
YourPlace
 
Warrantly
WarrantlyWarrantly
Warrantly
 
StartupYard 2014 Demo Day - Brochure
StartupYard 2014 Demo Day - BrochureStartupYard 2014 Demo Day - Brochure
StartupYard 2014 Demo Day - Brochure
 
If You Fail to Plan Will Your Plan Fail? by Jaroslav Trojan
If You Fail to Plan Will Your Plan Fail? by Jaroslav TrojanIf You Fail to Plan Will Your Plan Fail? by Jaroslav Trojan
If You Fail to Plan Will Your Plan Fail? by Jaroslav Trojan
 
Facebook Concepts For Startups by Jakub Svoboda
Facebook Concepts For Startups by Jakub SvobodaFacebook Concepts For Startups by Jakub Svoboda
Facebook Concepts For Startups by Jakub Svoboda
 
Principy prodeje - Sylvie Šulcová
Principy prodeje - Sylvie ŠulcováPrincipy prodeje - Sylvie Šulcová
Principy prodeje - Sylvie Šulcová
 
Tipy a triky k testování použitelnosti - Lukáš Marvan
Tipy a triky k testování použitelnosti - Lukáš MarvanTipy a triky k testování použitelnosti - Lukáš Marvan
Tipy a triky k testování použitelnosti - Lukáš Marvan
 
No PR Bullshit by Vojta Bednar for SummerStart
No PR Bullshit by Vojta Bednar for SummerStartNo PR Bullshit by Vojta Bednar for SummerStart
No PR Bullshit by Vojta Bednar for SummerStart
 
StartupYard 2013 Demo Day - Handout
StartupYard 2013 Demo Day - HandoutStartupYard 2013 Demo Day - Handout
StartupYard 2013 Demo Day - Handout
 
StartupYard 2013 Demo Day - Y Combinator Lessons Learned by Andrej Pancik
StartupYard 2013 Demo Day - Y Combinator Lessons Learned by Andrej PancikStartupYard 2013 Demo Day - Y Combinator Lessons Learned by Andrej Pancik
StartupYard 2013 Demo Day - Y Combinator Lessons Learned by Andrej Pancik
 
StartupYard 2013 Demo Day - Yummy Food pitch by Kristina Sediva
StartupYard 2013 Demo Day - Yummy Food pitch by Kristina SedivaStartupYard 2013 Demo Day - Yummy Food pitch by Kristina Sediva
StartupYard 2013 Demo Day - Yummy Food pitch by Kristina Sediva
 
StartupYard 2013 Demo Day - Agenda
StartupYard 2013 Demo Day - AgendaStartupYard 2013 Demo Day - Agenda
StartupYard 2013 Demo Day - Agenda
 

Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání

Editor's Notes

  1. Jak funguje hledani Odkud pochazime = Jak to zacalo Kdo jsme = Lide,Stroje,Data,Technologie Kam jdeme = Co dal?
  2. Knihovna, ziskani knizek, jejich “ precteni ” – klicova slova – nebo uplne cele? FULLTEXTove…, Samotne hledani, prochazeni databaze, doneseni knizky ctenari, s trochou relevatni reklamy ;-) A jeste se podivame, jestli se na nas usmal, dostal co chtel
  3. Jako v knihovne, knihovnik Co nove knizky, jak to zacne Co kdyz uz se nam sem vsechno nevejde, ktere vyhodit Jak v tom hledat? Kazdy ctenar po jednom, nebo pustit vice ctenaru indexu? Co delat kdyz se vam “ obsah ” knizky meni Co “cache” ? Knihovni si pamatuje casto hledane knizky a chodi najisto, bez indexu
  4. Na internetu je to snadne…. Zadame, dostaneme, a neviditelny knihovnik vse najde Ale je to uplne stejne jako v knihovne
  5. Rozlozeni jazyku Zpetne odkazy
  6. Indexu je vic – protoze: Lepe se pocitaji – nejsou tak velke Lepe se v nich hleda, da se to distribuovat a cele jsou pak v pameti
  7. Cache !
  8. Cache! Titulkovac
  9. Pochopeni potazu, knihovnik muze mit kontext, muze vas znat, ale my to mame tezsi…. Nevidime co mate na sobe, zda jste muz/zena…. Muzem reagovat na pozadavky vetsiny Nebo namichat “ kniha o nemeckych tancich ” “ Zenu holi stroj ”
  10. Knihovnici se rozebhenou ke indexum, postupne se vraci Kdo dojde pozde ma smulu…. Redundance – indexy se prekryvaji
  11. Strojove uceni Kalibratori Uryvek z knizky Sledovat chovani ctenare, zda si knizku vezme, nebo hleda dal……
  12. Odkud pochazime = Jak to zacalo Kdo jsme = Lide,Stroje,Data,Technologie Kam jdeme = Co dal?
  13. Jake teamy a kde mame, Co delaji
  14. Dualita Dedundance Virtualizace, vyuziti HW – Hledani CPU, ale ne DISK, Titulkovani DISK, ale ne CPU – idealne muzou bezet spolu Idle Server – parazitni indexace Obnovy HW Vyvoj HW s kanclu, prenos dat v TB ;-)
  15. Co v cem je, jaky tym co na co pouziva MapReduce Ale I rada “ skriptu ” co pocitaji seqencne; jak je poustet aby si navzajem nevyzraly CPU/DISK (v dany cas, po sobe)