Your SlideShare is downloading. ×
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání

416

Published on

Jaké technologie pohání vyhledávání? Jaké překážky vás potkají při fulltextovém hledání v internetu? Co obnáší budování velké a komplexní věci, jako je Vyhledávač? Odpoledne se Seznam.cz pro …

Jaké technologie pohání vyhledávání? Jaké překážky vás potkají při fulltextovém hledání v internetu? Co obnáší budování velké a komplexní věci, jako je Vyhledávač? Odpoledne se Seznam.cz pro začínající firmy v TechSquare 8.10.2012

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
416
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide
  • Jak funguje hledani Odkud pochazime = Jak to zacalo Kdo jsme = Lide,Stroje,Data,Technologie Kam jdeme = Co dal?
  • Knihovna, ziskani knizek, jejich “ precteni ” – klicova slova – nebo uplne cele? FULLTEXTove…, Samotne hledani, prochazeni databaze, doneseni knizky ctenari, s trochou relevatni reklamy ;-) A jeste se podivame, jestli se na nas usmal, dostal co chtel
  • Jako v knihovne, knihovnik Co nove knizky, jak to zacne Co kdyz uz se nam sem vsechno nevejde, ktere vyhodit Jak v tom hledat? Kazdy ctenar po jednom, nebo pustit vice ctenaru indexu? Co delat kdyz se vam “ obsah ” knizky meni Co “cache” ? Knihovni si pamatuje casto hledane knizky a chodi najisto, bez indexu
  • Na internetu je to snadne…. Zadame, dostaneme, a neviditelny knihovnik vse najde Ale je to uplne stejne jako v knihovne
  • Rozlozeni jazyku Zpetne odkazy
  • Indexu je vic – protoze: Lepe se pocitaji – nejsou tak velke Lepe se v nich hleda, da se to distribuovat a cele jsou pak v pameti
  • Cache !
  • Cache! Titulkovac
  • Pochopeni potazu, knihovnik muze mit kontext, muze vas znat, ale my to mame tezsi…. Nevidime co mate na sobe, zda jste muz/zena…. Muzem reagovat na pozadavky vetsiny Nebo namichat “ kniha o nemeckych tancich ” “ Zenu holi stroj ”
  • Knihovnici se rozebhenou ke indexum, postupne se vraci Kdo dojde pozde ma smulu…. Redundance – indexy se prekryvaji
  • Strojove uceni Kalibratori Uryvek z knizky Sledovat chovani ctenare, zda si knizku vezme, nebo hleda dal……
  • Odkud pochazime = Jak to zacalo Kdo jsme = Lide,Stroje,Data,Technologie Kam jdeme = Co dal?
  • Jake teamy a kde mame, Co delaji
  • Dualita Dedundance Virtualizace, vyuziti HW – Hledani CPU, ale ne DISK, Titulkovani DISK, ale ne CPU – idealne muzou bezet spolu Idle Server – parazitni indexace Obnovy HW Vyvoj HW s kanclu, prenos dat v TB ;-)
  • Co v cem je, jaky tym co na co pouziva MapReduce Ale I rada “ skriptu ” co pocitaji seqencne; jak je poustet aby si navzajem nevyzraly CPU/DISK (v dany cas, po sobe)
  • Transcript

    • 1. Jak funguje Seznam.cz VyhledáváníTomáš Hlucháň
    • 2. O čem to bude?
    • 3. Fulltextové hledání• Získání dokumentů• Analýza a tvorba hledací databáze• Vyhledání a prezentace výsledků• Zpětná vazba
    • 4. Fulltextové hledání• Co je to “Index”• Tvorba• Údržba• Hledání
    • 5. Fulltextové hledání v internetu
    • 6. Jak pracuje fulltextové hledání ? WWW INDEX DOKUMENTY
    • 7. Získání a uložení dokumentů• Kolik dokumentů chceme mít?• Jak efektivně stahovat dokumenty?• Kam je uložíme?• Jak často je budeme obnovovat?
    • 8. Získání a uložení dokumentů PLÁNOVAČ WWW DOWNLOADER DOKUMENTY ANALÝZA
    • 9. Indexace FEEDERDOKUMENTY INDEXER INDEXER MERGE MERGE INDEX INDEX
    • 10. Indexy pod lupou• Složení indexu – seznam dokumentů a jejich atributy – seznam dokumentů pro každé slovo – extrakt textu dokumentů pro úryvky• Druhy indexů – complete – daily – fresh
    • 11. Hledání a prezentace výsledků• zpracování uživatelského dotazu• distribuované hledání• prezentace výsledků
    • 12. Hledání a prezentace výsledků ? Příprava dotazu Hledání INDEX
    • 13. Pochopení dotazu• doplnění diakritiky• doplnění skloňovaných tvarů slov• detekce čísel• generování podobných slov• desambiguace• detekce zkratek• ....
    • 14. Strom dotazu sip tmobile babybox weisser universita
    • 15. Hledání - distribuované hledání Příprava dotazu A A A H H H H I I I I
    • 16. Hledání - prezentace výsledku• seřazení• generování úryvku (snippet)• náhled• zpětná vazba
    • 17. Seznam.cz Vyhledávání• Odkud přícházíme• Kdo jsme• Kam jdeme
    • 18. Odkud přicházíme• Rok = 2005• Stroje = 11• Lidé = 4
    • 19. Kdo jsme• Celkem 70 lidí• 32 programátorů• 16 produkt manažerů• 12 výzkumníků• 6 administrátorů• 100 brigádníků
    • 20. Kdo jsme• Celkem 500 strojů• 300 vyhledávání• 150 robot• 50 vývoj a výzkum• 2 serverovny
    • 21. Kdo jsme• 500TB dat• 50M dokumentů denně• Rychlostí několik GBit/s• Hledáme v 800M dokumentech• 350 až 500 dotazů za sekundu
    • 22. Kdo jsme
    • 23. Kam jdeme• “kniha o nemeckych tancich” ?• Relevance• Relevance• Relevance• Relevance• …
    • 24. Děkuji za pozornost…Tomáš Hlucháň

    ×