Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání

523
-1

Published on

Jaké technologie pohání vyhledávání? Jaké překážky vás potkají při fulltextovém hledání v internetu? Co obnáší budování velké a komplexní věci, jako je Vyhledávač? Odpoledne se Seznam.cz pro začínající firmy v TechSquare 8.10.2012

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
523
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • Jak funguje hledani Odkud pochazime = Jak to zacalo Kdo jsme = Lide,Stroje,Data,Technologie Kam jdeme = Co dal?
  • Knihovna, ziskani knizek, jejich “ precteni ” – klicova slova – nebo uplne cele? FULLTEXTove…, Samotne hledani, prochazeni databaze, doneseni knizky ctenari, s trochou relevatni reklamy ;-) A jeste se podivame, jestli se na nas usmal, dostal co chtel
  • Jako v knihovne, knihovnik Co nove knizky, jak to zacne Co kdyz uz se nam sem vsechno nevejde, ktere vyhodit Jak v tom hledat? Kazdy ctenar po jednom, nebo pustit vice ctenaru indexu? Co delat kdyz se vam “ obsah ” knizky meni Co “cache” ? Knihovni si pamatuje casto hledane knizky a chodi najisto, bez indexu
  • Na internetu je to snadne…. Zadame, dostaneme, a neviditelny knihovnik vse najde Ale je to uplne stejne jako v knihovne
  • Rozlozeni jazyku Zpetne odkazy
  • Indexu je vic – protoze: Lepe se pocitaji – nejsou tak velke Lepe se v nich hleda, da se to distribuovat a cele jsou pak v pameti
  • Cache !
  • Cache! Titulkovac
  • Pochopeni potazu, knihovnik muze mit kontext, muze vas znat, ale my to mame tezsi…. Nevidime co mate na sobe, zda jste muz/zena…. Muzem reagovat na pozadavky vetsiny Nebo namichat “ kniha o nemeckych tancich ” “ Zenu holi stroj ”
  • Knihovnici se rozebhenou ke indexum, postupne se vraci Kdo dojde pozde ma smulu…. Redundance – indexy se prekryvaji
  • Strojove uceni Kalibratori Uryvek z knizky Sledovat chovani ctenare, zda si knizku vezme, nebo hleda dal……
  • Odkud pochazime = Jak to zacalo Kdo jsme = Lide,Stroje,Data,Technologie Kam jdeme = Co dal?
  • Jake teamy a kde mame, Co delaji
  • Dualita Dedundance Virtualizace, vyuziti HW – Hledani CPU, ale ne DISK, Titulkovani DISK, ale ne CPU – idealne muzou bezet spolu Idle Server – parazitni indexace Obnovy HW Vyvoj HW s kanclu, prenos dat v TB ;-)
  • Co v cem je, jaky tym co na co pouziva MapReduce Ale I rada “ skriptu ” co pocitaji seqencne; jak je poustet aby si navzajem nevyzraly CPU/DISK (v dany cas, po sobe)
  • Tomáš Hlucháň - Jak funguje Seznam.cz Vyhledávání

    1. 1. Jak funguje Seznam.cz VyhledáváníTomáš Hlucháň
    2. 2. O čem to bude?
    3. 3. Fulltextové hledání• Získání dokumentů• Analýza a tvorba hledací databáze• Vyhledání a prezentace výsledků• Zpětná vazba
    4. 4. Fulltextové hledání• Co je to “Index”• Tvorba• Údržba• Hledání
    5. 5. Fulltextové hledání v internetu
    6. 6. Jak pracuje fulltextové hledání ? WWW INDEX DOKUMENTY
    7. 7. Získání a uložení dokumentů• Kolik dokumentů chceme mít?• Jak efektivně stahovat dokumenty?• Kam je uložíme?• Jak často je budeme obnovovat?
    8. 8. Získání a uložení dokumentů PLÁNOVAČ WWW DOWNLOADER DOKUMENTY ANALÝZA
    9. 9. Indexace FEEDERDOKUMENTY INDEXER INDEXER MERGE MERGE INDEX INDEX
    10. 10. Indexy pod lupou• Složení indexu – seznam dokumentů a jejich atributy – seznam dokumentů pro každé slovo – extrakt textu dokumentů pro úryvky• Druhy indexů – complete – daily – fresh
    11. 11. Hledání a prezentace výsledků• zpracování uživatelského dotazu• distribuované hledání• prezentace výsledků
    12. 12. Hledání a prezentace výsledků ? Příprava dotazu Hledání INDEX
    13. 13. Pochopení dotazu• doplnění diakritiky• doplnění skloňovaných tvarů slov• detekce čísel• generování podobných slov• desambiguace• detekce zkratek• ....
    14. 14. Strom dotazu sip tmobile babybox weisser universita
    15. 15. Hledání - distribuované hledání Příprava dotazu A A A H H H H I I I I
    16. 16. Hledání - prezentace výsledku• seřazení• generování úryvku (snippet)• náhled• zpětná vazba
    17. 17. Seznam.cz Vyhledávání• Odkud přícházíme• Kdo jsme• Kam jdeme
    18. 18. Odkud přicházíme• Rok = 2005• Stroje = 11• Lidé = 4
    19. 19. Kdo jsme• Celkem 70 lidí• 32 programátorů• 16 produkt manažerů• 12 výzkumníků• 6 administrátorů• 100 brigádníků
    20. 20. Kdo jsme• Celkem 500 strojů• 300 vyhledávání• 150 robot• 50 vývoj a výzkum• 2 serverovny
    21. 21. Kdo jsme• 500TB dat• 50M dokumentů denně• Rychlostí několik GBit/s• Hledáme v 800M dokumentech• 350 až 500 dotazů za sekundu
    22. 22. Kdo jsme
    23. 23. Kam jdeme• “kniha o nemeckych tancich” ?• Relevance• Relevance• Relevance• Relevance• …
    24. 24. Děkuji za pozornost…Tomáš Hlucháň

    ×