Jaké technologie pohání vyhledávání? Jaké překážky vás potkají při fulltextovém hledání v internetu? Co obnáší budování velké a komplexní věci, jako je Vyhledávač? Odpoledne se Seznam.cz pro začínající firmy v TechSquare 8.10.2012
7. Získání a uložení dokumentů
• Kolik dokumentů chceme mít?
• Jak efektivně stahovat dokumenty?
• Kam je uložíme?
• Jak často je budeme obnovovat?
8. Získání a uložení dokumentů
PLÁNOVAČ
WWW DOWNLOADER
DOKUMENTY ANALÝZA
9. Indexace
FEEDER
DOKUMENTY
INDEXER INDEXER
MERGE MERGE
INDEX INDEX
10. Indexy pod lupou
• Složení indexu
– seznam dokumentů a jejich atributy
– seznam dokumentů pro každé slovo
– extrakt textu dokumentů pro úryvky
• Druhy indexů
– complete
– daily
– fresh
11. Hledání a prezentace výsledků
• zpracování uživatelského dotazu
• distribuované hledání
• prezentace výsledků
Jak funguje hledani Odkud pochazime = Jak to zacalo Kdo jsme = Lide,Stroje,Data,Technologie Kam jdeme = Co dal?
Knihovna, ziskani knizek, jejich “ precteni ” – klicova slova – nebo uplne cele? FULLTEXTove…, Samotne hledani, prochazeni databaze, doneseni knizky ctenari, s trochou relevatni reklamy ;-) A jeste se podivame, jestli se na nas usmal, dostal co chtel
Jako v knihovne, knihovnik Co nove knizky, jak to zacne Co kdyz uz se nam sem vsechno nevejde, ktere vyhodit Jak v tom hledat? Kazdy ctenar po jednom, nebo pustit vice ctenaru indexu? Co delat kdyz se vam “ obsah ” knizky meni Co “cache” ? Knihovni si pamatuje casto hledane knizky a chodi najisto, bez indexu
Na internetu je to snadne…. Zadame, dostaneme, a neviditelny knihovnik vse najde Ale je to uplne stejne jako v knihovne
Rozlozeni jazyku Zpetne odkazy
Indexu je vic – protoze: Lepe se pocitaji – nejsou tak velke Lepe se v nich hleda, da se to distribuovat a cele jsou pak v pameti
Cache !
Cache! Titulkovac
Pochopeni potazu, knihovnik muze mit kontext, muze vas znat, ale my to mame tezsi…. Nevidime co mate na sobe, zda jste muz/zena…. Muzem reagovat na pozadavky vetsiny Nebo namichat “ kniha o nemeckych tancich ” “ Zenu holi stroj ”
Knihovnici se rozebhenou ke indexum, postupne se vraci Kdo dojde pozde ma smulu…. Redundance – indexy se prekryvaji
Strojove uceni Kalibratori Uryvek z knizky Sledovat chovani ctenare, zda si knizku vezme, nebo hleda dal……
Odkud pochazime = Jak to zacalo Kdo jsme = Lide,Stroje,Data,Technologie Kam jdeme = Co dal?
Jake teamy a kde mame, Co delaji
Dualita Dedundance Virtualizace, vyuziti HW – Hledani CPU, ale ne DISK, Titulkovani DISK, ale ne CPU – idealne muzou bezet spolu Idle Server – parazitni indexace Obnovy HW Vyvoj HW s kanclu, prenos dat v TB ;-)
Co v cem je, jaky tym co na co pouziva MapReduce Ale I rada “ skriptu ” co pocitaji seqencne; jak je poustet aby si navzajem nevyzraly CPU/DISK (v dany cas, po sobe)