Novinky ve vyhledáváníOtakar SmržSearching SessionNTK 2012
… search.seznam.czSeznam.cz je jednička na českém internetu, od roku 2005 má vlastní fulltextové vyhledávání    –   350 do...
Vyhledávačrobot – procházení internetem, rozhodování o  zajímavosti dokumentu a jeho uloženíindexer – zpracování dokumentů...
Cizojazyčné vyhledáváníindexování dokumentů v cizích jazycích a  podpora pro zpracování cizojazyčných dotazů    –   65% če...
Zpracování dotazuinteraktivní – našeptavač, oháčkování, oprava  překlepů, související dotazydodatečné – ohýbání slovních t...
Zobrazení výsledků
Relevancerelevance – míra příslušnosti dokumentu k dotazu  určující pořadí výsledkůon-page – vlastnosti získané ze stránky...
Snippetysnippet – popisek, krátký úryvek výsledku hledánísnippet má umožnit odhad relevance dokumentu  vůči dotazu
Snippetysnippet má co nejlépe vystihnout celý dokument  a zvýraznit vyhledaná slova v jejich kontextusnippet má být inform...
Snippetynová metoda tvorby popisku se snaží    –   zahrnout do snippetu co nejužitečnější informaci    –   čerpat úryvky n...
Osnovyosnova – výběr pojmenovaných odkazů dovnitř dokumetu, zpřístupnění vnitřní struktury stránky
Osnovyosnova informuje o rozdělení stránky do různých  tematických nebo logických částí a zpřístupňuje jeosnova může být z...
Aktuálnostdatum a čas publikování u zpravodajských článků a novinek z vybraných zdrojů, ve dvou formátech
Upoutávkyobohacují výsledky hledání o informace ze zpráv, obrázky, mapy, akce pro volný čas, firmy, zboží ...
Miniaplikace a odpovídačkalkulačka               poštovní směrovací číslapřevod jednotek a měn    kódy bank a pojišťovenvý...
Skokani internetudotazy hledané výrazně častěji než dříve   –   Perseidy 2012              –   Karlštejnský jablečný koláč...
… fulltext.sblog.czproduktové novinky a vylepšenízajímavosti z výzkumu a vývojeinformace pro webmastery a optimalizaci
Díky za pozornost …
Upcoming SlideShare
Loading in …5
×

Novinky ve vyhledávání Seznam.cz (Otakar Smrž)

479 views

Published on

  • Be the first to comment

  • Be the first to like this

Novinky ve vyhledávání Seznam.cz (Otakar Smrž)

  1. 1. Novinky ve vyhledáváníOtakar SmržSearching SessionNTK 2012
  2. 2. … search.seznam.czSeznam.cz je jednička na českém internetu, od roku 2005 má vlastní fulltextové vyhledávání – 350 dotazů za sekundu, ve špičce přes 500 – 15 milionů dotazů denně – 600 milionů prohledávaných dokumentů – 10 miliard známých odkazů – 1000 dokumentů stažených za sekundu
  3. 3. Vyhledávačrobot – procházení internetem, rozhodování o zajímavosti dokumentu a jeho uloženíindexer – zpracování dokumentů pro vyhledáváníhadoop – databáze a distribuované zpracování dathledání – zpracování dotazu, zahledání, filtrace, řazení, zpracování a popisování výsledkůwebovka – zobrazení výsledků, upoutávek, reklamy, sledování dotazů a uživatelské odezvy
  4. 4. Cizojazyčné vyhledáváníindexování dokumentů v cizích jazycích a podpora pro zpracování cizojazyčných dotazů – 65% čeština – 25% angličtina – 3% slovenština – 3% němčina – 4% ostatní jazyky
  5. 5. Zpracování dotazuinteraktivní – našeptavač, oháčkování, oprava překlepů, související dotazydodatečné – ohýbání slovních tvarů, reformulace dotazu, synonyma a slova odvozená, zkratky, …zvláštní operátory pro rozšířené možnosti hledání
  6. 6. Zobrazení výsledků
  7. 7. Relevancerelevance – míra příslušnosti dokumentu k dotazu určující pořadí výsledkůon-page – vlastnosti získané ze stránky samotnéoff-page – informace o stránce závislé na jejím umístění, prolinkování a návštěvnostinutná je detekce a odstranění obsahových duplicit a redukce podobných výsledků z jedné domény
  8. 8. Snippetysnippet – popisek, krátký úryvek výsledku hledánísnippet má umožnit odhad relevance dokumentu vůči dotazu
  9. 9. Snippetysnippet má co nejlépe vystihnout celý dokument a zvýraznit vyhledaná slova v jejich kontextusnippet má být informativní a má pomoci uživateli vybrat si z výsledků hledání ty nejpříhodnější X
  10. 10. Snippetynová metoda tvorby popisku se snaží – zahrnout do snippetu co nejužitečnější informaci – čerpat úryvky nejen z viditelného textu stránky – vyhnout se opakování textu v popisku – zlepšit formátování a přehlednost snippetupodoba popisku závisí na obsahu dokumentu, proměňuje se ovšem podle znění dotazu – ovlivnit výběr úryvků do snippetu lze jen nepřímo přes <meta name="description" content="…" />
  11. 11. Osnovyosnova – výběr pojmenovaných odkazů dovnitř dokumetu, zpřístupnění vnitřní struktury stránky
  12. 12. Osnovyosnova informuje o rozdělení stránky do různých tematických nebo logických částí a zpřístupňuje jeosnova může být zobrazena u jakékoliv stránky s vhodně definovanou strukturou bez ohledu na doménu nebo typ webuodkazy do dokumentu jsou vybírány v souvislosti s dotazem a nemusejí směřovat jen na prvních několik oddílů textuosnovy sestavujeme nezávisle na jazyce dokumentu či dotazu
  13. 13. Aktuálnostdatum a čas publikování u zpravodajských článků a novinek z vybraných zdrojů, ve dvou formátech
  14. 14. Upoutávkyobohacují výsledky hledání o informace ze zpráv, obrázky, mapy, akce pro volný čas, firmy, zboží ...
  15. 15. Miniaplikace a odpovídačkalkulačka poštovní směrovací číslapřevod jednotek a měn kódy bank a pojišťovenvýpočet BMI důležitá telefonní číslapřevod římských číslic kalorické hodnoty jídelmorseovka telefonní předčíslí státůéčka kódy letišť
  16. 16. Skokani internetudotazy hledané výrazně častěji než dříve – Perseidy 2012 – Karlštejnský jablečný koláč – Medaile LOH 2012 pořadí – Moderní pětiboj – Souhvězdí Perseus – Lori štíhlý – Úplněk srpen 2012 – Náhrdelníky akce – Půjčka před výplatou – Antiperspirant – Význam příjmení – www.ceecr.cz – Aktuální teplota v Praze – Karezza – Lymfatické masáže – Technologie hifu – Rychlá půjčka ihned – Fata morgana – Večerníček znělka – Africký hrnec
  17. 17. … fulltext.sblog.czproduktové novinky a vylepšenízajímavosti z výzkumu a vývojeinformace pro webmastery a optimalizaci
  18. 18. Díky za pozornost …

×