• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Jak pracují internetové vyhledávače
 

Jak pracují internetové vyhledávače

on

  • 506 views

 

Statistics

Views

Total Views
506
Views on SlideShare
506
Embed Views
0

Actions

Likes
0
Downloads
12
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Jak pracují internetové vyhledávače Jak pracují internetové vyhledávače Document Transcript

    • Jak pracují internetové vyhledávače Eliška Skočovská 5.1.2013 Masarykova univerzita Brno Pedagogická fakulta
    • Obsah 1.1 Argumentace .......................................................................................................................... 2 1.2 Anotace .................................................................................................................................. 2 1.3 Klíčová slova ........................................................................................................................... 2 1.4 Vyhledávače versus katalogy .................................................................................................. 2 1.5 Práce vyhledávačů a proces vyhledávání ................................................................................ 3 1.5.1 Stažení obsahu z internetu ............................................................................................. 3 1.5.2 Zatřízení stažených dat ................................................................................................... 3 1.5.3 Zlepšení výsledků vyhledávání ........................................................................................ 3 1.5.4 Manipulace s výsledky .................................................................................................... 4 1
    • Obrázek 1 - Obsah dokumentu1 ArgumentaceDnešní doba je označována jako informační a sdílení informací má čím dál větší význam v běžnémživotě. V dnešní době se děti stýkají s informačními technologiemi prakticky od doby, kdy začínajíkomunikovat. V nepřeberném množství dat nám nejvíce pomáhají s orientací v nich vyhledávače.Právě pro vysokou periodicitu jejich využívání by měli být uživatelé obeznámeni se způsobem, jakýmpři vyhledávání postupují, protože jim to umožní dotazovat se sofistikovaněji, a tak obdržetrelevantnější data. Proto se tato práce nazývá: „Jak pracují internetové vyhledávače“, přestože sedotkne i souvisejících témat.2 AnotaceText se zabývá fulltextovými vyhledávači a vysvětluje základní principy jejich fungování od staženíobsahu robotem přes indexaci a určení pageranku po vrácení výsledku uživateli. Dále je uvedenazjednodušená metodika zadávání dotazů tak, aby internetový vyhledávač vrátil relevantní výsledky.V závěru jsou nastíněny možnosti ovlivňování výsledků ze strany vydavatelů obsahu internetovýchstránek.3 Klíčová slovaFulltextový vyhledávač, internetový katalog, indexace, zadání dotazu, klíčové slovo, SEO4 Vyhledávače versus katalogyVětšina uživatelů na internetu příliš nerozlišuje mezi internetovými katalogy a fulltextovýmvyhledávačem.Je důležité si uvědomit, že katalog je pouze internetová stránka na některém z portálů, v které jsouzaregistrovány odkazy s popisem na jiné internetové stránky. Svůj obsah tedy aktivně nevyhledávají ajsou odkázány na data, která jim poskytnou uživatelé, kteří na nich chtějí být vidět. I když katalogobsahuje vyhledávací funkci, při vyhledávání na něm jsme omezeni daty, která jsou v nich tříděná.Fulltextové vyhledávače naproti tomu získávají obsah všech stránek na internetu aktivně a na dotazvrátí uživateli odkazy na stránky, o kterých si na základě dotazu myslí, že je uživatel hledá. Obecně lzeříci, že nejvíce uživatelů na stránky přichází z vyhledávačů a do budoucna se až na nějakéspecializované oblasti bude tento rozdíl prohlubovat.  Internetové vyhledávače 2
    • o http://www.google.com o http://www.seznam.cz o http://www.bing.com  Internetové katalogy o http://www.atlas.cz o http://www.centrum.cz o http://www.seznam.cz o http://www.yahoo.com/5 Práce vyhledávačů a proces vyhledávání5.1 Stažení obsahu z internetuPrvní polovinou úspěchu vyhledávače je získat obsah jednotlivých stránek na internetu a to proto, žejinak by nebylo možné, aby nám během momentu vrátil relevantní výsledky a adresy na webovoustránku, na které se vyskytují. Aby tyto odpovědi nemusely být vyhledávány na internetu v reálnémčase, využívají vyhledávače speciální programy tzv. roboty, pavouky, či crawlery. Robot přijde nastránku, jednoduše stáhne její obsah a ten uloží do databáze. Roboti vyhledávačů takto procházíneustále celý internet a obsah, který má provozovatel vyhledávače uložen nepřetržitě aktualizují. Připrocházení stránek zároveň shromažďují další odkazy, které se v textu stránek nacházejí. Pokud nanějaký odkaz robot narazí, pokusí se takovou stránku načíst a stáhnout její obsah.5.2 Zatřídění stažených datStránky, které jsou staženy, jsou posílány do skladiště (tzv. storeserveru). Stránka dostane svojeunikátní identifikační číslo a je dále zařazena do indexu (česky rejstříku stránek). O toto zařazení sestará tzv. indexer, který může být z tohoto pohledu považován za nejdůležitější část vyhledávače.Následuje posloupnost činností, která stojí za úspěchem vyhledávání: 1) Dokumenty (obsah stažených stránek) jsou převáděny na slovní spojení, ke kterým jsou dále přidány informace jako pozice v dokumentu, velikost písma, záznam o slovu. 2) Tyto záznamy (tzv. hity), jsou ukládány do barelů, a zde už jsou připraveny pro odeslání k uživateli. Slova jsou převedena na unikátní identifikační čísla (wordID), jehož podstata je uchovávána ve slovnících s kterými indexer spolupracuje. 3) Jednotlivým dokumentům je přiřazen takzvaný PageRank. Význam tohoto slovního spojení by se dal do češtiny přeložit jako Věrohodnost stránky v očích vyhledávače.Index, s kterým jsme se již v textu setkali, je databáze všech slov vyskytujících se na stránkách, kteráulehčuje vyhledávání. Vyhledávač prohledá index a v něm najde zadané slovo, pomocí jehožidentifikačního kódu dále prohledá adresy, na kterých se toto slovo vyskytuje, a nabídne ty webovéstránky, které mají nejvyšší PageRank (jsou hodnoceny nejlépe).5.3 Zlepšení výsledků vyhledáváníSpoustu uživatelů fulltextových vyhledávačů má problém s nalezením obsahu, který požaduji. Jenutné si uvědomit, že většinou je problém na straně vyhledávajícího, nebo spíše špatně zadanéhoslovního spojení ve vyhledávači. Je ovšem nutné, uvědomit si, že vyhledávače pro vyhledávání ahodnocení stránek používají různé algoritmy a proto se výsledky při zadání stejného slovního spojení 3
    • mohou lišit. Některá zde uvedená doporučení jsou použitelná pouze na nejrozšířenějším vyhledávačiGoogle.  Uživatel by se měl dotazovat přesně na to, co hledá, využívat odborných termínů.  Je lepší zadávat víceslovná spojení, která konkretizují hledané informace, např. pokud vyhledávám ubytování v České Lípě, dostanou se relevantnější data, pokud se do vyhledávače zadá „Penzion Česká Lípa“, než na dotaz „levné ubytování“  Pokud vím, na které stránce chci informace vyhledat, mohu ve vyhledávači Google tuto stránku definovat pomocí site: Vyhledávací dotaz by pak tedy mohl vypadat např. „site: www.i-noviny.cz penzion“  Ve vyhledávači Google mohu vybrat specifičtější typ hledání a zvolit například vyhledávání obrázků, vyhledávání místa na mapě, v knihách atd. Pokud uživatel ví, že bude hledat knihu a zvolí vyhledávání v knihách, výsledky na dotaz budou indexované knihy na Google. Nemělo by se zapomínat, že po takovémto zúžení již nejde o plnohodnotné fulltextové vyhledávání.Obrázek 2 - Možné zúžení fulltextového vyhledávání5.4 Manipulace s výsledkyVzhledem k tomu, že pro výpočet relevance dat ke klíčovému slovu (dotazu), existuje algoritmus provýpočet pozice, na které se výsledná stránka zobrazí, jsou majitelé stránek, kteří se snaží mít takovéparametry, aby web algoritmus pozitivně vyhodnotil a stránku tak zobrazil na předních pozicích. Promajitele stránek totiž takovéto umístění znamená větší návštěvnost. V souvislosti s touto skutečnostíby bylo vhodné zmínit dva hlavní marketingové proudy ve vyhledávačích.  SEO – disciplína, která se zabývá optimalizací stránky pro vyhledávače na určitý dotaz.  SEM – placené elektronické kampaně podporované vyhledávači (tvoří podstatnou část jejich příjmu). 4
    • 6 Použitá literaturaKUBÍČEK, Michal. Velký průvodce SEO: jak dosáhnout nejlepších pozic ve vyhledávačích. Vyd. 1.Brno: Computer Press, 2008, 318 s. ISBN 978-80-251-2195-5.  V knize je v úvodu popsán obecný princip vyhledávání.  Obsahuje informace o více vyhledávačích.  Autor knihy není pouze teoretik, ale danou problematikou se živí.  Obsahuje praktické ukázky optimalizace stránek pro vyhledávače (SEO), které jsou užitečné pro pochopení principu vyhledávače.  V knize je uvedena spousta odkazů na další internetové stránky s podobnou tematikou.FRNAKLIN, Curt. How Internet Search Engines Work. Howstuffworks [online]. [cit. 2013-01-06].Dostupné z: http://computer.howstuffworks.com/internet/basics/search-engine.htm  Webová stránka, z které článek pochází, má dlouholetou historii a je průběžně aktualizována (přibývají nové články).  Odkazy na stránce jsou aktivní.  Autor článku je uveden a pohybuje se v dané oblasti.  V článku se používá odborných termínů.  Na serveru jsou i jiné články, které se zabývají internetem.GOOGLE. Picking the right search terms. Google [online]. [cit. 2013-01-06]. Dostupné z:https://docs.google.com/document/d/1l4pS26nZLUok_-rx2_w5qu5aYy40p5gXX58l6dgE4_c/edit  Autor v tomto případě není známý, nicméně stránka byla vytvořena týmem Googlu.  Server je věrohodný (sám je vyhledávačem).  Protože vedle autorů ve společnosti pracuje i tým, který vyhledávač vyvíjí a vylepšuje, mají autoři možnost konzultovat obsah textu.  Text je 100% správný pro zadávání řetězce ve vyhledávači Google, na druhou stranu text není platný obecně.  Je zde velké množství obdobných článků, které jsou průběžně aktualizovány a rozšiřovány. 5