SlideShare a Scribd company logo
1 of 8
Masarykova univerzita
         Filozofická fakulta
           Ústav Hudební Vědy
        Teorie Interaktivních Médií




              Vít Holubovský




             Seminární Práce



            Deep Web
a využití sítě TOR (nejen) k přístupu k němu




                   2012
Argumentace

        Deep Web jsem si jako téma své proseminární práce zvolil ze dvou důvodů. Prvním z nich
byl fakt, že jsem v minulosti již jednu zkušenost s tímto prostorem měl, ale nenaplnila ani zdaleka
má, na tehdejší dobu utopická, očekávání. Proto jsem se rozhodl se na tématiku Deep Webu podívat
ještě jednou, pragmaticky a s odstupem několika let. Tentokrát ne však jako zvědavý teenager, ale
jako někdo, kdo by chtěl lépe definovat pojem Deep Webu pro masu uživatelů internetu, kteří
mnohdy netuší, že s Deep Webem přicházejí do kontaktu vlastně denně.
       Druhou motivací pro mne byl současný trend sociálních sítí a odhalování vlastního
soukromí bez většího rozmyslu v prostředí internetu. Zatímco před nástupem sociálních sítí si každý
pečlivě střežil svou anonymitu, dnes jsme svědkem opačného trendu a to, že každý se chce
prezentovat jako individuum a podepsat se pod svůj názor.
       Třetí motivací pro mne byl samotný program TOR, jehož funkce ve své proseminární práci
popisuji a používám jej k přístupu ke skrytým doménám v prostředí sítě TOR. Uvědomil jsem si
však, že TOR, jakožto prostředek k zabezpečení komunikace v prostředí internetu, je naprosto
unikátním projektem, který umožňuje anonymní komunikaci pro účely jako zpravodajství z
krizových oblastí, zemí ve kterých jsou potlačována lidská práva, či vyjadřování vlastních názorů
bez hrozby persekuce.



                                            Anotace

        Jakožto hlavní cíl své proseminární práce jsem si určil uvedení čtenáře do problematiky
diverzifikace internetu, se zaměřením především na pojmy jako je Deep Net, Deep Web,
Indexovaný Obsah a Clear Net. Tyto sektory internetu dále definuji a zaměřuji se na vztahy mezi
nimi, ať už jejich vzájemnou korelaci, či naopak upozornění na neexistenci těchto vztahů.
        Prvním cílem mé proseminární práce je tedy objasnění toho, co se skutečně skrývá mezi
těmito pojmy a následné vytvoření jednoduchého schématu internetu, na kterém lze tyto struktury
internetu lépe demonstrovat.
        Ve druhé části se zabývám softwarem TOR, jeho možným využitím jednak jakožto
anonymizátoru zvyšujícím bezpečnost při pohybu a komunikaci v prostředí internetu, vysvětluji
princip jeho fungování a dále se zaměřuji na využití tohoto softwaru jakožto brány pro přístup do
prostředí Deep Netu včetně názorné ukázky.
Klíčová slova

Deep Web „Část internetu, která NENÍ indexovaná internetovými vyhledávači.“
Deep Net „Všechny stránky s doménou .onion v rámci sítě TOR.“
Clear Net „Ta část internetu, k jejímuž přístupu není zapotřebí žádných dalších programů vyjma
internetového prohlížeče. Jedná se o nejběžnější prostředí internetu, se kterým přichází denně do
styku většina uživatelů.“
Indexovaný obsah „Část internetu, která je indexovaná internetovými vyhledávači.“
TOR „Anonymizátor sloužící k zamaskování internetové komunikace a k přístupu k Deep Netu.“
Definice Deep Webu

       Při hledání vhodné, krátké a výstižné definice Deep Webu jsem narazil na fakt, že pro
mnoho uživatelů je tato část internetu stále velkou neznámou. Přitom si neuvědomují, že i oni
přicházejí do styku minimálně s částí Deep Webu prakticky každý den.
           Definice, kterou jsem pro potřeby této seminární práce vytvořil zní následovně:
    „Deep Web je veškerý obsah World Wide Webu, který není indexován internetovými vyhledávači.”


        Abychom této definici plně porozuměli, musíme si nejprve objasnit význam pojmu
indexování. Indexováním rozumíme proces prováděný internetovými vyhledávači za pomoci robotů
tzv. „Web Crawlerů.”1 Jedním, a také nejznámějším, z nich je Googlebot. Googlebot plní
jednoduchý úkol – prochází internetové stránky, které posléze celé stahuje, převede na text a posílá
je kolegovi, kterým je Google Indexer. Google Indexer tento text ukládá do databáze, ve které jsou
webové stránky ve formě textu tříděny podle klíčových slov.
       Kromě čistého html kódu webové stránky umí Googlebot indexovat také dokumenty a
některé multimediální formáty včetně2:

       •   Adobe Flash (.swf)
       •   Adobe Portable Document Format (.pdf)
       •   Adobe PostScript (.ps)
       •   Autodesk Design Web Format (.dwf)
       •   Google Earth (.kml, .kmz)
       •   GPS eXchange Format (.gpx)
       •   Hancom Hanword (.hwp)
       •   Microsoft Excel (.xls, .xlsx)
       •   Microsoft PowerPoint (.ppt, .pptx)
       •   Microsoft Word (.doc, .docx)
       •   OpenOffice prezentace (.odp)
       •   OpenOffice tabulky (.ods)
       •   OpenOffice text (.odt)
       •   Rich Text Format (.rtf, .wri)
       •   Scalable Vector Graphics (.svg)
       •   TeX/LaTeX (.tex)
       •   Text (.txt, .text, a další), včetně zdrojových kódů psaných v některých programovacích
           jazycích:
               • Basic source code (.bas)
               • C/C++ source code (.c, .cc, .cpp, .cxx, .h, .hpp)
               • Java source code (.java)
               • Perl source code (.pl)
               • Python source code (.py)

1     DRAGUT, Eduard C., Weiyi MENG a Clement T. YU. Deep web query interface understanding and integration.
      San Rafael: Morgan. 168 s. ISBN 16-084-5894-6.
2     What file types can Google index? Google [online]. Mountain View (California): Google inc. Last modified on 16
      October 2012 [cit. 2013-01-06]. Dostupné z:
      http://support.google.com/webmasters/bin/answer.py?hl=en&answer=35287
• Wireless Markup Language (.wml, .wap)
    • XML (.xml)
        Může se zdát, že internetové vyhledávače v čele s Googlem indexují nepřeberné množství
typů souborů. Logicky pak vyvstává otázka: Z čeho se tedy skládá Deep Web? Odpověď se skrývá
v definici: Deep Web je veškerý další obsah na internetu, který není indexován. V roce 2001 odhadl
Michael K. Bergman velikost Deep Webu na 7 500 TB, což bylo téměř 400-krát více, než byla
tehdejší velikost indexovaného webu.3 Počet stránek v prostředí Deep Webu se mezi léty 2000 až
2004 navýšíl 3 až 7-krát z původně odhadovaných 43 000 – 96 000 na 307 000.4



                                                          Představme si internet jako ledovec plující v
                                                         moři. Ta část, kterou vidíme nad hladinou se
                                                         nazývá Surface Web neboli Clear Net. Jedná se o
                                                         zmíněnou povrchovou část internetu,
                                                         indexovanou internetovými vyhledávači. Deep
                                                         Net lze pak připodobnit k té části ledovce, která
                                                         je ponořena pod vodou. Z čeho se tedy Deep
                                                         Web skládá? Deep Webem jsou (mimo jiné):


                                                              • Všechna videa na internetu
                                                              • Většina obrázků na internetu
                                                              • Vaše komunikace s kamarádem na ICQ
                                                              • Vaše emaily
                                                              • Vaše akce v online hře
                                                              • Rozsáhlé databáze
                                                              • Všechny privátní stránky vyžadující
                                                                registraci a následné přihlášení
                                                              • Veškerá data přístupná přes přes jiné
                                                                protokoly než HTTP či HTTPS
                                                                (příkladem budiž FTP – file transfer
                                                                protokol servery sloužící ke sdílení
                                                                souborů)

        Pokud však videa nejsou indexována, jak je možné je podle klíčových slov s pomocí
internetových vyhledávačů najít? Odpověď je jednoduchá. Internetové vyhledávače indexují
klíčová slova spojená s videem, ať už se jedná o jeho název, klíčová slova vyplněná autorem videa
při jeho nahrání na web, či komentáře těch, kteří dané video shlédli. Nicméně důležitým faktem
zůstává, že internetové vyhledávače nejsou schopné indexovat jak samotný binární kód videa, tak
ani, co se ve videu odehrává. Pro ilustraci uvedu teoretický příklad.


      Řekněme, že jsem natočil domácí video, ve kterém můj pes aportuje a následně jej sestříhal
takovým způsobem, že jsem doprostřed vložil krátkou, několikavteřinovou lekací scénku z

3   BERGMAN, Michael K. White Paper: The Deep Web: Surfacing Hidden Value. Journal of Electronic Publishing.
    2001, č. 7. DOI: http://dx.doi.org/10.3998/3336451.0007.104. Dostupné z:
    http://quod.lib.umich.edu/cgi/t/text/idx/j/jep/3336451.0007.104/--white-paper-the-deep-web-surfacing-hidden-
    value?rgn=main;view=fulltext
4   E, Bin, Mitesh PATEL, Zhen ZHANG a Kevin Chen-Chuan CHANG. Accessing the deep web. Communications of
    the ACM [online]. 2007-05-01, roč. 50, č. 5, s. 94-101 [cit. 2013-01-06]. ISSN 00010782. DOI:
    10.1145/1230819.1241670. Dostupné z: http://portal.acm.org/citation.cfm?doid=1230819.1241670
hororového filmu. Toto video jsem posléze nahrál na svůj YouTube účet a jako klíčová slova
nevyplnil nic, co by přítomnost hororové scénky naznačovalo.
       Pokud bych posléze za pomoci internetového vyhledávače chtěl toto video najít podle jeho
popisu (například: Video + Golden + Retriever + Dog + Horror + Scene) byl bych, z výše
zmíněných důvodů, neúspěšný.



                          Deep Web vs. Deep Net vs. Clear Net

       Pro potřeby této proseminární práce musíme rozlišit trojici podobně znějících pojmu – Deep
Web, Deep Net a Clear Net Co je to Deep Web jsme si řekli již na začátku, jedná se o veškerá data v
síti World Wide Web, která nejsou indexována internetovými vyhledávači.


       Co je tedy Deep Net? Deep Net je někdy přirovnáván k Deep Webu jakožto synonymum,
nicméně pro naší proseminární práci definujeme Deep Net odlišně. Deep Net proto definujeme
jakožto:


                      „Všechny stránky s doménou .onion v rámci sítě TOR.“


       Dle naší definice do Deep Netu tedy patří například v předchozí kapitole zmíněná „Hidden
Wiki“ dostupná po připojení k síti TOR pod adresou http://7jguhsfwruviatqe.onion


       Třetím termínem, který je nutné v kontextu naší proseminární práce objasnit je termín Clear
Net. Clear Net je termín používaný v prostředí Deep Netu, protože pro něj však neexistuje přesně
daná definice, vysvětlil jsem jej následovně:


        „Clear Net je ta část internetu, k jejímž přístupu není zapotřebí žádných dalších programů
                                  vyjma internetového prohlížeče.“


        Jedná se tedy o tu část internetu, kterou dennodenně navštěvují milióny běžných uživatelů
internetu. Pro zjednodušení problému a ilustraci rozdělení internetu tak, jak si jej v kontextu této
proseminární práce představuji, jsem vytvořil následující diagram.
Jak je patrné z diagramu, internet je zde prezentován jakožto ovál a rozdělen následovně (od
nejmenší k největší části:
        Internet (modrý kruh včetně jeho podčástí)
        Deep Web, (modrá část)
        Clear Net, (růžová část)
        Indexovaný Obsah (dále IO), (ohraničen černou kružnicí)
        Deep Net, (zelená část)



        Z tohoto diagramu můžeme činit několik zjištění:


    1. IO je podmnožinou Clear Netu
    2. Clear Net je podmnožinou Deep Webu, přičemž jejich hranice nelze přesně vymezit
    3. Deep Web je podmnožinou internetu a tvoři jeho majoritní část
    4. Deep Net je podmnožinou Deep Webu, přičemž nemá nic společného jak s Clear Netem,
       tak s IO. Zároveň je přístupný pouze přes síť TOR. Samotný program TOR však stojí VNĚ
       celého Internetu a slouží pouze jakožto vstupní brána, ať už k Deep Netu, či jako
       anonymizátor komunikace a pohybu v prostředích Clear Netu a IO. (pozn.: Zelená barva
       značí anonymitu, odvozeno od hnutí Anonymous5)


5   COLEMAN, Gabriella. Gabriella Coleman on Anonymous. Vimeo [online]. [cit. 2013-01-06]. Dostupné z:
    http://vimeo.com/19806469
Hodnocení zdrojů

Deep web query interface understanding and integration
   - Aktuálnost!!!
   - Erudovanost autorů
   - Bezchybný jazyk
   - Objektivní a přínosné informace o problematice Deep Webu a vyhledávání v něm
   - Jednoduché, přehledné a nekomplikované ilustrace

What file types can Google index?
  - Přesnost informaci
  - Autorem je „sám Google“
  - Je uvedeno datum publikování a poslední změny
  - Přehledná stránka
  - Dostupnost ve více než 30 jazycích

Accessing the deep web. Communications of the ACM
   - Erudovanost autorů
   - Infografika
   - Jsou uvedené zdroje
   - Přehledná forma otázek a odpovědí na ně
   - Snadná online dostupnost

More Related Content

Similar to Deep Web

Linked Data pro Evropský sociální fond
Linked Data pro Evropský sociální fondLinked Data pro Evropský sociální fond
Linked Data pro Evropský sociální fondMartin Necasky
 
Závěrečný úkol KPI
Závěrečný úkol KPIZávěrečný úkol KPI
Závěrečný úkol KPIVolf
 
Techniky a nástroje pro propojená data (Linked Data)
Techniky a nástroje pro propojená data (Linked Data)Techniky a nástroje pro propojená data (Linked Data)
Techniky a nástroje pro propojená data (Linked Data)Martin Necasky
 
Komunikace na internetu 2
Komunikace na internetu 2Komunikace na internetu 2
Komunikace na internetu 2Martin Krčál
 
Komunikace na internetu 1
Komunikace na internetu 1Komunikace na internetu 1
Komunikace na internetu 1Martin Krčál
 
Borek Bernard: TypeScript - příčetný jazyk pro web
Borek Bernard: TypeScript - příčetný jazyk pro webBorek Bernard: TypeScript - příčetný jazyk pro web
Borek Bernard: TypeScript - příčetný jazyk pro webDevelcz
 
Internet a počítačové sítě
Internet a počítačové sítěInternet a počítačové sítě
Internet a počítačové sítěPetr Sál
 
Library 2.0 / Knihovna 2.0
Library 2.0 / Knihovna 2.0Library 2.0 / Knihovna 2.0
Library 2.0 / Knihovna 2.0JanKanka
 
Skoleni b3 socialni_media
Skoleni b3 socialni_mediaSkoleni b3 socialni_media
Skoleni b3 socialni_mediaJiri Snitil
 
Workshop - Ruzicka - Webové mapy prakticky
Workshop - Ruzicka - Webové mapy praktickyWorkshop - Ruzicka - Webové mapy prakticky
Workshop - Ruzicka - Webové mapy praktickyswenney
 
Architektura a implementace digitálních knihoven v prostředí sítě Internet
Architektura a implementace digitálních knihoven v prostředí sítě InternetArchitektura a implementace digitálních knihoven v prostředí sítě Internet
Architektura a implementace digitálních knihoven v prostředí sítě InternetDavid Pasek
 

Similar to Deep Web (20)

Linked Data pro Evropský sociální fond
Linked Data pro Evropský sociální fondLinked Data pro Evropský sociální fond
Linked Data pro Evropský sociální fond
 
Závěrečný úkol KPI
Závěrečný úkol KPIZávěrečný úkol KPI
Závěrečný úkol KPI
 
Web2.0 2
Web2.0 2Web2.0 2
Web2.0 2
 
Techniky a nástroje pro propojená data (Linked Data)
Techniky a nástroje pro propojená data (Linked Data)Techniky a nástroje pro propojená data (Linked Data)
Techniky a nástroje pro propojená data (Linked Data)
 
Komunikace na internetu 2
Komunikace na internetu 2Komunikace na internetu 2
Komunikace na internetu 2
 
Komunikace na internetu 1
Komunikace na internetu 1Komunikace na internetu 1
Komunikace na internetu 1
 
Veruprezentace
VeruprezentaceVeruprezentace
Veruprezentace
 
Veruprezentace
VeruprezentaceVeruprezentace
Veruprezentace
 
Borek Bernard: TypeScript - příčetný jazyk pro web
Borek Bernard: TypeScript - příčetný jazyk pro webBorek Bernard: TypeScript - příčetný jazyk pro web
Borek Bernard: TypeScript - příčetný jazyk pro web
 
Internet a počítačové sítě
Internet a počítačové sítěInternet a počítačové sítě
Internet a počítačové sítě
 
TNPW2-2012-02
TNPW2-2012-02TNPW2-2012-02
TNPW2-2012-02
 
06 Cvičení.pptx
06 Cvičení.pptx06 Cvičení.pptx
06 Cvičení.pptx
 
TNPW2-2014-05
TNPW2-2014-05TNPW2-2014-05
TNPW2-2014-05
 
Library 2.0 / Knihovna 2.0
Library 2.0 / Knihovna 2.0Library 2.0 / Knihovna 2.0
Library 2.0 / Knihovna 2.0
 
Skoleni b3 socialni_media
Skoleni b3 socialni_mediaSkoleni b3 socialni_media
Skoleni b3 socialni_media
 
Workshop - Ruzicka - Webové mapy prakticky
Workshop - Ruzicka - Webové mapy praktickyWorkshop - Ruzicka - Webové mapy prakticky
Workshop - Ruzicka - Webové mapy prakticky
 
Kurz webové Archivare I.
Kurz webové Archivare I.Kurz webové Archivare I.
Kurz webové Archivare I.
 
Webarchiv
WebarchivWebarchiv
Webarchiv
 
Architektura a implementace digitálních knihoven v prostředí sítě Internet
Architektura a implementace digitálních knihoven v prostředí sítě InternetArchitektura a implementace digitálních knihoven v prostředí sítě Internet
Architektura a implementace digitálních knihoven v prostředí sítě Internet
 
Vnitrofiremní sociální sítě
Vnitrofiremní sociální sítěVnitrofiremní sociální sítě
Vnitrofiremní sociální sítě
 

Deep Web

  • 1. Masarykova univerzita Filozofická fakulta Ústav Hudební Vědy Teorie Interaktivních Médií Vít Holubovský Seminární Práce Deep Web a využití sítě TOR (nejen) k přístupu k němu 2012
  • 2. Argumentace Deep Web jsem si jako téma své proseminární práce zvolil ze dvou důvodů. Prvním z nich byl fakt, že jsem v minulosti již jednu zkušenost s tímto prostorem měl, ale nenaplnila ani zdaleka má, na tehdejší dobu utopická, očekávání. Proto jsem se rozhodl se na tématiku Deep Webu podívat ještě jednou, pragmaticky a s odstupem několika let. Tentokrát ne však jako zvědavý teenager, ale jako někdo, kdo by chtěl lépe definovat pojem Deep Webu pro masu uživatelů internetu, kteří mnohdy netuší, že s Deep Webem přicházejí do kontaktu vlastně denně. Druhou motivací pro mne byl současný trend sociálních sítí a odhalování vlastního soukromí bez většího rozmyslu v prostředí internetu. Zatímco před nástupem sociálních sítí si každý pečlivě střežil svou anonymitu, dnes jsme svědkem opačného trendu a to, že každý se chce prezentovat jako individuum a podepsat se pod svůj názor. Třetí motivací pro mne byl samotný program TOR, jehož funkce ve své proseminární práci popisuji a používám jej k přístupu ke skrytým doménám v prostředí sítě TOR. Uvědomil jsem si však, že TOR, jakožto prostředek k zabezpečení komunikace v prostředí internetu, je naprosto unikátním projektem, který umožňuje anonymní komunikaci pro účely jako zpravodajství z krizových oblastí, zemí ve kterých jsou potlačována lidská práva, či vyjadřování vlastních názorů bez hrozby persekuce. Anotace Jakožto hlavní cíl své proseminární práce jsem si určil uvedení čtenáře do problematiky diverzifikace internetu, se zaměřením především na pojmy jako je Deep Net, Deep Web, Indexovaný Obsah a Clear Net. Tyto sektory internetu dále definuji a zaměřuji se na vztahy mezi nimi, ať už jejich vzájemnou korelaci, či naopak upozornění na neexistenci těchto vztahů. Prvním cílem mé proseminární práce je tedy objasnění toho, co se skutečně skrývá mezi těmito pojmy a následné vytvoření jednoduchého schématu internetu, na kterém lze tyto struktury internetu lépe demonstrovat. Ve druhé části se zabývám softwarem TOR, jeho možným využitím jednak jakožto anonymizátoru zvyšujícím bezpečnost při pohybu a komunikaci v prostředí internetu, vysvětluji princip jeho fungování a dále se zaměřuji na využití tohoto softwaru jakožto brány pro přístup do prostředí Deep Netu včetně názorné ukázky.
  • 3. Klíčová slova Deep Web „Část internetu, která NENÍ indexovaná internetovými vyhledávači.“ Deep Net „Všechny stránky s doménou .onion v rámci sítě TOR.“ Clear Net „Ta část internetu, k jejímuž přístupu není zapotřebí žádných dalších programů vyjma internetového prohlížeče. Jedná se o nejběžnější prostředí internetu, se kterým přichází denně do styku většina uživatelů.“ Indexovaný obsah „Část internetu, která je indexovaná internetovými vyhledávači.“ TOR „Anonymizátor sloužící k zamaskování internetové komunikace a k přístupu k Deep Netu.“
  • 4. Definice Deep Webu Při hledání vhodné, krátké a výstižné definice Deep Webu jsem narazil na fakt, že pro mnoho uživatelů je tato část internetu stále velkou neznámou. Přitom si neuvědomují, že i oni přicházejí do styku minimálně s částí Deep Webu prakticky každý den. Definice, kterou jsem pro potřeby této seminární práce vytvořil zní následovně: „Deep Web je veškerý obsah World Wide Webu, který není indexován internetovými vyhledávači.” Abychom této definici plně porozuměli, musíme si nejprve objasnit význam pojmu indexování. Indexováním rozumíme proces prováděný internetovými vyhledávači za pomoci robotů tzv. „Web Crawlerů.”1 Jedním, a také nejznámějším, z nich je Googlebot. Googlebot plní jednoduchý úkol – prochází internetové stránky, které posléze celé stahuje, převede na text a posílá je kolegovi, kterým je Google Indexer. Google Indexer tento text ukládá do databáze, ve které jsou webové stránky ve formě textu tříděny podle klíčových slov. Kromě čistého html kódu webové stránky umí Googlebot indexovat také dokumenty a některé multimediální formáty včetně2: • Adobe Flash (.swf) • Adobe Portable Document Format (.pdf) • Adobe PostScript (.ps) • Autodesk Design Web Format (.dwf) • Google Earth (.kml, .kmz) • GPS eXchange Format (.gpx) • Hancom Hanword (.hwp) • Microsoft Excel (.xls, .xlsx) • Microsoft PowerPoint (.ppt, .pptx) • Microsoft Word (.doc, .docx) • OpenOffice prezentace (.odp) • OpenOffice tabulky (.ods) • OpenOffice text (.odt) • Rich Text Format (.rtf, .wri) • Scalable Vector Graphics (.svg) • TeX/LaTeX (.tex) • Text (.txt, .text, a další), včetně zdrojových kódů psaných v některých programovacích jazycích: • Basic source code (.bas) • C/C++ source code (.c, .cc, .cpp, .cxx, .h, .hpp) • Java source code (.java) • Perl source code (.pl) • Python source code (.py) 1 DRAGUT, Eduard C., Weiyi MENG a Clement T. YU. Deep web query interface understanding and integration. San Rafael: Morgan. 168 s. ISBN 16-084-5894-6. 2 What file types can Google index? Google [online]. Mountain View (California): Google inc. Last modified on 16 October 2012 [cit. 2013-01-06]. Dostupné z: http://support.google.com/webmasters/bin/answer.py?hl=en&answer=35287
  • 5. • Wireless Markup Language (.wml, .wap) • XML (.xml) Může se zdát, že internetové vyhledávače v čele s Googlem indexují nepřeberné množství typů souborů. Logicky pak vyvstává otázka: Z čeho se tedy skládá Deep Web? Odpověď se skrývá v definici: Deep Web je veškerý další obsah na internetu, který není indexován. V roce 2001 odhadl Michael K. Bergman velikost Deep Webu na 7 500 TB, což bylo téměř 400-krát více, než byla tehdejší velikost indexovaného webu.3 Počet stránek v prostředí Deep Webu se mezi léty 2000 až 2004 navýšíl 3 až 7-krát z původně odhadovaných 43 000 – 96 000 na 307 000.4 Představme si internet jako ledovec plující v moři. Ta část, kterou vidíme nad hladinou se nazývá Surface Web neboli Clear Net. Jedná se o zmíněnou povrchovou část internetu, indexovanou internetovými vyhledávači. Deep Net lze pak připodobnit k té části ledovce, která je ponořena pod vodou. Z čeho se tedy Deep Web skládá? Deep Webem jsou (mimo jiné): • Všechna videa na internetu • Většina obrázků na internetu • Vaše komunikace s kamarádem na ICQ • Vaše emaily • Vaše akce v online hře • Rozsáhlé databáze • Všechny privátní stránky vyžadující registraci a následné přihlášení • Veškerá data přístupná přes přes jiné protokoly než HTTP či HTTPS (příkladem budiž FTP – file transfer protokol servery sloužící ke sdílení souborů) Pokud však videa nejsou indexována, jak je možné je podle klíčových slov s pomocí internetových vyhledávačů najít? Odpověď je jednoduchá. Internetové vyhledávače indexují klíčová slova spojená s videem, ať už se jedná o jeho název, klíčová slova vyplněná autorem videa při jeho nahrání na web, či komentáře těch, kteří dané video shlédli. Nicméně důležitým faktem zůstává, že internetové vyhledávače nejsou schopné indexovat jak samotný binární kód videa, tak ani, co se ve videu odehrává. Pro ilustraci uvedu teoretický příklad. Řekněme, že jsem natočil domácí video, ve kterém můj pes aportuje a následně jej sestříhal takovým způsobem, že jsem doprostřed vložil krátkou, několikavteřinovou lekací scénku z 3 BERGMAN, Michael K. White Paper: The Deep Web: Surfacing Hidden Value. Journal of Electronic Publishing. 2001, č. 7. DOI: http://dx.doi.org/10.3998/3336451.0007.104. Dostupné z: http://quod.lib.umich.edu/cgi/t/text/idx/j/jep/3336451.0007.104/--white-paper-the-deep-web-surfacing-hidden- value?rgn=main;view=fulltext 4 E, Bin, Mitesh PATEL, Zhen ZHANG a Kevin Chen-Chuan CHANG. Accessing the deep web. Communications of the ACM [online]. 2007-05-01, roč. 50, č. 5, s. 94-101 [cit. 2013-01-06]. ISSN 00010782. DOI: 10.1145/1230819.1241670. Dostupné z: http://portal.acm.org/citation.cfm?doid=1230819.1241670
  • 6. hororového filmu. Toto video jsem posléze nahrál na svůj YouTube účet a jako klíčová slova nevyplnil nic, co by přítomnost hororové scénky naznačovalo. Pokud bych posléze za pomoci internetového vyhledávače chtěl toto video najít podle jeho popisu (například: Video + Golden + Retriever + Dog + Horror + Scene) byl bych, z výše zmíněných důvodů, neúspěšný. Deep Web vs. Deep Net vs. Clear Net Pro potřeby této proseminární práce musíme rozlišit trojici podobně znějících pojmu – Deep Web, Deep Net a Clear Net Co je to Deep Web jsme si řekli již na začátku, jedná se o veškerá data v síti World Wide Web, která nejsou indexována internetovými vyhledávači. Co je tedy Deep Net? Deep Net je někdy přirovnáván k Deep Webu jakožto synonymum, nicméně pro naší proseminární práci definujeme Deep Net odlišně. Deep Net proto definujeme jakožto: „Všechny stránky s doménou .onion v rámci sítě TOR.“ Dle naší definice do Deep Netu tedy patří například v předchozí kapitole zmíněná „Hidden Wiki“ dostupná po připojení k síti TOR pod adresou http://7jguhsfwruviatqe.onion Třetím termínem, který je nutné v kontextu naší proseminární práce objasnit je termín Clear Net. Clear Net je termín používaný v prostředí Deep Netu, protože pro něj však neexistuje přesně daná definice, vysvětlil jsem jej následovně: „Clear Net je ta část internetu, k jejímž přístupu není zapotřebí žádných dalších programů vyjma internetového prohlížeče.“ Jedná se tedy o tu část internetu, kterou dennodenně navštěvují milióny běžných uživatelů internetu. Pro zjednodušení problému a ilustraci rozdělení internetu tak, jak si jej v kontextu této proseminární práce představuji, jsem vytvořil následující diagram.
  • 7. Jak je patrné z diagramu, internet je zde prezentován jakožto ovál a rozdělen následovně (od nejmenší k největší části: Internet (modrý kruh včetně jeho podčástí) Deep Web, (modrá část) Clear Net, (růžová část) Indexovaný Obsah (dále IO), (ohraničen černou kružnicí) Deep Net, (zelená část) Z tohoto diagramu můžeme činit několik zjištění: 1. IO je podmnožinou Clear Netu 2. Clear Net je podmnožinou Deep Webu, přičemž jejich hranice nelze přesně vymezit 3. Deep Web je podmnožinou internetu a tvoři jeho majoritní část 4. Deep Net je podmnožinou Deep Webu, přičemž nemá nic společného jak s Clear Netem, tak s IO. Zároveň je přístupný pouze přes síť TOR. Samotný program TOR však stojí VNĚ celého Internetu a slouží pouze jakožto vstupní brána, ať už k Deep Netu, či jako anonymizátor komunikace a pohybu v prostředích Clear Netu a IO. (pozn.: Zelená barva značí anonymitu, odvozeno od hnutí Anonymous5) 5 COLEMAN, Gabriella. Gabriella Coleman on Anonymous. Vimeo [online]. [cit. 2013-01-06]. Dostupné z: http://vimeo.com/19806469
  • 8. Hodnocení zdrojů Deep web query interface understanding and integration - Aktuálnost!!! - Erudovanost autorů - Bezchybný jazyk - Objektivní a přínosné informace o problematice Deep Webu a vyhledávání v něm - Jednoduché, přehledné a nekomplikované ilustrace What file types can Google index? - Přesnost informaci - Autorem je „sám Google“ - Je uvedeno datum publikování a poslední změny - Přehledná stránka - Dostupnost ve více než 30 jazycích Accessing the deep web. Communications of the ACM - Erudovanost autorů - Infografika - Jsou uvedené zdroje - Přehledná forma otázek a odpovědí na ně - Snadná online dostupnost