1. Masarykova univerzita
Filozofická fakulta
Ústav Hudební Vědy
Teorie Interaktivních Médií
Vít Holubovský
Seminární Práce
Deep Web
a využití sítě TOR (nejen) k přístupu k němu
2012
2. Argumentace
Deep Web jsem si jako téma své proseminární práce zvolil ze dvou důvodů. Prvním z nich
byl fakt, že jsem v minulosti již jednu zkušenost s tímto prostorem měl, ale nenaplnila ani zdaleka
má, na tehdejší dobu utopická, očekávání. Proto jsem se rozhodl se na tématiku Deep Webu podívat
ještě jednou, pragmaticky a s odstupem několika let. Tentokrát ne však jako zvědavý teenager, ale
jako někdo, kdo by chtěl lépe definovat pojem Deep Webu pro masu uživatelů internetu, kteří
mnohdy netuší, že s Deep Webem přicházejí do kontaktu vlastně denně.
Druhou motivací pro mne byl současný trend sociálních sítí a odhalování vlastního
soukromí bez většího rozmyslu v prostředí internetu. Zatímco před nástupem sociálních sítí si každý
pečlivě střežil svou anonymitu, dnes jsme svědkem opačného trendu a to, že každý se chce
prezentovat jako individuum a podepsat se pod svůj názor.
Třetí motivací pro mne byl samotný program TOR, jehož funkce ve své proseminární práci
popisuji a používám jej k přístupu ke skrytým doménám v prostředí sítě TOR. Uvědomil jsem si
však, že TOR, jakožto prostředek k zabezpečení komunikace v prostředí internetu, je naprosto
unikátním projektem, který umožňuje anonymní komunikaci pro účely jako zpravodajství z
krizových oblastí, zemí ve kterých jsou potlačována lidská práva, či vyjadřování vlastních názorů
bez hrozby persekuce.
Anotace
Jakožto hlavní cíl své proseminární práce jsem si určil uvedení čtenáře do problematiky
diverzifikace internetu, se zaměřením především na pojmy jako je Deep Net, Deep Web,
Indexovaný Obsah a Clear Net. Tyto sektory internetu dále definuji a zaměřuji se na vztahy mezi
nimi, ať už jejich vzájemnou korelaci, či naopak upozornění na neexistenci těchto vztahů.
Prvním cílem mé proseminární práce je tedy objasnění toho, co se skutečně skrývá mezi
těmito pojmy a následné vytvoření jednoduchého schématu internetu, na kterém lze tyto struktury
internetu lépe demonstrovat.
Ve druhé části se zabývám softwarem TOR, jeho možným využitím jednak jakožto
anonymizátoru zvyšujícím bezpečnost při pohybu a komunikaci v prostředí internetu, vysvětluji
princip jeho fungování a dále se zaměřuji na využití tohoto softwaru jakožto brány pro přístup do
prostředí Deep Netu včetně názorné ukázky.
3. Klíčová slova
Deep Web „Část internetu, která NENÍ indexovaná internetovými vyhledávači.“
Deep Net „Všechny stránky s doménou .onion v rámci sítě TOR.“
Clear Net „Ta část internetu, k jejímuž přístupu není zapotřebí žádných dalších programů vyjma
internetového prohlížeče. Jedná se o nejběžnější prostředí internetu, se kterým přichází denně do
styku většina uživatelů.“
Indexovaný obsah „Část internetu, která je indexovaná internetovými vyhledávači.“
TOR „Anonymizátor sloužící k zamaskování internetové komunikace a k přístupu k Deep Netu.“
4. Definice Deep Webu
Při hledání vhodné, krátké a výstižné definice Deep Webu jsem narazil na fakt, že pro
mnoho uživatelů je tato část internetu stále velkou neznámou. Přitom si neuvědomují, že i oni
přicházejí do styku minimálně s částí Deep Webu prakticky každý den.
Definice, kterou jsem pro potřeby této seminární práce vytvořil zní následovně:
„Deep Web je veškerý obsah World Wide Webu, který není indexován internetovými vyhledávači.”
Abychom této definici plně porozuměli, musíme si nejprve objasnit význam pojmu
indexování. Indexováním rozumíme proces prováděný internetovými vyhledávači za pomoci robotů
tzv. „Web Crawlerů.”1 Jedním, a také nejznámějším, z nich je Googlebot. Googlebot plní
jednoduchý úkol – prochází internetové stránky, které posléze celé stahuje, převede na text a posílá
je kolegovi, kterým je Google Indexer. Google Indexer tento text ukládá do databáze, ve které jsou
webové stránky ve formě textu tříděny podle klíčových slov.
Kromě čistého html kódu webové stránky umí Googlebot indexovat také dokumenty a
některé multimediální formáty včetně2:
• Adobe Flash (.swf)
• Adobe Portable Document Format (.pdf)
• Adobe PostScript (.ps)
• Autodesk Design Web Format (.dwf)
• Google Earth (.kml, .kmz)
• GPS eXchange Format (.gpx)
• Hancom Hanword (.hwp)
• Microsoft Excel (.xls, .xlsx)
• Microsoft PowerPoint (.ppt, .pptx)
• Microsoft Word (.doc, .docx)
• OpenOffice prezentace (.odp)
• OpenOffice tabulky (.ods)
• OpenOffice text (.odt)
• Rich Text Format (.rtf, .wri)
• Scalable Vector Graphics (.svg)
• TeX/LaTeX (.tex)
• Text (.txt, .text, a další), včetně zdrojových kódů psaných v některých programovacích
jazycích:
• Basic source code (.bas)
• C/C++ source code (.c, .cc, .cpp, .cxx, .h, .hpp)
• Java source code (.java)
• Perl source code (.pl)
• Python source code (.py)
1 DRAGUT, Eduard C., Weiyi MENG a Clement T. YU. Deep web query interface understanding and integration.
San Rafael: Morgan. 168 s. ISBN 16-084-5894-6.
2 What file types can Google index? Google [online]. Mountain View (California): Google inc. Last modified on 16
October 2012 [cit. 2013-01-06]. Dostupné z:
http://support.google.com/webmasters/bin/answer.py?hl=en&answer=35287
5. • Wireless Markup Language (.wml, .wap)
• XML (.xml)
Může se zdát, že internetové vyhledávače v čele s Googlem indexují nepřeberné množství
typů souborů. Logicky pak vyvstává otázka: Z čeho se tedy skládá Deep Web? Odpověď se skrývá
v definici: Deep Web je veškerý další obsah na internetu, který není indexován. V roce 2001 odhadl
Michael K. Bergman velikost Deep Webu na 7 500 TB, což bylo téměř 400-krát více, než byla
tehdejší velikost indexovaného webu.3 Počet stránek v prostředí Deep Webu se mezi léty 2000 až
2004 navýšíl 3 až 7-krát z původně odhadovaných 43 000 – 96 000 na 307 000.4
Představme si internet jako ledovec plující v
moři. Ta část, kterou vidíme nad hladinou se
nazývá Surface Web neboli Clear Net. Jedná se o
zmíněnou povrchovou část internetu,
indexovanou internetovými vyhledávači. Deep
Net lze pak připodobnit k té části ledovce, která
je ponořena pod vodou. Z čeho se tedy Deep
Web skládá? Deep Webem jsou (mimo jiné):
• Všechna videa na internetu
• Většina obrázků na internetu
• Vaše komunikace s kamarádem na ICQ
• Vaše emaily
• Vaše akce v online hře
• Rozsáhlé databáze
• Všechny privátní stránky vyžadující
registraci a následné přihlášení
• Veškerá data přístupná přes přes jiné
protokoly než HTTP či HTTPS
(příkladem budiž FTP – file transfer
protokol servery sloužící ke sdílení
souborů)
Pokud však videa nejsou indexována, jak je možné je podle klíčových slov s pomocí
internetových vyhledávačů najít? Odpověď je jednoduchá. Internetové vyhledávače indexují
klíčová slova spojená s videem, ať už se jedná o jeho název, klíčová slova vyplněná autorem videa
při jeho nahrání na web, či komentáře těch, kteří dané video shlédli. Nicméně důležitým faktem
zůstává, že internetové vyhledávače nejsou schopné indexovat jak samotný binární kód videa, tak
ani, co se ve videu odehrává. Pro ilustraci uvedu teoretický příklad.
Řekněme, že jsem natočil domácí video, ve kterém můj pes aportuje a následně jej sestříhal
takovým způsobem, že jsem doprostřed vložil krátkou, několikavteřinovou lekací scénku z
3 BERGMAN, Michael K. White Paper: The Deep Web: Surfacing Hidden Value. Journal of Electronic Publishing.
2001, č. 7. DOI: http://dx.doi.org/10.3998/3336451.0007.104. Dostupné z:
http://quod.lib.umich.edu/cgi/t/text/idx/j/jep/3336451.0007.104/--white-paper-the-deep-web-surfacing-hidden-
value?rgn=main;view=fulltext
4 E, Bin, Mitesh PATEL, Zhen ZHANG a Kevin Chen-Chuan CHANG. Accessing the deep web. Communications of
the ACM [online]. 2007-05-01, roč. 50, č. 5, s. 94-101 [cit. 2013-01-06]. ISSN 00010782. DOI:
10.1145/1230819.1241670. Dostupné z: http://portal.acm.org/citation.cfm?doid=1230819.1241670
6. hororového filmu. Toto video jsem posléze nahrál na svůj YouTube účet a jako klíčová slova
nevyplnil nic, co by přítomnost hororové scénky naznačovalo.
Pokud bych posléze za pomoci internetového vyhledávače chtěl toto video najít podle jeho
popisu (například: Video + Golden + Retriever + Dog + Horror + Scene) byl bych, z výše
zmíněných důvodů, neúspěšný.
Deep Web vs. Deep Net vs. Clear Net
Pro potřeby této proseminární práce musíme rozlišit trojici podobně znějících pojmu – Deep
Web, Deep Net a Clear Net Co je to Deep Web jsme si řekli již na začátku, jedná se o veškerá data v
síti World Wide Web, která nejsou indexována internetovými vyhledávači.
Co je tedy Deep Net? Deep Net je někdy přirovnáván k Deep Webu jakožto synonymum,
nicméně pro naší proseminární práci definujeme Deep Net odlišně. Deep Net proto definujeme
jakožto:
„Všechny stránky s doménou .onion v rámci sítě TOR.“
Dle naší definice do Deep Netu tedy patří například v předchozí kapitole zmíněná „Hidden
Wiki“ dostupná po připojení k síti TOR pod adresou http://7jguhsfwruviatqe.onion
Třetím termínem, který je nutné v kontextu naší proseminární práce objasnit je termín Clear
Net. Clear Net je termín používaný v prostředí Deep Netu, protože pro něj však neexistuje přesně
daná definice, vysvětlil jsem jej následovně:
„Clear Net je ta část internetu, k jejímž přístupu není zapotřebí žádných dalších programů
vyjma internetového prohlížeče.“
Jedná se tedy o tu část internetu, kterou dennodenně navštěvují milióny běžných uživatelů
internetu. Pro zjednodušení problému a ilustraci rozdělení internetu tak, jak si jej v kontextu této
proseminární práce představuji, jsem vytvořil následující diagram.
7. Jak je patrné z diagramu, internet je zde prezentován jakožto ovál a rozdělen následovně (od
nejmenší k největší části:
Internet (modrý kruh včetně jeho podčástí)
Deep Web, (modrá část)
Clear Net, (růžová část)
Indexovaný Obsah (dále IO), (ohraničen černou kružnicí)
Deep Net, (zelená část)
Z tohoto diagramu můžeme činit několik zjištění:
1. IO je podmnožinou Clear Netu
2. Clear Net je podmnožinou Deep Webu, přičemž jejich hranice nelze přesně vymezit
3. Deep Web je podmnožinou internetu a tvoři jeho majoritní část
4. Deep Net je podmnožinou Deep Webu, přičemž nemá nic společného jak s Clear Netem,
tak s IO. Zároveň je přístupný pouze přes síť TOR. Samotný program TOR však stojí VNĚ
celého Internetu a slouží pouze jakožto vstupní brána, ať už k Deep Netu, či jako
anonymizátor komunikace a pohybu v prostředích Clear Netu a IO. (pozn.: Zelená barva
značí anonymitu, odvozeno od hnutí Anonymous5)
5 COLEMAN, Gabriella. Gabriella Coleman on Anonymous. Vimeo [online]. [cit. 2013-01-06]. Dostupné z:
http://vimeo.com/19806469
8. Hodnocení zdrojů
Deep web query interface understanding and integration
- Aktuálnost!!!
- Erudovanost autorů
- Bezchybný jazyk
- Objektivní a přínosné informace o problematice Deep Webu a vyhledávání v něm
- Jednoduché, přehledné a nekomplikované ilustrace
What file types can Google index?
- Přesnost informaci
- Autorem je „sám Google“
- Je uvedeno datum publikování a poslední změny
- Přehledná stránka
- Dostupnost ve více než 30 jazycích
Accessing the deep web. Communications of the ACM
- Erudovanost autorů
- Infografika
- Jsou uvedené zdroje
- Přehledná forma otázek a odpovědí na ně
- Snadná online dostupnost