Deep Web

1,454 views
1,228 views

Published on

Published in: Entertainment & Humor
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,454
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Deep Web

  1. 1. Masarykova univerzita Filozofická fakulta Ústav Hudební Vědy Teorie Interaktivních Médií Vít Holubovský Seminární Práce Deep Weba využití sítě TOR (nejen) k přístupu k němu 2012
  2. 2. Argumentace Deep Web jsem si jako téma své proseminární práce zvolil ze dvou důvodů. Prvním z nichbyl fakt, že jsem v minulosti již jednu zkušenost s tímto prostorem měl, ale nenaplnila ani zdalekamá, na tehdejší dobu utopická, očekávání. Proto jsem se rozhodl se na tématiku Deep Webu podívatještě jednou, pragmaticky a s odstupem několika let. Tentokrát ne však jako zvědavý teenager, alejako někdo, kdo by chtěl lépe definovat pojem Deep Webu pro masu uživatelů internetu, kteřímnohdy netuší, že s Deep Webem přicházejí do kontaktu vlastně denně. Druhou motivací pro mne byl současný trend sociálních sítí a odhalování vlastníhosoukromí bez většího rozmyslu v prostředí internetu. Zatímco před nástupem sociálních sítí si každýpečlivě střežil svou anonymitu, dnes jsme svědkem opačného trendu a to, že každý se chceprezentovat jako individuum a podepsat se pod svůj názor. Třetí motivací pro mne byl samotný program TOR, jehož funkce ve své proseminární prácipopisuji a používám jej k přístupu ke skrytým doménám v prostředí sítě TOR. Uvědomil jsem sivšak, že TOR, jakožto prostředek k zabezpečení komunikace v prostředí internetu, je naprostounikátním projektem, který umožňuje anonymní komunikaci pro účely jako zpravodajství zkrizových oblastí, zemí ve kterých jsou potlačována lidská práva, či vyjadřování vlastních názorůbez hrozby persekuce. Anotace Jakožto hlavní cíl své proseminární práce jsem si určil uvedení čtenáře do problematikydiverzifikace internetu, se zaměřením především na pojmy jako je Deep Net, Deep Web,Indexovaný Obsah a Clear Net. Tyto sektory internetu dále definuji a zaměřuji se na vztahy mezinimi, ať už jejich vzájemnou korelaci, či naopak upozornění na neexistenci těchto vztahů. Prvním cílem mé proseminární práce je tedy objasnění toho, co se skutečně skrývá mezitěmito pojmy a následné vytvoření jednoduchého schématu internetu, na kterém lze tyto strukturyinternetu lépe demonstrovat. Ve druhé části se zabývám softwarem TOR, jeho možným využitím jednak jakožtoanonymizátoru zvyšujícím bezpečnost při pohybu a komunikaci v prostředí internetu, vysvětlujiprincip jeho fungování a dále se zaměřuji na využití tohoto softwaru jakožto brány pro přístup doprostředí Deep Netu včetně názorné ukázky.
  3. 3. Klíčová slovaDeep Web „Část internetu, která NENÍ indexovaná internetovými vyhledávači.“Deep Net „Všechny stránky s doménou .onion v rámci sítě TOR.“Clear Net „Ta část internetu, k jejímuž přístupu není zapotřebí žádných dalších programů vyjmainternetového prohlížeče. Jedná se o nejběžnější prostředí internetu, se kterým přichází denně dostyku většina uživatelů.“Indexovaný obsah „Část internetu, která je indexovaná internetovými vyhledávači.“TOR „Anonymizátor sloužící k zamaskování internetové komunikace a k přístupu k Deep Netu.“
  4. 4. Definice Deep Webu Při hledání vhodné, krátké a výstižné definice Deep Webu jsem narazil na fakt, že promnoho uživatelů je tato část internetu stále velkou neznámou. Přitom si neuvědomují, že i onipřicházejí do styku minimálně s částí Deep Webu prakticky každý den. Definice, kterou jsem pro potřeby této seminární práce vytvořil zní následovně: „Deep Web je veškerý obsah World Wide Webu, který není indexován internetovými vyhledávači.” Abychom této definici plně porozuměli, musíme si nejprve objasnit význam pojmuindexování. Indexováním rozumíme proces prováděný internetovými vyhledávači za pomoci robotůtzv. „Web Crawlerů.”1 Jedním, a také nejznámějším, z nich je Googlebot. Googlebot plníjednoduchý úkol – prochází internetové stránky, které posléze celé stahuje, převede na text a posíláje kolegovi, kterým je Google Indexer. Google Indexer tento text ukládá do databáze, ve které jsouwebové stránky ve formě textu tříděny podle klíčových slov. Kromě čistého html kódu webové stránky umí Googlebot indexovat také dokumenty aněkteré multimediální formáty včetně2: • Adobe Flash (.swf) • Adobe Portable Document Format (.pdf) • Adobe PostScript (.ps) • Autodesk Design Web Format (.dwf) • Google Earth (.kml, .kmz) • GPS eXchange Format (.gpx) • Hancom Hanword (.hwp) • Microsoft Excel (.xls, .xlsx) • Microsoft PowerPoint (.ppt, .pptx) • Microsoft Word (.doc, .docx) • OpenOffice prezentace (.odp) • OpenOffice tabulky (.ods) • OpenOffice text (.odt) • Rich Text Format (.rtf, .wri) • Scalable Vector Graphics (.svg) • TeX/LaTeX (.tex) • Text (.txt, .text, a další), včetně zdrojových kódů psaných v některých programovacích jazycích: • Basic source code (.bas) • C/C++ source code (.c, .cc, .cpp, .cxx, .h, .hpp) • Java source code (.java) • Perl source code (.pl) • Python source code (.py)1 DRAGUT, Eduard C., Weiyi MENG a Clement T. YU. Deep web query interface understanding and integration. San Rafael: Morgan. 168 s. ISBN 16-084-5894-6.2 What file types can Google index? Google [online]. Mountain View (California): Google inc. Last modified on 16 October 2012 [cit. 2013-01-06]. Dostupné z: http://support.google.com/webmasters/bin/answer.py?hl=en&answer=35287
  5. 5. • Wireless Markup Language (.wml, .wap) • XML (.xml) Může se zdát, že internetové vyhledávače v čele s Googlem indexují nepřeberné množstvítypů souborů. Logicky pak vyvstává otázka: Z čeho se tedy skládá Deep Web? Odpověď se skrýváv definici: Deep Web je veškerý další obsah na internetu, který není indexován. V roce 2001 odhadlMichael K. Bergman velikost Deep Webu na 7 500 TB, což bylo téměř 400-krát více, než bylatehdejší velikost indexovaného webu.3 Počet stránek v prostředí Deep Webu se mezi léty 2000 až2004 navýšíl 3 až 7-krát z původně odhadovaných 43 000 – 96 000 na 307 000.4 Představme si internet jako ledovec plující v moři. Ta část, kterou vidíme nad hladinou se nazývá Surface Web neboli Clear Net. Jedná se o zmíněnou povrchovou část internetu, indexovanou internetovými vyhledávači. Deep Net lze pak připodobnit k té části ledovce, která je ponořena pod vodou. Z čeho se tedy Deep Web skládá? Deep Webem jsou (mimo jiné): • Všechna videa na internetu • Většina obrázků na internetu • Vaše komunikace s kamarádem na ICQ • Vaše emaily • Vaše akce v online hře • Rozsáhlé databáze • Všechny privátní stránky vyžadující registraci a následné přihlášení • Veškerá data přístupná přes přes jiné protokoly než HTTP či HTTPS (příkladem budiž FTP – file transfer protokol servery sloužící ke sdílení souborů) Pokud však videa nejsou indexována, jak je možné je podle klíčových slov s pomocíinternetových vyhledávačů najít? Odpověď je jednoduchá. Internetové vyhledávače indexujíklíčová slova spojená s videem, ať už se jedná o jeho název, klíčová slova vyplněná autorem videapři jeho nahrání na web, či komentáře těch, kteří dané video shlédli. Nicméně důležitým faktemzůstává, že internetové vyhledávače nejsou schopné indexovat jak samotný binární kód videa, takani, co se ve videu odehrává. Pro ilustraci uvedu teoretický příklad. Řekněme, že jsem natočil domácí video, ve kterém můj pes aportuje a následně jej sestříhaltakovým způsobem, že jsem doprostřed vložil krátkou, několikavteřinovou lekací scénku z3 BERGMAN, Michael K. White Paper: The Deep Web: Surfacing Hidden Value. Journal of Electronic Publishing. 2001, č. 7. DOI: http://dx.doi.org/10.3998/3336451.0007.104. Dostupné z: http://quod.lib.umich.edu/cgi/t/text/idx/j/jep/3336451.0007.104/--white-paper-the-deep-web-surfacing-hidden- value?rgn=main;view=fulltext4 E, Bin, Mitesh PATEL, Zhen ZHANG a Kevin Chen-Chuan CHANG. Accessing the deep web. Communications of the ACM [online]. 2007-05-01, roč. 50, č. 5, s. 94-101 [cit. 2013-01-06]. ISSN 00010782. DOI: 10.1145/1230819.1241670. Dostupné z: http://portal.acm.org/citation.cfm?doid=1230819.1241670
  6. 6. hororového filmu. Toto video jsem posléze nahrál na svůj YouTube účet a jako klíčová slovanevyplnil nic, co by přítomnost hororové scénky naznačovalo. Pokud bych posléze za pomoci internetového vyhledávače chtěl toto video najít podle jehopopisu (například: Video + Golden + Retriever + Dog + Horror + Scene) byl bych, z výšezmíněných důvodů, neúspěšný. Deep Web vs. Deep Net vs. Clear Net Pro potřeby této proseminární práce musíme rozlišit trojici podobně znějících pojmu – DeepWeb, Deep Net a Clear Net Co je to Deep Web jsme si řekli již na začátku, jedná se o veškerá data vsíti World Wide Web, která nejsou indexována internetovými vyhledávači. Co je tedy Deep Net? Deep Net je někdy přirovnáván k Deep Webu jakožto synonymum,nicméně pro naší proseminární práci definujeme Deep Net odlišně. Deep Net proto definujemejakožto: „Všechny stránky s doménou .onion v rámci sítě TOR.“ Dle naší definice do Deep Netu tedy patří například v předchozí kapitole zmíněná „HiddenWiki“ dostupná po připojení k síti TOR pod adresou http://7jguhsfwruviatqe.onion Třetím termínem, který je nutné v kontextu naší proseminární práce objasnit je termín ClearNet. Clear Net je termín používaný v prostředí Deep Netu, protože pro něj však neexistuje přesnědaná definice, vysvětlil jsem jej následovně: „Clear Net je ta část internetu, k jejímž přístupu není zapotřebí žádných dalších programů vyjma internetového prohlížeče.“ Jedná se tedy o tu část internetu, kterou dennodenně navštěvují milióny běžných uživatelůinternetu. Pro zjednodušení problému a ilustraci rozdělení internetu tak, jak si jej v kontextu tétoproseminární práce představuji, jsem vytvořil následující diagram.
  7. 7. Jak je patrné z diagramu, internet je zde prezentován jakožto ovál a rozdělen následovně (odnejmenší k největší části: Internet (modrý kruh včetně jeho podčástí) Deep Web, (modrá část) Clear Net, (růžová část) Indexovaný Obsah (dále IO), (ohraničen černou kružnicí) Deep Net, (zelená část) Z tohoto diagramu můžeme činit několik zjištění: 1. IO je podmnožinou Clear Netu 2. Clear Net je podmnožinou Deep Webu, přičemž jejich hranice nelze přesně vymezit 3. Deep Web je podmnožinou internetu a tvoři jeho majoritní část 4. Deep Net je podmnožinou Deep Webu, přičemž nemá nic společného jak s Clear Netem, tak s IO. Zároveň je přístupný pouze přes síť TOR. Samotný program TOR však stojí VNĚ celého Internetu a slouží pouze jakožto vstupní brána, ať už k Deep Netu, či jako anonymizátor komunikace a pohybu v prostředích Clear Netu a IO. (pozn.: Zelená barva značí anonymitu, odvozeno od hnutí Anonymous5)5 COLEMAN, Gabriella. Gabriella Coleman on Anonymous. Vimeo [online]. [cit. 2013-01-06]. Dostupné z: http://vimeo.com/19806469
  8. 8. Hodnocení zdrojůDeep web query interface understanding and integration - Aktuálnost!!! - Erudovanost autorů - Bezchybný jazyk - Objektivní a přínosné informace o problematice Deep Webu a vyhledávání v něm - Jednoduché, přehledné a nekomplikované ilustraceWhat file types can Google index? - Přesnost informaci - Autorem je „sám Google“ - Je uvedeno datum publikování a poslední změny - Přehledná stránka - Dostupnost ve více než 30 jazycíchAccessing the deep web. Communications of the ACM - Erudovanost autorů - Infografika - Jsou uvedené zdroje - Přehledná forma otázek a odpovědí na ně - Snadná online dostupnost

×