Svět viděný kompresním algoritmem

1,333 views

Published on

1. Kolmogorova komplexita
2. Syntaktická aplikace - kompresní algoritmy
3. Sémantická aplikace - corpus distance
4. Pragmatická aplikace - social distance

Published in: Education

Svět viděný kompresním algoritmem

  1. 1. Svět viděný kompresním algoritmem 3. 11. 2015 Josef Šlerka Studia nových médií
  2. 2. Obsah 1. Kolmogorova komplexita 2. Syntaktická aplikace - kompresní algoritmy 3. Sémantická aplikace - corpus distance 4. Pragmatická aplikace - social distance
  3. 3. 1. Kolmogorova komplexita algoritmická teorie informací informační vzdálenost
  4. 4. Kolmogorov a složitost Teorie Kolmogorovy komplexity se snaží odpovědět na otázku “Co je nahodilý objekt?” Představuje algoritmickou teorii informace a tvoří de facto doplněk teorie Shannona.
  5. 5. Složitost Mějme k dispozici tři číselné řetězce v desítkové soustavě: a) 3333333333 b) 3141596535 c) 84354279521 Který z nich bychom považovali za náhodný?
  6. 6. Složitost Čím delší je popis postupu, který potřebujeme k popsání řetězce, tím je řetězec více komplexní. V Kolgomorově pojetí však nejde o popis v nějakém jazyce, ale existenci univerzalního počítačového stroje (Turingova stroje), který takový popis generuje, a délku tohoto programu.
  7. 7. Informační vzdálenost Teorie informační vzdálenosti představuje rozšíření Kolmogorovy komplexity o myšlenku vzdálenosti mezi řetězci, respektive jejich podobnosti. Podle ní je minimální informační vzdálenost mezi dvěma instancemi (řetězce x a y) vyjádřená délkou nejkratšího programu, který transformuje jeden řetězec na druhý a naopak. Univerzální informační vzdálenost je vyjádřena pak vzorcem E(x,y) = max{K(x|y),K(y|x)}.
  8. 8. Informační vzdálenost Vitányi a Cilibrasi od této myšlenky odvozují obecnou normalizovanou informační vzdálenost (normalized information distance), která by byla schopna produkovat i metrickou vzdálenost. Výsledkem je následující vzorec
  9. 9. 2. Normalized Compression Distance Syntaktická aplikace
  10. 10. NCD Teorie informační vzdálenosti je teoretická konstrukce, kterou není možné v praxi vytvořit, je totiž závislá na nespočitatelné funkci K. Je však možné použít jinou funkci, která se v reálném světě o podobnou funkčnost snaží. Těmito programy jsou dle autorů kompresní algoritmy, které mají za úkolu spočítat co největší bezztrátovou kompresi dat, tedy co největší redukci komplexit pomocí univerzálního programu.
  11. 11. NCD Odpovídá to i zkušenosti, kterou máme z jejich každodenního používání. Pokud pomocí kompresního programu tzv. zabalíme dva soubory, které jsou si podobnější než jiné dva, rozdíl mezi výslednou délkou nového souboru a délkou odpovídající součtu délek původních souborů je menší.
  12. 12. NCD Komprese dat (také komprimace dat) je zpracování počítačových dat s cílem zmenšit jejich objem (jednotka bajt) při současném zachování informací v datech obsažených. Úkolem komprese dat je zmenšit datový tok při jejich přenosu nebo zmenšit potřebu zdrojů při ukládání informací. (Wikipedia) Obvykle se snaží alg. nalézt opakující se sekvence znaků a vytvořit z nich slovník, který umožňuje odkaz na přesné místo.
  13. 13. Příklad komprese P. Petyovský, Metody a algoritmy komprese dat. Od základních principů k aplikaci
  14. 14. NCD Upravený vzorec vypadá následovně: Přičemž Z je kompresní algoritmus a x a y zůstávají řetězce určené k porovnání. Formální důkazy Vitányiho a Cilibrase ukazují, že se jedná o plnohodnotnou distanční metriku.
  15. 15. NCD Autoři NCD provedli sérii testů navrženého postupu na celé řadě druhů řetězců (knihy, lidský genom, MIDI soubory), které se zdají potvrzovat univerzální charakter navrženého modelu a to včetně klasifikace heterogenních řetězců. Na vstupu v tomto experimentu byla data z genetiky, ukázky z literárních textů, MIDI soubory, binární počítačové programy a zkompilované programy ze zdrojových kodů programovacího jazky Java. Využit byl kompresní algoritmus bzip a metoda quartet clustering.
  16. 16. Originály
  17. 17. Překlady
  18. 18. Karel Čapek
  19. 19. Česká poesie
  20. 20. NCD Experimenty dalších autorů potvrzují předchozí experimenty autorů, včetně předpokládané odolnosti NCD proti šumům v textu. Dále se věnují jeho dalším aplikacím například pro automatickou evaluaci strojového překladu. Další studie, za účasti autora původního týmu Paula Vitanyiho, pak sledují využití NCD při klastrování.
  21. 21. NCD v rámci semináře Digital Humanities provedli studenti Studia nových médií řadu experimentů, které naznačují univerzálnost postupu: http://snm-blog.tumblr.com/post/42742243421/digital- humanities-6-complearn http://janmarsicek.tumblr.com/post/44283514150/ncd- capek-macha-nemcova http://jitkab.tumblr.com/post/38054898777/podobnost- seri%C3%A1l%C5%AF-podle-ncd
  22. 22. 4. Normalized Corpus Distance Sémantická aplikace
  23. 23. Corpus Distance Aplikace teorie informační vzdálenosti v NCD se omezuje pouze na řetězce, nikoli na ideje nebo pojmy. Proto se její autoři rozhodli příjít s metrikou, která toto omezení překračuje a tím je korpus World Wide Webu. Podle Cilibrase je možné index vyhledávačů v případě uložení univerzální distribuce slov na stránkách a vyhledávač pak jako určitý druh pseudo-compressoru, který zohledňuje všechny dimenze lidského mínění.
  24. 24. Corpus Distance Vitanyi s odkazem na Shannon-Fano code a uchopení indexu korpusu jako pseudo-compressoru pak formalizuje novou metriku takto: Kde f(x) je počet stránek obsahující x, f(x,y) je počet stránek obsahující obojí a N je počet celkově indexovaných stránek.
  25. 25. Corpus Distance Cilibrasi popisuje ve své dizertaci Statistical inference through data compression základní kontrast mezi oběma přístupy takto: The first type is the NCD based on a literal interpretation of the data: the data is the object itself. The second type is the NGD masses of contexts expressing a large body of common-sense knowledge. It may be said that the first case ignores the meaning of the message, whereas the second focuses on it.
  26. 26. Corpus Distance Série experimentu provedené Cilibrasem a Vitanyim pomocí výsledků vyhledávače Google přináší v tomto ohledu velmi uspokojivé výsledky.[15] Předmětem experimentů byly názvy díla holandský malířů 17. století, názvy anglických románů, čísla a barvy a názvy Shakespearových děl. Ve všech případech dokázal postup díla správně rozdělit. Předmětem experimentu byla i rekonstrukce vazeb vyjádřených experty ve WordNetu. Zde byla přesnost mezi NGD a vazbou ve WordNetu 0.8725.
  27. 27. Mechanická Popelka
  28. 28. 4. Normalized Social Distance Pragmatická rovina
  29. 29. Social Distance Pokud NWD přináší myšlenku sémantické vrstvy informací, lze se odvážit ještě o jednu vrstvu dál a to na vrstvu pragmatickou, opírající se o množství podobností, které jednotlivé sociální skupiny tvoří. A definovat formálně metodu počítání vzdálenosti mezi dvěma sociálními skupinami.
  30. 30. Social Distance Formálně vypadá takto: Kdy f(x) je počet členů jedné subskupiny, f(y) je počet druhé subskupiny, f(x,y) vyjadřuje počet členů obou skupin a N je celkový počet členů skupiny.
  31. 31. Social Distance Takto formálně vyjádřená vzdálenost by měla být schopna měřit vzdálenost libovolných dvou sociálních subskupin, které jsou zastřešeny jednotnou skupinou. Kupříkladu v případě bimodální sítě navštěvníků místních restaurací na malém městě by takto šla počítat bízkost sociální blízkosti podniků.
  32. 32. NFD NSD je ovšem metrika univerzální, kterou je možné přizpůsobit pro data ze sociálních sítí. V následujících případových studiích jsem ji aplikoval na případě sociální sítě Facebook v upravené podobě jako Normalized Facebook Distance (NFD), která počítá blízkost jednotlivých stránek na základě průniku jejich zapojených fanoušků.
  33. 33. NFD Pokud chápeme popis uživatele de facto jako síť rozdílu v preferovaných stránkách, nabízí se možnost nejen věnovat se celkové charakteristice fanoušků prostřednictvím distančního modelu, ale také jejich podrobnější charakteristice, přesněji nalezení zřetelně odlišených subskupin.
  34. 34. NFD Takováto matice je v podstatě bimodální sítí s relativně nízkou hustotou, zároveň ale může být podrobena některým klasickým exploračním technikám, jako je hierarchický klastering, multidimensionalní scaling či analýza základních komponent (PCA).
  35. 35. NFD Pro průzkum takových matic jsem vytvořil aplikace Facebook profiling, který má na vstupu dva soubory. První je tabulka s distančním modelem fanoušků a druhým pak binární matice obsahující na řádcích ID uživatelů a ve sloupcích pak stránky, v nichž se fanoušci zkoumané stránky nejčastěji zapojují svým like.
  36. 36. Dělnická strana případová studie
  37. 37. DSSS Stránka Dělnické strany sociální spravedlnosti, která je považována za tolerovanou formu neonacismu na české politické scéně. Minimální hranici pro průnik jsem v našem případě stanovili na 5% a blízkost menší než 0.7. V našem případě se jedná o data ze začátku roku 2014. Distanční model stránky fanoušků aktivních na stránkách vypadá takto:
  38. 38. Děkuji za pozornost @josefslerla
  39. 39. A literatura? Plánovaný výzkum v knihovnách, který klastruje knihy podle jejich čtenářů, stejně jako to doposud děláme na Facebook s fanoušky stránek.

×