Project Restart 2024: Jiří Langr - Mytologie projektů
Data-driven jako nové paradigma
1. Data-driven jako
nové paradigma
31. 10. 2011, Josef Šlerka, Studia nových médií
Precamp #2, Krásný ztráty, Praha
Wednesday, November 2, 11
2. Data jsou (velmi naivně)
vyjádření skutečností formálním způsobem tak, aby je
bylo možno přenášet nebo zpracovat (např. počítačem)
číselné nebo jiné symbolicky vyjádřené (reprezentované)
údaje a hodnoty nějakých entit nebo událostí
jakékoliv fyzicky (materiálně) zaznamenané znalosti
(vědomosti), poznatky, zkušenosti nebo výsledky
pozorování procesů, projevů, činností a prvků reálného
světa (reality)
surovina, z níž se tvoří informace
Wikipedia
Wednesday, November 2, 11
3. Čtyři paradigmata vědy
1. empirický - založeno na pozorování přírody
2. teoretický - vytváří modely, generalizuje
3. komputační - simulace komplexních systémů
4. datový - založený na analýze data
Wednesday, November 2, 11
4. Paradigma
Paradigma (je) souhrn základních domněnek,
předpokladů, představ dané skupiny vědců. Ke
každému paradigmatu patří i metodická pravidla
řešení, intuitivní postoje a hodnocení problémů.
Proměna vědeckého paradigmatu se děje zvraty (tzv.
vědeckými revolucemi). (Wikipedia)
Wednesday, November 2, 11
5. Společenské paradigma
An information society is a society in which the
creation, distribution, diffusion, use, integration and
manipulation of information is a significant economic,
political, and cultural activity. (Wikipedia)
Wednesday, November 2, 11
6. Data divide: nové bojiště
1. Digital Divide
2. Mobile Divide
3. Data Divide
Wednesday, November 2, 11
8. BTW: Open Data
jsou politická otázka!
nikoli technická!
Wednesday, November 2, 11
9. Sexy job?
“I keep saying that the sexy job in the next 10 years
will be statisticians...”
Hal Varian, chief economist at Google.
Wednesday, November 2, 11
11. Stupně práce s daty
1. Obtain: pointing and clicking does not scale.
2. Scrub: the world is a messy place
Text
3. Explore: You can see a lot by looking
4. Models: always bad, sometimes ugly
5. iNterpret: “The purpose of computing is insight, not
numbers.”
http://www.dataists.com/2010/09/a-taxonomy-of-data-science/
Wednesday, November 2, 11
12. Demokratizace dat
NoSQL databáze (CouchDB, Redis, Big Table)
Storage (S3, HDFS)
Servery (EC2, Google App Engine)
Processing / Čištění (Elastic Search, R, Google
Refine)
NLP / Machine Learning (NLP Toolkit, Open Calais)
Vizualizace (Gephi, Protovis, Processing)
Wednesday, November 2, 11
13. Pro nás ostatní
Google Fusion Tables (http://www.google.com/
fusiontables/Home/)
Google Docs (docs.google.com)
Google Refine (http://code.google.com/p/google-
refine/)
Yahoo Pipes (http://pipes.yahoo.com/)
Many Eyes (http://www-958.ibm.com/software/data/
cognos/manyeyes/)
Wednesday, November 2, 11
14. Naše problémy
nevůle lidí data vůbec dávat, strach z kontroly
ne-demokratičnost
málo dat v strojově čitelném formátu
minumum českých aplikací s API
absence českých NLP nástrojů
Wednesday, November 2, 11
15. Ale na časy se blýská...
http://www.rozpocetverejne.cz/
http://zindex.cz/
http://opendata.cz/
Wednesday, November 2, 11
16. Čas na diskusi...
email: josef.slerka@gmail.com
twitter: http://twitter.com/josefslerka
Wednesday, November 2, 11