A Budapest Users of R Network (BURN) 2013.09.25. meetup-ján elhangzott előadás.
My presentation on interactive Exploratory Data Analysis in R, using iPlots. (Presented during the second "Budapest Users of R Network" meetup on Sept. 25-th).
The main topics covered:
- The notion of "exploratory" data analysis (EDA)
- The notion of interactive EDA
- Important "usage patterns", introduced via highlights from an interactive analysis performed on cloud response time measurements
- Problems with the State of the Art tools (at least in the R ecosystem)
Dr. Kollár Csaba: Biztonság és technika a mesterséges intelligencia korában
Interaktív EDA R-ben: iPlots
1. Budapesti Műszaki és Gazdaságtudományi Egyetem
Méréstechnika és Információs Rendszerek Tanszék
Interaktív EDA R-ben:
iPlots
Kocsis Imre
ikocsis@mit.bme.hu
BURN Meetup, 2013.09.25.
2. Megjegyzés
A 2013.09.25. Budapest Users of R Network
meetup-előadás fóliakészlete, kisebb
javításokkal-kiegészítésekkel és az élő
demonstráció diákba leképezett tartalmával.
6. „Data Science”?
Mérnöki modellezés és
formális módszerek
Intelligens és „Big Data”
adatelemzés
Cloud kapacitás,
monitorozás, teljesítmény,
rendelkezésreállás
7. „Data Science”?
Mérnöki modellezés és
formális módszerek
Intelligens és „Big Data”
adatelemzés
Szoftver/üzleti folyamatok
elemzése, javítása, optimali
zálása
8. „Data Science”?
Mérnöki modellezés és
formális módszerek
Intelligens és „Big Data”
adatelemzés
Applications of R in
Business Competition
(MIT) „Big Data”
elemzési módszerek
(TMIT) „Big Data”
elemzési eszközök nyílt
forr. platformokon
10. Felderítő adatanalízis
Exploratory Data Analysis: statisztikai tradíció,
o mely koncepcionális
o és számítási eszközökkel segíti
o minták felismerését és ezen keresztül
o hipotézisek felállítását és finomítását.
Komplementere: Confirmatory Data Analysis
o Hipotézistesztelés, modellválasztás, paraméterillesztés, …
Legismertebb vizionáriusa: John W. Tukey
[2] és [3] alapján
11. EDA
Cél: adatok „megértése”
o „detektívmunka”
o erősen ad-hoc
Fő eszköz: adatok „bejárása” grafikus
reprezentációkkal
Hipotézisek: iteratív folyamat
Flexibilitás és pragmatizmus
13. Dr. John Snow és az 1854-es kolerajárvány
A járvány nem
„miazmikus”
A kútnyél-mítosz
kérdéses
Forrás: [5] és [6]
14. Dr. John Snow és az 1854-es kolerajárvány
A járvány nem
„miazmikus”
A kútnyél-mítosz
kérdéses
Forrás: [5] és [6]
„About half of our sensory neurons are dedicated to
vision, endowing us with a remarkable pattern-recognition
ability.”
Prof. Alfred Inselberg
26. További alternatívák
RStudio ggvis?
RNavGraph?
Ha nem kell komoly R kötés:
o Mondrian, XmdvTool, Spotfire, Tableau, SAS
JMP, Minitab, DataDesk, …
Az R-be ágyazás előnyei:
o Helyben az adat
o Helyben a statisztika
o Helyben iteratív adatfinomítás
Folytassuk a listát!
27. Példa elemzési feladat
Pataricza et al.: Empirical Assessment of Resilience
o Az EDA-t a szolgáltatásbiztonság (dependability)
elemzésében is kellene használnunk
o [9]
Itt:
o Interaktív technikák szemléltetése
o [9] munkafolyamatának néhány lépésén keresztül
28. Példa adatkészlet
Számítási felhő teljesítménymérések
o Gorbenko et al. [8]
Response Time = Request Processing Time +
Round Trip Time
40. iSetiSet
Kapcsolat az R-rel
Valójában Java-t használunk (+ df-másolás)
Objektumok: Változóba
regisztrálás, „léptetés”, listázás, módosítás
iSet
iSetiSetiVar
iSetiSetiVar
iSetiSetiPlot
„aktuális”
„aktuális”
41. EDA több adatkészlet felett
Quick & dirty EDA egy adatkeretre: nem kell
foglalkoznunk iSet/iVar/iPlot-okkal
iSet létrehozása: iset
o Az iVar-ok a szelekciós operátorokkal elérhetők
i{plot|bar|pcp|…}: az „aktuális” iSet-en
Aktuális iSet „átállítása”: iset.set
Kijelölés: iSet-en értelmezett!
A végigvezetett demo-ban nincs ezekre szükség
o Bár nem „szép” megoldás feleslegesen új iSet-eket
létrehozni…
60. Kapocsolat az R-rel
iplot.opt(ylim=c(1000,1500))
iset.select(ok$location %in% c('New
York', 'Chicago'))
iset()[iset.selected(),]
iset.sel.changed()
o A legutóbbi meghívása óta történt-e változás
61. Praktikus jótanácsok
32 bit all around
o Java + R
Ha Deducer, akkor már inkább Mondrian
Nem Big Data
Integer helyett double (ha boxplotot is akarunk…)
Amikor értelmes: váltsunk (pl.) Mondrian-ba
o Minden interakció egérrel (a legtöbb feladatra gyorsabb)
63. Fájó pontok
Legalább Biggish Data?!?
o OpenGL/DirectX?
o Statisztikai előfeldolgozás az adatokhoz közel?
o Önmagában a stat. viz-re is igaz
o ! Hadley Wickham: bigvis (Bin-sum-smooth)
„Recordable EDA” =/= „reproducible research”
rapporter.net, knitr, sweave, …:
o A végeredmény
o Folyamat kézi visszakövetése és átemelése
64. Hivatkozások
[1] http://xkcd.com/435/
[2] Behrens, J.T.: Principles and procedures of exploratory data analysis. Psychological
Methods 2, 131–160 (1997)
[3] Tukey, J.: We need both exploratory and confirmatory. The American Statistician
34, 23–25 (1980)
[4] Anscombe, F. J.: Graphs in Statistical Analysis. American Statistician 27 (1): 17–21
(1973)
[5] McLeod, K.S.: Our sense of Snow: the myth of John Snow in medical geography. Social
Science and Medicine 50 (7-8): 923-935 (2000)
[6] Inselberg, A.: Parallel Coordinates: Visual Multidimensional Geometry and its
Applications. Springer Science+Business Media, New York (2009)
[7] Theus, M., Urbanek, S.: Interactive graphics for data analysis: principles and examples.
CRC Press (2011)
[8] Gorbenko, A., Kharchenko, V., Mamutov, S., Tarasyuk, O., Romanovsky, A.: Exploring
Uncertainty of Delays as a Factor in End-to-End Cloud Response Time. In: 2012 Ninth
European Dependable Computing Conference, pp. 185–190. IEEE (2012)
[9] Pataricza, András, et al.: Empirical Assessment of Resilience. Software Engineering for
Resilient Systems. 1-16. (2013)
[10] http://streaming.stat.iastate.edu/~dicook/Reykjavik/vis/notes/6-interactive.pdf