SlideShare a Scribd company logo
1
Sungho Won, Ph. D.
Graduate School of Public Health
Seoul National University
Rex: 엑셀 기반 R연동
통계분석 소프트웨어
2
1. 서론
2. REx 란?
3. REx 그래픽스
4. REx 시계열분석
3
1. 서론
2. REx 란?
3. REx 그래픽스
4. REx 시계열분석
4
Statistical Software (SAS & R)
Features STATA SPSS SAS R
Learning curve Steep/gradual Gradual/flat Pretty steep Pretty steep
Use interface Programming/
point-and-click
Mostly point-
and-click
Programming Programming
Data
manipulation
Very strong Moderate Very strong Very strong
Data analysis Powerful Powerful Powerful /
versatile
Powerful /
versatile
Graphics Very Good Very Good Good Excellent
Cost Affordable
(perpetual
licenses,
renew only
when upgrade)
Expensive(but
not need to
renew until
upgrade, long
term licenses)
Expensive
(yearly
renewal)
Open source
5
Why R?
 R vs SAS or SPSS
A key benefit of R is that it provides near instant availability of new and
experimental methods created by its user base — without waiting for the
development/release cycle of commercial software. SAS recognizes the
value of R to our customer base…”
- Michael Gilliland, Product Marketing Manager SAS Institute
6
 R의 장점
 빠른 개발 및 활용
R의 장점 및 한계
2-3 년?
0-1 년?
7
 R의 한계?
R의 한계 및 전망
0-1 년?
?
 R의 최대 수혜자는 통계/전산 전공자
 생물, 의학 등 비전공자는?
8
 RExcel: R과 엑셀의 결합한 첫 번째 소프트웨어
 MS word 2010, 2013 버전 지원
RExcel
9
 RExcel의 장점
 엑셀을 활용하여 쉽게 통계 분석이 가능함.
 RExcel의 단점
 설치가 매우 어려움
 메뉴의 구성이 직관적이지 않음
 유료
RExcel
10
1. 서론
2. REx 란?
3. REx 그래픽스
4. REx 시계열분석
12
REx 란?
http://healthstat.snu.ac.kr/rex/
13
REx 개발
 Microsoft Visual Studio 2015
 Microsoft Visual Basic .NET
 Microsoft Visual Studio Tools for Office
14
 System requirement
 Windows 기반의 운영체제
(32bit & 64bit, Windows 7 이상)
 Microsoft Office 2013 이상
 R 3.3.0 이상
REx 설치하기
15
 Required R packages
 직접적으로 필요한 패키지 (51): markdown, ggplot2, ggExtra, moments, AER, AICcmodavg, FactoMineR, devtools,
factoextra, MASS, survival, R2HTML, VIM, randomForest, psy, psych, cluster, fpc, R2HTML, car, GPArotation, dbscan, KMsurv, e1071, tree,
party, rpart, caret, partykit, party, philentropy, ade4, klaR, MASS, lme4, VGAM, car, AICcmodavg, rms, caret, pscl, ResourceSelection, MKmisc,
lmtest, VGAM, vcd, oii, coin, vcdExtra, plsdepot, ggfortify
 의존하는 패키지 (85): mime, digest, gtable, plyr, reshape2, scales, tibble, lazyeval, colourpicker, miniUI, shiny, shinyjs, car,
lmtest, sandwich, zoo, Formula, nlme, unmarked, VGAM, xtable, cluster, ellipse, flashClust, leaps, scatterplot3d, httr, memoise, whisker,
rstudioapi, jsonlite, git2r, withr, abind, dendextend, ggpubr, ggrepel, tidyr, colorspace, data.table, robustbase, sp, vcd, nnet, e1071, Rcpp,
laeken, mnormt, foreign, mclust, flexmix, prabclus, class, diptest, mvtnorm, kernlab, trimcluster, mgcv, pbkrtest, quantreg, modeltools,
strucchange, coin, foreach, ModelMetrics, recipes, dplyr, KernSmooth, combinat, minqa, nloptr, Hmisc, SparseM, polspline, multcomp,
htmlTable, htmltools, pbapply, RColorBrewer, rapportools, gmodels, Deducer, gnm, ca, gridExtra
 의존하는 패키지가 의존하는 패키지 (67): Rcpp, stringr, RColorBrewer, dichromat, munsell, labeling, R6,
viridisLite, rlang, htmltools, htmlwidgets, jsonlite, miniUI, shiny, shinyjs, httpuv, xtable, sourcetools, zoo, reshape, raster, curl, openssl, magrittr,
viridis, ggrepel, ggsci, tidyr, purrr, dplyr, cowplot, ggsignif, gridExtra, glue, stringi, tidyselect, DEoptimR, boot, modeltools, SparseM,
MatrixModels, codetools, iterators, ipred, dimRed, lubridate, timeDate, ddalpha, gower, RcppRoll, assertthat, bindrcpp, pkgconfig, latticeExtra,
acepack, htmlTable, base64enc, TH.data, knitr, checkmate, pander, gdata, JGR, rJava, effects, qvcalc, relimp
 의존하는 패키지가 의존하는 패키지가 의존하는 그 이하 패키지 (18) : stringi, magrittr,
yaml, prodlim, DRR, sfsmisc, bindr, evaluate, highr, backports, gtools, rJava, JavaGD, carData, survey, lava, CVST, numDeriv
REx 설치하기
16
 설치 순서
 R 설치하기
 R 패키지 설치하기
 REx 설치하기
REx 설치하기
17
 REx 시작하기 전에!
 REx 활성화 하기
REx 활성화
18
 REx 메뉴 구성
 그래픽스
 분포함수
 통계분석
REx 실행하기
19
 데이터의 구성
REx 데이터 준비하기
20
 데이터의 구성
REx 데이터 준비하기
21
 데이터의 구성
REx 데이터 준비하기
22
1. 서론
2. REx 란?
3. REx 그래픽스
4. REx 시계열분석
23
REx 그래픽스 구현
 ggplot2 + extension packages
 ggextra (scatter plot의 marginal 영역)
 GGally (scatter matrix)
 ggfortify (확률분포 및 diagnostic plot 등)
 ggplot2의 문법을 활용
 ggplot(data, aes(…), …) + …
 경우에 따라 excel에서 읽은 data를 함수 내에서
수정/변환하여 적절한 plot을 구현
24
REx 그래픽스 메뉴
Index plot Dot plot Histogram Density plot
Box plot QQ plot Scatter plot Scatter matrix
XY plot Mean plot Bar plot Pie plot
25
REx 그래픽스 예제
 Scatter plot
 Data
birth.csv
 Variables
bweight
gestwks
sex (group)
 Components
Smooth curve
Ellipse
Marginal box plot
Additional line
26
REx 그래픽스 예제
①
②
③
 산점도 그리기
27
 산점도 그리기
REx 그래픽스 예제
①
②
③
28
REx 그래픽스 예제
①
②
③
④
⑤
⑥
⑦
⑧
29
REx 그래픽스 예제
마우스오른쪽클릭 가능
30
1. 서론
2. REx 란?
3. REx 그래픽스
4. REx 시계열분석
31
REx 통계 분석 메뉴
기술
통계
그룹 비교 회귀분석 상관분석
범주형
자료 분석
분류 분석
차원
축소
시계열
분석
생존분석
데이터
요약
평균
비교
일표본 T 검정
선형회귀
분석
이변량
상관
분할표
분석
비지도
학습
K-평균
군집
요인분석
시계열
자료 탐색
생명표
독립표본 T
검정
가중선형
회귀분석
편상관
로그선형
분석
계층적 군집
대응일치
분석
지수평활법 Kaplan-Meier
대응표본 T
검정
편최소제곱 거리측도 DBSCAN
주성분
분석
ARIMA모형
Cox
비례위험모형
일원배치
분산분석
이분형
로지스틱
PAM 군집
GARCH
모형
다변량
분산분석
다항
로지스틱
지도
학습
의사결정
나무
비율
비교
일표본
비율검정
포아송
회귀분석
판별분석
이표본
비율검정
2-단계
최소제곱
K최근접
이웃기법
분산
비교
등분산검정
반복측정
회귀분석
SVM
다변량
회귀분석
 분석메뉴
32
REx 시계열분석 메뉴
 시계열자료 탐색
 지수평활법
 ARIMA 모형
 GARCH 모형
33
REx 시계열분석 메뉴 – 시계열자료 탐색
 시계열자료 탐색
 시계열 모형화 이전에 자료를 탐색하는 절차
 예(다양한 시계열 Plots):
시계열 도표, ACF, PACF, 계절별 도표, 지연 시차 도표 등
 예(각종 검정):
Box-Cox 변환, 백색잡음 검정, 단위근 검정 등
 주요 함수 구현: “forecast” package 사용
34
[시계열자료 탐색] 대화상자 구성
REx 시계열분석 메뉴 – 시계열자료 탐색
35
[시계열자료 탐색] 실행 결과 예
REx 시계열분석 메뉴 – 시계열자료 탐색
36
REx 시계열분석 메뉴 – 지수평활법
 지수평활법(Exponential Smoothing Method)
 단변량 시계열을 수준(level), 추세(trend), 계절(seasonality)
성분의 조합으로 모형화 및 예측
 주요 모형:
 단순, 이중 지수평활법(single or double ESM)
 Holt-Winters 계절 지수평활법 등
 주요 제공 옵션:
 모수 자동 추정
 분해 도표 및 각종 도표 출력, 예측 신뢰구간 제공
 주요 함수 구현: “forecast” package 사용
37
[지수평활법] 대화상자 구성
REx 시계열분석 메뉴 – 지수평활법
38
[지수평활법] 실행 결과 예
REx 시계열분석 메뉴 – 지수평활법
39
REx 시계열분석 메뉴 – ARIMA 모형
 ARIMA 모형
 자기회귀 누적 이동평균(autoregressive integrated moving-
average) 모형
 단변량 시계열을 ARIMA(p,d,q)(P,D,Q)s로 모형화 및 예측
 주요 제공 옵션:
 독립변수(외생변수) 도입 가능
 ARIMA 차수 자동 선택
 잔차진단 도표 제공
 주요 함수 구현: “forecast” package 사용
40
[ARIMA 모형] 대화상자 구성
REx 시계열분석 메뉴 – ARIMA 모형
41
[ARIMA 모형] 실행 결과 예
REx 시계열분석 메뉴 – ARIMA 모형
42
REx 시계열분석 메뉴 – GARCH 모형
 GARCH 모형
 일반화 자기회귀 조건부 이분산 모형(generalized
autoregressive conditional heteroscedastic model)
 단변량 시계열의 조건부 이분산을 모형화 및 예측
 주요 모형:
standard GARCH, integrated GARCH,
exponential GARCH, GJR GARCH, Threshold GARCH 등
 주요 제공 옵션:
다양한 오차 분포 결합 가능: normal, t, GED 등
조건부 평균을 위한 ARMA 모형 및 분수 차분 도입 가능
독립변수(외생변수) 도입 가능
조건부 이분산의 예측도표 제공
 주요 함수 구현: “rugarch” package 사용
43
[GARCH 모형] 대화상자 구성
REx 시계열분석 메뉴 – GARCH 모형
44
[GARCH 모형] 실행 결과 예
REx 시계열분석 메뉴 – GARCH 모형
45
REx 향후 일정 (계획)
 2017.12.01: v1.0 배포
 2019.01.01: v2.0 배포
 메타 분석 모듈
 유전체/전사체 데이터 분석 모듈
 벌점화 회귀분석 모듈
 Causal Inference
46
REx 개발팀
 서울대학교
 보건통계 연구실 I (김호교수)
 보건통계/생물정보 연구실 II (원성호교수)
김원지
안재훈
 중앙대학교 응용통계학과
 시계열 연구실 (성병찬교수)
47
Questions??

More Related Content

Similar to RUCK 2017 REx: 엑셀 기반 R 연동 통계분석 소프트웨어

NDC11_김성익_슈퍼클래스
NDC11_김성익_슈퍼클래스NDC11_김성익_슈퍼클래스
NDC11_김성익_슈퍼클래스
Sungik Kim
 
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
Chanjin Park
 
R 프로그램의 이해와 활용 v1.1
R 프로그램의 이해와 활용 v1.1R 프로그램의 이해와 활용 v1.1
R 프로그램의 이해와 활용 v1.1
happychallenge
 
Spark_Overview_qna
Spark_Overview_qnaSpark_Overview_qna
Spark_Overview_qna현철 박
 
R을 이용한 데이터 분석
R을 이용한 데이터 분석R을 이용한 데이터 분석
R을 이용한 데이터 분석
simon park
 
[2018] NHN 모니터링의 현재와 미래 for 인프라 엔지니어
[2018] NHN 모니터링의 현재와 미래 for 인프라 엔지니어[2018] NHN 모니터링의 현재와 미래 for 인프라 엔지니어
[2018] NHN 모니터링의 현재와 미래 for 인프라 엔지니어
NHN FORWARD
 
PySpark 배우기 Ch 06. ML 패키지 소개하기
PySpark 배우기 Ch 06. ML 패키지 소개하기PySpark 배우기 Ch 06. ML 패키지 소개하기
PySpark 배우기 Ch 06. ML 패키지 소개하기
찬희 이
 
[Td 2015]너에게만 나는 반응해 반응형 응용프로그램(이규원)
[Td 2015]너에게만 나는 반응해 반응형 응용프로그램(이규원)[Td 2015]너에게만 나는 반응해 반응형 응용프로그램(이규원)
[Td 2015]너에게만 나는 반응해 반응형 응용프로그램(이규원)
Sang Don Kim
 
Super map iDesktop 교육교재 기초
Super map iDesktop 교육교재 기초Super map iDesktop 교육교재 기초
Super map iDesktop 교육교재 기초
선경 김선경
 
11_빠른 개발 가능한 레벨 편집 시스템
11_빠른 개발 가능한 레벨 편집 시스템11_빠른 개발 가능한 레벨 편집 시스템
11_빠른 개발 가능한 레벨 편집 시스템
noerror
 
오픈소스기반 상용소프트웨어 GXT의 적용사례
오픈소스기반 상용소프트웨어 GXT의 적용사례오픈소스기반 상용소프트웨어 GXT의 적용사례
오픈소스기반 상용소프트웨어 GXT의 적용사례
HaNJiN Lee
 
MapReduce 실행 샘플 (K-mer Counting, K-means Clustering)
MapReduce 실행 샘플 (K-mer Counting, K-means Clustering)MapReduce 실행 샘플 (K-mer Counting, K-means Clustering)
MapReduce 실행 샘플 (K-mer Counting, K-means Clustering)주영 송
 
Super map idesktop교육교재심화
Super map idesktop교육교재심화Super map idesktop교육교재심화
Super map idesktop교육교재심화
선경 김선경
 
IPython
IPythonIPython
IPython
Kyunghoon Kim
 
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
Donghwan Lee
 
[Td 2015]windows, linux, mac 신경 안 쓴다. .net 2015와 더더 좋아지는 c# 살짝 훔쳐보기(김명신)
[Td 2015]windows, linux, mac 신경 안 쓴다. .net 2015와 더더 좋아지는 c# 살짝 훔쳐보기(김명신)[Td 2015]windows, linux, mac 신경 안 쓴다. .net 2015와 더더 좋아지는 c# 살짝 훔쳐보기(김명신)
[Td 2015]windows, linux, mac 신경 안 쓴다. .net 2015와 더더 좋아지는 c# 살짝 훔쳐보기(김명신)
Sang Don Kim
 
Tech Update - The Future of .NET Framework (김명신 부장)
Tech Update - The Future of .NET Framework (김명신 부장)Tech Update - The Future of .NET Framework (김명신 부장)
Tech Update - The Future of .NET Framework (김명신 부장)
Eunbee Song
 
GE Predix 개요 201702
GE Predix 개요 201702GE Predix 개요 201702
GE Predix 개요 201702
Hanwha System / ICT
 
[1A5]효율적인안드로이드앱개발
[1A5]효율적인안드로이드앱개발[1A5]효율적인안드로이드앱개발
[1A5]효율적인안드로이드앱개발
NAVER D2
 

Similar to RUCK 2017 REx: 엑셀 기반 R 연동 통계분석 소프트웨어 (20)

NDC11_김성익_슈퍼클래스
NDC11_김성익_슈퍼클래스NDC11_김성익_슈퍼클래스
NDC11_김성익_슈퍼클래스
 
R 소개
R 소개R 소개
R 소개
 
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
 
R 프로그램의 이해와 활용 v1.1
R 프로그램의 이해와 활용 v1.1R 프로그램의 이해와 활용 v1.1
R 프로그램의 이해와 활용 v1.1
 
Spark_Overview_qna
Spark_Overview_qnaSpark_Overview_qna
Spark_Overview_qna
 
R을 이용한 데이터 분석
R을 이용한 데이터 분석R을 이용한 데이터 분석
R을 이용한 데이터 분석
 
[2018] NHN 모니터링의 현재와 미래 for 인프라 엔지니어
[2018] NHN 모니터링의 현재와 미래 for 인프라 엔지니어[2018] NHN 모니터링의 현재와 미래 for 인프라 엔지니어
[2018] NHN 모니터링의 현재와 미래 for 인프라 엔지니어
 
PySpark 배우기 Ch 06. ML 패키지 소개하기
PySpark 배우기 Ch 06. ML 패키지 소개하기PySpark 배우기 Ch 06. ML 패키지 소개하기
PySpark 배우기 Ch 06. ML 패키지 소개하기
 
[Td 2015]너에게만 나는 반응해 반응형 응용프로그램(이규원)
[Td 2015]너에게만 나는 반응해 반응형 응용프로그램(이규원)[Td 2015]너에게만 나는 반응해 반응형 응용프로그램(이규원)
[Td 2015]너에게만 나는 반응해 반응형 응용프로그램(이규원)
 
Super map iDesktop 교육교재 기초
Super map iDesktop 교육교재 기초Super map iDesktop 교육교재 기초
Super map iDesktop 교육교재 기초
 
11_빠른 개발 가능한 레벨 편집 시스템
11_빠른 개발 가능한 레벨 편집 시스템11_빠른 개발 가능한 레벨 편집 시스템
11_빠른 개발 가능한 레벨 편집 시스템
 
오픈소스기반 상용소프트웨어 GXT의 적용사례
오픈소스기반 상용소프트웨어 GXT의 적용사례오픈소스기반 상용소프트웨어 GXT의 적용사례
오픈소스기반 상용소프트웨어 GXT의 적용사례
 
MapReduce 실행 샘플 (K-mer Counting, K-means Clustering)
MapReduce 실행 샘플 (K-mer Counting, K-means Clustering)MapReduce 실행 샘플 (K-mer Counting, K-means Clustering)
MapReduce 실행 샘플 (K-mer Counting, K-means Clustering)
 
Super map idesktop교육교재심화
Super map idesktop교육교재심화Super map idesktop교육교재심화
Super map idesktop교육교재심화
 
IPython
IPythonIPython
IPython
 
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
 
[Td 2015]windows, linux, mac 신경 안 쓴다. .net 2015와 더더 좋아지는 c# 살짝 훔쳐보기(김명신)
[Td 2015]windows, linux, mac 신경 안 쓴다. .net 2015와 더더 좋아지는 c# 살짝 훔쳐보기(김명신)[Td 2015]windows, linux, mac 신경 안 쓴다. .net 2015와 더더 좋아지는 c# 살짝 훔쳐보기(김명신)
[Td 2015]windows, linux, mac 신경 안 쓴다. .net 2015와 더더 좋아지는 c# 살짝 훔쳐보기(김명신)
 
Tech Update - The Future of .NET Framework (김명신 부장)
Tech Update - The Future of .NET Framework (김명신 부장)Tech Update - The Future of .NET Framework (김명신 부장)
Tech Update - The Future of .NET Framework (김명신 부장)
 
GE Predix 개요 201702
GE Predix 개요 201702GE Predix 개요 201702
GE Predix 개요 201702
 
[1A5]효율적인안드로이드앱개발
[1A5]효율적인안드로이드앱개발[1A5]효율적인안드로이드앱개발
[1A5]효율적인안드로이드앱개발
 

More from r-kor

RUCK 2017 MxNet과 R을 연동한 딥러닝 소개
RUCK 2017 MxNet과 R을 연동한 딥러닝 소개RUCK 2017 MxNet과 R을 연동한 딥러닝 소개
RUCK 2017 MxNet과 R을 연동한 딥러닝 소개
r-kor
 
RUCK 2017 R에 날개 달기 - Microsoft R과 클라우드 머신러닝 소개
RUCK 2017 R에 날개 달기 - Microsoft R과 클라우드 머신러닝 소개RUCK 2017 R에 날개 달기 - Microsoft R과 클라우드 머신러닝 소개
RUCK 2017 R에 날개 달기 - Microsoft R과 클라우드 머신러닝 소개
r-kor
 
RUCK 2017 샤이니 대시보드를 활용한 interactive chart 구현
RUCK 2017 샤이니 대시보드를 활용한 interactive chart 구현RUCK 2017 샤이니 대시보드를 활용한 interactive chart 구현
RUCK 2017 샤이니 대시보드를 활용한 interactive chart 구현
r-kor
 
RUCK 2017 베이즈 모형의 꽃 - 계층 모형
RUCK 2017 베이즈 모형의 꽃 - 계층 모형RUCK 2017 베이즈 모형의 꽃 - 계층 모형
RUCK 2017 베이즈 모형의 꽃 - 계층 모형
r-kor
 
RUCK 2017 R로 API 서버를 만드는 4가지 방법(은 삽질기)
RUCK 2017 R로 API 서버를 만드는 4가지 방법(은 삽질기)RUCK 2017 R로 API 서버를 만드는 4가지 방법(은 삽질기)
RUCK 2017 R로 API 서버를 만드는 4가지 방법(은 삽질기)
r-kor
 
RUCK 2017 Shiny의 또 다른 활용: RStudio addin 함수 및 패키지의 제작
RUCK 2017 Shiny의 또 다른 활용: RStudio addin 함수 및 패키지의 제작RUCK 2017 Shiny의 또 다른 활용: RStudio addin 함수 및 패키지의 제작
RUCK 2017 Shiny의 또 다른 활용: RStudio addin 함수 및 패키지의 제작
r-kor
 
RUCK 2017 R 을 이용한 사회조사 자료의 분석 및 보고서 작성 방법
RUCK 2017 R 을 이용한 사회조사 자료의 분석 및 보고서 작성 방법RUCK 2017 R 을 이용한 사회조사 자료의 분석 및 보고서 작성 방법
RUCK 2017 R 을 이용한 사회조사 자료의 분석 및 보고서 작성 방법
r-kor
 
RUCK 2017 빅데이터 분석에서 모형의 역할
RUCK 2017 빅데이터 분석에서 모형의 역할RUCK 2017 빅데이터 분석에서 모형의 역할
RUCK 2017 빅데이터 분석에서 모형의 역할
r-kor
 
RUCK 2017 김성환 R 패키지 메타주성분분석(MetaPCA)
RUCK 2017 김성환 R 패키지 메타주성분분석(MetaPCA)RUCK 2017 김성환 R 패키지 메타주성분분석(MetaPCA)
RUCK 2017 김성환 R 패키지 메타주성분분석(MetaPCA)
r-kor
 
RUCK 2017 김대영 R 기반 프로덕트의 개발과 배포
RUCK 2017 김대영 R 기반 프로덕트의 개발과 배포RUCK 2017 김대영 R 기반 프로덕트의 개발과 배포
RUCK 2017 김대영 R 기반 프로덕트의 개발과 배포
r-kor
 
RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인
RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인
RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인
r-kor
 
RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석
RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석
RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석
r-kor
 
오픈데이터와 오픈소스 소프트웨어를 이용한 의료이용정보의 시각화
오픈데이터와 오픈소스 소프트웨어를 이용한 의료이용정보의 시각화오픈데이터와 오픈소스 소프트웨어를 이용한 의료이용정보의 시각화
오픈데이터와 오픈소스 소프트웨어를 이용한 의료이용정보의 시각화
r-kor
 
구조화된 데이터: Schema.org와 Microdata, RDFa, JSON-LD
구조화된 데이터: Schema.org와 Microdata, RDFa, JSON-LD구조화된 데이터: Schema.org와 Microdata, RDFa, JSON-LD
구조화된 데이터: Schema.org와 Microdata, RDFa, JSON-LD
r-kor
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵
r-kor
 
선박식별정보를 이용한 어업활동 공간밀도 가시화
선박식별정보를 이용한 어업활동 공간밀도 가시화선박식별정보를 이용한 어업활동 공간밀도 가시화
선박식별정보를 이용한 어업활동 공간밀도 가시화
r-kor
 
모듈형 패키지를 활용한 나만의 기계학습 모형 만들기 - 회귀나무모형을 중심으로
모듈형 패키지를 활용한 나만의 기계학습 모형 만들기 - 회귀나무모형을 중심으로 모듈형 패키지를 활용한 나만의 기계학습 모형 만들기 - 회귀나무모형을 중심으로
모듈형 패키지를 활용한 나만의 기계학습 모형 만들기 - 회귀나무모형을 중심으로
r-kor
 
한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용
r-kor
 
지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가
r-kor
 
과학기술 발전과 오픈소스
과학기술 발전과 오픈소스과학기술 발전과 오픈소스
과학기술 발전과 오픈소스
r-kor
 

More from r-kor (20)

RUCK 2017 MxNet과 R을 연동한 딥러닝 소개
RUCK 2017 MxNet과 R을 연동한 딥러닝 소개RUCK 2017 MxNet과 R을 연동한 딥러닝 소개
RUCK 2017 MxNet과 R을 연동한 딥러닝 소개
 
RUCK 2017 R에 날개 달기 - Microsoft R과 클라우드 머신러닝 소개
RUCK 2017 R에 날개 달기 - Microsoft R과 클라우드 머신러닝 소개RUCK 2017 R에 날개 달기 - Microsoft R과 클라우드 머신러닝 소개
RUCK 2017 R에 날개 달기 - Microsoft R과 클라우드 머신러닝 소개
 
RUCK 2017 샤이니 대시보드를 활용한 interactive chart 구현
RUCK 2017 샤이니 대시보드를 활용한 interactive chart 구현RUCK 2017 샤이니 대시보드를 활용한 interactive chart 구현
RUCK 2017 샤이니 대시보드를 활용한 interactive chart 구현
 
RUCK 2017 베이즈 모형의 꽃 - 계층 모형
RUCK 2017 베이즈 모형의 꽃 - 계층 모형RUCK 2017 베이즈 모형의 꽃 - 계층 모형
RUCK 2017 베이즈 모형의 꽃 - 계층 모형
 
RUCK 2017 R로 API 서버를 만드는 4가지 방법(은 삽질기)
RUCK 2017 R로 API 서버를 만드는 4가지 방법(은 삽질기)RUCK 2017 R로 API 서버를 만드는 4가지 방법(은 삽질기)
RUCK 2017 R로 API 서버를 만드는 4가지 방법(은 삽질기)
 
RUCK 2017 Shiny의 또 다른 활용: RStudio addin 함수 및 패키지의 제작
RUCK 2017 Shiny의 또 다른 활용: RStudio addin 함수 및 패키지의 제작RUCK 2017 Shiny의 또 다른 활용: RStudio addin 함수 및 패키지의 제작
RUCK 2017 Shiny의 또 다른 활용: RStudio addin 함수 및 패키지의 제작
 
RUCK 2017 R 을 이용한 사회조사 자료의 분석 및 보고서 작성 방법
RUCK 2017 R 을 이용한 사회조사 자료의 분석 및 보고서 작성 방법RUCK 2017 R 을 이용한 사회조사 자료의 분석 및 보고서 작성 방법
RUCK 2017 R 을 이용한 사회조사 자료의 분석 및 보고서 작성 방법
 
RUCK 2017 빅데이터 분석에서 모형의 역할
RUCK 2017 빅데이터 분석에서 모형의 역할RUCK 2017 빅데이터 분석에서 모형의 역할
RUCK 2017 빅데이터 분석에서 모형의 역할
 
RUCK 2017 김성환 R 패키지 메타주성분분석(MetaPCA)
RUCK 2017 김성환 R 패키지 메타주성분분석(MetaPCA)RUCK 2017 김성환 R 패키지 메타주성분분석(MetaPCA)
RUCK 2017 김성환 R 패키지 메타주성분분석(MetaPCA)
 
RUCK 2017 김대영 R 기반 프로덕트의 개발과 배포
RUCK 2017 김대영 R 기반 프로덕트의 개발과 배포RUCK 2017 김대영 R 기반 프로덕트의 개발과 배포
RUCK 2017 김대영 R 기반 프로덕트의 개발과 배포
 
RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인
RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인
RUCK 2017 권재명 효율적 데이터 과학과 데이터 조직을 위한 7가지 요인
 
RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석
RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석
RUCK 2017 - 강병엽 - Spark와 R을 연동한 빅데이터 분석
 
오픈데이터와 오픈소스 소프트웨어를 이용한 의료이용정보의 시각화
오픈데이터와 오픈소스 소프트웨어를 이용한 의료이용정보의 시각화오픈데이터와 오픈소스 소프트웨어를 이용한 의료이용정보의 시각화
오픈데이터와 오픈소스 소프트웨어를 이용한 의료이용정보의 시각화
 
구조화된 데이터: Schema.org와 Microdata, RDFa, JSON-LD
구조화된 데이터: Schema.org와 Microdata, RDFa, JSON-LD구조화된 데이터: Schema.org와 Microdata, RDFa, JSON-LD
구조화된 데이터: Schema.org와 Microdata, RDFa, JSON-LD
 
빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵빅데이터 인공지능 전략 및 로드맵
빅데이터 인공지능 전략 및 로드맵
 
선박식별정보를 이용한 어업활동 공간밀도 가시화
선박식별정보를 이용한 어업활동 공간밀도 가시화선박식별정보를 이용한 어업활동 공간밀도 가시화
선박식별정보를 이용한 어업활동 공간밀도 가시화
 
모듈형 패키지를 활용한 나만의 기계학습 모형 만들기 - 회귀나무모형을 중심으로
모듈형 패키지를 활용한 나만의 기계학습 모형 만들기 - 회귀나무모형을 중심으로 모듈형 패키지를 활용한 나만의 기계학습 모형 만들기 - 회귀나무모형을 중심으로
모듈형 패키지를 활용한 나만의 기계학습 모형 만들기 - 회귀나무모형을 중심으로
 
한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용한글 언어 자원과 R: KoNLP 개선과 활용
한글 언어 자원과 R: KoNLP 개선과 활용
 
지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가지능정보시대를 위한 빅데이터, 이대로 좋은가
지능정보시대를 위한 빅데이터, 이대로 좋은가
 
과학기술 발전과 오픈소스
과학기술 발전과 오픈소스과학기술 발전과 오픈소스
과학기술 발전과 오픈소스
 

RUCK 2017 REx: 엑셀 기반 R 연동 통계분석 소프트웨어

  • 1. 1 Sungho Won, Ph. D. Graduate School of Public Health Seoul National University Rex: 엑셀 기반 R연동 통계분석 소프트웨어
  • 2. 2 1. 서론 2. REx 란? 3. REx 그래픽스 4. REx 시계열분석
  • 3. 3 1. 서론 2. REx 란? 3. REx 그래픽스 4. REx 시계열분석
  • 4. 4 Statistical Software (SAS & R) Features STATA SPSS SAS R Learning curve Steep/gradual Gradual/flat Pretty steep Pretty steep Use interface Programming/ point-and-click Mostly point- and-click Programming Programming Data manipulation Very strong Moderate Very strong Very strong Data analysis Powerful Powerful Powerful / versatile Powerful / versatile Graphics Very Good Very Good Good Excellent Cost Affordable (perpetual licenses, renew only when upgrade) Expensive(but not need to renew until upgrade, long term licenses) Expensive (yearly renewal) Open source
  • 5. 5 Why R?  R vs SAS or SPSS A key benefit of R is that it provides near instant availability of new and experimental methods created by its user base — without waiting for the development/release cycle of commercial software. SAS recognizes the value of R to our customer base…” - Michael Gilliland, Product Marketing Manager SAS Institute
  • 6. 6  R의 장점  빠른 개발 및 활용 R의 장점 및 한계 2-3 년? 0-1 년?
  • 7. 7  R의 한계? R의 한계 및 전망 0-1 년? ?  R의 최대 수혜자는 통계/전산 전공자  생물, 의학 등 비전공자는?
  • 8. 8  RExcel: R과 엑셀의 결합한 첫 번째 소프트웨어  MS word 2010, 2013 버전 지원 RExcel
  • 9. 9  RExcel의 장점  엑셀을 활용하여 쉽게 통계 분석이 가능함.  RExcel의 단점  설치가 매우 어려움  메뉴의 구성이 직관적이지 않음  유료 RExcel
  • 10. 10 1. 서론 2. REx 란? 3. REx 그래픽스 4. REx 시계열분석
  • 12. 13 REx 개발  Microsoft Visual Studio 2015  Microsoft Visual Basic .NET  Microsoft Visual Studio Tools for Office
  • 13. 14  System requirement  Windows 기반의 운영체제 (32bit & 64bit, Windows 7 이상)  Microsoft Office 2013 이상  R 3.3.0 이상 REx 설치하기
  • 14. 15  Required R packages  직접적으로 필요한 패키지 (51): markdown, ggplot2, ggExtra, moments, AER, AICcmodavg, FactoMineR, devtools, factoextra, MASS, survival, R2HTML, VIM, randomForest, psy, psych, cluster, fpc, R2HTML, car, GPArotation, dbscan, KMsurv, e1071, tree, party, rpart, caret, partykit, party, philentropy, ade4, klaR, MASS, lme4, VGAM, car, AICcmodavg, rms, caret, pscl, ResourceSelection, MKmisc, lmtest, VGAM, vcd, oii, coin, vcdExtra, plsdepot, ggfortify  의존하는 패키지 (85): mime, digest, gtable, plyr, reshape2, scales, tibble, lazyeval, colourpicker, miniUI, shiny, shinyjs, car, lmtest, sandwich, zoo, Formula, nlme, unmarked, VGAM, xtable, cluster, ellipse, flashClust, leaps, scatterplot3d, httr, memoise, whisker, rstudioapi, jsonlite, git2r, withr, abind, dendextend, ggpubr, ggrepel, tidyr, colorspace, data.table, robustbase, sp, vcd, nnet, e1071, Rcpp, laeken, mnormt, foreign, mclust, flexmix, prabclus, class, diptest, mvtnorm, kernlab, trimcluster, mgcv, pbkrtest, quantreg, modeltools, strucchange, coin, foreach, ModelMetrics, recipes, dplyr, KernSmooth, combinat, minqa, nloptr, Hmisc, SparseM, polspline, multcomp, htmlTable, htmltools, pbapply, RColorBrewer, rapportools, gmodels, Deducer, gnm, ca, gridExtra  의존하는 패키지가 의존하는 패키지 (67): Rcpp, stringr, RColorBrewer, dichromat, munsell, labeling, R6, viridisLite, rlang, htmltools, htmlwidgets, jsonlite, miniUI, shiny, shinyjs, httpuv, xtable, sourcetools, zoo, reshape, raster, curl, openssl, magrittr, viridis, ggrepel, ggsci, tidyr, purrr, dplyr, cowplot, ggsignif, gridExtra, glue, stringi, tidyselect, DEoptimR, boot, modeltools, SparseM, MatrixModels, codetools, iterators, ipred, dimRed, lubridate, timeDate, ddalpha, gower, RcppRoll, assertthat, bindrcpp, pkgconfig, latticeExtra, acepack, htmlTable, base64enc, TH.data, knitr, checkmate, pander, gdata, JGR, rJava, effects, qvcalc, relimp  의존하는 패키지가 의존하는 패키지가 의존하는 그 이하 패키지 (18) : stringi, magrittr, yaml, prodlim, DRR, sfsmisc, bindr, evaluate, highr, backports, gtools, rJava, JavaGD, carData, survey, lava, CVST, numDeriv REx 설치하기
  • 15. 16  설치 순서  R 설치하기  R 패키지 설치하기  REx 설치하기 REx 설치하기
  • 16. 17  REx 시작하기 전에!  REx 활성화 하기 REx 활성화
  • 17. 18  REx 메뉴 구성  그래픽스  분포함수  통계분석 REx 실행하기
  • 18. 19  데이터의 구성 REx 데이터 준비하기
  • 19. 20  데이터의 구성 REx 데이터 준비하기
  • 20. 21  데이터의 구성 REx 데이터 준비하기
  • 21. 22 1. 서론 2. REx 란? 3. REx 그래픽스 4. REx 시계열분석
  • 22. 23 REx 그래픽스 구현  ggplot2 + extension packages  ggextra (scatter plot의 marginal 영역)  GGally (scatter matrix)  ggfortify (확률분포 및 diagnostic plot 등)  ggplot2의 문법을 활용  ggplot(data, aes(…), …) + …  경우에 따라 excel에서 읽은 data를 함수 내에서 수정/변환하여 적절한 plot을 구현
  • 23. 24 REx 그래픽스 메뉴 Index plot Dot plot Histogram Density plot Box plot QQ plot Scatter plot Scatter matrix XY plot Mean plot Bar plot Pie plot
  • 24. 25 REx 그래픽스 예제  Scatter plot  Data birth.csv  Variables bweight gestwks sex (group)  Components Smooth curve Ellipse Marginal box plot Additional line
  • 26. 27  산점도 그리기 REx 그래픽스 예제 ① ② ③
  • 29. 30 1. 서론 2. REx 란? 3. REx 그래픽스 4. REx 시계열분석
  • 30. 31 REx 통계 분석 메뉴 기술 통계 그룹 비교 회귀분석 상관분석 범주형 자료 분석 분류 분석 차원 축소 시계열 분석 생존분석 데이터 요약 평균 비교 일표본 T 검정 선형회귀 분석 이변량 상관 분할표 분석 비지도 학습 K-평균 군집 요인분석 시계열 자료 탐색 생명표 독립표본 T 검정 가중선형 회귀분석 편상관 로그선형 분석 계층적 군집 대응일치 분석 지수평활법 Kaplan-Meier 대응표본 T 검정 편최소제곱 거리측도 DBSCAN 주성분 분석 ARIMA모형 Cox 비례위험모형 일원배치 분산분석 이분형 로지스틱 PAM 군집 GARCH 모형 다변량 분산분석 다항 로지스틱 지도 학습 의사결정 나무 비율 비교 일표본 비율검정 포아송 회귀분석 판별분석 이표본 비율검정 2-단계 최소제곱 K최근접 이웃기법 분산 비교 등분산검정 반복측정 회귀분석 SVM 다변량 회귀분석  분석메뉴
  • 31. 32 REx 시계열분석 메뉴  시계열자료 탐색  지수평활법  ARIMA 모형  GARCH 모형
  • 32. 33 REx 시계열분석 메뉴 – 시계열자료 탐색  시계열자료 탐색  시계열 모형화 이전에 자료를 탐색하는 절차  예(다양한 시계열 Plots): 시계열 도표, ACF, PACF, 계절별 도표, 지연 시차 도표 등  예(각종 검정): Box-Cox 변환, 백색잡음 검정, 단위근 검정 등  주요 함수 구현: “forecast” package 사용
  • 33. 34 [시계열자료 탐색] 대화상자 구성 REx 시계열분석 메뉴 – 시계열자료 탐색
  • 34. 35 [시계열자료 탐색] 실행 결과 예 REx 시계열분석 메뉴 – 시계열자료 탐색
  • 35. 36 REx 시계열분석 메뉴 – 지수평활법  지수평활법(Exponential Smoothing Method)  단변량 시계열을 수준(level), 추세(trend), 계절(seasonality) 성분의 조합으로 모형화 및 예측  주요 모형:  단순, 이중 지수평활법(single or double ESM)  Holt-Winters 계절 지수평활법 등  주요 제공 옵션:  모수 자동 추정  분해 도표 및 각종 도표 출력, 예측 신뢰구간 제공  주요 함수 구현: “forecast” package 사용
  • 36. 37 [지수평활법] 대화상자 구성 REx 시계열분석 메뉴 – 지수평활법
  • 37. 38 [지수평활법] 실행 결과 예 REx 시계열분석 메뉴 – 지수평활법
  • 38. 39 REx 시계열분석 메뉴 – ARIMA 모형  ARIMA 모형  자기회귀 누적 이동평균(autoregressive integrated moving- average) 모형  단변량 시계열을 ARIMA(p,d,q)(P,D,Q)s로 모형화 및 예측  주요 제공 옵션:  독립변수(외생변수) 도입 가능  ARIMA 차수 자동 선택  잔차진단 도표 제공  주요 함수 구현: “forecast” package 사용
  • 39. 40 [ARIMA 모형] 대화상자 구성 REx 시계열분석 메뉴 – ARIMA 모형
  • 40. 41 [ARIMA 모형] 실행 결과 예 REx 시계열분석 메뉴 – ARIMA 모형
  • 41. 42 REx 시계열분석 메뉴 – GARCH 모형  GARCH 모형  일반화 자기회귀 조건부 이분산 모형(generalized autoregressive conditional heteroscedastic model)  단변량 시계열의 조건부 이분산을 모형화 및 예측  주요 모형: standard GARCH, integrated GARCH, exponential GARCH, GJR GARCH, Threshold GARCH 등  주요 제공 옵션: 다양한 오차 분포 결합 가능: normal, t, GED 등 조건부 평균을 위한 ARMA 모형 및 분수 차분 도입 가능 독립변수(외생변수) 도입 가능 조건부 이분산의 예측도표 제공  주요 함수 구현: “rugarch” package 사용
  • 42. 43 [GARCH 모형] 대화상자 구성 REx 시계열분석 메뉴 – GARCH 모형
  • 43. 44 [GARCH 모형] 실행 결과 예 REx 시계열분석 메뉴 – GARCH 모형
  • 44. 45 REx 향후 일정 (계획)  2017.12.01: v1.0 배포  2019.01.01: v2.0 배포  메타 분석 모듈  유전체/전사체 데이터 분석 모듈  벌점화 회귀분석 모듈  Causal Inference
  • 45. 46 REx 개발팀  서울대학교  보건통계 연구실 I (김호교수)  보건통계/생물정보 연구실 II (원성호교수) 김원지 안재훈  중앙대학교 응용통계학과  시계열 연구실 (성병찬교수)