What is a SCAD (spontaneous coronary artery dissection)?Laura Haywood-Cory
PPT presentation I created to educate people about how SCAD survivors use social media to support each other and organize. Katherine Leon had input on this as well, and the two of us presented a slightly different version of this in the WomenHeart "Champions Educating Champions" webinar series back in November of 2011.
What is a SCAD (spontaneous coronary artery dissection)?Laura Haywood-Cory
PPT presentation I created to educate people about how SCAD survivors use social media to support each other and organize. Katherine Leon had input on this as well, and the two of us presented a slightly different version of this in the WomenHeart "Champions Educating Champions" webinar series back in November of 2011.
빅데이터 기술의 소프트웨어 공학 적용
1. 빅데이터 기술의 활용 사례 - 빅데이터 기술은 이미 많은 적용 사례를 가지고 있고, IoT 기술과 더불어 일상의 기술이 되어 가고 있다 (Pervasive & Invisible Analytics).
2. Spark 플랫폼 - 이전에 Hadoop으로 대표되는 빅데이터의 분산 처리 기술은 계속 발전하고 있고, Spark는 메모리 기반 데이터 처리로 기존 대비 성능을 10~100배 개선하였다. 특히, Spark는 Scala라는 함수형 언어로 구현되었고, 이전에 Java 기반의 빅데이터 처리 코드를 보다 명료하고 Compact하게 구현할 수 있다. 데이터 분석에는 Imperative 언어보다 함수형 언어가 보다 적합하다.
3. 소프트웨어 공학에서의 데이터 분석 사례 - 최근 Software Analytics, Repository Mining 등 데이터 분석 사례들이 있고, 최근 GitHub 이나 StackOverflow 분석과 같은 빅데이터 분석 연구들이 진행되고 있다.
4. Spark를 활용한 Word Count 예
5. Big Data Software Engineering - 큰 데이터 처리 외에도, 실시간 데이터 처리 (Velocity), 다양한 데이터 처리 (Variety) 부분에도 소프트웨어 공학 적용이 필요하다. 또한, Big Data Software를 Engineering하는 부분에도 관심이 필요하다. Big Data 분석 코드 역시 SE의 대상으로 바라보고, Test Driven Dev, Agile Methodology와 같은 개발 방법의 적용을 살펴볼 필요가 있다.
마지막으로, 현재 빅데이터 기술에 대한 진입 장벽은 많이 낮아졌고, 사용 가능한 오픈소스들이 많다. 소프트웨어 공학자라면 빅데이터 분석을 직접 시도해 볼 필요가 있고, 특히, Spark-Scala는 향 후 더욱 발전 확대될 기술이다.
인프라 모니터링을 위한 시스템을 구축하고 운영하는 데 있어, 다이내믹한 인프라 변화는 어려움으로 다가오고 있습니다.
본 세션에서는 인프라를 운영하는 팀 혹은 운영자 관점에서 바라본 미래 지향적 인프라 모니터링 시스템의 방향성과 이를 구현하기 위해 필요한 구성들을 공유하고자 합니다.
목차
1. NHN 모니터링의 현재
2. 모니터링의 변화
3. 모니터링 방법론
4. 모니터링 절차
5. NHN 모니터링의 미래
대상
- 인프라를 운영하는 시스템 엔지니어
- 인프라 모니터링 시스템에 관심이 있는 분
빅데이터 기술의 소프트웨어 공학 적용
1. 빅데이터 기술의 활용 사례 - 빅데이터 기술은 이미 많은 적용 사례를 가지고 있고, IoT 기술과 더불어 일상의 기술이 되어 가고 있다 (Pervasive & Invisible Analytics).
2. Spark 플랫폼 - 이전에 Hadoop으로 대표되는 빅데이터의 분산 처리 기술은 계속 발전하고 있고, Spark는 메모리 기반 데이터 처리로 기존 대비 성능을 10~100배 개선하였다. 특히, Spark는 Scala라는 함수형 언어로 구현되었고, 이전에 Java 기반의 빅데이터 처리 코드를 보다 명료하고 Compact하게 구현할 수 있다. 데이터 분석에는 Imperative 언어보다 함수형 언어가 보다 적합하다.
3. 소프트웨어 공학에서의 데이터 분석 사례 - 최근 Software Analytics, Repository Mining 등 데이터 분석 사례들이 있고, 최근 GitHub 이나 StackOverflow 분석과 같은 빅데이터 분석 연구들이 진행되고 있다.
4. Spark를 활용한 Word Count 예
5. Big Data Software Engineering - 큰 데이터 처리 외에도, 실시간 데이터 처리 (Velocity), 다양한 데이터 처리 (Variety) 부분에도 소프트웨어 공학 적용이 필요하다. 또한, Big Data Software를 Engineering하는 부분에도 관심이 필요하다. Big Data 분석 코드 역시 SE의 대상으로 바라보고, Test Driven Dev, Agile Methodology와 같은 개발 방법의 적용을 살펴볼 필요가 있다.
마지막으로, 현재 빅데이터 기술에 대한 진입 장벽은 많이 낮아졌고, 사용 가능한 오픈소스들이 많다. 소프트웨어 공학자라면 빅데이터 분석을 직접 시도해 볼 필요가 있고, 특히, Spark-Scala는 향 후 더욱 발전 확대될 기술이다.
인프라 모니터링을 위한 시스템을 구축하고 운영하는 데 있어, 다이내믹한 인프라 변화는 어려움으로 다가오고 있습니다.
본 세션에서는 인프라를 운영하는 팀 혹은 운영자 관점에서 바라본 미래 지향적 인프라 모니터링 시스템의 방향성과 이를 구현하기 위해 필요한 구성들을 공유하고자 합니다.
목차
1. NHN 모니터링의 현재
2. 모니터링의 변화
3. 모니터링 방법론
4. 모니터링 절차
5. NHN 모니터링의 미래
대상
- 인프라를 운영하는 시스템 엔지니어
- 인프라 모니터링 시스템에 관심이 있는 분
4. 4
Statistical Software (SAS & R)
Features STATA SPSS SAS R
Learning curve Steep/gradual Gradual/flat Pretty steep Pretty steep
Use interface Programming/
point-and-click
Mostly point-
and-click
Programming Programming
Data
manipulation
Very strong Moderate Very strong Very strong
Data analysis Powerful Powerful Powerful /
versatile
Powerful /
versatile
Graphics Very Good Very Good Good Excellent
Cost Affordable
(perpetual
licenses,
renew only
when upgrade)
Expensive(but
not need to
renew until
upgrade, long
term licenses)
Expensive
(yearly
renewal)
Open source
5. 5
Why R?
R vs SAS or SPSS
A key benefit of R is that it provides near instant availability of new and
experimental methods created by its user base — without waiting for the
development/release cycle of commercial software. SAS recognizes the
value of R to our customer base…”
- Michael Gilliland, Product Marketing Manager SAS Institute
6. 6
R의 장점
빠른 개발 및 활용
R의 장점 및 한계
2-3 년?
0-1 년?
7. 7
R의 한계?
R의 한계 및 전망
0-1 년?
?
R의 최대 수혜자는 통계/전산 전공자
생물, 의학 등 비전공자는?
8. 8
RExcel: R과 엑셀의 결합한 첫 번째 소프트웨어
MS word 2010, 2013 버전 지원
RExcel
9. 9
RExcel의 장점
엑셀을 활용하여 쉽게 통계 분석이 가능함.
RExcel의 단점
설치가 매우 어려움
메뉴의 구성이 직관적이지 않음
유료
RExcel
30. 31
REx 통계 분석 메뉴
기술
통계
그룹 비교 회귀분석 상관분석
범주형
자료 분석
분류 분석
차원
축소
시계열
분석
생존분석
데이터
요약
평균
비교
일표본 T 검정
선형회귀
분석
이변량
상관
분할표
분석
비지도
학습
K-평균
군집
요인분석
시계열
자료 탐색
생명표
독립표본 T
검정
가중선형
회귀분석
편상관
로그선형
분석
계층적 군집
대응일치
분석
지수평활법 Kaplan-Meier
대응표본 T
검정
편최소제곱 거리측도 DBSCAN
주성분
분석
ARIMA모형
Cox
비례위험모형
일원배치
분산분석
이분형
로지스틱
PAM 군집
GARCH
모형
다변량
분산분석
다항
로지스틱
지도
학습
의사결정
나무
비율
비교
일표본
비율검정
포아송
회귀분석
판별분석
이표본
비율검정
2-단계
최소제곱
K최근접
이웃기법
분산
비교
등분산검정
반복측정
회귀분석
SVM
다변량
회귀분석
분석메뉴
35. 36
REx 시계열분석 메뉴 – 지수평활법
지수평활법(Exponential Smoothing Method)
단변량 시계열을 수준(level), 추세(trend), 계절(seasonality)
성분의 조합으로 모형화 및 예측
주요 모형:
단순, 이중 지수평활법(single or double ESM)
Holt-Winters 계절 지수평활법 등
주요 제공 옵션:
모수 자동 추정
분해 도표 및 각종 도표 출력, 예측 신뢰구간 제공
주요 함수 구현: “forecast” package 사용
38. 39
REx 시계열분석 메뉴 – ARIMA 모형
ARIMA 모형
자기회귀 누적 이동평균(autoregressive integrated moving-
average) 모형
단변량 시계열을 ARIMA(p,d,q)(P,D,Q)s로 모형화 및 예측
주요 제공 옵션:
독립변수(외생변수) 도입 가능
ARIMA 차수 자동 선택
잔차진단 도표 제공
주요 함수 구현: “forecast” package 사용
41. 42
REx 시계열분석 메뉴 – GARCH 모형
GARCH 모형
일반화 자기회귀 조건부 이분산 모형(generalized
autoregressive conditional heteroscedastic model)
단변량 시계열의 조건부 이분산을 모형화 및 예측
주요 모형:
standard GARCH, integrated GARCH,
exponential GARCH, GJR GARCH, Threshold GARCH 등
주요 제공 옵션:
다양한 오차 분포 결합 가능: normal, t, GED 등
조건부 평균을 위한 ARMA 모형 및 분수 차분 도입 가능
독립변수(외생변수) 도입 가능
조건부 이분산의 예측도표 제공
주요 함수 구현: “rugarch” package 사용