뉴스젤리 6번째 기사 '12월의 어느 날, 10년의 크리스마스' 제작과정 스토리입니다. 다양한 데이터 분석을 통해, 보기 쉬운 인포그래픽으로 나타낸 보기 좋은 뉴스입니다.
http://newsjel.ly
1. 주제선정배경
2. 기사발행목적
3. 키워드선정
4. 데이터 수집, 분석
5. 스토리라인, 디자인
6. 발행
7. 제작진 인터뷰
8. 다음 기사 예고
9. 다른 뉴스젤리 기사
뉴스젤리 7번째 기사 <음주>, 그리고 8번째 기사 <청말띠>
그 제작 과정을 세세하게 알아보는 시간!!
뉴스젤리 메이킹 스토리 2. http://newsjel.ly
< 진짜 우리나라는 술을 많이 먹는 나라일까? >
연말 연시면 어김 없이 등장하는 술자리..
주제를 선택해서 분석해보자!
Data Driven Approach
- 어떤 데이터를 가지고 올 것인가?
- 데이터 수집은 어떻게 : 공공데이터
- WHO, OECD
- 공공데이터 속의 우리의 모습
- 데이터 수집은 어떻게 : 소셜데이터
- 소셜데이터 속의 우리의 모습
Visual Storytelling
- 어떻게 디자인하지?
- 디자인 과정
- 한국은 술을 많이 마시는 나라일까?
< 새해맞이 특집기사 왜 다 똑같을까? >
분별력 없는 신년 기사
어떤 이야기를 하면 재밌을까?
- 청마 전에는, 백마와 흑마가 있었다
- 자료 수집
- 어떻게 보여줄 것인가?
- 팔자 센 말띠? 2014년 청말띠를 주목하라
형태소분석기에 왜 CRF가 쓰이는지 이해하기 위해 정리한 슬라이드입니다. Graphical Models의 필요성부터 시작해 방향성(Bayesian Networks), 비방향성(Markov Random Fields) Graphical Models의 정의와 조건부독립 성질을 살펴보고, Generative와 Discriminative 모델의 차이점을 정리한 뒤 Discriminative + Undirected 모델로서 Conditional Random Fields를 소개합니다. 끝으로 형태소분석에 CRF를 사용하는 테크닉을 간단히 소개합니다.
Statistics for psychology, Inferential Statistics and Hypothesis TestingMinyeong Seo
Chapter 3. Some Key Ingredients for Inferential Statistics
- Z Scores, the Normal Curve, Sample versus Population, and Probability
Chapter 4. Introduction to Hypothesis Testing
- basic logic for analyzing results of a research study to test a hypothesis
6. 통계
• 기술 통계
– 모든 정보로 집단 특성 조사
– 센서스 census 전수조사
– 모집단의 특성이 다양하게 분포되는 경우
• 추측통계
– 모집단 가운데서 표본을 추출해서 모집단의
특성을 추측
– 샘플링
7. 샘플링
• 설계
– 모집단 정의
– 샘플링 프레임 (목록, 기준)
– 샘플링 방법 선택
• 확률적 샘플링 (순수 랜덤)
– 단순 랜덤 샘플링 simple random sampling
– 층화 샘플링 stratified sampling
– 군집 샘플링 cluster sampling
– 체계적 샘플링 systematic sampling
• 비확률적 샘플링 (의도적으로 분류)
– 편의 샘플링 convenience sampling
– 판단 샘플링 judgement sampling
– 쿼타 샘플링 quota sampling (vs cluster sampling)
– 표본 수 결정
• 최대 허용 오차, 신뢰수준
8. 대표값
• 모집단의 특성을 나타내는 값
– 평균 mean
• 산술 평균 arithmetic mean
– 중앙값 median
• 데이터를 순서대로 나열한 데이터 중 가운데 값
(짝수면 가운데 두 수의 평균)
– 최빈값
• 가장 많은 값
9. 표준편차
• 평균으로는 데이터가 얼마나 흩어져 있는 지는 알
수 없다
• 표준 편차 (s)
• 분산 (s2)
– 값이 작으면 데이터는 평균 주변에 모이지만, 크면 평
균에서 크게 벗어나는 성질
– (자유도)
• 변동계수 coefficient of variation : CV
– 평균에 대한 상대적 분산도
– 표준편차를 평균으로 나눈 값
10. 정규분포
• 히스토그램 histogram
확률 밀도 함수 probability density function
– 데이터 수 증가, 폭이 좁아지면
• 정규분포 normal distribution
– 종모양
– 중심극한정리 centeral limit theorem
• 표본의 수가 많다면, 모집단의 실제 분포와 관계없이, 표본평균
의 표본분포는 정규분포를 따른다
• Lilliefores 검정 : 데이터가 정규분포를 따르는 지 검사
13. 응용 예
• VSM variance shadow map
• Chebyshev 부등식 이용
– 분산이용, occlusion 정도를 구함
http://www.punkuser.net/vsm/
14. 주성분 분석
• 주성분 분석 principal component analysis
• 고유값 eigenvalue
• 의미 있는 개념의 수만큼 의미 있는 주성
분이 추출
15. 주성분 분석 응용 예
• DXT 압축 알고리즘
– PCA축을 이용하여 블록의 두 지점 결정
– 각 픽셀은 두 점 사이의 블랜드 값
• 애니메이션 그래프
– 복잡한 모션을 특성 몇 개로 대표
– 모션 탐색 시 사용
http://www.slideshare.net/noerror/dxtcompression
http://www.gdcvault.com/play/1705/Momentum-vs-Character
16. 신뢰성
• 신뢰성 reliability 측정
– 재검사
– 반분법
• 내적 일관성 측정
– 측정값의 분산에서 실제 값의 분산이 차지하는 비율
– 크론바흐 알파 Cronbach’s alpha
• 값이 클수록 신뢰성이 높다
– 신뢰성 있는 크론바하 알파는 얼마 이상 ???
0.7 ??? Nunnally(1978)
18. 2. 자료분석
• 모수 분석 / 비모수 분석
• 상관 관계 분석
• 로지스틱 회귀 분석
• 분산 분석
• 요인 분석
• 군집 분석
19. 자료분석
• 모수 분석 parametric analysis
– 모수(평균, 분산 등)를 이용하여 추측
– 자료가 정규 분포를 따른다
• 중심극한정리
• 비모수 분석 nonparametric analysis
– 분포와 무관한 방법
– 도수 frequency, 부호 sign, 순위 rank 등의 통계량
으로 분석
20. 상관 관계 분석
• 종속 변수(반응변수) Y와 독립변수(설명변수) X사이의 연관성을 파
악
• 연관도 측정
– 공분산
• 선형 관계 방향 유무 (관계 정도는 알 수 없음)
– 상관 계수
• 표준화된 공분산
• 방향과 퍼진 정도
21. 단순 회귀 분석
• 회귀분석 regression analysis
– 다른 변수의 값이 어떻게 변할 것인지를 예측
• 두 변수 사이에 존재하는 상호의존 관계를 함
수 관계로 표현
– 모 회귀 방정식 population regression equation
E(Yi) = α + β xi
– 표본자료를 이용 α, β 를 추정
• 최소제곱법 least square method
• 잔차 residual
– 예측한 값과 측정한 값의 차이(오차, 개별성)
22. 단순 회귀 분석
• 총변동
– SST = 회귀제곱합 SSR + 잔차제곱합 SSE
• 결정계수(r2) coefficient of determination
– SSR / SST = 1 – SSE / SST
– 잔차가 작을 수록 결정계수가 커진다
– 결정계수 0.7 = 70%로 회귀식을 설명할 수 있
다
• 상관 계수(r) coefficient of correlation
23. 단순 회귀 분석
• F 검점
– 회귀 모형을 사용할 것인지 검정
• F가 1보다 충분히 커야 한다
– F = MSR / MSE
• MSR (mean square regression) <- 회귀변동
• MSE (mean square error) <- 평균 잔차변동
• 자유도
• t 검정
– 독립 변수와 종속 변수의 관계의 유의미성
• T값이 유의 값 보다 크다면 유의미
• 잔차 분석 residual analysis
– 잔차가 서로 무관해야 함 (상관성 X)
– 거빈 와트슨 통계량 Durbin-Watson statistic
24. 다중 회귀 분석
• 한 개의 종속 변수와 여러 개의 독립변수의
관계를 분석
• 회귀 방정식
Yi = α + β1x1i + β2 x2i + .. + ei
• 다중 공선성 multicollinearity
– 독립 변수들 사이의 상호의존도가 높으면 회귀계
수의 부호가 바뀌거나 0에 가까운 값으로 나타남
– 분산확대인자 Variance inflation factor
• 클수록 다중 공선성이 심하다
– 상관 관계가 높은 변수들 중 하나만 남기고 나머
지 변수들은 모형에서 제거
25. 다중 회귀 분석
• 적합성 검정
– 전반 검정
– 부분 검정
• 다중 공선성 문제를 해결하기 위해 추가적인 검정
절차 필요
• 독립변수 각각의 회귀계수에 대해 유의성 검정
26. 로지스틱 회귀 분석
• 자료가 두 그룹으로 나누어진 상황에서, 두 그룹이 구분되는
특성을 파악하여 다른 어떤 데이터가 어느 그룹에 속하는 지
예측
• 오즈 (odds)
– 그룹 1에 속할 확률 / 그룹 2에 속할 확률
• 그룹 1에 속할 확률 p
• 오즈 = p / (1-p)
• 로그 오즈
– 오즈에 로그를 취한 값
– 로그오즈 = ln( p / (1-p) )
– 로지스틱 회귀 모형 = α + β1x1i + β2 x2i + ..
• 로지스틱 회귀 방정식
– p = 1 / (1 + exp[ - (α + β1x1i + β2 x2i + ..) ] )
– 최대우도법 maximum likelihood method 으로 추정
27. 분산 분석
• ANOVA analysis of variance
– 두 개 이상으로 구성된 그룹의 평균을 비교하
는 목적의 분산
– 평균의 정확성 측정
• 단일 요일 분산 분석 one way ANOVA
• 2요인 분산 분석 two way ANOVA
28. 요인분석
• 측정 변수들의 상호 의존 관계를 나타낼 수 있도록 만드는 새로운
변수
• 탐색적 요인분석
확증적 요인분석
• 초기 요인 추출
– 주성분 분석 principal component analysis
– 반복된 주성분 분석 iterated principal component
– 최대우도법 maximum likelihood method
• 요인 다이어그램
– 요익 적재값을 그래프를 그려서 시각화
• 요인 회전 factor rotation
– 직교 회전 orthogonal rotation
• 배리맥스 회전 varimax rotation
– 사각 회전 oblique rotation
• 비직교회전 non-orthogonal rotation
29. 군집분석
• 데이터의 군집을 분류
• 프로파일 다이어그램
• 두 점간의 거리
– 유클리디안 거리
– 절대차이
• 두 군집간의 거리
– 중심 연결법, 단일 연결법, 완전 연결법, 평균 연
결법, …
• 계층적 군집화 – 응집법, 분리법
비계층적 군집화 – k 평균 군집화
30. 3. 통계적 추측
• 기본
– 어떤 가설을 참이라고 가정
– 일어날 가능성이 희박한 표본 평균값에 대한
수준을 정함
– 표본 자료를 통해 계산된 표본 평균이 그 수준
을 벗어나면
– 참이라고 가정한 그 가설은 기각
31. 통계적 가설
• 귀무가설(H0) nullhypothesis
– 일반적으로 인정하는 가설
– 주장하고자 하는 가설의 반대
• 대립가설(H1) alternative hypothesis
– 일반적으로 주장하고자 하는 가설
– 귀무 가설의 반대 (대립)
• 결론적으로 귀무 가설을 기각시켜서 대립 가설을 주장하는 로직
• 결론 해석
– 가설이 참이다 X
– 가설을 기각할만한 충분한 이유가 없다 (O)
• 유의 수준
• 1종 오류
– 귀무가설이 진실임에도 불구하고 귀무가설을
기각하고 대립가설을 채택하는 경우
• 2종 오류
– 귀무가설이 진실이 아님에도 불구하고
귀무가설을 채택하는 경우
32. 통계적 절차
• 유의 수준, 귀무가설, 대립 가설 설정
• 검정 통계량 결정
• 기각역 결정
• 검정 통계량의 계산
• 통계적 의사 결정