11_통계 자료분석 입문

5,997 views
5,330 views

Published on

Published in: Education, Technology, Business
1 Comment
5 Likes
Statistics
Notes
No Downloads
Views
Total views
5,997
On SlideShare
0
From Embeds
0
Number of Embeds
25
Actions
Shares
0
Downloads
111
Comments
1
Likes
5
Embeds 0
No embeds

No notes for slide

11_통계 자료분석 입문

  1. 1. 통계, 자료분석 입문 김성익 noerror@softnette.com kasa발표자료 2011/06/25
  2. 2. 개요• 기초적인 통계, 자료분석 개념 정리• Why – 게임 서비스 시 체계적이고 신속한 유저 대응 을 위한 시스템 구성 – 통계 및 자료 분석 개념 사용되고 있음 • VSM, PCA이용한 DXT, MOTION GRAPH등등 – 그냥 일반 상식으로
  3. 3. 1. 통계 기본 개념들• 어떻게 측정치가 실제 값이 되는가?• 기술통계, 추측통계• 샘플링• 대표 값• 표준편차• 주성분 분석• 신뢰성, 타당성
  4. 4. 통계적 추측• 실제값 != 예측값• 예측 값을 실제 값으로 만드는 마법
  5. 5. 통계적 추측• 실제값 = 예측값 + 오차
  6. 6. 통계• 기술 통계 – 모든 정보로 집단 특성 조사 – 센서스 census 전수조사 – 모집단의 특성이 다양하게 분포되는 경우• 추측통계 – 모집단 가운데서 표본을 추출해서 모집단의 특성을 추측 – 샘플링
  7. 7. 샘플링• 설계 – 모집단 정의 – 샘플링 프레임 (목록, 기준) – 샘플링 방법 선택 • 확률적 샘플링 (순수 랜덤) – 단순 랜덤 샘플링 simple random sampling – 층화 샘플링 stratified sampling – 군집 샘플링 cluster sampling – 체계적 샘플링 systematic sampling • 비확률적 샘플링 (의도적으로 분류) – 편의 샘플링 convenience sampling – 판단 샘플링 judgement sampling – 쿼타 샘플링 quota sampling (vs cluster sampling) – 표본 수 결정 • 최대 허용 오차, 신뢰수준
  8. 8. 대표값• 모집단의 특성을 나타내는 값 – 평균 mean • 산술 평균 arithmetic mean – 중앙값 median • 데이터를 순서대로 나열한 데이터 중 가운데 값 (짝수면 가운데 두 수의 평균) – 최빈값 • 가장 많은 값
  9. 9. 표준편차• 평균으로는 데이터가 얼마나 흩어져 있는 지는 알 수 없다• 표준 편차 (s)• 분산 (s2) – 값이 작으면 데이터는 평균 주변에 모이지만, 크면 평 균에서 크게 벗어나는 성질 – (자유도)• 변동계수 coefficient of variation : CV – 평균에 대한 상대적 분산도 – 표준편차를 평균으로 나눈 값
  10. 10. 정규분포• 히스토그램 histogram 확률 밀도 함수 probability density function – 데이터 수 증가, 폭이 좁아지면• 정규분포 normal distribution – 종모양 – 중심극한정리 centeral limit theorem • 표본의 수가 많다면, 모집단의 실제 분포와 관계없이, 표본평균 의 표본분포는 정규분포를 따른다 • Lilliefores 검정 : 데이터가 정규분포를 따르는 지 검사
  11. 11. 정규분포• 정규분포는 다음의 특성을 가지고 있다
  12. 12. 표준정규분포• 즉, 평균과 표준 편차를 알면 데이터의 분 포도를 예측 할 수 있다
  13. 13. 응용 예 • VSM variance shadow map • Chebyshev 부등식 이용 – 분산이용, occlusion 정도를 구함http://www.punkuser.net/vsm/
  14. 14. 주성분 분석• 주성분 분석 principal component analysis• 고유값 eigenvalue• 의미 있는 개념의 수만큼 의미 있는 주성 분이 추출
  15. 15. 주성분 분석 응용 예 • DXT 압축 알고리즘 – PCA축을 이용하여 블록의 두 지점 결정 – 각 픽셀은 두 점 사이의 블랜드 값 • 애니메이션 그래프 – 복잡한 모션을 특성 몇 개로 대표 – 모션 탐색 시 사용http://www.slideshare.net/noerror/dxtcompressionhttp://www.gdcvault.com/play/1705/Momentum-vs-Character
  16. 16. 신뢰성• 신뢰성 reliability 측정 – 재검사 – 반분법• 내적 일관성 측정 – 측정값의 분산에서 실제 값의 분산이 차지하는 비율 – 크론바흐 알파 Cronbach’s alpha • 값이 클수록 신뢰성이 높다 – 신뢰성 있는 크론바하 알파는 얼마 이상 ??? 0.7 ??? Nunnally(1978)
  17. 17. 타당성• 타당성 Validity – 기준 타당성 – 내용 타당성 – 개념 타당성
  18. 18. 2. 자료분석• 모수 분석 / 비모수 분석• 상관 관계 분석• 로지스틱 회귀 분석• 분산 분석• 요인 분석• 군집 분석
  19. 19. 자료분석• 모수 분석 parametric analysis – 모수(평균, 분산 등)를 이용하여 추측 – 자료가 정규 분포를 따른다 • 중심극한정리• 비모수 분석 nonparametric analysis – 분포와 무관한 방법 – 도수 frequency, 부호 sign, 순위 rank 등의 통계량 으로 분석
  20. 20. 상관 관계 분석• 종속 변수(반응변수) Y와 독립변수(설명변수) X사이의 연관성을 파 악• 연관도 측정 – 공분산 • 선형 관계 방향 유무 (관계 정도는 알 수 없음) – 상관 계수 • 표준화된 공분산 • 방향과 퍼진 정도
  21. 21. 단순 회귀 분석• 회귀분석 regression analysis – 다른 변수의 값이 어떻게 변할 것인지를 예측• 두 변수 사이에 존재하는 상호의존 관계를 함 수 관계로 표현 – 모 회귀 방정식 population regression equation E(Yi) = α + β xi – 표본자료를 이용 α, β 를 추정 • 최소제곱법 least square method• 잔차 residual – 예측한 값과 측정한 값의 차이(오차, 개별성)
  22. 22. 단순 회귀 분석• 총변동 – SST = 회귀제곱합 SSR + 잔차제곱합 SSE• 결정계수(r2) coefficient of determination – SSR / SST = 1 – SSE / SST – 잔차가 작을 수록 결정계수가 커진다 – 결정계수 0.7 = 70%로 회귀식을 설명할 수 있 다• 상관 계수(r) coefficient of correlation
  23. 23. 단순 회귀 분석• F 검점 – 회귀 모형을 사용할 것인지 검정 • F가 1보다 충분히 커야 한다 – F = MSR / MSE • MSR (mean square regression) <- 회귀변동 • MSE (mean square error) <- 평균 잔차변동 • 자유도• t 검정 – 독립 변수와 종속 변수의 관계의 유의미성 • T값이 유의 값 보다 크다면 유의미• 잔차 분석 residual analysis – 잔차가 서로 무관해야 함 (상관성 X) – 거빈 와트슨 통계량 Durbin-Watson statistic
  24. 24. 다중 회귀 분석• 한 개의 종속 변수와 여러 개의 독립변수의 관계를 분석• 회귀 방정식 Yi = α + β1x1i + β2 x2i + .. + ei• 다중 공선성 multicollinearity – 독립 변수들 사이의 상호의존도가 높으면 회귀계 수의 부호가 바뀌거나 0에 가까운 값으로 나타남 – 분산확대인자 Variance inflation factor • 클수록 다중 공선성이 심하다 – 상관 관계가 높은 변수들 중 하나만 남기고 나머 지 변수들은 모형에서 제거
  25. 25. 다중 회귀 분석• 적합성 검정 – 전반 검정 – 부분 검정 • 다중 공선성 문제를 해결하기 위해 추가적인 검정 절차 필요 • 독립변수 각각의 회귀계수에 대해 유의성 검정
  26. 26. 로지스틱 회귀 분석• 자료가 두 그룹으로 나누어진 상황에서, 두 그룹이 구분되는 특성을 파악하여 다른 어떤 데이터가 어느 그룹에 속하는 지 예측• 오즈 (odds) – 그룹 1에 속할 확률 / 그룹 2에 속할 확률 • 그룹 1에 속할 확률 p • 오즈 = p / (1-p)• 로그 오즈 – 오즈에 로그를 취한 값 – 로그오즈 = ln( p / (1-p) ) – 로지스틱 회귀 모형 = α + β1x1i + β2 x2i + ..• 로지스틱 회귀 방정식 – p = 1 / (1 + exp[ - (α + β1x1i + β2 x2i + ..) ] ) – 최대우도법 maximum likelihood method 으로 추정
  27. 27. 분산 분석• ANOVA analysis of variance – 두 개 이상으로 구성된 그룹의 평균을 비교하 는 목적의 분산 – 평균의 정확성 측정• 단일 요일 분산 분석 one way ANOVA• 2요인 분산 분석 two way ANOVA
  28. 28. 요인분석• 측정 변수들의 상호 의존 관계를 나타낼 수 있도록 만드는 새로운 변수• 탐색적 요인분석 확증적 요인분석• 초기 요인 추출 – 주성분 분석 principal component analysis – 반복된 주성분 분석 iterated principal component – 최대우도법 maximum likelihood method• 요인 다이어그램 – 요익 적재값을 그래프를 그려서 시각화• 요인 회전 factor rotation – 직교 회전 orthogonal rotation • 배리맥스 회전 varimax rotation – 사각 회전 oblique rotation • 비직교회전 non-orthogonal rotation
  29. 29. 군집분석• 데이터의 군집을 분류• 프로파일 다이어그램• 두 점간의 거리 – 유클리디안 거리 – 절대차이• 두 군집간의 거리 – 중심 연결법, 단일 연결법, 완전 연결법, 평균 연 결법, …• 계층적 군집화 – 응집법, 분리법 비계층적 군집화 – k 평균 군집화
  30. 30. 3. 통계적 추측• 기본 – 어떤 가설을 참이라고 가정 – 일어날 가능성이 희박한 표본 평균값에 대한 수준을 정함 – 표본 자료를 통해 계산된 표본 평균이 그 수준 을 벗어나면 – 참이라고 가정한 그 가설은 기각
  31. 31. 통계적 가설• 귀무가설(H0) nullhypothesis – 일반적으로 인정하는 가설 – 주장하고자 하는 가설의 반대• 대립가설(H1) alternative hypothesis – 일반적으로 주장하고자 하는 가설 – 귀무 가설의 반대 (대립)• 결론적으로 귀무 가설을 기각시켜서 대립 가설을 주장하는 로직• 결론 해석 – 가설이 참이다 X – 가설을 기각할만한 충분한 이유가 없다 (O) • 유의 수준• 1종 오류 – 귀무가설이 진실임에도 불구하고 귀무가설을 기각하고 대립가설을 채택하는 경우• 2종 오류 – 귀무가설이 진실이 아님에도 불구하고 귀무가설을 채택하는 경우
  32. 32. 통계적 절차• 유의 수준, 귀무가설, 대립 가설 설정• 검정 통계량 결정• 기각역 결정• 검정 통계량의 계산• 통계적 의사 결정
  33. 33. 질문/답• 감사합니다

×