SlideShare a Scribd company logo
1 of 48
Date _ 2017.08.01
SESSION # 05
By Team 5
@ Clare, Jinny, Mike
ⓒ 2017. SNU Growth Hackers all rights reserved
가설과 추론
ⓒ 2017. SNU Growth Hackers all rights reserved
Intro 검정과 추론의 예시
< 가설과 추론 >SESSION # 05
model mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21 6 160 110 3.9 2.62 16.46 0 1 4 4
Mazda RX4 Wag 21 6 160 110 3.9 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.32 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.44 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3.46 20.22 1 0 3 1
Duster 360 14.3 8 360 245 3.21 3.57 15.84 0 0 3 4
Merc 240D 24.4 4 146.7 62 3.69 3.19 20 1 0 4 2
Merc 230 22.8 4 140.8 95 3.92 3.15 22.9 1 0 4 2
Merc 280 19.2 6 167.6 123 3.92 3.44 18.3 1 0 4 4
Merc 280C 17.8 6 167.6 123 3.92 3.44 18.9 1 0 4 4
정말 독일 차종은 일본 차종보다 성능이 좋을까?
소형 차종 간의 연비 편차는
고려해야 될 만큼 클까?
마력과 제로백 사이의 연관성은?
전체 차종의 배기량 평균은 얼마나 될까?
ⓒ 2017. SNU Growth Hackers all rights reserved
CONTENTS
01 오늘의 목표
02
• 평균과 사분위수, 분산 및 표준편차
• 공분산과 상관계수
• 질량함수와 밀도함수
03 분포의 종류와 사례
05 논문에서 활용된 가설검정의 과정
통계의 기초 개념
04 가설의 이해
• 가설의 검정
• 추정 및 추론
06 결론
Intro 검정과 추론의 예시
ⓒ 2017. SNU Growth Hackers all rights reserved
Intro (굳이) 가설을 왜 설정하고 검증할까?
< 가설과 추론 >SESSION # 05
ⓒ 2017. SNU Growth Hackers all rights reserved
통계 개념과 용어 (간명하게) 이해하기
01
< 가설과 추론 >SESSION # 05
오늘의 목표
가설을 설정하고 검증하는 과정에 익숙해지기
ⓒ 2017. SNU Growth Hackers all rights reserved
중심화 경향(central tendency)
02 통계의 기초개념
< 가설과 추론 >SESSION # 05
정의
중심화 경향
데이터 분포의 위치를 나타내는 대푯값
단점: 분포 형태가 한쪽으로 치우쳐 있
거나, 이상값(outlier)이 있으면 영향을
크게 받음
평균 average, mean
ⓒ 2017. SNU Growth Hackers all rights reserved
02 통계의 기초개념
< 가설과 추론 >SESSION # 05
중앙값(median)
데이터를 순서대로 나열할 때
가운데에 위치한 값
사분위수(Quartile)
자료를 크기 순으로 배열하고,
누적 백분율을 4 등분한 각 점에 해당
하는 값을 말한다
cf. 백분위수(percentile)는 %로 표현
중앙값
사분위수
중앙값과 사분위수
중심화 경향(central tendency)
ⓒ 2017. SNU Growth Hackers all rights reserved
사분위수
02 통계의 기초개념
< 가설과 추론 >SESSION # 05
ⓒ 2017. SNU Growth Hackers all rights reserved
Dispersion
02 통계의 기초개념
< 가설과 추론 >SESSION # 05
분포의 산포를 나타내는 대푯값
모분산 σ2
표본분산 s2
표준편차
Sqrt(분산)
분산과 표준편차
ⓒ 2017. SNU Growth Hackers all rights reserved
다변량 통계분석 지표
02 통계의 기초개념
< 가설과 추론 >SESSION # 05
공분산 covariance
두 변수의 관계를 나타내는 양(量)
공분산이 양(+)이면 ‘정의 상관관계’
단점: 변수의 단위에 영향을 받기
때문에 다른 데이터와 비교 시 불편함
ⓒ 2017. SNU Growth Hackers all rights reserved
다변량 통계분석 지표
02 통계의 기초개념
< 가설과 추론 >SESSION # 05
상관계수
표준화된 공분산
공분산은 각 변량의 단위에
의존하여 변동 크기량이 모호하다
공분산을 각 변량의 표준편차로
나누어 표준화 한 값이 상관계수
항상 -1≤ r(상관계수) ≤1 만족
ⓒ 2017. SNU Growth Hackers all rights reserved
상관계수
02 통계의 기초개념
< 가설과 추론 >SESSION # 05
0에 가까울수록 선형관계가 약함 / 상관계수= 0 일 경우 변수간의 선형관계 없음
단, 비선형 관계를 가질 수 있기에 그래프 분석 병행 필요
ⓒ 2017. SNU Growth Hackers all rights reserved
질량함수와 밀도함수
02 통계의 기초개념
< 가설과 추론 >SESSION # 05
질량함수 : 이산형 밀도함수 : 연속형
ⓒ 2017. SNU Growth Hackers all rights reserved
누적분포함수 비교
02 통계의 기초개념
< 가설과 추론 >SESSION # 05
ⓒ 2017. SNU Growth Hackers all rights reserved
분포란?
03. 분포의 종류와 사례
ⓒ 2017. SNU Growth Hackers all rights reserved
분포의 종류
03 분포의 종류와 사례
< 가설과 추론 >SESSION # 05
ⓒ 2017. SNU Growth Hackers all rights reserved
분포의 종류
< 가설과 추론 >SESSION # 05
03 분포의 종류와 사례
정규분포
σ를 아는 경우,
모평균에 대한 추정과 검정
두 모평균의 차이에 대한 추정과 검정
σ를 모르는 경우에도,
표본의 크기가 크면(n>=30)
모평균과 모평균 차이에 대한
추정과 검정 가능
ⓒ 2017. SNU Growth Hackers all rights reserved
분포의 종류
< 가설과 추론 >SESSION # 05
03 분포의 종류와 사례
독립적인 확률변수들의 평균은 정규분포에 가까워진다!
ⓒ 2017. SNU Growth Hackers all rights reserved
분포의 종류
< 가설과 추론 >SESSION # 05
정규분포의 표준화
03 분포의 종류와 사례
표준정규분포
N(0, 1) 즉 평균값은 0, 분산은 1
ⓒ 2017. SNU Growth Hackers all rights reserved
분포의 종류
< 가설과 추론 >SESSION # 05
T 분포
σ를 모르는 경우,
모평균에 대한 추정과 검정
모평균 차이에 대한 추정과 검정에 활용
상관유무 검정
t검정을 실시하기에 앞서 두 표본집단의
분산이 같은지(등분산) 다른지(이분산)
판단이 필요함
03 분포의 종류와 사례
ⓒ 2017. SNU Growth Hackers all rights reserved
분포의 종류
< 가설과 추론 >SESSION # 05
𝛘2 분포
모분산에 관한 추정과 검정
분할표에 의한 독립성 검정
03 분포의 종류와 사례
ⓒ 2017. SNU Growth Hackers all rights reserved
분포의 종류
< 가설과 추론 >SESSION # 05
F 분포
두 모분산 차이에 관한
추정과 검정
(등분산,이분산)
분산분석표에서
요인에 관한
유의성 검정
03 분포의 종류와 사례
ⓒ 2017. SNU Growth Hackers all rights reserved
분포의 예시
< 가설과 추론 >SESSION # 05
03 분포의 종류와 사례
Really??
ⓒ 2017. SNU Growth Hackers all rights reserved
귀무가설과 대립가설
4. 가설의 이해
ⓒ 2017. SNU Growth Hackers all rights reserved
오류와 p-value
< 가설과 추론 >SESSION # 05
04 가설의 이해
P-value: 귀무가설 H0가 참일 때 관찰된 표본의 검정 통계량 결과가 나타날 확률
ⓒ 2017. SNU Growth Hackers all rights reserved
오류와 p-value
< 가설과 추론 >SESSION # 05
04 가설의 이해
제 1종 오류(False Positive): H0가 사실임에도 기각하는 오류
제 2종 오류(False Negative): H0가 사실이 아님에도 유보(채택)하는 오류
// 제 1종 오류를 줄이기 위해 유의 수준 α를 줄이는 방법이 있다.
그러나 이 때 2종 오류 확률이 증가하여 검정력이 감소하게 된다.
// 검정력을 확보하기 위해서는 표본 크기를 늘려 분산을 감소시켜야 한
다.
ⓒ 2017. SNU Growth Hackers all rights reserved
오류와 p-value
< 가설과 추론 >SESSION # 05
04 가설의 이해
Theta 0 Theta 1
Observing A
H0
A is not Terrorist
199,890,010 99,990 199,990,000
H1
A is Terrorist
9,990 10 10,000
199,900,000 100,000
ⓒ 2017. SNU Growth Hackers all rights reserved
가설의 검정
< 가설과 추론 >SESSION # 05
04 가설의 이해
ⓒ 2017. SNU Growth Hackers all rights reserved
가설의 검정: 가설검정의 종류 (모평균)
< 가설과 추론 >SESSION # 05
04 가설의 이해
검정 방법 검정 방법
모평
균검
정
모분산을
아는 경우
정규분포를
활용하여 검
정
모평균
차이
검정
각 표본의 모분
산을 아는 경우
정규분포를
활용하여 검
정
모분산을
모르는 경
우
t- 분포를
활용하여 검
정
각 표본의 모분
산을 모르는 경
우
t- 분포를
활용하여 검
정
// ‘모분산을 아는 경우’는 표본이 매우 커서
중심극한법칙으로 정규분포를 가정할 수 있는 경우도 포함합니다.
ⓒ 2017. SNU Growth Hackers all rights reserved
가설의 검정: 가설검정의 종류 (모분산, 모비율)
< 가설과 추론 >SESSION # 05
04 가설의 이해
검정 방법 검정 방법
모분
산 검
정
단일 표본에서
모분산의 검정
𝛘2 분포를 활
용하여 검
정
모비
율 검
정
단일 표본에서
모비율의 검정
정규분포를
활용하여 검
정
두 표본에서
모분산 비율의
검정
F- 분포를
활용하여
검정
두 표본에서
모비율 차의 검정
정규분포를
활용하여 검
정
ⓒ 2017. SNU Growth Hackers all rights reserved
가설의 검정
예시 1 : 정규분포에서의 검정
< 가설과 추론 >SESSION # 05
04 가설의 이해
모평균은 100일까요?
No(H1) or Yes(H0)!
모평균이 100이 아니라는 대립가
설
300개의 표본을 추출함
ⓒ 2017. SNU Growth Hackers all rights reserved
가설의 검정
예시 1 : F- 분포에서의 검정
< 가설과 추론 >SESSION # 05
04 가설의 이해
ⓒ 2017. SNU Growth Hackers all rights reserved
추정 및 추론
추정 : 구간 추정의 방식
< 가설과 추론 >SESSION # 05
04 가설의 이해
ⓒ 2017. SNU Growth Hackers all rights reserved
< 가설과 추론 >SESSION # 05
04 가설의 이해
ⓒ 2017. SNU Growth Hackers all rights reserved
추정: 추정의 종류 (모평균)
< 가설과 추론 >SESSION # 05
04 가설의 이해
// ‘모분산을 아는 경우’는 표본이 매우 커서
큰 수의 법칙으로 정규분포를 가정할 수 있는 경우도 포함합니다.
추정 방법 추정 방법
모평
균 추
정
모분산을
아는 경우
정규분포를
활용하여 추
정
모평균
차 추
정
각 표본의 모분
산을 아는 경우
정규분포를
활용하여 추
정
모분산을
모르는 경
우
t- 분포를
활용하여 추
정
각 표본의 모분
산을 모르는 경
우
t- 분포를
활용하여 추
정
ⓒ 2017. SNU Growth Hackers all rights reserved
추정: 추정의 종류 (모분산, 모비율)
< 가설과 추론 >SESSION # 05
04 가설의 이해
추정 방법 추정 방법
모분
산의
추정
단일 표본에서
모분산의 추정
𝛘2 분포를
활용하여
추정
모비율의
추정
단일 표본에서
모비율의 추정
정규분포를
활용하여 추정
두 표본에서
모분산 비율의
추정
F- 분포를
활용하여
추정
두 표본에서
모비율 차의 추정
정규분포를
활용
(식은..
생략합니다..)
ⓒ 2017. SNU Growth Hackers all rights reserved
지금은 하지 않지만
나중에 하게 될 일들
< 가설과 추론 >SESSION # 05
04 가설의 이해
● K-NN 알고리즘: 표본 내의 항목에 가장 가까이 있는 데이터들을 바탕으로
추론
● 나이브베이즈 분류: 서로 독립인 분류 사이의 확률/통계 모델
● 회귀분석을 통한 추론: 두 표본 사이의 연관도와 모형 추론
● 그 외의 많은 일들
ⓒ 2017. SNU Growth Hackers all rights reserved
논문을 읽어 봅시다 
< 가설과 추론 >SESSION # 05
05 논문에서 활용된 가설검정의 과정
ⓒ 2017. SNU Growth Hackers all rights reserved
가설과 추론 요약
< 가설과 추론 >SESSION # 05
06 결론
1)표본 자료의 중심값: 평균, 중앙값
2)표본 자료의 편차: 4분위수, 분산, 표준편차
3)표본 자료의 모양: 분포
4)(일정한 모양을 가정한 상태에서) 검정 & 추정
ⓒ 2017. SNU Growth Hackers all rights reserved
Dataset
소개
< 가설과 추론 >SESSION # 05
오늘의 Quest
- R에서 가져 온 mtcars.csv
[Motor Trend Car Road Test]
- Motor Trend US magazine에서 추출
- 관측치 32개, 11개 변수
ⓒ 2017. SNU Growth Hackers all rights reserved
Dataset
11개 변수
< 가설과 추론 >SESSION # 05
Quest 17.08.01
- mpg : 연비 (Miles per gallon)
- cyl : 기통 (# of cylinders)
- disp : 배기량 (Displacement (cu.in.))
- hp : 마력 (Gross horsepower)
- drat : 후방 차축 비율 (Rear axle ratio)
- wt : 중량 (Weight (1000 lbs))
- qsec : ¼ 마일 도달 시간 (¼ mile time)
- vs : V/S (0 = V 엔진, 1 = S 엔진)
- am : 자동/수동 (0 = 자동, 1 = 수동)
- gear : 기어 수 (# of forward gears)
- carb : 기화기 수 (# of carburetors)
[https://goo.gl/S1KXeZ]
ⓒ 2017. SNU Growth Hackers all rights reserved
Quest
도움 지식
< 가설과 추론 >SESSION # 05
•SciPy 모듈
- 과학계산을 위해 만들어진 라이브러리
- Linear Algebra, Clustering Algorithm,
Statistics, ……
- 기본 자료형은 NumPy의 다차원 배열
(multi-dimensional array)
- 통계는 서브패키지인 scipy.stat 활용
[https://goo.gl/1yUH4y]
Quest 17.08.01
ⓒ 2017. SNU Growth Hackers all rights reserved
Quest
도움 지식
< 가설과 추론 >SESSION # 05
Quest 17.08.01
•NumPy를 통해 데이터를 ndarray로!
ⓒ 2017. SNU Growth Hackers all rights reserved
Quest
도움 지식
< 가설과 추론 >SESSION # 05
Quest 17.08.01
•NumPy를 통해 데이터를 ndarray로!
ⓒ 2017. SNU Growth Hackers all rights reserved
Quest
도움 지식
< 가설과 추론 >SESSION # 05
Quest 17.08.01
scipy.stat
- scipy.stat.fligner(x, y) : x, y 사이 등분산성 검정
[이 외에 등분산성 검정 함수 有]
- scipy.ttest_ind(x, y, eqvar) : 독립성 가정
x, y 사이 모평균 동일성 검정
[eqvar = True이면 등분산, 아니면 이분산]
ⓒ 2017. SNU Growth Hackers all rights reserved
Quest
도움 지식
< 가설과 추론 >SESSION # 05
scipy.stat
- scipy.stat.fligner(x, y) : x, y 사이 등분산성 검정
[이 외에 등분산성 검정 함수 有]
- scipy.ttest_ind(x, y, eqvar) : 독립성 가정
x, y 사이 모평균 동일성 검정
[eqvar = True이면 등분산, 아니면 이분산]
※ x, y는
어떤 자료형?
Quest 17.08.01
ⓒ 2017. SNU Growth Hackers all rights reserved
< 가설과 추론 >SESSION # 05
Quest 17.08.01
1. NumPy와 SciPy를 활용하여 csv 파일을 받아
입력 변수에 따라 t 검정 등 메소드 정의한 클래스 작성
(첫 행이 각 column 이름, 다음 행부터 값. 전처리 완료 가정)
※어려운 경우 클래스 정의 없이 바로 분석
2. mtcars.csv 통해 도출할 수 있는 문장 4개 서술
(t 검정 등 활용 / 가설과 검정, 추론)
Quest
문제
ⓒ 2017. SNU Growth Hackers all rights reserved
Thank you !

More Related Content

Similar to 170801 hypothesis

[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )Seung-Woo Kang
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링BOAZ Bigdata
 
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best PracticesPAP (Product Analytics Playground)
 
[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best PracticesBokyung Choi
 
빅데이터 분석을 위한 하이퍼포먼스(고성능) 분석
빅데이터 분석을 위한 하이퍼포먼스(고성능) 분석빅데이터 분석을 위한 하이퍼포먼스(고성능) 분석
빅데이터 분석을 위한 하이퍼포먼스(고성능) 분석SAS Korea
 
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해Min Kyu Lee
 
합리적 의사결정 방법 활용 방안
합리적 의사결정 방법 활용 방안합리적 의사결정 방법 활용 방안
합리적 의사결정 방법 활용 방안Osan University
 
2011 미니탭(Minitab) 교재(랜드코리아)
2011 미니탭(Minitab) 교재(랜드코리아)2011 미니탭(Minitab) 교재(랜드코리아)
2011 미니탭(Minitab) 교재(랜드코리아)Elvin Jung
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]BOAZ Bigdata
 
빅데이터 활용에 관한 모든것
빅데이터 활용에 관한 모든것빅데이터 활용에 관한 모든것
빅데이터 활용에 관한 모든것Hyojoung Shin
 
Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical MethodologyKyeongUkJang
 
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석Kwang Woo NAM
 
바바라 민토+로지컬싱킹/안현진x2012
바바라 민토+로지컬싱킹/안현진x2012바바라 민토+로지컬싱킹/안현진x2012
바바라 민토+로지컬싱킹/안현진x2012Hyunjin Ahn
 
바바라 민토+로지컬싱킹/안현진x2012
바바라 민토+로지컬싱킹/안현진x2012바바라 민토+로지컬싱킹/안현진x2012
바바라 민토+로지컬싱킹/안현진x2012Hyunjin Ahn
 
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Haezoom Inc.
 
보고서 작성 원리 : 실패와 성공 사례 비교
보고서 작성 원리 : 실패와 성공 사례 비교보고서 작성 원리 : 실패와 성공 사례 비교
보고서 작성 원리 : 실패와 성공 사례 비교길벗지기
 
[우리가 데이터를 쓰는 법] 데이터로 소소한 의사결정하기 - 노리 조영임 UX 아키텍트
[우리가 데이터를 쓰는 법] 데이터로 소소한 의사결정하기 - 노리 조영임 UX 아키텍트[우리가 데이터를 쓰는 법] 데이터로 소소한 의사결정하기 - 노리 조영임 UX 아키텍트
[우리가 데이터를 쓰는 법] 데이터로 소소한 의사결정하기 - 노리 조영임 UX 아키텍트Dylan Ko
 

Similar to 170801 hypothesis (20)

HR Analytics
HR AnalyticsHR Analytics
HR Analytics
 
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )[도서 리뷰]  헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
[도서 리뷰] 헤드 퍼스트 데이터 분석 ( Head First Data Analysis )
 
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링
 
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
 
[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices
 
빅데이터 분석을 위한 하이퍼포먼스(고성능) 분석
빅데이터 분석을 위한 하이퍼포먼스(고성능) 분석빅데이터 분석을 위한 하이퍼포먼스(고성능) 분석
빅데이터 분석을 위한 하이퍼포먼스(고성능) 분석
 
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
[파인트리오픈클래스] 엑셀을 활용한 데이터 분석과 이해
 
합리적 의사결정 방법 활용 방안
합리적 의사결정 방법 활용 방안합리적 의사결정 방법 활용 방안
합리적 의사결정 방법 활용 방안
 
2011 미니탭(Minitab) 교재(랜드코리아)
2011 미니탭(Minitab) 교재(랜드코리아)2011 미니탭(Minitab) 교재(랜드코리아)
2011 미니탭(Minitab) 교재(랜드코리아)
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]
 
빅데이터 활용에 관한 모든것
빅데이터 활용에 관한 모든것빅데이터 활용에 관한 모든것
빅데이터 활용에 관한 모든것
 
Chapter 11 Practical Methodology
Chapter 11 Practical MethodologyChapter 11 Practical Methodology
Chapter 11 Practical Methodology
 
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
세월호/ 타이타닉호 사고의 빅 데이터 방법론적 분석
 
바바라 민토+로지컬싱킹/안현진x2012
바바라 민토+로지컬싱킹/안현진x2012바바라 민토+로지컬싱킹/안현진x2012
바바라 민토+로지컬싱킹/안현진x2012
 
바바라 민토+로지컬싱킹/안현진x2012
바바라 민토+로지컬싱킹/안현진x2012바바라 민토+로지컬싱킹/안현진x2012
바바라 민토+로지컬싱킹/안현진x2012
 
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
 
20161222 기출문제해설강의
20161222 기출문제해설강의20161222 기출문제해설강의
20161222 기출문제해설강의
 
보고서 작성 원리 : 실패와 성공 사례 비교
보고서 작성 원리 : 실패와 성공 사례 비교보고서 작성 원리 : 실패와 성공 사례 비교
보고서 작성 원리 : 실패와 성공 사례 비교
 
[우리가 데이터를 쓰는 법] 데이터로 소소한 의사결정하기 - 노리 조영임 UX 아키텍트
[우리가 데이터를 쓰는 법] 데이터로 소소한 의사결정하기 - 노리 조영임 UX 아키텍트[우리가 데이터를 쓰는 법] 데이터로 소소한 의사결정하기 - 노리 조영임 UX 아키텍트
[우리가 데이터를 쓰는 법] 데이터로 소소한 의사결정하기 - 노리 조영임 UX 아키텍트
 
캡스톤디자인
캡스톤디자인캡스톤디자인
캡스톤디자인
 

170801 hypothesis

  • 1. Date _ 2017.08.01 SESSION # 05 By Team 5 @ Clare, Jinny, Mike ⓒ 2017. SNU Growth Hackers all rights reserved 가설과 추론
  • 2. ⓒ 2017. SNU Growth Hackers all rights reserved Intro 검정과 추론의 예시 < 가설과 추론 >SESSION # 05 model mpg cyl disp hp drat wt qsec vs am gear carb Mazda RX4 21 6 160 110 3.9 2.62 16.46 0 1 4 4 Mazda RX4 Wag 21 6 160 110 3.9 2.875 17.02 0 1 4 4 Datsun 710 22.8 4 108 93 3.85 2.32 18.61 1 1 4 1 Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1 Hornet Sportabout 18.7 8 360 175 3.15 3.44 17.02 0 0 3 2 Valiant 18.1 6 225 105 2.76 3.46 20.22 1 0 3 1 Duster 360 14.3 8 360 245 3.21 3.57 15.84 0 0 3 4 Merc 240D 24.4 4 146.7 62 3.69 3.19 20 1 0 4 2 Merc 230 22.8 4 140.8 95 3.92 3.15 22.9 1 0 4 2 Merc 280 19.2 6 167.6 123 3.92 3.44 18.3 1 0 4 4 Merc 280C 17.8 6 167.6 123 3.92 3.44 18.9 1 0 4 4 정말 독일 차종은 일본 차종보다 성능이 좋을까? 소형 차종 간의 연비 편차는 고려해야 될 만큼 클까? 마력과 제로백 사이의 연관성은? 전체 차종의 배기량 평균은 얼마나 될까?
  • 3. ⓒ 2017. SNU Growth Hackers all rights reserved CONTENTS 01 오늘의 목표 02 • 평균과 사분위수, 분산 및 표준편차 • 공분산과 상관계수 • 질량함수와 밀도함수 03 분포의 종류와 사례 05 논문에서 활용된 가설검정의 과정 통계의 기초 개념 04 가설의 이해 • 가설의 검정 • 추정 및 추론 06 결론 Intro 검정과 추론의 예시
  • 4. ⓒ 2017. SNU Growth Hackers all rights reserved Intro (굳이) 가설을 왜 설정하고 검증할까? < 가설과 추론 >SESSION # 05
  • 5. ⓒ 2017. SNU Growth Hackers all rights reserved 통계 개념과 용어 (간명하게) 이해하기 01 < 가설과 추론 >SESSION # 05 오늘의 목표 가설을 설정하고 검증하는 과정에 익숙해지기
  • 6. ⓒ 2017. SNU Growth Hackers all rights reserved 중심화 경향(central tendency) 02 통계의 기초개념 < 가설과 추론 >SESSION # 05 정의 중심화 경향 데이터 분포의 위치를 나타내는 대푯값 단점: 분포 형태가 한쪽으로 치우쳐 있 거나, 이상값(outlier)이 있으면 영향을 크게 받음 평균 average, mean
  • 7. ⓒ 2017. SNU Growth Hackers all rights reserved 02 통계의 기초개념 < 가설과 추론 >SESSION # 05 중앙값(median) 데이터를 순서대로 나열할 때 가운데에 위치한 값 사분위수(Quartile) 자료를 크기 순으로 배열하고, 누적 백분율을 4 등분한 각 점에 해당 하는 값을 말한다 cf. 백분위수(percentile)는 %로 표현 중앙값 사분위수 중앙값과 사분위수 중심화 경향(central tendency)
  • 8. ⓒ 2017. SNU Growth Hackers all rights reserved 사분위수 02 통계의 기초개념 < 가설과 추론 >SESSION # 05
  • 9. ⓒ 2017. SNU Growth Hackers all rights reserved Dispersion 02 통계의 기초개념 < 가설과 추론 >SESSION # 05 분포의 산포를 나타내는 대푯값 모분산 σ2 표본분산 s2 표준편차 Sqrt(분산) 분산과 표준편차
  • 10. ⓒ 2017. SNU Growth Hackers all rights reserved 다변량 통계분석 지표 02 통계의 기초개념 < 가설과 추론 >SESSION # 05 공분산 covariance 두 변수의 관계를 나타내는 양(量) 공분산이 양(+)이면 ‘정의 상관관계’ 단점: 변수의 단위에 영향을 받기 때문에 다른 데이터와 비교 시 불편함
  • 11. ⓒ 2017. SNU Growth Hackers all rights reserved 다변량 통계분석 지표 02 통계의 기초개념 < 가설과 추론 >SESSION # 05 상관계수 표준화된 공분산 공분산은 각 변량의 단위에 의존하여 변동 크기량이 모호하다 공분산을 각 변량의 표준편차로 나누어 표준화 한 값이 상관계수 항상 -1≤ r(상관계수) ≤1 만족
  • 12. ⓒ 2017. SNU Growth Hackers all rights reserved 상관계수 02 통계의 기초개념 < 가설과 추론 >SESSION # 05 0에 가까울수록 선형관계가 약함 / 상관계수= 0 일 경우 변수간의 선형관계 없음 단, 비선형 관계를 가질 수 있기에 그래프 분석 병행 필요
  • 13. ⓒ 2017. SNU Growth Hackers all rights reserved 질량함수와 밀도함수 02 통계의 기초개념 < 가설과 추론 >SESSION # 05 질량함수 : 이산형 밀도함수 : 연속형
  • 14. ⓒ 2017. SNU Growth Hackers all rights reserved 누적분포함수 비교 02 통계의 기초개념 < 가설과 추론 >SESSION # 05
  • 15. ⓒ 2017. SNU Growth Hackers all rights reserved 분포란? 03. 분포의 종류와 사례
  • 16. ⓒ 2017. SNU Growth Hackers all rights reserved 분포의 종류 03 분포의 종류와 사례 < 가설과 추론 >SESSION # 05
  • 17. ⓒ 2017. SNU Growth Hackers all rights reserved 분포의 종류 < 가설과 추론 >SESSION # 05 03 분포의 종류와 사례 정규분포 σ를 아는 경우, 모평균에 대한 추정과 검정 두 모평균의 차이에 대한 추정과 검정 σ를 모르는 경우에도, 표본의 크기가 크면(n>=30) 모평균과 모평균 차이에 대한 추정과 검정 가능
  • 18. ⓒ 2017. SNU Growth Hackers all rights reserved 분포의 종류 < 가설과 추론 >SESSION # 05 03 분포의 종류와 사례 독립적인 확률변수들의 평균은 정규분포에 가까워진다!
  • 19. ⓒ 2017. SNU Growth Hackers all rights reserved 분포의 종류 < 가설과 추론 >SESSION # 05 정규분포의 표준화 03 분포의 종류와 사례 표준정규분포 N(0, 1) 즉 평균값은 0, 분산은 1
  • 20. ⓒ 2017. SNU Growth Hackers all rights reserved 분포의 종류 < 가설과 추론 >SESSION # 05 T 분포 σ를 모르는 경우, 모평균에 대한 추정과 검정 모평균 차이에 대한 추정과 검정에 활용 상관유무 검정 t검정을 실시하기에 앞서 두 표본집단의 분산이 같은지(등분산) 다른지(이분산) 판단이 필요함 03 분포의 종류와 사례
  • 21. ⓒ 2017. SNU Growth Hackers all rights reserved 분포의 종류 < 가설과 추론 >SESSION # 05 𝛘2 분포 모분산에 관한 추정과 검정 분할표에 의한 독립성 검정 03 분포의 종류와 사례
  • 22. ⓒ 2017. SNU Growth Hackers all rights reserved 분포의 종류 < 가설과 추론 >SESSION # 05 F 분포 두 모분산 차이에 관한 추정과 검정 (등분산,이분산) 분산분석표에서 요인에 관한 유의성 검정 03 분포의 종류와 사례
  • 23. ⓒ 2017. SNU Growth Hackers all rights reserved 분포의 예시 < 가설과 추론 >SESSION # 05 03 분포의 종류와 사례 Really??
  • 24. ⓒ 2017. SNU Growth Hackers all rights reserved 귀무가설과 대립가설 4. 가설의 이해
  • 25. ⓒ 2017. SNU Growth Hackers all rights reserved 오류와 p-value < 가설과 추론 >SESSION # 05 04 가설의 이해 P-value: 귀무가설 H0가 참일 때 관찰된 표본의 검정 통계량 결과가 나타날 확률
  • 26. ⓒ 2017. SNU Growth Hackers all rights reserved 오류와 p-value < 가설과 추론 >SESSION # 05 04 가설의 이해 제 1종 오류(False Positive): H0가 사실임에도 기각하는 오류 제 2종 오류(False Negative): H0가 사실이 아님에도 유보(채택)하는 오류 // 제 1종 오류를 줄이기 위해 유의 수준 α를 줄이는 방법이 있다. 그러나 이 때 2종 오류 확률이 증가하여 검정력이 감소하게 된다. // 검정력을 확보하기 위해서는 표본 크기를 늘려 분산을 감소시켜야 한 다.
  • 27. ⓒ 2017. SNU Growth Hackers all rights reserved 오류와 p-value < 가설과 추론 >SESSION # 05 04 가설의 이해 Theta 0 Theta 1 Observing A H0 A is not Terrorist 199,890,010 99,990 199,990,000 H1 A is Terrorist 9,990 10 10,000 199,900,000 100,000
  • 28. ⓒ 2017. SNU Growth Hackers all rights reserved 가설의 검정 < 가설과 추론 >SESSION # 05 04 가설의 이해
  • 29. ⓒ 2017. SNU Growth Hackers all rights reserved 가설의 검정: 가설검정의 종류 (모평균) < 가설과 추론 >SESSION # 05 04 가설의 이해 검정 방법 검정 방법 모평 균검 정 모분산을 아는 경우 정규분포를 활용하여 검 정 모평균 차이 검정 각 표본의 모분 산을 아는 경우 정규분포를 활용하여 검 정 모분산을 모르는 경 우 t- 분포를 활용하여 검 정 각 표본의 모분 산을 모르는 경 우 t- 분포를 활용하여 검 정 // ‘모분산을 아는 경우’는 표본이 매우 커서 중심극한법칙으로 정규분포를 가정할 수 있는 경우도 포함합니다.
  • 30. ⓒ 2017. SNU Growth Hackers all rights reserved 가설의 검정: 가설검정의 종류 (모분산, 모비율) < 가설과 추론 >SESSION # 05 04 가설의 이해 검정 방법 검정 방법 모분 산 검 정 단일 표본에서 모분산의 검정 𝛘2 분포를 활 용하여 검 정 모비 율 검 정 단일 표본에서 모비율의 검정 정규분포를 활용하여 검 정 두 표본에서 모분산 비율의 검정 F- 분포를 활용하여 검정 두 표본에서 모비율 차의 검정 정규분포를 활용하여 검 정
  • 31. ⓒ 2017. SNU Growth Hackers all rights reserved 가설의 검정 예시 1 : 정규분포에서의 검정 < 가설과 추론 >SESSION # 05 04 가설의 이해 모평균은 100일까요? No(H1) or Yes(H0)! 모평균이 100이 아니라는 대립가 설 300개의 표본을 추출함
  • 32. ⓒ 2017. SNU Growth Hackers all rights reserved 가설의 검정 예시 1 : F- 분포에서의 검정 < 가설과 추론 >SESSION # 05 04 가설의 이해
  • 33. ⓒ 2017. SNU Growth Hackers all rights reserved 추정 및 추론 추정 : 구간 추정의 방식 < 가설과 추론 >SESSION # 05 04 가설의 이해
  • 34. ⓒ 2017. SNU Growth Hackers all rights reserved < 가설과 추론 >SESSION # 05 04 가설의 이해
  • 35. ⓒ 2017. SNU Growth Hackers all rights reserved 추정: 추정의 종류 (모평균) < 가설과 추론 >SESSION # 05 04 가설의 이해 // ‘모분산을 아는 경우’는 표본이 매우 커서 큰 수의 법칙으로 정규분포를 가정할 수 있는 경우도 포함합니다. 추정 방법 추정 방법 모평 균 추 정 모분산을 아는 경우 정규분포를 활용하여 추 정 모평균 차 추 정 각 표본의 모분 산을 아는 경우 정규분포를 활용하여 추 정 모분산을 모르는 경 우 t- 분포를 활용하여 추 정 각 표본의 모분 산을 모르는 경 우 t- 분포를 활용하여 추 정
  • 36. ⓒ 2017. SNU Growth Hackers all rights reserved 추정: 추정의 종류 (모분산, 모비율) < 가설과 추론 >SESSION # 05 04 가설의 이해 추정 방법 추정 방법 모분 산의 추정 단일 표본에서 모분산의 추정 𝛘2 분포를 활용하여 추정 모비율의 추정 단일 표본에서 모비율의 추정 정규분포를 활용하여 추정 두 표본에서 모분산 비율의 추정 F- 분포를 활용하여 추정 두 표본에서 모비율 차의 추정 정규분포를 활용 (식은.. 생략합니다..)
  • 37. ⓒ 2017. SNU Growth Hackers all rights reserved 지금은 하지 않지만 나중에 하게 될 일들 < 가설과 추론 >SESSION # 05 04 가설의 이해 ● K-NN 알고리즘: 표본 내의 항목에 가장 가까이 있는 데이터들을 바탕으로 추론 ● 나이브베이즈 분류: 서로 독립인 분류 사이의 확률/통계 모델 ● 회귀분석을 통한 추론: 두 표본 사이의 연관도와 모형 추론 ● 그 외의 많은 일들
  • 38. ⓒ 2017. SNU Growth Hackers all rights reserved 논문을 읽어 봅시다  < 가설과 추론 >SESSION # 05 05 논문에서 활용된 가설검정의 과정
  • 39. ⓒ 2017. SNU Growth Hackers all rights reserved 가설과 추론 요약 < 가설과 추론 >SESSION # 05 06 결론 1)표본 자료의 중심값: 평균, 중앙값 2)표본 자료의 편차: 4분위수, 분산, 표준편차 3)표본 자료의 모양: 분포 4)(일정한 모양을 가정한 상태에서) 검정 & 추정
  • 40. ⓒ 2017. SNU Growth Hackers all rights reserved Dataset 소개 < 가설과 추론 >SESSION # 05 오늘의 Quest - R에서 가져 온 mtcars.csv [Motor Trend Car Road Test] - Motor Trend US magazine에서 추출 - 관측치 32개, 11개 변수
  • 41. ⓒ 2017. SNU Growth Hackers all rights reserved Dataset 11개 변수 < 가설과 추론 >SESSION # 05 Quest 17.08.01 - mpg : 연비 (Miles per gallon) - cyl : 기통 (# of cylinders) - disp : 배기량 (Displacement (cu.in.)) - hp : 마력 (Gross horsepower) - drat : 후방 차축 비율 (Rear axle ratio) - wt : 중량 (Weight (1000 lbs)) - qsec : ¼ 마일 도달 시간 (¼ mile time) - vs : V/S (0 = V 엔진, 1 = S 엔진) - am : 자동/수동 (0 = 자동, 1 = 수동) - gear : 기어 수 (# of forward gears) - carb : 기화기 수 (# of carburetors) [https://goo.gl/S1KXeZ]
  • 42. ⓒ 2017. SNU Growth Hackers all rights reserved Quest 도움 지식 < 가설과 추론 >SESSION # 05 •SciPy 모듈 - 과학계산을 위해 만들어진 라이브러리 - Linear Algebra, Clustering Algorithm, Statistics, …… - 기본 자료형은 NumPy의 다차원 배열 (multi-dimensional array) - 통계는 서브패키지인 scipy.stat 활용 [https://goo.gl/1yUH4y] Quest 17.08.01
  • 43. ⓒ 2017. SNU Growth Hackers all rights reserved Quest 도움 지식 < 가설과 추론 >SESSION # 05 Quest 17.08.01 •NumPy를 통해 데이터를 ndarray로!
  • 44. ⓒ 2017. SNU Growth Hackers all rights reserved Quest 도움 지식 < 가설과 추론 >SESSION # 05 Quest 17.08.01 •NumPy를 통해 데이터를 ndarray로!
  • 45. ⓒ 2017. SNU Growth Hackers all rights reserved Quest 도움 지식 < 가설과 추론 >SESSION # 05 Quest 17.08.01 scipy.stat - scipy.stat.fligner(x, y) : x, y 사이 등분산성 검정 [이 외에 등분산성 검정 함수 有] - scipy.ttest_ind(x, y, eqvar) : 독립성 가정 x, y 사이 모평균 동일성 검정 [eqvar = True이면 등분산, 아니면 이분산]
  • 46. ⓒ 2017. SNU Growth Hackers all rights reserved Quest 도움 지식 < 가설과 추론 >SESSION # 05 scipy.stat - scipy.stat.fligner(x, y) : x, y 사이 등분산성 검정 [이 외에 등분산성 검정 함수 有] - scipy.ttest_ind(x, y, eqvar) : 독립성 가정 x, y 사이 모평균 동일성 검정 [eqvar = True이면 등분산, 아니면 이분산] ※ x, y는 어떤 자료형? Quest 17.08.01
  • 47. ⓒ 2017. SNU Growth Hackers all rights reserved < 가설과 추론 >SESSION # 05 Quest 17.08.01 1. NumPy와 SciPy를 활용하여 csv 파일을 받아 입력 변수에 따라 t 검정 등 메소드 정의한 클래스 작성 (첫 행이 각 column 이름, 다음 행부터 값. 전처리 완료 가정) ※어려운 경우 클래스 정의 없이 바로 분석 2. mtcars.csv 통해 도출할 수 있는 문장 4개 서술 (t 검정 등 활용 / 가설과 검정, 추론) Quest 문제
  • 48. ⓒ 2017. SNU Growth Hackers all rights reserved Thank you !