SlideShare a Scribd company logo
1 of 25
Download to read offline
추정
용어
• 통계적 추론
– 모수에 대한 판단을 내리기 위하여 모집단에서 표본을
추출하여 데이터를 얻고 이 데이터를 기초로 하여 통
계이론에 의한 결론을 내리게 되는 과정

• 통계적 추론의 두 분야
– 추정
• 표본을 이용하여 모집단의 미지의 모수를 추측하는 과정

– 가설검정
• 표본을 이용하여 모집단에 대한 어떤 예상 또는 주장의 옳고
그름을 판정하거나, 주장의 채택 또는 기각을 결정하는 과정

한림대학교 이윤환(http://fb.com/yoonani72)
용어
• 점추정
– 모수를 하나의 값으로 추정

• 구간추정
– 모수에 대한 추정으로 하나의 점이 아닌 구간으로 추정

• 추정량(estimator)
– 모수의 추정에 사용되는 통계량
– 예 : 모평균에 대한 추정량은 표본평균
• 𝑋=

𝑋1 +𝑋2 +⋯+𝑋 𝑛
𝑛

=

𝑛
𝑖=1

𝑋𝑖

𝑛

• 추정값(estimate)
– 추정량에 실제 관측값을 대입하여 얻은 값
한림대학교 이윤환(http://fb.com/yoonani72)
점추정
• 모평균의 추정량 : 표본평균
– 𝑋=

𝑋1 +𝑋2 +⋯+𝑋 𝑛
𝑛

=

𝑛
𝑖=1

𝑋𝑖

𝑛

– 무한모집단의 경우 모집단의 평균이 𝜇이고 분산이 𝜎 2
일 때 표본평균 𝑋는 다음과 같은 성질을 갖는다.
• 𝐸 𝑋 = 𝜇
• 𝑉𝑎𝑟 𝑋 =

𝜎2
𝑛

– 불편추정량
• 모수 𝜃의 추정량 𝜃에 대하여 𝐸 𝜃 = 𝜃 가 성립할 때 𝜃을 𝜃의
불편추정량이라 한다.
• 𝑋는 𝜇의 불편추정량
한림대학교 이윤환(http://fb.com/yoonani72)
점추정
• 좋은 추정량…
– 추정량의 표준편차가 작을수록 좋은 추정량
– 불편추정량 𝜃1 과 𝜃2 이 있을때 이 둘중 더 좋은 추정량
은 표준편차가 작은 추정량

• 표준오차(Standard Error, SE)
– 추정량의 표준편차를 표준오차라고 한다.
– 추정량의 정밀도를 나타냄
– 표본평균 𝑋의 표준오차
• 𝑆𝐸 𝑋 =

𝜎
𝑛

한림대학교 이윤환(http://fb.com/yoonani72)
점추정
• 표준오차(계속)
– 일반적으로 표본평균의 표준오차에서 𝜎는 모수로 알
지 못함.
– 표본표준편차 (𝑆)를 𝜎 대신 사용
• 𝑆=

𝑛
𝑖=1

𝑋 𝑖 −𝑋 2

(𝑛−1)

– 따라서 𝑆𝐸 𝑋 의 추정값 𝑆𝐸 𝑋 =

𝑆

𝑛

– 즉, 일반적으로 사용하는 것은 표준오차의 추정값

한림대학교 이윤환(http://fb.com/yoonani72)
점추정
• 모분산과 모표준편차의 추정

𝑛
– 편차의 합 𝑖=1 𝑥 𝑖 − 𝑥 = 0
– 편차에 제곱 하여 모두 더한 것을 기억하나요?
𝑛
• 𝑖=1 𝑥 𝑖 − 𝑥 2
• 이를 통계에서는 제곱합(Sum of squares)이라 부릅니다.

– 자유도
• 편차의 합은 0이므로 전체 자료 n 중에 (n-1)개의 편차만 알
면 나머지 하나는 저절로 결정

– 산포의 측도는 제곱합을 자유도로 나눈다.
• 표본분산에서 분모가 n-1 인 이유입니다.

–E

𝑆2

=

𝜎 2,

𝑆2

=

𝑛
𝑖=1

𝑋 𝑖 −𝑋 2

(𝑛−1)

한림대학교 이윤환(http://fb.com/yoonani72)
구간추정
• 신뢰구간
– 모수의 구간추정을 위하여 제시한 하한값과 상한값을
각각 L과 U라고 할 때 범위 (L, U)

• 신뢰수준
– 신뢰구간에 모수의 참값이 포함되는 것을 얼마나 신뢰
할 수 있는 가를 나타내는 정도
– 1 − 𝛼로 나타내며 일반적으로 𝛼를 0.10, 0.05,
0.001 등을 사용한다.

한림대학교 이윤환(http://fb.com/yoonani72)
구간추정
• 신뢰구간의 올바른 이해
여러 표본을 통해
신뢰구간을 구할 경우
실제 모평균이 전체에서 (1-𝛼)%
정도는 포함될 것으로 기대
절대!!!
우리가 구한 신뢰구간이
실제 모평균을
포함할 확률이 아님

한림대학교 이윤환(http://fb.com/yoonani72)
구간추정
• 모평균의 구간추정 : 대표본
– 중심극한정리를 다시 생각해 볼까요?
• 표본의 크기가 클 경우 𝑋 ~ 𝑁 𝜇,

𝜎2
𝑛

• 표본평균 𝑋가 정규분포를 따르므로 표준정규분포로 변환가능

–Z =

𝑋−𝜇
𝜎

~ 𝑁(0, 1)

𝑛

– 모평균 𝜇에 대한 95% 신뢰수준(1 − 𝛼, 𝛼 = 0.05)
• P −𝑧0.025 ≤
• P 𝑋 − 𝑧0.025

𝑋−𝜇
𝜎

𝜎

𝑛

≤ 𝑧0.025 = 0.95

≤ 𝜇 ≤ 𝑋 + 𝑧0.025
𝑛

𝜎

𝑛

= 0.95

한림대학교 이윤환(http://fb.com/yoonani72)
구간추정

1 - 𝛼 = 0.95

−𝑧0.025 =1.96

𝜎
𝑛

𝜇

𝑧0.025 =1.96

한림대학교 이윤환(http://fb.com/yoonani72)

𝜎
𝑛
구간추정
• 모평균의 구간추정
– 대표본인 경우 중심극한정리를 통해 𝜎 대신 s를 사용
해도 되나 소표본의 경우는 문제 발생
– t-분포
𝑋1 , 𝑋2 , … , 𝑋 𝑛 이 𝑁 𝜇, 𝜎 2 에서의 랜덤표본일 때,
𝑋− 𝜇
t=
𝑆
𝑛
는 자유도 n-1인 t분포를 따른다.

한림대학교 이윤환(http://fb.com/yoonani72)
t분포와 정규분포
• 자유도가 3인 t분포와 정규분포

한림대학교 이윤환(http://fb.com/yoonani72)
t분포와 정규분포
• 자유도 증가(표본 수) 증가와 정규분포

한림대학교 이윤환(http://fb.com/yoonani72)
t분포와 정규분포
• R Code
>
>
>
>

x <- seq(-3, 3, by=0.01)
z <- dnorm(x)
plot(x, z, type="l")
lines(x, dt(x, df=3), col="red")

>
>
>
>
>
>

x <- seq(-3, 3, by=0.01)
z <- dnorm(x)
plot(x, z, type="l")
lines(x, dt(x, df=3), col="red")
lines(x, dt(x, df=10), col="blue")
lines(x, dt(x, df=30), col="yellow", lwd=2)

한림대학교 이윤환(http://fb.com/yoonani72)
구간추정
• 모평균의 구간추정 : 소표본
–t =

𝑋−𝜇
𝑆

𝑛

– 모평균 𝜇에 대한 95% 신뢰수준(1 − 𝛼, 𝛼 = 0.05)
• P −𝑡0.025 ≤
• P 𝑋 − 𝑡0.025

𝑋−𝜇
𝑆

𝑆

𝑛

𝑛

≤ 𝑡0.025 = 0.95
≤ 𝜇 ≤ 𝑋 + 𝑡0.025

𝑆

𝑛

= 0.95

– 자유도가 3일 경우 −𝑡0.025 : qt(0.025, df=3)

한림대학교 이윤환(http://fb.com/yoonani72)
모비율의 추정과 표본의 수 결정
모비율의 구간추정
• 범주형자료에 대한 추정은 모평균 대신 모비율(p)
에 대한 추정 실시
– 80세 이상 노인의 비율, 불량률, 남학생의 비율 등

• 모비율의 추정량 : 𝑝
– 확률변수 X가 관심이 되는 대상의 수라 하면
𝑋
𝑝= ,
n은 표본의 크기
𝑛

– 모집단으로부터 추출된 표본비율 𝑝은 𝑛𝑝와 𝑛(1 − 𝑝)가
5이상일 경우 근사적으로 정규분포를 따른다.
• 𝒑~𝑵(𝒑,

𝒑 𝟏−𝒑
𝒏

)

한림대학교 이윤환(http://fb.com/yoonani72)
모비율의 구간추정
– 또한 모든 정규분포는 표준정규분포로 바꿀 수 있으므
로
𝑝−𝑝
𝑝(1−𝑝)
𝑛

~ 𝑁(0, 12 )

– 모비율 p의 신뢰구간

𝑝− 𝑧𝛼 2

𝑝 1−𝑝
𝑛

, 𝑝+ 𝑧𝛼 2

𝑝 1−𝑝
𝑛

로 구한다.

한림대학교 이윤환(http://fb.com/yoonani72)
모비율의 구간추정
• 예제) 어떤 종합병원에서 입원환자들의 불만율을 조사하
고자 한다. 입원한 환자들중 임의로 500명을 뽑아 조사
한 결과 불만있는 환자가 20명으로 나타났다. 이 병원 환
자들의 불만율 p의 95% 신뢰구간을 구하여라.
– 𝑝=

20
500

– 𝑝− 𝑧

𝛼

2

= 0.04 이고 대표본(𝑛𝑝와 𝑛(1 − 𝑝)가 5이상)
𝑝 1−𝑝
𝑛

∶ 0.04 − 1.96 ×

0.04 0.96
500

≈ 0.04 − 0.017 = 0.023
–

𝑝+ 𝑧

𝛼

2

𝑝 1−𝑝
𝑛

≈ 0.04 + 0.017 = 0.057

– 신뢰구간은 (0.023(2.3%), 0.057(5.7%))
한림대학교 이윤환(http://fb.com/yoonani72)
표본의 크기 결정
• 모수들의 신뢰구간 추정시 1 − 𝛼를 지나치게 넓
히는 것은 모수 추정에 좋지 않다.
• 이를 위해 적당한 표본의 크기를 결정하여야 한
다.
• 표본의 크기 결정
– 측정할 모수 결정 (𝜇 또는 p)
– 신뢰구간을 구할 신뢰수준(1 − 𝛼) 결정
– 측정할 모수에 따라 추정오차의 한계의 크기 결정
(𝑧 𝛼 2

𝜎
𝑛

, 𝑧𝛼 2

𝑆
𝑛

, 𝑧𝛼 2

𝑝 1−𝑝
𝑛

)

한림대학교 이윤환(http://fb.com/yoonani72)
표본의 크기 결정
• 모평균을 추정하기 위한 표본의 크기
– 추정오차의 한계는 TS 이고 모표준편차를 알때
𝜎
𝑧𝛼
≤ 𝑇𝑆
2
𝑛
𝜎
𝑧𝛼
≤ 𝑛
2 𝑇𝑆
𝜎 2
(𝑧 𝛼
) ≤ 𝑛
2 𝑇𝑆
– 모표준편차를 모를 경우에는 𝜎 대신 표본표준편차 S
사용

한림대학교 이윤환(http://fb.com/yoonani72)
표본의 크기 결정
• 보건소에서 환자 1명당 진료시간의 평균을 추정하려고
한다. 이전 자료를 보면 진료시간의 표준편차는 3분 정도
로 알려져 있을 때 95% 신뢰수준에서 평균진료시간의
오차의 한계를 1분 이내로 유지하려면 환자 몇 명을 표본
으로 하여야 하는가?
– 진료시간의 표준편차는 3분
– 오차의 한계는 1분
– 신뢰수준은 0.95 → 𝑧0.025 = 1.96
3
𝑛 ≥ (1.96 )2 ≈ 34.6
1
즉, 35명 이상

한림대학교 이윤환(http://fb.com/yoonani72)
표본의 크기 결정
• 모평균을 추정하기 위한 표본의 크기
– 추정오차의 한계는 TS 이고 𝑝을 알면
𝑝 1− 𝑝
𝑧𝛼
≤ 𝑇𝑆
2
𝑛
𝑧𝛼
𝑝 1 − 𝑝 ( 2 )2 ≤ 𝑛
𝑇𝑆
– 𝑝을 모를 경우에는𝑝 1 − 𝑝 을 최대로 하는 𝑝 = 0.5 사
용
1 𝑧𝛼2 2
(
) ≤ 𝑛
4 𝑇𝑆
한림대학교 이윤환(http://fb.com/yoonani72)
표본의 크기 결정
• 보건소에서는 다시 내원할 가능성이 있는 내원객의 비율
을 추정하기 위해 표본조사를 하려고 한다. 신뢰수준
95%를 가지고 추정오차의 한계를 10% 이내로 모비율
을 추정하려고 할 때 적당한 표본의 크기는 얼마인가?
– 𝑝을 모르는 상황
– 오차의 한계는 0.1
– 신뢰수준은 0.95 → 𝑧0.025 = 1.96
1 𝑧𝛼2 2
1 1.96 2
n ≥ (
) ≡ (
) ≈ 96.04
4 𝑇𝑆
4 0.1

97명 이상의 환자를 표본으로 추출한다.

한림대학교 이윤환(http://fb.com/yoonani72)

More Related Content

What's hot

12.세표본 이상의 평균비교
12.세표본 이상의 평균비교12.세표본 이상의 평균비교
12.세표본 이상의 평균비교Yoonwhan Lee
 
04.r 기초 유의성 검증
04.r 기초   유의성 검증04.r 기초   유의성 검증
04.r 기초 유의성 검증Yoonwhan Lee
 
10.단일표본 평균 모비율
10.단일표본 평균 모비율10.단일표본 평균 모비율
10.단일표본 평균 모비율Yoonwhan Lee
 
11.두표본의 평균비교
11.두표본의 평균비교11.두표본의 평균비교
11.두표본의 평균비교Yoonwhan Lee
 
확률변수와 분포함수
확률변수와 분포함수확률변수와 분포함수
확률변수와 분포함수Yoonwhan Lee
 
01.r 기초 확률분포
01.r 기초   확률분포01.r 기초   확률분포
01.r 기초 확률분포Yoonwhan Lee
 
기초 확률 관련
기초 확률 관련기초 확률 관련
기초 확률 관련Yoonwhan Lee
 
R과 기초통계 : 01.자료다루기
R과 기초통계 : 01.자료다루기R과 기초통계 : 01.자료다루기
R과 기초통계 : 01.자료다루기Yoonwhan Lee
 
연구학교 데이터분석
연구학교 데이터분석 연구학교 데이터분석
연구학교 데이터분석 성훈 김
 
Ensemble Model (Hybrid model)
Ensemble Model (Hybrid model)Ensemble Model (Hybrid model)
Ensemble Model (Hybrid model)Jeonghun Yoon
 

What's hot (11)

12.세표본 이상의 평균비교
12.세표본 이상의 평균비교12.세표본 이상의 평균비교
12.세표본 이상의 평균비교
 
04.r 기초 유의성 검증
04.r 기초   유의성 검증04.r 기초   유의성 검증
04.r 기초 유의성 검증
 
10.단일표본 평균 모비율
10.단일표본 평균 모비율10.단일표본 평균 모비율
10.단일표본 평균 모비율
 
11.두표본의 평균비교
11.두표본의 평균비교11.두표본의 평균비교
11.두표본의 평균비교
 
확률변수와 분포함수
확률변수와 분포함수확률변수와 분포함수
확률변수와 분포함수
 
01.r 기초 확률분포
01.r 기초   확률분포01.r 기초   확률분포
01.r 기초 확률분포
 
기초 확률 관련
기초 확률 관련기초 확률 관련
기초 확률 관련
 
05.확률
05.확률05.확률
05.확률
 
R과 기초통계 : 01.자료다루기
R과 기초통계 : 01.자료다루기R과 기초통계 : 01.자료다루기
R과 기초통계 : 01.자료다루기
 
연구학교 데이터분석
연구학교 데이터분석 연구학교 데이터분석
연구학교 데이터분석
 
Ensemble Model (Hybrid model)
Ensemble Model (Hybrid model)Ensemble Model (Hybrid model)
Ensemble Model (Hybrid model)
 

Viewers also liked

09.통계적가설검정
09.통계적가설검정09.통계적가설검정
09.통계적가설검정Yoonwhan Lee
 
R 기초 : R Basics
R 기초 : R BasicsR 기초 : R Basics
R 기초 : R BasicsYoonwhan Lee
 
00.통계학입문
00.통계학입문00.통계학입문
00.통계학입문Yoonwhan Lee
 
통계자료 분석을 위한 R
통계자료 분석을 위한 R통계자료 분석을 위한 R
통계자료 분석을 위한 RYoonwhan Lee
 
TOC무료세미나 (KTA 110716)
TOC무료세미나 (KTA 110716)TOC무료세미나 (KTA 110716)
TOC무료세미나 (KTA 110716)Hyunsik Kim
 
R 기초교안 (페북 api까지)
R 기초교안 (페북 api까지)R 기초교안 (페북 api까지)
R 기초교안 (페북 api까지)Mingun Jung
 
practice2
practice2practice2
practice2yosm
 
[오픈콘텐츠랩/Boc] 소셜 데이팅 특강 강의자료
[오픈콘텐츠랩/Boc] 소셜 데이팅 특강 강의자료[오픈콘텐츠랩/Boc] 소셜 데이팅 특강 강의자료
[오픈콘텐츠랩/Boc] 소셜 데이팅 특강 강의자료opencontentslab
 
2016 크라우드펀딩대회 사전설명회
2016 크라우드펀딩대회 사전설명회2016 크라우드펀딩대회 사전설명회
2016 크라우드펀딩대회 사전설명회opencontentslab
 
Head first statistics14
Head first statistics14Head first statistics14
Head first statistics14HyeonSeok Choi
 
Google analytics
Google analyticsGoogle analytics
Google analyticsETRIBE_STG
 
R과 기초통계 : 02.기술통계-자료나타내기
R과 기초통계 : 02.기술통계-자료나타내기R과 기초통계 : 02.기술통계-자료나타내기
R과 기초통계 : 02.기술통계-자료나타내기Yoonwhan Lee
 
[week11] R_ggmap, leaflet
[week11] R_ggmap, leaflet[week11] R_ggmap, leaflet
[week11] R_ggmap, leafletneuroassociates
 

Viewers also liked (17)

09.통계적가설검정
09.통계적가설검정09.통계적가설검정
09.통계적가설검정
 
R 기초 : R Basics
R 기초 : R BasicsR 기초 : R Basics
R 기초 : R Basics
 
00.통계학입문
00.통계학입문00.통계학입문
00.통계학입문
 
R 기초 Part. 01
R 기초 Part. 01R 기초 Part. 01
R 기초 Part. 01
 
통계자료 분석을 위한 R
통계자료 분석을 위한 R통계자료 분석을 위한 R
통계자료 분석을 위한 R
 
TOC무료세미나 (KTA 110716)
TOC무료세미나 (KTA 110716)TOC무료세미나 (KTA 110716)
TOC무료세미나 (KTA 110716)
 
R 기초교안 (페북 api까지)
R 기초교안 (페북 api까지)R 기초교안 (페북 api까지)
R 기초교안 (페북 api까지)
 
practice2
practice2practice2
practice2
 
R 기초 II
R 기초 IIR 기초 II
R 기초 II
 
[오픈콘텐츠랩/Boc] 소셜 데이팅 특강 강의자료
[오픈콘텐츠랩/Boc] 소셜 데이팅 특강 강의자료[오픈콘텐츠랩/Boc] 소셜 데이팅 특강 강의자료
[오픈콘텐츠랩/Boc] 소셜 데이팅 특강 강의자료
 
2016 크라우드펀딩대회 사전설명회
2016 크라우드펀딩대회 사전설명회2016 크라우드펀딩대회 사전설명회
2016 크라우드펀딩대회 사전설명회
 
01.r 기초
01.r 기초01.r 기초
01.r 기초
 
Head first statistics14
Head first statistics14Head first statistics14
Head first statistics14
 
R 소개
R 소개R 소개
R 소개
 
Google analytics
Google analyticsGoogle analytics
Google analytics
 
R과 기초통계 : 02.기술통계-자료나타내기
R과 기초통계 : 02.기술통계-자료나타내기R과 기초통계 : 02.기술통계-자료나타내기
R과 기초통계 : 02.기술통계-자료나타내기
 
[week11] R_ggmap, leaflet
[week11] R_ggmap, leaflet[week11] R_ggmap, leaflet
[week11] R_ggmap, leaflet
 

Similar to 08.추정

통계 기초 용어1
통계 기초 용어1통계 기초 용어1
통계 기초 용어1Seong-Bok Lee
 
Deep Learning from scratch 4장 : neural network learning
Deep Learning from scratch 4장 : neural network learningDeep Learning from scratch 4장 : neural network learning
Deep Learning from scratch 4장 : neural network learningJinSooKim80
 
RUCK 2017 빅데이터 분석에서 모형의 역할
RUCK 2017 빅데이터 분석에서 모형의 역할RUCK 2017 빅데이터 분석에서 모형의 역할
RUCK 2017 빅데이터 분석에서 모형의 역할r-kor
 
Statistics for psychology, Inferential Statistics and Hypothesis Testing
Statistics for psychology, Inferential Statistics and Hypothesis TestingStatistics for psychology, Inferential Statistics and Hypothesis Testing
Statistics for psychology, Inferential Statistics and Hypothesis TestingMinyeong Seo
 
0307 2 hypothesis_testing
0307 2 hypothesis_testing0307 2 hypothesis_testing
0307 2 hypothesis_testingJeonghun Yoon
 
[확률통계]04모수추정
[확률통계]04모수추정[확률통계]04모수추정
[확률통계]04모수추정jaypi Ko
 
실무에서 활용하는 A/B테스트
실무에서 활용하는 A/B테스트실무에서 활용하는 A/B테스트
실무에서 활용하는 A/B테스트JeongMin Kwon
 
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지Haesun Park
 
Probability with MLE, MAP
Probability with MLE, MAPProbability with MLE, MAP
Probability with MLE, MAPJunho Lee
 
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptxDonghwan Lee
 
내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)SANG WON PARK
 
0307 1 estimation_theory
0307 1 estimation_theory0307 1 estimation_theory
0307 1 estimation_theoryJeonghun Yoon
 

Similar to 08.추정 (20)

표집
표집표집
표집
 
Spc개요
Spc개요Spc개요
Spc개요
 
Rdatamining
Rdatamining Rdatamining
Rdatamining
 
Hfs ch11
Hfs ch11Hfs ch11
Hfs ch11
 
통계 기초 용어1
통계 기초 용어1통계 기초 용어1
통계 기초 용어1
 
R_datamining
R_dataminingR_datamining
R_datamining
 
Deep Learning from scratch 4장 : neural network learning
Deep Learning from scratch 4장 : neural network learningDeep Learning from scratch 4장 : neural network learning
Deep Learning from scratch 4장 : neural network learning
 
RUCK 2017 빅데이터 분석에서 모형의 역할
RUCK 2017 빅데이터 분석에서 모형의 역할RUCK 2017 빅데이터 분석에서 모형의 역할
RUCK 2017 빅데이터 분석에서 모형의 역할
 
Statistics for psychology, Inferential Statistics and Hypothesis Testing
Statistics for psychology, Inferential Statistics and Hypothesis TestingStatistics for psychology, Inferential Statistics and Hypothesis Testing
Statistics for psychology, Inferential Statistics and Hypothesis Testing
 
Decision tree
Decision treeDecision tree
Decision tree
 
07. PCA
07. PCA07. PCA
07. PCA
 
0307 2 hypothesis_testing
0307 2 hypothesis_testing0307 2 hypothesis_testing
0307 2 hypothesis_testing
 
[확률통계]04모수추정
[확률통계]04모수추정[확률통계]04모수추정
[확률통계]04모수추정
 
실무에서 활용하는 A/B테스트
실무에서 활용하는 A/B테스트실무에서 활용하는 A/B테스트
실무에서 활용하는 A/B테스트
 
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 2장. 머신러닝 프로젝트 처음부터 끝까지
 
Probability with MLE, MAP
Probability with MLE, MAPProbability with MLE, MAP
Probability with MLE, MAP
 
추정
추정추정
추정
 
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
★강의교재_데이터 분석을 위한 통계와 확률_v2.pptx
 
내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)내가 이해하는 SVM(왜, 어떻게를 중심으로)
내가 이해하는 SVM(왜, 어떻게를 중심으로)
 
0307 1 estimation_theory
0307 1 estimation_theory0307 1 estimation_theory
0307 1 estimation_theory
 

More from Yoonwhan Lee

Smart work 자료 1
Smart work 자료 1Smart work 자료 1
Smart work 자료 1Yoonwhan Lee
 
통계자료분석을 ㅇ
통계자료분석을 ㅇ통계자료분석을 ㅇ
통계자료분석을 ㅇYoonwhan Lee
 
PHP를 이용한 간단한 방명록 만들기
PHP를 이용한 간단한 방명록 만들기PHP를 이용한 간단한 방명록 만들기
PHP를 이용한 간단한 방명록 만들기Yoonwhan Lee
 
쿠키를 통해 구현해보는 간단한 로그인 과정
쿠키를 통해 구현해보는 간단한 로그인 과정쿠키를 통해 구현해보는 간단한 로그인 과정
쿠키를 통해 구현해보는 간단한 로그인 과정Yoonwhan Lee
 
에버노트와 드롭박스 설치
에버노트와 드롭박스 설치에버노트와 드롭박스 설치
에버노트와 드롭박스 설치Yoonwhan Lee
 
PHP에서 객체와 데이터 연결 유지
PHP에서 객체와 데이터 연결 유지PHP에서 객체와 데이터 연결 유지
PHP에서 객체와 데이터 연결 유지Yoonwhan Lee
 
표본들의 분포
표본들의 분포표본들의 분포
표본들의 분포Yoonwhan Lee
 
HTML Form과 배열
HTML Form과 배열HTML Form과 배열
HTML Form과 배열Yoonwhan Lee
 
Android 기초 앱 사용
Android 기초 앱 사용Android 기초 앱 사용
Android 기초 앱 사용Yoonwhan Lee
 

More from Yoonwhan Lee (12)

Smart work 자료 1
Smart work 자료 1Smart work 자료 1
Smart work 자료 1
 
통계자료분석을 ㅇ
통계자료분석을 ㅇ통계자료분석을 ㅇ
통계자료분석을 ㅇ
 
PHP를 이용한 간단한 방명록 만들기
PHP를 이용한 간단한 방명록 만들기PHP를 이용한 간단한 방명록 만들기
PHP를 이용한 간단한 방명록 만들기
 
Class10
Class10Class10
Class10
 
MySQL과 PHP
MySQL과 PHPMySQL과 PHP
MySQL과 PHP
 
MySQL 기초
MySQL 기초MySQL 기초
MySQL 기초
 
쿠키를 통해 구현해보는 간단한 로그인 과정
쿠키를 통해 구현해보는 간단한 로그인 과정쿠키를 통해 구현해보는 간단한 로그인 과정
쿠키를 통해 구현해보는 간단한 로그인 과정
 
에버노트와 드롭박스 설치
에버노트와 드롭박스 설치에버노트와 드롭박스 설치
에버노트와 드롭박스 설치
 
PHP에서 객체와 데이터 연결 유지
PHP에서 객체와 데이터 연결 유지PHP에서 객체와 데이터 연결 유지
PHP에서 객체와 데이터 연결 유지
 
표본들의 분포
표본들의 분포표본들의 분포
표본들의 분포
 
HTML Form과 배열
HTML Form과 배열HTML Form과 배열
HTML Form과 배열
 
Android 기초 앱 사용
Android 기초 앱 사용Android 기초 앱 사용
Android 기초 앱 사용
 

08.추정

  • 2. 용어 • 통계적 추론 – 모수에 대한 판단을 내리기 위하여 모집단에서 표본을 추출하여 데이터를 얻고 이 데이터를 기초로 하여 통 계이론에 의한 결론을 내리게 되는 과정 • 통계적 추론의 두 분야 – 추정 • 표본을 이용하여 모집단의 미지의 모수를 추측하는 과정 – 가설검정 • 표본을 이용하여 모집단에 대한 어떤 예상 또는 주장의 옳고 그름을 판정하거나, 주장의 채택 또는 기각을 결정하는 과정 한림대학교 이윤환(http://fb.com/yoonani72)
  • 3. 용어 • 점추정 – 모수를 하나의 값으로 추정 • 구간추정 – 모수에 대한 추정으로 하나의 점이 아닌 구간으로 추정 • 추정량(estimator) – 모수의 추정에 사용되는 통계량 – 예 : 모평균에 대한 추정량은 표본평균 • 𝑋= 𝑋1 +𝑋2 +⋯+𝑋 𝑛 𝑛 = 𝑛 𝑖=1 𝑋𝑖 𝑛 • 추정값(estimate) – 추정량에 실제 관측값을 대입하여 얻은 값 한림대학교 이윤환(http://fb.com/yoonani72)
  • 4. 점추정 • 모평균의 추정량 : 표본평균 – 𝑋= 𝑋1 +𝑋2 +⋯+𝑋 𝑛 𝑛 = 𝑛 𝑖=1 𝑋𝑖 𝑛 – 무한모집단의 경우 모집단의 평균이 𝜇이고 분산이 𝜎 2 일 때 표본평균 𝑋는 다음과 같은 성질을 갖는다. • 𝐸 𝑋 = 𝜇 • 𝑉𝑎𝑟 𝑋 = 𝜎2 𝑛 – 불편추정량 • 모수 𝜃의 추정량 𝜃에 대하여 𝐸 𝜃 = 𝜃 가 성립할 때 𝜃을 𝜃의 불편추정량이라 한다. • 𝑋는 𝜇의 불편추정량 한림대학교 이윤환(http://fb.com/yoonani72)
  • 5. 점추정 • 좋은 추정량… – 추정량의 표준편차가 작을수록 좋은 추정량 – 불편추정량 𝜃1 과 𝜃2 이 있을때 이 둘중 더 좋은 추정량 은 표준편차가 작은 추정량 • 표준오차(Standard Error, SE) – 추정량의 표준편차를 표준오차라고 한다. – 추정량의 정밀도를 나타냄 – 표본평균 𝑋의 표준오차 • 𝑆𝐸 𝑋 = 𝜎 𝑛 한림대학교 이윤환(http://fb.com/yoonani72)
  • 6. 점추정 • 표준오차(계속) – 일반적으로 표본평균의 표준오차에서 𝜎는 모수로 알 지 못함. – 표본표준편차 (𝑆)를 𝜎 대신 사용 • 𝑆= 𝑛 𝑖=1 𝑋 𝑖 −𝑋 2 (𝑛−1) – 따라서 𝑆𝐸 𝑋 의 추정값 𝑆𝐸 𝑋 = 𝑆 𝑛 – 즉, 일반적으로 사용하는 것은 표준오차의 추정값 한림대학교 이윤환(http://fb.com/yoonani72)
  • 7. 점추정 • 모분산과 모표준편차의 추정 𝑛 – 편차의 합 𝑖=1 𝑥 𝑖 − 𝑥 = 0 – 편차에 제곱 하여 모두 더한 것을 기억하나요? 𝑛 • 𝑖=1 𝑥 𝑖 − 𝑥 2 • 이를 통계에서는 제곱합(Sum of squares)이라 부릅니다. – 자유도 • 편차의 합은 0이므로 전체 자료 n 중에 (n-1)개의 편차만 알 면 나머지 하나는 저절로 결정 – 산포의 측도는 제곱합을 자유도로 나눈다. • 표본분산에서 분모가 n-1 인 이유입니다. –E 𝑆2 = 𝜎 2, 𝑆2 = 𝑛 𝑖=1 𝑋 𝑖 −𝑋 2 (𝑛−1) 한림대학교 이윤환(http://fb.com/yoonani72)
  • 8. 구간추정 • 신뢰구간 – 모수의 구간추정을 위하여 제시한 하한값과 상한값을 각각 L과 U라고 할 때 범위 (L, U) • 신뢰수준 – 신뢰구간에 모수의 참값이 포함되는 것을 얼마나 신뢰 할 수 있는 가를 나타내는 정도 – 1 − 𝛼로 나타내며 일반적으로 𝛼를 0.10, 0.05, 0.001 등을 사용한다. 한림대학교 이윤환(http://fb.com/yoonani72)
  • 9. 구간추정 • 신뢰구간의 올바른 이해 여러 표본을 통해 신뢰구간을 구할 경우 실제 모평균이 전체에서 (1-𝛼)% 정도는 포함될 것으로 기대 절대!!! 우리가 구한 신뢰구간이 실제 모평균을 포함할 확률이 아님 한림대학교 이윤환(http://fb.com/yoonani72)
  • 10. 구간추정 • 모평균의 구간추정 : 대표본 – 중심극한정리를 다시 생각해 볼까요? • 표본의 크기가 클 경우 𝑋 ~ 𝑁 𝜇, 𝜎2 𝑛 • 표본평균 𝑋가 정규분포를 따르므로 표준정규분포로 변환가능 –Z = 𝑋−𝜇 𝜎 ~ 𝑁(0, 1) 𝑛 – 모평균 𝜇에 대한 95% 신뢰수준(1 − 𝛼, 𝛼 = 0.05) • P −𝑧0.025 ≤ • P 𝑋 − 𝑧0.025 𝑋−𝜇 𝜎 𝜎 𝑛 ≤ 𝑧0.025 = 0.95 ≤ 𝜇 ≤ 𝑋 + 𝑧0.025 𝑛 𝜎 𝑛 = 0.95 한림대학교 이윤환(http://fb.com/yoonani72)
  • 11. 구간추정 1 - 𝛼 = 0.95 −𝑧0.025 =1.96 𝜎 𝑛 𝜇 𝑧0.025 =1.96 한림대학교 이윤환(http://fb.com/yoonani72) 𝜎 𝑛
  • 12. 구간추정 • 모평균의 구간추정 – 대표본인 경우 중심극한정리를 통해 𝜎 대신 s를 사용 해도 되나 소표본의 경우는 문제 발생 – t-분포 𝑋1 , 𝑋2 , … , 𝑋 𝑛 이 𝑁 𝜇, 𝜎 2 에서의 랜덤표본일 때, 𝑋− 𝜇 t= 𝑆 𝑛 는 자유도 n-1인 t분포를 따른다. 한림대학교 이윤환(http://fb.com/yoonani72)
  • 13. t분포와 정규분포 • 자유도가 3인 t분포와 정규분포 한림대학교 이윤환(http://fb.com/yoonani72)
  • 14. t분포와 정규분포 • 자유도 증가(표본 수) 증가와 정규분포 한림대학교 이윤환(http://fb.com/yoonani72)
  • 15. t분포와 정규분포 • R Code > > > > x <- seq(-3, 3, by=0.01) z <- dnorm(x) plot(x, z, type="l") lines(x, dt(x, df=3), col="red") > > > > > > x <- seq(-3, 3, by=0.01) z <- dnorm(x) plot(x, z, type="l") lines(x, dt(x, df=3), col="red") lines(x, dt(x, df=10), col="blue") lines(x, dt(x, df=30), col="yellow", lwd=2) 한림대학교 이윤환(http://fb.com/yoonani72)
  • 16. 구간추정 • 모평균의 구간추정 : 소표본 –t = 𝑋−𝜇 𝑆 𝑛 – 모평균 𝜇에 대한 95% 신뢰수준(1 − 𝛼, 𝛼 = 0.05) • P −𝑡0.025 ≤ • P 𝑋 − 𝑡0.025 𝑋−𝜇 𝑆 𝑆 𝑛 𝑛 ≤ 𝑡0.025 = 0.95 ≤ 𝜇 ≤ 𝑋 + 𝑡0.025 𝑆 𝑛 = 0.95 – 자유도가 3일 경우 −𝑡0.025 : qt(0.025, df=3) 한림대학교 이윤환(http://fb.com/yoonani72)
  • 18. 모비율의 구간추정 • 범주형자료에 대한 추정은 모평균 대신 모비율(p) 에 대한 추정 실시 – 80세 이상 노인의 비율, 불량률, 남학생의 비율 등 • 모비율의 추정량 : 𝑝 – 확률변수 X가 관심이 되는 대상의 수라 하면 𝑋 𝑝= , n은 표본의 크기 𝑛 – 모집단으로부터 추출된 표본비율 𝑝은 𝑛𝑝와 𝑛(1 − 𝑝)가 5이상일 경우 근사적으로 정규분포를 따른다. • 𝒑~𝑵(𝒑, 𝒑 𝟏−𝒑 𝒏 ) 한림대학교 이윤환(http://fb.com/yoonani72)
  • 19. 모비율의 구간추정 – 또한 모든 정규분포는 표준정규분포로 바꿀 수 있으므 로 𝑝−𝑝 𝑝(1−𝑝) 𝑛 ~ 𝑁(0, 12 ) – 모비율 p의 신뢰구간 𝑝− 𝑧𝛼 2 𝑝 1−𝑝 𝑛 , 𝑝+ 𝑧𝛼 2 𝑝 1−𝑝 𝑛 로 구한다. 한림대학교 이윤환(http://fb.com/yoonani72)
  • 20. 모비율의 구간추정 • 예제) 어떤 종합병원에서 입원환자들의 불만율을 조사하 고자 한다. 입원한 환자들중 임의로 500명을 뽑아 조사 한 결과 불만있는 환자가 20명으로 나타났다. 이 병원 환 자들의 불만율 p의 95% 신뢰구간을 구하여라. – 𝑝= 20 500 – 𝑝− 𝑧 𝛼 2 = 0.04 이고 대표본(𝑛𝑝와 𝑛(1 − 𝑝)가 5이상) 𝑝 1−𝑝 𝑛 ∶ 0.04 − 1.96 × 0.04 0.96 500 ≈ 0.04 − 0.017 = 0.023 – 𝑝+ 𝑧 𝛼 2 𝑝 1−𝑝 𝑛 ≈ 0.04 + 0.017 = 0.057 – 신뢰구간은 (0.023(2.3%), 0.057(5.7%)) 한림대학교 이윤환(http://fb.com/yoonani72)
  • 21. 표본의 크기 결정 • 모수들의 신뢰구간 추정시 1 − 𝛼를 지나치게 넓 히는 것은 모수 추정에 좋지 않다. • 이를 위해 적당한 표본의 크기를 결정하여야 한 다. • 표본의 크기 결정 – 측정할 모수 결정 (𝜇 또는 p) – 신뢰구간을 구할 신뢰수준(1 − 𝛼) 결정 – 측정할 모수에 따라 추정오차의 한계의 크기 결정 (𝑧 𝛼 2 𝜎 𝑛 , 𝑧𝛼 2 𝑆 𝑛 , 𝑧𝛼 2 𝑝 1−𝑝 𝑛 ) 한림대학교 이윤환(http://fb.com/yoonani72)
  • 22. 표본의 크기 결정 • 모평균을 추정하기 위한 표본의 크기 – 추정오차의 한계는 TS 이고 모표준편차를 알때 𝜎 𝑧𝛼 ≤ 𝑇𝑆 2 𝑛 𝜎 𝑧𝛼 ≤ 𝑛 2 𝑇𝑆 𝜎 2 (𝑧 𝛼 ) ≤ 𝑛 2 𝑇𝑆 – 모표준편차를 모를 경우에는 𝜎 대신 표본표준편차 S 사용 한림대학교 이윤환(http://fb.com/yoonani72)
  • 23. 표본의 크기 결정 • 보건소에서 환자 1명당 진료시간의 평균을 추정하려고 한다. 이전 자료를 보면 진료시간의 표준편차는 3분 정도 로 알려져 있을 때 95% 신뢰수준에서 평균진료시간의 오차의 한계를 1분 이내로 유지하려면 환자 몇 명을 표본 으로 하여야 하는가? – 진료시간의 표준편차는 3분 – 오차의 한계는 1분 – 신뢰수준은 0.95 → 𝑧0.025 = 1.96 3 𝑛 ≥ (1.96 )2 ≈ 34.6 1 즉, 35명 이상 한림대학교 이윤환(http://fb.com/yoonani72)
  • 24. 표본의 크기 결정 • 모평균을 추정하기 위한 표본의 크기 – 추정오차의 한계는 TS 이고 𝑝을 알면 𝑝 1− 𝑝 𝑧𝛼 ≤ 𝑇𝑆 2 𝑛 𝑧𝛼 𝑝 1 − 𝑝 ( 2 )2 ≤ 𝑛 𝑇𝑆 – 𝑝을 모를 경우에는𝑝 1 − 𝑝 을 최대로 하는 𝑝 = 0.5 사 용 1 𝑧𝛼2 2 ( ) ≤ 𝑛 4 𝑇𝑆 한림대학교 이윤환(http://fb.com/yoonani72)
  • 25. 표본의 크기 결정 • 보건소에서는 다시 내원할 가능성이 있는 내원객의 비율 을 추정하기 위해 표본조사를 하려고 한다. 신뢰수준 95%를 가지고 추정오차의 한계를 10% 이내로 모비율 을 추정하려고 할 때 적당한 표본의 크기는 얼마인가? – 𝑝을 모르는 상황 – 오차의 한계는 0.1 – 신뢰수준은 0.95 → 𝑧0.025 = 1.96 1 𝑧𝛼2 2 1 1.96 2 n ≥ ( ) ≡ ( ) ≈ 96.04 4 𝑇𝑆 4 0.1 97명 이상의 환자를 표본으로 추출한다. 한림대학교 이윤환(http://fb.com/yoonani72)