08.추정

용어
• 통계적 추론
– 모수에 대한 판단을 내리기 위하여 모집단에서 표본을
추출하여 데이터를 얻고 이 데이터를 기초로 하여 통
계이론에 의한 결론을 내리게 되는 과정

• 통계적 추론의 두 분야
– 추정
• 표본을 이용하여 모집단의 미지의 모수를 추측하는 과정

– 가설검정
• 표본을 이용하여 모집단에 대한 어떤 예상 또는 주장의 옳고
그름을 판정하거나, 주장의 채택 또는 기각을 결정하는 과정

한림대학교 이윤환(http://fb.com/yoonani72)

용어
• 점추정
– 모수를 하나의 값으로 추정

• 구간추정
– 모수에 대한 추정으로 하나의 점이 아닌 구간으로 추정

• 추정량(estimator)
– 모수의 추정에 사용되는 통계량
– 예 : 모평균에 대한 추정량은 표본평균
• 𝑋=

𝑋1 +𝑋2 +⋯+𝑋 𝑛
𝑛

=

𝑛
𝑖=1

𝑋𝑖

𝑛

• 추정값(estimate)
– 추정량에 실제 관측값을 대입하여 얻은 값

점추정
• 모평균의 추정량 : 표본평균
– 𝑋=

𝑋1 +𝑋2 +⋯+𝑋 𝑛
𝑛

=

𝑛
𝑖=1

𝑋𝑖

𝑛

– 무한모집단의 경우 모집단의 평균이 𝜇이고 분산이 𝜎 2
일 때 표본평균 𝑋는 다음과 같은 성질을 갖는다.
• 𝐸 𝑋 = 𝜇
• 𝑉𝑎𝑟 𝑋 =

𝜎2
𝑛

– 불편추정량
• 모수 𝜃의 추정량 𝜃에 대하여 𝐸 𝜃 = 𝜃 가 성립할 때 𝜃을 𝜃의
불편추정량이라 한다.
• 𝑋는 𝜇의 불편추정량

점추정
• 좋은 추정량…
– 추정량의 표준편차가 작을수록 좋은 추정량
– 불편추정량 𝜃1 과 𝜃2 이 있을때 이 둘중 더 좋은 추정량
은 표준편차가 작은 추정량

• 표준오차(Standard Error, SE)
– 추정량의 표준편차를 표준오차라고 한다.
– 추정량의 정밀도를 나타냄
– 표본평균 𝑋의 표준오차
• 𝑆𝐸 𝑋 =

𝜎
𝑛


점추정
• 표준오차(계속)
– 일반적으로 표본평균의 표준오차에서 𝜎는 모수로 알
지 못함.
– 표본표준편차 (𝑆)를 𝜎 대신 사용
• 𝑆=

𝑛
𝑖=1

𝑋 𝑖 −𝑋 2

(𝑛−1)

– 따라서 𝑆𝐸 𝑋 의 추정값 𝑆𝐸 𝑋 =

𝑆

𝑛

– 즉, 일반적으로 사용하는 것은 표준오차의 추정값


점추정
• 모분산과 모표준편차의 추정

𝑛
– 편차의 합 𝑖=1 𝑥 𝑖 − 𝑥 = 0
– 편차에 제곱 하여 모두 더한 것을 기억하나요?
𝑛
• 𝑖=1 𝑥 𝑖 − 𝑥 2
• 이를 통계에서는 제곱합(Sum of squares)이라 부릅니다.

– 자유도
• 편차의 합은 0이므로 전체 자료 n 중에 (n-1)개의 편차만 알
면 나머지 하나는 저절로 결정

– 산포의 측도는 제곱합을 자유도로 나눈다.
• 표본분산에서 분모가 n-1 인 이유입니다.

–E

𝑆2

=

𝜎 2,

𝑆2

=

𝑛
𝑖=1

𝑋 𝑖 −𝑋 2

(𝑛−1)


구간추정
• 신뢰구간
– 모수의 구간추정을 위하여 제시한 하한값과 상한값을
각각 L과 U라고 할 때 범위 (L, U)

• 신뢰수준
– 신뢰구간에 모수의 참값이 포함되는 것을 얼마나 신뢰
할 수 있는 가를 나타내는 정도
– 1 − 𝛼로 나타내며 일반적으로 𝛼를 0.10, 0.05,
0.001 등을 사용한다.


구간추정
• 신뢰구간의 올바른 이해
여러 표본을 통해
신뢰구간을 구할 경우
실제 모평균이 전체에서 (1-𝛼)%
정도는 포함될 것으로 기대
절대!!!
우리가 구한 신뢰구간이
실제 모평균을
포함할 확률이 아님


구간추정
• 모평균의 구간추정 : 대표본
– 중심극한정리를 다시 생각해 볼까요?
• 표본의 크기가 클 경우 𝑋 ~ 𝑁 𝜇,

𝜎2
𝑛

• 표본평균 𝑋가 정규분포를 따르므로 표준정규분포로 변환가능

–Z =

𝑋−𝜇
𝜎

~ 𝑁(0, 1)

𝑛

– 모평균 𝜇에 대한 95% 신뢰수준(1 − 𝛼, 𝛼 = 0.05)
• P −𝑧0.025 ≤
• P 𝑋 − 𝑧0.025

𝑋−𝜇
𝜎

𝜎

𝑛

≤ 𝑧0.025 = 0.95

≤ 𝜇 ≤ 𝑋 + 𝑧0.025
𝑛

𝜎

𝑛

= 0.95


구간추정

1 - 𝛼 = 0.95

−𝑧0.025 =1.96

𝜎
𝑛

𝜇

𝑧0.025 =1.96


𝜎
𝑛

구간추정
• 모평균의 구간추정
– 대표본인 경우 중심극한정리를 통해 𝜎 대신 s를 사용
해도 되나 소표본의 경우는 문제 발생
– t-분포
𝑋1 , 𝑋2 , … , 𝑋 𝑛 이 𝑁 𝜇, 𝜎 2 에서의 랜덤표본일 때,
𝑋− 𝜇
t=
𝑆
𝑛
는 자유도 n-1인 t분포를 따른다.


t분포와 정규분포
• 자유도가 3인 t분포와 정규분포


• 자유도 증가(표본 수) 증가와 정규분포


• R Code
>
>
>
>

x <- seq(-3, 3, by=0.01)
z <- dnorm(x)
plot(x, z, type="l")
lines(x, dt(x, df=3), col="red")

>
>
>
>
>
>

x <- seq(-3, 3, by=0.01)
z <- dnorm(x)
plot(x, z, type="l")
lines(x, dt(x, df=3), col="red")
lines(x, dt(x, df=10), col="blue")
lines(x, dt(x, df=30), col="yellow", lwd=2)


구간추정
• 모평균의 구간추정 : 소표본
–t =

𝑋−𝜇
𝑆

𝑛

– 모평균 𝜇에 대한 95% 신뢰수준(1 − 𝛼, 𝛼 = 0.05)
• P −𝑡0.025 ≤
• P 𝑋 − 𝑡0.025

𝑋−𝜇
𝑆

𝑆

𝑛

𝑛

≤ 𝑡0.025 = 0.95
≤ 𝜇 ≤ 𝑋 + 𝑡0.025

𝑆

𝑛

= 0.95

– 자유도가 3일 경우 −𝑡0.025 : qt(0.025, df=3)


모비율의 추정과 표본의 수 결정

모비율의 구간추정
• 범주형자료에 대한 추정은 모평균 대신 모비율(p)
에 대한 추정 실시
– 80세 이상 노인의 비율, 불량률, 남학생의 비율 등

• 모비율의 추정량 : 𝑝
– 확률변수 X가 관심이 되는 대상의 수라 하면
𝑋
𝑝= ,
n은 표본의 크기
𝑛

– 모집단으로부터 추출된 표본비율 𝑝은 𝑛𝑝와 𝑛(1 − 𝑝)가
5이상일 경우 근사적으로 정규분포를 따른다.
• 𝒑~𝑵(𝒑,

𝒑 𝟏−𝒑
𝒏

)


– 또한 모든 정규분포는 표준정규분포로 바꿀 수 있으므
로
𝑝−𝑝
𝑝(1−𝑝)
𝑛

~ 𝑁(0, 12 )

– 모비율 p의 신뢰구간

𝑝− 𝑧𝛼 2

𝑝 1−𝑝
𝑛

, 𝑝+ 𝑧𝛼 2

𝑝 1−𝑝
𝑛

로 구한다.


• 예제) 어떤 종합병원에서 입원환자들의 불만율을 조사하
고자 한다. 입원한 환자들중 임의로 500명을 뽑아 조사
한 결과 불만있는 환자가 20명으로 나타났다. 이 병원 환
자들의 불만율 p의 95% 신뢰구간을 구하여라.
– 𝑝=

20
500

– 𝑝− 𝑧

𝛼

2

= 0.04 이고 대표본(𝑛𝑝와 𝑛(1 − 𝑝)가 5이상)
𝑝 1−𝑝
𝑛

∶ 0.04 − 1.96 ×

0.04 0.96
500

≈ 0.04 − 0.017 = 0.023
–

𝑝+ 𝑧

𝛼

2

𝑝 1−𝑝
𝑛

≈ 0.04 + 0.017 = 0.057

– 신뢰구간은 (0.023(2.3%), 0.057(5.7%))

표본의 크기 결정
• 모수들의 신뢰구간 추정시 1 − 𝛼를 지나치게 넓
히는 것은 모수 추정에 좋지 않다.
• 이를 위해 적당한 표본의 크기를 결정하여야 한
다.
• 표본의 크기 결정
– 측정할 모수 결정 (𝜇 또는 p)
– 신뢰구간을 구할 신뢰수준(1 − 𝛼) 결정
– 측정할 모수에 따라 추정오차의 한계의 크기 결정
(𝑧 𝛼 2

𝜎
𝑛

, 𝑧𝛼 2

𝑆
𝑛

, 𝑧𝛼 2

𝑝 1−𝑝
𝑛

)


• 모평균을 추정하기 위한 표본의 크기
– 추정오차의 한계는 TS 이고 모표준편차를 알때
𝜎
𝑧𝛼
≤ 𝑇𝑆
2
𝑛
𝜎
𝑧𝛼
≤ 𝑛
2 𝑇𝑆
𝜎 2
(𝑧 𝛼
) ≤ 𝑛
2 𝑇𝑆
– 모표준편차를 모를 경우에는 𝜎 대신 표본표준편차 S
사용


• 보건소에서 환자 1명당 진료시간의 평균을 추정하려고
한다. 이전 자료를 보면 진료시간의 표준편차는 3분 정도
로 알려져 있을 때 95% 신뢰수준에서 평균진료시간의
오차의 한계를 1분 이내로 유지하려면 환자 몇 명을 표본
으로 하여야 하는가?
– 진료시간의 표준편차는 3분
– 오차의 한계는 1분
– 신뢰수준은 0.95 → 𝑧0.025 = 1.96
3
𝑛 ≥ (1.96 )2 ≈ 34.6
1
즉, 35명 이상


• 모평균을 추정하기 위한 표본의 크기
– 추정오차의 한계는 TS 이고 𝑝을 알면
𝑝 1− 𝑝
𝑧𝛼
≤ 𝑇𝑆
2
𝑛
𝑧𝛼
𝑝 1 − 𝑝 ( 2 )2 ≤ 𝑛
𝑇𝑆
– 𝑝을 모를 경우에는𝑝 1 − 𝑝 을 최대로 하는 𝑝 = 0.5 사
용
1 𝑧𝛼2 2
(
) ≤ 𝑛
4 𝑇𝑆

• 보건소에서는 다시 내원할 가능성이 있는 내원객의 비율
을 추정하기 위해 표본조사를 하려고 한다. 신뢰수준
95%를 가지고 추정오차의 한계를 10% 이내로 모비율
을 추정하려고 할 때 적당한 표본의 크기는 얼마인가?
– 𝑝을 모르는 상황
– 오차의 한계는 0.1
– 신뢰수준은 0.95 → 𝑧0.025 = 1.96
1 𝑧𝛼2 2
1 1.96 2
n ≥ (
) ≡ (
) ≈ 96.04
4 𝑇𝑆
4 0.1

97명 이상의 환자를 표본으로 추출한다.


08.추정

Recommended

Recommended

More Related Content

What's hot

What's hot (11)

Viewers also liked

Viewers also liked (17)

Similar to 08.추정

Similar to 08.추정 (20)

More from Yoonwhan Lee

More from Yoonwhan Lee (12)

08.추정