[확률통계]04모수추정

확률 및 통계4
nonezerok@gmail.com
1

2
표본1
, , ⋯ , 
표본이 하나 주어졌을 때 모분포에 대해 얘기할 수 있는 것

통계적 추정;inference
• 관측된 데이터; 일부 데이터로 전체를 추리하는 것
• 관측된 데이터로 모집단을 추리하는 것
• 선거의 출구조사
• 모집단 추리 = 모수 추리 = 모수 추정
3

모수; parameter
• 모집단을 하나로 정하는 수
4

최대우도; maximum likelihood
• 관측된 데이터
• 관측된 데이터에 대한 결합확률질량(밀도)함수
• 우도; likelihood :  가 진짜 모수 일 때  가 관측될 가능도
5
, ⋯, 
 , ⋯ , 
 , ⋯ ,  = 
 
 ⋯ 
 =   =    =  ⋯   = 
는 서로 독립, 동일한 분포로 가정
 , ⋯ , ;  우도함수

최대우도 추정치 
• , ⋯, 이 관측된 값일 때,
• 우도함수  , ⋯ , ;  를 최대화하는  값
• 최대우도 추정 시,
• 우도함수와 로그를 취한 우도함수는 동일  에서 최댓값을 가짐
• maximum log likelihood estimator
6
Ronald Aylmer Fisher (1890~1962)

베르누이 모집단 추정치 ̂
• 매회 성공확률이 인 독립시행을 번 수행
7
 = 
1
0
번째 시행이 성공인 경우
그 외의 경우
  = 1 = ,   = 0 = 1 − 
  =  =  1 −  ,  ∈ 0,1
이렇게 두 경우를 한 식으로 표현할 수 있는 것이 핵심

8
 , ⋯ , ;  =   = , ⋯ ,  = ; 
=  1 −   ⋯  1 −   = ∑  1 −  ∑ 
  , ⋯ , | = log ∑  1 −  ∑ 
= log ∑  + log 1 −  ∑ 
=  


log  +  1 − 


log 1 −  5 log + 5 log 1 − 

9
성공만 나온 경우
 =   = 1 = 1
실패만 나온 경우
 =   = 1 = 0
최댓값
성공이나 실패만 나온 경우
01

10
성공과 실패가 반반 나온 경우
 =   = 1 = 0.5
0.5

11
성공 70%과 실패 30%나온 경우
0.7
 =   = 1 = 0.7

12


  , ⋯ , ; 
=


 


log  +  1 − 


log 1 − 
=  


1

+  1 − 


−1
1 − 
위로 볼록한 그래프니까, 미분해서 0되는 지점이 최대값

13
 


1
̂
−  1 − 


1
1 − ̂
= 0
∑ 


̂
=
∑ 1 − 


1 − ̂
=
 − ∑ 


1 − ̂
 


−  


̂ = ̂ −  ̂


̂ =
∑ 



∑ 



추정치 추정량
정답이 ̂일 때, 0이다.

정규 모집단 추정치
14
 , ⋯ , ; , 
=
1
 2
 −
 −  
2 × ⋯ ×
1
 2
 −
 −  
2
= 
1
 2
 −
 −  
2


=
1

1
2
/
exp −
∑  −  
2

15
  , ⋯ , ; , 
= 
1

1
2
/
exp −
∑  −  

2
= − log  −

2
log 2 −
∑  −  

2

16


  , ⋯ , ; , 
=


− log  −

2
log 2 −
∑  −  

2
= −2
∑  − 

2 −1 =
∑  − 


∑  − 


= 0   − 


= 0  =  


/
gnuplot> plot [-1:1] exp(-x**2)

17


  , ⋯ , ; , 
=


− log  −

2
log 2 −
∑  −  

2
= −


−
∑  −  

2


 = −


−
∑  −  

2
−2 
−


+   −  


/ = 0  =   −  


/
/
gnuplot> set yrange [-10:100]
gnuplot> plot [0:0.3] -100*log(x)-50*log(2*3.14)-100*0.01/(2*x**2)

정규 모집단 추정량
•  = ∑ 

 /
•  = ∑  −  
 /  − 1
/
18
 =  


/
 =   −  


/
/
 =   −  


/  − 1
/
MLE 결과는 이건데…

MLE 기반 점추정치 정리
19
̂ =
∑ 



 =  =   −  


/  − 1
/
̅ =  =  


/
, , ⋯ , 
성공횟수

구간추정치
• 점추정치 활용
• 모수가 속할 것으로 추정되는 구간을 지정
• 구간추정치에 부여할 신뢰confidence 개념 필요
20

표본값을 구간으로 예측한다는 것
• 표준정규분포라고 가정했을 때
• -1 ~ 1 사이라고 예측하면 맞출 확률: 68.3%
• -2 ~ 2 사이라고 예측하면 맞출 확률: 95.4%
• -3 ~ 3 사이라고 예측하면 맞출 확률: 99.7%
• 95%의 확률로 예측을 맞출 수 있는 구간은: ∓1.96
• 99%의 확률로 예측을 맞출 수 있는 구간은: ∓2.58
21
 −1.96 ≤
 − 

≤ +1.96 = 0.95
일단 쉬운 것 부터… 샘플링한 숫자가 얼마일까를 예측하라고 했을 때

같은 확률을 갖는 예측구간은 많다
• 95%의 확률을 가지는 구간은 많음
• −1.96 ~1.96
• −2.1 ~ 1.86
[참고]
22

예제1
• 내일 미팅에 나올 여학생의 키를 예측하라
• 맞출 확률이 95%
• 여학생의 키는 정규분포라고 가정
• 평균은 160
• 표준편차는 10
23
−1.96 ≤
 − 160
10
≤ 1.96, 140.4, 179.6
정규분포의 모수가 알려져 있다

예제2
• 동전을 100번 던졌을 때,
• 앞면이 나오는 횟수를 몇 번(구간)이라고 해야지, 95% 맞는가?
24
95%
영역

예제2
• 동전을 100번 던졌을 때,
• 앞면이 나올 확률  = 1/2
• 95% 확률로 앞면이 나오는 횟수의 구간을 예측해 보라
• 번 던져서 앞면이 나오는 횟수를 확률변수 라고 하자
• 이 확률변수는 이항 분포를 따른다 ~(, )
• 시행횟수가 커지면, 이항 분포를 정규분포로 근사할 수 있다
25
−1.96 ≤
 − 

≤ 1.96

26
~(, (1 − ))
 = 1
2
 =  = 100
2 = 50
 = (1 − ) = 100
2
 = 10
2 = 5
−1.96 ≤
 − 50
5
≤ 1.96, 40.2, 59.8
 = 100
정규분포의 모수가 알려져 있다

모수의 구간
• 동전 앞면이 10개 나왔다( 이항 확률변수)
• 95% 확신하는,
• 실제 던진 개수  이라고 가정할 만한 범위는?
• 이항 확률변수는 이 큰 경우 정규분포에 근사
27
가정을 어떻게 하는 가에 따라
동전 앞면이 10번 나올 확률이 달라진다.

모수의 구간
• 어느 정도 신뢰할 만한,
• 실제 던진 개수  이라고 가정할 만한 범위는?
28

모수의 구간
• 95% 신뢰할 만한,
• 실제 던진 개수  이라고 추정할 만한 범위는?
29

30
 =   =  =  × 1
2
 =   =  1 −  =  × 1
2 × 1
2
 =
10 − 
2

2

P 13 ≤  ≤ 30 ≈ ?
P −1.96 ≤  ≤ +1.96 ≈ 0.95

95%에 해당하는 수치

31
 = 2 + 1
  = 
  = 2 + 1
 =
1
2
 −
1
2
  = 
  =
1
2
 −
1
2
에 대한 함수 에 대한 함수
P 13 ≤  ≤ 30 ≈ ?
P −1.96 ≤  ≤ +1.96 ≈ 0.95
는 에 대한 함수; 표준정규분포함수가 알려져
있다. 값도 계산할 수 있다.
는 에 대한 함수
관련이 있긴 있다.

32
앞면이 10회 나왔을 때,
던진 횟수 이 13~30이었다.
P 13 ≤  ≤ 30 ≈ ?
여기서 말을 끝내면 전문성이 없어 보여.

33
던진 횟수 이 13~30이었다고 95% 확신한다.
P 13 ≤  ≤ 30 ≈ ?
이었을 확률이 95%이라고 말하면 안됩니다.
P −1.96 ≤  ≤ +1.96 ≈ 0.95

34
던진 횟수 이 13~30이었다고 95% 확신한다.
P 13 ≤  ≤ 30 ≈ ?
95%는 그냥 쓰는 말!
100만큼 확신해, 999만큼 확신해.
신뢰하는 정도를 나타내는 수치
신뢰수준
너가 95% 확신하면,
나는 너를 95% 신뢰할게.
너가 추정한 구간에 대한 신뢰수준은 95%야.
이 말들에 대한 뉘앙스를 알아야해
확률은 확실히 아니다!
에 불과하다.
이란 단어를 쓰면 적절하겠군.
이 말이 이해가 된다. 95%가 들어가니 꼭 확률같아 보이는 착시가 생겨.
아주 수학적으로 보여. 수치화할 수 없는 신뢰라는 것을 확률에서 끌고와서 쓰다니. 대단해.

35
신뢰수준 95%에서,
던진 횟수 은 13~30이다.
P 13 ≤  ≤ 30 ≈ ?
95%는 숫자,
신뢰수준이라는 단어가 들어가니 훨씬 적문적으로 보여.
여기서 추정한 N은 이항분포의 파라미터(모수)였어.
던진 횟수 은 13~30이다.

온도계
• 정확도가 떨어지는 온도계, 측정한 온도를 확률변수 
• 측정된 온도는 실제 온도 를 평균으로 하고,
• 표준편차가 5.0도인 정규 분포로 가정
• 현재 측정된 온도가 20도
• 95% 확신하는,
• 실제 온도  라고 가정할 만한 구간은?
36
표본평균
무한 번 측정해서 평균을 구하면 실제 온도를 알 수 있겠지만 현실성 없음

37
P −1.96 ≤
 − 
5
≤ 1.96 ≈ 0.95
→  −9.8 ≤ 20 −  ≤ 9.8 ≈ 0.95
→  −29.8 ≤ − ≤ −10.2 ≈ ?
→  10.2 ≤  ≤ 29.8 ≈ ?
20도로 측정되었을 때,
실제 온도는 10.2도에서 29.8 구간에 있다고 95% 확신한다.
너가 추정한 구간에 대한 신뢰수준은 95%야.

여론조사
• 여론조사 1회
• 1,000명의 유권자를 무작위로 추출
• 이 중 55%만이 A씨를 지지
• 지지하면 성공, 지지하지 않으면 실패인 베르누이 확률변수 
• 여론조사를 무한히 반복 시행하면, [] = 
• 진짜 를 표본 하나에서 구한 ̂으로 표현해 보자
38
 = 0.55
좀 더 현실적인 문제를 다루어 보자.

39
 −1.96 ≤
̂ − 
 
≤ 1.96 ≈ 0.95
 −1.96  ≤ ̂ −  ≤ 1.96  ≈ 0.95
  − 1.96  ≤  ≤  + 1.96  ≈ 0.95
모 분포의 성공비율이 일 때,
표본에서 구한 추정치 ̂이 이 구간에 포함될 수 있는 구간
95% 확률로

40
 −1.96 ≤
̂ − 
 
≤ 1.96 ≈ 0.95
표본에서 구한 추정치가 ̂일 때
모 분포의 모수 가 포함될 수 있는 구간
95% 확신으로, 95% 신뢰수준으로
 −1.96  ≤ ̂ −  ≤ 1.96  ≈ 0.95
  − 1.96  ≤  ≤  + 1.96  ≈ ?
지지율  가 ̂ − 1.96  와 1.96  사이라고 95% 확신

95% 신뢰구간
• 지지율  가 ̂ − 1.96  와 1.96  사이라고 95% 확신
• 지지율  를 95% 확신하는 구간: ̂ − 1.96  ~ 1.96 
• 위 구간이
• 실제 지지율 를 포함할 확률이 0.95라고 해석하지는 말 것
41
‘95% 신뢰수준’이라고 얘기할 수 있는 구간

베르누이 분포의 모수 구간추정치
• 성공비율에 대한 확률변수 
• 표본으로부터 구한 성공비율 ̂
•  ~    ,   =  ,
()

42

43
 ̂ ≡
̂ (1 − ̂)

 ̂ − 1.96  ≤  ≤ ̂ + 1.96  ≈ 0.95
  − 1.96  ≤  ≤  + 1.96  ≈ ?
̂ 하나의 표본에서 구한 추정치
 −1.96 ≤  ≤ +1.96 = 0.95

44
 ̂ =
0.55 (1 − 0.55)
1000
= 0.0157
 ̂ − 1.96 ̂ ≤  ≤ ̂ + 1.96 ̂ ≈ ?
̂ = 0.55
0.55 ∓ 1.96 × 0.0157
= 0.55 ∓ 0.031
↔ 0.519 ≤  ≤ 0.581
• 95% 신뢰수준에서
•  = 0.55
• 오차한계는 3%

95% 신뢰수준; 95% 신뢰구간의 의미
• 동일한 모집단에서 반복해서 표본을 추출할 경우
• 모집단 모수를 포함하는 구간이
• 전체 표본 추출 중에 몇 번인지를 나타내는 비율; 확률
45
(95%) 신뢰구간
95% 확률로 표본 
⁄ 개는 모수 포함
모수 미 포함 신뢰구간

46
20회 중에 1번 이탈
95% 확률
실제평균

47
특정표본에서
모수가  ∓ 일 확률 자체는 낮을 수 있음
(95%가 아님)

48
• 모평균 4
• 모표준편차 1
• 표본크기 100
• 표본 100개
(출처) 이재원 외, 공학인증을 위한 확률과 통계, 한티미디어, pp.329-330.
표본
9, 10, 34, 67, 84는
모평균 4를 포함하고
있지 않다.
100번 중에 95번은
포함한다.
95
100 = 0.95

99% 신뢰구간
• 0.99
• 2.58
49
0.99
 − 2.58
0.55 ∓ 2.58 × 0.0157
= 0.55 ∓ 0.041
↔ 0.509 ≤  ≤ 0.591
•  = 0.55

99% 신뢰구간, 오차범위를 0.01
• 95%일 때  = 1.96
 ()

• 99%일 때  = 2.58
 ()

• ̂ = 0.50 으로 가정하면,
50
 =
1.96 
̂ (1 − ̂)

 =
2.58 ̂ (1 − ̂)

 =
2.58 
0.5 (1 − 0.5)
0.01
=
(6.65)(0.25)
0.0001
= 16,641
•  = 0.50
오차
1만6천명 조사해야 합니다.

모평균 구간추정치
• 표본평균 
• 표본에서 구한 추정치 ̅
•  ~    ,   =  ,


51

52
 −1.96 ≤  ≤ +1.96 = 0.95
 −1.96 ≤
 − 


≤ 1.96 ≈ 0.95
 −1.96 ≤
̅ − 


≤ 1.96 ≈ 0.95
 =   −  


/  − 1
/
̅ =  


/

53
 −1.96 ≤
̅ − 


≤ 1.96 ≈ 0.95
 ̅ − 1.96  ≤  ≤ ̅ + 1.96  ≈ ?
  = 

모평균 는 ̅ ∓ 1.96  구간에 존재한다고 95% 확신

도시 전체에서 남자의 평균 몸무게
• 어떤 도시 남자들의 무작위 표본 92명
• 표본평균 ̅ = 145.2 파운드, 모평균의 추정치
• 표본편차  = 23.7 파운드
• 오차한계 관련 값
• 이 도시 모든 남자들의 평균 몸무게는 다음 구간 내에 있다고
95% 확신할 수 있다
54
  = 
 = 23.7
92
 = 2.47
̅ ∓ 1.96  = 145.2 ∓ 1.96 2.47 = 145.2 ∓ 4.8

작은 표본의 모평균 구간추정치
• Student  − 분포 사용
• 고셋은  − 분포표를 계산해 두었다
• 모평균 의 범위를 1 −   100% 확신하는 구간
• 표본평균은 근사적으로 정규분포를 따른다고 가정
55
  = 
 = ̅ ∓ 
⁄   ,

⁄ 는 자유도가  − 1인  − 분포의 임계값

56
degree of
freedom

2



자동차 수리비용
• 자동차 시속 10마일 충돌 실험, 5대
• 실험에서 수리비용은 150, 400, 720, 500, 930달러
• 평균 수리비용의 범위는, 95% 신뢰구간
• 평균 수리비용은 근사적으로 정규분포임을 가정
57
  = 229
5

̅ = 540
일단 표본평균, 표본표준편차부터 구해야겠지.

• 실험에서 수리비용은 150, 400, 720, 500, 930달러
58
  = 229
5

 = ̅ ∓ 
   = 540 ∓ 2.78 229
5
 = 540 ∓ 372
̅ = 540 
 = .
 = . = 2.78
값 구한다.

• 실험에서 수리비용은 150, 400, 720, 500, 930달러
59
  = 229
5

 = ̅ ∓ 
   = 540 ∓ 2.78 229
5
 = 540 ∓ 372
̅ = 540 
 = .
 = . = 2.78 자유도 4인 표에서
값 구한다.

정리하면…
• 모집단의 평균에 대한
• 1 −   100% 신뢰구간은
60
 = ̂ ∓ 
⁄  ̂
 ̂ =
̂ 1 − ̂

 는 베르누이 분포의 기댓값; 평균
 = ̅ ∓ 
⁄  
  = 

 는 정규 분포의 기댓값; 평균
 = ̅ ∓ 
⁄   ,
  = 

 는 정규 분포의 기댓값; 평균
표본의 크기가 큰, 무작위 표본 표본의 크기가 작은, 무작위 표본

참고문헌
• Sheldon M. Ross, Introduction to Probability and Statistics for
Engineers and Scientists, 5th Edition, Academic Press
• 이광수 역, 이공계용 확률과 통계, 홍릉과학출판사
• chap. 7
61

[확률통계]04모수추정

Recommended

Recommended

More Related Content

More from jaypi Ko

More from jaypi Ko (20)

[확률통계]04모수추정