SlideShare a Scribd company logo
1 of 61
Download to read offline
확률 및 통계4
nonezerok@gmail.com
1
2
표본1
, , ⋯ , 
표본이 하나 주어졌을 때 모분포에 대해 얘기할 수 있는 것
통계적 추정;inference
• 관측된 데이터; 일부 데이터로 전체를 추리하는 것
• 관측된 데이터로 모집단을 추리하는 것
• 선거의 출구조사
• 모집단 추리 = 모수 추리 = 모수 추정
3
모수; parameter
• 모집단을 하나로 정하는 수
4
최대우도; maximum likelihood
• 관측된 데이터
• 관측된 데이터에 대한 결합확률질량(밀도)함수
• 우도; likelihood :  가 진짜 모수 일 때  가 관측될 가능도
5
, ⋯, 
 , ⋯ , 
 , ⋯ ,  = 
 
 ⋯ 
 =   =    =  ⋯   = 
는 서로 독립, 동일한 분포로 가정
 , ⋯ , ;  우도함수
최대우도 추정치 
• , ⋯, 이 관측된 값일 때,
• 우도함수  , ⋯ , ;  를 최대화하는  값
• 최대우도 추정 시,
• 우도함수와 로그를 취한 우도함수는 동일  에서 최댓값을 가짐
• maximum log likelihood estimator
6
Ronald Aylmer Fisher (1890~1962)
베르누이 모집단 추정치 ̂
• 매회 성공확률이 인 독립시행을 번 수행
7
 = 
1
0
번째 시행이 성공인 경우
그 외의 경우
  = 1 = ,   = 0 = 1 − 
  =  =  1 −  ,  ∈ 0,1
이렇게 두 경우를 한 식으로 표현할 수 있는 것이 핵심
8
 , ⋯ , ;  =   = , ⋯ ,  = ; 
=  1 −   ⋯  1 −   = ∑  1 −  ∑ 
  , ⋯ , | = log ∑  1 −  ∑ 
= log ∑  + log 1 −  ∑ 
=  


log  +  1 − 


log 1 −  5 log + 5 log 1 − 
9
성공만 나온 경우
 =   = 1 = 1
실패만 나온 경우
 =   = 1 = 0
최댓값
성공이나 실패만 나온 경우
01
10
성공과 실패가 반반 나온 경우
 =   = 1 = 0.5
0.5
11
성공 70%과 실패 30%나온 경우
0.7
 =   = 1 = 0.7
12


  , ⋯ , ; 
=


 


log  +  1 − 


log 1 − 
=  


1

+  1 − 


−1
1 − 
위로 볼록한 그래프니까, 미분해서 0되는 지점이 최대값
13
 


1
̂
−  1 − 


1
1 − ̂
= 0
∑ 


̂
=
∑ 1 − 


1 − ̂
=
 − ∑ 


1 − ̂
 


−  


̂ = ̂ −  ̂


̂ =
∑ 



∑ 



추정치 추정량
정답이 ̂일 때, 0이다.
정규 모집단 추정치
14
 , ⋯ , ; , 
=
1
 2
 −
 −  
2 × ⋯ ×
1
 2
 −
 −  
2
= 
1
 2
 −
 −  
2


=
1

1
2
/
exp −
∑  −  
2
15
  , ⋯ , ; , 
= 
1

1
2
/
exp −
∑  −  

2
= − log  −

2
log 2 −
∑  −  

2
16


  , ⋯ , ; , 
=


− log  −

2
log 2 −
∑  −  

2
= −2
∑  − 

2 −1 =
∑  − 


∑  − 


= 0   − 


= 0  =  


/
gnuplot> plot [-1:1] exp(-x**2)
17


  , ⋯ , ; , 
=


− log  −

2
log 2 −
∑  −  

2
= −


−
∑  −  

2


 = −


−
∑  −  

2
−2 
−


+   −  


/ = 0  =   −  


/
/
gnuplot> set yrange [-10:100]
gnuplot> plot [0:0.3] -100*log(x)-50*log(2*3.14)-100*0.01/(2*x**2)
정규 모집단 추정량
•  = ∑ 

 /
•  = ∑  −  
 /  − 1
/
18
 =  


/
 =   −  


/
/
 =   −  


/  − 1
/
MLE 결과는 이건데…
MLE 기반 점추정치 정리
19
̂ =
∑ 



 =  =   −  


/  − 1
/
̅ =  =  


/
, , ⋯ , 
성공횟수
구간추정치
• 점추정치 활용
• 모수가 속할 것으로 추정되는 구간을 지정
• 구간추정치에 부여할 신뢰confidence 개념 필요
20
표본값을 구간으로 예측한다는 것
• 표준정규분포라고 가정했을 때
• -1 ~ 1 사이라고 예측하면 맞출 확률: 68.3%
• -2 ~ 2 사이라고 예측하면 맞출 확률: 95.4%
• -3 ~ 3 사이라고 예측하면 맞출 확률: 99.7%
• 95%의 확률로 예측을 맞출 수 있는 구간은: ∓1.96
• 99%의 확률로 예측을 맞출 수 있는 구간은: ∓2.58
21
 −1.96 ≤
 − 

≤ +1.96 = 0.95
일단 쉬운 것 부터… 샘플링한 숫자가 얼마일까를 예측하라고 했을 때
같은 확률을 갖는 예측구간은 많다
• 95%의 확률을 가지는 구간은 많음
• −1.96 ~1.96
• −2.1 ~ 1.86
[참고]
22
예제1
• 내일 미팅에 나올 여학생의 키를 예측하라
• 맞출 확률이 95%
• 여학생의 키는 정규분포라고 가정
• 평균은 160
• 표준편차는 10
23
−1.96 ≤
 − 160
10
≤ 1.96, 140.4, 179.6
정규분포의 모수가 알려져 있다
예제2
• 동전을 100번 던졌을 때,
• 앞면이 나오는 횟수를 몇 번(구간)이라고 해야지, 95% 맞는가?
24
95%
영역
예제2
• 동전을 100번 던졌을 때,
• 앞면이 나올 확률  = 1/2
• 95% 확률로 앞면이 나오는 횟수의 구간을 예측해 보라
• 번 던져서 앞면이 나오는 횟수를 확률변수 라고 하자
• 이 확률변수는 이항 분포를 따른다 ~(, )
• 시행횟수가 커지면, 이항 분포를 정규분포로 근사할 수 있다
25
−1.96 ≤
 − 

≤ 1.96
26
~(, (1 − ))
 = 1
2
 =  = 100
2 = 50
 = (1 − ) = 100
2
 = 10
2 = 5
−1.96 ≤
 − 50
5
≤ 1.96, 40.2, 59.8
 = 100
정규분포의 모수가 알려져 있다
모수의 구간
• 동전 앞면이 10개 나왔다( 이항 확률변수)
• 95% 확신하는,
• 실제 던진 개수  이라고 가정할 만한 범위는?
• 이항 확률변수는 이 큰 경우 정규분포에 근사
27
가정을 어떻게 하는 가에 따라
동전 앞면이 10번 나올 확률이 달라진다.
모수의 구간
• 동전 앞면이 10개 나왔다( 이항 확률변수)
• 어느 정도 신뢰할 만한,
• 실제 던진 개수  이라고 가정할 만한 범위는?
• 이항 확률변수는 이 큰 경우 정규분포에 근사
28
모수의 구간
• 동전 앞면이 10개 나왔다( 이항 확률변수)
• 95% 신뢰할 만한,
• 실제 던진 개수  이라고 추정할 만한 범위는?
• 이항 확률변수는 이 큰 경우 정규분포에 근사
29
30
 =   =  =  × 1
2
 =   =  1 −  =  × 1
2 × 1
2
 =
10 − 
2

2

P 13 ≤  ≤ 30 ≈ ?
P −1.96 ≤  ≤ +1.96 ≈ 0.95

95%에 해당하는 수치
31
 = 2 + 1
  = 
  = 2 + 1
 =
1
2
 −
1
2
  = 
  =
1
2
 −
1
2
에 대한 함수 에 대한 함수
P 13 ≤  ≤ 30 ≈ ?
P −1.96 ≤  ≤ +1.96 ≈ 0.95
는 에 대한 함수; 표준정규분포함수가 알려져
있다. 값도 계산할 수 있다.
는 에 대한 함수
관련이 있긴 있다.
32
앞면이 10회 나왔을 때,
던진 횟수 이 13~30이었다.
P 13 ≤  ≤ 30 ≈ ?
여기서 말을 끝내면 전문성이 없어 보여.
33
앞면이 10회 나왔을 때,
던진 횟수 이 13~30이었다고 95% 확신한다.
P 13 ≤  ≤ 30 ≈ ?
이었을 확률이 95%이라고 말하면 안됩니다.
P −1.96 ≤  ≤ +1.96 ≈ 0.95
34
앞면이 10회 나왔을 때,
던진 횟수 이 13~30이었다고 95% 확신한다.
P 13 ≤  ≤ 30 ≈ ?
95%는 그냥 쓰는 말!
100만큼 확신해, 999만큼 확신해.
신뢰하는 정도를 나타내는 수치
신뢰수준
너가 95% 확신하면,
나는 너를 95% 신뢰할게.
너가 추정한 구간에 대한 신뢰수준은 95%야.
이 말들에 대한 뉘앙스를 알아야해
확률은 확실히 아니다!
에 불과하다.
이란 단어를 쓰면 적절하겠군.
이 말이 이해가 된다. 95%가 들어가니 꼭 확률같아 보이는 착시가 생겨.
아주 수학적으로 보여. 수치화할 수 없는 신뢰라는 것을 확률에서 끌고와서 쓰다니. 대단해.
35
앞면이 10회 나왔을 때,
신뢰수준 95%에서,
던진 횟수 은 13~30이다.
P 13 ≤  ≤ 30 ≈ ?
95%는 숫자,
신뢰수준이라는 단어가 들어가니 훨씬 적문적으로 보여.
여기서 추정한 N은 이항분포의 파라미터(모수)였어.
앞면이 10회 나왔을 때,
던진 횟수 은 13~30이다.
온도계
• 정확도가 떨어지는 온도계, 측정한 온도를 확률변수 
• 측정된 온도는 실제 온도 를 평균으로 하고,
• 표준편차가 5.0도인 정규 분포로 가정
• 현재 측정된 온도가 20도
• 95% 확신하는,
• 실제 온도  라고 가정할 만한 구간은?
36
표본평균
무한 번 측정해서 평균을 구하면 실제 온도를 알 수 있겠지만 현실성 없음
37
P −1.96 ≤
 − 
5
≤ 1.96 ≈ 0.95
→  −9.8 ≤ 20 −  ≤ 9.8 ≈ 0.95
→  −29.8 ≤ − ≤ −10.2 ≈ ?
→  10.2 ≤  ≤ 29.8 ≈ ?
20도로 측정되었을 때,
실제 온도는 10.2도에서 29.8 구간에 있다고 95% 확신한다.
너가 추정한 구간에 대한 신뢰수준은 95%야.
여론조사
• 여론조사 1회
• 1,000명의 유권자를 무작위로 추출
• 이 중 55%만이 A씨를 지지
• 지지하면 성공, 지지하지 않으면 실패인 베르누이 확률변수 
• 여론조사를 무한히 반복 시행하면, [] = 
• 진짜 를 표본 하나에서 구한 ̂으로 표현해 보자
38
 = 0.55
좀 더 현실적인 문제를 다루어 보자.
39
 −1.96 ≤
̂ − 
 
≤ 1.96 ≈ 0.95
 −1.96  ≤ ̂ −  ≤ 1.96  ≈ 0.95
  − 1.96  ≤  ≤  + 1.96  ≈ 0.95
모 분포의 성공비율이 일 때,
표본에서 구한 추정치 ̂이 이 구간에 포함될 수 있는 구간
95% 확률로
40
 −1.96 ≤
̂ − 
 
≤ 1.96 ≈ 0.95
표본에서 구한 추정치가 ̂일 때
모 분포의 모수 가 포함될 수 있는 구간
95% 확신으로, 95% 신뢰수준으로
 −1.96  ≤ ̂ −  ≤ 1.96  ≈ 0.95
  − 1.96  ≤  ≤  + 1.96  ≈ ?
지지율  가 ̂ − 1.96  와 1.96  사이라고 95% 확신
95% 신뢰구간
• 지지율  가 ̂ − 1.96  와 1.96  사이라고 95% 확신
• 지지율  를 95% 확신하는 구간: ̂ − 1.96  ~ 1.96 
• 위 구간이
• 실제 지지율 를 포함할 확률이 0.95라고 해석하지는 말 것
41
‘95% 신뢰수준’이라고 얘기할 수 있는 구간
베르누이 분포의 모수 구간추정치
• 성공비율에 대한 확률변수 
• 표본으로부터 구한 성공비율 ̂
•  ~    ,   =  ,
()

42
43
 ̂ ≡
̂ (1 − ̂)

 ̂ − 1.96  ≤  ≤ ̂ + 1.96  ≈ 0.95
  − 1.96  ≤  ≤  + 1.96  ≈ ?
̂ 하나의 표본에서 구한 추정치
 −1.96 ≤  ≤ +1.96 = 0.95
44
 ̂ =
0.55 (1 − 0.55)
1000
= 0.0157
 ̂ − 1.96 ̂ ≤  ≤ ̂ + 1.96 ̂ ≈ ?
̂ = 0.55
0.55 ∓ 1.96 × 0.0157
= 0.55 ∓ 0.031
↔ 0.519 ≤  ≤ 0.581
• 95% 신뢰수준에서
•  = 0.55
• 오차한계는 3%
95% 신뢰수준; 95% 신뢰구간의 의미
• 동일한 모집단에서 반복해서 표본을 추출할 경우
• 모집단 모수를 포함하는 구간이
• 전체 표본 추출 중에 몇 번인지를 나타내는 비율; 확률
45
(95%) 신뢰구간
95% 확률로 표본 
⁄ 개는 모수 포함
모수 미 포함 신뢰구간
46
20회 중에 1번 이탈
95% 확률
실제평균
47
특정표본에서
모수가  ∓ 일 확률 자체는 낮을 수 있음
(95%가 아님)
48
• 모평균 4
• 모표준편차 1
• 표본크기 100
• 표본 100개
(출처) 이재원 외, 공학인증을 위한 확률과 통계, 한티미디어, pp.329-330.
표본
9, 10, 34, 67, 84는
모평균 4를 포함하고
있지 않다.
100번 중에 95번은
포함한다.
95
100 = 0.95
99% 신뢰구간
• 0.99
• 2.58
49
0.99
 − 2.58
0.55 ∓ 2.58 × 0.0157
= 0.55 ∓ 0.041
↔ 0.509 ≤  ≤ 0.591
• 99% 신뢰수준에서
•  = 0.55
• 오차한계는 4%
99% 신뢰구간, 오차범위를 0.01
• 95%일 때  = 1.96
 ()

• 99%일 때  = 2.58
 ()

• ̂ = 0.50 으로 가정하면,
50
 =
1.96 
̂ (1 − ̂)

 =
2.58 ̂ (1 − ̂)

 =
2.58 
0.5 (1 − 0.5)
0.01
=
(6.65)(0.25)
0.0001
= 16,641
• 99% 신뢰수준에서
•  = 0.50
• 오차한계는 1%
오차
1만6천명 조사해야 합니다.
모평균 구간추정치
• 표본평균 
• 표본에서 구한 추정치 ̅
•  ~    ,   =  ,


51
52
 −1.96 ≤  ≤ +1.96 = 0.95
 −1.96 ≤
 − 


≤ 1.96 ≈ 0.95
 −1.96 ≤
̅ − 


≤ 1.96 ≈ 0.95
 =   −  


/  − 1
/
̅ =  


/
53
 −1.96 ≤
̅ − 


≤ 1.96 ≈ 0.95
 ̅ − 1.96  ≤  ≤ ̅ + 1.96  ≈ ?
  = 

모평균 는 ̅ ∓ 1.96  구간에 존재한다고 95% 확신
도시 전체에서 남자의 평균 몸무게
• 어떤 도시 남자들의 무작위 표본 92명
• 표본평균 ̅ = 145.2 파운드, 모평균의 추정치
• 표본편차  = 23.7 파운드
• 오차한계 관련 값
• 이 도시 모든 남자들의 평균 몸무게는 다음 구간 내에 있다고
95% 확신할 수 있다
54
  = 
 = 23.7
92
 = 2.47
̅ ∓ 1.96  = 145.2 ∓ 1.96 2.47 = 145.2 ∓ 4.8
작은 표본의 모평균 구간추정치
• Student  − 분포 사용
• 고셋은  − 분포표를 계산해 두었다
• 모평균 의 범위를 1 −   100% 확신하는 구간
• 표본평균은 근사적으로 정규분포를 따른다고 가정
55
  = 
 = ̅ ∓ 
⁄   ,

⁄ 는 자유도가  − 1인  − 분포의 임계값
56
degree of
freedom

2


자동차 수리비용
• 자동차 시속 10마일 충돌 실험, 5대
• 실험에서 수리비용은 150, 400, 720, 500, 930달러
• 평균 수리비용의 범위는, 95% 신뢰구간
• 평균 수리비용은 근사적으로 정규분포임을 가정
57
  = 229
5

̅ = 540
일단 표본평균, 표본표준편차부터 구해야겠지.
자동차 수리비용
• 자동차 시속 10마일 충돌 실험, 5대
• 실험에서 수리비용은 150, 400, 720, 500, 930달러
• 평균 수리비용의 범위는, 95% 신뢰구간
• 평균 수리비용은 근사적으로 정규분포임을 가정
58
  = 229
5

 = ̅ ∓ 
   = 540 ∓ 2.78 229
5
 = 540 ∓ 372
̅ = 540 
 = .
 = . = 2.78
값 구한다.
자동차 수리비용
• 자동차 시속 10마일 충돌 실험, 5대
• 실험에서 수리비용은 150, 400, 720, 500, 930달러
• 평균 수리비용의 범위는, 95% 신뢰구간
• 평균 수리비용은 근사적으로 정규분포임을 가정
59
  = 229
5

 = ̅ ∓ 
   = 540 ∓ 2.78 229
5
 = 540 ∓ 372
̅ = 540 
 = .
 = . = 2.78 자유도 4인 표에서
값 구한다.
정리하면…
• 모집단의 평균에 대한
• 1 −   100% 신뢰구간은
60
 = ̂ ∓ 
⁄  ̂
 ̂ =
̂ 1 − ̂

 는 베르누이 분포의 기댓값; 평균
 = ̅ ∓ 
⁄  
  = 

 는 정규 분포의 기댓값; 평균
 = ̅ ∓ 
⁄   ,
  = 

 는 정규 분포의 기댓값; 평균
표본의 크기가 큰, 무작위 표본 표본의 크기가 작은, 무작위 표본
참고문헌
• Sheldon M. Ross, Introduction to Probability and Statistics for
Engineers and Scientists, 5th Edition, Academic Press
• 이광수 역, 이공계용 확률과 통계, 홍릉과학출판사
• chap. 7
61

More Related Content

More from jaypi Ko

CVPR 2022 Tutorial에 대한 쉽고 상세한 Diffusion Probabilistic Model
CVPR 2022 Tutorial에 대한 쉽고 상세한 Diffusion Probabilistic ModelCVPR 2022 Tutorial에 대한 쉽고 상세한 Diffusion Probabilistic Model
CVPR 2022 Tutorial에 대한 쉽고 상세한 Diffusion Probabilistic Modeljaypi Ko
 
개념 이해가 쉬운 Variational Autoencoder (VAE)
개념 이해가 쉬운 Variational Autoencoder (VAE)개념 이해가 쉬운 Variational Autoencoder (VAE)
개념 이해가 쉬운 Variational Autoencoder (VAE)jaypi Ko
 
[신경망기초]오류역전파알고리즘구현
[신경망기초]오류역전파알고리즘구현[신경망기초]오류역전파알고리즘구현
[신경망기초]오류역전파알고리즘구현jaypi Ko
 
파이썬설치
파이썬설치파이썬설치
파이썬설치jaypi Ko
 
객체지향 단어가 의미하는 것
객체지향 단어가 의미하는 것객체지향 단어가 의미하는 것
객체지향 단어가 의미하는 것jaypi Ko
 
C언어 들어가기
C언어 들어가기C언어 들어가기
C언어 들어가기jaypi Ko
 
C언어 연산자에 대해 간과한 것
C언어 연산자에 대해 간과한 것C언어 연산자에 대해 간과한 것
C언어 연산자에 대해 간과한 것jaypi Ko
 
MFC 프로젝트 시작하기
MFC 프로젝트 시작하기MFC 프로젝트 시작하기
MFC 프로젝트 시작하기jaypi Ko
 
01 윈도우프로그램 들어가기
01 윈도우프로그램 들어가기01 윈도우프로그램 들어가기
01 윈도우프로그램 들어가기jaypi Ko
 
13 사용자 메세지 처리
13 사용자 메세지 처리13 사용자 메세지 처리
13 사용자 메세지 처리jaypi Ko
 
12 컨트롤에서의 메세지 처리
12 컨트롤에서의 메세지 처리12 컨트롤에서의 메세지 처리
12 컨트롤에서의 메세지 처리jaypi Ko
 
11 노티피케이션코드
11 노티피케이션코드11 노티피케이션코드
11 노티피케이션코드jaypi Ko
 
10 컨트롤윈도우
10 컨트롤윈도우10 컨트롤윈도우
10 컨트롤윈도우jaypi Ko
 
09 윈도우스타일
09 윈도우스타일09 윈도우스타일
09 윈도우스타일jaypi Ko
 
08 부모윈도우 자식윈도우
08 부모윈도우 자식윈도우08 부모윈도우 자식윈도우
08 부모윈도우 자식윈도우jaypi Ko
 
07 윈도우 핸들
07 윈도우 핸들07 윈도우 핸들
07 윈도우 핸들jaypi Ko
 
06 일반적 유형의 프로그램
06 일반적 유형의 프로그램06 일반적 유형의 프로그램
06 일반적 유형의 프로그램jaypi Ko
 
05 윈도우 프로그램 유형
05 윈도우 프로그램 유형05 윈도우 프로그램 유형
05 윈도우 프로그램 유형jaypi Ko
 
04 이벤트처리
04 이벤트처리04 이벤트처리
04 이벤트처리jaypi Ko
 
03 첫번째프로그램
03 첫번째프로그램03 첫번째프로그램
03 첫번째프로그램jaypi Ko
 

More from jaypi Ko (20)

CVPR 2022 Tutorial에 대한 쉽고 상세한 Diffusion Probabilistic Model
CVPR 2022 Tutorial에 대한 쉽고 상세한 Diffusion Probabilistic ModelCVPR 2022 Tutorial에 대한 쉽고 상세한 Diffusion Probabilistic Model
CVPR 2022 Tutorial에 대한 쉽고 상세한 Diffusion Probabilistic Model
 
개념 이해가 쉬운 Variational Autoencoder (VAE)
개념 이해가 쉬운 Variational Autoencoder (VAE)개념 이해가 쉬운 Variational Autoencoder (VAE)
개념 이해가 쉬운 Variational Autoencoder (VAE)
 
[신경망기초]오류역전파알고리즘구현
[신경망기초]오류역전파알고리즘구현[신경망기초]오류역전파알고리즘구현
[신경망기초]오류역전파알고리즘구현
 
파이썬설치
파이썬설치파이썬설치
파이썬설치
 
객체지향 단어가 의미하는 것
객체지향 단어가 의미하는 것객체지향 단어가 의미하는 것
객체지향 단어가 의미하는 것
 
C언어 들어가기
C언어 들어가기C언어 들어가기
C언어 들어가기
 
C언어 연산자에 대해 간과한 것
C언어 연산자에 대해 간과한 것C언어 연산자에 대해 간과한 것
C언어 연산자에 대해 간과한 것
 
MFC 프로젝트 시작하기
MFC 프로젝트 시작하기MFC 프로젝트 시작하기
MFC 프로젝트 시작하기
 
01 윈도우프로그램 들어가기
01 윈도우프로그램 들어가기01 윈도우프로그램 들어가기
01 윈도우프로그램 들어가기
 
13 사용자 메세지 처리
13 사용자 메세지 처리13 사용자 메세지 처리
13 사용자 메세지 처리
 
12 컨트롤에서의 메세지 처리
12 컨트롤에서의 메세지 처리12 컨트롤에서의 메세지 처리
12 컨트롤에서의 메세지 처리
 
11 노티피케이션코드
11 노티피케이션코드11 노티피케이션코드
11 노티피케이션코드
 
10 컨트롤윈도우
10 컨트롤윈도우10 컨트롤윈도우
10 컨트롤윈도우
 
09 윈도우스타일
09 윈도우스타일09 윈도우스타일
09 윈도우스타일
 
08 부모윈도우 자식윈도우
08 부모윈도우 자식윈도우08 부모윈도우 자식윈도우
08 부모윈도우 자식윈도우
 
07 윈도우 핸들
07 윈도우 핸들07 윈도우 핸들
07 윈도우 핸들
 
06 일반적 유형의 프로그램
06 일반적 유형의 프로그램06 일반적 유형의 프로그램
06 일반적 유형의 프로그램
 
05 윈도우 프로그램 유형
05 윈도우 프로그램 유형05 윈도우 프로그램 유형
05 윈도우 프로그램 유형
 
04 이벤트처리
04 이벤트처리04 이벤트처리
04 이벤트처리
 
03 첫번째프로그램
03 첫번째프로그램03 첫번째프로그램
03 첫번째프로그램
 

[확률통계]04모수추정

  • 2. 2 표본1 , , ⋯ ,  표본이 하나 주어졌을 때 모분포에 대해 얘기할 수 있는 것
  • 3. 통계적 추정;inference • 관측된 데이터; 일부 데이터로 전체를 추리하는 것 • 관측된 데이터로 모집단을 추리하는 것 • 선거의 출구조사 • 모집단 추리 = 모수 추리 = 모수 추정 3
  • 4. 모수; parameter • 모집단을 하나로 정하는 수 4
  • 5. 최대우도; maximum likelihood • 관측된 데이터 • 관측된 데이터에 대한 결합확률질량(밀도)함수 • 우도; likelihood :  가 진짜 모수 일 때  가 관측될 가능도 5 , ⋯,   , ⋯ ,   , ⋯ ,  =     ⋯   =   =    =  ⋯   =  는 서로 독립, 동일한 분포로 가정  , ⋯ , ;  우도함수
  • 6. 최대우도 추정치  • , ⋯, 이 관측된 값일 때, • 우도함수  , ⋯ , ;  를 최대화하는  값 • 최대우도 추정 시, • 우도함수와 로그를 취한 우도함수는 동일  에서 최댓값을 가짐 • maximum log likelihood estimator 6 Ronald Aylmer Fisher (1890~1962)
  • 7. 베르누이 모집단 추정치 ̂ • 매회 성공확률이 인 독립시행을 번 수행 7  =  1 0 번째 시행이 성공인 경우 그 외의 경우   = 1 = ,   = 0 = 1 −    =  =  1 −  ,  ∈ 0,1 이렇게 두 경우를 한 식으로 표현할 수 있는 것이 핵심
  • 8. 8  , ⋯ , ;  =   = , ⋯ ,  = ;  =  1 −   ⋯  1 −   = ∑  1 −  ∑    , ⋯ , | = log ∑  1 −  ∑  = log ∑  + log 1 −  ∑  =     log  +  1 −    log 1 −  5 log + 5 log 1 − 
  • 9. 9 성공만 나온 경우  =   = 1 = 1 실패만 나온 경우  =   = 1 = 0 최댓값 성공이나 실패만 나온 경우 01
  • 10. 10 성공과 실패가 반반 나온 경우  =   = 1 = 0.5 0.5
  • 11. 11 성공 70%과 실패 30%나온 경우 0.7  =   = 1 = 0.7
  • 12. 12     , ⋯ , ;  =       log  +  1 −    log 1 −  =     1  +  1 −    −1 1 −  위로 볼록한 그래프니까, 미분해서 0되는 지점이 최대값
  • 13. 13     1 ̂ −  1 −    1 1 − ̂ = 0 ∑    ̂ = ∑ 1 −    1 − ̂ =  − ∑    1 − ̂     −     ̂ = ̂ −  ̂   ̂ = ∑     ∑     추정치 추정량 정답이 ̂일 때, 0이다.
  • 14. 정규 모집단 추정치 14  , ⋯ , ; ,  = 1  2  −  −   2 × ⋯ × 1  2  −  −   2 =  1  2  −  −   2   = 1  1 2 / exp − ∑  −   2
  • 15. 15   , ⋯ , ; ,  =  1  1 2 / exp − ∑  −    2 = − log  −  2 log 2 − ∑  −    2
  • 16. 16     , ⋯ , ; ,  =   − log  −  2 log 2 − ∑  −    2 = −2 ∑  −   2 −1 = ∑  −    ∑  −    = 0   −    = 0  =     / gnuplot> plot [-1:1] exp(-x**2)
  • 17. 17     , ⋯ , ; ,  =   − log  −  2 log 2 − ∑  −    2 = −   − ∑  −    2    = −   − ∑  −    2 −2  −   +   −     / = 0  =   −     / / gnuplot> set yrange [-10:100] gnuplot> plot [0:0.3] -100*log(x)-50*log(2*3.14)-100*0.01/(2*x**2)
  • 18. 정규 모집단 추정량 •  = ∑    / •  = ∑  −    /  − 1 / 18  =     /  =   −     / /  =   −     /  − 1 / MLE 결과는 이건데…
  • 19. MLE 기반 점추정치 정리 19 ̂ = ∑      =  =   −     /  − 1 / ̅ =  =     / , , ⋯ ,  성공횟수
  • 20. 구간추정치 • 점추정치 활용 • 모수가 속할 것으로 추정되는 구간을 지정 • 구간추정치에 부여할 신뢰confidence 개념 필요 20
  • 21. 표본값을 구간으로 예측한다는 것 • 표준정규분포라고 가정했을 때 • -1 ~ 1 사이라고 예측하면 맞출 확률: 68.3% • -2 ~ 2 사이라고 예측하면 맞출 확률: 95.4% • -3 ~ 3 사이라고 예측하면 맞출 확률: 99.7% • 95%의 확률로 예측을 맞출 수 있는 구간은: ∓1.96 • 99%의 확률로 예측을 맞출 수 있는 구간은: ∓2.58 21  −1.96 ≤  −   ≤ +1.96 = 0.95 일단 쉬운 것 부터… 샘플링한 숫자가 얼마일까를 예측하라고 했을 때
  • 22. 같은 확률을 갖는 예측구간은 많다 • 95%의 확률을 가지는 구간은 많음 • −1.96 ~1.96 • −2.1 ~ 1.86 [참고] 22
  • 23. 예제1 • 내일 미팅에 나올 여학생의 키를 예측하라 • 맞출 확률이 95% • 여학생의 키는 정규분포라고 가정 • 평균은 160 • 표준편차는 10 23 −1.96 ≤  − 160 10 ≤ 1.96, 140.4, 179.6 정규분포의 모수가 알려져 있다
  • 24. 예제2 • 동전을 100번 던졌을 때, • 앞면이 나오는 횟수를 몇 번(구간)이라고 해야지, 95% 맞는가? 24 95% 영역
  • 25. 예제2 • 동전을 100번 던졌을 때, • 앞면이 나올 확률  = 1/2 • 95% 확률로 앞면이 나오는 횟수의 구간을 예측해 보라 • 번 던져서 앞면이 나오는 횟수를 확률변수 라고 하자 • 이 확률변수는 이항 분포를 따른다 ~(, ) • 시행횟수가 커지면, 이항 분포를 정규분포로 근사할 수 있다 25 −1.96 ≤  −   ≤ 1.96
  • 26. 26 ~(, (1 − ))  = 1 2  =  = 100 2 = 50  = (1 − ) = 100 2  = 10 2 = 5 −1.96 ≤  − 50 5 ≤ 1.96, 40.2, 59.8  = 100 정규분포의 모수가 알려져 있다
  • 27. 모수의 구간 • 동전 앞면이 10개 나왔다( 이항 확률변수) • 95% 확신하는, • 실제 던진 개수  이라고 가정할 만한 범위는? • 이항 확률변수는 이 큰 경우 정규분포에 근사 27 가정을 어떻게 하는 가에 따라 동전 앞면이 10번 나올 확률이 달라진다.
  • 28. 모수의 구간 • 동전 앞면이 10개 나왔다( 이항 확률변수) • 어느 정도 신뢰할 만한, • 실제 던진 개수  이라고 가정할 만한 범위는? • 이항 확률변수는 이 큰 경우 정규분포에 근사 28
  • 29. 모수의 구간 • 동전 앞면이 10개 나왔다( 이항 확률변수) • 95% 신뢰할 만한, • 실제 던진 개수  이라고 추정할 만한 범위는? • 이항 확률변수는 이 큰 경우 정규분포에 근사 29
  • 30. 30  =   =  =  × 1 2  =   =  1 −  =  × 1 2 × 1 2  = 10 −  2  2  P 13 ≤  ≤ 30 ≈ ? P −1.96 ≤  ≤ +1.96 ≈ 0.95  95%에 해당하는 수치
  • 31. 31  = 2 + 1   =    = 2 + 1  = 1 2  − 1 2   =    = 1 2  − 1 2 에 대한 함수 에 대한 함수 P 13 ≤  ≤ 30 ≈ ? P −1.96 ≤  ≤ +1.96 ≈ 0.95 는 에 대한 함수; 표준정규분포함수가 알려져 있다. 값도 계산할 수 있다. 는 에 대한 함수 관련이 있긴 있다.
  • 32. 32 앞면이 10회 나왔을 때, 던진 횟수 이 13~30이었다. P 13 ≤  ≤ 30 ≈ ? 여기서 말을 끝내면 전문성이 없어 보여.
  • 33. 33 앞면이 10회 나왔을 때, 던진 횟수 이 13~30이었다고 95% 확신한다. P 13 ≤  ≤ 30 ≈ ? 이었을 확률이 95%이라고 말하면 안됩니다. P −1.96 ≤  ≤ +1.96 ≈ 0.95
  • 34. 34 앞면이 10회 나왔을 때, 던진 횟수 이 13~30이었다고 95% 확신한다. P 13 ≤  ≤ 30 ≈ ? 95%는 그냥 쓰는 말! 100만큼 확신해, 999만큼 확신해. 신뢰하는 정도를 나타내는 수치 신뢰수준 너가 95% 확신하면, 나는 너를 95% 신뢰할게. 너가 추정한 구간에 대한 신뢰수준은 95%야. 이 말들에 대한 뉘앙스를 알아야해 확률은 확실히 아니다! 에 불과하다. 이란 단어를 쓰면 적절하겠군. 이 말이 이해가 된다. 95%가 들어가니 꼭 확률같아 보이는 착시가 생겨. 아주 수학적으로 보여. 수치화할 수 없는 신뢰라는 것을 확률에서 끌고와서 쓰다니. 대단해.
  • 35. 35 앞면이 10회 나왔을 때, 신뢰수준 95%에서, 던진 횟수 은 13~30이다. P 13 ≤  ≤ 30 ≈ ? 95%는 숫자, 신뢰수준이라는 단어가 들어가니 훨씬 적문적으로 보여. 여기서 추정한 N은 이항분포의 파라미터(모수)였어. 앞면이 10회 나왔을 때, 던진 횟수 은 13~30이다.
  • 36. 온도계 • 정확도가 떨어지는 온도계, 측정한 온도를 확률변수  • 측정된 온도는 실제 온도 를 평균으로 하고, • 표준편차가 5.0도인 정규 분포로 가정 • 현재 측정된 온도가 20도 • 95% 확신하는, • 실제 온도  라고 가정할 만한 구간은? 36 표본평균 무한 번 측정해서 평균을 구하면 실제 온도를 알 수 있겠지만 현실성 없음
  • 37. 37 P −1.96 ≤  −  5 ≤ 1.96 ≈ 0.95 →  −9.8 ≤ 20 −  ≤ 9.8 ≈ 0.95 →  −29.8 ≤ − ≤ −10.2 ≈ ? →  10.2 ≤  ≤ 29.8 ≈ ? 20도로 측정되었을 때, 실제 온도는 10.2도에서 29.8 구간에 있다고 95% 확신한다. 너가 추정한 구간에 대한 신뢰수준은 95%야.
  • 38. 여론조사 • 여론조사 1회 • 1,000명의 유권자를 무작위로 추출 • 이 중 55%만이 A씨를 지지 • 지지하면 성공, 지지하지 않으면 실패인 베르누이 확률변수  • 여론조사를 무한히 반복 시행하면, [] =  • 진짜 를 표본 하나에서 구한 ̂으로 표현해 보자 38  = 0.55 좀 더 현실적인 문제를 다루어 보자.
  • 39. 39  −1.96 ≤ ̂ −    ≤ 1.96 ≈ 0.95  −1.96  ≤ ̂ −  ≤ 1.96  ≈ 0.95   − 1.96  ≤  ≤  + 1.96  ≈ 0.95 모 분포의 성공비율이 일 때, 표본에서 구한 추정치 ̂이 이 구간에 포함될 수 있는 구간 95% 확률로
  • 40. 40  −1.96 ≤ ̂ −    ≤ 1.96 ≈ 0.95 표본에서 구한 추정치가 ̂일 때 모 분포의 모수 가 포함될 수 있는 구간 95% 확신으로, 95% 신뢰수준으로  −1.96  ≤ ̂ −  ≤ 1.96  ≈ 0.95   − 1.96  ≤  ≤  + 1.96  ≈ ? 지지율  가 ̂ − 1.96  와 1.96  사이라고 95% 확신
  • 41. 95% 신뢰구간 • 지지율  가 ̂ − 1.96  와 1.96  사이라고 95% 확신 • 지지율  를 95% 확신하는 구간: ̂ − 1.96  ~ 1.96  • 위 구간이 • 실제 지지율 를 포함할 확률이 0.95라고 해석하지는 말 것 41 ‘95% 신뢰수준’이라고 얘기할 수 있는 구간
  • 42. 베르누이 분포의 모수 구간추정치 • 성공비율에 대한 확률변수  • 표본으로부터 구한 성공비율 ̂ •  ~    ,   =  , ()  42
  • 43. 43  ̂ ≡ ̂ (1 − ̂)   ̂ − 1.96  ≤  ≤ ̂ + 1.96  ≈ 0.95   − 1.96  ≤  ≤  + 1.96  ≈ ? ̂ 하나의 표본에서 구한 추정치  −1.96 ≤  ≤ +1.96 = 0.95
  • 44. 44  ̂ = 0.55 (1 − 0.55) 1000 = 0.0157  ̂ − 1.96 ̂ ≤  ≤ ̂ + 1.96 ̂ ≈ ? ̂ = 0.55 0.55 ∓ 1.96 × 0.0157 = 0.55 ∓ 0.031 ↔ 0.519 ≤  ≤ 0.581 • 95% 신뢰수준에서 •  = 0.55 • 오차한계는 3%
  • 45. 95% 신뢰수준; 95% 신뢰구간의 의미 • 동일한 모집단에서 반복해서 표본을 추출할 경우 • 모집단 모수를 포함하는 구간이 • 전체 표본 추출 중에 몇 번인지를 나타내는 비율; 확률 45 (95%) 신뢰구간 95% 확률로 표본  ⁄ 개는 모수 포함 모수 미 포함 신뢰구간
  • 46. 46 20회 중에 1번 이탈 95% 확률 실제평균
  • 47. 47 특정표본에서 모수가  ∓ 일 확률 자체는 낮을 수 있음 (95%가 아님)
  • 48. 48 • 모평균 4 • 모표준편차 1 • 표본크기 100 • 표본 100개 (출처) 이재원 외, 공학인증을 위한 확률과 통계, 한티미디어, pp.329-330. 표본 9, 10, 34, 67, 84는 모평균 4를 포함하고 있지 않다. 100번 중에 95번은 포함한다. 95 100 = 0.95
  • 49. 99% 신뢰구간 • 0.99 • 2.58 49 0.99  − 2.58 0.55 ∓ 2.58 × 0.0157 = 0.55 ∓ 0.041 ↔ 0.509 ≤  ≤ 0.591 • 99% 신뢰수준에서 •  = 0.55 • 오차한계는 4%
  • 50. 99% 신뢰구간, 오차범위를 0.01 • 95%일 때  = 1.96  ()  • 99%일 때  = 2.58  ()  • ̂ = 0.50 으로 가정하면, 50  = 1.96  ̂ (1 − ̂)   = 2.58 ̂ (1 − ̂)   = 2.58  0.5 (1 − 0.5) 0.01 = (6.65)(0.25) 0.0001 = 16,641 • 99% 신뢰수준에서 •  = 0.50 • 오차한계는 1% 오차 1만6천명 조사해야 합니다.
  • 51. 모평균 구간추정치 • 표본평균  • 표본에서 구한 추정치 ̅ •  ~    ,   =  ,   51
  • 52. 52  −1.96 ≤  ≤ +1.96 = 0.95  −1.96 ≤  −    ≤ 1.96 ≈ 0.95  −1.96 ≤ ̅ −    ≤ 1.96 ≈ 0.95  =   −     /  − 1 / ̅ =     /
  • 53. 53  −1.96 ≤ ̅ −    ≤ 1.96 ≈ 0.95  ̅ − 1.96  ≤  ≤ ̅ + 1.96  ≈ ?   =   모평균 는 ̅ ∓ 1.96  구간에 존재한다고 95% 확신
  • 54. 도시 전체에서 남자의 평균 몸무게 • 어떤 도시 남자들의 무작위 표본 92명 • 표본평균 ̅ = 145.2 파운드, 모평균의 추정치 • 표본편차  = 23.7 파운드 • 오차한계 관련 값 • 이 도시 모든 남자들의 평균 몸무게는 다음 구간 내에 있다고 95% 확신할 수 있다 54   =   = 23.7 92  = 2.47 ̅ ∓ 1.96  = 145.2 ∓ 1.96 2.47 = 145.2 ∓ 4.8
  • 55. 작은 표본의 모평균 구간추정치 • Student  − 분포 사용 • 고셋은  − 분포표를 계산해 두었다 • 모평균 의 범위를 1 −   100% 확신하는 구간 • 표본평균은 근사적으로 정규분포를 따른다고 가정 55   =   = ̅ ∓  ⁄   ,  ⁄ 는 자유도가  − 1인  − 분포의 임계값
  • 57. 자동차 수리비용 • 자동차 시속 10마일 충돌 실험, 5대 • 실험에서 수리비용은 150, 400, 720, 500, 930달러 • 평균 수리비용의 범위는, 95% 신뢰구간 • 평균 수리비용은 근사적으로 정규분포임을 가정 57   = 229 5  ̅ = 540 일단 표본평균, 표본표준편차부터 구해야겠지.
  • 58. 자동차 수리비용 • 자동차 시속 10마일 충돌 실험, 5대 • 실험에서 수리비용은 150, 400, 720, 500, 930달러 • 평균 수리비용의 범위는, 95% 신뢰구간 • 평균 수리비용은 근사적으로 정규분포임을 가정 58   = 229 5   = ̅ ∓     = 540 ∓ 2.78 229 5  = 540 ∓ 372 ̅ = 540   = .  = . = 2.78 값 구한다.
  • 59. 자동차 수리비용 • 자동차 시속 10마일 충돌 실험, 5대 • 실험에서 수리비용은 150, 400, 720, 500, 930달러 • 평균 수리비용의 범위는, 95% 신뢰구간 • 평균 수리비용은 근사적으로 정규분포임을 가정 59   = 229 5   = ̅ ∓     = 540 ∓ 2.78 229 5  = 540 ∓ 372 ̅ = 540   = .  = . = 2.78 자유도 4인 표에서 값 구한다.
  • 60. 정리하면… • 모집단의 평균에 대한 • 1 −   100% 신뢰구간은 60  = ̂ ∓  ⁄  ̂  ̂ = ̂ 1 − ̂   는 베르누이 분포의 기댓값; 평균  = ̅ ∓  ⁄     =    는 정규 분포의 기댓값; 평균  = ̅ ∓  ⁄   ,   =    는 정규 분포의 기댓값; 평균 표본의 크기가 큰, 무작위 표본 표본의 크기가 작은, 무작위 표본
  • 61. 참고문헌 • Sheldon M. Ross, Introduction to Probability and Statistics for Engineers and Scientists, 5th Edition, Academic Press • 이광수 역, 이공계용 확률과 통계, 홍릉과학출판사 • chap. 7 61