5. 최대우도; maximum likelihood
• 관측된 데이터
• 관측된 데이터에 대한 결합확률질량(밀도)함수
• 우도; likelihood : 가 진짜 모수 일 때 가 관측될 가능도
5
, ⋯,
, ⋯ ,
, ⋯ , =
⋯
= = = ⋯ =
는 서로 독립, 동일한 분포로 가정
, ⋯ , ; 우도함수
6. 최대우도 추정치
• , ⋯, 이 관측된 값일 때,
• 우도함수 , ⋯ , ; 를 최대화하는 값
• 최대우도 추정 시,
• 우도함수와 로그를 취한 우도함수는 동일 에서 최댓값을 가짐
• maximum log likelihood estimator
6
Ronald Aylmer Fisher (1890~1962)
7. 베르누이 모집단 추정치 ̂
• 매회 성공확률이 인 독립시행을 번 수행
7
=
1
0
번째 시행이 성공인 경우
그 외의 경우
= 1 = , = 0 = 1 −
= = 1 − , ∈ 0,1
이렇게 두 경우를 한 식으로 표현할 수 있는 것이 핵심
20. 구간추정치
• 점추정치 활용
• 모수가 속할 것으로 추정되는 구간을 지정
• 구간추정치에 부여할 신뢰confidence 개념 필요
20
21. 표본값을 구간으로 예측한다는 것
• 표준정규분포라고 가정했을 때
• -1 ~ 1 사이라고 예측하면 맞출 확률: 68.3%
• -2 ~ 2 사이라고 예측하면 맞출 확률: 95.4%
• -3 ~ 3 사이라고 예측하면 맞출 확률: 99.7%
• 95%의 확률로 예측을 맞출 수 있는 구간은: ∓1.96
• 99%의 확률로 예측을 맞출 수 있는 구간은: ∓2.58
21
−1.96 ≤
−
≤ +1.96 = 0.95
일단 쉬운 것 부터… 샘플링한 숫자가 얼마일까를 예측하라고 했을 때
22. 같은 확률을 갖는 예측구간은 많다
• 95%의 확률을 가지는 구간은 많음
• −1.96 ~1.96
• −2.1 ~ 1.86
[참고]
22
23. 예제1
• 내일 미팅에 나올 여학생의 키를 예측하라
• 맞출 확률이 95%
• 여학생의 키는 정규분포라고 가정
• 평균은 160
• 표준편차는 10
23
−1.96 ≤
− 160
10
≤ 1.96, 140.4, 179.6
정규분포의 모수가 알려져 있다
24. 예제2
• 동전을 100번 던졌을 때,
• 앞면이 나오는 횟수를 몇 번(구간)이라고 해야지, 95% 맞는가?
24
95%
영역
25. 예제2
• 동전을 100번 던졌을 때,
• 앞면이 나올 확률 = 1/2
• 95% 확률로 앞면이 나오는 횟수의 구간을 예측해 보라
• 번 던져서 앞면이 나오는 횟수를 확률변수 라고 하자
• 이 확률변수는 이항 분포를 따른다 ~(, )
• 시행횟수가 커지면, 이항 분포를 정규분포로 근사할 수 있다
25
−1.96 ≤
−
≤ 1.96
27. 모수의 구간
• 동전 앞면이 10개 나왔다( 이항 확률변수)
• 95% 확신하는,
• 실제 던진 개수 이라고 가정할 만한 범위는?
• 이항 확률변수는 이 큰 경우 정규분포에 근사
27
가정을 어떻게 하는 가에 따라
동전 앞면이 10번 나올 확률이 달라진다.
28. 모수의 구간
• 동전 앞면이 10개 나왔다( 이항 확률변수)
• 어느 정도 신뢰할 만한,
• 실제 던진 개수 이라고 가정할 만한 범위는?
• 이항 확률변수는 이 큰 경우 정규분포에 근사
28
29. 모수의 구간
• 동전 앞면이 10개 나왔다( 이항 확률변수)
• 95% 신뢰할 만한,
• 실제 던진 개수 이라고 추정할 만한 범위는?
• 이항 확률변수는 이 큰 경우 정규분포에 근사
29
31. 31
= 2 + 1
=
= 2 + 1
=
1
2
−
1
2
=
=
1
2
−
1
2
에 대한 함수 에 대한 함수
P 13 ≤ ≤ 30 ≈ ?
P −1.96 ≤ ≤ +1.96 ≈ 0.95
는 에 대한 함수; 표준정규분포함수가 알려져
있다. 값도 계산할 수 있다.
는 에 대한 함수
관련이 있긴 있다.
32. 32
앞면이 10회 나왔을 때,
던진 횟수 이 13~30이었다.
P 13 ≤ ≤ 30 ≈ ?
여기서 말을 끝내면 전문성이 없어 보여.
33. 33
앞면이 10회 나왔을 때,
던진 횟수 이 13~30이었다고 95% 확신한다.
P 13 ≤ ≤ 30 ≈ ?
이었을 확률이 95%이라고 말하면 안됩니다.
P −1.96 ≤ ≤ +1.96 ≈ 0.95
34. 34
앞면이 10회 나왔을 때,
던진 횟수 이 13~30이었다고 95% 확신한다.
P 13 ≤ ≤ 30 ≈ ?
95%는 그냥 쓰는 말!
100만큼 확신해, 999만큼 확신해.
신뢰하는 정도를 나타내는 수치
신뢰수준
너가 95% 확신하면,
나는 너를 95% 신뢰할게.
너가 추정한 구간에 대한 신뢰수준은 95%야.
이 말들에 대한 뉘앙스를 알아야해
확률은 확실히 아니다!
에 불과하다.
이란 단어를 쓰면 적절하겠군.
이 말이 이해가 된다. 95%가 들어가니 꼭 확률같아 보이는 착시가 생겨.
아주 수학적으로 보여. 수치화할 수 없는 신뢰라는 것을 확률에서 끌고와서 쓰다니. 대단해.
35. 35
앞면이 10회 나왔을 때,
신뢰수준 95%에서,
던진 횟수 은 13~30이다.
P 13 ≤ ≤ 30 ≈ ?
95%는 숫자,
신뢰수준이라는 단어가 들어가니 훨씬 적문적으로 보여.
여기서 추정한 N은 이항분포의 파라미터(모수)였어.
앞면이 10회 나왔을 때,
던진 횟수 은 13~30이다.
36. 온도계
• 정확도가 떨어지는 온도계, 측정한 온도를 확률변수
• 측정된 온도는 실제 온도 를 평균으로 하고,
• 표준편차가 5.0도인 정규 분포로 가정
• 현재 측정된 온도가 20도
• 95% 확신하는,
• 실제 온도 라고 가정할 만한 구간은?
36
표본평균
무한 번 측정해서 평균을 구하면 실제 온도를 알 수 있겠지만 현실성 없음
37. 37
P −1.96 ≤
−
5
≤ 1.96 ≈ 0.95
→ −9.8 ≤ 20 − ≤ 9.8 ≈ 0.95
→ −29.8 ≤ − ≤ −10.2 ≈ ?
→ 10.2 ≤ ≤ 29.8 ≈ ?
20도로 측정되었을 때,
실제 온도는 10.2도에서 29.8 구간에 있다고 95% 확신한다.
너가 추정한 구간에 대한 신뢰수준은 95%야.
38. 여론조사
• 여론조사 1회
• 1,000명의 유권자를 무작위로 추출
• 이 중 55%만이 A씨를 지지
• 지지하면 성공, 지지하지 않으면 실패인 베르누이 확률변수
• 여론조사를 무한히 반복 시행하면, [] =
• 진짜 를 표본 하나에서 구한 ̂으로 표현해 보자
38
= 0.55
좀 더 현실적인 문제를 다루어 보자.
39. 39
−1.96 ≤
̂ −
≤ 1.96 ≈ 0.95
−1.96 ≤ ̂ − ≤ 1.96 ≈ 0.95
− 1.96 ≤ ≤ + 1.96 ≈ 0.95
모 분포의 성공비율이 일 때,
표본에서 구한 추정치 ̂이 이 구간에 포함될 수 있는 구간
95% 확률로
40. 40
−1.96 ≤
̂ −
≤ 1.96 ≈ 0.95
표본에서 구한 추정치가 ̂일 때
모 분포의 모수 가 포함될 수 있는 구간
95% 확신으로, 95% 신뢰수준으로
−1.96 ≤ ̂ − ≤ 1.96 ≈ 0.95
− 1.96 ≤ ≤ + 1.96 ≈ ?
지지율 가 ̂ − 1.96 와 1.96 사이라고 95% 확신
41. 95% 신뢰구간
• 지지율 가 ̂ − 1.96 와 1.96 사이라고 95% 확신
• 지지율 를 95% 확신하는 구간: ̂ − 1.96 ~ 1.96
• 위 구간이
• 실제 지지율 를 포함할 확률이 0.95라고 해석하지는 말 것
41
‘95% 신뢰수준’이라고 얘기할 수 있는 구간
45. 95% 신뢰수준; 95% 신뢰구간의 의미
• 동일한 모집단에서 반복해서 표본을 추출할 경우
• 모집단 모수를 포함하는 구간이
• 전체 표본 추출 중에 몇 번인지를 나타내는 비율; 확률
45
(95%) 신뢰구간
95% 확률로 표본
⁄ 개는 모수 포함
모수 미 포함 신뢰구간
54. 도시 전체에서 남자의 평균 몸무게
• 어떤 도시 남자들의 무작위 표본 92명
• 표본평균 ̅ = 145.2 파운드, 모평균의 추정치
• 표본편차 = 23.7 파운드
• 오차한계 관련 값
• 이 도시 모든 남자들의 평균 몸무게는 다음 구간 내에 있다고
95% 확신할 수 있다
54
=
= 23.7
92
= 2.47
̅ ∓ 1.96 = 145.2 ∓ 1.96 2.47 = 145.2 ∓ 4.8
55. 작은 표본의 모평균 구간추정치
• Student − 분포 사용
• 고셋은 − 분포표를 계산해 두었다
• 모평균 의 범위를 1 − 100% 확신하는 구간
• 표본평균은 근사적으로 정규분포를 따른다고 가정
55
=
= ̅ ∓
⁄ ,
⁄ 는 자유도가 − 1인 − 분포의 임계값
57. 자동차 수리비용
• 자동차 시속 10마일 충돌 실험, 5대
• 실험에서 수리비용은 150, 400, 720, 500, 930달러
• 평균 수리비용의 범위는, 95% 신뢰구간
• 평균 수리비용은 근사적으로 정규분포임을 가정
57
= 229
5
̅ = 540
일단 표본평균, 표본표준편차부터 구해야겠지.
58. 자동차 수리비용
• 자동차 시속 10마일 충돌 실험, 5대
• 실험에서 수리비용은 150, 400, 720, 500, 930달러
• 평균 수리비용의 범위는, 95% 신뢰구간
• 평균 수리비용은 근사적으로 정규분포임을 가정
58
= 229
5
= ̅ ∓
= 540 ∓ 2.78 229
5
= 540 ∓ 372
̅ = 540
= .
= . = 2.78
값 구한다.
59. 자동차 수리비용
• 자동차 시속 10마일 충돌 실험, 5대
• 실험에서 수리비용은 150, 400, 720, 500, 930달러
• 평균 수리비용의 범위는, 95% 신뢰구간
• 평균 수리비용은 근사적으로 정규분포임을 가정
59
= 229
5
= ̅ ∓
= 540 ∓ 2.78 229
5
= 540 ∓ 372
̅ = 540
= .
= . = 2.78 자유도 4인 표에서
값 구한다.
60. 정리하면…
• 모집단의 평균에 대한
• 1 − 100% 신뢰구간은
60
= ̂ ∓
⁄ ̂
̂ =
̂ 1 − ̂
는 베르누이 분포의 기댓값; 평균
= ̅ ∓
⁄
=
는 정규 분포의 기댓값; 평균
= ̅ ∓
⁄ ,
=
는 정규 분포의 기댓값; 평균
표본의 크기가 큰, 무작위 표본 표본의 크기가 작은, 무작위 표본
61. 참고문헌
• Sheldon M. Ross, Introduction to Probability and Statistics for
Engineers and Scientists, 5th Edition, Academic Press
• 이광수 역, 이공계용 확률과 통계, 홍릉과학출판사
• chap. 7
61