2. 17.1 Sampling and Monte Carlo Methods
17.1.1 why sampling?
출처 : http://www.secmem.org/blog/2019/01/11/mcmc/
<인터넷 자료>
1. 높은 차원의 최적화 문제
2. 높은 차원의 적분
<교재 내용>
1. 처리는 가능하지만 비용이 많이 드는 sum과 integrals에 이용
2. 아예 처리 불가능한 sum과 integrals에 대한 근사를 할 때
3. 표본추출 자체가 목적
3. 출처 https://www.youtube.com/watch?v=AadKNJU1-lk
Approximate expectations
- estimated statics
- Posterior inference (확률의 계산에 쓰임)
Why expectation ?
- Any probability is an E :
- Many time hard to compute, approx. is needed for sum or integral which
can be represented expectations
𝑝 𝑋 ∈ 𝐴 = 𝐸𝐼 𝑥 ∈ 𝐴
17.1.1 why sampling?
4. 시작하기에 앞서 Monte Carlo의 컨셉
무작위 추출된 난수를 이용하여 함수의 값을 계산하는
통계학의 방법
EX) 원의 넓이 구하기
1) 원의 면적 식을 이용하여 구하기
2) 몬테 카를로 방법 - 난수들을 찍은 다음 원안에 들어
간 개수들을 계산하면 원의 면적을 구할 수 있음
5. 17.1.2 basic of monte carlo sampling
그림 출처:
http://blog.naver.com/PostView.nhn?blogId=dalsapcho&logNo=20147545698&categoryNo=11&parentCategory
No=0&viewDate=¤tPage=1&postListTopCurrentPage=1&from=postView
6. s =
𝑥
𝑝 𝑥 𝑞 𝑥 = 𝐸 𝑝 𝑓 𝑥
𝑠 = 𝑝 𝑥 𝑓 𝑥 ⅆ𝑥 = 𝐸 𝑃 𝑓 𝑥
기대값 형태로 표현할 경우
이산형인 경우
연속형인 경우 확률밀도 함수
확률변수
7. 𝑠 𝑛 =
1
𝑛
𝑖=1
𝑛
𝑓 𝑥 𝑖
교재에서 추정량 𝒔 𝒏 을 구하는 과정
𝑥 1 , 𝑥 2 , … , 𝑥 𝑛
𝐸 𝑠 𝑛 = 𝐸
1
𝑛
𝑖=1
𝑛
𝑓 𝑥 𝑖
=
1
𝑛
𝐸
𝐼
𝑓 𝑥 𝑙
그냥 표본 평균 (추출된 표본들의 산술 평균)이라고 보면 된다
=
1
𝑛
𝐸 𝑥 1
, 𝑥 2
, … , 𝑥 𝑛
=
1
𝑛 𝑖=1
𝑛
𝑠 = s
그냥 한국말로 하면
Sample 들을 확률변수 기대값이
s이므로 추정량의 기대값은 s이다
모평균과 표본평균은 같다
9. 17.2 Importance sampling
이전의 소개한 방법은 분포로부터 표본을 쉽게 추출할 수 있을 때이다. 하지만 그렇지 않은 경우가
많다
왜?why?
- pdf 혹은 cdf의 역연산을 해야 되는데 그것이 쉽지 않다
- 다변량 pdf의 경우 굉장히 고차원이다. 복잡한 joint distribution으로 이루어져 있어서 계산이 쉽지 않다
좀더 자세한 내용을 원하시는 분은 다음 slide 출처 참고
10. 다음 글도 참고 : https://www.quora.com/What-are-high-dimensional-probability-density-functions-pdfs-Do-
both-high-dimensional-and-multivariate-pdfs-mean-the-same-Also-what-makes-it-difficult-to-sample-from-
such-high-dimensional-pdfs-in-reference-to-Monte
14. 일명 MCMC20세기 영향력 있는 top 10 알고리즘에 들었다고 한다!!
특징
- (상대적으로) 빠른 수력속도
- 더 많은 확률 분포 샘플링 가능
MCMC는 무엇인가?
Markov Chain과 Monte Carlo라는 두가지 수학적 특성을 기반으로 샘플링을 하는 것.
MCMC의 샘플링 방법은 이전의 샘플이 다음 샘플의 추출에 영향을 줌.
정확히 표현하면 MCMC는 임의의 랜덤한 표본에서 시작하여, i번째 표본을 참고하여 i+1번째
표본을 뽑습니다.
http://www.secmem.org/blog/2019/01/11/mcmc/
17.3Monte Carlo Markov chain
15. 여러 상태들 (x1,x2,⋯,xn,⋯) 이 있고 xi에서 xj로 이동할 조건
부 확률분포 transition distribution T(xj|xi) 이 주어져 있어
서 매턴마다 이 확률 값에 따라 상태들 사이를 이동하는 것
입니다.
그렇다면 확률이 정해져 있다면 동선에 특정한 패턴이 존
재하지는 않을까요? 예를 들어, “100번 이동했다면 평균적
으로 3번은 출발지점에 돌아올 것이다”와 같은 예측을 할
수도 있을 것 같습니다.
항상은 아니지만 확률이 정해져 있으므로 “특정조건”을 만
족할 때 일정한 패턴이 나타납니다. 어떤 지점에서 시작하
더라도, 상태 사이를 충분히 많은 횟수 이동하게 되면 각 상
태의 방문횟수의 비율이 일정한 값으로 수렴하게 됩니다.
다시 말하면, 상태들의 방문횟수의 비율이 특정 확률분포
로 수렴하게 되고 이 분포를 stationary distribution이라
부릅니다.
Markov Chain
29. 17.5 The challenge of mixing between separated modes (누가 energy based model 설명좀..)
http://www.secmem.org/blog/2019/02/11/fmmc/
MCMC가 만드는 샘플들은 target distribution에 점점 수렴하는 특징이 있습니다. 다르게 말하면
MCMC가 만들어내는 샘플을 사용하기 위해서는 샘플들이 target distribution에 수렴할 때 까지 기
다려야 합니다. 적절히 수렴한 상태를 mix 되었다고 하고 이때까지 걸리는 시간을 mixing time이
라고 합니다.
이상적으로는 표본들이 독립적이여야 한다. 하지만 고차원의 경우에는
MCMC방법이 잘 작동하지 않아서 이를 혼합이 느리다
30. (왼) 독립변수들로 이루어진 분포, mix가 잘된다
(중간) 상관관계가 높은 변수들로 이루어진 분포, mix가 잘되지 않는다
(오) 모드들이 아예 떨어져 있는 경우 따른 모드로 잘 바뀌지 않기 때문에 mix가 정말 느리다