SlideShare a Scribd company logo
1. 유향 그래프 모형(directed graphical model, 베이즈 망)에서는?
이 뉘앙스에서 조상 표집이라는 것을 생각해보자.
DGM을 다시 리마인드 하면
16-3 그래프 모형의 표본 추출
그래프 모형 사용
➔ 조상 표집(ancestral sampling, = forward sampling) 을 이용해서 샘플링 가능
➔ 화살표의 방향은 한 변수의 확률 분포가 다른 변수의 확률 분포로 정의됨을 뜻했다.
A B
B에 관한 분포는 A의 값에 의존한다.
어떤 확률 분포로부터 임의의 샘플들을 만들어 내고 싶은 경우가 있다.
1. 유향 그래프 모형(directed graphical model, 베이즈 망)에서는?
이 뉘앙스에서 조상 표집이라는 것을 생각해보자.
DGM을 다시 리마인드 하면
16-3 그래프 모형의 표본 추출
그래프 모형 사용
➔ 조상 표집(ancestral sampling, = forward sampling) 을 이용해서 샘플링 가능
➔ 화살표의 방향은 한 변수의 확률 분포가 다른 변수의 확률 분포로 정의됨을 뜻했다.
A B
B에 관한 분포는 A의 값에 의존한다.
어떤 확률 분포로부터 임의의 샘플들을 만들어 내고 싶은 경우가 있다.
16-3 그래프 모형의 표본 추출
1) 3 개의 변수로 이루어진 결합 확률 분포 p(!" … !$), A~C까지 있다고 가정해보자
A B
C
2) 그래프가 주어졌을 때 각각의 노드에 번호를 붙인다.
- 이 때 자식 노드는 부모 노드보다 더 큰 번호를 부여한다.(위상 정렬)
A B
C1 2
3
조상 표집(ancestral sampling)
A B
C1 2
?
D
?
- 이렇게 순서가 여러 가지 나올 수도 있는데
그런 경우 유효 위상 순서 중 어떤 것도 가능하다.
A B
C1 2
3
16-3 그래프 모형의 표본 추출
조상 표집(ancestral sampling)
3) 그 순서에 따라 노드를 방문해 표본을 추출한다. 부모 ⇒ 자식
➔ 가장 먼저 p $% 분포로부터 &$% 을 추출
➔ 다음 노드 접근 p $'|$% 분포에서 샘플 추출
➔ 차례대로 노드를 방문하여 마지막 &$) 의 샘플을 생성
➔ 최종적으로 샘플(&$% … &$))을 얻게 된다.
핵심 : 이전 노드와의 조건부 분포로부터 표본을 추출한다.
16-3 그래프 모형의 표본 추출
조상 표집(ancestral sampling)
3) 그 순서에 따라 노드를 방문해 표본을 추출한다. 부모 ⇒ 자식
➔ 가장 먼저 p $% 분포로부터 &$% 을 추출
➔ 다음 노드 접근 p $'|$% 분포에서 샘플 추출
➔ 차례대로 노드를 방문하여 마지막 &$) 의 샘플을 생성
➔ 최종적으로 샘플(&$% … &$))을 얻게 된다.
Alarm
JohnCalls MaryCalls
Buglary Earthquake
P(B)=0.001 P(E)=0.002
B E P(A|B,E)
T T 0.95
T F 0.94
F T 0.29
F F 0.001
A P(J|A)
T 0.90
F 0.05
A P(M|A)
T 0.70
F 0.01
A B
C1 2
3
16-3 그래프 모형의 표본 추출
조상 표집(ancestral sampling)
3) 그 순서에 따라 노드를 방문해 표본을 추출한다. 부모 ⇒ 자식
➔ 가장 먼저 p $% 분포로부터 &$% 을 추출
➔ 다음 노드 접근 p $'|$% 분포에서 샘플 추출
➔ 차례대로 노드를 방문하여 마지막 &$) 의 샘플을 생성
➔ 최종적으로 샘플(&$% … &$))을 얻게 된다.
핵심 : 이전 노드와의 조건부 분포로부터 표본을 추출한다.
단점
- 유향 그래프 모형에서만 적용할 수 있다.
- 찾아보니 요즘은 잘 안쓰는 방식이라고 한다.
2. 무향 그래프 모형(undirected graphical model, 마르코프 망)에서의 표본 추출은?
16-3 그래프 모형의 표본 추출
➔ 모든 변수가 다른 모든 변수와 상호작용하므로
➔ 표집 과정의 시작 지점이 명확하지 않음
➔ 조상 표집(ancestral sampling)은 사용 불가
➔ 가장 간단한 접근 방식 깁스 샘플링(Gibbs sampling)
깁스 샘플링(Gibbs sampling)
➔ 마코프 연쇄 몬테카를로 방법의 일종(17장에서 자세히 다룰 예정)
➔ 간략하게만 어떤 것인지 다루고 넘어간다.
1) 3개의 확률변수의 결합확률분포 p(!", !$, !%) 로부터 1개의 표본을 얻으려고 할 때 깁스 샘플링 절차
16-3 그래프 모형의 표본 추출
(1) 임의의 표본 !"=(#$
"
, #&
"
, #'
"
)을 선택한다.
(2) 현재 주어진 표본 !"
의 #&
"
, #'
"
를 고정한다.
(3) 첫번째 기존 #$
"
를 대체할 새로운 값 #$
$
을 p(#$
$
|#&
"
, #'
"
) 확률로 뽑는다.
(4) #$
$
, #'
"
을 고정 한다.
(5) #&
"
을 대체할 새로운 값 #&
$
을 p(#&
$
|#$
$
, #'
"
)
(6) 같은 방법으로 이번에는 #$
$
, #&
$
를 고정한다.
(7) 최종적으로 구한 !$
= (#$
$
, #&
$
, #'
$
)이다.
1) 3개의 확률변수의 결합확률분포 p(#$, #&, #') 로부터 1개의 표본을 얻으려고 할 때 깁스 샘플링 절차
깁스 샘플링(Gibbs sampling)
#$
,
, #&
,
, #'
,
#$
,-$
, #&
,
, #'
,
#$
,-$
, #&
,-$
, #'
,
#$
,-$
, #&
,-$
, #'
,-$
핵심 : 변수 #.에 대해 샘플링 ⇒ 그 이외의 모든 변수를 조건으로 한 조건부 분포로부터 그 변수의 값을 샘플링한다.
16-3 그래프 모형의 표본 추출
깁스 샘플링(Gibbs sampling)
!"
#
, !%
#
, !&
#
!"
#'"
, !%
#
, !&
#
!"
#'"
, !%
#'"
, !&
#
!"
#'"
, !%
#'"
, !&
#'"
x1
x2
16-3 그래프 모형의 표본 추출
깁스 샘플링(Gibbs sampling)
!"
#
, !%
#
, !&
#
!"
#'"
, !%
#
, !&
#
!"
#'"
, !%
#'"
, !&
#
!"
#'"
, !%
#'"
, !&
#'"
16-3 그래프 모형의 표본 추출
깁스 샘플링(Gibbs sampling)
!"
#
, !%
#
, !&
#
!"
#'"
, !%
#
, !&
#
!"
#'"
, !%
#'"
, !&
#
!"
#'"
, !%
#'"
, !&
#'"
16-3 그래프 모형의 표본 추출
깁스 샘플링(Gibbs sampling)
- 점근적으로 이런 과정을 반복하면 desired distribution에 수렴한다.
- high dimensional distribution에서 sampling하는데 매우 유용하다.
- 17장에서 좀 더 자세하게 다루도록 한다.
샘플링을 통해 데이터를 생성하는 것
확률 모형을 만든다는 것
데이터 확률 모형을 학습해야 하는 것
input data의 분포를 정확하게 포착하면 할 수록 좋은 것
16-5 종속 관계의 학습
샘플링을 통해 데이터를 생성하는 것
확률 모형을 만든다는 것
데이터 확률 모형을 학습해야 하는 것
input data의 분포를 정확하게 포착하면 할 수록 좋은 것
그런데 input data는 서로 다른 feature 사이에 관계(ex 종속 관계)가 존재할 때가 많다.
16-5 종속 관계의 학습
샘플링을 통해 데이터를 생성하는 것
확률 모형을 만든다는 것
데이터 확률 모형을 학습해야 하는 것
input data의 분포를 정확하게 포착하면 할 수록 좋은 것
그런데 input data는 서로 다른 feature 사이에 관계(ex 종속 관계)가 존재할 때가 많다.
따라서 의존성을 잘 포착해서 그래프 모형을 만들어야 좋은 그래프 모형
16-5 종속 관계의 학습
16-5 종속 관계의 학습
!"
!#
ℎ
“hidden” variable 1) !"와 !# 사이의 간접 종속 관계가 있는지 궁금하다.
2) !"와 ℎ 사이의 직접 종속 관계 확인
3) !#와 ℎ 사이의 직접 종속 관계를 통해서 확인한다.
그런 관계를 포착하는 방법 예시
“visible” variable(= input data)
16-5 종속관계의 학습(Learning about Dependencies)
➔ 다양한 방법이 있지만 general 한 방법을 이야기하자
data set three example network structures
그래프 모형을 만드는 방법
16-5 종속관계의 학습(Learning about Dependencies)
➔ to define a scoring function that tells us, for each of these network structures,
how good it is relative to the data
1) Likelihood Scores
2) Bayesian Scores
➔ we have the goal of searching for a network structure that maximizes the score.
data set three example network structures
16-5 종속관계의 학습(Learning about Dependencies)
나올법한 질문
1) 변수가 엄청 많으면 만들 수 있는 structure의 경우의 수도 많을텐데 모든 case에 대
해서 전부 다해봐? 어떻게 초기 structure를 설정?
data set three example network structures
16-5 종속관계의 학습(Learning about Dependencies)
나올법한 질문
1) 변수가 엄청 많으면 만들 수 있는 structure의 경우의 수도 많을텐데 모든 case에 대
해서 전부 다해봐? 어떻게 초기 structure를 설정?
➔ 교재 왈 : 모든 변수를 연결하는 것은 일반적으로 비현실적이므로 서로 밀접하게 연
관된 변수만 연결하고 그 외의 변수들 사이의 edge는 생략한 그래프를 만들도록 한다.
data set three example network structures
16-4 구조적 모형화의 장점
1. 확률 분포의 표현 비용, 학습과 추론 비용이 극적으로 줄어든다.
➔ The primary advantage of using structured probabilistic models is that
they allow us to dramatically reduce the cost of representing probability distributions
as well as learning and inference.
➔ 앞서 인준형이 이야기했던 부분
2. 학습으로 얻은 지식의 표현과 기존 지식에 기초한 추론으로 얻은 지식의 표현을 명시적으로 분리할 수 있다.
➔ 조금 우회해서 해석해보면
16-4 구조적 모형화의 장점
1. 확률 분포의 표현 비용, 학습과 추론 비용이 극적으로 줄어든다.
➔ The primary advantage of using structured probabilistic models is that
they allow us to dramatically reduce the cost of representing probability distributions
as well as learning and inference.
2. 학습으로 얻은 지식의 표현과 기존 지식에 기초한 추론으로 얻은 지식의 표현을 명시적으로 분리할 수 있다.
➔ variable들의 structure(서로 어떤 위계가 있는지)를 발견하는 것 자체가 의미가 있는 상황이 있을 수 있다.
➔ scientific or biological data sets
➔ 변수들 사이에 interrelationship을 발견하는 것이 domain을 더 잘 이해하는데 도움을 줄 수 있다.
➔ ex) 특정 환자가 가지고 있을 만한 질병을, 주어진 의료 진단 자료를 조건으로 하여 확률 모형으로
알아 낼 수 있다.
➔ 확률 모형의 주된 용도는 변수들 사이의 관계를 질의 하는 것
16-7 구조적 확률 모형에 대한 심측 학습 접근 방식, 제한 볼츠만 기계(Restricted Boltzmann machine)
RBM은 그래프 모형에 대한 전형적인 심층 학습 접근 방식이라고 한다.
RBM이 뭔데? (20장에서 다루기에 정말 정말 간단하게)
오토인코더랑 같은 목적 =>
But 그 방식이 다르다.(앞에서 이야기한 에너지 모델)
16-7 구조적 확률 모형에 대한 심측 학습 접근 방식, 제한 볼츠만 기계(Restricted Boltzmann machine)
RBM은 그래프 모형에 대한 전형적인 심층 학습 접근 방식이라고 한다.
어떠한 x가 있을 확률은 E(x), 즉 에너지 함수에 반비례한다.
에너지를 학습하는 것이 RBM의 목적
에너지 함수라는 건 w, b, a의 식으로 구성됨
16-7 구조적 확률 모형에 대한 심측 학습 접근 방식, 제한 볼츠만 기계(Restricted Boltzmann machine)
RBM이 뭔데? (20장에서 다루기에 정말 정말 간단하게)
) ( 0 2 . ==
B R M
RBM은 그래프 모형에 대한 전형적인 심층 학습 접근 방식이라고 한다.

More Related Content

What's hot

Ppt
PptPpt
Time Series Decomposition
Time Series DecompositionTime Series Decomposition
Time Series Decomposition
chandan kumar singh
 
Causal Inference Introduction.pdf
Causal Inference Introduction.pdfCausal Inference Introduction.pdf
Causal Inference Introduction.pdf
Yuna Koyama
 
Exponential Weighting Moving Average.
 Exponential Weighting Moving Average. Exponential Weighting Moving Average.
Exponential Weighting Moving Average.
Syed Waqar Hussain Shah
 
PRML Chapter 14
PRML Chapter 14PRML Chapter 14
PRML Chapter 14
Masahito Ohue
 
What is the Holt-Winters Forecasting Algorithm and How Can it be Used for Ent...
What is the Holt-Winters Forecasting Algorithm and How Can it be Used for Ent...What is the Holt-Winters Forecasting Algorithm and How Can it be Used for Ent...
What is the Holt-Winters Forecasting Algorithm and How Can it be Used for Ent...
Smarten Augmented Analytics
 
임상연구에 필요한 통계 분석
임상연구에 필요한 통계 분석 임상연구에 필요한 통계 분석
임상연구에 필요한 통계 분석
mothersafe
 
マルコフ連鎖モンテカルロ法入門-1
マルコフ連鎖モンテカルロ法入門-1マルコフ連鎖モンテカルロ法入門-1
マルコフ連鎖モンテカルロ法入門-1
Nagi Teramo
 
Linear regression
Linear regression Linear regression
Linear regression
Babasab Patil
 
Interpretable machine learning
Interpretable machine learningInterpretable machine learning
Interpretable machine learning
Sri Ambati
 
Social network analysis part ii
Social network analysis part iiSocial network analysis part ii
Social network analysis part ii
THomas Plotkowiak
 
Logistic regression
Logistic regressionLogistic regression
Logistic regression
VARUN KUMAR
 
Time Series Analysis/ Forecasting
Time Series Analysis/ Forecasting  Time Series Analysis/ Forecasting
Time Series Analysis/ Forecasting
Samudra Kanankearachchi
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門Miyoshi Yuya
 
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
logics-of-blue
 
PRML第3章_3.3-3.4
PRML第3章_3.3-3.4PRML第3章_3.3-3.4
PRML第3章_3.3-3.4
Takashi Tamura
 
分布から見た線形モデル・GLM・GLMM
分布から見た線形モデル・GLM・GLMM分布から見た線形モデル・GLM・GLMM
分布から見た線形モデル・GLM・GLMM. .
 
Applying Statistical Modeling and Machine Learning to Perform Time-Series For...
Applying Statistical Modeling and Machine Learning to Perform Time-Series For...Applying Statistical Modeling and Machine Learning to Perform Time-Series For...
Applying Statistical Modeling and Machine Learning to Perform Time-Series For...
PyData
 
PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布
Akihiro Nitta
 
2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰
logics-of-blue
 

What's hot (20)

Ppt
PptPpt
Ppt
 
Time Series Decomposition
Time Series DecompositionTime Series Decomposition
Time Series Decomposition
 
Causal Inference Introduction.pdf
Causal Inference Introduction.pdfCausal Inference Introduction.pdf
Causal Inference Introduction.pdf
 
Exponential Weighting Moving Average.
 Exponential Weighting Moving Average. Exponential Weighting Moving Average.
Exponential Weighting Moving Average.
 
PRML Chapter 14
PRML Chapter 14PRML Chapter 14
PRML Chapter 14
 
What is the Holt-Winters Forecasting Algorithm and How Can it be Used for Ent...
What is the Holt-Winters Forecasting Algorithm and How Can it be Used for Ent...What is the Holt-Winters Forecasting Algorithm and How Can it be Used for Ent...
What is the Holt-Winters Forecasting Algorithm and How Can it be Used for Ent...
 
임상연구에 필요한 통계 분석
임상연구에 필요한 통계 분석 임상연구에 필요한 통계 분석
임상연구에 필요한 통계 분석
 
マルコフ連鎖モンテカルロ法入門-1
マルコフ連鎖モンテカルロ法入門-1マルコフ連鎖モンテカルロ法入門-1
マルコフ連鎖モンテカルロ法入門-1
 
Linear regression
Linear regression Linear regression
Linear regression
 
Interpretable machine learning
Interpretable machine learningInterpretable machine learning
Interpretable machine learning
 
Social network analysis part ii
Social network analysis part iiSocial network analysis part ii
Social network analysis part ii
 
Logistic regression
Logistic regressionLogistic regression
Logistic regression
 
Time Series Analysis/ Forecasting
Time Series Analysis/ Forecasting  Time Series Analysis/ Forecasting
Time Series Analysis/ Forecasting
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
 
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
2 5 3.一般化線形モデル色々_Gamma回帰と対数線形モデル
 
PRML第3章_3.3-3.4
PRML第3章_3.3-3.4PRML第3章_3.3-3.4
PRML第3章_3.3-3.4
 
分布から見た線形モデル・GLM・GLMM
分布から見た線形モデル・GLM・GLMM分布から見た線形モデル・GLM・GLMM
分布から見た線形モデル・GLM・GLMM
 
Applying Statistical Modeling and Machine Learning to Perform Time-Series For...
Applying Statistical Modeling and Machine Learning to Perform Time-Series For...Applying Statistical Modeling and Machine Learning to Perform Time-Series For...
Applying Statistical Modeling and Machine Learning to Perform Time-Series For...
 
PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布PRML 2.3.2-2.3.4 ガウス分布
PRML 2.3.2-2.3.4 ガウス分布
 
2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰2 5 2.一般化線形モデル色々_ロジスティック回帰
2 5 2.一般化線形モデル色々_ロジスティック回帰
 

Similar to Chapter 16 structured probabilistic models for deep learning - 2

Doing math with python.ch05
Doing math with python.ch05Doing math with python.ch05
Doing math with python.ch05
Seok-joon Yun
 
Chapter 17 monte carlo methods
Chapter 17 monte carlo methodsChapter 17 monte carlo methods
Chapter 17 monte carlo methods
KyeongUkJang
 
Sampling-Importance-Sampling을 이용한 선수 경기능력 측정
Sampling-Importance-Sampling을 이용한 선수 경기능력 측정Sampling-Importance-Sampling을 이용한 선수 경기능력 측정
Sampling-Importance-Sampling을 이용한 선수 경기능력 측정
Mad Scientists
 
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Haezoom Inc.
 

Similar to Chapter 16 structured probabilistic models for deep learning - 2 (7)

표집
표집표집
표집
 
Doing math with python.ch05
Doing math with python.ch05Doing math with python.ch05
Doing math with python.ch05
 
Hfs ch11
Hfs ch11Hfs ch11
Hfs ch11
 
Chapter 17 monte carlo methods
Chapter 17 monte carlo methodsChapter 17 monte carlo methods
Chapter 17 monte carlo methods
 
Sampling-Importance-Sampling을 이용한 선수 경기능력 측정
Sampling-Importance-Sampling을 이용한 선수 경기능력 측정Sampling-Importance-Sampling을 이용한 선수 경기능력 측정
Sampling-Importance-Sampling을 이용한 선수 경기능력 측정
 
DM_02
DM_02DM_02
DM_02
 
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
 

More from KyeongUkJang

Photo wake up - 3d character animation from a single photo
Photo wake up - 3d character animation from a single photoPhoto wake up - 3d character animation from a single photo
Photo wake up - 3d character animation from a single photo
KyeongUkJang
 
AlphagoZero
AlphagoZeroAlphagoZero
AlphagoZero
KyeongUkJang
 
GoogLenet
GoogLenetGoogLenet
GoogLenet
KyeongUkJang
 
GAN - Generative Adversarial Nets
GAN - Generative Adversarial NetsGAN - Generative Adversarial Nets
GAN - Generative Adversarial Nets
KyeongUkJang
 
Distilling the knowledge in a neural network
Distilling the knowledge in a neural networkDistilling the knowledge in a neural network
Distilling the knowledge in a neural network
KyeongUkJang
 
Latent Dirichlet Allocation
Latent Dirichlet AllocationLatent Dirichlet Allocation
Latent Dirichlet Allocation
KyeongUkJang
 
Gaussian Mixture Model
Gaussian Mixture ModelGaussian Mixture Model
Gaussian Mixture Model
KyeongUkJang
 
CNN for sentence classification
CNN for sentence classificationCNN for sentence classification
CNN for sentence classification
KyeongUkJang
 
Visualizing data using t-SNE
Visualizing data using t-SNEVisualizing data using t-SNE
Visualizing data using t-SNE
KyeongUkJang
 
Playing atari with deep reinforcement learning
Playing atari with deep reinforcement learningPlaying atari with deep reinforcement learning
Playing atari with deep reinforcement learning
KyeongUkJang
 
Chapter 20 - GAN
Chapter 20 - GANChapter 20 - GAN
Chapter 20 - GAN
KyeongUkJang
 
Chapter 20 - VAE
Chapter 20 - VAEChapter 20 - VAE
Chapter 20 - VAE
KyeongUkJang
 
Chapter 20 Deep generative models
Chapter 20 Deep generative modelsChapter 20 Deep generative models
Chapter 20 Deep generative models
KyeongUkJang
 
Chapter 19 Variational Inference
Chapter 19 Variational InferenceChapter 19 Variational Inference
Chapter 19 Variational Inference
KyeongUkJang
 
Natural Language Processing(NLP) - basic 2
Natural Language Processing(NLP) - basic 2Natural Language Processing(NLP) - basic 2
Natural Language Processing(NLP) - basic 2
KyeongUkJang
 
Natural Language Processing(NLP) - Basic
Natural Language Processing(NLP) - BasicNatural Language Processing(NLP) - Basic
Natural Language Processing(NLP) - Basic
KyeongUkJang
 
Chapter 15 Representation learning - 2
Chapter 15 Representation learning - 2Chapter 15 Representation learning - 2
Chapter 15 Representation learning - 2
KyeongUkJang
 
Chapter 15 Representation learning - 1
Chapter 15 Representation learning - 1Chapter 15 Representation learning - 1
Chapter 15 Representation learning - 1
KyeongUkJang
 
Chapter 6 Deep feedforward networks - 2
Chapter 6 Deep feedforward networks - 2Chapter 6 Deep feedforward networks - 2
Chapter 6 Deep feedforward networks - 2
KyeongUkJang
 

More from KyeongUkJang (20)

Photo wake up - 3d character animation from a single photo
Photo wake up - 3d character animation from a single photoPhoto wake up - 3d character animation from a single photo
Photo wake up - 3d character animation from a single photo
 
YOLO
YOLOYOLO
YOLO
 
AlphagoZero
AlphagoZeroAlphagoZero
AlphagoZero
 
GoogLenet
GoogLenetGoogLenet
GoogLenet
 
GAN - Generative Adversarial Nets
GAN - Generative Adversarial NetsGAN - Generative Adversarial Nets
GAN - Generative Adversarial Nets
 
Distilling the knowledge in a neural network
Distilling the knowledge in a neural networkDistilling the knowledge in a neural network
Distilling the knowledge in a neural network
 
Latent Dirichlet Allocation
Latent Dirichlet AllocationLatent Dirichlet Allocation
Latent Dirichlet Allocation
 
Gaussian Mixture Model
Gaussian Mixture ModelGaussian Mixture Model
Gaussian Mixture Model
 
CNN for sentence classification
CNN for sentence classificationCNN for sentence classification
CNN for sentence classification
 
Visualizing data using t-SNE
Visualizing data using t-SNEVisualizing data using t-SNE
Visualizing data using t-SNE
 
Playing atari with deep reinforcement learning
Playing atari with deep reinforcement learningPlaying atari with deep reinforcement learning
Playing atari with deep reinforcement learning
 
Chapter 20 - GAN
Chapter 20 - GANChapter 20 - GAN
Chapter 20 - GAN
 
Chapter 20 - VAE
Chapter 20 - VAEChapter 20 - VAE
Chapter 20 - VAE
 
Chapter 20 Deep generative models
Chapter 20 Deep generative modelsChapter 20 Deep generative models
Chapter 20 Deep generative models
 
Chapter 19 Variational Inference
Chapter 19 Variational InferenceChapter 19 Variational Inference
Chapter 19 Variational Inference
 
Natural Language Processing(NLP) - basic 2
Natural Language Processing(NLP) - basic 2Natural Language Processing(NLP) - basic 2
Natural Language Processing(NLP) - basic 2
 
Natural Language Processing(NLP) - Basic
Natural Language Processing(NLP) - BasicNatural Language Processing(NLP) - Basic
Natural Language Processing(NLP) - Basic
 
Chapter 15 Representation learning - 2
Chapter 15 Representation learning - 2Chapter 15 Representation learning - 2
Chapter 15 Representation learning - 2
 
Chapter 15 Representation learning - 1
Chapter 15 Representation learning - 1Chapter 15 Representation learning - 1
Chapter 15 Representation learning - 1
 
Chapter 6 Deep feedforward networks - 2
Chapter 6 Deep feedforward networks - 2Chapter 6 Deep feedforward networks - 2
Chapter 6 Deep feedforward networks - 2
 

Chapter 16 structured probabilistic models for deep learning - 2

  • 1. 1. 유향 그래프 모형(directed graphical model, 베이즈 망)에서는? 이 뉘앙스에서 조상 표집이라는 것을 생각해보자. DGM을 다시 리마인드 하면 16-3 그래프 모형의 표본 추출 그래프 모형 사용 ➔ 조상 표집(ancestral sampling, = forward sampling) 을 이용해서 샘플링 가능 ➔ 화살표의 방향은 한 변수의 확률 분포가 다른 변수의 확률 분포로 정의됨을 뜻했다. A B B에 관한 분포는 A의 값에 의존한다. 어떤 확률 분포로부터 임의의 샘플들을 만들어 내고 싶은 경우가 있다. 1. 유향 그래프 모형(directed graphical model, 베이즈 망)에서는? 이 뉘앙스에서 조상 표집이라는 것을 생각해보자. DGM을 다시 리마인드 하면 16-3 그래프 모형의 표본 추출 그래프 모형 사용 ➔ 조상 표집(ancestral sampling, = forward sampling) 을 이용해서 샘플링 가능 ➔ 화살표의 방향은 한 변수의 확률 분포가 다른 변수의 확률 분포로 정의됨을 뜻했다. A B B에 관한 분포는 A의 값에 의존한다. 어떤 확률 분포로부터 임의의 샘플들을 만들어 내고 싶은 경우가 있다.
  • 2. 16-3 그래프 모형의 표본 추출 1) 3 개의 변수로 이루어진 결합 확률 분포 p(!" … !$), A~C까지 있다고 가정해보자 A B C 2) 그래프가 주어졌을 때 각각의 노드에 번호를 붙인다. - 이 때 자식 노드는 부모 노드보다 더 큰 번호를 부여한다.(위상 정렬) A B C1 2 3 조상 표집(ancestral sampling) A B C1 2 ? D ? - 이렇게 순서가 여러 가지 나올 수도 있는데 그런 경우 유효 위상 순서 중 어떤 것도 가능하다.
  • 3. A B C1 2 3 16-3 그래프 모형의 표본 추출 조상 표집(ancestral sampling) 3) 그 순서에 따라 노드를 방문해 표본을 추출한다. 부모 ⇒ 자식 ➔ 가장 먼저 p $% 분포로부터 &$% 을 추출 ➔ 다음 노드 접근 p $'|$% 분포에서 샘플 추출 ➔ 차례대로 노드를 방문하여 마지막 &$) 의 샘플을 생성 ➔ 최종적으로 샘플(&$% … &$))을 얻게 된다. 핵심 : 이전 노드와의 조건부 분포로부터 표본을 추출한다.
  • 4. 16-3 그래프 모형의 표본 추출 조상 표집(ancestral sampling) 3) 그 순서에 따라 노드를 방문해 표본을 추출한다. 부모 ⇒ 자식 ➔ 가장 먼저 p $% 분포로부터 &$% 을 추출 ➔ 다음 노드 접근 p $'|$% 분포에서 샘플 추출 ➔ 차례대로 노드를 방문하여 마지막 &$) 의 샘플을 생성 ➔ 최종적으로 샘플(&$% … &$))을 얻게 된다. Alarm JohnCalls MaryCalls Buglary Earthquake P(B)=0.001 P(E)=0.002 B E P(A|B,E) T T 0.95 T F 0.94 F T 0.29 F F 0.001 A P(J|A) T 0.90 F 0.05 A P(M|A) T 0.70 F 0.01
  • 5. A B C1 2 3 16-3 그래프 모형의 표본 추출 조상 표집(ancestral sampling) 3) 그 순서에 따라 노드를 방문해 표본을 추출한다. 부모 ⇒ 자식 ➔ 가장 먼저 p $% 분포로부터 &$% 을 추출 ➔ 다음 노드 접근 p $'|$% 분포에서 샘플 추출 ➔ 차례대로 노드를 방문하여 마지막 &$) 의 샘플을 생성 ➔ 최종적으로 샘플(&$% … &$))을 얻게 된다. 핵심 : 이전 노드와의 조건부 분포로부터 표본을 추출한다. 단점 - 유향 그래프 모형에서만 적용할 수 있다. - 찾아보니 요즘은 잘 안쓰는 방식이라고 한다.
  • 6. 2. 무향 그래프 모형(undirected graphical model, 마르코프 망)에서의 표본 추출은? 16-3 그래프 모형의 표본 추출 ➔ 모든 변수가 다른 모든 변수와 상호작용하므로 ➔ 표집 과정의 시작 지점이 명확하지 않음 ➔ 조상 표집(ancestral sampling)은 사용 불가 ➔ 가장 간단한 접근 방식 깁스 샘플링(Gibbs sampling) 깁스 샘플링(Gibbs sampling) ➔ 마코프 연쇄 몬테카를로 방법의 일종(17장에서 자세히 다룰 예정) ➔ 간략하게만 어떤 것인지 다루고 넘어간다. 1) 3개의 확률변수의 결합확률분포 p(!", !$, !%) 로부터 1개의 표본을 얻으려고 할 때 깁스 샘플링 절차
  • 7. 16-3 그래프 모형의 표본 추출 (1) 임의의 표본 !"=(#$ " , #& " , #' " )을 선택한다. (2) 현재 주어진 표본 !" 의 #& " , #' " 를 고정한다. (3) 첫번째 기존 #$ " 를 대체할 새로운 값 #$ $ 을 p(#$ $ |#& " , #' " ) 확률로 뽑는다. (4) #$ $ , #' " 을 고정 한다. (5) #& " 을 대체할 새로운 값 #& $ 을 p(#& $ |#$ $ , #' " ) (6) 같은 방법으로 이번에는 #$ $ , #& $ 를 고정한다. (7) 최종적으로 구한 !$ = (#$ $ , #& $ , #' $ )이다. 1) 3개의 확률변수의 결합확률분포 p(#$, #&, #') 로부터 1개의 표본을 얻으려고 할 때 깁스 샘플링 절차 깁스 샘플링(Gibbs sampling) #$ , , #& , , #' , #$ ,-$ , #& , , #' , #$ ,-$ , #& ,-$ , #' , #$ ,-$ , #& ,-$ , #' ,-$ 핵심 : 변수 #.에 대해 샘플링 ⇒ 그 이외의 모든 변수를 조건으로 한 조건부 분포로부터 그 변수의 값을 샘플링한다.
  • 8. 16-3 그래프 모형의 표본 추출 깁스 샘플링(Gibbs sampling) !" # , !% # , !& # !" #'" , !% # , !& # !" #'" , !% #'" , !& # !" #'" , !% #'" , !& #'" x1 x2
  • 9. 16-3 그래프 모형의 표본 추출 깁스 샘플링(Gibbs sampling) !" # , !% # , !& # !" #'" , !% # , !& # !" #'" , !% #'" , !& # !" #'" , !% #'" , !& #'"
  • 10. 16-3 그래프 모형의 표본 추출 깁스 샘플링(Gibbs sampling) !" # , !% # , !& # !" #'" , !% # , !& # !" #'" , !% #'" , !& # !" #'" , !% #'" , !& #'"
  • 11. 16-3 그래프 모형의 표본 추출 깁스 샘플링(Gibbs sampling) - 점근적으로 이런 과정을 반복하면 desired distribution에 수렴한다. - high dimensional distribution에서 sampling하는데 매우 유용하다. - 17장에서 좀 더 자세하게 다루도록 한다.
  • 12. 샘플링을 통해 데이터를 생성하는 것 확률 모형을 만든다는 것 데이터 확률 모형을 학습해야 하는 것 input data의 분포를 정확하게 포착하면 할 수록 좋은 것 16-5 종속 관계의 학습
  • 13. 샘플링을 통해 데이터를 생성하는 것 확률 모형을 만든다는 것 데이터 확률 모형을 학습해야 하는 것 input data의 분포를 정확하게 포착하면 할 수록 좋은 것 그런데 input data는 서로 다른 feature 사이에 관계(ex 종속 관계)가 존재할 때가 많다. 16-5 종속 관계의 학습
  • 14. 샘플링을 통해 데이터를 생성하는 것 확률 모형을 만든다는 것 데이터 확률 모형을 학습해야 하는 것 input data의 분포를 정확하게 포착하면 할 수록 좋은 것 그런데 input data는 서로 다른 feature 사이에 관계(ex 종속 관계)가 존재할 때가 많다. 따라서 의존성을 잘 포착해서 그래프 모형을 만들어야 좋은 그래프 모형 16-5 종속 관계의 학습
  • 15. 16-5 종속 관계의 학습 !" !# ℎ “hidden” variable 1) !"와 !# 사이의 간접 종속 관계가 있는지 궁금하다. 2) !"와 ℎ 사이의 직접 종속 관계 확인 3) !#와 ℎ 사이의 직접 종속 관계를 통해서 확인한다. 그런 관계를 포착하는 방법 예시 “visible” variable(= input data)
  • 16. 16-5 종속관계의 학습(Learning about Dependencies) ➔ 다양한 방법이 있지만 general 한 방법을 이야기하자 data set three example network structures 그래프 모형을 만드는 방법
  • 17. 16-5 종속관계의 학습(Learning about Dependencies) ➔ to define a scoring function that tells us, for each of these network structures, how good it is relative to the data 1) Likelihood Scores 2) Bayesian Scores ➔ we have the goal of searching for a network structure that maximizes the score. data set three example network structures
  • 18. 16-5 종속관계의 학습(Learning about Dependencies) 나올법한 질문 1) 변수가 엄청 많으면 만들 수 있는 structure의 경우의 수도 많을텐데 모든 case에 대 해서 전부 다해봐? 어떻게 초기 structure를 설정? data set three example network structures
  • 19. 16-5 종속관계의 학습(Learning about Dependencies) 나올법한 질문 1) 변수가 엄청 많으면 만들 수 있는 structure의 경우의 수도 많을텐데 모든 case에 대 해서 전부 다해봐? 어떻게 초기 structure를 설정? ➔ 교재 왈 : 모든 변수를 연결하는 것은 일반적으로 비현실적이므로 서로 밀접하게 연 관된 변수만 연결하고 그 외의 변수들 사이의 edge는 생략한 그래프를 만들도록 한다. data set three example network structures
  • 20. 16-4 구조적 모형화의 장점 1. 확률 분포의 표현 비용, 학습과 추론 비용이 극적으로 줄어든다. ➔ The primary advantage of using structured probabilistic models is that they allow us to dramatically reduce the cost of representing probability distributions as well as learning and inference. ➔ 앞서 인준형이 이야기했던 부분 2. 학습으로 얻은 지식의 표현과 기존 지식에 기초한 추론으로 얻은 지식의 표현을 명시적으로 분리할 수 있다. ➔ 조금 우회해서 해석해보면
  • 21. 16-4 구조적 모형화의 장점 1. 확률 분포의 표현 비용, 학습과 추론 비용이 극적으로 줄어든다. ➔ The primary advantage of using structured probabilistic models is that they allow us to dramatically reduce the cost of representing probability distributions as well as learning and inference. 2. 학습으로 얻은 지식의 표현과 기존 지식에 기초한 추론으로 얻은 지식의 표현을 명시적으로 분리할 수 있다. ➔ variable들의 structure(서로 어떤 위계가 있는지)를 발견하는 것 자체가 의미가 있는 상황이 있을 수 있다. ➔ scientific or biological data sets ➔ 변수들 사이에 interrelationship을 발견하는 것이 domain을 더 잘 이해하는데 도움을 줄 수 있다. ➔ ex) 특정 환자가 가지고 있을 만한 질병을, 주어진 의료 진단 자료를 조건으로 하여 확률 모형으로 알아 낼 수 있다. ➔ 확률 모형의 주된 용도는 변수들 사이의 관계를 질의 하는 것
  • 22. 16-7 구조적 확률 모형에 대한 심측 학습 접근 방식, 제한 볼츠만 기계(Restricted Boltzmann machine) RBM은 그래프 모형에 대한 전형적인 심층 학습 접근 방식이라고 한다. RBM이 뭔데? (20장에서 다루기에 정말 정말 간단하게) 오토인코더랑 같은 목적 => But 그 방식이 다르다.(앞에서 이야기한 에너지 모델)
  • 23. 16-7 구조적 확률 모형에 대한 심측 학습 접근 방식, 제한 볼츠만 기계(Restricted Boltzmann machine) RBM은 그래프 모형에 대한 전형적인 심층 학습 접근 방식이라고 한다. 어떠한 x가 있을 확률은 E(x), 즉 에너지 함수에 반비례한다. 에너지를 학습하는 것이 RBM의 목적 에너지 함수라는 건 w, b, a의 식으로 구성됨
  • 24. 16-7 구조적 확률 모형에 대한 심측 학습 접근 방식, 제한 볼츠만 기계(Restricted Boltzmann machine) RBM이 뭔데? (20장에서 다루기에 정말 정말 간단하게) ) ( 0 2 . == B R M RBM은 그래프 모형에 대한 전형적인 심층 학습 접근 방식이라고 한다.