개념 이해가 쉬운 Variational Autoencoder (VAE)

Variational Autoencoder
nonezerok@gmail.com
1

3
Autoencoder
𝑓1: 𝑥 → 𝑧 𝑓2: 𝑧 → 𝑥
encoder decoder
𝒙 𝒙
𝑧1
𝑧2
𝑧3

4
Autoencoder
𝑓1: 𝑥 → 𝑧 𝑓2: 𝑧 → 𝑥
encoder decoder
𝒙 𝒙
입력이 같으면,
출력도 같다.
deterministic function
non-deterministic하게 하고 싶다.
𝑧1
𝑧2
𝑧3

5
Autoencoder
𝑓1: 𝑥 → 𝑧 𝑓2: 𝑧′ → 𝑥
무작위로 바꾸자!
(주사위를 굴리자)
encoder decoder
𝒙 𝒙
𝑧1
𝑧2
𝑧3

6
credit: https://www.topbots.com/intuitively-understanding-variational-autoencoders/
확률 분포를 도입하자!

7
𝑝(𝑧)

8
𝑝(𝑧|𝑥)
𝑥
is given
𝑥가 주어지면 더 잘 하겠지

9
𝑝(𝑧|𝑥)
추출 = sampling
𝑧 ~ 𝑝 (𝑧|𝑥)
확률분포표, 확률분포함수
sample
𝑥

10
Variational Autoencoder (VAE)
이 분포(함수)를 알아내는 것은 너무 어려워!
이 함수에 대한 식 알아 낼 수 있어?
이건 쉽지!
꿩 대신 닭!
𝑝(𝑧|𝑥)
𝑞(𝑧|𝑥)
𝑥

11
𝜇, 𝜎
Gaussian (distribution) function

12
𝑞(𝑧|𝑥)
𝑧~𝑞(𝑧|𝑥)
이렇게 되도록 Loss 함수를 정의하고,
Backpropagation으로 훈련을 시켜야 한다.
모든 화살표에 대한 미분이 가능해야 한다.
이 그림에서 미분이 안되는 화살표는?
𝑥

13
𝑞(𝑧|𝑥)
𝑧~𝑞(𝑧|𝑥)
𝑓(𝑥) = 𝑤𝑥 + 𝑏
미분이 되려면,
곱하기, 더하기 꼴로 표현되어 있으면 된다.
𝜕𝑓(𝑥)
𝜕𝑤
= 𝑥,
𝜕𝑓(𝑥)
𝜕𝑏
= 1
추출 (sampling)에 대해서는
미분적용을 못한다.
𝑥

reparameterization trick
ො
𝑥
𝑝 𝑥|𝑧
𝑞 𝑧|𝑥
𝑥
14
𝜇1
𝜇2
𝜎1
𝜎2
Sampling 은 미분 불가능하므로
𝑧i ~𝑁 𝜇𝑖, 𝜎𝑖
2
𝑧i = 𝜇𝑖 + 𝜎𝑖 ∙ 𝜀 𝜀 ~ 𝑁 0,1
𝜇𝑖
𝜎𝑖
𝑧i
이것을 더하기 곱하기 식으로
표현하자! 𝜀~𝑁 0, 1

15
https://www.youtube.com/watch?v=rZufA635dq4

16
목적:
q는 p와 최대한 유사하도록 신경망이 훈련되어져야 한다.
두 분포의 차이가 작아지도록 훈련
모르는 분포와의 차이를 어떻게 구해?
그래서, 이론이 필요
Bayesian Theorem(Rule), Information Theory
이건 쉽지!
𝑝(𝑧|𝑥)
𝑞(𝑧|𝑥)
우리가 원하는 목적대로 학습이 되도록 하려면,
손실함수를 어떻게 정해야 하나?

17
𝑝(𝑧|𝑥) 𝑞(𝑧|𝑥)
이런 모양인지 조차도 모르는 분포
모양은 이런데,
좌우 위치와 홀쭉인지 뚱뚱인지 아직 정해지지 않은 분포
이 둘의 차이는 어떻게 계산하나?
𝜇 𝜎
이 둘을 조정해서 왼쪽 분포와
그나마 유사하게 만들어 줄 수 있다.
KL divergence 라는 식이 있다.
(두 분포의 차이를 계산하는 식)
이 식은 엔트로피 항으로 이루어 진다.
엔트로피는 정보량의 평균이다.
정보량은 뉴스(확률사건)의 가치를 계산하는 식
KL divergence 식을 손실함수로 사용하면 된다!

선수지식
𝑝 𝑥, 𝑦 = 𝑝 𝑥 𝑝 𝑦|𝑥 = 𝑝 𝑦 𝑝(𝑥|𝑦)
𝑝 𝑥 = ෍
𝑦
𝑝 𝑥, 𝑦
𝐸 𝑋 = ෍
𝑥
𝑝 𝑥 𝑥 𝐸 𝑓 𝑋 = ෍
𝑥
𝑝 𝑥 𝑓 𝑥
18
𝐸𝑝(𝑥)[𝑋]
joint pdf, marginal pdf, conditional pdf
random variable, 𝑋
𝑝 𝑋 = 𝑥 , 𝑝𝑋 𝑥 , 𝑝(𝑥)

Bayes’ Rule
𝑝 𝑧|𝑥 =
𝑝 𝑥, 𝑧
𝑝 𝑥
=
𝑝 𝑥|𝑧 𝑝 𝑧
𝑝 𝑥
=
σ𝑧 𝑝 𝑥, 𝑧
=
σ𝑧 𝑝 𝑥|𝑧 𝑝 𝑧
19
𝑝 𝑥, 𝑧 = 𝑝 𝑥 𝑝 𝑧|𝑥

Information, Entropy
21
𝐼 𝑥 = 𝑙𝑜𝑔
1
𝑝(𝑥)
𝐻 𝑋 = 𝐸 −𝑙𝑜𝑔𝑝 𝑋 = − ෍
𝑥
𝑝 𝑥 𝑙𝑜𝑔𝑝 𝑥
Expectation of Information
𝐻 𝑝(𝑋)

𝐾𝐿(𝑝| 𝑞 = − න 𝑝 𝑥 𝑙𝑜𝑔𝑞(𝑥)
𝑑𝑥 − − න 𝑝 𝑥 𝑙𝑜𝑔𝑝(𝑥)
𝑑𝑥 = − න 𝑝 𝑥 log
𝑞 𝑥
𝑝 𝑥
𝑑𝑥
𝑝(𝑥)에 대한
𝑝(𝑥)의 엔트로피
𝑝(𝑥)에 대한
𝑞(𝑥)의 엔트로피
22
𝑤𝑖𝑡ℎ 𝑟𝑒𝑠𝑝𝑒𝑐𝑡 𝑡𝑜
𝐾𝐿(𝑝| 𝑞 ≥ 0
𝐾𝐿(𝑝| 𝑞 ≠ 𝐾𝐿(𝑞| 𝑝
> 0
𝑝 𝑥 − 𝑞 𝑥 ≈
𝑞(𝑥)
𝑝(𝑥)
가중평균 구한 것
두 분포의 엔트로피가,
한 분포의 엔트로피 보다는 크겠지
엔트로피를 활용해 보자

KL-divergence
23
두 확률 분포의 어떤 차이
두 분포의 차이를 어떤 식으로 계산하면 좋을까?
credit: https://wiseodd.github.io/techblog/2016/12/21/forward-reverse-kl/

Variational Inference
𝑝 𝑧|𝑥
𝑞 𝑧|𝑥
구하기 어렵다.
꿩 대신 닭
변이
우리가 알고 있는 쉬운 분포; 정규분포로 대치하자.
𝑝 𝑧|𝑥 ≈ 𝑞 𝑧|𝑥
조건:
KL 최소화
min KL 𝑞 𝑧|𝑥 ||𝑝 𝑧|𝑥
24
Posterior 구하기
대체(변이) 사후확률 구함
𝑞 𝑧|𝑥
Reverse KL을 선호
VI : biased, low variance
MC: unbiased, high variance

𝐾𝐿 𝑞 𝑧|𝑥 ||𝑝 𝑧|𝑥 = − ෍ 𝑞 𝑧|𝑥 𝑙𝑜𝑔
𝑝 𝑧|𝑥
𝑞 𝑧|𝑥
= − ෍ 𝑞 𝑧|𝑥 𝑙𝑜𝑔
𝑝 𝑥, 𝑧
𝑝 𝑥
𝑞 𝑧|𝑥
1
𝑝 𝑥, 𝑧
𝑞 𝑧|𝑥
1
𝑝 𝑥
𝑝 𝑥, 𝑧
𝑞 𝑧|𝑥
+ 𝑙𝑜𝑔
1
𝑝 𝑥
𝑝 𝑥, 𝑧
𝑞 𝑧|𝑥
+ ෍
𝑧
𝑞 𝑧|𝑥 𝑙𝑜𝑔 𝑝 𝑥
𝑝 𝑥, 𝑧
𝑞 𝑧|𝑥
+ 𝑙𝑜𝑔 𝑝 𝑥 ෍
𝑧
𝑞 𝑧|𝑥
𝑝 𝑥, 𝑧
𝑞 𝑧|𝑥
+ 𝑙𝑜𝑔 𝑝 𝑥
1
𝑙𝑜𝑔 𝑝 𝑥 = 𝐾𝐿 𝑞 𝑧|𝑥 ||𝑝 𝑧|𝑥 + ෍ 𝑞 𝑧|𝑥 𝑙𝑜𝑔
𝑝 𝑥, 𝑧
𝑞 𝑧|𝑥
𝑥 is given, then it is fixed
25
https://www.youtube.com/watch?v=uaaqyVS9-rM
𝑙𝑜𝑔 𝑝 𝑥 ≥
최소화
해야함
최대화
하면 된다.
꿩 대신 닭
≥ 0
෍ 𝑞 𝑧|𝑥 𝑙𝑜𝑔
𝑝 𝑥, 𝑧
𝑞 𝑧|𝑥
𝑥 in black: a random variable
𝑥 in gray: a fixed value of the random variable 𝑥

𝐾𝐿 𝑞 𝑧|𝑥 ||𝑝 𝑧|𝑥 = − ෍ 𝑞 𝑧|𝑥 𝑙𝑜𝑔
𝑝 𝑧|𝑥
𝑞 𝑧|𝑥
𝑝 𝑥, 𝑧
𝑝 𝑥
𝑞 𝑧|𝑥
1
𝑝 𝑥, 𝑧
𝑞 𝑧|𝑥
1
𝑝 𝑥
𝑝 𝑥, 𝑧
𝑞 𝑧|𝑥
+ 𝑙𝑜𝑔
1
𝑝 𝑥
𝑝 𝑥, 𝑧
𝑞 𝑧|𝑥
+ ෍
𝑧
𝑞 𝑧|𝑥 𝑙𝑜𝑔 𝑝 𝑥
𝑝 𝑥, 𝑧
𝑞 𝑧|𝑥
+ 𝑙𝑜𝑔 𝑝 𝑥 ෍
𝑧
𝑞 𝑧|𝑥
𝑝 𝑥, 𝑧
𝑞 𝑧|𝑥
+ 𝑙𝑜𝑔 𝑝 𝑥
1
𝑙𝑜𝑔 𝑝 𝑥 = 𝐾𝐿 𝑞 𝑧|𝑥 ||𝑝 𝑧|𝑥 + ෍ 𝑞 𝑧|𝑥 𝑙𝑜𝑔
𝑝 𝑥, 𝑧
𝑞 𝑧|𝑥
𝑥 is given, then it is fixed
26
https://www.youtube.com/watch?v=uaaqyVS9-rM
≥ 0
lower bound
variational
최소화
해야함
최대화
하면 된다.
꿩 대신 닭
Log-Likelihood
크게 하는 것
𝑥 in black: a random variable
𝑥 in gray: a fixed value of the random variable 𝑥

෍ 𝑞 𝑧|𝑥 𝑙𝑜𝑔
𝑝 𝑥, 𝑧
𝑞 𝑧|𝑥
= ෍ 𝑞 𝑧|𝑥 𝑙𝑜𝑔
𝑞 𝑧|𝑥
= ෍ 𝑞 𝑧|𝑥 𝑙𝑜𝑔 𝑝 𝑥|𝑧 + 𝑙𝑜𝑔
𝑝 𝑧
𝑞 𝑧|𝑥
= ෍ 𝑞 𝑧|𝑥 𝑙𝑜𝑔 𝑝 𝑥|𝑧 + ෍ 𝑞 𝑧|𝑥 𝑙𝑜𝑔
𝑝 𝑧
𝑞 𝑧|𝑥
= 𝐸𝑞 𝑧|𝑥 𝑙𝑜𝑔 𝑝 𝑥|𝑧 − 𝐾𝐿 𝑞 𝑧|𝑥 ||𝑝 𝑧
27
Evidence Lower BOund (ELBO)
lower bound
𝑝 𝑧|𝑥 𝑝 𝑥
when 𝑥 is given
Log-Likelihood
크게 하는 것

28
Z
X
𝑝(𝑥|𝑧) 𝑞(𝑧|𝑥)
𝑞 ∶ 𝑥 → 𝑧
𝑝 ∶ 𝑧 → 𝑥
𝑞(𝑧|𝑥)
𝑥
𝑧
𝑝(𝑥|𝑧) ො
𝑥
−𝐸𝑞 𝑧|𝑥 𝑙𝑜𝑔 𝑝 𝑥|𝑧 + 𝐾𝐿 𝑞 𝑧|𝑥 ||𝑝 𝑧
deterministic
function
= neural network
을 도입
그냥 신경망;
일반적인 복원 에러를 로스로 사용
Cross Entropy Loss
Loss for a given 𝑥:
≈ 𝑝(𝑧|𝑥)

29
𝑥 𝑞(𝑧|𝑥)
𝐾개
𝐾개
𝑧
𝜇𝑘, 𝜎𝑘
출력을 가우시안 분포의 파라미터로 간주

Loss Function 계산
෍ −𝐸𝑞 𝑧|𝑥𝑖
𝑙𝑜𝑔 𝑝 𝑥𝑖|𝑧 + 𝐾𝐿 𝑞 𝑧|𝑥𝑖 ||𝑝 𝑧
30
두 분포 모두 가우시안 가정
reconstruction term
regularizer term

베르누이 분포로 간주
≈
1
𝐿
෍ 𝑙𝑜𝑔 𝑝 𝑥𝑖|𝑧𝑙
≈ 𝑙𝑜𝑔 𝑝 𝑥𝑖|𝑧1
= 𝑙𝑜𝑔 ෑ
𝑗=1
𝑁
𝑝 𝑥𝑖,𝑗|𝑧1
= ෍
𝑗=1
𝑁
𝑙𝑜𝑔 𝑝 𝑥𝑖,𝑗|𝑧1
= ෍
𝑗=1
𝑁
𝑙𝑜𝑔 𝑝𝑗
𝑥𝑖,𝑗
∙ 1 − 𝑝𝑗
1−𝑥𝑖,𝑗
= ෍
𝑗=1
𝑁
𝑥𝑖,𝑗𝑙𝑜𝑔 𝑝𝑗 + 1 − 𝑥𝑖,𝑗 𝑙𝑜𝑔 1 − 𝑝𝑗
Monte Carlo Sampling
경험적
31
network output
cross-entropy
network input (target)
N
𝑝𝑗
j번째 노드 출력이 1일 확률

가우시안 분포로 간주
≈
1
𝐿
෍ 𝑙𝑜𝑔 𝑝 𝑥𝑖|𝑧𝑙
≈ 𝑙𝑜𝑔 𝑝 𝑥𝑖|𝑧1
= 𝑙𝑜𝑔 𝑁 𝜇𝑖, 𝜎𝑖
2
𝐼
= − ෍
𝑗=1
𝑁
1
2
𝑙𝑜𝑔 𝜎𝑖,𝑗
2
+
𝑥𝑖,𝑗 − 𝜇𝑖,𝑗
2
2𝜎𝑖,𝑗
2
Monte Carlo Sampling
32
𝑙𝑜𝑔 𝑁 𝜇𝑖, 𝜎2
𝐼
∝ − ෍
𝑗=1
𝑁
2
경험적
분산이 모두 같다고 가정
mean squared loss
N
𝜇𝑗
2N
𝜇𝑗
𝜎𝑗
?

KL regularizer term
33
𝐾𝐿 𝑁 𝑢𝑖, 𝜎𝑖
2
𝐼 ||𝑁 0, 𝐼
=
1
2
𝑡𝑟 𝜎𝑖
2
𝐼 + 𝜇𝑖
𝑇
𝜇𝑖 − 𝐾 − 𝑙𝑜𝑔 ෑ
𝑘=1
𝐾
𝜎𝑖,𝑘
2
=
1
2
෍
𝑘=1
𝐾
𝜎𝑖,𝑘
2
+ ෍
𝑘=1
𝐾
𝜇𝑖,𝑘
2
− ෍
𝑘=1
𝐾
1 − ෍
𝑘=1
𝐾
𝑙𝑜𝑔 𝜎𝑖,𝑘
2
=
1
2
෍
𝑘=1
𝐾
𝜎𝑖,𝑘
2
+ 𝜇𝑖,𝑘
2
− 𝑙𝑜𝑔 𝜎𝑖,𝑘
2
− 1
𝑥𝑖에 따라 달라지는 분포
초간단 분포
𝐾개
𝐾개
𝑞 𝑧|𝑥𝑖
covariance 0 가정,
𝑢𝑖 K개, 𝜎𝑖
2
K개
=
1
2
෍
𝑘=1
𝐾
exp(log _𝜎𝑖,𝑘
2
) + 𝜇𝑖,𝑘
2
− log _𝜎𝑖,𝑘
2
− 1
구현에서는…

Loss for a given 𝑥𝑖
34
𝐿𝑖 𝜙, 𝜃, 𝑥𝑖 = − ෍
𝑗=1
𝑁
𝑥𝑖,𝑗𝑙𝑜𝑔 𝑥′𝑗 + 1 − 𝑥𝑖,𝑗 𝑙𝑜𝑔 1 − 𝑥′𝑗 +
1
2
෍
𝑘=1
𝐾
𝜎𝑖,𝑘
2
+ 𝜇𝑖,𝑘
2
2
− 1
𝐿𝑖 𝜙, 𝜃, 𝑥𝑖 = ෍
𝑗=1
𝑁
1
2
𝑙𝑜𝑔 𝜎𝑖,𝑗
2
+
2
2𝜎𝑖,𝑗
2 +
1
2
෍
𝑘=1
𝐾
𝜎𝑖,𝑘
2
+ 𝜇𝑖,𝑘
2
2
− 1
𝐿𝑖 𝜙, 𝜃, 𝑥𝑖 = ෍
𝑗=1
𝑁
2
+
1
2
෍
𝑘=1
𝐾
𝜎𝑖,𝑘
2
+ 𝜇𝑖,𝑘
2
2
− 1
분산이 모두 같다고 가정

36

37

38

39

40

41

42

43

44

45

추가 학습
46
• Conditional VAE
• 𝛽 −VAE
• Adversarial Autoencoder
• VQ-VAE

47
https://ijdykeman.github.io/ml/2016/12/21/cvae.html

48

49

50

추가 학습
51
• Conditional VAE
• 𝜷 −VAE
• VQ-VAE

52

53

54

55

56
Pose! + 𝜶
𝜷-VAE (ICLR 2017)

추가 학습
59
hidden code learns
to represent the style of the image
• Conditional VAE
• 𝛽 −VAE
• VQ-VAE
https://arxiv.org/pdf/1511.05644.pdf

60
https://arxiv.org/pdf/1511.05644.pdf

추가 학습
61
• Conditional VAE
• 𝛽 −VAE
• VQ-VAE
https://proceedings.neurips.cc/paper/2017/file/7a98af17e63a0ac09ce2e96d03992fbc-Paper.pdf

참고문헌
62
• Tutorial on Autoencoder, https://arxiv.org/pdf/1606.05908.pdf (2016)
• https://www.youtube.com/watch?v=uaaqyVS9-rM
• https://wiseodd.github.io/techblog/2016/12/10/variational-autoencoder/
• https://www.slideshare.net/NaverEngineering/ss-96581209

개념 이해가 쉬운 Variational Autoencoder (VAE)

More Related Content

What's hot

Similar to 개념 이해가 쉬운 Variational Autoencoder (VAE)

More from jaypi Ko

개념 이해가 쉬운 Variational Autoencoder (VAE)