Neural Discrete Representation Learning
https://arxiv.org/abs/1711.00937
Aaron van den Oord, Oriol Vinyals, Koray Kavukcuoglu
박수철
Goal
Neural NetworkMusic Data Generated Data
Wavenet
WavenetMusic Data Generated Data
Wavenet의 한계
Long-range structure를 반영하지 못한다.

receptive field를 늘려도 sample단위의 미래를 예측할 뿐, 

의미를 만들어내는 단어(speech), 프레이즈(music)를 만들어내지 못함.
https://deepmind.com/blog/wavenet-generative-model-raw-audio
WavenetMusic Data Generated Data
Latent를 만들자
z1 z2 zM
Encoder
Decoder
Sampling 가능한 Latent를 만들자 (VAE같은걸 끼얹나?)
z1 z2 zM
Decoder
Encoder
VAE의 한계 : Posterior Collapse
Encoder
Decoder
Gaussian Noise
p(x) =
T
∏
t=1
p(xt |x<t, zt)
Variational posterior gaussian prior
VQ-VAE : 샘플링 가능한 비 노이즈적 벡터로 posterior를 근사
Encoder
Decoder
p(x) =
T
∏
t=1
p(xt |x<t, zt)
p(z) = Categorical
VQ-VAE : 샘플링 가능한 비 노이즈적 벡터로 posterior를 근사
Encoder Decoderze(x)
zq(x)
codebook
reconstruction codebook commitment
e1
e2
e3
e4
e5
e6
e7
VQ-VAE : 샘플링 가능한 비 노이즈적 벡터로 posterior를 근사

VQ-VAE