[DL輪読会]Toward Multimodal Image-to-Image Translation (NIPS'17)

2018/4/271
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Toward Multimodal Image-to-Image Translation (NIPS’17)

2
• Toward Multimodal Image-to-Image Translation (NIPS 17)
• Jun-Yan Zhu, Richard Zhang, Deepak Pathak, Trevor Darrell,
Alexei A. Efros, Oliver Wang, Eli Shechtman
• Berkeley Artificial Intelligence Research,
Adobe Creative Intelligence Laboratory
• 画像から画像を生成する際に，潜在変数からの分散を考慮するBicycleGANの提案
• pix2pix, cycleGANの著者 (一部)
• https://arxiv.org/abs/1711.11586
• https://junyanz.github.io/BicycleGAN/
• https://github.com/junyanz/BicycleGAN

4
pix2pix†
• Conditional GANによる1対1のImage Translation
†Image-to-Image Translation with Conditional Adversarial Networks (CVPR’17) (2017/12 ver2 upload)
LGAN (G, D) = Ey[log(D(y)] + Ex[log(1 D(G(x)))]
LL1
(G) = Ex,y||y G(x)||1
G⇤
= arg min max LGAN (G, D) + LL1(G)

5
pix2pix†
• Conditional GANによる1対1のImage Translation
• 実際には多くのImage Translationは1対多
†Image-to-Image Translation with Conditional Adversarial Networks (CVPR’17)

6
: Multimodal Image-to-Image Translation
• 入力ドメイン
• 出力ドメイン
• 訓練データセットペア:
• 実際には，Aに対応するBは複数ありうる
• 出力として，からサンプルされたが欲しい
• アプローチ
を用いてを学習する
A ⇢ RH⇥W ⇥3
B ⇢ RH⇥W ⇥3
z 2 RZ
, p(z) ⇠ N(0, I) (A, z) ! B
p(B|A) ˆB
{(A 2 A, B 2 B)}

7
pix2pix + noise
• pix2pixに単純にzを加えるように拡張
• 実はpix2pixの論文でそもそもnoiseを入れている
• In initial experiments, we did not find this strategy effective ‒ the
generator simply learned to ignore the noise
• zを使うインセンティブが何もない
LGAN (G, D) = EA,B⇠p(A,B)[log(D(A, B))] + EA⇠p(A),z⇠p(z)[log(1 D(A, G(A, z)))]
(z ! ˆB)
L1(G) = EA,B⇠p(A,B)||B G(A, z)||1
G⇤
= arg min
G
max
D
LGAN (G, D) + L1(G)

8
cVAE-GAN
• 潜在変数zがBに対して意味を持つようにしたい
• エンコーダEを使って，ground truth B を zへ写像する
• そのzとAを使ってB^を生成
(B ! z ! ˆB)
LV AE
GAN = EA,B⇠p(A,B)[log(D(A, B))] + EA,B⇠p(A,B),z⇠E(B)[log(1 D(A, G(A, z)))]
LV AE
1 (G) = EA,B⇠p(A,B),z⇠E(B)||B G(A, z)||1 LKL = EB⇠p(B)[DKL(E(B)||N(0, I))]
G⇤
, E⇤
= arg min
G,E
max
D
LVAE
GAN(G, D, E) + LV AE
1 (G, E) + KLLKL(E)

9
cLR-GAN
• 先ほどと見方を変えて，B^からzを復元するようにする
• Conditional Latent Regressor GAN (cLR-GAN)
(z ! ˆB ! ˆz)
Llatent
1 (G, E) = EA⇠p(A),z⇠p(z)||z E(G(A, z))||1
G⇤
, E⇤
= arg min
G,E
max
D
LGAN (G, D) + latentLlatent
1 (G, E)

10
cVAE-GAN cLR-GAN(B ! z ! ˆB) (z ! ˆB ! ˆz)
KL loss
D prior
G ground truth A,B

11
BicycleGAN
cVAE-GAN cLR-GAN(B ! z ! ˆB) (z ! ˆB ! ˆz)
G⇤
, E⇤
= arg min
G,E
max
D
LVAE
GAN(G, D, E) + LVAE
1 (G, E)
+LGAN (G, D) + latentLlatent
1 (G, E) + KLLKL(E)

12
• Generator
• U-Net (Encoder-Decoder + skip connections)
• Discriminator
• PatchGAN (real vs. fake for 70x70 & 140x140 overlapping image patches)
• Training
• Least Square GAN (LSGAN)
• DiscriminatorはAで条件付け無い方が結果がよかった (ので付けてない)
• cVAE-GANとcLR-GANでgeneratorとencoderの重みは共有
• discriminatorは分けた方がちょっとだけ結果がよかった
• L1
latent(G,E) に関しては，Gだけを更新し，Eは固定
• G, E同時に最適化すると，GとEが潜在変数の情報をただ隠そうとしてしまう
• λ=10, λlatent = 0.5, λKL = 0.01
• Adam, batchsize 1, lr = 0.0002, latent dimension ¦z¦ = 8
• ¦z¦を大きくすると，サンプリングが難しくなる(画像が変になりやすい)という実験結果

13
(cont’d)
• Generatorへのzの挿入方法
add_to_input: (H x W x Z) (H x W x 3) concat add_to_all: G ( )
( add_to_all )

14
cAE-GAN: KL z=E(B), cVAE-GAN++: BicycleGAN latent space reconstruction loss

15
cAE-GAN: KL z=E(B), cVAE-GAN++: BicycleGAN latent space reconstruction loss

16
• Conditional generative modelにおいて，多様なサンプルを生成するた
めの方法を提案
• 潜在変数zが無視されないように，2種類のcycle consistencyを導入

17
Unpaired Image-to-Image Translation using Cycle-
Consistent Adversarial Networks (CycleGAN)
Cycle consistency loss
Full objectives
https://arxiv.org/abs/1703.10593
(ICCV’17)
2 GAN

18
Unsupervised Image-to-Image Translation Networks
• Ming-Yu Liu, Thomas Breuel, Jan Kautz (NVIDIA Research)
• NIPS 17
• 2つのVAE-GANを利用
• shared latent spaceを仮定
https://arxiv.org/abs/1703.00848

19
Multimodal Unsupervised Image-to-Image Translation
• Xun Huang, Ming-Yu Liu, Serge Belongie, Jan Kautz (NVIDIA Research)
• UnsupervisedにMultimodal Image-to-Image Translationをおこなう
• https://arxiv.org/abs/1804.04732, https://github.com/NVlabs/MUNIT

20
= c (domain-invariant) + s (domain-specific)
: Contents En/Decoder (contents ) Style En/Decoder ( )
: Style Decoder

21
Bi-Directional Loss

22
LPIPS Dataset

[DL輪読会]Toward Multimodal Image-to-Image Translation (NIPS'17)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (8)

[DL輪読会]Toward Multimodal Image-to-Image Translation (NIPS'17)