6. 6
: Multimodal Image-to-Image Translation
• 入力ドメイン
• 出力ドメイン
• 訓練データセットペア:
• 実際には,Aに対応するBは複数ありうる
• 出力として, からサンプルされた が欲しい
• アプローチ
を用いて を学習する
A ⇢ RH⇥W ⇥3
B ⇢ RH⇥W ⇥3
z 2 RZ
, p(z) ⇠ N(0, I) (A, z) ! B
p(B|A) ˆB
{(A 2 A, B 2 B)}
7. 7
pix2pix + noise
• pix2pixに単純にzを加えるように拡張
• 実はpix2pixの論文でそもそもnoiseを入れている
• In initial experiments, we did not find this strategy effective ‒ the
generator simply learned to ignore the noise
• zを使うインセンティブが何もない
LGAN (G, D) = EA,B⇠p(A,B)[log(D(A, B))] + EA⇠p(A),z⇠p(z)[log(1 D(A, G(A, z)))]
(z ! ˆB)
L1(G) = EA,B⇠p(A,B)||B G(A, z)||1
G⇤
= arg min
G
max
D
LGAN (G, D) + L1(G)
8. 8
cVAE-GAN
• 潜在変数zがBに対して意味を持つようにしたい
• エンコーダEを使って,ground truth B を zへ写像する
• そのzとAを使ってB^を生成
(B ! z ! ˆB)
LV AE
GAN = EA,B⇠p(A,B)[log(D(A, B))] + EA,B⇠p(A,B),z⇠E(B)[log(1 D(A, G(A, z)))]
LV AE
1 (G) = EA,B⇠p(A,B),z⇠E(B)||B G(A, z)||1 LKL = EB⇠p(B)[DKL(E(B)||N(0, I))]
G⇤
, E⇤
= arg min
G,E
max
D
LVAE
GAN(G, D, E) + LV AE
1 (G, E) + KLLKL(E)
9. 9
cLR-GAN
• 先ほどと見方を変えて,B^からzを復元するようにする
• Conditional Latent Regressor GAN (cLR-GAN)
(z ! ˆB ! ˆz)
Llatent
1 (G, E) = EA⇠p(A),z⇠p(z)||z E(G(A, z))||1
G⇤
, E⇤
= arg min
G,E
max
D
LGAN (G, D) + latentLlatent
1 (G, E)
17. 17
Unpaired Image-to-Image Translation using Cycle-
Consistent Adversarial Networks (CycleGAN)
Cycle consistency loss
Full objectives
https://arxiv.org/abs/1703.10593
(ICCV’17)
2 GAN