Toward Multimodal
Image-to-Image Translation
Jun-Yan Zhu, Richard Zhang, Deepak Pathak, Trevor Darrel,
Alexei A. Efros, Oliver Wang, Eli Shechtman, NIPS2017
杉浦大輝(名工大玉木研)
2022/10/28
概要
nBicycleGANの提案
• ノイズを生成するエンコーダの導入
• ノイズを付加し,バリエーションのある画像を生成
• 入力画像に忠実な画像を複数生成可能
関連研究
n Generative modeling
• Variational autoencoders [Kingma & Welling, arXiv2014]
• 潜在変数𝓏をデータ𝓍に対応づける
• 𝓍に近い分布𝑝!(𝓍)を生成モデルから学習
• Generative adversarial networks [Goodfellow+, NeurIPS2014]
• 生成器:尤もらしい画像の生成
• 識別器:実画像と偽画像の識別
n Conditional image generation
• Conditional VAEs [Sohn+, NIPS2015]
• Autoregressive model [Oord+, PMLR2016]
• Conditional GAN [Mirza & Osindero, arXiv2014]
• ラベル情報を生成器と識別器に入力し,訓練
• 特定のラベルにマッチするサンプルを生成
• マルチモダリティの犠牲
アイデア
nConditional Variational
Autoencoder GAN (cVAE-GAN)
• 潜在変数zがBに対して意味を持つ
ようにする
• 生成器に望ましい出力に対するノ
イズを与える
• 𝐵 → 𝑧 → $
𝐵
nConditional Latent Regressor GAN
(cLR-GAN)
• 出力画像から潜在ベクトルの復元
• 𝑧 → $
𝐵 → ̂
𝑧
提案手法: BicycleGAN
nBicycleGAN
• cVAE-GANとcLR-GANのハイブリッドモデル
• 両者の損失を足し合わせた
• 損失関数
生成過程
ncVAE-GAN
ncLR-GAN
𝑅𝑒𝑎𝑙
𝐿𝑎𝑏𝑒𝑙
encoder
noise 𝑍!
𝑄 𝑍!|𝑅𝑒𝑎𝑙
𝐿𝑎𝑏𝑒𝑙 + 𝑍!
generator
生成画像
𝐹"#$%
Random
noise 𝑍"
𝐿𝑎𝑏𝑒𝑙
𝐿𝑎𝑏𝑒𝑙 + 𝑍&
generator
生成画像
𝐹"'(
識別器の学習
生成画像
𝐹
𝐿𝑎𝑏𝑒𝑙
discriminator
discriminator 敵対的損失
敵対的損失
𝑙𝑜𝑠𝑠𝐷)
+
𝑙𝑜𝑠𝑠𝐷(
識別器を学習
𝑅𝑒𝑎𝑙
生成器,エンコーダの学習
n生成器,エンコーダの学習
n生成器の学習
生成画像
𝐹
𝑅𝑒𝑎𝑙
𝐿!損失 + 生成器,エンコーダ
の学習
𝑙𝑜𝑠𝑠𝐷#$%&, 𝑙𝑜𝑠𝑠𝐷#'(
KLダイバージェン
ス
noise 𝑍!
𝑄 𝑍!|𝑅𝑒𝑎𝑙
生成画像
𝐹"'(
encoder noise 𝑍)
𝑄(𝑍)|𝐹#'()
Randaom
noise 𝑍"
𝐿!損失 生成器を学習
ネットワークアーキテクチャ
n生成器
• U-Net [Ronneberger+, arXiv2015]
n識別器
• 異なるスケールで二つのPatchGAN識別器
[Isola+, CVPR2017]
nエンコーダ
• 𝐸!"#$"%: 残差ブロックを持つ分類器 [He+, CVPR2016]
• 𝐸&$$: 畳み込み層とダウンサンプリング層を持つCNN
[Ganokratanaa+, IEEEAccess2020]
実験設定
n比較手法
• Pix2pix+noise [Isola+, CVPR2017]
• cAE-GAN
• KL損失を除く
• ノイズ学習が不可
• cVAE-GAN
• cVAE-GAN++
• 𝐿'($(𝐺, 𝐷)の追加
• 識別器がサンプルを見る
• cLR-GAN
• BicycleGAN
nデータセット
• エッジ→写真 [Yu and Grauman,
CVPR2014],[Zhu+, ECCV2016]
• Googleマップ→衛星
[Isola+, CVPR2017]
• ラベル→画像 [Cordts+, CVPR2016]
• 夜間→昼間画像
[Laffont+, SIGGRAPH2014]
nノイズの次元
• 𝑧 = 2, 8, 256
nエンコーダの比較
• 𝐸!"#$"%
• 𝐸&$$
定性的評価
定性的評価
n知覚テスト
• AMTによるテスト
• Googleマップ→衛星タスクで測定
• 実画像と生成画像をそれぞれ1秒間ランダムに表示
定量的評価
nDivercity
• 平均LPIPS距離 [Zhang+, CVPR2018]
• 特徴空間におけるランダムなサンプルの平均距離を計算
ノイズの次元の比較
エンコーダ,ノイズ入力の比較
nノイズの入力の仕方
n結果
• 𝐿)損失を表す
add-to-input add-to-all
まとめ
nBicycleGANの提案
• cVAE-GANとcLR-GANの組み合わせ
• ノイズを生成するエンコーダの導入
• ノイズ生成の学習
• Resnetが出力画像をより良く符号化
n出力結果
• 入力に忠実かつ,バリエーションのある画像を生成

文献紹介:Toward Multimodal Image-to-Image Translation