SlideShare a Scribd company logo
1 of 22
Download to read offline
2018/4/271
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Toward Multimodal Image-to-Image Translation (NIPS’17)
2
• Toward Multimodal Image-to-Image Translation (NIPS 17)
• Jun-Yan Zhu, Richard Zhang, Deepak Pathak, Trevor Darrell,
Alexei A. Efros, Oliver Wang, Eli Shechtman
• Berkeley Artificial Intelligence Research,
Adobe Creative Intelligence Laboratory
• 画像から画像を生成する際に,潜在変数からの分散を考慮するBicycleGANの提案
• pix2pix, cycleGANの著者 (一部)
• https://arxiv.org/abs/1711.11586
• https://junyanz.github.io/BicycleGAN/
• https://github.com/junyanz/BicycleGAN
3
4
pix2pix†
• Conditional GANによる1対1のImage Translation
†Image-to-Image Translation with Conditional Adversarial Networks (CVPR’17) (2017/12 ver2 upload)
LGAN (G, D) = Ey[log(D(y)] + Ex[log(1 D(G(x)))]
LL1
(G) = Ex,y||y G(x)||1
G⇤
= arg min max LGAN (G, D) + LL1(G)
5
pix2pix†
• Conditional GANによる1対1のImage Translation
• 実際には多くのImage Translationは1対多
†Image-to-Image Translation with Conditional Adversarial Networks (CVPR’17)
6
: Multimodal Image-to-Image Translation
• 入力ドメイン
• 出力ドメイン
• 訓練データセットペア:
• 実際には,Aに対応するBは複数ありうる
• 出力として, からサンプルされた が欲しい
• アプローチ
を用いて を学習する
A ⇢ RH⇥W ⇥3
B ⇢ RH⇥W ⇥3
z 2 RZ
, p(z) ⇠ N(0, I) (A, z) ! B
p(B|A) ˆB
{(A 2 A, B 2 B)}
7
pix2pix + noise
• pix2pixに単純にzを加えるように拡張
• 実はpix2pixの論文でそもそもnoiseを入れている
• In initial experiments, we did not find this strategy effective ‒ the
generator simply learned to ignore the noise
• zを使うインセンティブが何もない
LGAN (G, D) = EA,B⇠p(A,B)[log(D(A, B))] + EA⇠p(A),z⇠p(z)[log(1 D(A, G(A, z)))]
(z ! ˆB)
L1(G) = EA,B⇠p(A,B)||B G(A, z)||1
G⇤
= arg min
G
max
D
LGAN (G, D) + L1(G)
8
cVAE-GAN
• 潜在変数zがBに対して意味を持つようにしたい
• エンコーダEを使って,ground truth B を zへ写像する
• そのzとAを使ってB^を生成
(B ! z ! ˆB)
LV AE
GAN = EA,B⇠p(A,B)[log(D(A, B))] + EA,B⇠p(A,B),z⇠E(B)[log(1 D(A, G(A, z)))]
LV AE
1 (G) = EA,B⇠p(A,B),z⇠E(B)||B G(A, z)||1 LKL = EB⇠p(B)[DKL(E(B)||N(0, I))]
G⇤
, E⇤
= arg min
G,E
max
D
LVAE
GAN(G, D, E) + LV AE
1 (G, E) + KLLKL(E)
9
cLR-GAN
• 先ほどと見方を変えて,B^からzを復元するようにする
• Conditional Latent Regressor GAN (cLR-GAN)
(z ! ˆB ! ˆz)
Llatent
1 (G, E) = EA⇠p(A),z⇠p(z)||z E(G(A, z))||1
G⇤
, E⇤
= arg min
G,E
max
D
LGAN (G, D) + latentLlatent
1 (G, E)
10
cVAE-GAN cLR-GAN(B ! z ! ˆB) (z ! ˆB ! ˆz)
KL loss
D prior
G ground truth A,B
11
BicycleGAN
cVAE-GAN cLR-GAN(B ! z ! ˆB) (z ! ˆB ! ˆz)
G⇤
, E⇤
= arg min
G,E
max
D
LVAE
GAN(G, D, E) + LVAE
1 (G, E)
+LGAN (G, D) + latentLlatent
1 (G, E) + KLLKL(E)
12
• Generator
• U-Net (Encoder-Decoder + skip connections)
• Discriminator
• PatchGAN (real vs. fake for 70x70 & 140x140 overlapping image patches)
• Training
• Least Square GAN (LSGAN)
• DiscriminatorはAで条件付け無い方が結果がよかった (ので付けてない)
• cVAE-GANとcLR-GANでgeneratorとencoderの重みは共有
• discriminatorは分けた方がちょっとだけ結果がよかった
• L1
latent(G,E) に関しては,Gだけを更新し,Eは固定
• G, E同時に最適化すると,GとEが潜在変数の情報をただ隠そうとしてしまう
• λ=10, λlatent = 0.5, λKL = 0.01
• Adam, batchsize 1, lr = 0.0002, latent dimension ¦z¦ = 8
• ¦z¦を大きくすると,サンプリングが難しくなる(画像が変になりやすい)という実験結果
13
(cont’d)
• Generatorへのzの挿入方法
add_to_input: (H x W x Z) (H x W x 3) concat add_to_all: G ( )
( add_to_all )
14
cAE-GAN: KL z=E(B), cVAE-GAN++: BicycleGAN latent space reconstruction loss
15
cAE-GAN: KL z=E(B), cVAE-GAN++: BicycleGAN latent space reconstruction loss
16
• Conditional generative modelにおいて,多様なサンプルを生成するた
めの方法を提案
• 潜在変数zが無視されないように,2種類のcycle consistencyを導入
17
Unpaired Image-to-Image Translation using Cycle-
Consistent Adversarial Networks (CycleGAN)
Cycle consistency loss
Full objectives
https://arxiv.org/abs/1703.10593
(ICCV’17)
2 GAN
18
Unsupervised Image-to-Image Translation Networks
• Ming-Yu Liu, Thomas Breuel, Jan Kautz (NVIDIA Research)
• NIPS 17
• 2つのVAE-GANを利用
• shared latent spaceを仮定
https://arxiv.org/abs/1703.00848
19
Multimodal Unsupervised Image-to-Image Translation
• Xun Huang, Ming-Yu Liu, Serge Belongie, Jan Kautz (NVIDIA Research)
• UnsupervisedにMultimodal Image-to-Image Translationをおこなう
• https://arxiv.org/abs/1804.04732, https://github.com/NVlabs/MUNIT
20
Multimodal Unsupervised Image-to-Image Translation
= c (domain-invariant) + s (domain-specific)
: Contents En/Decoder (contents ) Style En/Decoder ( )
: Style Decoder
21
Multimodal Unsupervised Image-to-Image Translation
Bi-Directional Loss
22
Multimodal Unsupervised Image-to-Image Translation
LPIPS Dataset

More Related Content

What's hot

これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由Yoshitaka Ushiku
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Hiroto Honda
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識Hirokatsu Kataoka
 
Attention-Guided GANについて
Attention-Guided GANについてAttention-Guided GANについて
Attention-Guided GANについてyohei okawa
 
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)Tenki Lee
 
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
 [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima... [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...Deep Learning JP
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎Takumi Ohkuma
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況Deep Learning JP
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイyohei okawa
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)Masakazu Iwamura
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP LatentsDeep Learning JP
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked AutoencodersDeep Learning JP
 
[DL輪読会]CartoonGAN: Generative Adversarial Networks for Photo Cartoonization
[DL輪読会]CartoonGAN: Generative Adversarial Networks for Photo Cartoonization[DL輪読会]CartoonGAN: Generative Adversarial Networks for Photo Cartoonization
[DL輪読会]CartoonGAN: Generative Adversarial Networks for Photo CartoonizationDeep Learning JP
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII
 

What's hot (20)

これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 
Attention-Guided GANについて
Attention-Guided GANについてAttention-Guided GANについて
Attention-Guided GANについて
 
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
 
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
 [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima... [DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
[DL輪読会]StarGAN: Unified Generative Adversarial Networks for Multi-Domain Ima...
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~ (Revised on 18 July, 2018)
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
 
[DL輪読会]CartoonGAN: Generative Adversarial Networks for Photo Cartoonization
[DL輪読会]CartoonGAN: Generative Adversarial Networks for Photo Cartoonization[DL輪読会]CartoonGAN: Generative Adversarial Networks for Photo Cartoonization
[DL輪読会]CartoonGAN: Generative Adversarial Networks for Photo Cartoonization
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 

Recently uploaded (8)

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 

[DL輪読会]Toward Multimodal Image-to-Image Translation (NIPS'17)

  • 1. 2018/4/271 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Toward Multimodal Image-to-Image Translation (NIPS’17)
  • 2. 2 • Toward Multimodal Image-to-Image Translation (NIPS 17) • Jun-Yan Zhu, Richard Zhang, Deepak Pathak, Trevor Darrell, Alexei A. Efros, Oliver Wang, Eli Shechtman • Berkeley Artificial Intelligence Research, Adobe Creative Intelligence Laboratory • 画像から画像を生成する際に,潜在変数からの分散を考慮するBicycleGANの提案 • pix2pix, cycleGANの著者 (一部) • https://arxiv.org/abs/1711.11586 • https://junyanz.github.io/BicycleGAN/ • https://github.com/junyanz/BicycleGAN
  • 3. 3
  • 4. 4 pix2pix† • Conditional GANによる1対1のImage Translation †Image-to-Image Translation with Conditional Adversarial Networks (CVPR’17) (2017/12 ver2 upload) LGAN (G, D) = Ey[log(D(y)] + Ex[log(1 D(G(x)))] LL1 (G) = Ex,y||y G(x)||1 G⇤ = arg min max LGAN (G, D) + LL1(G)
  • 5. 5 pix2pix† • Conditional GANによる1対1のImage Translation • 実際には多くのImage Translationは1対多 †Image-to-Image Translation with Conditional Adversarial Networks (CVPR’17)
  • 6. 6 : Multimodal Image-to-Image Translation • 入力ドメイン • 出力ドメイン • 訓練データセットペア: • 実際には,Aに対応するBは複数ありうる • 出力として, からサンプルされた が欲しい • アプローチ を用いて を学習する A ⇢ RH⇥W ⇥3 B ⇢ RH⇥W ⇥3 z 2 RZ , p(z) ⇠ N(0, I) (A, z) ! B p(B|A) ˆB {(A 2 A, B 2 B)}
  • 7. 7 pix2pix + noise • pix2pixに単純にzを加えるように拡張 • 実はpix2pixの論文でそもそもnoiseを入れている • In initial experiments, we did not find this strategy effective ‒ the generator simply learned to ignore the noise • zを使うインセンティブが何もない LGAN (G, D) = EA,B⇠p(A,B)[log(D(A, B))] + EA⇠p(A),z⇠p(z)[log(1 D(A, G(A, z)))] (z ! ˆB) L1(G) = EA,B⇠p(A,B)||B G(A, z)||1 G⇤ = arg min G max D LGAN (G, D) + L1(G)
  • 8. 8 cVAE-GAN • 潜在変数zがBに対して意味を持つようにしたい • エンコーダEを使って,ground truth B を zへ写像する • そのzとAを使ってB^を生成 (B ! z ! ˆB) LV AE GAN = EA,B⇠p(A,B)[log(D(A, B))] + EA,B⇠p(A,B),z⇠E(B)[log(1 D(A, G(A, z)))] LV AE 1 (G) = EA,B⇠p(A,B),z⇠E(B)||B G(A, z)||1 LKL = EB⇠p(B)[DKL(E(B)||N(0, I))] G⇤ , E⇤ = arg min G,E max D LVAE GAN(G, D, E) + LV AE 1 (G, E) + KLLKL(E)
  • 9. 9 cLR-GAN • 先ほどと見方を変えて,B^からzを復元するようにする • Conditional Latent Regressor GAN (cLR-GAN) (z ! ˆB ! ˆz) Llatent 1 (G, E) = EA⇠p(A),z⇠p(z)||z E(G(A, z))||1 G⇤ , E⇤ = arg min G,E max D LGAN (G, D) + latentLlatent 1 (G, E)
  • 10. 10 cVAE-GAN cLR-GAN(B ! z ! ˆB) (z ! ˆB ! ˆz) KL loss D prior G ground truth A,B
  • 11. 11 BicycleGAN cVAE-GAN cLR-GAN(B ! z ! ˆB) (z ! ˆB ! ˆz) G⇤ , E⇤ = arg min G,E max D LVAE GAN(G, D, E) + LVAE 1 (G, E) +LGAN (G, D) + latentLlatent 1 (G, E) + KLLKL(E)
  • 12. 12 • Generator • U-Net (Encoder-Decoder + skip connections) • Discriminator • PatchGAN (real vs. fake for 70x70 & 140x140 overlapping image patches) • Training • Least Square GAN (LSGAN) • DiscriminatorはAで条件付け無い方が結果がよかった (ので付けてない) • cVAE-GANとcLR-GANでgeneratorとencoderの重みは共有 • discriminatorは分けた方がちょっとだけ結果がよかった • L1 latent(G,E) に関しては,Gだけを更新し,Eは固定 • G, E同時に最適化すると,GとEが潜在変数の情報をただ隠そうとしてしまう • λ=10, λlatent = 0.5, λKL = 0.01 • Adam, batchsize 1, lr = 0.0002, latent dimension ¦z¦ = 8 • ¦z¦を大きくすると,サンプリングが難しくなる(画像が変になりやすい)という実験結果
  • 13. 13 (cont’d) • Generatorへのzの挿入方法 add_to_input: (H x W x Z) (H x W x 3) concat add_to_all: G ( ) ( add_to_all )
  • 14. 14 cAE-GAN: KL z=E(B), cVAE-GAN++: BicycleGAN latent space reconstruction loss
  • 15. 15 cAE-GAN: KL z=E(B), cVAE-GAN++: BicycleGAN latent space reconstruction loss
  • 16. 16 • Conditional generative modelにおいて,多様なサンプルを生成するた めの方法を提案 • 潜在変数zが無視されないように,2種類のcycle consistencyを導入
  • 17. 17 Unpaired Image-to-Image Translation using Cycle- Consistent Adversarial Networks (CycleGAN) Cycle consistency loss Full objectives https://arxiv.org/abs/1703.10593 (ICCV’17) 2 GAN
  • 18. 18 Unsupervised Image-to-Image Translation Networks • Ming-Yu Liu, Thomas Breuel, Jan Kautz (NVIDIA Research) • NIPS 17 • 2つのVAE-GANを利用 • shared latent spaceを仮定 https://arxiv.org/abs/1703.00848
  • 19. 19 Multimodal Unsupervised Image-to-Image Translation • Xun Huang, Ming-Yu Liu, Serge Belongie, Jan Kautz (NVIDIA Research) • UnsupervisedにMultimodal Image-to-Image Translationをおこなう • https://arxiv.org/abs/1804.04732, https://github.com/NVlabs/MUNIT
  • 20. 20 Multimodal Unsupervised Image-to-Image Translation = c (domain-invariant) + s (domain-specific) : Contents En/Decoder (contents ) Style En/Decoder ( ) : Style Decoder
  • 21. 21 Multimodal Unsupervised Image-to-Image Translation Bi-Directional Loss
  • 22. 22 Multimodal Unsupervised Image-to-Image Translation LPIPS Dataset