[DL Hacks 実装]Photographic Image Synthesis with Cascaded Refinement Networks

•

4 likes•1,374 views

Deep Learning JP

Deep Learning JP: http://deeplearning.jp/hacks/

Technology

/34DL HACKS 論文紹介
Photographic Image Synthesis
with Cascaded Refinement Networks
Leo Tsukada
DL Hacks
2017/12/04
1
arXiv:1707.09405

/34DL HACKS 論文紹介
テーマ
▸ Motivation
▸ CG -> 光の反射などによる見え方の計算を短縮
▸ mental imagery & simulation -> 効率的な学習への鍵？
2topic
Photo synthesis
Semantic segmentation

/34DL HACKS 論文紹介
背景
▸ GANを用いた画像生成
Goodfellow et al.
MNISTの画像生成(32*32)
Denton et al.
multiple separate GAN(?) 96*96 の解像度
Radfold et al.
modiﬁcations and heuristics to solve instability、128*128の解像度
3
Mode collapseなどの問題により、
学習が困難な場合がある

/34DL HACKS 論文紹介
背景
▸ Isola et al.
Conditional GAN
cityscape の画像生成
4

/34DL HACKS 論文紹介
概観
▸ Cascaded Reﬁnement Networks (CRN)
5
3×3conv
ReLU
3×3conv
ReLU
c + di−1 channels di channels di channels

/34DL HACKS 論文紹介
▸ Cascaded modules
▸ photorealismの上で鍵となる概念
Global Coordination : 広い領域での規則性、feature matchingで実現
high resolution : 段階的に2倍ずつ高めていくことで実現
Big capacity : 画像生成の汎用性を高めるには多くのパラーメータ領域が必要
概観
6
wi × hi × di
wi+1 × hi+1 × di+1
= 2wi × 2hi × di+1
wi+2 × hi+2 × di+2
= 4wi × 4hi × di+2
bilinear
upsampling
bilinear
upsampling

/34DL HACKS 論文紹介
学習
▸ 1対多の対応問題
7
最終的な画像のみをground truthとするのは、厳しすぎる
既存のCNNの中でfeature matchingを行い
あらゆる特徴量でロスを算出する。

/34DL HACKS 論文紹介
学習
8
l :conv1-2, conv2-2, conv3-2, conv4-2, conv5-2
λl :hyper parameters
g(L; θ):synthesized image
I :the reference image

/34DL HACKS 論文紹介
VGG-19
9
…
…
…
…
…
reference
fake

/34DL HACKS 論文紹介
VGG-19
10
…
…
…
…
…
e1
e2
e3
e4
e5
reference
fake

/34DL HACKS 論文紹介
Synthesizing a diverse collection
11
e2
l = 2
reference
fake
j番目
c枚

/34DL HACKS 論文紹介
実験
▸ semantic segmentation のネットワークで評価できない？
評価関数を最大化するようにいじれば簡単に騙される
Amazon Mechanical Turkで人に任せる！
12

/34DL HACKS 論文紹介
実験1
▸ 今回開発したCRNと他のベースラインをランダムにペア
▸ 時間無制限で比較
13
※%は比較したベースラインより、
CRNの方がrealisticだと答えた割合

/34DL HACKS 論文紹介
実験1
▸ 今回開発したCRNと他のベースラインをランダムにペア
▸ 時間無制限で比較
14

/34DL HACKS 論文紹介
実験2
▸ Pix2pixや本物の写真と比べる
▸ 制限時間を0.125~8sで設ける
15

/34DL HACKS 論文紹介
論文まとめ
▸ cascaded modeleで解像度を段階的に上げていった
▸ 誤差関数としてVGG19を用いて、feature matching
▸ さらにoutputの多様性を許すために、diversity lossを設定
▸ 結果、めっちゃリアリスティック
16

/34DL HACKS 論文紹介
学習結果
▸ Qifeng et alによる学習済みモデル(3000枚*100 epoch)
17

/34DL HACKS 論文紹介
学習結果
▸ Qifeng et alによる学習済みモデル(3000枚*100 epoch)
18

/34DL HACKS 論文紹介
学習結果
▸ CPUだけで頑張って学習(100枚*200 epoch)
19

/34DL HACKS 論文紹介
学習結果
▸ CPUだけで頑張って学習(100枚*200 epoch)
20

/34DL HACKS 論文紹介
学習結果
▸ CPUだけで頑張って学習(100枚*200 epoch)
21

/34DL HACKS 論文紹介
学習結果
▸ CPUだけで頑張って学習(100枚*200 epoch)
22

/34DL HACKS 論文紹介
学習結果
▸ CPUだけで頑張って学習(100枚*200 epoch)
23

/34DL HACKS 論文紹介
学習結果
▸ CPUだけで頑張って学習(100枚*200 epoch)
24

/34DL HACKS 論文紹介
学習結果
▸ CPUだけで頑張って学習(100枚*200 epoch)
25

/34DL HACKS 論文紹介
学習結果
▸ CPUだけで頑張って学習(100枚*200 epoch)
26

/34DL HACKS 論文紹介
学習結果
▸ CPUだけで頑張って学習(100枚*200 epoch)
27

/34DL HACKS 論文紹介
学習結果
▸ CPUだけで頑張って学習(100枚*200 epoch)
28

/34DL HACKS 論文紹介
学習結果
▸ CPUだけで頑張って学習(100枚*200 epoch)
29

/34DL HACKS 論文紹介
学習結果
▸ CPUだけで頑張って学習(100枚*200 epoch)
30

/34DL HACKS 論文紹介
学習結果
▸ CPUだけで頑張って学習(100枚*200 epoch)
31

/34DL HACKS 論文紹介
Small error makes it realistic?
33
epoch 150 epoch 185

/34DL HACKS 論文紹介
まとめ・感想
▸ CRNの学習過程は確認できた。
▸ 学習時間かかりすぎ….
▸ GPUわからん
▸ データの多様性が重要？
▸ 次はPytorch頑張る
34

What's hot

【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP

[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual VideosDeep Learning JP

動画認識サーベイv1（メタサーベイ）cvpaper. challenge

自己教師学習（Self-Supervised Learning）cvpaper. challenge

画像処理ライブラリ OpenCV で出来ること・出来ないことNorishige Fukushima

画像生成・生成モデルメタサーベイcvpaper. challenge

Sift特徴量についてla_flance

【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP

CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)Tenki Lee

[DL輪読会]MetaFormer is Actually What You Need for VisionDeep Learning JP

backbone としての timm 入門Takuji Tahara

Skip Connection まとめ（Neural Network）Yamato OKAMOTO

Domain Adaptation 発展と動向まとめ（サーベイ資料）Yamato OKAMOTO

【DL輪読会】GPT-4Technical ReportDeep Learning JP

[DL輪読会]DropBlock: A regularization method for convolutional networksDeep Learning JP

CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)Yasunori Ozaki

【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP

SSII2020TS: Event-Based Camera の基礎とニューラルネットワークによる信号処理〜生き物のように「変化」を捉えるビジョンセ...SSII

Superpixel Sampling Networksyukihiro domae

【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...Deep Learning JP

What's hot (20)

【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...

[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos

動画認識サーベイv1（メタサーベイ）

自己教師学習（Self-Supervised Learning）

画像処理ライブラリ OpenCV で出来ること・出来ないこと

画像生成・生成モデルメタサーベイ

Sift特徴量について

【DL輪読会】ViT + Self Supervised Learningまとめ

CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)

[DL輪読会]MetaFormer is Actually What You Need for Vision

backbone としての timm 入門

Skip Connection まとめ（Neural Network）

Domain Adaptation 発展と動向まとめ（サーベイ資料）

【DL輪読会】GPT-4Technical Report

[DL輪読会]DropBlock: A regularization method for convolutional networks

CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)

【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?

SSII2020TS: Event-Based Camera の基礎とニューラルネットワークによる信号処理〜生き物のように「変化」を捉えるビジョンセ...

Superpixel Sampling Networks

【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...

Recently uploaded

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か？akihisamiyanaga1

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi

デジタル・フォレンジックの最新動向（2024年4月27日情洛会総会特別講演スライド）UEHARA, Tetsutaro

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察～Text-to-MusicとText-To-ImageかつImage-to-Music...博三太田

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama

業務で生成AIを活用したい人のための生成AI入門講座（社外公開版：キンドリルジャパン社内勉強会：2024年4月発表）Hiroshi Tomioka

Recently uploaded (8)

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か？

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer

デジタル・フォレンジックの最新動向（2024年4月27日情洛会総会特別講演スライド）

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察～Text-to-MusicとText-To-ImageかつImage-to-Music...

TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf

業務で生成AIを活用したい人のための生成AI入門講座（社外公開版：キンドリルジャパン社内勉強会：2024年4月発表）

[DL Hacks 実装]Photographic Image Synthesis with Cascaded Refinement Networks

1. /34DL HACKS 論文紹介 Photographic Image Synthesis with Cascaded Refinement Networks Leo Tsukada DL Hacks 2017/12/04 1 arXiv:1707.09405

2. /34DL HACKS 論文紹介テーマ ▸ Motivation ▸ CG -> 光の反射などによる見え方の計算を短縮 ▸ mental imagery & simulation -> 効率的な学習への鍵？ 2topic Photo synthesis Semantic segmentation

3. /34DL HACKS 論文紹介背景 ▸ GANを用いた画像生成 Goodfellow et al. MNISTの画像生成(32*32) Denton et al. multiple separate GAN(?) 96*96 の解像度 Radfold et al. modiﬁcations and heuristics to solve instability、128*128の解像度 3 Mode collapseなどの問題により、学習が困難な場合がある

4. /34DL HACKS 論文紹介背景 ▸ Isola et al. Conditional GAN cityscape の画像生成 4

5. /34DL HACKS 論文紹介概観 ▸ Cascaded Reﬁnement Networks (CRN) 5 3×3conv ReLU 3×3conv ReLU c + di−1 channels di channels di channels

6. /34DL HACKS 論文紹介 ▸ Cascaded modules ▸ photorealismの上で鍵となる概念 Global Coordination : 広い領域での規則性、feature matchingで実現 high resolution : 段階的に2倍ずつ高めていくことで実現 Big capacity : 画像生成の汎用性を高めるには多くのパラーメータ領域が必要概観 6 wi × hi × di wi+1 × hi+1 × di+1 = 2wi × 2hi × di+1 wi+2 × hi+2 × di+2 = 4wi × 4hi × di+2 bilinear upsampling bilinear upsampling

7. /34DL HACKS 論文紹介学習 ▸ 1対多の対応問題 7 最終的な画像のみをground truthとするのは、厳しすぎる既存のCNNの中でfeature matchingを行いあらゆる特徴量でロスを算出する。

8. /34DL HACKS 論文紹介学習 8 l :conv1-2, conv2-2, conv3-2, conv4-2, conv5-2 λl :hyper parameters g(L; θ):synthesized image I :the reference image

9. /34DL HACKS 論文紹介 VGG-19 9 … … … … … reference fake

10. /34DL HACKS 論文紹介 VGG-19 10 … … … … … e1 e2 e3 e4 e5 reference fake

11. /34DL HACKS 論文紹介 Synthesizing a diverse collection 11 e2 l = 2 reference fake j番目 c枚

12. /34DL HACKS 論文紹介実験 ▸ semantic segmentation のネットワークで評価できない？評価関数を最大化するようにいじれば簡単に騙される Amazon Mechanical Turkで人に任せる！ 12

13. /34DL HACKS 論文紹介実験1 ▸ 今回開発したCRNと他のベースラインをランダムにペア ▸ 時間無制限で比較 13 ※%は比較したベースラインより、 CRNの方がrealisticだと答えた割合

14. /34DL HACKS 論文紹介実験1 ▸ 今回開発したCRNと他のベースラインをランダムにペア ▸ 時間無制限で比較 14

15. /34DL HACKS 論文紹介実験2 ▸ Pix2pixや本物の写真と比べる ▸ 制限時間を0.125~8sで設ける 15

16. /34DL HACKS 論文紹介論文まとめ ▸ cascaded modeleで解像度を段階的に上げていった ▸ 誤差関数としてVGG19を用いて、feature matching ▸ さらにoutputの多様性を許すために、diversity lossを設定 ▸ 結果、めっちゃリアリスティック 16

17. /34DL HACKS 論文紹介学習結果 ▸ Qifeng et alによる学習済みモデル(3000枚*100 epoch) 17

18. /34DL HACKS 論文紹介学習結果 ▸ Qifeng et alによる学習済みモデル(3000枚*100 epoch) 18

19. /34DL HACKS 論文紹介学習結果 ▸ CPUだけで頑張って学習(100枚*200 epoch) 19

20. /34DL HACKS 論文紹介学習結果 ▸ CPUだけで頑張って学習(100枚*200 epoch) 20

21. /34DL HACKS 論文紹介学習結果 ▸ CPUだけで頑張って学習(100枚*200 epoch) 21

22. /34DL HACKS 論文紹介学習結果 ▸ CPUだけで頑張って学習(100枚*200 epoch) 22

23. /34DL HACKS 論文紹介学習結果 ▸ CPUだけで頑張って学習(100枚*200 epoch) 23

24. /34DL HACKS 論文紹介学習結果 ▸ CPUだけで頑張って学習(100枚*200 epoch) 24

25. /34DL HACKS 論文紹介学習結果 ▸ CPUだけで頑張って学習(100枚*200 epoch) 25

26. /34DL HACKS 論文紹介学習結果 ▸ CPUだけで頑張って学習(100枚*200 epoch) 26

27. /34DL HACKS 論文紹介学習結果 ▸ CPUだけで頑張って学習(100枚*200 epoch) 27

28. /34DL HACKS 論文紹介学習結果 ▸ CPUだけで頑張って学習(100枚*200 epoch) 28

29. /34DL HACKS 論文紹介学習結果 ▸ CPUだけで頑張って学習(100枚*200 epoch) 29

30. /34DL HACKS 論文紹介学習結果 ▸ CPUだけで頑張って学習(100枚*200 epoch) 30

31. /34DL HACKS 論文紹介学習結果 ▸ CPUだけで頑張って学習(100枚*200 epoch) 31

32. /34DL HACKS 論文紹介 learning rateの違いを比較 32

33. /34DL HACKS 論文紹介 Small error makes it realistic? 33 epoch 150 epoch 185

34. /34DL HACKS 論文紹介まとめ・感想 ▸ CRNの学習過程は確認できた。 ▸ 学習時間かかりすぎ…. ▸ GPUわからん ▸ データの多様性が重要？ ▸ 次はPytorch頑張る 34

[DL Hacks 実装]Photographic Image Synthesis with Cascaded Refinement Networks

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (8)

[DL Hacks 実装]Photographic Image Synthesis with Cascaded Refinement Networks