Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

【CVPR 2019】SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalization

139 views

Published on

cvpaper.challenge はコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文読破・まとめ・アイディア考案・議論・実装・論文投稿に取り組み、あらゆる知識を共有しています。
http://xpaperchallenge.org/cv/

本資料は、CVPR 2019 網羅的サーベイの成果の一部で、1論文を精読してプレゼンテーション形式でまとめております。論文サマリは下記からご確認頂けます。
http://xpaperchallenge.org/cv/survey/cvpr2019_summaries/listall/

Published in: Technology
  • Be the first to comment

【CVPR 2019】SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalization

  1. 1. 1 Semantic Image Synthesis with Spatially-Adaptive Normalization (CVPR 2019 Oral) Taesung Park, Ming-Yu Liu, Ting-Chun Wang, Jun-Yan Zhu (UC Berkeley, NVIDIA, MIT) 資料作成: 本⽥志温@shion_honda http://xpaperchallenge.org/cv/
  2. 2. 概要 2 SPADEにより, セグメンテーションからリアルな画像 を⽣成する(落書き→写真)
  3. 3. 概要その2 3 スタイルを加えることも可能
  4. 4. 著者について 4 画像変換に強いUC BerkeleyとNVIDIAのチーム l Taesung Park l UC Berkeley l CycleGAN l Ming-Yu Liu & Ting-Chun Wang l NVIDIA l pix2pixHD, vid2vid l Jun-Yan Zhu l NVIDIA, MIT l pix2pixHD, pix2pix, CycleGAN
  5. 5. 従来の⾼解像度画像⽣成 5 StyleGAN [2] BigGAN [3] ⾼品質に⽣成できるようになった
  6. 6. 従来の画像変換 6 l 様々な画像変換 l セグメンテーション↔写真 l ⽩⿊↔カラー など l もっと⾼品質にできないか︖ pix2pixHD [4]
  7. 7. バッチ正規化とその問題点 7 l 特徴マップを(バッチサイズB,チャネル数C,縦 H,横W)にまとめたテンソルに: l (バッチ,縦,横)に関する平均μと標準偏差σで正規化 l 学習されるパラメータであるスケールγとバイアスβで チャネルごとに線形変換 l データの分布の変動を抑えられる l セグメンテーション画像を⼊⼒するとラベルの情報 が落ちる
  8. 8. SPADE 8 l spatially-adaptive (de)normalization l スケールγとバイアスβをセグメンテーション画像の畳込 みで構成し、空間⽅向に適応させる l 単調な⼊⼒を考えると、pix2pix(通常のバッチ正規化) では単調な出⼒だがSPADEでは多様性を出せる
  9. 9. アーキテクチャ (GauGAN) 9 l SPADE ResBlockを重ねる l この中のSPADEにセグメンテーション画像を挿⼊してい くイメージ l したがって、pix2pixとは異なりencoderがない →乱数から始める (これでスタイルを決める) l 識別器はpix2pixHDと同じ l 損失関数は⼆乗誤差をヒンジ損失に変えたもの
  10. 10. ⽣成画像 10 l 海、空など同じ 領域内でも多様 性がある l pix2pixHDで⾒ られるノイズが ない l 複雑な画像の細 部を再現できて いる
  11. 11. Flickr⽣成画像 11
  12. 12. 数値評価 12 l FIDと再セグメンテーションしたときのIoU l ⼈による評価 l Ablation studyもあり
  13. 13. まとめ 13 l バッチ正規化のパラメータγ, βを畳み込みにより適 応的に設計するSPADEを提案 l encoderを取り除き、セグメンテーションの情報は SPADEで取り込む l ⾼解像度・⾼品質でスタイル転写も可能な画像⽣成 を実現
  14. 14. 参考⽂献 14 [1] Taesung Park, Ming-Yu Liu, Ting-Chun Wang, Jun-Yan Zhu. “Semantic Image Synthesis with Spatially-Adaptive Normalization”. CVPR. 2019. [2] Tero Karras, Samuli Laine, Timo Aila. “A Style-Based Generator Architecture for Generative Adversarial Networks”. CVPR. 2019. [3] Andrew Brock, Jeff Donahue, Karen Simonyan. “Large Scale GAN Training for High Fidelity Natural Image Synthesis”. ICLR. 2019. [4] Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao, Jan Kautz, and Bryan Catanzaro. “High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs”. CVPR. 2018.

×