Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[DL輪読会]Seeing What a GAN Cannot Generate

80 views

Published on

2019/10/11
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Published in: Technology
  • DOWNLOAD THAT BOOKS INTO AVAILABLE FORMAT (2019 Update) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Full EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Full doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... ......................................................................................................................... ................................................................................................................................... eBook is an electronic version of a traditional print book that can be read by using a personal computer or by using an eBook reader. (An eBook reader can be a software application for use on a computer such as Microsoft's free Reader application, or a book-sized computer that is used solely as a reading device such as Nuvomedia's Rocket eBook.) Users can purchase an eBook on diskette or CD, but the most popular method of getting an eBook is to purchase a downloadable file of the eBook (or other reading material) from a Web site (such as Barnes and Noble) to be read from the user's computer or reading device. Generally, an eBook can be downloaded in five minutes or less ......................................................................................................................... .............. Browse by Genre Available eBooks .............................................................................................................................. Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, ......................................................................................................................... ......................................................................................................................... .....BEST SELLER FOR EBOOK RECOMMEND............................................................. ......................................................................................................................... Blowout: Corrupted Democracy, Rogue State Russia, and the Richest, Most Destructive Industry on Earth,-- The Ride of a Lifetime: Lessons Learned from 15 Years as CEO of the Walt Disney Company,-- Call Sign Chaos: Learning to Lead,-- StrengthsFinder 2.0,-- Stillness Is the Key,-- She Said: Breaking the Sexual Harassment Story That Helped Ignite a Movement,-- Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones,-- Everything Is Figureoutable,-- What It Takes: Lessons in the Pursuit of Excellence,-- Rich Dad Poor Dad: What the Rich Teach Their Kids About Money That the Poor and Middle Class Do Not!,-- The Total Money Makeover: Classic Edition: A Proven Plan for Financial Fitness,-- Shut Up and Listen!: Hard Business Truths that Will Help You Succeed, ......................................................................................................................... .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

[DL輪読会]Seeing What a GAN Cannot Generate

  1. 1. DEEP LEARNING JP [DL Papers] Seeing What a GAN Cannot Generate Yuting Lin, Kokusai Kogyo Co., Ltd.(国際航業) http://deeplearning.jp/ 1
  2. 2. 書誌情報  著者 – David BauらMITの研究チーム – GAN Dissectionを提案したチーム  ICCV2019に採択  コード:2週間前に公開 – https://github.com/davidbau/ganseeing 2
  3. 3. 概要  既存のGAN手法のmode collapseに注目。  主に物体レベルのmode collapseを研究対象として、議論を行った – どのような物体が作成されないかを統計的に検討  単独の画像に注目し、GANの生成器をレイヤ毎にnetwork inversionを実施 し、生成器を最適化する – レイヤ毎の特徴量を最適化することで、生成器の性能の上限を向上 – 既存のGAN手法が失敗するケースを分析 3
  4. 4. 既往研究  GANの課題:mode collapse/ mode drop – ターゲット分布の一部分は生成されない – 既存のGANの結果を評価する指標はモデル全体を対象とする – 本研究は、物体レベルのmode collapseを評価  Network inversion – x = G(E(x)) – 生成器のinversionとなるencoderにより取得した潜在空間に対し、特定の操作を行う ことで、画像を編集できる – 構造の複雑な生成器に対しては困難 – 本研究は、 Layer-wise network inversion + Layer-wise image optimizeを提案  GANの可視化 – 多くの研究は、分類問題や、GANが学習できる物体の可視化に注目 – 本研究は、 GANが学習できていない物体を対象とする 4
  5. 5. 手法  生成画像と実画像のセマンティックセグメンテーション結果を比較し、GAN が生成できない物体を全体的に評価 ⁃ セグメンテーション結果に対し、各クラスの画素数で比較 ⁃ FSD(Fréchet Segementation Distance)でモデルの全体性能を評価(FIDと類似) ⁃ 𝐹𝑆𝐷 = 𝜇 𝑔 − 𝜇 𝑡 2 + 𝑇𝑟 ∑ 𝑔 + ∑ 𝑡 + 2(∑ 𝑔∑ 𝑡)1/2 (1) ⁃ 𝜇 𝑡は学習サンプルの各クラスの平均画素数。∑ 𝑡は各クラスの画素数の共分散 ⁃ 𝜇 𝑔は生成画像の各クラスの平均画素数。∑ 𝑔は各クラスの画素数の共分散 5
  6. 6. 手法  問題設定 – x‘ = G(z) = G(E(x)) • Network inversion によるGの最適化:Gはnon-convexのため、全体のinversionが難しい • zの最適化:局所的最小値に落ちやすい – 追跡可能なnetwork inversion • x' = G(z) = Gf(gn(·· · ((g1(z)))) (2) = Gf(r*) where Gfは生成器の深い層。gnは浅い層。 r ∗ = arg min 𝑟 𝑙(Gf 𝑟 , 𝑥) – 完璧なr*を求めれば、漏れのない画像を生成できる r ∗ ≈r0= gn(·· · ((g1(z0)))) – ランダムなzより、ある程度正則化されたz0 が望ましい。実画像xをencodeすることで、正則化したz0を 求められる z0 = E(x) 6
  7. 7. 手法  Layer-wise network inversion – Encoder Eを学習できれば、 z0の推定ができる – pre-trainした独立するレイヤを使うことで、大きいなネットワークの学習がしやすくなる – Layer-wise inversionで、Eを最適化する – x′= Gf(gn(·· · ((g1(z)))) のレイヤ毎(gi)に、inversionとなるeを用いて最適化する • ri = gi(ri-1) ⇒ ri-1 ≈ ei(ri) ⇒ ri ≈ gi(ei(ri)) • eiの最適化 • E* = e1(e2(·· · (en(ef(x)))) 7
  8. 8. 手法  Layer-wise image optimization – 目標は、 なるべく完璧なr ∗ を見つけて、物体が漏れない画像を生成する。 ⇒ Gf(r*) – 各 giにおいて、ある特徴量𝛿𝑖を加えることで、 ri を最適化 – 𝑟 ≡ 𝛿 𝑛 + 𝑔 𝑛 ⋯ 𝛿2 + 𝑔2 𝛿1 + 𝑔1 𝑧0 (3) – r ∗ = arg min 𝑟 ( 𝑙 x, Gf 𝑟 + λ 𝑟𝑒𝑔 ∑𝑖 𝛿𝑖 2) – 𝑙 x, Gf 𝑟 は画像のpixel lossおよび、VGG perceptual lossとする 8
  9. 9. 実験1  GANが生成した画像の全体評価  実験対象 – WGAN-GP, Progressive GAN, StyleGAN  データセット – LSUN bedroom images  評価内容 – GANで生成した画像でsemantic segmentationし、その結果を統計的に評価する – 合計336クラス、10,000枚以上の画像で評価  セグメンテーション手法 – Unified Perceptual Parsing network 9
  10. 10. 実験1  実画像と比較し、GANは小さく、複雑な物体の生成が苦手  性能として、StyleGAN > Progressive GAN > WGAN 10 Real images
  11. 11. 実験2  異なるデータセットにおいて、生成できない物体は類似する  実験対象: Progressive GAN  データセット:LSUN church/bedroom images 11
  12. 12. 実験3  提案手法有効性の検証  baseline – a): optimize z – b): learn E directly – c): b)+a)  abalation study – d): layer-wise network inversion only – e): a)+optimize z – f): a)+optimize r (r=Ef(x))  提案手法は、中間レイヤの特徴量において、 99%以上相関  Eの目的は、Gが生成できない物体 (dropped modes)を明確にする  d),e)はGの下限を示す。f)はGの上限を示す 12
  13. 13. 実験4  Layer-wise inversion across domains – 対象物体が同じで、学習データに含まれていない場合:形状は大体復元できるが、細部は困難 – シーンが異なる場合、基本的には難しい 13
  14. 14. まとめ  GANの生成画像をセグメンテーションし、FSDで全体を評価した  Layer-wise network inversionで、Gをレイヤ毎にinversionし、Gの復元上限(dropped mode)を明確にした  今後の課題 – なぜGANは、学習データでの出現頻度が高い物体を生成しないのか? – 学習データを変更せず、どうやってGANを物体の表現を学習できようにするのか?  所感 – 着眼点が面白い – 方法は、割と地味 – 解釈性も入れるべき? 14

×