Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Iccv image2 stylegan

125 views

Published on

ICCV2019読み会@京都 の資料

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

Iccv image2 stylegan

  1. 1. ICCV2019 論文読み会 Image2StyleGAN: How to Embed Images Into the StyleGAN Latent Space? 2019/11/26 発表者:加藤卓哉(株式会社エクサウィザーズ) Rameen Abdal Yipeng Qin Peter Wonka KAUST
  2. 2. AIエンジニア@ ExaWizards Inc. 早稲田大学 先進理工学研究科 物理学及応用物理学専攻 博士(工学) 日本学術振興会 特別研究員(DC1)・ 実体情報学博士プログラム 早稲田大学客員研究員・駒澤大学非常勤講師(映像制作デザイン) 【主な経歴など】 - UCLA CG研究所(2014.7. 9.) - OLMデジタル インターン(2015.4. 10.) - 産業技術総合研究所 インターン(2015 , 計4か月) - Walt Disney Company Japan Tech Teamインターン(2016.12. 2017. 3.) - UC Berkeley 人工知能研究所(2017.4. 2017. 9.) - ACM SIGGRAPH Asia 2021プログラムチェア(東京開催) 最近の大きな仕事: NHKスペシャル「AIでよみがえる美空ひばり」の歌唱動作生成部への技術協力 加藤卓哉
  3. 3. STRICTLY CONFIDENTIAL | 3 論文概要 既存の自然画像をStyleGANの潜在空間に落とすことでStyleGANを理解したい ? 本論⽂の貢献: ①効率的な潜在空間への落とし⽅の提案 ②StyleGANの潜在空間とはなんなのかの理解を深めた ③StyleGANの潜在ベクトルの基本的な演算を提案
  4. 4. STRICTLY CONFIDENTIAL | 4 本論文を読むモチベーション StyleGANの結果がすごい。なんとか業務とかに活用できない…?
  5. 5. STRICTLY CONFIDENTIAL | 5 そもそもGANってなに? 敵対的生成ネットワーク 真偽を判定するDiscriminatorを備えて⽣成器と同時に学習させることで、 Discriminatorをも騙すような⽣成器を学習させる深層学習のアルゴリズム
  6. 6. STRICTLY CONFIDENTIAL | 6 そもそもGANってなに? 敵対的生成ネットワークの例:Pix2Pix
  7. 7. STRICTLY CONFIDENTIAL | 7 そもそもGANってなに? 敵対的生成ネットワークの例:CycleGAN
  8. 8. STRICTLY CONFIDENTIAL | 8 結局どのアルゴリズムがいいの? 爆増するGAN系の論文 結局どのGANがええねん…。
  9. 9. STRICTLY CONFIDENTIAL | 9 StyleGANってなに? CVPR2019で発表された現役最強のGANと呼び声高いStyleGAN
  10. 10. STRICTLY CONFIDENTIAL | 10 一般的な生成器との違い 潜在表現を別の潜在表現に変換し、Styleとノイズを生成器に適用する機構
  11. 11. STRICTLY CONFIDENTIAL | 11 StyleGANの概要 ① 潜在空間へのマッピング 潜在表現zを全結合層によってwにマッピング wで貼られる空間Wを中間特徴空間と呼ぶ ⼀般的には潜在表現を直接畳み込み層に⼊れて⽣成するが、 潜在表現に全結合を8層分適⽤して結果がよくなっている。 利点:より複雑に特徴を学習(?) ⽋点:ネットワーク肥⼤化
  12. 12. STRICTLY CONFIDENTIAL | 12 StyleGANの概要 ① 潜在空間へのマッピング 潜在表現zを全結合層によってwにマッピング wで貼られる空間Wを中間特徴空間と呼んでいる。 ② ⽣成ネットワーク 通常のGANなどと同様にUpsamplingして画像を⽣成
  13. 13. STRICTLY CONFIDENTIAL | 13 StyleGANの概要 ① 潜在空間へのマッピング 潜在表現zを全結合層によってwにマッピング wで貼られる空間Wを中間特徴空間と呼んでいる。 ② ⽣成ネットワーク 通常のGANなどと同様にUpsamplingして画像を⽣成 ②-1 AdaINを⽤いたStyle適⽤ wを⾏列Aをかけて各レイヤーの特徴マップに適⽤する ここにはAdaINというStyle変換などに使う⽅法を応⽤ Style特徴を適⽤させて、全体的な⾒た⽬を変化させる効果 Constは固定して学習させる(といいらしい) このとき、異なる層には異なる潜在表現zを適⽤してwを⽣成
  14. 14. STRICTLY CONFIDENTIAL | 14 StyleGANの概要 ① 潜在空間へのマッピング 潜在表現zを全結合層によってwにマッピング wで貼られる空間Wを中間特徴空間と呼んでいる。 ② ⽣成ネットワーク 通常のGANなどと同様にUpsamplingして画像を⽣成 ②-1 AdaINを⽤いたStyle適⽤ wを⾏列Aをかけて各レイヤーの特徴マップに適⽤する ここにはAdaINというStyle変換などに使う⽅法を応⽤ ②-2 ノイズを⼊れて細かい特徴を変化させる ガウス分布からサンプルしたノイズが各特徴マップに⾜される しわや髪の流れ⽅など、確率的な細かい特徴をコントロール
  15. 15. STRICTLY CONFIDENTIAL | 15 層の深さによるwの変化 層が深くなるとwの意味が低次元的な変化から高次元的な変化 Aに対して、最初の層のBでのwを⽤いて スタイルを変化させた結果 Aに対して、中間の層のBでのwを⽤いて スタイルを変化させた結果 Aに対して、最後の層のBでのwを⽤いて スタイルを変化させた結果
  16. 16. STRICTLY CONFIDENTIAL | 16 論文概要 既存の自然画像をStyleGANの潜在空間に落とすことでStyleGANを理解したい ? 本論⽂の貢献: ①効率的な潜在空間への落とし⽅の提案 ②StyleGANの潜在空間とはなんなのかの理解を深めた ③StyleGANの潜在ベクトルの基本的な演算を提案
  17. 17. STRICTLY CONFIDENTIAL | 17 潜在表現の見直し W単体ではなく、18個のWを統合した潜在空間W+の採用 8層 18層 18層それぞれに対してwが存在し、AdaINされる。 それらを統合して⼀つの潜在表現w+として採⽤する。
  18. 18. STRICTLY CONFIDENTIAL | 18 画像の潜在表現への逆変換: Inverting The Generator Of A Generative Adversarial Network [CVPR2016] ⽣成器Gが⽣成する画像が⼊⼒画像に近くなるように、潜在表現を最適化する⼿法が主流。
  19. 19. STRICTLY CONFIDENTIAL | 19 画像の潜在表現への逆変換: Perceptional lossと元画像との差を用いて初期化されたw*を最急降下法で最適化 1. w*を初期化 2. 収束するまで繰り返す ⼊⼒:⼊⼒画像Iと学習済みの⽣成器G 出⼒:W空間上の潜在表現w*と関数Fʻによって 変換された潜在表現から⽣成された画像G(w*) ⽣成器Gが⽣成する画像が⼊⼒画像に近くなるように、潜在表現を最適化。
  20. 20. STRICTLY CONFIDENTIAL | 20 自然画像をStyleGANに入力 顔以外の自然画像を入れてもかなりの精度で元の画像を再現できる
  21. 21. STRICTLY CONFIDENTIAL | 21 画像の潜在表現への逆変換: w*の初期化を変更すると結果が変化する 潜在表現の平均で初期化すると、 より精度が⾼まる。 顔以外の画像では、 乱数で初期化する⽅が精度が⾼まる。
  22. 22. STRICTLY CONFIDENTIAL | 22 画像の潜在表現への逆変換: w*の初期化を変更すると学習結果が大きく変わる
  23. 23. STRICTLY CONFIDENTIAL | 23 部分隠蔽へのストレステスト 部分的に隠蔽されていてもしっかり隠蔽したままの結果を出力する
  24. 24. STRICTLY CONFIDENTIAL | 24 顔画像のアフィン変換へのストレステスト 位置や向きが変わると顔でも結果悪化(オーグメンテーションの問題?)
  25. 25. STRICTLY CONFIDENTIAL | 25 顔画像のアフィン変換へのストレステスト 大きさにはそれなりに対応できるが、やや回転や並進に弱い。
  26. 26. STRICTLY CONFIDENTIAL | 26 形状変化へのStyleGAN イラストのような絵でも上手くいく 参考画像 ⽣成画像
  27. 27. STRICTLY CONFIDENTIAL | 27 潜在空間による画像のモーフィング 顔ではうまくいくが、顔以外は上手く行かず、途中で顔っぽいものが出てくる
  28. 28. STRICTLY CONFIDENTIAL | 28 StyleGANによる画風変換 StyleGANが高精細画像を担保するのは前段のwと後段wの組み合わせにあり 前段の9個のwを元々の画像にして、 後段の9個のwを変化させることで画⾵を変化できる。 顔を⼊⼒にした時は上⼿く画⾵を変化できたが、 顔以外を⼊⼒できた時は画⾵以前に結果が⾮常に悪化。 画像の⾼精細さはwの組み合わせに⼤きく依存しており、 組み合わせが正しくないとStyleGANでも綺麗な画像を ⽣成することはできない。
  29. 29. STRICTLY CONFIDENTIAL | 29 まとめ 既存の⾃然画像をStyleGANの潜在空間に落とすことでStyleGANの理解を深めた • StyleGANの潜在空間の特徴を理解した • StyleGANの潜在空間を応⽤することで様々な画像を作成することができる • StyleGANの潜在表現は組み合わせが重要で、 組み合わせ次第では⽣成結果が⼤きく悪化する。 GAN研究にも変化が⾒え始めた2019年 • 特定のGANの分析など、より詳細なモデルの分析や理解が始まっている • 構造が複雑なGANを理解するためには、様々な実験を何度も⾏う必要がある • 構造や特徴が明⽰的に理解され始めれば、GANを実務にも活⽤できるようになる?

×