Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[DL輪読会]Textured Neural Avatars

198 views

Published on

2019/09/13
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Published in: Technology
  • Be the first to comment

  • Be the first to like this

[DL輪読会]Textured Neural Avatars

  1. 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Textured Neural Avatars Shizuma Kubo, Matsuo Lab
  2. 2. 書誌情報 • 書誌情報 Ø Textured Neural Avatars Ø 著者: Aliaksandra Shysheya (Samsung AI Center, Moscow、Skolkovo Institute of Science and Technology, Moscow) 、その他共著者 11⼈ Ø CVPR2019 oral (2019/05/21 on arXiv) • Project Page: https://saic-violet.github.io/texturedavatar/ • Demo Page: https://youtu.be/3rrnUX8wWZ8 2
  3. 3. 提案⼿法の概要 3 • カメラ位置と⼈物の姿勢を指定すれば、それにあった⼈物画像を⽣成してくれ るモデルを提案した。 • 学習は特定⼈物の動画で⾏うため、⽣成される⼈物は⼀意である。 1. 学習データにない視点から でも⼈物画像を⽣成できる。 2. 学習データにない姿勢の⼈ 物画像を⽣成できる。
  4. 4. 提案⼿法の概要 • 3Dの姿勢の⼊⼒に応じた、(学習に使⽤した)⼈物画像を⽣成するモデル • Input poseはboneごとにラスタライズ(点を結んで線にする)したもののstackの形 式となっている。 4 Neural Textured Avatars
  5. 5. ⽬次 5 1. 関連研究 2. 提案⼿法 3. 実験 4. まとめ
  6. 6. ⽬次 6 1. 関連研究 Ø 姿勢を指定した⼈物の動画像⽣成 Ø UVマッピングの利⽤ 2. 提案⼿法 3. 実験 4. まとめ
  7. 7. 姿勢を指定した⼈物の動画像⽣成 • 姿勢 (2D key pointやDense Pose等)を⼊⼒にしてそれに合うような⼈物の動画像 を⽣成するタスク。 7 Everybody dance now [Chan+ ICCVʼ19] Vid2Vid [Wang+ NeurIPSʼ18] 2D keypointを取得して、 特定の⼈物動画を⽣成 DensePoseの出⼒を取得して、 特定の⼈物動画を⽣成
  8. 8. 姿勢を指定した⼈物の動画像⽣成 • 姿勢 (2D key pointやDense Pose等)を⼊⼒にしてそれに合うような⼈物の動画像 を⽣成するタスク。 8 Everybody dance now [Chan+ ICCVʼ19] Vid2Vid [Wang+ NeurIPSʼ18] ただし、 Ø カメラの視点が固定である (検証はされていない) Ø ⼤量のデータセットが必要になる (提案⼿法は300フレームでも学習可能である)
  9. 9. UVマッピングとその推定 9 3Dモデリングにおける3Dと2Dの 橋渡しの処理で、展開された3Dモデルの 表⾯のテクスチャを3Dにマッピングする。 ⾝体モデルを仮定して画像上の 各ピクセルが3Dモデル上のどこに 位置するのかを推定する。 UVマッピング DensePose [Guler+ CVPRʼ18]
  10. 10. UVマッピングの利⽤ 10 DensePoseの出⼒を利⽤した姿勢の変換。 2Dのテクスチャ上で不⾜部分の補完を⾏ う。 UVテクスチャを利⽤して、1枚の RGB画像から3Dアバターを⽣成。 Dense Pose Transfer [N.Neverova+ ECCVʼ18] 360-Degree Textures [V.Lazova+ 19]
  11. 11. ⽬次 11 1. 関連研究 2. 提案⼿法 Ø モデル概要 Ø 学習 (損失関数) Ø 初期化戦略 3. 実験 4. まとめ
  12. 12. 提案⼿法の概要 12 Part assignments Part coordinates
  13. 13. 学習 13 • 予測したマスクに対するBinary cross entropy lossと予測したRGB画像に対する Perceptual lossによって学習を⾏う。 • Texture stack は初期化によって得られ(この後説明)、学習によって更新される。
  14. 14. Generatorの初期化 14 • Generatorを前もって学習しておく。教師データとしてDensePoseの出⼒を使う。 • DenseposeはRGB画像を⼊⼒にTextureとのマッピング関係を推定するが、3D Poseからそれを推定できるように学習を⾏う。 ⼊⼒の3D Poseに対応する RGBが画像から推定した DensePoseの出⼒結果。
  15. 15. Generatorの初期化(転移) 15 • データが⼗分にない場合はGeneratorを学習するのではなく、他のデータで学習し たGeneratorの重みをそのまま使う。 • 体型が⼤きく変わらない場合は、ネットワークはほとんど変える必要がない。 ⼗分なデータ量 転移
  16. 16. テクスチャの初期化 16 • 初期化したGeneratorの出⼒を使って、テクスチャを初期化する。 動画 各flameでTexture を取得し平均を取って 初期値とする。 各flameごとの処理
  17. 17. 学習による更新の影響 17 • 学習によってテクスチャやGeneratorの出⼒がアップデートされる。 初期化時 学習後
  18. 18. 推論 18 : 最終結果の画像 : 背景画像 • 最終的な結果としてavatarを画像として背景と合成する。
  19. 19. ⽬次 19 1. 関連研究 2. 提案モデル 3. 実験 Ø Direct (baseline⼿法) Ø 定性評価 (multi/single video training) Ø 定量評価 4. まとめ
  20. 20. Direct translation baseline 20 • 既存⼿法以外に、Textureは使わず、直接マスクとRGB画像を予測するようなネッ トワークをbaselineのモデルとして提案・⽐較する。
  21. 21. Direct translation baseline 21 • 既存⼿法以外に、Textureは使わず、直接マスクとRGB画像を予測するようなネッ トワークをbaselineのモデルとして提案・⽐較する。
  22. 22. 定性評価 22 • 実験のデータにはCMUデータセット(同じ⼈物を同時に複数視点から撮影)を使⽤。 • 複数視点の2D姿勢推定の結果を三⾓測量によって3D姿勢を計算し、⼊⼒にした。 • 複数視点のカメラの動画で学習を⾏い、学習にない視点で結果を出⼒している。 • GT: Ground Truth、Direct: 前述のbaseline、V2V: Vid2Vid
  23. 23. 定量評価 23 • User study: Ground Truthと⽐較する⼿法の2つの計3つを並べて、Ground Truthに マッチするほうを選択してもらうユーザーテスト。数字は提案⼿法が選択された 割合(のはず)。 • SSIM score: ⾒た⽬の近さを測る評価指標。1に近いほうがよい。 • Frechet distance (FID): 実画像と⽣成画像の分布距離。0に近いほうがよい。 • 提案⼿法は、User studyでは他⼿法にすべて勝っている。ただし、各視点からの光 を平均してしまっていることが悪影響を受けているとのこと。 • ⾏名はデータセットで1、2はデータのサブセット、6、16がフレームを表す。
  24. 24. 定性評価 (single video training) 24 • 単⼀視点のカメラの動画で学習を⾏った場合の結果。(vid2vidとの⽐較)
  25. 25. 定性評価 (single video training) 25 • 単⼀視点のカメラの動画で学習を⾏った場合の結果。 • Video Based Reconstruction of 3D People Models [Alldieck+ CVPRʼ18]との⽐較。 • 左側が提案⼿法で右が[Alldieck+ CVPRʼ18]。 • (論⽂中にはさくっとこの⽐較が載っているだけで⾔及はなかったが、 提案⼿法 はデータの制約が少ないことと学習時間が⽐較的短いことが利点になりそう。)
  26. 26. ⽬次 26 1. 関連研究 2. 提案⼿法 3. 実験 4. まとめ
  27. 27. まとめ • 任意の視点と任意の姿勢の⼈物画像を⽣成するモデルを提案した。 • 2Dのテクスチャを明⽰的に使⽤することで汎化性能を⾼めた。 (感想) • テクスチャ部分を学習によって更新するというのが賢いと思った。 • 動画像⽣成側の発展と動画像からの3Dモデルの構築の発展のブランチがマージさ れそうな雰囲気を感じる。 • 動画像⽣成において、⾒た⽬部分と幾何的部分を分けて考える研究や、特に2Dテ クスチャを介して3Dモデルを考慮する⽅法は個⼈的に注⽬していきたい。 27
  28. 28. References • C.Chan, S.Ginosar, T. Zhou, A.A. Efros. Everybody Dance Now. ICCV 2019. • T-C.Wang, M-Y.Liu, J-Y.Zhu, G.Liu, A.Tao, J.Kautz, B.Catanzaro. Video-to-Video Synthesis. NeurlPS 2018. • R.A.Guler, N.Neverova, I.Kokkinos. DensePose: Dense Human Pose Estimation In The Wild. CVPR 2018. • N.Neverova, R.Aguler, I.Kokkinos. Dense Pose Transfer. ECCV 2018. • V.Lazova, E.Insafutdinov, G.Pons-Moll. 360-Degree Textures of People in Clothing from a Single Image. 2019.8.20 on arXiv. • T.Alldieck, M.Magnor, W.Xu, C.Theobalt, G.Pons-Moll. Video Based Reconstruction of 3D People Models. CVPR 2018. 28

×