SlideShare a Scribd company logo
1 of 64
Download to read offline
Copyright © DeNA Co.,Ltd. All Rights Reserved.
関東CV勉強会
Everybody Dance Now
2018 / 10 / 20
システム本部 AIシステム部
AI研究開発第一グループ
李 天琦
Copyright © DeNA Co.,Ltd. All Rights Reserved.
自己紹介
Copyright © DeNA Co.,Ltd. All Rights Reserved.
自己紹介
■ 名前:李 天琦
■ Twitter:@Leetenki
■ Facebook:Leetenki
■ 経歴
〜2016年3月 :深層強化学習の研究
2016年4月〜 :DeNA入社
2016年6月〜 :Japanリージョンゲーム事業本部(サーバ開発)
2016年10月〜:AIシステム部異動(コンピュータビジョン研究)
Copyright © DeNA Co.,Ltd. All Rights Reserved.
自己紹介
■ 得意言語:WebGL
■ 深層強化学習の研究
■ 卒論:深層強化学習を用いた自動運転ロボット
Copyright © DeNA Co.,Ltd. All Rights Reserved.
好きな事
■ 不動産投資
■ タワマン巡り
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Previous Work
■ Chainer YOLOv2 (2016)
■ https://github.com/leetenki/YOLOv2
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Previous Work
■ Chainer OpenPose (2017)
■ https://github.com/DeNA/Chainer_Realtime_Multi-Person_Pose_Estimation
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Recently Work
■ 高解像度全身アニメ生成
■ PS-GAN (ECCV2018 Workshop paper)
■ https://dena.com/intl/anime-generation/
Copyright © DeNA Co.,Ltd. All Rights Reserved.
First Workshop on Computer Vision
for Fashion, Art and Design
Copyright © DeNA Co.,Ltd. All Rights Reserved.
First Workshop on Computer Vision for Fashion, Art and Design
■ ファッション、デザイン関連のWorkshop (第一回開催)
■ ファッションアイテムの分類や自動タグ付け
■ ファッション類似画像検索
■ ファッション生成
■ etc...
Copyright © DeNA Co.,Ltd. All Rights Reserved.
DeNAの発表
■ 高解像度なアニメファッション生成
■ 濱田晃一 & 李 天琦の2人で発表
Copyright © DeNA Co.,Ltd. All Rights Reserved.
DeNAの発表
■ Progressive GANの訓練手法にPose Conditionも段階的に加えたモデル
■ それをアニメ画像ドメインに適用し、高解像度のアニメ生成を実現
Copyright © DeNA Co.,Ltd. All Rights Reserved.
本題の論文
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Everybody Dance Now
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Everybody Dance Now
■ UC BerkeleyのCarolineらの研究
■ 2018/08/22 にArxiv投稿
■ https://arxiv.org/abs/1808.07371
■ タイトルのセンスが良い & デモがImpressiveで、一時話題になった
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Everybody Dance Now
■ Fashion and art-design workshop のOral paperとして講演
■ Workshop Best Paper Award を受賞
Copyright © DeNA Co.,Ltd. All Rights Reserved.
論文解説
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Everybody Dance Now
■ ソースとなるダンス動画を与える事で、
任意のターゲット人物があたかも同じように踊ってるFake動画を生成
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Everybody Dance Now
■ 複数人の例
■ どんなターゲット人物でもソース動画と同じように踊らせる事が可能
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Key Idea
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Everybody Dance Now
■ やりたい事:
image -> imageの2ドメイン間のmappingを学習したい
生成
Source Target
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Everybody Dance Now
■ 直接image <-> image のmappingを学習させるのは難しい
⁃ 完全に同じモーションの教師データペアを用意する事が必要
⁃ 身長や体型、カメラ角度が異なるので完全一致が難しい
生成
Source Target
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Everybody Dance Now
■ Pose -> Image の image-to-image translation問題として解いた
(pix2pixと同じ)
生成
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Everybody Dance Now
■ keypoint-based Poseを中間表現として使う
■ source image -> pose stick figure -> target image の2段階で生成する
検出 生成
Source Target中間表現
Copyright © DeNA Co.,Ltd. All Rights Reserved.
処理の流れ
Copyright © DeNA Co.,Ltd. All Rights Reserved.
訓練フェイズ
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Everybody Dance Now
■ 訓練フェイズでSource動画は一切必要ない
■ まずはTargetの人物にてきとうに動いてもらって20分くらい動画を撮る
■ 撮影した動画からデータセットを作る
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Everybody Dance Now
■ 撮影したtarget動画に対してPose Detector(OpenPose等) を使ってPose検出
■ target動画の全フレームで、keypointをつなげたPose Stick Figureを作る
■ 各フレーム画像 <-> Pose Stick Figureの1対1のペアデータセットが完成
検出
Pose Detector
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Everybody Dance Now
■ Pose Stick FigureとImageのペアデータセットを使って、
PoseからTarget imageへのimage-to-image translationの学習を行う
(PersonalizeされたGenerator modelを獲得、背景も含めてoverfitさせる)
生成
training
Copyright © DeNA Co.,Ltd. All Rights Reserved.
推論(Transfer)フェイズ
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Everybody Dance Now
■ Source動画から同じようにPose Detectorを使って全フレームでPose検出
検出
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Everybody Dance Now
■ Global pose normalizationという手法でpose情報を正規化する
source と target のbody shape及びカメラ内位置の差異を吸収
検出 正規化
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Everybody Dance Now
■ 正規化されたPoseをPersonalizeされた学習済みGenerator modelに入力し、
target画像を生成する
pretrained
model
検出 正規化 生成
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Everybody Dance Now
■ 生成クォリティを上げるための2つのコンポーネントを追加
① 直前の生成フレームをconditionに使う事temporal smoothness強化
② 顔まわりのリアリティを高めるためのFace GAN
FaceGAN
Temporal
Smoothness強化
検出 正規化 生成
Copyright © DeNA Co.,Ltd. All Rights Reserved.
モデル詳細
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Everybody Dance Now
■ ポーズ検出器Pを使ってtarget画像 y から pose stick figure x = P(y) を入手
■ (x, y) のペアを使って、x -> y のマッピングをGANで学習する
Discriminator学習時に、Adversarial Loss + VGGでPerceptual Lossを取る
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Everybody Dance Now
■ Transfer時は同様に、source画像 y’からpose stick figure x’ = P(y’) を抽出
■ global pose normalizationの手法でpose stick figure x’ -> x をドメイン変換
■ 最後に学習済みGeneratorを使って x -> y をドメイン変換
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Global pose normalization
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Everybody Dance Now
■ Global pose normalization
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Global pose normalization
■ 足が地についてる状態の足首の座標を統計する
■ 地面との最大距離&最小距離から線形的に全体座標をshift(平行移動)する
Target
Source
Maximum Minimum
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Global pose normalization
■ 地面との最大距離 & 最小距離時の高さからscaleを線形変換する
Target
Source
Maximum Minimum
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Generatorの詳細
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Everybody Dance Now
■ Generator modelはpix2pixHDのLossを改良したもの
Copyright © DeNA Co.,Ltd. All Rights Reserved.
pix2pixHDおさらい
Copyright © DeNA Co.,Ltd. All Rights Reserved.
pix2pixHDのLoss計算
■ pix2pixHDの目的関数:
Copyright © DeNA Co.,Ltd. All Rights Reserved.
pix2pixHDのLoss計算
■ pix2pixHDでは(D1,D2,D3)という3スケールのDiscriminatorを同時訓練
Copyright © DeNA Co.,Ltd. All Rights Reserved.
pix2pixHDのLoss計算
■ adversarial lossに加えてpretrained VGGを使ったperceptual lossを追加
Copyright © DeNA Co.,Ltd. All Rights Reserved.
pix2pixHDのLoss計算
■ 更にDiscriminatorの各層でperceptual lossと同じように距離を取る
= discriminator feature-matching loss
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Temporal smoothing
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Temporal smoothing
■ pix2pixHDのLossをベースに、時間的な整合性を持たせる工夫を加えた
■ 1枚のpose -> image生成ではなく、直前の生成結果も入力に使う
■ Discriminatorは、直前の生成結果とPoseも含めたペアで識別を行う
■ 時間的に連続な画像を生成するようにGeneratorが訓練される
Generator
Discriminator
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Temporal smoothingを加えたLoss計算
■ 変更後GAN Lossの目的関数:
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Face GAN
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Temporal smoothing
■ 全身画像生成後、生成画像の顔領域周辺のみを切り取る
■ 同様にPose Stick Figureの顔周辺も切り取って、Face GANモデルに入力
■ Face GANは顔領域の画像とPoseをinputに、Refineするための残差を出力
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Temporal smoothing
■ Face GANのDiscriminatorは、realのface画像と、
残差を加えたfakeの顔画像の識別を行う
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Full Objective
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Full objective
■ Multi-scaleの各スケールでSmoothing GAN Lossを計算
■ VGG perceptual lossでも1フレーム前の生成結果を使う
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Full objective
■ 画像全体の生成モデルを訓練後、重みを全てfixさせる
■ 最後にFace GANのみ独立で訓練する
Copyright © DeNA Co.,Ltd. All Rights Reserved.
実験
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Experiments
■ ダーゲットの動画は120FPSで20分程度撮影 (訓練データ144,000枚)
服の情報をできるだけ簡単にするため、タイトな服を着用してもらう
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Experiments
■ 128 x 128 face生成するために70 x 70 の Patch-GAN discriminatorを採用
■ Loss関数は全身画像生成とFaceGANの両方でLSGANを採用
■ 評価する際に、通常のパイプラインだとgroundtruthがないので、
source personとtarget personを同一にして評価を行った
■ BaselineとFaceGAN入りと別々にablation study
■ Structural Similarity (SSIM)と、 Learned Perceptual Image Patch Similarity
(LPIPS)両方で評価
検出 生成
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Experiments
■ pix2pixHDとの比較で、FaceでもFullbodyでも提案手法のほうがSSIM高い
■ Face GANを入れたほうクォリティ上がる
Copyright © DeNA Co.,Ltd. All Rights Reserved.
Experiments
■ 出力画像に対してPose Detectorをかけて
入力poseとの pose reconstructionを比較
■ 提案手法のほうがPose distanceが近い(復元度が高い)
検出生成
Copyright © DeNA Co.,Ltd. All Rights Reserved.
まとめ
■ Pose情報を中間表現に使う事でハイクォリティな
動きの動画合成を実現
■ GAN Lossに、直前の生成結果を一緒に入れる事で時間的な整合性を担保
■ 生成が難しい顔領域を個別に切り出してFace-GANでRefine
Copyright © DeNA Co.,Ltd. All Rights Reserved.
感想
■ 手法自体はシンプルだが発想が面白い
■ クォリティ向上のための細かいテクニックは色んなGANモデルで使える
(FaceGAN、Temporal smoothing)

More Related Content

What's hot

What's hot (20)

Cvpr 2021 manydepth
Cvpr 2021 manydepthCvpr 2021 manydepth
Cvpr 2021 manydepth
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
 
敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)
 
【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision
【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision
【DL輪読会】Unpaired Image Super-Resolution Using Pseudo-Supervision
 
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
ResNetの仕組み
ResNetの仕組みResNetの仕組み
ResNetの仕組み
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
バイナリニューラルネットとハードウェアの関係
バイナリニューラルネットとハードウェアの関係バイナリニューラルネットとハードウェアの関係
バイナリニューラルネットとハードウェアの関係
 
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
 
ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2) ECCV2020 オーラル論文完全読破 (2/2)
ECCV2020 オーラル論文完全読破 (2/2)
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
 
物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
 
OSS強化学習向けゲーム環境の動向
OSS強化学習向けゲーム環境の動向OSS強化学習向けゲーム環境の動向
OSS強化学習向けゲーム環境の動向
 
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
 

Similar to ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)

Unity開発で週イチ呑み会を支える技術
Unity開発で週イチ呑み会を支える技術Unity開発で週イチ呑み会を支える技術
Unity開発で週イチ呑み会を支える技術
kazuya noshiro
 
D.N.A. Softwares ご紹介
D.N.A. Softwares ご紹介D.N.A. Softwares ご紹介
D.N.A. Softwares ご紹介
IGDA Japan
 
第5回業開中心会議
第5回業開中心会議第5回業開中心会議
第5回業開中心会議
Kaoru NAKAMURA
 

Similar to ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東) (20)

Pull request時の画面差分取得の自動化
Pull request時の画面差分取得の自動化Pull request時の画面差分取得の自動化
Pull request時の画面差分取得の自動化
 
DeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechcon
 
ドライブレコーダーの映像で Scene Text Recognitionする
ドライブレコーダーの映像で Scene Text Recognitionするドライブレコーダーの映像で Scene Text Recognitionする
ドライブレコーダーの映像で Scene Text Recognitionする
 
Unity開発で週イチ呑み会を支える技術
Unity開発で週イチ呑み会を支える技術Unity開発で週イチ呑み会を支える技術
Unity開発で週イチ呑み会を支える技術
 
まだまだ戦えるweb!mithril.js最初の1歩
まだまだ戦えるweb!mithril.js最初の1歩 まだまだ戦えるweb!mithril.js最初の1歩
まだまだ戦えるweb!mithril.js最初の1歩
 
ゼロから深層学習を学ぶ方法 - CMS大阪夏祭り2017
ゼロから深層学習を学ぶ方法 - CMS大阪夏祭り2017ゼロから深層学習を学ぶ方法 - CMS大阪夏祭り2017
ゼロから深層学習を学ぶ方法 - CMS大阪夏祭り2017
 
LightningComponentのUnitテストについて.pptx
LightningComponentのUnitテストについて.pptxLightningComponentのUnitテストについて.pptx
LightningComponentのUnitテストについて.pptx
 
アドビの中の人が語るCreative Cloud最新事情と活用術! 〜 ココでしか聞けない「Adobe×山口」レア話 〜
アドビの中の人が語るCreative Cloud最新事情と活用術! 〜 ココでしか聞けない「Adobe×山口」レア話 〜アドビの中の人が語るCreative Cloud最新事情と活用術! 〜 ココでしか聞けない「Adobe×山口」レア話 〜
アドビの中の人が語るCreative Cloud最新事情と活用術! 〜 ココでしか聞けない「Adobe×山口」レア話 〜
 
D.N.A. Softwares ご紹介
D.N.A. Softwares ご紹介D.N.A. Softwares ご紹介
D.N.A. Softwares ご紹介
 
FFRK cocos2d xレイヤーの最適化
FFRK cocos2d xレイヤーの最適化FFRK cocos2d xレイヤーの最適化
FFRK cocos2d xレイヤーの最適化
 
ハイブリットソーシャルゲームの現場
ハイブリットソーシャルゲームの現場ハイブリットソーシャルゲームの現場
ハイブリットソーシャルゲームの現場
 
2018/1/30 Django勉強会
2018/1/30 Django勉強会2018/1/30 Django勉強会
2018/1/30 Django勉強会
 
第5回業開中心会議
第5回業開中心会議第5回業開中心会議
第5回業開中心会議
 
Gcm#3 vr project making of サラと毒蛇の王冠
Gcm#3 vr project making of サラと毒蛇の王冠Gcm#3 vr project making of サラと毒蛇の王冠
Gcm#3 vr project making of サラと毒蛇の王冠
 
自動運転に向けた取り組みと安全管理
自動運転に向けた取り組みと安全管理自動運転に向けた取り組みと安全管理
自動運転に向けた取り組みと安全管理
 
DeNAの最新のマスタデータ管理システム Oyakata の全容
DeNAの最新のマスタデータ管理システム Oyakata の全容DeNAの最新のマスタデータ管理システム Oyakata の全容
DeNAの最新のマスタデータ管理システム Oyakata の全容
 
H2O x mrubyで人はどれだけ幸せになれるのか
H2O x mrubyで人はどれだけ幸せになれるのかH2O x mrubyで人はどれだけ幸せになれるのか
H2O x mrubyで人はどれだけ幸せになれるのか
 
DeNAのゲームを支えるプラットフォーム Sakasho #denatechcon
DeNAのゲームを支えるプラットフォーム Sakasho #denatechconDeNAのゲームを支えるプラットフォーム Sakasho #denatechcon
DeNAのゲームを支えるプラットフォーム Sakasho #denatechcon
 
営業現場で困らないためのディープラーニング
営業現場で困らないためのディープラーニング営業現場で困らないためのディープラーニング
営業現場で困らないためのディープラーニング
 
DeNA流cocos2d xとの付き合い方
DeNA流cocos2d xとの付き合い方DeNA流cocos2d xとの付き合い方
DeNA流cocos2d xとの付き合い方
 

Recently uploaded

Recently uploaded (7)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 

ECCV2018 Everybody dance now論文紹介 (CV勉強会@関東)

  • 1. Copyright © DeNA Co.,Ltd. All Rights Reserved. 関東CV勉強会 Everybody Dance Now 2018 / 10 / 20 システム本部 AIシステム部 AI研究開発第一グループ 李 天琦
  • 2. Copyright © DeNA Co.,Ltd. All Rights Reserved. 自己紹介
  • 3. Copyright © DeNA Co.,Ltd. All Rights Reserved. 自己紹介 ■ 名前:李 天琦 ■ Twitter:@Leetenki ■ Facebook:Leetenki ■ 経歴 〜2016年3月 :深層強化学習の研究 2016年4月〜 :DeNA入社 2016年6月〜 :Japanリージョンゲーム事業本部(サーバ開発) 2016年10月〜:AIシステム部異動(コンピュータビジョン研究)
  • 4. Copyright © DeNA Co.,Ltd. All Rights Reserved. 自己紹介 ■ 得意言語:WebGL ■ 深層強化学習の研究 ■ 卒論:深層強化学習を用いた自動運転ロボット
  • 5. Copyright © DeNA Co.,Ltd. All Rights Reserved. 好きな事 ■ 不動産投資 ■ タワマン巡り
  • 6. Copyright © DeNA Co.,Ltd. All Rights Reserved. Previous Work ■ Chainer YOLOv2 (2016) ■ https://github.com/leetenki/YOLOv2
  • 7. Copyright © DeNA Co.,Ltd. All Rights Reserved. Previous Work ■ Chainer OpenPose (2017) ■ https://github.com/DeNA/Chainer_Realtime_Multi-Person_Pose_Estimation
  • 8. Copyright © DeNA Co.,Ltd. All Rights Reserved. Recently Work ■ 高解像度全身アニメ生成 ■ PS-GAN (ECCV2018 Workshop paper) ■ https://dena.com/intl/anime-generation/
  • 9. Copyright © DeNA Co.,Ltd. All Rights Reserved. First Workshop on Computer Vision for Fashion, Art and Design
  • 10. Copyright © DeNA Co.,Ltd. All Rights Reserved. First Workshop on Computer Vision for Fashion, Art and Design ■ ファッション、デザイン関連のWorkshop (第一回開催) ■ ファッションアイテムの分類や自動タグ付け ■ ファッション類似画像検索 ■ ファッション生成 ■ etc...
  • 11. Copyright © DeNA Co.,Ltd. All Rights Reserved. DeNAの発表 ■ 高解像度なアニメファッション生成 ■ 濱田晃一 & 李 天琦の2人で発表
  • 12. Copyright © DeNA Co.,Ltd. All Rights Reserved. DeNAの発表 ■ Progressive GANの訓練手法にPose Conditionも段階的に加えたモデル ■ それをアニメ画像ドメインに適用し、高解像度のアニメ生成を実現
  • 13. Copyright © DeNA Co.,Ltd. All Rights Reserved. 本題の論文
  • 14. Copyright © DeNA Co.,Ltd. All Rights Reserved. Everybody Dance Now
  • 15. Copyright © DeNA Co.,Ltd. All Rights Reserved. Everybody Dance Now ■ UC BerkeleyのCarolineらの研究 ■ 2018/08/22 にArxiv投稿 ■ https://arxiv.org/abs/1808.07371 ■ タイトルのセンスが良い & デモがImpressiveで、一時話題になった
  • 16. Copyright © DeNA Co.,Ltd. All Rights Reserved. Everybody Dance Now ■ Fashion and art-design workshop のOral paperとして講演 ■ Workshop Best Paper Award を受賞
  • 17. Copyright © DeNA Co.,Ltd. All Rights Reserved. 論文解説
  • 18. Copyright © DeNA Co.,Ltd. All Rights Reserved. Everybody Dance Now ■ ソースとなるダンス動画を与える事で、 任意のターゲット人物があたかも同じように踊ってるFake動画を生成
  • 19. Copyright © DeNA Co.,Ltd. All Rights Reserved. Everybody Dance Now ■ 複数人の例 ■ どんなターゲット人物でもソース動画と同じように踊らせる事が可能
  • 20. Copyright © DeNA Co.,Ltd. All Rights Reserved. Key Idea
  • 21. Copyright © DeNA Co.,Ltd. All Rights Reserved. Everybody Dance Now ■ やりたい事: image -> imageの2ドメイン間のmappingを学習したい 生成 Source Target
  • 22. Copyright © DeNA Co.,Ltd. All Rights Reserved. Everybody Dance Now ■ 直接image <-> image のmappingを学習させるのは難しい ⁃ 完全に同じモーションの教師データペアを用意する事が必要 ⁃ 身長や体型、カメラ角度が異なるので完全一致が難しい 生成 Source Target
  • 23. Copyright © DeNA Co.,Ltd. All Rights Reserved. Everybody Dance Now ■ Pose -> Image の image-to-image translation問題として解いた (pix2pixと同じ) 生成
  • 24. Copyright © DeNA Co.,Ltd. All Rights Reserved. Everybody Dance Now ■ keypoint-based Poseを中間表現として使う ■ source image -> pose stick figure -> target image の2段階で生成する 検出 生成 Source Target中間表現
  • 25. Copyright © DeNA Co.,Ltd. All Rights Reserved. 処理の流れ
  • 26. Copyright © DeNA Co.,Ltd. All Rights Reserved. 訓練フェイズ
  • 27. Copyright © DeNA Co.,Ltd. All Rights Reserved. Everybody Dance Now ■ 訓練フェイズでSource動画は一切必要ない ■ まずはTargetの人物にてきとうに動いてもらって20分くらい動画を撮る ■ 撮影した動画からデータセットを作る
  • 28. Copyright © DeNA Co.,Ltd. All Rights Reserved. Everybody Dance Now ■ 撮影したtarget動画に対してPose Detector(OpenPose等) を使ってPose検出 ■ target動画の全フレームで、keypointをつなげたPose Stick Figureを作る ■ 各フレーム画像 <-> Pose Stick Figureの1対1のペアデータセットが完成 検出 Pose Detector
  • 29. Copyright © DeNA Co.,Ltd. All Rights Reserved. Everybody Dance Now ■ Pose Stick FigureとImageのペアデータセットを使って、 PoseからTarget imageへのimage-to-image translationの学習を行う (PersonalizeされたGenerator modelを獲得、背景も含めてoverfitさせる) 生成 training
  • 30. Copyright © DeNA Co.,Ltd. All Rights Reserved. 推論(Transfer)フェイズ
  • 31. Copyright © DeNA Co.,Ltd. All Rights Reserved. Everybody Dance Now ■ Source動画から同じようにPose Detectorを使って全フレームでPose検出 検出
  • 32. Copyright © DeNA Co.,Ltd. All Rights Reserved. Everybody Dance Now ■ Global pose normalizationという手法でpose情報を正規化する source と target のbody shape及びカメラ内位置の差異を吸収 検出 正規化
  • 33. Copyright © DeNA Co.,Ltd. All Rights Reserved. Everybody Dance Now ■ 正規化されたPoseをPersonalizeされた学習済みGenerator modelに入力し、 target画像を生成する pretrained model 検出 正規化 生成
  • 34. Copyright © DeNA Co.,Ltd. All Rights Reserved. Everybody Dance Now ■ 生成クォリティを上げるための2つのコンポーネントを追加 ① 直前の生成フレームをconditionに使う事temporal smoothness強化 ② 顔まわりのリアリティを高めるためのFace GAN FaceGAN Temporal Smoothness強化 検出 正規化 生成
  • 35. Copyright © DeNA Co.,Ltd. All Rights Reserved. モデル詳細
  • 36. Copyright © DeNA Co.,Ltd. All Rights Reserved. Everybody Dance Now ■ ポーズ検出器Pを使ってtarget画像 y から pose stick figure x = P(y) を入手 ■ (x, y) のペアを使って、x -> y のマッピングをGANで学習する Discriminator学習時に、Adversarial Loss + VGGでPerceptual Lossを取る
  • 37. Copyright © DeNA Co.,Ltd. All Rights Reserved. Everybody Dance Now ■ Transfer時は同様に、source画像 y’からpose stick figure x’ = P(y’) を抽出 ■ global pose normalizationの手法でpose stick figure x’ -> x をドメイン変換 ■ 最後に学習済みGeneratorを使って x -> y をドメイン変換
  • 38. Copyright © DeNA Co.,Ltd. All Rights Reserved. Global pose normalization
  • 39. Copyright © DeNA Co.,Ltd. All Rights Reserved. Everybody Dance Now ■ Global pose normalization
  • 40. Copyright © DeNA Co.,Ltd. All Rights Reserved. Global pose normalization ■ 足が地についてる状態の足首の座標を統計する ■ 地面との最大距離&最小距離から線形的に全体座標をshift(平行移動)する Target Source Maximum Minimum
  • 41. Copyright © DeNA Co.,Ltd. All Rights Reserved. Global pose normalization ■ 地面との最大距離 & 最小距離時の高さからscaleを線形変換する Target Source Maximum Minimum
  • 42. Copyright © DeNA Co.,Ltd. All Rights Reserved. Generatorの詳細
  • 43. Copyright © DeNA Co.,Ltd. All Rights Reserved. Everybody Dance Now ■ Generator modelはpix2pixHDのLossを改良したもの
  • 44. Copyright © DeNA Co.,Ltd. All Rights Reserved. pix2pixHDおさらい
  • 45. Copyright © DeNA Co.,Ltd. All Rights Reserved. pix2pixHDのLoss計算 ■ pix2pixHDの目的関数:
  • 46. Copyright © DeNA Co.,Ltd. All Rights Reserved. pix2pixHDのLoss計算 ■ pix2pixHDでは(D1,D2,D3)という3スケールのDiscriminatorを同時訓練
  • 47. Copyright © DeNA Co.,Ltd. All Rights Reserved. pix2pixHDのLoss計算 ■ adversarial lossに加えてpretrained VGGを使ったperceptual lossを追加
  • 48. Copyright © DeNA Co.,Ltd. All Rights Reserved. pix2pixHDのLoss計算 ■ 更にDiscriminatorの各層でperceptual lossと同じように距離を取る = discriminator feature-matching loss
  • 49. Copyright © DeNA Co.,Ltd. All Rights Reserved. Temporal smoothing
  • 50. Copyright © DeNA Co.,Ltd. All Rights Reserved. Temporal smoothing ■ pix2pixHDのLossをベースに、時間的な整合性を持たせる工夫を加えた ■ 1枚のpose -> image生成ではなく、直前の生成結果も入力に使う ■ Discriminatorは、直前の生成結果とPoseも含めたペアで識別を行う ■ 時間的に連続な画像を生成するようにGeneratorが訓練される Generator Discriminator
  • 51. Copyright © DeNA Co.,Ltd. All Rights Reserved. Temporal smoothingを加えたLoss計算 ■ 変更後GAN Lossの目的関数:
  • 52. Copyright © DeNA Co.,Ltd. All Rights Reserved. Face GAN
  • 53. Copyright © DeNA Co.,Ltd. All Rights Reserved. Temporal smoothing ■ 全身画像生成後、生成画像の顔領域周辺のみを切り取る ■ 同様にPose Stick Figureの顔周辺も切り取って、Face GANモデルに入力 ■ Face GANは顔領域の画像とPoseをinputに、Refineするための残差を出力
  • 54. Copyright © DeNA Co.,Ltd. All Rights Reserved. Temporal smoothing ■ Face GANのDiscriminatorは、realのface画像と、 残差を加えたfakeの顔画像の識別を行う
  • 55. Copyright © DeNA Co.,Ltd. All Rights Reserved. Full Objective
  • 56. Copyright © DeNA Co.,Ltd. All Rights Reserved. Full objective ■ Multi-scaleの各スケールでSmoothing GAN Lossを計算 ■ VGG perceptual lossでも1フレーム前の生成結果を使う
  • 57. Copyright © DeNA Co.,Ltd. All Rights Reserved. Full objective ■ 画像全体の生成モデルを訓練後、重みを全てfixさせる ■ 最後にFace GANのみ独立で訓練する
  • 58. Copyright © DeNA Co.,Ltd. All Rights Reserved. 実験
  • 59. Copyright © DeNA Co.,Ltd. All Rights Reserved. Experiments ■ ダーゲットの動画は120FPSで20分程度撮影 (訓練データ144,000枚) 服の情報をできるだけ簡単にするため、タイトな服を着用してもらう
  • 60. Copyright © DeNA Co.,Ltd. All Rights Reserved. Experiments ■ 128 x 128 face生成するために70 x 70 の Patch-GAN discriminatorを採用 ■ Loss関数は全身画像生成とFaceGANの両方でLSGANを採用 ■ 評価する際に、通常のパイプラインだとgroundtruthがないので、 source personとtarget personを同一にして評価を行った ■ BaselineとFaceGAN入りと別々にablation study ■ Structural Similarity (SSIM)と、 Learned Perceptual Image Patch Similarity (LPIPS)両方で評価 検出 生成
  • 61. Copyright © DeNA Co.,Ltd. All Rights Reserved. Experiments ■ pix2pixHDとの比較で、FaceでもFullbodyでも提案手法のほうがSSIM高い ■ Face GANを入れたほうクォリティ上がる
  • 62. Copyright © DeNA Co.,Ltd. All Rights Reserved. Experiments ■ 出力画像に対してPose Detectorをかけて 入力poseとの pose reconstructionを比較 ■ 提案手法のほうがPose distanceが近い(復元度が高い) 検出生成
  • 63. Copyright © DeNA Co.,Ltd. All Rights Reserved. まとめ ■ Pose情報を中間表現に使う事でハイクォリティな 動きの動画合成を実現 ■ GAN Lossに、直前の生成結果を一緒に入れる事で時間的な整合性を担保 ■ 生成が難しい顔領域を個別に切り出してFace-GANでRefine
  • 64. Copyright © DeNA Co.,Ltd. All Rights Reserved. 感想 ■ 手法自体はシンプルだが発想が面白い ■ クォリティ向上のための細かいテクニックは色んなGANモデルで使える (FaceGAN、Temporal smoothing)