DDR: Deep Diminished Realityの実現に向けた一検討

DDR: Deep Diminished Reality
の実現に向けた一検討
第40回CV勉強会「AR/VRを支える技術」
2017/6/10
進矢陽介
2017/6/15 説明・紹介論文追加

自己紹介
2007～2014 東京大学
話者認識
形状の数式表現、Mixed Reality
2014～2015 三菱電機
車内センシング（ドライバモニタ）
2015～デンソー（東京支社）
車外センシング（ADAS、自動運転）
技術動向調査（cvpaper.challenge参加）
http://toyota.jp/technology/safety/toyota_safety_sense_p/ より引用
三菱電機公式サイトより引用
※本発表は個人として行うものであり
所属組織を代表するものではありません

前提知識：DR (Diminished Reality, 隠消現実感)
説明文・図引用元：
[森ら, 日本バーチャルリアリティ学会論文誌2011]
• 「視覚的に不要な物体を隠蔽・消去，
もしくは障害となる物体を透過させる技術」
• 下図の場合、ポストが存在しないように
見せかける技術

背景：ARと変身願望
Snapchat, SNOW, Instagram
・顔検出・顔器官検出による
けもの化機能
・Viola-Jones世代を中心に
億単位のユーザー
②美少女化願望
①けもの化願望
機械学習で美少女化 ~ あるいはNEW GAME! の世界 ~
http://qiita.com/Hi-king/items/8d36d9029ad1203aac55
• 私は貝になりたい
• けものになりたい
• 早く人間になりたい
• 風になりたい
• チーズ蒸しパンになりたい
• 美少女になりたい
• 来世は東京のイケメン男子に
してくださーい！
SNOW https://itunes.apple.com/jp/app/id1022267439
人間が持つ様々な変身願望
・顔検出・似顔絵生成GAN
による美少女化
・2020年に向けて
さらなる研究の必要性
課題：顔に限定され、全身を変換できない
全身の姿勢を推定する技術が必要

人物姿勢推定
OpenPosehttps://github.com/CMU-Perceptual-Computing-Lab/openpose
[Zhe Cao+, CVPR2017], [Tomas Simon+, CVPR2017]
多人数の2D姿勢を約10fpsで推定
手と顔のkeypointも合わせて推定
MMD (MikuMikuDance) 等の
3Dモデル
関節等を合わせて
重畳表示
VNect http://gvv.mpi-inf.mpg.de/projects/VNect/
[Dushyant Mehta+, SIGGRAPH2017]
1人の3D姿勢を30fpsで推定
https://learnmmd.com/http:/learnmmd.com/quic
k-start-basics-of-mmd-to-get-you-started/

人物姿勢推定と重畳表示
なんかでかい
重畳表示
BodySLAM https://wrnch.com/
・wrnch社の人物姿勢推定エンジンで、ARに利用可能
・重畳する物体は鎧(通常の服より大きい)
重畳する物体の方が小さいと破綻すると推測される
©大川ぶくぶ/竹書房・キングレコード http://hoshiiro.jp/
重畳する物体
重畳される物体
はみ出る
課題：
大は小を兼ねない
元画像中の人物を消去する技術が必要
発生する現象

画像補完
Globally and Locally Consistent Image Completion
[Satoshi Iizuka+, SIGGRAPH2017] http://hi.cs.waseda.ac.jp/~iizuka/projects/completion/ja/
課題：マスクの入力が必要
マスクを推定する技術が必要

Instance segmentation
Mask R-CNN
[Kaiming He+, arXiv2017] https://arxiv.org/abs/1703.06870

DDR: Deep Diminished Reality
• Instance segmentationと画像補完により
単眼カメラでのDR (Diminished Reality)が実現される
• 学習済みモデルの組み合わせで実行可能になるはず
課題：
遅い (解像度によるが約3fps)
一つのネットワークにまとめ、
専用に学習した方が良い
図引用元：[Kaiming He+, arXiv2017], [Satoshi Iizuka+, SIGGRAPH2017]

人物を3Dモデルに変換する場合の構成案
人物姿勢推定
Instance
segmentation
画像補完
重畳表示
光学的整合性
Discriminator*1
陰影生成*1
画像補完
Discriminator
*1: オプション。検討が不十分ですのでご了承下さい。以下が関連するかもしれません。
Deep Shading [Oliver Nalbach, EGSR2017] http://deep-shading-datasets.mpi-inf.mpg.de/
https://www.youtube.com/
watch?v=OWSpFm5LP3I
画像引用元は他ページをご参照下さい。

課題：どうやってマルチタスク学習を行うか
• データセット準備、学習、評価、実験環境再現が大変なため、
Instance segmentationと画像補完と3D人物姿勢推定を同時実行し、
元画像の人物を消去した上で、
MMDを重畳表示するのに都合の良いデータセットがあると良い
• 上記が無理でも、異種のデータセットを交ぜて学習を行いつつ、
メモリ消費量は抑えられる手法があると良い

SURREAL Dataset
Learning from Synthetic Humans
[Gül Varol+, CVPR2017]
http://www.di.ens.fr/willow/research/surreal/

UberNet
Ubernet: Training a Universal Convolutional Neural Network for Low-, Mid-, and High-Level Vision Using Diverse Datasets and Limited Memory
[Iasonas Kokkinos, CVPR2017] https://arxiv.org/abs/1609.02132
cvpaper.challenge資料： https://www.slideshare.net/cvpaperchallenge/201609cvpaperchallenge2016/24

まとめ
• ディープラーニング技術の進展により、
単眼カメラでのDR (Diminished Reality)の実現が近づいている
• 高精度化が重要なのは言うまでもないが、
AR関連の応用には、何よりも速さが足りない
（各技術はこの1年で著しく高速化したが、更なる高速化が必要）

補足：応用上の高速化
• ディープでなくても良い部分を置き換える
• フレームごとに別のGPUで処理（遅延が気にならない場合）
• キーフレームのみ重い演算を行う
• 背景の真値を取得し、ボトルネックとなるであろう画像補完処理を除去（対象が動く場合）
• アプリケーションに応じて、解像度を下げる、処理対象を限定する

補足：CNN自体の高速化
• Depthwise Separable Convolution*1
• 蒸留 (Distillation)*2
• その他モデル圧縮*3
*1: 近年、高精度化・高速化・省メモリ化を目的に盛んに研究されている。
- Xception [François Chollet, CVPR2017] https://arxiv.org/abs/1610.02357
- ResNeXt [Saining Xie+, CVPR2017] https://arxiv.org/abs/1611.05431
- Speed/accuracy trade-offs [Jonathan Huang+, CVPR2017] https://arxiv.org/abs/1611.10012
- MobileNet [Andrew G. Howard+, arXiv2017] https://arxiv.org/abs/1704.04861
- SliceNet [Lukasz Kaiser+, arXiv2017] https://arxiv.org/abs/1706.03059
一方で、演算回数の理論値通りには高速化しない（2017年6月時点）。
- Speed/accuracy論文の”4.1.7 FLOPs analysis.”のMobilenetに関する記載
- Depthwise (separable) convolutionとか色々な畳込みの処理時間を比較してみる [内田祐介, 2017] http://qiita.com/yu4u/items/cf3f81e32fe613747f76
- 畳み込みニューラルネットを高速化するためのいろいろ [徳永拓之, 2017] https://developer.smartnews.com/blog/2017/06/convolution-speed-up/
そのため、Depthwise Separable Convolutionのパフォーマンスが出るよう設計されたハードウェアの登場が期待される。
（Depthwise Separable Convolutionを早期に検討していたGoogleが圧倒的に有利。）
*2: segmentationではおそらく有効 (T-Net [German Ros+, arXiv2016] https://arxiv.org/abs/1604.01545 )。
画像補完等で有効かは要調査、要検証。
*3: 「マルチタスク学習でのモデル圧縮をどのように行うべきか」、「タスクごとに何の手法が有効で、それは何故なのか」等、更なる研究が必要。

DDR: Deep Diminished Realityの実現に向けた一検討

Recommended

Recommended

More Related Content

What's hot

What's hot (13)

Recently uploaded

Recently uploaded (12)

DDR: Deep Diminished Realityの実現に向けた一検討