DDR: Deep Diminished Realityの実現に向けた一検討1. DDR: Deep Diminished Reality
の実現に向けた一検討
第40回CV勉強会「AR/VRを支える技術」
2017/6/10
進矢陽介
2017/6/15 説明・紹介論文追加
3. 前提知識:DR (Diminished Reality, 隠消現実感)
説明文・図引用元:
[森ら, 日本バーチャルリアリティ学会論文誌2011]
• 「視覚的に不要な物体を隠蔽・消去,
もしくは障害となる物体を透過させる技術」
• 下図の場合、ポストが存在しないように
見せかける技術
7. 画像補完
Globally and Locally Consistent Image Completion
[Satoshi Iizuka+, SIGGRAPH2017] http://hi.cs.waseda.ac.jp/~iizuka/projects/completion/ja/
課題:マスクの入力が必要
マスクを推定する技術が必要
9. DDR: Deep Diminished Reality
• Instance segmentationと画像補完により
単眼カメラでのDR (Diminished Reality)が実現される
• 学習済みモデルの組み合わせで実行可能になるはず
課題:
遅い (解像度によるが約3fps)
一つのネットワークにまとめ、
専用に学習した方が良い
図引用元:[Kaiming He+, arXiv2017], [Satoshi Iizuka+, SIGGRAPH2017]
13. UberNet
Ubernet: Training a Universal Convolutional Neural Network for Low-, Mid-, and High-Level Vision Using Diverse Datasets and Limited Memory
[Iasonas Kokkinos, CVPR2017] https://arxiv.org/abs/1609.02132
cvpaper.challenge資料: https://www.slideshare.net/cvpaperchallenge/201609cvpaperchallenge2016/24
16. 補足:CNN自体の高速化
• Depthwise Separable Convolution*1
• 蒸留 (Distillation)*2
• その他モデル圧縮*3
*1: 近年、高精度化・高速化・省メモリ化を目的に盛んに研究されている。
- Xception [François Chollet, CVPR2017] https://arxiv.org/abs/1610.02357
- ResNeXt [Saining Xie+, CVPR2017] https://arxiv.org/abs/1611.05431
- Speed/accuracy trade-offs [Jonathan Huang+, CVPR2017] https://arxiv.org/abs/1611.10012
- MobileNet [Andrew G. Howard+, arXiv2017] https://arxiv.org/abs/1704.04861
- SliceNet [Lukasz Kaiser+, arXiv2017] https://arxiv.org/abs/1706.03059
一方で、演算回数の理論値通りには高速化しない(2017年6月時点)。
- Speed/accuracy論文の”4.1.7 FLOPs analysis.”のMobilenetに関する記載
- Depthwise (separable) convolutionとか色々な畳込みの処理時間を比較してみる [内田祐介, 2017] http://qiita.com/yu4u/items/cf3f81e32fe613747f76
- 畳み込みニューラルネットを高速化するためのいろいろ [徳永拓之, 2017] https://developer.smartnews.com/blog/2017/06/convolution-speed-up/
そのため、Depthwise Separable Convolutionのパフォーマンスが出るよう設計されたハードウェアの登場が期待される。
(Depthwise Separable Convolutionを早期に検討していたGoogleが圧倒的に有利。)
*2: segmentationではおそらく有効 (T-Net [German Ros+, arXiv2016] https://arxiv.org/abs/1604.01545 )。
画像補完等で有効かは要調査、要検証。
*3: 「マルチタスク学習でのモデル圧縮をどのように行うべきか」、「タスクごとに何の手法が有効で、それは何故なのか」等、更なる研究が必要。