Submit Search
Upload
Eccv 2020 dsmnet
•
2 likes
•
547 views
Kenta Tanaka
Follow
ECCV2020論文読み会の資料です。
Read less
Read more
Science
Report
Share
Report
Share
1 of 28
Download now
Download to read offline
Recommended
Cvpr 2019 pvnet
Cvpr 2019 pvnet
Kenta Tanaka
確率モデルを用いた3D点群レジストレーション
確率モデルを用いた3D点群レジストレーション
Kenta Tanaka
Cvpr 2021 manydepth
Cvpr 2021 manydepth
Kenta Tanaka
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
Naoya Chiba
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
Deep Learning JP
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
Deep Learning JP
グラフデータ分析 入門編
グラフデータ分析 入門編
順也 山口
Chainer meetup
Chainer meetup
Taizan Yonetuji
Recommended
Cvpr 2019 pvnet
Cvpr 2019 pvnet
Kenta Tanaka
確率モデルを用いた3D点群レジストレーション
確率モデルを用いた3D点群レジストレーション
Kenta Tanaka
Cvpr 2021 manydepth
Cvpr 2021 manydepth
Kenta Tanaka
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
Naoya Chiba
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
Deep Learning JP
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
Deep Learning JP
グラフデータ分析 入門編
グラフデータ分析 入門編
順也 山口
Chainer meetup
Chainer meetup
Taizan Yonetuji
Pull request時の画面差分取得の自動化
Pull request時の画面差分取得の自動化
Shunsuke Maeda
Bridging between Vision and Language
Bridging between Vision and Language
Shion Honda
ゼロから深層学習を学ぶ方法 - CMS大阪夏祭り2017
ゼロから深層学習を学ぶ方法 - CMS大阪夏祭り2017
Tomo Masuda
Unity道場08「絵づくりの基礎」ライティング虎の巻
Unity道場08「絵づくりの基礎」ライティング虎の巻
小林 信行
Unity道場08 Unityとアセットツールで学ぶ「絵づくり」の基礎 ライティング虎の巻
Unity道場08 Unityとアセットツールで学ぶ「絵づくり」の基礎 ライティング虎の巻
小林 信行
携帯SoCでの画像処理とHalide
携帯SoCでの画像処理とHalide
Morpho, Inc.
自動テストにおけるコードベース戦略とローコード戦略のすみ分け
自動テストにおけるコードベース戦略とローコード戦略のすみ分け
tomohiro odan
PreadNet
PreadNet
Junya Kuwada
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
Recruit Technologies
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
Recruit Technologies
20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事
Shunsuke Nakamura
Kaggleのテクニック
Kaggleのテクニック
Yasunori Ozaki
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
Fumihiko Takahashi
「GebとSpockではじめるシステムテスト自動化」
「GebとSpockではじめるシステムテスト自動化」
Hiroyuki Ohnaka
FPGA, AI, エッジコンピューティング
FPGA, AI, エッジコンピューティング
Hideo Terada
Devsumi 2018summer
Devsumi 2018summer
Harada Kei
【CEDEC2014】アセットパイプラインを構築する上で重要な事~映像業界⇔ゲーム業界双方の視点から見た本質的なパイプライン
【CEDEC2014】アセットパイプラインを構築する上で重要な事~映像業界⇔ゲーム業界双方の視点から見た本質的なパイプライン
RYUTARO OSAFUNE
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Kenta Oono
Kaggle の Titanic チュートリアルに挑戦した話
Kaggle の Titanic チュートリアルに挑戦した話
y-uti
20180723 PFNの研究基盤 / PFN research system infrastructure
20180723 PFNの研究基盤 / PFN research system infrastructure
Preferred Networks
More Related Content
Similar to Eccv 2020 dsmnet
Pull request時の画面差分取得の自動化
Pull request時の画面差分取得の自動化
Shunsuke Maeda
Bridging between Vision and Language
Bridging between Vision and Language
Shion Honda
ゼロから深層学習を学ぶ方法 - CMS大阪夏祭り2017
ゼロから深層学習を学ぶ方法 - CMS大阪夏祭り2017
Tomo Masuda
Unity道場08「絵づくりの基礎」ライティング虎の巻
Unity道場08「絵づくりの基礎」ライティング虎の巻
小林 信行
Unity道場08 Unityとアセットツールで学ぶ「絵づくり」の基礎 ライティング虎の巻
Unity道場08 Unityとアセットツールで学ぶ「絵づくり」の基礎 ライティング虎の巻
小林 信行
携帯SoCでの画像処理とHalide
携帯SoCでの画像処理とHalide
Morpho, Inc.
自動テストにおけるコードベース戦略とローコード戦略のすみ分け
自動テストにおけるコードベース戦略とローコード戦略のすみ分け
tomohiro odan
PreadNet
PreadNet
Junya Kuwada
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
Recruit Technologies
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
Recruit Technologies
20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事
Shunsuke Nakamura
Kaggleのテクニック
Kaggleのテクニック
Yasunori Ozaki
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
Fumihiko Takahashi
「GebとSpockではじめるシステムテスト自動化」
「GebとSpockではじめるシステムテスト自動化」
Hiroyuki Ohnaka
FPGA, AI, エッジコンピューティング
FPGA, AI, エッジコンピューティング
Hideo Terada
Devsumi 2018summer
Devsumi 2018summer
Harada Kei
【CEDEC2014】アセットパイプラインを構築する上で重要な事~映像業界⇔ゲーム業界双方の視点から見た本質的なパイプライン
【CEDEC2014】アセットパイプラインを構築する上で重要な事~映像業界⇔ゲーム業界双方の視点から見た本質的なパイプライン
RYUTARO OSAFUNE
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Kenta Oono
Kaggle の Titanic チュートリアルに挑戦した話
Kaggle の Titanic チュートリアルに挑戦した話
y-uti
20180723 PFNの研究基盤 / PFN research system infrastructure
20180723 PFNの研究基盤 / PFN research system infrastructure
Preferred Networks
Similar to Eccv 2020 dsmnet
(20)
Pull request時の画面差分取得の自動化
Pull request時の画面差分取得の自動化
Bridging between Vision and Language
Bridging between Vision and Language
ゼロから深層学習を学ぶ方法 - CMS大阪夏祭り2017
ゼロから深層学習を学ぶ方法 - CMS大阪夏祭り2017
Unity道場08「絵づくりの基礎」ライティング虎の巻
Unity道場08「絵づくりの基礎」ライティング虎の巻
Unity道場08 Unityとアセットツールで学ぶ「絵づくり」の基礎 ライティング虎の巻
Unity道場08 Unityとアセットツールで学ぶ「絵づくり」の基礎 ライティング虎の巻
携帯SoCでの画像処理とHalide
携帯SoCでの画像処理とHalide
自動テストにおけるコードベース戦略とローコード戦略のすみ分け
自動テストにおけるコードベース戦略とローコード戦略のすみ分け
PreadNet
PreadNet
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
リクルートはいかにして、ディープラーニング(深層学習)の導入を成功させたか
20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事
Kaggleのテクニック
Kaggleのテクニック
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
ドライブレコーダーの Scene Text Recognitionにおける Multi-task Learning
「GebとSpockではじめるシステムテスト自動化」
「GebとSpockではじめるシステムテスト自動化」
FPGA, AI, エッジコンピューティング
FPGA, AI, エッジコンピューティング
Devsumi 2018summer
Devsumi 2018summer
【CEDEC2014】アセットパイプラインを構築する上で重要な事~映像業界⇔ゲーム業界双方の視点から見た本質的なパイプライン
【CEDEC2014】アセットパイプラインを構築する上で重要な事~映像業界⇔ゲーム業界双方の視点から見た本質的なパイプライン
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Kaggle の Titanic チュートリアルに挑戦した話
Kaggle の Titanic チュートリアルに挑戦した話
20180723 PFNの研究基盤 / PFN research system infrastructure
20180723 PFNの研究基盤 / PFN research system infrastructure
Eccv 2020 dsmnet
1.
Domain-invariant Stereo Matching Networks 2020/12/12
neka-nat
2.
自己紹介 ● 名前:neka-nat ● 職業:とある製造メーカのソフトウェアエンジニア (1月からフリーになりますm(_
_)m) ● 普段のお仕事 ○ 画像処理やロボットのソフト開発 ● 興味あること:点群処理、並列処理、CG ● https://twitter.com/neka_nat ● https://github.com/neka-nat
3.
この論文を選んだ理由 ● Oralの論文から選択 ● ドメインが違っても高精度な深層学習を用いたステレオマッチング手法 ●
合成画像から学習してもリアル画像から学習した過去手法を圧倒 ● 画像処理としてはずっと研究されてきた問題、基本的なところも学びつつ、深層学習 による精度向上の方法を理解したい ● 本日の内容 ○ 問題設定について ○ 関連研究について ○ DSMNetについて
4.
結果の動画
5.
● 2つの画像から深度を推定したい ○ カメラを平行に並べて、視差(Disparity)を算出する ○
視差とカメラ焦点、基線長から深度を計算する ○ 深層学習のステレオマッチングでは基本的に出力として視差を求める 問題設定 https://www.zmp.co.jp/knowledge/adas_dev/adas_sensor/adas_camera/adas_stereo http://labs.eecs.tottori-u.ac.jp/sd/Member/oyamada/OpenCV/html/py_tutorials /py_calib3d/py_depthmap/py_depthmap.html 深度
6.
基本的な解き方の流れ ● 左右2枚の画像もしくはそれらをCNNを通した特徴量画像を入力とする ● 計算する視差(Disparity)のレンジを設定する ●
真値の視差を用いた教師あり、もしくは画像の再構成による教師なしで解く ①マッチングコスト の計算 (各ピクセル毎) ②コストの集約 (周囲のピクセルの影 響を集約) ③視差(Disparity)の 計算/最適化 ④視差画像の リファイン 左右の特徴量画像 [Width, Height]×2 集約したコストテンソル [Width, Height, Disparity] コストのテンソル [Width, Height, Disparity] 視差画像 [Width, Height] 視差画像 [Width, Height]
7.
応用例 ● 深度センサとしてロボットやXRに利用 ○ LiDARよりも小型・安価 ○
小型の機械にも載せやすい ● 実際のプロダクトでも深層学習によるステレオが使用されてきている ○ ZED2 ○ Skydio(魚眼6個) https://cdn-xtech.nikkei.com/atcl/nxt/mag/rob/18/00003/100600062/03zu01-3.jpg?_ _scale=w:800,h:436&_sh=09c0170b80 https://xtech.nikkei.com/atcl/nxt/mag/rob/18/00003/100600062/og1.jpg https://cdn.stereolabs.com/assets/images/zed-2/zed-2-front.jpg
8.
深層学習以前(Semi-global matching)① ● よく使用されるステレオマッチングアルゴリズムの一つ ●
2005年に発表された手法 ● ステレオマッチングは以下のコスト関数を最適化する問題と考えられる ● これを直接最適化するのは計算時間がかかるので、スキャンライン毎に動的計画法 を用いてコスト最適化を行い、最後に足し合わせる ピクセルpで視差が dpであるときのマッ チング度合い 近傍ピクセルとその視差に応じたペ ナルティ
9.
深層学習以前(Semi-global matching)② ● ピクセルごとのコスト関数は以下のようになる ●
スキャンラインは上下左右と斜めの8方向が与えられる ・・・
10.
2016 2017 2018
2019 ざっくり深層学習を使った手法の歴史(教師あり) https://www.sciencedirect.com/science/article/pii/S1319157820304493 PSMNetMC-CNN GC-Net GA-Net DispNet HSMNet EgoStereo SegStereoSGM-Nets マッチングコスト計算を CNN化 似てる・似てないを教師 ありで学習 3DCNNとSoftArgMinで Endo-to-Endにした マルチスケールの Featureを活用 微分可能なSGMの近似 計算を導入
11.
著者の過去手法(GA-Net)① ● CVPR2019 ● 今回紹介する論文のベースとなる手法 ●
コスト集約の部分にSGA(Semi-Global Guided Aggregation)とLGA(Local Guided Aggregation)というネットワークを使用
12.
著者の過去手法(GA-Net)② ● SGA(Semi-global Guided
Aggregation) ○ Semi-global matchingの近似計算を微分可能にした ○ 近傍のピクセルのコストを集約する ○ 式の中の重みw1〜w4はサブネットワークから計算 SGM SGA
13.
著者の過去手法(GA-Net)③ ● LGA(Local Guided
Aggregation) ○ 細い物体やエッジのリファイン ○ SGAと違って再帰ではないローカルなフィルタ ○ 3次元フィルタみたいな感じ?
14.
著者の過去手法(GA-Net)④ ● 結果 GC-Net PSMNet GA-Net
15.
ドメイン不変に向けた課題 ● ドメインシフトの影響 ○ 画像のスタイル(色、照度) ○
局所変化(コントラスト) ○ テクスチャパターン、ノイズ ○ その他 ● ドメインが変わることでグローバルな特徴を捉えづらくなる
16.
ネットワークの全体像 ● ドメイン不変のために以下2つの対策を考案 ○ Domain
Normalizationによってドメイン不変な特徴量を抽出 ○ Structure-preserving Graph-based Filtering(SGF)によって構造を保持しつつ細 かな部分やテクスチャの影響を排除 ○ GA-Netで使っていたLGAはローカルなドメインの影響を受けやすいため排除
17.
Domain normalization① ● Batch
Normalization ○ Batch, Width, Height方向で正規化 ○ ドメインの影響を強く受けてしまう ● Instance Normalization ○ Width, Height方向のみで正規化 ○ ドメイン特化をある程度防げるが、ステレオには不向き ● Domain Normalization ○ Width, Height方向で正規化し、Channel方向にはL2正規化を行う
18.
Domain normalization② ● Channel方向のL2正規化により、特徴量のノルムにばらつきがなくなり、マッチングの 類似度が安定する ●
異なるシーン(合成SceneFlow、KITTI、Middlebury、CityScapes、ETH 3D)の各ピク セルでの特徴ベクトルのノルムの分布を比較してみた ● Domain Normalizationのほうが各シーンでのノルムばらつき方が同じになっている
19.
Structure-preserving Graph-based Filtering① ●
Segment Graph Based Image Filteringなどのグラフベースのフィルタリング手法の考え 方をベースにしている ● これらのグラフベースのフィルタリングは構造やエッジを保持しつつ詳細部分を平滑 化させる ● 8近傍を接続した無向グラフを有向グラフG1, G2に分割して情報集約を行う Segment Graph Based Image Filteringの例
20.
Structure-preserving Graph-based Filtering② ●
SGAとの関係性 ○ グラフ上の近傍点qをdisparity方向も含めて定義することで、式としてはSGAを 包含していることになる ○ 実際はdisparity方向の近傍は入っていないっぽい? SGA SGF
21.
データセット ● 論文の実験とその結果において、著者のモデルは合成画像によって学習されている ● 使用する合成画像は以下の2種類を合わせたもの ○
Scene Flowデータセット(35k) ○ CARLAを用いて異なる解像度、カメラの焦点距離、基線長で撮られたステレオ画 像(20k) https://ai4sig.org/ja/2018/07/docker-for-carla/
22.
Ablation Study ● バックボーン、Normalizationの手法、SGFの数を変えて精度が良い組み合わせを調 査 ●
すべて合成画像で学習し、テストをリアルデータ(Middlebury, KTTI)で行った
23.
構成要素の比較 ● NormalizationをBatch/Instance/Adaptive/Domain Normalizationに置き換えて比 較 ●
Graph FilterはAttention/Denoising/Affinityに置き換えて比較
24.
クロスドメインによる実験 ● DSMNetを合成画像で学習、それ以外の手法をKITTIのデータで学習させた場合の実 験結果 ● DSMNetが最も良い(GC-NetやPSMNetなどより最新のものとの比較が無い)
25.
ファインチューニングによる実験 ● 合成画像で学習後、KITTIの学習データでファインチューニングした場合の実験結果 ● 汎化能力に振っているため、ファインチューニングだと精度でGA-Net+SGFに負けてい る ●
他の手法に対してもおそらく同条件で学習
26.
画像の結果比較 ● DSMNetだけ合成画像で学習 ● その他の手法はKITTIでファインチューニング ●
DSMNetが最も物体の境界を正確に捉えられている
27.
オプティカルフローへの応用 ● ステレオマッチングと同じような問題としてオプティカルフローがある ● FlowNet2をベースとして、Domain
NormalizationとSGFを導入 ● 何もしないFlowNet2と合成画像で学習させてリアルデータのテストで比較 オプティカルフロー エラーマップ
28.
まとめ ● Domain-Invariant Stereo
Matching Networkを紹介した ● ステレオマッチングやオプティカルフローといった画像間のマッチング問題に優位なド メイン不変な手法 ● 応用面でも深層学習を用いたステレオマッチングが使われてきており、ドメイン不変な 手法が確立されることでさらに広まっていくと考えられる ● 著者実装 ○ https://github.com/feihuzhang/DSMNet
Download now