SlideShare a Scribd company logo
Copyright © 2020 Morpho, Inc. All Rights Reserved.
Deep Homography Estimation for
Dynamic Scenes
CTO 室リサーチャー
三宅 博史
Journal Club 2020.09.25
CVPR 2020
Copyright © 2020 Morpho, Inc. All Rights Reserved.
(2D) Homography
• 2平⾯間の座標変換を(定数倍を許容して)関係づける⾏列
は 3x3 の⾏列だが、上式を満たす任意の について や
などの正規化をしても再び上式を満たすので、⾃由度は 8
• 画像処理では 2 枚の画像の画像座標間の関係を表す
1
平⾯Aにおける同次座標平⾯Bにおける同次座標 2D Homographyある定数
Copyright © 2020 Morpho, Inc. All Rights Reserved.
(2D) Homography
• 幾何的には、以下のような画像座標の対応関係が 2D
homography で表現できることが知られている
2
カメラ中心
3D空間上の平⾯
カメラ平⾯
カメラ中心
3D空間上の点カメラ中心 カメラ中心
A. 実空間上の平⾯座標と
カメラ座標
B. 同じ実平⾯を投影した
2つのカメラ座標
C. 実空間上の点を回転するカメラ
に投影したときの2つのカメラ座標
カメラ平⾯3D空間上の平⾯
https://docs.opencv.org より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
画像処理における 2D homography の応用
• 以下のような応用があるほか、モルフォでは HDR などの合成処理での
被写体の位置合わせや、動画での手振れ補正などで用いられる
3
A. 平⾯に対するカメラの姿勢推定 B. 視点の補正 C. パノラマスティッチング
https://docs.opencv.org より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
2D homography 探索問題
• 2D homography で関係づけられる2枚(以上)の画像から、実際
に関係づけている 2D homography を推定する問題
4
https://docs.opencv.org より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
Homography 探索問題における実用上の課題
• 画像処理で homography を求めたい画像群は多くの場合、厳密に
は homography で表現できる関係にない
– 動被写体を含んでいる(異なる時刻で撮影すると 3D 点の座標が異なる)
– 平⾯上にない 3D 点を、平⾏移動+回転するカメラに投影(近景の手持ちパ
ノラマなど)
55
カメラ中心
3D空間上の平⾯
カメラ平⾯
カメラ中心
3D空間上の点カメラ中心 カメラ中心
カメラ平⾯3D空間上の平⾯
https://docs.opencv.org より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
2D Homography 探索アルゴリズム
• 従来手法(非 deep learning 系手法)が概ね従う2ステップ
6
1. 対応点(3D 空間上の同一座標点を
別のカメラで投影した点)検出
2. 画像アラインメントの誤差最小化
問題を解く
例 min ℎ s. t. ℎ 1
1 0 0 0
0 0 0 1
⋮
1 0 0 0
0 0 0 1
ℎ ℎ ℎ ℎ ℎ ℎ ℎ ℎ ℎ ℎhttps://docs.opencv.org より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
対応点検出
• SIFT 特徴量([2], 2004)
– 拡⼤縮小・回転を伴う画像間でも局所的に保存される特徴量
– 主要な4ステップ
1. 特徴点候補検出
2. 特徴点サブピクセル配置
3. 方向決定
4. 特徴ベクトル構成
– 2020 年まで一部のアルゴリズムが特許で
保護されていたが現在は使用可能
• SIFT により検出した特徴点を
画像間で対応させる
7
https://docs.opencv.org より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
アラインメント誤差最小化問題
• RANSAC([3], 1981)
– 外れ値を含むようなデータを使って線形モデル
を fit させる場合に用いられる
1. モデルを決定する最小の数の点を選択し、そ
れらでモデルを決定
ℎ 0
で ℎ の⾃由度が 8 なので 4 対応点選択
2. 求めたモデルに沿うデータを inlier, 沿わない
データを outlier とする
3. 1,2 を適当に繰り返す
4. 最⼤個数の inlier を使ってモデルを決定
8
https://scikit-learn.org より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
アラインメント誤差最小化問題
• MAGSAC([4], 2019)
– RANSAC の inlier/outlier 判定に用いる閾値を指定しない手法
– 理論的にはパラメタで周辺化するアイデア
!, #, $% & !, #, $
' !, #, $ ∑ 1
)* +,,- +,.,/
0/2.*
, +,.,/
3
' 4 !, $ 5 !, #, $ 6 # 7#
.89:
5 ln < !, $ #%7#
– 処理が重いので、実用的には RANSAC の後処理として近似的に実装可能9
$:入力データ点の集合
!:モデルパラメタ
#:入力データ点のノイズ強度(inlier 判定するための残差の閾値)
関数:モデル選択を行う際に用いる指標(値が大きい方を選択)
& 関数:inlier データ点の集合
< 関数:入力データ点の集合の尤度(背後に確率モデルを過程)
Copyright © 2020 Morpho, Inc. All Rights Reserved.
本論⽂のねらい
• 動被写体が映っている(outlier が多い)ような画像間で、いい
homography をロバストに推定するような DNN を構築する
– どのようなデータセットを用意すればよいのか
– どのようなアーキテクチャが良いのか
10
Copyright © 2020 Morpho, Inc. All Rights Reserved.
データセットの用意
• Static video clip
– YouTube から 877 動画を、さらにその中から 32,385 個の断片を収集
• Video frame を 256x256 px に正規化したのち 32x5 px のブロックを 4 辺の縁か
ら抽出(つまり縁のブロックは 32 個)
• すべての連続する 2 フレーム間で、9 個以上の縁のブロックで画素値が(ほぼ)不変
• すべての 7 枚おきのフレーム間で、画⾯の 45% 以上で optical flow がゼロ
11
著者 GitHub より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
データセットの用意
• 対応画像ペアと ground truth の生成
– Clip の中で 1〜5 フレームへだたった 2 画像 & , &=% をランダムに抽出
– & から 128x128 px の画像 &>
を切り出し 4 隅の座標を ~±32 px 摂動
– この摂動 ?>
に対応する homography ? を計算する(ground truth)
– 画像 &= に ?@
を適用したのち、画像 & と同じ座標から 128x128 px の画
像 &=
>
を切り出す 12
著者 GitHub より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
MHN (提案手法)の DNN アーキテクチャ
• ⼊⼒︓128x128 のグレースケール画像 2 枚 > >
• 出⼒︓摂動させた 4 隅の座標の差分 >
⋅ ⋅ ︓ ⋅
> をそれぞれ ½ , ¼ にスケールした画像
• Base network( Net0, Net1, Net2 )は VGG のような感じ
– Convolution︓3x3, batch normalization, ReLU
13 [1] 図 3,4 より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
多重解像度
• 元画像を縮小した画像で homography を求め、それをもとに元画像
の homography を求める
– 画像間の全体的な⼤きい動きをとらえやすい
– 通常縮小を多重に⾏って coarse to fine で homography を求める
– 従来手法および deep learning 系の手法で取り⼊れられている
• Deep learning 系での例︓CLKN([5], 2017)
14
Lucas-Kanade Layer
Reference imageTemplate image
[5] 図 1,2 より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
MHN の DNN アーキテクチャ
• 多重解像度(Coarse ⋅ to Fine ⋅
> )
• Cascade 処理
– ½ 解像度で求めた ?B=C
と元の解像度で求めた ?B=
から ?=
を求める処理
– ?=
?B=
D@
?B=C
D
• D, D@
はそれぞれ座標を ½ , 2 倍にスケールする⾏列
• >
?B>
D@
?B D@
?B DD >
が期待される
15 [1] 図 3,4 より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
Dynamic Scene 検出
• 動被写体がある場合のロバスト性をあげたい
• 動被写体のマスク(dynamics mask)を同時に推定するようなモデ
ルにし、マルチタスク学習を⾏う
– 主タスク︓homography 探索
– 副タスク︓dynamics mask 推定
• Dynamics mask の ground truth は optical flow を
用いて計算
– Optical flow は PWC-Net([6], 2018)を用いて推定
16
Copyright © 2020 Morpho, Inc. All Rights Reserved.
MHN の DNN アーキテクチャ(マルチタスク版)
• ⼊⼒︓128x128 のグレースケール画像 2 枚 > >
• 出⼒︓ > と dynamics mask > >
• Base network は VGG に decoder を足して(U-net のような感
じ)dynamics mask を出⼒する
– さらに差分を学習するように skip connection を追加
– 最粗の E , E % の与え方は書かれていない17 [1] 図 5 より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
モデルの学習
• マルチタスクのロス
F F
=
G G
=
= ︓ F G は weight、 は解像度
G
= @HI
J KLM HN
J O
@ @HI
J KLM @HN
J O
HI
︓cross entropy ロス
F
=
P
=
Q
=
︓L2ロス
P P︓predicted
Q Q︓ground truth
18
Copyright © 2020 Morpho, Inc. All Rights Reserved.
モデルの学習
• マルチタスクの多段階学習
1. 2x106 回 #F 1, #G 0 ︓homography ロスのみを最小化
2. 1x106 回 #F 1, #G 10 ︓dynamic mask ロスを重点的に最小化
3. 1x106 回 #F 1, #G 0 ︓homography ロスのみを最小化
• 主ロス → 副(+少し主)ロス → 主ロスのサンドイッチ型
• その他
– 最適化手法︓Adam
– Dropout rate︓0.8
– Mini batch︓32
19
Copyright © 2020 Morpho, Inc. All Rights Reserved.
実験結果
• 動画内で 10 フレーム離
れた画像間で求めた
homography を適用し
アラインした結果の例
– 提案手法では背景でゴース
ト無し・前景でゴースト有り
、となっている
• 背景の homography を
正しく推定できている
– Dynamics mask を正し
く推定し、前景を外れ値とし
ているから
20 [1] 図 11 より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
実験結果
• 視差画像でのアラインメントの
結果の例
– 視差があるので depth が小さ
いほど optical flow が⼤きい
元画像
– アラインの結果、背景の optical
flow が低減した
– やはり dynamics mask が正
しく推定され、前景を外れ値とし
ているから
– 学習データにはもちろん視差画
像は含まれていないが、ある程
度推定できた21
[1] 図 12 より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
精度⽐較
• Static scene での精度
– MS-COCO での⽴ち上がり(⾼精度域)は CLKN が最も⾼い
– CLKN と提案手法(MHN)は⾼いが、必ずしも deep learning 系が非
deep learning 系より⾼いという訳ではない
– MS-COCO / VidSets での結果はほぼ変化なし
22
Static video
clip の中で完全
に static なもの
提案手法
[1] 図 6 より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
精度⽐較
• Dynamic scene での精度
– 全体的に精度は低下した
– MHN の学習セットを static → dynamic にすると精度向上
– 同じ dynamic な学習セットでも MHN → MHNm にしたことで精度向上
– MHN を MS-COCO と VidSets のどちらで学習しても相違なし
23
Static video clip の中
で dynamics を含むもの
CLKN は︖
→ コードが非公開なので新し
データセットで学習できない
[1] 図 7 より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
精度⽐較
• 各 deep learning 系手法の学習セットと dynamic scene での精
度との関係
– データセットを変えただけで、ほとんどのモデルで向上した
– データセット単体での貢献がある 24 [1] 図 8 より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
精度⽐較
• 多重解像度のレイヤー数と精度の関係
– 図は MHN on MS-COCO でレイヤー数を 1〜4 と変化させたもの
– 最粗画像が小さすぎると homography 探索が不安定になるようだ
• CLKN の著者らの報告と一致
25 [1] 図 10 より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
感想
• 多重解像度、マルチタスク学習といった既知の知⾒を⾃然に適用してお
り、それぞれの工夫がどのような働きを持つかが分かりやすい
• 内部的にはセグメンテーション+アノテーションのような機構を持っており「
動被写体になりやすいもの」というセマンティックな情報を推論しているの
ではないか
• 動被写体だけでなく、視差画像のマスクも出してくれるので便利だ
• モデルの変更による精度向上+データセットの変更による精度向上で、
とくに後者については貢献度が⾼い
– しかしデータセットもコードも非公開なので効果半減
– GitHub はあるので今後に期待
26
Copyright © 2020 Morpho, Inc. All Rights Reserved.
感想
• 実⾏時間についての議論はないが、リアルタイム推定は難しいだろう
• 失敗例をだしてなぜ難しい例なのかを考察してほしかった(失敗例が出
るまで問題を難しくしてみてほしかった)
• 以下のような組み合わせでの精度⽐較にも興味がある(動的学習セッ
トによる学習が静的検証セットで悪影響を持たないか、セマンティックな
情報が誤った推論を引き起こさないか、などの検証)
27
モデル 学習セット 検証セット
MHN VidSetd VidSets
MHNm VidSetd VidSets
Copyright © 2020 Morpho, Inc. All Rights Reserved.
参考⽂献
[1] 主論⽂︓Le, Hoang, et al. "Deep Homography Estimation for Dynamic Scenes."
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.
2020.
[2] SIFT︓Lowe, David G. "Distinctive image features from scale-invariant
keypoints." International journal of computer vision 60.2 (2004): 91-110.
[3] RANSAC︓Fischler, Martin A., and Robert C. Bolles. "Random sample consensus: a
paradigm for model fitting with applications to image analysis and automated
cartography." Communications of the ACM 24.6 (1981): 381-395.
[4] MAGSAC︓Barath, Daniel, Jiri Matas, and Jana Noskova. "Magsac: marginalizing sample
consensus." Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition. 2019.
[5] CLKN︓Chang, Che-Han, Chun-Nan Chou, and Edward Y. Chang. "Clkn: Cascaded lucas-
kanade networks for image alignment." Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition. 2017.
[6] PWC-Net︓Sun, Deqing, et al. "Pwc-net: Cnns for optical flow using pyramid, warping,
and cost volume." Proceedings of the IEEE conference on computer vision and pattern
recognition. 2018.
28

More Related Content

What's hot

SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
Naoya Chiba
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
kaggle Freesound Audio Tagging 2019 4th place solution
kaggle Freesound Audio Tagging 2019 4th place solutionkaggle Freesound Audio Tagging 2019 4th place solution
kaggle Freesound Audio Tagging 2019 4th place solution
理 秋山
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
 
畳み込みLstm
畳み込みLstm畳み込みLstm
畳み込みLstm
tak9029
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
cvpaper. challenge
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
SSII
 
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
Takayuki Itoh
 
研究効率化Tips Ver.2
研究効率化Tips Ver.2研究効率化Tips Ver.2
研究効率化Tips Ver.2
cvpaper. challenge
 
DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214
Kosuke Nakago
 
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
Hiroto Honda
 
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -MPRG_Chubu_University
 
Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究
Fumihiko Takahashi
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
Deep Learning JP
 

What's hot (20)

SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
kaggle Freesound Audio Tagging 2019 4th place solution
kaggle Freesound Audio Tagging 2019 4th place solutionkaggle Freesound Audio Tagging 2019 4th place solution
kaggle Freesound Audio Tagging 2019 4th place solution
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
畳み込みLstm
畳み込みLstm畳み込みLstm
畳み込みLstm
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
 
研究効率化Tips Ver.2
研究効率化Tips Ver.2研究効率化Tips Ver.2
研究効率化Tips Ver.2
 
DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214DLLab 異常検知ナイト 資料 20180214
DLLab 異常検知ナイト 資料 20180214
 
SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用SSII2018TS: 3D物体検出とロボットビジョンへの応用
SSII2018TS: 3D物体検出とロボットビジョンへの応用
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
 
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
画像局所特徴量と特定物体認識 - SIFTと最近のアプローチ -
 
Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
 

Similar to (文献紹介)深層学習による動被写体ロバストなカメラの動き推定

[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
Deep Learning JP
 
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
Sho Kagami
 
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
Toru Tamaki
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
Preferred Networks
 
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介
Narihira Takuya
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会
Kimikazu Kato
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)kanejaki
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTURE Project
 
MIRU2018 tutorial
MIRU2018 tutorialMIRU2018 tutorial
MIRU2018 tutorial
Takayoshi Yamashita
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
Hideki Okada
 
200702material hirokawa
200702material hirokawa200702material hirokawa
200702material hirokawa
RCCSRENKEI
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介
Recruit Technologies
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
Recruit Technologies
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺n_hidekey
 
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
Shintaro Yoshida
 
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)Yoichi Shirasawa
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdf
Takuya Minagawa
 
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
Tsukasa Takagi
 
Light weightbinocular sigasia2012_face
Light weightbinocular sigasia2012_faceLight weightbinocular sigasia2012_face
Light weightbinocular sigasia2012_faceishii yasunori
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
Deep Learning JP
 

Similar to (文献紹介)深層学習による動被写体ロバストなカメラの動き推定 (20)

[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
 
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
 
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
文献紹介:Learnable Gated Temporal Shift Module for Free-form Video Inpainting
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
MIRU2018 tutorial
MIRU2018 tutorialMIRU2018 tutorial
MIRU2018 tutorial
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
200702material hirokawa
200702material hirokawa200702material hirokawa
200702material hirokawa
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
 
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdf
 
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
 
Light weightbinocular sigasia2012_face
Light weightbinocular sigasia2012_faceLight weightbinocular sigasia2012_face
Light weightbinocular sigasia2012_face
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
 

More from Morpho, Inc.

(文献紹介)デブラー手法の紹介
(文献紹介)デブラー手法の紹介(文献紹介)デブラー手法の紹介
(文献紹介)デブラー手法の紹介
Morpho, Inc.
 
(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向
Morpho, Inc.
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
Morpho, Inc.
 
Vieurekaを用いた混雑状況の配信
Vieurekaを用いた混雑状況の配信Vieurekaを用いた混雑状況の配信
Vieurekaを用いた混雑状況の配信
Morpho, Inc.
 
Limits on Super-Resolution and How to Break them
Limits on Super-Resolution and How to Break themLimits on Super-Resolution and How to Break them
Limits on Super-Resolution and How to Break them
Morpho, Inc.
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
Morpho, Inc.
 
前景と背景の画像合成技術
前景と背景の画像合成技術前景と背景の画像合成技術
前景と背景の画像合成技術
Morpho, Inc.
 
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
Morpho, Inc.
 
(文献紹介)HDR+, Night Sight
(文献紹介)HDR+, Night Sight(文献紹介)HDR+, Night Sight
(文献紹介)HDR+, Night Sight
Morpho, Inc.
 
Demosaicing(デモザイキング)
Demosaicing(デモザイキング)Demosaicing(デモザイキング)
Demosaicing(デモザイキング)
Morpho, Inc.
 
Company Profile (Japanese)
Company Profile (Japanese)Company Profile (Japanese)
Company Profile (Japanese)
Morpho, Inc.
 

More from Morpho, Inc. (11)

(文献紹介)デブラー手法の紹介
(文献紹介)デブラー手法の紹介(文献紹介)デブラー手法の紹介
(文献紹介)デブラー手法の紹介
 
(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向(文献紹介)Depth Completionの最新動向
(文献紹介)Depth Completionの最新動向
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
Vieurekaを用いた混雑状況の配信
Vieurekaを用いた混雑状況の配信Vieurekaを用いた混雑状況の配信
Vieurekaを用いた混雑状況の配信
 
Limits on Super-Resolution and How to Break them
Limits on Super-Resolution and How to Break themLimits on Super-Resolution and How to Break them
Limits on Super-Resolution and How to Break them
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
 
前景と背景の画像合成技術
前景と背景の画像合成技術前景と背景の画像合成技術
前景と背景の画像合成技術
 
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
(文献紹介)エッジ保存フィルタ:Side Window Filter, Curvature Filter
 
(文献紹介)HDR+, Night Sight
(文献紹介)HDR+, Night Sight(文献紹介)HDR+, Night Sight
(文献紹介)HDR+, Night Sight
 
Demosaicing(デモザイキング)
Demosaicing(デモザイキング)Demosaicing(デモザイキング)
Demosaicing(デモザイキング)
 
Company Profile (Japanese)
Company Profile (Japanese)Company Profile (Japanese)
Company Profile (Japanese)
 

Recently uploaded

Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
tazaki1
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
嶋 是一 (Yoshikazu SHIMA)
 
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobodyロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
azuma satoshi
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
Osaka University
 
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMMハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
osamut
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 

Recently uploaded (7)

Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
 
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobodyロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
 
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMMハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
 

(文献紹介)深層学習による動被写体ロバストなカメラの動き推定

  • 1. Copyright © 2020 Morpho, Inc. All Rights Reserved. Deep Homography Estimation for Dynamic Scenes CTO 室リサーチャー 三宅 博史 Journal Club 2020.09.25 CVPR 2020
  • 2. Copyright © 2020 Morpho, Inc. All Rights Reserved. (2D) Homography • 2平⾯間の座標変換を(定数倍を許容して)関係づける⾏列 は 3x3 の⾏列だが、上式を満たす任意の について や などの正規化をしても再び上式を満たすので、⾃由度は 8 • 画像処理では 2 枚の画像の画像座標間の関係を表す 1 平⾯Aにおける同次座標平⾯Bにおける同次座標 2D Homographyある定数
  • 3. Copyright © 2020 Morpho, Inc. All Rights Reserved. (2D) Homography • 幾何的には、以下のような画像座標の対応関係が 2D homography で表現できることが知られている 2 カメラ中心 3D空間上の平⾯ カメラ平⾯ カメラ中心 3D空間上の点カメラ中心 カメラ中心 A. 実空間上の平⾯座標と カメラ座標 B. 同じ実平⾯を投影した 2つのカメラ座標 C. 実空間上の点を回転するカメラ に投影したときの2つのカメラ座標 カメラ平⾯3D空間上の平⾯ https://docs.opencv.org より
  • 4. Copyright © 2020 Morpho, Inc. All Rights Reserved. 画像処理における 2D homography の応用 • 以下のような応用があるほか、モルフォでは HDR などの合成処理での 被写体の位置合わせや、動画での手振れ補正などで用いられる 3 A. 平⾯に対するカメラの姿勢推定 B. 視点の補正 C. パノラマスティッチング https://docs.opencv.org より
  • 5. Copyright © 2020 Morpho, Inc. All Rights Reserved. 2D homography 探索問題 • 2D homography で関係づけられる2枚(以上)の画像から、実際 に関係づけている 2D homography を推定する問題 4 https://docs.opencv.org より
  • 6. Copyright © 2020 Morpho, Inc. All Rights Reserved. Homography 探索問題における実用上の課題 • 画像処理で homography を求めたい画像群は多くの場合、厳密に は homography で表現できる関係にない – 動被写体を含んでいる(異なる時刻で撮影すると 3D 点の座標が異なる) – 平⾯上にない 3D 点を、平⾏移動+回転するカメラに投影(近景の手持ちパ ノラマなど) 55 カメラ中心 3D空間上の平⾯ カメラ平⾯ カメラ中心 3D空間上の点カメラ中心 カメラ中心 カメラ平⾯3D空間上の平⾯ https://docs.opencv.org より
  • 7. Copyright © 2020 Morpho, Inc. All Rights Reserved. 2D Homography 探索アルゴリズム • 従来手法(非 deep learning 系手法)が概ね従う2ステップ 6 1. 対応点(3D 空間上の同一座標点を 別のカメラで投影した点)検出 2. 画像アラインメントの誤差最小化 問題を解く 例 min ℎ s. t. ℎ 1 1 0 0 0 0 0 0 1 ⋮ 1 0 0 0 0 0 0 1 ℎ ℎ ℎ ℎ ℎ ℎ ℎ ℎ ℎ ℎhttps://docs.opencv.org より
  • 8. Copyright © 2020 Morpho, Inc. All Rights Reserved. 対応点検出 • SIFT 特徴量([2], 2004) – 拡⼤縮小・回転を伴う画像間でも局所的に保存される特徴量 – 主要な4ステップ 1. 特徴点候補検出 2. 特徴点サブピクセル配置 3. 方向決定 4. 特徴ベクトル構成 – 2020 年まで一部のアルゴリズムが特許で 保護されていたが現在は使用可能 • SIFT により検出した特徴点を 画像間で対応させる 7 https://docs.opencv.org より
  • 9. Copyright © 2020 Morpho, Inc. All Rights Reserved. アラインメント誤差最小化問題 • RANSAC([3], 1981) – 外れ値を含むようなデータを使って線形モデル を fit させる場合に用いられる 1. モデルを決定する最小の数の点を選択し、そ れらでモデルを決定 ℎ 0 で ℎ の⾃由度が 8 なので 4 対応点選択 2. 求めたモデルに沿うデータを inlier, 沿わない データを outlier とする 3. 1,2 を適当に繰り返す 4. 最⼤個数の inlier を使ってモデルを決定 8 https://scikit-learn.org より
  • 10. Copyright © 2020 Morpho, Inc. All Rights Reserved. アラインメント誤差最小化問題 • MAGSAC([4], 2019) – RANSAC の inlier/outlier 判定に用いる閾値を指定しない手法 – 理論的にはパラメタで周辺化するアイデア !, #, $% & !, #, $ ' !, #, $ ∑ 1 )* +,,- +,.,/ 0/2.* , +,.,/ 3 ' 4 !, $ 5 !, #, $ 6 # 7# .89: 5 ln < !, $ #%7# – 処理が重いので、実用的には RANSAC の後処理として近似的に実装可能9 $:入力データ点の集合 !:モデルパラメタ #:入力データ点のノイズ強度(inlier 判定するための残差の閾値) 関数:モデル選択を行う際に用いる指標(値が大きい方を選択) & 関数:inlier データ点の集合 < 関数:入力データ点の集合の尤度(背後に確率モデルを過程)
  • 11. Copyright © 2020 Morpho, Inc. All Rights Reserved. 本論⽂のねらい • 動被写体が映っている(outlier が多い)ような画像間で、いい homography をロバストに推定するような DNN を構築する – どのようなデータセットを用意すればよいのか – どのようなアーキテクチャが良いのか 10
  • 12. Copyright © 2020 Morpho, Inc. All Rights Reserved. データセットの用意 • Static video clip – YouTube から 877 動画を、さらにその中から 32,385 個の断片を収集 • Video frame を 256x256 px に正規化したのち 32x5 px のブロックを 4 辺の縁か ら抽出(つまり縁のブロックは 32 個) • すべての連続する 2 フレーム間で、9 個以上の縁のブロックで画素値が(ほぼ)不変 • すべての 7 枚おきのフレーム間で、画⾯の 45% 以上で optical flow がゼロ 11 著者 GitHub より
  • 13. Copyright © 2020 Morpho, Inc. All Rights Reserved. データセットの用意 • 対応画像ペアと ground truth の生成 – Clip の中で 1〜5 フレームへだたった 2 画像 & , &=% をランダムに抽出 – & から 128x128 px の画像 &> を切り出し 4 隅の座標を ~±32 px 摂動 – この摂動 ?> に対応する homography ? を計算する(ground truth) – 画像 &= に ?@ を適用したのち、画像 & と同じ座標から 128x128 px の画 像 &= > を切り出す 12 著者 GitHub より
  • 14. Copyright © 2020 Morpho, Inc. All Rights Reserved. MHN (提案手法)の DNN アーキテクチャ • ⼊⼒︓128x128 のグレースケール画像 2 枚 > > • 出⼒︓摂動させた 4 隅の座標の差分 > ⋅ ⋅ ︓ ⋅ > をそれぞれ ½ , ¼ にスケールした画像 • Base network( Net0, Net1, Net2 )は VGG のような感じ – Convolution︓3x3, batch normalization, ReLU 13 [1] 図 3,4 より
  • 15. Copyright © 2020 Morpho, Inc. All Rights Reserved. 多重解像度 • 元画像を縮小した画像で homography を求め、それをもとに元画像 の homography を求める – 画像間の全体的な⼤きい動きをとらえやすい – 通常縮小を多重に⾏って coarse to fine で homography を求める – 従来手法および deep learning 系の手法で取り⼊れられている • Deep learning 系での例︓CLKN([5], 2017) 14 Lucas-Kanade Layer Reference imageTemplate image [5] 図 1,2 より
  • 16. Copyright © 2020 Morpho, Inc. All Rights Reserved. MHN の DNN アーキテクチャ • 多重解像度(Coarse ⋅ to Fine ⋅ > ) • Cascade 処理 – ½ 解像度で求めた ?B=C と元の解像度で求めた ?B= から ?= を求める処理 – ?= ?B= D@ ?B=C D • D, D@ はそれぞれ座標を ½ , 2 倍にスケールする⾏列 • > ?B> D@ ?B D@ ?B DD > が期待される 15 [1] 図 3,4 より
  • 17. Copyright © 2020 Morpho, Inc. All Rights Reserved. Dynamic Scene 検出 • 動被写体がある場合のロバスト性をあげたい • 動被写体のマスク(dynamics mask)を同時に推定するようなモデ ルにし、マルチタスク学習を⾏う – 主タスク︓homography 探索 – 副タスク︓dynamics mask 推定 • Dynamics mask の ground truth は optical flow を 用いて計算 – Optical flow は PWC-Net([6], 2018)を用いて推定 16
  • 18. Copyright © 2020 Morpho, Inc. All Rights Reserved. MHN の DNN アーキテクチャ(マルチタスク版) • ⼊⼒︓128x128 のグレースケール画像 2 枚 > > • 出⼒︓ > と dynamics mask > > • Base network は VGG に decoder を足して(U-net のような感 じ)dynamics mask を出⼒する – さらに差分を学習するように skip connection を追加 – 最粗の E , E % の与え方は書かれていない17 [1] 図 5 より
  • 19. Copyright © 2020 Morpho, Inc. All Rights Reserved. モデルの学習 • マルチタスクのロス F F = G G = = ︓ F G は weight、 は解像度 G = @HI J KLM HN J O @ @HI J KLM @HN J O HI ︓cross entropy ロス F = P = Q = ︓L2ロス P P︓predicted Q Q︓ground truth 18
  • 20. Copyright © 2020 Morpho, Inc. All Rights Reserved. モデルの学習 • マルチタスクの多段階学習 1. 2x106 回 #F 1, #G 0 ︓homography ロスのみを最小化 2. 1x106 回 #F 1, #G 10 ︓dynamic mask ロスを重点的に最小化 3. 1x106 回 #F 1, #G 0 ︓homography ロスのみを最小化 • 主ロス → 副(+少し主)ロス → 主ロスのサンドイッチ型 • その他 – 最適化手法︓Adam – Dropout rate︓0.8 – Mini batch︓32 19
  • 21. Copyright © 2020 Morpho, Inc. All Rights Reserved. 実験結果 • 動画内で 10 フレーム離 れた画像間で求めた homography を適用し アラインした結果の例 – 提案手法では背景でゴース ト無し・前景でゴースト有り 、となっている • 背景の homography を 正しく推定できている – Dynamics mask を正し く推定し、前景を外れ値とし ているから 20 [1] 図 11 より
  • 22. Copyright © 2020 Morpho, Inc. All Rights Reserved. 実験結果 • 視差画像でのアラインメントの 結果の例 – 視差があるので depth が小さ いほど optical flow が⼤きい 元画像 – アラインの結果、背景の optical flow が低減した – やはり dynamics mask が正 しく推定され、前景を外れ値とし ているから – 学習データにはもちろん視差画 像は含まれていないが、ある程 度推定できた21 [1] 図 12 より
  • 23. Copyright © 2020 Morpho, Inc. All Rights Reserved. 精度⽐較 • Static scene での精度 – MS-COCO での⽴ち上がり(⾼精度域)は CLKN が最も⾼い – CLKN と提案手法(MHN)は⾼いが、必ずしも deep learning 系が非 deep learning 系より⾼いという訳ではない – MS-COCO / VidSets での結果はほぼ変化なし 22 Static video clip の中で完全 に static なもの 提案手法 [1] 図 6 より
  • 24. Copyright © 2020 Morpho, Inc. All Rights Reserved. 精度⽐較 • Dynamic scene での精度 – 全体的に精度は低下した – MHN の学習セットを static → dynamic にすると精度向上 – 同じ dynamic な学習セットでも MHN → MHNm にしたことで精度向上 – MHN を MS-COCO と VidSets のどちらで学習しても相違なし 23 Static video clip の中 で dynamics を含むもの CLKN は︖ → コードが非公開なので新し データセットで学習できない [1] 図 7 より
  • 25. Copyright © 2020 Morpho, Inc. All Rights Reserved. 精度⽐較 • 各 deep learning 系手法の学習セットと dynamic scene での精 度との関係 – データセットを変えただけで、ほとんどのモデルで向上した – データセット単体での貢献がある 24 [1] 図 8 より
  • 26. Copyright © 2020 Morpho, Inc. All Rights Reserved. 精度⽐較 • 多重解像度のレイヤー数と精度の関係 – 図は MHN on MS-COCO でレイヤー数を 1〜4 と変化させたもの – 最粗画像が小さすぎると homography 探索が不安定になるようだ • CLKN の著者らの報告と一致 25 [1] 図 10 より
  • 27. Copyright © 2020 Morpho, Inc. All Rights Reserved. 感想 • 多重解像度、マルチタスク学習といった既知の知⾒を⾃然に適用してお り、それぞれの工夫がどのような働きを持つかが分かりやすい • 内部的にはセグメンテーション+アノテーションのような機構を持っており「 動被写体になりやすいもの」というセマンティックな情報を推論しているの ではないか • 動被写体だけでなく、視差画像のマスクも出してくれるので便利だ • モデルの変更による精度向上+データセットの変更による精度向上で、 とくに後者については貢献度が⾼い – しかしデータセットもコードも非公開なので効果半減 – GitHub はあるので今後に期待 26
  • 28. Copyright © 2020 Morpho, Inc. All Rights Reserved. 感想 • 実⾏時間についての議論はないが、リアルタイム推定は難しいだろう • 失敗例をだしてなぜ難しい例なのかを考察してほしかった(失敗例が出 るまで問題を難しくしてみてほしかった) • 以下のような組み合わせでの精度⽐較にも興味がある(動的学習セッ トによる学習が静的検証セットで悪影響を持たないか、セマンティックな 情報が誤った推論を引き起こさないか、などの検証) 27 モデル 学習セット 検証セット MHN VidSetd VidSets MHNm VidSetd VidSets
  • 29. Copyright © 2020 Morpho, Inc. All Rights Reserved. 参考⽂献 [1] 主論⽂︓Le, Hoang, et al. "Deep Homography Estimation for Dynamic Scenes." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020. [2] SIFT︓Lowe, David G. "Distinctive image features from scale-invariant keypoints." International journal of computer vision 60.2 (2004): 91-110. [3] RANSAC︓Fischler, Martin A., and Robert C. Bolles. "Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography." Communications of the ACM 24.6 (1981): 381-395. [4] MAGSAC︓Barath, Daniel, Jiri Matas, and Jana Noskova. "Magsac: marginalizing sample consensus." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. [5] CLKN︓Chang, Che-Han, Chun-Nan Chou, and Edward Y. Chang. "Clkn: Cascaded lucas- kanade networks for image alignment." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017. [6] PWC-Net︓Sun, Deqing, et al. "Pwc-net: Cnns for optical flow using pyramid, warping, and cost volume." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. 28