（文献紹介）深層学習による動被写体ロバストなカメラの動き推定

Copyright © 2020 Morpho, Inc. All Rights Reserved.
Deep Homography Estimation for
Dynamic Scenes
CTO 室リサーチャー
三宅博史
Journal Club 2020.09.25
CVPR 2020

(2D) Homography
• 2平⾯間の座標変換を（定数倍を許容して）関係づける⾏列
は 3x3 の⾏列だが、上式を満たす任意のについてや
などの正規化をしても再び上式を満たすので、⾃由度は 8
• 画像処理では 2 枚の画像の画像座標間の関係を表す
1
平⾯Aにおける同次座標平⾯Bにおける同次座標 2D Homographyある定数

(2D) Homography
• 幾何的には、以下のような画像座標の対応関係が 2D
homography で表現できることが知られている
2
カメラ中心
3D空間上の平⾯
カメラ平⾯
カメラ中心
3D空間上の点カメラ中心カメラ中心
A. 実空間上の平⾯座標と
カメラ座標
B. 同じ実平⾯を投影した
２つのカメラ座標
C. 実空間上の点を回転するカメラ
に投影したときの2つのカメラ座標
カメラ平⾯3D空間上の平⾯
https://docs.opencv.org より

画像処理における 2D homography の応用
• 以下のような応用があるほか、モルフォでは HDR などの合成処理での
被写体の位置合わせや、動画での手振れ補正などで用いられる
3
A. 平⾯に対するカメラの姿勢推定 B. 視点の補正 C. パノラマスティッチング

2D homography 探索問題
• 2D homography で関係づけられる２枚（以上）の画像から、実際
に関係づけている 2D homography を推定する問題
4

Homography 探索問題における実用上の課題
• 画像処理で homography を求めたい画像群は多くの場合、厳密に
は homography で表現できる関係にない
– 動被写体を含んでいる（異なる時刻で撮影すると 3D 点の座標が異なる）
– 平⾯上にない 3D 点を、平⾏移動＋回転するカメラに投影（近景の手持ちパ
ノラマなど）
55
カメラ中心
3D空間上の平⾯
カメラ平⾯
カメラ中心
3D空間上の点カメラ中心カメラ中心
カメラ平⾯3D空間上の平⾯

2D Homography 探索アルゴリズム
• 従来手法（非 deep learning 系手法）が概ね従う２ステップ
6
1. 対応点（3D 空間上の同一座標点を
別のカメラで投影した点）検出
2. 画像アラインメントの誤差最小化
問題を解く
例 min ℎ s. t. ℎ 1
1 0 0 0
0 0 0 1
⋮
1 0 0 0
0 0 0 1
ℎ ℎ ℎ ℎ ℎ ℎ ℎ ℎ ℎ ℎhttps://docs.opencv.org より

対応点検出
• SIFT 特徴量（[2], 2004）
– 拡⼤縮小・回転を伴う画像間でも局所的に保存される特徴量
– 主要な４ステップ
1. 特徴点候補検出
2. 特徴点サブピクセル配置
3. 方向決定
4. 特徴ベクトル構成
– 2020 年まで一部のアルゴリズムが特許で
保護されていたが現在は使用可能
• SIFT により検出した特徴点を
画像間で対応させる
7

アラインメント誤差最小化問題
• RANSAC（[3], 1981）
– 外れ値を含むようなデータを使って線形モデル
を fit させる場合に用いられる
1. モデルを決定する最小の数の点を選択し、そ
れらでモデルを決定
ℎ 0
で ℎ の⾃由度が 8 なので 4 対応点選択
2. 求めたモデルに沿うデータを inlier, 沿わない
データを outlier とする
3. 1,2 を適当に繰り返す
4. 最⼤個数の inlier を使ってモデルを決定
8
https://scikit-learn.org より

アラインメント誤差最小化問題
• MAGSAC（[4], 2019）
– RANSAC の inlier/outlier 判定に用いる閾値を指定しない手法
– 理論的にはパラメタで周辺化するアイデア
!, #, $% & !, #, $
' !, #, $ ∑ 1
)* +,,- +,.,/
0/2.*
, +,.,/
3
' 4 !, $ 5 !, #, $ 6 # 7#
.89:
5 ln < !, $ #%7#
– 処理が重いので、実用的には RANSAC の後処理として近似的に実装可能9
$：入力データ点の集合
!：モデルパラメタ
#：入力データ点のノイズ強度（inlier 判定するための残差の閾値）
関数：モデル選択を行う際に用いる指標（値が大きい方を選択）
& 関数：inlier データ点の集合
< 関数：入力データ点の集合の尤度（背後に確率モデルを過程）

本論⽂のねらい
• 動被写体が映っている（outlier が多い）ような画像間で、いい
homography をロバストに推定するような DNN を構築する
– どのようなデータセットを用意すればよいのか
– どのようなアーキテクチャが良いのか
10

データセットの用意
• Static video clip
– YouTube から 877 動画を、さらにその中から 32,385 個の断片を収集
• Video frame を 256x256 px に正規化したのち 32x5 px のブロックを 4 辺の縁か
ら抽出（つまり縁のブロックは 32 個）
• すべての連続する 2 フレーム間で、9 個以上の縁のブロックで画素値が（ほぼ）不変
• すべての 7 枚おきのフレーム間で、画⾯の 45% 以上で optical flow がゼロ
11
著者 GitHub より

データセットの用意
• 対応画像ペアと ground truth の生成
– Clip の中で 1〜5 フレームへだたった 2 画像 & , &=% をランダムに抽出
– & から 128x128 px の画像 &>
を切り出し 4 隅の座標を ~±32 px 摂動
– この摂動 ?>
に対応する homography ? を計算する（ground truth）
– 画像 &= に ?@
を適用したのち、画像 & と同じ座標から 128x128 px の画
像 &=
>
を切り出す 12
著者 GitHub より

MHN （提案手法）の DNN アーキテクチャ
• ⼊⼒︓128x128 のグレースケール画像 2 枚 > >
• 出⼒︓摂動させた 4 隅の座標の差分 >
⋅ ⋅ ︓ ⋅
> をそれぞれ ½ , ¼ にスケールした画像
• Base network（ Net0, Net1, Net2 ）は VGG のような感じ
– Convolution︓3x3, batch normalization, ReLU
13 [1] 図 3,4 より

多重解像度
• 元画像を縮小した画像で homography を求め、それをもとに元画像
の homography を求める
– 画像間の全体的な⼤きい動きをとらえやすい
– 通常縮小を多重に⾏って coarse to fine で homography を求める
– 従来手法および deep learning 系の手法で取り⼊れられている
• Deep learning 系での例︓CLKN（[5], 2017）
14
Lucas-Kanade Layer
Reference imageTemplate image
[5] 図 1,2 より

MHN の DNN アーキテクチャ
• 多重解像度（Coarse ⋅ to Fine ⋅
> ）
• Cascade 処理
– ½ 解像度で求めた ?B=C
と元の解像度で求めた ?B=
から ?=
を求める処理
– ?=
?B=
D@
?B=C
D
• D, D@
はそれぞれ座標を ½ , 2 倍にスケールする⾏列
• >
?B>
D@
?B D@
?B DD >
が期待される
15 [1] 図 3,4 より

Dynamic Scene 検出
• 動被写体がある場合のロバスト性をあげたい
• 動被写体のマスク（dynamics mask）を同時に推定するようなモデ
ルにし、マルチタスク学習を⾏う
– 主タスク︓homography 探索
– 副タスク︓dynamics mask 推定
• Dynamics mask の ground truth は optical flow を
用いて計算
– Optical flow は PWC-Net（[6], 2018）を用いて推定
16

MHN の DNN アーキテクチャ（マルチタスク版）
• ⼊⼒︓128x128 のグレースケール画像 2 枚 > >
• 出⼒︓ > と dynamics mask > >
• Base network は VGG に decoder を足して（U-net のような感
じ）dynamics mask を出⼒する
– さらに差分を学習するように skip connection を追加
– 最粗の E , E % の与え方は書かれていない17 [1] 図 5 より

モデルの学習
• マルチタスクのロス
F F
=
G G
=
= ︓ F G は weight、は解像度
G
= @HI
J KLM HN
J O
@ @HI
J KLM @HN
J O
HI
︓cross entropy ロス
F
=
P
=
Q
=
︓L2ロス
P P︓predicted
Q Q︓ground truth
18

モデルの学習
• マルチタスクの多段階学習
1. 2x106 回 #F 1, #G 0 ︓homography ロスのみを最小化
2. 1x106 回 #F 1, #G 10 ︓dynamic mask ロスを重点的に最小化
3. 1x106 回 #F 1, #G 0 ︓homography ロスのみを最小化
• 主ロス → 副（＋少し主）ロス → 主ロスのサンドイッチ型
• その他
– 最適化手法︓Adam
– Dropout rate︓0.8
– Mini batch︓32
19

実験結果
• 動画内で 10 フレーム離
れた画像間で求めた
homography を適用し
アラインした結果の例
– 提案手法では背景でゴース
ト無し・前景でゴースト有り
、となっている
• 背景の homography を
正しく推定できている
– Dynamics mask を正し
く推定し、前景を外れ値とし
ているから
20 [1] 図 11 より

実験結果
• 視差画像でのアラインメントの
結果の例
– 視差があるので depth が小さ
いほど optical flow が⼤きい
元画像
– アラインの結果、背景の optical
flow が低減した
– やはり dynamics mask が正
しく推定され、前景を外れ値とし
ているから
– 学習データにはもちろん視差画
像は含まれていないが、ある程
度推定できた21
[1] 図 12 より

精度⽐較
• Static scene での精度
– MS-COCO での⽴ち上がり（⾼精度域）は CLKN が最も⾼い
– CLKN と提案手法（MHN）は⾼いが、必ずしも deep learning 系が非
deep learning 系より⾼いという訳ではない
– MS-COCO / VidSets での結果はほぼ変化なし
22
Static video
clip の中で完全
に static なもの
提案手法
[1] 図 6 より

精度⽐較
• Dynamic scene での精度
– 全体的に精度は低下した
– MHN の学習セットを static → dynamic にすると精度向上
– 同じ dynamic な学習セットでも MHN → MHNm にしたことで精度向上
– MHN を MS-COCO と VidSets のどちらで学習しても相違なし
23
Static video clip の中
で dynamics を含むもの
CLKN は︖
→ コードが非公開なので新し
データセットで学習できない
[1] 図 7 より

精度⽐較
• 各 deep learning 系手法の学習セットと dynamic scene での精
度との関係
– データセットを変えただけで、ほとんどのモデルで向上した
– データセット単体での貢献がある 24 [1] 図 8 より

精度⽐較
• 多重解像度のレイヤー数と精度の関係
– 図は MHN on MS-COCO でレイヤー数を 1〜4 と変化させたもの
– 最粗画像が小さすぎると homography 探索が不安定になるようだ
• CLKN の著者らの報告と一致
25 [1] 図 10 より

感想
• 多重解像度、マルチタスク学習といった既知の知⾒を⾃然に適用してお
り、それぞれの工夫がどのような働きを持つかが分かりやすい
• 内部的にはセグメンテーション＋アノテーションのような機構を持っており「
動被写体になりやすいもの」というセマンティックな情報を推論しているの
ではないか
• 動被写体だけでなく、視差画像のマスクも出してくれるので便利だ
• モデルの変更による精度向上＋データセットの変更による精度向上で、
とくに後者については貢献度が⾼い
– しかしデータセットもコードも非公開なので効果半減
– GitHub はあるので今後に期待
26

感想
• 実⾏時間についての議論はないが、リアルタイム推定は難しいだろう
• 失敗例をだしてなぜ難しい例なのかを考察してほしかった（失敗例が出
るまで問題を難しくしてみてほしかった）
• 以下のような組み合わせでの精度⽐較にも興味がある（動的学習セッ
トによる学習が静的検証セットで悪影響を持たないか、セマンティックな
情報が誤った推論を引き起こさないか、などの検証）
27
モデル学習セット検証セット
MHN VidSetd VidSets
MHNm VidSetd VidSets

参考⽂献
[1] 主論⽂︓Le, Hoang, et al. "Deep Homography Estimation for Dynamic Scenes."
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.
2020.
[2] SIFT︓Lowe, David G. "Distinctive image features from scale-invariant
keypoints." International journal of computer vision 60.2 (2004): 91-110.
[3] RANSAC︓Fischler, Martin A., and Robert C. Bolles. "Random sample consensus: a
paradigm for model fitting with applications to image analysis and automated
cartography." Communications of the ACM 24.6 (1981): 381-395.
[4] MAGSAC︓Barath, Daniel, Jiri Matas, and Jana Noskova. "Magsac: marginalizing sample
consensus." Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition. 2019.
[5] CLKN︓Chang, Che-Han, Chun-Nan Chou, and Edward Y. Chang. "Clkn: Cascaded lucas-
kanade networks for image alignment." Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition. 2017.
[6] PWC-Net︓Sun, Deqing, et al. "Pwc-net: Cnns for optical flow using pyramid, warping,
and cost volume." Proceedings of the IEEE conference on computer vision and pattern
recognition. 2018.
28

（文献紹介）深層学習による動被写体ロバストなカメラの動き推定

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to （文献紹介）深層学習による動被写体ロバストなカメラの動き推定

Similar to （文献紹介）深層学習による動被写体ロバストなカメラの動き推定 (20)

More from Morpho, Inc.

More from Morpho, Inc. (11)

Recently uploaded

Recently uploaded (7)

（文献紹介）深層学習による動被写体ロバストなカメラの動き推定