Copyright © 2020 Morpho, Inc. All Rights Reserved.
Deep Homography Estimation for
Dynamic Scenes
CTO 室リサーチャー
三宅 博史
Journal Club 2020.09.25
CVPR 2020
Copyright © 2020 Morpho, Inc. All Rights Reserved.
(2D) Homography
• 2平⾯間の座標変換を(定数倍を許容して)関係づける⾏列
は 3x3 の⾏列だが、上式を満たす任意の について や
などの正規化をしても再び上式を満たすので、⾃由度は 8
• 画像処理では 2 枚の画像の画像座標間の関係を表す
1
平⾯Aにおける同次座標平⾯Bにおける同次座標 2D Homographyある定数
Copyright © 2020 Morpho, Inc. All Rights Reserved.
(2D) Homography
• 幾何的には、以下のような画像座標の対応関係が 2D
homography で表現できることが知られている
2
カメラ中心
3D空間上の平⾯
カメラ平⾯
カメラ中心
3D空間上の点カメラ中心 カメラ中心
A. 実空間上の平⾯座標と
カメラ座標
B. 同じ実平⾯を投影した
2つのカメラ座標
C. 実空間上の点を回転するカメラ
に投影したときの2つのカメラ座標
カメラ平⾯3D空間上の平⾯
https://docs.opencv.org より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
画像処理における 2D homography の応用
• 以下のような応用があるほか、モルフォでは HDR などの合成処理での
被写体の位置合わせや、動画での手振れ補正などで用いられる
3
A. 平⾯に対するカメラの姿勢推定 B. 視点の補正 C. パノラマスティッチング
https://docs.opencv.org より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
2D homography 探索問題
• 2D homography で関係づけられる2枚(以上)の画像から、実際
に関係づけている 2D homography を推定する問題
4
https://docs.opencv.org より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
Homography 探索問題における実用上の課題
• 画像処理で homography を求めたい画像群は多くの場合、厳密に
は homography で表現できる関係にない
– 動被写体を含んでいる(異なる時刻で撮影すると 3D 点の座標が異なる)
– 平⾯上にない 3D 点を、平⾏移動+回転するカメラに投影(近景の手持ちパ
ノラマなど)
55
カメラ中心
3D空間上の平⾯
カメラ平⾯
カメラ中心
3D空間上の点カメラ中心 カメラ中心
カメラ平⾯3D空間上の平⾯
https://docs.opencv.org より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
2D Homography 探索アルゴリズム
• 従来手法(非 deep learning 系手法)が概ね従う2ステップ
6
1. 対応点(3D 空間上の同一座標点を
別のカメラで投影した点)検出
2. 画像アラインメントの誤差最小化
問題を解く
例 min ℎ s. t. ℎ 1
1 0 0 0
0 0 0 1
⋮
1 0 0 0
0 0 0 1
ℎ ℎ ℎ ℎ ℎ ℎ ℎ ℎ ℎ ℎhttps://docs.opencv.org より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
対応点検出
• SIFT 特徴量([2], 2004)
– 拡⼤縮小・回転を伴う画像間でも局所的に保存される特徴量
– 主要な4ステップ
1. 特徴点候補検出
2. 特徴点サブピクセル配置
3. 方向決定
4. 特徴ベクトル構成
– 2020 年まで一部のアルゴリズムが特許で
保護されていたが現在は使用可能
• SIFT により検出した特徴点を
画像間で対応させる
7
https://docs.opencv.org より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
アラインメント誤差最小化問題
• RANSAC([3], 1981)
– 外れ値を含むようなデータを使って線形モデル
を fit させる場合に用いられる
1. モデルを決定する最小の数の点を選択し、そ
れらでモデルを決定
ℎ 0
で ℎ の⾃由度が 8 なので 4 対応点選択
2. 求めたモデルに沿うデータを inlier, 沿わない
データを outlier とする
3. 1,2 を適当に繰り返す
4. 最⼤個数の inlier を使ってモデルを決定
8
https://scikit-learn.org より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
アラインメント誤差最小化問題
• MAGSAC([4], 2019)
– RANSAC の inlier/outlier 判定に用いる閾値を指定しない手法
– 理論的にはパラメタで周辺化するアイデア
!, #, $% & !, #, $
' !, #, $ ∑ 1
)* +,,- +,.,/
0/2.*
, +,.,/
3
' 4 !, $ 5 !, #, $ 6 # 7#
.89:
5 ln < !, $ #%7#
– 処理が重いので、実用的には RANSAC の後処理として近似的に実装可能9
$:入力データ点の集合
!:モデルパラメタ
#:入力データ点のノイズ強度(inlier 判定するための残差の閾値)
関数:モデル選択を行う際に用いる指標(値が大きい方を選択)
& 関数:inlier データ点の集合
< 関数:入力データ点の集合の尤度(背後に確率モデルを過程)
Copyright © 2020 Morpho, Inc. All Rights Reserved.
本論⽂のねらい
• 動被写体が映っている(outlier が多い)ような画像間で、いい
homography をロバストに推定するような DNN を構築する
– どのようなデータセットを用意すればよいのか
– どのようなアーキテクチャが良いのか
10
Copyright © 2020 Morpho, Inc. All Rights Reserved.
データセットの用意
• Static video clip
– YouTube から 877 動画を、さらにその中から 32,385 個の断片を収集
• Video frame を 256x256 px に正規化したのち 32x5 px のブロックを 4 辺の縁か
ら抽出(つまり縁のブロックは 32 個)
• すべての連続する 2 フレーム間で、9 個以上の縁のブロックで画素値が(ほぼ)不変
• すべての 7 枚おきのフレーム間で、画⾯の 45% 以上で optical flow がゼロ
11
著者 GitHub より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
データセットの用意
• 対応画像ペアと ground truth の生成
– Clip の中で 1〜5 フレームへだたった 2 画像 & , &=% をランダムに抽出
– & から 128x128 px の画像 &>
を切り出し 4 隅の座標を ~±32 px 摂動
– この摂動 ?>
に対応する homography ? を計算する(ground truth)
– 画像 &= に ?@
を適用したのち、画像 & と同じ座標から 128x128 px の画
像 &=
>
を切り出す 12
著者 GitHub より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
MHN (提案手法)の DNN アーキテクチャ
• ⼊⼒︓128x128 のグレースケール画像 2 枚 > >
• 出⼒︓摂動させた 4 隅の座標の差分 >
⋅ ⋅ ︓ ⋅
> をそれぞれ ½ , ¼ にスケールした画像
• Base network( Net0, Net1, Net2 )は VGG のような感じ
– Convolution︓3x3, batch normalization, ReLU
13 [1] 図 3,4 より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
多重解像度
• 元画像を縮小した画像で homography を求め、それをもとに元画像
の homography を求める
– 画像間の全体的な⼤きい動きをとらえやすい
– 通常縮小を多重に⾏って coarse to fine で homography を求める
– 従来手法および deep learning 系の手法で取り⼊れられている
• Deep learning 系での例︓CLKN([5], 2017)
14
Lucas-Kanade Layer
Reference imageTemplate image
[5] 図 1,2 より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
MHN の DNN アーキテクチャ
• 多重解像度(Coarse ⋅ to Fine ⋅
> )
• Cascade 処理
– ½ 解像度で求めた ?B=C
と元の解像度で求めた ?B=
から ?=
を求める処理
– ?=
?B=
D@
?B=C
D
• D, D@
はそれぞれ座標を ½ , 2 倍にスケールする⾏列
• >
?B>
D@
?B D@
?B DD >
が期待される
15 [1] 図 3,4 より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
Dynamic Scene 検出
• 動被写体がある場合のロバスト性をあげたい
• 動被写体のマスク(dynamics mask)を同時に推定するようなモデ
ルにし、マルチタスク学習を⾏う
– 主タスク︓homography 探索
– 副タスク︓dynamics mask 推定
• Dynamics mask の ground truth は optical flow を
用いて計算
– Optical flow は PWC-Net([6], 2018)を用いて推定
16
Copyright © 2020 Morpho, Inc. All Rights Reserved.
MHN の DNN アーキテクチャ(マルチタスク版)
• ⼊⼒︓128x128 のグレースケール画像 2 枚 > >
• 出⼒︓ > と dynamics mask > >
• Base network は VGG に decoder を足して(U-net のような感
じ)dynamics mask を出⼒する
– さらに差分を学習するように skip connection を追加
– 最粗の E , E % の与え方は書かれていない17 [1] 図 5 より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
モデルの学習
• マルチタスクのロス
F F
=
G G
=
= ︓ F G は weight、 は解像度
G
= @HI
J KLM HN
J O
@ @HI
J KLM @HN
J O
HI
︓cross entropy ロス
F
=
P
=
Q
=
︓L2ロス
P P︓predicted
Q Q︓ground truth
18
Copyright © 2020 Morpho, Inc. All Rights Reserved.
モデルの学習
• マルチタスクの多段階学習
1. 2x106 回 #F 1, #G 0 ︓homography ロスのみを最小化
2. 1x106 回 #F 1, #G 10 ︓dynamic mask ロスを重点的に最小化
3. 1x106 回 #F 1, #G 0 ︓homography ロスのみを最小化
• 主ロス → 副(+少し主)ロス → 主ロスのサンドイッチ型
• その他
– 最適化手法︓Adam
– Dropout rate︓0.8
– Mini batch︓32
19
Copyright © 2020 Morpho, Inc. All Rights Reserved.
実験結果
• 動画内で 10 フレーム離
れた画像間で求めた
homography を適用し
アラインした結果の例
– 提案手法では背景でゴース
ト無し・前景でゴースト有り
、となっている
• 背景の homography を
正しく推定できている
– Dynamics mask を正し
く推定し、前景を外れ値とし
ているから
20 [1] 図 11 より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
実験結果
• 視差画像でのアラインメントの
結果の例
– 視差があるので depth が小さ
いほど optical flow が⼤きい
元画像
– アラインの結果、背景の optical
flow が低減した
– やはり dynamics mask が正
しく推定され、前景を外れ値とし
ているから
– 学習データにはもちろん視差画
像は含まれていないが、ある程
度推定できた21
[1] 図 12 より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
精度⽐較
• Static scene での精度
– MS-COCO での⽴ち上がり(⾼精度域)は CLKN が最も⾼い
– CLKN と提案手法(MHN)は⾼いが、必ずしも deep learning 系が非
deep learning 系より⾼いという訳ではない
– MS-COCO / VidSets での結果はほぼ変化なし
22
Static video
clip の中で完全
に static なもの
提案手法
[1] 図 6 より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
精度⽐較
• Dynamic scene での精度
– 全体的に精度は低下した
– MHN の学習セットを static → dynamic にすると精度向上
– 同じ dynamic な学習セットでも MHN → MHNm にしたことで精度向上
– MHN を MS-COCO と VidSets のどちらで学習しても相違なし
23
Static video clip の中
で dynamics を含むもの
CLKN は︖
→ コードが非公開なので新し
データセットで学習できない
[1] 図 7 より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
精度⽐較
• 各 deep learning 系手法の学習セットと dynamic scene での精
度との関係
– データセットを変えただけで、ほとんどのモデルで向上した
– データセット単体での貢献がある 24 [1] 図 8 より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
精度⽐較
• 多重解像度のレイヤー数と精度の関係
– 図は MHN on MS-COCO でレイヤー数を 1〜4 と変化させたもの
– 最粗画像が小さすぎると homography 探索が不安定になるようだ
• CLKN の著者らの報告と一致
25 [1] 図 10 より
Copyright © 2020 Morpho, Inc. All Rights Reserved.
感想
• 多重解像度、マルチタスク学習といった既知の知⾒を⾃然に適用してお
り、それぞれの工夫がどのような働きを持つかが分かりやすい
• 内部的にはセグメンテーション+アノテーションのような機構を持っており「
動被写体になりやすいもの」というセマンティックな情報を推論しているの
ではないか
• 動被写体だけでなく、視差画像のマスクも出してくれるので便利だ
• モデルの変更による精度向上+データセットの変更による精度向上で、
とくに後者については貢献度が⾼い
– しかしデータセットもコードも非公開なので効果半減
– GitHub はあるので今後に期待
26
Copyright © 2020 Morpho, Inc. All Rights Reserved.
感想
• 実⾏時間についての議論はないが、リアルタイム推定は難しいだろう
• 失敗例をだしてなぜ難しい例なのかを考察してほしかった(失敗例が出
るまで問題を難しくしてみてほしかった)
• 以下のような組み合わせでの精度⽐較にも興味がある(動的学習セッ
トによる学習が静的検証セットで悪影響を持たないか、セマンティックな
情報が誤った推論を引き起こさないか、などの検証)
27
モデル 学習セット 検証セット
MHN VidSetd VidSets
MHNm VidSetd VidSets
Copyright © 2020 Morpho, Inc. All Rights Reserved.
参考⽂献
[1] 主論⽂︓Le, Hoang, et al. "Deep Homography Estimation for Dynamic Scenes."
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.
2020.
[2] SIFT︓Lowe, David G. "Distinctive image features from scale-invariant
keypoints." International journal of computer vision 60.2 (2004): 91-110.
[3] RANSAC︓Fischler, Martin A., and Robert C. Bolles. "Random sample consensus: a
paradigm for model fitting with applications to image analysis and automated
cartography." Communications of the ACM 24.6 (1981): 381-395.
[4] MAGSAC︓Barath, Daniel, Jiri Matas, and Jana Noskova. "Magsac: marginalizing sample
consensus." Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition. 2019.
[5] CLKN︓Chang, Che-Han, Chun-Nan Chou, and Edward Y. Chang. "Clkn: Cascaded lucas-
kanade networks for image alignment." Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition. 2017.
[6] PWC-Net︓Sun, Deqing, et al. "Pwc-net: Cnns for optical flow using pyramid, warping,
and cost volume." Proceedings of the IEEE conference on computer vision and pattern
recognition. 2018.
28

(文献紹介)深層学習による動被写体ロバストなカメラの動き推定

  • 1.
    Copyright © 2020Morpho, Inc. All Rights Reserved. Deep Homography Estimation for Dynamic Scenes CTO 室リサーチャー 三宅 博史 Journal Club 2020.09.25 CVPR 2020
  • 2.
    Copyright © 2020Morpho, Inc. All Rights Reserved. (2D) Homography • 2平⾯間の座標変換を(定数倍を許容して)関係づける⾏列 は 3x3 の⾏列だが、上式を満たす任意の について や などの正規化をしても再び上式を満たすので、⾃由度は 8 • 画像処理では 2 枚の画像の画像座標間の関係を表す 1 平⾯Aにおける同次座標平⾯Bにおける同次座標 2D Homographyある定数
  • 3.
    Copyright © 2020Morpho, Inc. All Rights Reserved. (2D) Homography • 幾何的には、以下のような画像座標の対応関係が 2D homography で表現できることが知られている 2 カメラ中心 3D空間上の平⾯ カメラ平⾯ カメラ中心 3D空間上の点カメラ中心 カメラ中心 A. 実空間上の平⾯座標と カメラ座標 B. 同じ実平⾯を投影した 2つのカメラ座標 C. 実空間上の点を回転するカメラ に投影したときの2つのカメラ座標 カメラ平⾯3D空間上の平⾯ https://docs.opencv.org より
  • 4.
    Copyright © 2020Morpho, Inc. All Rights Reserved. 画像処理における 2D homography の応用 • 以下のような応用があるほか、モルフォでは HDR などの合成処理での 被写体の位置合わせや、動画での手振れ補正などで用いられる 3 A. 平⾯に対するカメラの姿勢推定 B. 視点の補正 C. パノラマスティッチング https://docs.opencv.org より
  • 5.
    Copyright © 2020Morpho, Inc. All Rights Reserved. 2D homography 探索問題 • 2D homography で関係づけられる2枚(以上)の画像から、実際 に関係づけている 2D homography を推定する問題 4 https://docs.opencv.org より
  • 6.
    Copyright © 2020Morpho, Inc. All Rights Reserved. Homography 探索問題における実用上の課題 • 画像処理で homography を求めたい画像群は多くの場合、厳密に は homography で表現できる関係にない – 動被写体を含んでいる(異なる時刻で撮影すると 3D 点の座標が異なる) – 平⾯上にない 3D 点を、平⾏移動+回転するカメラに投影(近景の手持ちパ ノラマなど) 55 カメラ中心 3D空間上の平⾯ カメラ平⾯ カメラ中心 3D空間上の点カメラ中心 カメラ中心 カメラ平⾯3D空間上の平⾯ https://docs.opencv.org より
  • 7.
    Copyright © 2020Morpho, Inc. All Rights Reserved. 2D Homography 探索アルゴリズム • 従来手法(非 deep learning 系手法)が概ね従う2ステップ 6 1. 対応点(3D 空間上の同一座標点を 別のカメラで投影した点)検出 2. 画像アラインメントの誤差最小化 問題を解く 例 min ℎ s. t. ℎ 1 1 0 0 0 0 0 0 1 ⋮ 1 0 0 0 0 0 0 1 ℎ ℎ ℎ ℎ ℎ ℎ ℎ ℎ ℎ ℎhttps://docs.opencv.org より
  • 8.
    Copyright © 2020Morpho, Inc. All Rights Reserved. 対応点検出 • SIFT 特徴量([2], 2004) – 拡⼤縮小・回転を伴う画像間でも局所的に保存される特徴量 – 主要な4ステップ 1. 特徴点候補検出 2. 特徴点サブピクセル配置 3. 方向決定 4. 特徴ベクトル構成 – 2020 年まで一部のアルゴリズムが特許で 保護されていたが現在は使用可能 • SIFT により検出した特徴点を 画像間で対応させる 7 https://docs.opencv.org より
  • 9.
    Copyright © 2020Morpho, Inc. All Rights Reserved. アラインメント誤差最小化問題 • RANSAC([3], 1981) – 外れ値を含むようなデータを使って線形モデル を fit させる場合に用いられる 1. モデルを決定する最小の数の点を選択し、そ れらでモデルを決定 ℎ 0 で ℎ の⾃由度が 8 なので 4 対応点選択 2. 求めたモデルに沿うデータを inlier, 沿わない データを outlier とする 3. 1,2 を適当に繰り返す 4. 最⼤個数の inlier を使ってモデルを決定 8 https://scikit-learn.org より
  • 10.
    Copyright © 2020Morpho, Inc. All Rights Reserved. アラインメント誤差最小化問題 • MAGSAC([4], 2019) – RANSAC の inlier/outlier 判定に用いる閾値を指定しない手法 – 理論的にはパラメタで周辺化するアイデア !, #, $% & !, #, $ ' !, #, $ ∑ 1 )* +,,- +,.,/ 0/2.* , +,.,/ 3 ' 4 !, $ 5 !, #, $ 6 # 7# .89: 5 ln < !, $ #%7# – 処理が重いので、実用的には RANSAC の後処理として近似的に実装可能9 $:入力データ点の集合 !:モデルパラメタ #:入力データ点のノイズ強度(inlier 判定するための残差の閾値) 関数:モデル選択を行う際に用いる指標(値が大きい方を選択) & 関数:inlier データ点の集合 < 関数:入力データ点の集合の尤度(背後に確率モデルを過程)
  • 11.
    Copyright © 2020Morpho, Inc. All Rights Reserved. 本論⽂のねらい • 動被写体が映っている(outlier が多い)ような画像間で、いい homography をロバストに推定するような DNN を構築する – どのようなデータセットを用意すればよいのか – どのようなアーキテクチャが良いのか 10
  • 12.
    Copyright © 2020Morpho, Inc. All Rights Reserved. データセットの用意 • Static video clip – YouTube から 877 動画を、さらにその中から 32,385 個の断片を収集 • Video frame を 256x256 px に正規化したのち 32x5 px のブロックを 4 辺の縁か ら抽出(つまり縁のブロックは 32 個) • すべての連続する 2 フレーム間で、9 個以上の縁のブロックで画素値が(ほぼ)不変 • すべての 7 枚おきのフレーム間で、画⾯の 45% 以上で optical flow がゼロ 11 著者 GitHub より
  • 13.
    Copyright © 2020Morpho, Inc. All Rights Reserved. データセットの用意 • 対応画像ペアと ground truth の生成 – Clip の中で 1〜5 フレームへだたった 2 画像 & , &=% をランダムに抽出 – & から 128x128 px の画像 &> を切り出し 4 隅の座標を ~±32 px 摂動 – この摂動 ?> に対応する homography ? を計算する(ground truth) – 画像 &= に ?@ を適用したのち、画像 & と同じ座標から 128x128 px の画 像 &= > を切り出す 12 著者 GitHub より
  • 14.
    Copyright © 2020Morpho, Inc. All Rights Reserved. MHN (提案手法)の DNN アーキテクチャ • ⼊⼒︓128x128 のグレースケール画像 2 枚 > > • 出⼒︓摂動させた 4 隅の座標の差分 > ⋅ ⋅ ︓ ⋅ > をそれぞれ ½ , ¼ にスケールした画像 • Base network( Net0, Net1, Net2 )は VGG のような感じ – Convolution︓3x3, batch normalization, ReLU 13 [1] 図 3,4 より
  • 15.
    Copyright © 2020Morpho, Inc. All Rights Reserved. 多重解像度 • 元画像を縮小した画像で homography を求め、それをもとに元画像 の homography を求める – 画像間の全体的な⼤きい動きをとらえやすい – 通常縮小を多重に⾏って coarse to fine で homography を求める – 従来手法および deep learning 系の手法で取り⼊れられている • Deep learning 系での例︓CLKN([5], 2017) 14 Lucas-Kanade Layer Reference imageTemplate image [5] 図 1,2 より
  • 16.
    Copyright © 2020Morpho, Inc. All Rights Reserved. MHN の DNN アーキテクチャ • 多重解像度(Coarse ⋅ to Fine ⋅ > ) • Cascade 処理 – ½ 解像度で求めた ?B=C と元の解像度で求めた ?B= から ?= を求める処理 – ?= ?B= D@ ?B=C D • D, D@ はそれぞれ座標を ½ , 2 倍にスケールする⾏列 • > ?B> D@ ?B D@ ?B DD > が期待される 15 [1] 図 3,4 より
  • 17.
    Copyright © 2020Morpho, Inc. All Rights Reserved. Dynamic Scene 検出 • 動被写体がある場合のロバスト性をあげたい • 動被写体のマスク(dynamics mask)を同時に推定するようなモデ ルにし、マルチタスク学習を⾏う – 主タスク︓homography 探索 – 副タスク︓dynamics mask 推定 • Dynamics mask の ground truth は optical flow を 用いて計算 – Optical flow は PWC-Net([6], 2018)を用いて推定 16
  • 18.
    Copyright © 2020Morpho, Inc. All Rights Reserved. MHN の DNN アーキテクチャ(マルチタスク版) • ⼊⼒︓128x128 のグレースケール画像 2 枚 > > • 出⼒︓ > と dynamics mask > > • Base network は VGG に decoder を足して(U-net のような感 じ)dynamics mask を出⼒する – さらに差分を学習するように skip connection を追加 – 最粗の E , E % の与え方は書かれていない17 [1] 図 5 より
  • 19.
    Copyright © 2020Morpho, Inc. All Rights Reserved. モデルの学習 • マルチタスクのロス F F = G G = = ︓ F G は weight、 は解像度 G = @HI J KLM HN J O @ @HI J KLM @HN J O HI ︓cross entropy ロス F = P = Q = ︓L2ロス P P︓predicted Q Q︓ground truth 18
  • 20.
    Copyright © 2020Morpho, Inc. All Rights Reserved. モデルの学習 • マルチタスクの多段階学習 1. 2x106 回 #F 1, #G 0 ︓homography ロスのみを最小化 2. 1x106 回 #F 1, #G 10 ︓dynamic mask ロスを重点的に最小化 3. 1x106 回 #F 1, #G 0 ︓homography ロスのみを最小化 • 主ロス → 副(+少し主)ロス → 主ロスのサンドイッチ型 • その他 – 最適化手法︓Adam – Dropout rate︓0.8 – Mini batch︓32 19
  • 21.
    Copyright © 2020Morpho, Inc. All Rights Reserved. 実験結果 • 動画内で 10 フレーム離 れた画像間で求めた homography を適用し アラインした結果の例 – 提案手法では背景でゴース ト無し・前景でゴースト有り 、となっている • 背景の homography を 正しく推定できている – Dynamics mask を正し く推定し、前景を外れ値とし ているから 20 [1] 図 11 より
  • 22.
    Copyright © 2020Morpho, Inc. All Rights Reserved. 実験結果 • 視差画像でのアラインメントの 結果の例 – 視差があるので depth が小さ いほど optical flow が⼤きい 元画像 – アラインの結果、背景の optical flow が低減した – やはり dynamics mask が正 しく推定され、前景を外れ値とし ているから – 学習データにはもちろん視差画 像は含まれていないが、ある程 度推定できた21 [1] 図 12 より
  • 23.
    Copyright © 2020Morpho, Inc. All Rights Reserved. 精度⽐較 • Static scene での精度 – MS-COCO での⽴ち上がり(⾼精度域)は CLKN が最も⾼い – CLKN と提案手法(MHN)は⾼いが、必ずしも deep learning 系が非 deep learning 系より⾼いという訳ではない – MS-COCO / VidSets での結果はほぼ変化なし 22 Static video clip の中で完全 に static なもの 提案手法 [1] 図 6 より
  • 24.
    Copyright © 2020Morpho, Inc. All Rights Reserved. 精度⽐較 • Dynamic scene での精度 – 全体的に精度は低下した – MHN の学習セットを static → dynamic にすると精度向上 – 同じ dynamic な学習セットでも MHN → MHNm にしたことで精度向上 – MHN を MS-COCO と VidSets のどちらで学習しても相違なし 23 Static video clip の中 で dynamics を含むもの CLKN は︖ → コードが非公開なので新し データセットで学習できない [1] 図 7 より
  • 25.
    Copyright © 2020Morpho, Inc. All Rights Reserved. 精度⽐較 • 各 deep learning 系手法の学習セットと dynamic scene での精 度との関係 – データセットを変えただけで、ほとんどのモデルで向上した – データセット単体での貢献がある 24 [1] 図 8 より
  • 26.
    Copyright © 2020Morpho, Inc. All Rights Reserved. 精度⽐較 • 多重解像度のレイヤー数と精度の関係 – 図は MHN on MS-COCO でレイヤー数を 1〜4 と変化させたもの – 最粗画像が小さすぎると homography 探索が不安定になるようだ • CLKN の著者らの報告と一致 25 [1] 図 10 より
  • 27.
    Copyright © 2020Morpho, Inc. All Rights Reserved. 感想 • 多重解像度、マルチタスク学習といった既知の知⾒を⾃然に適用してお り、それぞれの工夫がどのような働きを持つかが分かりやすい • 内部的にはセグメンテーション+アノテーションのような機構を持っており「 動被写体になりやすいもの」というセマンティックな情報を推論しているの ではないか • 動被写体だけでなく、視差画像のマスクも出してくれるので便利だ • モデルの変更による精度向上+データセットの変更による精度向上で、 とくに後者については貢献度が⾼い – しかしデータセットもコードも非公開なので効果半減 – GitHub はあるので今後に期待 26
  • 28.
    Copyright © 2020Morpho, Inc. All Rights Reserved. 感想 • 実⾏時間についての議論はないが、リアルタイム推定は難しいだろう • 失敗例をだしてなぜ難しい例なのかを考察してほしかった(失敗例が出 るまで問題を難しくしてみてほしかった) • 以下のような組み合わせでの精度⽐較にも興味がある(動的学習セッ トによる学習が静的検証セットで悪影響を持たないか、セマンティックな 情報が誤った推論を引き起こさないか、などの検証) 27 モデル 学習セット 検証セット MHN VidSetd VidSets MHNm VidSetd VidSets
  • 29.
    Copyright © 2020Morpho, Inc. All Rights Reserved. 参考⽂献 [1] 主論⽂︓Le, Hoang, et al. "Deep Homography Estimation for Dynamic Scenes." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020. [2] SIFT︓Lowe, David G. "Distinctive image features from scale-invariant keypoints." International journal of computer vision 60.2 (2004): 91-110. [3] RANSAC︓Fischler, Martin A., and Robert C. Bolles. "Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography." Communications of the ACM 24.6 (1981): 381-395. [4] MAGSAC︓Barath, Daniel, Jiri Matas, and Jana Noskova. "Magsac: marginalizing sample consensus." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019. [5] CLKN︓Chang, Che-Han, Chun-Nan Chou, and Edward Y. Chang. "Clkn: Cascaded lucas- kanade networks for image alignment." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017. [6] PWC-Net︓Sun, Deqing, et al. "Pwc-net: Cnns for optical flow using pyramid, warping, and cost volume." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. 28