【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation

DEEP LEARNING JP
[DL Papers]
“EPro-PnP: Generalized End-to-End Probabilistic
Perspective-n-Points for Monocular Object Pose Estimation”
Presenter: Takahiro Maeda D1
(Toyota Technological Institute)
http://deeplearning.jp/

目次
1. 書誌情報
2. 概要
3. 研究背景
4. 提案手法
5. 実験結果
6. 考察・所感
2

1. 書誌情報
紹介論文
タイトル: EPro-PnP: Generalized End-to-End Probabilistic
Perspective-n-Points for Monocular Object Pose Estimation
出典: CVPR2022 Best Student Paper
著者: Hansheng Chen, …, Hao Li.
所属: 同済大学（中国），Alibaba
選書理由
CVPR2022のBest Student Paperに興味がある
※引用は最後にまとめてあります．特に明示が無い場合は，紹介論文，動画から引用
3

2. 概要
• argminの学習不安定性を緩和する手法を提案
① 物体姿勢推定は Perspective-n-Point (PnP) が比較的高精度
② しかし，PnPはargmin処理により，微分不可・学習不安定
③ 提案手法(EPro-PnP)では，argmin出力を確率分布とする
ことで微分可能にし，End-to-End学習を可能にした．
4
Perspective-n-Point (PnP)問題
[1]

3. 研究背景: Direct Pose Prediction
5
２D画像
姿勢 𝑅, 𝒕
6次元姿勢推定[2]
3次元位置
3次元回転
3次元物体検出（車載系）[3]
平面上2次元位置
鉛直方向1次元回転
姿勢の例
良い点
• 単純
• 物体形状を必要としない
悪い点
• (PnPと比べ）解釈性が低い
• 過学習，汎化性能悪い（見た目の変化に過敏）
損失関数

3. 研究背景: Perspective-n-Point (PnP)
6
物体形状が既知の場合．．．
3点以上の対応付けから
姿勢推定が可能 (PnP)
𝒙𝑖
3D
∈ ℝ3 : 物体表面上の3次元点
𝒙𝑖
2D
∈ ℝ2
: 画像上の2次元点
𝒘𝑖
2D
∈ ℝ+
2 : 各2次元点の重要度
𝑅, 𝒕 = argmin𝑅,𝒕
𝑖
𝒘𝑖
2D
∘ 𝜋 𝑅𝒙𝑖
3D
+ 𝒕 − 𝒙𝑖
2D 𝟐
推定姿勢投影した3次元
点
良い点
• 高精度
• 計算式が明示的で解釈性が高い
悪い点
• 物体形状が必要
End-to-End学習で
物体形状もimplicitに
学習可能．．．？
2次元点

3. 研究背景: End-to-EndなPnPの課題
7
良い点
• PnPにより（学習可能ならば）高
精度
• 物体形状を必要としない
悪い点
• argminに対して勾配を通すため，学習が不
２D画像損失関数
𝒙𝑖
3D
∈ ℝ3 : 3次元
点
𝒙𝑖
2D
∈ ℝ2 : 2次元
点
𝒘𝑖
2D
∈ ℝ+
2
: 重要度
姿勢 𝑅, 𝒕
PnP solver
argmin𝑅,𝒕
𝑖
𝐞𝐫𝐫 𝟐
不連続
勾配更新前後の損失の急激な変化
提案手法

4. 提案手法: argminから確率分布への緩和
8
２D画像損失関数
MSE
𝒙𝑖
3D
∈ ℝ3
𝒙𝑖
2D
∈ ℝ2
𝒘𝑖
2D
∈ ℝ+
2
姿勢 𝑅, 𝒕
PnP solver
argmin𝑅,𝒕
𝑖
𝐞𝐫𝐫 𝟐
不連続
従来法
提案手法
２D画像
EPro-PnP
連続確率分布
𝒙𝑖
3D
∈ ℝ3
𝒙𝑖
2D
∈ ℝ2
𝒘𝑖
2D
∈ ℝ+
2
GT分布[4]
損失関数
KL divergence
Pose
Softmax

4. 提案手法: categorical softmaxとの対比
9
Categorical
Softmax
EPro-PnP
入力空間推定分布 GT分布損失関数
離散
( クラス数 )
連続値
( 姿勢空間 )
exp(𝑥𝑖)
𝑖 exp(𝑥𝑖)
exp(−
1
2
𝒆𝒓𝒓(𝒚, 𝑿) 2)
exp −
1
2
𝒆𝒓𝒓 𝒚, 𝑿 2 𝑑𝒚
𝒙𝑖
3D
∈ ℝ3
𝒙𝑖
2D
∈ ℝ2
𝒘𝑖
2D
∈ ℝ+
2
姿勢 𝑅, 𝒕
𝑿 𝒚
onehot
デルタ
関数
Cross
Entropy
KL
Divergence

4. 提案手法: 損失関数
10
確率分布
GT分布[4]
損失関数
KL divergence
Pose
𝐿 = 𝐷KL 𝛿gt 𝒚 𝑝 𝒚 𝑿
= 𝛿gt 𝒚 log
𝛿gt 𝒚
𝑝 𝒚 𝑿
𝑑𝒚
= − 𝛿gt 𝒚 log 𝑝 𝒚 𝑿 𝑑𝒚 + const
= −log 𝑝 𝒚gt 𝑿 + const
=
1
2
𝒆𝒓𝒓 𝒚gt, 𝑿
2
+ log exp −
1
2
𝒆𝒓𝒓 𝒚, 𝑿 2
𝑑𝒚
𝛿gt(𝒚)
𝑝(𝒚|𝑿)
確率密度関数におけるKLDの定義
𝑿に関わらない項を定数に
デルタ関数の積分の定義
𝑝(𝒚|𝑿)の定義，const省略
GT姿勢の確率を最大化他の姿勢の確率を最小化
確率分布

4. 提案手法: 重点サンプリングによる積分値の近似
11
log exp −
1
2
𝒆𝒓𝒓 𝒚, 𝑿 2 𝑑𝒚 = log 𝑓 𝒚 𝑑𝒚
= log
𝑓 𝒚
𝑞 𝒚
𝑞 𝒚 𝑑𝒚
= log 𝔼𝑞
𝑓 𝒚
𝑞 𝒚
≈ log
𝑖
𝑓 𝒚
𝑞 𝒚
𝑓(𝒚)と置く
𝑞 𝒚
𝑞(𝒚)
= 1を掛け合わせる．
ただし，𝑞(𝒚)はサンプリング可な確率分
布
積分を期待値とする
𝑞(𝒚)からのサンプルによる期待値の近似
（重点サンプリング）
重点サンプリングの近似精度は𝑞(𝒚)の選択に依存
推定空間に合わせた分布を選択する必要がある．
姿勢推定： 3次元位置 t分布
1次元角度 von Mises distribution と一様分布の混
合
3次元角度 Angular Central Gaussian Distribution

5. 実験結果: 6次元姿勢推定
12
6次元姿勢推定[2]
CDPN: PnPベースの6次元姿勢推定従来法

5. 実験結果: 3次元物体検出
13
3次元物体検出（車載系）[3]
平面上2次元位置
鉛直方向1次元回転

6. 所感・考察
• softmaxの連続空間verを提案
– 身近な場所にbest paperの種が落ちている
• argminは古典的アルゴリズムで頻出するため，応用範囲が広い
• 解法がシンプル
• 性能も向上
• 流石best paper
14

引用
[1] Perspective-n-Point問題 http://www.sanko-shoko.net/note.php?id=y15w
[2] EfficientPose https://github.com/ybkscht/EfficientPose
[3] KITTI http://www.cvlibs.net/datasets/kitti/
[4] Dirac delta https://jp.mathworks.com/help/symbolic/sym.dirac.html
15

【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (9)

【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation

Editor's Notes