SlideShare a Scribd company logo
1 of 15
DEEP LEARNING JP
[DL Papers]
“EPro-PnP: Generalized End-to-End Probabilistic
Perspective-n-Points for Monocular Object Pose Estimation”
Presenter: Takahiro Maeda D1
(Toyota Technological Institute)
http://deeplearning.jp/
目次
1. 書誌情報
2. 概要
3. 研究背景
4. 提案手法
5. 実験結果
6. 考察・所感
2
1. 書誌情報
紹介論文
タイトル: EPro-PnP: Generalized End-to-End Probabilistic
Perspective-n-Points for Monocular Object Pose Estimation
出典: CVPR2022 Best Student Paper
著者: Hansheng Chen, …, Hao Li.
所属: 同済大学(中国),Alibaba
選書理由
CVPR2022のBest Student Paperに興味がある
※引用は最後にまとめてあります.特に明示が無い場合は,紹介論文,動画から引用
3
2. 概要
• argminの学習不安定性を緩和する手法を提案
① 物体姿勢推定は Perspective-n-Point (PnP) が比較的高精度
② しかし,PnPはargmin処理により,微分不可・学習不安定
③ 提案手法(EPro-PnP)では,argmin出力を確率分布とする
ことで微分可能にし,End-to-End学習を可能にした.
4
Perspective-n-Point (PnP)問題
[1]
3. 研究背景: Direct Pose Prediction
5
2D画像
姿勢 𝑅, 𝒕
6次元姿勢推定[2]
3次元位置
3次元回転
3次元物体検出(車載系)[3]
平面上2次元位置
鉛直方向1次元回転
姿勢の例
良い点
• 単純
• 物体形状を必要としない
悪い点
• (PnPと比べ)解釈性が低い
• 過学習,汎化性能悪い(見た目の変化に過敏)
損失関数
3. 研究背景: Perspective-n-Point (PnP)
6
物体形状が既知の場合...
3点以上の対応付けから
姿勢推定が可能 (PnP)
𝒙𝑖
3D
∈ ℝ3 : 物体表面上の3次元点
𝒙𝑖
2D
∈ ℝ2
: 画像上の2次元点
𝒘𝑖
2D
∈ ℝ+
2 : 各2次元点の重要度
𝑅, 𝒕 = argmin𝑅,𝒕
𝑖
𝒘𝑖
2D
∘ 𝜋 𝑅𝒙𝑖
3D
+ 𝒕 − 𝒙𝑖
2D 𝟐
推定姿勢 投影した3次元
点
良い点
• 高精度
• 計算式が明示的で解釈性が高い
悪い点
• 物体形状が必要
End-to-End学習で
物体形状もimplicitに
学習可能...?
2次元点
3. 研究背景: End-to-EndなPnPの課題
7
良い点
• PnPにより(学習可能ならば)高
精度
• 物体形状を必要としない
悪い点
• argminに対して勾配を通すため,学習が不
2D画像 損失関数
𝒙𝑖
3D
∈ ℝ3 : 3次元
点
𝒙𝑖
2D
∈ ℝ2 : 2次元
点
𝒘𝑖
2D
∈ ℝ+
2
: 重要度
姿勢 𝑅, 𝒕
PnP solver
argmin𝑅,𝒕
𝑖
𝐞𝐫𝐫 𝟐
不連続
勾配更新前後の損失の急激な変化
提案手法
4. 提案手法: argminから確率分布への緩和
8
2D画像 損失関数
MSE
𝒙𝑖
3D
∈ ℝ3
𝒙𝑖
2D
∈ ℝ2
𝒘𝑖
2D
∈ ℝ+
2
姿勢 𝑅, 𝒕
PnP solver
argmin𝑅,𝒕
𝑖
𝐞𝐫𝐫 𝟐
不連続
従来法
提案手法
2D画像
EPro-PnP
連続 確率分布
𝒙𝑖
3D
∈ ℝ3
𝒙𝑖
2D
∈ ℝ2
𝒘𝑖
2D
∈ ℝ+
2
GT分布[4]
損失関数
KL divergence
Pose
Softmax
4. 提案手法: categorical softmaxとの対比
9
Categorical
Softmax
EPro-PnP
入力空間 推定分布 GT分布 損失関数
離散
( クラス数 )
連続値
( 姿勢空間 )
exp(𝑥𝑖)
𝑖 exp(𝑥𝑖)
exp(−
1
2
𝒆𝒓𝒓(𝒚, 𝑿) 2)
exp −
1
2
𝒆𝒓𝒓 𝒚, 𝑿 2 𝑑𝒚
𝒙𝑖
3D
∈ ℝ3
𝒙𝑖
2D
∈ ℝ2
𝒘𝑖
2D
∈ ℝ+
2
姿勢 𝑅, 𝒕
𝑿 𝒚
onehot
デルタ
関数
Cross
Entropy
KL
Divergence
4. 提案手法: 損失関数
10
確率分布
GT分布[4]
損失関数
KL divergence
Pose
𝐿 = 𝐷KL 𝛿gt 𝒚 𝑝 𝒚 𝑿
= 𝛿gt 𝒚 log
𝛿gt 𝒚
𝑝 𝒚 𝑿
𝑑𝒚
= − 𝛿gt 𝒚 log 𝑝 𝒚 𝑿 𝑑𝒚 + const
= −log 𝑝 𝒚gt 𝑿 + const
=
1
2
𝒆𝒓𝒓 𝒚gt, 𝑿
2
+ log exp −
1
2
𝒆𝒓𝒓 𝒚, 𝑿 2
𝑑𝒚
𝛿gt(𝒚)
𝑝(𝒚|𝑿)
確率密度関数におけるKLDの定義
𝑿に関わらない項を定数に
デルタ関数の積分の定義
𝑝(𝒚|𝑿)の定義,const省略
GT姿勢の確率を最大化 他の姿勢の確率を最小化
確率分布
4. 提案手法: 重点サンプリングによる積分値の近似
11
log exp −
1
2
𝒆𝒓𝒓 𝒚, 𝑿 2 𝑑𝒚 = log 𝑓 𝒚 𝑑𝒚
= log
𝑓 𝒚
𝑞 𝒚
𝑞 𝒚 𝑑𝒚
= log 𝔼𝑞
𝑓 𝒚
𝑞 𝒚
≈ log
𝑖
𝑓 𝒚
𝑞 𝒚
𝑓(𝒚)と置く
𝑞 𝒚
𝑞(𝒚)
= 1を掛け合わせる.
ただし,𝑞(𝒚)はサンプリング可な確率分
布
積分を期待値とする
𝑞(𝒚)からのサンプルによる期待値の近似
(重点サンプリング)
重点サンプリングの近似精度は𝑞(𝒚)の選択に依存
推定空間に合わせた分布を選択する必要がある.
姿勢推定: 3次元位置 t分布
1次元角度 von Mises distribution と一様分布の混
合
3次元角度 Angular Central Gaussian Distribution
5. 実験結果: 6次元姿勢推定
12
6次元姿勢推定[2]
CDPN: PnPベースの6次元姿勢推定従来法
5. 実験結果: 3次元物体検出
13
3次元物体検出(車載系)[3]
平面上2次元位置
鉛直方向1次元回転
6. 所感・考察
• softmaxの連続空間verを提案
– 身近な場所にbest paperの種が落ちている
• argminは古典的アルゴリズムで頻出するため,応用範囲が広い
• 解法がシンプル
• 性能も向上
• 流石best paper
14
引用
[1] Perspective-n-Point問題 http://www.sanko-shoko.net/note.php?id=y15w
[2] EfficientPose https://github.com/ybkscht/EfficientPose
[3] KITTI http://www.cvlibs.net/datasets/kitti/
[4] Dirac delta https://jp.mathworks.com/help/symbolic/sym.dirac.html
15

More Related Content

What's hot

【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...Deep Learning JP
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphingDeep Learning JP
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fieldscvpaper. challenge
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセットToru Tamaki
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...Deep Learning JP
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"Deep Learning JP
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Yamato OKAMOTO
 
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...Deep Learning JP
 
【DL輪読会】CLIPORT: What and Where Pathways for Robotic Manipulation (CoRL 2021)
【DL輪読会】CLIPORT: What and Where Pathways for Robotic Manipulation (CoRL 2021)【DL輪読会】CLIPORT: What and Where Pathways for Robotic Manipulation (CoRL 2021)
【DL輪読会】CLIPORT: What and Where Pathways for Robotic Manipulation (CoRL 2021)Deep Learning JP
 
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換Koichi Hamada
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )cvpaper. challenge
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)Deep Learning JP
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from PixelsDeep Learning JP
 

What's hot (20)

【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
 
【DL輪読会】CLIPORT: What and Where Pathways for Robotic Manipulation (CoRL 2021)
【DL輪読会】CLIPORT: What and Where Pathways for Robotic Manipulation (CoRL 2021)【DL輪読会】CLIPORT: What and Where Pathways for Robotic Manipulation (CoRL 2021)
【DL輪読会】CLIPORT: What and Where Pathways for Robotic Manipulation (CoRL 2021)
 
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成Hiroshi Tomioka
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 

Recently uploaded (9)

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 

【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation

  • 1. DEEP LEARNING JP [DL Papers] “EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation” Presenter: Takahiro Maeda D1 (Toyota Technological Institute) http://deeplearning.jp/
  • 2. 目次 1. 書誌情報 2. 概要 3. 研究背景 4. 提案手法 5. 実験結果 6. 考察・所感 2
  • 3. 1. 書誌情報 紹介論文 タイトル: EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation 出典: CVPR2022 Best Student Paper 著者: Hansheng Chen, …, Hao Li. 所属: 同済大学(中国),Alibaba 選書理由 CVPR2022のBest Student Paperに興味がある ※引用は最後にまとめてあります.特に明示が無い場合は,紹介論文,動画から引用 3
  • 4. 2. 概要 • argminの学習不安定性を緩和する手法を提案 ① 物体姿勢推定は Perspective-n-Point (PnP) が比較的高精度 ② しかし,PnPはargmin処理により,微分不可・学習不安定 ③ 提案手法(EPro-PnP)では,argmin出力を確率分布とする ことで微分可能にし,End-to-End学習を可能にした. 4 Perspective-n-Point (PnP)問題 [1]
  • 5. 3. 研究背景: Direct Pose Prediction 5 2D画像 姿勢 𝑅, 𝒕 6次元姿勢推定[2] 3次元位置 3次元回転 3次元物体検出(車載系)[3] 平面上2次元位置 鉛直方向1次元回転 姿勢の例 良い点 • 単純 • 物体形状を必要としない 悪い点 • (PnPと比べ)解釈性が低い • 過学習,汎化性能悪い(見た目の変化に過敏) 損失関数
  • 6. 3. 研究背景: Perspective-n-Point (PnP) 6 物体形状が既知の場合... 3点以上の対応付けから 姿勢推定が可能 (PnP) 𝒙𝑖 3D ∈ ℝ3 : 物体表面上の3次元点 𝒙𝑖 2D ∈ ℝ2 : 画像上の2次元点 𝒘𝑖 2D ∈ ℝ+ 2 : 各2次元点の重要度 𝑅, 𝒕 = argmin𝑅,𝒕 𝑖 𝒘𝑖 2D ∘ 𝜋 𝑅𝒙𝑖 3D + 𝒕 − 𝒙𝑖 2D 𝟐 推定姿勢 投影した3次元 点 良い点 • 高精度 • 計算式が明示的で解釈性が高い 悪い点 • 物体形状が必要 End-to-End学習で 物体形状もimplicitに 学習可能...? 2次元点
  • 7. 3. 研究背景: End-to-EndなPnPの課題 7 良い点 • PnPにより(学習可能ならば)高 精度 • 物体形状を必要としない 悪い点 • argminに対して勾配を通すため,学習が不 2D画像 損失関数 𝒙𝑖 3D ∈ ℝ3 : 3次元 点 𝒙𝑖 2D ∈ ℝ2 : 2次元 点 𝒘𝑖 2D ∈ ℝ+ 2 : 重要度 姿勢 𝑅, 𝒕 PnP solver argmin𝑅,𝒕 𝑖 𝐞𝐫𝐫 𝟐 不連続 勾配更新前後の損失の急激な変化 提案手法
  • 8. 4. 提案手法: argminから確率分布への緩和 8 2D画像 損失関数 MSE 𝒙𝑖 3D ∈ ℝ3 𝒙𝑖 2D ∈ ℝ2 𝒘𝑖 2D ∈ ℝ+ 2 姿勢 𝑅, 𝒕 PnP solver argmin𝑅,𝒕 𝑖 𝐞𝐫𝐫 𝟐 不連続 従来法 提案手法 2D画像 EPro-PnP 連続 確率分布 𝒙𝑖 3D ∈ ℝ3 𝒙𝑖 2D ∈ ℝ2 𝒘𝑖 2D ∈ ℝ+ 2 GT分布[4] 損失関数 KL divergence Pose Softmax
  • 9. 4. 提案手法: categorical softmaxとの対比 9 Categorical Softmax EPro-PnP 入力空間 推定分布 GT分布 損失関数 離散 ( クラス数 ) 連続値 ( 姿勢空間 ) exp(𝑥𝑖) 𝑖 exp(𝑥𝑖) exp(− 1 2 𝒆𝒓𝒓(𝒚, 𝑿) 2) exp − 1 2 𝒆𝒓𝒓 𝒚, 𝑿 2 𝑑𝒚 𝒙𝑖 3D ∈ ℝ3 𝒙𝑖 2D ∈ ℝ2 𝒘𝑖 2D ∈ ℝ+ 2 姿勢 𝑅, 𝒕 𝑿 𝒚 onehot デルタ 関数 Cross Entropy KL Divergence
  • 10. 4. 提案手法: 損失関数 10 確率分布 GT分布[4] 損失関数 KL divergence Pose 𝐿 = 𝐷KL 𝛿gt 𝒚 𝑝 𝒚 𝑿 = 𝛿gt 𝒚 log 𝛿gt 𝒚 𝑝 𝒚 𝑿 𝑑𝒚 = − 𝛿gt 𝒚 log 𝑝 𝒚 𝑿 𝑑𝒚 + const = −log 𝑝 𝒚gt 𝑿 + const = 1 2 𝒆𝒓𝒓 𝒚gt, 𝑿 2 + log exp − 1 2 𝒆𝒓𝒓 𝒚, 𝑿 2 𝑑𝒚 𝛿gt(𝒚) 𝑝(𝒚|𝑿) 確率密度関数におけるKLDの定義 𝑿に関わらない項を定数に デルタ関数の積分の定義 𝑝(𝒚|𝑿)の定義,const省略 GT姿勢の確率を最大化 他の姿勢の確率を最小化 確率分布
  • 11. 4. 提案手法: 重点サンプリングによる積分値の近似 11 log exp − 1 2 𝒆𝒓𝒓 𝒚, 𝑿 2 𝑑𝒚 = log 𝑓 𝒚 𝑑𝒚 = log 𝑓 𝒚 𝑞 𝒚 𝑞 𝒚 𝑑𝒚 = log 𝔼𝑞 𝑓 𝒚 𝑞 𝒚 ≈ log 𝑖 𝑓 𝒚 𝑞 𝒚 𝑓(𝒚)と置く 𝑞 𝒚 𝑞(𝒚) = 1を掛け合わせる. ただし,𝑞(𝒚)はサンプリング可な確率分 布 積分を期待値とする 𝑞(𝒚)からのサンプルによる期待値の近似 (重点サンプリング) 重点サンプリングの近似精度は𝑞(𝒚)の選択に依存 推定空間に合わせた分布を選択する必要がある. 姿勢推定: 3次元位置 t分布 1次元角度 von Mises distribution と一様分布の混 合 3次元角度 Angular Central Gaussian Distribution
  • 12. 5. 実験結果: 6次元姿勢推定 12 6次元姿勢推定[2] CDPN: PnPベースの6次元姿勢推定従来法
  • 14. 6. 所感・考察 • softmaxの連続空間verを提案 – 身近な場所にbest paperの種が落ちている • argminは古典的アルゴリズムで頻出するため,応用範囲が広い • 解法がシンプル • 性能も向上 • 流石best paper 14
  • 15. 引用 [1] Perspective-n-Point問題 http://www.sanko-shoko.net/note.php?id=y15w [2] EfficientPose https://github.com/ybkscht/EfficientPose [3] KITTI http://www.cvlibs.net/datasets/kitti/ [4] Dirac delta https://jp.mathworks.com/help/symbolic/sym.dirac.html 15

Editor's Notes

  1. という論文を紹介します.
  2. まず,書誌情報です. この論文はCVPR2022でBest Student Paperを受賞しており,Best Paperに興味があったため選びました.
  3. この論文は,機械学習モデル内のargmin処理が学習不安定であることを解決しました. 大まかな流れとして,この3段階に分けられます. 物体姿勢推定は右図に示すPerspective-n-Point PnPが高精度です. これは,古典的なCVアルゴリズムで,3次元空間の点と2次元画像上の点を対応付けることで,物体姿勢を求めます. しかし,このPnPはargmin処理のために機械学習モデル内で用いると学習が困難です. これに対して,提案手法ではargmin処理の出力を確率分布とすることで微分可能にし,End-to-End学習を可能にしました.
  4. 研究背景について説明します. 深層学習が流行りだした後には,このように物体が写った画像から直接姿勢をregressionする手法が多く取られています. 姿勢の例としては,3次元位置と3次元回転や車載系では道路平面上の2次元位置と鉛直方向の回転などです. 良い点として,単純であり物体形状を必要としません. しかし,物体全体の情報から姿勢を推定するため,過学習しがちで汎化性能が悪いです.
  5. 物体形状が既知の場合,右図のように物体表面上の点と画像平面上の点を3点以上対応付けることで, 物体姿勢を求めることが可能です. これがPerspective-n-Pointアルゴリズムです. 具体的には,画像上に投影した3次元点と2次元点の距離が最小になるようにargmin処理で姿勢を求めます. 良い点として,局所的な見た目によって姿勢推定を求めるため,見た目の変化にロバストで高精度です. また推定失敗した場合は,対応付けミスを調べることで解釈を行えます. しかし,大きな問題としてこのアルゴリズムは物体形状が必要です. 深層学習の時代では,End-to-Endで物体形状もimplicitに学習できないかと考えます.
  6. 単純にPnPを深層学習器と組み合わせたものがこちらです. 画像情報から深層学習器によってPnPの入力となる3つを出力します. その後,PnP内でargminを行うことで姿勢を推定し,損失を計算します. このようにEnd-to-End学習することで物体形状も学習できることを期待します. しかし,argmin処理は不連続で微分不可なために,勾配更新前後で損失が急激に変化し学習が不安定です. よって,提案手法が必要です.
  7. End-to-End Probabilistic PnP (EPro-PnP)が提案されました. これは,argmin処理の出力をsoftmaxを用いて確率分布とすることで,連続で微分可能にし学習を安定化させています. 損失はGT分布とのKL divergenceです. 俯瞰してみるとかなり単純な手法だとわかっていただけると思います.
  8. このEpro-PnPは,classificationのSoftmaxとよく対比されます. softmaxは離散クラスにおいて用いられ,Epro-PnPは連続空間において用いられます. EPro-PnPの確率値は,よくご存じのsoftmaxを連続空間に拡張したものとなっています. softmaxのGT分布はonehotベクトルですが,Epro-PnPではディラックのデルタ関数が用いられます. このデルタ関数は,ある一点において確率密度が無限大となる関数で,onehotと酷似しています. 用いられる損失は,cross entropyとKL divergenceでほぼ同じものです. このようにEpro-PnPはsoftmaxを連続空間へ拡張している単純なものです.
  9. これから,KL損失を計算します. 式変形を重ねていくと,最終的にGT姿勢の確率を最大化する項と他の姿勢の確率を最小化する項にたどり着きます. これは,categorical softmaxを微分した場合にも類似した項が得られます. しかし,大きな問題点として連続空間全体に対する積分が計算できず,最適化できません.
  10. 提案手法では,この積分値を重点サンプリングにより近似します. 重点サンプリングは,あるサンプリング可能な分布による期待値で積分値を近似します. この近似精度は分布qがどれだけ真の分布との類似性に依存します. よって提案手法では,3次元位置空間や角度空間での分布qも提案しています. 結局はすべてGaussian likeな分布です.
  11. このEPro-PnPを物体6次元姿勢推定に適用した例がこちらです. 既存ネットワークから,3次元位置と重要度を予測するブランチを生やして学習したところ, 精度が向上されています.
  12. また,車載系の3次元物体検出にも適用されていました. ここでも精度向上が確認されています.
  13. まとめです. 提案手法では,categorical softmaxの連続空間版を提案し,argmax処理の不連続性を解消しています. argmin処理は古典的なアルゴリズムで頻出するため,かなり応用範囲が広いのではないかと感じます. また,解法もシンプルで性能も向上しており,流石best paperだと思います.