【DL輪読会】Trajectory Prediction with Latent Belief Energy-Based Model

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Trajectory Prediction with Latent Belief Energy-Based Model
(CVPR 2021)
Takeru Oba, Ukita Lab

書誌情報
2
タイトル：Trajectory Prediction with Latent Belief Energy-Based Model
著者：B Pang, T Zhao, X Xie, YN Wu
Department of Statistics, University of California, Los Angeles (UCLA)
会議：CVPR 2021
関連技術：軌跡予測、エネルギーモデル

概要
問題
入力：N人の位置の軌跡(𝑿)
出力：𝑡𝑝𝑟𝑒𝑑先までの位置の予測(𝒀)
論文の新規性・重要な技術
• 周囲の人の位置や過去の軌跡や目的など
様々な要素からなる人の潜在意思を低次元
な潜在変数(𝒁)で表現し、その分布をエネル
ギーモデル(LB-EBM: Latent Belief Energy-
Based Model)で学習する
• 潜在変数からいきなりすべてのフレームの
位置を予測するのではなく、まずは粗い軌
跡を予測する（Plan)
3
周囲の人の位置などを
考慮して軌跡を予測
（注: 画像は使わない）

関連技術（エネルギーベースモデル）
VAEやGANと比較したときのエネルギーモデルの良さ
4
生成器
Z X
VAE, GAN
事前に決めた分布から得た
潜在変数から対象データへの写像を
モデルが学習
そのため真の分布に基づいた
サンプリングが難しいガウス分布
潜在変数
EBM
X
エネルギーベースモデル(EBM)
モデルで分布を表現（学習）するため
ニューラルネットワークを使えば
任意の分布を表現できる
score
0.33
そのデータの生成確率
のような値

提案手法の全体像
5
提案手法は3つのモデルを利用して、未来の軌跡の尤度を計算する
自分と周りの人間の過去の軌跡(𝑿)から
人の潜在変数(𝒁)を予測
過去の軌跡(𝑿)と潜在変数(𝒁)から
未来の粗い軌跡(𝑷)を予測
過去の軌跡(𝑿)と粗い軌跡(𝑷)から
𝑡𝑝𝑟𝑒𝑑フレーム先までの位置の予測

提案手法 (LB-EBM)
LB-EBMの目的：
過去の軌跡(𝑿)から未知な低次元な潜在変数(𝒁)の分布を学習
LB-EBMの学習方法：
潜在変数(𝒁)のGTがあると仮定して以下の式を最大化する
6
人のインデックスそれぞれの人の低次元な潜在変数
自分を含む周囲の人の過去の軌跡から
抽出した特徴量

LB-EBMの目的：
潜在変数(𝒁)のGTがあると仮定して以下の式を最大化する
7
ガウス分布などの制約項
確率の合計が1に
なるような正規化項
スコアを出力するMLP
値が低いほど確率は高くなる
近傍の人間のみでself-Attention
による特徴量の計算

LB-EBMの目的：
正規化項は潜在変数(𝒁)の分布で積分する必要
しかし、積分は計算コストが高いため
MCMCによりエネルギーモデルからサンプリングしたデータで計算する
実際にはLangevin Monte Carloという以下の方法でサンプリングする
8
ステップサイズ
（ハイパラ）
確率が高い方向に向かう勾配ガウシアンノイズ

LB-EBMの目的：
潜在変数(𝒁)はVAEのようにエンコーダーから得る
最終的にLB-EBMは以下の式を最大化する
9
エンコーダーから得られた𝒁の分布と
事前分布を近づける
∇𝛼 log 𝑍𝛼
≅ −E𝑧~𝑝𝛼(𝑋)
[∇𝛼𝐶𝛼(𝒁, 𝑿)]
エンコーダーから得られた𝒁の
スコアを小さくする（確率を上げる）
エネルギーモデルからサンプリングした𝒁の
スコアを大きくする（確率を下げる）

LB-EBMの目的：
LB-EBMとVAEの違い（考察）：
1. EBMで潜在変数ではなく軌跡のスコアを直接学習できるが、EBMは高次元
になるほど学習が難しいため、VAEのように低次元化している（これは論文
中に書かれている）
2. 潜在変数はEnd2Endで学習されるが、学習時に分布が変化し続けると学習
が安定しないため、VAEのように分布に制約をかけている
3. 学習の安定性と分布の表現力はトレードオフになっており、分布の制約項
に対するハイパーパラメータで管理する？
10

11
𝑡_𝑝𝑟𝑒𝑑フレーム先までの位置の予測

提案手法 (Plan)
Planの目的：
潜在変数(𝒁)から粗い軌跡(𝑷)を予測する
粗い軌跡(𝑷)は未来の軌跡(𝒀)から一定間隔(3フレーム）ごとに値を取り出して
生成する
学習は以下の尤度を最大化
12
これはガウス分布であり
MLPが平均と分散を出力する
学習時にはエンコーダーから得られた𝒁
テスト時にはLB-EBMからサンプリングした𝒁

13
𝑡𝑝𝑟𝑒𝑑フレーム先までの位置の予測

提案手法 (Prediction)
Predictionの目的：
粗い軌跡(𝑷)から𝑡𝑝𝑟𝑒𝑑フレーム先までの位置を予測する
学習は以下の尤度を最大化
14
Planと同様ガウス分布であり
MLPが平均と分散を出力する

提案手法（全体像）
15
最終的な目的関数
以下の式を最大化する
Plan
Predict
LB-EBM

提案手法（全体像）
16
潜在変数の分布を
EBMで学習
学習時に
潜在変数を生成
粗い軌跡を予測
軌跡全体を
予測

評価指標
軌跡予測を二つの指標(ADE,FDE)で評価
17
Average Displacement Error (ADE)・・・全フレームでの予測誤差の平均
Final Displacement Error (FDE)・・・最終フレームでの予測誤差の平均
確率的なモデルなので出力が複数ある
そのため20回サンプリングして一番結果が良いもので評価

実験結果 (Stanford Drone Dataset)
18
データの例
ADE,FDE共に高精度

19
白丸：過去の軌跡
青丸：GT
赤丸：予測結果
1段目：
GTに近いサンプル
2段目：
20サンプルの描写

20
白丸：過去の軌跡青丸：GT 赤丸：予測結果
他の人との相互作用があるデータでの結果
ぶつからないような軌跡を予測

実験結果 (ETH-UCY)
21
データの例
表の見方: 平均誤差(ADE) / 最終誤差(FDE)
GANやVAE, IRLなどの比較手法と比べて精度向上を確認

実験結果 (Ablation)
結果
• 潜在変数の分布をEBMで表現したことで精度向上を確認
• Planがないと精度が大きく落ちる
– Coarse to Fineや階層型の予測が大事
– これはモデルが自己回帰モデルでなかったことも影響してそう 22
EBMの代わりに
ガウス分布を使用
(VAE?)
Coarse to Fine
なし
他の人の軌跡
なし
提案手法
Coarse to
Fine(Plan)なし

まとめ
• 人の潜在変数をエネルギーモデルで表現することで精度の向上を確認
• エネルギーモデルで軌跡の確率を学習するのではなく、低次元な潜在変数
を学習することで、学習を簡単にしている
• End to Endで潜在変数を学習するためにVAEのような学習方法を提案
• 粗い軌跡を先に予測することでより精度を向上させた
23

【DL輪読会】Trajectory Prediction with Latent Belief Energy-Based Model

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (9)

【DL輪読会】Trajectory Prediction with Latent Belief Energy-Based Model