Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Activity Forecasting@jh3roxKris Kitani, Brian D. Ziebart, James Bagnell and Martial Hebert
紹介する論文 Activity Forecasting (ECCV2012) Best Paper Award – Honorable Mention プロジェクトページ 論文(pdf) デモ動画(youtube)2
論文概要3 人の行動軌跡と、空間属性(歩道・車など)を使って、「各属性の価値」および「人が好む経路」を学習する。 あるスタート地点からゴール地点までの、最適経路を予測できるようになった(Activity Forecasting)行動軌跡空間...
強化学習と逆強化学習 強化学習 報酬関数をgivenとして 最適な行動を学習 逆強化学習 最適な行動をgivenとして 報酬関数を学習4
逆強化学習の例 ヘリコプターの自動制御(Stanford Univ.) 熟練者の操縦ログをgivenとして、飛行方法を自律的に学習 「ハリケーン」や「チックタック」といった技を披露しているデモ動画5
提案するモデル(hMDP) 観測に基づき、未知の報酬関数(のパラメータ)を学習観測報酬関数状態行動r(s)s = [x, y]a = [vx, vy]6
報酬関数 特徴ベクトルf(s)の線形和で報酬を表現 学習したいのは重みベクトルθ7http://www.cs.cmu.edu/~kkitani/ActivityForecasting.html
重みベクトルθの学習(線形回帰)8 尤度関数 対数尤度 対数尤度の勾配教師軌跡から求めた特徴ベクトルの平均値現パラメータθで求めた特徴ベクトルの期待値 勾配法で更新これを最小化Two-step algorithmで計算
の計算(two-step algorithm)91. Backward pass 現パラメータθを用いてゴールまでの最適経路πθを生成2. Forward pass 最適経路πθに基づき、ゴールまでに得られる特徴ベクトルの期待値 を算出
実験10 データセット VIRAT ground dataset http://www.viratdata.org/ 92個の動画を利用 80%で学習、20%で評価、3-fold cross validation 特徴ベクトル(40次...
実験結果(1) 定量評価は論文参照111. Sequence smoothing 時刻 t までの軌跡をスムージング2. Destination forecasting 時刻 t 以降の行動を予測http://www.cs.cmu.edu/...
実験結果(2) 定量評価は論文参照123. Knowledge transfer 学習済みのθを使って別シーンの行動を予測http://www.cs.cmu.edu/~kkitani/ActivityForecasting.html
まとめ13 逆強化学習と画像認識(人物追跡・シーンラベリング)を組み合わせることで、「人が好む行動パターン」を学習でき、結果として人物行動の将来予測を実現した。 今回は軌跡に限定したが、離散的な行動系列にも使える。
Upcoming SlideShare
Loading in …5
×

Activity forecasting

8,365 views

Published on

European Conference on Computer Vision (ECCV) 2012

Published in: Technology

Activity forecasting

  1. 1. Activity Forecasting@jh3roxKris Kitani, Brian D. Ziebart, James Bagnell and Martial Hebert
  2. 2. 紹介する論文 Activity Forecasting (ECCV2012) Best Paper Award – Honorable Mention プロジェクトページ 論文(pdf) デモ動画(youtube)2
  3. 3. 論文概要3 人の行動軌跡と、空間属性(歩道・車など)を使って、「各属性の価値」および「人が好む経路」を学習する。 あるスタート地点からゴール地点までの、最適経路を予測できるようになった(Activity Forecasting)行動軌跡空間属性人が好む経路を学習(by 逆強化学習)http://www.cs.cmu.edu/~kkitani/ActivityForecasting.html
  4. 4. 強化学習と逆強化学習 強化学習 報酬関数をgivenとして 最適な行動を学習 逆強化学習 最適な行動をgivenとして 報酬関数を学習4
  5. 5. 逆強化学習の例 ヘリコプターの自動制御(Stanford Univ.) 熟練者の操縦ログをgivenとして、飛行方法を自律的に学習 「ハリケーン」や「チックタック」といった技を披露しているデモ動画5
  6. 6. 提案するモデル(hMDP) 観測に基づき、未知の報酬関数(のパラメータ)を学習観測報酬関数状態行動r(s)s = [x, y]a = [vx, vy]6
  7. 7. 報酬関数 特徴ベクトルf(s)の線形和で報酬を表現 学習したいのは重みベクトルθ7http://www.cs.cmu.edu/~kkitani/ActivityForecasting.html
  8. 8. 重みベクトルθの学習(線形回帰)8 尤度関数 対数尤度 対数尤度の勾配教師軌跡から求めた特徴ベクトルの平均値現パラメータθで求めた特徴ベクトルの期待値 勾配法で更新これを最小化Two-step algorithmで計算
  9. 9. の計算(two-step algorithm)91. Backward pass 現パラメータθを用いてゴールまでの最適経路πθを生成2. Forward pass 最適経路πθに基づき、ゴールまでに得られる特徴ベクトルの期待値 を算出
  10. 10. 実験10 データセット VIRAT ground dataset http://www.viratdata.org/ 92個の動画を利用 80%で学習、20%で評価、3-fold cross validation 特徴ベクトル(40次元) シーンラベル(歩道、建物、フェンス等):9種類 シーンラベル別のオブジェクト間距離:4種類 人物トラッカー出力:3種類 旅行時間:1種類
  11. 11. 実験結果(1) 定量評価は論文参照111. Sequence smoothing 時刻 t までの軌跡をスムージング2. Destination forecasting 時刻 t 以降の行動を予測http://www.cs.cmu.edu/~kkitani/ActivityForecasting.html
  12. 12. 実験結果(2) 定量評価は論文参照123. Knowledge transfer 学習済みのθを使って別シーンの行動を予測http://www.cs.cmu.edu/~kkitani/ActivityForecasting.html
  13. 13. まとめ13 逆強化学習と画像認識(人物追跡・シーンラベリング)を組み合わせることで、「人が好む行動パターン」を学習でき、結果として人物行動の将来予測を実現した。 今回は軌跡に限定したが、離散的な行動系列にも使える。

×