Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

CVPR2015読み会 "Joint Tracking and Segmentation of Multiple Targets"

3,308 views

Published on

第30回(前編) コンピュータビジョン勉強会@関東
http://kantocv.connpass.com/event/16586/
CVPR2015読み会発表資料
"Joint Tracking and Segmentation of Multiple Targets"

Published in: Engineering
  • Be the first to comment

CVPR2015読み会 "Joint Tracking and Segmentation of Multiple Targets"

  1. 1. CVPR2015読み会 Joint  Tracking  and  Segmentation   of  Multiple  Targets @yuukicammy 2015.7.20
  2. 2. 紹介する研究 • タイトル • “Joint  Tracking  and  Segmentation  of  Multiple  Targets” • 著者 • Anton  Milan,  Laura  Leal-‐‑‒Taixe´́,  Konrad  Schindler,  Ian  Reid • Multiple  Object  Tracking  Benchmark  (MOTChallenge)  の主催者た ち http://motchallenge.net/ • ソースコードが公開されている • MOTChallengeでの順位 • 現在は13位であるが,コードを公開しているTrackerの中では最上位 (2015.7.19現在) • 11位以上は全てAnonymous  submission(ほぼICCV2015投稿中のた め) 《CVPR2015読み会》コンピュータビジョン勉強会@関東 1
  3. 3. 概要 • ⽬目的 • 複数物体をトラッキング • 解決したい課題 • ⻑⾧長時間に渡って部分的なオクルージョンが続く ような混雑したシーンでは依然正確に追跡する ことは困難 • アプローチ • CRFを使って時空間セグメンテーションを⾏行行う • 実験結果 • 複数のstate-­‐of-­‐the-­‐art  tracking-­‐by-­‐detectionアプローチよりリコールが10% 改善し、IDスイッチを減らした 《CVPR2015読み会》コンピュータビジョン勉強会@関東 2
  4. 4. Contribution • 従来よりも多くの画像のエビデンスを使ったCRFモデル • 画像のエビデンス:物体検出の結果やスーパーピクセル • あらかじめ物体の数を固定しない完全⾃自動のセグメンテーショ ン&トラッキング • オクルージョンを扱う状態表現を⼯工夫した 《CVPR2015読み会》コンピュータビジョン勉強会@関東 3
  5. 5. 問題設定 • ⼊入⼒力力 • F枚のフレームから成るビデオシーケンス • 出⼒力力 • 全フレーム内の全ターゲットのラベル付きbounding  box(BBox) 《CVPR2015読み会》コンピュータビジョン勉強会@関東 4
  6. 6. 従来⼿手法 – Tracking-­‐by-­‐Detection  – • 検出結果をノードとみなして各ノードに ターゲットIDを割り当てる • 問題に制約を設けて全体最適解 • 局所最適解を⾒見見つける • 最近のアプローチ • 整数線形計画問題 • ネットワークフロー問題 • 01⼆二次計画問題 • エネルギー最⼩小化 • 最⼤大クリーク問題 • 重み付き最⼤大独⽴立立集合問題 … • 多くの⼿手法は検出結果しか使っていない →もっと低次元の画像情報も活かそう! 《CVPR2015読み会》コンピュータビジョン勉強会@関東 5
  7. 7. 従来⼿手法 – Segmentation  and  Tracking  – • ビデオセグメンテーション • Voxel(volume  pixel)にラベルを割り当てる • ラベルの数(ターゲットの数)が固定 • ターゲットの状態(位置など)はセグメンテー ション結果からしか推定していないため,オ クルージョンに弱い →ターゲットの数を固定しない! →オクルージョン状態をモデル化しよう! 《CVPR2015読み会》コンピュータビジョン勉強会@関東 6
  8. 8. 提案⼿手法 《CVPR2015読み会》コンピュータビジョン勉強会@関東 7 • ⽬目標 • 全フレーム内の全ターゲットの bounding  box(BBox)を求める • キーアイディア • ビデオセグメンテーションにBBox表現 を加える! • アプローチ • ターゲット検出結果とスーパーピクセ ルにラベル(ターゲットID)を割り当てる • ラベルの割り当てをマルチラベルの CRF(conditional  random  field)として解く • α拡張を使って局所最適解を求める ⼒力力技!!!
  9. 9. フロー 《CVPR2015読み会》コンピュータビジョン勉強会@関東 8 TSP(TemporalSuperPixel)の構築 HOG&HOF+SVMでターゲット検出 SVMで前景/背景の⾊色学習 単項ポテンシャルを計算 組ポテンシャルを計算 CRFを⽤用いて解くことでラベル付与 全フレーム内の初期軌跡を⽣生成 最終的な軌跡を⽣生成
  10. 10. CRFのエネルギー関数 《CVPR2015読み会》コンピュータビジョン勉強会@関東 9 単項ポテンシャル 組ポテンシャル :検出結果のノードdにあるラベルを割り当てるコスト :セグメンテーションノードsにあるラベルを割り当てるコスト :ノードvとwへ同じラベルを割り当てるコスト :軌跡の位置や動きに関するコスト :  ノード (スーパーピクセルと検出結果) :  エッジ(空間的隣隣接,時間的隣隣接,検出結果とスーパーピクセル) ※数式はわりと適当だったのでスライドで追いません
  11. 11. 軌跡表現 • 軌跡 • 各ターゲットの軌跡をBBox(x,y,w,h)の時空間チューブとして4Dスプライ ンを⽤用いて表す 《CVPR2015読み会》コンピュータビジョン勉強会@関東 10 (𝑥, 𝑦):  画像内の⾜足元位置(Bboxの中央下) (𝑤, ℎ):  Bboxの横幅と⾼高さ
  12. 12. ターゲット検出 • HOG(Histogram  of  Oriented  Gradients)と HOF(Histograms  of  Flow)+線形SVM を⽤用い た⼀一般的な⼈人物検出 • 検出結果も公開されている http://www.milanton.de/data.html 《CVPR2015読み会》コンピュータビジョン勉強会@関東 11 TSP(TemporalSuperPixel)の構築 HOG&HOF+SVMでターゲット検出 SVMで前景/背景の⾊色学習 単項ポテンシャルを計算 組ポテンシャルを計算 CRFを⽤用いて解くことでラベル付与 全フレーム内の初期軌跡を⽣生成 最終的な軌跡を⽣生成
  13. 13. 初期軌跡の⽣生成 • 検出結果のノードをからDP[*]とContext-­‐free   Tracker[**]を⽤用いて軌跡を伸ばしたり短くし たり(削除したり)することで初期軌跡を得る • この結果から,ラベル の数Nが決まる! ラベル集合 《CVPR2015読み会》コンピュータビジョン勉強会@関東 12 TSP(TemporalSuperPixel)の構築 HOG&HOF+SVMでターゲット検出 SVMで前景/背景の⾊色学習 単項ポテンシャルを計算 組ポテンシャルを計算 CRFを⽤用いて解くことでラベル付与 全フレーム内の初期軌跡を⽣生成 最終的な軌跡を⽣生成 [*]H. Pirsiavash, D. Ramanan, and C. C. Fowlkes. Globally optimal greedy algorithms for tracking a variable number of objects. In CVPR 2011 [**] J. Henriques, R. Caseiro, P. Martins, and J. Batista. Exploiting the circulant structure of tracking-by-detection with kernels. In ECCV 2012
  14. 14. TSP(Temporal  Super  Pixel)の構築 • Chang[*]らの⼿手法を⽤用いて各フレームの スーパーピクセル化と隣隣接フレーム間の スーパーピクセルの対応を求める 《CVPR2015読み会》コンピュータビジョン勉強会@関東 13 [*] J.Chang,D.Wei,andJ.W.FisherIII.A video representation using temporal superpixels. In CVPR 2013 TSP(TemporalSuperPixel)の構築 HOG&HOF+SVMでターゲット検出 SVMで前景/背景の⾊色学習 単項ポテンシャルを計算 組ポテンシャルを計算 CRFを⽤用いて解くことでラベル付与 全フレーム内の初期軌跡を⽣生成 最終的な軌跡を⽣生成
  15. 15. 前景/背景の⾊色学習 《CVPR2015読み会》コンピュータビジョン勉強会@関東 14 • ネガティブサンプル(背景) • 検出された BBoxの外側のプーパーピクセル • ポジティブサンプル(前景) • ネガティブサンプルのスーパーピクセルのLab⾊色 空間の平均値をk-­‐meansで5つのクラスタへクラ スタリング • 全てのスーパーピクセルに対して⼀一番近いクラ スタ中⼼心との距離離から遠い順並べた5%のスー パーピクセルをポジティブサンプルにする TSP(TemporalSuperPixel)の構築 HOG&HOF+SVMでターゲット検出 SVMで前景/背景の⾊色学習 単項ポテンシャルを計算 組ポテンシャルを計算 CRFを⽤用いて解くことでラベル付与 全フレーム内の初期軌跡を⽣生成 最終的な軌跡を⽣生成
  16. 16. 前景らしさのスコア化 《CVPR2015読み会》コンピュータビジョン勉強会@関東 15 • 前景/背景分離離を⾏行行う識識別器を線形SVM で学習 • 特徴量量:スーパーピクセルのLab⾊色空間の平 均値 • スーパーピクセルiの前景らしさ score:  SVMの識識別超平⾯面からの符号付距離離 スーパーピクセルの前景らしさ TSP(TemporalSuperPixel)の構築 HOG&HOF+SVMでターゲット検出 SVMで前景/背景の⾊色学習 単項ポテンシャルを計算 組ポテンシャルを計算 CRFを⽤用いて解くことでラベル付与 全フレーム内の初期軌跡を⽣生成 最終的な軌跡を⽣生成
  17. 17. 単項ポテンシャルの計算 《CVPR2015読み会》コンピュータビジョン勉強会@関東 16 • 検出結果のノード • スーパーピクセル • ⾊色 • オプティカルフロー 単項ポテンシャル 組ポテンシャル TSP(TemporalSuperPixel)の構築 HOG&HOF+SVMでターゲット検出 SVMで前景/背景の⾊色学習 単項ポテンシャルを計算 組ポテンシャルを計算 CRFを⽤用いて解くことでラベル付与 全フレーム内の初期軌跡を⽣生成 最終的な軌跡を⽣生成
  18. 18. 単項ポテンシャルの計算 《CVPR2015読み会》コンピュータビジョン勉強会@関東 17 • 検出結果のノード にターゲットj のラベルを割り当てるコスト • Di:  検出結果のBbox • Tj:  ターゲットjの軌跡 • 空集合(誰にも割り当てない)コスト • 検出の信頼値を⽤用いる TSP(TemporalSuperPixel)の構築 HOG&HOF+SVMでターゲット検出 SVMで前景/背景の⾊色学習 単項ポテンシャルを計算 組ポテンシャルを計算 CRFを⽤用いて解くことでラベル付与 全フレーム内の初期軌跡を⽣生成 最終的な軌跡を⽣生成
  19. 19. 単項ポテンシャルの計算 《CVPR2015読み会》コンピュータビジョン勉強会@関東 18 • スーパーピクセル • ⾊色 スーパーピクセルSiにターゲットjを割り当て るコスト 空集合を割り当てるコスト TSP(TemporalSuperPixel)の構築 HOG&HOF+SVMでターゲット検出 SVMで前景/背景の⾊色学習 単項ポテンシャルを計算 組ポテンシャルを計算 CRFを⽤用いて解くことでラベル付与 全フレーム内の初期軌跡を⽣生成 最終的な軌跡を⽣生成
  20. 20. 単項ポテンシャルの計算 《CVPR2015読み会》コンピュータビジョン勉強会@関東 19 • 検出結果のノード • スーパーピクセル • オプティカルフロー 軌跡の速度度とスーパーピクセルのオプティカ ルフローの平均の近さから求める TSP(TemporalSuperPixel)の構築 HOG&HOF+SVMでターゲット検出 SVMで前景/背景の⾊色学習 単項ポテンシャルを計算 組ポテンシャルを計算 CRFを⽤用いて解くことでラベル付与 全フレーム内の初期軌跡を⽣生成 最終的な軌跡を⽣生成
  21. 21. 組ポテンシャルの計算 《CVPR2015読み会》コンピュータビジョン勉強会@関東 20 • 組ポテンシャル:エッジコスト • エッジ: • (スーパーピクセルの)空間的隣隣接 • (スーパーピクセルの)時間的隣隣接 • 検出結果とスーパーピクセルの対応関係 単項ポテンシャル 組ポテンシャル (スーパーピクセルの) TSP(TemporalSuperPixel)の構築 HOG&HOF+SVMでターゲット検出 SVMで前景/背景の⾊色学習 単項ポテンシャルを計算 組ポテンシャルを計算 CRFを⽤用いて解くことでラベル付与 全フレーム内の初期軌跡を⽣生成 最終的な軌跡を⽣生成
  22. 22. 組ポテンシャルの計算 《CVPR2015読み会》コンピュータビジョン勉強会@関東 21 • (スーパーピクセルの)空間的隣隣接・時間的 隣隣のコスト • スーパーピクセルのLab⾊色空間における平 均値の距離離 • 時間的隣隣接関係はTSPで求められる TSP(TemporalSuperPixel)の構築 HOG&HOF+SVMでターゲット検出 SVMで前景/背景の⾊色学習 単項ポテンシャルを計算 組ポテンシャルを計算 CRFを⽤用いて解くことでラベル付与 全フレーム内の初期軌跡を⽣生成 最終的な軌跡を⽣生成
  23. 23. 組ポテンシャルの計算 《CVPR2015読み会》コンピュータビジョン勉強会@関東 22 • 検出結果とスーパーピクセルの対応関係 • オーパーラップがあればエッジで繋がる • コスト • 検出の信頼値*前景らしさから求められる スーパーピクセ ルの前景らしさ TSP(TemporalSuperPixel)の構築 HOG&HOF+SVMでターゲット検出 SVMで前景/背景の⾊色学習 単項ポテンシャルを計算 組ポテンシャルを計算 CRFを⽤用いて解くことでラベル付与 全フレーム内の初期軌跡を⽣生成 最終的な軌跡を⽣生成
  24. 24. 軌跡コスト 《CVPR2015読み会》コンピュータビジョン勉強会@関東 23 単項ポテンシャル 組ポテンシャル (スーパーピクセルの) • 下記から軌跡コストを求める • BBoxの⾼高さの⼀一貫性 • BBoxのアスペクト⽐比 • 速度度の⼀一貫性 • 軌跡を伸ばすかどうか • Image  likelihood? • 軌跡が増えすぎないように TSP(TemporalSuperPixel)の構築 HOG&HOF+SVMでターゲット検出 SVMで前景/背景の⾊色学習 単項ポテンシャルを計算 組ポテンシャルを計算 CRFを⽤用いて解くことでラベル付与 全フレーム内の初期軌跡を⽣生成 最終的な軌跡を⽣生成
  25. 25. 最適化することでラベル付け 《CVPR2015読み会》コンピュータビジョン勉強会@関東 24 • マルチラベルCRFをα拡張を⽤用いて解く • α拡張 • 多値のグラフカットの近似最⼩小化⼿手法 • 今回のエネルギー関数はサブモジュラなの で適⽤用可能 • ラベル1つづつに対して2値のグラフカット を⾏行行う TSP(TemporalSuperPixel)の構築 HOG&HOF+SVMでターゲット検出 SVMで前景/背景の⾊色学習 単項ポテンシャルを計算 組ポテンシャルを計算 CRFを⽤用いて解くことでラベル付与 全フレーム内の初期軌跡を⽣生成 最終的な軌跡を⽣生成
  26. 26. 最終的な軌跡を⽣生成 《CVPR2015読み会》コンピュータビジョン勉強会@関東 25 • α拡張によってシーケンス全体にラベル 付けされた後にさらにさらに⼿手法[*]を⽤用 いて軌跡をリファイン TSP(TemporalSuperPixel)の構築 HOG&HOF+SVMでターゲット検出 SVMで前景/背景の⾊色学習 単項ポテンシャルを計算 組ポテンシャルを計算 CRFを⽤用いて解くことでラベル付与 全フレーム内の初期軌跡を⽣生成 最終的な軌跡を⽣生成 [*] A. Milan, K. Schindler, and S. Roth. Detection and trajectory-level exclusion in multiple object tracking. In CVPR 2013.
  27. 27. 実装 • MatlabとC++で実装されている • ⼿手法のとおり,いろいろな⼿手法のコードがごちゃまぜ • matlabがメインだけどliblinearもGSLもいるよ • Antonさんのコードは共通の書き⽅方があるのでいくつも触ると 慣れてくる • 遅い!!!メモリ⾷食う!!! • TSPは全シーケンス⼀一括処理理 • 2.7  GHz,  1  Coreで 0.2fpsも出ないのでは… 《CVPR2015読み会》コンピュータビジョン勉強会@関東 26
  28. 28. 実験 -­‐追跡精度度-­‐ 《CVPR2015読み会》コンピュータビジョン勉強会@関東 27 • MOT  Challengeのベンチマークを使⽤用 • Dataset:  Pets09(S2L1,  S2L2,  S2L3,  S1L1-­‐2,  S1L2-­‐1),  TUDS   • 評価指標[*] • TA(MOTA):  This  measure  combines  three  error  sources:  false  positives,  missed   targets  and  identity  switches • TP(MOTP):   The  misalignment  between  the  annotated  and  the  predicted   bounding  boxes • MT(Mostly  tracked  targets):  The  ratio  of  ground-­‐truth  trajectories  that  are   covered  by  a  track  hypothesis  for  at  least  80%  of  their  respective  life  span • ML(Mostly  lost  targets):  The  ratio  of  ground-­‐truth  trajectories  that  are   covered  by  a  track  hypothesis  for  at  most  20%  of  their  respective  life  span • FM:The  total  number  of  times  a  trajectory  is  fragmented  (i.e.  interrupted   during  tracking) [*]Bernardin,   K.  &  Stiefelhagen,  R. Evaluating  Multiple  Object  Tracking  Performance:  The   CLEAR  MOT  Metrics. Image  and  Video  Processing, 2008(1):1-­‐10, 2008.
  29. 29. 実験-­‐追跡精度度-­‐ 《CVPR2015読み会》コンピュータビジョン勉強会@関東 28
  30. 30. 実験-­‐追跡精度度 他の⼿手法との⽐比較-­‐ 《CVPR2015読み会》コンピュータビジョン勉強会@関東 29 • http://motchallenge.net/results/2D_MOT_2015/
  31. 31. まとめ • 解決した(い)課題 • ⻑⾧長時間に渡って部分的なオクルージョンが続くような混雑したシーンでは 依然正確に追跡することは困難 • アプローチ • CRFを使って時空間セグメンテーションを⾏行行う • CRFのエネルギー関数に検出結果から得られるBboxとTemporalSuperPixel(TPS) で得られる結果とを融合させ従来より多くの画像のエビデンスを使う • 実験結果 • MOTChallengeのベンチマークにて最新⼿手法を超える精度度を出した(当時) • 所感 • ⼒力力技… • 戦う⼟土俵を⾃自分で作っているのは素晴らしい! 《CVPR2015読み会》コンピュータビジョン勉強会@関東 30

×