Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Eccv2020_chained tracker

ECCV2020の「Chained-Tracker: Chaining Paired Attentive Regression Results for End-to-End Joint Multiple-Object Detection and Tracking」の紹介スライド

  • Be the first to comment

  • Be the first to like this

Eccv2020_chained tracker

  1. 1. 第五回 全日本コンピュータビジョン研究会 ECCV2020論文読み会 pacifinapacific Chained-Tracker: Chaining Paired Attentive Regression Results for End-to-End Joint Multiple-Object Detection and Tracking
  2. 2. 本日紹介する論文 選んだ理由: End to Endでさらに実装がシンプルで分かりやすい!! ECCV2020 Spotlight 所属機関:Tencent Youtu Lab, Fudan University , NAIST
  3. 3. MOTタスクとは? 動画内の人物を検出して同じ人物には同じIDを割り当てる(ターゲットを人とした場合) イメージとしてはDetection + フレーム間のre-identification 𝑡 = 𝑇 + 1𝑡 = 𝑇 フレーム間で人物のIDは共通 新規検出には新規ID detection data associationfeature extraction 基本のフレームワーク
  4. 4. 4 Data associationについて MOTタスクのdata associationの多くはハンガリアン法を用いたものが使われる 𝑡 = 𝑇 A B C a b c d A B C a 0.6 0.1 0.3 b 0.2 ・・・ ・・・ c ・・・ ・・・ ・・・ d ・・・ ・・・ ・・・ ①フレーム間で人物間のなにかしらの類似度を計算 (人物のembeddingのcos類似度やBBoxのIOUなど) ②人物を紐づけたとき全体の類似度が最大になるよう定式化 (重みつき最大2部マッチング問題) ③ハンガリアン法で解く(Kuhn-Munkres algorithm) Data associationのステップ: 人物間の類似度行列 (グラフのエッジ重みに該当)
  5. 5. 5 MOTにおける1ステージモデルと2ステージモデル 2ステージモデル(tracking-by-detection paradigm) Detectionで得られたBboxを取得してからfeature extractionモデルを適用 専用のモデルで特徴抽出 Appearance, Motion, geometryなど FasterRCNNなどで検出 1ステージモデル detectionモデルとfeature extractionモデルで特徴抽出を2回挟む 推論速度の低下、個別学習によりlocal optimaにしかたどり着かない Detector内部にReid用のモジュールを組み込み 特徴抽出を共通化でき、推論の高速化が可能 近年、こっちのタイプが増加傾向!!
  6. 6. 6 1ステージモデルのパラドックス ベースとなる特徴抽出を共通化することで学習が曖昧になる恐れがある CNN BBox class Reid embedding 共通部 detection部 Person class background Detectionのため離したい reidのため離したい 特徴空間 Reidモジュールでは同じクラスの異なるインスタンスを識別する必要がある 特徴抽出の共通化によりDetectionモジュールとの競合が発生し、学習の難しさにつながる
  7. 7. 論文のcontribution MOTにおける新しいEnd to Endモデルの提案 新しい1ステージモデル考えたよ Informativeな領域へのAttentionモジュールの設計 classとidでregression部にattentionかけて分離して学習しやすくするよ MOT16、MOT17でSOTA
  8. 8. 8 手法概要 Paired Boxes Regressionにより隣接フレームを使用したノード単位でdetecton 各ノードを共通フレームのIOUによりリンク 隣接フレーム(ノード)をまとめて入力し, 2フレームのdetectionを同時に行うPaired Boxes Regressionの提案 トラッキングをノード間の共通フレームBboxのchainとして考え、IOUベースでマッチング
  9. 9. 9 モデル詳細(1/2) 隣接フレームのそれぞれパラメータ共有したRetinaNetに入れて特徴抽出 チャネル方向に結合しclassification、ReID, regressionの3つのbranchに枝分かれ Classificationブランチ:そのgridが背景かObjectか判断する特徴マップ 出力次元 (Batch,class,w,h) ReIDブランチ:そのgridの物体が隣接フレームで同じインスタンスか判断する特徴マップ 出力次元(Batch,1,w,h) RetinaNetのFPN出力にelement-wiseでAttention 注目領域のサポートを受けてRegressionブランチへ入力
  10. 10. 10 モデル詳細(2/2) Paired Boxes regressionはChained-Anchorsによって行われる 従来のAnchor: 1フレームの1つのインスタンスを表現 (𝑐 𝑥, 𝑐 𝑦, 𝑤, ℎ) Chained-Anchors: 2フレーム間の共通インスタンスを表現 (𝑐 𝑥𝑓1, 𝑐 𝑦𝑓1, 𝑤𝑓1, ℎ 𝑓1, 𝑐 𝑥𝑓2, 𝑐 𝑦𝑓2, 𝑤𝑓2, ℎ 𝑓2) 損失関数はRetinanetのFocalLossにid分を追加した形 Regressionブランチの出力次元(Batch, w*h, 8) ここがポイント 2フレーム分でlossを計算
  11. 11. 11 トラッキングアルゴリズム 共通フレームのIOUで2つのノードを紐づけ(Bbox-chain) IOUが最大化するようにハンガリアン法でマッチングさせる 同じフレームをRetinanetに2回通すのは無駄なので特徴量は ノード間でメモリに保存しておく ・short-term disappearing対策 (occlusionなどで一時的にトラッキングが不可能なとき) 追跡が切れてからσフレーム後まで物体が等速で動いていると仮定し、 Bbox位置を予測し続けておく 後に物体が現れたとき、予測BboxとのIOUが高ければidが復元できる
  12. 12. 12 実装詳細  DataAugmentation photometric distortions, random flip and random crop.  画像サイズはMOT16,17で512x512 (元画像 1920x1080)  学習時の隣接フレームは1~3フレームの間でランダムに選択  ベースモデルはRetinaNet (resnet-50)  バッチサイズ8で100epoch  予測Bboxの重複削除は閾値0.7のSoft-NMS  IOUマッチングの閾値は0.5  short-term disappearingの追跡フレームはσ=10フレーム
  13. 13. 13 性能評価 MOTAとIDF1の違い GTのid軌跡 : 1-1-1-1-1-1-1-1-1-1 予測1 : 1-1-2-2-3-3-4-4-5-5 予測2 : 1-1-2-2-1-1-2-2-1-1 予測1 MOTA=1 − 4 10 = 0.6 IDF1= 4 4+8+8 = 0.2 予測2 MOTA=1 − 4 10 = 0.6 IDF1= 12 12+4+4 = 0.6 MOTAはID切り替わりの頻度を評価 IDF1はIDの統一性を評価 MOT16,17でSOTAを達成した 比較されてるモデルは結構古い!? 他の1ステージSOTA手法と比較する
  14. 14. 14 CenterTrack (ECCV2020) Xingyi Zhou et al.「Tracking Objects as Points」 CenterNetをトラッキング用に改造。 前フレームからのオフセットを出力することでdetectionをサポートしながらトラッキング 従来のCenterNetの入力に前フレーム画像とtrackされている人のヒートマップを追加 出力に前フレームからの移動オフセットを追加(それぞれチャネルを増やすだけ) 出力される heatmap座標 出力されるoffset 入力した 前フレームのheatmap座標 マッチングコスト マッチングコストが最小になるようIDを割り当て
  15. 15. 15 FairMOT Yifu Zhang et al. 「A Simple Baseline for Multi-Object Tracking」 シンプルかつ強力な1ステージのベースラインモデルを提案 (ECCV2020のJDE Tracker※の改良版) ※Zhongdao Wang et.al 「Towards Real-Time Multi-Object Tracking」 アンカーベースのdetectionは粗く、reid特徴を抽出するのに適さない →CenterNetベースでAnchor freeに DetectionモデルにReidブランチを追加 Reid特徴はhigh level featureが有効 →Encoder-Decoderで解像度をキープ
  16. 16. 16 他SOTA手法との比較 Tracker MOTA↑ IFD1↑ MT↑ ML↓ IDs↓ Hz↑ CenterTrack 67.3 59.9 34.9 24.8 2898 17.5 Chained- Tracker 66.6 57.4 32.2 24.2 5529 34.4 FairMOT 67.5 69.8 37.7 20.8 2868 25.9 IDF1は最新手法であるFairMOTが高いが,MOTAは似た値 https://github.com/pjl1995/CTracker https://github.com/ifzhang/FairMOT https://github.com/xingyizhou/CenterTrack どれも実装公開されているので好きなの試そう!!
  17. 17. 17 MOTの課題と展望(主観含み)  DataAsscociationのEnd to End化 一般的に使われるIOU+ハンガリアン法は微分可能ではないため真にEnd to Endになってない →その時刻の複雑性や検出の不確かさを考慮して推論できない  追跡classが人以外や複数になったときの性能は? MOTデータセットは対象が人のみ この世に同一人物は存在しないが同一車種は存在する  object permanenceの良い表現方法 物体がocclusionされたとき、「検出されてないけど後ろに存在する」をどう表現するか 現状のMotionモデルだけで十分か?

    Be the first to comment

ECCV2020の「Chained-Tracker: Chaining Paired Attentive Regression Results for End-to-End Joint Multiple-Object Detection and Tracking」の紹介スライド

Views

Total views

714

On Slideshare

0

From embeds

0

Number of embeds

67

Actions

Downloads

18

Shares

0

Comments

0

Likes

0

×