SlideShare a Scribd company logo
1 of 19
Download to read offline
Simple Online Realtime Tracking with a Deep Association Metric
(Deep SORT)
上智大学 B4 川中研 杉崎弘明
1
最新スライド
Google Slide
https://docs.google.com/presentation/d/1eqb7Fk1GNEgMtcRC6h1yXAEROl1sCzE
rNERW_c1dBuc/edit?usp=sharing
コード実装はスライドの最後の参考にリンク掲載
2
論文情報
● 論文名
○ Simple Online Realtime Tracking with a Deep Association Metric [1]
● 公開日
○ 2017/03/21
3
概要
● Deep SORT
● 1台のカメラからの連続したフレームから複数オブジェクト(人)のトラッキング手法
● SORT [2] アルゴリズムに改良を加えたもの
● SORTアルゴリズムよりも長いスパンでトラッキング可能
● リアルタイム処理可能な軽さ
4
MOT Problem
● Train (det.txt + gt.txt)
○ gt.txt : Bounding Boxの情報と写っている人の IDをもつ
○ det.txt : 何かしらの物体検出器によって人の領域のみを取得した
情報
● Test (det.txtのみ)
5
ID
MOT Problem
6
SORT 1/4 [2]
● SORT (Simple Online and Realtime
Tracking)
● 高いフレームレートでも高い精度を出すこと
ができた (右図)
● フレーム間トラッキング
○ Re-Identification (同一人物判定) はこの論文の範囲外
○ これらの違いは一度物陰に隠れた人物が再び現れたとき
同一人物と再認識できるかどうかの違い?
7
SORT 2/4
● 他の手法よりシンプルなモデルで実現
○ 「ある事柄を説明するためには、必要以上に多くを仮定するべきでない」 (オッカムの剃刀)
○ Bboxの位置とサイズ情報のみからフレーム間のオブジェクトの動きと associationの推測を行う
■ "Data association は追跡対象が検出された人物候補のどれと対応付けられるかを求める処
理である" [7]
○ short-term and long-term occlusionは無視
■ これらの情報を盛り込むとトラッキングの複雑性が上がる
● 効率的で重要度の高い情報にのみを使いリアルタイム性を重視
○ 複雑なモデルは処理のオーバヘッドが上がるため リアルタイム性に制限がかかる
● 論文では歩行者についてのみ言及
○ “CNNの柔軟性を考えれば汎用性は上がるかも知れない ”
8
カルマンフィルタ [10] [11]
● 状態空間
○ 前フレームのトラッキングから現在のトラッキング位置の予測
● 観測空間
○ 事前に検出されたbounding box領域からトラッキング対象の位置を予測
9
SORT 3/4
● constant velocity model (等速モデル) - カルマンフィルタ
○ (u,v) : bboxの左上座標
○ s : bboxの面積
○ r : アスペクト比
○ それぞれの時間微分 (速度)
● 更新
○ TracksとdetectionsそれぞれのbboxのIoUを計算しIoUの大きいペア同士を結びつけトラッキング
結果とする. (計算にHungarian Algorithmを使用)
○ trackに対応するdetectionsが見つかったとき
■ カルマンフィルタの更新
○ trackに対応するDetectionsが見つからなかったとき (occlusion等)
■ 速度を用いた直線運動と仮定し予測値とする
■ ただし論文では見つからなかったときにすぐにそのトラッキングを捨てることを推奨している
(コード中の`max_age=1`) 10
SORT 4/4
● 予測したbboxがトラッキング中のどの対象とも関連づかないときにその bboxを元に新たなトラッキングが
開始
● トラッキング開始時には速度情報を持たないためカルマンフィルタに与える初期値はゼロでその共分散
は大きい値にしておく
○ => 速度情報があてにならないことをフィルタに盛り込む
● 初期化されたbboxには仮期間を用意
○ False Positive を減らす処置
○ 仮期間の間連続して associationできれば
ちゃんとトラッカーとして機能させる
● これらの工夫で高速なままで精度も高いモデル
になった
11
Deep SORT 1/6
● constant velocity model - カルマンフィルタ
○ (u,v) : bboxの左上座標
○ r: アスペクト比
○ h: bboxの高さ
○ それぞれの時間微分 (速度)
12
Deep SORT 2/6 - マハラノビス距離
● Trackのカルマンフィルタが持つ予測値と共分散の情報とdetectionの情報を用い
てマハラノビス距離を求める
● 逆カイ2乗分布を用いて信頼度が95%になるマハラノビス距離(t^(1))を求め,それ以
下なら1を返しその他の場合は0を返すゲートb^(1)を求める.
● これによりSORTのIoUを用いる方法より適しているが, カメラ本体等を大きく動かし
たりする場合は画像中の物体が急に動くため意味を成さなくなる.
13
Deep SORT 3/6 - Deep Appearance Descriptor (1)
● 先の問題が残るので"見た目の情報"を利用する方法を統合する.
● Trackとdetectionそれぞれのbboxを,次のスライドに示すCNNを用いて,
大きさ1のベクトルに変換する. j番目のdetectionをr_jに変換し,i番目のtrackは直近
のbboxデータ最大100個までR_iに保存して置く.
● これらのコサイン類似度が最小にするペアを求める.
● マハラノビス距離の時と同様にゲートb^(2)を求める
14
Deep SORT 3/6 - Deep Appearance Descriptor (2)
● 見た目の特徴を区別できる方法と
して事前にオフライン学習させてお
いたCNNを用いている.
● Re-Identification dataset [8][9]
15
Deep SORT 4/6 - Matching Cascade
追跡しているターゲットの割り当てにおいて測定値(bbox等)から直接トラッキングを求める
associationには問題がある.
● 長い間物陰に隠れてしまう(occlusion) とカルマンフィルタの不確かさが増加すること. つまり,こ
れを解消するために許容するマハラノビス距離の閾値を大きくすることになる.
● 別々のターゲットを追うトラッカーが同一のdetectionを取り合うとき,マハラノビス距離は不確か度
の大きい方が優勢になる場合がある. (不確か度の大きい方が大きく値を更新し距離が逆にマハ
ラノビス距離が縮まるから?)
16
Deep SORT 5/6 - 全体のアルゴリズム
● occlusionなどでdetection外に
なってしまった物体に割り当てら
れる優先順位を下げている.
(forループ個所)
17
Deep SORT 6/6 - 精度
18
[1] Simple Online and Realtime Tracking with a Deep Association Metric https://arxiv.org/abs/1703.07402
[2] Simple Online and Realtime Tracking https://arxiv.org/abs/1602.00763
[3] SORTの著者実装 https://github.com/abewley/sort
[4] Deep SORTの著者実装 https://github.com/nwojke/deep_sort
[5] Deep SORTの物体検出にYOLOv3を用いた実装 https://github.com/Qidian213/deep_sort_yolov3
[6] MOT16 https://arxiv.org/abs/1603.00831
[7] 追跡対象の適応的グルーピングによる重なりにロバストな複数人物追跡
http://www.ieice.org/jpn/event/FIT/2016/data/pdf/H-003.pdf
[8] https://www.researchgate.net/publication/308277502_MARS_A_Video_Benchmark_for_Large-Scale_P
erson_Re-Identification
[9] http://www.liangzheng.com.cn/Project/project_mars.html
[10] カルマンフィルタの考え方 | Logics of Blue https://logics-of-blue.com/kalman-filter-concept/
[11] カルマンフィルタってなに? - Qiita https://qiita.com/IshitaTakeshi/items/740ac7e9b549eee4cc04
参考
19

More Related Content

What's hot

What's hot (20)

【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック 大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
SSII2020 [OS2-03] 深層学習における半教師あり学習の最新動向
SSII2020 [OS2-03] 深層学習における半教師あり学習の最新動向SSII2020 [OS2-03] 深層学習における半教師あり学習の最新動向
SSII2020 [OS2-03] 深層学習における半教師あり学習の最新動向
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
 
帰納バイアスが成立する条件
帰納バイアスが成立する条件帰納バイアスが成立する条件
帰納バイアスが成立する条件
 
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
 

Similar to [DL Hacks]Simple Online Realtime Tracking with a Deep Association Metric

VLDB'10勉強会 -Session 20-
VLDB'10勉強会 -Session 20-VLDB'10勉強会 -Session 20-
VLDB'10勉強会 -Session 20-
Takeshi Yamamuro
 
NNKproject Japanese version
NNKproject Japanese versionNNKproject Japanese version
NNKproject Japanese version
nao takatoshi
 
NNKproject Japanese version2
NNKproject Japanese version2NNKproject Japanese version2
NNKproject Japanese version2
nao takatoshi
 

Similar to [DL Hacks]Simple Online Realtime Tracking with a Deep Association Metric (20)

GraalVMでのFlight Recorderを使ったパフォーマンス解析(JJUG CCC 2023 Spring)
GraalVMでのFlight Recorderを使ったパフォーマンス解析(JJUG CCC 2023 Spring)GraalVMでのFlight Recorderを使ったパフォーマンス解析(JJUG CCC 2023 Spring)
GraalVMでのFlight Recorderを使ったパフォーマンス解析(JJUG CCC 2023 Spring)
 
kagamicomput201814
kagamicomput201814kagamicomput201814
kagamicomput201814
 
VLDB'10勉強会 -Session 20-
VLDB'10勉強会 -Session 20-VLDB'10勉強会 -Session 20-
VLDB'10勉強会 -Session 20-
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
 
SmartNews の Webmining を支えるプラットフォーム
SmartNews の Webmining を支えるプラットフォームSmartNews の Webmining を支えるプラットフォーム
SmartNews の Webmining を支えるプラットフォーム
 
ILSVRC2015 手法のメモ
ILSVRC2015 手法のメモILSVRC2015 手法のメモ
ILSVRC2015 手法のメモ
 
モニタリングプラットフォーム開発の裏側
モニタリングプラットフォーム開発の裏側モニタリングプラットフォーム開発の裏側
モニタリングプラットフォーム開発の裏側
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
EuroPython 2017 外部向け報告会
EuroPython 2017 外部向け報告会EuroPython 2017 外部向け報告会
EuroPython 2017 外部向け報告会
 
20150803.山口大学講演
20150803.山口大学講演20150803.山口大学講演
20150803.山口大学講演
 
1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
1000人規模で使う分析基盤構築  〜redshiftを活用したeuc1000人規模で使う分析基盤構築  〜redshiftを活用したeuc
1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
 
NNKproject Japanese version
NNKproject Japanese versionNNKproject Japanese version
NNKproject Japanese version
 
NNKproject Japanese version2
NNKproject Japanese version2NNKproject Japanese version2
NNKproject Japanese version2
 
Introduce Groovy 2.3 trait
Introduce Groovy 2.3 trait Introduce Groovy 2.3 trait
Introduce Groovy 2.3 trait
 
GRU-Prednetを実装してみた(途中経過)
GRU-Prednetを実装してみた(途中経過)GRU-Prednetを実装してみた(途中経過)
GRU-Prednetを実装してみた(途中経過)
 
物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑む物体検出コンペティションOpen Imagesに挑む
物体検出コンペティションOpen Imagesに挑む
 
pg_bigmを用いた全文検索のしくみ(前編)
pg_bigmを用いた全文検索のしくみ(前編)pg_bigmを用いた全文検索のしくみ(前編)
pg_bigmを用いた全文検索のしくみ(前編)
 
サブカルのためのWord2vec
サブカルのためのWord2vecサブカルのためのWord2vec
サブカルのためのWord2vec
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
PostgreSQLのgitレポジトリから見える2022年の開発状況(第38回PostgreSQLアンカンファレンス@オンライン 発表資料)
PostgreSQLのgitレポジトリから見える2022年の開発状況(第38回PostgreSQLアンカンファレンス@オンライン 発表資料)PostgreSQLのgitレポジトリから見える2022年の開発状況(第38回PostgreSQLアンカンファレンス@オンライン 発表資料)
PostgreSQLのgitレポジトリから見える2022年の開発状況(第38回PostgreSQLアンカンファレンス@オンライン 発表資料)
 

More from Deep Learning JP

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

Recently uploaded (10)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

[DL Hacks]Simple Online Realtime Tracking with a Deep Association Metric

  • 1. Simple Online Realtime Tracking with a Deep Association Metric (Deep SORT) 上智大学 B4 川中研 杉崎弘明 1
  • 3. 論文情報 ● 論文名 ○ Simple Online Realtime Tracking with a Deep Association Metric [1] ● 公開日 ○ 2017/03/21 3
  • 4. 概要 ● Deep SORT ● 1台のカメラからの連続したフレームから複数オブジェクト(人)のトラッキング手法 ● SORT [2] アルゴリズムに改良を加えたもの ● SORTアルゴリズムよりも長いスパンでトラッキング可能 ● リアルタイム処理可能な軽さ 4
  • 5. MOT Problem ● Train (det.txt + gt.txt) ○ gt.txt : Bounding Boxの情報と写っている人の IDをもつ ○ det.txt : 何かしらの物体検出器によって人の領域のみを取得した 情報 ● Test (det.txtのみ) 5 ID
  • 7. SORT 1/4 [2] ● SORT (Simple Online and Realtime Tracking) ● 高いフレームレートでも高い精度を出すこと ができた (右図) ● フレーム間トラッキング ○ Re-Identification (同一人物判定) はこの論文の範囲外 ○ これらの違いは一度物陰に隠れた人物が再び現れたとき 同一人物と再認識できるかどうかの違い? 7
  • 8. SORT 2/4 ● 他の手法よりシンプルなモデルで実現 ○ 「ある事柄を説明するためには、必要以上に多くを仮定するべきでない」 (オッカムの剃刀) ○ Bboxの位置とサイズ情報のみからフレーム間のオブジェクトの動きと associationの推測を行う ■ "Data association は追跡対象が検出された人物候補のどれと対応付けられるかを求める処 理である" [7] ○ short-term and long-term occlusionは無視 ■ これらの情報を盛り込むとトラッキングの複雑性が上がる ● 効率的で重要度の高い情報にのみを使いリアルタイム性を重視 ○ 複雑なモデルは処理のオーバヘッドが上がるため リアルタイム性に制限がかかる ● 論文では歩行者についてのみ言及 ○ “CNNの柔軟性を考えれば汎用性は上がるかも知れない ” 8
  • 9. カルマンフィルタ [10] [11] ● 状態空間 ○ 前フレームのトラッキングから現在のトラッキング位置の予測 ● 観測空間 ○ 事前に検出されたbounding box領域からトラッキング対象の位置を予測 9
  • 10. SORT 3/4 ● constant velocity model (等速モデル) - カルマンフィルタ ○ (u,v) : bboxの左上座標 ○ s : bboxの面積 ○ r : アスペクト比 ○ それぞれの時間微分 (速度) ● 更新 ○ TracksとdetectionsそれぞれのbboxのIoUを計算しIoUの大きいペア同士を結びつけトラッキング 結果とする. (計算にHungarian Algorithmを使用) ○ trackに対応するdetectionsが見つかったとき ■ カルマンフィルタの更新 ○ trackに対応するDetectionsが見つからなかったとき (occlusion等) ■ 速度を用いた直線運動と仮定し予測値とする ■ ただし論文では見つからなかったときにすぐにそのトラッキングを捨てることを推奨している (コード中の`max_age=1`) 10
  • 11. SORT 4/4 ● 予測したbboxがトラッキング中のどの対象とも関連づかないときにその bboxを元に新たなトラッキングが 開始 ● トラッキング開始時には速度情報を持たないためカルマンフィルタに与える初期値はゼロでその共分散 は大きい値にしておく ○ => 速度情報があてにならないことをフィルタに盛り込む ● 初期化されたbboxには仮期間を用意 ○ False Positive を減らす処置 ○ 仮期間の間連続して associationできれば ちゃんとトラッカーとして機能させる ● これらの工夫で高速なままで精度も高いモデル になった 11
  • 12. Deep SORT 1/6 ● constant velocity model - カルマンフィルタ ○ (u,v) : bboxの左上座標 ○ r: アスペクト比 ○ h: bboxの高さ ○ それぞれの時間微分 (速度) 12
  • 13. Deep SORT 2/6 - マハラノビス距離 ● Trackのカルマンフィルタが持つ予測値と共分散の情報とdetectionの情報を用い てマハラノビス距離を求める ● 逆カイ2乗分布を用いて信頼度が95%になるマハラノビス距離(t^(1))を求め,それ以 下なら1を返しその他の場合は0を返すゲートb^(1)を求める. ● これによりSORTのIoUを用いる方法より適しているが, カメラ本体等を大きく動かし たりする場合は画像中の物体が急に動くため意味を成さなくなる. 13
  • 14. Deep SORT 3/6 - Deep Appearance Descriptor (1) ● 先の問題が残るので"見た目の情報"を利用する方法を統合する. ● Trackとdetectionそれぞれのbboxを,次のスライドに示すCNNを用いて, 大きさ1のベクトルに変換する. j番目のdetectionをr_jに変換し,i番目のtrackは直近 のbboxデータ最大100個までR_iに保存して置く. ● これらのコサイン類似度が最小にするペアを求める. ● マハラノビス距離の時と同様にゲートb^(2)を求める 14
  • 15. Deep SORT 3/6 - Deep Appearance Descriptor (2) ● 見た目の特徴を区別できる方法と して事前にオフライン学習させてお いたCNNを用いている. ● Re-Identification dataset [8][9] 15
  • 16. Deep SORT 4/6 - Matching Cascade 追跡しているターゲットの割り当てにおいて測定値(bbox等)から直接トラッキングを求める associationには問題がある. ● 長い間物陰に隠れてしまう(occlusion) とカルマンフィルタの不確かさが増加すること. つまり,こ れを解消するために許容するマハラノビス距離の閾値を大きくすることになる. ● 別々のターゲットを追うトラッカーが同一のdetectionを取り合うとき,マハラノビス距離は不確か度 の大きい方が優勢になる場合がある. (不確か度の大きい方が大きく値を更新し距離が逆にマハ ラノビス距離が縮まるから?) 16
  • 17. Deep SORT 5/6 - 全体のアルゴリズム ● occlusionなどでdetection外に なってしまった物体に割り当てら れる優先順位を下げている. (forループ個所) 17
  • 18. Deep SORT 6/6 - 精度 18
  • 19. [1] Simple Online and Realtime Tracking with a Deep Association Metric https://arxiv.org/abs/1703.07402 [2] Simple Online and Realtime Tracking https://arxiv.org/abs/1602.00763 [3] SORTの著者実装 https://github.com/abewley/sort [4] Deep SORTの著者実装 https://github.com/nwojke/deep_sort [5] Deep SORTの物体検出にYOLOv3を用いた実装 https://github.com/Qidian213/deep_sort_yolov3 [6] MOT16 https://arxiv.org/abs/1603.00831 [7] 追跡対象の適応的グルーピングによる重なりにロバストな複数人物追跡 http://www.ieice.org/jpn/event/FIT/2016/data/pdf/H-003.pdf [8] https://www.researchgate.net/publication/308277502_MARS_A_Video_Benchmark_for_Large-Scale_P erson_Re-Identification [9] http://www.liangzheng.com.cn/Project/project_mars.html [10] カルマンフィルタの考え方 | Logics of Blue https://logics-of-blue.com/kalman-filter-concept/ [11] カルマンフィルタってなに? - Qiita https://qiita.com/IshitaTakeshi/items/740ac7e9b549eee4cc04 参考 19