論文紹介：Tracking Anything with Decoupled Video Segmentation

Tracking Anything
with
Decoupled Video Segmentation
大島慈温（名工大玉木研）
2024/3/25
Ho Kei Cheng, Seoung Wug Oh, Brian Price, Alexander Schwing, Joon-Young Lee
ICCV2023

物体追跡のためのビデオセグメンテーション

物体追跡のためのビデオセグメンテーション
◼従来手法
• ほとんどがend-to-endモデルで学習
• ビデオレベルの学習データが必要
• データセットの作成コストが大きい
• 大規模な語彙数への拡張が困難
◼本研究の目標
• 特に以下の場合に高い性能を実現
• 学習データが少ない
• 大規模な語彙数
• オープンワールド
end-to-endの例 [Wang+, CVPR2021]
入力出力

end-to-endモデルの関連研究
◼ VisTR [Wang+, CVPR2021]
• ビデオインスタンスセグメン
テーション手法
• Transformerを組み込む
• シンプルで高速な単一モデル
その他：[Hwang+, NeurIPS2021], [Wang+, CVPR2021], [Bertasius&Torresani, CVPR2020], [Cheng+, arXiv, 2021],
[Choudhuri+, CVPR2023], [Choudhuri+, ICCV2021]

画像セグメンテーションの関連研究
◼Mask2Former [Cheng+, CVPR2022]
• 様々なタスク（パノプティック,インスタンス,セマンティック）に対応可能
• 各タスク特化のモデルを上回る性能
• 本研究のバックボーンとして用いる
◼ その他： SAM [Kirillov+, arXiv, 2023]

提案手法の概要
◼DEVA (Decoupled Video Segmentation)
• 2つのモデルを分離して学習（後述）
• 画像セグメンテーションモデル
• 時間伝搬モデル
• 双方向時間伝搬を行う（後述）
• クリップ内コンセンサス
• マージング

2つのモデルを分離して学習
◼画像セグメンテーションモデル
• ターゲットタスクに特化したモデル
• 学習コストが小さい
• 既存のモデルを利用（SAM [Kirillov+, arXiv, 2023], Mask2Former [Cheng+, CVPR2022]等）

2つのモデルを分離して学習
◼時間伝搬モデル
• タスクに非依存な外部データで学習
• 一度の学習で，複数のタスク間で使用可能
• 既存のモデルを利用（Xmem [Cheng&Schwing, ECCV2022]）時刻

双方向時間伝搬を行う
◼クリップ内コンセンサス
• 近未来の数フレーム分のセグメンテーションを統合
• コンセンサス：統合結果
• ノイズ除去のため時刻

双方向時間伝搬を行う
◼マージング
• 伝搬結果と近未来のコンセンサスを統合
• 新しいオブジェクトに対応
• 数フレームに一度実行時刻

◼クリップの画像セグメンテーションから時刻 𝑡 のコンセンサスを出力
• クリップ：時刻 𝑡 のフレームを含めた近未来の𝑛フレームで構成
• オンライン設定： 𝑛 = 1（時刻 𝑡 のフレームのみ）
• セミオンライン設定：𝑛 > 1（数フレームだけ未来のフレームを含む設定）
◼クリップ内の空間のずれ修正
• フレームごとに時間伝搬モデルを利用
◼領域の取捨選択
• 孤立した領域を除去
• 重なった領域を統合
クリップ内コンセンサス

マージング
◼時間伝搬したセグメンテーション結果と未来のコンセンサスを結合
• 二つのセグメンテーション結果は異なる情報を持つと仮定
• 領域を取捨選択して出力
• 孤立した領域を除去しない
• 重なった領域を統合
まだオブジェクトとして
検知できていない
（黒色）

実験概要
◼以下のデータセットを用いた場合の結果
• 大規模なビデオパノプティック
セグメンテーションデータセット
• VIPSeg [Miao+, CVPR2022]
• オープンワールドビデオ
セグメンテーションデータセット
• BURST [Athar+, WACV2023]
◼以下の目的で使用した場合の結果
• 参照ビデオセグメンテーション
• 教師なしビデオオブジェクトのセグメンテーション
◼Ablation Study
VIPSeg [Miao+, CVPR2022]
BURST [Athar+, WACV2023]

実験設定（共通）
◼時間伝搬モデル
• XMem [Cheng&Schwing, ECCV2022]に基づく
• クラス非依存的に右のデータセットを学習
◼各パラメータについて
• クリップ内コンセンサス
• 5フレーム毎に結合
• セミオンライン設定
• クリップサイズ：𝑛 = 3
• オンライン設定
• クリップサイズ：𝑛 = 1
• 画像セグメンテーション
データセット
• [Shi+, TPAMI2015]
• [Wang+, CVPR2017]
• [Zeng+, ICCV2019]
• FSS-1000
[Li+, CVPR2020]
• Casdepsp
[Cheng+, CVPR2020]
• ビデオオブジェクトセグメ
ンテーションデータセット
• YouTube-vos
[Xu, ECCV2018]
• [Perazzi+, CVPR2016]
• [Qi+, IJCV2022]

実験概要
◼以下のデータセットを用いた場合の結果
• 大規模なビデオパノプティックセグメンテーションデータセット
• VIPSeg [Miao+, CVPR2022]
• オープンワールドビデオセグメンテーションデータセット
• BURST [Athar+, WACV2023]
◼以下の目的で使用した場合の結果
• 参照ビデオセグメンテーション
• 教師なしビデオオブジェクトのセグメンテーション
◼Ablation Study

実験（VIPSeg: 1）
◼指標1
• VPQ (Video Panoptic
Quality)[Kim+, CVPR2020]
• 値が高いほど性能が高い
◼指標2
• STQ (Segmentation and Tracking Quality)
[Weber+, NeurlPS2021]
• 値が高いほど性能が高い

実験（VIPSeg: 2）
◼学習データの使用割合に対するVPQの増加グラフ
• ベースライン：end-to-end
• ベースラインに対する相対的評価
◼ 結果
• 対象の学習データが少ない場合
でも比較的高性能
• レアクラスでは大幅に改善
※使用モデル：Video-K-net

実験（BURST）
◼セグメンテーションモデル
• Mask2Former
[Cheng+, CVPR2022]
• EntitySeg [Qi+, arXiv, 2021]
• どちらも事前学習済み
◼ 指標
• Open World Tracking Accuracy
(OWTA)
[Athar+, WACV2023]
• 高い方が性能がよい

実験（参照ビデオセグメンテーション）
◼定義
• テキスト入力から対象のセグメン
テーションを行う
◼データセット
• 既存のものを言語表現で拡張
• Ref-DAVIS17
[Khoreva+, ACCV2019]
• Ref-YouTubeVOS
[Seo+, ECCV2020]
• ReferFormer [Wu+, CVPR2022]
◼指標
• J&F [Wu+, CVPR2022]
◼結果
• いずれのデータセットでも
競合手法の中で最も高い性能

実験（教師なしビデオオブジェクトのセグメンテーション）
◼定義
• ビデオ中の顕著なオブジェクトから
セグメンテーションを行う
◼データセット
• DAVIS-16 [Perazzi+, CVPR2016]
• 単一オブジェクト
• DAVIS-17 [Caelles+, CVPR2019]
• 複数オブジェクト
• DIS [Qin+, ECCV2022]
• 単一オブジェクト用
• EntitySeg [Qi+, arXiv2021]
• 複数オブジェクト用
◼指標
• J&F [Wu+, CVPR2022]
◼結果
• いずれのデータセットでも
競合手法の中で最も高い性能
※ - は該当の手法では値が出ないことを示す

Ablation study
◼ハイパーパラメータの検討
• 使用データセット：VIPSeg [Miao+, CVPR2022]
• 使用モデル：Mask2Former-R50 [Cheng+, CVPR2022]
• クリップサイズ，マージの間隔，クリップ内コンセンサスによる空間ずれ修正
◼結果
• クリップサイズ大，マージ頻度増加，
空間ずれ修正有
→性能上昇，一方で計算速度低下
• パフォーマンスとスピードの
バランスをとる必要

結論
◼DEVAの特徴
• モデルを分離して学習
• 画像セグメンテーションモデル，普遍的な時間伝搬モデル
• end-to-endのアプローチに比べて学習コストが小さい
• 双方向時間伝搬の利用
• ノイズの影響を低減
• 新規オブジェクトを検出可能
• ただしパフォーマンスと計算速度のバランスを取ることが大切
◼DEVAの評価
• 学習データが少なく，大規模な語彙，オープンワールドといった状況下で，
より優れた手法

◼クリップの画像セグメンテーションから時刻 𝑡 のコンセンサスを出力
• クリップは時刻 𝑡 のフレームを含めた未来の𝑛フレームで構成
• オンライン設定： 𝑛 = 1（時刻 𝑡 のフレームのみ）
• セミオンライン設定：𝑛 > 1（数フレームだけ未来のフレームを含む設定）
◼セグメンテーション間の空間のずれ修正
• フレームごとに時間伝搬モデルを利用
◼コンセンサス(𝑪𝑡)の出力
• 候補P：𝑷 = ‫ڂ‬𝑖=0
𝑛−1 ෣
𝑆𝑒𝑔𝑡+𝑖 = {𝑝𝑖, 0 < 𝑖 ≤ |𝑷|} ( 𝑖 はあるセグメント)
• 𝑪𝑡： 𝑪𝑡= {𝑝𝑖|𝑣𝑖
∗
=1} = {𝑐𝑡, 0< 𝑡 ≤ |𝑪| }
• 𝑣∗
：
補足：クリップ内コンセンサス

補足：マージング
◼時間伝搬したセグメンテーションとコンセンサスを結合
• 以降, 時間伝搬したセグメンテーション 𝑡 (𝑹𝑡)中のあるセグメントを𝑟𝑖,
コンセンサス 𝑡 (𝑪𝑡)中のあるセグメントを𝑐𝑗 とする
◼𝑟𝑖と𝑐𝑗 を関連付ける
• 𝑎𝑖𝑗という指標を導入
• 𝑟𝑖と𝑐𝑗に関連がある場合1, ない場合0
◼最終的なセグメンテーション 𝑡 (𝑴𝑡)は次のように表される
𝑴𝑡 = 𝑟𝑖 ∪ 𝑐𝑗 𝑎𝑖𝑗 = 1 ∪ {𝑟𝑖|∀𝑗𝑎𝑖𝑗 = 0} ∪ 𝑐𝑗 ∀𝑖𝑎𝑖𝑗 = 0
• 重複したセグメントは面積の小さいものを優先する

論文紹介：Tracking Anything with Decoupled Video Segmentation

Recommended

Recommended

More Related Content

Similar to 論文紹介：Tracking Anything with Decoupled Video Segmentation

Similar to 論文紹介：Tracking Anything with Decoupled Video Segmentation (20)

More from Toru Tamaki

More from Toru Tamaki (20)

Recently uploaded

Recently uploaded (11)

論文紹介：Tracking Anything with Decoupled Video Segmentation