Simultaneous Detection and
Interaction Reasoning
for Object-Centric Action Recognition
Xunsong Li, Pengzhan Sun, Yangcen Liu, Lixin Duan, Wen Li, TMM2025
高木洋徳(名工大)
2025/10/9
概要
◼従来の動作認識
• 外部検出器で物体を検出してから関
係推論する2段階
• 重要な物体が見落とされやすく
行動認識性能が低下
• 物体検出段階では動作の情報が未
知なため
◼本手法(DAIR)
• Detection And Interaction Reasoning
• 検出と相互作用推論を単一モデルで
同時に学習するエンドツーエンド
手法
関連研究
◼オブジェクト中心の動作認識
• ORN [Baradel+, ECCV2018]
• 物体間関係をGRUで時系列推論
• STRG [Wang+, ECCV2018], OR2G [Ou+, CVPR2022]
• 領域グラフで関係を捉える
• STIN [Materzynska+, CVPR2020]
• 物体ボックスの動きを直接扱う
• STLT [Radevski+, arXiv2021]
• ボックス表現をTransformer強化
• ORViT [Herzig+, CVPR2022]
• パッチトークンと物体トークンを
同一Transformerで共同注意
STINの例(fig1a)
STLTの例(fig4)
提案手法(DAIR)
1. 動画をパッチトークン化
2. PatchDec:主語と物体を同時に検出する候補生成
3. IRA:主語と物体の関与度推定
4. ORM:相互作用トークンを動画と統合し最終分類へ
①
② ③
④
①:動画をパッチトークン化
• 学習時はフレームごとの物体アノテーション付きの
サンプリング動画クリップVを入力
• 3D畳み込みにより空間・時間方向にダウンサンプリング
した特徴マップを作成
• 3D特徴量からパッチトークン列を生成し,
時空間埋め込み𝐸𝑝𝑜𝑠を加える
Zが動画パッチトークン
• Zを自己注意ブロックでパッチ列𝐹𝑙
に更新
② PatchDec:クエリの初期化
• 青:物体クエリ,赤:主語クエリ
• クエリの初期化を行う
• Identity 埋め込み
• クエリが主語or物体を担当するかを明示
• Spatial 埋め込み
• 各クエリに参照点を持たせ
相対オフセットを予測
• Temporal 埋め込み
• 時間位置に基づく埋め込みを付与
• これらを足し合わせたもの
①で得たパッチトークン列
② PatchDec:出力までの流れ
FFN(Feed Forward Network)
• デコーダ出力を主語 / 物体それぞれの
位置(box)と分類スコアに変換→IRAに
N層のデコーダ
• クエリとパッチトークン入力
• Self-Attention
• 各クエリ同士
• Cross-Attention
• クエリと視覚特徴トークン
② PatchDec:物体検出損失
Kuhn
Rezatofighi+, CVPR2019
物体検出損失𝐿𝐷𝐸𝑇
• 予測とGTをHungarian Matching algorithm [Kuhn]
で対応づけし,そのコストの足し合わしたもの
• 𝐿𝑏:L1 ボックス回帰損失
• 𝐿𝑢:IoU損失 [Rezatofighi+, CVPR2019]
• 𝐿𝑐:二値交差エントロピー分類損失
③ IRA:主語と物体の関与度推定
• PacthDecの出力から行動に関与する
物体のスコアを再評価し,
各フレームの相互作用を表現
エンコーダ
• 主語トークンだけをフレーム内で処理
SMHA(Sigmoid Multi-Head Attention)
• 各フレーム内でcross attention
• Q:更新した主語トークン
• K,V:物体トークン
• attention map(IAM)を得る
④ ORM:相互作用トークンと動画の統合
• IRAで得られた主語と物体の
関係トークンを入力
• 入力と元動画のパッチ列をくっつける
• self attentionに入力
• 出力からCLSトークンを取り出し,予測ロジット෠
𝑌を算出
• SoftMaxで確率にし,真のラベルYとのクロスエントロピー
目的関数
◼動作分類損失𝐿𝐴𝑐𝑡と物体検出損失𝐿𝐷𝐸𝑇とIRAのインタラクティブ損失
𝐿𝐼𝑟の合計
◼以降の実験の重み
• 𝜆𝐷𝐸𝑇 = 1, 𝜆I𝑟 = 10
• 𝜆𝑏 = 5, 𝜆𝑢 = 2, 𝜆𝑐 = 5
実験設定
◼データセット
• Something-Else [Materzynska+, CVPR2020]
• 174クラス
• train:54919本
• test:57876本
• IKEA-Assembly [Yu+, WACV2021]
• 12クラス
• 16764本
◼基盤モデル
• MViT-S [Li+, CVPR2022]
• Kinetics400で事前学習
◼モジュール構成
• PacthDec:デコーダ6層
• IRA:エンコーダ3層,デコーダ1層
◼各種設定
• AdamW
• 35epoch
• バッチサイズ32
• 入力動画
• 224*224にクロップ,リサイズ
アブレーションスタディ①
◼モジュール効果
• ベースモデルとPacthDecとIRAを
加えたものを比較
• IRAも加えた場合が一番良い
◼適用層の比較
• どの層にDAIRを入れるのが性能が
よくなるのかを比較
• GFLOPs
• DAIRによる追加の計算コスト
アブレーションスタディ②(検出性能)
◼SomethingElse
• 評価指標
• mAP
• 比較モデル
• Faster-RCNN [Ren+, arXiv2016]
• DETR [Zhu+, arXiv2021]
◼Ikea-Assembly
• 評価指標
• mAP
• 小型オブジェクトでは性能が低く,
検出に失敗する
• 高精度動画(1920*1080)の第三者
視点での小さい物体はリサイズ
(240*240)すると処理が困難
最新手法との比較(Something-Else)
◼比較モデル
• Mformer [Patrick+, NeurlPS2021]
• MViT [Li+, CVPR2022]
• マルチブランチ系
• RGBとBoxを別処理
• 同じRGBモデルMViT使用
• STIN [Materzynska+, CVPR2020]
• STLT [Radevski+, arXiv2021]
• Transformer系
• MGAF [Kim+, ICCV2021]
• SViT [Avraham+, NeurlPS2022]
最新手法との比較(Something-Else)
◼oracle設定下での比較
• 学習と検証時の両方でアノテーション
付きbboxにアクセス
• GT Box = GT Match
• 真値boxと予測box間の
二部マッチング
• GT Num
• 各フレームのGT個数と同数だけ
信頼度順に予測Boxを選択
最新手法との比較(Ikea-Assembly)
◼評価指標
• Micro:micro平均精度
• Macro:クラス平均再現率
◼比較モデル
• STINとSTRGは同じバックボーンで
再実装
◼学習時の注意点
• 本モデルはIkea-Assemblyで公開
されている擬似GTのみを使用
• 本手法がノイズの多い教師データに
対して頑健
可視化
◼DAIRとMViTのAttention Mapと,IRAの関与度を可視化
相互作用中と
判断した領域
左:本
右:ベッド
本の方が動くにつれて
スコアが大きく,
ベッドは小さくなる
MViT
DAIR
グラフ
◼分類精度と検出平均精度
• 同じ傾向
• 検出+認識の同時学習が有効
◼損失
• 安定して減少
• 分類と検出を同時に最適化
まとめ
◼DAIR
• エンドツーエンド方式によるオブジェクト中心の動作認識
• 連続モジュールによる設計
• 正確な相互作用オブジェクト情報を抽出
• パッチレベルの時空間表現
• インスタンスレベルの文脈的関係
◼検証
• 相互作用性の事前組み込みの重要性と提案手法DAIRの有効性が実証
• Something-ElseおよびIkea-Assemblyという困難なベンチマーク

論文紹介:Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition