論文紹介：Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition

Simultaneous Detection and
Interaction Reasoning
for Object-Centric Action Recognition
Xunsong Li, Pengzhan Sun, Yangcen Liu, Lixin Duan, Wen Li, TMM2025
高木洋徳（名工大）
2025/10/9

概要
◼従来の動作認識
• 外部検出器で物体を検出してから関
係推論する２段階
• 重要な物体が見落とされやすく
行動認識性能が低下
• 物体検出段階では動作の情報が未
知なため
◼本手法（DAIR）
• Detection And Interaction Reasoning
• 検出と相互作用推論を単一モデルで
同時に学習するエンドツーエンド
手法

関連研究
◼オブジェクト中心の動作認識
• ORN [Baradel+, ECCV2018]
• 物体間関係をGRUで時系列推論
• STRG [Wang+, ECCV2018], OR2G [Ou+, CVPR2022]
• 領域グラフで関係を捉える
• STIN [Materzynska+, CVPR2020]
• 物体ボックスの動きを直接扱う
• STLT [Radevski+, arXiv2021]
• ボックス表現をTransformer強化
• ORViT [Herzig+, CVPR2022]
• パッチトークンと物体トークンを
同一Transformerで共同注意
STINの例（fig1a）
STLTの例（fig4）

提案手法（DAIR)
1. 動画をパッチトークン化
2. PatchDec：主語と物体を同時に検出する候補生成
3. IRA：主語と物体の関与度推定
4. ORM：相互作用トークンを動画と統合し最終分類へ
①
② ③
④

①：動画をパッチトークン化
• 学習時はフレームごとの物体アノテーション付きの
サンプリング動画クリップVを入力
• 3D畳み込みにより空間・時間方向にダウンサンプリング
した特徴マップを作成
• 3D特徴量からパッチトークン列を生成し，
時空間埋め込み𝐸𝑝𝑜𝑠を加える
Zが動画パッチトークン
• Zを自己注意ブロックでパッチ列𝐹𝑙
に更新

② PatchDec：クエリの初期化
• 青：物体クエリ，赤：主語クエリ
• クエリの初期化を行う
• Identity 埋め込み
• クエリが主語or物体を担当するかを明示
• Spatial 埋め込み
• 各クエリに参照点を持たせ
相対オフセットを予測
• Temporal 埋め込み
• 時間位置に基づく埋め込みを付与
• これらを足し合わせたもの
①で得たパッチトークン列

② PatchDec：出力までの流れ
FFN（Feed Forward Network）
• デコーダ出力を主語 / 物体それぞれの
位置（box）と分類スコアに変換→IRAに
N層のデコーダ
• クエリとパッチトークン入力
• Self-Attention
• 各クエリ同士
• Cross-Attention
• クエリと視覚特徴トークン

② PatchDec：物体検出損失
Kuhn
Rezatofighi+, CVPR2019
物体検出損失𝐿𝐷𝐸𝑇
• 予測とGTをHungarian Matching algorithm [Kuhn]
で対応づけし，そのコストの足し合わしたもの
• 𝐿𝑏：L1 ボックス回帰損失
• 𝐿𝑢：IoU損失 [Rezatofighi+, CVPR2019]
• 𝐿𝑐：二値交差エントロピー分類損失

③ IRA：主語と物体の関与度推定
• PacthDecの出力から行動に関与する
物体のスコアを再評価し，
各フレームの相互作用を表現
エンコーダ
• 主語トークンだけをフレーム内で処理
SMHA（Sigmoid Multi-Head Attention）
• 各フレーム内でcross attention
• Q：更新した主語トークン
• K,V：物体トークン
• attention map（IAM）を得る

④ ORM：相互作用トークンと動画の統合
• IRAで得られた主語と物体の
関係トークンを入力
• 入力と元動画のパッチ列をくっつける
• self attentionに入力
• 出力からCLSトークンを取り出し，予測ロジット෠
𝑌を算出
• SoftMaxで確率にし，真のラベルYとのクロスエントロピー

目的関数
◼動作分類損失𝐿𝐴𝑐𝑡と物体検出損失𝐿𝐷𝐸𝑇とIRAのインタラクティブ損失
𝐿𝐼𝑟の合計
◼以降の実験の重み
• 𝜆𝐷𝐸𝑇 = 1， 𝜆I𝑟 = 10
• 𝜆𝑏 = 5， 𝜆𝑢 = 2， 𝜆𝑐 = 5

実験設定
◼データセット
• Something-Else [Materzynska+, CVPR2020]
• 174クラス
• train：54919本
• test：57876本
• IKEA-Assembly [Yu+, WACV2021]
• 12クラス
• 16764本
◼基盤モデル
• MViT-S [Li+, CVPR2022]
• Kinetics400で事前学習
◼モジュール構成
• PacthDec：デコーダ6層
• IRA：エンコーダ3層，デコーダ1層
◼各種設定
• AdamW
• 35epoch
• バッチサイズ32
• 入力動画
• 224*224にクロップ，リサイズ

アブレーションスタディ①
◼モジュール効果
• ベースモデルとPacthDecとIRAを
加えたものを比較
• IRAも加えた場合が一番良い
◼適用層の比較
• どの層にDAIRを入れるのが性能が
よくなるのかを比較
• GFLOPs
• DAIRによる追加の計算コスト

アブレーションスタディ②（検出性能）
◼SomethingElse
• 評価指標
• mAP
• 比較モデル
• Faster-RCNN [Ren+, arXiv2016]
• DETR [Zhu+, arXiv2021]
◼Ikea-Assembly
• 評価指標
• mAP
• 小型オブジェクトでは性能が低く，
検出に失敗する
• 高精度動画（1920*1080）の第三者
視点での小さい物体はリサイズ
（240*240）すると処理が困難

最新手法との比較（Something-Else）
◼比較モデル
• Mformer [Patrick+, NeurlPS2021]
• MViT [Li+, CVPR2022]
• マルチブランチ系
• RGBとBoxを別処理
• 同じRGBモデルMViT使用
• STIN [Materzynska+, CVPR2020]
• STLT [Radevski+, arXiv2021]
• Transformer系
• MGAF [Kim+, ICCV2021]
• SViT [Avraham+, NeurlPS2022]

最新手法との比較（Something-Else）
◼oracle設定下での比較
• 学習と検証時の両方でアノテーション
付きbboxにアクセス
• GT Box = GT Match
• 真値boxと予測box間の
二部マッチング
• GT Num
• 各フレームのGT個数と同数だけ
信頼度順に予測Boxを選択

最新手法との比較（Ikea-Assembly）
◼評価指標
• Micro：micro平均精度
• Macro：クラス平均再現率
◼比較モデル
• STINとSTRGは同じバックボーンで
再実装
◼学習時の注意点
• 本モデルはIkea-Assemblyで公開
されている擬似GTのみを使用
• 本手法がノイズの多い教師データに
対して頑健

可視化
◼DAIRとMViTのAttention Mapと，IRAの関与度を可視化
相互作用中と
判断した領域
左：本
右：ベッド
本の方が動くにつれて
スコアが大きく，
ベッドは小さくなる
MViT
DAIR

グラフ
◼分類精度と検出平均精度
• 同じ傾向
• 検出＋認識の同時学習が有効
◼損失
• 安定して減少
• 分類と検出を同時に最適化

まとめ
◼DAIR
• エンドツーエンド方式によるオブジェクト中心の動作認識
• 連続モジュールによる設計
• 正確な相互作用オブジェクト情報を抽出
• パッチレベルの時空間表現
• インスタンスレベルの文脈的関係
◼検証
• 相互作用性の事前組み込みの重要性と提案手法DAIRの有効性が実証
• Something-ElseおよびIkea-Assemblyという困難なベンチマーク

論文紹介：Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition

More Related Content

More from Toru Tamaki

Recently uploaded

論文紹介：Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition