【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)

DEEP LEARNING JP
[DL Papers]
EgocentricVideoTaskTranslation (CVPR 2023 Highlight)
Yoshifumi Seki
http://deeplearning.jp/

書誌情報
● 投稿先
○ CVPR 2023 Highlight
● 投稿者
○ テキサス大、Meta
■ First AuthorのMetaでのインターン成果
● 選定理由
○ ウェラブルデバイスの会社に務めています
○ 一人称動画からの動作解析系に最近取り組ん
でいます
https://vision.cs.utexas.edu/projects/egot2/
Codeのリンクはなかった、、、

背景・目的
● 三人称の動画データセットは特定のタスクに対して注目した短いクリップの集合に
なっているが、それ以外の情報が少なくなる
● ウェアラブルカメラによる一人称の動画では装着者のさまざまなオブジェクトとの相
互作用が記録される
○ タスク間にも相互作用がありので予測の助けにもある
● 一方で特定のタスク向けの特化したモデルができてしまう危険性がある
● 個別のタスクを解くのに特化したものでなく、オブジェクト間の相互作用を利用して
さまざまなタスクに対する統合的な枠組みを作りたい
● Ego4D Workshop#2 次点におけるEgo4D ChallengeにおいてTalking to Meで1
位、NR keyframe localizationで3位

一つの動画の中にたくさんのタスクが存在する

タスクの関連性を学ぶことで汎用的なモデルを作る

実現に向けた転移学習/マルチタスク学習の課題
● マルチタスク学習のためには全てのデータに、全てのタスクのラベルが必要である
が、それは現実的ではない
● 一人称動画に付与されているラベルの粒度はタスクによって大きく異なるため、統
合モデルを作るのが難しく、特化モデルを作ることを助長している
○ モード（音声、視覚、運動）
○ ラベルの多様性（空間的・時間的・意味的）
○ 時間の粒度（短い時間で完結する行動と、長い時間を見ないといけない行動）
● 一人称視点の既存研究では、一般的な概念の学習のためshared encoderを利用
していることが多いが、これは一人称視点動画の多様性と相性が悪い可能性が高
い
○ 過去のマルチタスク学習の研究で関係が薄いタスクでのパラメータの共有は性能を劣化させること
があることが指摘されている

提案手法: Ego Task Translation (EgoT2)
● 多様な一人称動画に対する統合的な学習フレームワーク
● 複数のタスクを学習できるが、個々のタスクで異なるデータセットを学習することが
できる
● タスクが強く関連していない場合の影響を軽減する
● 2つの仕組みを持つ
○ タスク専門モデル: EgoT2-s: 特定のモデルに対して学習されたモデル
○ タスク汎用モデル: EgoT2-g: 異なるタスクへの変換を支援するためのモデル

個別のBackboneを持つ利点
● それぞれのタスクの特異性（例えば時間の扱いなど）をBackboneが吸収できる
● その上で、各タスクのbackboneを統合する形でTransferを学習するので、タスク間
の類似性が低い場合の影響も軽減ができる
● 過去の全てのパラメータを共有した転移学習と比較して、本手法で提案するtask
translatorは不要なパラメータを選択的に非活性にすることができるので、重要な
特徴だけを活用するように学習できる
● さらにその選択を分析することで、タスク間の関連についての解釈を得ることもでき
る

EgoT2-s
●
Stage1: Individual Task Training

Stage1: Individual Task Training
● 個別のタスクに対する学習をそれぞれのデータセットを用いて行う
● 学習方法に制限はない
● K個のタスクに対して、K個のモデルf_k (k=1…K)を得る

EgoT2-s
●
Stage2: Task Specific Translation

1: Stage1で作ったモデルを用いて動画からの特徴抽出を行う

2: 特徴ベクトルの射影を行う (Projection Layer)

3: 各タスク特化モデルからの出力 (射影したもの)を結合

4: Translationのための共通Encoderに結合ベクトルを入力

5: タスク固有のDecoderによってタスクの出力を得る
このEncoder-Decoderは抽象化されていてなんでも良い
実験の中ではEncoderは1層のTransformerを使っている

EgoT2-g
● EgoT2-sはDecoderを特定のタスクに向けて出力するため、K個のタスクに対応で
きるモデルを作ろうとすると、K個のモデルを作った上で、K回のDecoderの訓練が
必要になる
● EgoT2-gではEgoT2-sを拡張することで、1度にK個のタスクへのtranslateを行うこ
とを目指す
●

EgoT2-gでの変更点
● Stage1はEgoT2-sと同じ
● 1) デコーダーを汎用的な物に置き換える
● 2) 全てのデータセットを使って学習をする

EgoT2-g: デコーダの置き換え
● さまざまなタスクを汎用的に扱えるデコーダーのために言語モデルを用いる
● それぞれのタスクの出力をtokenizeし、デコーダーをsequence decoderに置き換
える
● タスクに応じた出力をさせるために、出力の先頭にtask promptを出力するようにす
る
● wはj=1の時0でそれ以外の時が1になる。つまりプロンプトは反映しない
● 出力された文字列からarg samplingによってタスクのラベルを復元する

EgoT2-g: 全てのデータセットを使った学習
● 共通のデコーダを持つため、対象となる全てのタスクのデータを用いてデコーダの
学習をしなければならない
● 各タスクからbatchをひとつずつサンプルし、各タスクごとの損失を計算しモデルの
更新を行う

データセットとタスク
● Ego4D: 数百のシナリオで撮影された約3,670時間もの大規模な一人称視点デー
タセット
● ５つのベンチマークがある
○ Episodic memory (EM)
○ Hand and Object (HO)
○ Audio Visual Diarization (AV)
○ Social Interaction (Social)
○ Forecasting
● 4つのベンチマークにまたがる7つのタスクを選択した

データセットとタスク
● Ego4D: 数百のシナリオで撮影された約3,670時間もの大規模な一人称視点デー
タセット
● ５つのベンチマークがある
○ Episodic memory (EM)
○ Hand and Object (HO)
○ Audio Visual Diarization (AV)
○ Social Interaction (Social)
○ Forecasting
● 4つのベンチマークにまたがる7つのタスクを選択した
AR (Action Recognition)だけ存在が確認できていない。
Forecastingカテゴリで、LTA (Long Team Anticipation )ともう一つあ
るのはShort Team Anticipationなので、それの別名？

Human-Object InteractionなタスクでのEgoT2-sの結果

Human-Human InteractionなタスクでのEgoT2-sの結果

SOTAなモデルとの比較 (1/2) Ego4D Challengeの4つのカテゴリでSOTA
タスクのサイトで現在の LeadersBoardを見ることが
できる
https://eval.ai/web/challenges/challenge-page/1622/o
verview
https://eval.ai/web/challenges/challenge-page/1625/l
eaderboard/3911

SOTAなモデルとの比較 (2/2)
https://eval.ai/web/challenges/challenge-pa
ge/1598/leaderboard/3881
https://eval.ai/web/challenges/challenge-p
age/1627/leaderboard/3914
Ego4D Challengeの4つのカテゴリでSOTA
タスクのサイトで現在の LeadersBoardを見ることが
できる

EgoT2-sでの結果の解釈
AR(STA) は短時間での行動予測、
LTAは(比較的)長時間での行動予測。
上の例は大きくシーンが変わるので、
LTAが早いうちに活性化していて、 AR
は直前に活性化している。
下の例はあまり急激に変わらないの
で、ARも早いうちから活性化している

EgoT2-gでの結果解釈
出力結果に対して各種タスクプロンプ
トを設定した時の結果の比較。

まとめ・感想
● 複数のタスクのデータを活用して一人称視点タスクにおける予測を統合的に行う研
究
● Backboneを並列にしてDecoderを単一にするという工夫によって、一人称視点タ
スクにおけるデータセットの基準が曖昧であるという課題に対して向き合っている。
○ アンサンブル学習の考え方に近い物を感じる
● データセット中にあるものしか反映できないものの、Ego4Dという大きなデータセッ
トができたことの強みをよく生かしている良い研究だと感じた

【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)

Similar to 【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight) (18)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (14)

【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)