Advertisement

【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Videos

Deep Learning JP
Mar. 20, 2023
Advertisement

More Related Content

Slideshows for you(20)

Similar to 【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Videos(20)

Advertisement

More from Deep Learning JP(20)

Advertisement

【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Videos

  1. DEEP LEARNING JP [DL Papers] Bridge-Prompt: Toward Ordinal Action Understanding in InstructionalVideos(CVPR 2022) Yoshifumi Seki http://deeplearning.jp/
  2. 書誌情報 ● 投稿先 ○ CVPR 2022 ● 投稿者 ○ 精華大学 ● 選定理由 ○ 動画からの動作解析系に最近取り組ん でいます https://github.com/ttlmh/Bridge-Prompt
  3. 背景・目的 ● 動画からの動作解析をいい感じにやりたい ● 動作には連続性がある ○ ex. 水を飲む動作 ■ コップを持つ -> 水を入れる -> 水を飲む ○ ex. パンを食べる動作 ■ バターを塗る -> ジャムをぬる -> パンを食べる ● 連続性をモデルに組み込みたい ○ グラフモデルは最近いくつかあるが道のラベルには対応できない ● Prompt Engineeringをやって大規模言語モデルの強みを活かす
  4. Prompt Engineeringとは ● 与えられた入力(ラベル情報など)をテンプレートに入れて、適切な文として入力さ せることで、大規模言語モデルの恩恵を受けられるようにするアイデア ● ● GPT-3でのfew shot learningの仕組みに採用 ● OpenAIのCLIPによる画像分類でtext-image ● Action CLIPで動画にも適用
  5. CLIP(ICML2021) 2021/1/15の発表より
  6. CLIP(ICML2021) 2021/1/15の発表より
  7. ActionCLIP ● ラベルからPrompt Engineeringにより文章を生成 し、Text Encoder, Video Encoderによって類似性を図る ことでラベル推定をする https://arxiv.org/abs/2109.08472
  8. 提案手法
  9. 提案手法の全体図
  10. Prompt部の詳細 ● 1. Stastical Prompt ○ いくつactionが動画中にあるか ○ The video has {num} actions. ● 2. Ordinal Prompt ○ 何番目のactionか ○ This is the {ord_i} action in the video. ● 3. Semantic Prompt ○ “{ord_i}, the person is performing the action step of {vp_i}” ● 3+1. Integrated Prompt ○ 全部 ○ Semanticを全て文として並べる
  11. 評価用データセット ● 50Salads: 50 top view 30-fps instructional videos regarding salad preparation ○ 19 kind of actions ● Georgia Tech Egocentric Activities(GTEA): 28 egocentric 15-fps instructional videos daily kitchen activities ○ 74 class of actions ● Breakfast: 1,712 third person 15-fps videos of breakfast preparation activities. ○ 48 type of different actions ○
  12. Implementation ● 動画は16 frameで分割される ● Kinetics-400でAction CLIPを用いて事前学習をする ●
  13. Long-termな映像に対する比較
  14. Fusion Moduleの比較・検討
  15. 未知のIDに対する対応力 ● fine-tune時に特定の行動だけを学習させた場合、類似した行動を推定できるか? ○ cofee2teaはfine-tuneをmaking cofeeだけで行って、making teaが当てられるかを見る ○ AKLは全体としての精度
  16. まとめ・感想 ● Prompt EngineeringがNLP以外にも出ていることを初めて知って勉強になりました ● 順序を持たせたことがどのような意味を持っているのかがこの実験だとあまりわか らなかったので残念 ● 未知のIDに対応できているのはすごいけど、この実験方法がそれを測るのに適切 かは疑問 ● 既存モデルとの違いをもう少し結果から読み取りたかった ○ 精度だけだとどこが良くなっているのかよくわからん
Advertisement