論文紹介：Temporal Action Segmentation: An Analysis of Modern Techniques

Temporal Action Segmentation:
An Analysis of Modern Techniques
Guodong Ding, Fadime Sener, and Angela Yao
arXiv2022
加藤樹，神谷広大（名工大玉木研）
2023/5/11

Introduction
nTemporal Action Segmentation(TAS)
• Untrimmed videoを時間的に分割
• 各セグメントはaction labelによってラベル付け
• action labelはあらかじめ定義された領域から決定
n連続的な情報が必要
• 識別可能なフレームレベルの表現
• 長距離の時間的モデリング
セグメント

Task Description
n入力：𝑥 = (𝑥!, 𝑥", … , 𝑥#)
• 長さ𝑇でNアクションを持つビデオ
nセグメント単位による出力：𝑆!:% = (𝑠!, 𝑠", … , 𝑠%)
• ここで，𝑠! = (𝑐!, 𝑙!)
• 𝑙!：セグメントの長さ
• 𝑐!：アクションラベル
• アクションの順序予測の研究で頻繁に使用
nフレーム単位による出力：𝑦!:# = (𝑦!, 𝑦", … , 𝑦#)
• 𝑦"：フレームレベルのアクションラベル
• 深層学習ベースの手法で頻繁に使用

Related Task
nTemporal Action Detection / Localization (TAD/L)
• アクションの開始と終了を検出し，ラベル付け
nSequence Segmentation (SS)
• 個々のシーケンスをセグメンテーション
• オーディオ信号，モーションキャプチャで主流

Datasets
nTASで使用されるデータセット
• アクションの開始と終了の境界線がある
• アクションラベルがアノテーションされている
n50Salads [Stein&McKenna, UbiComp13]
• 人間がサラダを作る50本の動画
• 作業面を上から見下ろす視点

Datasets Comparison
n反復スコア：r(0 ≤ 𝑟 ≤ 1)
• 0：シーケンス内で繰り返しが少ない
• 1：シーケンス内で繰り返しが多い
n順序変動スコア：v(0 ≤ 𝑣 ≤ 1)
• 0：アクション間の関係が容易に入れ替え可能
• 1：アクションが厳密な順序に従う
：ユニークなアクション数
：アクションの総数
：R, G間の正規化平均編集距離

Supervision Type
nFully-Supervised（完全教師あり）
• 各フレームに対し，密なラベル有り．ロード時間多い．
nSemi-Supervised（半教師あり）
• ラベル有りと無しに分ける．
nWeak-Supervised（弱教師あり）
• フレームごとにアノテーションはしない．
nUnsupervised（教師なし）
• アクションラベル，動作境界情報，テキストデータ不要

Evaluation Measures
nフレーム単位の評価
• Means of Frames(MoF) =
正しく予測したフレーム数
全フレーム数
• 欠点
• アクションフレームの偏りに影響される
• セグメンテーションの質を反映できない
nセグメント単位の評価
• F1スコア＝2 ,
#$%&'(')! ∗$%&+,,
#$%&'(')!-$%&+,,
• 𝑅𝑒𝑐𝑎𝑙𝑙と𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛の調和平均で求める
• 閾値𝜏でセグメントを評価
• 編集距離 Edit-Score [Lea+, ECCV2016]
• セグメント順序のみの正確さを表す

Frame-wise Representation
nIDT(Improved Dense Trajectories)
• 動作認識や映像理解に使用される手作業による特徴量抽出
nI3D(Inflated 3D ConvNet)
• ビデオ理解のための特徴量抽出をするアーキテクチャ
• Kinetics[Kay+, arXiv2017]による事前学習
n視覚的埋め込み(Visual Embedding)
• フレーム予測学習タスクで使用
• 時刻𝑡の特徴入力に基づいて，𝑡 + 𝑠の特徴を予測
n時間的埋め込み(Temporal Embedding)
• アクションとその順序を見つけるために使用

Temporal Modeling
nフレーム単位での時間的モデリング
• ネットワークの時間的受容野を拡大
• 特徴表現における動的な動きを集約させる
• 事前学習されたフレーム単位の特徴はAction Recognition用
n動作境界情報の正確さ
• 行動遷移中の曖昧さを学習するモデルで重要
nモデリングに対する取り組み
• Recurrent Neural Networks (RNNs)
• 順序に沿う共有パラメータで時系列を捉える
• フレーム間の依存関係で，並列処理に限界
• Temporal Convolutional Networks (TCNs)
• Transformer

TCNs and Transformer
nTCNs
• (a)Encoder-Decoder TCN [Lea+, CVPR2017]
• U-Net方式で層ごとにPoolingとUpsampling
• 時間分解機能を縮小し，拡大
• 計算コスト小，境界情報損失の可能性
• (b)Multi-Stage TCN [Farha&Gall, CVPR2019]
• 徐々に畳み込みを大きくして拡大
• 時間分解機能は一定
• 計算コスト大，境界情報保持
nTransformer
• Encoder
• フレーム間でSelf-Attention(SA)
• Decoder
• 各層でCross-Attention(CA)
• TASでの使用はまだ限定的

Fully-Supervised Approaches
nRepresentation Learning
• Bi-LSTM [Singh+, CVPR2016]
• 特徴を双方向LSTMに入力してラベル予測
• TempAgg [Sener+, ECCV2020]
• 現在の観測を長距離の観測に関連
nImproving Existing Archtecture
• SSTDA+MS-TCN [Hung+, CVPR2020]
• 自己教師モデルで，不要なラベル使用無し
• BCN+MS-TCN [Wang+, ECCV2020]
• 境界問題と過剰セグメンテーションへ対応
• C2F-TCN [Singhania+, arXiv2021]
• 復号化層のアンサンブルを持つ

Performance of Fully-Supervised
Rep:Representation Learning， Impro:Improving exisiting archtecture，TF:Transformer

Weakly-Supervised Approaches
nTranscripts
• ビデオ内とその時系列順序を付与
• アノテーションコストの大幅削減
• Two-stage
• TASL [Lu and Elhamifar, ICCV2021]
• Single-stage
• NN-Viterbi [Richard+, CVPR2018]
• CDFL [Lei and Todorovic, ICCV2019]
nAction Set
• アクションの集合のみ
• 時系列，頻度，順序の情報無し
• SCT [Fayyaz and Gall, CVPR2020]
• ACV [Li and Todorovic, CVPR2021]
nTimestamps Annotation
• 特定の時間だけラベル付け
• Timestamps [Li+, CVPR2021]
nComplex Activity
• アクションレベルの情報無し
• CAD [Ding and Yao, TMM2022]

Performance of Weakly-Supervised
Transcript + Two-Stage
Transcript + Single-Stage
Action Set
Timestamps Annotation
Complex Activity

Unsupervised Approaches
nTwo-Stage Learning
• 二つのステップを繰り返す
• フレームクラスタ推定
• フレーム表現学習
• JVT [VidalMata+, WACV2021]
nSelf-Supervised Learning
• 自己教師学習ベースの表現学習
• ASAL [Li and Todorovic, CVPR2021]
nSingle-Stage Learning
• 動作境界の変化に応じたセグメント
だけ行う
• UDE [Swetha+, arXiv2021]

Performance of Unsupervised
nDeviations,Missing,Repetitionsの柔軟性の評価
SS : Self-Supervised Learning

Semi-Supervised Approaches
nSemiTAS [Ding&Yao, ECCV2022]
• 二つの損失関数を設定
• アクション親和性損失
• アクション連続性損失
nICC [Singhania+, arXiv2021]
• 対照学習により新しい特徴表現セットを学習
• 40%のラベル付けで，完全教師ありと同等の性能
CA：Complex Activity
D%：ラベル付けの比率

Conclution
nTASの技術の概要の説明，評価比較
• TASは急成長している分野
nまだ未開拓領域が多い
• 行動の逐次モデリングで特徴学習に依存することが多い
• 編集スコアなどの研究が少ない
• セグメントレベルでのモデリング
• 既存：フレーム単位での予測
• 理想：セグメントレベルでの予測
n欠落したアクションの扱い
• 行動境界の不確実性は性能に大きな影響
• 境界の定義/ラベル付けの検討が必要

論文紹介：Temporal Action Segmentation: An Analysis of Modern Techniques

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 論文紹介：Temporal Action Segmentation: An Analysis of Modern Techniques

Similar to 論文紹介：Temporal Action Segmentation: An Analysis of Modern Techniques (20)

More from Toru Tamaki

More from Toru Tamaki (20)

Recently uploaded

Recently uploaded (15)

論文紹介：Temporal Action Segmentation: An Analysis of Modern Techniques