Temporal Action Segmentation
From Timestamp Supervision
Zhe Li, Yazan Abu Farha, Jurgen Gall
CVPR2021
加藤樹(名工大玉木研)
2023/6/8
研究概要
nTemoral Action Segmentation (TAS)の教師設定
n従来手法
• フレーム単位のアノテーション
• 完全教師あり
• コスト大
• Ordered-Listによる弱教師あり学習
• 完全教師あり学習に劣る性能
n提案手法
• Timestampによるアノテーション
• コスト小
• 完全教師ありと同等の性能
提案手法の概要
nTASへTimestampを導入
nTimestampによるモデル学習手法
• フレーム単位のラベルを生成
• ラベル付きTimestamp
• モデルの出力
• アクションの変化を検出
n信頼度損失関数を設定
• Timestampの間隔とモデルの信頼度が反比例
• 間隔が広がると正解ラベルではなくなる可能性
関連研究
n完全教師付きTAS
• Multi-Stage TCN [Farha and Gall, CVPR2019]
• 過剰セグメンテーションに対応
• フレーム単位のアノテーションに依存
n弱教師あり学習TAS
• NN-Viterbi [Richard+, CVPR2018]
• 推論コスト大,性能良い
• Mutual [Sourim+, arXiv2019]
• 推論コスト小,性能劣る
nAction Recognition
• Timestamp [Moltsanti+, CVPR2019]
• Trimmed Videoでの分類は高性能 Multi-Stage TCN
学習
nAction Segmentationモデルℳを学習
• 入力画像からフレーム単位のラベルを予測
nTimestamp手法はラベル密度低下
• 各フレームに対してℳの出力損失が適用不可
nフレーム単位のラベルを生成
• Timestamp annotationとモデル出力を使用
• 生成されたラベルを損失関数の対象
• 動作境界を検出する必要性
動作境界の検出
nTimestamp 𝑡!"#, 𝑡!の間にある境界の時間𝑡$!"#
を推定
nTimestamp間の目的関数の最小化
𝑑(. , . ):ユークリッド距離,ℎ!:時刻tの最終層出力,𝑐":𝑡"と ̂
𝑡の出力の平均
Forward-Backwardによる境界検出
n境界の推定値が既知の場合に利用可能
nForward推定
• 𝑡!!"#
と𝑡"#$を利用して後の𝑡!!
を予測
nBackward推定
• 𝑡!!$#
と𝑡"%$を利用して前の𝑡!!
を予測
n最終出力は二つの平均
損失関数
n分類損失
• クロスエントロピー損失を採用
• ::時刻tにおける行動aの確率
• フレームで独立
• 過剰セグメンテーションの懸念
n平滑化損失
n信頼度損失
• 𝑡"から離れて増加した予測に対し罰
n最終的な損失
T:動画時間 C:クラス数
実験設定
nデータセット
• 50Salads [Stein&McKenna, UbiComp13]
• Breakfast [Kuehne+, CVPR2014]
• BEOID [Damen+, BMVC2014]
• GTEA [Fathi+, CVPR2011]
n詳細設定
• モデル:MS-TCN [Farha and Gall, CVPR2019]
• オプティマイザー:Adam
• 特徴表現:I3D
• 学習:50epoch
• 30epochラベル付きTimestamp
• 20epochは生成したラベル
• 学習率:5.0×10#$
• バッチサイズ:8
• ハイパーパラメータ:𝜏 = 4, 𝛼 = 0.15, 𝛽 = 0.075
n評価指標
• フレーム単位の正確さ(Acc)
• セグメント単位の編集距離(Edit)
• セグメント単位のF1-Score
• 閾値{10%, 25%, 50%}
nベースライン
• Naiveベースライン
• アノテーションされたTimestampのみ
損失計算
• フレーム単位のラベル生成無し
• Uniformベースライン
• Timestamp間でラベルの変化を仮定
• フレーム単位のラベル生成有り
ベースライン比較
nNaiveベースライン
• フレーム単位の精度良い
• F1とEditが低い
• 過剰セグメンテーション
nUniformベースライン
• フレーム単位の精度低い
• 誤ったラベル生成を使用
• F1とEditが高い
n提案手法
• 優れたラベル生成
• F1とEditともに高い
• 完全教師ありと同等の性能
損失関数の影響
n組み合わせの影響
• 信頼度損失の導入で精度向上
• 分類損失との組み合わせでより向上
n信頼度損失の影響
• セグメント内フレームで高い信頼度
• 信頼度の高い異常値フレームを抑制
他タスクとの比較
nAction Recognition
• Timestamp [Moltisanti+,CVPR2019]
• バックボーンを提案モデルℳに置換
• Recognitionはtrimmed video前提
• 他を大きく上回る性能
nAction Localization
• SF-Net [Ma+, ECCV2020]
• 異なる閾値で平均精度の比較
• SF-Netを上回る性能
50Salads Dataset
まとめ
nTimestampを用いたAction Segmentation
• モデルの予測値とTimestampラベル利用
• 動作境界を検出
• モデルに依存せず,他のモデルに適用可能
n信頼度損失の導入
• セグメント内のフレームに対して高い信頼値を担保
• 外れ値のフレームを抑制
補足スライド
その他の影響
nセグメンテーションモデル
• モデルに依存せず高性能
nハイパーパラメータ
• 0.05 ≤ 𝛽 ≤ 0.1 で性能発揮
Action Recognition他のデータセット
nBreakfast Dataset nGTEA Dataset

論文紹介:Temporal Action Segmentation From Timestamp Supervision