文献紹介：Temporal Convolutional Networks for Action Segmentation and Detection

Temporal Convolutional
Networks for Action
Segmentation and Detection
Colin Lea, Michael D.Flynn, Rene Vidal, Austin Reiter,
GregoryD.Hager, Johns Hopkins University, CVPR2017
神谷広大（名工大）
2021/11/20

背景
nAction segmentation，Action detection
• ロボットから日常生活まで幅広く活用
n複数アクションがある動画のモデリング
• 現在のアプローチ
• 低レベルの時空間特徴の抽出
• 広範囲で研究がなされている
• 高レベルの時間的分類
• スライディングウィンドウ型 [Rohrbach+, ICCV2015]
n時系列データの学習
• LSTMを用いたRNNやGRU [Chung+, arXiv2015]

関連手法
nスライディングウィンドウ検出法 [Singh+, CVPR2016]
• フレーム毎のCNN特徴をLSTMモデルに入力
nTemporal Convolutional Network（TCN）[Lea+, ECCV2016]
• 系列データに対してCNNを用いたネットワーク
• LSTMなどのRNNより精度向上
畳み込み層を時系列データに使用する図

TCN
nアーキテクチャ
• 系列ベクトルを1次元フィルタで畳み込み
• 間を空けて畳み込むdilated convolution network
• 過去のステップの情報のみを使用
右図を4層積み上げたもの TCNの1つの層

提案手法
nエンコーダ・デコーダTCN
（ED-TCN）
nDilated TCN

ED-TCN
n比較的少ない層数
• 各層は次の3つで構成
• 時間的畳み込み
• 非線形活性化関数
• 時間的最大プーリング
nエンコーダ
nデコーダ
：各層のフィルタの集合
：層の畳み込みフィルタの数
：重み行列
：デコーダ層

Dilated TCN
nWaveNet [Oord+, arXiv2016]を行動分類タスクに適応
n一連のブロックを定義
• 各ブロックでL個の畳み込み
n層間にスキップ接続を追加
• 音声合成のために開発
n各層の内容
• 拡張畳み込み
• 非線形活性化
• 残差接続

実験設定
nタスク
• Action Segmentation
• フレーム単位での識別
nデータセット
• University of Dundee 50 Salads [Stein+,
ACM2013]
• MERL Shopping [Singh+, CVPR2016]
• Georgia Tech Egocentric Activityies
（GTEA） [Ding+, CVPR 2017]
n評価指標
• F1@{10, 25, 50}
• IoUが10%, 25%, 50%の時のF1
• mAP
• Acc
nパラメータ
• Categorical cross entropy
• 確率的勾配降下法とADAMのス
テップ更新を使用
n活性化関数
• 実験からNormalized ReLUを使用
F1@25, 50Salad（midlevel）

結果
n連続した行動の構成
• CRF
• ペアワイズ遷移モデルを使用
• RNN
• LSTMを使用
• TCN
• 過去の時刻ステップに条件付
けしなくても行動合成を捉え
る
n長距離の時間的依存性
• 特徴量に時間的な遅れを与える
• 遅延無し(s=0)は完全な予測
• 遅延が大きくても性能を維持
合成実験の例
（上）真の行動ラベル
（下）3次元特徴
サブアクションA（紺，水色，緑）
上位アクションB（橙）
上位アクションC（赤）
入力特徴を時間的にずらした場合のF1@10

結果
n合成実験
• T=150でtrain50個test10個
• 受容野の長さ16
• サブアクションは単純な分類器
では区別がつかない
n長距離の時間パターンの学習
• 特徴量に時間的な遅れを与える
• 遅延無し(s=0)は完全な予測
• 遅延が大きくても性能を維持
合成実験の例
（上）真の行動ラベル
（下）3次元特徴
サブアクションA（紺，水色，緑）
上位アクションB（橙）
上位アクションC（赤）
受容野の約半分の長さまで良い性能をキープ

結果
nモデルのアクション予測
• 比較用の各予測の精度とF1
• saladsの誤りはアクション間の極端な類似性と外観の微妙な違いに起因
• ED-TCNはMEALでも高い精度
50 Salads MERL Shopping

まとめ
n TCN
• 長距離の時間パターンを捉える
• 畳み込みの階層を利用
• 複雑なパターンや時間遅延にも対応
• 合成データの利用
nED-TCNとDilated-TCNの提案
• 合成データを用いて複雑なパターンを捉える
• 双方向LSTMを含むベースラインを上回る

文献紹介：Temporal Convolutional Networks for Action Segmentation and Detection

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 文献紹介：Temporal Convolutional Networks for Action Segmentation and Detection

Similar to 文献紹介：Temporal Convolutional Networks for Action Segmentation and Detection (20)

More from Toru Tamaki

More from Toru Tamaki (20)

Recently uploaded

Recently uploaded (9)

文献紹介：Temporal Convolutional Networks for Action Segmentation and Detection