Temporal Convolutional
Networks for Action
Segmentation and Detection
Colin Lea, Michael D.Flynn, Rene Vidal, Austin Reiter,
GregoryD.Hager, Johns Hopkins University, CVPR2017
神谷広大(名工大)
2021/11/20
背景
nAction segmentation,Action detection
• ロボットから日常生活まで幅広く活用
n複数アクションがある動画のモデリング
• 現在のアプローチ
• 低レベルの時空間特徴の抽出
• 広範囲で研究がなされている
• 高レベルの時間的分類
• スライディングウィンドウ型 [Rohrbach+, ICCV2015]
n時系列データの学習
• LSTMを用いたRNNやGRU [Chung+, arXiv2015]
関連手法
nスライディングウィンドウ検出法 [Singh+, CVPR2016]
• フレーム毎のCNN特徴をLSTMモデルに入力
nTemporal Convolutional Network(TCN)[Lea+, ECCV2016]
• 系列データに対してCNNを用いたネットワーク
• LSTMなどのRNNより精度向上
畳み込み層を時系列データに使用する図
TCN
nアーキテクチャ
• 系列ベクトルを1次元フィルタで畳み込み
• 間を空けて畳み込むdilated convolution network
• 過去のステップの情報のみを使用
右図を4層積み上げたもの TCNの1つの層
提案手法
nエンコーダ・デコーダTCN
(ED-TCN)
nDilated TCN
ED-TCN
n比較的少ない層数
• 各層は次の3つで構成
• 時間的畳み込み
• 非線形活性化関数
• 時間的最大プーリング
nエンコーダ
nデコーダ
:各層のフィルタの集合
: 層の畳み込みフィルタの数
:重み行列
:デコーダ層
Dilated TCN
nWaveNet [Oord+, arXiv2016]を行動分類タスクに適応
n一連のブロックを定義
• 各ブロックでL個の畳み込み
n層間にスキップ接続を追加
• 音声合成のために開発
n各層の内容
• 拡張畳み込み
• 非線形活性化
• 残差接続
実験設定
nタスク
• Action Segmentation
• フレーム単位での識別
nデータセット
• University of Dundee 50 Salads [Stein+,
ACM2013]
• MERL Shopping [Singh+, CVPR2016]
• Georgia Tech Egocentric Activityies
(GTEA) [Ding+, CVPR 2017]
n評価指標
• F1@{10, 25, 50}
• IoUが10%, 25%, 50%の時のF1
• mAP
• Acc
nパラメータ
• Categorical cross entropy
• 確率的勾配降下法とADAMのス
テップ更新を使用
n活性化関数
• 実験からNormalized ReLUを使用
F1@25, 50Salad(midlevel)
結果
n連続した行動の構成
• CRF
• ペアワイズ遷移モデルを使用
• RNN
• LSTMを使用
• TCN
• 過去の時刻ステップに条件付
けしなくても行動合成を捉え
る
n長距離の時間的依存性
• 特徴量に時間的な遅れを与える
• 遅延無し(s=0)は完全な予測
• 遅延が大きくても性能を維持
合成実験の例
(上)真の行動ラベル
(下)3次元特徴
サブアクションA(紺,水色,緑)
上位アクションB(橙)
上位アクションC(赤)
入力特徴を時間的にずらした場合のF1@10
結果
n合成実験
• T=150でtrain50個test10個
• 受容野の長さ16
• サブアクションは単純な分類器
では区別がつかない
n長距離の時間パターンの学習
• 特徴量に時間的な遅れを与える
• 遅延無し(s=0)は完全な予測
• 遅延が大きくても性能を維持
合成実験の例
(上)真の行動ラベル
(下)3次元特徴
サブアクションA(紺,水色,緑)
上位アクションB(橙)
上位アクションC(赤)
受容野の約半分の長さまで良い性能をキープ
結果
nモデルのアクション予測
• 比較用の各予測の精度とF1
• saladsの誤りはアクション間の極端な類似性と外観の微妙な違いに起因
• ED-TCNはMEALでも高い精度
50 Salads MERL Shopping
結果
nモデルのアクション予測
• 比較用の各予測の精度とF1
• saladsの誤りはアクション間の極端な類似性と外観の微妙な違いに起因
• ED-TCNはMEALでも高い精度
50 Salads MERL Shopping
まとめ
n TCN
• 長距離の時間パターンを捉える
• 畳み込みの階層を利用
• 複雑なパターンや時間遅延にも対応
• 合成データの利用
nED-TCNとDilated-TCNの提案
• 合成データを用いて複雑なパターンを捉える
• 双方向LSTMを含むベースラインを上回る

文献紹介:Temporal Convolutional Networks for Action Segmentation and Detection