Compressed Video Action Recognition

Compressed Video Action Recognition
DLゼミ
M1 木戸口稜
発表学会：CVPR2018
本文： https://arxiv.org/abs/1712.00636
コード: https://github.com/chaoyuaw/pytorch-coviar

概要
• ビデオを学習するのは画像を学習することより困難
• 高い時間冗長性、膨大なサイズ
• 無関係なデータに、必要なシグナルが溺れる
• ビデオ圧縮（H.264，HEVCなどを使用）を用いて余分な情報
を減らし訓練を行う
• 情報密度が高くなる
• 動き情報，残差情報を提供
• 以上を効果的に使用するための新しい手法を提案

概要
モデルによっては
Optical Flowなどの
前処理も行う
全フレーム画像の
学習を行うので計
算コストが高い
圧縮表現をそのま
ま扱うので前処理
の計算が少ない
画像のデータより
も符号データのほ
うが多い

ビデオ圧縮
• ビデオ圧縮アルゴリズム
• 例）MPEG-4，H.264，HEVC
• 連続するフレームが通常非常に似ている
• 他のフレームからコンテンツを再利用して1つのフレー
ムのそのフレームとの差のみを保存
• 圧縮技術：圧縮ビデオは以下の３つに分割できる
• Iフレーム（イントラ符号化フレーム）
• Pフレーム（予測フレーム）
• Bフレーム（双方向フレーム）

ビデオ圧縮
• Iフレーム（イントラ符号化フレーム）
• 通常の画像、そのまま圧縮
• Pフレーム（予測フレーム）
• 前のフレームを参照しその変化のみを符号化
• 𝜏 𝑡 :時刻tにおけるソースフレームからターゲットフレームへのピ
クセルブロックの動き
• ∆ 𝑡 :ブロック移動後の元の画像と時刻tの予測画像との間に差異
• 𝐼 𝑡 :時間tにおけるRGB画像
• Pフレームの漸化式(すべてのピクセルiに対して)
𝐼𝑖
(𝑡)
= 𝐼
𝑖−𝜏 𝑖
(𝑡)
(𝑡−1)
+ ∆𝑖
(𝑡)
• 動きベクトルと残差は離散コサイン変換（DCT）とエント
ロピー符号化する

ビデオ圧縮
• Bフレーム（双方向フレーム）
• 動きベクトルを双方向に計算
• 参照中に円が存在しない限り、将来のフレームを参照でき
る特殊なPフレーム

圧縮表現のモデリング
• Iフレーム…画像なので簡単
• Pフレーム…オプティカルフローに似ている
• 動きベクトル、残差に対して同様に行える
• Pフレームは参照フレームに依存し、そのPフレームにPフレー
ムが依存する
• Pは独立した観測としては扱えない
• 個々のPフレームを切り離す新規で簡単なバックトレース技術
を考案

• 分離モデル
• 連続するPフレーム間の依存関係を解消するために、すべて
の動きベクトルを参照Iフレームにトレースし、途中で残差
を累積

• 分離モデル
• バックトレース技術
• フレームtの位置iのピクセル
• 前のフレームの参照位置
𝜇 𝜏 𝑡 𝑖 ≔ 𝑖 − 𝜏𝑖
(𝑡)
• フレームk<tに追跡された位置
𝐽𝑖
(𝑡,𝑘)
≔ 𝜇 𝜏 𝑘+1 ∘∙∙∙∘ 𝜇 𝜏 𝑡 (𝑖)
• 累積された運動ベクトル𝐷 𝑡 ∈ ℝ 𝐻×𝑊×2
𝐷𝑖
(𝑡)
≔ 𝑖 − 𝐽𝑖
(𝑡,𝑘)
• 累積残差ℛ 𝑡 ∈ ℝ 𝐻×𝑊×3
ℛ 𝑖
(𝑡)
≔ ∆
𝐽𝑖
𝑡,𝑘+1
𝑘+1
+∙∙∙ +∆
𝐽𝑖
𝑡,𝑡−1
𝑡−1
+ ∆𝑖
(𝑡)
• 新たな依存関係
𝐼𝑖
(𝑡)
= 𝐼
𝑖−𝐷𝑖
(𝑡)
(0)
+ ℛ 𝑖
(𝑡)
, 𝑡 = 1,2, …

• 分離モデル
• 利点
• 蓄積された信号はロバ
スト性がある
• 元のものよりも、より
鮮明で滑らか

• 提案するネットワーク
t=0

予備実験：スコア
は単純な合計が最
も効果的
t=1

変更があった部分
だけ更新を行う
t=2

• 実装
• 情報の大半はIフレームが占める
• Pフレーム更新には小さなモデルで良い
• 現代のコーデックがほとんどPフレームであるため，計算の
点でかなりの節約になる
• Iフレームの学習にResnet-152，残差と動きベクトルの学
習にResnet-18を使用する

実験
• 検証
I. 圧縮されたビデオがより良い表現であるか
II. 精度は良いか
III.高速に動作するか
• 原理的には，ビデオ分類，オブジェクト検出，アクション
ローカライズのような他のタスクにも容易に適用できる
• この論文では行動認識を行っている

実験➀
• 圧縮された表現をRGB画像に使用する利点を調べる
• I：IフレームのRGB画像
• M：動きベクトル
• R：残差
• 太字の数字がベスト，下線
付きの数字が次に良いもの
を示す

実験①
両方のデータセットで、圧縮ビデオのト
レーニングはRGBフレームのトレーニング
よりも大幅に優れる
• R：残差
を示す

実験①
残差は非常に少量のデータであるのにそれ
のみで正確
• R：残差
を示す

実験①
• モーションベクトルは、空間的な詳
細が含まれていないので、それだけ
では機能しない
• 他のストリームに追加するとパ
フォーマンスが大幅に向上
• 静止画像が提供するものと直交す
る情報を提供する

実験①
• 累積動きベクトルと残差
• バックトレース技術は依存関係を単純化するだけでなく、
より明確なパターンをモデル化することにもつながる
• 累積技術による精度向上
• 動きベクトルで5.6％
• フルモデルで0.4％（4.2％の誤差減少）
• 残差ストリームで0.9％（4.3％の誤差減少）

実験➀
• 視覚化
• t-SNE[1]空間内の同じアクションの2つのビデオのRGB表
現と圧縮表現の比較
• RGB空間では、2つのビデオが明確に分離されており、動
きベクトルと残差空間で重なり合っていることがわかる
• RGB画像ベースのモデルが2つのパターンを別々に学習す
る必要があることを示す
• 圧縮ビデオベースのモデルでは、同じアクションのビデオ
の共有表現が見られ、訓練と一般化が容易
[1]L. v. d. Maaten and G. Hinton. Visualizing data using t-SNE.
JMLR, 2008.

実験②スピードと効率
• CNN計算コストを最先端の2Dおよび3D CNNとの比較
• モデルのPフレームとIフレームの計算コストが異なるため、
すべてのフレームで平均GFLOPsを表示
• ResNet-152よりも2.7倍高速であり，Res3Dよりも4.6倍
速く正確

• Two-stream法との比較
• 前処理時間，オプティカルフロー計算は，OpenCVからのT
V-L1フローアルゴリズムの実装を用いてTesla P100 GPU
上で測定
• 私たちの前処理、すなわち累積された動きベクトルと残差
の計算は、Intel E5-2698 v4 CPUで測定される
• CNN時間は同じP100 GPUで測定される

• 低解像度256×340ビデオの場合でもオプティカルフロー計
算が2ストリームネットワークのボトルネック

• CNNの設定
• 複数のCNNを同時に転送できる設定
• 順次実行する設定
• どちらの設定でも、従来の方法よりも大幅に高速

CoViARは、より少
ないデータ量で高速
で高い精度を実現

実験③精度
• CoViARの精度を最先端のモデルと比較
• 従来のRGB画像ベースの方法よりも著しく優れている

実験③精度
• Two-stream Networkとの比較
• 最先端のモデルのTwo-stream
• RGBフレームでトレーニングされたストリーム
• オプティカルフローに関するストリーム
• RGBストリームを圧縮ストリームで置き換える
• BN-Inception(7 segments)を使用して時間的ストリーム
ネットワークを訓練し、 Late Fusionによって提案モデルと
組み合わせる

実験③精度
• Two-stream Networkとの比較
• 複雑な融合またはRNNなしに2D CNNを個別にトレーニン
グするだけで、これらのモデルよりも優れた性能を発揮

まとめ
• 深層ネットワークを圧縮ビデオで直接訓練することを提案
• ビデオ圧縮は、無関係な情報をデータから削減し、よりロバ
ストにする
• 以前の研究より簡単に実施することができる一方で、より迅
速かつ正確

Compressed Video Action Recognition

Recommended

Recommended

More Related Content

Similar to Compressed Video Action Recognition

Similar to Compressed Video Action Recognition (20)

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (10)

Compressed Video Action Recognition