More Related Content Similar to Compressed Video Action Recognition (20) More from harmonylab (20) Compressed Video Action Recognition1. Compressed Video Action Recognition
DLゼミ
M1 木戸口 稜
発表学会:CVPR2018
本文: https://arxiv.org/abs/1712.00636
コード: https://github.com/chaoyuaw/pytorch-coviar
5. ビデオ圧縮
• Iフレーム(イントラ符号化フレーム)
• 通常の画像、そのまま圧縮
• Pフレーム(予測フレーム)
• 前のフレームを参照しその変化のみを符号化
• 𝜏 𝑡 :時刻tにおけるソースフレームからターゲットフレームへのピ
クセルブロックの動き
• ∆ 𝑡 :ブロック移動後の元の画像と時刻tの予測画像との間に差異
• 𝐼 𝑡 :時間tにおけるRGB画像
• Pフレームの漸化式(すべてのピクセルiに対して)
𝐼𝑖
(𝑡)
= 𝐼
𝑖−𝜏 𝑖
(𝑡)
(𝑡−1)
+ ∆𝑖
(𝑡)
• 動きベクトルと残差は離散コサイン変換(DCT)とエント
ロピー符号化する
9. 圧縮表現のモデリング
• 分離モデル
• バックトレース技術
• フレームtの位置iのピクセル
• 前のフレームの参照位置
𝜇 𝜏 𝑡 𝑖 ≔ 𝑖 − 𝜏𝑖
(𝑡)
• フレームk<tに追跡された位置
𝐽𝑖
(𝑡,𝑘)
≔ 𝜇 𝜏 𝑘+1 ∘∙∙∙∘ 𝜇 𝜏 𝑡 (𝑖)
• 累積された運動ベクトル𝐷 𝑡 ∈ ℝ 𝐻×𝑊×2
𝐷𝑖
(𝑡)
≔ 𝑖 − 𝐽𝑖
(𝑡,𝑘)
• 累積残差ℛ 𝑡 ∈ ℝ 𝐻×𝑊×3
ℛ 𝑖
(𝑡)
≔ ∆
𝐽𝑖
𝑡,𝑘+1
𝑘+1
+∙∙∙ +∆
𝐽𝑖
𝑡,𝑡−1
𝑡−1
+ ∆𝑖
(𝑡)
• 新たな依存関係
𝐼𝑖
(𝑡)
= 𝐼
𝑖−𝐷𝑖
(𝑡)
(0)
+ ℛ 𝑖
(𝑡)
, 𝑡 = 1,2, …
21. 実験➀
• 視覚化
• t-SNE[1]空間内の同じアクションの2つのビデオのRGB表
現と圧縮表現の比較
• RGB空間では、2つのビデオが明確に分離されており、動
きベクトルと残差空間で重なり合っていることがわかる
• RGB画像ベースのモデルが2つのパターンを別々に学習す
る必要があることを示す
• 圧縮ビデオベースのモデルでは、同じアクションのビデオ
の共有表現が見られ、訓練と一般化が容易
[1]L. v. d. Maaten and G. Hinton. Visualizing data using t-SNE.
JMLR, 2008.
30. 実験③精度
• Two-stream Networkとの比較
• 最先端のモデルのTwo-stream
• RGBフレームでトレーニングされたストリーム
• オプティカルフローに関するストリーム
• RGBストリームを圧縮ストリームで置き換える
• BN-Inception(7 segments)を使用して時間的ストリーム
ネットワークを訓練し、 Late Fusionによって提案モデルと
組み合わせる