More Related Content More from Deep Learning JP (20) [Dl輪読会]video pixel networks1. VIDEO PIXEL NETWORKS
NAL KALCHBRENNER, A¨ARON VAN DEN OORD, KAREN SIMONYAN
IVO DANIHELKA, ORIOL VINYALS, ALEX GRAVES, KORAY KAVUKCUOGLU
2016/10/28 河野 慎
1
2. PIXEL VIDEO NETWORKS
書誌情報
▸ 2016年10月3日ArXivに投稿
• まだ被引用はなし
▸ Deep Mind
• PixelRNN, PixelCNN, Wavenetの著者Äaron van den Oordが共著にいる
• ついに映像予測にも手を出した
2
3. VIDEO PIXEL NETWORKS
背景
▸ 映像のモデリングの難しさ
• 内在する複雑性と曖昧さによって難化
• 今までのアプローチ:
- 平均二乗誤差とDNNの組み合わせ
- 量子化された画像のパッチ(穴埋め?)
- incorporate motion priors
- adversarial lossを使う?
• MovingMNISTなどの単純な予測でも構造的人工物(ぼけなど)をのぞけない
3
4. VIDEO PIXEL NETWORKS
提案モデル
▸ 映像のピクセルのRGB値の同時確率をモデル化
• x:映像
• xt:t番目のフレーム
• i, j:行・列のインデックス
• RGB:赤緑青の値(0-255)
- 各分布は256次元の離散多項分布(Softmax出力)
• x<:x(t, <i, <j, :) x(<t, :, :, :)
• 分解順は,時系列かつPixelCNNの知見
4
x(t, <i, <j, :)
x(<t, :, :, :)
これを求めるために
5. VIDEO PIXEL NETWORKS
Video Pixel Networks (VPN)
▸ 2つの構造を有している
• Resolution Preserving CNN Encoders
- データの時系列情報をモデリング
- Convolutional LSTMで構成される
• PixelCNN Decoders
- 映像の空間と色の依存性をモデリング
- PixelCNNで構成されている
5
6. VIDEO PIXEL NETWORKS
Resolution Preserving CNN Encoders
▸ フレームF0,...,FTを与えられた時
• F0,…,FT-1をまずCNNに入力する
- CNNは8個のResidual Blocksで構成されている(実験則)
✓ 解像度を保持->表現力を失わずにピクセルを生成できるから
- Dilation(Wavenetにも出てきた受容野をコストかけずに広げる方法)
✓ [1, 2, 4, 8] * 2
• T個の出力をConvolutional LSTMに入力する
6
7. VIDEO PIXEL NETWORKS
PixelCNN Decoders
▸ エンコーダのT個の出力をそれぞれPixelCNNに入力
• PixelCNNは12個のResidual Blocksで構成される
• 出力は,Softmax層で各ピクセルの各色の強さの値(256)
7
Conditional Image Generation
with PixelCNN DecodersからフレームFtでそれまでに出力したピクセルの値
10. VIDEO PIXEL NETWORKS
ベースラインモデル
10
ない
▸ 前のフレームから次のフレームを予測
• ただし,同フレーム内のピクセル同士の色・位置依存は無視
• 例:ロボットアームの映像
- 時刻tに写っているアームは時刻t+1に左か右に移動
✓ 隣接してるピクセルを考慮しないと
ピクセルxは左に移動,ピクセルyは右に移動
と生成してしまう
✓ VPNなら考慮するから一貫性の取れた生成ができる
11. VIDEO PIXEL NETWORKS
Moving MNIST
▸ 64 64の20フレーム
• 2つのMNISTの数字が重なったりしながら一定速度で動く動画
• 最初の10フレームを与えて次の10フレームを予想する
▸ MNISTはグレースケールなので,PixelCNNの出力は2値で,損失関数も
• 予測yが完全に正解zと一致した場合(zi = yi)
- H(z, y) = 86.3 nats/frame
11
※実装の詳細は論文参照
14. VIDEO PIXEL NETWORKS
Robotic Pushing
▸ 64 64の20フレーム
• カゴの中でロボットアームがものを押す動画
- 各フレームには,ロボットアームの状態と望まれる動作のベクトルが付与
• 学習時
- 2フレームに2状態,2動作を条件付けて,入力
- 動作ベクトルを条件付けて10フレームを予測する
• テスト時は,動作は条件付けて18フレームを予測する
14
20. VIDEO PIXEL NETWORKS
まとめと感想
▸ ビデオの同時確率をモデリングするVideo Pixel Networksを提案
• 動作の事前情報やsurrogate lossesなしにMoving MNISTでSOTA
• Robotic Pushingにおいて,ベースラインよりすぐれている
- 将来予測は,ぼけなどの人工物なしかつ詳細に可能
- 対角の空間依存によって,ロバストで一般的な方法を実現
▸ 順当にPixelRNN->PixelCNN->WaveNet->VPNと発展・拡張してきている
• 研究の流れとして参考にしたい
20