Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Unsupervised Learning for
Physical Interaction through
Video Prediction
Chelsea Finn@UC Berkeley
Ian Goodfellow@OpenAI
Ser...
目次
 概要
 デモ
 アーキテクチャー
 実験結果
 まとめ
目次
 概要
 デモ
 アーキテクチャー
 実験結果
 まとめ
概要
 目的
 カメラの画像とロボットアームの制御データから未来の画像(ピクセル値)を
予測する
 工夫
 ピクセルの移動を表現するベクトル(motion transformation 𝑚)をニューラル
ネットワークから出力し直前の画像...
目次
 概要
 デモ
 アーキテクチャー
 実験結果
 まとめ
デモ
Ground truth expected
https://www.sites.google.com/site/robotprediction/
学習済みの物体
デモ
Ground truth expected
https://www.sites.google.com/site/robotprediction/
初めて見る物体
何が嬉しい?
 教師なし(人によるラベル付け作業無し)で物理法則(画像内の不変
量)を学ばせることができる
 行動ごとに異なる未来を予測
 ゴール指向の行動計画
 起こりうる未来の問題の予測(自動運転などで)
 予測の文脈における興味...
目次
 概要
 デモ
 アーキテクチャー
 バリエーション
 実験結果
 まとめ
アーキテクチャ
アーキテクチャ
入力画像
アーキテクチャ
出力画像
アーキテクチャ
convolutionにrecurrent結合を
持たせたレイヤー
アーキテクチャ
skip
アーキテクチャ
制御信号
(アクションと状態)
アーキテクチャ
マスク
アーキテクチャ
motion transformation 𝑚 ̂
バリエーション
1. Dynamic Neural Advection(DNA)
2. Convolutional Dynamic Neural Advection(CDNA)
3. Spatial Transformer Predictors...
Dynamic Neural Advection(DNA)
Dynamic Neural Advection(DNA)
過去フレームの
ピクセル
Dynamic Neural Advection(DNA)
予測フレームの
ピクセル
Dynamic Neural Advection(DNA)
座標
Dynamic Neural Advection(DNA)
重み
Dynamic Neural Advection(DNA)
出力先座標の周りで足し合わせ
Dynamic Neural Advection(DNA)
重み
ここをニューラルネットで推定
Convolutional Dynamic Neural Advection(CDNA)
ここを畳み込みに変更
(DNAは画像全体に適用)
Spatial Transformer Predictors(STP)
現在の座標
Spatial Transformer Predictors(STP)
1フレーム前の座標
Spatial Transformer Predictors(STP)
変換行列
Spatial Transformer Predictors(STP)
ここをニューラルネットで推定
Spatial Transformer Predictors(STP)
ここをニューラルネットで推定
画像生成の式
Spatial Transformer Predictors(STP)
ここをニューラルネットで推定
𝑥𝑡−1 = 𝑘のとき1それ以外0
Spatial Transformer Predictors(STP)
ここをニューラルネットで推定
𝑦𝑡−1 = 𝑙のとき1それ以外0
アーキテクチャ
元画像
アーキテクチャ
元画像 motion transformation
・・・
アーキテクチャ
元画像 motion transformation
・・・
10個
アーキテクチャ
元画像 motion transformation conv
・・・
・・・
アーキテクチャ
元画像 motion transformation conv
mask
(sum=1)
・・・
・・・
・・・
アーキテクチャ
元画像 motion transformation conv
mask
(sum=1)
・・・
・・・
・・・
10+1個
アーキテクチャ
元画像 motion transformation conv
mask
(sum=1) result
・・・
・・・
・・・
・・・
アーキテクチャ
元画像 motion transformation conv
mask
(sum=1) result
・・・
・・・
・・・
・・・
画素の補完
アーキテクチャ
元画像 motion transformation conv
mask
(sum=1) result
・・・
・・・
・・・
・・・
+
+
=
画素の補完
目次
 概要
 デモ
 アーキテクチャー
 実験結果
 定量評価
 アクションの変更
 マスク可視化
 まとめ
定量評価
学習済みの物体
better
提案手法 画像を直接予測 画像の差分を予測 Skipなし
定量評価
初めて見る物体
提案手法 画像を直接予測 画像の差分を予測 Skipなし
better
アクションの変更
アクションの変更
最初のフレームのみ入力
アクションの変更
最初のフレームのみ入力
変更
アクションの変更
初めて見る物体
Action x 0 Action x 1 Action x 1.5
https://www.sites.google.com/site/robotprediction/
マスク可視化
ここを可視化
(10+1個ある)
マスク可視化
初めて見る物体
prediction Mask 0(background) Mask 2
https://www.sites.google.com/site/robotprediction/
目次
 概要
 デモ
 アーキテクチャー
 実験結果
 まとめ
まとめ
 目的
 カメラの画像とロボットアームの制御データから未来の画像(ピクセル値)を
予測する
 工夫
 ピクセルの移動を表現するベクトル(motion transformation 𝑚)をニューラル
ネットワークから出力し直前の画...
以降参考スライド
定量評価
𝑃𝑆𝑁𝑅 = 10 log10
𝑀𝐴𝑋2
𝑀𝑆𝐸
𝑆𝑆𝐼𝑅(𝑥, 𝑦) =
(2𝜇 𝑥 𝜇 𝑦 + 𝑐1)(2𝜎𝑥𝑦 + 𝑐2)
(𝜇 𝑥
2
+ 𝜇 𝑦
2
+ 𝑐1)(𝜎𝑥
2
+ 𝜎 𝑦
2
+ 𝑐2)
𝑀𝐴𝑋 =輝度のmax(...
Upcoming SlideShare
Loading in …5
×

第2回nips読み会・関西資料『unsupervised learning for physical interaction through video prediction』

1,459 views

Published on

オリジナルのスライド中の幾つかのページにはgif画像が貼り付けてありました。SlideShare中ではgifが動かないため、オリジナルのgif一覧ページヘのリンクを張っておきます。
https://www.sites.google.com/site/robotprediction/

また、元々gifの存在したページには右下に上記urlが貼ってあります。これらのスライドに関してはurl先のページと合わせて御覧ください

Published in: Science
  • Be the first to comment

第2回nips読み会・関西資料『unsupervised learning for physical interaction through video prediction』

  1. 1. Unsupervised Learning for Physical Interaction through Video Prediction Chelsea Finn@UC Berkeley Ian Goodfellow@OpenAI Sergey Levine@Google Brain, UC Berkeley 担当: 落合 幸治 理化学研究所 @第2回NIPS読み会・関西 2016/12/26 ※発表後追記:動画は画像下のリンクで確認できます https://www.sites.google.com/site/robotprediction/
  2. 2. 目次  概要  デモ  アーキテクチャー  実験結果  まとめ
  3. 3. 目次  概要  デモ  アーキテクチャー  実験結果  まとめ
  4. 4. 概要  目的  カメラの画像とロボットアームの制御データから未来の画像(ピクセル値)を 予測する  工夫  ピクセルの移動を表現するベクトル(motion transformation 𝑚)をニューラル ネットワークから出力し直前の画像に適用する  マスクを使い、変化していないピクセルは直前の状態をそのまま出力する  制御信号を畳み込みの途中でconcatenateする  結果  見たことのない物体に対しても移動の予測に成功  制御信号の変更で予測画像も変化
  5. 5. 目次  概要  デモ  アーキテクチャー  実験結果  まとめ
  6. 6. デモ Ground truth expected https://www.sites.google.com/site/robotprediction/ 学習済みの物体
  7. 7. デモ Ground truth expected https://www.sites.google.com/site/robotprediction/ 初めて見る物体
  8. 8. 何が嬉しい?  教師なし(人によるラベル付け作業無し)で物理法則(画像内の不変 量)を学ばせることができる  行動ごとに異なる未来を予測  ゴール指向の行動計画  起こりうる未来の問題の予測(自動運転などで)  予測の文脈における興味深い現象の検出  (物体の領域検出) 応用
  9. 9. 目次  概要  デモ  アーキテクチャー  バリエーション  実験結果  まとめ
  10. 10. アーキテクチャ
  11. 11. アーキテクチャ 入力画像
  12. 12. アーキテクチャ 出力画像
  13. 13. アーキテクチャ convolutionにrecurrent結合を 持たせたレイヤー
  14. 14. アーキテクチャ skip
  15. 15. アーキテクチャ 制御信号 (アクションと状態)
  16. 16. アーキテクチャ マスク
  17. 17. アーキテクチャ motion transformation 𝑚 ̂
  18. 18. バリエーション 1. Dynamic Neural Advection(DNA) 2. Convolutional Dynamic Neural Advection(CDNA) 3. Spatial Transformer Predictors(STP) motion transformation 𝑚 ̂の計算方法は以下の3つが提案されている。 どれを選んでも、パフォーマンスはほぼ同じ。
  19. 19. Dynamic Neural Advection(DNA)
  20. 20. Dynamic Neural Advection(DNA) 過去フレームの ピクセル
  21. 21. Dynamic Neural Advection(DNA) 予測フレームの ピクセル
  22. 22. Dynamic Neural Advection(DNA) 座標
  23. 23. Dynamic Neural Advection(DNA) 重み
  24. 24. Dynamic Neural Advection(DNA) 出力先座標の周りで足し合わせ
  25. 25. Dynamic Neural Advection(DNA) 重み ここをニューラルネットで推定
  26. 26. Convolutional Dynamic Neural Advection(CDNA) ここを畳み込みに変更 (DNAは画像全体に適用)
  27. 27. Spatial Transformer Predictors(STP) 現在の座標
  28. 28. Spatial Transformer Predictors(STP) 1フレーム前の座標
  29. 29. Spatial Transformer Predictors(STP) 変換行列
  30. 30. Spatial Transformer Predictors(STP) ここをニューラルネットで推定
  31. 31. Spatial Transformer Predictors(STP) ここをニューラルネットで推定 画像生成の式
  32. 32. Spatial Transformer Predictors(STP) ここをニューラルネットで推定 𝑥𝑡−1 = 𝑘のとき1それ以外0
  33. 33. Spatial Transformer Predictors(STP) ここをニューラルネットで推定 𝑦𝑡−1 = 𝑙のとき1それ以外0
  34. 34. アーキテクチャ 元画像
  35. 35. アーキテクチャ 元画像 motion transformation ・・・
  36. 36. アーキテクチャ 元画像 motion transformation ・・・ 10個
  37. 37. アーキテクチャ 元画像 motion transformation conv ・・・ ・・・
  38. 38. アーキテクチャ 元画像 motion transformation conv mask (sum=1) ・・・ ・・・ ・・・
  39. 39. アーキテクチャ 元画像 motion transformation conv mask (sum=1) ・・・ ・・・ ・・・ 10+1個
  40. 40. アーキテクチャ 元画像 motion transformation conv mask (sum=1) result ・・・ ・・・ ・・・ ・・・
  41. 41. アーキテクチャ 元画像 motion transformation conv mask (sum=1) result ・・・ ・・・ ・・・ ・・・ 画素の補完
  42. 42. アーキテクチャ 元画像 motion transformation conv mask (sum=1) result ・・・ ・・・ ・・・ ・・・ + + = 画素の補完
  43. 43. 目次  概要  デモ  アーキテクチャー  実験結果  定量評価  アクションの変更  マスク可視化  まとめ
  44. 44. 定量評価 学習済みの物体 better 提案手法 画像を直接予測 画像の差分を予測 Skipなし
  45. 45. 定量評価 初めて見る物体 提案手法 画像を直接予測 画像の差分を予測 Skipなし better
  46. 46. アクションの変更
  47. 47. アクションの変更 最初のフレームのみ入力
  48. 48. アクションの変更 最初のフレームのみ入力 変更
  49. 49. アクションの変更 初めて見る物体 Action x 0 Action x 1 Action x 1.5 https://www.sites.google.com/site/robotprediction/
  50. 50. マスク可視化 ここを可視化 (10+1個ある)
  51. 51. マスク可視化 初めて見る物体 prediction Mask 0(background) Mask 2 https://www.sites.google.com/site/robotprediction/
  52. 52. 目次  概要  デモ  アーキテクチャー  実験結果  まとめ
  53. 53. まとめ  目的  カメラの画像とロボットアームの制御データから未来の画像(ピクセル値)を 予測する  工夫  ピクセルの移動を表現するベクトル(motion transformation 𝑚)をニューラル ネットワークから出力し直前の画像に適用する  マスクを使い、変化していないピクセルは直前の状態をそのまま出力する  制御信号を畳み込みの途中でconcatenateする  結果  見たことのない物体に対しても移動の予測に成功  制御信号の変更で予測画像も変化
  54. 54. 以降参考スライド
  55. 55. 定量評価 𝑃𝑆𝑁𝑅 = 10 log10 𝑀𝐴𝑋2 𝑀𝑆𝐸 𝑆𝑆𝐼𝑅(𝑥, 𝑦) = (2𝜇 𝑥 𝜇 𝑦 + 𝑐1)(2𝜎𝑥𝑦 + 𝑐2) (𝜇 𝑥 2 + 𝜇 𝑦 2 + 𝑐1)(𝜎𝑥 2 + 𝜎 𝑦 2 + 𝑐2) 𝑀𝐴𝑋 =輝度のmax(通常255) 𝑐1 = 0.01𝐿 2 𝑐2 = 0.03𝐿 2 人の感覚に合わせた画像誤差の評価指標 -1~1の値を取り1で完全一致 画像評価指標 大きいほど誤差が少ない

×