Successfully reported this slideshow.
Your SlideShare is downloading. ×

[DL輪読会]Temporal Abstraction in NeurIPS2019

More Related Content

Similar to [DL輪読会]Temporal Abstraction in NeurIPS2019

More from Deep Learning JP

[DL輪読会]Temporal Abstraction in NeurIPS2019

  1. 1. DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Temporal Abstraction in NeurIPS2019 presentator Kei Akuzawa
  2. 2. • NeurIPS2019のTemporal Abstraction関連の論文を二本紹介します • Variational Temporal Abstraction • Language as an Abstraction for Hierarchical Deep Reinforcement Learning
  3. 3. Temporal Abstraction とは (Precup 2018 より) • 時間方向において階層化された各レベルのアクションの統合(関係の学習) • 例: ご飯を作る • 高レベル: レシピを選ぶ,買い物リストを作る,買い物をする,調理 • 中レベル: 鍋を用意,鍋に具材を入れる,鍋をかき混ぜる • 低レベル: 手首や腕の動き • 上記のような階層的な表現を持ったエージェントの利点: • Planning: 高レベルの表現上で行えばパスが短くて良い,誤差の堆積が減る,etc. • Learning: 探索の改善(上位の方策をランダムにしても下位の方策は秩序だった行動をする),etc. • Interpretability
  4. 4. Options Framework (one of the formalization of temporal abstraction, Sutton+1999 より)
  5. 5. Temporal Abstraction: 二つのアプローチ • 予測モデル(予測モデルと尤度)ドリブンなTemporal Abstraction • Variational Temporal Abstraction(一本目) • RL(方策と報酬)ドリブンなTemporal Abstraction • Language as an Abstraction for Hierarchical Deep Reinforcement Learning(二本目) • (適当に自分がつけた区分で,一般的ではないと思います.)
  6. 6. 一本目
  7. 7. 書誌情報 • Variational Temporal Abstraction • Taesup Kim, Sungjin Ahn, Yoshua Bengio • NeurIPS2019 • 一言まとめ: 動画などの系列データから階層的な抽象状態を見つけ出す VAEベースのState Space Modelの提案
  8. 8. 背景 • 系列データから階層構造を見つけると… • Option-learning: 階層RLにおけるOption(上位方策)を学習 • 従来だと人手で作る,モデリングの柔軟性が限られる(e.g., Goal Conditional Hierarchical RL),ハイパラ調整が必要など大変な工程 • Jumpy future imagination: 上位の表現上で未来に対する高速な予測 • 旅行のプランを一秒単位で立てたら大変(TD-VAE [Gregor+2019]) • 上記を達成する深層生成モデルを提案する
  9. 9. 提案モデル概要 1. Hierarchical Recurrent Space Models 2. Binary Subsequence Indicator 3. Prior on Temporal Structure 4. Hierarchical Transitions 5. Learning and Inference
  10. 10. 1. Hierarchical Recurrent State Space Models • この論文が目指す階層的なState Space Models(SSM)のグラフィカルモデル • 上位のState( )も遷移する(e.g., レシピを決める->買い物に行く->調理をする) • 上位のState( )を遷移させるタイミングのモデリングが難しい • (各 (上位のイベント)に対応する (下位のイベント)の個数が異なる点に注意) z z z s
  11. 11. Preliminary: Recurrent State Space Models • PlaNet[Hafner+2019] 等で採用されているVAEベースのSSM • これを階層化したものが提案手法 • 上の図では省略してあるが, をRNNでモデル化するのが特徴 • (名前 “Recurrent State Space Models” の由来) p(st |st−1) x s
  12. 12. 2. Binary Subsequence Indicator • をいつ遷移させるかを決める新たなbinary潜在変数 を導入. のときのみ遷移 • , はRNNで集約された (コンテキスト) • アイデア自体はあった(e.g., Ghahramani and Hinton 2000)がVAEでやるのが特徴 z m m = 1 p(zt) = { δ(zt = zt−1) if mt−1 = 0 ˜p(zt |ct) otherwise ct z1:t−1
  13. 13. 3. Prior on Temporal Structure • では をどうパラメタライズするか? => ベルヌーイ分布 with Gumbel-softmaxでモデル化が素直 • しかし何らかの事前知識があれば,それを埋め込んだ方が良いだろう. =>この研究では二つのハイパラをPrior設計に埋め込む • : subsequenceの数の最大値 • : subsequenceの最大の長さ • 直感的な説明: 一つのsub-seqが長すぎず,かつsub-seqの数が多すぎないように p(mt |st) Nmax lmax
  14. 14. 4. Hierarchical Transitions • jumpy future imaginationさせたい • 提案モデルは赤線以外の矢印をわざわざ生 成しなくても は未来へ進むことができる. • 実装上は常に にすればよい • SSMの利点(自己回帰構造を持たない) • 参考: https://www.slideshare.net/ DeepLearningJP2016/ dlsimpleimproved-dynamics- modelplanet-vaerl z mt−1 = 1 x s z1 z2
  15. 15. 5. Learning and Inference • VAE(の一種)なのでELBOで学習 • 生成モデル: • • 推論モデル: • p(X, Z, S, M) = T ∏ t=1 p (xt |st) p (mt |st) p (st |s<t, zt, mt−1) p (zt |z<t, mt−1) q(Z, S, M|X) = q(M|X)q(Z|M, X)q(S|Z, M, X)
  16. 16. 実験 • 示すこと • サブシークエンスとしてどのようなものが学習されるか • jumpy future predictionをnavigationにどう役立てるか • 環境 • Bouncing Ball: • 壁にぶつかると色が変わる • Navigation in 3D Maze • 上位の状態の遷移分布をaction-conditionalな にして実験p(zt |zt−1, at−1)
  17. 17. Bouncing Ball • ボールが壁にぶつかって色が変わったタイミングでスイッチ(上の矢印) • PriorをただのGumbel Softmaxにすると動かない = 常にスイッチがオフ( の遷移が途切れないので,RSSMに相当) • 提案Priorだと動く • T=20, Context=5, , s Nmax = 5 lmax = 10
  18. 18. Navigation in 3D Maze • 左: 鳥瞰図, 右: 一人称視点 • A = {forward, left-turn, right-turn}, ただし交差点以外の場所で は”forward”しか選択できない • T=20, Context=5, ,Nmax = 5 lmax = 8
  19. 19. Navigation in 3D Maze (loss) • 階層構造を持たないRSSMと,持つHRSSMで比較 • “This suggests that our model does not lose the reconstruction performance” • とはいえ誤差が増えてるが, の遷移が途切れるようにモデル化してるので仕方ないかs
  20. 20. Goal-Oriented Navigation • 設定: ゴール近傍の画像が与えられた 状況でのNavigation • エージェント: 予測モデルを使って仮 想的なnステップのTrajectoryを作 り,その中でリワードが一番高いも のを実際にrollout (MCTSっぽい) • HRSSMはRSSMより性能が高い. 状態が抽象化されていることによりn ステップで想像できる未来がより長 期になっているから • 上位の表現 でのnステップと,下 位の表現 でのnステップを比べて いる(たぶん)ので当たり前 z s
  21. 21. 感想 • 面白い方向性にシンプルな手法 • 例えばBouncing Ballの実験で,Ballが複数個あるようなときは,Ballごと にサブシークエンスが学習されるべきではないか?(時空間の抽象化) • 例えば音声データには単語/発話/話者など様々なレベルの階層構造がある が,どれが学習されるかは と の与え方に依存する思える.このよう に と に学習が大きく依存する(かつ と の選び方が簡単じゃな い)場合,どうすればよいだろうか(e.g., 他の事前知識の与え方はあるか) Nmax lmax Nmax lmax Nmax lmax
  22. 22. 二本目
  23. 23. 書誌情報 • Language as an Abstraction for Hierarchical Deep Reinforcement Learning • Yiding Jiang, Shixiang Gu, Kevin Murphy, Chelsea Finn • Google Research • NeurIPS2019 • 一言まとめ: 言語による指示をサブゴールとした階層RLにより,学習時と 異なる環境への汎化(=外挿)を達成
  24. 24. 背景 • 階層強化学習(HRL)において効果的かつ汎用的なabstractionを学習する のは難しい • スキルをあるタスクに特化させればそのタスクの性能はあがるが,その スキルが汎用的になる保証はない • ただでさえHRLはtuningが大変 • 言語はCompositional => うまくHRLと組み合わせることで,汎用性を高 められないだろうか
  25. 25. 貢献 • HRLにおいて言語をアブストラクションに用いるフレームワークの提案 • 言語指示(インストラクション)を統合した連続制御環境(OSS)の提供 • MuJoCoとCLEVR[Johnson+2017]を基にしている • Long-horizon task( 遅延報酬タスク)におけるCompositionalityの役割 を実験的に確認,systematic generalization( 外挿)を達成 ≈ ≈
  26. 26. Preliminary: Goal-Conditional HRL • 上位方策はサブゴールをサンプリング,下位方策はサブゴールを達成するようなHRLの枠組み • 上位方策 : サブゴール をサンプリング.外的報酬で訓練. • 下位方策 : 適当な負の距離- を報酬として訓練 πh(g|st) g πl(a|st, g) d(st, g)
  27. 27. 提案手法-方針- • Goal-Conditional HRLにおいてサブゴールを言語指示の達成と見做す • 上位方策は言語指示(=サブゴール)をサンプリング • 下位方策は言語指示の達成を報酬として訓練 • Note: 単一のGoal Stateではなく,Goal Regionを考えている • e.g., 「赤いボールを青いボールより右に置く」 <= このようなstateは一意ではない • メリット 1. 下位方策が(入力の言語指示がCompositionalであるため)汎化しやすい 2. 上位方策(の出力する言語指示)は人間にとって解釈性高い 3. 人間も似たようなこと(言語に基づいたスキル獲得)をやってそう
  28. 28. 提案手法-下位方策の訓練- • 下位方策の報酬: は Given • ある が,インストラクション を満たしているかを判定する関 数(右図) • 著者らが提供した環境ではこれを自 動でやってくれる? • 下位方策 の内部で言語指示 は GRUで雑に埋め込まれている Ψ : 𝒮 × 𝒢 → {0,1} s ∈ 𝒮 g ∈ 𝒢 πl(at |st, g) g
  29. 29. 提案手法-下位方策の訓練- • だけだとスパースリワードすぎ => Hindsight Instruction Relabeling (HIR)の利用 • が達成できなかった=>報酬が得られない=>どうしよう? • を満たす (i.e., をCaptioiningするような ) をサンプ リングすれば,報酬が得られた場合のTrajectoryを用意できる • ただし条件付き確率 はgivenである必要 (人手 or Image captioning model) Ψ(st+1, g) g Ψ(st+1, g′) = 1 g′ st+1 g′ ω(g|s)
  30. 30. 提案手法-上位方策の学習- • 下位方策 は訓練済みで与えられている状況を想定 • 上位方策 は,外部報酬を用いて任意のRLアルゴリズムで訓練可能 • 上位方策 のモデル化も自由 • 例えば言語生成モデルにすることもできる(が報酬から生成モデルの学習は困難) • この研究では,上位方策がサンプリング可能な言語指示の集合 を小さく取り( ),離 散的な 個の言語指示をアクションとしてDQNを使用 • 下位方策はたくさんの言語指示( )に汎化してほしいが,上位方策は少数( ) に汎化すれば,最終的なタスクを解くのに十分 πl(a|s, g) πh(g|s) πh(g|s) g ∈ ℒ ℒ ⊂ 𝒢 |ℒ| g ∈ 𝒢 g ∈ ℒ( ⊂ 𝒢)
  31. 31. 動作例 • https://sites.google.com/view/hal- demo#h.p_XvbS-Ac8r6jC • 以下の条件を満たすよう物体を並び替える 1.red ball to the right of purple ball 2.green ball to the right of red ball 3.green ball to the right of cyan ball 4.purple ball to the left of cyan ball 5.cyan ball to the right of purple ball 6.red ball in front of blue ball 7.red ball to the left of green sphere 8.green ball in front of blue sphere 9.purple ball to the left of cyan ball 10.blue ball behind red ball • タスク達成のため様々な言語指示が上位方 策からサンプリングされている様子が表示 されている(たぶんそう)
  32. 32. 実験 • 環境: • 著者らがMuJoCoとCLEVRを元に作成 • 示したいこと • 言語による表現は,Compositionalではない他の表現に比べて優れているか • 言語指示の数やstateの次元に提案手法がスケールするか • 外挿できるか • SoTAなHRLと提案手法の性能比較 • (一部抜粋です)
  33. 33. 下位方策の評価1. Role of Compositionality and Relabeling • 「一つの下位方策がどれだけ多 くの指示を解けるか」評価 • Non-Compose: • を(自己符号化器による)言 語指示の埋め込みにした場合 • Non-Composeと,HIRなしの 場合はあまり学習が進まず • Compositionalな が大事 • 密な報酬が大事 g g
  34. 34. 下位方策の評価2. Visual Generalization • Systematic: “red"という単語を前半に含まない言語指示を訓練,含むものをテストデータにした • を言語にすると(Language),埋め込み(Non-Compos)にした時と比べて,テストデータにおけ る性能の劣化が抑えられている => 外挿に強い g
  35. 35. 上位方策(あるいはアルゴリズム全体)の評価 • 6つのタスクで評価(右図は一部抜粋) • 比較手法:HIRO, OC(既存のHRL), DDQN(non-H RL) • 強い • 比較手法は言語を一切用いてないの で,当然といえば当然
  36. 36. 議論・Future Work • human language supervisorをimage captioning modelで置き換えたい • 結局用意された環境,言語指示の集合によって性能が制限されてしまう => 言語の教師なしでCompositionalなabstractionを獲得したい
  37. 37. 感想 • image captioning model とVQA さえあればHRLと言語が 接続できる,というアイデアがシンプルで好き.拡張の余地もたくさんあ りそう. • 外挿の実験も面白い ω(g|s) Ψ(s, g)
  38. 38. References • Sutton, R. S., Precup, D., and Singh, S. P. (1999). Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning. Artif. Intell., 112(1-2):181‒211. • Doina Precup. (2018). Temporal Abstraction. DLRL Tronto 2018. https://dlrlsummerschool.ca/wp- content/uploads/2018/09/precup-temporal-abstraction-rlss-2018.pdf • Gregor, K., Papamakarios, G., Besse, F., Buesing, L., and Weber, T. Temporal difference variational auto-encoder. In International Conference on Learning Representations, 2019. • Ghahramani, Z. and Hinton, G. E. Variational learning for switching state-space models. Neural computation, 12(4):831‒864, 2000. • Hafner, D., Lillicrap, T., Fischer, I., Villegas, R., Ha, D., Lee, H., and Davidson, J. Learning latent dynamics for planning from pixels. ICML2019. • Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Li Fei-Fei, C Lawrence Zitnick, and Ross Girshick. Clevr: A diagnostic dataset for compositional language and elementary visual reasoning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2901‒2910, 2017.

×