Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Gunosy DM #118 1.5 部分観測マルコフ決定過程と強化学習

5,835 views

Published on

Gunosyデータマイニング研究会 #118 https://gunosy-dm.connpass.com/event/54124/ の発表資料です。
これからの強化学習の1.5節についての内容です。

Published in: Data & Analytics
  • Be the first to comment

Gunosy DM #118 1.5 部分観測マルコフ決定過程と強化学習

  1. 1. Gunosy Inc. 吉田 宏司 2017.4 Gunosy DM #118 1.5 部分観測マルコフ決定過程と強化学習
  2. 2. 2©Gunosy Inc. この資料について Gunosyデータマイニング研究会 #118 https://gunosy-dm.connpass.com/event/54124/ の発表資料です これからの強化学習の1.5節についての内容です
  3. 3. 3©Gunosy Inc. 1.5節でやること 前節までで扱っていたMDP(マルコフ決定過程 : Markov Decisioll Process)は、エージェン トが状態を完全に観測可能であると仮定していた しかし、実問題では、センサの性能不足やノイズなどから、状態の観測は不確実(部分的)と なってしまう ● エージェントから見ると同一の状態でも、実際には異なった状態が存在するため、 エージェントから見るとマルコフ性を仮定出来なくなる 本節では、この不確実性を考慮したPOMDP(部分観測マルコフ過程 : Patially Observable Markov Decisioll Process)における強化学習について学ぶ
  4. 4. 4©Gunosy Inc. Kaelbingらの部分観測マルコフ決定過程の定義 ● <S, A, T, R, Ω, O> の組 — S : 状態集合 — A : 行動集合 — T : 状態遷移関数(状態遷移確率を記述する関数) ● T(s, a, s’) = P(s’ | s, a) — R : 報酬集合 — Ω : 観測集合(エージェントの観測を要素にもつ有限な集合) — O : 観測関数(エージェントの観測を記述する関数) ● O(s’, a, o) = P(o | a, s’) ● o : sの部分的な観測 部分観測マルコフ決定過程の定義
  5. 5. 5©Gunosy Inc. 野鳥の保護に対するPOMDPの適用可能性の検討 ● 状態 : 巣らしき場所に取りが住んでいるか・いないか ● 行動 : 調査活動を行うか・通常の行動を行うか — 調査にはコストがかかる — 通常の行動は利益が出るが、野鳥がいるのに通常の行動を取ると大きな不利 益が出る ● 制約 : 観測を行っても、巣らしき場所に鳥がいるのかどうかは確実ではない 部分観測マルコフ決定過程の応用事例
  6. 6. 6©Gunosy Inc. 環境に対するモデルの事前知識の利用有無の観点 ● 有 : モデルベースド — モデル(状態遷移確率や観測関数)を推定してから、方策を学習する ● 無 : モデルフリー — モデル推定なしに、方策を学習する — Q-learning等 価値や方策を求めるタイミングの観点 ● オンライン — 価値・方策を求めながら、その時点で得られた方策を実行していく ● オフライン — 価値・方策を求めてから、得られた方策を実行していく 部分観測マルコフ決定過程下の強化学習の解法の分類
  7. 7. 7©Gunosy Inc. 『信念状態とは、どの状態にいるかを表す確率を並べてつくる「状態」である.』 ● 信念 b は状態空間 S 上の確率分布 ● b(s) ∈ [0,1] は環境が状態 s ∈ S にいる確率 信念状態
  8. 8. 8©Gunosy Inc. 2つのドアのどちらかを開けるとトラがいて、ドアを開けるたびにトラは移動する ● 状態 — s_l : 左のドアにトラがいる — s_r : 右のドアにトラがいる ● 報酬 — ドアを開けて、トラがいると大きな負の報酬 — いないと正の報酬 ● 行動 — left : 左のドアを開ける — right : 右のドアを開ける — listen : 音を聞く 信念状態の例Tiger
  9. 9. 9©Gunosy Inc. 信念状態の例Tiger
  10. 10. 10©Gunosy Inc. belief update(信念状態の更新 ) 信念状態 b は、POMDPの要素である、状態遷移関数 T 、観測関数 O を用いて更新でき る ● 状態遷移関数 : T(s, a, s’) = P(s’ | s, a) ● 観測関数 : O(s’, a, o) = P(o | a, s’)
  11. 11. 11©Gunosy Inc. 信念状態 b を状態と考えれば、POMDPはMDPのように扱うことができるようになり、この MDPをbelief MDPと呼ぶ ● エージェントにとって信念は既知のため、belief MDPは部分観測ではなくなる ● <B, A, τ, r > の組 — B : 信念状態空間 — A : 行動集合 — T : 状態遷移関数 — R : 報酬関数 ● 信念は無限に存在しうるので、belief MDPは連続状態空間上に存在する — 計算が大変 belief MDP
  12. 12. 12©Gunosy Inc. モデルベースドな手法 = 状態信念空間上のMDPのモデルが分かっているとして、行動価値 や方策を求める手法 ● 以下について紹介する — belief MDP上の価値関数の表現 — exact value iteration(価値関数を求める厳密解法) — Point-Based Value Iteration(PBVI、価値反復の近似解法) — Point-Based Policy Iteration(PBPI、方策反復の近似解法、省略されてる) モデルベースドな手法
  13. 13. 13©Gunosy Inc. belief MDP上の価値関数の表現 価値反復法 = 繰り返し計算でベルマン最適方程式の解を求める手法 ● 式(1.5.5) : 状態価値関数に関するベルマン最適方程式 ● 式(1.5.6) : 価値反復法で行うバックアップという操作 ● 式(1.5.7), (1.5.8) : belief MDP版
  14. 14. 14©Gunosy Inc. belief MDP上の価値関数の表現(αベクトルを使用) 価値関数 V(s) は、信念状態 b(s) と s の価値関数を表す α ベクトルの線形和で表される (ことが知られている) ● (直感的には)信念状態空間の中央付近は、エージェントが状態観測が上手くいって いない状況なので、適切な行動選択ができず、価値関数は低くなり、下に凸となる
  15. 15. 15©Gunosy Inc. (よく分かっていない)αベクトル数が指数的に増えてしまう ● 「直感的には、現在知っている深さ k 以下の行動決定木に対応する α ベクトルをも とにして、新しい根ノードを組み合わせることで深さ k+1 の行動決定木に対応する α ベクトルのすべてを生成するプロセスと捉えることができる」 exact value iteration(価値関数の厳密解法)
  16. 16. 16©Gunosy Inc. Point-Based Value Iteration(価値関数の厳密解法) PBVI = 計算量を減らすために、信念状態空間 B の部分集合においてのみ価値反復を行う 手法 ● ある一つの信念状態 b に関する backup(b) を用いて、αベクトルを更新する
  17. 17. 17©Gunosy Inc. 強化学習とは?(What is Reinforcement Learning?) 強化学習 その4 部分観測マルコフ決定過程 - Wikipedia 参考文献

×