Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Gunosyデータマイニング研究会 #118 これからの強化学習

5,052 views

Published on

Gunosyデータマイニング研究会の資料です

Published in: Data & Analytics
  • Hello! High Quality And Affordable Essays For You. Starting at $4.99 per page - Check our website! https://vk.cc/82gJD2
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

Gunosyデータマイニング研究会 #118 これからの強化学習

  1. 1. これからの強化学習 大曽根 圭輔(Gunosy Inc.) 2017年 4月 12日
  2. 2. - 1.3章 - 価値反復に基づくアルゴリズム - 1.4章 - 方策勾配に基づくアルゴリズム 今日の範囲: これからの機械学習
  3. 3. 発表者と強化学習の出会い 10年前に研究室配属された時に先輩がやってた - そもそも当時はあまり流行ってなかった - 当時はロボットの文脈で使われことも多く、 環境の離散化に苦戦 - 難しそうなのであきらめた
  4. 4. これからの機械学習 - 1.3章 - 価値反復に基づくアルゴリズム 行動価値関数Qを学習し、最適な方策を求める - 1.4章 - 方策勾配に基づくアルゴリズム - 方策を行動価値関数と別に確率的にパラメタライズされた モデルとして表現し、パラメタを最適化する
  5. 5. これからの機械学習 - 1.3章 - 価値反復に基づくアルゴリズム 行動価値関数Qを学習し、最適な方策を求める - 1.4章 - 方策勾配に基づくアルゴリズム - 方策を行動価値関数と別に確率的にパラメタライズされた モデルとして表現し、パラメタを最適化する
  6. 6. 1.3章でやること 行動価値関数を推定することで => 方策の良さを評価する - 2つのアルゴリズムを紹介 - Sarsa - ある方策πのもとでの行動価値関数について成り立つベルマン方程式に基づく - Q-learning - 最適行動価値関数について成り立つ再帰式であるベルマン最適方程式に基づく - 価値反復法で学習
  7. 7. 1.1節では多腕バンディットを紹介 状態も変化しない 環境も変化しない おさらい
  8. 8. 1.2節では状態をマルコフ決定過程で記述 状態空間 S 行動空間 A(s) 初期分布 P0 状態遷移確率 P(s’|s, a) 報酬関数 r(s, s’, a) おさらい
  9. 9. おさらい ステップtの際の 次の状態 報酬
  10. 10. エージェントの行動 - 方策 π(a|s) - 行動 A(st) ~ π(a|St) 報酬の扱い - 割引報酬和 - γが大きければより長期的に有益な行動を高く評価するようになる おさらい
  11. 11. 1.3章でやること 行動価値関数を推定することで => 方策の良さを評価する - 2つのアルゴリズムを紹介 - Sarsa - ある方策πのもとでの行動価値関数について成り立つベルマン方程式に基づく - Q-learning - 最適行動価値関数について成り立つ再帰式であるベルマン最適方程式に基づく - 価値反復法で学習
  12. 12. 1.3.1 価値関数の推定 状態価値関数 V(s) => 特定の方策におけるある状態以降の利得の期待値、これを最大化したい 行動価値関数 Q(s, a)   => 特定の状態で特定の行動をした際の収益の期待値
  13. 13. 状態価値関数を導出するよ モンテカルロ法ですべての状況の状態価値関数を求めれば良いが時間がかかるよ => 各状況における各状況の勝率を求める => 次元が大きすぎて最適化できない 1.3.1 価値関数の推定
  14. 14. 1.3.2 ベルマン方程式 ベルマン方程式の導出
  15. 15. 1.3.2 ベルマン方程式 第一項 第二項
  16. 16. 1.3.2 ベルマン方程式 第一項 第二項 とみなせる
  17. 17. 1.3.2 ベルマン方程式 第一項 第二項 とみなせる
  18. 18. 1.3.2 ベルマン方程式 これらをまとめると状態価値関数に関するベルマン方程式が得られる
  19. 19. 1.3.2 ベルマン方程式 同様に、行動価値関数についても 次の状態(s’)に遷移する確率 現在の状態、行動、次の状態に応じたり利得 次の状態の割引報酬和 であるから
  20. 20. 1.3.3 Sarsa ベルマン方程式を試行錯誤による経験で解くアルゴリズム              は学習率
  21. 21. 1.3.3 Sarsa TD誤差 Sarsaの式変形 TD誤差 (更新がなくなるとこの項が 0になるので収束を図ることができる ) TD = Temporal Difference
  22. 22. 1.3.4 ベルマン最適方程式 1.2節より最適行動価値関数というものがあるのでこれを代入 Vの右辺に方策 (π)が含まれていない
  23. 23. 1.3.5 Q-learning Q-learning (Deep Q Networkで有名) Sarsaと同様に学習が収束している場合には第 2項が0になる
  24. 24. SarsaやQ-learningで得た価値関数を指針として使うことで、良い方策へと更新する - 1.4章で述べる方策反復法で方策を最適化する - greedyアルゴリズムなどで価値関数から簡単に計算できる方策に限定する - ε-greedyアルゴリズムのように確率 εでランダムな行動を取るようにしないと収束しない 1.3.6 方策の獲得と価値反復法
  25. 25. - 1.3章 - 価値反復に基づくアルゴリズム 行動価値関数Qを学習し、最適な方策を求める - 1.4章 - 方策勾配に基づくアルゴリズム - 方策を行動価値関数と別に確率的にパラメタライズされた モデルとして表現し、パラメタを最適化する これからの機械学習
  26. 26. 1.4 方策勾配に基づくアルゴリズム ゴルフ問題の例 行動関数を関数近似する
  27. 27. 1.4.1概要
  28. 28. 1.4.2 アルゴリズムの枠組み 方策勾配法は方策をモデル化して最適化すること 方策をパラメータθで記述し、下式で更新する 更新量 は以下で記述することができる
  29. 29. 確率的方策による行動 方策の例として、ソフトマックス関数やガウス関数が考えられる 他にもいろいろありそう。一時期流行ったGAでのルーレット選択的な
  30. 30. 方策の評価 方策の良さを評価したい Jを具体的に定義する 平均報酬和 割引報酬和
  31. 31. 方策の更新 最適なパラメータを解析的に導出することは困難であるため、勾配法でパラメータ推定 を行う  ηは更新幅を決定するパラメータ、 J(θ)は、偏微分を用いて下記のように表現できる
  32. 32. 方策の更新 さらに変形して
  33. 33. 勾配の近似 2つのアプローチがある QをRで近似 Qを線形モデルで近似 方策のモデル (Actor)と行動価値関数のモデルの両方を別々にモデル化する方法を Actor-Criticアルゴリズムという
  34. 34. Qを線形モデルで近似 勾配の近似 特徴ベクトルに確率的方策モデルの対数勾配を採用し、近似
  35. 35. 自然方策勾配法 パラメータ間の距離をユークリッド距離ではなくKLダイバージェンスで定める (KLダイバージェンスは距離尺度ではない)
  36. 36. REINFORCEアルゴリズム 行動価値関数QをRで近似する に を代入し以下の式を得る
  37. 37. ベースラインを導入し、推定分散を小さくする REINFORCEアルゴリズム を用いて下式を更新
  38. 38. wというシンプルなパラメータのみで記述できる 自然方策勾配法
  39. 39. 行動価値関数を学習する1.3章と異なり、方策を学習する 方策をパラメータ表現し、具体的なアルゴリズムを紹介 行動価値関数を学習するアルゴリズムと比較して、連続の状態を扱いやすくなるというメ リットがある まとめ

×