SlideShare a Scribd company logo
1 of 21
強化学習Sutton本 勉強会
第二章 評価フィードバック手法 伊能健悟
今回の発表
• 強化学習の概要(第1章の一部)
• 第2章 評価フィードバック手法
→基本的には本書の流れにそって進めていきます
※具体的な数式・実験結果については本書参照
強化学習の概要
• 強化学習の四つの要素
1. Policy→各時刻のエージェントの行動(action)を規定する関数
2. Reward function→actionに対する報酬を決定する関数
3. Value function→Reward functionの総量
4. Model→環境を規定する関数
• 強化学習の目的
→「最終的に得られる報酬の総量最大化」
強化学習の特徴
• 教師あり学習との比較
→行動に対する「評価」で訓練
→正解は与えられない
• 評価とは?
→行動の良さの程度のこと。
この章で考える問題
• n本腕バンディット問題
→n本のレバーがあり、それぞれの腕に固有の点数
の確率分布(価値) がある
→一定回数だけレバーを引いたときの得点の総量
を最大化したい
• 教示、評価による訓練の違い
→評価は能動的な探索が必要になる!
バンディット
この章のメイン
• Exploit(知識利用)とExplore(探査)
評価による訓練の場合、試してない腕を選ぶ行動の価値
については不明
Exploit(知識利用):これまでに得られた知見に従う行動
Explore(探査):新しい可能性を探る行動
→どうやって選ぶかを決める方法「balancing」の基本的
な手法をこの章で紹介
行動価値手法
• 行動によってどのように意思決定するか
→行動の価値を推定する必要がある
• 標本平均手法
→得られた値の平均値を行動価値とする
→推定方法の一つ(以下ではこれで考える)
ε-グリーディ手法
• グリーディ手法
→その時に最も価値の高いと推定される行動を取
り続ける手法
→探査を行わない
• ε-グリーディ手法
→確率εで行動価値推定量とは無関係に行動
ソフトマックス行動選択
• ε-グリーディ手法の欠点
→悪手も探査の対象としてしまう
• ソフトマックス行動選択
→それぞれの選択肢に最適っぽさで重み付けし、選ば
れる確率を変化させる
※どちらの手法が良いかは不明
評価と教示
• 本筋とはやや離れているので後述or割愛
• 行動と報酬がそれぞれ2種類ある問題を仮定
→行動A,Bと報酬0,1
→報酬1を得たら正しい行動をしたと推論、報酬0を得たら選ば
なかった行動が正しかったと推論する
正しいと推論した回数が多い方を選択するとし、これを
「教師ありアルゴリズム」とする→決定論的な場合は全て正しい
評価と教示
• 確率的なケースの場合
→行動の成功確率の組み合わせによってはうまくいかない
例 両方とも正しくない可能性が高い場合
→行動A,Bの成功確率(報酬1)が出る確率が0.1と0.2とする
→行動Aを選択し、報酬0が出る(出やすい)→行動Bを選択すべ
きだったと推論→行動Bを選択→報酬0が出る(出やすい)→行動
Aを選択すべきだった…
→二つの行動間で振動し、最適な行動に落ち着けない
評価と教示
• 「教師ありアルゴリズム」(正しい推論の「頻度」の利用)では
うまく学習できない
• ではどうするか?
→Linear-reward penalty(Linear-reward inaction)
• どういう手法?
→正しいと推論された行動の選択確率を1に近付け、そうでない
行動の選択確率を0に近付ける
→最良とされる行動の確率を増やすアルゴリズム
漸進的手法による行動価値推定量の実装
• 漸進的手法
→毎回平均値を取っているとメモリ・計算にムダ
→ひとつ前の推定値と行動回数だけ記憶しておけ
ば充分
行動価値推定量:その時点で推定される各行動の
価値
非定常問題への追従
• ここからは時間変化するバンディット問題を考える
→近い過去に受け取った報酬を優先したい
→ステップサイズ・パラメータを定数にする
• 何が嬉しい?
→行動価値推定量が収束しなくなり、最新の報酬に応
じて変化
→非定常問題の設定とマッチ
続・非定常問題
• さっきの推定量の特徴
→最初の行動価値推定量に依存する(バイアス)
→これは非定常問題で望ましい
• なぜ望ましい?
→事前知識を与えることができる
→「オプティミスティック初期値」
オプティミスティック初期値
• どのようなバイアスを導入する?
→行動価値の初期値を高く設定する
→続く行動では「失望」し探査が促進
• 補足
→探査促進効果は徐々に低減していく
→非定常問題に対する「一般的な」手法ではない
強化比較手法
• 行動価値推定量を用いない手法
→それぞれの行動の「真の価値」を推定しない
• どうやって行動選択するか?
→全体的な報酬レベル(リファレンス報酬)を利用して
行動選択する
このリファレンス報酬との大小を比較して「優先度」
を決定し、行動確率選択を変化させる
追跡手法
• 行動価値推定量と優先度を使う手法
→行動価値推定量で優先度を決定する
→強化比較手法よりもグリーディな手法
• 具体的にはどうやって?
→推定される価値が最大の行動の優先度を大きくし、
他の行動の優先度を小さくする
※優先度:行動選択確率
連想探索
• ここまでの問題設定は「非連想的」
→「状況」と「行動」が独立
• 例「行動価値が変わると教えてくれるスロット」
→スロットの色に応じて対応した行動価値が上が
るとする
→状況と行動の対応(連想)させる方策の学習
続・連想探索
• 連想探索は中間的な立ち位置
→n本腕バンディットと強化学習問題の中間
行動が即時的な報酬のみに作用→n本腕
方策を学習する→強化学習問題
結論・まとめ
• 本章で紹介したbalancing手法
1. ε-グリーディ手法
2. ソフトマックス行動選択
3. (強化比較手法)
4. 追跡手法
• 進んだ手法
1. 区間推定法
2. ベイズ最適

More Related Content

Similar to Reinforcement learning section2

強化学習 sutton本 2章
強化学習 sutton本 2章強化学習 sutton本 2章
強化学習 sutton本 2章ssuseraf8536
 
Study aiラビットチャレンジ 深層学習Day4
Study aiラビットチャレンジ 深層学習Day4Study aiラビットチャレンジ 深層学習Day4
Study aiラビットチャレンジ 深層学習Day4Naoki Nishikawa
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用Eiji Uchibe
 
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical PrecipiceARISE analytics
 
【最新ではありません。再度URL送付しています→https://www.slideshare.net/ssuserf4860b/day-250965207...
【最新ではありません。再度URL送付しています→https://www.slideshare.net/ssuserf4860b/day-250965207...【最新ではありません。再度URL送付しています→https://www.slideshare.net/ssuserf4860b/day-250965207...
【最新ではありません。再度URL送付しています→https://www.slideshare.net/ssuserf4860b/day-250965207...ssuserf4860b
 
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試みSusumuOTA
 
Tefl20141014 2key
Tefl20141014 2keyTefl20141014 2key
Tefl20141014 2keyyouwatari
 
レビュー方法を実践してみよう20150201
レビュー方法を実践してみよう20150201レビュー方法を実践してみよう20150201
レビュー方法を実践してみよう20150201Masaki Nakahara
 

Similar to Reinforcement learning section2 (11)

(12)人事評価
(12)人事評価(12)人事評価
(12)人事評価
 
強化学習 sutton本 2章
強化学習 sutton本 2章強化学習 sutton本 2章
強化学習 sutton本 2章
 
Study aiラビットチャレンジ 深層学習Day4
Study aiラビットチャレンジ 深層学習Day4Study aiラビットチャレンジ 深層学習Day4
Study aiラビットチャレンジ 深層学習Day4
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
 
人事考課研修
人事考課研修人事考課研修
人事考課研修
 
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
 
科学技術コミュニケーションと評価Ver.2.5
科学技術コミュニケーションと評価Ver.2.5科学技術コミュニケーションと評価Ver.2.5
科学技術コミュニケーションと評価Ver.2.5
 
【最新ではありません。再度URL送付しています→https://www.slideshare.net/ssuserf4860b/day-250965207...
【最新ではありません。再度URL送付しています→https://www.slideshare.net/ssuserf4860b/day-250965207...【最新ではありません。再度URL送付しています→https://www.slideshare.net/ssuserf4860b/day-250965207...
【最新ではありません。再度URL送付しています→https://www.slideshare.net/ssuserf4860b/day-250965207...
 
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
 
Tefl20141014 2key
Tefl20141014 2keyTefl20141014 2key
Tefl20141014 2key
 
レビュー方法を実践してみよう20150201
レビュー方法を実践してみよう20150201レビュー方法を実践してみよう20150201
レビュー方法を実践してみよう20150201
 

Reinforcement learning section2