Reinforcement learning section2

強化学習Sutton本勉強会
第二章評価フィードバック手法伊能健悟

今回の発表
• 強化学習の概要(第１章の一部)
• 第2章評価フィードバック手法
→基本的には本書の流れにそって進めていきます
※具体的な数式・実験結果については本書参照

強化学習の概要
• 強化学習の四つの要素
1. Policy→各時刻のエージェントの行動(action)を規定する関数
2. Reward function→actionに対する報酬を決定する関数
3. Value function→Reward functionの総量
4. Model→環境を規定する関数
• 強化学習の目的
→「最終的に得られる報酬の総量最大化」

強化学習の特徴
• 教師あり学習との比較
→行動に対する「評価」で訓練
→正解は与えられない
• 評価とは？
→行動の良さの程度のこと。

この章で考える問題
• n本腕バンディット問題
→n本のレバーがあり、それぞれの腕に固有の点数
の確率分布(価値) がある
→一定回数だけレバーを引いたときの得点の総量
を最大化したい
• 教示、評価による訓練の違い
→評価は能動的な探索が必要になる！
バンディット

この章のメイン
• Exploit(知識利用)とExplore(探査)
評価による訓練の場合、試してない腕を選ぶ行動の価値
については不明
Exploit(知識利用):これまでに得られた知見に従う行動
Explore(探査):新しい可能性を探る行動
→どうやって選ぶかを決める方法「balancing」の基本的
な手法をこの章で紹介

行動価値手法
• 行動によってどのように意思決定するか
→行動の価値を推定する必要がある
• 標本平均手法
→得られた値の平均値を行動価値とする
→推定方法の一つ（以下ではこれで考える）

ε-グリーディ手法
• グリーディ手法
→その時に最も価値の高いと推定される行動を取
り続ける手法
→探査を行わない
• ε-グリーディ手法
→確率εで行動価値推定量とは無関係に行動

ソフトマックス行動選択
• ε-グリーディ手法の欠点
→悪手も探査の対象としてしまう
• ソフトマックス行動選択
→それぞれの選択肢に最適っぽさで重み付けし、選ば
れる確率を変化させる
※どちらの手法が良いかは不明

評価と教示
• 本筋とはやや離れているので後述or割愛
• 行動と報酬がそれぞれ２種類ある問題を仮定
→行動A,Bと報酬0,1
→報酬1を得たら正しい行動をしたと推論、報酬0を得たら選ば
なかった行動が正しかったと推論する
正しいと推論した回数が多い方を選択するとし、これを
「教師ありアルゴリズム」とする→決定論的な場合は全て正しい

評価と教示
• 確率的なケースの場合
→行動の成功確率の組み合わせによってはうまくいかない
例両方とも正しくない可能性が高い場合
→行動A,Bの成功確率(報酬１)が出る確率が0.1と0.2とする
→行動Aを選択し、報酬０が出る(出やすい)→行動Bを選択すべ
きだったと推論→行動Bを選択→報酬０が出る(出やすい)→行動
Aを選択すべきだった…
→二つの行動間で振動し、最適な行動に落ち着けない

評価と教示
• 「教師ありアルゴリズム」(正しい推論の「頻度」の利用)では
うまく学習できない
• ではどうするか？
→Linear-reward penalty(Linear-reward inaction)
• どういう手法？
→正しいと推論された行動の選択確率を１に近付け、そうでない
行動の選択確率を0に近付ける
→最良とされる行動の確率を増やすアルゴリズム

漸進的手法による行動価値推定量の実装
• 漸進的手法
→毎回平均値を取っているとメモリ・計算にムダ
→ひとつ前の推定値と行動回数だけ記憶しておけ
ば充分
行動価値推定量：その時点で推定される各行動の
価値

非定常問題への追従
• ここからは時間変化するバンディット問題を考える
→近い過去に受け取った報酬を優先したい
→ステップサイズ・パラメータを定数にする
• 何が嬉しい？
→行動価値推定量が収束しなくなり、最新の報酬に応
じて変化
→非定常問題の設定とマッチ

続・非定常問題
• さっきの推定量の特徴
→最初の行動価値推定量に依存する(バイアス)
→これは非定常問題で望ましい
• なぜ望ましい？
→事前知識を与えることができる
→「オプティミスティック初期値」

オプティミスティック初期値
• どのようなバイアスを導入する？
→行動価値の初期値を高く設定する
→続く行動では「失望」し探査が促進
• 補足
→探査促進効果は徐々に低減していく
→非定常問題に対する「一般的な」手法ではない

強化比較手法
• 行動価値推定量を用いない手法
→それぞれの行動の「真の価値」を推定しない
• どうやって行動選択するか？
→全体的な報酬レベル(リファレンス報酬)を利用して
行動選択する
このリファレンス報酬との大小を比較して「優先度」
を決定し、行動確率選択を変化させる

追跡手法
• 行動価値推定量と優先度を使う手法
→行動価値推定量で優先度を決定する
→強化比較手法よりもグリーディな手法
• 具体的にはどうやって？
→推定される価値が最大の行動の優先度を大きくし、
他の行動の優先度を小さくする
※優先度：行動選択確率

連想探索
• ここまでの問題設定は「非連想的」
→「状況」と「行動」が独立
• 例「行動価値が変わると教えてくれるスロット」
→スロットの色に応じて対応した行動価値が上が
るとする
→状況と行動の対応(連想)させる方策の学習

続・連想探索
• 連想探索は中間的な立ち位置
→n本腕バンディットと強化学習問題の中間
行動が即時的な報酬のみに作用→n本腕
方策を学習する→強化学習問題

結論・まとめ
• 本章で紹介したbalancing手法
1. ε-グリーディ手法
2. ソフトマックス行動選択
3. (強化比較手法)
4. 追跡手法
• 進んだ手法
1. 区間推定法
2. ベイズ最適

Reinforcement learning section2

Recommended

Recommended

More Related Content

Similar to Reinforcement learning section2

Similar to Reinforcement learning section2 (11)

Reinforcement learning section2