Reinforcement Learning(方策改善定理)

Copyright©2016 NTT corp. All Rights Reserved.
強化学習の基礎
NTT研究所山田真徳

Copyright©2016 NTT corp. All Rights Reserved. 2
教師あり学習教師なし学習強化学習
機械学習は大きくわけて３つ
ラベルがついていないものの性質を調べる
(基本はクラスタリング)ラベル(教師データ)があるもの使い
教師データと同じ写像を見つける
(基本は回帰か分類)
f:x→y
y=f(x)
本質は教師データ{x,y}からfを決める問題距離などを参考に色(ラベル)が
わからない状態でクラスタイリング
良さの方向だけを与えておいて、環境を探索して良い
方向に行くように教師を自ら生成して学習する
行動の最適化問題
参考画像https://qiita-image-store.s3.amazonaws.com/0/72529/dc77a4fe-85a1-a69e-e0e3-571e2e04a33f.png

目的
強化学習(Q学習)の基礎となる方策改善定理を理解する

方針：未来の報酬期待値が最大になるように学習する
強化学習
目的：行動選択の最適化
教師あり学習とも
(普通の)教師なし学習とも違う
環境探索型の学習

DQN(Deep Q NeuralNetwork)学習：戦略を学ぶ例

環境と相互作用がある学習
良いという方向を決めて教師を自ら生成
①行動選択
①
②環境の更新
②
③
③報酬決定状態:
行動:
報酬:
方策:
これを学習したい！
環境で決まる
ユーザーが与える
状態のマルコフ性を仮定

マルコフ決定過程(MDP)：アクションつきマルコフ過程のこと
マルコフ過程：1つ前の状態にしかよらないという近似
近似
マルコフ決定過程

Rの期待値
Q関数：Rをその場の状態と行動で決める
定義よりVとQの関係を明確に
V関数：Rをその場の状態だけで決める
πは固定

手順
1. πに従い確率的に行動を決定
2. によりが確率的に決定
3. 現在の報酬が決定
4. 将来の報酬の合計を計算
5. 将来の報酬が最大になるようにπを修正
6. 2に戻る
ポイント Q, 6どうやってRからπを修正するか？
γ:割引率
A, ε-greedy法というものを使えばいい

ε-greedy法
基本的には常にQを最大にするaを選びなさい
ただしεの確率で他のも試しなさい
利用
探索

以下を示したい
Qを計算してε-greedyでπを修正すること
⇔Rの最大とする方策π*を求めること

良い方策πをVから定義する
最適状態関数V*を定義
πの大小関係を定義する
と定義の時のみ
全てのにおいて
最適方策π*は最大のπと定義
最適行動価値関数Q*を定義

①方策改善定理(改善の保証)
次のターンのみaをπ’で取る
②ε-greedyが方策改善になっている
以下の２つを示せばよい

①方策改善定理(改善の保証)
後で示す
Vの漸化式方程式の一般式になっている(報酬の収束を仮定し最後はとの違いは効かない)

証明
MDP
便利な表現

②ε-greedyも方策改善になっている
平均化された最大値≧合計１になる非負の重み付き平均
´

Atari games(57個)
半分以上のゲームで人間を超えた
DQN(NIPS 2013)←Qを関数近似で汎化
V. Mnih et al., "Playing atari with deep reinforcement learning”
DQN (Nature 2015) ←NIPS DQNのθの更新を改良
V. Mnih et al., "Human-level control through deep reinforcement learning”
Double DQN (arXiv:1509.06461 [cs])←本質的な改良
Hado van Hasselt et al., “Deep Reinforcement Learning with Double Q-learning”
Double Q-learning(NIPS 2010)←理解に役立つ
Hado van Hasselt et al., “Double Q-learning”
Dueling Network(2016)←ネットワークを工夫
ZiyuWang et al., “Dueling Network Architectures for Deep Reinforcement Learning”
FRMQN(2016)←いい感じで記憶を持たせる
Junhyuk Oh et al., “Control of Memory, Active Perception, and Action in Minecraft”
Intrinsic Motivation (2016)←探索に重みをつけるっぽい
Marc G. Bellemare et al., “Unifying Count-Based Exploration and Intrinsic Motivation”
時間が余れば最近のDQN

Reinforcement Learning(方策改善定理)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Reinforcement Learning(方策改善定理)