More Related Content Similar to これからの強化学習第1章 1.1 1.2 (20) これからの強化学習第1章 1.1 1.22. -2-
1.1 強化学習とは
1.2 強化学習の構成要素
1.3 価値反復に基づくアルゴリズム
1.4 方策勾配に基づくアルゴリズム
1.5 部分観測マルコフ決定過程と強化学習
第1章 強化学習の基礎的理論
ここまで
3. -3-
強化学習とは、試行錯誤をしながら行動を最適化する理論的枠組み
1.1.1 強化学習の考え方
• 強化学習問題:対象について不完全な知識しかなく、また、対象への働き
かけによって観測できることが変わってくる場合に、最適な働きかけの系
列を発見するような問題
1.1 強化学習とは
名称 内容 例
エージェント
(Agent)
行動する主体 無人島に流れ着いた人
環境(Environment) 働きかけられる対象 流れ着いた浜辺の周囲
行動(Action)
エージェントが環境に行
う働きかけ
歩く/食べる/嗅ぐ等
状態(State) 変化する環境の要素 どこにいる/何を持っている等
報酬(Reward) 行動の結果の良さの指標
綺麗な水を飲む(+)、海水を
飲む(-)等
方策(Policy)
行動決定のための指針
⇒報酬が多い方が良い
浜辺にいる(状態)+魚を採っ
て食べる(行動)=報酬(大)
4. -4-
• 報酬について:
1. 即時報酬(Immediate reward):ある行動をとった直後の報酬値
例:無人島で、歩くと体力を消耗するので歩かずにじっとしている等
⇒即時報酬が高い
2. 遅延報酬(Delayed reward):探索開始直後は報酬が得られなくても、
そのあとの別の行動を組み合わせることで得られる報酬値
例:無人島で、歩いていると果物がなった木を見つける等。
⇒遅延報酬が高い
3. 割引(discount):より遠くの未来の報酬を割り引くこと。
⇒ 即時報酬+遅延報酬の和=収益(Return income)最大化が必要。
• 価値(Value)
エージェントの現在の状態、使う方策等を固定した場合の条件付き期待値。強化
学習では、どう方策を変えれば価値が大きくなるかを計算によって知ることがで
きるため、試行錯誤を通して価値を最大化する方策を学習する。
1.1 強化学習とは
6. -6-
1.1.3 greedyアルゴリズム(貪欲法)
これまでの結果から期待値が最大の腕を選択する手法
⇒ 何も情報がない時点では動作不可のため、最初に探索を行う(各腕をn回
引く等)必要がある。
⇒探索の結果、正確な期待値を見積もることができた場合、greedyアルゴ
リズムはその情報を「利用」して、最適な解を選べる。
• 試行回数nについて
1. 試行回数nが多い場合
⇒最適ではない腕も含めて一律にn回引く。
⇒最適ではない腕の分、得られる払戻額は減る。
2. 試行回数nが少ない場合
⇒期待値の分散が大きくなる。
⇒誤って最適ではない腕を選択してしまう可能性が増える。
1.1 強化学習とは
記号 意味
N 試行回数
K 腕の数(i=1,…,K)
R 払戻額(固定値)
pi 当たりが出る確率
7. -7-
試行回数nが少ない場合の間違え方
1.1 強化学習とは
真の払戻率⇒ 腕A 0.6 腕B 0.4
試行 行動 結果
1 A ○
2 B ○
3 A ○
4 B ○
5 A ×
6 B ○
7 ×
8 ×
9 ×
10 ×
A) 本来は最適ではない腕 i´が、たまたま
試行のときに多く当たったため、腕 i´
の払戻率pi´が最適な腕 i の払戻率 pi
より大きいと誤認してしまう。
B) 本来は最適である腕 i が、たまたま試
行のときにあまり当たらなかったため、
腕 i の払戻率 pi が最適でない腕 i´の
払戻率 pi´より低いと誤認してしまう。
真の払戻率⇒ 腕A 0.6 腕B 0.4
試行 行動 結果
1 A ○
2 B ○
3 A ×
4 B ×
5 A ×
6 B ○
7 ×
8 ×
9 ○
10 ×
A:B=
67%:
100%
A:B=
67%:
43%
A:B=
33%:
67%
A:B=
33%:
43%
たまたま
良い結果
たまたま
悪い結果
Aに戻れる Aに戻れない
10. -10-
• Upper Confidence Bound(UCB)アルゴリズム
不確実性の中でできる限り楽観的な見積もりを基に、選択肢を決定する手法。
信頼区間を少しずつ1に近づけていくことで、全ての選択肢に対して必要な探
索が行われることを保証しつつ、探索コストも最適解を間違えるリスクも少な
くできることが理論的に証明されている。
アルゴリズム
R:払戻額(報酬)の最大値と最小値の差
まだ選んだことがない腕があれば、そのうちの一つを選ぶ。
各々の腕 i から得られる報酬の期待値を計算する。
各々の腕 i から得られる報酬の信頼区間の半幅を計算する。
𝑥𝑖 = 𝜇𝑖 + 𝑈𝑖 が最大の腕 i を選ぶ。
1.1 強化学習とは
𝜇𝑖
´
=
これまで腕 𝑖 から得られた報酬の和
これまで腕 𝑖 を選んだ回数
𝑈𝑖 = 𝑅
2ln(これまでの総プレイ回数)
これまで腕 𝑖 をプレイした回数
11. -11-
多腕バンディット問題の学習の例
K(腕)=4
真の払戻率=0.2, 0.3, 0.4, 0.5
10,000時間の学習を10,000回繰り返し
上表はアルゴリズムの優劣ではない。重要なのは特定の環境でどちらが
速く学習できるかではなく、ロバストに良い行動を獲得できるか。
1.1 強化学習とは
# アルゴリズム 結果
1 greedy
早期に一定の戦略に収束してしまう。最適でない戦略を
ずっと取り続けてしまうエージェントが少なからずいる。
2 ε-greedy
最適な腕を発見可能。ただし、εの確率で探索を行うた
め、長い時間の学習を行っても、最適ではない戦略を選
ぶ行動が一定割合で残ってしまう。
3 UCB
探索回数や探索先が信頼区間によってスケジュールされ
るため、払戻率の明らかに悪い腕Aに比べて、まあまあ
良い腕Cに多くの探索を行っている。また、学習が進む
につれて他の腕の試す探索行動が減っている。
13. -13-
• 注意点
どこをエージェントと捉え、どこを環境と捉えるかは、設計者の設計次第。例:
ロボット制御において、アクチュエータに対する指令値を行動ととるのか、アク
チュエータの出力を行動とするのかで、エージェントの環境の視界は変わる。
1.2.2 マルコフ決定過程による時間発展の記述
• MDPの定義
1.2 強化学習の構成要素
記号 意味
S 状態空間 S={s1,…,sN}
St 時間ステップ t における状態
A(s) 行動空間 A(s)={a1,…,aM}
At 状態 St において決定された行動
P0 初期状態分布
P(s´|s, a) 状態遷移確率
r(s, a, s´) 報酬関数
Rt+1 St,At,St+1に依存して定まる報酬
𝝅 方策
𝝅(𝒂|𝒔) 状態 s において行動 a が選択される確率
MDPは、S、A(s)、P0、
P(s´|s, a)、r(s, a, s´)
という要素によって記述
される確率過程。
18. -18-
1.2.3 良い方策とは何か?
即時報酬だけでなく、遅延報酬を考えて行動を決定する必要がある。
• 収益(Return income):ある期間で得られた累積の報酬
1.2 強化学習の構成要素
𝐺𝑡 =
𝜏
∞
𝛾𝜏𝑅𝑡+1+𝜏 = 𝑅𝑡+1 + 𝛾𝑅𝑡+2 + ⋯
割引報酬和の定義
⇒未来の不確実性を報酬を割り引
く形で表現。割引率 𝛾 ( 0 ≤ 𝛾 ≤ 1 )。
⇒割引率が1にt近いと、遅延報酬
を優先。0に近いと、即時報酬を優
先する。
𝐺𝑡 =
𝜏=0
𝑇−1
𝑅𝑡+1+𝜏
最も単純な収益の定義
⇒時間ステップ t で得られた報酬
を Rt としたときの収益 Gt とする。
長期的な収益の定義
⇒T→∞で発散するため平均する。
𝐺𝑡 = lim
𝑇→∞
1
𝑇
𝜏=0
𝑇−1
𝑅𝑡+1+𝜏
19. -19-
• 状態価値(State value) / 価値(Value)
状態を条件として収益の期待値を取ったもの。(収益は、確率的に変動する値
のため、より扱いやすいように期待値を取った。)
• 例:T=1の場合
収益は、𝐺𝑡 = 𝑅𝑡+1 であり、状態 St において行動 a が決定される確率は、
𝜋(𝑎|𝑆𝑡) 。このとき、時間ステップ t+1 において、状態 s´である確率は、
状態価値は、
1.2 強化学習の構成要素
𝑉𝜋
𝑠 = 𝔼𝜋
[𝐺𝑡|𝑆𝑡 = 𝑠]
方策𝜋のもとでの期待値
𝑃 𝑆𝑡+1 = 𝑠´, 𝐴𝑡 = 𝑎 𝑆𝑡 = 𝑠) = 𝑃 𝑆𝑡+1 = 𝑠´ 𝑆𝑡 = 𝑠, 𝐴𝑡 = 𝑎)𝜋(𝑎|𝑠)
状態遷移確率 確率的方策
𝑉𝜋 𝑠 = 𝔼𝜋 𝐺𝑡 𝑆𝑡 = 𝑠
=
𝑠´∈𝑆 𝑎∈𝐴(𝑠)
𝑃 𝑆𝑡+1 = 𝑠´ 𝑆𝑡 = 𝑠, 𝐴𝑡 = 𝑎)𝜋 𝑎 𝑠 𝑟(𝑠, 𝑎, 𝑠´)
報酬
* T=2の場合の状態価値は、報酬を足したものに、状態遷移確率を掛ける形。
* 三目並べの場合、勝敗が決まるまで報酬は得られないので、途中の報酬は0。
20. -20-
• 状態価値関数(State value function)
状態価値には、方策 𝜋と状態 s の二つの操作変数があり、𝜋 を固定して s を動
かした場合は、ある方策のもとでの状態 s を評価しており、逆の場合は方策
を評価している。そのため関数と見なすことが可能。
• 最適状態価値関数(Optimal state value function)
𝑉𝜋
𝑠 > 𝑉𝜋′
(s) が成り立つとき、方策 𝜋 の方が良いと評価できるが、別の状
態では異なる可能性がある。そこで、以下で状態によらない方策の良さを定義。
これで、最も良い方策(最適方策: Optimal policy: 𝜋∗)の定義が可能に。
1.2 強化学習の構成要素
∀𝑠∈ 𝑆, 𝑉𝜋 𝑠 ≥ 𝑉𝜋′
𝑠
∃𝑠∈ 𝑆, 𝑉𝜋 𝑠 ≥ 𝑉𝜋′
(𝑠)
* 存在する全ての状態 s
について成り立つ。
∀𝑠∈ 𝑆, 𝑉∗ 𝑠 = 𝑉𝜋∗
𝑠 = max
𝜋
𝑉𝜋(𝑠)
最適状態価値関数
21. -21-
• 行動価値関数(Action value function)
状態価値 V に対して、行動も条件に加えたもの。
最適行動価値関数は、
状態価値関数や、行動価値関数は、At, St+1, At+1 について、その出現
確率によって期待値をとる計算をしている。一つひとつの状態や行動を
別々に考えるのではなく、それらが連なった「軌道」という考え方も可能。
例えば、状態価値関数では、状態 s から始まる全ての軌道を考えて、各々
の生起確率で重みづけした和を取ると考えることも可能。
1.2 強化学習の構成要素
𝑄𝜋 𝑠, 𝑎 = 𝔼𝜋[𝐺𝑡|𝑆𝑡 = 𝑠, 𝐴𝑡 = 𝑎]
𝑄∗
𝑠, 𝑎 = 𝑄𝜋∗
𝑠, 𝑎 = max
𝜋
𝑄𝜋
(𝑠, 𝑎)
22. -22-
1.2.4 良い方策をどのように求めるか?
• greedy方策
• ε-greedy方策
• ボルツマン方策(ソフトマックス方策)
1.2 強化学習の構成要素
𝜋 𝑎 𝑠 =
1
0
(𝑎 = arg max
𝑎
𝑄(𝑠, 𝑎))
(𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒)
𝜋 𝑎 𝑠 =
1 − 𝜀 +
𝜀
|𝐴(𝑠)|
𝜀
|𝐴(𝑠)|
(𝑎 = arg max
𝑎
𝑄(𝑠, 𝑎))
(𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒)
𝜋 𝑎 𝑠 =
exp(𝑄(𝑠, 𝑎)/𝑇)
𝑏∈𝐴 exp(𝑄(𝑠, 𝑎)/𝑇)
* Otherwiseは、他の手数分ある。