これからの強化学習第1章 1.1 1.2

これからの強化学習
第1章1.1~1.2
強化学習の基礎的理論

-2-
 1.1 強化学習とは
 1.2 強化学習の構成要素
 1.3 価値反復に基づくアルゴリズム
 1.4 方策勾配に基づくアルゴリズム
 1.5 部分観測マルコフ決定過程と強化学習
第１章強化学習の基礎的理論
ここまで

-3-
強化学習とは、試行錯誤をしながら行動を最適化する理論的枠組み
 1.1.1 強化学習の考え方
• 強化学習問題：対象について不完全な知識しかなく、また、対象への働き
かけによって観測できることが変わってくる場合に、最適な働きかけの系
列を発見するような問題
1.1 強化学習とは
名称内容例
エージェント
(Agent)
行動する主体無人島に流れ着いた人
環境(Environment) 働きかけられる対象流れ着いた浜辺の周囲
行動(Action)
エージェントが環境に行
う働きかけ
歩く/食べる/嗅ぐ等
状態(State) 変化する環境の要素どこにいる/何を持っている等
報酬(Reward) 行動の結果の良さの指標
綺麗な水を飲む(+)、海水を
飲む(-)等
方策(Policy)
行動決定のための指針
⇒報酬が多い方が良い
浜辺にいる(状態)＋魚を採っ
て食べる(行動)=報酬(大)

-4-
• 報酬について：
1. 即時報酬(Immediate reward)：ある行動をとった直後の報酬値
例：無人島で、歩くと体力を消耗するので歩かずにじっとしている等
⇒即時報酬が高い
2. 遅延報酬(Delayed reward)：探索開始直後は報酬が得られなくても、
そのあとの別の行動を組み合わせることで得られる報酬値
例：無人島で、歩いていると果物がなった木を見つける等。
⇒遅延報酬が高い
3. 割引(discount)：より遠くの未来の報酬を割り引くこと。
⇒ 即時報酬＋遅延報酬の和＝収益(Return income)最大化が必要。
• 価値(Value)
エージェントの現在の状態、使う方策等を固定した場合の条件付き期待値。強化
学習では、どう方策を変えれば価値が大きくなるかを計算によって知ることがで
きるため、試行錯誤を通して価値を最大化する方策を学習する。

-5-
• 探索と利用のトレードオフ(Exploration-explotation tradeoff)
観測できるのは現在の状態だけであり、どの行動をとると、どのように状態が
変化するかは分かっていない。そのため、不完全な知識の上で、知識を収集し
ながら最適な行動を計画することが必要。
 単純にこれまで試した中で最も期待値が高い選択肢を選んでいると、
他の選択肢から得られる価値を知ることが出来ない。
 「過去に試した選択肢を選ぶ＝利用」と「過去に試していない選択肢
を選ぶ＝探索」のバランスが大事。
 1.1.2 多腕バンディット問題
 スロットマシンこと。コインを入れて腕を引くと、スロットマシーンが動
き、確率的に賭けた額の何倍かが払い戻される。
 簡単のため、状態は変化しないと仮定して、腕の選び方を通して、多数回
の試行で得られる払戻額の和の最大化を行う。

-6-
 1.1.3 greedyアルゴリズム(貪欲法)
これまでの結果から期待値が最大の腕を選択する手法
⇒ 何も情報がない時点では動作不可のため、最初に探索を行う(各腕をn回
引く等)必要がある。
⇒探索の結果、正確な期待値を見積もることができた場合、greedyアルゴ
リズムはその情報を「利用」して、最適な解を選べる。
• 試行回数nについて
1. 試行回数nが多い場合
⇒最適ではない腕も含めて一律にn回引く。
⇒最適ではない腕の分、得られる払戻額は減る。
2. 試行回数nが少ない場合
⇒期待値の分散が大きくなる。
⇒誤って最適ではない腕を選択してしまう可能性が増える。
記号意味
N 試行回数
K 腕の数(i=1,…,K)
R 払戻額(固定値)
pi 当たりが出る確率

-7-
試行回数nが少ない場合の間違え方
真の払戻率⇒ 腕A 0.6 腕B 0.4
試行行動結果
1 A ○
2 B ○
3 A ○
4 B ○
5 A ×
6 B ○
7 ×
8 ×
9 ×
10 ×
A) 本来は最適ではない腕 i´が、たまたま
試行のときに多く当たったため、腕 i´
の払戻率pi´が最適な腕 i の払戻率 pi
より大きいと誤認してしまう。
B) 本来は最適である腕 i が、たまたま試
行のときにあまり当たらなかったため、
腕 i の払戻率 pi が最適でない腕 i´の
払戻率 pi´より低いと誤認してしまう。
真の払戻率⇒ 腕A 0.6 腕B 0.4
試行行動結果
1 A ○
2 B ○
3 A ×
4 B ×
5 A ×
6 B ○
7 ×
8 ×
9 ○
10 ×
A:B＝
67%:
100%
A:B＝
67%:
43%
A:B＝
33%:
67%
A:B＝
33%:
43%
たまたま
良い結果
たまたま
悪い結果
Aに戻れる Aに戻れない

-8-
 1.1.4 ε-greedyアルゴリズム
確率εでランダムな腕を選ぶgreedyアルゴリズム
⇒ε>0であれば、全ての腕がいつかは十分な回数試されることになるため、
期待値の誤差は0に収束し、誤認するリスクも減らせる。
⇒探索コストは試行回数に∝するため、εを少しずつ減らいていく方法が
ある(2.2節)。
アルゴリズム
 まだ選んだことがない腕がある場合、その腕から一つ選ぶ
 確率εで、全ての腕からランダムに一つ選ぶ
 確率 1-εで、これまでの報酬の平均 μi が最大の腕を選ぶ
 1.1.5 不確かなときは楽観的に(optimism in face of uncertainty)
ある選択肢の期待値を真の値より大きく見積もった場合には、何度かその選択
肢を選ぶうちに間違いが修正される。そのため、期待値に不確実性がある場合
は、その不確実性の中で、大きい期待値を仮定すべき。
* 厳密な証明はないが、多くの強化学習問題に対して有効に働くことが知られている。

-9-
• 楽観的初期値法
学習前に各腕から報酬の最大値をK回観測していたとして、各腕の価値の楽観
的な期待値を見積もる手法 * 学習が失敗する凡例あり
アルゴリズム
 報酬の上界をrsupとする。
 学習中に観測した結果に加え、各腕からrsupの報酬がK回観測されていた
と考えて、各腕の報酬の期待値を計算する。
 μi´が最大の腕を選ぶ。
𝜇𝑖
´
=
これまで腕 𝑖 から得られた報酬の和 + 𝐾𝑟𝑠𝑢𝑝
これまで腕 𝑖 をプレイしてきた回数 + 𝐾

-10-
• Upper Confidence Bound(UCB)アルゴリズム
不確実性の中でできる限り楽観的な見積もりを基に、選択肢を決定する手法。
信頼区間を少しずつ1に近づけていくことで、全ての選択肢に対して必要な探
索が行われることを保証しつつ、探索コストも最適解を間違えるリスクも少な
くできることが理論的に証明されている。
アルゴリズム
 R：払戻額(報酬)の最大値と最小値の差
 まだ選んだことがない腕があれば、そのうちの一つを選ぶ。
 各々の腕 i から得られる報酬の期待値を計算する。
 各々の腕 i から得られる報酬の信頼区間の半幅を計算する。
 𝑥𝑖 = 𝜇𝑖 + 𝑈𝑖 が最大の腕 i を選ぶ。
𝜇𝑖
´
=
これまで腕 𝑖 から得られた報酬の和
これまで腕 𝑖 を選んだ回数
𝑈𝑖 = 𝑅
2ln(これまでの総プレイ回数)
これまで腕 𝑖 をプレイした回数

-11-
 多腕バンディット問題の学習の例
 K(腕)=4
 真の払戻率=0.2, 0.3, 0.4, 0.5
 10,000時間の学習を10,000回繰り返し
上表はアルゴリズムの優劣ではない。重要なのは特定の環境でどちらが
速く学習できるかではなく、ロバストに良い行動を獲得できるか。
# アルゴリズム結果
1 greedy
早期に一定の戦略に収束してしまう。最適でない戦略を
ずっと取り続けてしまうエージェントが少なからずいる。
2 ε-greedy
最適な腕を発見可能。ただし、εの確率で探索を行うた
め、長い時間の学習を行っても、最適ではない戦略を選
ぶ行動が一定割合で残ってしまう。
3 UCB
探索回数や探索先が信頼区間によってスケジュールされ
るため、払戻率の明らかに悪い腕Aに比べて、まあまあ
良い腕Cに多くの探索を行っている。また、学習が進む
につれて他の腕の試す探索行動が減っている。

-12-
多腕バンディット問題は、「行動(腕の選択)」のみを考慮していたが、一般の強
化学習では、前の行動とその結果によって次にとるべき行動が変わってくること
を表現するため「状態」という時間的な概念を用いる。
 1.2.1 強化学習の基本的な枠組み
 強化学習の枠組みは、エージェント(行動決定の主体)、環境(エージェント
が相互作用を行う対象)、それらの間の相互作用(情報の受け渡し)からなる。
 強化学習問題を解くということは、出来るだけ多くの報酬を受け取れるよう
に、方策を設計するということ。
• マルコフ決定過程(Markov Decision Process: MDP)
相互作用を記述する基本的な数理モデル。詳細は1.2.2節。
1.2 強化学習の構成要素
エージェント
環境
*設計者の設計対象外
=未知
行動
状態
報酬
始点

-13-
• 注意点
どこをエージェントと捉え、どこを環境と捉えるかは、設計者の設計次第。例：
ロボット制御において、アクチュエータに対する指令値を行動ととるのか、アク
チュエータの出力を行動とするのかで、エージェントの環境の視界は変わる。
 1.2.2 マルコフ決定過程による時間発展の記述
• MDPの定義
記号意味
S 状態空間 S={s1,…,sN}
St 時間ステップ t における状態
A(s) 行動空間 A(s)={a1,…,aM}
At 状態 St において決定された行動
P0 初期状態分布
P(s´|s, a) 状態遷移確率
r(s, a, s´) 報酬関数
Rt+1 St,At,St+1に依存して定まる報酬
𝝅 方策
𝝅(𝒂|𝒔) 状態 s において行動 a が選択される確率
MDPは、S、A(s)、P0、
P(s´|s, a)、r(s, a, s´)
という要素によって記述
される確率過程。

-14-
1. 環境が、初期時刻における状態(初期状態)を確率的に(初期状態分布に
よって)決定し、これをエージェントに引き渡す。S0~P0(s)。
2. 次の状態は、現在の状態と行動によって確率的に決定される。その確率は、
エージェントが状態 s において行動 a を決定したとき、状態が状態 s´に
遷移する確率として、P(s´|s ,a) で与えられる。
例えば、 St+1~P(s´|St ,At)であり、このとき、St+1は直前の St, At
にのみ依存する(マルコフ性)。
3. 環境は、現在の状態 St と行動 At 及び次の状態 St+1 に応じて、報酬
Rt+1 を決定する。報酬は、Rt+1=r(St, At, St+1)によって定まる。
* 報酬関数は、設計者が定める関数。報酬を確率的に決定することも可能。

-15-
例：三目並べ
○
×
○ × ○ ×
S
状態集合
s1 s2 s3 s4
A(s1) = ・・・ 9通り
A(s2) =
○
×
○
×
・・・ 7通り
報酬は、エージェントが勝利する盤面に対して正の報酬(+100等)、逆には負
の報酬(-100等)、その他は0等を与える。

-16-
一般の強化学習は、以下の木の全容を知らないエージェントが、最も多くの
報酬を得られるように行動決定していく問題と捉えられる。
○
○
：
：
s1
s2
s3
エージェントが方策に
従って行動(青)を決定
環境(対戦相手)が状態遷
移関数に従って遷移先
の状態(橙)を決定
*エージェントは状態遷移関
数を知らない。
*状態遷移確率は、ここでは
等確率と仮定。

-17-
• 時間ステップ
エージェントと環境の相互作用における基本的な時間の単位。１時間ステップ
の間にエージェントは、環境から状態について受け取り、行動を決定して環境
に引き渡し、報酬を受け取る。
• エピソード
タスク開始から終了までの時間(石の無い状態から、勝敗が決まるまで等)。時
間ステップと比べて巨視的な意味を持つ。エージェントは、複数回のエピソー
ドを経験することによって学習を進めていく。

-18-
 1.2.3 良い方策とは何か？
即時報酬だけでなく、遅延報酬を考えて行動を決定する必要がある。
• 収益(Return income)：ある期間で得られた累積の報酬
𝐺𝑡 =
𝜏
∞
𝛾𝜏𝑅𝑡+1+𝜏 = 𝑅𝑡+1 + 𝛾𝑅𝑡+2 + ⋯
 割引報酬和の定義
⇒未来の不確実性を報酬を割り引
く形で表現。割引率 𝛾 ( 0 ≤ 𝛾 ≤ 1 )。
⇒割引率が1にｔ近いと、遅延報酬
を優先。0に近いと、即時報酬を優
先する。
𝐺𝑡 =
𝜏=0
𝑇−1
𝑅𝑡+1+𝜏
 最も単純な収益の定義
⇒時間ステップ t で得られた報酬
を Rt としたときの収益 Gt とする。
 長期的な収益の定義
⇒T→∞で発散するため平均する。
𝐺𝑡 = lim
𝑇→∞
1
𝑇
𝜏=0
𝑇−1
𝑅𝑡+1+𝜏

-19-
• 状態価値(State value) / 価値(Value)
状態を条件として収益の期待値を取ったもの。(収益は、確率的に変動する値
のため、より扱いやすいように期待値を取った。)
• 例：T=1の場合
収益は、𝐺𝑡 = 𝑅𝑡+1 であり、状態 St において行動 a が決定される確率は、
𝜋(𝑎|𝑆𝑡) 。このとき、時間ステップ t+1 において、状態 s´である確率は、
状態価値は、
𝑉𝜋
𝑠 = 𝔼𝜋
[𝐺𝑡|𝑆𝑡 = 𝑠]
方策𝜋のもとでの期待値
𝑃 𝑆𝑡+1 = 𝑠´, 𝐴𝑡 = 𝑎 𝑆𝑡 = 𝑠) = 𝑃 𝑆𝑡+1 = 𝑠´ 𝑆𝑡 = 𝑠, 𝐴𝑡 = 𝑎)𝜋(𝑎|𝑠)
状態遷移確率確率的方策
𝑉𝜋 𝑠 = 𝔼𝜋 𝐺𝑡 𝑆𝑡 = 𝑠
=
𝑠´∈𝑆 𝑎∈𝐴(𝑠)
𝑃 𝑆𝑡+1 = 𝑠´ 𝑆𝑡 = 𝑠, 𝐴𝑡 = 𝑎)𝜋 𝑎 𝑠 𝑟(𝑠, 𝑎, 𝑠´)
報酬
* T=2の場合の状態価値は、報酬を足したものに、状態遷移確率を掛ける形。
* 三目並べの場合、勝敗が決まるまで報酬は得られないので、途中の報酬は0。

-20-
• 状態価値関数(State value function)
状態価値には、方策 𝜋と状態 s の二つの操作変数があり、𝜋 を固定して s を動
かした場合は、ある方策のもとでの状態 s を評価しており、逆の場合は方策
を評価している。そのため関数と見なすことが可能。
• 最適状態価値関数(Optimal state value function)
𝑉𝜋
𝑠 > 𝑉𝜋′
(s) が成り立つとき、方策 𝜋 の方が良いと評価できるが、別の状
態では異なる可能性がある。そこで、以下で状態によらない方策の良さを定義。
これで、最も良い方策(最適方策: Optimal policy: 𝜋∗)の定義が可能に。
∀𝑠∈ 𝑆, 𝑉𝜋 𝑠 ≥ 𝑉𝜋′
𝑠
∃𝑠∈ 𝑆, 𝑉𝜋 𝑠 ≥ 𝑉𝜋′
(𝑠)
* 存在する全ての状態 s
について成り立つ。
∀𝑠∈ 𝑆, 𝑉∗ 𝑠 = 𝑉𝜋∗
𝑠 = max
𝜋
𝑉𝜋(𝑠)
最適状態価値関数

-21-
• 行動価値関数(Action value function)
状態価値 V に対して、行動も条件に加えたもの。
最適行動価値関数は、
 状態価値関数や、行動価値関数は、At, St+1, At+1 について、その出現
確率によって期待値をとる計算をしている。一つひとつの状態や行動を
別々に考えるのではなく、それらが連なった「軌道」という考え方も可能。
 例えば、状態価値関数では、状態 s から始まる全ての軌道を考えて、各々
の生起確率で重みづけした和を取ると考えることも可能。
𝑄𝜋 𝑠, 𝑎 = 𝔼𝜋[𝐺𝑡|𝑆𝑡 = 𝑠, 𝐴𝑡 = 𝑎]
𝑄∗
𝑠, 𝑎 = 𝑄𝜋∗
𝑠, 𝑎 = max
𝜋
𝑄𝜋
(𝑠, 𝑎)

-22-
 1.2.4 良い方策をどのように求めるか？
• greedy方策
• ε-greedy方策
• ボルツマン方策(ソフトマックス方策)
𝜋 𝑎 𝑠 =
1
0
(𝑎 = arg max
𝑎
𝑄(𝑠, 𝑎))
(𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒)
𝜋 𝑎 𝑠 =
1 − 𝜀 +
𝜀
|𝐴(𝑠)|
𝜀
|𝐴(𝑠)|
(𝑎 = arg max
𝑎
𝑄(𝑠, 𝑎))
(𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒)
𝜋 𝑎 𝑠 =
exp(𝑄(𝑠, 𝑎)/𝑇)
𝑏∈𝐴 exp(𝑄(𝑠, 𝑎)/𝑇)
* Otherwiseは、他の手数分ある。

これからの強化学習第1章 1.1 1.2

Recommended

Recommended

More Related Content

Similar to これからの強化学習第1章 1.1 1.2

Similar to これからの強化学習第1章 1.1 1.2 (20)

Recently uploaded

Recently uploaded (20)

これからの強化学習第1章 1.1 1.2