RLの前に…
• N本腕バンディッド問題(今回の講義はこれがメイン!)
‐ 問題設定
1.N種類の行動選択肢から1つを選択する
2. その選択に依存する定常確率からある数値が算出されその値を報酬値とする
‐ 目的
‐ ある期間(例えば1000回)の行動選択で合計報酬の期待値を最大にすること
A B C … N
<未知>
Lever A…
Lever B…
Lever C…
<既知>
選んだ行動と
それに応じた報酬値⇒Lever C!
問題設定
行動価値手法
• 行動 の真の価値
‐その行動を選んだ結果,受け取る平均報酬
• 行動 の推定価値
‐ 回目のプレイにおいてそれまで行動 が 回選択されていた時,
*
Q a
tQ a
a
1 2 ... ak
t
a
r r r
Q a
k
a
at ak
<大数の法則>
*
,a tk Q a Q a
7.
行動選択規則
• greedy手法
‐ 推定価値の最大値を取る行動を選択
‐プレイ において となる行動の1つ を選択
⇒常に即時の報酬を最大
‐ 推定価値が低いとされる行動が
将来的に見て高い or 本来は高いことは考慮していない
⇒たまにランダムで行動を選択
*
maxt a tQ a Q a *
at
greedy手法
漸進的手法による実装
• 今までの行動価値の推定
‐ 時間とともに計算量が際限なく増大
⇒計算量のために漸進型の更新式を作成
1 2 ... ak
t
a
r r r
Q a
k
1
1 1
1 1
1
1
1
1 1
1 1
1
1
1
1
1
1
1
k k
k i k i
i i
k k k k
k k k
k k k
Q r r r
k k
r kQ Q Q
k
r k Q Q
k
Q r Q
k
kQ :最初のk個の報酬の平均
NewEstimate OldEstimate StepSize Target OldEstimate
10.
非定常問題への追従
• 定常環境
‐ 平均化手法を用いる⇒時間変化するバンディッド問題×
•非定常環境
‐ 加重平均を用いる⇒遠い過去より最近受け取った報酬に重みを与える
1 1
1
2
1 2
2
1 2
1
1 0
0
1
1
1 1
1 1 ...
1 1
1 1
k k k k
k k
k k k
k k k
k k
k
k k i
i
i
Q Q r Q
r Q
r r Q
r r r
r Q
Q r
1 1k k k kQ Q r Q
11.
オプティミスティック初期値
• 今までの問題点
‐ 最初の行動価値推定値に依存
⇒初期の行動推定値によって推定値が変化
‐ 例.探査を促したい!
が平均0,分散1の時,
行動価値の初期値をすべて0からすべて5にする
⇒どの行動をとっても報酬に失望し別の行動へと切り替える
⇒常にgreedyでも,十分な探索ができる
0Q a
*
Q a
初期条件に焦点を当てる方法は一般の非定常問題では役に立たない