強化学習その1
- 44. UCB1
UCB1ではまず 𝑡 = 2
log 𝑇
𝑛
と決め打ちする。Tは
全試行数。これを右辺に代入すると
𝑃 ത𝑋 − 𝜇 > 𝑡 ≤ exp −2𝑛𝑡2
= 𝑇−4
となる。少し変形すると
𝑃 ത𝑋 − 𝑡 < 𝜇 < ത𝑋 + 𝑡 ≤ 1 − 2𝑇−4
となり、 ത𝑋 + 𝑡はT増加とともにだんだん広くなる
信頼区間の上の端ということになる。
44
https://en.wikipedia.org/wiki/Hoeffding's_inequality
- 51. sumが3重になる
𝑁 𝑇,𝑖 ≤ 𝑚 +
𝑡=𝐾+1
𝑇
𝜒 𝐼𝑡 = 𝑖 かつ 𝑁𝑡−1,𝑖 ≥ 𝑚
≤ 𝑚 +
𝑡=𝐾+1
𝑇
𝑠=𝑚
𝑡−1
𝑠′=1
𝑡−1
𝜒
ҧ𝑥𝑖,𝑠 + 𝑎 𝑠, 𝑡 − 1
> ҧ𝑥1,𝑠′ + 𝑎 𝑠′
, 𝑡 − 1
かつ 𝑁𝑡−1,𝑖 ≥ 𝑚
51
「ある値ペアs, s’で1」の時「すべての値ペアs, s’で和を取ったもの」は1以上なので。
- 53. iを選ぶ確率の計算
∗ ҧ𝑥𝑖,𝑠 + 𝑎 𝑠, 𝑡 > ҧ𝑥1,𝑠′ + 𝑎 𝑠′
, 𝑡
の起こる確率を計算する。3つの可能性がある。
1 𝜇1 ≥ ҧ𝑥1,𝑠′ + 𝑎 𝑠′
, 𝑡
2 𝜇𝑖 ≤ ҧ𝑥𝑖,𝑠 − 𝑎 𝑠, 𝑡
3 𝜇1 − 𝜇𝑖 < 2𝑎(𝑠, 𝑡)
(1)(2)がFalseなら(3)がTrueになることが示せるの
で(*)の起こる確率はこの3つの和以下である。
53
- 54. (1)(2)がFalseなら(3)がTrueになる
∗ ҧ𝑥𝑖,𝑠 + 𝑎 𝑠, 𝑡 > ҧ𝑥1,𝑠′ + 𝑎 𝑠′
, 𝑡
1 𝜇1 ≥ ҧ𝑥1,𝑠′ + 𝑎 𝑠′
, 𝑡
2 𝜇𝑖 ≤ ҧ𝑥𝑖,𝑠 − 𝑎 𝑠, 𝑡
3 𝜇1 − 𝜇𝑖 < 2𝑎(𝑠, 𝑡)
(1)(2)がFalseなので(*)を使って以下が言える
𝜇1 < ҧ𝑥1,𝑠′ + 𝑎 𝑠′
, 𝑡 < ҧ𝑥𝑖,𝑠 + 𝑎 𝑠, 𝑡
ҧ𝑥𝑖,𝑠 − 𝑎 𝑠, 𝑡 < 𝜇𝑖
前提として𝜇1 ≥ 𝜇𝑖なので(3)が言える
54
- 55. iを選ぶ確率の計算
(*)の起こる確率はこの3つの和以下
1 𝜇1 ≥ ҧ𝑥1,𝑠′ + 𝑎 𝑠′
, 𝑡
2 𝜇𝑖 ≤ ҧ𝑥𝑖,𝑠 − 𝑎 𝑠, 𝑡
3 𝜇1 − 𝜇𝑖 < 2𝑎(𝑠, 𝑡)
(1)(2)は「信頼区間の外」なので𝑇−4
となる。
(3)の計算で「かつ 𝑁𝑡,𝑖 ≥ 𝑚 」の条件を使う。
mが十分大きければ確率が0になることを示す。
(mを導入したのはこのためだ!)
55
- 56. 𝜇1 − 𝜇𝑖 < 2𝑎(𝑠, 𝑡)の確率を求める
再掲: 𝑎 𝑛, 𝑇 = 2log 𝑇/𝑛
もし m ≥
8 log 𝑇
𝜇1−𝜇 𝑖
2 なら s ≥ m なので
2𝑎 𝑠 , 𝑡 = 2 2log 𝑡/𝑠 ≤ 2
2log 𝑡
8 log 𝑇
𝜇1 − 𝜇𝑖
2
= 𝜇1 − 𝜇𝑖
log 𝑡
log T
≤ 𝜇1 − 𝜇𝑖
よってmが上記条件の時、確率は0になる。
56
- 58. Nの期待値を求める
𝐸[𝑁 𝑇,𝑖] ≤ 𝑚 +
𝑡=1
∞
𝑠=𝑚
𝑡−1
𝑠′=1
𝑡−1
𝑃
ҧ𝑥𝑖,𝑠 + 𝑎 𝑠, 𝑡
> ҧ𝑥1,𝑠′ + 𝑎 𝑠′
, 𝑡
かつ 𝑁𝑡,𝑖 ≥ 𝑚
≤ 𝑚 +
𝑡=1
∞
𝑠=𝑚
𝑡−1
𝑠′=1
𝑡−1
2𝑡−4
≤ 𝑚 + 2
𝑡=1
∞
𝑡−2
≤
8 log 𝑇
𝜇1 − 𝜇𝑖
2
+ 1 +
𝜋2
3
つまりO(log T)である。
58
Basel Problem
𝑛=1
∞
1
𝑛2
=
𝜋2
6