finite time analysis of the multiarmed bandit problem

Finite-time Analysis of the
Multiarmed Bandit
Problem
PETER AUER,University of Technology Graz
NICOL`O CESA-BIANCHI, University of Milan
PAUL FISCHER, Universitat Dortmund
ICML 2002)
(ICML 2002

@shima_x

概要
　－強化学習の政策は活用と探索のジレンマに陥っている
　－本稿は活用と探索の最良のバランスを探したい
support
supportがバウンドされた報酬分布を導入し、時間
　－シンプルで効果的な政策とsupport
的に一様な最適な対数リグレットを示す

学習の政策と報酬
－リグレットの定義
プレイ回数の期待値

n回プレイ
報酬の期待値

当該マシンで遊ばれた回数
腕の数

学習の政策と報酬
－政策が満たす条件

アルゴリズムで最適化
された報酬の確率密度
分布

カルバックライブラー距
離

*
報酬が最大となるμ*
の報酬確率密度分布

記号の定義
－以降の議論では以下の記号を前提として話を進める

全ての腕の中で最高の報酬

任意の腕で獲得される報酬

Theorem 1
◆ UCB1

現在の平均報酬

平均報酬の片側信頼区間

Theorem 1
n
－n回プレイ後の期待リグレット

報酬分布：

Theorem 1
－ theorem1
theorem1の証明のために以下を示す

よりも敵対的な定数

2という数値は可能な数値の中でベストなもの（らしいが・・・）

Theorem 1
－ UCB2
UCB2の擬似コード

Theorem 1
i
－マシンiがプレイされる回数

i
－次の式で表される値が最大のマシンiが選択される

現在のプレイ回数

Theorem 2
－期待レグレット

1/2
※αを小さくとると、1/2 i2に近くなる
1/2Δ
0
C
　（しかし、 α→0 とするとCα→∞となる）
n
　プレイ回数nと共にαを徐々に減少させる

Theorem 3
-greedy
◆ ε-greedy
-greedy概要
1　－期待報酬が最も高いマシンを11-εの確率で選択
　－逆に一定確率εで常に探索を行う
=1/n
n
　－ ε=1/n
=1/nとするモノをεn-greedy
-greedyとする（nはプレイ回数）

Theorem 3
-greedy
◆ ε-greedy
-greedyの政策

Theorem 3
－最適な手が選択される確率の下限
　　　　　　　　　　において

のとき

で

をバウンド

2
3
>0
第2項、第3項はε>0 O(1/n1+ )にバウンドされる
>0でO(1/n1+ε

Theorem 4

◆ UCB1-NORMAL
UCB1-NORMALの政策
UCB1(?)
　－平均、分散が未知の場合のUCB1(?)

Theorem 4
－期待報酬は以下のようになる

Proofs
◆ 共通事項
　－ n回プレイした場合のリグレット

Proofs
◆ 共通事項
　－ Chernoff-Hoeffding bound

　－ Bernstein inequality

Proofs
◆ Proof of Theorem 1 UCB1
1（UCB1
UCB1の各マシンのプレイ回数のバウンド）

より
i
敵対的設定にマシンiのアル
ゴリズムが勝利した場合

T*は敵対的な
T
設定のTの意味

Proofs
1（ UCB1の各マシンのプレイ回数のバウンド）
－バウンドの条件式

より

Proofs

より

Proofs

一回あたりのリグ
レットがΔである事
より

となり、リグレット上限が示された

Proofs
◆ Proof of Theorem 3 ε-greedy
3（ -greedy
-greedyの各マシンのプレイされる確率のバウンド）

探索確率

最適なマシンと判断された場合の確率

Proofs
3（ -greedy
-greedyの各マシンのプレイされる確率のバウンド）

Proofs
3（ -greedy
-greedyの各マシンのプレイされる確率のバウン
ド）

x_0
x_0で分割して変形して和をとってい
ると思うが・・・

Proofs
3（ -greedy
ド）
　－最適なマシンと判断されない場合のプレイ回数

Proofs
3（ -greedy
ド）

結論
－シンプルで実現可能性が高いバンディットアルゴリズムを提案
-greedy
－ ε-greedy
-greedy以外は決定論的なバウンドをもった政策を備えたアルゴリズムを
提案
-greedy
－ ε-greedy
-greedyはランダムにマシンが選択される動的に変化するヒューリスティッ
クな手法
－累積獲得報酬と無理なく従属する政策を導入し、頑健なアルゴリズムを提案
－定常でなければならい（自己相関が低い過程）という仮定を除外することに、
より一般的なバンディットアルゴリズムを提案
（各マシン独立のプレイ回数を考慮した確率的な報酬仮定を提案）

finite time analysis of the multiarmed bandit problem

More Related Content

Similar to finite time analysis of the multiarmed bandit problem

More from shima o

finite time analysis of the multiarmed bandit problem