Finite-time Analysis of the
Multiarmed Bandit
Problem
PETER AUER,University of Technology Graz
NICOL`O CESA-BIANCHI, University of Milan
PAUL FISCHER, Universitat Dortmund
ICML 2002)
(ICML 2002

@shima_x
概要
 - 強化学習の政策は活用と探索のジレンマに陥っている
 - 本稿は活用と探索の最良のバランスを探したい
support
supportがバウンドされた報酬分布を導入し、時間
 - シンプルで効果的な政策とsupport
的に一様な最適な対数リグレットを示す
学習の政策と報酬
- リグレットの定義
プレイ回数の期待値

n回プレイ
報酬の期待値

当該マシンで遊ばれた回数
腕の数
学習の政策と報酬
- 政策が満たす条件

アルゴリズムで最適化
された報酬の確率密度
分布

カルバックライブラー距
離

*
報酬が最大となるμ*
の報酬確率密度分布
記号の定義
- 以降の議論では以下の記号を前提として話を進める

全ての腕の中で最高の報酬

任意の腕で獲得される報酬
Theorem 1
◆ UCB1

現在の平均報酬

平均報酬の片側信頼区間
Theorem 1
n
-n回プレイ後の期待リグレット

報酬分布:
Theorem 1
- theorem1
theorem1の証明のために以下を示す

よりも敵対的な定数

2という数値は可能な数値の中でベストなもの(らしいが・・・)
Theorem 1
- UCB2
UCB2の擬似コード
Theorem 1
i
- マシンiがプレイされる回数

i
- 次の式で表される値が最大のマシンiが選択される

現在のプレイ回数
Theorem 2
- 期待レグレット

1/2
※αを小さくとると、1/2 i2に近くなる
1/2Δ
0
C
 (しかし、 α→0 とするとCα→∞となる)
n
 プレイ回数nと共にαを徐々に減少させる
Theorem 3
-greedy
◆ ε-greedy
-greedy概要
1 - 期待報酬が最も高いマシンを11-εの確率で選択
 - 逆に一定確率εで常に探索を行う
=1/n
n
 - ε=1/n
=1/nとするモノをεn-greedy
-greedyとする(nはプレイ回数)
Theorem 3
-greedy
◆ ε-greedy
-greedyの政策
Theorem 3
- 最適な手が選択される確率の下限
          において

のとき

で

をバウンド

2
3
>0
第2項、第3項はε>0 O(1/n1+ )にバウンドされる
>0でO(1/n1+ε
Theorem 4

◆ UCB1-NORMAL
UCB1-NORMALの政策
UCB1(?)
 - 平均、分散が未知の場合のUCB1(?)
Theorem 4
- 期待報酬は以下のようになる
Proofs
◆ 共通事項
 - n回プレイした場合のリグレット
Proofs
◆ 共通事項
 - Chernoff-Hoeffding bound

 - Bernstein inequality
Proofs
◆ Proof of Theorem 1 UCB1
1(UCB1
UCB1の各マシンのプレイ回数のバウンド)

より
i
敵対的設定にマシンiのアル
ゴリズムが勝利した場合

T*は敵対的な
T
設定のTの意味
Proofs
◆ Proof of Theorem 1 UCB1
1( UCB1の各マシンのプレイ回数のバウンド)
- バウンドの条件式

より
Proofs
◆ Proof of Theorem 1 UCB1
1( UCB1の各マシンのプレイ回数のバウンド)

より
Proofs
◆ Proof of Theorem 1 UCB1
1( UCB1の各マシンのプレイ回数のバウンド)

一回あたりのリグ
レットがΔである事
より

となり、リグレット上限が示された
Proofs
◆ Proof of Theorem 3 ε-greedy
3( -greedy
-greedyの各マシンのプレイされる確率のバウンド)

探索確率

最適なマシンと判断された場合の確率
Proofs
◆ Proof of Theorem 3 ε-greedy
3( -greedy
-greedyの各マシンのプレイされる確率のバウンド)
Proofs
◆ Proof of Theorem 3 ε-greedy
3( -greedy
-greedyの各マシンのプレイされる確率のバウン
ド)

x_0
x_0で分割して変形して和をとってい
ると思うが・・・
Proofs
◆ Proof of Theorem 3 ε-greedy
3( -greedy
-greedyの各マシンのプレイされる確率のバウン
ド)
 -最適なマシンと判断されない場合のプレイ回数
Proofs
◆ Proof of Theorem 3 ε-greedy
3( -greedy
-greedyの各マシンのプレイされる確率のバウン
ド)
実験

省略します
結論
- シンプルで実現可能性が高いバンディットアルゴリズムを提案
-greedy
- ε-greedy
-greedy以外は決定論的なバウンドをもった政策を備えたアルゴリズムを
提案
-greedy
- ε-greedy
-greedyはランダムにマシンが選択される動的に変化するヒューリスティッ
クな手法
- 累積獲得報酬と無理なく従属する政策を導入し、頑健なアルゴリズムを提案
- 定常でなければならい(自己相関が低い過程)という仮定を除外することに、
より一般的なバンディットアルゴリズムを提案
(各マシン独立のプレイ回数を考慮した確率的な報酬仮定を提案)

finite time analysis of the multiarmed bandit problem