Asymptotically optimal policies in multiarmed bandit problems

1
多腕バンディット問題における
漸近最適戦略について
本多淳也
東京大学新領域創成科学研究科
山本-國廣研究室
数理助教の会 7/26

2
多腕バンディット問題
• 台のスロットマシンをプレイするギャンブラーのモデル
• 単位時間毎にいずれかのマシン１台をプレイ
• 得られる報酬の確率分布は台によって異なる
目標：
• 有限回数のプレイで報酬をなるべく大きくしたい
• 期待値最大の台を高確率で判別したい
問題：
・ある程度の回数プレイしないと台の良し悪しが分からない
・報酬の期待値の低い台を何度もプレイすると損
⊢⊢⊢
≋

3
応用例
• Web 上の広告表示
– 「まだデータが少なく購入率が未知の商品」と
「今のところ購入率がそれなりに高い商品」の選択
• 囲碁などのゲーム木探索
– 「あまり良くなさそうだけど深くは読んでいない手」と
「そこそこ深く読んでそこそこ良さそうな手」のどちらを読む？
• ネットワーク上に複数のパスがあるときに
どのパスを使えば通信時間を最小にできるか？
強化学習の一般的なテーマ：
探索(exploration)と活用(exploitation)を
どうバランスさせるか？

4
問題の定式化
：確率分布の集合（既知）
：台からの報酬の確率分布（未知）
：台の期待値 ( ：の期待値)
：最大の期待値
：プレイ目までで台を選んだ回数
≆≩ ∲≆
≆
≩
≩
⊹⊤ ∽≭≡≸≩⊹≩
≔≩∨≮∩ ≮ ≩
目標：
期待値最大でない台のを小さくすることで
regret を最小化したい
≘
≩
∨⊹⊤ ⊡⊹≩∩≔≩∨≮∩
≔≩∨≮∩
⊹≩ ∽≅∨≆≩∩
≩
≅∨≆∩ ≆

5
理論限界の準備
• ある戦略が consistent
任意のベストでない台で
• あまり厳しい正則条件ではない
( となる戦略は比較的容易に構成可)
• :
– 分布が期待値以上の分布と
どれくらい紛らわしいか
≩
≄≩≮≦∨≆∻⊹∻≆∩∽ ≩≮≦≇∲≆∺≅∨≇∩∾⊹≄∨≆≫≇∩
⊹
KL divergence
≆
≇ ⊹
≆
≄≩≮≦∨≆∻⊹∻≆∩
≆
∬ ≅≛≔≩∨≮∩≝∽≯∨≮⊮∩∻ ∸⊮∾∰
≅≛≔≩∨≮∩≝∽≏∨≬≯≧≮∩

6
理論限界
• Lai and Robbins (1985) が１次元パラメーターのモデルで導出
• Burnetas and Katehakis (1996) が一般モデルへ拡張
• 期待値最大でない台をプレイしてしまう回数の下限：
• 分布が期待値以上の分布とどの程度紛らわしいかで
プレイ回数の下限が決まる
≩
≅≛≔≩∨≮∩≝⊸ ∱⊡≯∨∱∩
≄≩≮≦∨≆≩∻⊹⊤∻≆∩≬≯≧≮
≆≩ ⊹⊤

7
先行研究
• UCB (Upper Confidence Bound) 戦略
(Lai & Robbins (1985), Auer et al (2002), ……)：
– 有意水準で大きく見積もった各台の期待値 (UCB 値) が
最大となる台をプレイ
• DMED (Deterministic Minimum Empirical Divergence) 戦略
(Honda & Takemura (2010)):
– 期待値ベストである尤度が以上の台をプレイ
• Thompson Sampling (Thompson (1933)):
– 期待値ベストな台の事後確率にしたがって台をランダムに選択
∱∽≮
∱∽≮

8
先行研究の比較
計算量性能
解析の
容易さ
漸近最適性の示された
モデルの例
UCB △ ○ ○
有限サポートモデル
指数型分布族（１変数）
DMED ◎ △ ◎
有限サポートモデル
有界サポートモデル
Thompson
Sampling
○
（ただし事後分布
の計算が必要）
◎ △ ベルヌーイ分布
• の項の漸近的な性能ではどの戦略も同等（予想）≏∨≬≯≧≮∩

9
理論限界を達成可能なモデル
• コンパクトなモデル以外で最適性が示されているのは限定的
コンパクト非コンパクト
１パラメータ ○ベルヌーイ分布
○指数型分布族の一部
（平均が十分統計量）
[GC11]
？ワイブル分布
複数パラメータ
○有限サポートモデル
[BK96]
？正規分布
（平均・分散未知）
無限パラメータ
○有界サポートモデル
[HT10]
半有界サポートモデル

10
DMED 戦略
• 理論限界：
• DMED 戦略：次の条件を満たす台をプレイ
標本分布
≅≛≔≩∨≮∩≝∦ ≬≯≧≮
≩≮≦≇∺≅∨≇∩∾⊹⊤ ≄∨≆≩≫≇∩
≔≩∨≮∩⊷ ≬≯≧≮
≩≮≦≇∺≅∨≇∩∾≞⊹⊤ ≄∨≞≆≩≫≇∩
≭≡≸≇∺≅∨≇∩∾≞⊹⊤ ≥≸≰∨⊡≔≩∨≮∩≄∨≞≆≩≫≇∩∩⊸ ∱
≮
∬期待値以上である尤度≞⊹⊤

11
DMED 戦略における計算
• DMED では試行ごとに次の計算が必要
(分散既知の正規分布の集合) の場合：
( [0,1] 上の分布全体の集合) の場合：
• 一方 UCB ではを計算
≄≩≮≦∨≞≆≩∻≞⊹⊤∻≆∩∽ ≩≮≦≇∲≆∺≅∨≇∩∾⊹⊤ ≄∨≞≆≩≫≇∩
≄≩≮≦∨≆∻⊹∻≆∩∽ ≭≡≸∰⊷⊺⊷ ∱
∱⊡⊹
≅≆≛≬≯≧∨∱⊡∨≘ ⊡⊹∩⊺∩≝
≆ ∽≆≛∰∻∱≝ ∽
≆ ∽≎∨⊵∻⊾∲∰∩∽
≳≵≰
≇∲≆∺≄∨≞≆≩≫≇∩∼≬≯≧≮
≔≩∨≮∩
≅∨≇∩
≄≩≮≦∨⊵∻⊹∻≆∩∽ ∨⊹⊡⊵∩∲∫
∲⊾∲∰

• とりあえずの場合を考えれば OK
– ケース１：いずれも概ね収束 (寄与 )
– ケース２：は収束・台１が偶然悪い性能 (寄与 )
12
評価の方針
≋ ∽∲∻ ⊹∱ ∾⊹∲
≏∨≬≯≧≮∩
≏∨∱∩
≞≆∱∻ ≞≆∲
≞≆∲
≆∱
≆
⊹∲
≆∲
≆∱
⊹∲
≆∲
≆∱
⊹∲
≆∲
ケース１ケース２その他
≆

• 低確率でのみ発生する事象の確率を評価する理論
• Sanov の定理：任意の(Lévy距離のもとでの)閉集合に対して
• 分布があたかも分布であるかのように振る舞う確率は
概ね程度
からのサンプル個の経験分布
13
評価の道具：大偏差原理
≬≩≭≳≵≰≴∡∱
∱
≴ ≬≯≧≐≆≛≞≆≴ ∲≃≝⊷⊡ ≩≮≦≇∲≃≄∨≇≫≆∩
≃
≴≆
≆ ≇
≥≸≰∨⊡≴≄∨≇≫≆∩∩

待ち時間の評価 (１パラメータの場合)
台１からのサンプル数がの場合：
• 推定値がとなる確率は高々
• この場合の次のプレイまでの待ち時間は
– 平均待ち時間への寄与は
≔∱∨≮∩∽≴
≥≸≰∨⊡≴≄∨⊵≫⊵∱∩∩
≥≸≰∨≴≄∨⊵≫⊵∲∩∩
≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩
⊣
⊵∱
14
⊵∲
⊵
≄∨⊵≫⊵∱∩
≄∨⊵≫⊵∲∩
≞⊵∱ ⊼⊵

• 推定値がとなることによる待ち時間への寄与は
• 大抵のモデルでは
となるようなが存在
– 例：分散既知の正規分布の場合
≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩
⊣
⊵∱
15
⊵∲
⊵
≄∨⊵≫⊵∱∩
≄∨⊵≫⊵∲∩
≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩⊸≡⊵∱∻⊵∲ ∫≢⊵∱∻⊵∲∨⊵∲ ⊡⊵∩
≡⊵∱∻⊵∲
≡⊵∱∻⊵∲∻ ≢⊵∱∻⊵∲ ∾∰
≡⊹∱∻⊹∲ ∽ ∨⊹∱ ⊡⊹∲∩∲
∲⊾∲∰
≢⊹∱∻⊹∲ ∽ ⊹∱ ⊡⊹∲
⊾∲∰
≞⊵∱ ⊼⊵

– 例：ラプラス分布の場合
≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩
⊣
⊵∱
16
⊵∲
⊵
≄∨⊵≫⊵∱∩
≄∨⊵≫⊵∲∩
≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩⊸≡⊵∱∻⊵∲ ∫≢⊵∱∻⊵∲∨⊵∲ ⊡⊵∩
≡⊵∱∻⊵∲
≡⊵∱∻⊵∲∻ ≢⊵∱∻⊵∲ ∾∰
≞⊵∱ ⊼⊵
≡⊹∱∻⊹∲ ∽≥⊹∱⊡⊹∲ ∫∨⊹∱ ⊡⊹∲∩⊡∱
≢⊹∱∻⊹∲ ∽∱⊡≥⊡∨⊹∱⊡⊹∲∩

• 全体の待ち時間は
• サンプル数について和をとっても
≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩
⊣
⊵∱
17
⊵∲
⊵
≄∨⊵≫⊵∱∩
≄∨⊵≫⊵∲∩
≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩⊸≡⊵∱∻⊵∲ ∫≢⊵∱∻⊵∲∨⊵∲ ⊡⊵∩
≡⊵∱∻⊵∲
≡⊵∱∻⊵∲∻ ≢⊵∱∻⊵∲ ∾∰
⊵ ⊷⊵∲≚ ⊵∲
⊡∱
≥⊡≴∨≡∫≢∨⊵∲⊡⊵∩∩≤⊵ ∽ ≥⊡≴≡
≢
≴ ≏∨∱∩
≞⊵∱ ⊼⊵

18
コンパクトなモデルの場合
• 標本分布がとなる確率は高々≞≆∱ ⊼≆
≆
≥≸≰∨⊡≴≄∨≆≫≆∱∩∩
≆∱
≆
≆∱
⊹∲
≄∨≆≫≆∱∩

19
• 標本分布がとなる確率は高々≞≆∱ ⊼≆
≆
≆∱
≆
≄≩≮≦∨≆∻⊹∱∩
≆∱
⊹∲
⊹∱
≥≸≰∨⊡≴≄∨≆≫≆∱∩∩⊷≥≸≰∨⊡≴≄≩≮≦∨≆∻⊹∱∩∩

20
• 標本分布がとなる確率は高々
• 次に台１がプレイされるまでの待ち時間は
≞≆∱ ⊼≆
≆
≆
⊹∲
≄≩≮≦∨≆∻⊹∲∩
≆∱
≥≸≰∨≴≄≩≮≦∨≆∻⊹∲∩∩
≥≸≰∨⊡≴≄∨≆≫≆∱∩∩⊷≥≸≰∨⊡≴≄≩≮≦∨≆∻⊹∱∩∩

21
• 期待値への寄与は
≆
⊹∲
⊹∱
≄≩≮≦∨≆∻⊹∲∩
≆∱
≄≩≮≦∨≆∻⊹∱∩
≥≸≰∨⊡≴≄∨≆≫≆∱∩∩⊷≥≸≰∨⊡≴≄≩≮≦∨≆∻⊹∱∩∩
≥≸≰∨≴≄≩≮≦∨≆∻⊹∲∩∩
≥≸≰∨⊡≴∨≄≩≮≦∨≆∻⊹∱∩⊡≄≩≮≦∨≆∻⊹∲∩∩∩
≞≆∱ ⊼≆
≆

22
≆
⊹∲
⊹∱
≄≩≮≦∨≆∻⊹∲∩
≆∱
≄≩≮≦∨≆∻⊹∱∩
≥≸≰∨⊡≴≄∨≆≫≆∱∩∩⊷≥≸≰∨⊡≴≄≩≮≦∨≆∻⊹∱∩∩
≥≸≰∨≴≄≩≮≦∨≆∻⊹∲∩∩
≥≸≰∨⊡≴∨≄≩≮≦∨≆∻⊹∱∩⊡≄≩≮≦∨≆∻⊹∲∩∩∩
≞≆∱ ⊼≆
⊷≥≸≰∨⊡≴≡⊹∱∻⊹∲∩ ≡
≆

23
• 領域全体での期待値は ⊹∲
≥≸≰∨⊡≴≄∨≆≫≆∱∩∩⊷≥≸≰∨⊡≴≄≩≮≦∨≆∻⊹∱∩∩
≥≸≰∨≴≄≩≮≦∨≆∻⊹∲∩∩
≥≸≰∨⊡≴∨≄≩≮≦∨≆∻⊹∱∩⊡≄≩≮≦∨≆∻⊹∲∩∩∩
≞≆∱ ⊼≆
⊷≥≸≰∨⊡≴≡⊹∱∻⊹∲∩
≆≭∨≆∻⊲∩≥≸≰∨⊡≴≡⊹∱∻⊹∲∩

24
複数パラメータ・非コンパクトの場合
• スケールパラメータのようなものがある場合
となるケースが多い
– 例：正規分布（分散未知）の場合
≆
⊹∲
⊹∱
≄≩≮≦∨≆∻⊹∲∩
≆∱
≄≩≮≦∨≆∻⊹∱∩
≆
≩≮≦≆∲≆∺≅∨≆∩⊷⊹∲
≦≄≩≮≦∨≆∻⊹∱∩⊡≄≩≮≦∨≆∻⊹∲∩≧∽∰
≄≩≮≦∨∨⊹∻⊾∲∩∻ ⊹∱∩∽ ∱
∲≬≯≧
⊳
∱∫ ∨⊹∱⊡⊹∩∲∫
⊾∲
⊴

25
有界サポートモデルの拡張
• 上の分布モデルに対して DMED 戦略は漸近最適
• 実は任意のに対して
（⇒分布のサポートの下限は知らなくてもOK）
• 半有界サポートモデルに対しても漸近最適か？
– 所要時間を最小化するようなケースでは自然なモデル
• 期待値ベストな確率分布の積率母関数が
（原点まわりで）存在すれば OK
≛≡∻∱≝ ≆≛≡∻∱≝
≡∲∨⊡∱∻∱∩
≄≩≮≦∨≆∻⊹∻≆≛≡∻∱≝∩∽ ≭≡≸∰⊷⊺⊷ ∱
∱⊡⊹
≅≆≛≬≯≧∨∱⊡∨≘⊡⊹∩⊺∩≝
≆∨⊡∱∻∱≝
≅≆≛≥⊸≘≝

26
理論限界の計算
• は次のように定式化される
• 無限次元ベクトル空間上の変数・有限個の（線形）制約
– Partially-finite convex programming とよばれる
(Csiszar (1975), Borwein & Lewis (1992), 伊藤・清水 (1991))
≄≩≮≦∨≆∻⊹∻≆∨⊡∱∻∱≝∩
≭≩≮≩≭≩≺≥∺
≚ ⊵
≬≯≧≤≆∨≸∩
≤≇∨≸∩
⊶
≤≆∨≸∩∻
≳≵≢≪≥≣≴ ≴≯∺≇ ≩≳ ≡ ≰≯≳≩≴≩≶≥ ≭≥≡≳≵≲≥ ≯≮ ∨⊡∱∻∱≝∻≚
≤≇∨≸∩∽∱∻
≚
≸≤≇∨≸∩∾⊹∺

27
理論限界の計算
• は次のように定式化される
• 今回の場合は実行可能領域が非コンパクト
• 上の線形関数が弱位相のもとで
非連続 (⇔ が有界な連続関数でない)
≄≩≮≦∨≆∻⊹∻≆∨⊡∱∻∱≝∩
≭≩≮≩≭≩≺≥∺
≚ ⊵
≬≯≧≤≆∨≸∩
≤≇∨≸∩
⊶
≤≆∨≸∩∻
≳≵≢≪≥≣≴ ≴≯∺≇ ≩≳ ≡ ≰≯≳≩≴≩≶≥ ≭≥≡≳≵≲≥ ≯≮ ∨⊡∱∻∱≝∻≚
≤≇∨≸∩∽∱∻
≚
≸≤≇∨≸∩∾⊹∺
≸∺≇∷∡
≚
≸≤≇∨≸∩≆∨⊡∱∻∱≝
≸∺≸∷∡≸

28
今回の方法
• おそらく
だろうという予想は既に出来ているので
– 両辺それぞれでの裾の影響を評価
– 等式が成り立つ , が存在することを確認
という手順で証明可能
≩≮≦≇∲≆∨⊡∱∻∱≝∺≅∨≇∩⊸⊹≄∨≆≫≇∩∽ ≭≡≸∰⊷⊺⊷ ∱
∱⊡⊹
≅≆≛≬≯≧∨∱⊡∨≘ ⊡⊹∩⊺∩≝
≇ ⊺

29
（再掲）期待値の評価
• スケールパラメータのようなものがある場合
となるケースが多い
– 例：正規分布（分散未知）の場合
≩≮≦≆∲≆∺≅∨≆∩⊷⊹∲
≦≄≩≮≦∨≆∻⊹∱∩⊡≄≩≮≦∨≆∻⊹∲∩≧∽∰
≄≩≮≦∨∨⊵∻⊹∩∻ ⊹∱∩∽ ∱
∲≬≯≧
⊳
∱∫ ∨⊹∱⊡⊹∩∲∫
⊾∲
⊴
≆
⊹∲
⊹∱
≄≩≮≦∨≆∻⊹∲∩
≄≩≮≦∨≆∻⊹∱∩
≆
≆∱

30
評価の改善
• 本当に知りたいのは
ではなく
•
(= 待ち時間が以上になる確率)
を直接評価すればよい
≆
⊹∲
⊹∱
≄≩≮≦∨≆∻⊹∲∩
≆∱
≄≩≮≦∨≆∻⊹∱∩
≆
≄∨≆≫≆∱∩
≳≵≰≇∺≅∨≇∩⊸⊹∱
≐≇≛≞≆∱ ⊼≆≝ ≐≆∱≛≞≆∱ ⊼≆≝
≥≴≸
≐≆∱≛≄≩≮≦∨≞≆∱∻⊹∲∩⊸≸≝

31
期待値の評価
• 標本平均に関する大偏差原理 (Cramér の定理) を用いると
≐≆∱≛≄≩≮≦∨≞≆∱∻⊹∲∩⊸≸≝
∽≐≆∱
⊷
≭≡≸∰⊷⊺⊷ ∱
∱⊡⊹∲
≅≞≆∱≛≬≯≧∨∱⊡∨≘ ⊡⊹∲∩⊺≝⊸≸
⊸
∽≐≆∱
⊷≓
∰⊷⊺⊷ ∱
∱⊡⊹∲
≦≅≞≆∱≛≬≯≧∨∱⊡∨≘ ⊡⊹∲∩⊺≝⊸≸≧
⊸
∮≐≆∱
⊷≓
⊺∲≦∰∻ ∱
≍∨∱⊡⊹∲∩∻∺∺∺∻ ∱
∱⊡⊹∲≧≦≅≞≆∱≛≬≯≧∨∱⊡∨≘ ⊡⊹∲∩⊺≝⊸≸⊡ ≣≍≧
⊸
⊷ ≘
⊺∲≦∰∻ ∱
≍∨∱⊡⊹∲∩∻∺∺∺∻ ∱
∱⊡⊹∲≧
≐≆∱
≨
≅≞≆∱≛≬≯≧∨∱⊡∨≘⊡⊹∲∩⊺≝⊸≸⊡ ≣≍
≩
⊷≣∰≴≥≸≰∨⊡≴⊸⊤≸∩∻ ∹⊸⊤ ∽∱∫≏∨ ⊹∱⊡⊹∲
≖≡≲∨≆∱∩∩∺

32
待ち時間の評価
•
• また実際はの場合を評価すれば十分で，この場合は
と指数を保証できる
• 事象の寄与は高々
≆
⊹∲
⊹∱
≄≩≮≦∨≆∻⊹∲∩
≆∱
≆
≄∨≆≫≆∱∩
≐≆∱≛≄≩≮≦∨≞≆∱∻⊹∲∩⊸≸≝∮≥≸≰∨⊡≴⊸⊤≸∩
≞⊹∱ ⊷⊹∲
≐≆∱≛≄≩≮≦∨≞≆∱∻⊹∲∩⊸≸∻ ≞⊹∱ ⊷⊹∲≝
∮≭≩≮≦≥≸≰∨⊡≴⊸⊤≸∩∻ ≥≸≰∨⊡≴⊤⊤∱∨⊹∲∩∩≧
≄≩≮≦∨≞≆∱∻⊹∲∩⊸≸
≥≸≰∨⊡≴≭≡≸≦∨⊸⊤ ⊡∱∩≸∻ ⊤⊤∱ ⊡≸≧∩
⊷≥≸≰∨⊡≴∨≡∫≢≸∩∩
のキュムラント母関数の
Fenchel-Legendre 変換
≆∱

33
計算の簡略化について
• DMED で必要な計算：
– 目的関数の計算量は
• 有界サポートモデルの場合：
– の平均のみを既知とした場合のの下限は
– これを基準にすることでを
達成可能→KL-UCB (Garivier & Cappe, 2011)
≄≩≮≦∨≞≆≩∻⊹∩∽ ≭≡≸∰⊷⊺⊷ ∱
∱⊡⊹
≅≞≆≩≛≬≯≧∨∱⊡∨≘ ⊡⊹∩⊺∩≝
≏∨≬≯≧≮∩
≞≆≩ ≞⊹≩ ≄≩≮≦∨≞≆≩∻⊹∩
≭≩≮≆∺≅∨≆∩∽≞⊹≩
≄≩≮≦∨≆∻⊹∩∽≄∨≂∨≞⊹≩∩≫≂∨⊹∩∩
≅≛≔≩∨≮∩≝⊼ ≬≯≧≮
≄∨≂∨⊹≩∩≫≂∨⊹⊤∩∩
≆≛∰∻∱≝

34
• DMED で必要な計算：
– 目的関数の計算量は
• 一般の有界サポートモデルの場合：
– スケール変換して KL-UCB を適用することで
を達成可能
– を保守的にとると bound が悪化・で無意味に
≄≩≮≦∨≞≆≩∻⊹∩∽ ≭≡≸∰⊷⊺⊷ ∱
∱⊡⊹
≅≞≆≩≛≬≯≧∨∱⊡∨≘ ⊡⊹∩⊺∩≝
≏∨≬≯≧≮∩
≅≛≔≩∨≮∩≝⊼ ≬≯≧≮
≄∨≂∨⊹≩⊡≡
∱⊡≡ ∩≫≂∨⊹⊤⊡≡
∱⊡≡ ∩∩
≡ ≡∡⊡∱
≆≛≡∻∱≝

35
• 期待値のみを既知としたときを最小化するのは
がベルヌーイ分布のとき
• 一般に次までのモーメントを指定したときにを
最小化するのは個のサポートからなる離散分布
(Honda & Takemura, 2012)
– までは２次方程式の解の公式で計算可能
– 特にが偶数のときはサポート下限には一切依存しない
– 次までのモーメントを用いるとを
全てので非零値で抑えられる
– の場合と異なりの regret を達成可能
≞⊹≩ ≄≩≮≦∨≞≆≩∻⊹∩
≞≆≩
≤ ≄≩≮≦∨≞≆≩∻⊹∩
≤≤∽∲≥∫∱
≤⊷∴
≤ ≡
≄≩≮≦∨≞≆≩∻⊹∩≤⊸∲
≞≆≩ ∲≆∨⊡∱∻∱≝
≤∽∱ ≏∨≬≯≧≮∩

36
まとめ
• 多腕バンディット問題における漸近最適戦略を紹介
– パラメータ空間の次元数・コンパクト性に応じて性能解析の
難しさが異なる
• 有界サポートモデルと全く同じ戦略により半有界サポートモデル
でも理論限界を達成可能であることを説明
– ２次以上のモーメントを用いることにより漸近最適ではなくとも
の regret は達成可能≏∨≬≯≧≮∩

37
数値例 1
• , ベータ分布
台1 台２台３台４台５
≋ ∽∵

38
数値例 1
• DMED では速やかに理論限界に収束
UCB2
UCB-tuned
漸近限界
DMED
期待値の損失

• , 紛らわしい分布の例
39
数値例 2
UCB2
UCB-tuned
漸近限界
DMED
≆∱∨∰∩∽∰∺∹∹∻ ≆∱∨∱∩∽∰∺∰∱∻ ⊹∱ ∽∰∺∰∱
≆∲∨∰∺∰∰∸∩∽∰∺∵∻ ≆∲∨∰∺∰∰∹∩∽∰∺∵∻ ⊹∲ ∽∰∺∰∰∸∵
≋ ∽∲

Asymptotically optimal policies in multiarmed bandit problems

Recommended

Recommended

More Related Content

Recently uploaded

Recently uploaded (11)

Featured

Featured (20)

Asymptotically optimal policies in multiarmed bandit problems