SlideShare a Scribd company logo
1 of 39
Download to read offline
1
多腕バンディット問題における
漸近最適戦略について
本多淳也
東京大学 新領域創成科学研究科
山本-國廣研究室
数理助教の会 7/26
2
多腕バンディット問題
• 台のスロットマシンをプレイするギャンブラーのモデル
• 単位時間毎にいずれかのマシン1台をプレイ
• 得られる報酬の確率分布は台によって異なる
目標:
• 有限回数のプレイで報酬をなるべく大きくしたい
• 期待値最大の台を高確率で判別したい
問題:
・ある程度の回数プレイしないと台の良し悪しが分からない
・報酬の期待値の低い台を何度もプレイすると損
⊢⊢⊢
≋
3
応用例
• Web 上の広告表示
– 「まだデータが少なく購入率が未知の商品」 と
「今のところ購入率がそれなりに高い商品」 の選択
• 囲碁などのゲーム木探索
– 「あまり良くなさそうだけど深くは読んでいない手」 と
「そこそこ深く読んでそこそこ良さそうな手」のどちらを読む?
• ネットワーク上に複数のパスがあるときに
どのパスを使えば通信時間を最小にできるか?
強化学習の一般的なテーマ:
探索(exploration)と活用(exploitation)を
どうバランスさせるか?
4
問題の定式化
:確率分布の集合(既知)
:台 からの報酬の確率分布(未知)
:台 の期待値 ( : の期待値)
:最大の期待値
: プレイ目までで台 を選んだ回数
≆≩ ∲≆
≆
≩
≩
⊹⊤ ∽≭≡≸≩⊹≩
≔≩∨≮∩ ≮ ≩
目標:
期待値最大でない台の を小さくすることで
regret を最小化したい
≘
≩
∨⊹⊤ ⊡⊹≩∩≔≩∨≮∩
≔≩∨≮∩
⊹≩ ∽≅∨≆≩∩
≩
≅∨≆∩ ≆
5
理論限界の準備
• ある戦略が consistent
任意のベストでない台 で
• あまり厳しい正則条件ではない
( となる戦略は比較的容易に構成可)
• :
– 分布 が期待値 以上の分布と
どれくらい紛らわしいか
≩
≄≩≮≦∨≆∻⊹∻≆∩∽ ≩≮≦≇∲≆∺≅∨≇∩∾⊹≄∨≆≫≇∩
⊹
KL divergence
≆
≇ ⊹
≆
≄≩≮≦∨≆∻⊹∻≆∩
≆
∬ ≅≛≔≩∨≮∩≝∽≯∨≮⊮∩∻ ∸⊮∾∰
≅≛≔≩∨≮∩≝∽≏∨≬≯≧≮∩
6
理論限界
• Lai and Robbins (1985) が1次元パラメーターのモデルで導出
• Burnetas and Katehakis (1996) が一般モデルへ拡張
• 期待値最大でない台 をプレイしてしまう回数の下限:
• 分布 が期待値 以上の分布とどの程度紛らわしいかで
プレイ回数の下限が決まる
≩
≅≛≔≩∨≮∩≝⊸ ∱⊡≯∨∱∩
≄≩≮≦∨≆≩∻⊹⊤∻≆∩≬≯≧≮
≆≩ ⊹⊤
7
先行研究
• UCB (Upper Confidence Bound) 戦略
(Lai & Robbins (1985), Auer et al (2002), ……):
– 有意水準 で大きく見積もった各台の期待値 (UCB 値) が
最大となる台をプレイ
• DMED (Deterministic Minimum Empirical Divergence) 戦略
(Honda & Takemura (2010)):
– 期待値ベストである尤度が 以上の台をプレイ
• Thompson Sampling (Thompson (1933)):
– 期待値ベストな台の事後確率にしたがって台をランダムに選択
∱∽≮
∱∽≮
8
先行研究の比較
計算量 性能
解析の
容易さ
漸近最適性の示された
モデルの例
UCB △ ○ ○
有限サポートモデル
指数型分布族(1変数)
DMED ◎ △ ◎
有限サポートモデル
有界サポートモデル
Thompson
Sampling
○
(ただし事後分布
の計算が必要)
◎ △ ベルヌーイ分布
• の項の漸近的な性能ではどの戦略も同等 (予想)≏∨≬≯≧≮∩
9
理論限界を達成可能なモデル
• コンパクトなモデル以外で最適性が示されているのは限定的
コンパクト 非コンパクト
1パラメータ ○ベルヌーイ分布
○指数型分布族の一部
(平均が十分統計量)
[GC11]
?ワイブル分布
複数パラメータ
○有限サポートモデル
[BK96]
?正規分布
(平均・分散未知)
無限パラメータ
○有界サポートモデル
[HT10]
半有界サポートモデル
10
DMED 戦略
• 理論限界:
• DMED 戦略: 次の条件を満たす台をプレイ
標本分布
≅≛≔≩∨≮∩≝∦ ≬≯≧≮
≩≮≦≇∺≅∨≇∩∾⊹⊤ ≄∨≆≩≫≇∩
≔≩∨≮∩⊷ ≬≯≧≮
≩≮≦≇∺≅∨≇∩∾≞⊹⊤ ≄∨≞≆≩≫≇∩
≭≡≸≇∺≅∨≇∩∾≞⊹⊤ ≥≸≰∨⊡≔≩∨≮∩≄∨≞≆≩≫≇∩∩⊸ ∱
≮
∬期待値 以上である尤度≞⊹⊤
11
DMED 戦略における計算
• DMED では試行ごとに次の計算が必要
(分散既知の正規分布の集合) の場合:
( [0,1] 上の分布全体の集合) の場合:
• 一方 UCB では を計算
≄≩≮≦∨≞≆≩∻≞⊹⊤∻≆∩∽ ≩≮≦≇∲≆∺≅∨≇∩∾⊹⊤ ≄∨≞≆≩≫≇∩
≄≩≮≦∨≆∻⊹∻≆∩∽ ≭≡≸∰⊷⊺⊷ ∱
∱⊡⊹
≅≆≛≬≯≧∨∱⊡∨≘ ⊡⊹∩⊺∩≝
≆ ∽≆≛∰∻∱≝ ∽
≆ ∽≎∨⊵∻⊾∲∰∩∽
≳≵≰
≇∲≆∺≄∨≞≆≩≫≇∩∼≬≯≧≮
≔≩∨≮∩
≅∨≇∩
≄≩≮≦∨⊵∻⊹∻≆∩∽ ∨⊹⊡⊵∩∲∫
∲⊾∲∰
• とりあえず の場合を考えれば OK
– ケース1: いずれも概ね収束 (寄与 )
– ケース2: は収束・台1が偶然悪い性能 (寄与 )
12
評価の方針
≋ ∽∲∻ ⊹∱ ∾⊹∲
≏∨≬≯≧≮∩
≏∨∱∩
≞≆∱∻ ≞≆∲
≞≆∲
≆∱
≆
⊹∲
≆∲
≆∱
⊹∲
≆∲
≆∱
⊹∲
≆∲
ケース1 ケース2 その他
≆
• 低確率でのみ発生する事象の確率を評価する理論
• Sanov の定理: 任意の(Lévy距離のもとでの)閉集合 に対して
• 分布 があたかも分布 であるかのように振る舞う確率は
概ね 程度
からのサンプル 個の経験分布
13
評価の道具:大偏差原理
≬≩≭≳≵≰≴∡∱
∱
≴ ≬≯≧≐≆≛≞≆≴ ∲≃≝⊷⊡ ≩≮≦≇∲≃≄∨≇≫≆∩
≃
≴≆
≆ ≇
≥≸≰∨⊡≴≄∨≇≫≆∩∩
待ち時間の評価 (1パラメータの場合)
台1からのサンプル数が の場合:
• 推定値が となる確率は高々
• この場合の次のプレイまでの待ち時間は
– 平均待ち時間への寄与は
≔∱∨≮∩∽≴
≥≸≰∨⊡≴≄∨⊵≫⊵∱∩∩
≥≸≰∨≴≄∨⊵≫⊵∲∩∩
≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩
⊣
⊵∱
14
⊵∲
⊵
≄∨⊵≫⊵∱∩
≄∨⊵≫⊵∲∩
≞⊵∱ ⊼⊵
待ち時間の評価 (1パラメータの場合)
• 推定値が となることによる待ち時間への寄与は
• 大抵のモデルでは
となるような が存在
– 例: 分散既知の正規分布の場合
≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩
⊣
⊵∱
15
⊵∲
⊵
≄∨⊵≫⊵∱∩
≄∨⊵≫⊵∲∩
≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩⊸≡⊵∱∻⊵∲ ∫≢⊵∱∻⊵∲∨⊵∲ ⊡⊵∩
≡⊵∱∻⊵∲
≡⊵∱∻⊵∲∻ ≢⊵∱∻⊵∲ ∾∰
≡⊹∱∻⊹∲ ∽ ∨⊹∱ ⊡⊹∲∩∲
∲⊾∲∰
≢⊹∱∻⊹∲ ∽ ⊹∱ ⊡⊹∲
⊾∲∰
≞⊵∱ ⊼⊵
待ち時間の評価 (1パラメータの場合)
• 推定値が となることによる待ち時間への寄与は
• 大抵のモデルでは
となるような が存在
– 例: ラプラス分布の場合
≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩
⊣
⊵∱
16
⊵∲
⊵
≄∨⊵≫⊵∱∩
≄∨⊵≫⊵∲∩
≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩⊸≡⊵∱∻⊵∲ ∫≢⊵∱∻⊵∲∨⊵∲ ⊡⊵∩
≡⊵∱∻⊵∲
≡⊵∱∻⊵∲∻ ≢⊵∱∻⊵∲ ∾∰
≞⊵∱ ⊼⊵
≡⊹∱∻⊹∲ ∽≥⊹∱⊡⊹∲ ∫∨⊹∱ ⊡⊹∲∩⊡∱
≢⊹∱∻⊹∲ ∽∱⊡≥⊡∨⊹∱⊡⊹∲∩
待ち時間の評価 (1パラメータの場合)
• 推定値が となることによる待ち時間への寄与は
• 大抵のモデルでは
となるような が存在
• 全体の待ち時間は
• サンプル数 について和をとっても
≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩
⊣
⊵∱
17
⊵∲
⊵
≄∨⊵≫⊵∱∩
≄∨⊵≫⊵∲∩
≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩⊸≡⊵∱∻⊵∲ ∫≢⊵∱∻⊵∲∨⊵∲ ⊡⊵∩
≡⊵∱∻⊵∲
≡⊵∱∻⊵∲∻ ≢⊵∱∻⊵∲ ∾∰
⊵ ⊷⊵∲≚ ⊵∲
⊡∱
≥⊡≴∨≡∫≢∨⊵∲⊡⊵∩∩≤⊵ ∽ ≥⊡≴≡
≢
≴ ≏∨∱∩
≞⊵∱ ⊼⊵
18
コンパクトなモデルの場合
• 標本分布が となる確率は高々≞≆∱ ⊼≆
≆
≥≸≰∨⊡≴≄∨≆≫≆∱∩∩
≆∱
≆
≆∱
⊹∲
≄∨≆≫≆∱∩
19
コンパクトなモデルの場合
• 標本分布が となる確率は高々≞≆∱ ⊼≆
≆
≆∱
≆
≄≩≮≦∨≆∻⊹∱∩
≆∱
⊹∲
⊹∱
≥≸≰∨⊡≴≄∨≆≫≆∱∩∩⊷≥≸≰∨⊡≴≄≩≮≦∨≆∻⊹∱∩∩
20
コンパクトなモデルの場合
• 標本分布が となる確率は高々
• 次に台1がプレイされるまでの待ち時間は
≞≆∱ ⊼≆
≆
≆
⊹∲
≄≩≮≦∨≆∻⊹∲∩
≆∱
≥≸≰∨≴≄≩≮≦∨≆∻⊹∲∩∩
≥≸≰∨⊡≴≄∨≆≫≆∱∩∩⊷≥≸≰∨⊡≴≄≩≮≦∨≆∻⊹∱∩∩
21
コンパクトなモデルの場合
• 標本分布が となる確率は高々
• 次に台1がプレイされるまでの待ち時間は
• 期待値への寄与は
≆
⊹∲
⊹∱
≄≩≮≦∨≆∻⊹∲∩
≆∱
≄≩≮≦∨≆∻⊹∱∩
≥≸≰∨⊡≴≄∨≆≫≆∱∩∩⊷≥≸≰∨⊡≴≄≩≮≦∨≆∻⊹∱∩∩
≥≸≰∨≴≄≩≮≦∨≆∻⊹∲∩∩
≥≸≰∨⊡≴∨≄≩≮≦∨≆∻⊹∱∩⊡≄≩≮≦∨≆∻⊹∲∩∩∩
≞≆∱ ⊼≆
≆
22
コンパクトなモデルの場合
• 標本分布が となる確率は高々
• 次に台1がプレイされるまでの待ち時間は
• 期待値への寄与は
≆
⊹∲
⊹∱
≄≩≮≦∨≆∻⊹∲∩
≆∱
≄≩≮≦∨≆∻⊹∱∩
≥≸≰∨⊡≴≄∨≆≫≆∱∩∩⊷≥≸≰∨⊡≴≄≩≮≦∨≆∻⊹∱∩∩
≥≸≰∨≴≄≩≮≦∨≆∻⊹∲∩∩
≥≸≰∨⊡≴∨≄≩≮≦∨≆∻⊹∱∩⊡≄≩≮≦∨≆∻⊹∲∩∩∩
≞≆∱ ⊼≆
⊷≥≸≰∨⊡≴≡⊹∱∻⊹∲∩ ≡
≆
23
コンパクトなモデルの場合
• 標本分布が となる確率は高々
• 次に台1がプレイされるまでの待ち時間は
• 期待値への寄与は
• 領域 全体での期待値は ⊹∲
≥≸≰∨⊡≴≄∨≆≫≆∱∩∩⊷≥≸≰∨⊡≴≄≩≮≦∨≆∻⊹∱∩∩
≥≸≰∨≴≄≩≮≦∨≆∻⊹∲∩∩
≥≸≰∨⊡≴∨≄≩≮≦∨≆∻⊹∱∩⊡≄≩≮≦∨≆∻⊹∲∩∩∩
≞≆∱ ⊼≆
⊷≥≸≰∨⊡≴≡⊹∱∻⊹∲∩
≆≭∨≆∻⊲∩≥≸≰∨⊡≴≡⊹∱∻⊹∲∩
24
複数パラメータ・非コンパクトの場合
• スケールパラメータのようなものがある場合
となるケースが多い
– 例:正規分布(分散未知)の場合
≆
⊹∲
⊹∱
≄≩≮≦∨≆∻⊹∲∩
≆∱
≄≩≮≦∨≆∻⊹∱∩
≆
≩≮≦≆∲≆∺≅∨≆∩⊷⊹∲
≦≄≩≮≦∨≆∻⊹∱∩⊡≄≩≮≦∨≆∻⊹∲∩≧∽∰
≄≩≮≦∨∨⊹∻⊾∲∩∻ ⊹∱∩∽ ∱
∲≬≯≧
⊳
∱∫ ∨⊹∱⊡⊹∩∲∫
⊾∲
⊴
25
有界サポートモデルの拡張
• 上の分布モデル に対して DMED 戦略は漸近最適
• 実は任意の に対して
(⇒分布のサポートの下限は知らなくてもOK)
• 半有界サポートモデル に対しても漸近最適か?
– 所要時間を最小化するようなケースでは自然なモデル
• 期待値ベストな確率分布の積率母関数 が
(原点まわりで)存在すれば OK
≛≡∻∱≝ ≆≛≡∻∱≝
≡∲∨⊡∱∻∱∩
≄≩≮≦∨≆∻⊹∻≆≛≡∻∱≝∩∽ ≭≡≸∰⊷⊺⊷ ∱
∱⊡⊹
≅≆≛≬≯≧∨∱⊡∨≘⊡⊹∩⊺∩≝
≆∨⊡∱∻∱≝
≅≆≛≥⊸≘≝
26
理論限界の計算
• は次のように定式化される
• 無限次元ベクトル空間上の変数・有限個の(線形)制約
– Partially-finite convex programming とよばれる
(Csiszar (1975), Borwein & Lewis (1992), 伊藤・清水 (1991))
≄≩≮≦∨≆∻⊹∻≆∨⊡∱∻∱≝∩
≭≩≮≩≭≩≺≥∺
≚ ⊵
≬≯≧≤≆∨≸∩
≤≇∨≸∩
⊶
≤≆∨≸∩∻
≳≵≢≪≥≣≴ ≴≯∺≇ ≩≳ ≡ ≰≯≳≩≴≩≶≥ ≭≥≡≳≵≲≥ ≯≮ ∨⊡∱∻∱≝∻≚
≤≇∨≸∩∽∱∻
≚
≸≤≇∨≸∩∾⊹∺
27
理論限界の計算
• は次のように定式化される
• 今回の場合は実行可能領域が非コンパクト
• 上の線形関数 が弱位相のもとで
非連続 (⇔ が有界な連続関数でない)
≄≩≮≦∨≆∻⊹∻≆∨⊡∱∻∱≝∩
≭≩≮≩≭≩≺≥∺
≚ ⊵
≬≯≧≤≆∨≸∩
≤≇∨≸∩
⊶
≤≆∨≸∩∻
≳≵≢≪≥≣≴ ≴≯∺≇ ≩≳ ≡ ≰≯≳≩≴≩≶≥ ≭≥≡≳≵≲≥ ≯≮ ∨⊡∱∻∱≝∻≚
≤≇∨≸∩∽∱∻
≚
≸≤≇∨≸∩∾⊹∺
≸∺≇∷∡
≚
≸≤≇∨≸∩≆∨⊡∱∻∱≝
≸∺≸∷∡≸
28
今回の方法
• おそらく
だろうという予想は既に出来ているので
– 両辺それぞれでの裾の影響を評価
– 等式が成り立つ , が存在することを確認
という手順で証明可能
≩≮≦≇∲≆∨⊡∱∻∱≝∺≅∨≇∩⊸⊹≄∨≆≫≇∩∽ ≭≡≸∰⊷⊺⊷ ∱
∱⊡⊹
≅≆≛≬≯≧∨∱⊡∨≘ ⊡⊹∩⊺∩≝
≇ ⊺
29
(再掲) 期待値の評価
• スケールパラメータのようなものがある場合
となるケースが多い
– 例:正規分布(分散未知)の場合
≩≮≦≆∲≆∺≅∨≆∩⊷⊹∲
≦≄≩≮≦∨≆∻⊹∱∩⊡≄≩≮≦∨≆∻⊹∲∩≧∽∰
≄≩≮≦∨∨⊵∻⊹∩∻ ⊹∱∩∽ ∱
∲≬≯≧
⊳
∱∫ ∨⊹∱⊡⊹∩∲∫
⊾∲
⊴
≆
⊹∲
⊹∱
≄≩≮≦∨≆∻⊹∲∩
≄≩≮≦∨≆∻⊹∱∩
≆
≆∱
30
評価の改善
• 本当に知りたいのは
ではなく
•
(= 待ち時間が 以上になる確率)
を直接評価すればよい
≆
⊹∲
⊹∱
≄≩≮≦∨≆∻⊹∲∩
≆∱
≄≩≮≦∨≆∻⊹∱∩
≆
≄∨≆≫≆∱∩
≳≵≰≇∺≅∨≇∩⊸⊹∱
≐≇≛≞≆∱ ⊼≆≝ ≐≆∱≛≞≆∱ ⊼≆≝
≥≴≸
≐≆∱≛≄≩≮≦∨≞≆∱∻⊹∲∩⊸≸≝
31
期待値の評価
• 標本平均に関する大偏差原理 (Cramér の定理) を用いると
≐≆∱≛≄≩≮≦∨≞≆∱∻⊹∲∩⊸≸≝
∽≐≆∱
⊷
≭≡≸∰⊷⊺⊷ ∱
∱⊡⊹∲
≅≞≆∱≛≬≯≧∨∱⊡∨≘ ⊡⊹∲∩⊺≝⊸≸
⊸
∽≐≆∱
⊷≓
∰⊷⊺⊷ ∱
∱⊡⊹∲
≦≅≞≆∱≛≬≯≧∨∱⊡∨≘ ⊡⊹∲∩⊺≝⊸≸≧
⊸
∮≐≆∱
⊷≓
⊺∲≦∰∻ ∱
≍∨∱⊡⊹∲∩∻∺∺∺∻ ∱
∱⊡⊹∲≧≦≅≞≆∱≛≬≯≧∨∱⊡∨≘ ⊡⊹∲∩⊺≝⊸≸⊡ ≣≍≧
⊸
⊷ ≘
⊺∲≦∰∻ ∱
≍∨∱⊡⊹∲∩∻∺∺∺∻ ∱
∱⊡⊹∲≧
≐≆∱
≨
≅≞≆∱≛≬≯≧∨∱⊡∨≘⊡⊹∲∩⊺≝⊸≸⊡ ≣≍
≩
⊷≣∰≴≥≸≰∨⊡≴⊸⊤≸∩∻ ∹⊸⊤ ∽∱∫≏∨ ⊹∱⊡⊹∲
≖≡≲∨≆∱∩∩∺
32
待ち時間の評価
•
• また実際は の場合を評価すれば十分で,この場合は
と指数を保証できる
• 事象 の寄与は高々
≆
⊹∲
⊹∱
≄≩≮≦∨≆∻⊹∲∩
≆∱
≆
≄∨≆≫≆∱∩
≐≆∱≛≄≩≮≦∨≞≆∱∻⊹∲∩⊸≸≝∮≥≸≰∨⊡≴⊸⊤≸∩
≞⊹∱ ⊷⊹∲
≐≆∱≛≄≩≮≦∨≞≆∱∻⊹∲∩⊸≸∻ ≞⊹∱ ⊷⊹∲≝
∮≭≩≮≦≥≸≰∨⊡≴⊸⊤≸∩∻ ≥≸≰∨⊡≴⊤⊤∱∨⊹∲∩∩≧
≄≩≮≦∨≞≆∱∻⊹∲∩⊸≸
≥≸≰∨⊡≴≭≡≸≦∨⊸⊤ ⊡∱∩≸∻ ⊤⊤∱ ⊡≸≧∩
⊷≥≸≰∨⊡≴∨≡∫≢≸∩∩
のキュムラント母関数の
Fenchel-Legendre 変換
≆∱
33
計算の簡略化について
• DMED で必要な計算:
– 目的関数の計算量は
• 有界サポートモデル の場合:
– の平均 のみを既知とした場合の の下限は
– これを基準にすることで を
達成可能→KL-UCB (Garivier & Cappe, 2011)
≄≩≮≦∨≞≆≩∻⊹∩∽ ≭≡≸∰⊷⊺⊷ ∱
∱⊡⊹
≅≞≆≩≛≬≯≧∨∱⊡∨≘ ⊡⊹∩⊺∩≝
≏∨≬≯≧≮∩
≞≆≩ ≞⊹≩ ≄≩≮≦∨≞≆≩∻⊹∩
≭≩≮≆∺≅∨≆∩∽≞⊹≩
≄≩≮≦∨≆∻⊹∩∽≄∨≂∨≞⊹≩∩≫≂∨⊹∩∩
≅≛≔≩∨≮∩≝⊼ ≬≯≧≮
≄∨≂∨⊹≩∩≫≂∨⊹⊤∩∩
≆≛∰∻∱≝
34
計算の簡略化について
• DMED で必要な計算:
– 目的関数の計算量は
• 一般の有界サポートモデル の場合:
– スケール変換して KL-UCB を適用することで
を達成可能
– を保守的にとると bound が悪化・ で無意味に
≄≩≮≦∨≞≆≩∻⊹∩∽ ≭≡≸∰⊷⊺⊷ ∱
∱⊡⊹
≅≞≆≩≛≬≯≧∨∱⊡∨≘ ⊡⊹∩⊺∩≝
≏∨≬≯≧≮∩
≅≛≔≩∨≮∩≝⊼ ≬≯≧≮
≄∨≂∨⊹≩⊡≡
∱⊡≡ ∩≫≂∨⊹⊤⊡≡
∱⊡≡ ∩∩
≡ ≡∡⊡∱
≆≛≡∻∱≝
35
計算の簡略化について
• 期待値 のみを既知としたとき を最小化するのは
がベルヌーイ分布のとき
• 一般に 次までのモーメントを指定したときに を
最小化するのは 個のサポートからなる離散分布
(Honda & Takemura, 2012)
– までは2次方程式の解の公式で計算可能
– 特に が偶数のときはサポート下限 には一切依存しない
– 次までのモーメントを用いると を
全ての で非零値で抑えられる
– の場合と異なり の regret を達成可能
≞⊹≩ ≄≩≮≦∨≞≆≩∻⊹∩
≞≆≩
≤ ≄≩≮≦∨≞≆≩∻⊹∩
≤≤∽∲≥∫∱
≤⊷∴
≤ ≡
≄≩≮≦∨≞≆≩∻⊹∩≤⊸∲
≞≆≩ ∲≆∨⊡∱∻∱≝
≤∽∱ ≏∨≬≯≧≮∩
36
まとめ
• 多腕バンディット問題における漸近最適戦略を紹介
– パラメータ空間の次元数・コンパクト性に応じて性能解析の
難しさが異なる
• 有界サポートモデルと全く同じ戦略により半有界サポートモデル
でも理論限界を達成可能であることを説明
– 2次以上のモーメントを用いることにより漸近最適ではなくとも
の regret は達成可能≏∨≬≯≧≮∩
37
数値例 1
• , ベータ分布
台1 台2 台3 台4 台5
≋ ∽∵
38
数値例 1
• DMED では速やかに理論限界に収束
UCB2
UCB-tuned
漸近限界
DMED
期待値の損失
• , 紛らわしい分布の例
39
数値例 2
UCB2
UCB-tuned
漸近限界
DMED
≆∱∨∰∩∽∰∺∹∹∻ ≆∱∨∱∩∽∰∺∰∱∻ ⊹∱ ∽∰∺∰∱
≆∲∨∰∺∰∰∸∩∽∰∺∵∻ ≆∲∨∰∺∰∰∹∩∽∰∺∵∻ ⊹∲ ∽∰∺∰∰∸∵
≋ ∽∲

More Related Content

Recently uploaded

Recently uploaded (11)

Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 

Featured

How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Asymptotically optimal policies in multiarmed bandit problems

  • 2. 2 多腕バンディット問題 • 台のスロットマシンをプレイするギャンブラーのモデル • 単位時間毎にいずれかのマシン1台をプレイ • 得られる報酬の確率分布は台によって異なる 目標: • 有限回数のプレイで報酬をなるべく大きくしたい • 期待値最大の台を高確率で判別したい 問題: ・ある程度の回数プレイしないと台の良し悪しが分からない ・報酬の期待値の低い台を何度もプレイすると損 ⊢⊢⊢ ≋
  • 3. 3 応用例 • Web 上の広告表示 – 「まだデータが少なく購入率が未知の商品」 と 「今のところ購入率がそれなりに高い商品」 の選択 • 囲碁などのゲーム木探索 – 「あまり良くなさそうだけど深くは読んでいない手」 と 「そこそこ深く読んでそこそこ良さそうな手」のどちらを読む? • ネットワーク上に複数のパスがあるときに どのパスを使えば通信時間を最小にできるか? 強化学習の一般的なテーマ: 探索(exploration)と活用(exploitation)を どうバランスさせるか?
  • 4. 4 問題の定式化 :確率分布の集合(既知) :台 からの報酬の確率分布(未知) :台 の期待値 ( : の期待値) :最大の期待値 : プレイ目までで台 を選んだ回数 ≆≩ ∲≆ ≆ ≩ ≩ ⊹⊤ ∽≭≡≸≩⊹≩ ≔≩∨≮∩ ≮ ≩ 目標: 期待値最大でない台の を小さくすることで regret を最小化したい ≘ ≩ ∨⊹⊤ ⊡⊹≩∩≔≩∨≮∩ ≔≩∨≮∩ ⊹≩ ∽≅∨≆≩∩ ≩ ≅∨≆∩ ≆
  • 5. 5 理論限界の準備 • ある戦略が consistent 任意のベストでない台 で • あまり厳しい正則条件ではない ( となる戦略は比較的容易に構成可) • : – 分布 が期待値 以上の分布と どれくらい紛らわしいか ≩ ≄≩≮≦∨≆∻⊹∻≆∩∽ ≩≮≦≇∲≆∺≅∨≇∩∾⊹≄∨≆≫≇∩ ⊹ KL divergence ≆ ≇ ⊹ ≆ ≄≩≮≦∨≆∻⊹∻≆∩ ≆ ∬ ≅≛≔≩∨≮∩≝∽≯∨≮⊮∩∻ ∸⊮∾∰ ≅≛≔≩∨≮∩≝∽≏∨≬≯≧≮∩
  • 6. 6 理論限界 • Lai and Robbins (1985) が1次元パラメーターのモデルで導出 • Burnetas and Katehakis (1996) が一般モデルへ拡張 • 期待値最大でない台 をプレイしてしまう回数の下限: • 分布 が期待値 以上の分布とどの程度紛らわしいかで プレイ回数の下限が決まる ≩ ≅≛≔≩∨≮∩≝⊸ ∱⊡≯∨∱∩ ≄≩≮≦∨≆≩∻⊹⊤∻≆∩≬≯≧≮ ≆≩ ⊹⊤
  • 7. 7 先行研究 • UCB (Upper Confidence Bound) 戦略 (Lai & Robbins (1985), Auer et al (2002), ……): – 有意水準 で大きく見積もった各台の期待値 (UCB 値) が 最大となる台をプレイ • DMED (Deterministic Minimum Empirical Divergence) 戦略 (Honda & Takemura (2010)): – 期待値ベストである尤度が 以上の台をプレイ • Thompson Sampling (Thompson (1933)): – 期待値ベストな台の事後確率にしたがって台をランダムに選択 ∱∽≮ ∱∽≮
  • 8. 8 先行研究の比較 計算量 性能 解析の 容易さ 漸近最適性の示された モデルの例 UCB △ ○ ○ 有限サポートモデル 指数型分布族(1変数) DMED ◎ △ ◎ 有限サポートモデル 有界サポートモデル Thompson Sampling ○ (ただし事後分布 の計算が必要) ◎ △ ベルヌーイ分布 • の項の漸近的な性能ではどの戦略も同等 (予想)≏∨≬≯≧≮∩
  • 9. 9 理論限界を達成可能なモデル • コンパクトなモデル以外で最適性が示されているのは限定的 コンパクト 非コンパクト 1パラメータ ○ベルヌーイ分布 ○指数型分布族の一部 (平均が十分統計量) [GC11] ?ワイブル分布 複数パラメータ ○有限サポートモデル [BK96] ?正規分布 (平均・分散未知) 無限パラメータ ○有界サポートモデル [HT10] 半有界サポートモデル
  • 10. 10 DMED 戦略 • 理論限界: • DMED 戦略: 次の条件を満たす台をプレイ 標本分布 ≅≛≔≩∨≮∩≝∦ ≬≯≧≮ ≩≮≦≇∺≅∨≇∩∾⊹⊤ ≄∨≆≩≫≇∩ ≔≩∨≮∩⊷ ≬≯≧≮ ≩≮≦≇∺≅∨≇∩∾≞⊹⊤ ≄∨≞≆≩≫≇∩ ≭≡≸≇∺≅∨≇∩∾≞⊹⊤ ≥≸≰∨⊡≔≩∨≮∩≄∨≞≆≩≫≇∩∩⊸ ∱ ≮ ∬期待値 以上である尤度≞⊹⊤
  • 11. 11 DMED 戦略における計算 • DMED では試行ごとに次の計算が必要 (分散既知の正規分布の集合) の場合: ( [0,1] 上の分布全体の集合) の場合: • 一方 UCB では を計算 ≄≩≮≦∨≞≆≩∻≞⊹⊤∻≆∩∽ ≩≮≦≇∲≆∺≅∨≇∩∾⊹⊤ ≄∨≞≆≩≫≇∩ ≄≩≮≦∨≆∻⊹∻≆∩∽ ≭≡≸∰⊷⊺⊷ ∱ ∱⊡⊹ ≅≆≛≬≯≧∨∱⊡∨≘ ⊡⊹∩⊺∩≝ ≆ ∽≆≛∰∻∱≝ ∽ ≆ ∽≎∨⊵∻⊾∲∰∩∽ ≳≵≰ ≇∲≆∺≄∨≞≆≩≫≇∩∼≬≯≧≮ ≔≩∨≮∩ ≅∨≇∩ ≄≩≮≦∨⊵∻⊹∻≆∩∽ ∨⊹⊡⊵∩∲∫ ∲⊾∲∰
  • 12. • とりあえず の場合を考えれば OK – ケース1: いずれも概ね収束 (寄与 ) – ケース2: は収束・台1が偶然悪い性能 (寄与 ) 12 評価の方針 ≋ ∽∲∻ ⊹∱ ∾⊹∲ ≏∨≬≯≧≮∩ ≏∨∱∩ ≞≆∱∻ ≞≆∲ ≞≆∲ ≆∱ ≆ ⊹∲ ≆∲ ≆∱ ⊹∲ ≆∲ ≆∱ ⊹∲ ≆∲ ケース1 ケース2 その他 ≆
  • 13. • 低確率でのみ発生する事象の確率を評価する理論 • Sanov の定理: 任意の(Lévy距離のもとでの)閉集合 に対して • 分布 があたかも分布 であるかのように振る舞う確率は 概ね 程度 からのサンプル 個の経験分布 13 評価の道具:大偏差原理 ≬≩≭≳≵≰≴∡∱ ∱ ≴ ≬≯≧≐≆≛≞≆≴ ∲≃≝⊷⊡ ≩≮≦≇∲≃≄∨≇≫≆∩ ≃ ≴≆ ≆ ≇ ≥≸≰∨⊡≴≄∨≇≫≆∩∩
  • 14. 待ち時間の評価 (1パラメータの場合) 台1からのサンプル数が の場合: • 推定値が となる確率は高々 • この場合の次のプレイまでの待ち時間は – 平均待ち時間への寄与は ≔∱∨≮∩∽≴ ≥≸≰∨⊡≴≄∨⊵≫⊵∱∩∩ ≥≸≰∨≴≄∨⊵≫⊵∲∩∩ ≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩ ⊣ ⊵∱ 14 ⊵∲ ⊵ ≄∨⊵≫⊵∱∩ ≄∨⊵≫⊵∲∩ ≞⊵∱ ⊼⊵
  • 15. 待ち時間の評価 (1パラメータの場合) • 推定値が となることによる待ち時間への寄与は • 大抵のモデルでは となるような が存在 – 例: 分散既知の正規分布の場合 ≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩ ⊣ ⊵∱ 15 ⊵∲ ⊵ ≄∨⊵≫⊵∱∩ ≄∨⊵≫⊵∲∩ ≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩⊸≡⊵∱∻⊵∲ ∫≢⊵∱∻⊵∲∨⊵∲ ⊡⊵∩ ≡⊵∱∻⊵∲ ≡⊵∱∻⊵∲∻ ≢⊵∱∻⊵∲ ∾∰ ≡⊹∱∻⊹∲ ∽ ∨⊹∱ ⊡⊹∲∩∲ ∲⊾∲∰ ≢⊹∱∻⊹∲ ∽ ⊹∱ ⊡⊹∲ ⊾∲∰ ≞⊵∱ ⊼⊵
  • 16. 待ち時間の評価 (1パラメータの場合) • 推定値が となることによる待ち時間への寄与は • 大抵のモデルでは となるような が存在 – 例: ラプラス分布の場合 ≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩ ⊣ ⊵∱ 16 ⊵∲ ⊵ ≄∨⊵≫⊵∱∩ ≄∨⊵≫⊵∲∩ ≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩⊸≡⊵∱∻⊵∲ ∫≢⊵∱∻⊵∲∨⊵∲ ⊡⊵∩ ≡⊵∱∻⊵∲ ≡⊵∱∻⊵∲∻ ≢⊵∱∻⊵∲ ∾∰ ≞⊵∱ ⊼⊵ ≡⊹∱∻⊹∲ ∽≥⊹∱⊡⊹∲ ∫∨⊹∱ ⊡⊹∲∩⊡∱ ≢⊹∱∻⊹∲ ∽∱⊡≥⊡∨⊹∱⊡⊹∲∩
  • 17. 待ち時間の評価 (1パラメータの場合) • 推定値が となることによる待ち時間への寄与は • 大抵のモデルでは となるような が存在 • 全体の待ち時間は • サンプル数 について和をとっても ≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩ ⊣ ⊵∱ 17 ⊵∲ ⊵ ≄∨⊵≫⊵∱∩ ≄∨⊵≫⊵∲∩ ≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩⊸≡⊵∱∻⊵∲ ∫≢⊵∱∻⊵∲∨⊵∲ ⊡⊵∩ ≡⊵∱∻⊵∲ ≡⊵∱∻⊵∲∻ ≢⊵∱∻⊵∲ ∾∰ ⊵ ⊷⊵∲≚ ⊵∲ ⊡∱ ≥⊡≴∨≡∫≢∨⊵∲⊡⊵∩∩≤⊵ ∽ ≥⊡≴≡ ≢ ≴ ≏∨∱∩ ≞⊵∱ ⊼⊵
  • 18. 18 コンパクトなモデルの場合 • 標本分布が となる確率は高々≞≆∱ ⊼≆ ≆ ≥≸≰∨⊡≴≄∨≆≫≆∱∩∩ ≆∱ ≆ ≆∱ ⊹∲ ≄∨≆≫≆∱∩
  • 19. 19 コンパクトなモデルの場合 • 標本分布が となる確率は高々≞≆∱ ⊼≆ ≆ ≆∱ ≆ ≄≩≮≦∨≆∻⊹∱∩ ≆∱ ⊹∲ ⊹∱ ≥≸≰∨⊡≴≄∨≆≫≆∱∩∩⊷≥≸≰∨⊡≴≄≩≮≦∨≆∻⊹∱∩∩
  • 20. 20 コンパクトなモデルの場合 • 標本分布が となる確率は高々 • 次に台1がプレイされるまでの待ち時間は ≞≆∱ ⊼≆ ≆ ≆ ⊹∲ ≄≩≮≦∨≆∻⊹∲∩ ≆∱ ≥≸≰∨≴≄≩≮≦∨≆∻⊹∲∩∩ ≥≸≰∨⊡≴≄∨≆≫≆∱∩∩⊷≥≸≰∨⊡≴≄≩≮≦∨≆∻⊹∱∩∩
  • 21. 21 コンパクトなモデルの場合 • 標本分布が となる確率は高々 • 次に台1がプレイされるまでの待ち時間は • 期待値への寄与は ≆ ⊹∲ ⊹∱ ≄≩≮≦∨≆∻⊹∲∩ ≆∱ ≄≩≮≦∨≆∻⊹∱∩ ≥≸≰∨⊡≴≄∨≆≫≆∱∩∩⊷≥≸≰∨⊡≴≄≩≮≦∨≆∻⊹∱∩∩ ≥≸≰∨≴≄≩≮≦∨≆∻⊹∲∩∩ ≥≸≰∨⊡≴∨≄≩≮≦∨≆∻⊹∱∩⊡≄≩≮≦∨≆∻⊹∲∩∩∩ ≞≆∱ ⊼≆ ≆
  • 22. 22 コンパクトなモデルの場合 • 標本分布が となる確率は高々 • 次に台1がプレイされるまでの待ち時間は • 期待値への寄与は ≆ ⊹∲ ⊹∱ ≄≩≮≦∨≆∻⊹∲∩ ≆∱ ≄≩≮≦∨≆∻⊹∱∩ ≥≸≰∨⊡≴≄∨≆≫≆∱∩∩⊷≥≸≰∨⊡≴≄≩≮≦∨≆∻⊹∱∩∩ ≥≸≰∨≴≄≩≮≦∨≆∻⊹∲∩∩ ≥≸≰∨⊡≴∨≄≩≮≦∨≆∻⊹∱∩⊡≄≩≮≦∨≆∻⊹∲∩∩∩ ≞≆∱ ⊼≆ ⊷≥≸≰∨⊡≴≡⊹∱∻⊹∲∩ ≡ ≆
  • 23. 23 コンパクトなモデルの場合 • 標本分布が となる確率は高々 • 次に台1がプレイされるまでの待ち時間は • 期待値への寄与は • 領域 全体での期待値は ⊹∲ ≥≸≰∨⊡≴≄∨≆≫≆∱∩∩⊷≥≸≰∨⊡≴≄≩≮≦∨≆∻⊹∱∩∩ ≥≸≰∨≴≄≩≮≦∨≆∻⊹∲∩∩ ≥≸≰∨⊡≴∨≄≩≮≦∨≆∻⊹∱∩⊡≄≩≮≦∨≆∻⊹∲∩∩∩ ≞≆∱ ⊼≆ ⊷≥≸≰∨⊡≴≡⊹∱∻⊹∲∩ ≆≭∨≆∻⊲∩≥≸≰∨⊡≴≡⊹∱∻⊹∲∩
  • 25. 25 有界サポートモデルの拡張 • 上の分布モデル に対して DMED 戦略は漸近最適 • 実は任意の に対して (⇒分布のサポートの下限は知らなくてもOK) • 半有界サポートモデル に対しても漸近最適か? – 所要時間を最小化するようなケースでは自然なモデル • 期待値ベストな確率分布の積率母関数 が (原点まわりで)存在すれば OK ≛≡∻∱≝ ≆≛≡∻∱≝ ≡∲∨⊡∱∻∱∩ ≄≩≮≦∨≆∻⊹∻≆≛≡∻∱≝∩∽ ≭≡≸∰⊷⊺⊷ ∱ ∱⊡⊹ ≅≆≛≬≯≧∨∱⊡∨≘⊡⊹∩⊺∩≝ ≆∨⊡∱∻∱≝ ≅≆≛≥⊸≘≝
  • 26. 26 理論限界の計算 • は次のように定式化される • 無限次元ベクトル空間上の変数・有限個の(線形)制約 – Partially-finite convex programming とよばれる (Csiszar (1975), Borwein & Lewis (1992), 伊藤・清水 (1991)) ≄≩≮≦∨≆∻⊹∻≆∨⊡∱∻∱≝∩ ≭≩≮≩≭≩≺≥∺ ≚ ⊵ ≬≯≧≤≆∨≸∩ ≤≇∨≸∩ ⊶ ≤≆∨≸∩∻ ≳≵≢≪≥≣≴ ≴≯∺≇ ≩≳ ≡ ≰≯≳≩≴≩≶≥ ≭≥≡≳≵≲≥ ≯≮ ∨⊡∱∻∱≝∻≚ ≤≇∨≸∩∽∱∻ ≚ ≸≤≇∨≸∩∾⊹∺
  • 27. 27 理論限界の計算 • は次のように定式化される • 今回の場合は実行可能領域が非コンパクト • 上の線形関数 が弱位相のもとで 非連続 (⇔ が有界な連続関数でない) ≄≩≮≦∨≆∻⊹∻≆∨⊡∱∻∱≝∩ ≭≩≮≩≭≩≺≥∺ ≚ ⊵ ≬≯≧≤≆∨≸∩ ≤≇∨≸∩ ⊶ ≤≆∨≸∩∻ ≳≵≢≪≥≣≴ ≴≯∺≇ ≩≳ ≡ ≰≯≳≩≴≩≶≥ ≭≥≡≳≵≲≥ ≯≮ ∨⊡∱∻∱≝∻≚ ≤≇∨≸∩∽∱∻ ≚ ≸≤≇∨≸∩∾⊹∺ ≸∺≇∷∡ ≚ ≸≤≇∨≸∩≆∨⊡∱∻∱≝ ≸∺≸∷∡≸
  • 28. 28 今回の方法 • おそらく だろうという予想は既に出来ているので – 両辺それぞれでの裾の影響を評価 – 等式が成り立つ , が存在することを確認 という手順で証明可能 ≩≮≦≇∲≆∨⊡∱∻∱≝∺≅∨≇∩⊸⊹≄∨≆≫≇∩∽ ≭≡≸∰⊷⊺⊷ ∱ ∱⊡⊹ ≅≆≛≬≯≧∨∱⊡∨≘ ⊡⊹∩⊺∩≝ ≇ ⊺
  • 29. 29 (再掲) 期待値の評価 • スケールパラメータのようなものがある場合 となるケースが多い – 例:正規分布(分散未知)の場合 ≩≮≦≆∲≆∺≅∨≆∩⊷⊹∲ ≦≄≩≮≦∨≆∻⊹∱∩⊡≄≩≮≦∨≆∻⊹∲∩≧∽∰ ≄≩≮≦∨∨⊵∻⊹∩∻ ⊹∱∩∽ ∱ ∲≬≯≧ ⊳ ∱∫ ∨⊹∱⊡⊹∩∲∫ ⊾∲ ⊴ ≆ ⊹∲ ⊹∱ ≄≩≮≦∨≆∻⊹∲∩ ≄≩≮≦∨≆∻⊹∱∩ ≆ ≆∱
  • 30. 30 評価の改善 • 本当に知りたいのは ではなく • (= 待ち時間が 以上になる確率) を直接評価すればよい ≆ ⊹∲ ⊹∱ ≄≩≮≦∨≆∻⊹∲∩ ≆∱ ≄≩≮≦∨≆∻⊹∱∩ ≆ ≄∨≆≫≆∱∩ ≳≵≰≇∺≅∨≇∩⊸⊹∱ ≐≇≛≞≆∱ ⊼≆≝ ≐≆∱≛≞≆∱ ⊼≆≝ ≥≴≸ ≐≆∱≛≄≩≮≦∨≞≆∱∻⊹∲∩⊸≸≝
  • 31. 31 期待値の評価 • 標本平均に関する大偏差原理 (Cramér の定理) を用いると ≐≆∱≛≄≩≮≦∨≞≆∱∻⊹∲∩⊸≸≝ ∽≐≆∱ ⊷ ≭≡≸∰⊷⊺⊷ ∱ ∱⊡⊹∲ ≅≞≆∱≛≬≯≧∨∱⊡∨≘ ⊡⊹∲∩⊺≝⊸≸ ⊸ ∽≐≆∱ ⊷≓ ∰⊷⊺⊷ ∱ ∱⊡⊹∲ ≦≅≞≆∱≛≬≯≧∨∱⊡∨≘ ⊡⊹∲∩⊺≝⊸≸≧ ⊸ ∮≐≆∱ ⊷≓ ⊺∲≦∰∻ ∱ ≍∨∱⊡⊹∲∩∻∺∺∺∻ ∱ ∱⊡⊹∲≧≦≅≞≆∱≛≬≯≧∨∱⊡∨≘ ⊡⊹∲∩⊺≝⊸≸⊡ ≣≍≧ ⊸ ⊷ ≘ ⊺∲≦∰∻ ∱ ≍∨∱⊡⊹∲∩∻∺∺∺∻ ∱ ∱⊡⊹∲≧ ≐≆∱ ≨ ≅≞≆∱≛≬≯≧∨∱⊡∨≘⊡⊹∲∩⊺≝⊸≸⊡ ≣≍ ≩ ⊷≣∰≴≥≸≰∨⊡≴⊸⊤≸∩∻ ∹⊸⊤ ∽∱∫≏∨ ⊹∱⊡⊹∲ ≖≡≲∨≆∱∩∩∺
  • 32. 32 待ち時間の評価 • • また実際は の場合を評価すれば十分で,この場合は と指数を保証できる • 事象 の寄与は高々 ≆ ⊹∲ ⊹∱ ≄≩≮≦∨≆∻⊹∲∩ ≆∱ ≆ ≄∨≆≫≆∱∩ ≐≆∱≛≄≩≮≦∨≞≆∱∻⊹∲∩⊸≸≝∮≥≸≰∨⊡≴⊸⊤≸∩ ≞⊹∱ ⊷⊹∲ ≐≆∱≛≄≩≮≦∨≞≆∱∻⊹∲∩⊸≸∻ ≞⊹∱ ⊷⊹∲≝ ∮≭≩≮≦≥≸≰∨⊡≴⊸⊤≸∩∻ ≥≸≰∨⊡≴⊤⊤∱∨⊹∲∩∩≧ ≄≩≮≦∨≞≆∱∻⊹∲∩⊸≸ ≥≸≰∨⊡≴≭≡≸≦∨⊸⊤ ⊡∱∩≸∻ ⊤⊤∱ ⊡≸≧∩ ⊷≥≸≰∨⊡≴∨≡∫≢≸∩∩ のキュムラント母関数の Fenchel-Legendre 変換 ≆∱
  • 33. 33 計算の簡略化について • DMED で必要な計算: – 目的関数の計算量は • 有界サポートモデル の場合: – の平均 のみを既知とした場合の の下限は – これを基準にすることで を 達成可能→KL-UCB (Garivier & Cappe, 2011) ≄≩≮≦∨≞≆≩∻⊹∩∽ ≭≡≸∰⊷⊺⊷ ∱ ∱⊡⊹ ≅≞≆≩≛≬≯≧∨∱⊡∨≘ ⊡⊹∩⊺∩≝ ≏∨≬≯≧≮∩ ≞≆≩ ≞⊹≩ ≄≩≮≦∨≞≆≩∻⊹∩ ≭≩≮≆∺≅∨≆∩∽≞⊹≩ ≄≩≮≦∨≆∻⊹∩∽≄∨≂∨≞⊹≩∩≫≂∨⊹∩∩ ≅≛≔≩∨≮∩≝⊼ ≬≯≧≮ ≄∨≂∨⊹≩∩≫≂∨⊹⊤∩∩ ≆≛∰∻∱≝
  • 34. 34 計算の簡略化について • DMED で必要な計算: – 目的関数の計算量は • 一般の有界サポートモデル の場合: – スケール変換して KL-UCB を適用することで を達成可能 – を保守的にとると bound が悪化・ で無意味に ≄≩≮≦∨≞≆≩∻⊹∩∽ ≭≡≸∰⊷⊺⊷ ∱ ∱⊡⊹ ≅≞≆≩≛≬≯≧∨∱⊡∨≘ ⊡⊹∩⊺∩≝ ≏∨≬≯≧≮∩ ≅≛≔≩∨≮∩≝⊼ ≬≯≧≮ ≄∨≂∨⊹≩⊡≡ ∱⊡≡ ∩≫≂∨⊹⊤⊡≡ ∱⊡≡ ∩∩ ≡ ≡∡⊡∱ ≆≛≡∻∱≝
  • 35. 35 計算の簡略化について • 期待値 のみを既知としたとき を最小化するのは がベルヌーイ分布のとき • 一般に 次までのモーメントを指定したときに を 最小化するのは 個のサポートからなる離散分布 (Honda & Takemura, 2012) – までは2次方程式の解の公式で計算可能 – 特に が偶数のときはサポート下限 には一切依存しない – 次までのモーメントを用いると を 全ての で非零値で抑えられる – の場合と異なり の regret を達成可能 ≞⊹≩ ≄≩≮≦∨≞≆≩∻⊹∩ ≞≆≩ ≤ ≄≩≮≦∨≞≆≩∻⊹∩ ≤≤∽∲≥∫∱ ≤⊷∴ ≤ ≡ ≄≩≮≦∨≞≆≩∻⊹∩≤⊸∲ ≞≆≩ ∲≆∨⊡∱∻∱≝ ≤∽∱ ≏∨≬≯≧≮∩
  • 36. 36 まとめ • 多腕バンディット問題における漸近最適戦略を紹介 – パラメータ空間の次元数・コンパクト性に応じて性能解析の 難しさが異なる • 有界サポートモデルと全く同じ戦略により半有界サポートモデル でも理論限界を達成可能であることを説明 – 2次以上のモーメントを用いることにより漸近最適ではなくとも の regret は達成可能≏∨≬≯≧≮∩
  • 37. 37 数値例 1 • , ベータ分布 台1 台2 台3 台4 台5 ≋ ∽∵
  • 38. 38 数値例 1 • DMED では速やかに理論限界に収束 UCB2 UCB-tuned 漸近限界 DMED 期待値の損失
  • 39. • , 紛らわしい分布の例 39 数値例 2 UCB2 UCB-tuned 漸近限界 DMED ≆∱∨∰∩∽∰∺∹∹∻ ≆∱∨∱∩∽∰∺∰∱∻ ⊹∱ ∽∰∺∰∱ ≆∲∨∰∺∰∰∸∩∽∰∺∵∻ ≆∲∨∰∺∰∰∹∩∽∰∺∵∻ ⊹∲ ∽∰∺∰∰∸∵ ≋ ∽∲