Asymptotically optimal policies in multiarmed bandit problems
- 3. 3
応用例
• Web 上の広告表示
– 「まだデータが少なく購入率が未知の商品」 と
「今のところ購入率がそれなりに高い商品」 の選択
• 囲碁などのゲーム木探索
– 「あまり良くなさそうだけど深くは読んでいない手」 と
「そこそこ深く読んでそこそこ良さそうな手」のどちらを読む?
• ネットワーク上に複数のパスがあるときに
どのパスを使えば通信時間を最小にできるか?
強化学習の一般的なテーマ:
探索(exploration)と活用(exploitation)を
どうバランスさせるか?
- 5. 5
理論限界の準備
• ある戦略が consistent
任意のベストでない台 で
• あまり厳しい正則条件ではない
( となる戦略は比較的容易に構成可)
• :
– 分布 が期待値 以上の分布と
どれくらい紛らわしいか
≩
≄≩≮≦∨≆∻⊹∻≆∩∽ ≩≮≦≇∲≆∺≅∨≇∩∾⊹≄∨≆≫≇∩
⊹
KL divergence
≆
≇ ⊹
≆
≄≩≮≦∨≆∻⊹∻≆∩
≆
∬ ≅≛≔≩∨≮∩≝∽≯∨≮⊮∩∻ ∸⊮∾∰
≅≛≔≩∨≮∩≝∽≏∨≬≯≧≮∩
- 6. 6
理論限界
• Lai and Robbins (1985) が1次元パラメーターのモデルで導出
• Burnetas and Katehakis (1996) が一般モデルへ拡張
• 期待値最大でない台 をプレイしてしまう回数の下限:
• 分布 が期待値 以上の分布とどの程度紛らわしいかで
プレイ回数の下限が決まる
≩
≅≛≔≩∨≮∩≝⊸ ∱⊡≯∨∱∩
≄≩≮≦∨≆≩∻⊹⊤∻≆∩≬≯≧≮
≆≩ ⊹⊤
- 7. 7
先行研究
• UCB (Upper Confidence Bound) 戦略
(Lai & Robbins (1985), Auer et al (2002), ……):
– 有意水準 で大きく見積もった各台の期待値 (UCB 値) が
最大となる台をプレイ
• DMED (Deterministic Minimum Empirical Divergence) 戦略
(Honda & Takemura (2010)):
– 期待値ベストである尤度が 以上の台をプレイ
• Thompson Sampling (Thompson (1933)):
– 期待値ベストな台の事後確率にしたがって台をランダムに選択
∱∽≮
∱∽≮
- 10. 10
DMED 戦略
• 理論限界:
• DMED 戦略: 次の条件を満たす台をプレイ
標本分布
≅≛≔≩∨≮∩≝∦ ≬≯≧≮
≩≮≦≇∺≅∨≇∩∾⊹⊤ ≄∨≆≩≫≇∩
≔≩∨≮∩⊷ ≬≯≧≮
≩≮≦≇∺≅∨≇∩∾≞⊹⊤ ≄∨≞≆≩≫≇∩
≭≡≸≇∺≅∨≇∩∾≞⊹⊤ ≥≸≰∨⊡≔≩∨≮∩≄∨≞≆≩≫≇∩∩⊸ ∱
≮
∬期待値 以上である尤度≞⊹⊤
- 11. 11
DMED 戦略における計算
• DMED では試行ごとに次の計算が必要
(分散既知の正規分布の集合) の場合:
( [0,1] 上の分布全体の集合) の場合:
• 一方 UCB では を計算
≄≩≮≦∨≞≆≩∻≞⊹⊤∻≆∩∽ ≩≮≦≇∲≆∺≅∨≇∩∾⊹⊤ ≄∨≞≆≩≫≇∩
≄≩≮≦∨≆∻⊹∻≆∩∽ ≭≡≸∰⊷⊺⊷ ∱
∱⊡⊹
≅≆≛≬≯≧∨∱⊡∨≘ ⊡⊹∩⊺∩≝
≆ ∽≆≛∰∻∱≝ ∽
≆ ∽≎∨⊵∻⊾∲∰∩∽
≳≵≰
≇∲≆∺≄∨≞≆≩≫≇∩∼≬≯≧≮
≔≩∨≮∩
≅∨≇∩
≄≩≮≦∨⊵∻⊹∻≆∩∽ ∨⊹⊡⊵∩∲∫
∲⊾∲∰
- 12. • とりあえず の場合を考えれば OK
– ケース1: いずれも概ね収束 (寄与 )
– ケース2: は収束・台1が偶然悪い性能 (寄与 )
12
評価の方針
≋ ∽∲∻ ⊹∱ ∾⊹∲
≏∨≬≯≧≮∩
≏∨∱∩
≞≆∱∻ ≞≆∲
≞≆∲
≆∱
≆
⊹∲
≆∲
≆∱
⊹∲
≆∲
≆∱
⊹∲
≆∲
ケース1 ケース2 その他
≆
- 13. • 低確率でのみ発生する事象の確率を評価する理論
• Sanov の定理: 任意の(Lévy距離のもとでの)閉集合 に対して
• 分布 があたかも分布 であるかのように振る舞う確率は
概ね 程度
からのサンプル 個の経験分布
13
評価の道具:大偏差原理
≬≩≭≳≵≰≴∡∱
∱
≴ ≬≯≧≐≆≛≞≆≴ ∲≃≝⊷⊡ ≩≮≦≇∲≃≄∨≇≫≆∩
≃
≴≆
≆ ≇
≥≸≰∨⊡≴≄∨≇≫≆∩∩
- 15. 待ち時間の評価 (1パラメータの場合)
• 推定値が となることによる待ち時間への寄与は
• 大抵のモデルでは
となるような が存在
– 例: 分散既知の正規分布の場合
≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩
⊣
⊵∱
15
⊵∲
⊵
≄∨⊵≫⊵∱∩
≄∨⊵≫⊵∲∩
≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩⊸≡⊵∱∻⊵∲ ∫≢⊵∱∻⊵∲∨⊵∲ ⊡⊵∩
≡⊵∱∻⊵∲
≡⊵∱∻⊵∲∻ ≢⊵∱∻⊵∲ ∾∰
≡⊹∱∻⊹∲ ∽ ∨⊹∱ ⊡⊹∲∩∲
∲⊾∲∰
≢⊹∱∻⊹∲ ∽ ⊹∱ ⊡⊹∲
⊾∲∰
≞⊵∱ ⊼⊵
- 16. 待ち時間の評価 (1パラメータの場合)
• 推定値が となることによる待ち時間への寄与は
• 大抵のモデルでは
となるような が存在
– 例: ラプラス分布の場合
≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩
⊣
⊵∱
16
⊵∲
⊵
≄∨⊵≫⊵∱∩
≄∨⊵≫⊵∲∩
≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩⊸≡⊵∱∻⊵∲ ∫≢⊵∱∻⊵∲∨⊵∲ ⊡⊵∩
≡⊵∱∻⊵∲
≡⊵∱∻⊵∲∻ ≢⊵∱∻⊵∲ ∾∰
≞⊵∱ ⊼⊵
≡⊹∱∻⊹∲ ∽≥⊹∱⊡⊹∲ ∫∨⊹∱ ⊡⊹∲∩⊡∱
≢⊹∱∻⊹∲ ∽∱⊡≥⊡∨⊹∱⊡⊹∲∩
- 17. 待ち時間の評価 (1パラメータの場合)
• 推定値が となることによる待ち時間への寄与は
• 大抵のモデルでは
となるような が存在
• 全体の待ち時間は
• サンプル数 について和をとっても
≥⊡≴∨≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩∩
⊣
⊵∱
17
⊵∲
⊵
≄∨⊵≫⊵∱∩
≄∨⊵≫⊵∲∩
≄∨⊵≫⊵∱∩⊡≄∨⊵≫⊵∲∩⊸≡⊵∱∻⊵∲ ∫≢⊵∱∻⊵∲∨⊵∲ ⊡⊵∩
≡⊵∱∻⊵∲
≡⊵∱∻⊵∲∻ ≢⊵∱∻⊵∲ ∾∰
⊵ ⊷⊵∲≚ ⊵∲
⊡∱
≥⊡≴∨≡∫≢∨⊵∲⊡⊵∩∩≤⊵ ∽ ≥⊡≴≡
≢
≴ ≏∨∱∩
≞⊵∱ ⊼⊵
- 21. 21
コンパクトなモデルの場合
• 標本分布が となる確率は高々
• 次に台1がプレイされるまでの待ち時間は
• 期待値への寄与は
≆
⊹∲
⊹∱
≄≩≮≦∨≆∻⊹∲∩
≆∱
≄≩≮≦∨≆∻⊹∱∩
≥≸≰∨⊡≴≄∨≆≫≆∱∩∩⊷≥≸≰∨⊡≴≄≩≮≦∨≆∻⊹∱∩∩
≥≸≰∨≴≄≩≮≦∨≆∻⊹∲∩∩
≥≸≰∨⊡≴∨≄≩≮≦∨≆∻⊹∱∩⊡≄≩≮≦∨≆∻⊹∲∩∩∩
≞≆∱ ⊼≆
≆
- 22. 22
コンパクトなモデルの場合
• 標本分布が となる確率は高々
• 次に台1がプレイされるまでの待ち時間は
• 期待値への寄与は
≆
⊹∲
⊹∱
≄≩≮≦∨≆∻⊹∲∩
≆∱
≄≩≮≦∨≆∻⊹∱∩
≥≸≰∨⊡≴≄∨≆≫≆∱∩∩⊷≥≸≰∨⊡≴≄≩≮≦∨≆∻⊹∱∩∩
≥≸≰∨≴≄≩≮≦∨≆∻⊹∲∩∩
≥≸≰∨⊡≴∨≄≩≮≦∨≆∻⊹∱∩⊡≄≩≮≦∨≆∻⊹∲∩∩∩
≞≆∱ ⊼≆
⊷≥≸≰∨⊡≴≡⊹∱∻⊹∲∩ ≡
≆
- 23. 23
コンパクトなモデルの場合
• 標本分布が となる確率は高々
• 次に台1がプレイされるまでの待ち時間は
• 期待値への寄与は
• 領域 全体での期待値は ⊹∲
≥≸≰∨⊡≴≄∨≆≫≆∱∩∩⊷≥≸≰∨⊡≴≄≩≮≦∨≆∻⊹∱∩∩
≥≸≰∨≴≄≩≮≦∨≆∻⊹∲∩∩
≥≸≰∨⊡≴∨≄≩≮≦∨≆∻⊹∱∩⊡≄≩≮≦∨≆∻⊹∲∩∩∩
≞≆∱ ⊼≆
⊷≥≸≰∨⊡≴≡⊹∱∻⊹∲∩
≆≭∨≆∻⊲∩≥≸≰∨⊡≴≡⊹∱∻⊹∲∩
- 25. 25
有界サポートモデルの拡張
• 上の分布モデル に対して DMED 戦略は漸近最適
• 実は任意の に対して
(⇒分布のサポートの下限は知らなくてもOK)
• 半有界サポートモデル に対しても漸近最適か?
– 所要時間を最小化するようなケースでは自然なモデル
• 期待値ベストな確率分布の積率母関数 が
(原点まわりで)存在すれば OK
≛≡∻∱≝ ≆≛≡∻∱≝
≡∲∨⊡∱∻∱∩
≄≩≮≦∨≆∻⊹∻≆≛≡∻∱≝∩∽ ≭≡≸∰⊷⊺⊷ ∱
∱⊡⊹
≅≆≛≬≯≧∨∱⊡∨≘⊡⊹∩⊺∩≝
≆∨⊡∱∻∱≝
≅≆≛≥⊸≘≝
- 26. 26
理論限界の計算
• は次のように定式化される
• 無限次元ベクトル空間上の変数・有限個の(線形)制約
– Partially-finite convex programming とよばれる
(Csiszar (1975), Borwein & Lewis (1992), 伊藤・清水 (1991))
≄≩≮≦∨≆∻⊹∻≆∨⊡∱∻∱≝∩
≭≩≮≩≭≩≺≥∺
≚ ⊵
≬≯≧≤≆∨≸∩
≤≇∨≸∩
⊶
≤≆∨≸∩∻
≳≵≢≪≥≣≴ ≴≯∺≇ ≩≳ ≡ ≰≯≳≩≴≩≶≥ ≭≥≡≳≵≲≥ ≯≮ ∨⊡∱∻∱≝∻≚
≤≇∨≸∩∽∱∻
≚
≸≤≇∨≸∩∾⊹∺
- 31. 31
期待値の評価
• 標本平均に関する大偏差原理 (Cramér の定理) を用いると
≐≆∱≛≄≩≮≦∨≞≆∱∻⊹∲∩⊸≸≝
∽≐≆∱
⊷
≭≡≸∰⊷⊺⊷ ∱
∱⊡⊹∲
≅≞≆∱≛≬≯≧∨∱⊡∨≘ ⊡⊹∲∩⊺≝⊸≸
⊸
∽≐≆∱
⊷≓
∰⊷⊺⊷ ∱
∱⊡⊹∲
≦≅≞≆∱≛≬≯≧∨∱⊡∨≘ ⊡⊹∲∩⊺≝⊸≸≧
⊸
∮≐≆∱
⊷≓
⊺∲≦∰∻ ∱
≍∨∱⊡⊹∲∩∻∺∺∺∻ ∱
∱⊡⊹∲≧≦≅≞≆∱≛≬≯≧∨∱⊡∨≘ ⊡⊹∲∩⊺≝⊸≸⊡ ≣≍≧
⊸
⊷ ≘
⊺∲≦∰∻ ∱
≍∨∱⊡⊹∲∩∻∺∺∺∻ ∱
∱⊡⊹∲≧
≐≆∱
≨
≅≞≆∱≛≬≯≧∨∱⊡∨≘⊡⊹∲∩⊺≝⊸≸⊡ ≣≍
≩
⊷≣∰≴≥≸≰∨⊡≴⊸⊤≸∩∻ ∹⊸⊤ ∽∱∫≏∨ ⊹∱⊡⊹∲
≖≡≲∨≆∱∩∩∺
- 32. 32
待ち時間の評価
•
• また実際は の場合を評価すれば十分で,この場合は
と指数を保証できる
• 事象 の寄与は高々
≆
⊹∲
⊹∱
≄≩≮≦∨≆∻⊹∲∩
≆∱
≆
≄∨≆≫≆∱∩
≐≆∱≛≄≩≮≦∨≞≆∱∻⊹∲∩⊸≸≝∮≥≸≰∨⊡≴⊸⊤≸∩
≞⊹∱ ⊷⊹∲
≐≆∱≛≄≩≮≦∨≞≆∱∻⊹∲∩⊸≸∻ ≞⊹∱ ⊷⊹∲≝
∮≭≩≮≦≥≸≰∨⊡≴⊸⊤≸∩∻ ≥≸≰∨⊡≴⊤⊤∱∨⊹∲∩∩≧
≄≩≮≦∨≞≆∱∻⊹∲∩⊸≸
≥≸≰∨⊡≴≭≡≸≦∨⊸⊤ ⊡∱∩≸∻ ⊤⊤∱ ⊡≸≧∩
⊷≥≸≰∨⊡≴∨≡∫≢≸∩∩
のキュムラント母関数の
Fenchel-Legendre 変換
≆∱
- 33. 33
計算の簡略化について
• DMED で必要な計算:
– 目的関数の計算量は
• 有界サポートモデル の場合:
– の平均 のみを既知とした場合の の下限は
– これを基準にすることで を
達成可能→KL-UCB (Garivier & Cappe, 2011)
≄≩≮≦∨≞≆≩∻⊹∩∽ ≭≡≸∰⊷⊺⊷ ∱
∱⊡⊹
≅≞≆≩≛≬≯≧∨∱⊡∨≘ ⊡⊹∩⊺∩≝
≏∨≬≯≧≮∩
≞≆≩ ≞⊹≩ ≄≩≮≦∨≞≆≩∻⊹∩
≭≩≮≆∺≅∨≆∩∽≞⊹≩
≄≩≮≦∨≆∻⊹∩∽≄∨≂∨≞⊹≩∩≫≂∨⊹∩∩
≅≛≔≩∨≮∩≝⊼ ≬≯≧≮
≄∨≂∨⊹≩∩≫≂∨⊹⊤∩∩
≆≛∰∻∱≝
- 34. 34
計算の簡略化について
• DMED で必要な計算:
– 目的関数の計算量は
• 一般の有界サポートモデル の場合:
– スケール変換して KL-UCB を適用することで
を達成可能
– を保守的にとると bound が悪化・ で無意味に
≄≩≮≦∨≞≆≩∻⊹∩∽ ≭≡≸∰⊷⊺⊷ ∱
∱⊡⊹
≅≞≆≩≛≬≯≧∨∱⊡∨≘ ⊡⊹∩⊺∩≝
≏∨≬≯≧≮∩
≅≛≔≩∨≮∩≝⊼ ≬≯≧≮
≄∨≂∨⊹≩⊡≡
∱⊡≡ ∩≫≂∨⊹⊤⊡≡
∱⊡≡ ∩∩
≡ ≡∡⊡∱
≆≛≡∻∱≝
- 35. 35
計算の簡略化について
• 期待値 のみを既知としたとき を最小化するのは
がベルヌーイ分布のとき
• 一般に 次までのモーメントを指定したときに を
最小化するのは 個のサポートからなる離散分布
(Honda & Takemura, 2012)
– までは2次方程式の解の公式で計算可能
– 特に が偶数のときはサポート下限 には一切依存しない
– 次までのモーメントを用いると を
全ての で非零値で抑えられる
– の場合と異なり の regret を達成可能
≞⊹≩ ≄≩≮≦∨≞≆≩∻⊹∩
≞≆≩
≤ ≄≩≮≦∨≞≆≩∻⊹∩
≤≤∽∲≥∫∱
≤⊷∴
≤ ≡
≄≩≮≦∨≞≆≩∻⊹∩≤⊸∲
≞≆≩ ∲≆∨⊡∱∻∱≝
≤∽∱ ≏∨≬≯≧≮∩
- 39. • , 紛らわしい分布の例
39
数値例 2
UCB2
UCB-tuned
漸近限界
DMED
≆∱∨∰∩∽∰∺∹∹∻ ≆∱∨∱∩∽∰∺∰∱∻ ⊹∱ ∽∰∺∰∱
≆∲∨∰∺∰∰∸∩∽∰∺∵∻ ≆∲∨∰∺∰∰∹∩∽∰∺∵∻ ⊹∲ ∽∰∺∰∰∸∵
≋ ∽∲