DATUMSTUDIO株式会社 宇佐見崇
MLP輪読会
バンディット問題の理論とアルゴリズム
第3章 確率的バンディット問題の方策
© 2016 DATUM STUDIO Co. Ltd. PROPRIETARY & 1
自己紹介
• 宇佐見崇
• Y!(開発) -> ソシャゲ(開発・分析) -> ソシャゲ(分析) ->
DATUMSTUDIO株式会社(分析・コンサル)
• 大学時代は生物統計専攻
• オープンセミナーで高校生のクジラやマグロをやりたいという夢を潰す
• 2週間ほど東シナ海で実習経験あり
• 趣味 : ゲーム
2
この章でやること
• 確率的バンディット(報酬が何らかの確率分布に従って生成)
の定式化と理論限界について
• 理論限界を達成可能な代表的な方策の紹介(≠証明)
3
3.1 定式化
• 前提条件
• K : スロットマシンのアームの本数
• i : アームの番号
• t : 時刻
• 𝜇𝑖 : 報酬の期待値
• P𝑖 = 𝑃(𝜇𝑖) : 報酬の確率分布
• : 最大期待値(つまりできるだけこれをあて続けたい)
• : 最大期待値となるアーム
• μ* T : 最大期待値となるアームを引き続けたときの累積報酬最大期待値
• : 1回毎の最大期待値と実際の期待値との差
4
3.1 定式化
• N𝑖(𝑡) : 時刻tの開始時点までにアームiを引いた回数
確率的バンディットでのリグレット
• : リグレットの期待値
※このリグレットは確率的バンディットでのみ用いられる
5
時間ベースでの総和
回数ベースでの総和
3.2 理論限界
• リグレットを小さくするという問題は期待値最大ではない
アームに対して選択数を小さくする問題と同等になる
• その選択数はどこまで小さくすることが出来るか、が理論限
界にあたる
• 理論限界は以下のように定義される
• 一貫性を持つとリグレットは多項式オーダーより小さくなる
• O(logT)オーダーまで小さくした方策を紹介する
6
誤植あり
𝑜 𝑇 𝑎
=> 𝑂(𝑇 𝑎
)
3.2 理論限界
• 一貫性を持つ方策のリグレット下界
7
3.3 ε-貪欲法
• アルゴリズム
8
3.3 ε-貪欲法
• アルゴリズムの例
1. 全体のアームの選択数を100回、アームの本数を5本とする
2. ε=0.2とする
3. すべてのアームを0.2 * 100 / 5 = 4回ずつ引く
4. 残りの80回は一番期待値の高かったアームを引く
• なんとなる分かること
• εの値をどれくらいに設定すればいいか分からない
• 活用期間に一番期待値の高いアームの選択を誤ると…
9
3.3 ε-貪欲法
• リグレット上界
10
3.3 ε-貪欲法
• εの調整に非常に敏感
• O(logT)のリグレットを達成するためにはε= O((logT)/T)としてやる必要があ
る
• 係数部分は(未知である) に依存して決められる必要もある
• 期待値が最大に近いアームも劣っているアームも同じ回数の
探索が必要
11
3.4 尤度に基づく方法
• 理論限界から期待値最大でないそれぞれのアームをΩ(logt)
回程度は選択しなければいけない
• ある時刻tにおいてそのアームを1/t(logtをtで微分)程度は必
要となる
• 逆説的に考えると各時刻に1/t程度の確率で期待値最大ではな
いアームを選ぶことができれば理論限界と同じオーダーのリ
グレットが見込める
12
3.4.1 UCB方策
• Upper Confidence Boundの略
• 報酬最大化のためには報酬期待値が高いアームを引くことが
必要
• 報酬期待値が高いアームの選択数は多くなりがち
• 選択数が低いアームについては標本平均が真の期待値に収束
しない可能性がある
• これらのバランスを取って、各時刻に1/t程度の確率で確率最
大でないアームも選ぶようにする
13
3.4.1 UCB方策
• アルゴリズム
14
3.4.1 UCB方策
• はじめに全部1回ずつ引き、その後は1回ずつスコアを計算し
て探索期間と活用期間を兼ねながら進めていく
• スコアは以下の式で算出
※導出はヘフディングの不等式から
15
3.4.1 UCB方策
• リグレット上界
※証明は4章で行うとのこと
16
3.4.1 UCB方策
• UCB方策 : スコアはヘフディングの不等式に基づく
• KL-UCB方策 : スコアはチェルノフ・ヘフディングの不等式
に基づく
• より精密な確率の上界を与えるKLダイバージェンスを用いて
いる
17
3.4.1 UCB方策
• リグレット上界
※UCB方策の証明に基づく
• 理論限界を達成することは可能だが、KLダイバージェンスの
μに対する逆関数を計算する必要あり
18
3.4.2 MED方策
• Minimum Empirical Divergenceの略
• 期待値最大ではないアームの選択率が1/t程度になるように選
択率を直接操作する
• 直感的理解が容易なものとしてDMED方策(Deterministic
Minimum Empirical Divergence policy)を例に挙げている
19
3.4.2 MED方策
• アルゴリズム
20
3.4.2 MED方策
• 現在のループで引くべきアームのリストを実行する
• 実行途中で次のループで引くべきアームのリストを作成する
• アームのリストは以下のどちらかの式(同値)で決定される
• 「期待値最大である尤度が1/t以上のアームを引く」方策であ
る
21
3.4.2 MED方策
• 先程の式を変形すると
が得られて、論理限界が示す最低限必要な回数だけ探索を行
うことをDMED方策が目指していることを言える
• リグレット上界
22
≦
3.5 確率一致法とトンプソン抽出
• 確率一致法
• 「それぞれのアームが期待値最大である確率」を定式化し、引くアームをその
確率に従いランダムに選択する
• 例としてソフトマックス法が挙げられる
23
3.5.1 確率一致法の特徴と解釈
• バッチ更新に対して頑健である
• 計算量や運用上の都合により遅延を含んでデータが与えられることがしばしば
ある
• そういった場合、データが送られてくるまで、同じアームを引き続ける可能性
がある
• 乱数によって引くアームが決定されるため、各アームの選択回数がある程度は
保証される
24
3.5.2 トンプソン抽出
• 確率一致法をベイズ統計の枠組みで定式化したもの
• ベイズ更新を行うため、共役事前分布が仮定できると計算が
容易になる
• 今回はベルヌーイ分布モデルを仮定する(つまりアームが2本
の場合)
25
3.5.2 トンプソン抽出
• アルゴリズム
26
3.5.2 トンプソン抽出
• 事前分布が不明ならばα=β=1といった無情報事前分布を仮
定する
• 指数型分布族以外の確率モデルでは近似計算により事後分布
を推定する必要がある(この部分についてはバンディット問題
に限ったことではない)
27
3.5.2 トンプソン抽出
• リグレット上界
※こちらも証明については4章で行う
28
3.5.3 トンプソン抽出とUCB方策の関係
• トンプソン抽出 : 乱数アルゴリズムで事後確率を計算
• UCB方策 : ヘフディングの不等式などからの確率の上界式か
ら計算
• 事後確率と尤度という方針は違うかもしれないが、どちらも
「期待値最大でいある確率が1/t以上のアームを選ぶ」という
方策として見なすことが出来る
29
3.6 最悪時の評価
• UCB方策のリグレット上界を例に取ると、Tが十分に大きい
場合はO(logT)オーダーとして見なすことが出来る
• 逆にΔがTに対して非常に小さい(もしくはKが非常に大きい)
場合は分布のパラメータである{𝜇𝑖}について依存しない形の
リグレット上界を考えることがある
• Tを固定して{𝜇𝑖}について最悪の場合を考えるということで再
悪事リグレット上界と呼ばれる
30

MLP輪読会 バンディット問題の理論とアルゴリズム 第3章