確率的バンディット問題
小宮山 純平 (東京大学中川研究室 D2)
junpeikomiyama atmark gmail.com
はじめに
Multi-armed Bandit問題(バンディット問題)の
もっとも標準的なモデル(確率的バンディット
問題)に関して説明する
この分野では2010年以降に最適なアルゴリズム
の研究が進んだため、その点について中心に説
明する
2
概要
確率的バンディット問題とは
情報的複雑性とregret下限(性能上限)
確率的バンディット問題のアルゴリズム
アルゴリズムのregret解析
3
概要
確率的バンディット問題とは
情報的複雑性とregret下限(性能上限)
確率的バンディット問題のアルゴリズム
アルゴリズムのregret解析
4
確率的バンディット問題
アーム数: 𝐾, ラウンド数: 𝑇
予測者(システム)は各ラ
ウンド 𝑡=1,2,…Tに、アーム
𝐼𝑡 ∈ {1, . . , 𝐾}を選択し、報
酬𝑋𝐼 𝑡 𝑡 を受け取る.
目的: 総報酬の最大化
Maximize 𝑡=1
𝑇
𝑋𝐼 𝑡 (𝑡)
5
(image from
http://www.directgamesroom.com )
arm
例:オンライン広告
ラウンド=ユーザの訪問
アーム=広告
報酬=クリック
6
総クリック数を最大化する広告選択
バンディット問題と確率分布
確率的設定:
・各アームごとに確率分布
を持っていて、選んだアー
ムの確率分布からi.i.d.で報
酬が引かれる
𝑋𝐼 𝑡 𝑡 ∼ 𝜈𝐼𝑡
7
(image from
http://www.directgamesroom.com )
arm
バンディット問題と確率分布 (続)
アームの報酬確率分布が何らかの族に入っていることを
仮定
例1:Bernoulli分布族(確率𝜇𝑖で報酬1, 確率1 − 𝜇𝑖で報
酬0、1パラメータの推定)
例2:正規分布族(平均と分散の2パラメータを推定)
先ほどのオンライン広告の場合はBernoulli分布族(ク
リック/非クリックの2値)
この発表では簡単のためBernoulli分布族を仮定
8
バンディット問題の最適戦略
各アームの期待報酬を 𝜇1 > 𝜇2 > 𝜇3 > ⋯ > 𝜇 𝐾とす
る(注. アルゴリズムはこの順番を知らない)
もし{𝜇𝑖}を全て知っているなら
→常に𝜇1を選び続けるのが最善
Tラウンドでの期待累計報酬=𝜇1 𝑇
・実際は各アームの期待報酬を知らないので、それ
ぞれの期待報酬を類推しながらアームを選んでいく
必要がある
9
探索と活用のトレードオフ
探索:全アームを均等に調べる
→𝜇1, … . , 𝜇 𝐾を正確に推定したい
活用:一番良いアームを選びたい
→アームの報酬予測を{ 𝜇𝑖}とすると、argmaxi 𝜇𝑖を引く
→高い確率でargmaxi 𝜇𝑖 = 𝜇1だが、稀にそれ以外のアー
ムがたまたま良いように見えてしまうことがある
良いアルゴリズム=探索と活用をバランスできるアルゴ
リズム
10
Regret (評価手法)
最適なアーム選択(=𝜇1を毎回選ぶ)とアルゴ
リズムの選択の差
𝑅𝑒𝑔𝑟𝑒𝑡 𝑇 = 𝜇1 𝑇 −
𝑖
𝐾
𝜇𝑖 𝑁 𝑇 (𝑖)
アルゴリズムの目標
→𝐸 𝑅𝑒𝑔𝑟𝑒𝑡 𝑇 の最小化(小さいほど良い)
→最適でないアームを引く数𝐸[𝑁𝑖(𝑇)]の最小化
11
概要
確率的バンディット問題とは
情報的複雑性とregret下限(性能上限)
確率的バンディット問題のアルゴリズム
アルゴリズムのregret解析
12
Regret下限 [Lai&Robbins 1985]
強一致性を持つ(任意のアーム集合と𝛼 > 0に対
してregretが𝑜(𝑇 𝛼)になる)アルゴリズムに関し
て
𝐸 𝑁𝑖(𝑇) ≥
log 𝑇
𝑑(𝜇𝑖, 𝜇1)
この下限と一致する満たすアルゴリズムが最適
なアルゴリズム
・𝑜(log 𝑇 )な項は無視
13
Regret下限の直観的イメージ
期待値が𝜇𝑖のベルヌーイ分布からサンプルした
とき、その経験期待値 𝜇𝑖が𝜇1以下だと確信でき
るために必要なサンプル数が
log 𝑇
𝑑(𝜇 𝑖,𝜇1)
程度
14
𝜇1
𝜇𝑖
𝜇𝑖
Cramer-Chernoffの定理
確率分布𝜇𝑖の推定値 𝜇𝑖 =
1
𝑁(𝑖) 𝑠=1
𝑁(𝑖)
𝑋𝑖,𝑠 に対して
Pr 𝜇𝑖 > 𝑎 ≤ exp −𝑁 𝑖 sup
𝜃
𝜃𝑎 − 𝜆 𝜃 ,
where 𝜆 𝜃 = 𝑙𝑜𝑔𝐸[exp 𝜃𝑋𝑖],
Bernoulli分布なら sup
𝜃
𝜃𝑎 − 𝜆 𝜃 = 𝑑 𝜇𝑖, 𝑎 なので
以下のChernoffのバウンドが得られる
Pr 𝜇𝑖 > 𝜇1 ≤ exp(−𝑁(𝑖)𝑑 𝜇𝑖, 𝜇1 )
15
Chernoffのバウンドと情報複雑性
Chernoffのバウンド
Pr 𝜇𝑖 > 𝜇1 ≤ exp(−𝑁(𝑖)𝑑 𝜇𝑖, 𝜇1 )
から、 𝑁(𝑖)=
log 𝑇
𝑑(𝜇 𝑖,𝜇1)
のとき
Pr 𝜇𝑖 > 𝜇1 = 1/𝑇
これよりほんの少しだけたくさんサンプルすると
Pr 𝜇𝑖 > 𝜇1 =
1
𝑇1+𝛼 (𝛼 > 0)になり、
𝑡
1/𝑡1+𝛼 = 𝑂(1)
16
Chernoffのバウンドと情報複雑性 (続)
情報複雑性 (information complexity)=アームiが
アームj (j<i)の平均𝜇 𝑗を上回らないことを確認す
るためのサンプル数
IC(i, j) =
log 𝑇
𝑑(𝜇 𝑖,𝜇 𝑗)
17
概要
確率的バンディット問題とは
情報的複雑性とregret下限(性能上限)
確率的バンディット問題のアルゴリズム
アルゴリズムのregret解析
18
アルゴリズム: UCB1 [Auer+2002]
各アームに次のUCB1 indexを設定し、各ラウン
ドで最大indexのアームを選択する
𝐵 𝑈𝐶𝐵 𝑖 = 𝜇𝑖 +
2log(𝑇)
𝑁 𝑖(𝑡)
経験期待値(活用)+あまり引いていないアー
ムの不確定性(探索)
19
活用 探索
UCB1のregret
アームを引く数:𝐸 𝑁 𝑇 𝑖 ≤
8log(𝑇)
𝜇1−𝜇 𝑖
2
Regret:
𝐸 𝑅 𝑖 =
𝑖≠1
(𝜇1 − 𝜇𝑖)𝐸 𝑁 𝑇 𝑖 ≤
𝑖≠1
8log(𝑇)
(𝜇1 − 𝜇𝑖)
UCB1はRegretがO(log 𝑇 )のアルゴリズム
20
UCB1のregret
(再掲)𝐸 𝑁 𝑇 𝑖 ≤
8log(𝑇)
𝜇1−𝜇 𝑖
2
Pinskerの不等式 𝑑 𝑝, 𝑞 ≥ 2 𝜇1 − 𝜇𝑖
2により
8log(𝑇)
𝜇1 − 𝜇𝑖
2
≥
16 log 𝑇
𝑑 𝜇𝑖, 𝜇1
>
log 𝑇
𝑑(𝜇𝑖, 𝜇1)
というわけで、UCB1のregretはtightではない
これ以降紹介する3つのアルゴリズムは以下の点で最適
lim
𝑇→∞
𝐸 𝑁𝑖(𝑇) / log 𝑇 →
1
𝑑(𝜇𝑖, 𝜇1)
21
DMED (Deterministic Minimum Empirical Divergence)
[Honda&Takemura 2010]
アームiの経験分布 𝐹𝑖と一番経験平均が高いアー
ムの経験平均 𝜇𝑖∗の間のKL divergenceが
𝑑 𝐹𝑖, 𝜇𝑖∗ ≤ log 𝑡 /𝑇𝑖(𝑡)程度のアームを「最適で
ある可能性があるアームのリスト」として持つ
𝑑 𝐹𝑖, 𝜇𝑖∗ は双対問題𝑑′ 𝐹𝑖, 𝜇𝑖∗ が数値的に (e.g.
Newton法、二分法)解けて、双対問題の解と主
問題の解が一致
22
KL-UCB [Garivier+ 2011]
UCBの信頼上限をKL divergenceをもとに厳密化
各ラウンドで、次のKL-UCB indexが最大のアームを
選ぶ
𝐵 𝐾𝐿−𝑈𝐶𝐵 𝑖
= max
𝑞∈[ 𝜇 𝑖,1]
{𝑁𝑖 𝑑 𝜇𝑖, 𝑞 ≤ log 𝑡 + 3log(log 𝑡 )}
𝑢𝑖 = 𝜇𝑖からdivergenceがlog 𝑡 /𝑁𝑖 程度の値
・𝐵 𝐾𝐿−𝑈𝐶𝐵 𝑖 は数値的に解ける
・3log(log 𝑡 )項は理論的な産物(実際必要かどうか
は不明)
23
Thompson sampling [Thompson 1933]
Bayes推定+Posterior sampling
1. 各アームiの報酬の確率分布を初期化(𝛼𝑖 = 1, 𝛽𝑖 = 1)
2. 各ラウンドで確率分布のposteriorからサンプルし、そのサンプルの最大
なものを選ぶ
𝜃𝑖 ∼ 𝐵𝑒𝑡𝑎(𝛼𝑖, 𝛽𝑖), and 𝐼 𝑡 =argmax 𝜃𝑖
3. 報酬を見て確率分布を更新
If 𝑋𝐼 𝑡 𝑡 =1 then 𝛼𝑖=𝛼𝑖+1 else 𝛽𝑖=𝛽𝑖+1
太古から知られているアルゴリズムだが、最適性の証明はごく最近
[Agrawal&Goyal 2011, Kaufmann+2012]
24
補足:Beta分布
平均:
𝛼 𝑖
𝛼 𝑖+𝛽𝑖
, 最頻値:
𝛼 𝑖−1
𝛼 𝑖+𝛽𝑖+2
, 分散
𝛼 𝑖 𝛽𝑖
𝛼 𝑖+𝛽𝑖
2(𝛼 𝑖+𝛽𝑖+1)
25
(図はwolfram alphaから引用)
概要
確率的バンディット問題とは
情報的複雑性とregret下限(性能上限)
確率的バンディット問題のアルゴリズム
アルゴリズムのregret解析
26
バンディット問題のregret
基本的に2アーム (アーム1とアームi) だけ考えれ
ばOK
{アームiが選ばれる} = {アーム1が過小評価され
る} or {アームiが過大評価される}
27
𝜇1
𝜇𝑖
バンディット問題のregret (続)
以下の構造はすべての最適なアルゴリズムで(おそら
く)同一
アーム1はO(T)でサンプルされるので経験期待値が真の
期待値に近い→{アーム1が過小評価される}ことは少ない
→𝑂 1
{アームiが過大評価される}イベントはアームiの経験期待
値が 𝜇1 ∼ 𝜇1に近づくかどうか→先ほどの情報複雑性に依
存
→
log 𝑇
𝑑(𝜇 𝑖,𝜇1)
+ 𝑜(log 𝑇 )
28
Thompson samplingのregret
アームiが引かれるイベントを分解
𝐼𝑡 = 𝑖
≤ 𝑁1 𝑡 ≤ 𝑡 𝑏 ∪ 𝜃1 ≤ 𝜇1 − Δ ∪ 𝜃𝑖 > 𝜇1 − Δ
29
アーム1が
O(t)のペースで
引かれていない
→𝑂 1
アームiを
過大評価
→
(1+𝜖)log 𝑇
𝑑(𝜇 𝑖,𝜇1)
+ 𝑂(
1
𝜖2)
(アーム1がO(t)で
引かれる仮定で)
アーム1を
過小評価→𝑂 1
(Δはとても小さい値)
まとめ
確率的バンディット問題について解説した
 Regret=最適でないアームを引いた回数でアルゴ
リズムを評価
 最適でないアームを引く回数の下限(理論上
限)は、情報複雑性によって決められる
 UCB1はO(log 𝑇 )だが、最適ではない
 DMED, KL-UCB, TSは最適(情報複雑性による下
限と一致するregret上限を持つ)
30

確率的バンディット問題