確率的バンディット問題

確率的バンディット問題
小宮山純平 (東京大学中川研究室 D2)
junpeikomiyama atmark gmail.com

はじめに
Multi-armed Bandit問題（バンディット問題）の
もっとも標準的なモデル（確率的バンディット
問題）に関して説明する
この分野では2010年以降に最適なアルゴリズム
の研究が進んだため、その点について中心に説
明する
2

概要
確率的バンディット問題とは
情報的複雑性とregret下限（性能上限）
確率的バンディット問題のアルゴリズム
アルゴリズムのregret解析
3

概要
4

確率的バンディット問題
アーム数: 𝐾, ラウンド数: 𝑇
予測者（システム）は各ラ
ウンド 𝑡=1,2,…Tに、アーム
𝐼𝑡 ∈ {1, . . , 𝐾}を選択し、報
酬𝑋𝐼 𝑡 𝑡 を受け取る.
目的: 総報酬の最大化
Maximize 𝑡=1
𝑇
𝑋𝐼 𝑡 (𝑡)
5
(image from
http://www.directgamesroom.com )
arm

例：オンライン広告
ラウンド＝ユーザの訪問
アーム＝広告
報酬＝クリック
6
総クリック数を最大化する広告選択

バンディット問題と確率分布
確率的設定:
・各アームごとに確率分布
を持っていて、選んだアー
ムの確率分布からi.i.d.で報
酬が引かれる
𝑋𝐼 𝑡 𝑡 ∼ 𝜈𝐼𝑡
7
(image from
http://www.directgamesroom.com )
arm

バンディット問題と確率分布 (続)
アームの報酬確率分布が何らかの族に入っていることを
仮定
例１：Bernoulli分布族（確率𝜇𝑖で報酬1, 確率1 − 𝜇𝑖で報
酬0、１パラメータの推定）
例２：正規分布族（平均と分散の２パラメータを推定）
先ほどのオンライン広告の場合はBernoulli分布族（ク
リック/非クリックの２値）
この発表では簡単のためBernoulli分布族を仮定
8

バンディット問題の最適戦略
各アームの期待報酬を 𝜇1 > 𝜇2 > 𝜇3 > ⋯ > 𝜇 𝐾とす
る（注. アルゴリズムはこの順番を知らない）
もし{𝜇𝑖}を全て知っているなら
→常に𝜇1を選び続けるのが最善
Tラウンドでの期待累計報酬=𝜇1 𝑇
・実際は各アームの期待報酬を知らないので、それ
ぞれの期待報酬を類推しながらアームを選んでいく
必要がある
9

探索と活用のトレードオフ
探索：全アームを均等に調べる
→𝜇1, … . , 𝜇 𝐾を正確に推定したい
活用：一番良いアームを選びたい
→アームの報酬予測を{ 𝜇𝑖}とすると、argmaxi 𝜇𝑖を引く
→高い確率でargmaxi 𝜇𝑖 = 𝜇1だが、稀にそれ以外のアー
ムがたまたま良いように見えてしまうことがある
良いアルゴリズム＝探索と活用をバランスできるアルゴ
リズム
10

Regret (評価手法)
最適なアーム選択（＝𝜇1を毎回選ぶ）とアルゴ
リズムの選択の差
𝑅𝑒𝑔𝑟𝑒𝑡 𝑇 = 𝜇1 𝑇 −
𝑖
𝐾
𝜇𝑖 𝑁 𝑇 (𝑖)
アルゴリズムの目標
→𝐸 𝑅𝑒𝑔𝑟𝑒𝑡 𝑇 の最小化（小さいほど良い）
→最適でないアームを引く数𝐸[𝑁𝑖(𝑇)]の最小化
11

概要
12

Regret下限 [Lai&Robbins 1985]
強一致性を持つ（任意のアーム集合と𝛼 > 0に対
してregretが𝑜(𝑇 𝛼)になる）アルゴリズムに関し
て
𝐸 𝑁𝑖(𝑇) ≥
log 𝑇
𝑑(𝜇𝑖, 𝜇1)
この下限と一致する満たすアルゴリズムが最適
なアルゴリズム
・𝑜(log 𝑇 )な項は無視
13

Regret下限の直観的イメージ
期待値が𝜇𝑖のベルヌーイ分布からサンプルした
とき、その経験期待値 𝜇𝑖が𝜇1以下だと確信でき
るために必要なサンプル数が
log 𝑇
𝑑(𝜇 𝑖,𝜇1)
程度
14
𝜇1
𝜇𝑖
𝜇𝑖

Cramer-Chernoffの定理
確率分布𝜇𝑖の推定値 𝜇𝑖 =
1
𝑁(𝑖) 𝑠=1
𝑁(𝑖)
𝑋𝑖,𝑠 に対して
Pr 𝜇𝑖 > 𝑎 ≤ exp −𝑁 𝑖 sup
𝜃
𝜃𝑎 − 𝜆 𝜃 ,
where 𝜆 𝜃 = 𝑙𝑜𝑔𝐸[exp 𝜃𝑋𝑖],
Bernoulli分布なら sup
𝜃
𝜃𝑎 − 𝜆 𝜃 = 𝑑 𝜇𝑖, 𝑎 なので
以下のChernoffのバウンドが得られる
Pr 𝜇𝑖 > 𝜇1 ≤ exp(−𝑁(𝑖)𝑑 𝜇𝑖, 𝜇1 )
15

Chernoffのバウンドと情報複雑性
Chernoffのバウンド
Pr 𝜇𝑖 > 𝜇1 ≤ exp(−𝑁(𝑖)𝑑 𝜇𝑖, 𝜇1 )
から、 𝑁(𝑖)=
log 𝑇
のとき
Pr 𝜇𝑖 > 𝜇1 = 1/𝑇
これよりほんの少しだけたくさんサンプルすると
Pr 𝜇𝑖 > 𝜇1 =
1
𝑇1+𝛼 (𝛼 > 0)になり、
𝑡
1/𝑡1+𝛼 = 𝑂(1)
16

Chernoffのバウンドと情報複雑性 (続)
情報複雑性 (information complexity)＝アームiが
アームj (j<i)の平均𝜇 𝑗を上回らないことを確認す
るためのサンプル数
IC(i, j) =
log 𝑇
𝑑(𝜇 𝑖,𝜇 𝑗)
17

概要
18

アルゴリズム: UCB1 [Auer+2002]
各アームに次のUCB1 indexを設定し、各ラウン
ドで最大indexのアームを選択する
𝐵 𝑈𝐶𝐵 𝑖 = 𝜇𝑖 +
2log(𝑇)
𝑁 𝑖(𝑡)
経験期待値（活用）＋あまり引いていないアー
ムの不確定性（探索）
19
活用探索

UCB1のregret
アームを引く数：𝐸 𝑁 𝑇 𝑖 ≤
8log(𝑇)
𝜇1−𝜇 𝑖
2
Regret：
𝐸 𝑅 𝑖 =
𝑖≠1
(𝜇1 − 𝜇𝑖)𝐸 𝑁 𝑇 𝑖 ≤
𝑖≠1
8log(𝑇)
(𝜇1 − 𝜇𝑖)
UCB1はRegretがO(log 𝑇 )のアルゴリズム
20

UCB1のregret
（再掲）𝐸 𝑁 𝑇 𝑖 ≤
8log(𝑇)
𝜇1−𝜇 𝑖
2
Pinskerの不等式 𝑑 𝑝, 𝑞 ≥ 2 𝜇1 − 𝜇𝑖
2により
8log(𝑇)
𝜇1 − 𝜇𝑖
2
≥
16 log 𝑇
𝑑 𝜇𝑖, 𝜇1
>
log 𝑇
というわけで、UCB1のregretはtightではない
これ以降紹介する3つのアルゴリズムは以下の点で最適
lim
𝑇→∞
𝐸 𝑁𝑖(𝑇) / log 𝑇 →
1
21

DMED (Deterministic Minimum Empirical Divergence)
[Honda&Takemura 2010]
アームiの経験分布 𝐹𝑖と一番経験平均が高いアー
ムの経験平均 𝜇𝑖∗の間のKL divergenceが
𝑑 𝐹𝑖, 𝜇𝑖∗ ≤ log 𝑡 /𝑇𝑖(𝑡)程度のアームを「最適で
ある可能性があるアームのリスト」として持つ
𝑑 𝐹𝑖, 𝜇𝑖∗ は双対問題𝑑′ 𝐹𝑖, 𝜇𝑖∗ が数値的に (e.g.
Newton法、二分法)解けて、双対問題の解と主
問題の解が一致
22

KL-UCB [Garivier+ 2011]
UCBの信頼上限をKL divergenceをもとに厳密化
各ラウンドで、次のKL-UCB indexが最大のアームを
選ぶ
𝐵 𝐾𝐿−𝑈𝐶𝐵 𝑖
= max
𝑞∈[ 𝜇 𝑖,1]
{𝑁𝑖 𝑑 𝜇𝑖, 𝑞 ≤ log 𝑡 + 3log(log 𝑡 )}
𝑢𝑖 = 𝜇𝑖からdivergenceがlog 𝑡 /𝑁𝑖 程度の値
・𝐵 𝐾𝐿−𝑈𝐶𝐵 𝑖 は数値的に解ける
・3log(log 𝑡 )項は理論的な産物（実際必要かどうか
は不明）
23

Thompson sampling [Thompson 1933]
Bayes推定＋Posterior sampling
1. 各アームiの報酬の確率分布を初期化(𝛼𝑖 = 1, 𝛽𝑖 = 1)
2. 各ラウンドで確率分布のposteriorからサンプルし、そのサンプルの最大
なものを選ぶ
𝜃𝑖 ∼ 𝐵𝑒𝑡𝑎(𝛼𝑖, 𝛽𝑖), and 𝐼 𝑡 =argmax 𝜃𝑖
3. 報酬を見て確率分布を更新
If 𝑋𝐼 𝑡 𝑡 =1 then 𝛼𝑖=𝛼𝑖+1 else 𝛽𝑖=𝛽𝑖+1
太古から知られているアルゴリズムだが、最適性の証明はごく最近
[Agrawal&Goyal 2011, Kaufmann+2012]
24

補足：Beta分布
平均:
𝛼 𝑖
𝛼 𝑖+𝛽𝑖
, 最頻値:
𝛼 𝑖−1
𝛼 𝑖+𝛽𝑖+2
, 分散
𝛼 𝑖 𝛽𝑖
𝛼 𝑖+𝛽𝑖
2(𝛼 𝑖+𝛽𝑖+1)
25
(図はwolfram alphaから引用)

概要
26

バンディット問題のregret
基本的に2アーム (アーム1とアームi) だけ考えれ
ばOK
{アームiが選ばれる} = {アーム1が過小評価され
る} or {アームiが過大評価される}
27
𝜇1
𝜇𝑖

バンディット問題のregret (続)
以下の構造はすべての最適なアルゴリズムで（おそら
く）同一
アーム1はO(T)でサンプルされるので経験期待値が真の
期待値に近い→{アーム1が過小評価される}ことは少ない
→𝑂 1
{アームiが過大評価される}イベントはアームiの経験期待
値が 𝜇1 ∼ 𝜇1に近づくかどうか→先ほどの情報複雑性に依
存
→
log 𝑇
+ 𝑜(log 𝑇 )
28

Thompson samplingのregret
アームiが引かれるイベントを分解
𝐼𝑡 = 𝑖
≤ 𝑁1 𝑡 ≤ 𝑡 𝑏 ∪ 𝜃1 ≤ 𝜇1 − Δ ∪ 𝜃𝑖 > 𝜇1 − Δ
29
アーム1が
O(t)のペースで
引かれていない
→𝑂 1
アームiを
過大評価
→
(1+𝜖)log 𝑇
+ 𝑂(
1
𝜖2)
(アーム1がO(t)で
引かれる仮定で)
アーム1を
過小評価→𝑂 1
(Δはとても小さい値)

まとめ
確率的バンディット問題について解説した
 Regret=最適でないアームを引いた回数でアルゴ
リズムを評価
 最適でないアームを引く回数の下限（理論上
限）は、情報複雑性によって決められる
 UCB1はO(log 𝑇 )だが、最適ではない
 DMED, KL-UCB, TSは最適（情報複雑性による下
限と一致するregret上限を持つ）
30

確率的バンディット問題

More Related Content

What's hot

Similar to 確率的バンディット問題

More from jkomiyama

確率的バンディット問題