確率的バンディット問題
Upcoming SlideShare
Loading in...5
×
 

確率的バンディット問題

on

  • 657 views

 

Statistics

Views

Total Views
657
Slideshare-icon Views on SlideShare
566
Embed Views
91

Actions

Likes
2
Downloads
6
Comments
0

1 Embed 91

https://twitter.com 91

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    確率的バンディット問題 確率的バンディット問題 Presentation Transcript

    • 確率的バンディット問題 小宮山 純平 (東京大学中川研究室 D2) junpeikomiyama atmark gmail.com
    • はじめに Multi-armed Bandit問題(バンディット問題)の もっとも標準的なモデル(確率的バンディット 問題)に関して説明する この分野では2010年以降に最適なアルゴリズム の研究が進んだため、その点について中心に説 明する 2
    • 概要 確率的バンディット問題とは 情報的複雑性とregret下限(性能上限) 確率的バンディット問題のアルゴリズム アルゴリズムのregret解析 3
    • 概要 確率的バンディット問題とは 情報的複雑性とregret下限(性能上限) 確率的バンディット問題のアルゴリズム アルゴリズムのregret解析 4
    • 確率的バンディット問題 アーム数: 𝐾, ラウンド数: 𝑇 予測者(システム)は各ラ ウンド 𝑡=1,2,…Tに、アーム 𝐼𝑡 ∈ {1, . . , 𝐾}を選択し、報 酬𝑋𝐼 𝑡 𝑡 を受け取る. 目的: 総報酬の最大化 Maximize 𝑡=1 𝑇 𝑋𝐼 𝑡 (𝑡) 5 (image from http://www.directgamesroom.com ) arm
    • 例:オンライン広告 ラウンド=ユーザの訪問 アーム=広告 報酬=クリック 6 総クリック数を最大化する広告選択
    • バンディット問題と確率分布 確率的設定: ・各アームごとに確率分布 を持っていて、選んだアー ムの確率分布からi.i.d.で報 酬が引かれる 𝑋𝐼 𝑡 𝑡 ∼ 𝜈𝐼𝑡 7 (image from http://www.directgamesroom.com ) arm
    • バンディット問題と確率分布 (続) アームの報酬確率分布が何らかの族に入っていることを 仮定 例1:Bernoulli分布族(確率𝜇𝑖で報酬1, 確率1 − 𝜇𝑖で報 酬0、1パラメータの推定) 例2:正規分布族(平均と分散の2パラメータを推定) 先ほどのオンライン広告の場合はBernoulli分布族(ク リック/非クリックの2値) この発表では簡単のためBernoulli分布族を仮定 8
    • バンディット問題の最適戦略 各アームの期待報酬を 𝜇1 > 𝜇2 > 𝜇3 > ⋯ > 𝜇 𝐾とす る(注. アルゴリズムはこの順番を知らない) もし{𝜇𝑖}を全て知っているなら →常に𝜇1を選び続けるのが最善 Tラウンドでの期待累計報酬=𝜇1 𝑇 ・実際は各アームの期待報酬を知らないので、それ ぞれの期待報酬を類推しながらアームを選んでいく 必要がある 9
    • 探索と活用のトレードオフ 探索:全アームを均等に調べる →𝜇1, … . , 𝜇 𝐾を正確に推定したい 活用:一番良いアームを選びたい →アームの報酬予測を{ 𝜇𝑖}とすると、argmaxi 𝜇𝑖を引く →高い確率でargmaxi 𝜇𝑖 = 𝜇1だが、稀にそれ以外のアー ムがたまたま良いように見えてしまうことがある 良いアルゴリズム=探索と活用をバランスできるアルゴ リズム 10
    • Regret (評価手法) 最適なアーム選択(=𝜇1を毎回選ぶ)とアルゴ リズムの選択の差 𝑅𝑒𝑔𝑟𝑒𝑡 𝑇 = 𝜇1 𝑇 − 𝑖 𝐾 𝜇𝑖 𝑁 𝑇 (𝑖) アルゴリズムの目標 →𝐸 𝑅𝑒𝑔𝑟𝑒𝑡 𝑇 の最小化(小さいほど良い) →最適でないアームを引く数𝐸[𝑁𝑖(𝑇)]の最小化 11
    • 概要 確率的バンディット問題とは 情報的複雑性とregret下限(性能上限) 確率的バンディット問題のアルゴリズム アルゴリズムのregret解析 12
    • Regret下限 [Lai&Robbins 1985] 強一致性を持つ(任意のアーム集合と𝛼 > 0に対 してregretが𝑜(𝑇 𝛼)になる)アルゴリズムに関し て 𝐸 𝑁𝑖(𝑇) ≥ log 𝑇 𝑑(𝜇𝑖, 𝜇1) この下限と一致する満たすアルゴリズムが最適 なアルゴリズム ・𝑜(log 𝑇 )な項は無視 13
    • Regret下限の直観的イメージ 期待値が𝜇𝑖のベルヌーイ分布からサンプルした とき、その経験期待値 𝜇𝑖が𝜇1以下だと確信でき るために必要なサンプル数が log 𝑇 𝑑(𝜇 𝑖,𝜇1) 程度 14 𝜇1 𝜇𝑖 𝜇𝑖
    • Cramer-Chernoffの定理 確率分布𝜇𝑖の推定値 𝜇𝑖 = 1 𝑁(𝑖) 𝑠=1 𝑁(𝑖) 𝑋𝑖,𝑠 に対して Pr 𝜇𝑖 > 𝑎 ≤ exp −𝑁 𝑖 sup 𝜃 𝜃𝑎 − 𝜆 𝜃 , where 𝜆 𝜃 = 𝑙𝑜𝑔𝐸[exp 𝜃𝑋𝑖], Bernoulli分布なら sup 𝜃 𝜃𝑎 − 𝜆 𝜃 = 𝑑 𝜇𝑖, 𝑎 なので 以下のChernoffのバウンドが得られる Pr 𝜇𝑖 > 𝜇1 ≤ exp(−𝑁(𝑖)𝑑 𝜇𝑖, 𝜇1 ) 15
    • Chernoffのバウンドと情報複雑性 Chernoffのバウンド Pr 𝜇𝑖 > 𝜇1 ≤ exp(−𝑁(𝑖)𝑑 𝜇𝑖, 𝜇1 ) から、 𝑁(𝑖)= log 𝑇 𝑑(𝜇 𝑖,𝜇1) のとき Pr 𝜇𝑖 > 𝜇1 = 1/𝑇 これよりほんの少しだけたくさんサンプルすると Pr 𝜇𝑖 > 𝜇1 = 1 𝑇1+𝛼 (𝛼 > 0)になり、 𝑡 1/𝑡1+𝛼 = 𝑂(1) 16
    • Chernoffのバウンドと情報複雑性 (続) 情報複雑性 (information complexity)=アームiが アームj (j<i)の平均𝜇 𝑗を上回らないことを確認す るためのサンプル数 IC(i, j) = log 𝑇 𝑑(𝜇 𝑖,𝜇 𝑗) 17
    • 概要 確率的バンディット問題とは 情報的複雑性とregret下限(性能上限) 確率的バンディット問題のアルゴリズム アルゴリズムのregret解析 18
    • アルゴリズム: UCB1 [Auer+2002] 各アームに次のUCB1 indexを設定し、各ラウン ドで最大indexのアームを選択する 𝐵 𝑈𝐶𝐵 𝑖 = 𝜇𝑖 + 2log(𝑇) 𝑁 𝑖(𝑡) 経験期待値(活用)+あまり引いていないアー ムの不確定性(探索) 19 活用 探索
    • UCB1のregret アームを引く数:𝐸 𝑁 𝑇 𝑖 ≤ 8log(𝑇) 𝜇1−𝜇 𝑖 2 Regret: 𝐸 𝑅 𝑖 = 𝑖≠1 (𝜇1 − 𝜇𝑖)𝐸 𝑁 𝑇 𝑖 ≤ 𝑖≠1 8log(𝑇) (𝜇1 − 𝜇𝑖) UCB1はRegretがO(log 𝑇 )のアルゴリズム 20
    • UCB1のregret (再掲)𝐸 𝑁 𝑇 𝑖 ≤ 8log(𝑇) 𝜇1−𝜇 𝑖 2 Pinskerの不等式 𝑑 𝑝, 𝑞 ≥ 2 𝜇1 − 𝜇𝑖 2により 8log(𝑇) 𝜇1 − 𝜇𝑖 2 ≥ 16 log 𝑇 𝑑 𝜇𝑖, 𝜇1 > log 𝑇 𝑑(𝜇𝑖, 𝜇1) というわけで、UCB1のregretはtightではない これ以降紹介する3つのアルゴリズムは以下の点で最適 lim 𝑇→∞ 𝐸 𝑁𝑖(𝑇) / log 𝑇 → 1 𝑑(𝜇𝑖, 𝜇1) 21
    • DMED (Deterministic Minimum Empirical Divergence) [Honda&Takemura 2010] アームiの経験分布 𝐹𝑖と一番経験平均が高いアー ムの経験平均 𝜇𝑖∗の間のKL divergenceが 𝑑 𝐹𝑖, 𝜇𝑖∗ ≤ log 𝑡 /𝑇𝑖(𝑡)程度のアームを「最適で ある可能性があるアームのリスト」として持つ 𝑑 𝐹𝑖, 𝜇𝑖∗ は双対問題𝑑′ 𝐹𝑖, 𝜇𝑖∗ が数値的に (e.g. Newton法、二分法)解けて、双対問題の解と主 問題の解が一致 22
    • KL-UCB [Garivier+ 2011] UCBの信頼上限をKL divergenceをもとに厳密化 各ラウンドで、次のKL-UCB indexが最大のアームを 選ぶ 𝐵 𝐾𝐿−𝑈𝐶𝐵 𝑖 = max 𝑞∈[ 𝜇 𝑖,1] {𝑁𝑖 𝑑 𝜇𝑖, 𝑞 ≤ log 𝑡 + 3log(log 𝑡 )} 𝑢𝑖 = 𝜇𝑖からdivergenceがlog 𝑡 /𝑁𝑖 程度の値 ・𝐵 𝐾𝐿−𝑈𝐶𝐵 𝑖 は数値的に解ける ・3log(log 𝑡 )項は理論的な産物(実際必要かどうか は不明) 23
    • Thompson sampling [Thompson 1933] Bayes推定+Posterior sampling 1. 各アームiの報酬の確率分布を初期化(𝛼𝑖 = 1, 𝛽𝑖 = 1) 2. 各ラウンドで確率分布のposteriorからサンプルし、そのサンプルの最大 なものを選ぶ 𝜃𝑖 ∼ 𝐵𝑒𝑡𝑎(𝛼𝑖, 𝛽𝑖), and 𝐼 𝑡 =argmax 𝜃𝑖 3. 報酬を見て確率分布を更新 If 𝑋𝐼 𝑡 𝑡 =1 then 𝛼𝑖=𝛼𝑖+1 else 𝛽𝑖=𝛽𝑖+1 太古から知られているアルゴリズムだが、最適性の証明はごく最近 [Agrawal&Goyal 2011, Kaufmann+2012] 24
    • 補足:Beta分布 平均: 𝛼 𝑖 𝛼 𝑖+𝛽𝑖 , 最頻値: 𝛼 𝑖−1 𝛼 𝑖+𝛽𝑖+2 , 分散 𝛼 𝑖 𝛽𝑖 𝛼 𝑖+𝛽𝑖 2(𝛼 𝑖+𝛽𝑖+1) 25 (図はwolfram alphaから引用)
    • 概要 確率的バンディット問題とは 情報的複雑性とregret下限(性能上限) 確率的バンディット問題のアルゴリズム アルゴリズムのregret解析 26
    • バンディット問題のregret 基本的に2アーム (アーム1とアームi) だけ考えれ ばOK {アームiが選ばれる} = {アーム1が過小評価され る} or {アームiが過大評価される} 27 𝜇1 𝜇𝑖
    • バンディット問題のregret (続) 以下の構造はすべての最適なアルゴリズムで(おそら く)同一 アーム1はO(T)でサンプルされるので経験期待値が真の 期待値に近い→{アーム1が過小評価される}ことは少ない →𝑂 1 {アームiが過大評価される}イベントはアームiの経験期待 値が 𝜇1 ∼ 𝜇1に近づくかどうか→先ほどの情報複雑性に依 存 → log 𝑇 𝑑(𝜇 𝑖,𝜇1) + 𝑜(log 𝑇 ) 28
    • Thompson samplingのregret アームiが引かれるイベントを分解 𝐼𝑡 = 𝑖 ≤ 𝑁1 𝑡 ≤ 𝑡 𝑏 ∪ 𝜃1 ≤ 𝜇1 − Δ ∪ 𝜃𝑖 > 𝜇1 − Δ 29 アーム1が O(t)のペースで 引かれていない →𝑂 1 アームiを 過大評価 → (1+𝜖)log 𝑇 𝑑(𝜇 𝑖,𝜇1) + 𝑂( 1 𝜖2) (アーム1がO(t)で 引かれる仮定で) アーム1を 過小評価→𝑂 1 (Δはとても小さい値)
    • まとめ 確率的バンディット問題について解説した  Regret=最適でないアームを引いた回数でアルゴ リズムを評価  最適でないアームを引く回数の下限(理論上 限)は、情報複雑性によって決められる  UCB1はO(log 𝑇 )だが、最適ではない  DMED, KL-UCB, TSは最適(情報複雑性による下 限と一致するregret上限を持つ) 30