Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

確率的バンディット問題

9,976 views

Published on

Published in: Technology
  • Be the first to comment

確率的バンディット問題

  1. 1. 確率的バンディット問題 小宮山 純平 (東京大学中川研究室 D2) junpeikomiyama atmark gmail.com
  2. 2. はじめに Multi-armed Bandit問題(バンディット問題)の もっとも標準的なモデル(確率的バンディット 問題)に関して説明する この分野では2010年以降に最適なアルゴリズム の研究が進んだため、その点について中心に説 明する 2
  3. 3. 概要 確率的バンディット問題とは 情報的複雑性とregret下限(性能上限) 確率的バンディット問題のアルゴリズム アルゴリズムのregret解析 3
  4. 4. 概要 確率的バンディット問題とは 情報的複雑性とregret下限(性能上限) 確率的バンディット問題のアルゴリズム アルゴリズムのregret解析 4
  5. 5. 確率的バンディット問題 アーム数: 𝐾, ラウンド数: 𝑇 予測者(システム)は各ラ ウンド 𝑡=1,2,…Tに、アーム 𝐼𝑡 ∈ {1, . . , 𝐾}を選択し、報 酬𝑋𝐼 𝑡 𝑡 を受け取る. 目的: 総報酬の最大化 Maximize 𝑡=1 𝑇 𝑋𝐼 𝑡 (𝑡) 5 (image from http://www.directgamesroom.com ) arm
  6. 6. 例:オンライン広告 ラウンド=ユーザの訪問 アーム=広告 報酬=クリック 6 総クリック数を最大化する広告選択
  7. 7. バンディット問題と確率分布 確率的設定: ・各アームごとに確率分布 を持っていて、選んだアー ムの確率分布からi.i.d.で報 酬が引かれる 𝑋𝐼 𝑡 𝑡 ∼ 𝜈𝐼𝑡 7 (image from http://www.directgamesroom.com ) arm
  8. 8. バンディット問題と確率分布 (続) アームの報酬確率分布が何らかの族に入っていることを 仮定 例1:Bernoulli分布族(確率𝜇𝑖で報酬1, 確率1 − 𝜇𝑖で報 酬0、1パラメータの推定) 例2:正規分布族(平均と分散の2パラメータを推定) 先ほどのオンライン広告の場合はBernoulli分布族(ク リック/非クリックの2値) この発表では簡単のためBernoulli分布族を仮定 8
  9. 9. バンディット問題の最適戦略 各アームの期待報酬を 𝜇1 > 𝜇2 > 𝜇3 > ⋯ > 𝜇 𝐾とす る(注. アルゴリズムはこの順番を知らない) もし{𝜇𝑖}を全て知っているなら →常に𝜇1を選び続けるのが最善 Tラウンドでの期待累計報酬=𝜇1 𝑇 ・実際は各アームの期待報酬を知らないので、それ ぞれの期待報酬を類推しながらアームを選んでいく 必要がある 9
  10. 10. 探索と活用のトレードオフ 探索:全アームを均等に調べる →𝜇1, … . , 𝜇 𝐾を正確に推定したい 活用:一番良いアームを選びたい →アームの報酬予測を{ 𝜇𝑖}とすると、argmaxi 𝜇𝑖を引く →高い確率でargmaxi 𝜇𝑖 = 𝜇1だが、稀にそれ以外のアー ムがたまたま良いように見えてしまうことがある 良いアルゴリズム=探索と活用をバランスできるアルゴ リズム 10
  11. 11. Regret (評価手法) 最適なアーム選択(=𝜇1を毎回選ぶ)とアルゴ リズムの選択の差 𝑅𝑒𝑔𝑟𝑒𝑡 𝑇 = 𝜇1 𝑇 − 𝑖 𝐾 𝜇𝑖 𝑁 𝑇 (𝑖) アルゴリズムの目標 →𝐸 𝑅𝑒𝑔𝑟𝑒𝑡 𝑇 の最小化(小さいほど良い) →最適でないアームを引く数𝐸[𝑁𝑖(𝑇)]の最小化 11
  12. 12. 概要 確率的バンディット問題とは 情報的複雑性とregret下限(性能上限) 確率的バンディット問題のアルゴリズム アルゴリズムのregret解析 12
  13. 13. Regret下限 [Lai&Robbins 1985] 強一致性を持つ(任意のアーム集合と𝛼 > 0に対 してregretが𝑜(𝑇 𝛼)になる)アルゴリズムに関し て 𝐸 𝑁𝑖(𝑇) ≥ log 𝑇 𝑑(𝜇𝑖, 𝜇1) この下限と一致する満たすアルゴリズムが最適 なアルゴリズム ・𝑜(log 𝑇 )な項は無視 13
  14. 14. Regret下限の直観的イメージ 期待値が𝜇𝑖のベルヌーイ分布からサンプルした とき、その経験期待値 𝜇𝑖が𝜇1以下だと確信でき るために必要なサンプル数が log 𝑇 𝑑(𝜇 𝑖,𝜇1) 程度 14 𝜇1 𝜇𝑖 𝜇𝑖
  15. 15. Cramer-Chernoffの定理 確率分布𝜇𝑖の推定値 𝜇𝑖 = 1 𝑁(𝑖) 𝑠=1 𝑁(𝑖) 𝑋𝑖,𝑠 に対して Pr 𝜇𝑖 > 𝑎 ≤ exp −𝑁 𝑖 sup 𝜃 𝜃𝑎 − 𝜆 𝜃 , where 𝜆 𝜃 = 𝑙𝑜𝑔𝐸[exp 𝜃𝑋𝑖], Bernoulli分布なら sup 𝜃 𝜃𝑎 − 𝜆 𝜃 = 𝑑 𝜇𝑖, 𝑎 なので 以下のChernoffのバウンドが得られる Pr 𝜇𝑖 > 𝜇1 ≤ exp(−𝑁(𝑖)𝑑 𝜇𝑖, 𝜇1 ) 15
  16. 16. Chernoffのバウンドと情報複雑性 Chernoffのバウンド Pr 𝜇𝑖 > 𝜇1 ≤ exp(−𝑁(𝑖)𝑑 𝜇𝑖, 𝜇1 ) から、 𝑁(𝑖)= log 𝑇 𝑑(𝜇 𝑖,𝜇1) のとき Pr 𝜇𝑖 > 𝜇1 = 1/𝑇 これよりほんの少しだけたくさんサンプルすると Pr 𝜇𝑖 > 𝜇1 = 1 𝑇1+𝛼 (𝛼 > 0)になり、 𝑡 1/𝑡1+𝛼 = 𝑂(1) 16
  17. 17. Chernoffのバウンドと情報複雑性 (続) 情報複雑性 (information complexity)=アームiが アームj (j<i)の平均𝜇 𝑗を上回らないことを確認す るためのサンプル数 IC(i, j) = log 𝑇 𝑑(𝜇 𝑖,𝜇 𝑗) 17
  18. 18. 概要 確率的バンディット問題とは 情報的複雑性とregret下限(性能上限) 確率的バンディット問題のアルゴリズム アルゴリズムのregret解析 18
  19. 19. アルゴリズム: UCB1 [Auer+2002] 各アームに次のUCB1 indexを設定し、各ラウン ドで最大indexのアームを選択する 𝐵 𝑈𝐶𝐵 𝑖 = 𝜇𝑖 + 2log(𝑇) 𝑁 𝑖(𝑡) 経験期待値(活用)+あまり引いていないアー ムの不確定性(探索) 19 活用 探索
  20. 20. UCB1のregret アームを引く数:𝐸 𝑁 𝑇 𝑖 ≤ 8log(𝑇) 𝜇1−𝜇 𝑖 2 Regret: 𝐸 𝑅 𝑖 = 𝑖≠1 (𝜇1 − 𝜇𝑖)𝐸 𝑁 𝑇 𝑖 ≤ 𝑖≠1 8log(𝑇) (𝜇1 − 𝜇𝑖) UCB1はRegretがO(log 𝑇 )のアルゴリズム 20
  21. 21. UCB1のregret (再掲)𝐸 𝑁 𝑇 𝑖 ≤ 8log(𝑇) 𝜇1−𝜇 𝑖 2 Pinskerの不等式 𝑑 𝑝, 𝑞 ≥ 2 𝜇1 − 𝜇𝑖 2により 8log(𝑇) 𝜇1 − 𝜇𝑖 2 ≥ 16 log 𝑇 𝑑 𝜇𝑖, 𝜇1 > log 𝑇 𝑑(𝜇𝑖, 𝜇1) というわけで、UCB1のregretはtightではない これ以降紹介する3つのアルゴリズムは以下の点で最適 lim 𝑇→∞ 𝐸 𝑁𝑖(𝑇) / log 𝑇 → 1 𝑑(𝜇𝑖, 𝜇1) 21
  22. 22. DMED (Deterministic Minimum Empirical Divergence) [Honda&Takemura 2010] アームiの経験分布 𝐹𝑖と一番経験平均が高いアー ムの経験平均 𝜇𝑖∗の間のKL divergenceが 𝑑 𝐹𝑖, 𝜇𝑖∗ ≤ log 𝑡 /𝑇𝑖(𝑡)程度のアームを「最適で ある可能性があるアームのリスト」として持つ 𝑑 𝐹𝑖, 𝜇𝑖∗ は双対問題𝑑′ 𝐹𝑖, 𝜇𝑖∗ が数値的に (e.g. Newton法、二分法)解けて、双対問題の解と主 問題の解が一致 22
  23. 23. KL-UCB [Garivier+ 2011] UCBの信頼上限をKL divergenceをもとに厳密化 各ラウンドで、次のKL-UCB indexが最大のアームを 選ぶ 𝐵 𝐾𝐿−𝑈𝐶𝐵 𝑖 = max 𝑞∈[ 𝜇 𝑖,1] {𝑁𝑖 𝑑 𝜇𝑖, 𝑞 ≤ log 𝑡 + 3log(log 𝑡 )} 𝑢𝑖 = 𝜇𝑖からdivergenceがlog 𝑡 /𝑁𝑖 程度の値 ・𝐵 𝐾𝐿−𝑈𝐶𝐵 𝑖 は数値的に解ける ・3log(log 𝑡 )項は理論的な産物(実際必要かどうか は不明) 23
  24. 24. Thompson sampling [Thompson 1933] Bayes推定+Posterior sampling 1. 各アームiの報酬の確率分布を初期化(𝛼𝑖 = 1, 𝛽𝑖 = 1) 2. 各ラウンドで確率分布のposteriorからサンプルし、そのサンプルの最大 なものを選ぶ 𝜃𝑖 ∼ 𝐵𝑒𝑡𝑎(𝛼𝑖, 𝛽𝑖), and 𝐼 𝑡 =argmax 𝜃𝑖 3. 報酬を見て確率分布を更新 If 𝑋𝐼 𝑡 𝑡 =1 then 𝛼𝑖=𝛼𝑖+1 else 𝛽𝑖=𝛽𝑖+1 太古から知られているアルゴリズムだが、最適性の証明はごく最近 [Agrawal&Goyal 2011, Kaufmann+2012] 24
  25. 25. 補足:Beta分布 平均: 𝛼 𝑖 𝛼 𝑖+𝛽𝑖 , 最頻値: 𝛼 𝑖−1 𝛼 𝑖+𝛽𝑖+2 , 分散 𝛼 𝑖 𝛽𝑖 𝛼 𝑖+𝛽𝑖 2(𝛼 𝑖+𝛽𝑖+1) 25 (図はwolfram alphaから引用)
  26. 26. 概要 確率的バンディット問題とは 情報的複雑性とregret下限(性能上限) 確率的バンディット問題のアルゴリズム アルゴリズムのregret解析 26
  27. 27. バンディット問題のregret 基本的に2アーム (アーム1とアームi) だけ考えれ ばOK {アームiが選ばれる} = {アーム1が過小評価され る} or {アームiが過大評価される} 27 𝜇1 𝜇𝑖
  28. 28. バンディット問題のregret (続) 以下の構造はすべての最適なアルゴリズムで(おそら く)同一 アーム1はO(T)でサンプルされるので経験期待値が真の 期待値に近い→{アーム1が過小評価される}ことは少ない →𝑂 1 {アームiが過大評価される}イベントはアームiの経験期待 値が 𝜇1 ∼ 𝜇1に近づくかどうか→先ほどの情報複雑性に依 存 → log 𝑇 𝑑(𝜇 𝑖,𝜇1) + 𝑜(log 𝑇 ) 28
  29. 29. Thompson samplingのregret アームiが引かれるイベントを分解 𝐼𝑡 = 𝑖 ≤ 𝑁1 𝑡 ≤ 𝑡 𝑏 ∪ 𝜃1 ≤ 𝜇1 − Δ ∪ 𝜃𝑖 > 𝜇1 − Δ 29 アーム1が O(t)のペースで 引かれていない →𝑂 1 アームiを 過大評価 → (1+𝜖)log 𝑇 𝑑(𝜇 𝑖,𝜇1) + 𝑂( 1 𝜖2) (アーム1がO(t)で 引かれる仮定で) アーム1を 過小評価→𝑂 1 (Δはとても小さい値)
  30. 30. まとめ 確率的バンディット問題について解説した  Regret=最適でないアームを引いた回数でアルゴ リズムを評価  最適でないアームを引く回数の下限(理論上 限)は、情報複雑性によって決められる  UCB1はO(log 𝑇 )だが、最適ではない  DMED, KL-UCB, TSは最適(情報複雑性による下 限と一致するregret上限を持つ) 30

×