NIPS 2012 読む会

2,182 views

Published on

Linear submodular bandits and their application to diversified retrieval

0 Comments
6 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,182
On SlideShare
0
From Embeds
0
Number of Embeds
23
Actions
Shares
0
Downloads
14
Comments
0
Likes
6
Embeds 0
No embeds

No notes for slide

NIPS 2012 読む会

  1. 1. 坪坂正志mail : m.tsubosaka(at)gmail(dot)com
  2. 2. 紹介論文 Linear submodular bandits and their application to diversified retrieval Yisong Yue, Carlos Guestrin (Carnegie Mellon University)
  3. 3. 問題 ニュース記事のレコメンドなどでユーザに 対して複数の記事を提示したい 提示結果はパーソナライズしたい
  4. 4. Challenge Diversification  なるべく同じ記事が並ばないようにしたい Feature-based exploration  ユーザに記事を提示して、その結果クリックさ れる/されないというフィードバックを受け取り、 そのユーザがスポーツに興味はあるけど政治に は興味がないなどの嗜好を効率的に学習したい
  5. 5. Diversification ニュース記事が𝑑個のトピック確率によって 表されるとする  例えば記事Aはスポーツ0.5, 芸能 0.5  記事Bは政治0.8, 経済0.2など Probabilistic coverage  トピック𝑖に関するcoverageを  𝐹𝑖 𝐴 = 1 − 𝑎∈𝐴(1 − 𝑃 𝑖 𝑎 )と定義する  たとえば提示した記事リストの中に𝑃 𝑖 𝑎 = 1と なるものが入っていれば、他の記事をどれだけ 追加したかに関わらず𝐹𝑖 𝑎 = 1
  6. 6. 評価関数 記事の集合𝐴に対して、ユーザに関しての評 価関数を 𝐹 𝐴 𝑤 = 𝑤 𝑇 𝐹1 𝐴 , … , 𝐹 𝑑 𝐴 (𝑤 ≥ 0) とする ここで𝑤はユーザがどのトピックを好むかを 表すベクトルである
  7. 7. Local Linearity 記事集合𝐴に対して、記事𝑎を追加した場合の利 得は𝑤 𝑇 Δ(𝑎|𝐴)で表されるΔ 𝑎 𝐴 = < 𝐹1 𝐴 ∪ 𝑎 − 𝐹1 𝐴 , … , 𝐹 𝑑 𝐴 ∪ 𝑎 − 𝐹 𝑑 𝐴 > ユーザの興味に合致したトピックでもすでに記事 集合に含まれてるものの利得は小さくなる
  8. 8. Optimization argmax 𝐴:𝐴≤ 𝐿 𝐹(𝐴|𝑤)を求めるここで𝐹にsubmodular性があることを使う と 𝑤 𝑇 Δ(𝑎|𝐴)が最大となるような記事𝑎を貪欲 1 に追加することで最適解の 1 − ≃ 0.63倍 𝑒 の解が達成できることが保証されている
  9. 9. Submodularとは 𝐹 𝐴 ∪ 𝑎 ≥ 𝐹 𝐴 かつ𝐴 ⊂ 𝐵のとき 𝐹 𝐴 ∪ 𝑎 − 𝐹 𝐴 ≥ 𝐹 𝐵 ∪ 𝑎 − 𝐹(𝐵) が成立するとき𝐹はSubmodular関数である と言う
  10. 10. Linear Submodular BanditsProblem 時刻𝑡 = 1, … , 𝑇まで以下の処理を行う アルゴリズムは記事の集合𝐴 𝑡 = (𝑎1 , … , 𝑎 𝑡𝐿 ) 𝑡 を選択する ユーザは記事集合に関して報酬(クリックす るor 無視する)𝑟 𝑡 (𝐴 𝑡 )を与える
  11. 11. 報酬モデル ユーザは記事を上から下に見ていく ユーザは𝑙番目の記事に関して、 確率 w ∗ T Δ(𝑎 𝑙 |𝐴1:𝑙−1 )に従ってクリックする 𝐿 報酬は和の形𝑟 𝑡 𝐴 = 𝑙=1 𝑟 𝑡𝑙 (𝐴)で表されるとす る このとき期待値は  𝐸 𝑟 𝑡𝑙 𝐴 = 𝑤 ∗ 𝑇 Δ(𝑎 𝑙 |𝐴1:𝑙−1 )
  12. 12. Regret 最適な集合の選択をした場合との実際の報 酬との差分 1 𝑅𝑒𝑔 𝑇 = 1− 𝑡 𝐸 𝑟 𝑡 𝐴∗𝑡 − 𝑡 𝑟 𝑡 (𝐴 𝑡 ) 𝑒 1 = 1− 𝑂𝑃𝑇 − 𝑡 𝑟 𝑡 (𝐴 𝑡 ) 𝑒 ∗ ここで最適な𝑤 が求まっても、集合の選択 1 を貪欲に行うと最適解の(1 − )倍までしか 𝑒 達成できないので最適解にかける
  13. 13. Algorithm
  14. 14. Algorithm データ対(Δ 𝑙𝜏 , 𝑟𝜏𝑙 )を使って線形回帰に より重みベクトル𝑤 𝑡 を計算する
  15. 15. Algorithm 𝑙番目の記事に関する期待利得と信頼区間を計 算する 信頼区間の上限の部分まで考えて記事を選択 する
  16. 16. Confidence interval 記事1 記事1の方が期待値は低いが信頼区間の 上限は大きいので記事1を選択 記事2 記事の利得の期待値だけではなく、信頼区 間の大きさも利用して記事を選択する  データが少ないものについては信頼区間が大き くなり、値が大きくなる (explore : 探索)  データが多いものについては期待値をそのまま 利用する
  17. 17. Theory logの項を無視するとRegretは𝑂(𝑑 𝑇𝐿)で抑 えられる
  18. 18. 他のBandit algorithmとの関係 特徴量を使わない場合  UCBなど  固定された記事(数個程度)において最もクリックされやす いものを探索する  cf. Finite-time analysis of the multiarmed bandit problem, Machine Learning 2002 特徴量を使うが1つだけ選択する場合  LinUCB  ユーザや記事の特徴量を用いて記事を選択する(新規記事 に対しても特徴量を使ってCTRを予測できる)  今回の論文では特徴量はトピックにあたる  cf. A contextual-bandit approach to personalized news article recommendation, WWW 2010
  19. 19. Experiment (Simulation) 正解の𝑤 ∗ が分かっているという状況でシ ミュレーションを行う Synthetic data  𝑑 = 25, 𝑤 ∗ はランダムに作成 Blog dataset  𝑑 = 100, 𝑤 ∗ は事前のユーザスタディにより決定
  20. 20. Competing method Multiplicative Weighting  explorationを行わない手法 RankLinUCB  𝐿個の独立なLinUCBを利用する ε-Greedy  確率εでランダムな記事を選択、そうでない場合 最もCTRの高い記事を選ぶ
  21. 21. Result (Simulation)
  22. 22. ユーザによる評価 2つのアルゴリズムの出力をInterleavingして どちらのアルゴリズムが好ましいか、ユー ザの評価から確認した  static baselineはパーソナライズを行わないもの になる
  23. 23. Interleaving algorithm
  24. 24. まとめ ユーザのフィードバックを受け取りながら Diversified retrievalを行うための一般的なフ レームワークを提案した 提案したアルゴリズムであるLSBGreedyが ユーザアンケートの結果ニュース記事のレ コメンドにおいては最も良い結果となった

×