• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
NIPS 2012 読む会
 

NIPS 2012 読む会

on

  • 1,622 views

Linear submodular bandits and their application to diversified retrieval

Linear submodular bandits and their application to diversified retrieval

Statistics

Views

Total Views
1,622
Views on SlideShare
1,615
Embed Views
7

Actions

Likes
4
Downloads
9
Comments
0

3 Embeds 7

http://a0.twimg.com 5
http://us-w1.rockmelt.com 1
https://si0.twimg.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    NIPS 2012 読む会 NIPS 2012 読む会 Presentation Transcript

    • 坪坂正志mail : m.tsubosaka(at)gmail(dot)com
    • 紹介論文 Linear submodular bandits and their application to diversified retrieval Yisong Yue, Carlos Guestrin (Carnegie Mellon University)
    • 問題 ニュース記事のレコメンドなどでユーザに 対して複数の記事を提示したい 提示結果はパーソナライズしたい
    • Challenge Diversification  なるべく同じ記事が並ばないようにしたい Feature-based exploration  ユーザに記事を提示して、その結果クリックさ れる/されないというフィードバックを受け取り、 そのユーザがスポーツに興味はあるけど政治に は興味がないなどの嗜好を効率的に学習したい
    • Diversification ニュース記事が𝑑個のトピック確率によって 表されるとする  例えば記事Aはスポーツ0.5, 芸能 0.5  記事Bは政治0.8, 経済0.2など Probabilistic coverage  トピック𝑖に関するcoverageを  𝐹𝑖 𝐴 = 1 − 𝑎∈𝐴(1 − 𝑃 𝑖 𝑎 )と定義する  たとえば提示した記事リストの中に𝑃 𝑖 𝑎 = 1と なるものが入っていれば、他の記事をどれだけ 追加したかに関わらず𝐹𝑖 𝑎 = 1
    • 評価関数 記事の集合𝐴に対して、ユーザに関しての評 価関数を 𝐹 𝐴 𝑤 = 𝑤 𝑇 𝐹1 𝐴 , … , 𝐹 𝑑 𝐴 (𝑤 ≥ 0) とする ここで𝑤はユーザがどのトピックを好むかを 表すベクトルである
    • Local Linearity 記事集合𝐴に対して、記事𝑎を追加した場合の利 得は𝑤 𝑇 Δ(𝑎|𝐴)で表されるΔ 𝑎 𝐴 = < 𝐹1 𝐴 ∪ 𝑎 − 𝐹1 𝐴 , … , 𝐹 𝑑 𝐴 ∪ 𝑎 − 𝐹 𝑑 𝐴 > ユーザの興味に合致したトピックでもすでに記事 集合に含まれてるものの利得は小さくなる
    • Optimization argmax 𝐴:𝐴≤ 𝐿 𝐹(𝐴|𝑤)を求めるここで𝐹にsubmodular性があることを使う と 𝑤 𝑇 Δ(𝑎|𝐴)が最大となるような記事𝑎を貪欲 1 に追加することで最適解の 1 − ≃ 0.63倍 𝑒 の解が達成できることが保証されている
    • Submodularとは 𝐹 𝐴 ∪ 𝑎 ≥ 𝐹 𝐴 かつ𝐴 ⊂ 𝐵のとき 𝐹 𝐴 ∪ 𝑎 − 𝐹 𝐴 ≥ 𝐹 𝐵 ∪ 𝑎 − 𝐹(𝐵) が成立するとき𝐹はSubmodular関数である と言う
    • Linear Submodular BanditsProblem 時刻𝑡 = 1, … , 𝑇まで以下の処理を行う アルゴリズムは記事の集合𝐴 𝑡 = (𝑎1 , … , 𝑎 𝑡𝐿 ) 𝑡 を選択する ユーザは記事集合に関して報酬(クリックす るor 無視する)𝑟 𝑡 (𝐴 𝑡 )を与える
    • 報酬モデル ユーザは記事を上から下に見ていく ユーザは𝑙番目の記事に関して、 確率 w ∗ T Δ(𝑎 𝑙 |𝐴1:𝑙−1 )に従ってクリックする 𝐿 報酬は和の形𝑟 𝑡 𝐴 = 𝑙=1 𝑟 𝑡𝑙 (𝐴)で表されるとす る このとき期待値は  𝐸 𝑟 𝑡𝑙 𝐴 = 𝑤 ∗ 𝑇 Δ(𝑎 𝑙 |𝐴1:𝑙−1 )
    • Regret 最適な集合の選択をした場合との実際の報 酬との差分 1 𝑅𝑒𝑔 𝑇 = 1− 𝑡 𝐸 𝑟 𝑡 𝐴∗𝑡 − 𝑡 𝑟 𝑡 (𝐴 𝑡 ) 𝑒 1 = 1− 𝑂𝑃𝑇 − 𝑡 𝑟 𝑡 (𝐴 𝑡 ) 𝑒 ∗ ここで最適な𝑤 が求まっても、集合の選択 1 を貪欲に行うと最適解の(1 − )倍までしか 𝑒 達成できないので最適解にかける
    • Algorithm
    • Algorithm データ対(Δ 𝑙𝜏 , 𝑟𝜏𝑙 )を使って線形回帰に より重みベクトル𝑤 𝑡 を計算する
    • Algorithm 𝑙番目の記事に関する期待利得と信頼区間を計 算する 信頼区間の上限の部分まで考えて記事を選択 する
    • Confidence interval 記事1 記事1の方が期待値は低いが信頼区間の 上限は大きいので記事1を選択 記事2 記事の利得の期待値だけではなく、信頼区 間の大きさも利用して記事を選択する  データが少ないものについては信頼区間が大き くなり、値が大きくなる (explore : 探索)  データが多いものについては期待値をそのまま 利用する
    • Theory logの項を無視するとRegretは𝑂(𝑑 𝑇𝐿)で抑 えられる
    • 他のBandit algorithmとの関係 特徴量を使わない場合  UCBなど  固定された記事(数個程度)において最もクリックされやす いものを探索する  cf. Finite-time analysis of the multiarmed bandit problem, Machine Learning 2002 特徴量を使うが1つだけ選択する場合  LinUCB  ユーザや記事の特徴量を用いて記事を選択する(新規記事 に対しても特徴量を使ってCTRを予測できる)  今回の論文では特徴量はトピックにあたる  cf. A contextual-bandit approach to personalized news article recommendation, WWW 2010
    • Experiment (Simulation) 正解の𝑤 ∗ が分かっているという状況でシ ミュレーションを行う Synthetic data  𝑑 = 25, 𝑤 ∗ はランダムに作成 Blog dataset  𝑑 = 100, 𝑤 ∗ は事前のユーザスタディにより決定
    • Competing method Multiplicative Weighting  explorationを行わない手法 RankLinUCB  𝐿個の独立なLinUCBを利用する ε-Greedy  確率εでランダムな記事を選択、そうでない場合 最もCTRの高い記事を選ぶ
    • Result (Simulation)
    • ユーザによる評価 2つのアルゴリズムの出力をInterleavingして どちらのアルゴリズムが好ましいか、ユー ザの評価から確認した  static baselineはパーソナライズを行わないもの になる
    • Interleaving algorithm
    • まとめ ユーザのフィードバックを受け取りながら Diversified retrievalを行うための一般的なフ レームワークを提案した 提案したアルゴリズムであるLSBGreedyが ユーザアンケートの結果ニュース記事のレ コメンドにおいては最も良い結果となった