Online Structured Prediction via
Coactive Learning
by Pannaga Shivaswamy, Thorsten Joachims

紹介者:望月駿一
2013/03/27

13年3月30日...
概要

‣ ユーザのフィードバックにより学習精度を向上して
いく枠組みを提唱

‣ 凸な誤差関数と線形の効用関数を用いて,O(1/

T)

で誤差が減少することを示した

‣ 映画推薦と検索の2つのタスクでこの枠組みの有効
性を確かめた

1...
背景
‣ ユーザがクエリを投入し,システムが結果を返し,
さらにユーザがクエリを投入するシステム

• Web検索,商品推薦,機械翻訳
クエリ

ユーザ

13年3月30日土曜日

結果

システム(学習器)

3
背景
‣ まずユーザは検索文字列をクエリとして投入する

ユーザ

13年3月30日土曜日

システム(学習器)

4
背景
‣ 評価関数の値が大きいオブジェクト(順位等)を返す

ユーザ

13年3月30日土曜日

システム(学習器)

5
背景
‣ 表示後のユーザの選択からも再び情報を得られる

ユーザ

13年3月30日土曜日

システム(学習器)

6
背景
‣ 正確ではないが,何らかのフィードバックが得られる

ユーザ

13年3月30日土曜日

システム(学習器)

7
他の研究との関連
‣ フレームワークとして
• Multiarmed bandit (Auer+,2002)
• Learning with expert advice (Lugosi+,2006)
• Dueling bandits sett...
Coactive Learning Model

‣     をクエリ(文字列等),    を返すオブ
ジェクト(検索結果等)とする.

‣ ユーザは結果に対する何らかの反応として,オブ
ジェクトを返す(順序変化,クリック等)

‣ ユーザが必...
Coactive Learning Model

‣ Uを最大にする最適なオブジェクト(ユーザが選べ
るとは限らない)

‣ 目標
• できるだけ早く最適なUの値に近いyを見つける

‣ 条件
• 合理的な検索をしてくれるユーザという設定
⇤
...
Coactive Learning Model

‣ ユーザが返す情報の質を定量化する
• strictlyα-informative
• α-informative
• expected α-informative
‣ Px [yt |yt ...
User Study

‣ 本当にユーザのフィードバックが結果に改善をも
たらすのか実験を行った

‣ 16人の院生に対して,10の質問を検索させた
‣ ユーザがクエリごとにクリックしたHPを上位に追
加した結果を y として返した
‣ 効果の...
User Study

‣ 改善前と後の差分で累積分布を調べた
‣ 改善後の方が有意に良い結果を示した
(p<0.0001)

‣ 0付近が多いのは,88%のフィードバックがy = y
であったため

‣ 初期の順位が与える影響を見るため,順位...
Coactive Learning Algorithms

‣ Preference Perceptron

‣ 条件
• パラメタ
• x,yは構造を持つオブジェクト(ランク,クエリ等)
• Φは特徴空間への写像
• ただし

13年3月30...
Coactive Learning Algorithms

‣ 更新ごとの誤差の上限を示す
‣ ユーザからの情報がα-informativeな場合

‣ さらにstrictly α-informativeであれば,第一項が
消えO(1/ T) ...
Coactive Learning Algorithms

‣ Algorithm1のUpdateとΦの条件より

‣ 再びAlgorithm1より

13年3月30日土曜日

16
Coactive Learning Algorithms

‣ コーシー・シュワルツの不等式より

‣ スラック変数を入れて,α-informativeの場合にも 
拡張できる

13年3月30日土曜日

17
Coactive Learning Algorithms

‣ Expected α-informativeの場合も誤差上限を考
えることができる

13年3月30日土曜日

18
Coactive Learning Algorithms

‣ α-informativeの時と同様に証明できる

‣ イェンセンの不等式を

13年3月30日土曜日

に対して使う

19
Experiments

‣ Yahoo!の検索データ(Chapelle+,2011)で実験
‣ ランキングを予測するため効用関数にDCG由来の
関数を定義

xq i :添字qのクエリに対する,i番目のURLの特徴量
y

‣ フィードバック...
Experiments

‣ 情報の質の差が誤差の減少に与える影響について
調べた

‣ システムよりURLのランキングyt が与えられると
する

‣ ユーザは上位5個のURLを知らされていて,それを
用いて現在のパラメタw*に対してα-in...
Experiments

‣ 予想どおりα=1の方が良い結果になる

‣ しかし,定義では情報の質の格差は10倍のはずだ
が,結果にそこまでの差はない

‣ 思った以上にstrictly α-informativeのフィード
バックの条件が理想...
Experiments

‣ 次はリストのうちシステムが返してくるTop10し
か見ることが出来ないとする

‣ この中でユーザは上位5個のランクを並べて返す
‣ 条件が先ほどと異なるためα-informativeな状態
ではない

‣ Ran...
Experiments

‣ ノイズが乗っているため誤差は収束しない
‣ ほとんどの回でPerceptronの方が良い結果
‣ Perceptronは一回の学習に30分かかるが,SVM
は20時間かかっていた

13年3月30日土曜日

24
参考文献
•Auer, P., Cesa-Bianchi, N., and Fischer, P. Finite-time analysis of the
multiarmed bandit problem. Machine Learning,...
Upcoming SlideShare
Loading in …5
×

Coactive learning

428 views
317 views

Published on

1 Comment
2 Likes
Statistics
Notes
No Downloads
Views
Total views
428
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
3
Comments
1
Likes
2
Embeds 0
No embeds

No notes for slide

Coactive learning

  1. 1. Online Structured Prediction via Coactive Learning by Pannaga Shivaswamy, Thorsten Joachims 紹介者:望月駿一 2013/03/27 13年3月30日土曜日 1
  2. 2. 概要 ‣ ユーザのフィードバックにより学習精度を向上して いく枠組みを提唱 ‣ 凸な誤差関数と線形の効用関数を用いて,O(1/ T) で誤差が減少することを示した ‣ 映画推薦と検索の2つのタスクでこの枠組みの有効 性を確かめた 13年3月30日土曜日 2
  3. 3. 背景 ‣ ユーザがクエリを投入し,システムが結果を返し, さらにユーザがクエリを投入するシステム • Web検索,商品推薦,機械翻訳 クエリ ユーザ 13年3月30日土曜日 結果 システム(学習器) 3
  4. 4. 背景 ‣ まずユーザは検索文字列をクエリとして投入する ユーザ 13年3月30日土曜日 システム(学習器) 4
  5. 5. 背景 ‣ 評価関数の値が大きいオブジェクト(順位等)を返す ユーザ 13年3月30日土曜日 システム(学習器) 5
  6. 6. 背景 ‣ 表示後のユーザの選択からも再び情報を得られる ユーザ 13年3月30日土曜日 システム(学習器) 6
  7. 7. 背景 ‣ 正確ではないが,何らかのフィードバックが得られる ユーザ 13年3月30日土曜日 システム(学習器) 7
  8. 8. 他の研究との関連 ‣ フレームワークとして • Multiarmed bandit (Auer+,2002) • Learning with expert advice (Lugosi+,2006) • Dueling bandits setting (Yue+,2009) ‣ 最適化問題として • Online convex optimization (Zinkevich,2003) • Online convex optimization in the bandit setting (Flaxman+,2005) ‣ ランキングとして • Ordinal regression (Crammer+,2001) • Learning with pairs of example 13年3月30日土曜日 8
  9. 9. Coactive Learning Model ‣     をクエリ(文字列等),    を返すオブ ジェクト(検索結果等)とする. ‣ ユーザは結果に対する何らかの反応として,オブ ジェクトを返す(順序変化,クリック等) ‣ ユーザが必ず正しい時,効用関数をUとすると ‣ Uがどんな関数であるかは良く分からない 13年3月30日土曜日 9
  10. 10. Coactive Learning Model ‣ Uを最大にする最適なオブジェクト(ユーザが選べ るとは限らない) ‣ 目標 • できるだけ早く最適なUの値に近いyを見つける ‣ 条件 • 合理的な検索をしてくれるユーザという設定 ⇤ y • 運用上 やUを知る必要はない 13年3月30日土曜日 10
  11. 11. Coactive Learning Model ‣ ユーザが返す情報の質を定量化する • strictlyα-informative • α-informative • expected α-informative ‣ Px [yt |yt ]の確率でユーザがフィードバックを選ぶ ‣ たまに合理的でない挙動をするユーザも許容でき t るモデルになった 13年3月30日土曜日 11
  12. 12. User Study ‣ 本当にユーザのフィードバックが結果に改善をも たらすのか実験を行った ‣ 16人の院生に対して,10の質問を検索させた ‣ ユーザがクエリごとにクリックしたHPを上位に追 加した結果を y として返した ‣ 効果の測定にはDCG@10を用いた ‣ 関連度r(x,・)は五人の評価者によって,0∼5の値が 手作業で付けられ,それを正規化した値を用いた 13年3月30日土曜日 12
  13. 13. User Study ‣ 改善前と後の差分で累積分布を調べた ‣ 改善後の方が有意に良い結果を示した (p<0.0001) ‣ 0付近が多いのは,88%のフィードバックがy = y であったため ‣ 初期の順位が与える影響を見るため,順位を入れ 替えた 13年3月30日土曜日 13
  14. 14. Coactive Learning Algorithms ‣ Preference Perceptron ‣ 条件 • パラメタ • x,yは構造を持つオブジェクト(ランク,クエリ等) • Φは特徴空間への写像 • ただし 13年3月30日土曜日 14
  15. 15. Coactive Learning Algorithms ‣ 更新ごとの誤差の上限を示す ‣ ユーザからの情報がα-informativeな場合 ‣ さらにstrictly α-informativeであれば,第一項が 消えO(1/ T) の誤差に抑えることができる. 13年3月30日土曜日 15
  16. 16. Coactive Learning Algorithms ‣ Algorithm1のUpdateとΦの条件より ‣ 再びAlgorithm1より 13年3月30日土曜日 16
  17. 17. Coactive Learning Algorithms ‣ コーシー・シュワルツの不等式より ‣ スラック変数を入れて,α-informativeの場合にも  拡張できる 13年3月30日土曜日 17
  18. 18. Coactive Learning Algorithms ‣ Expected α-informativeの場合も誤差上限を考 えることができる 13年3月30日土曜日 18
  19. 19. Coactive Learning Algorithms ‣ α-informativeの時と同様に証明できる ‣ イェンセンの不等式を 13年3月30日土曜日 に対して使う 19
  20. 20. Experiments ‣ Yahoo!の検索データ(Chapelle+,2011)で実験 ‣ ランキングを予測するため効用関数にDCG由来の 関数を定義 xq i :添字qのクエリに対する,i番目のURLの特徴量 y ‣ フィードバックが与えられる度に,この値を元に ランキングをソートしなおす 13年3月30日土曜日 20
  21. 21. Experiments ‣ 情報の質の差が誤差の減少に与える影響について 調べた ‣ システムよりURLのランキングyt が与えられると する ‣ ユーザは上位5個のURLを知らされていて,それを 用いて現在のパラメタw*に対してα-informative になるようなフィードバックを返す ‣ クエリの順番はユーザによってランダムに与える 13年3月30日土曜日 21
  22. 22. Experiments ‣ 予想どおりα=1の方が良い結果になる ‣ しかし,定義では情報の質の格差は10倍のはずだ が,結果にそこまでの差はない ‣ 思った以上にstrictly α-informativeのフィード バックの条件が理想的すぎるのでは ‣ α=1だとフィードバックが最適解? 13年3月30日土曜日 22
  23. 23. Experiments ‣ 次はリストのうちシステムが返してくるTop10し か見ることが出来ないとする ‣ この中でユーザは上位5個のランクを並べて返す ‣ 条件が先ほどと異なるためα-informativeな状態 ではない ‣ Ranking SVMと比較 ‣ 最初50ペアのデータが集まるまでハイパーパラメ タCを100で固定,その後5-foldCVを行なって決 定する ‣ 以降,更新後,毎回学習はさせず10%データが増 えた時点でモデルの再学習を行う 13年3月30日土曜日 23
  24. 24. Experiments ‣ ノイズが乗っているため誤差は収束しない ‣ ほとんどの回でPerceptronの方が良い結果 ‣ Perceptronは一回の学習に30分かかるが,SVM は20時間かかっていた 13年3月30日土曜日 24
  25. 25. 参考文献 •Auer, P., Cesa-Bianchi, N., and Fischer, P. Finite-time analysis of the multiarmed bandit problem. Machine Learning, 47(2-3):235‒256, 2002a. •Cesa-Bianchi, N. and Lugosi, G. Prediction, learning, and games. Cambridge University Press, 2006. •Chapelle, O. and Chang, Y. Yahoo! learning to rank challenge overview. JMLR Proceedings Track, 14:1‒ 24, 2011. •Freund, Y., Iyer, R. D., Schapire, R. E., and Singer, Y. An efficient boosting algorithm for combining preferences. Journal of Machine Learning Research, 4:933‒969, 2003. •Joachims, T., Granka, L., Pan, Bing, Hembrooke, H., Radlinski, F., and Gay, G. Evaluating the accuracy of implicit feedback from clicks and query reformulations in web search. ACM Transactions on Information Systems (TOIS), 25(2), April 2007. •Yue, Y. and Joachims, T. Interactively optimizing infor- mation retrieval systems as a dueling bandits problem. In ICML, 2009. 13年3月30日土曜日 25

×