Coactive learning

Online Structured Prediction via
Coactive Learning
by Pannaga Shivaswamy, Thorsten Joachims

紹介者:望月駿一
2013/03/27

13年3月30日土曜日

1

概要

‣ ユーザのフィードバックにより学習精度を向上して
いく枠組みを提唱

‣ 凸な誤差関数と線形の効用関数を用いて，O(1/

T)

で誤差が減少することを示した

‣ 映画推薦と検索の2つのタスクでこの枠組みの有効
性を確かめた


2

背景
‣ ユーザがクエリを投入し，システムが結果を返し，
さらにユーザがクエリを投入するシステム

• Web検索，商品推薦，機械翻訳
クエリ

ユーザ


結果

システム(学習器)

3

背景
‣ まずユーザは検索文字列をクエリとして投入する

ユーザ



4

背景
‣ 評価関数の値が大きいオブジェクト（順位等）を返す

ユーザ



5

背景
‣ 表示後のユーザの選択からも再び情報を得られる

ユーザ



6

背景
‣ 正確ではないが，何らかのフィードバックが得られる

ユーザ



7

他の研究との関連
‣ フレームワークとして
• Multiarmed bandit (Auer+,2002)
• Learning with expert advice (Lugosi+,2006)
• Dueling bandits setting (Yue+,2009)

‣ 最適化問題として
• Online convex optimization (Zinkevich,2003)
• Online convex optimization in the bandit setting
(Flaxman+,2005)

‣ ランキングとして
• Ordinal regression (Crammer+,2001)
• Learning with pairs of example

8

Coactive Learning Model

‣ をクエリ(文字列等)，を返すオブ
ジェクト(検索結果等)とする．

‣ ユーザは結果に対する何らかの反応として，オブ
ジェクトを返す(順序変化，クリック等)

‣ ユーザが必ず正しい時，効用関数をUとすると

‣ Uがどんな関数であるかは良く分からない


9


‣ Uを最大にする最適なオブジェクト（ユーザが選べ
るとは限らない）

‣ 目標
• できるだけ早く最適なUの値に近いyを見つける

‣ 条件
• 合理的な検索をしてくれるユーザという設定
⇤
y
• 運用上やUを知る必要はない

10


‣ ユーザが返す情報の質を定量化する
• strictlyα-informative
• α-informative
• expected α-informative
‣ Px [yt |yt ]の確率でユーザがフィードバックを選ぶ
‣ たまに合理的でない挙動をするユーザも許容でき
t

るモデルになった


11

User Study

‣ 本当にユーザのフィードバックが結果に改善をも
たらすのか実験を行った

‣ 16人の院生に対して，10の質問を検索させた
‣ ユーザがクエリごとにクリックしたHPを上位に追
加した結果を y として返した
‣ 効果の測定にはDCG@10を用いた
‣ 関連度r(x,・)は五人の評価者によって,0∼5の値が
手作業で付けられ，それを正規化した値を用いた


12

User Study

‣ 改善前と後の差分で累積分布を調べた
‣ 改善後の方が有意に良い結果を示した
（p<0.0001）

‣ ０付近が多いのは，88％のフィードバックがy = y
であったため

‣ 初期の順位が与える影響を見るため，順位を入れ
替えた


13

Coactive Learning Algorithms

‣ Preference Perceptron

‣ 条件
• パラメタ
• x,yは構造を持つオブジェクト(ランク,クエリ等)
• Φは特徴空間への写像
• ただし


14


‣ 更新ごとの誤差の上限を示す
‣ ユーザからの情報がα-informativeな場合

‣ さらにstrictly α-informativeであれば，第一項が
消えO(1/ T) の誤差に抑えることができる．


15


‣ Algorithm1のUpdateとΦの条件より

‣ 再びAlgorithm1より


16


‣ コーシー・シュワルツの不等式より

‣ スラック変数を入れて,α-informativeの場合にも
拡張できる


17


‣ Expected α-informativeの場合も誤差上限を考
えることができる


18


‣ α-informativeの時と同様に証明できる

‣ イェンセンの不等式を


に対して使う

19

Experiments

‣ Yahoo!の検索データ(Chapelle+,2011)で実験
‣ ランキングを予測するため効用関数にDCG由来の
関数を定義

xq i :添字qのクエリに対する,i番目のURLの特徴量
y

‣ フィードバックが与えられる度に，この値を元に
ランキングをソートしなおす


20

Experiments

‣ 情報の質の差が誤差の減少に与える影響について
調べた

‣ システムよりURLのランキングyt が与えられると
する

‣ ユーザは上位5個のURLを知らされていて，それを
用いて現在のパラメタw*に対してα-informative
になるようなフィードバックを返す

‣ クエリの順番はユーザによってランダムに与える


21

Experiments

‣ 予想どおりα=1の方が良い結果になる

‣ しかし，定義では情報の質の格差は10倍のはずだ
が，結果にそこまでの差はない

‣ 思った以上にstrictly α-informativeのフィード
バックの条件が理想的すぎるのでは

‣ α=1だとフィードバックが最適解？

22

Experiments

‣ 次はリストのうちシステムが返してくるTop10し
か見ることが出来ないとする

‣ この中でユーザは上位５個のランクを並べて返す
‣ 条件が先ほどと異なるためα-informativeな状態
ではない

‣ Ranking SVMと比較
‣ 最初50ペアのデータが集まるまでハイパーパラメ

タCを100で固定，その後5-foldCVを行なって決
定する

‣ 以降，更新後，毎回学習はさせず10％データが増
えた時点でモデルの再学習を行う


23

Experiments

‣ ノイズが乗っているため誤差は収束しない
‣ ほとんどの回でPerceptronの方が良い結果
‣ Perceptronは一回の学習に30分かかるが，SVM
は20時間かかっていた


24

参考文献
•Auer, P., Cesa-Bianchi, N., and Fischer, P. Finite-time analysis of the
multiarmed bandit problem. Machine Learning, 47(2-3):235‒256, 2002a.

•Cesa-Bianchi, N. and Lugosi, G. Prediction, learning, and games. Cambridge
University Press, 2006.

•Chapelle, O. and Chang, Y. Yahoo! learning to rank challenge overview. JMLR Proceedings Track, 14:1‒ 24, 2011.

•Freund, Y., Iyer, R. D., Schapire, R. E., and Singer, Y. An eﬃcient boosting
algorithm for combining preferences. Journal of Machine Learning Research,
4:933‒969, 2003.

•Joachims, T., Granka, L., Pan, Bing, Hembrooke, H., Radlinski, F., and Gay, G.
Evaluating the accuracy of implicit feedback from clicks and query
reformulations in web search. ACM Transactions on Information Systems (TOIS),
25(2), April 2007.

•Yue, Y. and Joachims, T. Interactively optimizing information retrieval systems
as a dueling bandits problem. In ICML, 2009.


25

Coactive learning

More Related Content

Similar to Coactive learning

Coactive learning