Jubatusでオンラインランク学習2. 自己紹介
● Tagami Yukihiro
– 広告エンジニア
– 機械学習とか情報検索
– @y_tag
– github.com/y-tag
– www.kaggle.com/users/33499/y-tag
– d.hatena.ne.jp/y_tag/
13. データの形式
● 実際に用いるデータは主に以下の形式
– クエリのID
– クエリとアイテムから抽出された特徴量ベクトル
– ラベル(適合度)
(x1
(i)
, y1
(i)
)
(x2
(i)
, y2
(i)
)
⋮
(xn(i)
(i)
, yn(i)
(i)
)
q
(i)
q
(i)
x j
(i)
y j
(i)
(x1
(1)
, y1
(1)
)
(x2
(1)
, y2
(1)
)
⋮
(xn(1)
(1)
, yn(1)
(1)
)
q
(1)
⋯ ⋯
(x1
(m)
, y1
(m)
)
(x2
(m)
, y2
(m)
)
⋮
(xn(m)
(m)
, yn(m)
(m)
)
q
(m)
30. 現在の実装(学習)
● 一回の入力が一つのクエリに対応するとみなし、
与えられたリスト内でペアを作成して分類器で学習
● ペアデータに対するラベルはすべて”+”
(x1
(i)
, y1
(i)
=0)
(x2
(i)
, y2
(i)
=2)
(x3
(i)
, y3
(i)
=0)
(x4
(i)
, y4
(i)
=0)
(x5
(i)
, y5
(i)
=1)
(x2
(i)
−x1
(i)
,+)
(x2
(i)
−x3
(i)
,+)
(x2
(i)
−x4
(i)
,+)
(x2
(i)
−x5
(i)
,+)
(x2
(5)
−x1
(i)
,+)
(x5
(i)
−x3
(i)
,+)
(x5
(i)
−x4
(i)
,+)
これらのデータを用いて分類器を学習
ラベルの大小関係に
応じてペアを作成
33. 実験設定
● LETORのデータセットで実験
– OHSUMED, MQ2007, MQ2008
– research.microsoft.com/en-us/um/beijing/projects/letor/
● 今回の実装と既存のベースラインを比較
– PA, CW, AROW, NHERD vs. RankSVM
● 詳しい実験の設定と結果はここを参照
– d.hatena.ne.jp/y_tag/20130423/online_learning_to_rank
37. Reference
● Learning to Rank for Information Retrieval
– research.microsoft.com/en-
us/people/tyliu/learning_to_rank_tutorial_-_www_-_2008.pdf
● ランキング学習ことはじめ
– www.slideshare.net/sleepy_yoshi/dsirnlp1
● Large Scale Learning to Rank
– http://research.google.com/pubs/archive/35662.pdf