SIGIR2011読み会 3. Learning to Rank

3,924 views

Published on

SIGIR2011読み会の発表資料

0 Comments
7 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
3,924
On SlideShare
0
From Embeds
0
Number of Embeds
1,904
Actions
Shares
0
Downloads
30
Comments
0
Likes
7
Embeds 0
No embeds

No notes for slide

SIGIR2011読み会 3. Learning to Rank

  1. 1. 【SIGIR2011勉強会】Session 3: Learning to Rank 担当: 数原
  2. 2. Learning to rank 30秒解説 (1/2) 近代的な検索システムは多数のランキング素性を用いたラン キング関数の出力値で文書をソート クエリ・文書関連度 (クエリ依存) 1 (, ) e.g., BM25 クエリq ・ ・ ・ (, ) ランキング関数 T Φ(, ) +1 () 検索スコア e.g., PageRank ・ ・ ・ クエリqを含む () 文書d 文書の重要度 (クエリ非依存) = Φ(, ) 2
  3. 3. Learning to rank 30秒解説 (2/2) クエリ毎に作成された評価データなどを用いてランキング関 数を生成する技術 (= Learning to rank) Training 1 2 data 1 1 2 2 (1 , 1 ) (1 , 1 ) (1 , 1 ) 1 1 2 2 … (2 , 2 ) (2 , 2 ) (2 , 2 )Learning-to-rank … アルゴリズム 1 1 … … (1 , 1 ) 2 2 ( , ) (2 , 2 )ランキング関数 3
  4. 4. Session 3: Learning to Rank Bagging Gradient-Boosted Trees for High Precision, Low Variance Ranking Models  by Y. Ganjisaffar, R. Caruana, C. V. Lopes Learning to Rank for Freshness and Relevance  by N. Dai, M. Shokouhi, B. D. Davison A Cascade Ranking Model for Efficient Ranked Retrieval  by L. Wang, J. Lin, D. Metzler Relevant Knowledge Helps in Choosing Right Teacher: Active Query Selection for Ranking Adaptation  by P. Cai, W. Gao, A. Zhou, K.-F. Wong 4
  5. 5. Bagging Gradient-Boosted Trees for High Precision, Low Variance Ranking Models 5
  6. 6. Bagging Gradient-Boosted Trees for High Precision,Low Variance Ranking Models LambdaMARTの拡張であるBL-MARTの提案. 背景  以下の2つの要因を排除することで精度向上を目指す  vs. bias = boosting (LambdaMARTで実現)  vs. variance = bagging (今回の貢献) アプローチ  Baggingを行うことにより,varianceを抑える  パラメータの組み合わせを網羅的に探索  学習の工夫  sub-sample  random feature selection 6
  7. 7. 補足: Bagging と Bias/Variance  Bagging 1 検索スコア 2 学習アルゴリズム 1 (LambdaMART) … … =1  Bias / Variance bias大 / variance大 bias小 / variance大 bias大 / variance小 bias小 / variance小 7
  8. 8. 実験結果: 世界最高レベルの精度を達成8
  9. 9. Learning to Rank Freshness and Relevance 9
  10. 10. Learning to Rank Freshness and Relevance FreshnessとRelevanceについて最適化を行うランキング学習 アルゴリズムCS-DACを提案 背景  時事的なクエリは,検索結果の新鮮さ (freshness) が大切  ただ,freshnessは適合度 (relevance) とは独立した概念 アプローチ  FreshnessとRelevance の調和平均を混合ラベルとして利用  βパラメータは学習  この混合ラベルを用いて最適化することでFreshnessとRelevance に対して適切なモデル学習を実現  Temporal feature を利用  Divide-and-conquer ranking framework の利用 10
  11. 11. CS-DAC RankingSVM 入力クエリによって,ランキングモデルの重みを変更  機械学習における局所線形埋め込みのアイディア ただし,個々のランキングモデル (⋅)の目的関数(RankingSVMの改良) loss クエリと文書 (i.e., 文書ペア) に対して ヒンジ損失の傾きに対して重みを与えている 11
  12. 12. 実験結果 Freshness, Relevance両方の評価でベースラインを上回る 精度Freshness Relevance [Dai+ 11]より抜粋 12
  13. 13. A Cascade Ranking Model for Efficient Ranked Retrieval13
  14. 14. A Cascade Ranking Model for Efficient Ranked Retrieval ランキング処理を多段階のステージ処理で行うことによ り,高精度かつ高速なランキング関数を実現 背景  高精度なランキング関数のためには多数のランキング素性が 必要  計算コストが高い  精度と同時に効率 (速度) も最適化したい アプローチ  文書集合を減らしながら段階毎にランキング関数を適用  「精度(NDCG)」と「コスト(ランキング素性の計算にかかる時 間×ランキング対象の文書数)」を目的関数とした学習を行う 14
  15. 15. Cascade Ranking Model ステージ毎に文書群の pruning と ranking を行う [Wang+ 11]より抜粋 各ステージ は,枝刈り関数 ( ),ランキング関数 ,重み で構成される = , , 15
  16. 16. Relevant Knowledge Helps in Choosing Right Teacher: Active Query Selection for Ranking Adaptation16
  17. 17. Relevant Knowledge Helps in Choosing Right Teacher:Active Query Selection for Ranking Adaptation Domain adaption + Active learning 背景  評価データ作成はコストが高い  ソースドメインの訓練データとターゲットドメインの訓練データ が (少量) 与えられた場合に効率よく精度を上げる未評価の クエリの評価データを作成したい 使える訓練データをうまく活用 アプローチ (今回はクエリ単位で重みづけ)  Vote entropyを用いて手持ち訓練データ で生成されるランキング関数では不得意 なクエリを発見⇒評価付与  ソースドメインの訓練データはクエリ毎に 異なる重みを用いて学習 [Cai+ 11]より抜粋 17
  18. 18. RankingSVM for Ranking Adapation RankingSVMを改良  Query weighting による domain adaptation  事前パラメータ: , NDCG クエリに対する重み ⋅ + はヒンジ損失気持ち: ターゲットドメインの訓練データで学習したモデルのNDCGが高いクエリ⇒重み大 18
  19. 19. クエリ選択と学習アルゴリズム 生成したランキングモデル群 に対して最も一致しないクエリ を選択 vote entropyを利用 気持ち: ランキングモデルの予測が最も不一致の場合 にVE(q)は最大 (メンバーの半分が文書 を文書 より上位にランキ ングすると予測) [Cai+ 11]より抜粋19

×