Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

learningtorank meetup-vol4-pt1

342 views

Published on

Summary of some sessions and papers presented at SIGIR 2019

Published in: Technology
  • Be the first to comment

  • Be the first to like this

learningtorank meetup-vol4-pt1

  1. 1. LTR 勉強会第4回 SIGIR 2019 カンファレンス報告 カムエラ ラウ (Kamuela Lau)
  2. 2. 自己紹介 • ロンウイットに2017年12月入社 • ランキング学習のフレームワーク(LTR4L)、新検索サービスの開発者 • トレーニングコース「Apache Spark によるスケーラブル深層学習」の開発者・講師 • LTR・機械学習系のコンサルティング
 • Georgia Institute of Technology に在学中(2019年8月に入学) • コンピュータサイエンス・機械学習特化修士課程 • 記事・ブログ • https://codezine.jp/author/1834 • https://jp.kamulau.com
 (English: https://en.kamulau.com) • ツイッター: @kamu_lau
  3. 3. Agenda • SIGIR 2019 の紹介 • Online Evaluation • A/B テスト • 評価手法の「感度」と「指向性度」 • Interleaving • 企業内メール検索用のドメイン適応 • ApproxNDCG (ランキング評価手法の近似) • passageの関連度と文書の関連度との関係
  4. 4. SIGIR 2019 の紹介
  5. 5. SIGIR とは • Special Interest Group on Information Retrieval の 略 • 毎年カンファレンス開催 • 情報検索の分野において最も重要なカンファ レンス
  6. 6. SIGIR 2019 • 2019年7月21日∼25日にパリで開催 • Cité des Sciences et de l’Industrie(シテ科学産 業博物館)
  7. 7. Online Evaluation
  8. 8. Online Evaluation
 チュートリアル • 初日に開催された1日の チュートリアル • ランキングモデルまたはイ ンタフェースの変更に対す る実験・評価方法
  9. 9. 新ランキングモデルのデプロイまでの流れ 新ランキング モデルを学習 オフラインで 評価 デプロイ中の モデルより精度は 上がったか オンライン テストを企画 全ユーザから テスト参加者 をサンプル 参加者に対して 新ランキング モデルを適用 分析・評価を 行う 統計学的に 有意差があり、評価 値は上がったか 図は元資料の Part 1 に基づいています 全ユーザに対し てモデルを適用
  10. 10. 評価手法の「感度」と「指向性度」 感度 (Sensitivity)
 評価手法の統計学的な有意差の測 りやすさ。
 感度が高いほど • 評価値の小差を測れる • より感度の低い手法に比べて、 同じ差を測るのに必要なユーザ 数が少ない • 変更が適用された後すぐに変わ る 指向性度 (directionality)
 評価手法の意味の明瞭さ。
 指向精度が高いほど • 結果の良さがわかる • 直接測りにくくなる
  11. 11. 変化を測るのに時間がかかる。 感度が低い
 
 評価値が上がると、その意味がはっきりしている。
 指向精度が高い すぐに変わる。 感度が高い 評価値が上がっても、意味が不明。 指向性度が低い 理想的で指向性度が高いが測りづらい 評価手法の「感度」と「指向性度」 の例 評価手法 • 各ユーザの満足度 • 各ユーザの発行クエリ数 • 各ユーザのクリック数 • 各クエリのクリック数 • 各ユーザのセッション数 • 各不在期間の長さ 例は参考文献 [1]に基づいています
  12. 12. Interleaving • 複数のランキングモデルの結果を混ぜ合わせ、ユーザに提供 • A/B テストで考慮できないユーザレベルのノイズを抑えられる • A/B テストで発生する UX の悪化をある程度避けられる デプロイ中のランキングモデル 実験中のランキングモデル 文書A 文書B 文書C 文書D 文書K 文書L 文書M 文書Z 文書Z 文書Y 文書X 文書W 文書J 文書H 文書G 文書A 文書A 文書Z 文書B 文書Y 文書C 文書X 文書D 文書W interleaving のランキング Interleaving の例
  13. 13. 企業内メール検索用の ドメイン適応
  14. 14. 企業内メール検索とドメイン適応 • メールを文書として扱う • コーパスが偏っているこ とが多い • それぞれのドメインに適 応できるモデルが望まし い • データが足りない ⇨ ドメイン適応 A BC 全企業内メールのデータの集合(ソースドメイン)
  15. 15. ソースデータセット ターゲット
 データセット 埋め込み空間 マッピング マッピング 予測モデル 訂正モデル
 (NNか統計学的手法) 学習損失 ニューラルネットワーク 企業内検索モデル 上記図は元論文の Figure 3 に基づいています
  16. 16. ApproxNDCG
 ランキング評価手法の近似
  17. 17. ポスターセッションの写真 ApproxNDCG
  18. 18. ランキング評価手法 ランキングの良さを評価する ための手法
 ランキング評価手法例 • AP (Average Precision) • MAP (Mean Average Precision) • MRR (Mean Reciprocal Rank) • DCG (Discounted Cumulative Gain) • NDCG (Normalized DCG) NDCGの計算式 ランクの計算式 ランクの計算式が微分不能・非連続のため、直接勾配降下法で最適解を求められない
  19. 19. ApproxNDCG の実験結果 参考文献 [3]より抜粋。
  20. 20. passageの関連度と文 書の関連度との関係
  21. 21. passage-level relevance • passage - 何かのルール・アルゴリズムにより分割された文書の一項目 • semantic - 内容に基づいた分割 [Ex: TextTiling] • window - 固定の単語数・バイト数などによる分割 • discourse - 文・段落・章などによる分割 参考文献 [4]より抜粋 passage の関連度と 文書の関連度との 関係を探るのが目的 他の passage と 独立した関連度と コンテキストで見た
 関連度がある
  22. 22. 実験のまとめ RQ1: 文書の関連度とそれに含まれるpassageの関連度の関係とは何か RQ2: 上記関係を用いて現在の文書ランキングの性能を上げられるか
 ① データセットの構築 • THUCNews という中国のニュースコーパス • クエリは中国の検索エンジンのログを使用 ② 関連度のラベル付与 • 4段階のラベル • 人手で付与する ③ 分布、集計、連続関連passage [sequence] による分析
  23. 23. 実験結果のまとめ 参考文献 [4] より抜粋 参考文献 [4] より抜粋
  24. 24. 参考文献 [1] Alexey Drutsa, Gleb Gusev, Eugene Kharitonov, Denis Kulemyakin, Pavel Serdyukov, and Igor Yashkov. 2019. Effective Online Evaluation for Web Search. In Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'19). ACM, New York, NY, USA, 1399-1400. DOI: https:// doi.org/10.1145/3331184.3331378 [2] Brandon Tran, Maryam Karimzadehgan, Rama Kumar Pasumarthi, Michael Bendersky, and Donald Metzler. 2019. Domain Adaptation for Enterprise Email Search. In Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'19). ACM, New York, NY, USA, 25-34. DOI: https:// doi.org/10.1145/3331184.3331204 [3] Sebastian Bruch, Masrour Zoghi, Michael Bendersky, and Marc Najork. 2019. Revisiting Approximate Metric Optimization in the Age of Deep Neural Networks. In Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'19). ACM, New York, NY, USA, 1241-1244. DOI: https://doi.org/10.1145/3331184.3331347 [4] Zhijing Wu, Jiaxin Mao, Yiqun Liu, Min Zhang, and Shaoping Ma. 2019. Investigating Passage-level Relevance and Its Role in Document-level Relevance Judgment. In Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'19). ACM, New York, NY, USA, 605-614. DOI: https:// doi.org/10.1145/3331184.3331233
  25. 25. ご静聴ありがとうございました

×