Advertisement

More Related Content

Advertisement

Learningtorank meetup-vol3-pt2

  1. 海外カンファレンス報告 ランキング学習の現状 カムエラ ラウ (Kamuela Lau) 1
  2. 自己紹介 • ロンウイットに2017年12月入社 • LTR4L において LTR のアルゴリズムを実装 • ブログ • https://jp.kamulau.com 
 (English: en.kamulau.com) • ツイッター: @kamu_lau 2
  3. Agenda • 海外カンファレンス • Spark AI Summit Europe 2018 • Activate Search & AI • LTR の現状 • リコメンデーション改善:Elsevier • オートコンプリート:The Home Depot • 検索改善:Bloomberg 3
  4. Spark + AI Summit Europe 2018 4
  5. Activate 5
  6. LTR フレームワークのイメージ 学習データ クエリa Doc-a1 Doc-a2 Doc-a3 : ランキング ・・・ クエリb Doc-b1 Doc-b2 Doc-b3 : ランキング クエリN Doc-N1 Doc-N2 Doc-N3 : ランキング モデルの学習 モ デ ル ランキング システム クエリX Doc-X1’ Doc-X2’ Doc-X3’ : ランキング 推定値 クエリX Doc-X(0) Doc-X(1) Doc-X(2) : ランキング? モデル 6
  7. LTR ユースケースその① 7
  8. LTR ユースケースその① Elsevier • Elsevier • 医学・科学技術関係を中心とす る世界最大規模の出版社 • ScienceDirect • 1500万論文・記事 • 月数百万のユーザ • 論文のリコメンデーション 改善にLTR を利用 Learning to Rank with Apache Spark: A Case Study in Production Machine Learning 8
  9. LTR ユースケースその① ScienceDirect のリコメンデーションエンジン 9
  10. LTR ユースケースその① LTR を利用するシステム データ 前処理 (ダウンロード・ 閲覧回数) IBCF モデル LTR リランク データ 前処理 (Popularity, Subject, Text など) 訓練データ (リコメンドの クリック数) LTR モデル 10
  11. LTR ユースケースその① 協調フィルタリング(Collaborative Filtering, CF) • Memory-based
 Similarity (Cosine 距離など) で似たユーザ、またはアイテムを見つける • User-based (User-item) • “あなたへのおすすめ商品” • Item-based (Item-item) • “この商品を買った人はこんな商品を買っています” • Model-based
 機械学習を用いてCF モデルを構築 11
  12. LTR ユースケースその① IBCF のメリット、デメリット メリット • ダウンロード・閲覧履歴の み使用 • 論文内容やユーザの個人 情報は不要 デメリット • スパースデータの場合は IBCF の精度が落ちる • 圧倒的に人気のある論文が 勧められてしまうことがあ る 12
  13. LTR ユースケースその① LTR を用いてリコメンデーションをリランク • IBCF スコア • 人気度 • テキスト データ 前処理 (リコメンドの
 クリック数) 訓練データ LTR モデル • カテゴリ・サブジェクト • 時間・日にちなどのデータ • リコメンデーションによるア クセス 論文についてのデータが沢山ある 13
  14. LTR ユースケースその① 結果 • Offline (NDCG など) のモデル評価 • Online (A/B testing)による評価 • ユーザアクティビティを様々な手法で測定 • 全手法において 7∼10% 増加 14
  15. LTR ユースケースその② 15
  16. LTR ユースケースその② The Home Depot • The Home Depot • アメリカに本社を置く住宅 リフォーム・建設資材・サー ビスの小売チェーンである* • ウェブサイトの検索語のオー トコンプリート機能 (Type Ahead Service)の改善に LTR を利用 Apply Learning to Rank in The Home Depot Type Ahead Service * Wikipedia より抜粋 16
  17. LTR ユースケースその② The Home Depot の Type Ahead Service 17
  18. LTR ユースケースその② LTR を利用するシステム Click Stream Data 訓練データ XGBoost モデル Lucene インデックス リランクさ れた結果 データの 前処理 学習 リランク 18
  19. LTR ユースケースその② 訓練データの構造 • 入力された文字、時間な どの情報をクエリとする • 検索語候補のリストが文 書リスト • 正解はクリックデータに 基づく 19
  20. LTR ユースケースその③ 20
  21. LTR ユースケースその③ Bloomberg • Bloomberg • 経済・金融情報の配信、通信 社・放送事業を手がけるアメ リカ合衆国の大手総合情報サー ビス会社。* • 情報端末、Bloomberg ニュース • 検索改善に LTR を利用 (News) * Wikipedia より抜粋 21
  22. LTR ユースケースその③ LTR を利用したシステム クエリ インデックス 上位 k件 Commodities News People など 訓練データ モデル リランクされた 上位 k件 人手でラベル付与 学習 22
  23. LTR ユースケースその③ LTR のデプロイまでの過程と結果 • 期待の結果を確認後、パフォーマンス向上 • ユーザの1割にたいして LTR モデルをデプロイ(試用) • 異常がないことを確認後、全てのユーザに LTR モデルを デプロイ • 同時にウェブサイトの変更があったため、変化の測定が 難しかった 23
  24. まとめ • LTR は様々なユースケースがある • リコメンデーションエンジンの改善 • オートコンプリートの改善 • 検索の改善 • など 24
  25. ご静聴ありがとうございました 参考資料 • Spark + AI Summit Europe: https://databricks.com/sparkaisummit/europe/schedule • Activate 2018: https://activate-conf.com/agenda/ • Learning to Rank with Apache Spark: A Case Study in Production Machine Learning with Adam Davidson and Anna Bladzich • 資料と動画: https://databricks.com/session/learning-to-rank-with-apache-spark-a-case-study-in-production-machine- learning • Learning to Rank: From Theory to Production • 資料: https://www.slideshare.net/lucidworks/learning-to-rank-from-theory-to-production-malvina-josephidou-diego- ceccarelli-bloomberg • 概要: https://sched.co/FkM6 • Apply Learning to Rank in The Home Depot Type Ahead Service • 概要: https://sched.co/FkMQ その他 • エンジニア・コンサルタント募集中 25
Advertisement