SlideShare a Scribd company logo
海外カンファレンス報告
ランキング学習の現状
カムエラ ラウ (Kamuela Lau)
1
自己紹介
• ロンウイットに2017年12月入社
• LTR4L において LTR のアルゴリズムを実装
• ブログ
• https://jp.kamulau.com 

(English: en.kamulau.com)
• ツイッター: @kamu_lau
2
Agenda
• 海外カンファレンス
• Spark AI Summit Europe 2018
• Activate Search & AI
• LTR の現状
• リコメンデーション改善:Elsevier
• オートコンプリート:The Home Depot
• 検索改善:Bloomberg
3
Spark + AI Summit Europe 2018
4
Activate
5
LTR フレームワークのイメージ
学習データ
クエリa
Doc-a1
Doc-a2
Doc-a3
:
ランキング
・・・
クエリb
Doc-b1
Doc-b2
Doc-b3
:
ランキング
クエリN
Doc-N1
Doc-N2
Doc-N3
:
ランキング
モデルの学習
モ デ
ル
ランキング
システム
クエリX
Doc-X1’
Doc-X2’
Doc-X3’
:
ランキング
推定値
クエリX
Doc-X(0)
Doc-X(1)
Doc-X(2)
:
ランキング?
モデル
6
LTR ユースケースその①
7
LTR ユースケースその①
Elsevier
• Elsevier
• 医学・科学技術関係を中心とす
る世界最大規模の出版社
• ScienceDirect
• 1500万論文・記事
• 月数百万のユーザ
• 論文のリコメンデーション
改善にLTR を利用
Learning to Rank with Apache
Spark: A Case Study in Production
Machine Learning
8
LTR ユースケースその①
ScienceDirect のリコメンデーションエンジン
9
LTR ユースケースその①
LTR を利用するシステム
データ
前処理
(ダウンロード・
閲覧回数)
IBCF モデル
LTR
リランク
データ
前処理
(Popularity, Subject,
Text など)
訓練データ
(リコメンドの
クリック数)
LTR モデル
10
LTR ユースケースその①
協調フィルタリング(Collaborative Filtering, CF)
• Memory-based

Similarity (Cosine 距離など) で似たユーザ、またはアイテムを見つける
• User-based (User-item)
• “あなたへのおすすめ商品”
• Item-based (Item-item)
• “この商品を買った人はこんな商品を買っています”
• Model-based

機械学習を用いてCF モデルを構築
11
LTR ユースケースその①
IBCF のメリット、デメリット
メリット
• ダウンロード・閲覧履歴の
み使用
• 論文内容やユーザの個人
情報は不要
デメリット
• スパースデータの場合は
IBCF の精度が落ちる
• 圧倒的に人気のある論文が
勧められてしまうことがあ
る
12
LTR ユースケースその①
LTR を用いてリコメンデーションをリランク
• IBCF スコア
• 人気度
• テキスト
データ
前処理
(リコメンドの

クリック数)
訓練データ LTR モデル
• カテゴリ・サブジェクト
• 時間・日にちなどのデータ
• リコメンデーションによるア
クセス
論文についてのデータが沢山ある
13
LTR ユースケースその①
結果
• Offline (NDCG など) のモデル評価
• Online (A/B testing)による評価
• ユーザアクティビティを様々な手法で測定
• 全手法において 7∼10% 増加
14
LTR ユースケースその②
15
LTR ユースケースその②
The Home Depot
• The Home Depot
• アメリカに本社を置く住宅
リフォーム・建設資材・サー
ビスの小売チェーンである*
• ウェブサイトの検索語のオー
トコンプリート機能 (Type
Ahead Service)の改善に
LTR を利用
Apply Learning to Rank
in The Home Depot
Type Ahead Service
* Wikipedia より抜粋
16
LTR ユースケースその②
The Home Depot の Type Ahead Service
17
LTR ユースケースその②
LTR を利用するシステム
Click
Stream
Data
訓練データ
XGBoost
モデル
Lucene
インデックス
リランクさ
れた結果
データの
前処理
学習 リランク
18
LTR ユースケースその②
訓練データの構造
• 入力された文字、時間な
どの情報をクエリとする
• 検索語候補のリストが文
書リスト
• 正解はクリックデータに
基づく
19
LTR ユースケースその③
20
LTR ユースケースその③
Bloomberg
• Bloomberg
• 経済・金融情報の配信、通信
社・放送事業を手がけるアメ
リカ合衆国の大手総合情報サー
ビス会社。*
• 情報端末、Bloomberg ニュース
• 検索改善に LTR を利用
(News)
* Wikipedia より抜粋
21
LTR ユースケースその③
LTR を利用したシステム
クエリ インデックス 上位 k件
Commodities
News
People
など
訓練データ モデル
リランクされた
上位 k件
人手でラベル付与 学習
22
LTR ユースケースその③
LTR のデプロイまでの過程と結果
• 期待の結果を確認後、パフォーマンス向上
• ユーザの1割にたいして LTR モデルをデプロイ(試用)
• 異常がないことを確認後、全てのユーザに LTR モデルを
デプロイ
• 同時にウェブサイトの変更があったため、変化の測定が
難しかった
23
まとめ
• LTR は様々なユースケースがある
• リコメンデーションエンジンの改善
• オートコンプリートの改善
• 検索の改善
• など
24
ご静聴ありがとうございました
参考資料
• Spark + AI Summit Europe: https://databricks.com/sparkaisummit/europe/schedule
• Activate 2018: https://activate-conf.com/agenda/
• Learning to Rank with Apache Spark: A Case Study in Production Machine Learning with Adam Davidson and Anna Bladzich
• 資料と動画: https://databricks.com/session/learning-to-rank-with-apache-spark-a-case-study-in-production-machine-
learning
• Learning to Rank: From Theory to Production
• 資料: https://www.slideshare.net/lucidworks/learning-to-rank-from-theory-to-production-malvina-josephidou-diego-
ceccarelli-bloomberg
• 概要: https://sched.co/FkM6
• Apply Learning to Rank in The Home Depot Type Ahead Service
• 概要: https://sched.co/FkMQ
その他
• エンジニア・コンサルタント募集中
25

More Related Content

Similar to Learningtorank meetup-vol3-pt2

IMS/GLC 2015 東京セミナー報告とCaliper 1.0
IMS/GLC 2015 東京セミナー報告とCaliper 1.0IMS/GLC 2015 東京セミナー報告とCaliper 1.0
IMS/GLC 2015 東京セミナー報告とCaliper 1.0
Hiroshi Takase
 
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7
Kotaro Nakayama
 
データ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverlessデータ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverless
Shoji Shirotori
 
S06 t1 python学習奮闘記#4
S06 t1 python学習奮闘記#4S06 t1 python学習奮闘記#4
S06 t1 python学習奮闘記#4
Takeshi Akutsu
 
【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所
【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所
【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所
Kotaro Ogino
 
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
Recruit Lifestyle Co., Ltd.
 
Drupalを活用した Linked Open Dataの 実践的試行環境の構築
Drupalを活用した Linked Open Dataの実践的試行環境の構築Drupalを活用した Linked Open Dataの実践的試行環境の構築
Drupalを活用した Linked Open Dataの 実践的試行環境の構築
Takanori Hayashi
 
「速」を落とさないコードレビュー
「速」を落とさないコードレビュー「速」を落とさないコードレビュー
「速」を落とさないコードレビュー
Takafumi ONAKA
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
Tatsuya Tojima
 
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート
Ryoma Nagata
 
データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤
Google Cloud Platform - Japan
 
How to generate PowerPoint slides Non-manually using R
How to generate PowerPoint slides Non-manually using RHow to generate PowerPoint slides Non-manually using R
How to generate PowerPoint slides Non-manually using R
Satoshi Kato
 

Similar to Learningtorank meetup-vol3-pt2 (12)

IMS/GLC 2015 東京セミナー報告とCaliper 1.0
IMS/GLC 2015 東京セミナー報告とCaliper 1.0IMS/GLC 2015 東京セミナー報告とCaliper 1.0
IMS/GLC 2015 東京セミナー報告とCaliper 1.0
 
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7
 
データ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverlessデータ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverless
 
S06 t1 python学習奮闘記#4
S06 t1 python学習奮闘記#4S06 t1 python学習奮闘記#4
S06 t1 python学習奮闘記#4
 
【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所
【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所
【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所
 
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
 
Drupalを活用した Linked Open Dataの 実践的試行環境の構築
Drupalを活用した Linked Open Dataの実践的試行環境の構築Drupalを活用した Linked Open Dataの実践的試行環境の構築
Drupalを活用した Linked Open Dataの 実践的試行環境の構築
 
「速」を落とさないコードレビュー
「速」を落とさないコードレビュー「速」を落とさないコードレビュー
「速」を落とさないコードレビュー
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
 
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート
 
データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤
 
How to generate PowerPoint slides Non-manually using R
How to generate PowerPoint slides Non-manually using RHow to generate PowerPoint slides Non-manually using R
How to generate PowerPoint slides Non-manually using R
 

Recently uploaded

TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
0207sukipio
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
Yuuitirou528 default
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
t m
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 

Recently uploaded (8)

TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 

Learningtorank meetup-vol3-pt2