SlideShare a Scribd company logo
海外カンファレンス報告
ランキング学習の現状
カムエラ ラウ (Kamuela Lau)
1
自己紹介
• ロンウイットに2017年12月入社
• LTR4L において LTR のアルゴリズムを実装
• ブログ
• https://jp.kamulau.com 

(English: en.kamulau.com)
• ツイッター: @kamu_lau
2
Agenda
• 海外カンファレンス
• Spark AI Summit Europe 2018
• Activate Search & AI
• LTR の現状
• リコメンデーション改善:Elsevier
• オートコンプリート:The Home Depot
• 検索改善:Bloomberg
3
Spark + AI Summit Europe 2018
4
Activate
5
LTR フレームワークのイメージ
学習データ
クエリa
Doc-a1
Doc-a2
Doc-a3
:
ランキング
・・・
クエリb
Doc-b1
Doc-b2
Doc-b3
:
ランキング
クエリN
Doc-N1
Doc-N2
Doc-N3
:
ランキング
モデルの学習
モ デ
ル
ランキング
システム
クエリX
Doc-X1’
Doc-X2’
Doc-X3’
:
ランキング
推定値
クエリX
Doc-X(0)
Doc-X(1)
Doc-X(2)
:
ランキング?
モデル
6
LTR ユースケースその①
7
LTR ユースケースその①
Elsevier
• Elsevier
• 医学・科学技術関係を中心とす
る世界最大規模の出版社
• ScienceDirect
• 1500万論文・記事
• 月数百万のユーザ
• 論文のリコメンデーション
改善にLTR を利用
Learning to Rank with Apache
Spark: A Case Study in Production
Machine Learning
8
LTR ユースケースその①
ScienceDirect のリコメンデーションエンジン
9
LTR ユースケースその①
LTR を利用するシステム
データ
前処理
(ダウンロード・
閲覧回数)
IBCF モデル
LTR
リランク
データ
前処理
(Popularity, Subject,
Text など)
訓練データ
(リコメンドの
クリック数)
LTR モデル
10
LTR ユースケースその①
協調フィルタリング(Collaborative Filtering, CF)
• Memory-based

Similarity (Cosine 距離など) で似たユーザ、またはアイテムを見つける
• User-based (User-item)
• “あなたへのおすすめ商品”
• Item-based (Item-item)
• “この商品を買った人はこんな商品を買っています”
• Model-based

機械学習を用いてCF モデルを構築
11
LTR ユースケースその①
IBCF のメリット、デメリット
メリット
• ダウンロード・閲覧履歴の
み使用
• 論文内容やユーザの個人
情報は不要
デメリット
• スパースデータの場合は
IBCF の精度が落ちる
• 圧倒的に人気のある論文が
勧められてしまうことがあ
る
12
LTR ユースケースその①
LTR を用いてリコメンデーションをリランク
• IBCF スコア
• 人気度
• テキスト
データ
前処理
(リコメンドの

クリック数)
訓練データ LTR モデル
• カテゴリ・サブジェクト
• 時間・日にちなどのデータ
• リコメンデーションによるア
クセス
論文についてのデータが沢山ある
13
LTR ユースケースその①
結果
• Offline (NDCG など) のモデル評価
• Online (A/B testing)による評価
• ユーザアクティビティを様々な手法で測定
• 全手法において 7∼10% 増加
14
LTR ユースケースその②
15
LTR ユースケースその②
The Home Depot
• The Home Depot
• アメリカに本社を置く住宅
リフォーム・建設資材・サー
ビスの小売チェーンである*
• ウェブサイトの検索語のオー
トコンプリート機能 (Type
Ahead Service)の改善に
LTR を利用
Apply Learning to Rank
in The Home Depot
Type Ahead Service
* Wikipedia より抜粋
16
LTR ユースケースその②
The Home Depot の Type Ahead Service
17
LTR ユースケースその②
LTR を利用するシステム
Click
Stream
Data
訓練データ
XGBoost
モデル
Lucene
インデックス
リランクさ
れた結果
データの
前処理
学習 リランク
18
LTR ユースケースその②
訓練データの構造
• 入力された文字、時間な
どの情報をクエリとする
• 検索語候補のリストが文
書リスト
• 正解はクリックデータに
基づく
19
LTR ユースケースその③
20
LTR ユースケースその③
Bloomberg
• Bloomberg
• 経済・金融情報の配信、通信
社・放送事業を手がけるアメ
リカ合衆国の大手総合情報サー
ビス会社。*
• 情報端末、Bloomberg ニュース
• 検索改善に LTR を利用
(News)
* Wikipedia より抜粋
21
LTR ユースケースその③
LTR を利用したシステム
クエリ インデックス 上位 k件
Commodities
News
People
など
訓練データ モデル
リランクされた
上位 k件
人手でラベル付与 学習
22
LTR ユースケースその③
LTR のデプロイまでの過程と結果
• 期待の結果を確認後、パフォーマンス向上
• ユーザの1割にたいして LTR モデルをデプロイ(試用)
• 異常がないことを確認後、全てのユーザに LTR モデルを
デプロイ
• 同時にウェブサイトの変更があったため、変化の測定が
難しかった
23
まとめ
• LTR は様々なユースケースがある
• リコメンデーションエンジンの改善
• オートコンプリートの改善
• 検索の改善
• など
24
ご静聴ありがとうございました
参考資料
• Spark + AI Summit Europe: https://databricks.com/sparkaisummit/europe/schedule
• Activate 2018: https://activate-conf.com/agenda/
• Learning to Rank with Apache Spark: A Case Study in Production Machine Learning with Adam Davidson and Anna Bladzich
• 資料と動画: https://databricks.com/session/learning-to-rank-with-apache-spark-a-case-study-in-production-machine-
learning
• Learning to Rank: From Theory to Production
• 資料: https://www.slideshare.net/lucidworks/learning-to-rank-from-theory-to-production-malvina-josephidou-diego-
ceccarelli-bloomberg
• 概要: https://sched.co/FkM6
• Apply Learning to Rank in The Home Depot Type Ahead Service
• 概要: https://sched.co/FkMQ
その他
• エンジニア・コンサルタント募集中
25

More Related Content

Similar to Learningtorank meetup-vol3-pt2

IMS/GLC 2015 東京セミナー報告とCaliper 1.0
IMS/GLC 2015 東京セミナー報告とCaliper 1.0IMS/GLC 2015 東京セミナー報告とCaliper 1.0
IMS/GLC 2015 東京セミナー報告とCaliper 1.0
Hiroshi Takase
 
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7
Kotaro Nakayama
 
データ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverlessデータ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverless
Shoji Shirotori
 
S06 t1 python学習奮闘記#4
S06 t1 python学習奮闘記#4S06 t1 python学習奮闘記#4
S06 t1 python学習奮闘記#4
Takeshi Akutsu
 
【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所
【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所
【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所
Kotaro Ogino
 
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
Recruit Lifestyle Co., Ltd.
 
Drupalを活用した Linked Open Dataの 実践的試行環境の構築
Drupalを活用した Linked Open Dataの実践的試行環境の構築Drupalを活用した Linked Open Dataの実践的試行環境の構築
Drupalを活用した Linked Open Dataの 実践的試行環境の構築
Takanori Hayashi
 
「速」を落とさないコードレビュー
「速」を落とさないコードレビュー「速」を落とさないコードレビュー
「速」を落とさないコードレビュー
Takafumi ONAKA
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
Tatsuya Tojima
 
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート
Ryoma Nagata
 
データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤
Google Cloud Platform - Japan
 
How to generate PowerPoint slides Non-manually using R
How to generate PowerPoint slides Non-manually using RHow to generate PowerPoint slides Non-manually using R
How to generate PowerPoint slides Non-manually using R
Satoshi Kato
 

Similar to Learningtorank meetup-vol3-pt2 (12)

IMS/GLC 2015 東京セミナー報告とCaliper 1.0
IMS/GLC 2015 東京セミナー報告とCaliper 1.0IMS/GLC 2015 東京セミナー報告とCaliper 1.0
IMS/GLC 2015 東京セミナー報告とCaliper 1.0
 
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7
JSAI's AI Tool Introduction - Deep Learning, Pylearn2 and Torch7
 
データ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverlessデータ分析基盤におけるOpsのためのDev with event driven + serverless
データ分析基盤におけるOpsのためのDev with event driven + serverless
 
S06 t1 python学習奮闘記#4
S06 t1 python学習奮闘記#4S06 t1 python学習奮闘記#4
S06 t1 python学習奮闘記#4
 
【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所
【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所
【JaSST'18 Tokai】アジャイルとテスト自動化導入の勘所
 
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
 
Drupalを活用した Linked Open Dataの 実践的試行環境の構築
Drupalを活用した Linked Open Dataの実践的試行環境の構築Drupalを活用した Linked Open Dataの実践的試行環境の構築
Drupalを活用した Linked Open Dataの 実践的試行環境の構築
 
「速」を落とさないコードレビュー
「速」を落とさないコードレビュー「速」を落とさないコードレビュー
「速」を落とさないコードレビュー
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
 
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート
 
データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤
 
How to generate PowerPoint slides Non-manually using R
How to generate PowerPoint slides Non-manually using RHow to generate PowerPoint slides Non-manually using R
How to generate PowerPoint slides Non-manually using R
 

Recently uploaded

iMacwoSu_Gong_de_barabaranishitaHua_.pptx
iMacwoSu_Gong_de_barabaranishitaHua_.pptxiMacwoSu_Gong_de_barabaranishitaHua_.pptx
iMacwoSu_Gong_de_barabaranishitaHua_.pptx
kitamisetagayaxxx
 
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
Osaka University
 
Kotest を使って 快適にテストを書こう - KotlinFest 2024
Kotest を使って 快適にテストを書こう - KotlinFest 2024Kotest を使って 快適にテストを書こう - KotlinFest 2024
Kotest を使って 快適にテストを書こう - KotlinFest 2024
Hirotaka Kawata
 
一般社団法人OSGeo日本支部団体紹介用スライド2024年版。OSGeo日本支部とFOSS4Gの紹介
一般社団法人OSGeo日本支部団体紹介用スライド2024年版。OSGeo日本支部とFOSS4Gの紹介一般社団法人OSGeo日本支部団体紹介用スライド2024年版。OSGeo日本支部とFOSS4Gの紹介
一般社団法人OSGeo日本支部団体紹介用スライド2024年版。OSGeo日本支部とFOSS4Gの紹介
OSgeo Japan
 
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
ARISE analytics
 
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
Seiya Shimabukuro
 
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
Yuki Miyazaki
 
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
Takuya Minagawa
 
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDDなぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
ssuserfcafd1
 
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
sugiuralab
 
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
Shinichi Hirauchi
 
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
Osaka University
 
実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日
実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日
実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日
Hideo Kashioka
 
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
iPride Co., Ltd.
 

Recently uploaded (14)

iMacwoSu_Gong_de_barabaranishitaHua_.pptx
iMacwoSu_Gong_de_barabaranishitaHua_.pptxiMacwoSu_Gong_de_barabaranishitaHua_.pptx
iMacwoSu_Gong_de_barabaranishitaHua_.pptx
 
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
 
Kotest を使って 快適にテストを書こう - KotlinFest 2024
Kotest を使って 快適にテストを書こう - KotlinFest 2024Kotest を使って 快適にテストを書こう - KotlinFest 2024
Kotest を使って 快適にテストを書こう - KotlinFest 2024
 
一般社団法人OSGeo日本支部団体紹介用スライド2024年版。OSGeo日本支部とFOSS4Gの紹介
一般社団法人OSGeo日本支部団体紹介用スライド2024年版。OSGeo日本支部とFOSS4Gの紹介一般社団法人OSGeo日本支部団体紹介用スライド2024年版。OSGeo日本支部とFOSS4Gの紹介
一般社団法人OSGeo日本支部団体紹介用スライド2024年版。OSGeo日本支部とFOSS4Gの紹介
 
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
 
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
 
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
 
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
 
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDDなぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
 
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
 
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
 
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
 
実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日
実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日
実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日
 
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
 

Learningtorank meetup-vol3-pt2