4. P4Lucene/Solr Revolution 2015
• Lucene/Solr分野の最大カンファレンス
• Lucene/Solrコミッターおよびエキスパートが多数参
加
• トレーニングとセッション
• スポンサー
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
5. P5Lucene/Solr Revolution 2015
• 今年はAustin, TX
• 10/13-16
• Austinヒルトンホテルで開催
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
6. P6注目セッションの一つ
• Learning to Rank in Solr
– Bloombergについて
• Michael Nilsson, Diego Ceccarelli
– Bloombergニュース検索の課題
• Machine learningの必要性
– Learning to Rankの説明
– Learning to Rank in Solrの説明
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
7. P7Bloombergについて
• Bloomberg ニュース
– 1日に800万のサーチ
– Index上に4億の記事
• Solrを選択した理由
– 大規模なコミュニティーと世界各地のコミッター
– Open Source Apache Projectであるため
– たくさんの実績
– 成長性
• コントリビュート
– バグ修正
– Solr4.5.0からほぼ毎回コントリビュート
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
9. P9Learning to Rankについて (1)
• Search パイプライン
商品
ニュース
人々
その他
User
Query
Index
Top-‐x
retrieval
Solr
Training
Data
Learning
Algorithm
Offline
Ranking
Model
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
10. P10Learning to Rankについて (2)
• Search パイプライン
商品
ニュース
人々
その他
User
Query
Index
Top-‐x
(1000)
retrieval
Solr
Top-‐k
(10)
reranked
Ranking
Model
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
11. P11Learning to Rankについて (3)
• Search パイプライン : Solr Integration
商品
ニュース
人々
その他
User
Query
Index
Top-‐x
(1000)
retrieval
Top-‐k
(10)
reranked
Ranking
Model
Solr
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
12. P12Learning to Rankについて (4)
• Training パイプライン(Offline)
商品
ニュース
人々
その他
Training
Query-‐
Document
Pairs
Index
Feature
Extrac5on
Learning
Algorithm
Ranking
Model
Metrics
Explicit
data
Implicit
data
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
13. P13Learning to Rankについて (5)
• Features
– データのインスタンスの測定可能な属性(アトリビュート)
– 数値化された特徴データ
• Feature Extraction
– 機械学習 特徴抽出
– データを端的に表現できるような特徴を見つけ出すための処
理
– Feature Extractor
• ドキュメントのIndexing時に既に決まるFeatureもあれば
• クエリで決まる属性もある
• クエリとドキュメントの関連から決まるFeatureもある
• 効果的な Feature をデザインするには、一般に知識と経験
が必要
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
14. P14Learning to Rankについて (6)
• Featuresの例
– 「APPL US」というクエリ結果の例
• Featuresの例 (数値化された特徴データ)
– Was the result a cofounder? à 0
– Does the document have an exec. position? -> 1
– Does the query match the document title -> 0
– Popularity -> 0.9
• https://en.wikipedia.org/wiki/Tim_Cook
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
15. P15Learning to Rankについて (7)
• その他Featuresの例
– if the query matches the title
– length of the document
– number of views
– how old is it?
– can be visualized on a mobile device?
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
16. P16Learning to Rankについて (8)
• Metrics (メトリクス)
– Ranking Modelに対する測定方法
• Offline Metrics (静的)
– Precision(適合率)/Recall(再現率)/F-Score
– nDCG
– その他
• Online Metrics
– CTR
– Time to first click
– 滞留時間
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
17. P17Learning to Rankについて (9)
• Learning to Rank
– Metricsを最適化するためのFeaturesの組み合わせを学
習する。
– Learning Algorithm
• RankSVM
• LambdaMART
• など
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
18. P18Learning to Rank in Solr (1): 前に紹介
• Search パイプライン : Solr Integration
商品
ニュース
人々
その他
User
Query
Index
Top-‐x
(1000)
retrieval
Top-‐k
(10)
reranked
Ranking
Model
Solr
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
19. P19Learning to Rank in Solr (2)
• LTR プラグイン
商品
ニュース
人々
その他
User
Query
Index
Top-‐x(1000件)
retrieval
Ranking
Model
Top-‐k(10件)
reranked
Solr Query
Matches
[10k]
Score
[10k]
LTR Query
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
20. P20Learning to Rank in Solr (3)
• Learning to Rank in Solr(LTR plugin)のゴール
– 手動でのチューニングをしない
• Machine learning使用
– リレバンシーの改善
– レイテンシ維持
• 既にあるSolr機能を使用
• データ転送量の軽減
– 使い易さ:Feature作成を容易
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
21. P21Learning to Rank in Solr (4)
• LTR プラグイン
– LTRQueryはSolrのRankQuery機能を拡張
• solrconfig.xml
• SolrのRerankリクエストのパラメーターを使用
rq={!ltr
model=myModel1
reRankDocs=100
efi.user_query=‘james’
efi.my_var=123}
<queryParser
name=“ltr”
class=“org.apache.solr.ltr.ranking.LTRQParserPlugin”
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
22. P22Learning to Rank in Solr (5)
• Search パイプライン(Online)
商品
ニュース
人々
その他
User
Query
Index
Top-‐x(1000件)
retrieval
Ranking
Model
Top-‐k(10件)
reranked
Matches
[10k]
Score
[10k]
Feature
Extrac5on
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
23. P23Learning to Rank in Solr (6)
• Feature Extraction
– SolrのTransformerFactoryを使用
– 各ドキュメントにカスタムフィールドを返す
• fl = *,[fv]
{
“name”:”Tim Cook”,
“primary_position”: “ceo”,
“category” : “person”,
…
“[fv]”:”isCofounder:0.0, isPersonAndExecutive:
1.0,matchedTitle:0.0, popularity:0.9”
}
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
24. P24Learning to Rank in Solr (7)
• Featuresの例
– 「APPL US」というクエリ結果の例
• Featuresの例 (数値化された特徴データ)
– Was the result a cofounder? à 0
– Does the document have an exec. position? -> 1
– Does the query match the document title -> 0
– Popularity -> 0.9
• https://en.wikipedia.org/wiki/Tim_Cook
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
25. P25Learning to Rank in Solr (8)
• Modelの例
{
“type”:
“org.apache.solr.ltr.ranking.LambdaMARTModel”,
“name”:”myModel1”,
“features”:[
{“name”:
“matchedTitle”},
{“name”:
“isPersonAndExecu5ve”}
},
“params”:
{
“trees”:
[
{
“weight”:1,
“tree”:{
“feature”:”matchedTitle”,
“threshold”:0.5,
“led”:
{“value”:-‐100},
“right”:{
“feature”:”isPersonAndExecu5ve”,
“threshold”:0.5,
“led”:{“value”:50},
“right”:{“value”:75}
}
}
]
}
}
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
26. P26Learning to Rank in Solr (9)
• Modelの例
matchedTitle
isPersonAndExecutiveValue: -100
Value: 50 Value: 75
Threshold:0.5
Threshold:0.5
{
“name”:”Tim Cook”,
“primary_position”: “ceo”,
“category” : “person”,
…
“[fv]”:”isCofounder:0.0,
isPersonAndExecutive:1.0,matchedTitle:0.0,
popularity:0.9”
}
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
27. P27Learning to Rank in Solr (10)
• Feature & Model
– Solr Managed Resourceに登録
– FeatureStore
• Featureデプロイ
• curl –XPUT ‘http://yoursolrserver/solr/collection/config/
fstore’ –data-binary @./features.json –H ‘Content-
type:application/json’
– ModelStore
• Modelデプロイ
• curl –XPUT ‘http://yoursolrserver/solr/collection/config/
mstore’ –data-binary @./model.json –H ‘Content-
type:application/json’
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
28. P28Learning to Rank in Solr (11)
• LTR 評価
– Offline Metrics
• nDCG 10% 向上
– Online Metrics
• Clicks @ 1 up 10%
– Performance
• 条件
– 1000万ドキュメント
– 10万クエリ
– 1k Features
– 1k ドキュメント/クエリ がrerankされる
• 結果
– 30%処理時間の向上 (以前のランキングシステムより)
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
29. P29Learning to Rank in Solr (12)
• LTR プラグイン利点
– コンパイルをせずにFeatureエンジ二アリングが可能
– FeatureExtractionにSolrの豊富なサーチ機能を使用
– リレバンシー改善
– リレバンシーチューニングの自動化
– パフォーマンス改善
• 今後
– LTR プラグインのOpenSource化
– ReRankingモデルのマルチ対応
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
30. P30Learning to Rank in Solr (13)
• 公開スライド:
http://www.slideshare.net/lucidworks/learning-to-rank-in-
solr-presented-by-michael-nilsson-diego-ceccarelli-
bloomberg-lp
• LTRプラグインのOSS公開予定(近日中)
• 他のセッションと同様に動画もアップロードされる予定
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
31. P31その他
• その他のセッションについて
– Solr & Spark for Real-Time Big Data Analytics – Timothy Potter
– Solr Distributed Indexing in WalmartLabs – Shengua Wan (Walmart)
– Building Smarter Search Apps using built-in Knowledge Graphs and Query Introspection – Ted
Sullivan (Lucidworks)
– “Distributed Search in Riak: Integrating search in a NoSQL database” – Fred Dushin (Basho)
– How to Build a Smart Search Engine with Intent Detection – Rama Yannam, Viju
Kothuvatiparambil (Bank of America)
– Leveraging Lucene/Solr as a Knowledge Graph and Intent Engine: Presented by Trey
Grainger(CareerBuilder.com)
– “When you have to be relevant” – Tom Burgmans
– Building a real-time news search engine – Ramkumar Aiyengar (Bloomberg)
– Implementing Conceptional Search in Solr using LSA and Word2Vec – Simon Hughes (Dice.com)
– Real-time Analytics with Solr – Yonik Seeley(Cloudera)
– Understandin the Solr Security Framework – Anshum Gupta(IBM Watson)
– Faceting optimization for Solr – Toke Eskildsen (State and University Library, Denmark)
• http://www.slideshare.net/lucidworks?
mkt_tok=3RkMMJWWfF9wsRohu6rKZKXonjHpfsX67%2B0sWKG3lMI
%2F0ER3fOvrPUfGjI4ESMRkI%2BSLDwEYGJlv6SgFT7fMMapt1rgEWRY%3D
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
32. P32その他
• Solrの今後(In the next 2 Years)
– Big Changes
• Lucene/Solr Committerが今後2年で期待する大きな変化
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
33. P33その他
• Solrの今後(In the next 2 Years)
– Big Changes
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
34. P34その他
• Solrの今後(In the next 2 Years)
– Deployment1 & Deployment2
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止
35. P35その他
• Solrの今後(In the next 2 Years)
– Deployment1
• Rack awareness(Grant)
• More Instance roles (Ram)
• “Smart” cluster management based on size, load & machine health
(Hoss)
• Intelligence with elasticity (Ram)
• Streamlined metrics support (Ram)
– Deployment2
• Scalability (Noble, Anshum, Grant)
• Robust multi-tenancy (Shalin)
• Multi-DataCenter (Hoss, Shalin)
• Shipped base bones with utilities to install 3rd party plugin(Erik)
• SolrCloud becoming the only way to run Solr (Varun)
Copyright
(C)
2015
Yahoo
Japan
Corpora5on.
All
Rights
Reserved.
無断引用・転載禁止