SlideShare a Scribd company logo
1 of 51
Download to read offline
Copyright(C)2014 Recruit Technologies Co.,Ltd All rights reserved
検索索基盤Qass  
⾼高林林  貴仁/@tatakaba
16/01/12
〜~  情報検索索の品質と『⾒見見る』検索索品質のハイブリッドエンジンの追求  〜~
ビックデータオールスターズ    
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
2
⾃自⼰己紹介
⾼高林林  貴仁  /  @tatakaba
2011  〜~  リクルート⼊入社
アプリケーションソリューショングループ
Ø 検索索基盤
Ø Hadoop基盤
Ø DWHとCEP
Ø R&D
2004  〜~  2011  ヤフージャパン株式会社
Ø 主に検索索システム担当
Ø web,地図,local検索索等
Ø WPO(Web  Performance  
Optimization)
プレミアムモルツ
⼤大好きです!
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
Whatʼ’s  Qass??
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
4
Whatʼ’s  Qass??
l   elasticsearchを軸とした検索索基盤
l   検索索をサポートする機能の提供(FE&BE)
ü   サジェスト
ü   スペラー
ü   関連検索索
ü   リライター
検索索品質、UXを担保する事で、
事業に貢献!!
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
5
Architecture
ビックデータ
を活⽤用した
フィードバッ
クシステム
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
6
ビックデータとQass
ログデータを活⽤用したデータ集計基盤
メトリクス/データ集計
indexing/ランキング/辞書
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
7
今⽇日のお話
検索索品質とランキング
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
情報検索索でいう検索索品質とは?
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
9
検索索とは
ユーザー求めるドキュメントを抽出
ドキュ
メント
ドキュ
メント
ドキュ
メント
全体のドキュメントから
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
10
極論論をいうと
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
11
「ユーザーの求めていたドキュメント」
のみを抽出する事が可能なら
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
12
最強の検索索エンジン
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
13
それは、無理理〜~
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
14
結果のズレがある
ドキュメント全体
ユーザーが求めていた
ドキュメント
システムの検索索結果
CB A
実際には・・・
要求に答えられた部分
適合率率率 再現率率率
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
15
情報検索索的にいうと
• ユーザーの本来求めていた情報が、
検索索結果に含まれていた割合A:再現率率率
• 検索索結果の内、ユーザーが本来求め
ていた結果が含まれる割合B:適合率率率
• 適合率率率と再現率率率の重み付き調和平
均F値
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
16
式で表現すると
適合率率率=
「検索索結果のドキュメント」数
「ユーザーの要求とシステムの結果が⼀一致した部分」のドキュメント数
F値  =
適合率率率
1
1
α +
再現率率率
1
(1  ー  α)
備考:α  =  割合
再現率率率=
「ユーザーの本来求めていたドキュメント」数
「ユーザーの要求とシステムの結果が⼀一致した部分」のドキュメント数
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
17
適合率率率と再現率率率
l 適合率率率を上げれば、再現率率率は下がる
ü   結果を厳選すれば、適合率率率は上がるが、取りこぼ
しが多くなる為、再現率率率は下がる
l 再現率率率を上げれば、適合率率率は下がる
ü   結果を多くすれば、再現率率率は上がるが、ノイズが
多くなる為、適合率率率は下がる
再現率率率と適合率率率は、システムでは
相反しあう傾向
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
18
品質を上げる施策
l 形態素辞書の拡充(新語、略略語、通称地名等)
l クエリ展開(spark  or  (spark    and  apache))
再現率率率の向上施策
l 正規化(髙  =>  ⾼高)
l 表記ゆれ(引っ越し、引越、引越し)
l 同義語・略略語(⽊木村拓拓哉  ==  キムタク)
適合率率率の向上施策
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
19
再現率率率と適合率率率の
バランス良良い⾼高さが重要
検索索品質とは
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
20
検索索品質が  よければいいと
思ってた・・・。
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
21
検索索品質だけじゃない
『領領域』もある・・・。
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
22
⾮非公開
とあるサイトの禁書⽬目録
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
23
とあるサイトのABテスト結果
ほぼ、有意差なし・・・\(^o^)/
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
24
リクルートの事業領領域
旅⾏行行
IT/トレンド
⽣生活/地域情報
グルメ・美容
ライフスタイル領領域 ライフイベント領領域
進学
就職
結婚
転職
住宅宅購⼊入
⾞車車購⼊入
出産/育児
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
25
ライフスタイルとライブイベント違い
ショッピング、飲⾷食など、決断が軽い。
ある程度度の⽬目安(キーワード)がある
ライフスタイル
ライフイベント
結婚、住宅宅購⼊入など、決断が慎重
⾊色々な結果を⾒見見⽐比べたい
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
26
⼈人⽣生の中で、重要なイベントは、
簡単には決められない事が多い。
悩む・・・
就活
結婚式場どこ
にしよう。
bB買おうかな。
転職したい・・
どんな家がい
いかな。
考えたり、悩んだり、後悔したくない!
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
28
ライフイベントにおける
新しい検索索体験
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
『⾒見見る』検索索品質とは?
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
30
欲しい(⾒見見たい)情報が離離散してる
ドキュメント全体
『⾒見見る』検索索とは
最終的に
決定する情報
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
31
何かに似てませんか?
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
32
32	
情報誌
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
33
情報誌と⾔言えば・・・
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
34
「まだ、ここにない、出会い」  by  リクルート
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
35
そこで、こんなアプローチ
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
36
l   編集者のKKDをモデル化
ü   KKD
ü   情報の整理理
ü ⼈人間味あるいい意味での偶発性
ü   確信を持ったノイズ
雑誌で表現した
ノウハウを検索索に
施策
(勘、経験、度度胸)
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
37
編集者のモデル化
編集者A
商材:A-‐‑‒>D
商材:D-‐‑‒>F
編集者B
商材:A-‐‑‒>C
商材:C-‐‑‒>F
編集者C
商材  :  A-‐‑‒>B
商材  :  B-‐‑‒>C
感性をモデル化して、ランキングに反映
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
38
検索索の品質領領域
旅⾏行行
IT/トレンド
⽣生活/地域情報
グルメ・美容
ライフスタイル領領域 ライフイベント領領域
進学
就職
結婚
転職
住宅宅購⼊入
⾞車車購⼊入
出産/育児
情報検索索の検索索品質 「⾒見見る」検索索品質
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
検索索ランキングの精度度
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
40
検索索結果(上位i件)のランキング順が、
「ユーザー求めたランキング」と、
どの程度度差があるか?
基本的な考え⽅方
NDCG
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
41
スコアリング
現実(DCG) 理理想(IDCG)
l   CTR、CVRなどをベースに理理想のランキングを⽣生成
ü   求めてるドキュメントを上位に
ü   求めてないドキュメントを下位に
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
42
NDCGとは
l   現実(DCG)と理理想(IDCG)の差
l   複数のクエリの平均が検索索システムの精度度
検索索結果は、関連性の⾼高い順に
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
43
Qassでのランキング例例
ランキングの作成に活⽤用
ü 複数の予測モデルを結合したスコア
l   wは各モデルの重要度度
ü   ジャンルごとの分布
l   xは各モデルの結果  (DBの値から)
ü   キーワードマッチ度度
ü   予測モデル
ü   ctrなどのスコア
質より量量!!
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
44
まとめ
l 情報検索索の品質
l 情報誌ならではのだら⾒見見の品質
l 最適なランキング
l ⾊色々な要素を利利⽤用したスコア付け
品質とズレを掛けあわせたハイブリッド検索索
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
45
品質とズレを掛けあわせたハイブリッド検索索基盤
は、⽬目指しています!
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
46
現在、@IT様のサイトで、
Qass基盤について連載中!
@it  qass
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
最後に
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
48
ちょっとだけ、Sparkのお話
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
49
エンジニアの欲求
Sparkを利利⽤用した
集計基盤にリプレ
イスしてます。
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
50
リプレイス内容
l   MapR1.2  =>  MapR4.1へ
l   Sparkを利利⽤用した機械学習
l   バッチからリアルタイムへ
l Spark-‐‑‒steaming
l Kafka
l elasticsearch-‐‑‒hadoop(storm&spark)
l   Drillを利利⽤用したアドホック集計?
リクルートテクノロジーズでも、Sparkを活⽤用した
事例例が増えてきてます。
Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved
ご清聴ありがとうございました!
リクルートテクノロジーズ

More Related Content

What's hot

React Hooksでカスタムフックをつくろう
React HooksでカスタムフックをつくろうReact Hooksでカスタムフックをつくろう
React HooksでカスタムフックをつくろうYoichi Toyota
 
正しいものを正しくつくる
正しいものを正しくつくる正しいものを正しくつくる
正しいものを正しくつくるtoshihiro ichitani
 
インフラエンジニアの綺麗で優しい手順書の書き方
インフラエンジニアの綺麗で優しい手順書の書き方インフラエンジニアの綺麗で優しい手順書の書き方
インフラエンジニアの綺麗で優しい手順書の書き方Shohei Koyama
 
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLiveDXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLiveTokoroten Nakayama
 
プロトタイピングとユーザビリティテストで「UXデザイン」を練りあげよう! | UXデザイン基礎セミナー 第4回
プロトタイピングとユーザビリティテストで「UXデザイン」を練りあげよう! | UXデザイン基礎セミナー 第4回プロトタイピングとユーザビリティテストで「UXデザイン」を練りあげよう! | UXデザイン基礎セミナー 第4回
プロトタイピングとユーザビリティテストで「UXデザイン」を練りあげよう! | UXデザイン基礎セミナー 第4回Yoshiki Hayama
 
ユーザーインタビューするときは、どうやらゾンビのおでましさ
ユーザーインタビューするときは、どうやらゾンビのおでましさユーザーインタビューするときは、どうやらゾンビのおでましさ
ユーザーインタビューするときは、どうやらゾンビのおでましさYoshiki Hayama
 
シリコンバレーの「何が」凄いのか
シリコンバレーの「何が」凄いのかシリコンバレーの「何が」凄いのか
シリコンバレーの「何が」凄いのかAtsushi Nakada
 
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019Tokoroten Nakayama
 
.NET最先端技術によるハイパフォーマンスウェブアプリケーション
.NET最先端技術によるハイパフォーマンスウェブアプリケーション.NET最先端技術によるハイパフォーマンスウェブアプリケーション
.NET最先端技術によるハイパフォーマンスウェブアプリケーションYoshifumi Kawai
 
ビズリーチの機械学習基盤
ビズリーチの機械学習基盤ビズリーチの機械学習基盤
ビズリーチの機械学習基盤Naoto Migita
 
アジャイル開発の中の設計
アジャイル開発の中の設計アジャイル開発の中の設計
アジャイル開発の中の設計Takuya Okamoto
 
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~Tetsuo Yamabe
 
マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!mosa siru
 
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptx
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptxネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptx
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptxShota Shinogi
 
エンジニアも知っておきたいAI倫理のはなし
エンジニアも知っておきたいAI倫理のはなしエンジニアも知っておきたいAI倫理のはなし
エンジニアも知っておきたいAI倫理のはなしYasunori Nihei
 
非ITの宿泊業なのに、なぜDXを推進できるのか?
非ITの宿泊業なのに、なぜDXを推進できるのか?非ITの宿泊業なのに、なぜDXを推進できるのか?
非ITの宿泊業なのに、なぜDXを推進できるのか?崇介 藤井
 
ソフトウェアテストの変遷と最近の品質管理の方向性
ソフトウェアテストの変遷と最近の品質管理の方向性ソフトウェアテストの変遷と最近の品質管理の方向性
ソフトウェアテストの変遷と最近の品質管理の方向性Keizo Tatsumi
 
え!?データがオンプレにあるけどPower BI で BI したいの?
え!?データがオンプレにあるけどPower BI で BI したいの?え!?データがオンプレにあるけどPower BI で BI したいの?
え!?データがオンプレにあるけどPower BI で BI したいの?Yugo Shimizu
 
Hatena::Letの式年遷宮
Hatena::Letの式年遷宮Hatena::Letの式年遷宮
Hatena::Letの式年遷宮Takafumi ONAKA
 
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤Amazon Web Services Japan
 

What's hot (20)

React Hooksでカスタムフックをつくろう
React HooksでカスタムフックをつくろうReact Hooksでカスタムフックをつくろう
React Hooksでカスタムフックをつくろう
 
正しいものを正しくつくる
正しいものを正しくつくる正しいものを正しくつくる
正しいものを正しくつくる
 
インフラエンジニアの綺麗で優しい手順書の書き方
インフラエンジニアの綺麗で優しい手順書の書き方インフラエンジニアの綺麗で優しい手順書の書き方
インフラエンジニアの綺麗で優しい手順書の書き方
 
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLiveDXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
 
プロトタイピングとユーザビリティテストで「UXデザイン」を練りあげよう! | UXデザイン基礎セミナー 第4回
プロトタイピングとユーザビリティテストで「UXデザイン」を練りあげよう! | UXデザイン基礎セミナー 第4回プロトタイピングとユーザビリティテストで「UXデザイン」を練りあげよう! | UXデザイン基礎セミナー 第4回
プロトタイピングとユーザビリティテストで「UXデザイン」を練りあげよう! | UXデザイン基礎セミナー 第4回
 
ユーザーインタビューするときは、どうやらゾンビのおでましさ
ユーザーインタビューするときは、どうやらゾンビのおでましさユーザーインタビューするときは、どうやらゾンビのおでましさ
ユーザーインタビューするときは、どうやらゾンビのおでましさ
 
シリコンバレーの「何が」凄いのか
シリコンバレーの「何が」凄いのかシリコンバレーの「何が」凄いのか
シリコンバレーの「何が」凄いのか
 
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
 
.NET最先端技術によるハイパフォーマンスウェブアプリケーション
.NET最先端技術によるハイパフォーマンスウェブアプリケーション.NET最先端技術によるハイパフォーマンスウェブアプリケーション
.NET最先端技術によるハイパフォーマンスウェブアプリケーション
 
ビズリーチの機械学習基盤
ビズリーチの機械学習基盤ビズリーチの機械学習基盤
ビズリーチの機械学習基盤
 
アジャイル開発の中の設計
アジャイル開発の中の設計アジャイル開発の中の設計
アジャイル開発の中の設計
 
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
スタディサプリを支えるデータ分析基盤 ~設計の勘所と利活用事例~
 
マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!マイクロにしすぎた結果がこれだよ!
マイクロにしすぎた結果がこれだよ!
 
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptx
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptxネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptx
ネットストーカー御用達OSINTツールBlackBirdを触ってみた.pptx
 
エンジニアも知っておきたいAI倫理のはなし
エンジニアも知っておきたいAI倫理のはなしエンジニアも知っておきたいAI倫理のはなし
エンジニアも知っておきたいAI倫理のはなし
 
非ITの宿泊業なのに、なぜDXを推進できるのか?
非ITの宿泊業なのに、なぜDXを推進できるのか?非ITの宿泊業なのに、なぜDXを推進できるのか?
非ITの宿泊業なのに、なぜDXを推進できるのか?
 
ソフトウェアテストの変遷と最近の品質管理の方向性
ソフトウェアテストの変遷と最近の品質管理の方向性ソフトウェアテストの変遷と最近の品質管理の方向性
ソフトウェアテストの変遷と最近の品質管理の方向性
 
え!?データがオンプレにあるけどPower BI で BI したいの?
え!?データがオンプレにあるけどPower BI で BI したいの?え!?データがオンプレにあるけどPower BI で BI したいの?
え!?データがオンプレにあるけどPower BI で BI したいの?
 
Hatena::Letの式年遷宮
Hatena::Letの式年遷宮Hatena::Letの式年遷宮
Hatena::Letの式年遷宮
 
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
 

Similar to 検索基盤Qass

キャリア入門講座【投影資料】
キャリア入門講座【投影資料】キャリア入門講座【投影資料】
キャリア入門講座【投影資料】Naturallink Maemoto
 
Ginzametrics リスティングとSEOの比較から見るキーワードマネジメントセミナー20140704
Ginzametrics リスティングとSEOの比較から見るキーワードマネジメントセミナー20140704Ginzametrics リスティングとSEOの比較から見るキーワードマネジメントセミナー20140704
Ginzametrics リスティングとSEOの比較から見るキーワードマネジメントセミナー20140704DemandSphere
 
[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...
[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...
[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...Deep Learning Lab(ディープラーニング・ラボ)
 
キャリアデザインセミナー【投影資料】
キャリアデザインセミナー【投影資料】キャリアデザインセミナー【投影資料】
キャリアデザインセミナー【投影資料】Naturallink Maemoto
 
20160425定期通販セミナー「商品企画&LP制作のイロハ」
20160425定期通販セミナー「商品企画&LP制作のイロハ」20160425定期通販セミナー「商品企画&LP制作のイロハ」
20160425定期通販セミナー「商品企画&LP制作のイロハ」真吾 大塚
 
採用単価を大幅に下げる、攻めのインバウンド採用戦略
採用単価を大幅に下げる、攻めのインバウンド採用戦略採用単価を大幅に下げる、攻めのインバウンド採用戦略
採用単価を大幅に下げる、攻めのインバウンド採用戦略Sonoko Tezuka
 
20141216 最適化を進化させるテスト設計とターゲティング ターゲティング編(抜粋)
20141216 最適化を進化させるテスト設計とターゲティング ターゲティング編(抜粋)20141216 最適化を進化させるテスト設計とターゲティング ターゲティング編(抜粋)
20141216 最適化を進化させるテスト設計とターゲティング ターゲティング編(抜粋)Keisuke Anzai
 
旅行業界データドリブンセミナー Ginzamarkets資料 20140804
旅行業界データドリブンセミナー Ginzamarkets資料 20140804旅行業界データドリブンセミナー Ginzamarkets資料 20140804
旅行業界データドリブンセミナー Ginzamarkets資料 20140804DemandSphere
 
両立を楽しむために【投影資料】
両立を楽しむために【投影資料】両立を楽しむために【投影資料】
両立を楽しむために【投影資料】Naturallink Maemoto
 
女性とリーダーシップ【投影資料】
女性とリーダーシップ【投影資料】女性とリーダーシップ【投影資料】
女性とリーダーシップ【投影資料】Naturallink Maemoto
 
周囲から応援されるリーダーシップ【投影資料】
周囲から応援されるリーダーシップ【投影資料】周囲から応援されるリーダーシップ【投影資料】
周囲から応援されるリーダーシップ【投影資料】Naturallink Maemoto
 
Developpers Summit2015 Autumn 講演資料
Developpers Summit2015 Autumn 講演資料Developpers Summit2015 Autumn 講演資料
Developpers Summit2015 Autumn 講演資料BrainPad Inc.
 
2014.10.7 女子シャインチアーズ【投影資料】
2014.10.7 女子シャインチアーズ【投影資料】2014.10.7 女子シャインチアーズ【投影資料】
2014.10.7 女子シャインチアーズ【投影資料】Naturallink Maemoto
 
あるある定番施策見直し Ginzamarkets資料 20140416
あるある定番施策見直し Ginzamarkets資料 20140416あるある定番施策見直し Ginzamarkets資料 20140416
あるある定番施策見直し Ginzamarkets資料 20140416DemandSphere
 
僕がいまRPAで伝えたいことのすべて
僕がいまRPAで伝えたいことのすべて僕がいまRPAで伝えたいことのすべて
僕がいまRPAで伝えたいことのすべてfalcs
 
本部長でもリモートで働ける!岐阜の城下町「郡上八幡」でテレワークしてみました。
本部長でもリモートで働ける!岐阜の城下町「郡上八幡」でテレワークしてみました。本部長でもリモートで働ける!岐阜の城下町「郡上八幡」でテレワークしてみました。
本部長でもリモートで働ける!岐阜の城下町「郡上八幡」でテレワークしてみました。Gaku Sato
 
コンテンツSEOセミナー_Ginzamarkets資料20141209
コンテンツSEOセミナー_Ginzamarkets資料20141209コンテンツSEOセミナー_Ginzamarkets資料20141209
コンテンツSEOセミナー_Ginzamarkets資料20141209DemandSphere
 
コンテンツSEOセミナー Ginzamarkets資料 20141209
コンテンツSEOセミナー Ginzamarkets資料 20141209コンテンツSEOセミナー Ginzamarkets資料 20141209
コンテンツSEOセミナー Ginzamarkets資料 20141209Chika Noguchi
 
すぐに着手できる、SEO改善ポイントについて(前編)
すぐに着手できる、SEO改善ポイントについて(前編)すぐに着手できる、SEO改善ポイントについて(前編)
すぐに着手できる、SEO改善ポイントについて(前編)ナイル株式会社
 
モデリングの彼方に未来を見た
モデリングの彼方に未来を見たモデリングの彼方に未来を見た
モデリングの彼方に未来を見たHagimoto Junzo
 

Similar to 検索基盤Qass (20)

キャリア入門講座【投影資料】
キャリア入門講座【投影資料】キャリア入門講座【投影資料】
キャリア入門講座【投影資料】
 
Ginzametrics リスティングとSEOの比較から見るキーワードマネジメントセミナー20140704
Ginzametrics リスティングとSEOの比較から見るキーワードマネジメントセミナー20140704Ginzametrics リスティングとSEOの比較から見るキーワードマネジメントセミナー20140704
Ginzametrics リスティングとSEOの比較から見るキーワードマネジメントセミナー20140704
 
[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...
[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...
[Track3-1] ビジネスで役立つAIリテラシーから機械学習エンジニアリングまで実践形式で学ぶ課題解決型AI人材育成とは?〜国内最大AIコンペサイトの...
 
キャリアデザインセミナー【投影資料】
キャリアデザインセミナー【投影資料】キャリアデザインセミナー【投影資料】
キャリアデザインセミナー【投影資料】
 
20160425定期通販セミナー「商品企画&LP制作のイロハ」
20160425定期通販セミナー「商品企画&LP制作のイロハ」20160425定期通販セミナー「商品企画&LP制作のイロハ」
20160425定期通販セミナー「商品企画&LP制作のイロハ」
 
採用単価を大幅に下げる、攻めのインバウンド採用戦略
採用単価を大幅に下げる、攻めのインバウンド採用戦略採用単価を大幅に下げる、攻めのインバウンド採用戦略
採用単価を大幅に下げる、攻めのインバウンド採用戦略
 
20141216 最適化を進化させるテスト設計とターゲティング ターゲティング編(抜粋)
20141216 最適化を進化させるテスト設計とターゲティング ターゲティング編(抜粋)20141216 最適化を進化させるテスト設計とターゲティング ターゲティング編(抜粋)
20141216 最適化を進化させるテスト設計とターゲティング ターゲティング編(抜粋)
 
旅行業界データドリブンセミナー Ginzamarkets資料 20140804
旅行業界データドリブンセミナー Ginzamarkets資料 20140804旅行業界データドリブンセミナー Ginzamarkets資料 20140804
旅行業界データドリブンセミナー Ginzamarkets資料 20140804
 
両立を楽しむために【投影資料】
両立を楽しむために【投影資料】両立を楽しむために【投影資料】
両立を楽しむために【投影資料】
 
女性とリーダーシップ【投影資料】
女性とリーダーシップ【投影資料】女性とリーダーシップ【投影資料】
女性とリーダーシップ【投影資料】
 
周囲から応援されるリーダーシップ【投影資料】
周囲から応援されるリーダーシップ【投影資料】周囲から応援されるリーダーシップ【投影資料】
周囲から応援されるリーダーシップ【投影資料】
 
Developpers Summit2015 Autumn 講演資料
Developpers Summit2015 Autumn 講演資料Developpers Summit2015 Autumn 講演資料
Developpers Summit2015 Autumn 講演資料
 
2014.10.7 女子シャインチアーズ【投影資料】
2014.10.7 女子シャインチアーズ【投影資料】2014.10.7 女子シャインチアーズ【投影資料】
2014.10.7 女子シャインチアーズ【投影資料】
 
あるある定番施策見直し Ginzamarkets資料 20140416
あるある定番施策見直し Ginzamarkets資料 20140416あるある定番施策見直し Ginzamarkets資料 20140416
あるある定番施策見直し Ginzamarkets資料 20140416
 
僕がいまRPAで伝えたいことのすべて
僕がいまRPAで伝えたいことのすべて僕がいまRPAで伝えたいことのすべて
僕がいまRPAで伝えたいことのすべて
 
本部長でもリモートで働ける!岐阜の城下町「郡上八幡」でテレワークしてみました。
本部長でもリモートで働ける!岐阜の城下町「郡上八幡」でテレワークしてみました。本部長でもリモートで働ける!岐阜の城下町「郡上八幡」でテレワークしてみました。
本部長でもリモートで働ける!岐阜の城下町「郡上八幡」でテレワークしてみました。
 
コンテンツSEOセミナー_Ginzamarkets資料20141209
コンテンツSEOセミナー_Ginzamarkets資料20141209コンテンツSEOセミナー_Ginzamarkets資料20141209
コンテンツSEOセミナー_Ginzamarkets資料20141209
 
コンテンツSEOセミナー Ginzamarkets資料 20141209
コンテンツSEOセミナー Ginzamarkets資料 20141209コンテンツSEOセミナー Ginzamarkets資料 20141209
コンテンツSEOセミナー Ginzamarkets資料 20141209
 
すぐに着手できる、SEO改善ポイントについて(前編)
すぐに着手できる、SEO改善ポイントについて(前編)すぐに着手できる、SEO改善ポイントについて(前編)
すぐに着手できる、SEO改善ポイントについて(前編)
 
モデリングの彼方に未来を見た
モデリングの彼方に未来を見たモデリングの彼方に未来を見た
モデリングの彼方に未来を見た
 

Recently uploaded

【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成Hiroshi Tomioka
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 

Recently uploaded (9)

【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 

検索基盤Qass

  • 1. Copyright(C)2014 Recruit Technologies Co.,Ltd All rights reserved 検索索基盤Qass   ⾼高林林  貴仁/@tatakaba 16/01/12 〜~  情報検索索の品質と『⾒見見る』検索索品質のハイブリッドエンジンの追求  〜~ ビックデータオールスターズ    
  • 2. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 2 ⾃自⼰己紹介 ⾼高林林  貴仁  /  @tatakaba 2011  〜~  リクルート⼊入社 アプリケーションソリューショングループ Ø 検索索基盤 Ø Hadoop基盤 Ø DWHとCEP Ø R&D 2004  〜~  2011  ヤフージャパン株式会社 Ø 主に検索索システム担当 Ø web,地図,local検索索等 Ø WPO(Web  Performance   Optimization) プレミアムモルツ ⼤大好きです!
  • 3. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved Whatʼ’s  Qass??
  • 4. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 4 Whatʼ’s  Qass?? l   elasticsearchを軸とした検索索基盤 l   検索索をサポートする機能の提供(FE&BE) ü   サジェスト ü   スペラー ü   関連検索索 ü   リライター 検索索品質、UXを担保する事で、 事業に貢献!!
  • 5. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 5 Architecture ビックデータ を活⽤用した フィードバッ クシステム
  • 6. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 6 ビックデータとQass ログデータを活⽤用したデータ集計基盤 メトリクス/データ集計 indexing/ランキング/辞書
  • 7. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 7 今⽇日のお話 検索索品質とランキング
  • 8. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 情報検索索でいう検索索品質とは?
  • 9. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 9 検索索とは ユーザー求めるドキュメントを抽出 ドキュ メント ドキュ メント ドキュ メント 全体のドキュメントから
  • 10. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 10 極論論をいうと
  • 11. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 11 「ユーザーの求めていたドキュメント」 のみを抽出する事が可能なら
  • 12. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 12 最強の検索索エンジン
  • 13. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 13 それは、無理理〜~
  • 14. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 14 結果のズレがある ドキュメント全体 ユーザーが求めていた ドキュメント システムの検索索結果 CB A 実際には・・・ 要求に答えられた部分 適合率率率 再現率率率
  • 15. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 15 情報検索索的にいうと • ユーザーの本来求めていた情報が、 検索索結果に含まれていた割合A:再現率率率 • 検索索結果の内、ユーザーが本来求め ていた結果が含まれる割合B:適合率率率 • 適合率率率と再現率率率の重み付き調和平 均F値
  • 16. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 16 式で表現すると 適合率率率= 「検索索結果のドキュメント」数 「ユーザーの要求とシステムの結果が⼀一致した部分」のドキュメント数 F値  = 適合率率率 1 1 α + 再現率率率 1 (1  ー  α) 備考:α  =  割合 再現率率率= 「ユーザーの本来求めていたドキュメント」数 「ユーザーの要求とシステムの結果が⼀一致した部分」のドキュメント数
  • 17. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 17 適合率率率と再現率率率 l 適合率率率を上げれば、再現率率率は下がる ü   結果を厳選すれば、適合率率率は上がるが、取りこぼ しが多くなる為、再現率率率は下がる l 再現率率率を上げれば、適合率率率は下がる ü   結果を多くすれば、再現率率率は上がるが、ノイズが 多くなる為、適合率率率は下がる 再現率率率と適合率率率は、システムでは 相反しあう傾向
  • 18. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 18 品質を上げる施策 l 形態素辞書の拡充(新語、略略語、通称地名等) l クエリ展開(spark  or  (spark    and  apache)) 再現率率率の向上施策 l 正規化(髙  =>  ⾼高) l 表記ゆれ(引っ越し、引越、引越し) l 同義語・略略語(⽊木村拓拓哉  ==  キムタク) 適合率率率の向上施策
  • 19. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 19 再現率率率と適合率率率の バランス良良い⾼高さが重要 検索索品質とは
  • 20. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 20 検索索品質が  よければいいと 思ってた・・・。
  • 21. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 21 検索索品質だけじゃない 『領領域』もある・・・。
  • 22. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 22 ⾮非公開 とあるサイトの禁書⽬目録
  • 23. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 23 とあるサイトのABテスト結果 ほぼ、有意差なし・・・\(^o^)/
  • 24. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 24 リクルートの事業領領域 旅⾏行行 IT/トレンド ⽣生活/地域情報 グルメ・美容 ライフスタイル領領域 ライフイベント領領域 進学 就職 結婚 転職 住宅宅購⼊入 ⾞車車購⼊入 出産/育児
  • 25. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 25 ライフスタイルとライブイベント違い ショッピング、飲⾷食など、決断が軽い。 ある程度度の⽬目安(キーワード)がある ライフスタイル ライフイベント 結婚、住宅宅購⼊入など、決断が慎重 ⾊色々な結果を⾒見見⽐比べたい
  • 26. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 26 ⼈人⽣生の中で、重要なイベントは、 簡単には決められない事が多い。 悩む・・・ 就活 結婚式場どこ にしよう。 bB買おうかな。 転職したい・・ どんな家がい いかな。
  • 28. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 28 ライフイベントにおける 新しい検索索体験
  • 29. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 『⾒見見る』検索索品質とは?
  • 30. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 30 欲しい(⾒見見たい)情報が離離散してる ドキュメント全体 『⾒見見る』検索索とは 最終的に 決定する情報
  • 31. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 31 何かに似てませんか?
  • 32. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 32 32 情報誌
  • 33. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 33 情報誌と⾔言えば・・・
  • 34. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 34 「まだ、ここにない、出会い」  by  リクルート
  • 35. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 35 そこで、こんなアプローチ
  • 36. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 36 l   編集者のKKDをモデル化 ü   KKD ü   情報の整理理 ü ⼈人間味あるいい意味での偶発性 ü   確信を持ったノイズ 雑誌で表現した ノウハウを検索索に 施策 (勘、経験、度度胸)
  • 37. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 37 編集者のモデル化 編集者A 商材:A-‐‑‒>D 商材:D-‐‑‒>F 編集者B 商材:A-‐‑‒>C 商材:C-‐‑‒>F 編集者C 商材  :  A-‐‑‒>B 商材  :  B-‐‑‒>C 感性をモデル化して、ランキングに反映
  • 38. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 38 検索索の品質領領域 旅⾏行行 IT/トレンド ⽣生活/地域情報 グルメ・美容 ライフスタイル領領域 ライフイベント領領域 進学 就職 結婚 転職 住宅宅購⼊入 ⾞車車購⼊入 出産/育児 情報検索索の検索索品質 「⾒見見る」検索索品質
  • 39. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 検索索ランキングの精度度
  • 40. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 40 検索索結果(上位i件)のランキング順が、 「ユーザー求めたランキング」と、 どの程度度差があるか? 基本的な考え⽅方 NDCG
  • 41. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 41 スコアリング 現実(DCG) 理理想(IDCG) l   CTR、CVRなどをベースに理理想のランキングを⽣生成 ü   求めてるドキュメントを上位に ü   求めてないドキュメントを下位に
  • 42. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 42 NDCGとは l   現実(DCG)と理理想(IDCG)の差 l   複数のクエリの平均が検索索システムの精度度 検索索結果は、関連性の⾼高い順に
  • 43. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 43 Qassでのランキング例例 ランキングの作成に活⽤用 ü 複数の予測モデルを結合したスコア l   wは各モデルの重要度度 ü   ジャンルごとの分布 l   xは各モデルの結果  (DBの値から) ü   キーワードマッチ度度 ü   予測モデル ü   ctrなどのスコア 質より量量!!
  • 44. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 44 まとめ l 情報検索索の品質 l 情報誌ならではのだら⾒見見の品質 l 最適なランキング l ⾊色々な要素を利利⽤用したスコア付け 品質とズレを掛けあわせたハイブリッド検索索
  • 45. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 45 品質とズレを掛けあわせたハイブリッド検索索基盤 は、⽬目指しています!
  • 46. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 46 現在、@IT様のサイトで、 Qass基盤について連載中! @it  qass
  • 47. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 最後に
  • 48. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 48 ちょっとだけ、Sparkのお話
  • 49. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 49 エンジニアの欲求 Sparkを利利⽤用した 集計基盤にリプレ イスしてます。
  • 50. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved 50 リプレイス内容 l   MapR1.2  =>  MapR4.1へ l   Sparkを利利⽤用した機械学習 l   バッチからリアルタイムへ l Spark-‐‑‒steaming l Kafka l elasticsearch-‐‑‒hadoop(storm&spark) l   Drillを利利⽤用したアドホック集計? リクルートテクノロジーズでも、Sparkを活⽤用した 事例例が増えてきてます。
  • 51. Copyright(C)2014  Recruit  Technologies  Co.,Ltd  All  rights  reserved ご清聴ありがとうございました! リクルートテクノロジーズ