More Related Content Similar to ライフエンジンを支える検索エンジンの作り方
Similar to ライフエンジンを支える検索エンジンの作り方 (20) ライフエンジンを支える検索エンジンの作り方1. JAPAN INNOVATION LEADERS SUMMIT
ライフエンジンを⽀える
検索エンジンの作り⽅
Yahoo! JAPAN
R&D統括本部 プラットフォーム開発本部 要素技術開発部
テクニカルリーダー 小林竜己
2011年8月6日
2. ヤフーが⽬指すライフエンジン
人が人の生活をもっと豊かで、便利で、価値あるもの
にしていくための人と社会のエンジンになること
日本最大のインターネットサービスを
運営する企業としての社会に対する責任
2
4. 検索エンジンが果たす役割
• バーティカル検索
– サービス単位で用意された分野別情報検索
– ショッピング、オークション、知恵袋、グルメ、地図、路線情報、画像、
動画、トラベル、求人、ブログ・・・
• 検索エンジンは、お客様にとっての『情報の窓』
– ストアされた膨大な情報を引き出すためのもの
• 検索の品質=サービスの品質
– 多くのサービスで、検索エンジンの果たす役割は極めて大きい
4
5. ライフエンジンとしての検索エン
ジン
に求められるもの
• お客様が、必要な時に、必要な 『情報』 を、最短距離で
得られること
• しかし、これがとても難しい
多様なニーズ
様々な場面
幅広い世代
5
6. 品質のよい検索を作るための⼯夫
1. サービス要件に適した検索エンジン構成
2. ユーザアシスト
3. 検索結果ランキングの工夫
4. リッチな検索結果
5. コンテンツの充実
6
7. ⼯夫その1
サービス要件に適した検索エンジン
構成
• 検索エンジン設計の基本を押さえる
要件 × 評価指標 ⇒ 理論・技術
・ドメイン ・検索レスポンス ・キャパシティプランニング
・検索対象 ・ピークQPS (対故障性・冗長性含む)
・ユーザ ・文書数 ・情報検索モデル
・利用形態 ・文書フレッシュネス ・Nグラム vs 形態素
・性能要求 ・文書処理時間 ・インデキシング方式
・・・ ・可用性(連続稼働時間) ・クエリ処理
・レリバンス(適合度) ・正規化処理
・・・ ・・・
7
8. ⼯夫その2
ユーザアシスト
• よりよいクエリを見つけるための支援
– キーワード入力補助
– スペラー
– 関連ワード
8
9. ⼯夫その3
検索結果ランキングの⼯夫
• ランキング計算
– 古典的にはランキング関数の利用(例:BM25)
– ウェブ検索ではPageRankなどのリンク情報の利用
– 近年では、機械学習ランキング(MLR)の利用
• スパム・アダルト処理
– ドキュメント処理でのフィルタリングなど
• ダイバーシティやフレッシュネスの考慮
9
10. ⼯夫その4
リッチな検索結果
• クイックリンクス
• ダイレクトディスプレィ
様々な種類あり
10
11. ⼯夫その5
コンテンツの充実
• 検索結果を増やし、より魅力的なものに!
• コンテンツはサービスの基本
• ヤフーでは圧倒的なコンテンツ量で、サービスを充実させる
努力を日々行っている
11
12. 検索の品質をさらに⾼める挑戦
• 検索クエリ処理の高度化とその活用
– クエリ分類別チューニング
– クエリ意図解析による検索結果改善
• ソーシャル情報の利用
– 嗜好選択やミニブログ情報に基づく検索結果改善
12
13. クエリ分類別チューニング
Broderのクエリ分類 (Broder, 2002)
• インフォメーショナルクエリ
– 何かを知りたい意図 (~40%)
– 例:低ヘモグロビン
– 検索結果ダイバーシティの必要性
• ナビゲーショナルクエリ
– ある特定のページに辿りつきたい意図 (~25%)
– 例: 「ヤフー」
– 特定ページのランキング改善
• トランザクショナルクエリ
– ウェブ環境で何らかの作業をしたい意図 (~35%)
– 例: 「東京 天気」(サービス利用)、「火星 地表 画像」(ダウンロード)、
「Nokia mp3」(ショップ)
13
14. 頻度に基づくクエリ分類
• ある期間のクエリ頻度を集計すると
頻度
ローングテール
メジャークエリ テールクエリ
・極端に高頻度の少数クエリ ・頻度が低く多様なクエリ
14
・レリバンス対応は可能 ・レリバンス操作が難しい
15. トピック別クエリ分類
• 2005年のDogpileメタサーチエンジンのクエリ2,500個を人手で分類し
たトピック一覧 (Jansen et al., 2007b. SUIより)
順位 トピック クエリ数 割合(%)
1 商取引、旅行、雇用、または経済 761 30.4
2 人、場所、またはモノ 402 16.0
3 不明またはその他 331 13.2
4 健康または科学 224 8.9
5 エンターテインメントまたは娯楽 177 7.0
6 コンピュータまたはインターネット 144 5.7
7 教育または人文科学 141 5.6
8 社会、文化、民族、または宗教 119 4.7
9 セックスまたはポルノ 97 3.8
10 政府または法律 90 3.6
11 芸術 14 0.5
15
16. クエリ意図解析による検索結果改
善
• クエリをよりよく理解することの重要性
• 単なる「テキスト照合+汎用ランキングメカニズム」を越えた
意図・意味を考慮した検索結果の創造
• 例: 「六本木 居酒屋」
現在、注力中
– 地域グルメ意図
– 六本木という地域で、お酒が飲めるお店を探している
16
17. ソーシャル情報の利⽤
• TwitterやGoogle+などのソーシャル情報を利用した検索結果
の改善アイディアが出てきている
• ソーシャル情報の検索への利用
– 本当に多くの人の役に立つのか、検証はこれから
– まずは、メリット、デメリットをよく知ることが大切
17
18. ライフの多様化に対応して
エンジンの進化が求められている
• まだまだ現在の検索フレームワークは、お客様の負担が
とても大きい
– 適切なクエリを考えるのが大変
– 検索結果から欲しいドキュメントを見つけるのが大変
• 加えて,スマホやアプリの台頭で、時と場所を選ばな
い利用が増えてきた
18
19. そろそろ検索エンジンの次の
ブレークスルーがやってきてもい
い
• これからの検索技術が取り組むべき領域はコレだ!
1. 分析力の活用(検索精度向上、ユーザ自身が分析できる)
2. ユーザコンテキストの活用(ユーザの状況)
3. ナチュラルなインターフェース(音声検索、対話など)
4. アンビエントな環境への埋め込み
(レコメンドやユーザサポートシステムの基盤として)
19
20. 産学連携によるチャレンジ
例えば、分析⼒を⾼めるために
京都大学とのコラボレーション
きざしカンパニー、京都産業大学との
コラボレーション
20