SlideShare a Scribd company logo
JAPAN INNOVATION LEADERS SUMMIT

ライフエンジンを⽀える
検索エンジンの作り⽅
            Yahoo! JAPAN
 R&D統括本部 プラットフォーム開発本部 要素技術開発部
        テクニカルリーダー 小林竜己
            2011年8月6日
ヤフーが⽬指すライフエンジン

    人が人の生活をもっと豊かで、便利で、価値あるもの
     にしていくための人と社会のエンジンになること




       日本最大のインターネットサービスを
      運営する企業としての社会に対する責任
2
130以上のサービス

    Y!トップページ




3
検索エンジンが果たす役割

    • バーティカル検索
        – サービス単位で用意された分野別情報検索
        – ショッピング、オークション、知恵袋、グルメ、地図、路線情報、画像、
          動画、トラベル、求人、ブログ・・・


    •   検索エンジンは、お客様にとっての『情報の窓』
        – ストアされた膨大な情報を引き出すためのもの


    • 検索の品質=サービスの品質
        – 多くのサービスで、検索エンジンの果たす役割は極めて大きい



4
ライフエンジンとしての検索エン
        ジン
        に求められるもの
    • お客様が、必要な時に、必要な 『情報』 を、最短距離で
      得られること


    • しかし、これがとても難しい
                       多様なニーズ
                       様々な場面
                       幅広い世代




5
品質のよい検索を作るための⼯夫

    1. サービス要件に適した検索エンジン構成
    2. ユーザアシスト
    3. 検索結果ランキングの工夫
    4. リッチな検索結果
    5. コンテンツの充実




6
⼯夫その1
          サービス要件に適した検索エンジン
          構成
    • 検索エンジン設計の基本を押さえる


     要件     ×    評価指標     ⇒     理論・技術

    ・ドメイン       ・検索レスポンス       ・キャパシティプランニング
    ・検索対象       ・ピークQPS         (対故障性・冗長性含む)
    ・ユーザ        ・文書数           ・情報検索モデル
    ・利用形態       ・文書フレッシュネス     ・Nグラム vs 形態素
    ・性能要求       ・文書処理時間        ・インデキシング方式
     ・・・        ・可用性(連続稼働時間)   ・クエリ処理
                ・レリバンス(適合度)    ・正規化処理
                 ・・・            ・・・


7
⼯夫その2
         ユーザアシスト

    • よりよいクエリを見つけるための支援
     – キーワード入力補助
     – スペラー
      – 関連ワード




8
⼯夫その3
        検索結果ランキングの⼯夫

    • ランキング計算
     – 古典的にはランキング関数の利用(例:BM25)
     – ウェブ検索ではPageRankなどのリンク情報の利用
     – 近年では、機械学習ランキング(MLR)の利用


    • スパム・アダルト処理
     – ドキュメント処理でのフィルタリングなど


    • ダイバーシティやフレッシュネスの考慮



9
⼯夫その4
             リッチな検索結果
     •   クイックリンクス




     •   ダイレクトディスプレィ

                        様々な種類あり




10
⼯夫その5
         コンテンツの充実

     • 検索結果を増やし、より魅力的なものに!
     • コンテンツはサービスの基本
     • ヤフーでは圧倒的なコンテンツ量で、サービスを充実させる
       努力を日々行っている




11
検索の品質をさらに⾼める挑戦

     • 検索クエリ処理の高度化とその活用
      – クエリ分類別チューニング
      – クエリ意図解析による検索結果改善


     • ソーシャル情報の利用
      – 嗜好選択やミニブログ情報に基づく検索結果改善




12
クエリ分類別チューニング
              Broderのクエリ分類 (Broder, 2002)
     •   インフォメーショナルクエリ
         – 何かを知りたい意図 (~40%)
         – 例:低ヘモグロビン
         – 検索結果ダイバーシティの必要性
     •   ナビゲーショナルクエリ
         – ある特定のページに辿りつきたい意図 (~25%)
         – 例: 「ヤフー」
         – 特定ページのランキング改善
     •   トランザクショナルクエリ
         – ウェブ環境で何らかの作業をしたい意図 (~35%)
         – 例: 「東京 天気」(サービス利用)、「火星 地表 画像」(ダウンロード)、
              「Nokia mp3」(ショップ)
13
頻度に基づくクエリ分類

     • ある期間のクエリ頻度を集計すると

     頻度




                     ローングテール

      メジャークエリ          テールクエリ
     ・極端に高頻度の少数クエリ   ・頻度が低く多様なクエリ
14
     ・レリバンス対応は可能     ・レリバンス操作が難しい
トピック別クエリ分類

     •   2005年のDogpileメタサーチエンジンのクエリ2,500個を人手で分類し
         たトピック一覧 (Jansen et al., 2007b. SUIより)
         順位    トピック                クエリ数   割合(%)
          1    商取引、旅行、雇用、または経済     761    30.4
          2    人、場所、またはモノ          402    16.0
          3    不明またはその他            331    13.2
          4    健康または科学             224    8.9
          5    エンターテインメントまたは娯楽     177    7.0
          6    コンピュータまたはインターネット    144    5.7
          7    教育または人文科学           141    5.6
          8    社会、文化、民族、または宗教      119    4.7
          9    セックスまたはポルノ          97     3.8
          10   政府または法律             90     3.6
          11   芸術                  14     0.5
15
クエリ意図解析による検索結果改
              善
     • クエリをよりよく理解することの重要性
     • 単なる「テキスト照合+汎用ランキングメカニズム」を越えた
       意図・意味を考慮した検索結果の創造

     •   例: 「六本木 居酒屋」
                                  現在、注力中
         – 地域グルメ意図
         – 六本木という地域で、お酒が飲めるお店を探している




16
ソーシャル情報の利⽤

     • TwitterやGoogle+などのソーシャル情報を利用した検索結果
       の改善アイディアが出てきている


     • ソーシャル情報の検索への利用
      – 本当に多くの人の役に立つのか、検証はこれから
      – まずは、メリット、デメリットをよく知ることが大切




17
ライフの多様化に対応して
         エンジンの進化が求められている
     • まだまだ現在の検索フレームワークは、お客様の負担が
       とても大きい
      – 適切なクエリを考えるのが大変
      – 検索結果から欲しいドキュメントを見つけるのが大変

     • 加えて,スマホやアプリの台頭で、時と場所を選ばな
       い利用が増えてきた




18
そろそろ検索エンジンの次の
         ブレークスルーがやってきてもい
         い
     • これからの検索技術が取り組むべき領域はコレだ!
      1. 分析力の活用(検索精度向上、ユーザ自身が分析できる)
      2. ユーザコンテキストの活用(ユーザの状況)
      3. ナチュラルなインターフェース(音声検索、対話など)
      4. アンビエントな環境への埋め込み
         (レコメンドやユーザサポートシステムの基盤として)




19
産学連携によるチャレンジ
          例えば、分析⼒を⾼めるために




                         京都大学とのコラボレーション
     きざしカンパニー、京都産業大学との
     コラボレーション

20
技術で⼈々の⽣活を豊かに

 ライフエンジンの挑戦



               21

More Related Content

Similar to ライフエンジンを支える検索エンジンの作り方

E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
Rakuten Group, Inc.
 
In-Database Analyticsの必要性と可能性
In-Database Analyticsの必要性と可能性In-Database Analyticsの必要性と可能性
In-Database Analyticsの必要性と可能性
Satoshi Nagayasu
 
レコメンデーション(協調フィルタリング)の基礎
レコメンデーション(協調フィルタリング)の基礎レコメンデーション(協調フィルタリング)の基礎
レコメンデーション(協調フィルタリング)の基礎
Katsuhiro Takata
 
【人工知能学会2013 】社会知としての消費者価値観構造モデルと類型「Societas」の構築
【人工知能学会2013 】社会知としての消費者価値観構造モデルと類型「Societas」の構築【人工知能学会2013 】社会知としての消費者価値観構造モデルと類型「Societas」の構築
【人工知能学会2013 】社会知としての消費者価値観構造モデルと類型「Societas」の構築
Ayako Baba
 
日本財団/CANPAN様とSurveyMonkeyの共同セミナー
日本財団/CANPAN様とSurveyMonkeyの共同セミナー日本財団/CANPAN様とSurveyMonkeyの共同セミナー
日本財団/CANPAN様とSurveyMonkeyの共同セミナー
SurveyMonkey Japan
 
第三回NPO× IT EXPO NPOでの利用シーンのご紹介
第三回NPO× IT EXPO NPOでの利用シーンのご紹介第三回NPO× IT EXPO NPOでの利用シーンのご紹介
第三回NPO× IT EXPO NPOでの利用シーンのご紹介
SurveyMonkey Japan
 
「実践的」カスタマージャーニー分析のすすめ
「実践的」カスタマージャーニー分析のすすめ「実践的」カスタマージャーニー分析のすすめ
「実践的」カスタマージャーニー分析のすすめ
Akihiko Uchino
 
情報教育における7つのネット・リテラシー
情報教育における7つのネット・リテラシー情報教育における7つのネット・リテラシー
情報教育における7つのネット・リテラシー
Tatsuya (Saeki) Takiguchi
 
タスク重要
タスク重要タスク重要
タスク重要
Masao Takaku
 
ドメイン駆動設計と要求開発
ドメイン駆動設計と要求開発ドメイン駆動設計と要求開発
ドメイン駆動設計と要求開発
Kent Ishizawa
 
Webで探せる生活者ニーズ
Webで探せる生活者ニーズWebで探せる生活者ニーズ
Webで探せる生活者ニーズ
masashi sakaoka
 
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...
kulibrarians
 
大切なお客様を、一生のお客様に ~自社・競合データから導く、結果につながるデータ分析の最新事例~
大切なお客様を、一生のお客様に  ~自社・競合データから導く、結果につながるデータ分析の最新事例~大切なお客様を、一生のお客様に  ~自社・競合データから導く、結果につながるデータ分析の最新事例~
大切なお客様を、一生のお客様に ~自社・競合データから導く、結果につながるデータ分析の最新事例~
株式会社Consumer first
 
IMJG Seminar 「収益に結びつく顧客を見つけるNPSセミナー」
IMJG Seminar 「収益に結びつく顧客を見つけるNPSセミナー」IMJG Seminar 「収益に結びつく顧客を見つけるNPSセミナー」
IMJG Seminar 「収益に結びつく顧客を見つけるNPSセミナー」
IMJ Corporation
 
マイニング探検会#09 情報レコメンデーションとは
マイニング探検会#09 情報レコメンデーションとはマイニング探検会#09 情報レコメンデーションとは
マイニング探検会#09 情報レコメンデーションとはYoji Kiyota
 
Data Science Summit 2012 レポート
Data Science Summit 2012 レポートData Science Summit 2012 レポート
Data Science Summit 2012 レポート
nagix
 
20120622 data conference
20120622 data conference20120622 data conference
20120622 data conferencemanagami
 
WSDM2016報告会−参加報告#yjwsdm
WSDM2016報告会−参加報告#yjwsdmWSDM2016報告会−参加報告#yjwsdm
WSDM2016報告会−参加報告#yjwsdm
Yahoo!デベロッパーネットワーク
 
20120822_dstn技術交流会_DataSpider接続先技術動向
20120822_dstn技術交流会_DataSpider接続先技術動向20120822_dstn技術交流会_DataSpider接続先技術動向
20120822_dstn技術交流会_DataSpider接続先技術動向dstn
 
Credential social media_live_v1_3
Credential social media_live_v1_3Credential social media_live_v1_3
Credential social media_live_v1_3Social Media Live!
 

Similar to ライフエンジンを支える検索エンジンの作り方 (20)

E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
 
In-Database Analyticsの必要性と可能性
In-Database Analyticsの必要性と可能性In-Database Analyticsの必要性と可能性
In-Database Analyticsの必要性と可能性
 
レコメンデーション(協調フィルタリング)の基礎
レコメンデーション(協調フィルタリング)の基礎レコメンデーション(協調フィルタリング)の基礎
レコメンデーション(協調フィルタリング)の基礎
 
【人工知能学会2013 】社会知としての消費者価値観構造モデルと類型「Societas」の構築
【人工知能学会2013 】社会知としての消費者価値観構造モデルと類型「Societas」の構築【人工知能学会2013 】社会知としての消費者価値観構造モデルと類型「Societas」の構築
【人工知能学会2013 】社会知としての消費者価値観構造モデルと類型「Societas」の構築
 
日本財団/CANPAN様とSurveyMonkeyの共同セミナー
日本財団/CANPAN様とSurveyMonkeyの共同セミナー日本財団/CANPAN様とSurveyMonkeyの共同セミナー
日本財団/CANPAN様とSurveyMonkeyの共同セミナー
 
第三回NPO× IT EXPO NPOでの利用シーンのご紹介
第三回NPO× IT EXPO NPOでの利用シーンのご紹介第三回NPO× IT EXPO NPOでの利用シーンのご紹介
第三回NPO× IT EXPO NPOでの利用シーンのご紹介
 
「実践的」カスタマージャーニー分析のすすめ
「実践的」カスタマージャーニー分析のすすめ「実践的」カスタマージャーニー分析のすすめ
「実践的」カスタマージャーニー分析のすすめ
 
情報教育における7つのネット・リテラシー
情報教育における7つのネット・リテラシー情報教育における7つのネット・リテラシー
情報教育における7つのネット・リテラシー
 
タスク重要
タスク重要タスク重要
タスク重要
 
ドメイン駆動設計と要求開発
ドメイン駆動設計と要求開発ドメイン駆動設計と要求開発
ドメイン駆動設計と要求開発
 
Webで探せる生活者ニーズ
Webで探せる生活者ニーズWebで探せる生活者ニーズ
Webで探せる生活者ニーズ
 
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...
20090827 ku-librarians勉強会 #114 : Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピ...
 
大切なお客様を、一生のお客様に ~自社・競合データから導く、結果につながるデータ分析の最新事例~
大切なお客様を、一生のお客様に  ~自社・競合データから導く、結果につながるデータ分析の最新事例~大切なお客様を、一生のお客様に  ~自社・競合データから導く、結果につながるデータ分析の最新事例~
大切なお客様を、一生のお客様に ~自社・競合データから導く、結果につながるデータ分析の最新事例~
 
IMJG Seminar 「収益に結びつく顧客を見つけるNPSセミナー」
IMJG Seminar 「収益に結びつく顧客を見つけるNPSセミナー」IMJG Seminar 「収益に結びつく顧客を見つけるNPSセミナー」
IMJG Seminar 「収益に結びつく顧客を見つけるNPSセミナー」
 
マイニング探検会#09 情報レコメンデーションとは
マイニング探検会#09 情報レコメンデーションとはマイニング探検会#09 情報レコメンデーションとは
マイニング探検会#09 情報レコメンデーションとは
 
Data Science Summit 2012 レポート
Data Science Summit 2012 レポートData Science Summit 2012 レポート
Data Science Summit 2012 レポート
 
20120622 data conference
20120622 data conference20120622 data conference
20120622 data conference
 
WSDM2016報告会−参加報告#yjwsdm
WSDM2016報告会−参加報告#yjwsdmWSDM2016報告会−参加報告#yjwsdm
WSDM2016報告会−参加報告#yjwsdm
 
20120822_dstn技術交流会_DataSpider接続先技術動向
20120822_dstn技術交流会_DataSpider接続先技術動向20120822_dstn技術交流会_DataSpider接続先技術動向
20120822_dstn技術交流会_DataSpider接続先技術動向
 
Credential social media_live_v1_3
Credential social media_live_v1_3Credential social media_live_v1_3
Credential social media_live_v1_3
 

ライフエンジンを支える検索エンジンの作り方

  • 1. JAPAN INNOVATION LEADERS SUMMIT ライフエンジンを⽀える 検索エンジンの作り⽅ Yahoo! JAPAN R&D統括本部 プラットフォーム開発本部 要素技術開発部 テクニカルリーダー 小林竜己 2011年8月6日
  • 2. ヤフーが⽬指すライフエンジン 人が人の生活をもっと豊かで、便利で、価値あるもの にしていくための人と社会のエンジンになること 日本最大のインターネットサービスを 運営する企業としての社会に対する責任 2
  • 3. 130以上のサービス Y!トップページ 3
  • 4. 検索エンジンが果たす役割 • バーティカル検索 – サービス単位で用意された分野別情報検索 – ショッピング、オークション、知恵袋、グルメ、地図、路線情報、画像、 動画、トラベル、求人、ブログ・・・ • 検索エンジンは、お客様にとっての『情報の窓』 – ストアされた膨大な情報を引き出すためのもの • 検索の品質=サービスの品質 – 多くのサービスで、検索エンジンの果たす役割は極めて大きい 4
  • 5. ライフエンジンとしての検索エン ジン に求められるもの • お客様が、必要な時に、必要な 『情報』 を、最短距離で 得られること • しかし、これがとても難しい 多様なニーズ 様々な場面 幅広い世代 5
  • 6. 品質のよい検索を作るための⼯夫 1. サービス要件に適した検索エンジン構成 2. ユーザアシスト 3. 検索結果ランキングの工夫 4. リッチな検索結果 5. コンテンツの充実 6
  • 7. ⼯夫その1 サービス要件に適した検索エンジン 構成 • 検索エンジン設計の基本を押さえる 要件 × 評価指標 ⇒ 理論・技術 ・ドメイン ・検索レスポンス ・キャパシティプランニング ・検索対象 ・ピークQPS  (対故障性・冗長性含む) ・ユーザ ・文書数 ・情報検索モデル ・利用形態 ・文書フレッシュネス ・Nグラム vs 形態素 ・性能要求 ・文書処理時間 ・インデキシング方式  ・・・ ・可用性(連続稼働時間) ・クエリ処理 ・レリバンス(適合度) ・正規化処理  ・・・  ・・・ 7
  • 8. ⼯夫その2 ユーザアシスト • よりよいクエリを見つけるための支援 – キーワード入力補助 – スペラー – 関連ワード 8
  • 9. ⼯夫その3 検索結果ランキングの⼯夫 • ランキング計算 – 古典的にはランキング関数の利用(例:BM25) – ウェブ検索ではPageRankなどのリンク情報の利用 – 近年では、機械学習ランキング(MLR)の利用 • スパム・アダルト処理 – ドキュメント処理でのフィルタリングなど • ダイバーシティやフレッシュネスの考慮 9
  • 10. ⼯夫その4 リッチな検索結果 • クイックリンクス • ダイレクトディスプレィ 様々な種類あり 10
  • 11. ⼯夫その5 コンテンツの充実 • 検索結果を増やし、より魅力的なものに! • コンテンツはサービスの基本 • ヤフーでは圧倒的なコンテンツ量で、サービスを充実させる 努力を日々行っている 11
  • 12. 検索の品質をさらに⾼める挑戦 • 検索クエリ処理の高度化とその活用 – クエリ分類別チューニング – クエリ意図解析による検索結果改善 • ソーシャル情報の利用 – 嗜好選択やミニブログ情報に基づく検索結果改善 12
  • 13. クエリ分類別チューニング  Broderのクエリ分類 (Broder, 2002) • インフォメーショナルクエリ – 何かを知りたい意図 (~40%) – 例:低ヘモグロビン – 検索結果ダイバーシティの必要性 • ナビゲーショナルクエリ – ある特定のページに辿りつきたい意図 (~25%) – 例: 「ヤフー」 – 特定ページのランキング改善 • トランザクショナルクエリ – ウェブ環境で何らかの作業をしたい意図 (~35%) – 例: 「東京 天気」(サービス利用)、「火星 地表 画像」(ダウンロード)、 「Nokia mp3」(ショップ) 13
  • 14. 頻度に基づくクエリ分類 • ある期間のクエリ頻度を集計すると 頻度 ローングテール メジャークエリ テールクエリ ・極端に高頻度の少数クエリ ・頻度が低く多様なクエリ 14 ・レリバンス対応は可能 ・レリバンス操作が難しい
  • 15. トピック別クエリ分類 • 2005年のDogpileメタサーチエンジンのクエリ2,500個を人手で分類し たトピック一覧 (Jansen et al., 2007b. SUIより) 順位 トピック クエリ数 割合(%) 1 商取引、旅行、雇用、または経済 761 30.4 2 人、場所、またはモノ 402 16.0 3 不明またはその他 331 13.2 4 健康または科学 224 8.9 5 エンターテインメントまたは娯楽 177 7.0 6 コンピュータまたはインターネット 144 5.7 7 教育または人文科学 141 5.6 8 社会、文化、民族、または宗教 119 4.7 9 セックスまたはポルノ 97 3.8 10 政府または法律 90 3.6 11 芸術 14 0.5 15
  • 16. クエリ意図解析による検索結果改 善 • クエリをよりよく理解することの重要性 • 単なる「テキスト照合+汎用ランキングメカニズム」を越えた 意図・意味を考慮した検索結果の創造 • 例: 「六本木 居酒屋」 現在、注力中 – 地域グルメ意図 – 六本木という地域で、お酒が飲めるお店を探している 16
  • 17. ソーシャル情報の利⽤ • TwitterやGoogle+などのソーシャル情報を利用した検索結果 の改善アイディアが出てきている • ソーシャル情報の検索への利用 – 本当に多くの人の役に立つのか、検証はこれから – まずは、メリット、デメリットをよく知ることが大切 17
  • 18. ライフの多様化に対応して エンジンの進化が求められている • まだまだ現在の検索フレームワークは、お客様の負担が とても大きい – 適切なクエリを考えるのが大変 – 検索結果から欲しいドキュメントを見つけるのが大変 • 加えて,スマホやアプリの台頭で、時と場所を選ばな い利用が増えてきた 18
  • 19. そろそろ検索エンジンの次の ブレークスルーがやってきてもい い • これからの検索技術が取り組むべき領域はコレだ! 1. 分析力の活用(検索精度向上、ユーザ自身が分析できる) 2. ユーザコンテキストの活用(ユーザの状況) 3. ナチュラルなインターフェース(音声検索、対話など) 4. アンビエントな環境への埋め込み (レコメンドやユーザサポートシステムの基盤として) 19
  • 20. 産学連携によるチャレンジ 例えば、分析⼒を⾼めるために 京都大学とのコラボレーション きざしカンパニー、京都産業大学との コラボレーション 20