JAPAN INNOVATION LEADERS SUMMIT

ライフエンジンを⽀える
検索エンジンの作り⽅
            Yahoo! JAPAN
 R&D統括本部 プラットフォーム開発本部 要素技術開発部
        テクニカルリーダー 小林竜己
            2011年8月6日
ヤフーが⽬指すライフエンジン

    人が人の生活をもっと豊かで、便利で、価値あるもの
     にしていくための人と社会のエンジンになること




       日本最大のインターネットサービスを
      運営する企業としての社会に対する責任
2
130以上のサービス

    Y!トップページ




3
検索エンジンが果たす役割

    • バーティカル検索
        – サービス単位で用意された分野別情報検索
        – ショッピング、オークション、知恵袋、グルメ、地図、路線情報、画像、
          動画、トラベル、求人、ブログ・・・


    •   検索エンジンは、お客様にとっての『情報の窓』
        – ストアされた膨大な情報を引き出すためのもの


    • 検索の品質=サービスの品質
        – 多くのサービスで、検索エンジンの果たす役割は極めて大きい



4
ライフエンジンとしての検索エン
        ジン
        に求められるもの
    • お客様が、必要な時に、必要な 『情報』 を、最短距離で
      得られること


    • しかし、これがとても難しい
                       多様なニーズ
                       様々な場面
                       幅広い世代




5
品質のよい検索を作るための⼯夫

    1. サービス要件に適した検索エンジン構成
    2. ユーザアシスト
    3. 検索結果ランキングの工夫
    4. リッチな検索結果
    5. コンテンツの充実




6
⼯夫その1
          サービス要件に適した検索エンジン
          構成
    • 検索エンジン設計の基本を押さえる


     要件     ×    評価指標     ⇒     理論・技術

    ・ドメイン       ・検索レスポンス       ・キャパシティプランニング
    ・検索対象       ・ピークQPS         (対故障性・冗長性含む)
    ・ユーザ        ・文書数           ・情報検索モデル
    ・利用形態       ・文書フレッシュネス     ・Nグラム vs 形態素
    ・性能要求       ・文書処理時間        ・インデキシング方式
     ・・・        ・可用性(連続稼働時間)   ・クエリ処理
                ・レリバンス(適合度)    ・正規化処理
                 ・・・            ・・・


7
⼯夫その2
         ユーザアシスト

    • よりよいクエリを見つけるための支援
     – キーワード入力補助
     – スペラー
      – 関連ワード




8
⼯夫その3
        検索結果ランキングの⼯夫

    • ランキング計算
     – 古典的にはランキング関数の利用(例:BM25)
     – ウェブ検索ではPageRankなどのリンク情報の利用
     – 近年では、機械学習ランキング(MLR)の利用


    • スパム・アダルト処理
     – ドキュメント処理でのフィルタリングなど


    • ダイバーシティやフレッシュネスの考慮



9
⼯夫その4
             リッチな検索結果
     •   クイックリンクス




     •   ダイレクトディスプレィ

                        様々な種類あり




10
⼯夫その5
         コンテンツの充実

     • 検索結果を増やし、より魅力的なものに!
     • コンテンツはサービスの基本
     • ヤフーでは圧倒的なコンテンツ量で、サービスを充実させる
       努力を日々行っている




11
検索の品質をさらに⾼める挑戦

     • 検索クエリ処理の高度化とその活用
      – クエリ分類別チューニング
      – クエリ意図解析による検索結果改善


     • ソーシャル情報の利用
      – 嗜好選択やミニブログ情報に基づく検索結果改善




12
クエリ分類別チューニング
              Broderのクエリ分類 (Broder, 2002)
     •   インフォメーショナルクエリ
         – 何かを知りたい意図 (~40%)
         – 例:低ヘモグロビン
         – 検索結果ダイバーシティの必要性
     •   ナビゲーショナルクエリ
         – ある特定のページに辿りつきたい意図 (~25%)
         – 例: 「ヤフー」
         – 特定ページのランキング改善
     •   トランザクショナルクエリ
         – ウェブ環境で何らかの作業をしたい意図 (~35%)
         – 例: 「東京 天気」(サービス利用)、「火星 地表 画像」(ダウンロード)、
              「Nokia mp3」(ショップ)
13
頻度に基づくクエリ分類

     • ある期間のクエリ頻度を集計すると

     頻度




                     ローングテール

      メジャークエリ          テールクエリ
     ・極端に高頻度の少数クエリ   ・頻度が低く多様なクエリ
14
     ・レリバンス対応は可能     ・レリバンス操作が難しい
トピック別クエリ分類

     •   2005年のDogpileメタサーチエンジンのクエリ2,500個を人手で分類し
         たトピック一覧 (Jansen et al., 2007b. SUIより)
         順位    トピック                クエリ数   割合(%)
          1    商取引、旅行、雇用、または経済     761    30.4
          2    人、場所、またはモノ          402    16.0
          3    不明またはその他            331    13.2
          4    健康または科学             224    8.9
          5    エンターテインメントまたは娯楽     177    7.0
          6    コンピュータまたはインターネット    144    5.7
          7    教育または人文科学           141    5.6
          8    社会、文化、民族、または宗教      119    4.7
          9    セックスまたはポルノ          97     3.8
          10   政府または法律             90     3.6
          11   芸術                  14     0.5
15
クエリ意図解析による検索結果改
              善
     • クエリをよりよく理解することの重要性
     • 単なる「テキスト照合+汎用ランキングメカニズム」を越えた
       意図・意味を考慮した検索結果の創造

     •   例: 「六本木 居酒屋」
                                  現在、注力中
         – 地域グルメ意図
         – 六本木という地域で、お酒が飲めるお店を探している




16
ソーシャル情報の利⽤

     • TwitterやGoogle+などのソーシャル情報を利用した検索結果
       の改善アイディアが出てきている


     • ソーシャル情報の検索への利用
      – 本当に多くの人の役に立つのか、検証はこれから
      – まずは、メリット、デメリットをよく知ることが大切




17
ライフの多様化に対応して
         エンジンの進化が求められている
     • まだまだ現在の検索フレームワークは、お客様の負担が
       とても大きい
      – 適切なクエリを考えるのが大変
      – 検索結果から欲しいドキュメントを見つけるのが大変

     • 加えて,スマホやアプリの台頭で、時と場所を選ばな
       い利用が増えてきた




18
そろそろ検索エンジンの次の
         ブレークスルーがやってきてもい
         い
     • これからの検索技術が取り組むべき領域はコレだ!
      1. 分析力の活用(検索精度向上、ユーザ自身が分析できる)
      2. ユーザコンテキストの活用(ユーザの状況)
      3. ナチュラルなインターフェース(音声検索、対話など)
      4. アンビエントな環境への埋め込み
         (レコメンドやユーザサポートシステムの基盤として)




19
産学連携によるチャレンジ
          例えば、分析⼒を⾼めるために




                         京都大学とのコラボレーション
     きざしカンパニー、京都産業大学との
     コラボレーション

20
技術で⼈々の⽣活を豊かに

 ライフエンジンの挑戦



               21

ライフエンジンを支える検索エンジンの作り方

  • 1.
    JAPAN INNOVATION LEADERSSUMMIT ライフエンジンを⽀える 検索エンジンの作り⽅ Yahoo! JAPAN R&D統括本部 プラットフォーム開発本部 要素技術開発部 テクニカルリーダー 小林竜己 2011年8月6日
  • 2.
    ヤフーが⽬指すライフエンジン 人が人の生活をもっと豊かで、便利で、価値あるもの にしていくための人と社会のエンジンになること 日本最大のインターネットサービスを 運営する企業としての社会に対する責任 2
  • 3.
    130以上のサービス Y!トップページ 3
  • 4.
    検索エンジンが果たす役割 • バーティカル検索 – サービス単位で用意された分野別情報検索 – ショッピング、オークション、知恵袋、グルメ、地図、路線情報、画像、 動画、トラベル、求人、ブログ・・・ • 検索エンジンは、お客様にとっての『情報の窓』 – ストアされた膨大な情報を引き出すためのもの • 検索の品質=サービスの品質 – 多くのサービスで、検索エンジンの果たす役割は極めて大きい 4
  • 5.
    ライフエンジンとしての検索エン ジン に求められるもの • お客様が、必要な時に、必要な 『情報』 を、最短距離で 得られること • しかし、これがとても難しい 多様なニーズ 様々な場面 幅広い世代 5
  • 6.
    品質のよい検索を作るための⼯夫 1. サービス要件に適した検索エンジン構成 2. ユーザアシスト 3. 検索結果ランキングの工夫 4. リッチな検索結果 5. コンテンツの充実 6
  • 7.
    ⼯夫その1 サービス要件に適した検索エンジン 構成 • 検索エンジン設計の基本を押さえる 要件 × 評価指標 ⇒ 理論・技術 ・ドメイン ・検索レスポンス ・キャパシティプランニング ・検索対象 ・ピークQPS  (対故障性・冗長性含む) ・ユーザ ・文書数 ・情報検索モデル ・利用形態 ・文書フレッシュネス ・Nグラム vs 形態素 ・性能要求 ・文書処理時間 ・インデキシング方式  ・・・ ・可用性(連続稼働時間) ・クエリ処理 ・レリバンス(適合度) ・正規化処理  ・・・  ・・・ 7
  • 8.
    ⼯夫その2 ユーザアシスト • よりよいクエリを見つけるための支援 – キーワード入力補助 – スペラー – 関連ワード 8
  • 9.
    ⼯夫その3 検索結果ランキングの⼯夫 • ランキング計算 – 古典的にはランキング関数の利用(例:BM25) – ウェブ検索ではPageRankなどのリンク情報の利用 – 近年では、機械学習ランキング(MLR)の利用 • スパム・アダルト処理 – ドキュメント処理でのフィルタリングなど • ダイバーシティやフレッシュネスの考慮 9
  • 10.
    ⼯夫その4 リッチな検索結果 • クイックリンクス • ダイレクトディスプレィ 様々な種類あり 10
  • 11.
    ⼯夫その5 コンテンツの充実 • 検索結果を増やし、より魅力的なものに! • コンテンツはサービスの基本 • ヤフーでは圧倒的なコンテンツ量で、サービスを充実させる 努力を日々行っている 11
  • 12.
    検索の品質をさらに⾼める挑戦 • 検索クエリ処理の高度化とその活用 – クエリ分類別チューニング – クエリ意図解析による検索結果改善 • ソーシャル情報の利用 – 嗜好選択やミニブログ情報に基づく検索結果改善 12
  • 13.
    クエリ分類別チューニング  Broderのクエリ分類 (Broder, 2002) • インフォメーショナルクエリ – 何かを知りたい意図 (~40%) – 例:低ヘモグロビン – 検索結果ダイバーシティの必要性 • ナビゲーショナルクエリ – ある特定のページに辿りつきたい意図 (~25%) – 例: 「ヤフー」 – 特定ページのランキング改善 • トランザクショナルクエリ – ウェブ環境で何らかの作業をしたい意図 (~35%) – 例: 「東京 天気」(サービス利用)、「火星 地表 画像」(ダウンロード)、 「Nokia mp3」(ショップ) 13
  • 14.
    頻度に基づくクエリ分類 • ある期間のクエリ頻度を集計すると 頻度 ローングテール メジャークエリ テールクエリ ・極端に高頻度の少数クエリ ・頻度が低く多様なクエリ 14 ・レリバンス対応は可能 ・レリバンス操作が難しい
  • 15.
    トピック別クエリ分類 • 2005年のDogpileメタサーチエンジンのクエリ2,500個を人手で分類し たトピック一覧 (Jansen et al., 2007b. SUIより) 順位 トピック クエリ数 割合(%) 1 商取引、旅行、雇用、または経済 761 30.4 2 人、場所、またはモノ 402 16.0 3 不明またはその他 331 13.2 4 健康または科学 224 8.9 5 エンターテインメントまたは娯楽 177 7.0 6 コンピュータまたはインターネット 144 5.7 7 教育または人文科学 141 5.6 8 社会、文化、民族、または宗教 119 4.7 9 セックスまたはポルノ 97 3.8 10 政府または法律 90 3.6 11 芸術 14 0.5 15
  • 16.
    クエリ意図解析による検索結果改 善 • クエリをよりよく理解することの重要性 • 単なる「テキスト照合+汎用ランキングメカニズム」を越えた 意図・意味を考慮した検索結果の創造 • 例: 「六本木 居酒屋」 現在、注力中 – 地域グルメ意図 – 六本木という地域で、お酒が飲めるお店を探している 16
  • 17.
    ソーシャル情報の利⽤ • TwitterやGoogle+などのソーシャル情報を利用した検索結果 の改善アイディアが出てきている • ソーシャル情報の検索への利用 – 本当に多くの人の役に立つのか、検証はこれから – まずは、メリット、デメリットをよく知ることが大切 17
  • 18.
    ライフの多様化に対応して エンジンの進化が求められている • まだまだ現在の検索フレームワークは、お客様の負担が とても大きい – 適切なクエリを考えるのが大変 – 検索結果から欲しいドキュメントを見つけるのが大変 • 加えて,スマホやアプリの台頭で、時と場所を選ばな い利用が増えてきた 18
  • 19.
    そろそろ検索エンジンの次の ブレークスルーがやってきてもい い • これからの検索技術が取り組むべき領域はコレだ! 1. 分析力の活用(検索精度向上、ユーザ自身が分析できる) 2. ユーザコンテキストの活用(ユーザの状況) 3. ナチュラルなインターフェース(音声検索、対話など) 4. アンビエントな環境への埋め込み (レコメンドやユーザサポートシステムの基盤として) 19
  • 20.
    産学連携によるチャレンジ 例えば、分析⼒を⾼めるために 京都大学とのコラボレーション きざしカンパニー、京都産業大学との コラボレーション 20
  • 21.