SlideShare a Scribd company logo
クエリログとスニペットの単語連接頻度に
基づくWeb検索クエリのセグメンテーション


        ヤフー株式会社
   三宅 純平,塚本 浩司,颯々野 学
発表内容

    • 研究背景
    • 研究目的
    • Web検索クエリの傾向分析
    • クエリログとスニペットの単語連接頻度に基づく
      クエリセグメンテーション
       – 提案手法の説明
       – 評価実験
    • SVMの点推定手法によるクエリセグメンテーション
      の検証
       – 提案手法の説明
       – 評価実験
    • まとめと今後の課題
2              Yahoo! JAPAN CONFIDENTIAL
研究背景

    • Web検索クエリのセグメント位置による
      検索結果の変動
      – セグメント位置の違いによるクエリ意図の曖昧化
      – 新語・流行語に対する単語分割誤り


    嵐■トラブルメーカー                     嵐■トラブル■メーカー

    レッドストーン                        レッド■ストーン

    リンチーリン                         リン■チーリン
    iphone4                        iphone■4

3                Yahoo! JAPAN CONFIDENTIAL
【例1】嵐■トラブルメーカー

    嵐の音楽PVのページ




                                                    嵐のCD・DVDの広告
    Yahoo!オークションへの誘導リンク
    ※2010年10月 Google検索エンジンに移行前
4                       Yahoo! JAPAN CONFIDENTIAL
【例1】嵐■トラブル■メーカー



                    広島大の音楽サークル



                    個人ブログ


                    サークルページ
                                                      美肌の広告


                    別の曲                               外構工事の広告


    ※2010年10月 Google検索エンジンに移行前
5                         Yahoo! JAPAN CONFIDENTIAL
【例2】iphone■4




                                                    ASCII.jpブログ
                                                    日経トレンド


    ※Google検索エンジンに移行後
6                       Yahoo! JAPAN CONFIDENTIAL
【例2】iphone4




                                          クチコミ掲示板、
                                          ニュースブログ


     セグメント位置の違いによって検索結果の劣化が生じる
    ※Google検索エンジンに移行後
7             Yahoo! JAPAN CONFIDENTIAL
目的


         入力クエリに対して、検索精度が向上する
             クエリセグメンテーション

    嵐■トラブル■メーカー   竹内■結子■画像               グランド■セフト■オートバイ■スシティ
        ×           ×                            ×




        ○            ○                           ○
    嵐■トラブルメーカー    竹内結子■画像                グランド■セフト■オート■バイスシティ

8                   Yahoo! JAPAN CONFIDENTIAL
関連研究

    • 一般的なクエリセグメンテーションは
      単語単位による統計的な意味境界の推定
            new york times■subscription

     – Bergsmaら, 2007
       • 様々なルール、単語頻度、単語表記の素性を用いたSVMに
         よるセグメンテーション
     – Tanら, 2008
       • クエリログとWikipediaコーパスの言語モデル尤度と相互情
         報量に基づくセグメンテーション

    分かち書きがされていない日本語では、
    未知語が多く含まれるWeb検索クエリへの対応は難しい
9                   Yahoo! JAPAN CONFIDENTIAL
Web検索クエリの傾向分析

     • 入力が最も多いセグメンテーションパターン
       (最頻クエリ)が検索精度向上に適切か?
          必ずしもそうではない!

     • 全体的に単語を長く連接させる傾向がある
      – 【ex. 】無料サンプル動画,オリンピック参加国,
        グランドセフトオートバイスシティ■攻略…etc
      – カタカナ文字列は全て連接させる傾向が高い

      検索精度を考慮してクエリに
      注意深くセグメントを入れる人は少ない
10               Yahoo! JAPAN CONFIDENTIAL
クエリログとスニペットの連接頻度情報に
          基づくクエリセグメンテーション

クエリセット
クエリ               頻度占有率
                                       クエリログから異なりセグメント
シェラトングランデ東京ベイ            0.91          位置を持つクエリセットを抽出
シェラトン■グランデ■東京ベイ          0.03
シェラトングランデ■東京ベイ           0.02
シェラトン■グランデ■東京■ベイ         0.01          ①検索クエリの候補選択
                                       頻度か言語モデル尤度を基準に
                                       セグメント数の多いクエリを選択

     シェラトン■グランデ■東京■ベイ

                                     ② Web検索のスニペットを抽出
                                     スニペットの単語連接頻度に基づいて
     シェラトン■グランデ■東京ベイ                 適切なセグメント位置の推定

11                 Yahoo! JAPAN CONFIDENTIAL
① 検索クエリの候補選択

• Web検索結果のスニペットから単語連接頻度を
  得るための検索クエリ候補を選択
     – 最頻クエリの形態素解析
      • Yahoo!Japan デベロッパーネック
        日本語形態素解析 WebAPIと同等のもの
     – 最多セグメント数による選択                          シェラトングランデ東京ベイ    90
                                              シェラトン■グランデ■東京ベイ 3
      • クエリセットの頻度占有率の0.1%を棄却し                 シェラトングランデ■東京ベイ    2
        セグメント数が最大のクエリを選択                      シェラトン■グランデ東京ベイ 0.05

     – 文字3gram言語モデル尤度による選択
      • セグメント位置を<sp>としてカウント                          n

      • 1~3gramの生起・連接の対数確率の                          log P( x | x
                                                    i 1
                                                              i    i 2   , xi 1 )
        相加平均で最大のクエリを選択                        max
                                              qQ           n 1
12                Yahoo! JAPAN CONFIDENTIAL
② Web検索のスニペット抽出&
                   単語連接頻度によるセグメンテーション

      • Web検索のスニペットから単語頻度(unigram,bigram)を
        求め、セグメント位置の推定
            – スコア計算にはシンプソン係数を使用(閾値は0.9)




                                         シェラトン グランデ 東京 ベイ

                                          score = 0.7        score = 0.6 score = 0.9


score 
              C (シェラトングランデ)                シェラトン グランデ 東京ベイ
          min(C (シェラトン), C (グランデ))

 13                              Yahoo! JAPAN CONFIDENTIAL
評価実験の内容

     • 評価方法
      – 人手の正解データと提案手法による
        セグメントしたクエリの一致率を評価
      – 正解データ
        • クエリセットにおける最頻クエリの頻度占有率でバランス
          よく含まれるように抽出
        • 正解データ作成は同じサンプルデータに対し、
          2名 でアノテーションを行なった
     • 評価基準
       Query Accuracy          クエリの完全一致率
       Segment Accuracy        セグメント位置の一致率
14                   Yahoo! JAPAN CONFIDENTIAL
実験条件

     • 比較手法
     ベースライン        最頻クエリ
     提案手法          形態素解析(スニペットあり,なし)
                   言語モデル尤度(スニペットあり,なし)
                   最多セグメント数(スニペットあり,なし)


     正解データの期間                                  2010.10.01 – 31(1ヵ月)
     正解データのサンプル数                                             615件
     正解データ同士の一致率                                             82.4%
     言語モデルの学習データ                               2010.10.01 – 31(1ヵ月)
     検索結果取得数                                                    20

15                 Yahoo! JAPAN CONFIDENTIAL
実験結果

                                                                 人手正解データ
                                                                 同士の一致率
                                                                 (82.4%)
Query Accuracy(%)




                    最頻クエリ   形態素解析         言語モデル           最多セグメント数
                                          尤度選択               選択


                     最頻クエリよりもクエリセット内から
                     適切なクエリを選ぶことで正解率が向上
      16                      Yahoo! JAPAN CONFIDENTIAL
ここまでのまとめ

     • 検索精度が向上するクエリセグメンテーション
     • クエリログとスニペットの単語連接頻度から
       適切なクエリのセグメント位置を推定
      – クエリセット内から言語モデル尤度や
        最多セグメントの基準にクエリ選択
      – Web検索のスニペットでの単語連接頻度の考慮
      – 最頻クエリより約10pt改善
     • 異なりセグメント位置を持つクエリセットが必要
       文字や文字種、辞書単語などの素性を用いて、
       適切なセグメントを行えないかを検証
17             Yahoo! JAPAN CONFIDENTIAL
SVMの点推定手法による
                 クエリセグメンテーション
      • 文字、文字種、辞書素性を用いて
        セグメンテーション位置を推定
             – SVMの点推定手法による単語分割[Sassano, 2002]、[Neubigら, 2010]
             – 学習データはクエリログとスニペットから作成したクエリデータ
             – 単語辞書はipadicと日・英語のWikipedia
                            L                  R
                    フィギュアスケート                  浅田真央

                                        窓幅=5
     1gram      : L5/ア L4/ス L3/ケ L2/ー L1/ト R1/浅 R2/田 R3/真 R4/央
     2gram      : L5/アス L4/スケ L3/ケー L2/ート L1/ト浅 R1/浅田 R2/田真 R3/真央
     3gram      : L5/アスケ L4/スケー L3/ケート L2/ート浅 L1/ト浅田 R1/浅田真 R2/田真央
     辞書素性       : L1/スケート R1/浅田
     文字種素性 : 文字素性(ひらがな、カタカナ、漢字、数字、英字、シンボル)を文字種に置き換えたもの
18                             Yahoo! JAPAN CONFIDENTIAL
クエリログとスニペットの連接頻度情報に
              基づくクエリセグメンテーション
     クエリセット

     シェラトングランデ東京ベイ
     シェラトン■グランデ■東京ベイ
     シェラトングランデ■東京ベイ
     シェラトン■グランデ■東京■ベイ
                                    出力クエリを学習データ
                                    として分割精度を検証
                                    ※ 理想的には人手正解データ
     シェラトン■グランデ■東京■ベイ



                            学習
      シェラトン■グランデ■東京ベイ
                                        SVMの点推定による
                                        クエリセグメンテーション

19                 Yahoo! JAPAN CONFIDENTIAL
評価実験

     • 実験内容
      – 人手の正解データとの一致率を評価
      – 評価基準はQuery Accuracy,Segment Accuracy

     • 実験条件
     SVMの学習データ       2010.10.01~31の上位10万件に対して前
                                    手法を適用した結果
     SVM学習器                                           liblinear
     素性                   文字ngram,文字種ngram,辞書単語
     その他                                       窓幅=5, ngram=3


20                 Yahoo! JAPAN CONFIDENTIAL
実験結果

     • クエリログとスニペットを用いた手法の
       約85%の精度を達成
      – ウェブやクエリの単語頻度を素性として組み込みが
        今後の課題
                                        Query-Acc(%)   Seg-Acc(%)

     言語モデル+スニペット                                77.3          96.2

     最多セグメント数+スニペット                             78.1          96.2

     SVM 言語モデル+スニペット                            65.9          94.3

     SVM 最多セグメント数+スニペット                         66.7          94.5

     ※ 学習データでの5-fold CVで約83.3%
21                  Yahoo! JAPAN CONFIDENTIAL
まとめと今後の展開

     • まとめ
      – 検索精度が向上するクエリのセグメンテーションの
        提案
        • クエリログのスニペットの単語連接頻度より
          適切なセグメンテーション位置の推定
        • SVMの点推定手法によるクエリセグメンテーション
     • 今後の課題
      – SVMの点推定によるクエリセグメンテーションの
        精度改善
        • クエリカウントやウェブカウントの素性組み込み
          方法の検討
      – 英語・カタカナクエリの未知語分割器としての応用
22               Yahoo! JAPAN CONFIDENTIAL
おわり

     • ご清聴ありがとうございました




23            Yahoo! JAPAN CONFIDENTIAL

More Related Content

Similar to クエリログとスニペットの単語連接頻度に基づくWeb検索クエリのセグメンテーション

全文検索In着うた配信サービス
全文検索In着うた配信サービス全文検索In着うた配信サービス
全文検索In着うた配信サービス
techtalkdwango
 
RandomSortFieldとMahoutのCtr比較について
RandomSortFieldとMahoutのCtr比較についてRandomSortFieldとMahoutのCtr比較について
RandomSortFieldとMahoutのCtr比較について
Hirotaka Niisato
 
MP Joinを使った類似データ抽出
MP Joinを使った類似データ抽出MP Joinを使った類似データ抽出
MP Joinを使った類似データ抽出
JAVA DM
 
大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価
Yahoo!デベロッパーネットワーク
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
Shuji Morisaki
 

Similar to クエリログとスニペットの単語連接頻度に基づくWeb検索クエリのセグメンテーション (20)

Introduction to Recommender Systems 2012.1.30 Zansa #3
Introduction to Recommender Systems 2012.1.30 Zansa #3Introduction to Recommender Systems 2012.1.30 Zansa #3
Introduction to Recommender Systems 2012.1.30 Zansa #3
 
2015-1003 英語コーパス学会ワークショップ使用スライド
2015-1003 英語コーパス学会ワークショップ使用スライド2015-1003 英語コーパス学会ワークショップ使用スライド
2015-1003 英語コーパス学会ワークショップ使用スライド
 
全文検索In着うた配信サービス
全文検索In着うた配信サービス全文検索In着うた配信サービス
全文検索In着うた配信サービス
 
RandomSortFieldとMahoutのCtr比較について
RandomSortFieldとMahoutのCtr比較についてRandomSortFieldとMahoutのCtr比較について
RandomSortFieldとMahoutのCtr比較について
 
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27
 
言語処理学会へ遊びに行ったよ
言語処理学会へ遊びに行ったよ言語処理学会へ遊びに行ったよ
言語処理学会へ遊びに行ったよ
 
拡がるディープラーニングの活用
拡がるディープラーニングの活用拡がるディープラーニングの活用
拡がるディープラーニングの活用
 
[data analytics showcase] B14: 文字情報の分析基盤 Mroonga by 株式会社インサイトテクノロジー 小幡 一郎
[data analytics showcase] B14: 文字情報の分析基盤 Mroonga by 株式会社インサイトテクノロジー 小幡 一郎[data analytics showcase] B14: 文字情報の分析基盤 Mroonga by 株式会社インサイトテクノロジー 小幡 一郎
[data analytics showcase] B14: 文字情報の分析基盤 Mroonga by 株式会社インサイトテクノロジー 小幡 一郎
 
pg_bigmと類似度検索
pg_bigmと類似度検索pg_bigmと類似度検索
pg_bigmと類似度検索
 
情報検索の基礎
情報検索の基礎情報検索の基礎
情報検索の基礎
 
全文検索入門
全文検索入門全文検索入門
全文検索入門
 
SeleniumE2Eテストフレームワークを使用したテスト自動化事例 #Seleniumjp
SeleniumE2Eテストフレームワークを使用したテスト自動化事例 #SeleniumjpSeleniumE2Eテストフレームワークを使用したテスト自動化事例 #Seleniumjp
SeleniumE2Eテストフレームワークを使用したテスト自動化事例 #Seleniumjp
 
MP Joinを使った類似データ抽出
MP Joinを使った類似データ抽出MP Joinを使った類似データ抽出
MP Joinを使った類似データ抽出
 
形態素解析器 売ってみた
形態素解析器 売ってみた形態素解析器 売ってみた
形態素解析器 売ってみた
 
大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価
 
SAS Viya Deep Dive: 自然言語処理&AI
SAS Viya Deep Dive: 自然言語処理&AISAS Viya Deep Dive: 自然言語処理&AI
SAS Viya Deep Dive: 自然言語処理&AI
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
 
Optimization and simulation with DataRobot
Optimization and simulation with DataRobotOptimization and simulation with DataRobot
Optimization and simulation with DataRobot
 
TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?
 
発話自動採点システムの研究と開発
発話自動採点システムの研究と開発発話自動採点システムの研究と開発
発話自動採点システムの研究と開発
 

More from Yahoo!デベロッパーネットワーク

More from Yahoo!デベロッパーネットワーク (20)

ゼロから始める転移学習
ゼロから始める転移学習ゼロから始める転移学習
ゼロから始める転移学習
 
継続的なモデルモニタリングを実現するKubernetes Operator
継続的なモデルモニタリングを実現するKubernetes Operator継続的なモデルモニタリングを実現するKubernetes Operator
継続的なモデルモニタリングを実現するKubernetes Operator
 
ヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるかヤフーでは開発迅速性と品質のバランスをどう取ってるか
ヤフーでは開発迅速性と品質のバランスをどう取ってるか
 
オンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes パネルディスカッションオンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes パネルディスカッション
 
LakeTahoe
LakeTahoeLakeTahoe
LakeTahoe
 
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
 
Persistent-memory-native Database High-availability Feature
Persistent-memory-native Database High-availability FeaturePersistent-memory-native Database High-availability Feature
Persistent-memory-native Database High-availability Feature
 
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
 
eコマースと実店舗の相互利益を目指したデザイン #yjtc
eコマースと実店舗の相互利益を目指したデザイン #yjtceコマースと実店舗の相互利益を目指したデザイン #yjtc
eコマースと実店舗の相互利益を目指したデザイン #yjtc
 
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtcヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
 
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtcYahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
 
ビッグデータから人々のムードを捉える #yjtc
ビッグデータから人々のムードを捉える #yjtcビッグデータから人々のムードを捉える #yjtc
ビッグデータから人々のムードを捉える #yjtc
 
サイエンス領域におけるMLOpsの取り組み #yjtc
サイエンス領域におけるMLOpsの取り組み #yjtcサイエンス領域におけるMLOpsの取り組み #yjtc
サイエンス領域におけるMLOpsの取り組み #yjtc
 
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtcヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
 
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtcYahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
 
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
 
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtcPC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
 
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtcモブデザインによる多職種チームのコミュニケーション改善 #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
 
「新しいおうち探し」のためのAIアシスト検索 #yjtc
「新しいおうち探し」のためのAIアシスト検索 #yjtc「新しいおうち探し」のためのAIアシスト検索 #yjtc
「新しいおうち探し」のためのAIアシスト検索 #yjtc
 
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtcユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
 

クエリログとスニペットの単語連接頻度に基づくWeb検索クエリのセグメンテーション

  • 2. 発表内容 • 研究背景 • 研究目的 • Web検索クエリの傾向分析 • クエリログとスニペットの単語連接頻度に基づく クエリセグメンテーション – 提案手法の説明 – 評価実験 • SVMの点推定手法によるクエリセグメンテーション の検証 – 提案手法の説明 – 評価実験 • まとめと今後の課題 2 Yahoo! JAPAN CONFIDENTIAL
  • 3. 研究背景 • Web検索クエリのセグメント位置による 検索結果の変動 – セグメント位置の違いによるクエリ意図の曖昧化 – 新語・流行語に対する単語分割誤り 嵐■トラブルメーカー 嵐■トラブル■メーカー レッドストーン レッド■ストーン リンチーリン リン■チーリン iphone4 iphone■4 3 Yahoo! JAPAN CONFIDENTIAL
  • 4. 【例1】嵐■トラブルメーカー 嵐の音楽PVのページ 嵐のCD・DVDの広告 Yahoo!オークションへの誘導リンク ※2010年10月 Google検索エンジンに移行前 4 Yahoo! JAPAN CONFIDENTIAL
  • 5. 【例1】嵐■トラブル■メーカー 広島大の音楽サークル 個人ブログ サークルページ 美肌の広告 別の曲 外構工事の広告 ※2010年10月 Google検索エンジンに移行前 5 Yahoo! JAPAN CONFIDENTIAL
  • 6. 【例2】iphone■4 ASCII.jpブログ 日経トレンド ※Google検索エンジンに移行後 6 Yahoo! JAPAN CONFIDENTIAL
  • 7. 【例2】iphone4 クチコミ掲示板、 ニュースブログ セグメント位置の違いによって検索結果の劣化が生じる ※Google検索エンジンに移行後 7 Yahoo! JAPAN CONFIDENTIAL
  • 8. 目的 入力クエリに対して、検索精度が向上する クエリセグメンテーション 嵐■トラブル■メーカー 竹内■結子■画像 グランド■セフト■オートバイ■スシティ × × × ○ ○ ○ 嵐■トラブルメーカー 竹内結子■画像 グランド■セフト■オート■バイスシティ 8 Yahoo! JAPAN CONFIDENTIAL
  • 9. 関連研究 • 一般的なクエリセグメンテーションは 単語単位による統計的な意味境界の推定 new york times■subscription – Bergsmaら, 2007 • 様々なルール、単語頻度、単語表記の素性を用いたSVMに よるセグメンテーション – Tanら, 2008 • クエリログとWikipediaコーパスの言語モデル尤度と相互情 報量に基づくセグメンテーション 分かち書きがされていない日本語では、 未知語が多く含まれるWeb検索クエリへの対応は難しい 9 Yahoo! JAPAN CONFIDENTIAL
  • 10. Web検索クエリの傾向分析 • 入力が最も多いセグメンテーションパターン (最頻クエリ)が検索精度向上に適切か? 必ずしもそうではない! • 全体的に単語を長く連接させる傾向がある – 【ex. 】無料サンプル動画,オリンピック参加国, グランドセフトオートバイスシティ■攻略…etc – カタカナ文字列は全て連接させる傾向が高い 検索精度を考慮してクエリに 注意深くセグメントを入れる人は少ない 10 Yahoo! JAPAN CONFIDENTIAL
  • 11. クエリログとスニペットの連接頻度情報に 基づくクエリセグメンテーション クエリセット クエリ 頻度占有率 クエリログから異なりセグメント シェラトングランデ東京ベイ 0.91 位置を持つクエリセットを抽出 シェラトン■グランデ■東京ベイ 0.03 シェラトングランデ■東京ベイ 0.02 シェラトン■グランデ■東京■ベイ 0.01 ①検索クエリの候補選択 頻度か言語モデル尤度を基準に セグメント数の多いクエリを選択 シェラトン■グランデ■東京■ベイ ② Web検索のスニペットを抽出 スニペットの単語連接頻度に基づいて シェラトン■グランデ■東京ベイ 適切なセグメント位置の推定 11 Yahoo! JAPAN CONFIDENTIAL
  • 12. ① 検索クエリの候補選択 • Web検索結果のスニペットから単語連接頻度を 得るための検索クエリ候補を選択 – 最頻クエリの形態素解析 • Yahoo!Japan デベロッパーネック 日本語形態素解析 WebAPIと同等のもの – 最多セグメント数による選択 シェラトングランデ東京ベイ 90 シェラトン■グランデ■東京ベイ 3 • クエリセットの頻度占有率の0.1%を棄却し シェラトングランデ■東京ベイ 2 セグメント数が最大のクエリを選択 シェラトン■グランデ東京ベイ 0.05 – 文字3gram言語モデル尤度による選択 • セグメント位置を<sp>としてカウント n • 1~3gramの生起・連接の対数確率の  log P( x | x i 1 i i 2 , xi 1 ) 相加平均で最大のクエリを選択 max qQ n 1 12 Yahoo! JAPAN CONFIDENTIAL
  • 13. ② Web検索のスニペット抽出& 単語連接頻度によるセグメンテーション • Web検索のスニペットから単語頻度(unigram,bigram)を 求め、セグメント位置の推定 – スコア計算にはシンプソン係数を使用(閾値は0.9) シェラトン グランデ 東京 ベイ score = 0.7 score = 0.6 score = 0.9 score  C (シェラトングランデ) シェラトン グランデ 東京ベイ min(C (シェラトン), C (グランデ)) 13 Yahoo! JAPAN CONFIDENTIAL
  • 14. 評価実験の内容 • 評価方法 – 人手の正解データと提案手法による セグメントしたクエリの一致率を評価 – 正解データ • クエリセットにおける最頻クエリの頻度占有率でバランス よく含まれるように抽出 • 正解データ作成は同じサンプルデータに対し、 2名 でアノテーションを行なった • 評価基準 Query Accuracy クエリの完全一致率 Segment Accuracy セグメント位置の一致率 14 Yahoo! JAPAN CONFIDENTIAL
  • 15. 実験条件 • 比較手法 ベースライン 最頻クエリ 提案手法 形態素解析(スニペットあり,なし) 言語モデル尤度(スニペットあり,なし) 最多セグメント数(スニペットあり,なし) 正解データの期間 2010.10.01 – 31(1ヵ月) 正解データのサンプル数 615件 正解データ同士の一致率 82.4% 言語モデルの学習データ 2010.10.01 – 31(1ヵ月) 検索結果取得数 20 15 Yahoo! JAPAN CONFIDENTIAL
  • 16. 実験結果 人手正解データ 同士の一致率 (82.4%) Query Accuracy(%) 最頻クエリ 形態素解析 言語モデル 最多セグメント数 尤度選択 選択 最頻クエリよりもクエリセット内から 適切なクエリを選ぶことで正解率が向上 16 Yahoo! JAPAN CONFIDENTIAL
  • 17. ここまでのまとめ • 検索精度が向上するクエリセグメンテーション • クエリログとスニペットの単語連接頻度から 適切なクエリのセグメント位置を推定 – クエリセット内から言語モデル尤度や 最多セグメントの基準にクエリ選択 – Web検索のスニペットでの単語連接頻度の考慮 – 最頻クエリより約10pt改善 • 異なりセグメント位置を持つクエリセットが必要 文字や文字種、辞書単語などの素性を用いて、 適切なセグメントを行えないかを検証 17 Yahoo! JAPAN CONFIDENTIAL
  • 18. SVMの点推定手法による クエリセグメンテーション • 文字、文字種、辞書素性を用いて セグメンテーション位置を推定 – SVMの点推定手法による単語分割[Sassano, 2002]、[Neubigら, 2010] – 学習データはクエリログとスニペットから作成したクエリデータ – 単語辞書はipadicと日・英語のWikipedia L R フィギュアスケート 浅田真央 窓幅=5 1gram : L5/ア L4/ス L3/ケ L2/ー L1/ト R1/浅 R2/田 R3/真 R4/央 2gram : L5/アス L4/スケ L3/ケー L2/ート L1/ト浅 R1/浅田 R2/田真 R3/真央 3gram : L5/アスケ L4/スケー L3/ケート L2/ート浅 L1/ト浅田 R1/浅田真 R2/田真央 辞書素性 : L1/スケート R1/浅田 文字種素性 : 文字素性(ひらがな、カタカナ、漢字、数字、英字、シンボル)を文字種に置き換えたもの 18 Yahoo! JAPAN CONFIDENTIAL
  • 19. クエリログとスニペットの連接頻度情報に 基づくクエリセグメンテーション クエリセット シェラトングランデ東京ベイ シェラトン■グランデ■東京ベイ シェラトングランデ■東京ベイ シェラトン■グランデ■東京■ベイ 出力クエリを学習データ として分割精度を検証 ※ 理想的には人手正解データ シェラトン■グランデ■東京■ベイ 学習 シェラトン■グランデ■東京ベイ SVMの点推定による クエリセグメンテーション 19 Yahoo! JAPAN CONFIDENTIAL
  • 20. 評価実験 • 実験内容 – 人手の正解データとの一致率を評価 – 評価基準はQuery Accuracy,Segment Accuracy • 実験条件 SVMの学習データ 2010.10.01~31の上位10万件に対して前 手法を適用した結果 SVM学習器 liblinear 素性 文字ngram,文字種ngram,辞書単語 その他 窓幅=5, ngram=3 20 Yahoo! JAPAN CONFIDENTIAL
  • 21. 実験結果 • クエリログとスニペットを用いた手法の 約85%の精度を達成 – ウェブやクエリの単語頻度を素性として組み込みが 今後の課題 Query-Acc(%) Seg-Acc(%) 言語モデル+スニペット 77.3 96.2 最多セグメント数+スニペット 78.1 96.2 SVM 言語モデル+スニペット 65.9 94.3 SVM 最多セグメント数+スニペット 66.7 94.5 ※ 学習データでの5-fold CVで約83.3% 21 Yahoo! JAPAN CONFIDENTIAL
  • 22. まとめと今後の展開 • まとめ – 検索精度が向上するクエリのセグメンテーションの 提案 • クエリログのスニペットの単語連接頻度より 適切なセグメンテーション位置の推定 • SVMの点推定手法によるクエリセグメンテーション • 今後の課題 – SVMの点推定によるクエリセグメンテーションの 精度改善 • クエリカウントやウェブカウントの素性組み込み 方法の検討 – 英語・カタカナクエリの未知語分割器としての応用 22 Yahoo! JAPAN CONFIDENTIAL
  • 23. おわり • ご清聴ありがとうございました 23 Yahoo! JAPAN CONFIDENTIAL