Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

情報検索の基礎からデータの徹底活用まで

1,733 views

Published on

Published in: Technology
  • Be the first to comment

情報検索の基礎からデータの徹底活用まで

  1. 1. 情報検索の基礎から データの徹底活⽤用まで Open  Seminar  2013 株式会社ロンウイット  関⼝口宏司 @kojisays
  2. 2. ⾃自⼰己紹介 関⼝口宏司        @kojisays ✓ ✓株式会社ロンウイット  創業 ✓現役⼤大学院⽣生 ✓著書 ✓Apache  Lucene  ⼊入⾨門 ✓Apache  Solr  ⼊入⾨門
  3. 3. ロンウイット ✓Apache  Lucene/Solr/ManifoldCF ✓トレーニング ✓コンサルティング ✓サブスクリプション ✓検索語の分析&可視化 ✓ASFコミッター率  100% 仏語 ✓社名の由来:丸(ROND)⼋八(HUIT)
  4. 4. Lucene/Solr ✓オープンソースの検索エンジン ✓Lucene  :検索ライブラリ ✓Solr  :検索サーバ ✓国内外に多数のユーザ事例
  5. 5. 情報検索 の基礎
  6. 6. どこで使う? ✓公開Webページ ✓社内検索 ✓Web/FS/RDB/CMS横断検索 ✓セキュリティを考慮
  7. 7. 基本のアーキテク チャ Application Server Apache Solr Database Index
  8. 8. 基本のアーキテク チャ Application Server Apache Solr File Server Apache ManifoldCF Index CMS
  9. 9. Index 転置インデッ ク ス
  10. 10. Index 転置インデッ ク ス 1:  カツオはサザエの弟 2:  サザエはワカメの姉 3:  ワカメはカツオの妹
  11. 11. Index 転置インデッ ク ス カツオ:1,は:1,サザエ:1,の:1,弟:1 サザエ:2,は:2,ワカメ:2,の:2,姉:2 ワカメ:3,は:3,カツオ:3,の:3,妹:3
  12. 12. Index 転置インデッ ク ス の:1,2,3 は:1,2,3 カツオ:1,3 サザエ:1,2 ワカメ:2,3 弟:1 姉:2 妹:3
  13. 13. Index "サザエ" で検索 転置インデッ ク ス の:1,2,3 は:1,2,3 カツオ:1,3 サザエ:1,2 ワカメ:2,3 弟:1 姉:2 妹:3 ドキュメント 1,2 がヒット
  14. 14. Index 転置インデッ ク ス "ワカメ  AND  姉" で検索 の:1,2,3 は:1,2,3 カツオ:1,3 サザエ:1,2 ワカメ:2,3 弟:1 姉:2 妹:3 ドキュメント 2 がヒット
  15. 15. Index 転置インデッ ク ス "ワカメ  OR  妹" で検索 の:1,2,3 は:1,2,3 カツオ:1,3 サザエ:1,2 ワカメ:2,3 弟:1 姉:2 妹:3 ドキュメント 2,3 がヒット (ドキュメント3が上位)
  16. 16. 妹 q:ワカメ  OR  妹 d3:ワカメはカツオの妹 ベ ク トル空間モデル ワカメ d2:サザエはワカメの姉 Vector Space Model
  17. 17. 日本語単語分割 の 形態素解析 ✓ 方 ⽂文字N-gram ✓ 法
  18. 18. 日本語単語分割 の 形態素解析 ✓ 方 ⽂文字N-gram ✓ 法 カツオはサザエの弟
  19. 19. 日本語単語分割 の 形態素解析 ✓ 方 ⽂文字N-gram ✓ 法 カツ/ツオ/オは/はサ/サザ/ザエ/エの/の弟
  20. 20. 単語分割の多 義 性 ここではきものを 脱いでください。
  21. 21. 単語分割の多 義 性 製造部⾨門⻑⾧長⾕谷川
  22. 22. ⽇日本語の表記揺れ ✓ ✓ ✓ ✓ ✓ ✓ 半⾓角全⾓角、⻑⾧長⾳音記号 ベテラン  →  ヴェテラン 慶應⼤大学  →  慶応⼤大学 2013年  →  平成25年 省略語("⾃自賠責保険") 類義語
  23. 23. 検 索 精 度
  24. 24. 正解 検 索 精 度
  25. 25. システム出⼒力力 正解 検 索 精 度
  26. 26. 精度  P  =  B  /  (A+B) 再現率  R  =  B  /  (B+C) A システム出⼒力力 B C 正解 検 索 精 度
  27. 27. 基本となる施策 ✓ ✓ ✓ ファセット ハイライト N-gram 表記揺れ対策
  28. 28. システム出⼒力力 正解 検 索 精 度
  29. 29. 満足度を高める施策 ✓ ✓ ✓ 多義対応形態素解析器 類義語辞書対策 HTMLノイズ除去 ランキングチューニング
  30. 30. システム出⼒力力 正解 検 索 精 度
  31. 31. 満足度を高める施策 もっと ✓ ✓ ✓ ✓ ✓ 専⾨門⽤用語抽出 検索語サジェスチョン もしかして検索 パーソナライズ クラスタリング レコメンデーション
  32. 32. 日本語の特 徴 多⽂文字種類数 ✓ ✓ ✓ ✓ ✓ 多表記      れ 種類数 揺       短単語⻑⾧長 単語分割の多義性 IMEの存在 ))
  33. 33. データの 徹底活用
  34. 34. 活⽤用できるデータ ✓ ✓ ✓ ✓ ✓ ✓ ✓ 検索対象データ ユーザ投稿データ アクセスログ 検索ログ Solrインデックス OSS辞書 Wikipedia(CC-BY-SA  3.0)
  35. 35. まとめ 勝ち組の Architecture
  36. 36. analyze, feedback, ... Synonym Extraction Application Server Access Log Apache Solr Query Log data srcs Index Apache ManifoldCF Wiki Pedia Term Extraction Knowledge DIC Morphological Analyzer Open Source Software Community
  37. 37. 参考⽂文献 ✓NLP  x  Lucene/Solr http://www.slideshare.net/KojiSekiguchi/nlp-x-lucenesolr ✓辞書型コーパスからの類義語知識の⾃自 動獲得 http://www.slideshare.net/KojiSekiguchi/wikipediasolr ✓Luceneインデックスからの専⾨門⽤用語 抽出 http://www.slideshare.net/KojiSekiguchi/lucene-terms-extraction
  38. 38. ご静聴あり がとうござ いました。

×