情報検索の基礎からデータの徹底活用まで

  • 797 views
Uploaded on

 

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
797
On Slideshare
0
From Embeds
0
Number of Embeds
2

Actions

Shares
Downloads
10
Comments
0
Likes
3

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. 情報検索の基礎から データの徹底活⽤用まで Open  Seminar  2013 株式会社ロンウイット  関⼝口宏司 @kojisays
  • 2. ⾃自⼰己紹介 関⼝口宏司        @kojisays ✓ ✓株式会社ロンウイット  創業 ✓現役⼤大学院⽣生 ✓著書 ✓Apache  Lucene  ⼊入⾨門 ✓Apache  Solr  ⼊入⾨門
  • 3. ロンウイット ✓Apache  Lucene/Solr/ManifoldCF ✓トレーニング ✓コンサルティング ✓サブスクリプション ✓検索語の分析&可視化 ✓ASFコミッター率  100% 仏語 ✓社名の由来:丸(ROND)⼋八(HUIT)
  • 4. Lucene/Solr ✓オープンソースの検索エンジン ✓Lucene  :検索ライブラリ ✓Solr  :検索サーバ ✓国内外に多数のユーザ事例
  • 5. 情報検索 の基礎
  • 6. どこで使う? ✓公開Webページ ✓社内検索 ✓Web/FS/RDB/CMS横断検索 ✓セキュリティを考慮
  • 7. 基本のアーキテク チャ Application Server Apache Solr Database Index
  • 8. 基本のアーキテク チャ Application Server Apache Solr File Server Apache ManifoldCF Index CMS
  • 9. Index 転置インデッ ク ス
  • 10. Index 転置インデッ ク ス 1:  カツオはサザエの弟 2:  サザエはワカメの姉 3:  ワカメはカツオの妹
  • 11. Index 転置インデッ ク ス カツオ:1,は:1,サザエ:1,の:1,弟:1 サザエ:2,は:2,ワカメ:2,の:2,姉:2 ワカメ:3,は:3,カツオ:3,の:3,妹:3
  • 12. Index 転置インデッ ク ス の:1,2,3 は:1,2,3 カツオ:1,3 サザエ:1,2 ワカメ:2,3 弟:1 姉:2 妹:3
  • 13. Index "サザエ" で検索 転置インデッ ク ス の:1,2,3 は:1,2,3 カツオ:1,3 サザエ:1,2 ワカメ:2,3 弟:1 姉:2 妹:3 ドキュメント 1,2 がヒット
  • 14. Index 転置インデッ ク ス "ワカメ  AND  姉" で検索 の:1,2,3 は:1,2,3 カツオ:1,3 サザエ:1,2 ワカメ:2,3 弟:1 姉:2 妹:3 ドキュメント 2 がヒット
  • 15. Index 転置インデッ ク ス "ワカメ  OR  妹" で検索 の:1,2,3 は:1,2,3 カツオ:1,3 サザエ:1,2 ワカメ:2,3 弟:1 姉:2 妹:3 ドキュメント 2,3 がヒット (ドキュメント3が上位)
  • 16. 妹 q:ワカメ  OR  妹 d3:ワカメはカツオの妹 ベ ク トル空間モデル ワカメ d2:サザエはワカメの姉 Vector Space Model
  • 17. 日本語単語分割 の 形態素解析 ✓ 方 ⽂文字N-gram ✓ 法
  • 18. 日本語単語分割 の 形態素解析 ✓ 方 ⽂文字N-gram ✓ 法 カツオはサザエの弟
  • 19. 日本語単語分割 の 形態素解析 ✓ 方 ⽂文字N-gram ✓ 法 カツ/ツオ/オは/はサ/サザ/ザエ/エの/の弟
  • 20. 単語分割の多 義 性 ここではきものを 脱いでください。
  • 21. 単語分割の多 義 性 製造部⾨門⻑⾧長⾕谷川
  • 22. ⽇日本語の表記揺れ ✓ ✓ ✓ ✓ ✓ ✓ 半⾓角全⾓角、⻑⾧長⾳音記号 ベテラン  →  ヴェテラン 慶應⼤大学  →  慶応⼤大学 2013年  →  平成25年 省略語("⾃自賠責保険") 類義語
  • 23. 検 索 精 度
  • 24. 正解 検 索 精 度
  • 25. システム出⼒力力 正解 検 索 精 度
  • 26. 精度  P  =  B  /  (A+B) 再現率  R  =  B  /  (B+C) A システム出⼒力力 B C 正解 検 索 精 度
  • 27. 基本となる施策 ✓ ✓ ✓ ファセット ハイライト N-gram 表記揺れ対策
  • 28. システム出⼒力力 正解 検 索 精 度
  • 29. 満足度を高める施策 ✓ ✓ ✓ 多義対応形態素解析器 類義語辞書対策 HTMLノイズ除去 ランキングチューニング
  • 30. システム出⼒力力 正解 検 索 精 度
  • 31. 満足度を高める施策 もっと ✓ ✓ ✓ ✓ ✓ 専⾨門⽤用語抽出 検索語サジェスチョン もしかして検索 パーソナライズ クラスタリング レコメンデーション
  • 32. 日本語の特 徴 多⽂文字種類数 ✓ ✓ ✓ ✓ ✓ 多表記      れ 種類数 揺       短単語⻑⾧長 単語分割の多義性 IMEの存在 ))
  • 33. データの 徹底活用
  • 34. 活⽤用できるデータ ✓ ✓ ✓ ✓ ✓ ✓ ✓ 検索対象データ ユーザ投稿データ アクセスログ 検索ログ Solrインデックス OSS辞書 Wikipedia(CC-BY-SA  3.0)
  • 35. まとめ 勝ち組の Architecture
  • 36. analyze, feedback, ... Synonym Extraction Application Server Access Log Apache Solr Query Log data srcs Index Apache ManifoldCF Wiki Pedia Term Extraction Knowledge DIC Morphological Analyzer Open Source Software Community
  • 37. 参考⽂文献 ✓NLP  x  Lucene/Solr http://www.slideshare.net/KojiSekiguchi/nlp-x-lucenesolr ✓辞書型コーパスからの類義語知識の⾃自 動獲得 http://www.slideshare.net/KojiSekiguchi/wikipediasolr ✓Luceneインデックスからの専⾨門⽤用語 抽出 http://www.slideshare.net/KojiSekiguchi/lucene-terms-extraction
  • 38. ご静聴あり がとうござ いました。