Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

コーパス学習による Apache Solr の徹底活用

2,932 views

Published on

第14回Solr勉強会の発表資料です。

Published in: Technology
  • Be the first to comment

コーパス学習による Apache Solr の徹底活用

  1. 1. コーパス学習による Apache Solr の徹底活用 関口宏司@ロンウイット 1
  2. 2. 情報検索の性能指標 ドキュメントの全体集合 2
  3. 3. 情報検索の性能指標 正解 3
  4. 4. 情報検索の性能指標 システム出力正解 4
  5. 5. 情報検索の性能指標 精度 : P = B / ( A + B ) 再現率 : R = B / ( B + C ) A B C システム出力正解 5
  6. 6. 精度と再現率 精度と再現率はトレードオフの関係にある! 6
  7. 7. 精度と再現率 精度と再現率はトレードオフの関係にある! 正解 7
  8. 8. 精度と再現率 精度と再現率はトレードオフの関係にある! システム出力正解 高精度 低再現率 8
  9. 9. 精度と再現率 精度と再現率はトレードオフの関係にある! システム出力正解 低精度 高再現率 9
  10. 10. Apache Solr の徹底活用 表記揺れへの対応 絞り込み検索による 漸次的精度改善 ランキング チューニング 10
  11. 11. Apache Solr の徹底活用 表記揺れへの対応 絞り込み検索による 漸次的精度改善 ランキング チューニング 11
  12. 12. 表記揺れへの対応後 システム出力正解 12
  13. 13. 漸次的精度改善 13
  14. 14. 漸次的精度改善 q=ハワイ システム出力正解 14
  15. 15. 漸次的精度改善 システム出力正解 予算(10~15万円) で絞り込む 15
  16. 16. 漸次的精度改善 システム出力正解 予算(10~15万円) で絞り込む 出発地(羽田空港) で絞り込む 16
  17. 17. 構造化文書 ID ツアー名価格出発地 1 ハワイオアフ島7日間9万円成田 2 ハワイオアフ島&マウイ島燃油込み12万円羽田 17
  18. 18. 非構造化文書はどうする? • 非構造化文書の例 • WordやPDFファイル • 新聞記事 • 書籍 18
  19. 19. 非構造化文書 ID 記事 1 安倍首相は12日、甲府市で開かれた自民党ゴルフコンペで… 2 モスクワで開かれている世界陸上の男子100m予選で、日本の高校生桐 生が… : : 19
  20. 20. 非構造化文書の構造化 ID 記事人名地名イベント… 1 安倍首相は12日、甲府市で開かれた 自民党ゴルフコンペで… 安倍甲府市ゴルフコ ンペ 2 モスクワで開かれている世界陸上の 男子100m予選で、日本の高校生桐生 が… 桐生モスクワ、 日本世界陸上 : : 20
  21. 21. アーキテクチャ Update Request Processor CRFsuite Corpus Model InSdoelrx Docs 21
  22. 22. ビジネス志向のタグ ACCESS FOOD PLAN DATETIME LANGUAGE PRINTING DISEASE LOCATION PRODUCT EVENT ORGANIZATION TITLE FACILITY PERSON VEHICLE 22
  23. 23. 参考文献 • Apache Solr 無料セミナー(毎月開催) • http://www.rondhuit.com/services/ seminars.html • 情報検索のための自然言語処理ツール群の開発 • https://dspace.jaist.ac.jp/dspace/handle/ 10119/12033 23
  24. 24. ご静聴ありがとう ございました 24

×