Successfully reported this slideshow.
Your SlideShare is downloading. ×

オープンソースソフトウェア検索サーバ Solr入門

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Loading in …3
×

Check these out next

1 of 22 Ad

More Related Content

More from Open Source Software Association of Japan (20)

Advertisement

Recently uploaded (20)

オープンソースソフトウェア検索サーバ Solr入門

  1. 1. 株式会社シーマーク 大谷 純
  2. 2. u  所属:㈱シーマーク u  氏名:大谷 純 u  twitter:@johtani u  ブログ: http://johtani.jugem.jp u  「Apache Solr入門」  の著者の一人 u  lucene-gosenのcommitter
  3. 3. u  全文検索とは u  Solrの各種機能 u  Luceneにまつわるエコシステム
  4. 4. u  全文検索とは u  Solrの各種機能 u  Luceneにまつわるエコシステム
  5. 5. 全文検索(ぜんぶんけんさく、Full text search)とは、コンピュータにおいて、複数の文 書(ファイル)から特定の文字列を検索すること。 「ファイル名検索」や「単一ファイル内の文字列 検索」と異なり、「複数文書にまたがって、文書 に含まれる全文を対象とした検索」という意味で 使用される。 (Wikipediaより)
  6. 6. 検索クエリ 検索エンジン インデックス 検索結果
  7. 7. u  Solr:Lucene(全文検索ライブラリ)を活用した検 索エンジンサーバ u  ApacheプロジェクトのOSS u  Javaで実装 u  検索補助のための機能がいっぱい u  転置インデックス方式による全文検索
  8. 8. 検索クエリ(HTTPリクエスト) Solr インデックス 検索結果(HTTPレスポンス)
  9. 9. 1 カツオはサザエの弟 対象とする文章(ドキュメント)に 2 サザエはワカメの姉 IDを付与 カツオ 1 は 1 サザエ 1 の 1 弟 1 文章を単語に分割し、 サザエ 2 は 2 ワカメ 2 の 2 姉 2 単語:ドキュメントIDと整理 の 1 2 ワカメ 2 単語をキー、ドキュメントIDの は 1 2 弟 1 配列を値とする表を作成   = カツオ 1 姉 2 転置インデックス サザエ 1 2
  10. 10. 転置インデックス の 1 2 検索クエリ 検索結果 は 1 2 カツオ カツオ 1 1 AND サザエ 1 2 サザエ ワカメ 2 弟 1 姉 2
  11. 11. u  フィールド:1転置インデックスの定義 u  スキーマ:フィールドを定義する設定 Solrは大きな1つのテーブル(スキーマ)に複数 のカラム(フィールド)
  12. 12. u  全文検索とは u  Solrの各種機能 u  Luceneにまつわるエコシステム
  13. 13. u  AND、OR、NOTによる検索 u  範囲検索 u  スコアによるソート u  特定フィールドによるソート
  14. 14. u  検索結果の分類の表示 絞り込み検索の候補として表示 u  複数のファセットを1回の検索で 取得可能 u  項目ごとのドキュメント数も取得
  15. 15. u  検索キーワードがどの部分にヒットしたか u  検索結果の要約表示 u  キーワードの強調表示
  16. 16. u  マスタ/スレーブ構成 u  検索の負荷を分散 検索 slave 登録・更新 master レプリケート 検索 slave
  17. 17. u  複数のインデックスを1つのインデックスとして検索 u  大量データに対してスケールアウトで対応可能 Solr 検索 Solr index 検索 Solr index
  18. 18. u  スペルチェック(SpellCheck) u  レコメンド(MoreLikeThis) u  スコアブースト(QueryElevation)
  19. 19. u  マルチコア u  類義語辞書(Synonym) u  各種言語向け機能 言語判定、各言語向けのTokenizer
  20. 20. u  全文検索とは u  Solrの各種機能 u  Luceneにまつわるエコシステム
  21. 21. u  Luceneは様々なOSSに利用されている u  Solr(検索エンジンサーバ)、Nutch(クローラ+ 検索エンジン) u  Luceneを発端にHadoopが作られた u  Nutchの仕組みを大規模対応するために実装さ れたのがHadoop

×