オープンソースソフトウェア検索サーバ Solr入門

4,365
-1

Published on

Published in: Technology
0 Comments
5 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
4,365
On Slideshare
0
From Embeds
0
Number of Embeds
6
Actions
Shares
0
Downloads
0
Comments
0
Likes
5
Embeds 0
No embeds

No notes for slide

オープンソースソフトウェア検索サーバ Solr入門

  1. 1. 株式会社シーマーク 大谷 純
  2. 2. u  所属:㈱シーマークu  氏名:大谷 純u  twitter:@johtaniu  ブログ: http://johtani.jugem.jpu  「Apache Solr入門」  の著者の一人u  lucene-gosenのcommitter
  3. 3. u  全文検索とはu  Solrの各種機能u  Luceneにまつわるエコシステム
  4. 4. u  全文検索とはu  Solrの各種機能u  Luceneにまつわるエコシステム
  5. 5. 全文検索(ぜんぶんけんさく、Full textsearch)とは、コンピュータにおいて、複数の文書(ファイル)から特定の文字列を検索すること。「ファイル名検索」や「単一ファイル内の文字列検索」と異なり、「複数文書にまたがって、文書に含まれる全文を対象とした検索」という意味で使用される。 (Wikipediaより)
  6. 6. 検索クエリ 検索エンジン インデックス 検索結果
  7. 7. u  Solr:Lucene(全文検索ライブラリ)を活用した検 索エンジンサーバu  ApacheプロジェクトのOSSu  Javaで実装u  検索補助のための機能がいっぱいu  転置インデックス方式による全文検索
  8. 8. 検索クエリ(HTTPリクエスト) Solr インデックス 検索結果(HTTPレスポンス)
  9. 9. 1 カツオはサザエの弟 対象とする文章(ドキュメント)に 2 サザエはワカメの姉 IDを付与 カツオ 1 は 1 サザエ 1 の 1 弟 1 文章を単語に分割し、サザエ 2 は 2 ワカメ 2 の 2 姉 2 単語:ドキュメントIDと整理 の 1 2 ワカメ 2 単語をキー、ドキュメントIDの は 1 2 弟 1 配列を値とする表を作成   = カツオ 1 姉 2 転置インデックス サザエ 1 2
  10. 10. 転置インデックス の 1 2 検索クエリ 検索結果 は 1 2 カツオ カツオ 1 1 AND サザエ 1 2 サザエ ワカメ 2 弟 1 姉 2
  11. 11. u  フィールド:1転置インデックスの定義u  スキーマ:フィールドを定義する設定Solrは大きな1つのテーブル(スキーマ)に複数のカラム(フィールド)
  12. 12. u  全文検索とはu  Solrの各種機能u  Luceneにまつわるエコシステム
  13. 13. u  AND、OR、NOTによる検索u  範囲検索u  スコアによるソートu  特定フィールドによるソート
  14. 14. u  検索結果の分類の表示 絞り込み検索の候補として表示u  複数のファセットを1回の検索で 取得可能u  項目ごとのドキュメント数も取得
  15. 15. u  検索キーワードがどの部分にヒットしたかu  検索結果の要約表示u  キーワードの強調表示
  16. 16. u  マスタ/スレーブ構成u  検索の負荷を分散 検索 slave 登録・更新 master レプリケート 検索 slave
  17. 17. u  複数のインデックスを1つのインデックスとして検索u  大量データに対してスケールアウトで対応可能 Solr 検索 Solr index 検索 Solr index
  18. 18. u  スペルチェック(SpellCheck)u  レコメンド(MoreLikeThis)u  スコアブースト(QueryElevation)
  19. 19. u  マルチコアu  類義語辞書(Synonym)u  各種言語向け機能 言語判定、各言語向けのTokenizer
  20. 20. u  全文検索とはu  Solrの各種機能u  Luceneにまつわるエコシステム
  21. 21. u  Luceneは様々なOSSに利用されている u  Solr(検索エンジンサーバ)、Nutch(クローラ+ 検索エンジン)u  Luceneを発端にHadoopが作られた u  Nutchの仕組みを大規模対応するために実装さ れたのがHadoop

×