Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
株式会社シーマーク  大谷 純
u  所属:㈱シーマークu  氏名:大谷 純u  twitter:@johtaniu  ブログ:    http://johtani.jugem.jpu  「Apache Solr入門」     の著者の一人u  lucene-go...
u    全文検索とはu    Solrの各種機能u    Luceneにまつわるエコシステム
u    全文検索とはu    Solrの各種機能u    Luceneにまつわるエコシステム
全文検索(ぜんぶんけんさく、Full textsearch)とは、コンピュータにおいて、複数の文書(ファイル)から特定の文字列を検索すること。「ファイル名検索」や「単一ファイル内の文字列検索」と異なり、「複数文書にまたがって、文書に含まれる全文...
検索クエリ	                    検索エンジン	          	                     インデックス	検索結果
u    Solr:Lucene(全文検索ライブラリ)を活用した検      索エンジンサーバu    ApacheプロジェクトのOSSu    Javaで実装u    検索補助のための機能がいっぱいu    転置インデックス方式によ...
検索クエリ(HTTPリクエスト)	                      Solr	        	                     インデックス	検索結果(HTTPレスポンス)
1	         カツオはサザエの弟                                                 対象とする文章(ドキュメント)に               2	         サザエはワカメの姉	 ...
転置インデックス	                  の	   1	 2	検索クエリ	                                検索結果	                  は	   1	 2	カツオ	          ...
u    フィールド:1転置インデックスの定義u    スキーマ:フィールドを定義する設定Solrは大きな1つのテーブル(スキーマ)に複数のカラム(フィールド)
u    全文検索とはu    Solrの各種機能u    Luceneにまつわるエコシステム
u    AND、OR、NOTによる検索u    範囲検索u    スコアによるソートu    特定フィールドによるソート
u    検索結果の分類の表示      絞り込み検索の候補として表示u    複数のファセットを1回の検索で      取得可能u    項目ごとのドキュメント数も取得
u    検索キーワードがどの部分にヒットしたかu    検索結果の要約表示u    キーワードの強調表示
u    マスタ/スレーブ構成u    検索の負荷を分散                                                検索	                                      sla...
u    複数のインデックスを1つのインデックスとして検索u    大量データに対してスケールアウトで対応可能                              Solr	       検索	   Solr	            ...
u    スペルチェック(SpellCheck)u    レコメンド(MoreLikeThis)u    スコアブースト(QueryElevation)
u    マルチコアu    類義語辞書(Synonym)u    各種言語向け機能      言語判定、各言語向けのTokenizer
u    全文検索とはu    Solrの各種機能u    Luceneにまつわるエコシステム
u    Luceneは様々なOSSに利用されている      u    Solr(検索エンジンサーバ)、Nutch(クローラ+            検索エンジン)u    Luceneを発端にHadoopが作られた      u  ...
オープンソースソフトウェア検索サーバ Solr入門
Upcoming SlideShare
Loading in …5
×

オープンソースソフトウェア検索サーバ Solr入門

4,808 views

Published on

OSSAJミニセミナー発表資料

Published in: Technology
  • Login to see the comments

オープンソースソフトウェア検索サーバ Solr入門

  1. 1. 株式会社シーマーク 大谷 純
  2. 2. u  所属:㈱シーマークu  氏名:大谷 純u  twitter:@johtaniu  ブログ: http://johtani.jugem.jpu  「Apache Solr入門」  の著者の一人u  lucene-gosenのcommitter
  3. 3. u  全文検索とはu  Solrの各種機能u  Luceneにまつわるエコシステム
  4. 4. u  全文検索とはu  Solrの各種機能u  Luceneにまつわるエコシステム
  5. 5. 全文検索(ぜんぶんけんさく、Full textsearch)とは、コンピュータにおいて、複数の文書(ファイル)から特定の文字列を検索すること。「ファイル名検索」や「単一ファイル内の文字列検索」と異なり、「複数文書にまたがって、文書に含まれる全文を対象とした検索」という意味で使用される。 (Wikipediaより)
  6. 6. 検索クエリ 検索エンジン インデックス 検索結果
  7. 7. u  Solr:Lucene(全文検索ライブラリ)を活用した検 索エンジンサーバu  ApacheプロジェクトのOSSu  Javaで実装u  検索補助のための機能がいっぱいu  転置インデックス方式による全文検索
  8. 8. 検索クエリ(HTTPリクエスト) Solr インデックス 検索結果(HTTPレスポンス)
  9. 9. 1 カツオはサザエの弟 対象とする文章(ドキュメント)に 2 サザエはワカメの姉 IDを付与 カツオ 1 は 1 サザエ 1 の 1 弟 1 文章を単語に分割し、サザエ 2 は 2 ワカメ 2 の 2 姉 2 単語:ドキュメントIDと整理 の 1 2 ワカメ 2 単語をキー、ドキュメントIDの は 1 2 弟 1 配列を値とする表を作成   = カツオ 1 姉 2 転置インデックス サザエ 1 2
  10. 10. 転置インデックス の 1 2 検索クエリ 検索結果 は 1 2 カツオ カツオ 1 1 AND サザエ 1 2 サザエ ワカメ 2 弟 1 姉 2
  11. 11. u  フィールド:1転置インデックスの定義u  スキーマ:フィールドを定義する設定Solrは大きな1つのテーブル(スキーマ)に複数のカラム(フィールド)
  12. 12. u  全文検索とはu  Solrの各種機能u  Luceneにまつわるエコシステム
  13. 13. u  AND、OR、NOTによる検索u  範囲検索u  スコアによるソートu  特定フィールドによるソート
  14. 14. u  検索結果の分類の表示 絞り込み検索の候補として表示u  複数のファセットを1回の検索で 取得可能u  項目ごとのドキュメント数も取得
  15. 15. u  検索キーワードがどの部分にヒットしたかu  検索結果の要約表示u  キーワードの強調表示
  16. 16. u  マスタ/スレーブ構成u  検索の負荷を分散 検索 slave 登録・更新 master レプリケート 検索 slave
  17. 17. u  複数のインデックスを1つのインデックスとして検索u  大量データに対してスケールアウトで対応可能 Solr 検索 Solr index 検索 Solr index
  18. 18. u  スペルチェック(SpellCheck)u  レコメンド(MoreLikeThis)u  スコアブースト(QueryElevation)
  19. 19. u  マルチコアu  類義語辞書(Synonym)u  各種言語向け機能 言語判定、各言語向けのTokenizer
  20. 20. u  全文検索とはu  Solrの各種機能u  Luceneにまつわるエコシステム
  21. 21. u  Luceneは様々なOSSに利用されている u  Solr(検索エンジンサーバ)、Nutch(クローラ+ 検索エンジン)u  Luceneを発端にHadoopが作られた u  Nutchの仕組みを大規模対応するために実装さ れたのがHadoop

×