• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
オープンソースソフトウェア検索サーバ Solr入門
 

オープンソースソフトウェア検索サーバ Solr入門

on

  • 3,631 views

 

Statistics

Views

Total Views
3,631
Views on SlideShare
2,400
Embed Views
1,231

Actions

Likes
3
Downloads
0
Comments
0

6 Embeds 1,231

http://www.ossaj.org 1072
http://551sornwmc.blog109.fc2.com 118
http://control.blog.fc2.com 28
http://ossaj.beta.teshigoto.net 10
https://www.google.co.jp 2
http://ossaj.sakura.ne.jp 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    オープンソースソフトウェア検索サーバ Solr入門 オープンソースソフトウェア検索サーバ Solr入門 Presentation Transcript

    • 株式会社シーマーク 大谷 純
    • u  所属:㈱シーマークu  氏名:大谷 純u  twitter:@johtaniu  ブログ: http://johtani.jugem.jpu  「Apache Solr入門」  の著者の一人u  lucene-gosenのcommitter
    • u  全文検索とはu  Solrの各種機能u  Luceneにまつわるエコシステム
    • u  全文検索とはu  Solrの各種機能u  Luceneにまつわるエコシステム
    • 全文検索(ぜんぶんけんさく、Full textsearch)とは、コンピュータにおいて、複数の文書(ファイル)から特定の文字列を検索すること。「ファイル名検索」や「単一ファイル内の文字列検索」と異なり、「複数文書にまたがって、文書に含まれる全文を対象とした検索」という意味で使用される。 (Wikipediaより)
    • 検索クエリ 検索エンジン インデックス 検索結果
    • u  Solr:Lucene(全文検索ライブラリ)を活用した検 索エンジンサーバu  ApacheプロジェクトのOSSu  Javaで実装u  検索補助のための機能がいっぱいu  転置インデックス方式による全文検索
    • 検索クエリ(HTTPリクエスト) Solr インデックス 検索結果(HTTPレスポンス)
    • 1 カツオはサザエの弟 対象とする文章(ドキュメント)に 2 サザエはワカメの姉 IDを付与 カツオ 1 は 1 サザエ 1 の 1 弟 1 文章を単語に分割し、サザエ 2 は 2 ワカメ 2 の 2 姉 2 単語:ドキュメントIDと整理 の 1 2 ワカメ 2 単語をキー、ドキュメントIDの は 1 2 弟 1 配列を値とする表を作成   = カツオ 1 姉 2 転置インデックス サザエ 1 2
    • 転置インデックス の 1 2 検索クエリ 検索結果 は 1 2 カツオ カツオ 1 1 AND サザエ 1 2 サザエ ワカメ 2 弟 1 姉 2
    • u  フィールド:1転置インデックスの定義u  スキーマ:フィールドを定義する設定Solrは大きな1つのテーブル(スキーマ)に複数のカラム(フィールド)
    • u  全文検索とはu  Solrの各種機能u  Luceneにまつわるエコシステム
    • u  AND、OR、NOTによる検索u  範囲検索u  スコアによるソートu  特定フィールドによるソート
    • u  検索結果の分類の表示 絞り込み検索の候補として表示u  複数のファセットを1回の検索で 取得可能u  項目ごとのドキュメント数も取得
    • u  検索キーワードがどの部分にヒットしたかu  検索結果の要約表示u  キーワードの強調表示
    • u  マスタ/スレーブ構成u  検索の負荷を分散 検索 slave 登録・更新 master レプリケート 検索 slave
    • u  複数のインデックスを1つのインデックスとして検索u  大量データに対してスケールアウトで対応可能 Solr 検索 Solr index 検索 Solr index
    • u  スペルチェック(SpellCheck)u  レコメンド(MoreLikeThis)u  スコアブースト(QueryElevation)
    • u  マルチコアu  類義語辞書(Synonym)u  各種言語向け機能 言語判定、各言語向けのTokenizer
    • u  全文検索とはu  Solrの各種機能u  Luceneにまつわるエコシステム
    • u  Luceneは様々なOSSに利用されている u  Solr(検索エンジンサーバ)、Nutch(クローラ+ 検索エンジン)u  Luceneを発端にHadoopが作られた u  Nutchの仕組みを大規模対応するために実装さ れたのがHadoop