Apache Solr 入門

Apache Solr 入門
第20回 SOLR勉強会

自己紹介
• 西本順平
• デジタル・インフォメーション・テクノロジー株式会社
• Solr/Elasticsearch 導入運用改善（Solr歴 6年）
• 少年サッカーコーチ
• ランニングで23kmを帰宅がマイブーム

Apache Solr
• オープンソースソフトウェア・コミュニティのApache Software Foundationに
2006年に登録され2007年から支援・管理され、無償で利用し続けることが保証
されている
• コミュニティが活発であり、不具合に対して、迅速に修正される
• 拡張性の高いインターフェースが用意されており、カスタマイズ可能である

一般的なシステム構成
Solr
サーバ
Web
サーバ
Batch
サーバ
index
RDB
internet 社内文書
etc…
凡例）
検索
更新
インポート
検索対象リソース

Solrサーバ構成
Jetty
Solr
Lucene
Java アプリケーションサーバ
検索・更新リクエストを提供するサーバ機能
Indexへの操作を提供する機能

一般的な検索方式
• 順次検索方式
• 検索対象のドキュメントを先頭から検索する
• grep コマンド、RDBのLIKE検索
• 転置インデックス検索方式
• 検索対象のドキュメントの索引（転置インデックス）を検索する
• 多くの検索エンジンで採用される大量のドキュメントを高速に検索する手法
Solrは転置インデックス検索方式を採用

転置インデックス作成（ドキュメント更新）
の 1, 2, 3
は 1, 2, 3
カツオ 1, 3
サザエ 1, 2
ワカメ 2, 3
姉 2
弟 1
妹 3
1 カツオはサザエの弟
2 サザエはワカメの姉
3 ワカメはカツオの妹
検索対象のドキュメント転置インデックス（索引）
ドキュメントを単語に区切り
ドキュメント番号で紐付け

転置インデックスの検索
の 1, 2, 3
は 1, 2, 3
カツオ 1, 3
サザエ 1, 2
ワカメ 2, 3
姉 2
弟 1
妹 3
転置インデックス（索引）
サザエ
検索ワード
AND ワカメ
2 サザエはワカメの姉
ドキュメント２がヒット

検索までの手順
• スキーマの定義
• 検索対象を調査して、フィールド毎にルールを決める
• インデックスの作成
• 転置インデックスを作成する

ドキュメントと検索対象の調査
• 検索対象のドキュメントに対してどのような検索をするのか整理
項目データどんな検索する？
タイトル Apache Solr 入門オープンソース全文検索エンジン単語で検索
価格 3888 価格幅で検索
ページ 373 少ない順に結果を見る

スキーマ定義
• フィールド単位でルールを作成
項目どんな検索する？フィールド名フィールドタイプ
タイトル単語で検索 title text_ja
価格価格幅で検索 price tint
ページ数少ない順に結果を見る page tint

フィールドタイプ
• 非テキスト系フィールド
• 数値や単語分割の必要のないフィールド
• string 書籍コード等のコード化されるような文字列や短い固有名詞
• tint/tdouble 価格等の整数値や、浮動小数値
• tdate 日付
• etc…
• テキスト系フィールド
• 単語分割を行うフィールド
• 日本語の文章等のキーワード検索に多用されるフィールド
一般的に利用されるフィールドタイプは準備されています

テキスト系フィールドの単語分割
• text_ja の単語分割
特に好きなＡｐａｃｈｅｿｰﾗｰの本を買ったオリジナル文章
特に好きなＡｐａｃｈｅｿｰﾗｰの本を買った ①日本語辞書でトークナイズ
特に好きだＡｐａｃｈｅｿｰﾗｰの本を買うた ②形容詞を標準系に
特に好きＡｐａｃｈｅｿｰﾗｰ本買う ③助詞を削除
特に好き Apache ソーラー本買う ④英字を半角、半角カナを全角に変換
好き Apache ソーラー本買う ⑤「特に」を削除
好き Apache ソーラ本買う ⑥「長音」を削除
好き apache ソーラ本買う ⑦アルファベットを小文字に変換
好き apache ソーラ本買うアナライズ完了！！

単語分割をルール化するアナライザ
• 日本語以外でも様々な言語に対応している
• 文字列の最適化や表記揺れをカスタマイズすることが可能

インデックスの作成
• JSON ファイルでのインデクシング例
項目データ
タイトル Apache Solr 入門オープンソース全文検索エンジン
価格 3888
ページ 373
{
“title”: ”Apache Solr 入門”,
“price”: ”3888”
“page”: ”373”
}
json-sample.json
curl “http://localhost:8983/solr/solrbook/update?commit=true” –deta-binary @json-sample.json –H
“Content-type/json; charset=utf-8”

インデクシングの方法
• リクエスト
• HTTP リクエスト
• SolrJ (Java client)
• フォーマット
• json形式、csv形式、xml形式
• その他
• データインポートハンドラによるRDBからのインポート
• Tika による PDF ファイルからのデータ抽出とインデクシング

検索条件の指定
• 条件
• title が Solr
• price が１万円以下
• page が少ない順
項目どんな検索する？フィールド名
タイトル単語で検索 title
価格価格幅で検索 price
ページ数少ない順に結果を見る page
q=title:Solr&fq=price:[* to 10000]&sort=page asc&start=0&rows=10&wt=json

検索条件の指定
q=title:Solr&fq=price:[* to 10000]&sort=page asc&start=0&rows=10&wt=json
パラメータ内容説明
q title:Solr field : 値又は条件等
fq price[* TO 10000] 同上フィルター条件を指定
sort page asc field asc 又は desc で昇順/降順複数指定可能
start 0 結果取得開始位置
rows 10 結果取得件数
wt json 結果形式

検索の方法
• リクエスト
• HTTP リクエスト
• SolrJ (Java client)
• フォーマット
• 標準形式 q=title:Solr&fq=price:[* TO 10000]&・・・
• JSON形式 {“query”:”title:Solr”,”filter”:[“price:[* TO 10000]”,・・・
• レスポンス形式
• JSON, XMLや各種言語で利用可能な形式（Java, Python, Php, Ruby, etc…）

代表的な機能
• ハイライタ
• 検索キーワードをハイライト表示
• ファセット
• ジャンルや価格のフィールドでの件数表示
• グルーピング
• 同じ種類のドキュメントをまとめて並び替え
• 空間検索
• 座標情報を利用した半径検索が可能
• Join
• 親子関係を持つドキュメントの検索
（子を検索し、親のドキュメント情報を返却する）

検索結果のランキング
• キーワードにマッチするドキュメントを単純に、値段や発売日だけで並び替え
ればそれで良いのか？
• 検索結果がごちゃごちゃしていて分かりにくい
• 検索キーワードに対するドキュメントの類似度を計算する
• スコア計算

スコア計算の一例
• 単語の重み付けによるスコア計算
• 単語のドキュメント内での出現頻度（tf）
• あるドキュメントの中に「Java」という単語が５回出現する
• あるドキュメントの中に「Ruby」という単語が 1 回出現する
• このドキュメントを特徴付けるのは「Java」
• 単語の全ドキュメント内での希少度（idf）
• 「プログラミング」という単語は、1000 ドキュメントに出現する
• 「オブジェクト指向」という単語は、2つのドキュメントにしか出現しない
• このドキュメントを特徴づけるのは「オブジェクト指向」

高アクセス＆大規模ドキュメントへの対応
• レガシーなクラスタ
• 分散インデックス
• 分散検索
• レプリケーション
• Solr Cloud

分散インデックス
Solr
node１
Solr
node２
Solr
サーバ
index index1
shards
Index を２つに分けて小さくする
index1
インデックスサイズを小さくすることができる

分散検索
Solr
node１
Solr
node２
Web
サーバ
index1
shards
index2
①shards=node1,node2
で検索 ②node2 へ検索
④node1とnode2の
マージ結果を返す
③node1 へ結果返却
単語に紐づくドキュメント数を低減し、マッチングの処理コストを抑える

レプリケーション
Solr
node2
Solr
node3
Web
サーバ
Web
サーバ
Solr
node１
Batch
サーバ
①マスタへ更新マスタ
スレーブ
スレーブ
②スレーブへ複製
インデックスを冗長化して耐障害性が向上し、
検索と更新負荷を分離することができる（②スレーブへの複製は単語分割処理はしない）

レガシーなクラスタ
マスタ
node 1-1
マスタ
node 2-1
スレーブ
node 1-2
スレーブ
node 2-2
スレーブ
node 1-3
スレーブ
node 2-3
Batchサーバ
Webサーバ
Webサーバ
shards
shards
レプリカを増やすことで
処理可能な検索リクエスト数
を増加
シャードを増やすことで
ドキュメント数の増加に対応しスループット改善

レガシーなクラスタの問題
マスタ
node 1-1
マスタ
node 2-1
スレーブ
node 1-2
スレーブ
node 2-2
スレーブ
node 1-3
スレーブ
node 2-3
Batchサーバ
Webサーバ
Webサーバ
shards
shards
障
害
障
害
障害が発生した場合に
検索/更新先を切り替えて、必要で
あれば、再度更新により復旧させ
る必要がある

Solr Cloud
node 1 node 2
node 3 node 4
Batchサーバ
Webサーバ
Webサーバ
shardsshards
リーダー
リーダー
障害発生時には、更新先リーダの選
出及び切り替えが自動で行われる。
検索先については、クラスタ情報か
ら正常な接続先を自動で取得する。

まとめ
• HTTPリクエストによる様々な言語からアクセスが可能
• データと検索要件に合わせてカスタマイズが容易
• スコア計算を用いて検索キーワードとドキュメントの類似度による
検索結果のランキングが可能
• クラスタリング機能によりシステムの拡張が用意に行える

ご静聴ありがとうございました！！

Apache Solr 入門

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Apache Solr 入門

Similar to Apache Solr 入門 (20)

Apache Solr 入門