Elasticsearct2.1

実践Elasticsearch(2.1.1)
2016-01-22
社内勉強会
Tsuyoshi Nakamura

全文検索エンジンとしては色々な歴史をたどってきましたが、今は全文検索エ
ンジンといえば”Elasticsearch”が良いみたいな感じで、AWSにも登場

Agenda
• Installからconfig設定
• Kuromoji
• Analysisモジュール
• 主要モジュール
• Demo
• 調査やり残し

Install 〜 config
• Javaはyumでinstall
• Elasticsearchは公式のrepositoriesからkeyをinport.
• Yum設定してyum installで最新(2.1.1)が入る
• 日本語の全文検索に必要なpluginをinstall
Kuromoji plugin install
bin/plugin install analysis-kuromoji
※https://www.elastic.co/guide/en/elasticsearch/plugins/master/analysis-
kuromoji.html
※https://github.com/elastic/elasticsearch-analysis-kuromoji

Kuromoji
• 木の名前（クロモジ？）？楊枝の黒文字？
• 分からないけど超絶便利
• Solrいじってた時は日本語用の辞書（MecabやらChasenやら）を自分で
入れて、、、と色々と面倒だったけた

Analysisモジュール
Analyzer
• 複数設定可能
• トークナイズ処理（形態素解析）
• フィルター処理
Indexを作成する時、検索する時はこんな処理が行われる

Analysisモジュール
Tokenizer
• トークナイズ方式を設定
• Kuromojiを使ってトークナイズするとか
• ngram式にトークナイズするとか
Token Filters
• トークナイズ処理後のトークンに対して加工処理をする
• 全角英数字を半角に直し，半角カタカナを全角に直すとか
Char Filters
• トークナイズ処理前の文字に対して加工処理をする
• 記号だったり、「々」だったりを除去する時に使う

主要モジュール
Ngram Tkenizer
• N-グラムでトークナイズ。Elasticsearchにある
cjk_width Token Filter
• 半角全角を統一するフィルタ。Elasticsearchにある
Lowercase Token Filter
• 英字の大文字小文字を統一するフィルタ。Elasticsearchにある
Synonym Token Filter
• 同義語を結びつけるフィルタ。Elasticsearchにある
Stop Token Filter
• 任意のワードを除去するフィルタ。Elasticsearchにある
HTML Strip Char Filter
• HTMLタグを除去するフィルタ。Elasticsearchにある

今回作ったconfig(elasticsearch.yml)
# ---------------------------------- Index -----------------------------------
index :
analysis :
analyzer :
ja :
type : custom
tokenizer : ja_tokenizer
char_filter : [
html_strip,
kuromoji_iteration_mark
]
filter : [
lowercase,
cjk_width,
katakana_stemmer,
kuromoji_part_of_speech
]
ja_ngram :
type : custom
tokenizer : ngram_ja_tokenizer
char_filter : [html_strip]
filter : [
cjk_width,
lowercase
]
tokenizer :
ja_tokenizer :
type : kuromoji_tokenizer
mode : search
user_dictionary : /etc/elasticsearch/userdict_ja.txt
ngram_ja_tokenizer :
type : nGram
min_gram : 2
max_gram : 3
token_chars : [letter, digit]
filter :
katakana_stemmer :
type : kuromoji_stemmer

今回作ったindex mapping
{
"order": 0,
"template": "projects01-*",
"settings": {
"index": {
"number_of_shards": "1",
"number_of_replicas": "0"
}
},
"mappings": {
"project": {
"_source": {
"enabled": false
},
"_all": {
"analyzer": "ja",
"enabled": true
},
"properties": {
"update_time": {
"format": "YYYY-MM-dd HH:mm:ss",
"type": "date"
},
"project_id": {
"index": "not_analyzed",
"type": "string"
},
"detail": {
"analyzer": "ja",
"type": "string"
},
"suggest": {
"search_analyzer": "ja",
"analyzer": "ja",
"type": "completion"
},
"detail_ngram": {
"analyzer": "ja_ngram",
"type": "string"
},
"title": {
"analyzer": "ja",
"type": "string"
},
"title_ngram": {
"analyzer": "ja_ngram",
"type": "string"
}
}
}
},
"aliases": {
}

Demo
• Elasticsearchの管理ツール(kopf)を見る
• いろいろ機能ある。
• Mappingとかここで登録した
• 便利、かっこいい
• Indexを作ってみる
• 検索してみる
• サジェスト機能(completion)つかってみる

まだ調査が必要な箇所
• Indexの運用、更新フロー
• Pyhon curator
• Score
• 同じ検索でも現在進行しているPJを検索結果の上位へみたいな要件
が出てきそう
• Slowクエリとかの閾値
• ES_HEAP_SIZE、スワップ
• cluster、shard、replica
• Indexのバックアップ、リストア
• Pyhon製のtool、_snapshot、バイナリバックアップ
• Facet? Aggregationsでいける？

Elasticsearct2.1

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Elasticsearct2.1

Similar to Elasticsearct2.1 (20)

Elasticsearct2.1