• Save
Solr 4.0 の主な機能
Upcoming SlideShare
Loading in...5
×
 

Solr 4.0 の主な機能

on

  • 14,360 views

 

Statistics

Views

Total Views
14,360
Views on SlideShare
11,199
Embed Views
3,161

Actions

Likes
11
Downloads
0
Comments
0

9 Embeds 3,161

http://logmania.masakiplus.net 2391
http://blog.cles.jp 717
https://bozuman.cybozu.com 30
http://webcache.googleusercontent.com 13
http://feeds.feedburner.com 5
https://www.google.co.jp 2
https://si0.twimg.com 1
https://twimg0-a.akamaihd.net 1
http://www.freerss.net 1
More...

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Solr 4.0 の主な機能 Solr 4.0 の主な機能 Presentation Transcript

  • Solr 4.0 の主な機能 2012/07/04 shinichiro@apache.org
  • 自己紹介 ㈱ロンウイットの社員です。 5月のLucene Revolutionに参加しました。 Apache ManifoldCFのコミッタです。 Yonik氏と弊社社員
  • 本日のテーマ Solr 4.0 の主要機能の概要 Apache ManifoldCFの状況
  • Solr 4.0 の主要機能 プラガブルなシミラリティクラス FST対応 Codecプラグイン NRT PivotFacet pseudo-join SolrCloud・3.6は3.x系の最後・4.0は年内、alphaは7/3リリース
  • Similarity いろんなランキングアルゴリズムに差し替え可能 参考 Lucene 4.0のスコア計算 http://www.slideshare.net/KojiSekiguchi/similarity-functions-in-lucene- 40-12652624 ・Okapi BM25 Model ・Language Models ・Divergence from Randomness Models ・Information-based Models
  • Finite State Automata/Transducer・FSAおよびFSTによる実装 参考URL: 文脈を判断する状態遷移アルゴリズム http://blog.mikemccandless.com/20 Lucene実装でfast、Low メモリを実現 10/12/using-finite-state- TokenstreamはFSAで実装 transducers-in.html http://blog.mikemccandless.com/20・実装しているところ 12/04/lucenes-tokenstreams-are-FuzzyQuery actually.htmlWildcardQuery RegexpQuery DirectSolrSpellchecker SynonymFilter JapaneseTokenizer(辞書、複合語トークナイズ)・作業中 MappingCharFilter
  • Codec Codecが差し替え可能・Standard: Lucene4.0 index format・“Appending” works with append-only filesystems (such as Hadoop DFS)・“Memory” writes the entire terms+postings as an FST read into RAM・“Pulsing” inlines the postings for low-frequency terms into the term dictionary・“SimpleText” writes all files in plain-text for easy debugging/transparency
  • NRT Near Real Time search ・softCommit ⇔ (hard)Commit softCommitは、インデックスをリフレッシュして、 更新ドキュメントをすぐに検索可能にします。 JVMクラッシュなどがある場合は、最終ハードコミッ ト時点に戻ります。 それまでの更新は失われます。
  • Realtime-get 未コミットのドキュメントを取得するハンドラ Solr as Key Value Store
  • PivotFacet &facet.pivot=cat,inStock
  • Join 製品を探して、製品詳細を絞り込む fq={!join from=product to=product_item}product:T-shirts 製品詳細を探して、製品を絞り込む fq={!join from=product_item to=product}product_item:item2
  • SolrCloud ・要件 ・インデックスを複数台で分散配置させたい。 →従来は複数台へのインデクシングを実装する必要があった ・インデックスを持つSolrサーバがダウンしていた り接続できない場合に、自動フェイルオーバーした い。 →従来はロードバランサを構成しないと分散検索は失敗した ・Master/Slave環境で設定を一元管理したい。 →従来は設定ファイルの管理が煩雑だった ・リアルタイムインデクシングとリアルタイム検 索。 →従来はレプリケーションにタイムラグがあった
  • SolrCloud ・ZooKeeper Integration ・コンフィグの中央管理 ・自動フェイルオーバー(リーダー選出) ・本番環境はZKアンサンブルを使う
  • SolrCloud Leader java -Dbootstrap_conf=true -DnumShards=2 ¥ -DzkHost=ZKServer:port -jar start.jar 各ノードの追加: java -DzkHost=ZKServer:port -jar start.jar
  • SolrCloud ・検索時、通常の検索リクエストで、各シャードにリクエストされ る。 (SolrJならCloudSolrServer) ・インデクシング時、 登録リクエストがReplicaに投げられたら、Leaderに投げる。 リクエストがLeaderに投げられたら、ハッシュを計算して どこのシャードに渡すか決める。そのシャードのLeaderに転送す る。 その後Replicaに転送。インデクシングを行う。
  • SolrCloud ・管理画面
  • ManifoldCFの状況 Solrに統合できるwebクローラ・ファイルサーバク ローラ 5月にincubator→TLP http://manifoldcf.apache.org/ 0.5.1 0.6は7月の模様 MySQL, i18n Alfresco Connector, ElasticSearch Connector SolrPlugin forEnterprise Search
  • ManifoldCFのSolrPlugin MCF Security SearchComponent http://../solr/select?q=*:*&AuthenticatedUserName=u sername@domain
  • URLs・Lucene/Solr 4.0-ALPHAhttp://www.lucidimagination.com/blog/2012/07/03/4-0-alpha-whats-in-a-name/・Lucene Revolutionhttp://www.lucidimagination.com/devzone/events/conferences/lucene-revolution-2012・Apache ManifoldCFの関連記事http://www.rondhuit.com/apache-manifoldcf.html#articles
  • ロンウイット の紹介 Solrサブスクリプション 日本語処理プラグイン(各種CharFilterやTokenizerなど) javadochttp://www.rondhuit-dev.com/RCSS/api/ 検索語サジェスチョン、パーソナライズ検索、固有表現抽出、リアルタイム在庫検索 http://www.rondhuit.com/日本語「もしかして」検索について.html http://www.rondhuit.com/リアルタイムクラスタリングについて.html Soleami Solrクエリログ解析サービス http://soleami.com/ja Solr、ManifoldCFは熱いです!技術者を募集しています! http://www.rondhuit.com/ sales@rondhuit.com