Solr 4.0 の主な機能

14,346 views

Published on

0 Comments
11 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
14,346
On SlideShare
0
From Embeds
0
Number of Embeds
3,497
Actions
Shares
0
Downloads
0
Comments
0
Likes
11
Embeds 0
No embeds

No notes for slide

Solr 4.0 の主な機能

  1. 1. Solr 4.0 の主な機能 2012/07/04 shinichiro@apache.org
  2. 2. 自己紹介 ㈱ロンウイットの社員です。 5月のLucene Revolutionに参加しました。 Apache ManifoldCFのコミッタです。 Yonik氏と弊社社員
  3. 3. 本日のテーマ Solr 4.0 の主要機能の概要 Apache ManifoldCFの状況
  4. 4. Solr 4.0 の主要機能 プラガブルなシミラリティクラス FST対応 Codecプラグイン NRT PivotFacet pseudo-join SolrCloud・3.6は3.x系の最後・4.0は年内、alphaは7/3リリース
  5. 5. Similarity いろんなランキングアルゴリズムに差し替え可能 参考 Lucene 4.0のスコア計算 http://www.slideshare.net/KojiSekiguchi/similarity-functions-in-lucene- 40-12652624 ・Okapi BM25 Model ・Language Models ・Divergence from Randomness Models ・Information-based Models
  6. 6. Finite State Automata/Transducer・FSAおよびFSTによる実装 参考URL: 文脈を判断する状態遷移アルゴリズム http://blog.mikemccandless.com/20 Lucene実装でfast、Low メモリを実現 10/12/using-finite-state- TokenstreamはFSAで実装 transducers-in.html http://blog.mikemccandless.com/20・実装しているところ 12/04/lucenes-tokenstreams-are-FuzzyQuery actually.htmlWildcardQuery RegexpQuery DirectSolrSpellchecker SynonymFilter JapaneseTokenizer(辞書、複合語トークナイズ)・作業中 MappingCharFilter
  7. 7. Codec Codecが差し替え可能・Standard: Lucene4.0 index format・“Appending” works with append-only filesystems (such as Hadoop DFS)・“Memory” writes the entire terms+postings as an FST read into RAM・“Pulsing” inlines the postings for low-frequency terms into the term dictionary・“SimpleText” writes all files in plain-text for easy debugging/transparency
  8. 8. NRT Near Real Time search ・softCommit ⇔ (hard)Commit softCommitは、インデックスをリフレッシュして、 更新ドキュメントをすぐに検索可能にします。 JVMクラッシュなどがある場合は、最終ハードコミッ ト時点に戻ります。 それまでの更新は失われます。
  9. 9. Realtime-get 未コミットのドキュメントを取得するハンドラ Solr as Key Value Store
  10. 10. PivotFacet &facet.pivot=cat,inStock
  11. 11. Join 製品を探して、製品詳細を絞り込む fq={!join from=product to=product_item}product:T-shirts 製品詳細を探して、製品を絞り込む fq={!join from=product_item to=product}product_item:item2
  12. 12. SolrCloud ・要件 ・インデックスを複数台で分散配置させたい。 →従来は複数台へのインデクシングを実装する必要があった ・インデックスを持つSolrサーバがダウンしていた り接続できない場合に、自動フェイルオーバーした い。 →従来はロードバランサを構成しないと分散検索は失敗した ・Master/Slave環境で設定を一元管理したい。 →従来は設定ファイルの管理が煩雑だった ・リアルタイムインデクシングとリアルタイム検 索。 →従来はレプリケーションにタイムラグがあった
  13. 13. SolrCloud ・ZooKeeper Integration ・コンフィグの中央管理 ・自動フェイルオーバー(リーダー選出) ・本番環境はZKアンサンブルを使う
  14. 14. SolrCloud Leader java -Dbootstrap_conf=true -DnumShards=2 ¥ -DzkHost=ZKServer:port -jar start.jar 各ノードの追加: java -DzkHost=ZKServer:port -jar start.jar
  15. 15. SolrCloud ・検索時、通常の検索リクエストで、各シャードにリクエストされ る。 (SolrJならCloudSolrServer) ・インデクシング時、 登録リクエストがReplicaに投げられたら、Leaderに投げる。 リクエストがLeaderに投げられたら、ハッシュを計算して どこのシャードに渡すか決める。そのシャードのLeaderに転送す る。 その後Replicaに転送。インデクシングを行う。
  16. 16. SolrCloud ・管理画面
  17. 17. ManifoldCFの状況 Solrに統合できるwebクローラ・ファイルサーバク ローラ 5月にincubator→TLP http://manifoldcf.apache.org/ 0.5.1 0.6は7月の模様 MySQL, i18n Alfresco Connector, ElasticSearch Connector SolrPlugin forEnterprise Search
  18. 18. ManifoldCFのSolrPlugin MCF Security SearchComponent http://../solr/select?q=*:*&AuthenticatedUserName=u sername@domain
  19. 19. URLs・Lucene/Solr 4.0-ALPHAhttp://www.lucidimagination.com/blog/2012/07/03/4-0-alpha-whats-in-a-name/・Lucene Revolutionhttp://www.lucidimagination.com/devzone/events/conferences/lucene-revolution-2012・Apache ManifoldCFの関連記事http://www.rondhuit.com/apache-manifoldcf.html#articles
  20. 20. ロンウイット の紹介 Solrサブスクリプション 日本語処理プラグイン(各種CharFilterやTokenizerなど) javadochttp://www.rondhuit-dev.com/RCSS/api/ 検索語サジェスチョン、パーソナライズ検索、固有表現抽出、リアルタイム在庫検索 http://www.rondhuit.com/日本語「もしかして」検索について.html http://www.rondhuit.com/リアルタイムクラスタリングについて.html Soleami Solrクエリログ解析サービス http://soleami.com/ja Solr、ManifoldCFは熱いです!技術者を募集しています! http://www.rondhuit.com/ sales@rondhuit.com

×