Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Solr 4.0 の主な機能

14,592 views

Published on

Solr 4.0 の主な機能

  1. 1. Solr 4.0 の主な機能 2012/07/04 shinichiro@apache.org
  2. 2. 自己紹介 ㈱ロンウイットの社員です。 5月のLucene Revolutionに参加しました。 Apache ManifoldCFのコミッタです。 Yonik氏と弊社社員
  3. 3. 本日のテーマ Solr 4.0 の主要機能の概要 Apache ManifoldCFの状況
  4. 4. Solr 4.0 の主要機能 プラガブルなシミラリティクラス FST対応 Codecプラグイン NRT PivotFacet pseudo-join SolrCloud・3.6は3.x系の最後・4.0は年内、alphaは7/3リリース
  5. 5. Similarity いろんなランキングアルゴリズムに差し替え可能 参考 Lucene 4.0のスコア計算 http://www.slideshare.net/KojiSekiguchi/similarity-functions-in-lucene- 40-12652624 ・Okapi BM25 Model ・Language Models ・Divergence from Randomness Models ・Information-based Models
  6. 6. Finite State Automata/Transducer・FSAおよびFSTによる実装 参考URL: 文脈を判断する状態遷移アルゴリズム http://blog.mikemccandless.com/20 Lucene実装でfast、Low メモリを実現 10/12/using-finite-state- TokenstreamはFSAで実装 transducers-in.html http://blog.mikemccandless.com/20・実装しているところ 12/04/lucenes-tokenstreams-are-FuzzyQuery actually.htmlWildcardQuery RegexpQuery DirectSolrSpellchecker SynonymFilter JapaneseTokenizer(辞書、複合語トークナイズ)・作業中 MappingCharFilter
  7. 7. Codec Codecが差し替え可能・Standard: Lucene4.0 index format・“Appending” works with append-only filesystems (such as Hadoop DFS)・“Memory” writes the entire terms+postings as an FST read into RAM・“Pulsing” inlines the postings for low-frequency terms into the term dictionary・“SimpleText” writes all files in plain-text for easy debugging/transparency
  8. 8. NRT Near Real Time search ・softCommit ⇔ (hard)Commit softCommitは、インデックスをリフレッシュして、 更新ドキュメントをすぐに検索可能にします。 JVMクラッシュなどがある場合は、最終ハードコミッ ト時点に戻ります。 それまでの更新は失われます。
  9. 9. Realtime-get 未コミットのドキュメントを取得するハンドラ Solr as Key Value Store
  10. 10. PivotFacet &facet.pivot=cat,inStock
  11. 11. Join 製品を探して、製品詳細を絞り込む fq={!join from=product to=product_item}product:T-shirts 製品詳細を探して、製品を絞り込む fq={!join from=product_item to=product}product_item:item2
  12. 12. SolrCloud ・要件 ・インデックスを複数台で分散配置させたい。 →従来は複数台へのインデクシングを実装する必要があった ・インデックスを持つSolrサーバがダウンしていた り接続できない場合に、自動フェイルオーバーした い。 →従来はロードバランサを構成しないと分散検索は失敗した ・Master/Slave環境で設定を一元管理したい。 →従来は設定ファイルの管理が煩雑だった ・リアルタイムインデクシングとリアルタイム検 索。 →従来はレプリケーションにタイムラグがあった
  13. 13. SolrCloud ・ZooKeeper Integration ・コンフィグの中央管理 ・自動フェイルオーバー(リーダー選出) ・本番環境はZKアンサンブルを使う
  14. 14. SolrCloud Leader java -Dbootstrap_conf=true -DnumShards=2 ¥ -DzkHost=ZKServer:port -jar start.jar 各ノードの追加: java -DzkHost=ZKServer:port -jar start.jar
  15. 15. SolrCloud ・検索時、通常の検索リクエストで、各シャードにリクエストされ る。 (SolrJならCloudSolrServer) ・インデクシング時、 登録リクエストがReplicaに投げられたら、Leaderに投げる。 リクエストがLeaderに投げられたら、ハッシュを計算して どこのシャードに渡すか決める。そのシャードのLeaderに転送す る。 その後Replicaに転送。インデクシングを行う。
  16. 16. SolrCloud ・管理画面
  17. 17. ManifoldCFの状況 Solrに統合できるwebクローラ・ファイルサーバク ローラ 5月にincubator→TLP http://manifoldcf.apache.org/ 0.5.1 0.6は7月の模様 MySQL, i18n Alfresco Connector, ElasticSearch Connector SolrPlugin forEnterprise Search
  18. 18. ManifoldCFのSolrPlugin MCF Security SearchComponent http://../solr/select?q=*:*&AuthenticatedUserName=u sername@domain
  19. 19. URLs・Lucene/Solr 4.0-ALPHAhttp://www.lucidimagination.com/blog/2012/07/03/4-0-alpha-whats-in-a-name/・Lucene Revolutionhttp://www.lucidimagination.com/devzone/events/conferences/lucene-revolution-2012・Apache ManifoldCFの関連記事http://www.rondhuit.com/apache-manifoldcf.html#articles
  20. 20. ロンウイット の紹介 Solrサブスクリプション 日本語処理プラグイン(各種CharFilterやTokenizerなど) javadochttp://www.rondhuit-dev.com/RCSS/api/ 検索語サジェスチョン、パーソナライズ検索、固有表現抽出、リアルタイム在庫検索 http://www.rondhuit.com/日本語「もしかして」検索について.html http://www.rondhuit.com/リアルタイムクラスタリングについて.html Soleami Solrクエリログ解析サービス http://soleami.com/ja Solr、ManifoldCFは熱いです!技術者を募集しています! http://www.rondhuit.com/ sales@rondhuit.com

×