Your SlideShare is downloading. ×
0
Solr中国6月16日讲座pp tv2
Solr中国6月16日讲座pp tv2
Solr中国6月16日讲座pp tv2
Solr中国6月16日讲座pp tv2
Solr中国6月16日讲座pp tv2
Solr中国6月16日讲座pp tv2
Solr中国6月16日讲座pp tv2
Solr中国6月16日讲座pp tv2
Solr中国6月16日讲座pp tv2
Solr中国6月16日讲座pp tv2
Solr中国6月16日讲座pp tv2
Solr中国6月16日讲座pp tv2
Solr中国6月16日讲座pp tv2
Solr中国6月16日讲座pp tv2
Solr中国6月16日讲座pp tv2
Solr中国6月16日讲座pp tv2
Solr中国6月16日讲座pp tv2
Solr中国6月16日讲座pp tv2
Solr中国6月16日讲座pp tv2
Solr中国6月16日讲座pp tv2
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Solr中国6月16日讲座pp tv2

482

Published on

Published in: Technology, News & Politics
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
482
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Solr Community of China © Copyright www.solr.cc 梁喵 2013年6月16日 全文检索SOLR
  • 2. Solr Community of China www.solr.cc 目录  全文检索概述  solrcloud4.3+tomcat+zookeeper部署  lucene/solr 其他功用
  • 3. Solr Community of China www.solr.cc 为什么要检索  要在一大堆信息中,寻找你需要的  需要借劣一些“线索”  翻字典要查目录  找地方看路牌
  • 4. Solr Community of China www.solr.cc 什么是索引  通向你要寻找信息的“线索”  主要索引类型和方式  B-tree/ B+tree  R-tree  hash  倒排索引  索引使用取决于你有什么样的数据和要怎么找
  • 5. Solr Community of China www.solr.cc 全文检索核心-倒排索引 全文检索是一种将所有文本与检索项匹配的文字资料检索方法
  • 6. Solr Community of China www.solr.cc 检索原理  寻找既包含字符串“lucene”又包含字符串“solr”的文档(document)  取出包含字符串“lucene”的文档链表。取出包含字符串“solr”的文档链表。  合并链表,找出既包含“lucene”又包含“solr”的文件。
  • 7. Solr Community of China www.solr.cc Java全文检索工具Lucene  Lucene是一个开源的全文检索引擎工具包,它不是一个完整的全文检索引擎  只是提供完整的建立索引和检索内容能力、部分文本分析功能  最新版本4.3,附带了全文检索外的许多实用功能。
  • 8. Solr Community of China www.solr.cc Lucene中的分词  分析器Analyzer  document的内容按照一定规则打散成Token Token1 Token2 Tokenk .......... document tokenize...
  • 9. Solr Community of China www.solr.cc 开源检索解决方案:Solr  Solr是一个基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比 Lucene更为丰富的面向使用的查询语言,同时实现了可配置、可扩展并对查询 性能进行了优化,并且提供了一个完善的功能管理界面。是Lucene的子项目
  • 10. Solr Community of China www.solr.cc SolrCloud  分布式的solr  1)集中式的配置信息  2)自劢容错  3)准实时搜索  4)查询时自劢负载均衡  部署:4.3+tomcat+独立zookeeper
  • 11. Solr Community of China www.solr.cc 流程  部署ZK;清除原有的solrcloud节点内容  解压solr4.3, 拷贝example至solrbase,  解压solr.war, 修改solr/solr.xml;  解压tomcat,拷贝至solrbase下  拷贝solr.war至webapps,增加conf/Catalina/localhost/solr.xml,  修改conf/server.xml; 修改bin/catalina.sh,  拷贝solrbase/lib/ext/*和solrbase/resource/* 至tomcat/lib下  打包solrbase 分发至其他机器,每台机器自行修改bin/catalina.sh的host参数
  • 12. Solr Community of China www.solr.cc Zookeeper  ZooKeeper is a centralized service for maintaining configuration information, naming, providing distributed synchronization, and providing group services  zoo_example.cfg 改名为zoo.cfg, 修改data的路径  zooinspector: https://issues.apache.org/jira/secure/attachment/12436620/ZooInspector.zip
  • 13. Solr Community of China www.solr.cc 解压solr4.3, 拷贝example至solrbase
  • 14. Solr Community of China www.solr.cc 解压solr.war, 修改solr/solr.xml  <cores adminPath="/admin/cores" defaultCoreName="collection1" host="${host:}" hostPort="${jetty.port:8983}" hostContext="${hostContext:solr}" zkClientTimeout="${zkClientTimeout:15000}">  <core name="collection1" instanceDir="collection1" />  </cores>
  • 15. Solr Community of China www.solr.cc 解压tomcat,拷贝至solrbase下  拷贝solr.war至webapps,  增加conf/Catalina/localhost/solr.xml  修改conf/server.xml;  修改bin/catalina.sh,  拷贝solrbase/lib/ext/*和solrbase/resource/* 至tomcat/lib下
  • 16. Solr Community of China www.solr.cc 打包solrbase 分发至其他机器  打包solrbase 分发至其他机器,每台机器自行修改bin/catalina.sh的host参数  同机修改tomcat/下: conf/server.xml三个端口8005 8080 8009 bin/catalina.sh conf/Catalina/localhost/solr.xml
  • 17. Solr Community of China www.solr.cc conf/Catalina/localhost/solr.xml  <Context docBase="/data/solrbase/tomcat/webapps/solr.war" debug="0" crossContext="true" >  <Environment name="solr/home" type="java.lang.String" value="/data/solrbase/solr/" override="true" />  </Context>
  • 18. Solr Community of China www.solr.cc bin/catalina.sh  JAVA_OPTS="-Dhost=vm -Dport=8080 - Dbootstrap_confdir=/data/solrbase/solr/collection1/conf - Dcollection.configName=collection1 -DzkHost=vm:2181/solr"
  • 19. Solr Community of China www.solr.cc 使用lucene/solr做其他的事  一个内容, 你想搜啥可以被搜到,就把啥当成token,内容当document  自劢补全: 北京 • document: [北京, 约XX个] • token:<b, bj, be,bei, beij, beiji, beijin, beijing, 北>  纠错提示 • document: [北京你好吗] • token:<北京, 京你, 你好, 好吗, 北京好吗, 北京你好....>  推荐算法 • document:某个商品 • token:<和该商品关联的其他商品....>
  • 20. Solr Community of China www.solr.cc 谢谢大家  solr中国qq群:187670960  solr中国网站:http://www.solr.cc  我的技术博客:http://blog.csdn.net/lgnlgn

×