Your SlideShare is downloading. ×
Solr Community of China
© Copyright www.solr.cc
梁喵
2013年6月16日
全文检索SOLR
Solr Community of China
www.solr.cc
目录
 全文检索概述
 solrcloud4.3+tomcat+zookeeper部署
 lucene/solr 其他功用
Solr Community of China
www.solr.cc
为什么要检索
 要在一大堆信息中,寻找你需要的
 需要借劣一些“线索”
 翻字典要查目录
 找地方看路牌
Solr Community of China
www.solr.cc
什么是索引
 通向你要寻找信息的“线索”
 主要索引类型和方式
 B-tree/ B+tree
 R-tree
 hash
 倒排索引
 索引使用取决于你有什...
Solr Community of China
www.solr.cc
全文检索核心-倒排索引
全文检索是一种将所有文本与检索项匹配的文字资料检索方法
Solr Community of China
www.solr.cc
检索原理
 寻找既包含字符串“lucene”又包含字符串“solr”的文档(document)
 取出包含字符串“lucene”的文档链表。取出包含字符串“solr”的...
Solr Community of China
www.solr.cc
Java全文检索工具Lucene
 Lucene是一个开源的全文检索引擎工具包,它不是一个完整的全文检索引擎
 只是提供完整的建立索引和检索内容能力、部分文本分析功能
...
Solr Community of China
www.solr.cc
Lucene中的分词
 分析器Analyzer
 document的内容按照一定规则打散成Token
Token1 Token2 Tokenk
..........
d...
Solr Community of China
www.solr.cc
开源检索解决方案:Solr
 Solr是一个基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比
Lucene更为丰富的面向使用的查询语言,同时实现了可配置、可...
Solr Community of China
www.solr.cc
SolrCloud
 分布式的solr
 1)集中式的配置信息
 2)自劢容错
 3)准实时搜索
 4)查询时自劢负载均衡
 部署:4.3+tomcat+独立z...
Solr Community of China
www.solr.cc
流程
 部署ZK;清除原有的solrcloud节点内容
 解压solr4.3, 拷贝example至solrbase,
 解压solr.war, 修改solr/sol...
Solr Community of China
www.solr.cc
Zookeeper
 ZooKeeper is a centralized service for maintaining configuration
informati...
Solr Community of China
www.solr.cc
解压solr4.3, 拷贝example至solrbase
Solr Community of China
www.solr.cc
解压solr.war, 修改solr/solr.xml
 <cores adminPath="/admin/cores" defaultCoreName="collect...
Solr Community of China
www.solr.cc
解压tomcat,拷贝至solrbase下
 拷贝solr.war至webapps,
 增加conf/Catalina/localhost/solr.xml
 修改c...
Solr Community of China
www.solr.cc
打包solrbase 分发至其他机器
 打包solrbase 分发至其他机器,每台机器自行修改bin/catalina.sh的host参数
 同机修改tomcat/下:...
Solr Community of China
www.solr.cc
conf/Catalina/localhost/solr.xml
 <Context docBase="/data/solrbase/tomcat/webapps/sol...
Solr Community of China
www.solr.cc
bin/catalina.sh
 JAVA_OPTS="-Dhost=vm -Dport=8080 -
Dbootstrap_confdir=/data/solrbase...
Solr Community of China
www.solr.cc
使用lucene/solr做其他的事
 一个内容, 你想搜啥可以被搜到,就把啥当成token,内容当document
 自劢补全: 北京
• document: [北京...
Solr Community of China
www.solr.cc
谢谢大家
 solr中国qq群:187670960
 solr中国网站:http://www.solr.cc
 我的技术博客:http://blog.csdn.net...
Upcoming SlideShare
Loading in...5
×

Solr中国6月16日讲座pp tv2

489

Published on

Published in: Technology, News & Politics
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
489
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Transcript of "Solr中国6月16日讲座pp tv2"

  1. 1. Solr Community of China © Copyright www.solr.cc 梁喵 2013年6月16日 全文检索SOLR
  2. 2. Solr Community of China www.solr.cc 目录  全文检索概述  solrcloud4.3+tomcat+zookeeper部署  lucene/solr 其他功用
  3. 3. Solr Community of China www.solr.cc 为什么要检索  要在一大堆信息中,寻找你需要的  需要借劣一些“线索”  翻字典要查目录  找地方看路牌
  4. 4. Solr Community of China www.solr.cc 什么是索引  通向你要寻找信息的“线索”  主要索引类型和方式  B-tree/ B+tree  R-tree  hash  倒排索引  索引使用取决于你有什么样的数据和要怎么找
  5. 5. Solr Community of China www.solr.cc 全文检索核心-倒排索引 全文检索是一种将所有文本与检索项匹配的文字资料检索方法
  6. 6. Solr Community of China www.solr.cc 检索原理  寻找既包含字符串“lucene”又包含字符串“solr”的文档(document)  取出包含字符串“lucene”的文档链表。取出包含字符串“solr”的文档链表。  合并链表,找出既包含“lucene”又包含“solr”的文件。
  7. 7. Solr Community of China www.solr.cc Java全文检索工具Lucene  Lucene是一个开源的全文检索引擎工具包,它不是一个完整的全文检索引擎  只是提供完整的建立索引和检索内容能力、部分文本分析功能  最新版本4.3,附带了全文检索外的许多实用功能。
  8. 8. Solr Community of China www.solr.cc Lucene中的分词  分析器Analyzer  document的内容按照一定规则打散成Token Token1 Token2 Tokenk .......... document tokenize...
  9. 9. Solr Community of China www.solr.cc 开源检索解决方案:Solr  Solr是一个基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比 Lucene更为丰富的面向使用的查询语言,同时实现了可配置、可扩展并对查询 性能进行了优化,并且提供了一个完善的功能管理界面。是Lucene的子项目
  10. 10. Solr Community of China www.solr.cc SolrCloud  分布式的solr  1)集中式的配置信息  2)自劢容错  3)准实时搜索  4)查询时自劢负载均衡  部署:4.3+tomcat+独立zookeeper
  11. 11. Solr Community of China www.solr.cc 流程  部署ZK;清除原有的solrcloud节点内容  解压solr4.3, 拷贝example至solrbase,  解压solr.war, 修改solr/solr.xml;  解压tomcat,拷贝至solrbase下  拷贝solr.war至webapps,增加conf/Catalina/localhost/solr.xml,  修改conf/server.xml; 修改bin/catalina.sh,  拷贝solrbase/lib/ext/*和solrbase/resource/* 至tomcat/lib下  打包solrbase 分发至其他机器,每台机器自行修改bin/catalina.sh的host参数
  12. 12. Solr Community of China www.solr.cc Zookeeper  ZooKeeper is a centralized service for maintaining configuration information, naming, providing distributed synchronization, and providing group services  zoo_example.cfg 改名为zoo.cfg, 修改data的路径  zooinspector: https://issues.apache.org/jira/secure/attachment/12436620/ZooInspector.zip
  13. 13. Solr Community of China www.solr.cc 解压solr4.3, 拷贝example至solrbase
  14. 14. Solr Community of China www.solr.cc 解压solr.war, 修改solr/solr.xml  <cores adminPath="/admin/cores" defaultCoreName="collection1" host="${host:}" hostPort="${jetty.port:8983}" hostContext="${hostContext:solr}" zkClientTimeout="${zkClientTimeout:15000}">  <core name="collection1" instanceDir="collection1" />  </cores>
  15. 15. Solr Community of China www.solr.cc 解压tomcat,拷贝至solrbase下  拷贝solr.war至webapps,  增加conf/Catalina/localhost/solr.xml  修改conf/server.xml;  修改bin/catalina.sh,  拷贝solrbase/lib/ext/*和solrbase/resource/* 至tomcat/lib下
  16. 16. Solr Community of China www.solr.cc 打包solrbase 分发至其他机器  打包solrbase 分发至其他机器,每台机器自行修改bin/catalina.sh的host参数  同机修改tomcat/下: conf/server.xml三个端口8005 8080 8009 bin/catalina.sh conf/Catalina/localhost/solr.xml
  17. 17. Solr Community of China www.solr.cc conf/Catalina/localhost/solr.xml  <Context docBase="/data/solrbase/tomcat/webapps/solr.war" debug="0" crossContext="true" >  <Environment name="solr/home" type="java.lang.String" value="/data/solrbase/solr/" override="true" />  </Context>
  18. 18. Solr Community of China www.solr.cc bin/catalina.sh  JAVA_OPTS="-Dhost=vm -Dport=8080 - Dbootstrap_confdir=/data/solrbase/solr/collection1/conf - Dcollection.configName=collection1 -DzkHost=vm:2181/solr"
  19. 19. Solr Community of China www.solr.cc 使用lucene/solr做其他的事  一个内容, 你想搜啥可以被搜到,就把啥当成token,内容当document  自劢补全: 北京 • document: [北京, 约XX个] • token:<b, bj, be,bei, beij, beiji, beijin, beijing, 北>  纠错提示 • document: [北京你好吗] • token:<北京, 京你, 你好, 好吗, 北京好吗, 北京你好....>  推荐算法 • document:某个商品 • token:<和该商品关联的其他商品....>
  20. 20. Solr Community of China www.solr.cc 谢谢大家  solr中国qq群:187670960  solr中国网站:http://www.solr.cc  我的技术博客:http://blog.csdn.net/lgnlgn

×