• Save
Solr中国6月16日讲座pp tv2
Upcoming SlideShare
Loading in...5
×
 

Solr中国6月16日讲座pp tv2

on

  • 448 views

 

Statistics

Views

Total Views
448
Views on SlideShare
448
Embed Views
0

Actions

Likes
1
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Solr中国6月16日讲座pp tv2 Solr中国6月16日讲座pp tv2 Presentation Transcript

    • Solr Community of China © Copyright www.solr.cc 梁喵 2013年6月16日 全文检索SOLR
    • Solr Community of China www.solr.cc 目录  全文检索概述  solrcloud4.3+tomcat+zookeeper部署  lucene/solr 其他功用
    • Solr Community of China www.solr.cc 为什么要检索  要在一大堆信息中,寻找你需要的  需要借劣一些“线索”  翻字典要查目录  找地方看路牌
    • Solr Community of China www.solr.cc 什么是索引  通向你要寻找信息的“线索”  主要索引类型和方式  B-tree/ B+tree  R-tree  hash  倒排索引  索引使用取决于你有什么样的数据和要怎么找
    • Solr Community of China www.solr.cc 全文检索核心-倒排索引 全文检索是一种将所有文本与检索项匹配的文字资料检索方法
    • Solr Community of China www.solr.cc 检索原理  寻找既包含字符串“lucene”又包含字符串“solr”的文档(document)  取出包含字符串“lucene”的文档链表。取出包含字符串“solr”的文档链表。  合并链表,找出既包含“lucene”又包含“solr”的文件。
    • Solr Community of China www.solr.cc Java全文检索工具Lucene  Lucene是一个开源的全文检索引擎工具包,它不是一个完整的全文检索引擎  只是提供完整的建立索引和检索内容能力、部分文本分析功能  最新版本4.3,附带了全文检索外的许多实用功能。
    • Solr Community of China www.solr.cc Lucene中的分词  分析器Analyzer  document的内容按照一定规则打散成Token Token1 Token2 Tokenk .......... document tokenize...
    • Solr Community of China www.solr.cc 开源检索解决方案:Solr  Solr是一个基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比 Lucene更为丰富的面向使用的查询语言,同时实现了可配置、可扩展并对查询 性能进行了优化,并且提供了一个完善的功能管理界面。是Lucene的子项目
    • Solr Community of China www.solr.cc SolrCloud  分布式的solr  1)集中式的配置信息  2)自劢容错  3)准实时搜索  4)查询时自劢负载均衡  部署:4.3+tomcat+独立zookeeper
    • Solr Community of China www.solr.cc 流程  部署ZK;清除原有的solrcloud节点内容  解压solr4.3, 拷贝example至solrbase,  解压solr.war, 修改solr/solr.xml;  解压tomcat,拷贝至solrbase下  拷贝solr.war至webapps,增加conf/Catalina/localhost/solr.xml,  修改conf/server.xml; 修改bin/catalina.sh,  拷贝solrbase/lib/ext/*和solrbase/resource/* 至tomcat/lib下  打包solrbase 分发至其他机器,每台机器自行修改bin/catalina.sh的host参数
    • Solr Community of China www.solr.cc Zookeeper  ZooKeeper is a centralized service for maintaining configuration information, naming, providing distributed synchronization, and providing group services  zoo_example.cfg 改名为zoo.cfg, 修改data的路径  zooinspector: https://issues.apache.org/jira/secure/attachment/12436620/ZooInspector.zip
    • Solr Community of China www.solr.cc 解压solr4.3, 拷贝example至solrbase
    • Solr Community of China www.solr.cc 解压solr.war, 修改solr/solr.xml  <cores adminPath="/admin/cores" defaultCoreName="collection1" host="${host:}" hostPort="${jetty.port:8983}" hostContext="${hostContext:solr}" zkClientTimeout="${zkClientTimeout:15000}">  <core name="collection1" instanceDir="collection1" />  </cores>
    • Solr Community of China www.solr.cc 解压tomcat,拷贝至solrbase下  拷贝solr.war至webapps,  增加conf/Catalina/localhost/solr.xml  修改conf/server.xml;  修改bin/catalina.sh,  拷贝solrbase/lib/ext/*和solrbase/resource/* 至tomcat/lib下
    • Solr Community of China www.solr.cc 打包solrbase 分发至其他机器  打包solrbase 分发至其他机器,每台机器自行修改bin/catalina.sh的host参数  同机修改tomcat/下: conf/server.xml三个端口8005 8080 8009 bin/catalina.sh conf/Catalina/localhost/solr.xml
    • Solr Community of China www.solr.cc conf/Catalina/localhost/solr.xml  <Context docBase="/data/solrbase/tomcat/webapps/solr.war" debug="0" crossContext="true" >  <Environment name="solr/home" type="java.lang.String" value="/data/solrbase/solr/" override="true" />  </Context>
    • Solr Community of China www.solr.cc bin/catalina.sh  JAVA_OPTS="-Dhost=vm -Dport=8080 - Dbootstrap_confdir=/data/solrbase/solr/collection1/conf - Dcollection.configName=collection1 -DzkHost=vm:2181/solr"
    • Solr Community of China www.solr.cc 使用lucene/solr做其他的事  一个内容, 你想搜啥可以被搜到,就把啥当成token,内容当document  自劢补全: 北京 • document: [北京, 约XX个] • token:<b, bj, be,bei, beij, beiji, beijin, beijing, 北>  纠错提示 • document: [北京你好吗] • token:<北京, 京你, 你好, 好吗, 北京好吗, 北京你好....>  推荐算法 • document:某个商品 • token:<和该商品关联的其他商品....>
    • Solr Community of China www.solr.cc 谢谢大家  solr中国qq群:187670960  solr中国网站:http://www.solr.cc  我的技术博客:http://blog.csdn.net/lgnlgn