SlideShare a Scribd company logo
1 of 68
Download to read offline
浙江大学软件学院2009《互联网搜索技术》系列课程之一


搜索引擎的历史,
搜索引擎的历史,现状和未来
             张勤
      Alibaba Search Center
《互联网搜索技术》课程目标
•   加深对互联网和搜索引擎的理解
•   学习搜索引擎相关的核心技术领域
•   可以搭建一个简单的搜索引擎
•   增强未来在互联网行业求职的竞争力
课程结构
1. 搜索引擎的历史、现状和未来
2. 分布式搜索引擎的体系结构
3. Crawler设计和信息抽取
4. 索引和查询
5. 中文语言处理
6. 基于机器学习的搜索排序研究
7. 多媒体搜索
                每节课将安排该领域具有丰富
8. 课程答疑         每节课将安排该领域具有丰富
                经验的ASC技术专家来授课
                经验的   技术专家来授课
                经验的ASC技术专家来授课
                经验的   技术专家来授课
参考书
      《搜索引擎原理、技术与系统》

      作者:李晓明、闫宏飞、王继民
      科学出版社2004年出版
补充读物-1

         The Search: How Google and Its Rivals
         Rewrote the Rules of Business and
         Transformed Our Culture
                              by John Battelle

                •ISBN-10: 1591840880
                •Publisher: Portfolio (September 8, 2005)




                 作者博客站点
                 http://battellemedia.com/
补充读物-2

         Modern Information Retrieval
             by Ricardo Baeza-Yates (Universidad
             de Chile, Chile) and Berthier Ribeiro-
             Neto (Univ Federal de Minas Gerais,
             Brazil)



             •ISBN-10: 020139829X
             •Publisher: Addison-Wesley 1999
考评方法
• 课程成绩组成
 – 课堂讨论 40%
 – 小组项目
   • 项目1: 30%
   • 项目2: 30%


• 分组方法
 – 每个小组由2-3名同学组成,请大家课后将组合好的名
   单发给TA
 – 名单一经确定后则不能修改
 – 课程结束时小组成绩即为组内每个同学的成绩
什么是搜索引擎

 A search engine is a program designed to help find
 information stored on a computer system such as the
 World Wide Web, inside a corporate or proprietary
 network or a personal computer.
                                           --- Wikipedia




 搜索引擎属于跨学科应用,涉及信息检索、数据库、
 数据挖掘、计算机系统、多媒体、人工智能、计算机
 网络、分布式处理、图书馆学、自然语言处理等多个
 领域,是目前互联网上最复杂的基础应用之一
本节课的目标
• 理解搜索引擎的
 –   发展历史
 –   分类的方法
 –   技术原理和核心技术的变化
 –   面临的挑战
 –   未来的方向


• 本节课将包括2次自由讨论
第1部分

搜索引擎的发展历史
搜索引擎的发展历史(1)1990-1994


1990年,最早的搜索引                                1994年,第一个基
                     1993年,第一个Web                            7月,卡耐基
 1990年,最早的搜索引                                1994年,第一个基
                      1993年,第一个Web                            7月,卡耐基
擎Archie出现,由加拿                               于全文本检索的搜
                     搜索引擎Wandex由                             梅隆大学的
 擎Archie出现,由加拿                               于全文本检索的搜
                      搜索引擎Wandex由                             梅隆大学的
                     MIT学生Matthew Gray                       Lycos发布,
大麦吉尔大学学生Alan                                索引擎WebCrawler
                      MIT学生Matthew Gray                       Lycos发布,
 大麦吉尔大学学生Alan                                索引擎WebCrawler
Emtage开发,对网上
 Emtage开发,对网上                               推出,该技术后被
                                             推出,该技术后被
                     开发,它通过蜘蛛进                               同年发布的
FTP站点的文件进行检           开发,它通过蜘蛛进                               同年发布的
 FTP站点的文件进行检                                各搜索引擎采用
                                             各搜索引擎采用         还有Infoseek
                     行文件抓取                                    还有Infoseek
                      行文件抓取
索索




1990         1991           1992          1993       1994

       1991年,美国明尼苏达          1993年10月,Martin        1994年4月,斯坦福大
        1991年,美国明尼苏达          1993年10月,Martin        1994年4月,斯坦福大
       大学学生Mark McCahill     Koster创建了Aliweb,是      学学生David Filo和杨致
        大学学生Mark McCahill     Koster创建了Aliweb,是      学学生David Filo和杨致
                             Archie的HTTP版本,靠
                              Archie的HTTP版本,靠
       开发出Gopher,可对网                                远共同创办Yahoo!并成
        开发出Gopher,可对网                                远共同创办Yahoo!并成
       上文本文件进行检索             网站主动提交信息来建             功使搜索引擎的概念深
        上文本文件进行检索             网站主动提交信息来建             功使搜索引擎的概念深
                             立自己的链接索引               入人心,搜索引擎进入
                              立自己的链接索引               入人心,搜索引擎进入
                                                    了高速发展时期
                                                     了高速发展时期
搜索引擎的发展历史(2)1995-1999

1995年12月, AltaVista大量创新功
 1995年12月, AltaVista大量创新功                       1999年, Alltheweb由FAST公司
                                                 1999年, Alltheweb由FAST公司
                               1996年,最早基于
能达到当时搜索引擎的顶峰:第
                                1996年,最早基于
 能达到当时搜索引擎的顶峰:第                                 推出, 支持Flash和PDF搜索, 提
                                                 推出, 支持Flash和PDF搜索, 提
一个支持自然语言搜索;具备网                 自然语言问题搜索
 一个支持自然语言搜索;具备网                                 供新闻,图像,视频,MP3和FTP搜
                                自然语言问题搜索
                               的Ask Jeeves创办     供新闻,图像,视频,MP3和FTP搜
页内容分析智能处理能力;支持
                                的Ask Jeeves创办
 页内容分析智能处理能力;支持                                 索, 索引量和更新速度领先
                                                 索, 索引量和更新速度领先
高级搜索语法;搜索新闻群组、
 高级搜索语法;搜索新闻群组、
图片等
 图片等
                                       1997年Northern
                                        1997年Northern
                                       Light发布
                                        Light发布



    1995           1996         1997       1998          1999
    1995年Excite     1996年8月        1997年北大天网        1998年6月,Goto.com发
     1995年Excite     1996年8月        1997年北大天网        1998年6月,Goto.com发
                                                    布,最早提出P4P概念
    发布              搜狐创办           在教育网发布            布,最早提出P4P概念
     发布              搜狐创办           在教育网发布


 1996年,UC.Berkeley教授Eric Brewer和学生        1998年9月,斯坦福大学学生Larry Page
  1996年,UC.Berkeley教授Eric Brewer和学生        1998年9月,斯坦福大学学生Larry Page
 Paul Gauthier创办Inktomi,为其它网络公司提          和Sergey Brin创办Google
  Paul Gauthier创办Inktomi,为其它网络公司提          和Sergey Brin创办Google
 供搜索和内容分发服务
  供搜索和内容分发服务
搜索引擎的发展历史(3)2000年至今


                 2003年2月,Fast搜索部         2005年8月,阿里巴巴收购
                  2003年2月,Fast搜索部         2005年8月,阿里巴巴收购
                 门被Overture收购            雅虎中国业务,进入搜索
                  门被Overture收购            雅虎中国业务,进入搜索

 2000年1月李彦宏和
  2000年1月李彦宏和
                2003年2月,AltaVista被     2004年, 雅虎推出基于YST搜索
                 2003年2月,AltaVista被
 徐勇于创建百度
                                        2004年, 雅虎推出基于YST搜索
  徐勇于创建百度
                Overture收购
                 Overture收购            技术平台的独立搜索引擎
                                        技术平台的独立搜索引擎




2000    2001     2002       2003       2004       2005

            2002年,雅虎收购提供搜          2004年3月雅虎收购
             2002年,雅虎收购提供搜          2004年3月雅虎收购
                                   Overture
                                    Overture
            索引擎公司Inktomi
             索引擎公司Inktomi


                                        2005年微软发布MSN搜索
                                         2005年微软发布MSN搜索
中国是全球竞争最激烈的搜索市场




 国内搜索引擎数量众多,但是市场集中度高。据易观国际统计,
 国内搜索引擎数量众多,但是市场集中度高。据易观国际统计,
 2008年,百度、Google和雅虎占据了
     年 百度、      和雅虎占据了95.8%的市场份额。
                           的市场份额。
                和雅虎占据了     的市场份额
搜索引擎对我们生活的改变
• 网页数量的高速增长体现了搜索引擎的价值;同时,搜索
  引擎反过来又推动了更多Web内容的创作
 – 信息如果无法被发现,价值就无法体现
 – 目录和书签的模式无法解决海量的信息检索


• 搜索引擎使得兴趣的聚合成为可能
 – Niche市场的动力(Long Tail)
 – 共同兴趣的人群:社区


• 搜索引擎也改变了互联网广告
 – 搜索广告的精准率远高于传统的Banner广告
 – Google的AdWord搜索广告模式的巨大成功
搜索引擎的产业链

                          Users

                    搜索服务      广告受众
   Advertisers                                   Webmasters
                   销售广告           流量

            投放广告
                                            内容
                    Search Engine                       委托网站设计
委托发布广告    广告管理服务                            搜索引擎优化

            投放广告
                                    Anti-spam
                                                     SEO
                   销售广告
   Search Ad
    Resellers
                              作弊内容
                                                 Spammers
搜索引擎市场增长的潜力




 易观国际《中国搜索引擎市场趋势预测2007-2011》研究表明,2011
 易观国际《中国搜索引擎市场趋势预测         》研究表明,
 年中国搜索引擎运营商收入将达到 亿元,从2007到2011年均复合
 年中国搜索引擎运营商收入将达到122亿元
                   亿元,      到  年均复合
 增长率为34.1%。
 增长率为     。
搜索引擎发展历程回顾
• 搜索技术创新与高校之间密不可分
  – Archie, Gopher, Lycos, Yahoo, Google…


• 因为市场潜力大,搜索引擎服务商众多,但是在市场竞争
  下会逐步趋向集中
  – 服务的同质化
  – 巨额的运营成本
  – 规模效益


• 技术突破(disruptive)可以改写市场竞争的格局
  – AltaVista -> Yahoo! -> Google -> Who next?
第2部分

搜索引擎的分类
搜索引擎的分类(1)按照搜索的方式

• 目录式型搜索引擎
 – 使用分类技术,人工按照目录或主题收集或审批网址,供用户浏
   览查询
 – 代表:雅虎目录、Hao123、265导航等


• 关键词型搜索引擎
 – 使用关键词全文检索技术,先对网页用词作倒排索引,再对查询
   关键词作查找匹配
 – 代表:Google、百度、雅虎等
搜索引擎的分类(2)按照搜索的对象
• 网页搜索(Web Search)
   – 采集和搜索海量的网页,包括各种类型的文件,如:HTML, Word,
     PowerPoint等,也称作通用搜索
   – 代表:Google, 百度, 雅虎

• 垂直搜索(Vertical Search)
   – 多媒体搜索:搜索音频、图片、视频等文件
      • 例如:MP3搜索
   – 结构化文件搜索:搜索新闻、博客、商品等结构化网页信息
      • 例如:淘宝搜索


• 聚合搜索(Combo Search)
   – 将网页、音乐、图片、新闻等各种搜索应用混合在一起提供
   – 多为面向某一应用领域
   – 例如:Google Universal Search,韩国Naver
垂直搜索和网页搜索的对比

                    Vertical Search                 Web Search
Index Size          Smaller and specialized         Global and general

Document Type       Typically more structured       Typically less structured

Relevance           Highly customizable             Fixed algorithm
                    Relevance enhanced by           Popularity-based
                         –Constrained context
                         –Structured data
                         –Domain Taxonomy

Comprehensiveness   Focused/deep crawling           Broad/surface crawling

Freshness           Customizable schedules          Fixed schedule
                    From seconds to months          Days on average
Presentation        Structured, Navigational        Flat list
                         –Taxonomy drill-down
                         –Sorting & grouping
                         –Clustering & collapsing
搜索引擎的分类(3)按照搜索应用的平台

• 搜索引擎网站
   – 直接去搜索引擎站点搜索框,最传统的搜索模式

• 浏览器搜索(Browser-based Search)
   – 地址栏搜索:直接在浏览器地址栏进行搜索,如Google浏览器Chrome
   – 工具栏搜索:浏览器上单独的搜索框或安装的插件,如IE 7, Firefox等

• 桌面搜索(Desktop Search)
   – 需要单独安装的桌面搜索软件,可搜索互联网和硬盘里面的文档
   – 举例:Google桌面搜索,百度硬盘搜索

• 移动搜索(Mobile Search)
   – 为手机或者PDA的浏览器开发特定的搜索界面或者特定的搜索软件
   – 举例:Yahoo! oneSearch
元搜索引擎(Meta Search Engine)

• 建立在搜索引擎之上的搜索引擎,它把用户查询词分配给几个指定的
  搜索引擎,再将所得结果分级排序去重进行展现

• 优势:内容全面,解决不同搜索引擎内容索引的偏好,并利于进行再
  加工,如聚类处理

• 问题:
   – 版权问题
   – 搜索性能
   – 排序算法的合理性

• 代表:Clusty (Vivisimo), BBmao
示例:BBmao.com




   对所有结果进行聚类   对雅虎和百度共同的结果进行合并
第3部分

搜索引擎的原理
Web搜索引擎的工作原理

        1
             址网  A
             址网  B
             址网  C
             …



                                    3
                     2
                         址 网 字键关
                            A   A
                         址网 字键关
                            B   B
                         址 网 字键关
                            C   C
                            …




                         2. 根据关键字       3. 用户按照关键字
1. 采集大量的网页               为网页作索引         搜索网页


  Crawler            Index Pages        Search & Rank
第1步:通过蜘蛛搜集网页

• Crawler 或者 Spider负责从互联
  网上搜集网页内容

• Crawler的原理                   雅虎蜘蛛(Slurp)的路径树
  – 抓取的目标
      • 构建互联网上的站点链接图
        Webmap
      • 单个网站的结构 Sitemap
  –   抓取的站点深度
  –   索引网页的哪部分内容
  –   索引文件的类型
  –   抓取的频率



                           http://drunkmenworkhere.org/#yahoo
蜘蛛的准则
• A Crawler must show identification
   – Yahoo! Slurp, Googlebot, Baidu Spider

• A Crawler must obey the robots exclusion
  standard
   – http://www.robotstxt.org/wc/norobots.html


• A Crawler must not hog resources

• A Crawler must report errors
蜘蛛的挑战
• 大多数网站服务器响应缓慢,无法支持过多请求

• 死循环陷阱 – 网页的超链错误

• 抓取的质量
  – Dedup - 重复的网页识别
  – Anti-spam – 作弊站点和网页的识别

• 动态网页内容的抓取
  • Deep Web
  • Ajax

• 海量增长的互联网内容
  • Google的索引量:2600万(1998年) 10亿(2000年) 80亿(2005年)
  • 未来:1000亿?
第2步:建立索引数据库

• 记录每个网页的信息
  –    Language:中文、英文、…
  –    Domain names
  –    Time stamp
  –    …
• 词表
  –    标题?
  –    在文章中的哪个位置?
  –    字体有无加粗?

• 指向本网页的其它网页的URL
• 指向本网页的Anchor Text
倒排索引 Inverted Index

• 如何存储关键词来提升查找速度
• 基本的原理
  – 在中文、日文和韩文等亚洲语言需要分词
  – 互联网-搜索-技术
  – 把网页里面的所有词建立一个词表
  – 对每一个词,列出包含该词的文章
  – 需要去掉一些常用的词,如:“的”
     • “stop words”
  – 在英语等西方语言里面还有词干 “stem ” 分析
     • cats - cat
     • running – run
第3步:检索结果和排序

• 搜索引擎接受到用户的搜索词“Query”
• 对Query进行预处理,例如:分词
• 在索引中查找该搜索词,得到命中的文档
• 对文档进行排序,并自动生成包含关键词的摘要 “snippets”
• 对于多个搜索词,缺省语法是同时包含所有的关键词
  (Boolean AND, not OR).
• 搜索排序算法是非常复杂,会用到大量的features
    –   匹配的关键词数
    –   命中的位置
    –   Anchor text
    –   Quality Score = Dynamic score + Static score
静态质量 - 链接分析的重要性
• Google的PageRank算法
  – 核心思想
     • 重要的网页指向的网页也是重要的
     • 举例:论文后面的参考论文列表
  – 技术原理
     – 网页每得到一个其它网页的链接则被加分
     – 开始网页的权重会影响到所链接网页的权重




        http://www.economist.com/science/tq/displayStory.cfm?story_id=3172188
Google Bombing or Link Bombing




         对搜索引擎排序算法缺陷的利用
一个搜索引擎的架构图




“Anatomy of a Large-Scale Hypertext Web Search Engine”, Brin & Page, 1998.
http://dbpubs.stanford.edu:8090/pub/1998-8
判断搜索引擎质量的几个重要维度
• Relevance:找的是否准确,可理解为Precision

• Comprehensiveness:找到的信息是否全,可理解为Recall

• Freshness:最新的内容(新闻、博客等)是否在最短的时间内
  找得到

• Anti-spam:作弊和垃圾网页是否被滤掉了

• Performance:查找和返回结果的速度是否快

• Usability:结果页设计是否合理,有没有提供相关搜索、拼写
  纠错等辅助的搜索功能
Spam – 挑战搜索引擎的质量
•   Cloaking                                                 SPAM
                                                         Y
    – 对搜索引擎蜘蛛提供虚假网页内容
                                      Is this a Search
    – DNS cloaking: 自动切换IP地址
                                      Engine spider?
•   Doorway Spam
                                                             Real
    – 过渡网页为某个关键词做优化,跳转到另外一                               N
                                                             Doc
      个目标网页
•   Keyword Spam
    – 误导性的各种meta-keywords,大量重复关键
                                               Cloaking
      词,对“anchor text” 造假
    – 通过文本颜色、CSS等堆砌关键词
•   Link Spam
    – 链接互换,隐藏链接等
    – Domain flooding: 大量的域名指向或跳转到目
      标网页
•   Robots
    – 虚假的点击行为
    – 虚假的Query
第4部分

搜索引擎的挑战
搜索引擎面临的挑战


       Search within Search
 如何减少用户在搜索结果里面再次搜索的成本,真正快而准
如何解决 Search within Search
• Page classification
   – 识别网页的类型:新闻、论坛、博客、索引页…
• Content classification
   – 识别网页的主题:财经、健康、旅游…
• Object classification
   – 识别网页的结构:导航、正文、广告…
• Information extraction
   – 提取重要的网页信息:时间、作者、地点…
• Web mining
   – 发现网页之间的信息关系,而不仅仅是链接关系
举例: Hakia

 对网页主题的分类,帮助用户进行结果的筛选




                        网页主题分类
举例:Web Mining的应用




  人物地图:利用信息抽取和网页挖掘技术计算出名人的关系

  http://www.yahoo.cn/s?v=person&p=周杰伦&id=14754
搜索引擎面临的挑战


        Search within Search
 如何减少用户在搜索结果里面再次搜索的成本,真正快而准


           Invisible Tabs
 减少用户了解各种垂直搜索产品的成本,帮助返回全方位的相
             关信息
垂直搜索的价值被限制
• “Invisible Tabs”由Search Engine Watch的资深编辑Danny
  Sullivan发明,用来描述搜索引擎可能会怎样来试图提供
  更贴近用户本意的搜索结果


               “You almost need a search engine
                “You almost need a search engine
               for all our search enginesquot;
                for all our search enginesquot;
                                          Marissa Mayer
                                           Marissa Mayer
                          VP of Search Products and User
                          VP of Search Products and User
                                    Experience at Google
                                     Experience at Google
Google 解决此问题的尝试
Universal Search




  新闻


  网站


  视频



  图片
搜索引擎面临的挑战


        Search within Search
 如何减少用户在搜索结果里面再次搜索的成本,真正快而准


            Invisible Tabs
 减少用户了解各种垂直搜索产品的成本,帮助返回全方位的相
             关信息


      Deep Web or Invisible Web
    对互联网上各种搜索引擎无法获取信息的处理
Deep Web 概况

         30万站点,45万数据库,126万接口,在2000~2004年间增加了
数据规模
         3~7倍

主题多元化    分布在各种主题内容,不仅仅是电子商务类

数据结构     多数为结构化数据

         94%可以在前3层被发现
数据深度
         - Deep web并不是完全不能抓取,主流的搜索引擎约覆盖了1/3的
搜索引擎的覆
盖率       数据
         - 但是搜索引擎由于其内在的局限性,各家覆盖的数据基本一样


         很少,只有0.2%~15.6%
目录站点的覆
盖率

         数据来源:”Accessing the Deep Web”, Communications of the ACM, May 2007
搜索引擎对Deep Web的覆盖

                                  Coverage of Search Engines on Deep Web

The Entire Deep Web

      Google (32%)

      Yahoo (32%)

        MSN (11%)

          All (37%)




                      0%    5%                        37%                     100%




         数据来源:”Accessing the Deep Web”, Communications of the ACM, May 2007
搜索引擎的更多挑战
• 互联网内容增长的速度可能超过目前搜索引擎技
  术可以有效处理的范畴
• 由自然语言统计到自然语言语义的应用
• 对Deep Web 的索引
• 随着搜索引擎发展同步变化的Spam
• 个性化搜索与个人隐私的平衡
• 搜索引擎商业利益和信息公正性的关系
 – 百度的竞价排名广告事件
第5部分

搜索引擎的未来
搜索引擎技术的发展


  第1代           第2代                 第3代
    代             代                   代
 搜索引擎          搜索引擎                搜索引擎


                                 •理解“Query背后的需求”
•只使用页面上的信   •使用页面之外的数据
            •Link 链接关系分析         •语义的分析
 息,文本数据
•词频,语言      •CTR 点击数据(用户都        •多个来源数据的整合
                                 •帮助用户优化搜索
             点击了哪些结果)
            •Anchor text (别人如何
             描述某个页面)
搜索用户的需求
• 不同的用户需求 (Andrei Broder 2002)
  – Informational 想了解一样东西
  – Navigational 想访问一个网址
  – Transactional 想通过网络干一件事情
     • 服务
     • 下载
     • 购物
  – 其它的灰色领域 Gray areas
     • 发散性搜索 “闲逛”


• Rose & Levinson 加以改进, WWW2004
对用户Query的挖掘
• Semantic Web的梦想
  – Tim Berners-Lee
  – 假设:Explicit Semantic Information
  – 障碍:我们自己


• 用户记录:
  – Implicit Semantic Information
  –   免费的
  –   海量的
  –   无偏见的
  –   假设:Queries是最好的数据源
  – 语言特征、关键词匹配和挖掘分析的利用
举例: Google的天气查询
举例: Yahoo!的本地查询
Context 的应用
• Context的判断
  –   地域位置信息
  –   Query 序列(Query历史)
  –   个人注册信息(User profile)
  –   Explicit 显性(用户对搜索Tab的选择)
  –   Implicit 隐性(用户输入的网址)

• Context的应用
  – 结果的限制
      • 排除不合适的结果
  – 排序的调整
      • 先使用通用的排序,再作个性化处理
从Search到Information Supply


                                            Avail. Info.
                                Activity
             User Profile
                                             Supply
                                Context
              & Context




                   Information Supply Engine


                               Matching
                              information


          Feedback                              Feedback

                              User Action

 Source: Andrei Broder 2006
举例: Context Ads – Google AdSense
自然语言搜索
• 问题:of the people, for the people
  and by the people

• 索引:不再按keywords的索引,而
  是按短语

• 排序:根据query返回多层次相关
  的结果

• 目前的自然语言搜索引擎还只相当
  于小孩的智力水平
Social Search

• 用户自己创建和使用内容User
  Generated Content (UGC)

• 网络效应 (Network Effect) 显著: 价
  值随着用户数增长而加速增长

• UGC包括文本、图片、视频等各
  种Social Media

• 代表网站: Facebook, YouTube等
                                《时代》周刊“2006
                                 年度人物”封面
Social Media的力量
• 成百万的用户共享图片、网址或者
  视频文件,并给它们加上标签Tag
  (Meta Data)

• 群体智慧 (Wisdom of the Crowd) 可
  以帮助搜索

• 基本原理与传统搜索一样
  – anchor text
举例: Flickr 图片搜索
Mobile Search 移动搜索

Desktop Search ≠ Mobile Search




    移动搜索需要考虑到手机屏幕的大小,交互模式 (例如 iPhone
    移动搜索需要考虑到手机屏幕的大小,           例如
     Touch Screen)、手机浏览器、用户位置信息等各种因素
                  、手机浏览器、


      Mobile Web 2009 = Desktop Web 1998
                             Jakob Nielsen
举例:雅虎oneSearch

在旧金山,一个用
户饿了,输入…


pizza
搜索UI的创新
未来的搜索

Unstructured     Structured

Desktop Search   Mobile Search

Solo Search      Universal Search

Relevance        Intelligence

Surface Web      Deep Web

Search           Recommendation
Q&A



      Thank you!

More Related Content

What's hot

[창업자&예비창업자] 2021 창업 트렌드
[창업자&예비창업자] 2021 창업 트렌드[창업자&예비창업자] 2021 창업 트렌드
[창업자&예비창업자] 2021 창업 트렌드더게임체인저스
 
의대생이 알아야할 인터넷 상식
의대생이 알아야할 인터넷 상식의대생이 알아야할 인터넷 상식
의대생이 알아야할 인터넷 상식Kwangmo Yang
 
Trend korea 2021 한국 소비 트렌드 2021
Trend korea 2021 한국 소비 트렌드 2021 Trend korea 2021 한국 소비 트렌드 2021
Trend korea 2021 한국 소비 트렌드 2021 Jahee Lee
 
Me Conomy 01
Me Conomy 01Me Conomy 01
Me Conomy 01Clara_Kim
 
DS-030-結構化技術
DS-030-結構化技術DS-030-結構化技術
DS-030-結構化技術handbook
 
2021 트랜드 코리아
 2021 트랜드 코리아 2021 트랜드 코리아
2021 트랜드 코리아SeungYeon Jeong
 
入門啟示錄 Ch03簡報
入門啟示錄 Ch03簡報入門啟示錄 Ch03簡報
入門啟示錄 Ch03簡報Chiou WeiHao
 
入門啟示錄Ch02簡報
入門啟示錄Ch02簡報入門啟示錄Ch02簡報
入門啟示錄Ch02簡報Chiou WeiHao
 
入門啟示錄Ch06簡報
入門啟示錄Ch06簡報入門啟示錄Ch06簡報
入門啟示錄Ch06簡報Chiou WeiHao
 
國際人權保障機制
國際人權保障機制國際人權保障機制
國際人權保障機制None
 
Part2 웹사이트 벤치마킹의 9가지 패턴
Part2 웹사이트 벤치마킹의 9가지 패턴Part2 웹사이트 벤치마킹의 9가지 패턴
Part2 웹사이트 벤치마킹의 9가지 패턴shannonsi
 
TV는 멀리 사랑은 가까이-정진호
TV는 멀리 사랑은 가까이-정진호TV는 멀리 사랑은 가까이-정진호
TV는 멀리 사랑은 가까이-정진호Jinho Jung
 
入門啟示錄Ch05簡報
入門啟示錄Ch05簡報入門啟示錄Ch05簡報
入門啟示錄Ch05簡報Chiou WeiHao
 
CRE-024-製商整合科技與產業創新
CRE-024-製商整合科技與產業創新CRE-024-製商整合科技與產業創新
CRE-024-製商整合科技與產業創新handbook
 
入門啟示錄Ch04簡報
入門啟示錄Ch04簡報入門啟示錄Ch04簡報
入門啟示錄Ch04簡報Chiou WeiHao
 

What's hot (20)

[창업자&예비창업자] 2021 창업 트렌드
[창업자&예비창업자] 2021 창업 트렌드[창업자&예비창업자] 2021 창업 트렌드
[창업자&예비창업자] 2021 창업 트렌드
 
의대생이 알아야할 인터넷 상식
의대생이 알아야할 인터넷 상식의대생이 알아야할 인터넷 상식
의대생이 알아야할 인터넷 상식
 
Trend korea 2021 한국 소비 트렌드 2021
Trend korea 2021 한국 소비 트렌드 2021 Trend korea 2021 한국 소비 트렌드 2021
Trend korea 2021 한국 소비 트렌드 2021
 
Me Conomy 01
Me Conomy 01Me Conomy 01
Me Conomy 01
 
DS-030-結構化技術
DS-030-結構化技術DS-030-結構化技術
DS-030-結構化技術
 
2021 트랜드 코리아
 2021 트랜드 코리아 2021 트랜드 코리아
2021 트랜드 코리아
 
Auo
AuoAuo
Auo
 
入門啟示錄 Ch03簡報
入門啟示錄 Ch03簡報入門啟示錄 Ch03簡報
入門啟示錄 Ch03簡報
 
入門啟示錄Ch02簡報
入門啟示錄Ch02簡報入門啟示錄Ch02簡報
入門啟示錄Ch02簡報
 
入門啟示錄Ch06簡報
入門啟示錄Ch06簡報入門啟示錄Ch06簡報
入門啟示錄Ch06簡報
 
Kaddurai simizh
Kaddurai simizhKaddurai simizh
Kaddurai simizh
 
國際人權保障機制
國際人權保障機制國際人權保障機制
國際人權保障機制
 
Part2 웹사이트 벤치마킹의 9가지 패턴
Part2 웹사이트 벤치마킹의 9가지 패턴Part2 웹사이트 벤치마킹의 9가지 패턴
Part2 웹사이트 벤치마킹의 9가지 패턴
 
Healthy or Sexy?
Healthy or Sexy?Healthy or Sexy?
Healthy or Sexy?
 
TV는 멀리 사랑은 가까이-정진호
TV는 멀리 사랑은 가까이-정진호TV는 멀리 사랑은 가까이-정진호
TV는 멀리 사랑은 가까이-정진호
 
하이리빙Om
하이리빙Om하이리빙Om
하이리빙Om
 
入門啟示錄Ch05簡報
入門啟示錄Ch05簡報入門啟示錄Ch05簡報
入門啟示錄Ch05簡報
 
CRE-024-製商整合科技與產業創新
CRE-024-製商整合科技與產業創新CRE-024-製商整合科技與產業創新
CRE-024-製商整合科技與產業創新
 
入門啟示錄Ch04簡報
入門啟示錄Ch04簡報入門啟示錄Ch04簡報
入門啟示錄Ch04簡報
 
Proposal_20081110
Proposal_20081110Proposal_20081110
Proposal_20081110
 

Viewers also liked

kids in gaza
kids in gazakids in gaza
kids in gazalindak
 
StarsForShluchim
StarsForShluchimStarsForShluchim
StarsForShluchimk333
 
迷雾中奔跑-互联网产品开发思考
迷雾中奔跑-互联网产品开发思考迷雾中奔跑-互联网产品开发思考
迷雾中奔跑-互联网产品开发思考Qingji Chen
 
Using Webmaster Tools from Search Engines
Using Webmaster Tools from Search EnginesUsing Webmaster Tools from Search Engines
Using Webmaster Tools from Search EnginesQin ZHANG
 
Search in Web 2.0 Era
Search in Web 2.0 EraSearch in Web 2.0 Era
Search in Web 2.0 EraQin ZHANG
 
Stress
StressStress
StressSi Lim
 
Vuelo De Gansos[2]
Vuelo De  Gansos[2]Vuelo De  Gansos[2]
Vuelo De Gansos[2]guest44eb4d
 
rosary support
rosary supportrosary support
rosary supportlindak
 

Viewers also liked (8)

kids in gaza
kids in gazakids in gaza
kids in gaza
 
StarsForShluchim
StarsForShluchimStarsForShluchim
StarsForShluchim
 
迷雾中奔跑-互联网产品开发思考
迷雾中奔跑-互联网产品开发思考迷雾中奔跑-互联网产品开发思考
迷雾中奔跑-互联网产品开发思考
 
Using Webmaster Tools from Search Engines
Using Webmaster Tools from Search EnginesUsing Webmaster Tools from Search Engines
Using Webmaster Tools from Search Engines
 
Search in Web 2.0 Era
Search in Web 2.0 EraSearch in Web 2.0 Era
Search in Web 2.0 Era
 
Stress
StressStress
Stress
 
Vuelo De Gansos[2]
Vuelo De  Gansos[2]Vuelo De  Gansos[2]
Vuelo De Gansos[2]
 
rosary support
rosary supportrosary support
rosary support
 

Search Engine 2009: Past, Current and Future

  • 2. 《互联网搜索技术》课程目标 • 加深对互联网和搜索引擎的理解 • 学习搜索引擎相关的核心技术领域 • 可以搭建一个简单的搜索引擎 • 增强未来在互联网行业求职的竞争力
  • 3. 课程结构 1. 搜索引擎的历史、现状和未来 2. 分布式搜索引擎的体系结构 3. Crawler设计和信息抽取 4. 索引和查询 5. 中文语言处理 6. 基于机器学习的搜索排序研究 7. 多媒体搜索 每节课将安排该领域具有丰富 8. 课程答疑 每节课将安排该领域具有丰富 经验的ASC技术专家来授课 经验的 技术专家来授课 经验的ASC技术专家来授课 经验的 技术专家来授课
  • 4. 参考书 《搜索引擎原理、技术与系统》 作者:李晓明、闫宏飞、王继民 科学出版社2004年出版
  • 5. 补充读物-1 The Search: How Google and Its Rivals Rewrote the Rules of Business and Transformed Our Culture by John Battelle •ISBN-10: 1591840880 •Publisher: Portfolio (September 8, 2005) 作者博客站点 http://battellemedia.com/
  • 6. 补充读物-2 Modern Information Retrieval by Ricardo Baeza-Yates (Universidad de Chile, Chile) and Berthier Ribeiro- Neto (Univ Federal de Minas Gerais, Brazil) •ISBN-10: 020139829X •Publisher: Addison-Wesley 1999
  • 7. 考评方法 • 课程成绩组成 – 课堂讨论 40% – 小组项目 • 项目1: 30% • 项目2: 30% • 分组方法 – 每个小组由2-3名同学组成,请大家课后将组合好的名 单发给TA – 名单一经确定后则不能修改 – 课程结束时小组成绩即为组内每个同学的成绩
  • 8. 什么是搜索引擎 A search engine is a program designed to help find information stored on a computer system such as the World Wide Web, inside a corporate or proprietary network or a personal computer. --- Wikipedia 搜索引擎属于跨学科应用,涉及信息检索、数据库、 数据挖掘、计算机系统、多媒体、人工智能、计算机 网络、分布式处理、图书馆学、自然语言处理等多个 领域,是目前互联网上最复杂的基础应用之一
  • 9. 本节课的目标 • 理解搜索引擎的 – 发展历史 – 分类的方法 – 技术原理和核心技术的变化 – 面临的挑战 – 未来的方向 • 本节课将包括2次自由讨论
  • 11. 搜索引擎的发展历史(1)1990-1994 1990年,最早的搜索引 1994年,第一个基 1993年,第一个Web 7月,卡耐基 1990年,最早的搜索引 1994年,第一个基 1993年,第一个Web 7月,卡耐基 擎Archie出现,由加拿 于全文本检索的搜 搜索引擎Wandex由 梅隆大学的 擎Archie出现,由加拿 于全文本检索的搜 搜索引擎Wandex由 梅隆大学的 MIT学生Matthew Gray Lycos发布, 大麦吉尔大学学生Alan 索引擎WebCrawler MIT学生Matthew Gray Lycos发布, 大麦吉尔大学学生Alan 索引擎WebCrawler Emtage开发,对网上 Emtage开发,对网上 推出,该技术后被 推出,该技术后被 开发,它通过蜘蛛进 同年发布的 FTP站点的文件进行检 开发,它通过蜘蛛进 同年发布的 FTP站点的文件进行检 各搜索引擎采用 各搜索引擎采用 还有Infoseek 行文件抓取 还有Infoseek 行文件抓取 索索 1990 1991 1992 1993 1994 1991年,美国明尼苏达 1993年10月,Martin 1994年4月,斯坦福大 1991年,美国明尼苏达 1993年10月,Martin 1994年4月,斯坦福大 大学学生Mark McCahill Koster创建了Aliweb,是 学学生David Filo和杨致 大学学生Mark McCahill Koster创建了Aliweb,是 学学生David Filo和杨致 Archie的HTTP版本,靠 Archie的HTTP版本,靠 开发出Gopher,可对网 远共同创办Yahoo!并成 开发出Gopher,可对网 远共同创办Yahoo!并成 上文本文件进行检索 网站主动提交信息来建 功使搜索引擎的概念深 上文本文件进行检索 网站主动提交信息来建 功使搜索引擎的概念深 立自己的链接索引 入人心,搜索引擎进入 立自己的链接索引 入人心,搜索引擎进入 了高速发展时期 了高速发展时期
  • 12. 搜索引擎的发展历史(2)1995-1999 1995年12月, AltaVista大量创新功 1995年12月, AltaVista大量创新功 1999年, Alltheweb由FAST公司 1999年, Alltheweb由FAST公司 1996年,最早基于 能达到当时搜索引擎的顶峰:第 1996年,最早基于 能达到当时搜索引擎的顶峰:第 推出, 支持Flash和PDF搜索, 提 推出, 支持Flash和PDF搜索, 提 一个支持自然语言搜索;具备网 自然语言问题搜索 一个支持自然语言搜索;具备网 供新闻,图像,视频,MP3和FTP搜 自然语言问题搜索 的Ask Jeeves创办 供新闻,图像,视频,MP3和FTP搜 页内容分析智能处理能力;支持 的Ask Jeeves创办 页内容分析智能处理能力;支持 索, 索引量和更新速度领先 索, 索引量和更新速度领先 高级搜索语法;搜索新闻群组、 高级搜索语法;搜索新闻群组、 图片等 图片等 1997年Northern 1997年Northern Light发布 Light发布 1995 1996 1997 1998 1999 1995年Excite 1996年8月 1997年北大天网 1998年6月,Goto.com发 1995年Excite 1996年8月 1997年北大天网 1998年6月,Goto.com发 布,最早提出P4P概念 发布 搜狐创办 在教育网发布 布,最早提出P4P概念 发布 搜狐创办 在教育网发布 1996年,UC.Berkeley教授Eric Brewer和学生 1998年9月,斯坦福大学学生Larry Page 1996年,UC.Berkeley教授Eric Brewer和学生 1998年9月,斯坦福大学学生Larry Page Paul Gauthier创办Inktomi,为其它网络公司提 和Sergey Brin创办Google Paul Gauthier创办Inktomi,为其它网络公司提 和Sergey Brin创办Google 供搜索和内容分发服务 供搜索和内容分发服务
  • 13. 搜索引擎的发展历史(3)2000年至今 2003年2月,Fast搜索部 2005年8月,阿里巴巴收购 2003年2月,Fast搜索部 2005年8月,阿里巴巴收购 门被Overture收购 雅虎中国业务,进入搜索 门被Overture收购 雅虎中国业务,进入搜索 2000年1月李彦宏和 2000年1月李彦宏和 2003年2月,AltaVista被 2004年, 雅虎推出基于YST搜索 2003年2月,AltaVista被 徐勇于创建百度 2004年, 雅虎推出基于YST搜索 徐勇于创建百度 Overture收购 Overture收购 技术平台的独立搜索引擎 技术平台的独立搜索引擎 2000 2001 2002 2003 2004 2005 2002年,雅虎收购提供搜 2004年3月雅虎收购 2002年,雅虎收购提供搜 2004年3月雅虎收购 Overture Overture 索引擎公司Inktomi 索引擎公司Inktomi 2005年微软发布MSN搜索 2005年微软发布MSN搜索
  • 14. 中国是全球竞争最激烈的搜索市场 国内搜索引擎数量众多,但是市场集中度高。据易观国际统计, 国内搜索引擎数量众多,但是市场集中度高。据易观国际统计, 2008年,百度、Google和雅虎占据了 年 百度、 和雅虎占据了95.8%的市场份额。 的市场份额。 和雅虎占据了 的市场份额
  • 15. 搜索引擎对我们生活的改变 • 网页数量的高速增长体现了搜索引擎的价值;同时,搜索 引擎反过来又推动了更多Web内容的创作 – 信息如果无法被发现,价值就无法体现 – 目录和书签的模式无法解决海量的信息检索 • 搜索引擎使得兴趣的聚合成为可能 – Niche市场的动力(Long Tail) – 共同兴趣的人群:社区 • 搜索引擎也改变了互联网广告 – 搜索广告的精准率远高于传统的Banner广告 – Google的AdWord搜索广告模式的巨大成功
  • 16. 搜索引擎的产业链 Users 搜索服务 广告受众 Advertisers Webmasters 销售广告 流量 投放广告 内容 Search Engine 委托网站设计 委托发布广告 广告管理服务 搜索引擎优化 投放广告 Anti-spam SEO 销售广告 Search Ad Resellers 作弊内容 Spammers
  • 17. 搜索引擎市场增长的潜力 易观国际《中国搜索引擎市场趋势预测2007-2011》研究表明,2011 易观国际《中国搜索引擎市场趋势预测 》研究表明, 年中国搜索引擎运营商收入将达到 亿元,从2007到2011年均复合 年中国搜索引擎运营商收入将达到122亿元 亿元, 到 年均复合 增长率为34.1%。 增长率为 。
  • 18. 搜索引擎发展历程回顾 • 搜索技术创新与高校之间密不可分 – Archie, Gopher, Lycos, Yahoo, Google… • 因为市场潜力大,搜索引擎服务商众多,但是在市场竞争 下会逐步趋向集中 – 服务的同质化 – 巨额的运营成本 – 规模效益 • 技术突破(disruptive)可以改写市场竞争的格局 – AltaVista -> Yahoo! -> Google -> Who next?
  • 20. 搜索引擎的分类(1)按照搜索的方式 • 目录式型搜索引擎 – 使用分类技术,人工按照目录或主题收集或审批网址,供用户浏 览查询 – 代表:雅虎目录、Hao123、265导航等 • 关键词型搜索引擎 – 使用关键词全文检索技术,先对网页用词作倒排索引,再对查询 关键词作查找匹配 – 代表:Google、百度、雅虎等
  • 21. 搜索引擎的分类(2)按照搜索的对象 • 网页搜索(Web Search) – 采集和搜索海量的网页,包括各种类型的文件,如:HTML, Word, PowerPoint等,也称作通用搜索 – 代表:Google, 百度, 雅虎 • 垂直搜索(Vertical Search) – 多媒体搜索:搜索音频、图片、视频等文件 • 例如:MP3搜索 – 结构化文件搜索:搜索新闻、博客、商品等结构化网页信息 • 例如:淘宝搜索 • 聚合搜索(Combo Search) – 将网页、音乐、图片、新闻等各种搜索应用混合在一起提供 – 多为面向某一应用领域 – 例如:Google Universal Search,韩国Naver
  • 22. 垂直搜索和网页搜索的对比 Vertical Search Web Search Index Size Smaller and specialized Global and general Document Type Typically more structured Typically less structured Relevance Highly customizable Fixed algorithm Relevance enhanced by Popularity-based –Constrained context –Structured data –Domain Taxonomy Comprehensiveness Focused/deep crawling Broad/surface crawling Freshness Customizable schedules Fixed schedule From seconds to months Days on average Presentation Structured, Navigational Flat list –Taxonomy drill-down –Sorting & grouping –Clustering & collapsing
  • 23. 搜索引擎的分类(3)按照搜索应用的平台 • 搜索引擎网站 – 直接去搜索引擎站点搜索框,最传统的搜索模式 • 浏览器搜索(Browser-based Search) – 地址栏搜索:直接在浏览器地址栏进行搜索,如Google浏览器Chrome – 工具栏搜索:浏览器上单独的搜索框或安装的插件,如IE 7, Firefox等 • 桌面搜索(Desktop Search) – 需要单独安装的桌面搜索软件,可搜索互联网和硬盘里面的文档 – 举例:Google桌面搜索,百度硬盘搜索 • 移动搜索(Mobile Search) – 为手机或者PDA的浏览器开发特定的搜索界面或者特定的搜索软件 – 举例:Yahoo! oneSearch
  • 24. 元搜索引擎(Meta Search Engine) • 建立在搜索引擎之上的搜索引擎,它把用户查询词分配给几个指定的 搜索引擎,再将所得结果分级排序去重进行展现 • 优势:内容全面,解决不同搜索引擎内容索引的偏好,并利于进行再 加工,如聚类处理 • 问题: – 版权问题 – 搜索性能 – 排序算法的合理性 • 代表:Clusty (Vivisimo), BBmao
  • 25. 示例:BBmao.com 对所有结果进行聚类 对雅虎和百度共同的结果进行合并
  • 27. Web搜索引擎的工作原理 1 址网 A 址网 B 址网 C … 3 2 址 网 字键关 A A 址网 字键关 B B 址 网 字键关 C C … 2. 根据关键字 3. 用户按照关键字 1. 采集大量的网页 为网页作索引 搜索网页 Crawler Index Pages Search & Rank
  • 28. 第1步:通过蜘蛛搜集网页 • Crawler 或者 Spider负责从互联 网上搜集网页内容 • Crawler的原理 雅虎蜘蛛(Slurp)的路径树 – 抓取的目标 • 构建互联网上的站点链接图 Webmap • 单个网站的结构 Sitemap – 抓取的站点深度 – 索引网页的哪部分内容 – 索引文件的类型 – 抓取的频率 http://drunkmenworkhere.org/#yahoo
  • 29. 蜘蛛的准则 • A Crawler must show identification – Yahoo! Slurp, Googlebot, Baidu Spider • A Crawler must obey the robots exclusion standard – http://www.robotstxt.org/wc/norobots.html • A Crawler must not hog resources • A Crawler must report errors
  • 30. 蜘蛛的挑战 • 大多数网站服务器响应缓慢,无法支持过多请求 • 死循环陷阱 – 网页的超链错误 • 抓取的质量 – Dedup - 重复的网页识别 – Anti-spam – 作弊站点和网页的识别 • 动态网页内容的抓取 • Deep Web • Ajax • 海量增长的互联网内容 • Google的索引量:2600万(1998年) 10亿(2000年) 80亿(2005年) • 未来:1000亿?
  • 31. 第2步:建立索引数据库 • 记录每个网页的信息 – Language:中文、英文、… – Domain names – Time stamp – … • 词表 – 标题? – 在文章中的哪个位置? – 字体有无加粗? • 指向本网页的其它网页的URL • 指向本网页的Anchor Text
  • 32. 倒排索引 Inverted Index • 如何存储关键词来提升查找速度 • 基本的原理 – 在中文、日文和韩文等亚洲语言需要分词 – 互联网-搜索-技术 – 把网页里面的所有词建立一个词表 – 对每一个词,列出包含该词的文章 – 需要去掉一些常用的词,如:“的” • “stop words” – 在英语等西方语言里面还有词干 “stem ” 分析 • cats - cat • running – run
  • 33. 第3步:检索结果和排序 • 搜索引擎接受到用户的搜索词“Query” • 对Query进行预处理,例如:分词 • 在索引中查找该搜索词,得到命中的文档 • 对文档进行排序,并自动生成包含关键词的摘要 “snippets” • 对于多个搜索词,缺省语法是同时包含所有的关键词 (Boolean AND, not OR). • 搜索排序算法是非常复杂,会用到大量的features – 匹配的关键词数 – 命中的位置 – Anchor text – Quality Score = Dynamic score + Static score
  • 34. 静态质量 - 链接分析的重要性 • Google的PageRank算法 – 核心思想 • 重要的网页指向的网页也是重要的 • 举例:论文后面的参考论文列表 – 技术原理 – 网页每得到一个其它网页的链接则被加分 – 开始网页的权重会影响到所链接网页的权重 http://www.economist.com/science/tq/displayStory.cfm?story_id=3172188
  • 35. Google Bombing or Link Bombing 对搜索引擎排序算法缺陷的利用
  • 36. 一个搜索引擎的架构图 “Anatomy of a Large-Scale Hypertext Web Search Engine”, Brin & Page, 1998. http://dbpubs.stanford.edu:8090/pub/1998-8
  • 37. 判断搜索引擎质量的几个重要维度 • Relevance:找的是否准确,可理解为Precision • Comprehensiveness:找到的信息是否全,可理解为Recall • Freshness:最新的内容(新闻、博客等)是否在最短的时间内 找得到 • Anti-spam:作弊和垃圾网页是否被滤掉了 • Performance:查找和返回结果的速度是否快 • Usability:结果页设计是否合理,有没有提供相关搜索、拼写 纠错等辅助的搜索功能
  • 38. Spam – 挑战搜索引擎的质量 • Cloaking SPAM Y – 对搜索引擎蜘蛛提供虚假网页内容 Is this a Search – DNS cloaking: 自动切换IP地址 Engine spider? • Doorway Spam Real – 过渡网页为某个关键词做优化,跳转到另外一 N Doc 个目标网页 • Keyword Spam – 误导性的各种meta-keywords,大量重复关键 Cloaking 词,对“anchor text” 造假 – 通过文本颜色、CSS等堆砌关键词 • Link Spam – 链接互换,隐藏链接等 – Domain flooding: 大量的域名指向或跳转到目 标网页 • Robots – 虚假的点击行为 – 虚假的Query
  • 40. 搜索引擎面临的挑战 Search within Search 如何减少用户在搜索结果里面再次搜索的成本,真正快而准
  • 41. 如何解决 Search within Search • Page classification – 识别网页的类型:新闻、论坛、博客、索引页… • Content classification – 识别网页的主题:财经、健康、旅游… • Object classification – 识别网页的结构:导航、正文、广告… • Information extraction – 提取重要的网页信息:时间、作者、地点… • Web mining – 发现网页之间的信息关系,而不仅仅是链接关系
  • 43. 举例:Web Mining的应用 人物地图:利用信息抽取和网页挖掘技术计算出名人的关系 http://www.yahoo.cn/s?v=person&p=周杰伦&id=14754
  • 44. 搜索引擎面临的挑战 Search within Search 如何减少用户在搜索结果里面再次搜索的成本,真正快而准 Invisible Tabs 减少用户了解各种垂直搜索产品的成本,帮助返回全方位的相 关信息
  • 45. 垂直搜索的价值被限制 • “Invisible Tabs”由Search Engine Watch的资深编辑Danny Sullivan发明,用来描述搜索引擎可能会怎样来试图提供 更贴近用户本意的搜索结果 “You almost need a search engine “You almost need a search engine for all our search enginesquot; for all our search enginesquot; Marissa Mayer Marissa Mayer VP of Search Products and User VP of Search Products and User Experience at Google Experience at Google
  • 47. 搜索引擎面临的挑战 Search within Search 如何减少用户在搜索结果里面再次搜索的成本,真正快而准 Invisible Tabs 减少用户了解各种垂直搜索产品的成本,帮助返回全方位的相 关信息 Deep Web or Invisible Web 对互联网上各种搜索引擎无法获取信息的处理
  • 48. Deep Web 概况 30万站点,45万数据库,126万接口,在2000~2004年间增加了 数据规模 3~7倍 主题多元化 分布在各种主题内容,不仅仅是电子商务类 数据结构 多数为结构化数据 94%可以在前3层被发现 数据深度 - Deep web并不是完全不能抓取,主流的搜索引擎约覆盖了1/3的 搜索引擎的覆 盖率 数据 - 但是搜索引擎由于其内在的局限性,各家覆盖的数据基本一样 很少,只有0.2%~15.6% 目录站点的覆 盖率 数据来源:”Accessing the Deep Web”, Communications of the ACM, May 2007
  • 49. 搜索引擎对Deep Web的覆盖 Coverage of Search Engines on Deep Web The Entire Deep Web Google (32%) Yahoo (32%) MSN (11%) All (37%) 0% 5% 37% 100% 数据来源:”Accessing the Deep Web”, Communications of the ACM, May 2007
  • 50. 搜索引擎的更多挑战 • 互联网内容增长的速度可能超过目前搜索引擎技 术可以有效处理的范畴 • 由自然语言统计到自然语言语义的应用 • 对Deep Web 的索引 • 随着搜索引擎发展同步变化的Spam • 个性化搜索与个人隐私的平衡 • 搜索引擎商业利益和信息公正性的关系 – 百度的竞价排名广告事件
  • 52. 搜索引擎技术的发展 第1代 第2代 第3代 代 代 代 搜索引擎 搜索引擎 搜索引擎 •理解“Query背后的需求” •只使用页面上的信 •使用页面之外的数据 •Link 链接关系分析 •语义的分析 息,文本数据 •词频,语言 •CTR 点击数据(用户都 •多个来源数据的整合 •帮助用户优化搜索 点击了哪些结果) •Anchor text (别人如何 描述某个页面)
  • 53. 搜索用户的需求 • 不同的用户需求 (Andrei Broder 2002) – Informational 想了解一样东西 – Navigational 想访问一个网址 – Transactional 想通过网络干一件事情 • 服务 • 下载 • 购物 – 其它的灰色领域 Gray areas • 发散性搜索 “闲逛” • Rose & Levinson 加以改进, WWW2004
  • 54. 对用户Query的挖掘 • Semantic Web的梦想 – Tim Berners-Lee – 假设:Explicit Semantic Information – 障碍:我们自己 • 用户记录: – Implicit Semantic Information – 免费的 – 海量的 – 无偏见的 – 假设:Queries是最好的数据源 – 语言特征、关键词匹配和挖掘分析的利用
  • 57. Context 的应用 • Context的判断 – 地域位置信息 – Query 序列(Query历史) – 个人注册信息(User profile) – Explicit 显性(用户对搜索Tab的选择) – Implicit 隐性(用户输入的网址) • Context的应用 – 结果的限制 • 排除不合适的结果 – 排序的调整 • 先使用通用的排序,再作个性化处理
  • 58. 从Search到Information Supply Avail. Info. Activity User Profile Supply Context & Context Information Supply Engine Matching information Feedback Feedback User Action Source: Andrei Broder 2006
  • 59. 举例: Context Ads – Google AdSense
  • 60. 自然语言搜索 • 问题:of the people, for the people and by the people • 索引:不再按keywords的索引,而 是按短语 • 排序:根据query返回多层次相关 的结果 • 目前的自然语言搜索引擎还只相当 于小孩的智力水平
  • 61. Social Search • 用户自己创建和使用内容User Generated Content (UGC) • 网络效应 (Network Effect) 显著: 价 值随着用户数增长而加速增长 • UGC包括文本、图片、视频等各 种Social Media • 代表网站: Facebook, YouTube等 《时代》周刊“2006 年度人物”封面
  • 62. Social Media的力量 • 成百万的用户共享图片、网址或者 视频文件,并给它们加上标签Tag (Meta Data) • 群体智慧 (Wisdom of the Crowd) 可 以帮助搜索 • 基本原理与传统搜索一样 – anchor text
  • 64. Mobile Search 移动搜索 Desktop Search ≠ Mobile Search 移动搜索需要考虑到手机屏幕的大小,交互模式 (例如 iPhone 移动搜索需要考虑到手机屏幕的大小, 例如 Touch Screen)、手机浏览器、用户位置信息等各种因素 、手机浏览器、 Mobile Web 2009 = Desktop Web 1998 Jakob Nielsen
  • 67. 未来的搜索 Unstructured Structured Desktop Search Mobile Search Solo Search Universal Search Relevance Intelligence Surface Web Deep Web Search Recommendation
  • 68. Q&A Thank you!

Editor's Notes

  1. According to the Inktomi website, \"The company's name, pronounced 'INK-tuh-me', is derived from a
  2. <number>
  3. <number>
  4. <number>
  5. <number>