Search Engine 2009: Past, Current and Future

浙江大学软件学院2009《互联网搜索技术》系列课程之一

搜索引擎的历史,
搜索引擎的历史,现状和未来
张勤
Alibaba Search Center

《互联网搜索技术》课程目标
• 加深对互联网和搜索引擎的理解
• 学习搜索引擎相关的核心技术领域
• 可以搭建一个简单的搜索引擎
• 增强未来在互联网行业求职的竞争力

课程结构
1. 搜索引擎的历史、现状和未来
2. 分布式搜索引擎的体系结构
3. Crawler设计和信息抽取
4. 索引和查询
5. 中文语言处理
6. 基于机器学习的搜索排序研究
7. 多媒体搜索
每节课将安排该领域具有丰富
8. 课程答疑每节课将安排该领域具有丰富
经验的ASC技术专家来授课
经验的技术专家来授课
经验的ASC技术专家来授课
经验的技术专家来授课

参考书
《搜索引擎原理、技术与系统》

作者：李晓明、闫宏飞、王继民
科学出版社2004年出版

补充读物-1

The Search: How Google and Its Rivals
Rewrote the Rules of Business and
Transformed Our Culture
by John Battelle

•ISBN-10: 1591840880
•Publisher: Portfolio (September 8, 2005)

作者博客站点
http://battellemedia.com/

补充读物-2

Modern Information Retrieval
by Ricardo Baeza-Yates (Universidad
de Chile, Chile) and Berthier Ribeiro-
Neto (Univ Federal de Minas Gerais,
Brazil)

•ISBN-10: 020139829X
•Publisher: Addison-Wesley 1999

考评方法
• 课程成绩组成
– 课堂讨论 40%
– 小组项目
• 项目1： 30%
• 项目2： 30%

• 分组方法
– 每个小组由2-3名同学组成，请大家课后将组合好的名
单发给TA
– 名单一经确定后则不能修改
– 课程结束时小组成绩即为组内每个同学的成绩

什么是搜索引擎

A search engine is a program designed to help find
information stored on a computer system such as the
World Wide Web, inside a corporate or proprietary
network or a personal computer.
--- Wikipedia

搜索引擎属于跨学科应用，涉及信息检索、数据库、
数据挖掘、计算机系统、多媒体、人工智能、计算机
网络、分布式处理、图书馆学、自然语言处理等多个
领域，是目前互联网上最复杂的基础应用之一

本节课的目标
• 理解搜索引擎的
– 发展历史
– 分类的方法
– 技术原理和核心技术的变化
– 面临的挑战
– 未来的方向

• 本节课将包括2次自由讨论

第1部分

搜索引擎的发展历史

搜索引擎的发展历史（1）1990-1994

1990年，最早的搜索引 1994年，第一个基
1993年，第一个Web 7月，卡耐基
1990年，最早的搜索引 1994年，第一个基
1993年，第一个Web 7月，卡耐基
擎Archie出现，由加拿于全文本检索的搜
搜索引擎Wandex由梅隆大学的
擎Archie出现，由加拿于全文本检索的搜
搜索引擎Wandex由梅隆大学的
MIT学生Matthew Gray Lycos发布，
大麦吉尔大学学生Alan 索引擎WebCrawler
MIT学生Matthew Gray Lycos发布，
大麦吉尔大学学生Alan 索引擎WebCrawler
Emtage开发，对网上
Emtage开发，对网上推出，该技术后被
推出，该技术后被
开发，它通过蜘蛛进同年发布的
FTP站点的文件进行检开发，它通过蜘蛛进同年发布的
FTP站点的文件进行检各搜索引擎采用
各搜索引擎采用还有Infoseek
行文件抓取还有Infoseek
行文件抓取
索索

1990 1991 1992 1993 1994

1991年，美国明尼苏达 1993年10月，Martin 1994年4月，斯坦福大
1991年，美国明尼苏达 1993年10月，Martin 1994年4月，斯坦福大
大学学生Mark McCahill Koster创建了Aliweb，是学学生David Filo和杨致
大学学生Mark McCahill Koster创建了Aliweb，是学学生David Filo和杨致
Archie的HTTP版本，靠
Archie的HTTP版本，靠
开发出Gopher，可对网远共同创办Yahoo!并成
开发出Gopher，可对网远共同创办Yahoo!并成
上文本文件进行检索网站主动提交信息来建功使搜索引擎的概念深
上文本文件进行检索网站主动提交信息来建功使搜索引擎的概念深
立自己的链接索引入人心，搜索引擎进入
立自己的链接索引入人心，搜索引擎进入
了高速发展时期
了高速发展时期

搜索引擎的发展历史（2）1995-1999

1995年12月, AltaVista大量创新功
1995年12月, AltaVista大量创新功 1999年, Alltheweb由FAST公司
1999年, Alltheweb由FAST公司
1996年，最早基于
能达到当时搜索引擎的顶峰：第
1996年，最早基于
能达到当时搜索引擎的顶峰：第推出, 支持Flash和PDF搜索, 提
推出, 支持Flash和PDF搜索, 提
一个支持自然语言搜索；具备网自然语言问题搜索
一个支持自然语言搜索；具备网供新闻,图像,视频,MP3和FTP搜
自然语言问题搜索
的Ask Jeeves创办供新闻,图像,视频,MP3和FTP搜
页内容分析智能处理能力；支持
的Ask Jeeves创办
页内容分析智能处理能力；支持索, 索引量和更新速度领先
索, 索引量和更新速度领先
高级搜索语法；搜索新闻群组、
高级搜索语法；搜索新闻群组、
图片等
图片等
1997年Northern
1997年Northern
Light发布
Light发布

1995 1996 1997 1998 1999
1995年Excite 1996年8月 1997年北大天网 1998年6月，Goto.com发
1995年Excite 1996年8月 1997年北大天网 1998年6月，Goto.com发
布，最早提出P4P概念
发布搜狐创办在教育网发布布，最早提出P4P概念
发布搜狐创办在教育网发布

1996年，UC.Berkeley教授Eric Brewer和学生 1998年9月，斯坦福大学学生Larry Page
1996年，UC.Berkeley教授Eric Brewer和学生 1998年9月，斯坦福大学学生Larry Page
Paul Gauthier创办Inktomi，为其它网络公司提和Sergey Brin创办Google
Paul Gauthier创办Inktomi，为其它网络公司提和Sergey Brin创办Google
供搜索和内容分发服务
供搜索和内容分发服务

搜索引擎的发展历史（3）2000年至今

2003年2月，Fast搜索部 2005年8月，阿里巴巴收购
2003年2月，Fast搜索部 2005年8月，阿里巴巴收购
门被Overture收购雅虎中国业务，进入搜索
门被Overture收购雅虎中国业务，进入搜索

2000年1月李彦宏和
2000年1月李彦宏和
2003年2月，AltaVista被 2004年, 雅虎推出基于YST搜索
2003年2月，AltaVista被
徐勇于创建百度
2004年, 雅虎推出基于YST搜索
徐勇于创建百度
Overture收购
Overture收购技术平台的独立搜索引擎
技术平台的独立搜索引擎

2000 2001 2002 2003 2004 2005

2002年，雅虎收购提供搜 2004年3月雅虎收购
2002年，雅虎收购提供搜 2004年3月雅虎收购
Overture
Overture
索引擎公司Inktomi
索引擎公司Inktomi

2005年微软发布MSN搜索
2005年微软发布MSN搜索

中国是全球竞争最激烈的搜索市场

国内搜索引擎数量众多，但是市场集中度高。据易观国际统计，
国内搜索引擎数量众多，但是市场集中度高。据易观国际统计，
2008年，百度、Google和雅虎占据了
年百度、和雅虎占据了95.8%的市场份额。
的市场份额。
和雅虎占据了的市场份额

搜索引擎对我们生活的改变
• 网页数量的高速增长体现了搜索引擎的价值；同时，搜索
引擎反过来又推动了更多Web内容的创作
– 信息如果无法被发现，价值就无法体现
– 目录和书签的模式无法解决海量的信息检索

• 搜索引擎使得兴趣的聚合成为可能
– Niche市场的动力（Long Tail）
– 共同兴趣的人群：社区

• 搜索引擎也改变了互联网广告
– 搜索广告的精准率远高于传统的Banner广告
– Google的AdWord搜索广告模式的巨大成功

搜索引擎的产业链

Users

搜索服务广告受众
Advertisers Webmasters
销售广告流量

投放广告
内容
Search Engine 委托网站设计
委托发布广告广告管理服务搜索引擎优化

投放广告
Anti-spam
SEO
销售广告
Search Ad
Resellers
作弊内容
Spammers

搜索引擎市场增长的潜力

易观国际《中国搜索引擎市场趋势预测2007-2011》研究表明，2011
易观国际《中国搜索引擎市场趋势预测》研究表明，
年中国搜索引擎运营商收入将达到亿元，从2007到2011年均复合
年中国搜索引擎运营商收入将达到122亿元
亿元，到年均复合
增长率为34.1%。
增长率为。

搜索引擎发展历程回顾
• 搜索技术创新与高校之间密不可分
– Archie, Gopher, Lycos, Yahoo, Google…

• 因为市场潜力大，搜索引擎服务商众多，但是在市场竞争
下会逐步趋向集中
– 服务的同质化
– 巨额的运营成本
– 规模效益

• 技术突破(disruptive)可以改写市场竞争的格局
– AltaVista -> Yahoo! -> Google -> Who next?

第2部分

搜索引擎的分类

搜索引擎的分类（1）按照搜索的方式

• 目录式型搜索引擎
– 使用分类技术，人工按照目录或主题收集或审批网址，供用户浏
览查询
– 代表：雅虎目录、Hao123、265导航等

• 关键词型搜索引擎
– 使用关键词全文检索技术，先对网页用词作倒排索引，再对查询
关键词作查找匹配
– 代表：Google、百度、雅虎等

搜索引擎的分类（2）按照搜索的对象
• 网页搜索（Web Search）
– 采集和搜索海量的网页，包括各种类型的文件，如：HTML, Word,
PowerPoint等，也称作通用搜索
– 代表：Google, 百度, 雅虎

• 垂直搜索（Vertical Search）
– 多媒体搜索：搜索音频、图片、视频等文件
• 例如：MP3搜索
– 结构化文件搜索：搜索新闻、博客、商品等结构化网页信息
• 例如：淘宝搜索

• 聚合搜索（Combo Search）
– 将网页、音乐、图片、新闻等各种搜索应用混合在一起提供
– 多为面向某一应用领域
– 例如：Google Universal Search，韩国Naver

垂直搜索和网页搜索的对比

Vertical Search Web Search
Index Size Smaller and specialized Global and general

Document Type Typically more structured Typically less structured

Relevance Highly customizable Fixed algorithm
Relevance enhanced by Popularity-based
–Constrained context
–Structured data
–Domain Taxonomy

Comprehensiveness Focused/deep crawling Broad/surface crawling

Freshness Customizable schedules Fixed schedule
From seconds to months Days on average
Presentation Structured, Navigational Flat list
–Taxonomy drill-down
–Sorting & grouping
–Clustering & collapsing

搜索引擎的分类（3）按照搜索应用的平台

• 搜索引擎网站
– 直接去搜索引擎站点搜索框，最传统的搜索模式

• 浏览器搜索（Browser-based Search）
– 地址栏搜索：直接在浏览器地址栏进行搜索，如Google浏览器Chrome
– 工具栏搜索：浏览器上单独的搜索框或安装的插件，如IE 7, Firefox等

• 桌面搜索（Desktop Search）
– 需要单独安装的桌面搜索软件，可搜索互联网和硬盘里面的文档
– 举例：Google桌面搜索，百度硬盘搜索

• 移动搜索（Mobile Search）
– 为手机或者PDA的浏览器开发特定的搜索界面或者特定的搜索软件
– 举例：Yahoo! oneSearch

元搜索引擎（Meta Search Engine）

• 建立在搜索引擎之上的搜索引擎，它把用户查询词分配给几个指定的
搜索引擎，再将所得结果分级排序去重进行展现

• 优势：内容全面，解决不同搜索引擎内容索引的偏好，并利于进行再
加工，如聚类处理

• 问题：
– 版权问题
– 搜索性能
– 排序算法的合理性

• 代表：Clusty (Vivisimo), BBmao

示例：BBmao.com

对所有结果进行聚类对雅虎和百度共同的结果进行合并

第3部分

搜索引擎的原理

Web搜索引擎的工作原理

1
址网 A
址网 B
址网 C
…

3
2
址网字键关
A A
址网字键关
B B
址网字键关
C C
…

2. 根据关键字 3. 用户按照关键字
1. 采集大量的网页为网页作索引搜索网页

Crawler Index Pages Search & Rank

第1步：通过蜘蛛搜集网页

• Crawler 或者 Spider负责从互联
网上搜集网页内容

• Crawler的原理雅虎蜘蛛（Slurp）的路径树
– 抓取的目标
• 构建互联网上的站点链接图
Webmap
• 单个网站的结构 Sitemap
– 抓取的站点深度
– 索引网页的哪部分内容
– 索引文件的类型
– 抓取的频率

http://drunkmenworkhere.org/#yahoo

蜘蛛的准则
• A Crawler must show identification
– Yahoo! Slurp, Googlebot, Baidu Spider

• A Crawler must obey the robots exclusion
standard
– http://www.robotstxt.org/wc/norobots.html

• A Crawler must not hog resources

• A Crawler must report errors

蜘蛛的挑战
• 大多数网站服务器响应缓慢，无法支持过多请求

• 死循环陷阱 – 网页的超链错误

• 抓取的质量
– Dedup - 重复的网页识别
– Anti-spam – 作弊站点和网页的识别

• 动态网页内容的抓取
• Deep Web
• Ajax

• 海量增长的互联网内容
• Google的索引量：2600万(1998年) 10亿(2000年) 80亿(2005年)
• 未来：1000亿？

第2步：建立索引数据库

• 记录每个网页的信息
– Language：中文、英文、…
– Domain names
– Time stamp
– …
• 词表
– 标题?
– 在文章中的哪个位置?
– 字体有无加粗?

• 指向本网页的其它网页的URL
• 指向本网页的Anchor Text

倒排索引 Inverted Index

• 如何存储关键词来提升查找速度
• 基本的原理
– 在中文、日文和韩文等亚洲语言需要分词
– 互联网-搜索-技术
– 把网页里面的所有词建立一个词表
– 对每一个词，列出包含该词的文章
– 需要去掉一些常用的词，如：“的”
• “stop words”
– 在英语等西方语言里面还有词干 “stem ” 分析
• cats - cat
• running – run

第3步：检索结果和排序

• 搜索引擎接受到用户的搜索词“Query”
• 对Query进行预处理，例如：分词
• 在索引中查找该搜索词，得到命中的文档
• 对文档进行排序，并自动生成包含关键词的摘要 “snippets”
• 对于多个搜索词，缺省语法是同时包含所有的关键词
(Boolean AND, not OR).
• 搜索排序算法是非常复杂，会用到大量的features
– 匹配的关键词数
– 命中的位置
– Anchor text
– Quality Score = Dynamic score + Static score

静态质量 - 链接分析的重要性
• Google的PageRank算法
– 核心思想
• 重要的网页指向的网页也是重要的
• 举例：论文后面的参考论文列表
– 技术原理
– 网页每得到一个其它网页的链接则被加分
– 开始网页的权重会影响到所链接网页的权重

http://www.economist.com/science/tq/displayStory.cfm?story_id=3172188

Google Bombing or Link Bombing

对搜索引擎排序算法缺陷的利用

一个搜索引擎的架构图

“Anatomy of a Large-Scale Hypertext Web Search Engine”, Brin & Page, 1998.
http://dbpubs.stanford.edu:8090/pub/1998-8

判断搜索引擎质量的几个重要维度
• Relevance：找的是否准确，可理解为Precision

• Comprehensiveness：找到的信息是否全，可理解为Recall

• Freshness：最新的内容（新闻、博客等）是否在最短的时间内
找得到

• Anti-spam：作弊和垃圾网页是否被滤掉了

• Performance：查找和返回结果的速度是否快

• Usability：结果页设计是否合理，有没有提供相关搜索、拼写
纠错等辅助的搜索功能

Spam – 挑战搜索引擎的质量
• Cloaking SPAM
Y
– 对搜索引擎蜘蛛提供虚假网页内容
Is this a Search
– DNS cloaking: 自动切换IP地址
Engine spider?
• Doorway Spam
Real
– 过渡网页为某个关键词做优化，跳转到另外一 N
Doc
个目标网页
• Keyword Spam
– 误导性的各种meta-keywords，大量重复关键
Cloaking
词，对“anchor text” 造假
– 通过文本颜色、CSS等堆砌关键词
• Link Spam
– 链接互换，隐藏链接等
– Domain flooding: 大量的域名指向或跳转到目
标网页
• Robots
– 虚假的点击行为
– 虚假的Query

第4部分

搜索引擎的挑战

搜索引擎面临的挑战

Search within Search
如何减少用户在搜索结果里面再次搜索的成本，真正快而准

如何解决 Search within Search
• Page classification
– 识别网页的类型：新闻、论坛、博客、索引页…
• Content classification
– 识别网页的主题：财经、健康、旅游…
• Object classification
– 识别网页的结构：导航、正文、广告…
• Information extraction
– 提取重要的网页信息：时间、作者、地点…
• Web mining
– 发现网页之间的信息关系，而不仅仅是链接关系

举例: Hakia

对网页主题的分类，帮助用户进行结果的筛选

网页主题分类

举例：Web Mining的应用

人物地图:利用信息抽取和网页挖掘技术计算出名人的关系

http://www.yahoo.cn/s?v=person&p=周杰伦&id=14754



Invisible Tabs
减少用户了解各种垂直搜索产品的成本，帮助返回全方位的相
关信息

垂直搜索的价值被限制
• “Invisible Tabs”由Search Engine Watch的资深编辑Danny
Sullivan发明，用来描述搜索引擎可能会怎样来试图提供
更贴近用户本意的搜索结果

“You almost need a search engine
“You almost need a search engine
for all our search enginesquot;
for all our search enginesquot;
Marissa Mayer
Marissa Mayer
VP of Search Products and User
VP of Search Products and User
Experience at Google
Experience at Google

Google 解决此问题的尝试
Universal Search

新闻

网站

视频

图片



Invisible Tabs
减少用户了解各种垂直搜索产品的成本，帮助返回全方位的相
关信息

Deep Web or Invisible Web
对互联网上各种搜索引擎无法获取信息的处理

Deep Web 概况

30万站点，45万数据库，126万接口，在2000~2004年间增加了
数据规模
3~7倍

主题多元化分布在各种主题内容，不仅仅是电子商务类

数据结构多数为结构化数据

94%可以在前3层被发现
数据深度
- Deep web并不是完全不能抓取，主流的搜索引擎约覆盖了1/3的
搜索引擎的覆
盖率数据
- 但是搜索引擎由于其内在的局限性，各家覆盖的数据基本一样

很少，只有0.2%~15.6%
目录站点的覆
盖率

数据来源：”Accessing the Deep Web”, Communications of the ACM, May 2007

搜索引擎对Deep Web的覆盖

Coverage of Search Engines on Deep Web

The Entire Deep Web

Google (32%)

Yahoo (32%)

MSN (11%)

All (37%)

0% 5% 37% 100%

数据来源：”Accessing the Deep Web”, Communications of the ACM, May 2007

搜索引擎的更多挑战
• 互联网内容增长的速度可能超过目前搜索引擎技
术可以有效处理的范畴
• 由自然语言统计到自然语言语义的应用
• 对Deep Web 的索引
• 随着搜索引擎发展同步变化的Spam
• 个性化搜索与个人隐私的平衡
• 搜索引擎商业利益和信息公正性的关系
– 百度的竞价排名广告事件

第5部分

搜索引擎的未来

搜索引擎技术的发展

第1代第2代第3代
代代代
搜索引擎搜索引擎搜索引擎

•理解“Query背后的需求”
•只使用页面上的信 •使用页面之外的数据
•Link 链接关系分析 •语义的分析
息，文本数据
•词频，语言 •CTR 点击数据（用户都 •多个来源数据的整合
•帮助用户优化搜索
点击了哪些结果）
•Anchor text （别人如何
描述某个页面）

搜索用户的需求
• 不同的用户需求 (Andrei Broder 2002)
– Informational 想了解一样东西
– Navigational 想访问一个网址
– Transactional 想通过网络干一件事情
• 服务
• 下载
• 购物
– 其它的灰色领域 Gray areas
• 发散性搜索 “闲逛”

• Rose & Levinson 加以改进, WWW2004

对用户Query的挖掘
• Semantic Web的梦想
– Tim Berners-Lee
– 假设：Explicit Semantic Information
– 障碍：我们自己

• 用户记录：
– Implicit Semantic Information
– 免费的
– 海量的
– 无偏见的
– 假设：Queries是最好的数据源
– 语言特征、关键词匹配和挖掘分析的利用

Context 的应用
• Context的判断
– 地域位置信息
– Query 序列（Query历史）
– 个人注册信息（User profile）
– Explicit 显性（用户对搜索Tab的选择）
– Implicit 隐性（用户输入的网址）

• Context的应用
– 结果的限制
• 排除不合适的结果
– 排序的调整
• 先使用通用的排序，再作个性化处理

从Search到Information Supply

Avail. Info.
Activity
User Profile
Supply
Context
& Context

Information Supply Engine

Matching
information

Feedback Feedback

User Action

Source: Andrei Broder 2006

举例: Context Ads – Google AdSense

自然语言搜索
• 问题：of the people, for the people
and by the people

• 索引：不再按keywords的索引，而
是按短语

• 排序：根据query返回多层次相关
的结果

• 目前的自然语言搜索引擎还只相当
于小孩的智力水平

Social Search

• 用户自己创建和使用内容User
Generated Content (UGC)

• 网络效应 (Network Effect) 显著: 价
值随着用户数增长而加速增长

• UGC包括文本、图片、视频等各
种Social Media

• 代表网站: Facebook, YouTube等
《时代》周刊“2006
年度人物”封面

Social Media的力量
• 成百万的用户共享图片、网址或者
视频文件，并给它们加上标签Tag
(Meta Data)

• 群体智慧 (Wisdom of the Crowd) 可
以帮助搜索

• 基本原理与传统搜索一样
– anchor text

Mobile Search 移动搜索

Desktop Search ≠ Mobile Search

移动搜索需要考虑到手机屏幕的大小，交互模式 (例如 iPhone
移动搜索需要考虑到手机屏幕的大小，例如
Touch Screen)、手机浏览器、用户位置信息等各种因素
、手机浏览器、

Mobile Web 2009 = Desktop Web 1998
Jakob Nielsen

举例：雅虎oneSearch

在旧金山，一个用
户饿了，输入…

pizza

未来的搜索

Unstructured Structured

Desktop Search Mobile Search

Solo Search Universal Search

Relevance Intelligence

Surface Web Deep Web

Search Recommendation

Search Engine 2009: Past, Current and Future

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (8)

Search Engine 2009: Past, Current and Future

Editor's Notes