SlideShare a Scribd company logo
1 of 34
Download to read offline
§7 Web搜索引擎
课程总结与复习
(Course Review)
徐悦甡(Yueshen Xu)
ysxu@xidian.edu.cn / xuyueshen@163.com
知识与数据工程研究中心
本科:Web信息搜索
软件工程系2017/6/9
本节提纲
课程总结与复习
 Web信息搜索概述
 GFS + MapReduce + BigTable
 全文检索 + 网页排序
 多媒体检索
 文本聚类
 文本分类
 推荐系统
 语义网
 知识图谱
复习、重述
重要知识点
软件工程系2017/6/9
整体课程安排
查询
(Query)
建模
(Modeling)
排序
(Ranking)
信息检索引擎
为了用户
/数据
为了系统
/智能
索引
倒排
查询
爬虫
分布式
…
聚类
分类
推荐
相似性
语义网
知识图谱
软件工程系2017/6/9
信息检索概述
4
信息检索 != 搜索引擎 != Web检索
一部分信息检索不需要涉及Web访问
软件工程系2017/6/9
搜索引擎
5
软件工程系2017/6/9
术语总结
 Web搜索
 WWW(World Wide Web)为典型代表的网络上检索、过滤和推荐信
息的的方法与技术
 检索
 由用户提出查询请求,系统根据此查询请求对所存储信息进行查询
并给出查询结果
 过滤(聚类/分类)
 系统根据预先设定的条件,对与该条件相符的信息进行提取、隔离
或封堵
 推荐
 系统将用户需要的重要信息从大量的一般信息中提取出来,并主动
推荐给用户
6
软件工程系2017/6/9
工具课
网络文件系统
分布式文件系统
MapReduce
HDFS
Lucene
7
软件工程系2017/6/9
网络文件系统
8
软件工程系2017/6/9
分布式文件系统
9
软件工程系2017/6/9
分布式计算平台
 MapReduce
10
split0 map
sort
reduce part0
merge
split0 map
sort
split0 map
sort reduce part1
merge
Map Reduce
软件工程系2017/6/9
词频统计的例子
11
软件工程系2017/6/9
HDFS
12
软件工程系2017/6/9
Lucene
13
软件工程系2017/6/9
全文检索
14
Term:
清华大学
倒排
索引
doc1
doc2
doc3
…
docN
Doc list A
…
…
…
…
Doc list B
…… 归并
候选
集
Term:
邮编
倒排
索引
倒排索引
软件工程系2017/6/9
全文检索
15
索引表
软件工程系2017/6/9
网页排序
16
PageRank
软件工程系2017/6/9
网页排序
17
Page A
1.490
Page C
1.577
Page B
0.783
Page D
0.15
PageRank
软件工程系2017/6/9
网页排序
HITS算法
 Hyperlink-Induced Topic Search
 对每一个页面应该将其内容权威度(Authority)和链接权威度
(Hub)分开考虑,在对网页内容权威度做出评价的基础上
再对页面链接权威度进行评价,然后给出该页面的综合评价
 链接权威度(Hub)
➢ 页面上所有导出链接指向页面的内容权威值之和。
 内容权威度(authority)
➢ 所有导入链接所在页面的链接权威度之和
18
软件工程系2017/6/9
网页排序
HITS算法
 对于一个给定的查询,每个页面都被赋予了一个特定的链接
权威度(hub)和内容权威度(authority)
 结果就是高权威度的页面
 基本假设
➢ 1. 一个好的“Authority”页面会被很多好的“Hub”页面指向;
➢ 2. 一个好的“Hub”页面会指向很多好的“Authority”页面
19
软件工程系2017/6/9
多媒体检索
基于文本的图像检索
 Text-based Image Retrieval
基于标签的图像检索
 Tag-based Image Retrieval
基于内容的图像检索
 Content-based Image Retrieval
20
软件工程系2017/6/9
文本聚类、文本分类与推荐
21
机器学习
(数据有无
label)
有监督学习  分类(离散);回归(连续)等
半监督学习  部分数据有label
无监督学习  聚类、话题建模等
iijjij idftfDdtidftf  ),,(
)
|}:{|1
log(
dtDd
N
idf
i
i


TF-IDF
软件工程系2017/6/9
文本聚类
22
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
K=2;任意选择
K个对象作为初
始聚类中心
将每个
对象赋
给最相
似的中
心
更新簇
的平均
值
更新簇
的平均
值
重新划分
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
重新划分
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
K-Means
软件工程系2017/6/9
文本聚类
23
K-Medoid
C2
C3d4
d1
C1
当前聚类中
心(3类)
C2
C3
d1
C1(d4)
迭代一次后的
聚类中心
其它聚类方法,以及聚类方法效果的评估
软件工程系2017/6/9
文本分类
24
d
C1
C2
C3
K = 6
d
C1
C2
C3
K近邻
(KNN)
软件工程系2017/6/9
推荐系统
25
对推荐系统依赖性较强的场景
电子商务网站 在线社交网络 在线内容站点
在线社区网络 在线综合类网络
软件工程系2017/6/9
推荐系统
26
推荐系统
推荐系统中包含的要素
 核心三个
人/用户 物/商品
反馈/评价
关联 内容
上下文/情境:时间,地点,情绪等
 非核心三个
软件工程系2017/6/9
推荐系统
基于内容的推荐方法
基于标签的推荐方法
基于网络的推荐方法
基于上下文的推荐方法
27
软件工程系2017/6/9
推荐系统
基于内容的推荐方法
 用户内容
 物品内容
基于标签的推荐方法
 标签来源
 基于图的推荐方法
基于网络的推荐方法
 网络的类型
 基于图的推荐方法
28
软件工程系2017/6/9
推荐系统
基于上下文的推荐方法
 时间上下文、地点上下文、情绪上下文
推荐效果的评估
 大规模随机双盲对照实验
29
软件工程系2017/6/9
语义网
语义网(Semantic Web)
 语义网提出的背景
 语义网概念与体系结构
 XML与RDF格式
➢ 标记语言
➢ 可扩展标记语言(XML)
 本体
 语义网应用
30
软件工程系2017/6/9
语义网
31
软件工程系2017/6/9
知识图谱
知识图谱的背景
知识图谱的应用
知识库的构建
RDF格式
32
软件工程系2017/6/9 33
课件地址
课程邮箱:xdseirclass@163.com
个人邮箱:xuyueshen@163.com
软件工程系2017/6/9 34
请大家按时交齐作业
感谢大家本学期的配合
祝大家期末考试顺利

More Related Content

Similar to Course review for ir class 本科课件

信息系统开发平台OpenExpressApp
信息系统开发平台OpenExpressApp信息系统开发平台OpenExpressApp
信息系统开发平台OpenExpressApp
zhoujg
 
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
areyouok
 
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
areyouok
 

Similar to Course review for ir class 本科课件 (12)

APP Developer Program
APP Developer ProgramAPP Developer Program
APP Developer Program
 
信息系统开发平台OpenExpressApp
信息系统开发平台OpenExpressApp信息系统开发平台OpenExpressApp
信息系统开发平台OpenExpressApp
 
网络课程评价
网络课程评价网络课程评价
网络课程评价
 
大数据岗位需求调研。出于转行数据类岗位的需求,对近5年的相关招聘信息进行分析,主要想了解,大数据类岗位有哪些细分职位,以及他们所要求的技能有哪些。
大数据岗位需求调研。出于转行数据类岗位的需求,对近5年的相关招聘信息进行分析,主要想了解,大数据类岗位有哪些细分职位,以及他们所要求的技能有哪些。大数据岗位需求调研。出于转行数据类岗位的需求,对近5年的相关招聘信息进行分析,主要想了解,大数据类岗位有哪些细分职位,以及他们所要求的技能有哪些。
大数据岗位需求调研。出于转行数据类岗位的需求,对近5年的相关招聘信息进行分析,主要想了解,大数据类岗位有哪些细分职位,以及他们所要求的技能有哪些。
 
機器學習工具介紹 / 机器学习工具介绍 Demos for Machine Learning Tools
機器學習工具介紹 / 机器学习工具介绍 Demos for Machine Learning Tools機器學習工具介紹 / 机器学习工具介绍 Demos for Machine Learning Tools
機器學習工具介紹 / 机器学习工具介绍 Demos for Machine Learning Tools
 
微服務的基礎建設 - Service Discovery, Andrew Wu
微服務的基礎建設 - Service Discovery, Andrew Wu微服務的基礎建設 - Service Discovery, Andrew Wu
微服務的基礎建設 - Service Discovery, Andrew Wu
 
Sphinx 全文检索实践指南
Sphinx 全文检索实践指南Sphinx 全文检索实践指南
Sphinx 全文检索实践指南
 
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
 
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
 
腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍腾讯大讲堂25 企业级搜索托管平台介绍
腾讯大讲堂25 企业级搜索托管平台介绍
 
AIC x PyLadies TW Python Data Vis - 1: Concept
AIC x PyLadies TW Python Data Vis - 1: ConceptAIC x PyLadies TW Python Data Vis - 1: Concept
AIC x PyLadies TW Python Data Vis - 1: Concept
 
微观重构 黄婉芳
微观重构 黄婉芳微观重构 黄婉芳
微观重构 黄婉芳
 

More from Yueshen Xu

(Hierarchical) Topic Modeling_Yueshen Xu
(Hierarchical) Topic Modeling_Yueshen Xu(Hierarchical) Topic Modeling_Yueshen Xu
(Hierarchical) Topic Modeling_Yueshen Xu
Yueshen Xu
 
Summarization for dragon star program
Summarization for dragon  star programSummarization for dragon  star program
Summarization for dragon star program
Yueshen Xu
 

More from Yueshen Xu (20)

Context aware service recommendation
Context aware service recommendationContext aware service recommendation
Context aware service recommendation
 
Semantic web 本科课件
Semantic web 本科课件Semantic web 本科课件
Semantic web 本科课件
 
Recommender system slides for undergraduate
Recommender system slides for undergraduateRecommender system slides for undergraduate
Recommender system slides for undergraduate
 
推荐系统 本科课件
 推荐系统 本科课件 推荐系统 本科课件
推荐系统 本科课件
 
Text classification 本科课件
Text classification 本科课件Text classification 本科课件
Text classification 本科课件
 
Thinking in clustering yueshen xu
Thinking in clustering yueshen xuThinking in clustering yueshen xu
Thinking in clustering yueshen xu
 
(Hierarchical) Topic Modeling_Yueshen Xu
(Hierarchical) Topic Modeling_Yueshen Xu(Hierarchical) Topic Modeling_Yueshen Xu
(Hierarchical) Topic Modeling_Yueshen Xu
 
(Hierarchical) topic modeling
(Hierarchical) topic modeling (Hierarchical) topic modeling
(Hierarchical) topic modeling
 
Non parametric bayesian learning in discrete data
Non parametric bayesian learning in discrete dataNon parametric bayesian learning in discrete data
Non parametric bayesian learning in discrete data
 
聚类 (Clustering)
聚类 (Clustering)聚类 (Clustering)
聚类 (Clustering)
 
Yueshen xu cv
Yueshen xu cvYueshen xu cv
Yueshen xu cv
 
徐悦甡简历
徐悦甡简历徐悦甡简历
徐悦甡简历
 
Learning to recommend with user generated content
Learning to recommend with user generated contentLearning to recommend with user generated content
Learning to recommend with user generated content
 
Social recommender system
Social recommender systemSocial recommender system
Social recommender system
 
Summary on the Conference of WISE 2013
Summary on the Conference of WISE 2013Summary on the Conference of WISE 2013
Summary on the Conference of WISE 2013
 
Topic model an introduction
Topic model an introductionTopic model an introduction
Topic model an introduction
 
Acoustic modeling using deep belief networks
Acoustic modeling using deep belief networksAcoustic modeling using deep belief networks
Acoustic modeling using deep belief networks
 
Summarization for dragon star program
Summarization for dragon  star programSummarization for dragon  star program
Summarization for dragon star program
 
Aggregation computation over distributed data streams(the final version)
Aggregation computation over distributed data streams(the final version)Aggregation computation over distributed data streams(the final version)
Aggregation computation over distributed data streams(the final version)
 
Aggregation computation over distributed data streams
Aggregation computation over distributed data streamsAggregation computation over distributed data streams
Aggregation computation over distributed data streams
 

Course review for ir class 本科课件