Course review for ir class 本科课件

§7 Web搜索引擎
课程总结与复习
(Course Review)
徐悦甡(Yueshen Xu)
ysxu@xidian.edu.cn / xuyueshen@163.com
知识与数据工程研究中心
本科：Web信息搜索

软件工程系2017/6/9
本节提纲
课程总结与复习
 Web信息搜索概述
 GFS + MapReduce + BigTable
 全文检索 + 网页排序
 多媒体检索
 文本聚类
 文本分类
 推荐系统
 语义网
 知识图谱
复习、重述
重要知识点

软件工程系2017/6/9
整体课程安排
查询
（Query）
建模
（Modeling）
排序
（Ranking）
信息检索引擎
为了用户
/数据
为了系统
/智能
索引
倒排
查询
爬虫
分布式
…
聚类
分类
推荐
相似性
语义网
知识图谱

软件工程系2017/6/9
信息检索概述
4
信息检索 != 搜索引擎 != Web检索
一部分信息检索不需要涉及Web访问

软件工程系2017/6/9
搜索引擎
5

软件工程系2017/6/9
术语总结
 Web搜索
 WWW(World Wide Web)为典型代表的网络上检索、过滤和推荐信
息的的方法与技术
 检索
 由用户提出查询请求，系统根据此查询请求对所存储信息进行查询
并给出查询结果
 过滤(聚类/分类)
 系统根据预先设定的条件，对与该条件相符的信息进行提取、隔离
或封堵
 推荐
 系统将用户需要的重要信息从大量的一般信息中提取出来，并主动
推荐给用户
6

软件工程系2017/6/9
工具课
网络文件系统
分布式文件系统
MapReduce
HDFS
Lucene
7

软件工程系2017/6/9
网络文件系统
8

软件工程系2017/6/9
分布式文件系统
9

软件工程系2017/6/9
分布式计算平台
 MapReduce
10
split0 map
sort
reduce part0
merge
split0 map
sort
split0 map
sort reduce part1
merge
Map Reduce

软件工程系2017/6/9
词频统计的例子
11

软件工程系2017/6/9
HDFS
12

软件工程系2017/6/9
Lucene
13

软件工程系2017/6/9
全文检索
14
Term:
清华大学
倒排
索引
doc1
doc2
doc3
…
docN
Doc list A
…
…
…
…
Doc list B
…… 归并
候选
集
Term:
邮编
倒排
索引
倒排索引

软件工程系2017/6/9
全文检索
15
索引表

软件工程系2017/6/9
网页排序
16
PageRank

软件工程系2017/6/9
网页排序
17
Page A
1.490
Page C
1.577
Page B
0.783
Page D
0.15
PageRank

软件工程系2017/6/9
网页排序
HITS算法
 Hyperlink-Induced Topic Search
 对每一个页面应该将其内容权威度（Authority)和链接权威度
（Hub）分开考虑，在对网页内容权威度做出评价的基础上
再对页面链接权威度进行评价，然后给出该页面的综合评价
 链接权威度（Hub）
➢ 页面上所有导出链接指向页面的内容权威值之和。
 内容权威度（authority）
➢ 所有导入链接所在页面的链接权威度之和
18

软件工程系2017/6/9
网页排序
HITS算法
 对于一个给定的查询，每个页面都被赋予了一个特定的链接
权威度（hub）和内容权威度（authority）
 结果就是高权威度的页面
 基本假设
➢ 1. 一个好的“Authority”页面会被很多好的“Hub”页面指向；
➢ 2. 一个好的“Hub”页面会指向很多好的“Authority”页面
19

软件工程系2017/6/9
多媒体检索
基于文本的图像检索
 Text-based Image Retrieval
基于标签的图像检索
 Tag-based Image Retrieval
基于内容的图像检索
 Content-based Image Retrieval
20

软件工程系2017/6/9
文本聚类、文本分类与推荐
21
机器学习
（数据有无
label）
有监督学习  分类（离散）；回归（连续）等
半监督学习  部分数据有label
无监督学习  聚类、话题建模等
iijjij idftfDdtidftf  ),,(
)
|}:{|1
log(
dtDd
N
idf
i
i


TF-IDF

软件工程系2017/6/9
文本聚类
22
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
K=2；任意选择
K个对象作为初
始聚类中心
将每个
对象赋
给最相
似的中
心
更新簇
的平均
值
更新簇
的平均
值
重新划分
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
重新划分
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
K-Means

软件工程系2017/6/9
文本聚类
23
K-Medoid
C2
C3d4
d1
C1
当前聚类中
心（3类）
C2
C3
d1
C1(d4)
迭代一次后的
聚类中心
其它聚类方法，以及聚类方法效果的评估

软件工程系2017/6/9
文本分类
24
d
C1
C2
C3
K = 6
d
C1
C2
C3
K近邻
（KNN）

软件工程系2017/6/9
推荐系统
25
对推荐系统依赖性较强的场景
电子商务网站在线社交网络在线内容站点
在线社区网络在线综合类网络

软件工程系2017/6/9
推荐系统
26
推荐系统
推荐系统中包含的要素
 核心三个
人/用户物/商品
反馈/评价
关联内容
上下文/情境：时间，地点，情绪等
 非核心三个

软件工程系2017/6/9
推荐系统
基于内容的推荐方法
基于标签的推荐方法
基于网络的推荐方法
基于上下文的推荐方法
27

软件工程系2017/6/9
推荐系统
基于内容的推荐方法
 用户内容
 物品内容
基于标签的推荐方法
 标签来源
 基于图的推荐方法
基于网络的推荐方法
 网络的类型
 基于图的推荐方法
28

软件工程系2017/6/9
推荐系统
基于上下文的推荐方法
 时间上下文、地点上下文、情绪上下文
推荐效果的评估
 大规模随机双盲对照实验
29

软件工程系2017/6/9
语义网
语义网（Semantic Web）
 语义网提出的背景
 语义网概念与体系结构
 XML与RDF格式
➢ 标记语言
➢ 可扩展标记语言（XML）
 本体
 语义网应用
30

软件工程系2017/6/9
语义网
31

软件工程系2017/6/9
知识图谱
知识图谱的背景
知识图谱的应用
知识库的构建
RDF格式
32

软件工程系2017/6/9 33
课件地址
课程邮箱：xdseirclass@163.com
个人邮箱：xuyueshen@163.com

软件工程系2017/6/9 34
请大家按时交齐作业
感谢大家本学期的配合
祝大家期末考试顺利

Course review for ir class 本科课件

Recommended

Recommended

More Related Content

Similar to Course review for ir class 本科课件

Similar to Course review for ir class 本科课件 (12)

More from Yueshen Xu

More from Yueshen Xu (20)

Course review for ir class 本科课件