该文档讨论了开放信息抽取(Open Information Extraction, Open IE)的定义及其重要性,强调信息获取在互联网时代的复杂性和挑战。它介绍了Open IE的特点、方法、实验结果以及在语义搜索中的应用,指出其可扩展性和领域无关性。文中还比较了Open IE与传统信息抽取的不同之处,并探讨了智能问答系统的局限性。
问题是什么?
什么是 Open Information Extraction?
Open IE: The Second Generation
试验结果及分析
Open IE 的应用
.
.
Open Information Extraction:
. The Second Generation
.. .
.
Presented by: 孔庆超 1
Paper by: Oren Etzioni, Anthony Fader, Janara Christensen,
Stephen Soderland and Mausam2
1 中国科学院自动化所
2 Turing Center
Department of Computer Science and Engineering, University of Washington
2011 年 12 月 13 日 . . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
2.
问题是什么?
什么是 Open Information Extraction?
Open IE: The Second Generation
试验结果及分析
Open IE 的应用
. 目录
.
. . 问题是什么?
1
.
. . 什么是 Open Information Extraction?
2
.
. . Open IE: The Second Generation
3
.
. . 试验结果及分析
4
.
. . Open IE 的应用
5
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
3.
问题是什么?
什么是 Open Information Extraction?
信息获取是永恒难题
Open IE: The Second Generation
语义搜索:下一代搜索引擎?
试验结果及分析
Open IE 的应用
.
. . 问题是什么?
1
信息获取是永恒难题
语义搜索:下一代搜索引擎?
.
. . 什么是 Open Information Extraction?
2
.
. . Open IE: The Second Generation
3
.
. . 试验结果及分析
4
.
. . Open IE 的应用
5
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
4.
问题是什么?
什么是 Open Information Extraction?
信息获取是永恒难题
Open IE: The Second Generation
语义搜索:下一代搜索引擎?
试验结果及分析
Open IE 的应用
. 互联网时代的信息获取
在不同领域中,获取信息的方式多种多样
互联网逐渐成为主要信息来源:新闻、视频、购物、网上图
书馆等
互联网信息的特点:
半结构化 (Semi-structured):HTML/XHTML
数据量大
索引困难
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
5.
问题是什么?
什么是 Open Information Extraction?
信息获取是永恒难题
Open IE: The Second Generation
语义搜索:下一代搜索引擎?
试验结果及分析
Open IE 的应用
. 互联网时代的信息获取
在不同领域中,获取信息的方式多种多样
互联网逐渐成为主要信息来源:新闻、视频、购物、网上图
书馆等
互联网信息的特点:
半结构化 (Semi-structured):HTML/XHTML
数据量大
索引困难
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
6.
问题是什么?
什么是 Open Information Extraction?
信息获取是永恒难题
Open IE: The Second Generation
语义搜索:下一代搜索引擎?
试验结果及分析
Open IE 的应用
. 互联网时代的信息获取
在不同领域中,获取信息的方式多种多样
互联网逐渐成为主要信息来源:新闻、视频、购物、网上图
书馆等
互联网信息的特点:
半结构化 (Semi-structured):HTML/XHTML
数据量大
索引困难
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
7.
问题是什么?
什么是 Open Information Extraction?
信息获取是永恒难题
Open IE: The Second Generation
语义搜索:下一代搜索引擎?
试验结果及分析
Open IE 的应用
. 互联网时代的信息获取
Web 1.0:门户网站等内容提供商,代表有 AOL、新浪、搜
狐等
Web 2.0:用户自身产生信息内容,代表有:Facebook、
Twitter、人人网等
搜索引擎:基于关键字的搜索,代表有:Yahoo!、Google、
百度等
推荐系统:根据用户兴趣、行为信息“主动“提供信息,代
表有:Amazon、Netflix、豆瓣 FM 等
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
8.
问题是什么?
什么是 Open Information Extraction?
信息获取是永恒难题
Open IE: The Second Generation
语义搜索:下一代搜索引擎?
试验结果及分析
Open IE 的应用
. 互联网时代的信息获取
Web 1.0:门户网站等内容提供商,代表有 AOL、新浪、搜
狐等
Web 2.0:用户自身产生信息内容,代表有:Facebook、
Twitter、人人网等
搜索引擎:基于关键字的搜索,代表有:Yahoo!、Google、
百度等
推荐系统:根据用户兴趣、行为信息“主动“提供信息,代
表有:Amazon、Netflix、豆瓣 FM 等
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
9.
问题是什么?
什么是 Open Information Extraction?
信息获取是永恒难题
Open IE: The Second Generation
语义搜索:下一代搜索引擎?
试验结果及分析
Open IE 的应用
. 互联网时代的信息获取
Web 1.0:门户网站等内容提供商,代表有 AOL、新浪、搜
狐等
Web 2.0:用户自身产生信息内容,代表有:Facebook、
Twitter、人人网等
搜索引擎:基于关键字的搜索,代表有:Yahoo!、Google、
百度等
推荐系统:根据用户兴趣、行为信息“主动“提供信息,代
表有:Amazon、Netflix、豆瓣 FM 等
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
10.
问题是什么?
什么是 Open Information Extraction?
信息获取是永恒难题
Open IE: The Second Generation
语义搜索:下一代搜索引擎?
试验结果及分析
Open IE 的应用
. 互联网时代的信息获取
Web 1.0:门户网站等内容提供商,代表有 AOL、新浪、搜
狐等
Web 2.0:用户自身产生信息内容,代表有:Facebook、
Twitter、人人网等
搜索引擎:基于关键字的搜索,代表有:Yahoo!、Google、
百度等
推荐系统:根据用户兴趣、行为信息“主动“提供信息,代
表有:Amazon、Netflix、豆瓣 FM 等
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
11.
问题是什么?
什么是 Open Information Extraction?
信息获取是永恒难题
Open IE: The Second Generation
语义搜索:下一代搜索引擎?
试验结果及分析
Open IE 的应用
. 从文本获取到问答系统
一个有趣的现象:通常你如何确定向关键字输入框中写什
么?
从文本获取 (Informatin Retrieval) 到问答系统 (Question
Answering System)
优秀的项目
Cleverbot(www.cleverbot.com)
Siri in iPhone 4S,技术支持 Wolfram Alpha
IBM Watson
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
12.
问题是什么?
什么是 Open Information Extraction?
信息获取是永恒难题
Open IE: The Second Generation
语义搜索:下一代搜索引擎?
试验结果及分析
Open IE 的应用
. 从文本获取到问答系统
一个有趣的现象:通常你如何确定向关键字输入框中写什
么?
从文本获取 (Informatin Retrieval) 到问答系统 (Question
Answering System)
优秀的项目
Cleverbot(www.cleverbot.com)
Siri in iPhone 4S,技术支持 Wolfram Alpha
IBM Watson
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
13.
问题是什么?
什么是 Open Information Extraction?
信息获取是永恒难题
Open IE: The Second Generation
语义搜索:下一代搜索引擎?
试验结果及分析
Open IE 的应用
. 从文本获取到问答系统
一个有趣的现象:通常你如何确定向关键字输入框中写什
么?
从文本获取 (Informatin Retrieval) 到问答系统 (Question
Answering System)
优秀的项目
Cleverbot(www.cleverbot.com)
Siri in iPhone 4S,技术支持 Wolfram Alpha
IBM Watson
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
14.
问题是什么?
什么是 Open Information Extraction?
信息获取是永恒难题
Open IE: The Second Generation
语义搜索:下一代搜索引擎?
试验结果及分析
Open IE 的应用
. 智能问答系统
不同信息获取系统之间的比较:demo
当前的问答系统的不足
只适用于特定领域
无法处理大量文本,因为需要人工标注
算法可扩展性差
如何从网络开源文本中获取信息?
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
15.
问题是什么?
什么是 Open Information Extraction?
信息获取是永恒难题
Open IE: The Second Generation
语义搜索:下一代搜索引擎?
试验结果及分析
Open IE 的应用
. 智能问答系统
不同信息获取系统之间的比较:demo
当前的问答系统的不足
只适用于特定领域
无法处理大量文本,因为需要人工标注
算法可扩展性差
如何从网络开源文本中获取信息?
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
16.
问题是什么?
什么是 Open Information Extraction?
信息获取是永恒难题
Open IE: The Second Generation
语义搜索:下一代搜索引擎?
试验结果及分析
Open IE 的应用
. 智能问答系统
不同信息获取系统之间的比较:demo
当前的问答系统的不足
只适用于特定领域
无法处理大量文本,因为需要人工标注
算法可扩展性差
如何从网络开源文本中获取信息?
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
17.
问题是什么?
什么是 Open Information Extraction?
Information Extraction
Open IE: The Second Generation
Open IE
试验结果及分析
Open IE 的应用
.
. . 问题是什么?
1
.
. . 什么是 Open Information Extraction?
2
Information Extraction
Open IE
.
. . Open IE: The Second Generation
3
.
. . 试验结果及分析
4
.
. . Open IE 的应用
5
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
18.
问题是什么?
什么是 Open Information Extraction?
Information Extraction
Open IE: The Second Generation
Open IE
试验结果及分析
Open IE 的应用
. IE 基础
Information Extraction,信息抽取,简写为 IE
目标:从自然语言文本 (Natural language text) 抽取信息,
形成结构化数据 (Structured data)
信息抽取 vs. 基于关键字的搜索
二元关系 (Binary relationship) 抽取:(Arg1, Pred, Arg2)
举例:Premature optimization is the root of all evil. – Donald
Knuth
抽取结果:(Premature optimization, is, the root of all evil)
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
19.
问题是什么?
什么是 Open Information Extraction?
Information Extraction
Open IE: The Second Generation
Open IE
试验结果及分析
Open IE 的应用
. IE 基础
Information Extraction,信息抽取,简写为 IE
目标:从自然语言文本 (Natural language text) 抽取信息,
形成结构化数据 (Structured data)
信息抽取 vs. 基于关键字的搜索
二元关系 (Binary relationship) 抽取:(Arg1, Pred, Arg2)
举例:Premature optimization is the root of all evil. – Donald
Knuth
抽取结果:(Premature optimization, is, the root of all evil)
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
20.
问题是什么?
什么是 Open Information Extraction?
Information Extraction
Open IE: The Second Generation
Open IE
试验结果及分析
Open IE 的应用
. IE 基础
Information Extraction,信息抽取,简写为 IE
目标:从自然语言文本 (Natural language text) 抽取信息,
形成结构化数据 (Structured data)
信息抽取 vs. 基于关键字的搜索
二元关系 (Binary relationship) 抽取:(Arg1, Pred, Arg2)
举例:Premature optimization is the root of all evil. – Donald
Knuth
抽取结果:(Premature optimization, is, the root of all evil)
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
21.
问题是什么?
什么是 Open Information Extraction?
Information Extraction
Open IE: The Second Generation
Open IE
试验结果及分析
Open IE 的应用
. IE 方法
基于知识的方法 (Knowledge-Based methods)
特定领域 (domain specific)
模式匹配规则 (pattern matching rules)
有监督的方法 (Supervised methods)
特定领域 (domain specific)
通过机器学习得到抽取器
自监督的方法 (Self-supervised methods)
给定特定的关系
很小的训练集
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
22.
问题是什么?
什么是 Open Information Extraction?
Information Extraction
Open IE: The Second Generation
Open IE
试验结果及分析
Open IE 的应用
. IE 方法
基于知识的方法 (Knowledge-Based methods)
特定领域 (domain specific)
模式匹配规则 (pattern matching rules)
有监督的方法 (Supervised methods)
特定领域 (domain specific)
通过机器学习得到抽取器
自监督的方法 (Self-supervised methods)
给定特定的关系
很小的训练集
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
23.
问题是什么?
什么是 Open Information Extraction?
Information Extraction
Open IE: The Second Generation
Open IE
试验结果及分析
Open IE 的应用
. IE 方法
基于知识的方法 (Knowledge-Based methods)
特定领域 (domain specific)
模式匹配规则 (pattern matching rules)
有监督的方法 (Supervised methods)
特定领域 (domain specific)
通过机器学习得到抽取器
自监督的方法 (Self-supervised methods)
给定特定的关系
很小的训练集
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
24.
问题是什么?
什么是 Open Information Extraction?
Information Extraction
Open IE: The Second Generation
Open IE
试验结果及分析
Open IE 的应用
. Open IE 的特点
对所抽取的关系不作限制
适用所有领域 (领域不相关)
算法可扩展性良好
. . . . . .
Figure: 传统 IE 和 Open IE 的比较
孔庆超 - Open IE Open Information Extraction: The Second Generation
25.
问题是什么?
什么是 Open Information Extraction?
Information Extraction
Open IE: The Second Generation
Open IE
试验结果及分析
Open IE 的应用
. Open IE 框架
Open IE 框架
模型学习
采用学习到的模型抽取关系
文本 (英语文本) 中否存在一般性的模板?
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
26.
问题是什么?
什么是 Open Information Extraction?
Information Extraction
Open IE: The Second Generation
Open IE
试验结果及分析
Open IE 的应用
. Open IE 框架
Open IE 框架
模型学习
采用学习到的模型抽取关系
文本 (英语文本) 中否存在一般性的模板?
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
27.
问题是什么?
什么是 Open Information Extraction?
Information Extraction
Open IE: The Second Generation
Open IE
试验结果及分析
Open IE 的应用
. 文本中的语言模型
在随机选取的 500 个句子中,95% 的二元关系满足以下规
则:
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
28.
问题是什么?
什么是 Open Information Extraction?
Information Extraction
Open IE: The Second Generation
Open IE
试验结果及分析
Open IE 的应用
. Q&A
Any questions?
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
29.
问题是什么?
什么是 Open Information Extraction?
ReVerb 句法和词法约束
Open IE: The Second Generation
ReVerb 架构
试验结果及分析
Open IE 的应用
.
. . 问题是什么?
1
.
. . 什么是 Open Information Extraction?
2
.
. . Open IE: The Second Generation
3
ReVerb 句法和词法约束
ReVerb 架构
.
. . 试验结果及分析
4
.
. . Open IE 的应用
5
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
30.
问题是什么?
什么是 Open Information Extraction?
ReVerb 句法和词法约束
Open IE: The Second Generation
ReVerb 架构
试验结果及分析
Open IE 的应用
. ReVerb 句法约束模板
基于词性 (Part of speech, POS) 的模板
模板: V | VP | VW*P
V = verb particle? adv? ~ V = 动词助词? 副词?
W = (noun | adv | pron | det) ~ W = (名词 | 副词 | 代名词
| 限定词)
P = (prep | particle | inf. marker) ~ P = (介词 | 助词 | inf.
marker)
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
31.
问题是什么?
什么是 Open Information Extraction?
ReVerb 句法和词法约束
Open IE: The Second Generation
ReVerb 架构
试验结果及分析
Open IE 的应用
. POS 模板匹配原则
如果在一句话中发现多个匹配,选择最长的那个
如果多个匹配相交,则合并成一个
举例:wants to extend
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
32.
问题是什么?
什么是 Open Information Extraction?
ReVerb 句法和词法约束
Open IE: The Second Generation
ReVerb 架构
试验结果及分析
Open IE 的应用
. POS 模板匹配原则
如果在一句话中发现多个匹配,选择最长的那个
如果多个匹配相交,则合并成一个
举例:wants to extend
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
33.
问题是什么?
什么是 Open Information Extraction?
ReVerb 句法和词法约束
Open IE: The Second Generation
ReVerb 架构
试验结果及分析
Open IE 的应用
. ReVerb 词法约束
句法约束存在的问题,举例:
原句:The Obama administration is offering only modest
greenhouse gas reduction targets at the conference.
POS 抽取的关系子句 (relationg phrase) 为:is offering only
modest greenhouse gas reduction targets at
直觉告诉我们:一个关系子句应该有很多 Arg1 或者 Arg2
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
34.
问题是什么?
什么是 Open Information Extraction?
ReVerb 句法和词法约束
Open IE: The Second Generation
ReVerb 架构
试验结果及分析
Open IE 的应用
. ReVerb 词法约束
句法约束存在的问题,举例:
原句:The Obama administration is offering only modest
greenhouse gas reduction targets at the conference.
POS 抽取的关系子句 (relationg phrase) 为:is offering only
modest greenhouse gas reduction targets at
直觉告诉我们:一个关系子句应该有很多 Arg1 或者 Arg2
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
35.
问题是什么?
什么是 Open Information Extraction?
ReVerb 句法和词法约束
Open IE: The Second Generation
ReVerb 架构
试验结果及分析
Open IE 的应用
. ReVerb 架构
ReVerb 接受输入为:POS-tagged 和 NP-chunked sentences;
输出为:关系三元组 (x, r, y)
ReVerb 算法
关系抽取 (Relation Extraction)
关系参数抽取 (Argument Extraction)
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
36.
问题是什么?
什么是 Open Information Extraction?
ReVerb 句法和词法约束
Open IE: The Second Generation
ReVerb 架构
试验结果及分析
Open IE 的应用
. ReVerb 架构
ReVerb 接受输入为:POS-tagged 和 NP-chunked sentences;
输出为:关系三元组 (x, r, y)
ReVerb 算法
关系抽取 (Relation Extraction)
关系参数抽取 (Argument Extraction)
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
37.
问题是什么?
什么是 Open Information Extraction?
试验结果
Open IE: The Second Generation
错误分析
试验结果及分析
Open IE 的应用
. 试验结果
随机在网页中抽取 500 个句子,使用不同的 Open IE 系统
进行抽取,调查其 precision/recall
只考虑关系 (relation) 的结果:
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
38.
问题是什么?
什么是 Open Information Extraction?
试验结果
Open IE: The Second Generation
错误分析
试验结果及分析
Open IE 的应用
. 错误分析
65% 的错误来自 Arg 的错误抽取,而 relation 抽取正确
将 n 元关系当作 2 元关系抽取,例如从”I gave him 15
photos” 抽取出 (I, gave, him)
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
39.
问题是什么?
什么是 Open Information Extraction?
试验结果
Open IE: The Second Generation
错误分析
试验结果及分析
Open IE 的应用
. 错误分析
65% 的错误来自 Arg 的错误抽取,而 relation 抽取正确
将 n 元关系当作 2 元关系抽取,例如从”I gave him 15
photos” 抽取出 (I, gave, him)
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
40.
问题是什么?
什么是 Open Information Extraction?
Open IE: The Second Generation
试验结果及分析
Open IE 的应用
. Open IE 的应用
问答系统 (Question Answering System)
观点挖掘 (Opinion Mining)
事实检查 (Fact Checking)
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation
41.
问题是什么?
什么是 Open Information Extraction?
Open IE: The Second Generation
试验结果及分析
Open IE 的应用
. Q&A
Thank you
Any questions?
. . . . . .
孔庆超 - Open IE Open Information Extraction: The Second Generation