问题是什么?
           什么是 Open Information Extraction?
             Open IE: The Second Generation
                             试验结果及分析
                             Open IE 的应用



.
                                                                                                      .
                  Open Information Extraction:
.                       The Second Generation
..                                                                                               .




                                                                                                      .
                            Presented by: 孔庆超                  1

     Paper by: Oren Etzioni, Anthony Fader, Janara Christensen,
                     Stephen Soderland and Mausam2

                                 1   中国科学院自动化所

                                     2 Turing   Center
     Department of Computer Science and Engineering, University of Washington


                              2011 年 12 月 13 日                  .      .       .      .      .            .

                            孔庆超 - Open IE        Open Information Extraction: The Second Generation
问题是什么?
           什么是 Open Information Extraction?
             Open IE: The Second Generation
                             试验结果及分析
                             Open IE 的应用




. 目录

          .
       . . 问题是什么?
         1


          .
       . . 什么是 Open Information Extraction?
         2


          .
       . . Open IE: The Second Generation
         3


          .
       . . 试验结果及分析
         4


          .
       . . Open IE 的应用
         5

                                                             .      .       .      .      .        .

                            孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
    什么是 Open Information Extraction?
                                       信息获取是永恒难题
      Open IE: The Second Generation
                                       语义搜索:下一代搜索引擎?
                      试验结果及分析
                      Open IE 的应用




   .
. . 问题是什么?
  1

     信息获取是永恒难题
     语义搜索:下一代搜索引擎?

   .
. . 什么是 Open Information Extraction?
  2


   .
. . Open IE: The Second Generation
  3


   .
. . 试验结果及分析
  4


   .
. . Open IE 的应用
  5

                                                      .      .       .      .      .        .

                     孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
     什么是 Open Information Extraction?
                                        信息获取是永恒难题
       Open IE: The Second Generation
                                        语义搜索:下一代搜索引擎?
                       试验结果及分析
                       Open IE 的应用




. 互联网时代的信息获取


   在不同领域中,获取信息的方式多种多样
   互联网逐渐成为主要信息来源:新闻、视频、购物、网上图
   书馆等
   互联网信息的特点:
     半结构化 (Semi-structured):HTML/XHTML
     数据量大
     索引困难



                                                       .      .       .      .      .        .

                      孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
     什么是 Open Information Extraction?
                                        信息获取是永恒难题
       Open IE: The Second Generation
                                        语义搜索:下一代搜索引擎?
                       试验结果及分析
                       Open IE 的应用




. 互联网时代的信息获取


   在不同领域中,获取信息的方式多种多样
   互联网逐渐成为主要信息来源:新闻、视频、购物、网上图
   书馆等
   互联网信息的特点:
     半结构化 (Semi-structured):HTML/XHTML
     数据量大
     索引困难



                                                       .      .       .      .      .        .

                      孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
     什么是 Open Information Extraction?
                                        信息获取是永恒难题
       Open IE: The Second Generation
                                        语义搜索:下一代搜索引擎?
                       试验结果及分析
                       Open IE 的应用




. 互联网时代的信息获取


   在不同领域中,获取信息的方式多种多样
   互联网逐渐成为主要信息来源:新闻、视频、购物、网上图
   书馆等
   互联网信息的特点:
     半结构化 (Semi-structured):HTML/XHTML
     数据量大
     索引困难



                                                       .      .       .      .      .        .

                      孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
     什么是 Open Information Extraction?
                                        信息获取是永恒难题
       Open IE: The Second Generation
                                        语义搜索:下一代搜索引擎?
                       试验结果及分析
                       Open IE 的应用




. 互联网时代的信息获取

   Web 1.0:门户网站等内容提供商,代表有 AOL、新浪、搜
   狐等
   Web 2.0:用户自身产生信息内容,代表有:Facebook、
   Twitter、人人网等
   搜索引擎:基于关键字的搜索,代表有:Yahoo!、Google、
   百度等
   推荐系统:根据用户兴趣、行为信息“主动“提供信息,代
   表有:Amazon、Netflix、豆瓣 FM 等

                                                       .      .       .      .      .        .

                      孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
     什么是 Open Information Extraction?
                                        信息获取是永恒难题
       Open IE: The Second Generation
                                        语义搜索:下一代搜索引擎?
                       试验结果及分析
                       Open IE 的应用




. 互联网时代的信息获取

   Web 1.0:门户网站等内容提供商,代表有 AOL、新浪、搜
   狐等
   Web 2.0:用户自身产生信息内容,代表有:Facebook、
   Twitter、人人网等
   搜索引擎:基于关键字的搜索,代表有:Yahoo!、Google、
   百度等
   推荐系统:根据用户兴趣、行为信息“主动“提供信息,代
   表有:Amazon、Netflix、豆瓣 FM 等

                                                       .      .       .      .      .        .

                      孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
     什么是 Open Information Extraction?
                                        信息获取是永恒难题
       Open IE: The Second Generation
                                        语义搜索:下一代搜索引擎?
                       试验结果及分析
                       Open IE 的应用




. 互联网时代的信息获取

   Web 1.0:门户网站等内容提供商,代表有 AOL、新浪、搜
   狐等
   Web 2.0:用户自身产生信息内容,代表有:Facebook、
   Twitter、人人网等
   搜索引擎:基于关键字的搜索,代表有:Yahoo!、Google、
   百度等
   推荐系统:根据用户兴趣、行为信息“主动“提供信息,代
   表有:Amazon、Netflix、豆瓣 FM 等

                                                       .      .       .      .      .        .

                      孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
     什么是 Open Information Extraction?
                                        信息获取是永恒难题
       Open IE: The Second Generation
                                        语义搜索:下一代搜索引擎?
                       试验结果及分析
                       Open IE 的应用




. 互联网时代的信息获取

   Web 1.0:门户网站等内容提供商,代表有 AOL、新浪、搜
   狐等
   Web 2.0:用户自身产生信息内容,代表有:Facebook、
   Twitter、人人网等
   搜索引擎:基于关键字的搜索,代表有:Yahoo!、Google、
   百度等
   推荐系统:根据用户兴趣、行为信息“主动“提供信息,代
   表有:Amazon、Netflix、豆瓣 FM 等

                                                       .      .       .      .      .        .

                      孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
      什么是 Open Information Extraction?
                                         信息获取是永恒难题
        Open IE: The Second Generation
                                         语义搜索:下一代搜索引擎?
                        试验结果及分析
                        Open IE 的应用




. 从文本获取到问答系统

   一个有趣的现象:通常你如何确定向关键字输入框中写什
   么?
   从文本获取 (Informatin Retrieval) 到问答系统 (Question
   Answering System)
   优秀的项目
        Cleverbot(www.cleverbot.com)
        Siri in iPhone 4S,技术支持 Wolfram Alpha
        IBM Watson


                                                        .      .       .      .      .        .

                       孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
      什么是 Open Information Extraction?
                                         信息获取是永恒难题
        Open IE: The Second Generation
                                         语义搜索:下一代搜索引擎?
                        试验结果及分析
                        Open IE 的应用




. 从文本获取到问答系统

   一个有趣的现象:通常你如何确定向关键字输入框中写什
   么?
   从文本获取 (Informatin Retrieval) 到问答系统 (Question
   Answering System)
   优秀的项目
        Cleverbot(www.cleverbot.com)
        Siri in iPhone 4S,技术支持 Wolfram Alpha
        IBM Watson


                                                        .      .       .      .      .        .

                       孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
      什么是 Open Information Extraction?
                                         信息获取是永恒难题
        Open IE: The Second Generation
                                         语义搜索:下一代搜索引擎?
                        试验结果及分析
                        Open IE 的应用




. 从文本获取到问答系统

   一个有趣的现象:通常你如何确定向关键字输入框中写什
   么?
   从文本获取 (Informatin Retrieval) 到问答系统 (Question
   Answering System)
   优秀的项目
        Cleverbot(www.cleverbot.com)
        Siri in iPhone 4S,技术支持 Wolfram Alpha
        IBM Watson


                                                        .      .       .      .      .        .

                       孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
      什么是 Open Information Extraction?
                                         信息获取是永恒难题
        Open IE: The Second Generation
                                         语义搜索:下一代搜索引擎?
                        试验结果及分析
                        Open IE 的应用




. 智能问答系统


    不同信息获取系统之间的比较:demo
    当前的问答系统的不足
      只适用于特定领域
      无法处理大量文本,因为需要人工标注
      算法可扩展性差

    如何从网络开源文本中获取信息?



                                                        .      .       .      .      .        .

                       孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
      什么是 Open Information Extraction?
                                         信息获取是永恒难题
        Open IE: The Second Generation
                                         语义搜索:下一代搜索引擎?
                        试验结果及分析
                        Open IE 的应用




. 智能问答系统


    不同信息获取系统之间的比较:demo
    当前的问答系统的不足
      只适用于特定领域
      无法处理大量文本,因为需要人工标注
      算法可扩展性差

    如何从网络开源文本中获取信息?



                                                        .      .       .      .      .        .

                       孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
      什么是 Open Information Extraction?
                                         信息获取是永恒难题
        Open IE: The Second Generation
                                         语义搜索:下一代搜索引擎?
                        试验结果及分析
                        Open IE 的应用




. 智能问答系统


    不同信息获取系统之间的比较:demo
    当前的问答系统的不足
      只适用于特定领域
      无法处理大量文本,因为需要人工标注
      算法可扩展性差

    如何从网络开源文本中获取信息?



                                                        .      .       .      .      .        .

                       孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
    什么是 Open Information Extraction?
                                       Information Extraction
      Open IE: The Second Generation
                                       Open IE
                      试验结果及分析
                      Open IE 的应用




   .
. . 问题是什么?
  1


   .
. . 什么是 Open Information Extraction?
  2

     Information Extraction
     Open IE

   .
. . Open IE: The Second Generation
  3


   .
. . 试验结果及分析
  4


   .
. . Open IE 的应用
  5

                                                      .         .    .      .      .        .

                     孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
          什么是 Open Information Extraction?
                                             Information Extraction
            Open IE: The Second Generation
                                             Open IE
                            试验结果及分析
                            Open IE 的应用




. IE 基础

     Information Extraction,信息抽取,简写为 IE
     目标:从自然语言文本 (Natural language text) 抽取信息,
     形成结构化数据 (Structured data)
     信息抽取 vs. 基于关键字的搜索
     二元关系 (Binary relationship) 抽取:(Arg1, Pred, Arg2)
     举例:Premature optimization is the root of all evil. – Donald
     Knuth
     抽取结果:(Premature optimization, is, the root of all evil)

                                                            .         .    .      .      .        .

                           孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
          什么是 Open Information Extraction?
                                             Information Extraction
            Open IE: The Second Generation
                                             Open IE
                            试验结果及分析
                            Open IE 的应用




. IE 基础

     Information Extraction,信息抽取,简写为 IE
     目标:从自然语言文本 (Natural language text) 抽取信息,
     形成结构化数据 (Structured data)
     信息抽取 vs. 基于关键字的搜索
     二元关系 (Binary relationship) 抽取:(Arg1, Pred, Arg2)
     举例:Premature optimization is the root of all evil. – Donald
     Knuth
     抽取结果:(Premature optimization, is, the root of all evil)

                                                            .         .    .      .      .        .

                           孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
          什么是 Open Information Extraction?
                                             Information Extraction
            Open IE: The Second Generation
                                             Open IE
                            试验结果及分析
                            Open IE 的应用




. IE 基础

     Information Extraction,信息抽取,简写为 IE
     目标:从自然语言文本 (Natural language text) 抽取信息,
     形成结构化数据 (Structured data)
     信息抽取 vs. 基于关键字的搜索
     二元关系 (Binary relationship) 抽取:(Arg1, Pred, Arg2)
     举例:Premature optimization is the root of all evil. – Donald
     Knuth
     抽取结果:(Premature optimization, is, the root of all evil)

                                                            .         .    .      .      .        .

                           孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
          什么是 Open Information Extraction?
                                             Information Extraction
            Open IE: The Second Generation
                                             Open IE
                            试验结果及分析
                            Open IE 的应用




. IE 方法

     基于知识的方法 (Knowledge-Based methods)
          特定领域 (domain specific)
          模式匹配规则 (pattern matching rules)

     有监督的方法 (Supervised methods)
          特定领域 (domain specific)
          通过机器学习得到抽取器

     自监督的方法 (Self-supervised methods)
          给定特定的关系
          很小的训练集

                                                            .         .    .      .      .        .

                           孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
          什么是 Open Information Extraction?
                                             Information Extraction
            Open IE: The Second Generation
                                             Open IE
                            试验结果及分析
                            Open IE 的应用




. IE 方法

     基于知识的方法 (Knowledge-Based methods)
          特定领域 (domain specific)
          模式匹配规则 (pattern matching rules)

     有监督的方法 (Supervised methods)
          特定领域 (domain specific)
          通过机器学习得到抽取器

     自监督的方法 (Self-supervised methods)
          给定特定的关系
          很小的训练集

                                                            .         .    .      .      .        .

                           孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
          什么是 Open Information Extraction?
                                             Information Extraction
            Open IE: The Second Generation
                                             Open IE
                            试验结果及分析
                            Open IE 的应用




. IE 方法

     基于知识的方法 (Knowledge-Based methods)
          特定领域 (domain specific)
          模式匹配规则 (pattern matching rules)

     有监督的方法 (Supervised methods)
          特定领域 (domain specific)
          通过机器学习得到抽取器

     自监督的方法 (Self-supervised methods)
          给定特定的关系
          很小的训练集

                                                            .         .    .      .      .        .

                           孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
        什么是 Open Information Extraction?
                                           Information Extraction
          Open IE: The Second Generation
                                           Open IE
                          试验结果及分析
                          Open IE 的应用




. Open IE 的特点
     对所抽取的关系不作限制
     适用所有领域 (领域不相关)
     算法可扩展性良好




                                                          .         .    .      .      .        .
                   Figure: 传统 IE 和 Open IE 的比较
                         孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
         什么是 Open Information Extraction?
                                            Information Extraction
           Open IE: The Second Generation
                                            Open IE
                           试验结果及分析
                           Open IE 的应用




. Open IE 框架



      Open IE 框架
         模型学习
         采用学习到的模型抽取关系

      文本 (英语文本) 中否存在一般性的模板?




                                                           .         .    .      .      .        .

                          孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
         什么是 Open Information Extraction?
                                            Information Extraction
           Open IE: The Second Generation
                                            Open IE
                           试验结果及分析
                           Open IE 的应用




. Open IE 框架



      Open IE 框架
         模型学习
         采用学习到的模型抽取关系

      文本 (英语文本) 中否存在一般性的模板?




                                                           .         .    .      .      .        .

                          孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
     什么是 Open Information Extraction?
                                        Information Extraction
       Open IE: The Second Generation
                                        Open IE
                       试验结果及分析
                       Open IE 的应用




. 文本中的语言模型
   在随机选取的 500 个句子中,95% 的二元关系满足以下规
   则:




                                                       .         .    .      .      .        .

                      孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
        什么是 Open Information Extraction?
                                           Information Extraction
          Open IE: The Second Generation
                                           Open IE
                          试验结果及分析
                          Open IE 的应用




. Q&A




          Any questions?



                                                          .         .    .      .      .        .

                         孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
    什么是 Open Information Extraction?
                                       ReVerb 句法和词法约束
      Open IE: The Second Generation
                                       ReVerb 架构
                      试验结果及分析
                      Open IE 的应用




   .
. . 问题是什么?
  1


   .
. . 什么是 Open Information Extraction?
  2


   .
. . Open IE: The Second Generation
  3

     ReVerb 句法和词法约束
     ReVerb 架构

   .
. . 试验结果及分析
  4


   .
. . Open IE 的应用
  5

                                                      .      .       .      .      .        .

                     孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
         什么是 Open Information Extraction?
                                            ReVerb 句法和词法约束
           Open IE: The Second Generation
                                            ReVerb 架构
                           试验结果及分析
                           Open IE 的应用




. ReVerb 句法约束模板


     基于词性 (Part of speech, POS) 的模板
     模板: V | VP | VW*P
     V = verb particle? adv? ~ V = 动词助词? 副词?
     W = (noun | adv | pron | det) ~ W = (名词 | 副词 | 代名词
     | 限定词)
     P = (prep | particle | inf. marker) ~ P = (介词 | 助词 | inf.
     marker)


                                                           .      .       .      .      .        .

                          孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
       什么是 Open Information Extraction?
                                          ReVerb 句法和词法约束
         Open IE: The Second Generation
                                          ReVerb 架构
                         试验结果及分析
                         Open IE 的应用




. POS 模板匹配原则




    如果在一句话中发现多个匹配,选择最长的那个
    如果多个匹配相交,则合并成一个
    举例:wants to extend




                                                         .      .       .      .      .        .

                        孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
       什么是 Open Information Extraction?
                                          ReVerb 句法和词法约束
         Open IE: The Second Generation
                                          ReVerb 架构
                         试验结果及分析
                         Open IE 的应用




. POS 模板匹配原则




    如果在一句话中发现多个匹配,选择最长的那个
    如果多个匹配相交,则合并成一个
    举例:wants to extend




                                                         .      .       .      .      .        .

                        孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
         什么是 Open Information Extraction?
                                            ReVerb 句法和词法约束
           Open IE: The Second Generation
                                            ReVerb 架构
                           试验结果及分析
                           Open IE 的应用




. ReVerb 词法约束


     句法约束存在的问题,举例:
     原句:The Obama administration is offering only modest
     greenhouse gas reduction targets at the conference.
     POS 抽取的关系子句 (relationg phrase) 为:is offering only
     modest greenhouse gas reduction targets at
     直觉告诉我们:一个关系子句应该有很多 Arg1 或者 Arg2



                                                           .      .       .      .      .        .

                          孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
         什么是 Open Information Extraction?
                                            ReVerb 句法和词法约束
           Open IE: The Second Generation
                                            ReVerb 架构
                           试验结果及分析
                           Open IE 的应用




. ReVerb 词法约束


     句法约束存在的问题,举例:
     原句:The Obama administration is offering only modest
     greenhouse gas reduction targets at the conference.
     POS 抽取的关系子句 (relationg phrase) 为:is offering only
     modest greenhouse gas reduction targets at
     直觉告诉我们:一个关系子句应该有很多 Arg1 或者 Arg2



                                                           .      .       .      .      .        .

                          孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
         什么是 Open Information Extraction?
                                            ReVerb 句法和词法约束
           Open IE: The Second Generation
                                            ReVerb 架构
                           试验结果及分析
                           Open IE 的应用




. ReVerb 架构



      ReVerb 接受输入为:POS-tagged 和 NP-chunked sentences;
      输出为:关系三元组 (x, r, y)
      ReVerb 算法
         关系抽取 (Relation Extraction)
         关系参数抽取 (Argument Extraction)




                                                           .      .       .      .      .        .

                          孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
         什么是 Open Information Extraction?
                                            ReVerb 句法和词法约束
           Open IE: The Second Generation
                                            ReVerb 架构
                           试验结果及分析
                           Open IE 的应用




. ReVerb 架构



      ReVerb 接受输入为:POS-tagged 和 NP-chunked sentences;
      输出为:关系三元组 (x, r, y)
      ReVerb 算法
         关系抽取 (Relation Extraction)
         关系参数抽取 (Argument Extraction)




                                                           .      .       .      .      .        .

                          孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
       什么是 Open Information Extraction?
                                          试验结果
         Open IE: The Second Generation
                                          错误分析
                         试验结果及分析
                         Open IE 的应用




. 试验结果
    随机在网页中抽取 500 个句子,使用不同的 Open IE 系统
    进行抽取,调查其 precision/recall
    只考虑关系 (relation) 的结果:




                                                         .      .       .      .      .        .

                        孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
       什么是 Open Information Extraction?
                                          试验结果
         Open IE: The Second Generation
                                          错误分析
                         试验结果及分析
                         Open IE 的应用




. 错误分析




    65% 的错误来自 Arg 的错误抽取,而 relation 抽取正确
    将 n 元关系当作 2 元关系抽取,例如从”I gave him 15
    photos” 抽取出 (I, gave, him)




                                                         .      .       .      .      .        .

                        孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
       什么是 Open Information Extraction?
                                          试验结果
         Open IE: The Second Generation
                                          错误分析
                         试验结果及分析
                         Open IE 的应用




. 错误分析




    65% 的错误来自 Arg 的错误抽取,而 relation 抽取正确
    将 n 元关系当作 2 元关系抽取,例如从”I gave him 15
    photos” 抽取出 (I, gave, him)




                                                         .      .       .      .      .        .

                        孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
        什么是 Open Information Extraction?
          Open IE: The Second Generation
                          试验结果及分析
                          Open IE 的应用




. Open IE 的应用




     问答系统 (Question Answering System)
     观点挖掘 (Opinion Mining)
     事实检查 (Fact Checking)




                                                          .      .       .      .      .        .

                         孔庆超 - Open IE     Open Information Extraction: The Second Generation
问题是什么?
        什么是 Open Information Extraction?
          Open IE: The Second Generation
                          试验结果及分析
                          Open IE 的应用




. Q&A




          Thank you
          Any questions?


                                                          .      .       .      .      .        .

                         孔庆超 - Open IE     Open Information Extraction: The Second Generation

Open Information Extraction 2nd

  • 1.
    问题是什么? 什么是 Open Information Extraction? Open IE: The Second Generation 试验结果及分析 Open IE 的应用 . . Open Information Extraction: . The Second Generation .. . . Presented by: 孔庆超 1 Paper by: Oren Etzioni, Anthony Fader, Janara Christensen, Stephen Soderland and Mausam2 1 中国科学院自动化所 2 Turing Center Department of Computer Science and Engineering, University of Washington 2011 年 12 月 13 日 . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 2.
    问题是什么? 什么是 Open Information Extraction? Open IE: The Second Generation 试验结果及分析 Open IE 的应用 . 目录 . . . 问题是什么? 1 . . . 什么是 Open Information Extraction? 2 . . . Open IE: The Second Generation 3 . . . 试验结果及分析 4 . . . Open IE 的应用 5 . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 3.
    问题是什么? 什么是 Open Information Extraction? 信息获取是永恒难题 Open IE: The Second Generation 语义搜索:下一代搜索引擎? 试验结果及分析 Open IE 的应用 . . . 问题是什么? 1 信息获取是永恒难题 语义搜索:下一代搜索引擎? . . . 什么是 Open Information Extraction? 2 . . . Open IE: The Second Generation 3 . . . 试验结果及分析 4 . . . Open IE 的应用 5 . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 4.
    问题是什么? 什么是 Open Information Extraction? 信息获取是永恒难题 Open IE: The Second Generation 语义搜索:下一代搜索引擎? 试验结果及分析 Open IE 的应用 . 互联网时代的信息获取 在不同领域中,获取信息的方式多种多样 互联网逐渐成为主要信息来源:新闻、视频、购物、网上图 书馆等 互联网信息的特点: 半结构化 (Semi-structured):HTML/XHTML 数据量大 索引困难 . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 5.
    问题是什么? 什么是 Open Information Extraction? 信息获取是永恒难题 Open IE: The Second Generation 语义搜索:下一代搜索引擎? 试验结果及分析 Open IE 的应用 . 互联网时代的信息获取 在不同领域中,获取信息的方式多种多样 互联网逐渐成为主要信息来源:新闻、视频、购物、网上图 书馆等 互联网信息的特点: 半结构化 (Semi-structured):HTML/XHTML 数据量大 索引困难 . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 6.
    问题是什么? 什么是 Open Information Extraction? 信息获取是永恒难题 Open IE: The Second Generation 语义搜索:下一代搜索引擎? 试验结果及分析 Open IE 的应用 . 互联网时代的信息获取 在不同领域中,获取信息的方式多种多样 互联网逐渐成为主要信息来源:新闻、视频、购物、网上图 书馆等 互联网信息的特点: 半结构化 (Semi-structured):HTML/XHTML 数据量大 索引困难 . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 7.
    问题是什么? 什么是 Open Information Extraction? 信息获取是永恒难题 Open IE: The Second Generation 语义搜索:下一代搜索引擎? 试验结果及分析 Open IE 的应用 . 互联网时代的信息获取 Web 1.0:门户网站等内容提供商,代表有 AOL、新浪、搜 狐等 Web 2.0:用户自身产生信息内容,代表有:Facebook、 Twitter、人人网等 搜索引擎:基于关键字的搜索,代表有:Yahoo!、Google、 百度等 推荐系统:根据用户兴趣、行为信息“主动“提供信息,代 表有:Amazon、Netflix、豆瓣 FM 等 . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 8.
    问题是什么? 什么是 Open Information Extraction? 信息获取是永恒难题 Open IE: The Second Generation 语义搜索:下一代搜索引擎? 试验结果及分析 Open IE 的应用 . 互联网时代的信息获取 Web 1.0:门户网站等内容提供商,代表有 AOL、新浪、搜 狐等 Web 2.0:用户自身产生信息内容,代表有:Facebook、 Twitter、人人网等 搜索引擎:基于关键字的搜索,代表有:Yahoo!、Google、 百度等 推荐系统:根据用户兴趣、行为信息“主动“提供信息,代 表有:Amazon、Netflix、豆瓣 FM 等 . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 9.
    问题是什么? 什么是 Open Information Extraction? 信息获取是永恒难题 Open IE: The Second Generation 语义搜索:下一代搜索引擎? 试验结果及分析 Open IE 的应用 . 互联网时代的信息获取 Web 1.0:门户网站等内容提供商,代表有 AOL、新浪、搜 狐等 Web 2.0:用户自身产生信息内容,代表有:Facebook、 Twitter、人人网等 搜索引擎:基于关键字的搜索,代表有:Yahoo!、Google、 百度等 推荐系统:根据用户兴趣、行为信息“主动“提供信息,代 表有:Amazon、Netflix、豆瓣 FM 等 . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 10.
    问题是什么? 什么是 Open Information Extraction? 信息获取是永恒难题 Open IE: The Second Generation 语义搜索:下一代搜索引擎? 试验结果及分析 Open IE 的应用 . 互联网时代的信息获取 Web 1.0:门户网站等内容提供商,代表有 AOL、新浪、搜 狐等 Web 2.0:用户自身产生信息内容,代表有:Facebook、 Twitter、人人网等 搜索引擎:基于关键字的搜索,代表有:Yahoo!、Google、 百度等 推荐系统:根据用户兴趣、行为信息“主动“提供信息,代 表有:Amazon、Netflix、豆瓣 FM 等 . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 11.
    问题是什么? 什么是 Open Information Extraction? 信息获取是永恒难题 Open IE: The Second Generation 语义搜索:下一代搜索引擎? 试验结果及分析 Open IE 的应用 . 从文本获取到问答系统 一个有趣的现象:通常你如何确定向关键字输入框中写什 么? 从文本获取 (Informatin Retrieval) 到问答系统 (Question Answering System) 优秀的项目 Cleverbot(www.cleverbot.com) Siri in iPhone 4S,技术支持 Wolfram Alpha IBM Watson . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 12.
    问题是什么? 什么是 Open Information Extraction? 信息获取是永恒难题 Open IE: The Second Generation 语义搜索:下一代搜索引擎? 试验结果及分析 Open IE 的应用 . 从文本获取到问答系统 一个有趣的现象:通常你如何确定向关键字输入框中写什 么? 从文本获取 (Informatin Retrieval) 到问答系统 (Question Answering System) 优秀的项目 Cleverbot(www.cleverbot.com) Siri in iPhone 4S,技术支持 Wolfram Alpha IBM Watson . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 13.
    问题是什么? 什么是 Open Information Extraction? 信息获取是永恒难题 Open IE: The Second Generation 语义搜索:下一代搜索引擎? 试验结果及分析 Open IE 的应用 . 从文本获取到问答系统 一个有趣的现象:通常你如何确定向关键字输入框中写什 么? 从文本获取 (Informatin Retrieval) 到问答系统 (Question Answering System) 优秀的项目 Cleverbot(www.cleverbot.com) Siri in iPhone 4S,技术支持 Wolfram Alpha IBM Watson . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 14.
    问题是什么? 什么是 Open Information Extraction? 信息获取是永恒难题 Open IE: The Second Generation 语义搜索:下一代搜索引擎? 试验结果及分析 Open IE 的应用 . 智能问答系统 不同信息获取系统之间的比较:demo 当前的问答系统的不足 只适用于特定领域 无法处理大量文本,因为需要人工标注 算法可扩展性差 如何从网络开源文本中获取信息? . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 15.
    问题是什么? 什么是 Open Information Extraction? 信息获取是永恒难题 Open IE: The Second Generation 语义搜索:下一代搜索引擎? 试验结果及分析 Open IE 的应用 . 智能问答系统 不同信息获取系统之间的比较:demo 当前的问答系统的不足 只适用于特定领域 无法处理大量文本,因为需要人工标注 算法可扩展性差 如何从网络开源文本中获取信息? . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 16.
    问题是什么? 什么是 Open Information Extraction? 信息获取是永恒难题 Open IE: The Second Generation 语义搜索:下一代搜索引擎? 试验结果及分析 Open IE 的应用 . 智能问答系统 不同信息获取系统之间的比较:demo 当前的问答系统的不足 只适用于特定领域 无法处理大量文本,因为需要人工标注 算法可扩展性差 如何从网络开源文本中获取信息? . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 17.
    问题是什么? 什么是 Open Information Extraction? Information Extraction Open IE: The Second Generation Open IE 试验结果及分析 Open IE 的应用 . . . 问题是什么? 1 . . . 什么是 Open Information Extraction? 2 Information Extraction Open IE . . . Open IE: The Second Generation 3 . . . 试验结果及分析 4 . . . Open IE 的应用 5 . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 18.
    问题是什么? 什么是 Open Information Extraction? Information Extraction Open IE: The Second Generation Open IE 试验结果及分析 Open IE 的应用 . IE 基础 Information Extraction,信息抽取,简写为 IE 目标:从自然语言文本 (Natural language text) 抽取信息, 形成结构化数据 (Structured data) 信息抽取 vs. 基于关键字的搜索 二元关系 (Binary relationship) 抽取:(Arg1, Pred, Arg2) 举例:Premature optimization is the root of all evil. – Donald Knuth 抽取结果:(Premature optimization, is, the root of all evil) . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 19.
    问题是什么? 什么是 Open Information Extraction? Information Extraction Open IE: The Second Generation Open IE 试验结果及分析 Open IE 的应用 . IE 基础 Information Extraction,信息抽取,简写为 IE 目标:从自然语言文本 (Natural language text) 抽取信息, 形成结构化数据 (Structured data) 信息抽取 vs. 基于关键字的搜索 二元关系 (Binary relationship) 抽取:(Arg1, Pred, Arg2) 举例:Premature optimization is the root of all evil. – Donald Knuth 抽取结果:(Premature optimization, is, the root of all evil) . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 20.
    问题是什么? 什么是 Open Information Extraction? Information Extraction Open IE: The Second Generation Open IE 试验结果及分析 Open IE 的应用 . IE 基础 Information Extraction,信息抽取,简写为 IE 目标:从自然语言文本 (Natural language text) 抽取信息, 形成结构化数据 (Structured data) 信息抽取 vs. 基于关键字的搜索 二元关系 (Binary relationship) 抽取:(Arg1, Pred, Arg2) 举例:Premature optimization is the root of all evil. – Donald Knuth 抽取结果:(Premature optimization, is, the root of all evil) . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 21.
    问题是什么? 什么是 Open Information Extraction? Information Extraction Open IE: The Second Generation Open IE 试验结果及分析 Open IE 的应用 . IE 方法 基于知识的方法 (Knowledge-Based methods) 特定领域 (domain specific) 模式匹配规则 (pattern matching rules) 有监督的方法 (Supervised methods) 特定领域 (domain specific) 通过机器学习得到抽取器 自监督的方法 (Self-supervised methods) 给定特定的关系 很小的训练集 . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 22.
    问题是什么? 什么是 Open Information Extraction? Information Extraction Open IE: The Second Generation Open IE 试验结果及分析 Open IE 的应用 . IE 方法 基于知识的方法 (Knowledge-Based methods) 特定领域 (domain specific) 模式匹配规则 (pattern matching rules) 有监督的方法 (Supervised methods) 特定领域 (domain specific) 通过机器学习得到抽取器 自监督的方法 (Self-supervised methods) 给定特定的关系 很小的训练集 . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 23.
    问题是什么? 什么是 Open Information Extraction? Information Extraction Open IE: The Second Generation Open IE 试验结果及分析 Open IE 的应用 . IE 方法 基于知识的方法 (Knowledge-Based methods) 特定领域 (domain specific) 模式匹配规则 (pattern matching rules) 有监督的方法 (Supervised methods) 特定领域 (domain specific) 通过机器学习得到抽取器 自监督的方法 (Self-supervised methods) 给定特定的关系 很小的训练集 . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 24.
    问题是什么? 什么是 Open Information Extraction? Information Extraction Open IE: The Second Generation Open IE 试验结果及分析 Open IE 的应用 . Open IE 的特点 对所抽取的关系不作限制 适用所有领域 (领域不相关) 算法可扩展性良好 . . . . . . Figure: 传统 IE 和 Open IE 的比较 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 25.
    问题是什么? 什么是 Open Information Extraction? Information Extraction Open IE: The Second Generation Open IE 试验结果及分析 Open IE 的应用 . Open IE 框架 Open IE 框架 模型学习 采用学习到的模型抽取关系 文本 (英语文本) 中否存在一般性的模板? . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 26.
    问题是什么? 什么是 Open Information Extraction? Information Extraction Open IE: The Second Generation Open IE 试验结果及分析 Open IE 的应用 . Open IE 框架 Open IE 框架 模型学习 采用学习到的模型抽取关系 文本 (英语文本) 中否存在一般性的模板? . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 27.
    问题是什么? 什么是 Open Information Extraction? Information Extraction Open IE: The Second Generation Open IE 试验结果及分析 Open IE 的应用 . 文本中的语言模型 在随机选取的 500 个句子中,95% 的二元关系满足以下规 则: . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 28.
    问题是什么? 什么是 Open Information Extraction? Information Extraction Open IE: The Second Generation Open IE 试验结果及分析 Open IE 的应用 . Q&A Any questions? . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 29.
    问题是什么? 什么是 Open Information Extraction? ReVerb 句法和词法约束 Open IE: The Second Generation ReVerb 架构 试验结果及分析 Open IE 的应用 . . . 问题是什么? 1 . . . 什么是 Open Information Extraction? 2 . . . Open IE: The Second Generation 3 ReVerb 句法和词法约束 ReVerb 架构 . . . 试验结果及分析 4 . . . Open IE 的应用 5 . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 30.
    问题是什么? 什么是 Open Information Extraction? ReVerb 句法和词法约束 Open IE: The Second Generation ReVerb 架构 试验结果及分析 Open IE 的应用 . ReVerb 句法约束模板 基于词性 (Part of speech, POS) 的模板 模板: V | VP | VW*P V = verb particle? adv? ~ V = 动词助词? 副词? W = (noun | adv | pron | det) ~ W = (名词 | 副词 | 代名词 | 限定词) P = (prep | particle | inf. marker) ~ P = (介词 | 助词 | inf. marker) . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 31.
    问题是什么? 什么是 Open Information Extraction? ReVerb 句法和词法约束 Open IE: The Second Generation ReVerb 架构 试验结果及分析 Open IE 的应用 . POS 模板匹配原则 如果在一句话中发现多个匹配,选择最长的那个 如果多个匹配相交,则合并成一个 举例:wants to extend . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 32.
    问题是什么? 什么是 Open Information Extraction? ReVerb 句法和词法约束 Open IE: The Second Generation ReVerb 架构 试验结果及分析 Open IE 的应用 . POS 模板匹配原则 如果在一句话中发现多个匹配,选择最长的那个 如果多个匹配相交,则合并成一个 举例:wants to extend . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 33.
    问题是什么? 什么是 Open Information Extraction? ReVerb 句法和词法约束 Open IE: The Second Generation ReVerb 架构 试验结果及分析 Open IE 的应用 . ReVerb 词法约束 句法约束存在的问题,举例: 原句:The Obama administration is offering only modest greenhouse gas reduction targets at the conference. POS 抽取的关系子句 (relationg phrase) 为:is offering only modest greenhouse gas reduction targets at 直觉告诉我们:一个关系子句应该有很多 Arg1 或者 Arg2 . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 34.
    问题是什么? 什么是 Open Information Extraction? ReVerb 句法和词法约束 Open IE: The Second Generation ReVerb 架构 试验结果及分析 Open IE 的应用 . ReVerb 词法约束 句法约束存在的问题,举例: 原句:The Obama administration is offering only modest greenhouse gas reduction targets at the conference. POS 抽取的关系子句 (relationg phrase) 为:is offering only modest greenhouse gas reduction targets at 直觉告诉我们:一个关系子句应该有很多 Arg1 或者 Arg2 . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 35.
    问题是什么? 什么是 Open Information Extraction? ReVerb 句法和词法约束 Open IE: The Second Generation ReVerb 架构 试验结果及分析 Open IE 的应用 . ReVerb 架构 ReVerb 接受输入为:POS-tagged 和 NP-chunked sentences; 输出为:关系三元组 (x, r, y) ReVerb 算法 关系抽取 (Relation Extraction) 关系参数抽取 (Argument Extraction) . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 36.
    问题是什么? 什么是 Open Information Extraction? ReVerb 句法和词法约束 Open IE: The Second Generation ReVerb 架构 试验结果及分析 Open IE 的应用 . ReVerb 架构 ReVerb 接受输入为:POS-tagged 和 NP-chunked sentences; 输出为:关系三元组 (x, r, y) ReVerb 算法 关系抽取 (Relation Extraction) 关系参数抽取 (Argument Extraction) . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 37.
    问题是什么? 什么是 Open Information Extraction? 试验结果 Open IE: The Second Generation 错误分析 试验结果及分析 Open IE 的应用 . 试验结果 随机在网页中抽取 500 个句子,使用不同的 Open IE 系统 进行抽取,调查其 precision/recall 只考虑关系 (relation) 的结果: . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 38.
    问题是什么? 什么是 Open Information Extraction? 试验结果 Open IE: The Second Generation 错误分析 试验结果及分析 Open IE 的应用 . 错误分析 65% 的错误来自 Arg 的错误抽取,而 relation 抽取正确 将 n 元关系当作 2 元关系抽取,例如从”I gave him 15 photos” 抽取出 (I, gave, him) . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 39.
    问题是什么? 什么是 Open Information Extraction? 试验结果 Open IE: The Second Generation 错误分析 试验结果及分析 Open IE 的应用 . 错误分析 65% 的错误来自 Arg 的错误抽取,而 relation 抽取正确 将 n 元关系当作 2 元关系抽取,例如从”I gave him 15 photos” 抽取出 (I, gave, him) . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 40.
    问题是什么? 什么是 Open Information Extraction? Open IE: The Second Generation 试验结果及分析 Open IE 的应用 . Open IE 的应用 问答系统 (Question Answering System) 观点挖掘 (Opinion Mining) 事实检查 (Fact Checking) . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation
  • 41.
    问题是什么? 什么是 Open Information Extraction? Open IE: The Second Generation 试验结果及分析 Open IE 的应用 . Q&A Thank you Any questions? . . . . . . 孔庆超 - Open IE Open Information Extraction: The Second Generation