SlideShare a Scribd company logo
1 of 4
Download to read offline
深度学习小组 / 文章
检查你的事实并再试一次:利用外部知识和自动反馈改进大型语言模型
2023 年3 月7 日
分享此页面
大型语言模型(LLM),例如ChatGPT,能够为许多下游任务生成类似人类的流畅响应,例如面向任务的对话和
问答。然而,将LLM 应用于现实世界的关键任务应用程序仍然具有挑战性,主要是因为它们容易产生幻觉并且
无法使用外部知识。
这个博客介绍了我们在LLM-Augmenter上的工作,一个通过使用一组即插即用模块增强黑盒LLM 来解决这些
问题的系统:我们的系统使LLM 生成基于外部知识的响应,例如,存储在特定于任务的数据库中。它还迭代地
修改LLM 提示,以使用效用函数生成的反馈改进模型响应,例如,LLM 生成的响应的真实性分数。
我们使用两种类型的任务验证LLM-Augmenter 的有效性,即信息搜索对话和开放域Wiki 问答(Wiki QA)。我
们的实验表明,在所有任务中,LLM-Augmenter 显着提高了ChatGPT 在外部知识中的基础性,而不会牺牲其
生成的响应的人性化。例如,在客户服务的对话任务上,人类评估表明,LLM-Augmenter 将ChatGPT 的有用
性提高了32.3%,人性化提高了12.9%(衡量模型响应的流畅性和信息量)。Wiki QA 任务对ChatGPT 极具挑
战性,因为回答这些问题通常需要多跳推理来拼凑分散在不同文档中的各种模式的信息。我们的结果表明,虽
然闭卷ChatGPT 表现不佳且经常出现幻觉,LLM-Augmenter 通过将ChatGPT 的响应建立在整合的外部知识和
自动反馈中,显着提高了答案的真实性分数(在F1 中+10%)。
我们在论文中更详细地描述了这项工作,并且我们在github上提供了它的代码。
概述
LLM-Augmenter 使用即插即用(PnP) 模块使用外部知识和自动反馈改进LLM,如以下示例所示:
LLM-AUGMENTER 通过(1) 为LLM 整合来自外部知识的证据以生成基于证据的响应和(2) 使用自动反馈修改LLM(候选人)
的响应来改进固定的LLM。
给定用户查询(例如,关于2013 年洛杉矶银河队球员转会),LLM-Augmenter 首先从外部知识(例如,Web
或任务特定的数据集)中检索证据。如有必要,它通过将检索到的原始证据与相关上下文(例如,实体“2013
Los Angeles Galaxy”的信息)联系起来,进一步巩固证据,并进行推理以形成证据链(例如,图中的表格段
落)。然后,LLM-Augmenter 使用包含ChatGPT 综合证据的提示查询固定的LLM(即我们工作中的
ChatGPT),以生成基于外部知识的候选响应。LLM-Augmenter 然后验证候选响应,例如,通过检查它是否产
生幻觉证据。如果是这样,LLM-Augmenter 会生成一条反馈消息(例如,关于团队“CSD Municipal”)。该消
息用于修改提示以再次查询ChatGPT。该过程不断迭代,直到候选响应通过验证并发送给用户。
建筑学
LLM-Augmenter的架构如下图所示:
LLM-Augmenter 架构展示了其即插即用模块如何与LLM 和用户环境交互。
LLM-Augmenter 由一组PnP 模块(即Working Memory、Policy、Action Executor 和Utility)组成,以通过外
部知识和自动反馈改进固定的LLM(例如ChatGPT)以减轻幻觉等生成问题。我们将人机对话制定为利用以下
PnP 模块的马尔可夫决策过程(MDP):
工作记忆:跟踪对话状态,捕捉对话中到目前为止的所有基本信息。
动作执行器:该模块执行策略模块选择的动作。它由两个组件组成,知识整合器和提示引擎。Knowledge
Consolidator 增强了LLM 的能力,使他们能够根据外部知识做出反应,以减轻完成任务时的幻觉,例如
回答有关最新消息的问题和在餐厅预订餐桌。提示引擎生成查询LLM 的提示。
效用:给定一个候选响应,效用模块使用一组特定于任务的效用函数(例如,KF1)生成效用分数和相应
的反馈。
策略:该模块选择下一个导致最佳预期奖励的系统操作。这些动作包括(1)从外部知识中获取证据,
(2)调用LLM 生成候选响应,以及(3)如果通过Utility 模块的验证,则向用户发送响应。
该策略可以使用手动制定的规则来实施,也可以在人机交互方面进行培训。在我们的工作中,我们将可训练策
略实施为神经网络模型,并使用REINFORCE 对其进行优化。本文提供了我们的方法和这些PnP 模块的详细信
息。
结果
我们的论文对三个任务进行了广泛的实验,但我们在本博客中重点关注客户支持任务。我们比较了使用和不使
用LLM-Augmenter 的ChatGPT 从客户服务数据集中随机选择的总共约1,000 个示例用于人工评估。我们观察
到,在实用性和人性化方面,LLM-Augmenter 比单独的ChatGPT 更受青睐。结果与论文中提供的自动评估结
果一致。
LLM-Augmenter 在实用性和人性化方面都明显优于ChatGPT。
例子
下图展示了ChatGPT 与LLM-Augmenter 对比的真实例子:
LLM-Augmenter 示例。
上表提供了对比LLM-Augmenter 与ChatGPT 的示例响应。首先,我们可以看到ChatGPT 无法提供与用户相关
的特定知识相关的响应,例如当地的印度餐馆。在表格的第二部分,我们展示了LLM-Augmenter 的工作记
忆,它突出显示了从外部知识中检索到的更丰富的信息,以帮助底层LLM(即ChatGPT)生成更多内容丰富的
响应。不幸的是,LLM-Augmenter 收到的第一个LLM 响应并不令人满意,因为LLM 生成的质量和特异性可能
无法预测。在这种情况下,Utility 模块已确定第一个响应不符合其标准(即KF1 高于给定阈值),并向LLM 模
块发出反馈(即“响应与知识不一致”)。
致谢
这项研究由Baolin Peng、Michel Galley、Pengcheng He、Hao Cheng、Yujia Xie、Yu Hu、Qiuyuan Huang、
Lars Liden、Zhou Yu、Weizhu Chen、Jianfeng Gao在微软研究院进行。我们还要感谢Saleema Amershi、
Ahmed Awadallah、Nguyen Bach、Paul Bennett、Chris Brockett、Weixin Cai、Dhivya Eswaran、Adam
Fourney、Hsiao-Wuen Hon、Chunyuan Li、Ricky Loynd、Hoifung Poon、Corby Rosset、Bin Yu、Sheng
Zhang、和Microsoft Research Deep Learning 小组的成员进行有价值的讨论和评论。

More Related Content

What's hot

AWS Black Belt Online Seminar 2017 AWSにおけるアプリ認証パターンのご紹介
AWS Black Belt Online Seminar 2017 AWSにおけるアプリ認証パターンのご紹介AWS Black Belt Online Seminar 2017 AWSにおけるアプリ認証パターンのご紹介
AWS Black Belt Online Seminar 2017 AWSにおけるアプリ認証パターンのご紹介Amazon Web Services Japan
 
2017 02-14 キュー実装に見る排他処理
2017 02-14 キュー実装に見る排他処理2017 02-14 キュー実装に見る排他処理
2017 02-14 キュー実装に見る排他処理Akishige TAKEKOSHI
 
AWS Black Belt Online Seminar 2017 Amazon Aurora with PostgreSQL Compatibility
AWS Black Belt Online Seminar 2017 Amazon Aurora with PostgreSQL CompatibilityAWS Black Belt Online Seminar 2017 Amazon Aurora with PostgreSQL Compatibility
AWS Black Belt Online Seminar 2017 Amazon Aurora with PostgreSQL CompatibilityAmazon Web Services Japan
 
AWS 初心者向けWebinar 基本から理解する、AWS運用監視
AWS 初心者向けWebinar 基本から理解する、AWS運用監視AWS 初心者向けWebinar 基本から理解する、AWS運用監視
AWS 初心者向けWebinar 基本から理解する、AWS運用監視Amazon Web Services Japan
 
テストエンジニア版RPG風スキルマップ JaSST'17東北
テストエンジニア版RPG風スキルマップ JaSST'17東北テストエンジニア版RPG風スキルマップ JaSST'17東北
テストエンジニア版RPG風スキルマップ JaSST'17東北Noriyuki Nemoto
 
[AWS初心者向けWebinar] AWSを活用したモバイルアプリの開発と運用
[AWS初心者向けWebinar] AWSを活用したモバイルアプリの開発と運用[AWS初心者向けWebinar] AWSを活用したモバイルアプリの開発と運用
[AWS初心者向けWebinar] AWSを活用したモバイルアプリの開発と運用Amazon Web Services Japan
 
20190522 AWS Black Belt Online Seminar AWS Step Functions
20190522 AWS Black Belt Online Seminar AWS Step Functions20190522 AWS Black Belt Online Seminar AWS Step Functions
20190522 AWS Black Belt Online Seminar AWS Step FunctionsAmazon Web Services Japan
 
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析Amazon Web Services Japan
 
Multicastが出来ないならUnicastすればいいじゃない
Multicastが出来ないならUnicastすればいいじゃないMulticastが出来ないならUnicastすればいいじゃない
Multicastが出来ないならUnicastすればいいじゃないKenta Yasukawa
 
エムスリーのQAチームが目指すもの
エムスリーのQAチームが目指すものエムスリーのQAチームが目指すもの
エムスリーのQAチームが目指すものYuki Shiromoto
 
20191126 AWS Black Belt Online Seminar Amazon AppStream 2.0
20191126 AWS Black Belt Online Seminar Amazon AppStream 2.020191126 AWS Black Belt Online Seminar Amazon AppStream 2.0
20191126 AWS Black Belt Online Seminar Amazon AppStream 2.0Amazon Web Services Japan
 
AWS Black Belt Online Seminar 2016 Amazon ElastiCache
AWS Black Belt Online Seminar 2016 Amazon ElastiCacheAWS Black Belt Online Seminar 2016 Amazon ElastiCache
AWS Black Belt Online Seminar 2016 Amazon ElastiCacheAmazon Web Services Japan
 
[最新バージョンの情報がDescription欄にございます]AWS Black Belt Online Seminar 2018 Amazon Connect
[最新バージョンの情報がDescription欄にございます]AWS Black Belt Online Seminar 2018 Amazon Connect[最新バージョンの情報がDescription欄にございます]AWS Black Belt Online Seminar 2018 Amazon Connect
[最新バージョンの情報がDescription欄にございます]AWS Black Belt Online Seminar 2018 Amazon ConnectAmazon Web Services Japan
 
AWS Black Belt Tech シリーズ 2015 - AWS CodeCommit & AWS CodePipeline & AWS CodeD...
AWS Black Belt Tech シリーズ 2015 - AWS CodeCommit & AWS CodePipeline & AWS CodeD...AWS Black Belt Tech シリーズ 2015 - AWS CodeCommit & AWS CodePipeline & AWS CodeD...
AWS Black Belt Tech シリーズ 2015 - AWS CodeCommit & AWS CodePipeline & AWS CodeD...Amazon Web Services Japan
 
【Mbaバンク】中小企業とmbaホルダーのマッチングサイト
【Mbaバンク】中小企業とmbaホルダーのマッチングサイト【Mbaバンク】中小企業とmbaホルダーのマッチングサイト
【Mbaバンク】中小企業とmbaホルダーのマッチングサイト大介 迫村
 
サーバーレスで ガチ本番運用までやってるお話し
サーバーレスで ガチ本番運用までやってるお話しサーバーレスで ガチ本番運用までやってるお話し
サーバーレスで ガチ本番運用までやってるお話しAkira Nagata
 
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とはKubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは株式会社クライム
 
JJUG CCC リクルートの Java に対する取り組み
JJUG CCC リクルートの Java に対する取り組みJJUG CCC リクルートの Java に対する取り組み
JJUG CCC リクルートの Java に対する取り組みRecruit Technologies
 

What's hot (20)

AWS Black Belt Techシリーズ Amazon EMR
AWS Black Belt Techシリーズ  Amazon EMRAWS Black Belt Techシリーズ  Amazon EMR
AWS Black Belt Techシリーズ Amazon EMR
 
AWS Black Belt Online Seminar 2017 AWSにおけるアプリ認証パターンのご紹介
AWS Black Belt Online Seminar 2017 AWSにおけるアプリ認証パターンのご紹介AWS Black Belt Online Seminar 2017 AWSにおけるアプリ認証パターンのご紹介
AWS Black Belt Online Seminar 2017 AWSにおけるアプリ認証パターンのご紹介
 
2017 02-14 キュー実装に見る排他処理
2017 02-14 キュー実装に見る排他処理2017 02-14 キュー実装に見る排他処理
2017 02-14 キュー実装に見る排他処理
 
AWS Black Belt Online Seminar 2017 Amazon Aurora with PostgreSQL Compatibility
AWS Black Belt Online Seminar 2017 Amazon Aurora with PostgreSQL CompatibilityAWS Black Belt Online Seminar 2017 Amazon Aurora with PostgreSQL Compatibility
AWS Black Belt Online Seminar 2017 Amazon Aurora with PostgreSQL Compatibility
 
AWS 初心者向けWebinar 基本から理解する、AWS運用監視
AWS 初心者向けWebinar 基本から理解する、AWS運用監視AWS 初心者向けWebinar 基本から理解する、AWS運用監視
AWS 初心者向けWebinar 基本から理解する、AWS運用監視
 
テストエンジニア版RPG風スキルマップ JaSST'17東北
テストエンジニア版RPG風スキルマップ JaSST'17東北テストエンジニア版RPG風スキルマップ JaSST'17東北
テストエンジニア版RPG風スキルマップ JaSST'17東北
 
[AWS初心者向けWebinar] AWSを活用したモバイルアプリの開発と運用
[AWS初心者向けWebinar] AWSを活用したモバイルアプリの開発と運用[AWS初心者向けWebinar] AWSを活用したモバイルアプリの開発と運用
[AWS初心者向けWebinar] AWSを活用したモバイルアプリの開発と運用
 
20190522 AWS Black Belt Online Seminar AWS Step Functions
20190522 AWS Black Belt Online Seminar AWS Step Functions20190522 AWS Black Belt Online Seminar AWS Step Functions
20190522 AWS Black Belt Online Seminar AWS Step Functions
 
Black Belt Online Seminar Amazon CloudWatch
Black Belt Online Seminar Amazon CloudWatchBlack Belt Online Seminar Amazon CloudWatch
Black Belt Online Seminar Amazon CloudWatch
 
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析
 
Multicastが出来ないならUnicastすればいいじゃない
Multicastが出来ないならUnicastすればいいじゃないMulticastが出来ないならUnicastすればいいじゃない
Multicastが出来ないならUnicastすればいいじゃない
 
エムスリーのQAチームが目指すもの
エムスリーのQAチームが目指すものエムスリーのQAチームが目指すもの
エムスリーのQAチームが目指すもの
 
20191126 AWS Black Belt Online Seminar Amazon AppStream 2.0
20191126 AWS Black Belt Online Seminar Amazon AppStream 2.020191126 AWS Black Belt Online Seminar Amazon AppStream 2.0
20191126 AWS Black Belt Online Seminar Amazon AppStream 2.0
 
AWS Black Belt Online Seminar 2016 Amazon ElastiCache
AWS Black Belt Online Seminar 2016 Amazon ElastiCacheAWS Black Belt Online Seminar 2016 Amazon ElastiCache
AWS Black Belt Online Seminar 2016 Amazon ElastiCache
 
[最新バージョンの情報がDescription欄にございます]AWS Black Belt Online Seminar 2018 Amazon Connect
[最新バージョンの情報がDescription欄にございます]AWS Black Belt Online Seminar 2018 Amazon Connect[最新バージョンの情報がDescription欄にございます]AWS Black Belt Online Seminar 2018 Amazon Connect
[最新バージョンの情報がDescription欄にございます]AWS Black Belt Online Seminar 2018 Amazon Connect
 
AWS Black Belt Tech シリーズ 2015 - AWS CodeCommit & AWS CodePipeline & AWS CodeD...
AWS Black Belt Tech シリーズ 2015 - AWS CodeCommit & AWS CodePipeline & AWS CodeD...AWS Black Belt Tech シリーズ 2015 - AWS CodeCommit & AWS CodePipeline & AWS CodeD...
AWS Black Belt Tech シリーズ 2015 - AWS CodeCommit & AWS CodePipeline & AWS CodeD...
 
【Mbaバンク】中小企業とmbaホルダーのマッチングサイト
【Mbaバンク】中小企業とmbaホルダーのマッチングサイト【Mbaバンク】中小企業とmbaホルダーのマッチングサイト
【Mbaバンク】中小企業とmbaホルダーのマッチングサイト
 
サーバーレスで ガチ本番運用までやってるお話し
サーバーレスで ガチ本番運用までやってるお話しサーバーレスで ガチ本番運用までやってるお話し
サーバーレスで ガチ本番運用までやってるお話し
 
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とはKubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
Kubernetes専用データ保護に新たな潮流、Zerto?Kasten?の最新手法とは
 
JJUG CCC リクルートの Java に対する取り組み
JJUG CCC リクルートの Java に対する取り組みJJUG CCC リクルートの Java に対する取り組み
JJUG CCC リクルートの Java に対する取り組み
 

Similar to 检查你的事实并再试一次:利用外部知识和自动反馈改进大型语言模型 - 微软研究院.pdf

01 orm概述及持久化介绍
01 orm概述及持久化介绍01 orm概述及持久化介绍
01 orm概述及持久化介绍Zelin Wang
 
常用Js框架比较
常用Js框架比较常用Js框架比较
常用Js框架比较Adam Lu
 
quick_orm 简介
quick_orm 简介quick_orm 简介
quick_orm 简介tyler4long
 
广告投放代码和创意代码持续优化
广告投放代码和创意代码持续优化广告投放代码和创意代码持续优化
广告投放代码和创意代码持续优化taobao.com
 
程式人雜誌 -- 2013年3月號
程式人雜誌 -- 2013年3月號程式人雜誌 -- 2013年3月號
程式人雜誌 -- 2013年3月號鍾誠 陳鍾誠
 
掌星 移动互联网开发笔记-Vol002
掌星 移动互联网开发笔记-Vol002掌星 移动互联网开发笔记-Vol002
掌星 移动互联网开发笔记-Vol002rainx1982
 
系統程式 -- 第 6 章 巨集處理器
系統程式 -- 第 6 章 巨集處理器系統程式 -- 第 6 章 巨集處理器
系統程式 -- 第 6 章 巨集處理器鍾誠 陳鍾誠
 
3.架构设计篇2
3.架构设计篇23.架构设计篇2
3.架构设计篇2gavin shaw
 
用 C# 與 .NET 也能打造機器學習模型:你所不知道的 ML.NET 初體驗
用 C# 與 .NET 也能打造機器學習模型:你所不知道的 ML.NET 初體驗用 C# 與 .NET 也能打造機器學習模型:你所不知道的 ML.NET 初體驗
用 C# 與 .NET 也能打造機器學習模型:你所不知道的 ML.NET 初體驗Ko Ko
 
教學投影片01_Vb2005
教學投影片01_Vb2005教學投影片01_Vb2005
教學投影片01_Vb2005洋夫 葉
 
Ood启思录01
Ood启思录01Ood启思录01
Ood启思录01yiditushe
 
Django敏捷开发 刘天斯
Django敏捷开发 刘天斯Django敏捷开发 刘天斯
Django敏捷开发 刘天斯liuts
 
大数据的Reactive设计范式和akka实践
大数据的Reactive设计范式和akka实践大数据的Reactive设计范式和akka实践
大数据的Reactive设计范式和akka实践Sean Zhong
 
銷售信賺錢聖經2.0 (克亞營銷)
銷售信賺錢聖經2.0 (克亞營銷)銷售信賺錢聖經2.0 (克亞營銷)
銷售信賺錢聖經2.0 (克亞營銷)gary wang
 
Windows 8 apps dev.整理及分享
Windows 8 apps dev.整理及分享Windows 8 apps dev.整理及分享
Windows 8 apps dev.整理及分享Liyao Chen
 
開源碼介紹及Joomla
開源碼介紹及Joomla開源碼介紹及Joomla
開源碼介紹及Joomlatmjhart
 
做一个“懒惰”的程序员-LCP框架系列交流
做一个“懒惰”的程序员-LCP框架系列交流做一个“懒惰”的程序员-LCP框架系列交流
做一个“懒惰”的程序员-LCP框架系列交流lichengdongdong
 
《Linux运维趋势》2012年5月号 总第19期
《Linux运维趋势》2012年5月号 总第19期《Linux运维趋势》2012年5月号 总第19期
《Linux运维趋势》2012年5月号 总第19期51CTO
 

Similar to 检查你的事实并再试一次:利用外部知识和自动反馈改进大型语言模型 - 微软研究院.pdf (20)

01 orm概述及持久化介绍
01 orm概述及持久化介绍01 orm概述及持久化介绍
01 orm概述及持久化介绍
 
常用Js框架比较
常用Js框架比较常用Js框架比较
常用Js框架比较
 
quick_orm 简介
quick_orm 简介quick_orm 简介
quick_orm 简介
 
广告投放代码和创意代码持续优化
广告投放代码和创意代码持续优化广告投放代码和创意代码持续优化
广告投放代码和创意代码持续优化
 
程式人雜誌 -- 2013年3月號
程式人雜誌 -- 2013年3月號程式人雜誌 -- 2013年3月號
程式人雜誌 -- 2013年3月號
 
掌星 移动互联网开发笔记-Vol002
掌星 移动互联网开发笔记-Vol002掌星 移动互联网开发笔记-Vol002
掌星 移动互联网开发笔记-Vol002
 
系統程式 -- 第 6 章 巨集處理器
系統程式 -- 第 6 章 巨集處理器系統程式 -- 第 6 章 巨集處理器
系統程式 -- 第 6 章 巨集處理器
 
3.架构设计篇2
3.架构设计篇23.架构设计篇2
3.架构设计篇2
 
用 C# 與 .NET 也能打造機器學習模型:你所不知道的 ML.NET 初體驗
用 C# 與 .NET 也能打造機器學習模型:你所不知道的 ML.NET 初體驗用 C# 與 .NET 也能打造機器學習模型:你所不知道的 ML.NET 初體驗
用 C# 與 .NET 也能打造機器學習模型:你所不知道的 ML.NET 初體驗
 
教學投影片01_Vb2005
教學投影片01_Vb2005教學投影片01_Vb2005
教學投影片01_Vb2005
 
Ood启思录01
Ood启思录01Ood启思录01
Ood启思录01
 
Go
GoGo
Go
 
前端总结
前端总结前端总结
前端总结
 
Django敏捷开发 刘天斯
Django敏捷开发 刘天斯Django敏捷开发 刘天斯
Django敏捷开发 刘天斯
 
大数据的Reactive设计范式和akka实践
大数据的Reactive设计范式和akka实践大数据的Reactive设计范式和akka实践
大数据的Reactive设计范式和akka实践
 
銷售信賺錢聖經2.0 (克亞營銷)
銷售信賺錢聖經2.0 (克亞營銷)銷售信賺錢聖經2.0 (克亞營銷)
銷售信賺錢聖經2.0 (克亞營銷)
 
Windows 8 apps dev.整理及分享
Windows 8 apps dev.整理及分享Windows 8 apps dev.整理及分享
Windows 8 apps dev.整理及分享
 
開源碼介紹及Joomla
開源碼介紹及Joomla開源碼介紹及Joomla
開源碼介紹及Joomla
 
做一个“懒惰”的程序员-LCP框架系列交流
做一个“懒惰”的程序员-LCP框架系列交流做一个“懒惰”的程序员-LCP框架系列交流
做一个“懒惰”的程序员-LCP框架系列交流
 
《Linux运维趋势》2012年5月号 总第19期
《Linux运维趋势》2012年5月号 总第19期《Linux运维趋势》2012年5月号 总第19期
《Linux运维趋势》2012年5月号 总第19期
 

More from ssuser16d801

刘煜辉:通缩已开始,经济已经落入衰退象限.pdf
刘煜辉:通缩已开始,经济已经落入衰退象限.pdf刘煜辉:通缩已开始,经济已经落入衰退象限.pdf
刘煜辉:通缩已开始,经济已经落入衰退象限.pdfssuser16d801
 
出国篇-关于日本养老的问题(为什么很多人会把日本作为养老的归宿)!.pdf
出国篇-关于日本养老的问题(为什么很多人会把日本作为养老的归宿)!.pdf出国篇-关于日本养老的问题(为什么很多人会把日本作为养老的归宿)!.pdf
出国篇-关于日本养老的问题(为什么很多人会把日本作为养老的归宿)!.pdfssuser16d801
 
欧美银行暴雷后,中国银行业并非理想避风港
欧美银行暴雷后,中国银行业并非理想避风港 欧美银行暴雷后,中国银行业并非理想避风港
欧美银行暴雷后,中国银行业并非理想避风港 ssuser16d801
 
留给普通人的最后一扇门,快要关闭了 __ Reader View.pdf
留给普通人的最后一扇门,快要关闭了 __ Reader View.pdf留给普通人的最后一扇门,快要关闭了 __ Reader View.pdf
留给普通人的最后一扇门,快要关闭了 __ Reader View.pdfssuser16d801
 
uob-bank-fees-and-charges.pdf
uob-bank-fees-and-charges.pdfuob-bank-fees-and-charges.pdf
uob-bank-fees-and-charges.pdfssuser16d801
 
rust-annual-report-2022-cn.pdf
rust-annual-report-2022-cn.pdfrust-annual-report-2022-cn.pdf
rust-annual-report-2022-cn.pdfssuser16d801
 
Rust for professionals.pdf
Rust for professionals.pdfRust for professionals.pdf
Rust for professionals.pdfssuser16d801
 

More from ssuser16d801 (7)

刘煜辉:通缩已开始,经济已经落入衰退象限.pdf
刘煜辉:通缩已开始,经济已经落入衰退象限.pdf刘煜辉:通缩已开始,经济已经落入衰退象限.pdf
刘煜辉:通缩已开始,经济已经落入衰退象限.pdf
 
出国篇-关于日本养老的问题(为什么很多人会把日本作为养老的归宿)!.pdf
出国篇-关于日本养老的问题(为什么很多人会把日本作为养老的归宿)!.pdf出国篇-关于日本养老的问题(为什么很多人会把日本作为养老的归宿)!.pdf
出国篇-关于日本养老的问题(为什么很多人会把日本作为养老的归宿)!.pdf
 
欧美银行暴雷后,中国银行业并非理想避风港
欧美银行暴雷后,中国银行业并非理想避风港 欧美银行暴雷后,中国银行业并非理想避风港
欧美银行暴雷后,中国银行业并非理想避风港
 
留给普通人的最后一扇门,快要关闭了 __ Reader View.pdf
留给普通人的最后一扇门,快要关闭了 __ Reader View.pdf留给普通人的最后一扇门,快要关闭了 __ Reader View.pdf
留给普通人的最后一扇门,快要关闭了 __ Reader View.pdf
 
uob-bank-fees-and-charges.pdf
uob-bank-fees-and-charges.pdfuob-bank-fees-and-charges.pdf
uob-bank-fees-and-charges.pdf
 
rust-annual-report-2022-cn.pdf
rust-annual-report-2022-cn.pdfrust-annual-report-2022-cn.pdf
rust-annual-report-2022-cn.pdf
 
Rust for professionals.pdf
Rust for professionals.pdfRust for professionals.pdf
Rust for professionals.pdf
 

检查你的事实并再试一次:利用外部知识和自动反馈改进大型语言模型 - 微软研究院.pdf

  • 1. 深度学习小组 / 文章 检查你的事实并再试一次:利用外部知识和自动反馈改进大型语言模型 2023 年3 月7 日 分享此页面 大型语言模型(LLM),例如ChatGPT,能够为许多下游任务生成类似人类的流畅响应,例如面向任务的对话和 问答。然而,将LLM 应用于现实世界的关键任务应用程序仍然具有挑战性,主要是因为它们容易产生幻觉并且 无法使用外部知识。 这个博客介绍了我们在LLM-Augmenter上的工作,一个通过使用一组即插即用模块增强黑盒LLM 来解决这些 问题的系统:我们的系统使LLM 生成基于外部知识的响应,例如,存储在特定于任务的数据库中。它还迭代地 修改LLM 提示,以使用效用函数生成的反馈改进模型响应,例如,LLM 生成的响应的真实性分数。 我们使用两种类型的任务验证LLM-Augmenter 的有效性,即信息搜索对话和开放域Wiki 问答(Wiki QA)。我 们的实验表明,在所有任务中,LLM-Augmenter 显着提高了ChatGPT 在外部知识中的基础性,而不会牺牲其 生成的响应的人性化。例如,在客户服务的对话任务上,人类评估表明,LLM-Augmenter 将ChatGPT 的有用 性提高了32.3%,人性化提高了12.9%(衡量模型响应的流畅性和信息量)。Wiki QA 任务对ChatGPT 极具挑 战性,因为回答这些问题通常需要多跳推理来拼凑分散在不同文档中的各种模式的信息。我们的结果表明,虽 然闭卷ChatGPT 表现不佳且经常出现幻觉,LLM-Augmenter 通过将ChatGPT 的响应建立在整合的外部知识和 自动反馈中,显着提高了答案的真实性分数(在F1 中+10%)。 我们在论文中更详细地描述了这项工作,并且我们在github上提供了它的代码。 概述 LLM-Augmenter 使用即插即用(PnP) 模块使用外部知识和自动反馈改进LLM,如以下示例所示: LLM-AUGMENTER 通过(1) 为LLM 整合来自外部知识的证据以生成基于证据的响应和(2) 使用自动反馈修改LLM(候选人) 的响应来改进固定的LLM。 给定用户查询(例如,关于2013 年洛杉矶银河队球员转会),LLM-Augmenter 首先从外部知识(例如,Web 或任务特定的数据集)中检索证据。如有必要,它通过将检索到的原始证据与相关上下文(例如,实体“2013 Los Angeles Galaxy”的信息)联系起来,进一步巩固证据,并进行推理以形成证据链(例如,图中的表格段 落)。然后,LLM-Augmenter 使用包含ChatGPT 综合证据的提示查询固定的LLM(即我们工作中的
  • 2. ChatGPT),以生成基于外部知识的候选响应。LLM-Augmenter 然后验证候选响应,例如,通过检查它是否产 生幻觉证据。如果是这样,LLM-Augmenter 会生成一条反馈消息(例如,关于团队“CSD Municipal”)。该消 息用于修改提示以再次查询ChatGPT。该过程不断迭代,直到候选响应通过验证并发送给用户。 建筑学 LLM-Augmenter的架构如下图所示: LLM-Augmenter 架构展示了其即插即用模块如何与LLM 和用户环境交互。 LLM-Augmenter 由一组PnP 模块(即Working Memory、Policy、Action Executor 和Utility)组成,以通过外 部知识和自动反馈改进固定的LLM(例如ChatGPT)以减轻幻觉等生成问题。我们将人机对话制定为利用以下 PnP 模块的马尔可夫决策过程(MDP): 工作记忆:跟踪对话状态,捕捉对话中到目前为止的所有基本信息。 动作执行器:该模块执行策略模块选择的动作。它由两个组件组成,知识整合器和提示引擎。Knowledge Consolidator 增强了LLM 的能力,使他们能够根据外部知识做出反应,以减轻完成任务时的幻觉,例如 回答有关最新消息的问题和在餐厅预订餐桌。提示引擎生成查询LLM 的提示。 效用:给定一个候选响应,效用模块使用一组特定于任务的效用函数(例如,KF1)生成效用分数和相应 的反馈。 策略:该模块选择下一个导致最佳预期奖励的系统操作。这些动作包括(1)从外部知识中获取证据, (2)调用LLM 生成候选响应,以及(3)如果通过Utility 模块的验证,则向用户发送响应。 该策略可以使用手动制定的规则来实施,也可以在人机交互方面进行培训。在我们的工作中,我们将可训练策 略实施为神经网络模型,并使用REINFORCE 对其进行优化。本文提供了我们的方法和这些PnP 模块的详细信 息。 结果 我们的论文对三个任务进行了广泛的实验,但我们在本博客中重点关注客户支持任务。我们比较了使用和不使 用LLM-Augmenter 的ChatGPT 从客户服务数据集中随机选择的总共约1,000 个示例用于人工评估。我们观察 到,在实用性和人性化方面,LLM-Augmenter 比单独的ChatGPT 更受青睐。结果与论文中提供的自动评估结 果一致。
  • 4. 上表提供了对比LLM-Augmenter 与ChatGPT 的示例响应。首先,我们可以看到ChatGPT 无法提供与用户相关 的特定知识相关的响应,例如当地的印度餐馆。在表格的第二部分,我们展示了LLM-Augmenter 的工作记 忆,它突出显示了从外部知识中检索到的更丰富的信息,以帮助底层LLM(即ChatGPT)生成更多内容丰富的 响应。不幸的是,LLM-Augmenter 收到的第一个LLM 响应并不令人满意,因为LLM 生成的质量和特异性可能 无法预测。在这种情况下,Utility 模块已确定第一个响应不符合其标准(即KF1 高于给定阈值),并向LLM 模 块发出反馈(即“响应与知识不一致”)。 致谢 这项研究由Baolin Peng、Michel Galley、Pengcheng He、Hao Cheng、Yujia Xie、Yu Hu、Qiuyuan Huang、 Lars Liden、Zhou Yu、Weizhu Chen、Jianfeng Gao在微软研究院进行。我们还要感谢Saleema Amershi、 Ahmed Awadallah、Nguyen Bach、Paul Bennett、Chris Brockett、Weixin Cai、Dhivya Eswaran、Adam Fourney、Hsiao-Wuen Hon、Chunyuan Li、Ricky Loynd、Hoifung Poon、Corby Rosset、Bin Yu、Sheng Zhang、和Microsoft Research Deep Learning 小组的成员进行有价值的讨论和评论。