检查你的事实并再试一次：利用外部知识和自动反馈改进大型语言模型 - 微软研究院.pdf

深度学习小组 / 文章
检查你的事实并再试一次：利用外部知识和自动反馈改进大型语言模型
2023 年3 月7 日
分享此页面
大型语言模型(LLM)，例如ChatGPT，能够为许多下游任务生成类似人类的流畅响应，例如面向任务的对话和
问答。然而，将LLM 应用于现实世界的关键任务应用程序仍然具有挑战性，主要是因为它们容易产生幻觉并且
无法使用外部知识。
这个博客介绍了我们在LLM-Augmenter上的工作，一个通过使用一组即插即用模块增强黑盒LLM 来解决这些
问题的系统：我们的系统使LLM 生成基于外部知识的响应，例如，存储在特定于任务的数据库中。它还迭代地
修改LLM 提示，以使用效用函数生成的反馈改进模型响应，例如，LLM 生成的响应的真实性分数。
我们使用两种类型的任务验证LLM-Augmenter 的有效性，即信息搜索对话和开放域Wiki 问答(Wiki QA)。我
们的实验表明，在所有任务中，LLM-Augmenter 显着提高了ChatGPT 在外部知识中的基础性，而不会牺牲其
生成的响应的人性化。例如，在客户服务的对话任务上，人类评估表明，LLM-Augmenter 将ChatGPT 的有用
性提高了32.3%，人性化提高了12.9%（衡量模型响应的流畅性和信息量）。Wiki QA 任务对ChatGPT 极具挑
战性，因为回答这些问题通常需要多跳推理来拼凑分散在不同文档中的各种模式的信息。我们的结果表明，虽
然闭卷ChatGPT 表现不佳且经常出现幻觉，LLM-Augmenter 通过将ChatGPT 的响应建立在整合的外部知识和
自动反馈中，显着提高了答案的真实性分数（在F1 中+10%）。
我们在论文中更详细地描述了这项工作，并且我们在github上提供了它的代码。
概述
LLM-Augmenter 使用即插即用(PnP) 模块使用外部知识和自动反馈改进LLM，如以下示例所示：
LLM-AUGMENTER 通过(1) 为LLM 整合来自外部知识的证据以生成基于证据的响应和(2) 使用自动反馈修改LLM（候选人）
的响应来改进固定的LLM。
给定用户查询（例如，关于2013 年洛杉矶银河队球员转会），LLM-Augmenter 首先从外部知识（例如，Web
或任务特定的数据集）中检索证据。如有必要，它通过将检索到的原始证据与相关上下文（例如，实体“2013
Los Angeles Galaxy”的信息）联系起来，进一步巩固证据，并进行推理以形成证据链（例如，图中的表格段
落）。然后，LLM-Augmenter 使用包含ChatGPT 综合证据的提示查询固定的LLM（即我们工作中的

ChatGPT），以生成基于外部知识的候选响应。LLM-Augmenter 然后验证候选响应，例如，通过检查它是否产
生幻觉证据。如果是这样，LLM-Augmenter 会生成一条反馈消息（例如，关于团队“CSD Municipal”）。该消
息用于修改提示以再次查询ChatGPT。该过程不断迭代，直到候选响应通过验证并发送给用户。
建筑学
LLM-Augmenter的架构如下图所示：
LLM-Augmenter 架构展示了其即插即用模块如何与LLM 和用户环境交互。
LLM-Augmenter 由一组PnP 模块（即Working Memory、Policy、Action Executor 和Utility）组成，以通过外
部知识和自动反馈改进固定的LLM（例如ChatGPT）以减轻幻觉等生成问题。我们将人机对话制定为利用以下
PnP 模块的马尔可夫决策过程(MDP)：
工作记忆：跟踪对话状态，捕捉对话中到目前为止的所有基本信息。
动作执行器：该模块执行策略模块选择的动作。它由两个组件组成，知识整合器和提示引擎。Knowledge
Consolidator 增强了LLM 的能力，使他们能够根据外部知识做出反应，以减轻完成任务时的幻觉，例如
回答有关最新消息的问题和在餐厅预订餐桌。提示引擎生成查询LLM 的提示。
效用：给定一个候选响应，效用模块使用一组特定于任务的效用函数（例如，KF1）生成效用分数和相应
的反馈。
策略：该模块选择下一个导致最佳预期奖励的系统操作。这些动作包括（1）从外部知识中获取证据，
（2）调用LLM 生成候选响应，以及（3）如果通过Utility 模块的验证，则向用户发送响应。
该策略可以使用手动制定的规则来实施，也可以在人机交互方面进行培训。在我们的工作中，我们将可训练策
略实施为神经网络模型，并使用REINFORCE 对其进行优化。本文提供了我们的方法和这些PnP 模块的详细信
息。
结果
我们的论文对三个任务进行了广泛的实验，但我们在本博客中重点关注客户支持任务。我们比较了使用和不使
用LLM-Augmenter 的ChatGPT 从客户服务数据集中随机选择的总共约1,000 个示例用于人工评估。我们观察
到，在实用性和人性化方面，LLM-Augmenter 比单独的ChatGPT 更受青睐。结果与论文中提供的自动评估结
果一致。

LLM-Augmenter 在实用性和人性化方面都明显优于ChatGPT。
例子
下图展示了ChatGPT 与LLM-Augmenter 对比的真实例子：
LLM-Augmenter 示例。

上表提供了对比LLM-Augmenter 与ChatGPT 的示例响应。首先，我们可以看到ChatGPT 无法提供与用户相关
的特定知识相关的响应，例如当地的印度餐馆。在表格的第二部分，我们展示了LLM-Augmenter 的工作记
忆，它突出显示了从外部知识中检索到的更丰富的信息，以帮助底层LLM（即ChatGPT）生成更多内容丰富的
响应。不幸的是，LLM-Augmenter 收到的第一个LLM 响应并不令人满意，因为LLM 生成的质量和特异性可能
无法预测。在这种情况下，Utility 模块已确定第一个响应不符合其标准（即KF1 高于给定阈值），并向LLM 模
块发出反馈（即“响应与知识不一致”）。
致谢
这项研究由Baolin Peng、Michel Galley、Pengcheng He、Hao Cheng、Yujia Xie、Yu Hu、Qiuyuan Huang、
Lars Liden、Zhou Yu、Weizhu Chen、Jianfeng Gao在微软研究院进行。我们还要感谢Saleema Amershi、
Ahmed Awadallah、Nguyen Bach、Paul Bennett、Chris Brockett、Weixin Cai、Dhivya Eswaran、Adam
Fourney、Hsiao-Wuen Hon、Chunyuan Li、Ricky Loynd、Hoifung Poon、Corby Rosset、Bin Yu、Sheng
Zhang、和Microsoft Research Deep Learning 小组的成员进行有价值的讨论和评论。

检查你的事实并再试一次：利用外部知识和自动反馈改进大型语言模型 - 微软研究院.pdf

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 检查你的事实并再试一次：利用外部知识和自动反馈改进大型语言模型 - 微软研究院.pdf

Similar to 检查你的事实并再试一次：利用外部知识和自动反馈改进大型语言模型 - 微软研究院.pdf (20)

More from ssuser16d801

More from ssuser16d801 (7)

检查你的事实并再试一次：利用外部知识和自动反馈改进大型语言模型 - 微软研究院.pdf