提示工程
解决大型语言模型中的幻觉问题:一项关于最前沿技术的调查

像 GPT-4、PaLM 和 Llama 这样的大型语言模型(LLM)已经在自然语言生成能力方面取得了显著的进步。然而,一个持续的挑战限制了它们的可靠性和安全部署,即它们倾向于产生幻觉——生成看似连贯但在事实上不正确或不基于输入上下文的内容。
随着 LLM 的不断增长和在现实世界应用中的普遍使用,解决幻觉问题变得至关重要。本文提供了对研究人员提出的最新技术的全面概述,这些技术用于检测、量化和减轻 LLM 中的幻觉。
理解 LLM 中的幻觉
幻觉是指 LLM 生成的不基于现实或提供的上下文的虚构内容。一些例子包括:
- 在生成关于某个人的文本时,编造没有证据支持的传记细节或事件。
- 通过编造药物副作用或治疗程序提供有缺陷的医疗建议。
- 编造不存在的数据、研究或来源来支持某个说法。
这种现象的产生是因为 LLM 是在大量在线文本数据上训练的。虽然这使得它们能够获得强大的语言建模能力,但也意味着它们学会了推断信息、进行逻辑跳跃和填补空白,以一种看似令人信服但可能具有误导性或错误的方式。
一些导致幻觉的关键因素包括:
- 模式泛化 – LLM 识别并扩展训练数据中的模式,这些模式可能不能很好地泛化。
- 过时的知识 – 静态预训练阻止了新信息的整合。
- 模糊性 – 模糊的提示允许进行错误的假设。
- 偏见 – 模型延续和放大偏斜的观点。
- 不足的基础 – 缺乏理解和推理能力意味着模型生成它们不完全理解的内容。
解决幻觉问题对于在医疗、法律、金融和教育等领域中可靠地部署 LLM 至关重要,因为在这些领域中生成错误信息可能会造成伤害。
幻觉缓解技术的分类
研究人员已经提出了多种技术来解决 LLM 中的幻觉问题,这些技术可以分为:
1. 提示工程
这涉及仔细设计提示,以提供上下文并引导 LLM 向事实和有根据的响应。
- 检索增强 – 检索外部证据以使内容有根据。
- 反馈循环 – 迭代提供反馈以完善响应。
- 提示调优 – 在微调期间调整提示以获得所需的行为。
2. 模型开发
通过架构更改创建内在上不容易产生幻觉的模型。
- 解码策略 – 以增加忠实度的方式生成文本。
- 知识基础 – 将外部知识库纳入其中。
- 新型损失函数 – 在训练期间优化忠实度。
- 监督微调 – 使用人类标记的数据来增强事实性。
接下来,我们将对每种方法下的著名技术进行调查。
著名的幻觉缓解技术
检索增强生成
检索增强生成通过检索和条件文本生成外部证据文档来增强 LLM,而不是仅仅依赖模型的隐式知识。这使得内容基于最新、可验证的信息,从而减少幻觉。
著名的技术包括:
- RAG – 使用检索器模块为序列到序列模型提供相关段落进行生成。两个组件都在端到端训练。
- RARR – 使用 LLM 研究生成文本中的无关内容并根据检索的证据修改它们。
- 知识检索 – 使用检索的知识验证不确定的生成,然后生成文本。
- LLM-Augmenter – 迭代搜索知识以构建 LLM 提示的证据链。
反馈和推理
利用迭代的自然语言反馈或自我推理允许 LLM 改进和完善其初始输出,减少幻觉。
CoVe 采用了一种验证链技术。LLM 首先草拟对用户查询的响应。然后,它生成潜在的验证问题来事实核查其自身的响应,基于其在各种陈述中的信心。例如,对于描述新型医疗治疗的响应,CoVe 可能会生成诸如“治疗的有效率是多少?”、“它是否获得了监管部门的批准?”或“潜在的副作用是什么?”等问题。关键的是,系统然后尝试独立回答这些验证问题,而不受其初始响应的影响。如果验证问题的答案与初始响应中的陈述相矛盾或不能支持,则系统将其识别为可能的幻觉,并在呈现给用户之前完善响应。
DRESS 专注于通过自然语言反馈使 LLM 与人类偏好保持一致。该方法允许非专业用户对模型生成的内容提供自由形式的批评,例如“提到的副作用似乎被夸大了”或完善指令,例如“请也讨论成本效益”。DRESS 使用强化学习训练模型生成的响应条件于此类反馈更好地符合人类偏好,从而增强交互性并减少不切实际或不支持的陈述。
MixAlign 处理用户询问的问题与系统检索的证据段不直接对应的情况。例如,用户可能会询问“中国的污染会恶化吗?”而检索的段落讨论的是全球污染趋势。为了避免在不确定的上下文中产生幻觉,MixAlign 在不确定如何将用户的问题与检索的信息关联时会明确向用户澄清。这一人机交互机制允许获取反馈以正确地使证据有根据并上下文化,防止不基于事实的响应。
自我反思 技术训练 LLM 评估、对其自身响应提供反馈并使用多任务方法迭代完善其自身响应。例如,给定一个对医疗查询的响应,模型学习评估其事实准确性,识别任何相互矛盾或不支持的陈述,并通过检索相关知识编辑它们。通过教导 LLM 这种检查、批评和迭代改进其自身输出的反馈循环,方法减少了盲目幻觉。
提示调优
提示调优允许在微调期间调整提供给 LLM 的指示性提示以获得所需的行为。
SynTra 方法采用合成摘要任务来最小化幻觉,然后将模型转移到实际摘要数据集。合成任务提供输入段并要求模型仅通过检索来总结它们,而不进行抽象。这训练模型完全依赖于来源内容,而不是在总结时产生幻觉。SynTra 已经证明可以在微调模型部署到目标任务时减少幻觉问题。
UPRISE 训练一个通用提示检索器,为少样本学习提供最优的软提示。通过检索在多样任务上调优的有效提示,模型学习概括和适应新任务,即使它缺乏训练示例。这增强了性能,而无需任务特定的调优。
新型模型架构
FLEEK 是一个专注于协助人类事实核查员和验证者的系统。它自动识别给定文本中可能需要验证的潜在事实性陈述。FLEEK 将这些需要核查的陈述转换为查询,检索相关证据,并将这些上下文信息提供给人类验证者,以有效地验证文档的准确性和修订需求。
CAD 解码方法通过上下文感知解码减少语言生成中的幻觉。具体来说,CAD 放大了 LLM 的输出分布在条件和无条件下之间的差异。这阻止了模型违背上下文证据,并引导模型朝着有根据的生成方向发展。
DoLA 通过对变压器网络的不同层的 logits 进行对比来减轻事实性幻觉。由于事实性知识往往局限于某些中间层,DoLA 通过对比这些层的 logits 信号减少了不正确的事实性生成。
THAM 框架在训练期间引入了一个正则化项,以最小化输入和产生的幻觉输出之间的互信息。这有助于增加模型对给定输入上下文的依赖,而不是无根据的想象,减少了盲目幻觉。
知识基础
将 LLM 生成的内容基础于结构化知识可以防止无限制的推测和编造。
RHO 模型识别对话上下文中的实体并将其链接到知识图(KG)。检索实体和事件的相关事实和关系,并将其融入提供给 LLM 的上下文表示中。这有助于通过使响应与事实联系起来来减少对话中的幻觉。
HAR 创建包含模型生成的幻觉的对比训练数据集,以更好地教授基础知识。给定一个事实段,模型被提示引入幻觉或扭曲,生成一个改变的对比版本。对此数据进行微调迫使模型更好地将内容基础于原始事实来源,减少即兴发挥。
监督微调
- Coach – 交互式框架,回答用户查询,同时询问纠正以提高模型。
- R-Tuning – 拒绝意识调优,拒绝通过训练数据知识缺口识别的不支持的问题。
- TWEAK – 解码方法,根据假设支持输入事实的程度对生成结果进行排名。
挑战和局限性
尽管取得了有希望的进展,但仍有一些关键挑战需要解决,以减轻幻觉:
- 技术通常会在质量、连贯性和创造性之间进行权衡,以换取真实性。
- 难以进行严格的评估,超出了有限的领域。指标无法捕捉所有细微差别。
- 许多方法在计算上都很昂贵,需要大量的检索或自我推理。
- 严重依赖于训练数据的质量和外部知识来源。
- 很难保证在不同领域和模态中的普遍适用性。
- 幻觉的根本原因,如过度外推,仍然没有解决。
解决这些挑战可能需要采取多层次的方法,结合训练数据增强、模型架构改进、增强忠实度的损失函数和推理时的技术。
前方的道路
LLM 的幻觉缓解仍然是一个开放的研究问题,目前正在取得积极的进展。一些有前途的未来方向包括:
- 混合技术:结合互补的方法,如检索、知识基础和反馈。
- 因果建模:增强理解和推理能力。
- 在线知识整合:保持世界知识的更新。
- 形式验证:对模型行为提供数学保证。
- 可解释性:在缓解技术中构建透明度。
随着 LLM 在高风险领域的普遍使用,开发强大的解决方案以遏制幻觉将是确保其安全、道德和可靠部署的关键。 本文中调查的技术提供了迄今为止提出的技术的概述,仍然存在更多的开放研究挑战。 总体而言,增强模型事实性的趋势是积极的,但继续进步需要解决局限性并探索新的方向,如因果关系、验证和混合方法。 有了各个学科研究人员的勤勉努力,强大而值得信赖的 LLM 的梦想可以变成现实。










