人工智能

提升检索增强语言模型：对话系统的自我推理和自适应增强

Published August 15, 2024

Updated April 4, 2026

Aayush Mittal Mittal

self-reasoning frameworks and adaptive retrieval-augmented generation

大型语言模型通常难以提供精确和最新的信息，特别是在复杂的知识密集型任务中。为了克服这些挑战，研究人员正在探索将这些模型与外部数据源集成的方法。

在这个领域中，出现了两种新方法：自我推理框架和对话系统的自适应检索增强生成。在这篇文章中，我们将深入探讨这些创新技术，并探索它们如何推动语言模型的可能性边界。

检索增强语言模型的Promise和Pitfalls

让我们了解检索增强语言模型（RALMs）的概念。RALMs背后的核心思想是将预训练语言模型的庞大知识和语言理解能力与在推理过程中访问和整合外部最新信息的能力相结合。

这里有一个基本RALM的简单示例：

用户提问：“2024年奥运会的结果是什么？”
系统从外部知识库中检索相关文档。
LLM处理问题和检索的信息。
模型根据其内部知识和外部数据生成响应。

这种方法在提高LLM输出的准确性和相关性方面显示出巨大的潜力，特别是在需要访问当前信息或领域特定知识的任务中。然而，RALMs并非没有挑战。研究人员一直在努力解决两个关键问题：

可靠性：如何确保检索的信息相关且有用？
可追溯性：如何使模型的推理过程更加透明和可验证？

最近的研究提出了这些挑战的创新解决方案，我们将深入探讨。

自我推理：增强RALMs的显式推理轨迹

这是检索增强LLMs的架构和过程，重点介绍了一种称为自我推理的框架。这种方法使用轨迹来增强模型的推理能力。

当提出一个问题时，检索相关文档并通过一系列推理步骤进行处理。自我推理机制应用证据感知和轨迹分析过程来过滤和综合信息，然后生成最终答案。这种方法不仅提高了输出的准确性，还确保了答案背后的推理是透明和可追溯的。

在上面提供的示例中，例如确定电影“Catch Me If You Can”的发行日期或识别佛罗伦萨大教堂天花板的画家，模型有效地过滤检索的文档以产生准确、上下文支持的答案。

这张表格展示了不同LLM变体的比较分析，包括LLaMA2模型和其他检索增强模型，跨自然问题、流行问答、FEVER和ASQA等任务。结果分为基线和增强检索能力。

这幅图展示了一个场景，其中LLM被要求根据用户查询提供建议，展示外部知识如何影响响应的质量和相关性。图表强调了两种方法：一种使用知识片段，另一种不使用。比较突出了如何将特定信息整合到响应中以使其更符合用户的需求，提供深度和准确性，这些可能在纯生成模型中缺乏。

提高RALMs的一个开创性方法是引入自我推理框架。这种方法背后的核心思想是利用语言模型自身的能力来生成显式推理轨迹，这些轨迹可以用来提高其输出的质量和可靠性。

让我们分解自我推理框架的关键组件：

相关性感知过程（RAP）
证据感知选择过程（EAP）
轨迹分析过程（TAP）

证据感知选择过程（EAP）

EAP进一步通过指示模型识别和引用相关文档中的特定证据来评估相关性。这种过程模仿了人们可能处理研究任务的方式，选择关键句子并解释其相关性。以下是EAP输出的示例：

引用内容：“埃菲尔铁塔的建设始于1887年1月28日，于1889年3月31日完成。” 引用原因：这句话提供了埃菲尔铁塔建设的确切开始和结束日期，直接回答了关于其建造时间的问题。

通过明确引用来源并解释每个证据的相关性，EAP增强了模型输出的可追溯性和可解释性。

轨迹分析过程（TAP）

TAP是自我推理框架的最后阶段，其中模型整合在前几步中生成的所有推理轨迹。它分析这些轨迹并生成一个简洁的摘要以及最终答案。TAP的输出可能如下所示：

分析：埃菲尔铁塔建于1887年至1889年之间。建设始于1887年1月28日，于1889年3月31日完成。这些信息得到了多个可靠来源的支持，这些来源提供了对铁塔建设时期的一致日期。

答案：埃菲尔铁塔建于1887年至1889年。

此过程允许模型提供详细的推理解释和简洁的答案，以满足不同的用户需求。

在实践中实施自我推理

为了实施这个自我推理框架，研究人员探索了各种方法，包括：

提示预训练语言模型
使用参数高效技术（如QLoRA）对语言模型进行微调
开发专用神经网络架构，例如多头注意力模型

每种方法都有其自身的性能、效率和易于实施的权衡。例如，提示方法最简单，但可能并不总是产生一致的结果。微调提供了性能和效率之间的良好平衡，而专用架构可能提供最佳的性能，但需要更多的计算资源来训练。

以下是使用提示方法和GPT-3语言模型实现RAP的简化示例：

import openai

def relevance_aware_process(question, documents):
prompt = f"""
问题：{question}

检索的文档：
{documents}

任务：确定检索的文档是否与回答问题相关。
输出格式：
相关：[True/False]
相关原因：[解释]

您的分析：
"""

response = openai.Completion.create(
engine="text-davinci-002",
prompt=prompt,
max_tokens=150
)

return response.choices[0].text.strip()

# 示例用法
question = "埃菲尔铁塔建于何时？"
documents = "埃菲尔铁塔是位于法国巴黎香榭丽舍大街上的一个铁格子塔。它以设计和建造该塔的工程师古斯塔夫·埃菲尔的名字命名。该塔于1887年至1889年间建造，最初作为1889年世界博览会的入口拱门。"
result = relevance_aware_process(question, documents)
print(result)

对话系统的自适应检索增强生成

虽然自我推理框架专注于提高个别响应的质量和可解释性，但另一条研究线正在探索如何使检索增强生成在对话系统的背景下更加自适应。这种方法，称为自适应检索增强生成，旨在确定何时在对话中使用外部知识以及如何有效地整合它。

这种方法背后的关键见解是，并非对话中的每个回合都需要外部知识增强。在某些情况下，过度依赖检索的信息可能会导致不自然或冗长的响应。因此，挑战在于开发一个可以动态决定何时使用外部知识以及何时依赖模型的固有能力的系统。

自适应检索增强生成的组件

为了解决这个挑战，研究人员提出了一个名为RAGate的框架，它由几个关键组件组成：

二元知识门机制
相关性感知过程
证据感知选择过程
轨迹分析过程

二元知识门机制

RAGate系统的核心是一个二元知识门，决定是否为给定的对话回合使用外部知识。该门考虑对话上下文，并可选地考虑检索的知识片段，以便做出决定。

以下是二元知识门可能的工作原理的简化说明：

def knowledge_gate(context, retrieved_knowledge=None):
# 分析上下文和检索的知识
# 如果应该使用外部知识，则返回True，否则返回False
pass

def generate_response(context, knowledge=None):
if knowledge_gate(context, knowledge):
# 使用检索增强生成
return generate_with_knowledge(context, knowledge)

Aayush Mittal

我过去五年一直沉浸在令人着迷的机器学习和深度学习世界中。我的热情和专业知识使我能够为超过50个不同的软件工程项目做出贡献，特别注重人工智能/机器学习。我的持续好奇心也使我对自然语言处理产生了兴趣，这是一个我渴望进一步探索的领域。

Unite.AI

提升检索增强语言模型：对话系统的自我推理和自适应增强

人工智能

提升检索增强语言模型：对话系统的自我推理和自适应增强