通用人工智能

从零开始构建LLM代理 дляRAG以及更进一步：综合指南

Published July 2, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Building LLM Agents for RAG from Scratch and Beyond: A Comprehensive Guide

像GPT-3、GPT-4及其开源对应物一样的LLM，通常难以获取最新信息，并可能生成幻觉或不正确的信息。

检索增强生成（RAG）是一种将LLM的强大功能与外部知识检索相结合的技术。RAG允许我们将LLM响应建立在事实、最新信息的基础上，从而大大提高AI生成内容的准确性和可靠性。

在这篇博客文章中，我们将探讨如何从零开始构建RAG的LLM代理，深入探讨架构、实现细节和高级技术。我们将涵盖从RAG基础到创建能够执行复杂推理和任务执行的复杂代理的一切。

在我们开始构建LLM代理之前，让我们先了解什么是RAG以及为什么它很重要。

RAG，即检索增强生成，是一种混合方法，它将信息检索与文本生成相结合。在RAG系统中：

使用查询从知识库中检索相关文档。
然后将这些文档与原始查询一起输入语言模型。
模型根据查询和检索信息生成响应。

RAG

这种方法有几个优点：

提高准确性：通过将响应建立在检索信息的基础上，RAG减少了幻觉并提高了事实准确性。
最新信息：知识库可以定期更新，从而使系统能够访问当前信息。
透明度：系统可以提供其信息来源，增加信任并允许事实核查。

了解LLM代理

LLM Powered Agents

当您面临一个没有简单答案的问题时，您通常需要遵循几个步骤，认真思考，并记住您已经尝试过的内容。LLM代理专门为此类语言模型应用中的情况而设计。它们结合了彻底的数据分析、战略规划、数据检索和从过去的行动中学习的能力来解决复杂问题。

什么是LLM代理？

LLM代理是为创建需要顺序推理的复杂文本而设计的高级AI系统。它们可以预测、记住过去的对话，并根据情况和所需的风格使用不同的工具来调整其响应。

考虑一个法律领域的问题，例如：“在加利福尼亚州，特定类型的合同违约可能会产生什么法律后果？”具有检索增强生成（RAG）系统的基本LLM可以从法律数据库中检索必要的信息。

对于更详细的场景：“考虑到新的数据隐私法，公司面临什么常见的法律挑战，法院如何解决这些问题？”这个问题比简单地查找事实更深入。它是关于理解新规则、其对不同公司的影响以及法院的回应。LLM代理将将此任务分解为子任务，例如检索最新的法律、分析历史案例、总结法律文件以及根据模式预测趋势。

LLM代理的组件

LLM代理通常由四个组件组成：

代理/大脑：处理和理解语言的核心语言模型。
规划：推理、分解任务和制定具体计划的能力。
记忆：保持过去交互记录并从中学习。
工具使用：集成各种资源以执行任务。

代理/大脑

LLM代理的核心是一个语言模型，它根据其训练的海量数据处理和理解语言。您首先通过提供一个特定的提示来指导代理，告诉它如何响应、使用哪些工具以及要实现的目标。您可以使用特定的角色来定制代理，以增强其在特定任务或交互中的性能。

记忆

记忆组件帮助LLM代理处理复杂任务，通过保持过去操作的记录。主要有两种类型的记忆：

短期记忆：像记事本一样，跟踪正在进行的讨论。
长期记忆：像日记一样，存储过去交互的信息，以学习模式并做出更好的决定。

通过混合使用这两种类型的记忆，代理可以提供更个性化的响应，并随着时间的推移记住用户的偏好，从而创建更连贯和相关的交互。

规划

规划使LLM代理能够推理、将任务分解为可管理的部分，并根据任务的发展适应计划。规划涉及两个主要阶段：

计划制定：将任务分解为较小的子任务。
计划反思：审查和评估计划的有效性，纳入反馈以完善策略。

像链式思维（CoT）和思维树（ToT）这样的方法有助于此分解过程，允许代理探索不同的路径来解决问题。

要更深入地了解AI代理的世界，包括其当前能力和潜力，请考虑阅读“Auto-GPT & GPT-Engineer：今天的AI代理深度指南”

设置环境

要构建我们的RAG代理，我们需要设置我们的开发环境。我们将使用Python和几个关键库：

LangChain：用于编排我们的LLM和检索组件
Chroma：作为我们的向量存储用于文档嵌入
OpenAI的GPT模型：作为我们的基础LLM（如果需要，可以用开源模型代替）
FastAPI：用于创建一个简单的API来与我们的代理交互

让我们从设置我们的环境开始：


# 创建一个新虚拟环境
python -m venv rag_agent_env
source rag_agent_env/bin/activate # 在Windows上，使用 `rag_agent_env\Scripts\activate`

# 安装所需的包
pip install langchain chromadb openai fastapi uvicorn

现在，让我们创建一个名为rag_agent.py的新Python文件，并导入必要的库：


from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.text_splitter import CharacterTextSplitter
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
import os

# 设置您的OpenAI API密钥
os.environ["OPENAI_API_KEY"] = "your-api-key-here"

构建一个简单的RAG系统

现在我们已经设置了环境，让我们构建一个基本的RAG系统。我们将从创建一个知识库开始，使用一组文档，然后使用它来回答查询。

步骤1：准备文档

首先，我们需要加载和准备我们的文档。假设我们有一个名为knowledge_base.txt的文本文件，其中包含一些关于AI和机器学习的信息。


# 加载文档
loader = TextLoader("knowledge_base.txt")
documents = loader.load()

# 将文档分成块
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)

# 创建嵌入
embeddings = OpenAIEmbeddings()

# 创建一个向量存储
vectorstore = Chroma.from_documents(texts, embeddings)

步骤2：创建一个基于检索的QA链

现在我们有了向量存储，我们可以创建一个基于检索的QA链：


# 创建一个基于检索的QA链
qa = RetrievalQA.from_chain_type(llm=OpenAI(), chain_type="stuff", retriever=vectorstore.as_retriever())

步骤3：查询系统

我们现在可以查询我们的RAG系统：


query = "什么是机器学习的主要应用？"
result = qa.run(query)
print(result)

步骤4：创建LLM代理

虽然我们的简单RAG系统很有用，但它相当有限。让我们通过创建一个可以执行更复杂任务和推理检索信息的LLM代理来增强它。

LLM代理是一种可以使用工具和决定采取哪些操作的AI系统。我们将创建一个可以不仅回答问题，还可以执行网络搜索和基本计算的代理。

首先，让我们为我们的代理定义一些工具：


from langchain.agents import Tool
from langchain.tools import DuckDuckGoSearchRun
from langchain.tools import BaseTool
from langchain.agents import initialize_agent
from langchain.agents import AgentType

# 定义一个计算器工具
class CalculatorTool(BaseTool):
name = "Calculator"
description = "用于需要回答数学问题时"

def _run(self, query: str)
try:
return str(eval(query))
except:
return "我无法计算该值。请确保您的输入是有效的数学表达式。"

# 创建工具实例
search = DuckDuckGoSearchRun()
calculator = CalculatorTool()

# 定义工具
tools = [Tool(name="Search", func=search.run, description="用于需要回答当前事件问题时"),
Tool(name="RAG-QA", func=qa.run, description="用于需要回答AI和机器学习问题时"),
Tool(name="Calculator", func=calculator._run, description="用于需要执行数学计算时")
]

# 初始化代理
agent = initialize_agent(tools, OpenAI(temperature=0), agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True
)

现在我们有了一个可以使用我们的RAG系统、执行网络搜索和执行计算的代理。让我们测试它：


result = agent.run("什么是监督学习和无监督学习的区别？另外，80的15%是多少？")
print(result)

该代理演示了LLM代理的一个关键优势：它们可以结合多个工具和推理步骤来回答复杂查询。

使用高级RAG技术增强代理

虽然我们的当前RAG系统工作良好，但有几种高级技术可以用来增强其性能：

a) 使用DPR的语义搜索

我们可以实现DPR来执行更准确的语义搜索：


from transformers import DPRQuestionEncoder, DPRContextEncoder

question_encoder = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-single-nq-base")
context_encoder = DPRContextEncoder.from_pretrained("facebook/dpr-ctx_encoder-single-nq-base")

# 编码段的函数
def encode_passages(passages):
return context_encoder(passages, max_length=512, return_tensors="pt").pooler_output

# 编码查询的函数
def encode_query(query):
return question_encoder(query, max_length=512, return_tensors="pt").pooler_output

b) 查询扩展

我们可以使用查询扩展来提高检索性能：


from transformers import T5ForConditionalGeneration, T5Tokenizer

model = T5ForConditionalGeneration.from_pretrained("t5-small")
tokenizer = T5Tokenizer.from_pretrained("t5-small")

def expand_query(query):
input_text = f"expand query: {query}"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
outputs = model.generate(input_ids, max_length=50, num_return_sequences=3)
expanded_queries = [tokenizer.decode(output, skip_special_tokens=True) for output in outputs]
return expanded_queries

c) 迭代改进

我们可以实现一个迭代改进过程，其中代理可以提出后续问题来澄清或扩展其初始检索：


def iterative_retrieval(initial_query, max_iterations=3):
query = initial_query
for _ in range(max_iterations):
result = qa.run(query)
clarification = agent.run(f"基于此结果：'{result}'，我应该问什么后续问题来获取更多具体信息？")
if clarification.lower().strip() == "none":
break
query = clarification
return result

# 在您的代理过程中使用此功能

实现多代理系统

为了处理更复杂的任务，我们可以实现一个多代理系统，其中不同的代理专门从事不同的领域。以下是一个简单的示例：


class SpecialistAgent:
def __init__(self, name, tools):
self.name = name
self.agent = initialize_agent(tools, OpenAI(temperature=0), agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True)

def run(self, query):
return self.agent.run(query)

# 创建专家代理
research_agent = SpecialistAgent("Research", [Tool(name="RAG-QA", func=qa.run, description="用于AI和ML问题")])
math_agent = SpecialistAgent("Math", [Tool(name="Calculator", func=calculator._run, description="用于计算")])
general_agent = SpecialistAgent("General", [Tool(name="Search", func=search.run, description="用于一般查询")])

class Coordinator:
def __init__(self, agents):
self.agents = agents

def run(self, query):
# 确定要使用的代理
if "calculate" in query.lower() or any(op in query for op in ['+', '-', '*', '/']):
return self.agents['Math'].run(query)
elif any(term in query.lower() for term in ['ai', 'machine learning', 'deep learning']):
return self.agents['Research'].run(query)
else:
return self.agents['General'].run(query)

coordinator = Coordinator({'Research': research_agent, 'Math': math_agent, 'General': general_agent})

# 测试多代理系统
result = coordinator.run("什么是CNN和RNN之间的区别？另外，120的25%是多少？")
print(result)

该多代理系统允许专门化，并且可以更有效地处理更广泛的查询。

评估和优化RAG代理

为了确保我们的RAG代理表现良好，我们需要实施评估指标和优化技术：

a) 相关性评估

我们可以使用BLEU、ROUGE或BERTScore等指标来评估检索文档的相关性：


from bert_score import score

def evaluate_relevance(query, retrieved_doc, generated_answer):
P, R, F1 = score([generated_answer], [retrieved_doc], lang="en")
return F1.mean().item()

b) 答案质量评估

我们可以使用人工评估或自动化指标来评估答案质量：


from nltk.translate.bleu_score import sentence_bleu

def evaluate_answer_quality(reference_answer, generated_answer):
return sentence_bleu([reference_answer.split()], generated_answer.split())

# 使用此函数来评估您的代理的响应

未来方向和挑战

当我们展望RAG代理的未来时，出现了几个令人兴奋的方向和挑战：

a) 多模态RAG：将RAG扩展到纳入图像、音频和视频数据。

b) 联邦RAG：在分布式、隐私保护的知识库中实现RAG。

c) 持续学习：开发方法，使RAG代理能够随时间更新其知识库和模型。

d) 道德考虑：解决RAG系统中的偏见、公平性和透明度问题。

e) 可扩展性：优化RAG以适应大规模、实时应用。

结论

从零开始构建RAG的LLM代理是一个复杂但有价值的过程。我们已经涵盖了RAG的基础、实现了一个简单的系统、创建了一个LLM代理、使用高级技术增强了它、探索了多代理系统，并讨论了评估和优化策略。

Aayush Mittal

我过去五年一直沉浸在令人着迷的机器学习和深度学习世界中。我的热情和专业知识使我能够为超过50个不同的软件工程项目做出贡献，特别注重人工智能/机器学习。我的持续好奇心也使我对自然语言处理产生了兴趣，这是一个我渴望进一步探索的领域。

Unite.AI