Connect with us

通用人工智能

从零开始构建LLM代理 дляRAG以及更进一步:综合指南

mm
Building LLM Agents for RAG from Scratch and Beyond: A Comprehensive Guide

像GPT-3、GPT-4及其开源对应物一样的LLM,通常难以获取最新信息,并可能生成幻觉或不正确的信息。

检索增强生成(RAG)是一种将LLM的强大功能与外部知识检索相结合的技术。RAG允许我们将LLM响应建立在事实、最新信息的基础上,从而大大提高AI生成内容的准确性和可靠性。

在这篇博客文章中,我们将探讨如何从零开始构建RAG的LLM代理,深入探讨架构、实现细节和高级技术。我们将涵盖从RAG基础到创建能够执行复杂推理和任务执行的复杂代理的一切。

在我们开始构建LLM代理之前,让我们先了解什么是RAG以及为什么它很重要。

RAG,即检索增强生成,是一种混合方法,它将信息检索与文本生成相结合。在RAG系统中:

  • 使用查询从知识库中检索相关文档。
  • 然后将这些文档与原始查询一起输入语言模型。
  • 模型根据查询和检索信息生成响应。
RAG

RAG

这种方法有几个优点:

  • 提高准确性:通过将响应建立在检索信息的基础上,RAG减少了幻觉并提高了事实准确性。
  • 最新信息:知识库可以定期更新,从而使系统能够访问当前信息。
  • 透明度:系统可以提供其信息来源,增加信任并允许事实核查。

了解LLM代理

 

当您面临一个没有简单答案的问题时,您通常需要遵循几个步骤,认真思考,并记住您已经尝试过的内容。LLM代理专门为此类语言模型应用中的情况而设计。它们结合了彻底的数据分析、战略规划、数据检索和从过去的行动中学习的能力来解决复杂问题。

什么是LLM代理?

LLM代理是为创建需要顺序推理的复杂文本而设计的高级AI系统。它们可以预测、记住过去的对话,并根据情况和所需的风格使用不同的工具来调整其响应。

考虑一个法律领域的问题,例如:“在加利福尼亚州,特定类型的合同违约可能会产生什么法律后果?”具有检索增强生成(RAG)系统的基本LLM可以从法律数据库中检索必要的信息。

对于更详细的场景:“考虑到新的数据隐私法,公司面临什么常见的法律挑战,法院如何解决这些问题?”这个问题比简单地查找事实更深入。它是关于理解新规则、其对不同公司的影响以及法院的回应。LLM代理将将此任务分解为子任务,例如检索最新的法律、分析历史案例、总结法律文件以及根据模式预测趋势。

LLM代理的组件

LLM代理通常由四个组件组成:

  1. 代理/大脑:处理和理解语言的核心语言模型。
  2. 规划:推理、分解任务和制定具体计划的能力。
  3. 记忆:保持过去交互记录并从中学习。
  4. 工具使用:集成各种资源以执行任务。

代理/大脑

LLM代理的核心是一个语言模型,它根据其训练的海量数据处理和理解语言。您首先通过提供一个特定的提示来指导代理,告诉它如何响应、使用哪些工具以及要实现的目标。您可以使用特定的角色来定制代理,以增强其在特定任务或交互中的性能。

记忆

记忆组件帮助LLM代理处理复杂任务,通过保持过去操作的记录。主要有两种类型的记忆:

  • 短期记忆:像记事本一样,跟踪正在进行的讨论。
  • 长期记忆:像日记一样,存储过去交互的信息,以学习模式并做出更好的决定。

通过混合使用这两种类型的记忆,代理可以提供更个性化的响应,并随着时间的推移记住用户的偏好,从而创建更连贯和相关的交互。

规划

规划使LLM代理能够推理、将任务分解为可管理的部分,并根据任务的发展适应计划。规划涉及两个主要阶段:

  • 计划制定:将任务分解为较小的子任务。
  • 计划反思:审查和评估计划的有效性,纳入反馈以完善策略。

像链式思维(CoT)和思维树(ToT)这样的方法有助于此分解过程,允许代理探索不同的路径来解决问题。

要更深入地了解AI代理的世界,包括其当前能力和潜力,请考虑阅读“Auto-GPT & GPT-Engineer:今天的AI代理深度指南”

设置环境

要构建我们的RAG代理,我们需要设置我们的开发环境。我们将使用Python和几个关键库:

  • LangChain:用于编排我们的LLM和检索组件
  • Chroma:作为我们的向量存储用于文档嵌入
  • OpenAI的GPT模型:作为我们的基础LLM(如果需要,可以用开源模型代替)
  • FastAPI:用于创建一个简单的API来与我们的代理交互

让我们从设置我们的环境开始:


# 创建一个新虚拟环境
python -m venv rag_agent_env
source rag_agent_env/bin/activate # 在Windows上,使用 `rag_agent_env\Scripts\activate`

# 安装所需的包
pip install langchain chromadb openai fastapi uvicorn

现在,让我们创建一个名为rag_agent.py的新Python文件,并导入必要的库:


from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.text_splitter import CharacterTextSplitter
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
import os

# 设置您的OpenAI API密钥
os.environ["OPENAI_API_KEY"] = "your-api-key-here"

构建一个简单的RAG系统

现在我们已经设置了环境,让我们构建一个基本的RAG系统。我们将从创建一个知识库开始,使用一组文档,然后使用它来回答查询。

步骤1:准备文档

首先,我们需要加载和准备我们的文档。假设我们有一个名为knowledge_base.txt的文本文件,其中包含一些关于AI和机器学习的信息。


# 加载文档
loader = TextLoader("knowledge_base.txt")
documents = loader.load()

# 将文档分成块
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)

# 创建嵌入
embeddings = OpenAIEmbeddings()

# 创建一个向量存储
vectorstore = Chroma.from_documents(texts, embeddings)

步骤2:创建一个基于检索的QA链

现在我们有了向量存储,我们可以创建一个基于检索的QA链:


# 创建一个基于检索的QA链
qa = RetrievalQA.from_chain_type(llm=OpenAI(), chain_type="stuff", retriever=vectorstore.as_retriever())

步骤3:查询系统

我们现在可以查询我们的RAG系统:


query = "什么是机器学习的主要应用?"
result = qa.run(query)
print(result)

步骤4:创建LLM代理

虽然我们的简单RAG系统很有用,但它相当有限。让我们通过创建一个可以执行更复杂任务和推理检索信息的LLM代理来增强它。

LLM代理是一种可以使用工具和决定采取哪些操作的AI系统。我们将创建一个可以不仅回答问题,还可以执行网络搜索和基本计算的代理。

首先,让我们为我们的代理定义一些工具:


from langchain.agents import Tool
from langchain.tools import DuckDuckGoSearchRun
from langchain.tools import BaseTool
from langchain.agents import initialize_agent
from langchain.agents import AgentType

# 定义一个计算器工具
class CalculatorTool(BaseTool):
name = "Calculator"
description = "用于需要回答数学问题时"

def _run(self, query: str)
try:
return str(eval(query))
except:
return "我无法计算该值。请确保您的输入是有效的数学表达式。"

# 创建工具实例
search = DuckDuckGoSearchRun()
calculator = CalculatorTool()

# 定义工具
tools = [Tool(name="Search", func=search.run, description="用于需要回答当前事件问题时"),
Tool(name="RAG-QA", func=qa.run, description="用于需要回答AI和机器学习问题时"),
Tool(name="Calculator", func=calculator._run, description="用于需要执行数学计算时")
]

# 初始化代理
agent = initialize_agent(tools, OpenAI(temperature=0), agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True
)

现在我们有了一个可以使用我们的RAG系统、执行网络搜索和执行计算的代理。让我们测试它:


result = agent.run("什么是监督学习和无监督学习的区别?另外,80的15%是多少?")
print(result)

该代理演示了LLM代理的一个关键优势:它们可以结合多个工具和推理步骤来回答复杂查询。

使用高级RAG技术增强代理

虽然我们的当前RAG系统工作良好,但有几种高级技术可以用来增强其性能:

a) 使用DPR的语义搜索

我们可以实现DPR来执行更准确的语义搜索:


from transformers import DPRQuestionEncoder, DPRContextEncoder

question_encoder = DPRQuestionEncoder.from_pretrained("facebook/dpr-question_encoder-single-nq-base")
context_encoder = DPRContextEncoder.from_pretrained("facebook/dpr-ctx_encoder-single-nq-base")

# 编码段的函数
def encode_passages(passages):
return context_encoder(passages, max_length=512, return_tensors="pt").pooler_output

# 编码查询的函数
def encode_query(query):
return question_encoder(query, max_length=512, return_tensors="pt").pooler_output

b) 查询扩展

我们可以使用查询扩展来提高检索性能:


from transformers import T5ForConditionalGeneration, T5Tokenizer

model = T5ForConditionalGeneration.from_pretrained("t5-small")
tokenizer = T5Tokenizer.from_pretrained("t5-small")

def expand_query(query):
input_text = f"expand query: {query}"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
outputs = model.generate(input_ids, max_length=50, num_return_sequences=3)
expanded_queries = [tokenizer.decode(output, skip_special_tokens=True) for output in outputs]
return expanded_queries

c) 迭代改进

我们可以实现一个迭代改进过程,其中代理可以提出后续问题来澄清或扩展其初始检索:


def iterative_retrieval(initial_query, max_iterations=3):
query = initial_query
for _ in range(max_iterations):
result = qa.run(query)
clarification = agent.run(f"基于此结果:'{result}',我应该问什么后续问题来获取更多具体信息?")
if clarification.lower().strip() == "none":
break
query = clarification
return result

# 在您的代理过程中使用此功能

实现多代理系统

为了处理更复杂的任务,我们可以实现一个多代理系统,其中不同的代理专门从事不同的领域。以下是一个简单的示例:


class SpecialistAgent:
def __init__(self, name, tools):
self.name = name
self.agent = initialize_agent(tools, OpenAI(temperature=0), agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True)

def run(self, query):
return self.agent.run(query)

# 创建专家代理
research_agent = SpecialistAgent("Research", [Tool(name="RAG-QA", func=qa.run, description="用于AI和ML问题")])
math_agent = SpecialistAgent("Math", [Tool(name="Calculator", func=calculator._run, description="用于计算")])
general_agent = SpecialistAgent("General", [Tool(name="Search", func=search.run, description="用于一般查询")])

class Coordinator:
def __init__(self, agents):
self.agents = agents

def run(self, query):
# 确定要使用的代理
if "calculate" in query.lower() or any(op in query for op in ['+', '-', '*', '/']):
return self.agents['Math'].run(query)
elif any(term in query.lower() for term in ['ai', 'machine learning', 'deep learning']):
return self.agents['Research'].run(query)
else:
return self.agents['General'].run(query)

coordinator = Coordinator({'Research': research_agent, 'Math': math_agent, 'General': general_agent})

# 测试多代理系统
result = coordinator.run("什么是CNN和RNN之间的区别?另外,120的25%是多少?")
print(result)

该多代理系统允许专门化,并且可以更有效地处理更广泛的查询。

评估和优化RAG代理

为了确保我们的RAG代理表现良好,我们需要实施评估指标和优化技术:

a) 相关性评估

我们可以使用BLEU、ROUGE或BERTScore等指标来评估检索文档的相关性:


from bert_score import score

def evaluate_relevance(query, retrieved_doc, generated_answer):
P, R, F1 = score([generated_answer], [retrieved_doc], lang="en")
return F1.mean().item()

b) 答案质量评估

我们可以使用人工评估或自动化指标来评估答案质量:


from nltk.translate.bleu_score import sentence_bleu

def evaluate_answer_quality(reference_answer, generated_answer):
return sentence_bleu([reference_answer.split()], generated_answer.split())

# 使用此函数来评估您的代理的响应

未来方向和挑战

当我们展望RAG代理的未来时,出现了几个令人兴奋的方向和挑战:

a) 多模态RAG:将RAG扩展到纳入图像、音频和视频数据。

b) 联邦RAG:在分布式、隐私保护的知识库中实现RAG。

c) 持续学习:开发方法,使RAG代理能够随时间更新其知识库和模型。

d) 道德考虑:解决RAG系统中的偏见、公平性和透明度问题。

e) 可扩展性:优化RAG以适应大规模、实时应用。

结论

从零开始构建RAG的LLM代理是一个复杂但有价值的过程。我们已经涵盖了RAG的基础、实现了一个简单的系统、创建了一个LLM代理、使用高级技术增强了它、探索了多代理系统,并讨论了评估和优化策略。

我过去五年一直沉浸在令人着迷的机器学习和深度学习世界中。我的热情和专业知识使我能够为超过50个不同的软件工程项目做出贡献,特别注重人工智能/机器学习。我的持续好奇心也使我对自然语言处理产生了兴趣,这是一个我渴望进一步探索的领域。