AGI

LLMエージェントをRAGからスクラッチで構築する：包括的なガイド

Published July 2, 2024

Updated April 4, 2026

Aayush Mittal Mittal

Building LLM Agents for RAG from Scratch and Beyond: A Comprehensive Guide

GPT-3、GPT-4、そのオープンソースの対象となるものは、最新の情報の取得に苦労したり、時々妄想や不正確な情報を生成したりすることがあります。

Retrieval-Augmented Generation (RAG)は、LLMの力を外部の知識取得と組み合わせる技術です。RAGにより、LLMの応答を事実に基づいた最新の情報に基づくことができ、AI生成コンテンツの精度と信頼性を大幅に向上させることができます。

このブログ投稿では、RAGのためのLLMエージェントをスクラッチから構築する方法を探り、 архитектур、実装の詳細、先進的なテクニックについて深く掘り下げます。RAGの基礎から複雑な推論とタスクの実行が可能な洗練されたエージェントを作成する方法まで、すべてをカバーします。

RAGエージェントを構築する前に、RAGが何であるか、それが重要な理由を理解しましょう。

RAG、またはRetrieval-Augmented Generationは、情報取得とテキスト生成を組み合わせたハイブリッドアプローチです。RAGシステムでは：

クエリを使用して、知識ベースから関連するドキュメントを取得します。
これらのドキュメントを、元のクエリとともに言語モデルに提供します。
モデルは、クエリと取得した情報に基づいて応答を生成します。

RAG

このアプローチには、いくつかの利点があります：

精度の向上: 応答を取得した情報に基づくことで、RAGは妄想を減らし、事実の正確性を向上させます。
最新の情報: 知識ベースを定期的に更新することで、システムは最新の情報にアクセスできます。
透明性: システムは情報の出典を提供できます。信頼性を高め、事実確認を可能にします。

LLMエージェントの理解

LLM Powered Agents

問題に単純な答えがない場合、複数のステップを実行し、注意深く考え、すでに試したことを思い出す必要があります。LLMエージェントは、言語モデルアプリケーションでこれらの種の状況に特に設計されています。データの徹底的な分析、戦略的計画、データの取得、過去の行動から学ぶ能力を組み合わせて、複雑な問題を解決します。

LLMエージェントとは何か

LLMエージェントは、複雑なテキストを生成するために設計された高度なAIシステムです。シーケンス推論を必要とするテキストを生成できます。先を見て、過去の会話を思い出すことができ、状況と必要なスタイルに応じてツールを使用して応答を調整できます。

例えば、法的な分野での質問として、「カリフォルニア州での特定の種類の契約違反の潜在的な法的結果は何か」というものがあります。基本的なLLMとRAGシステムを使用すると、法的データベースから必要な情報を取得できます。

より詳細なシナリオとして、「新しいデータプライバシーローの光で、企業が直面する一般的な法的課題は何か、それらはどのように裁判所によって扱われてきたのか」というものがあります。この質問は、単に事実を調べる以上のものです。新しいルールを理解し、さまざまな企業への影響、および裁判所の対応を分析することです。LLMエージェントは、最新の法律を取得し、歴史的なケースを分析し、法的文書を要約し、パターンに基づいて傾向を予測するなどのタスクをサブタスクに分割します。

LLMエージェントのコンポーネント

LLMエージェントは、一般的に、4つのコンポーネントで構成されます：

エージェント/ブレイン: 言語を処理し、理解するコア言語モデルです。
プランニング: タスクを分解し、具体的な計画を立てる能力です。
メモリ: 過去のやり取りの記録を保持し、それらから学習します。
ツールの使用: タスクを実行するためにさまざまなリソースを統合します。

エージェント/ブレイン

LLMエージェントの核となるのは、言語モデルで、言語を理解するために大量のデータでトレーニングされています。特定のプロンプトを与えて、エージェントに応答方法、使用するツール、および目標を指示します。特定のタスクややり取りに適したペルソナでエージェントをカスタマイズできます。

メモリ

メモリコンポーネントは、LLMエージェントが複雑なタスクを処理するのに役立ちます。過去のアクションの記録を保持します。メモリには2つの主な種類があります：

短期メモリ: 途中の会話を追跡するためのメモ帳のようなものです。
長期メモリ: 過去のやり取りから学習し、パターンを認識するための日記のようなものです。

これらの種類のメモリを組み合わせることで、エージェントはより適切な応答を提供し、時間の経過とともにユーザーの好みを思い出すことができます。

プランニング

プランニングにより、LLMエージェントが推論し、タスクを管理可能な部分に分解し、タスクが進化するにつれて計画を適応させることができます。プランニングには2つの主な段階があります：

計画の作成: タスクを小さなサブタスクに分解します。
計画の反省: 計画の有効性を評価し、フィードバックを組み込んで戦略を改良します。

Chain of Thought (CoT)やTree of Thought (ToT)などの方法は、この分解プロセスに役立ち、エージェントが問題を解決するためのさまざまなパスを探索できるようにします。

AIエージェントの世界、現在の能力、および潜在についてさらに深く掘り下げるには、「Auto-GPT & GPT-Engineer: 現在のリーディングAIエージェントのための包括的なガイド」を参照してください。

環境の設定

RAGエージェントを構築するには、開発環境を設定する必要があります。PythonとLangChainやChromaなどのいくつかの重要なライブラリを使用します：

LangChain: LLMと取得コンポーネントのオーケストレーションに使用します
Chroma: ドキュメントの埋め込みを保存するベクトルストアとして使用します
OpenAIのGPTモデル: ベースのLLMとして使用します（好みに応じてオープンソースモデルに置き換えることができます）
FastAPI: エージェントとやり取りするためのシンプルなAPIを作成するために使用します

環境を設定することから始めましょう：


# 新しい仮想環境を作成
python -m venv rag_agent_env
source rag_agent_env/bin/activate # Windowsの場合は`rag_agent_env\Scripts\activate`を使用

# 必要なパッケージをインストール
pip install langchain chromadb openai fastapi uvicorn

次に、rag_agent.pyという名前の新しいPythonファイルを作成し、必要なライブラリをインポートします：


from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.text_splitter import CharacterTextSplitter
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
import os

# OpenAI APIキーを設定
os.environ["OPENAI_API_KEY"] = "your-api-key-here"

シンプルなRAGシステムの構築

環境が設定されたので、基本的なRAGシステムを構築しましょう。知識ベースを作成し、それを使用してクエリに答えることから始めます。

ステップ1: ドキュメントの準備

まず、ドキュメントを読み込み、準備する必要があります。この例では、AIと機械学習についての情報が含まれているテキストファイル「knowledge_base.txt」があるとします。


# ドキュメントを読み込む
loader = TextLoader("knowledge_base.txt")
documents = loader.load()

# ドキュメントをチャンクに分割
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)

# 埋め込みを作成
embeddings = OpenAIEmbeddings()

# ベクトルストアを作成
vectorstore = Chroma.from_documents(texts, embeddings)

ステップ2: 取得ベースのQAチェーンの作成

ベクトルストアができたら、取得ベースのQAチェーンを作成できます：


# 取得ベースのQAチェーンを作成
qa = RetrievalQA.from_chain_type(llm=OpenAI(), chain_type="stuff", retriever=vectorstore.as_retriever())

ステップ3: システムのクエリ

システムにクエリを実行できます：


query = "機械学習の主な応用は何ですか?"
result = qa.run(query)
print(result)

ステップ4: LLMエージェントの作成

シンプルなRAGシステムは便利ですが、かなり制限があります。より複雑なタスクを実行し、情報を推論することができるLLMエージェントを構築することで、機能を強化しましょう。

LLMエージェントは、ツールを使用し、行動について決定することができるAIシステムです。質問に答えるだけでなく、ウェブ検索や基本的な計算も実行できるエージェントを作成します。

まず、エージェントのツールを定義しましょう：

from langchain.agents import Tool
from langchain.tools import DuckDuckGoSearchRun
from langchain.tools import BaseTool
from langchain.agents import initialize_agent
from langchain.agents import AgentType

# 計算機ツールを定義
class CalculatorTool(BaseTool):
name = “Calculator”
description = “数学に関する質問に答えるのに役立ちます”

def _run(self, query: str)

Aayush Mittal

私は過去5年間、機械学習とディープラーニングの魅力的世界に没頭してきました。私の情熱と専門知識は、AI/MLに特に焦点を当てた50以上の多様なソフトウェアエンジニアリングプロジェクトに貢献することにつながりました。私の継続的な好奇心は、私がさらに探究したい分野である自然言語処理にも私を引き寄せました。