Artificial Intelligence

AgentOps による自律エージェント: AI アプリケーションの可観測性、追跡可能性、そしてそれ以上の機能

公開済み 2024 年 11 月 20 日

アーユシュ・ミタルミタル

大規模言語モデル (LLM) のような基盤モデル (FM) による自律エージェントの成長により、複雑で複数のステップから成る問題を解決する方法が改革されました。これらのエージェントは、推論、ツールの使用、メモリを組み合わせた複雑なワークフローをナビゲートしながら、顧客サポートからソフトウェアエンジニアリングまでさまざまなタスクを実行します。

ただし、これらのシステムの機能と複雑さが増すにつれて、観測可能性、信頼性、コンプライアンスに関する課題が生じます。

ここで AgentOps が登場します。これは、DevOps と MLOps をモデルにした概念ですが、FM ベースのエージェントのライフサイクルを管理するためにカスタマイズされています。

AgentOpsと、FMベースの自律エージェントの観測性と追跡可能性を実現する上でのその重要な役割についての基礎的な理解を提供するために、私は最近の論文から洞察を得ました。 基盤モデルベースのエージェントの可観測性を実現するための AgentOps の分類 著者は、Liming Dong、Qinghua Lu、Liming Zhu です。この論文では、AgentOps を包括的に検討し、作成と実行から評価と監視まで、自律エージェントのライフサイクルを管理する上での AgentOps の必要性を強調しています。著者は、追跡可能な成果物を分類し、可観測性プラットフォームの主要な機能を提案し、意思決定の複雑さや規制遵守などの課題に対処しています。

一方、 A ジェントオプス（このツールは）AIエージェント（例えば、自動生成、crew ai)、この記事では AI オペレーション (Ops) のより広い概念に焦点を当てます。

とはいえ、AgentOps (ツール) は、セッションリプレイ、LLM コスト追跡、コンプライアンス監視などの機能を使用して、開発者にエージェントワークフローの洞察を提供します。AI で最も人気のある Ops ツールの 1 つとして、この記事の後半でチュートリアルを使用してその機能について説明します。

AgentOps とは何ですか?

AgentOps とは、運用環境で FM ベースの自律エージェントを設計、展開、監視、最適化するために必要なエンドツーエンドのプロセス、ツール、フレームワークを指します。その目標は次のとおりです。

可観測性： エージェントの実行と意思決定のプロセスを完全に可視化します。
トレーサビリティ： デバッグ、最適化、コンプライアンスのために、エージェントのライフサイクル全体にわたって詳細な成果物をキャプチャします。
信頼性： 監視と堅牢なワークフローを通じて、一貫性と信頼性の高い出力を保証します。

AgentOps は、反復的なマルチステップワークフロー、ツール統合、適応型メモリを重視しながら、厳格な追跡と監視を維持し、本質的に従来の MLOps を超えています。

AgentOps が解決する主な課題

1. の複雑さエージェントシステム

自律エージェントは、広大なアクションスペース全体でタスクを処理し、各ステップで決定を下す必要があります。この複雑さにより、高度な計画と監視のメカニズムが必要になります。

2. 可観測性の要件

医療診断や法的分析などの重要なユースケースでは、きめ細かな追跡可能性が求められます。EU AI 法などの規制に準拠することで、堅牢な可観測性フレームワークの必要性がさらに強調されます。

3. デバッグと最適化

エージェントのアクションの詳細なトレースがなければ、複数ステップのワークフローでエラーを特定したり、中間出力を評価したりすることは困難です。

4. スケーラビリティとコスト管理

エージェントを本番環境にスケーリングするには、品質を損なうことなく効率を確保するために、レイテンシ、トークン使用量、運用コストなどのメトリックを監視する必要があります。

AgentOps プラットフォームのコア機能

1. エージェントの作成とカスタマイズ

開発者は、コンポーネントのレジストリを使用してエージェントを構成できます。

役割： 責任を定義します（例：研究者、プランナー）。
ガードレール： 倫理的で信頼できる行動を確保するために制約を設定します。
ツールキット: API、データベース、またはナレッジグラフとの統合を有効にします。

エージェントは、事前定義されたルールへの準拠を維持しながら、特定のデータセット、ツール、プロンプトと対話するように構築されています。

2. 可観測性とトレース

AgentOps は詳細な実行ログをキャプチャします。

トレース： LLM 呼び出しからツールの使用まで、エージェントのワークフローのすべてのステップを記録します。
スパン: トレースを、取得、埋め込み生成、ツールの呼び出しなどの細かいステップに分解します。
アーティファクト： デバッグを支援するために、中間出力、メモリ状態、プロンプトテンプレートを追跡します。

Langfuse や Arize などの可観測性ツールは、これらのトレースを視覚化するダッシュボードを提供し、ボトルネックやエラーの特定に役立ちます。

3. 迅速な管理

プロンプトエンジニアリングは、エージェントの動作を形成する上で重要な役割を果たします。主な機能は次のとおりです。

バージョニング： パフォーマンス比較のためにプロンプトの反復を追跡します。
インジェクション検出: プロンプト内の悪意のあるコードまたは入力エラーを識別します。
最適化： Chain-of-Thought (CoT) や Tree-of-Thought などの手法は推論能力を向上させます。

4. フィードバック統合

人間からのフィードバックは、反復的な改善にとって依然として重要です。

明示的なフィードバック: ユーザーは出力を評価したり、コメントを提供したりします。
暗黙のフィードバック: タスク時間やクリックスルー率などの指標を分析して、効果を測定します。

このフィードバックループにより、エージェントのパフォーマンスとテストに使用される評価ベンチマークの両方が改善されます。

5.評価とテスト

AgentOps プラットフォームは、以下の分野にわたる厳格なテストを容易にします。

ベンチマーク： エージェントのパフォーマンスを業界標準と比較します。
ステップバイステップの評価: ワークフローの中間ステップを評価して正確性を確認します。
軌道評価: エージェントが取った意思決定パスを検証します。

6. 記憶と知識の統合

エージェントは、コンテキスト（会話履歴など）には短期記憶を活用し、過去のタスクからの洞察を保存するために長期記憶を活用します。これにより、エージェントは時間の経過とともに一貫性を維持しながら動的に適応できます。

7. モニタリングとメトリクス

包括的な監視トラック:

レイテンシ： 最適化のために応答時間を測定します。
トークンの使用法: リソースの消費を監視してコストを管理します。
品質指標: 関連性、正確性、毒性を評価します。

これらのメトリックは、ユーザーセッション、プロンプト、ワークフローなどのディメンション全体で視覚化され、リアルタイムの介入が可能になります。

追跡可能な遺物の分類

この論文では、AgentOps の可観測性を支えるアーティファクトの体系的な分類法を紹介しています。

エージェント作成アーティファクト: 役割、目標、制約に関するメタデータ。
実行アーティファクト: ツール呼び出し、サブタスクキュー、および推論手順のログ。
評価アーティファクト: ベンチマーク、フィードバックループ、スコアリングメトリック。
トレースアーティファクト: 詳細な監視のためのセッション ID、トレース ID、スパン。

この分類により、エージェントのライフサイクル全体で一貫性と明確性が確保され、デバッグとコンプライアンスの管理が容易になります。

エージェントオペレーション (ツール) ウォークスルー

ここでは、AgentOps を設定して使用し、AI エージェントを監視および最適化する方法について説明します。

ステップ1: AgentOps SDKをインストールする

好みの Python パッケージマネージャーを使用して AgentOps をインストールします。

pip install agentops

ステップ2: AgentOpsを初期化する

まず、AgentOpsをインポートし、APIキーを使用して初期化します。APIキーを .env セキュリティ用のファイル:

# Initialize AgentOps with API Key
import agentops
import os
from dotenv import load_dotenv

# Load environment variables
load_dotenv()
AGENTOPS_API_KEY = os.getenv("AGENTOPS_API_KEY")

# Initialize the AgentOps client
agentops.init(api_key=AGENTOPS_API_KEY, default_tags=["my-first-agent"])

このステップでは、アプリケーション内のすべての LLM インタラクションの可観測性を設定します。

ステップ3: デコレータを使用してアクションを記録する

特定の関数を計測するには、 @record_action デコレータは、パラメータ、実行時間、出力を追跡します。例を以下に示します。

from agentops import record_action

@record_action("custom-action-tracker")
def is_prime(number):
    """Check if a number is prime."""
    if number &lt; 2:
        return False
    for i in range(2, int(number**0.5) + 1):
        if number % i == 0:
            return False
    return True

この関数は AgentOps ダッシュボードに記録され、実行時間と入出力追跡のメトリックが提供されます。

ステップ4: 指名エージェントを追跡する

名前付きエージェントを使用している場合は、 @track_agent すべてのアクションとイベントを特定のエージェントに結び付けるデコレータ。

from agentops import track_agent

@track_agent(name="math-agent")
class MathAgent:
    def __init__(self, name):
        self.name = name

    def factorial(self, n):
        """Calculate factorial recursively."""
        return 1 if n == 0 else n * self.factorial(n - 1)

このエージェント内のアクションやLLM呼び出しは、 "math-agent" タグ。

ステップ5: マルチエージェントサポート

複数のエージェントを使用するシステムでは、エージェント間でイベントを追跡することで、監視性を向上させることができます。以下に例を示します。

@track_agent(name="qa-agent")
class QAAgent:
    def generate_response(self, prompt):
        return f"Responding to: {prompt}"

@track_agent(name="developer-agent")
class DeveloperAgent:
    def generate_code(self, task_description):
        return f"# Code to perform: {task_description}"

qa_agent = QAAgent()
developer_agent = DeveloperAgent()

response = qa_agent.generate_response("Explain observability in AI.")
code = developer_agent.generate_code("calculate Fibonacci sequence")

各呼び出しは、それぞれのエージェントのトレースの下の AgentOps ダッシュボードに表示されます。

ステップ6: セッションを終了する

セッションの終了を知らせるには、 end_session メソッド。オプションでセッション状態（Success or Fail）と理由。

# End of session
agentops.end_session(state="Success", reason="Completed workflow")

これにより、すべてのデータがログに記録され、AgentOps ダッシュボードでアクセスできるようになります。

ステップ7: AgentOpsダッシュボードで視覚化する

ロケーション選択 AgentOpsダッシュボード探索する：

セッションリプレイ: ステップごとの実行トレース。
アナリティクス： LLM コスト、トークン使用量、およびレイテンシメトリック。
エラー検出： 障害や再帰ループを識別してデバッグします。

強化された例: 再帰的思考検出

AgentOps は、エージェントワークフローの再帰ループの検出もサポートしています。前の例を再帰検出で拡張してみましょう。

@track_agent(name="recursive-agent")
class RecursiveAgent:
    def solve(self, task, depth=0, max_depth=5):
        """Simulates recursive task solving with depth control."""
        if depth >= max_depth:
            return f"Max recursion depth reached for task: {task}"
        return self.solve(task, depth + 1)

recursive_agent = RecursiveAgent()
output = recursive_agent.solve("Optimize database queries")
print(output)

AgentOps は再帰をセッションの一部としてログに記録し、無限ループや過度の深さを識別するのに役立ちます。

結論

LLM のような基盤モデルを搭載した自律型 AI エージェントは、業界全体で複雑で段階的な問題へのアプローチ方法を再定義しました。ただし、その高度化により、観測性、追跡可能性、信頼性に特有の課題が生じます。ここで AgentOps が不可欠なフレームワークとして登場し、開発者にライフサイクル全体にわたって AI エージェントを監視、最適化、コンプライアンスを確保するためのツールを提供します。

アーユシュ・ミタル

私は過去 50 年間、機械学習と深層学習の魅力的な世界に没頭してきました。私の情熱と専門知識により、特に AI/ML に重点を置いた XNUMX を超える多様なソフトウェアエンジニアリングプロジェクトに貢献してきました。私の継続的な好奇心は、私がさらに探求したいと思っている分野である自然言語処理にも引き寄せられました。

Unite.AI