Trí tuệ nhân tạo

Các tác nhân tự động với AgentOps: Khả quan, Tính vết và hơn thế cho ứng dụng AI của bạn

Published November 20, 2024

Updated April 27, 2026

Aayush Mittal Mittal

AgentOps: Enabling Observability and Traceability for Autonomous Agents

Sự phát triển của các tác nhân tự động bởi các mô hình nền tảng (FMs) như Mô hình Ngôn ngữ Lớn (LLMs) đã thay đổi cách chúng ta giải quyết các vấn đề phức tạp, nhiều bước. Các tác nhân này thực hiện các nhiệm vụ từ hỗ trợ khách hàng đến kỹ thuật phần mềm, điều hướng các quy trình làm việc phức tạp kết hợp lý lẽ, sử dụng công cụ và bộ nhớ.

Tuy nhiên, khi các hệ thống này phát triển về khả năng và phức tạp, các thách thức về khả quan, độ tin cậy và tuân thủ xuất hiện.

Đây là nơi AgentOps xuất hiện; một khái niệm được mô hình hóa sau DevOps và MLOps nhưng được thiết kế dành cho việc quản lý vòng đời của các tác nhân dựa trên FM.

Để cung cấp một sự hiểu biết cơ bản về AgentOps và vai trò quan trọng của nó trong việc cho phép khả quan và tính vết cho các tác nhân tự động dựa trên FM, tôi đã rút ra những hiểu biết từ bài báo gần đây Taxonomy của AgentOps để cho phép khả quan của các tác nhân dựa trên Mô hình nền tảng của Liming Dong, Qinghua Lu và Liming Zhu. Bài báo cung cấp một cuộc khám phá toàn diện về AgentOps, nhấn mạnh sự cần thiết của nó trong việc quản lý vòng đời của các tác nhân tự động – từ tạo ra và thực hiện đến đánh giá và giám sát. Các tác giả phân loại các artifact có thể theo dõi, đề xuất các tính năng chính cho các nền tảng khả quan và giải quyết các thách thức như độ phức tạp của quyết định và tuân thủ quy định.

Trong khi A gentOps (công cụ) đã đạt được sự quan tâm đáng kể như một trong những công cụ hàng đầu để giám sát, gỡ lỗi và tối ưu hóa các tác nhân AI (như autogen, crew ai), bài viết này tập trung vào khái niệm rộng hơn của AI Operations (Ops).

Điều đó nói lên, AgentOps (công cụ) cung cấp cho các nhà phát triển cái nhìn sâu sắc vào các quy trình làm việc của tác nhân với các tính năng như bản ghi lại phiên, theo dõi chi phí LLM và giám sát tuân thủ. Là một trong những công cụ Ops phổ biến nhất trong AI, sau này trong bài viết chúng tôi sẽ đi qua chức năng của nó với một hướng dẫn.

AgentOps là gì?

AgentOps đề cập đến các quy trình, công cụ và khuôn khổ từ đầu đến cuối cần thiết để thiết kế, triển khai, giám sát và tối ưu hóa các tác nhân tự động dựa trên FM trong sản xuất. Mục tiêu của nó là:

Khả quan: Cung cấp tầm nhìn đầy đủ vào các quy trình thực hiện và ra quyết định của tác nhân.
Tính vết: Capturing các artifact chi tiết trên vòng đời của tác nhân để gỡ lỗi, tối ưu hóa và tuân thủ.
Độ tin cậy: Đảm bảo đầu ra nhất quán và đáng tin cậy thông qua giám sát và quy trình làm việc mạnh mẽ.

Tại cốt lõi, AgentOps mở rộng hơn MLOps truyền thống bằng cách nhấn mạnh vào các quy trình làm việc lặp lại, đa bước, tích hợp công cụ và bộ nhớ thích ứng, đồng thời duy trì theo dõi và giám sát nghiêm ngặt.

Các thách thức chính được giải quyết bởi AgentOps

1. Độ phức tạp của Hệ thống tác nhân

Các tác nhân tự động xử lý các nhiệm vụ trên một không gian hành động rộng lớn, đòi hỏi quyết định tại mỗi bước. Độ phức tạp này đòi hỏi các cơ chế lập kế hoạch và giám sát tinh vi.

2. Yêu cầu khả quan

Các trường hợp sử dụng có mức độ rủi ro cao – chẳng hạn như chẩn đoán y tế hoặc phân tích pháp lý – đòi hỏi tính vết chi tiết. Tuân thủ các quy định như Đạo luật AI của EU进一步 nhấn mạnh sự cần thiết của các khuôn khổ khả quan mạnh mẽ.

3. Gỡ lỗi và Tối ưu hóa

Xác định lỗi trong các quy trình làm việc đa bước hoặc đánh giá đầu ra trung gian là thách thức nếu không có các bản ghi lại chi tiết của các hành động của tác nhân.

4. Tính khả mở rộng và Quản lý Chi phí

Tính khả mở rộng của các tác nhân cho sản xuất đòi hỏi phải theo dõi các chỉ số như độ trễ, sử dụng token và chi phí hoạt động để đảm bảo hiệu quả mà không ảnh hưởng đến chất lượng.

Các tính năng chính của các nền tảng AgentOps

1. Tạo và Tùy chỉnh tác nhân

Các nhà phát triển có thể cấu hình các tác nhân bằng cách sử dụng một đăng ký các thành phần:

Vai trò: Định nghĩa trách nhiệm (ví dụ: nhà nghiên cứu, lập kế hoạch).
Guardrails: Thiết lập các ràng buộc để đảm bảo hành vi đạo đức và đáng tin cậy.
Toolkits: Cho phép tích hợp với API, cơ sở dữ liệu hoặc đồ thị kiến thức.

Các tác nhân được xây dựng để tương tác với các tập dữ liệu, công cụ và lời nhắc cụ thể trong khi duy trì tuân thủ các quy tắc định trước.

2. Khả quan và Tính vết

AgentOps thu thập các bản ghi lại chi tiết về thực hiện:

Bản ghi lại: Ghi lại mỗi bước trong quy trình làm việc của tác nhân, từ các cuộc gọi LLM đến việc sử dụng công cụ.
Spans: Chia nhỏ các bản ghi lại thành các bước chi tiết, chẳng hạn như thu hồi, tạo bản nhúng hoặc gọi công cụ.
Artifact: Theo dõi các đầu ra trung gian, trạng thái bộ nhớ và mẫu lời nhắc để hỗ trợ gỡ lỗi.

Các công cụ khả quan như Langfuse hoặc Arize cung cấp các bảng điều khiển trực quan hóa các bản ghi lại này, giúp xác định các điểm nghẽn hoặc lỗi.

3. Quản lý Lời nhắc

Kỹ thuật lời nhắc đóng vai trò quan trọng trong việc hình thành hành vi của tác nhân. Các tính năng chính bao gồm:

Phiên bản: Theo dõi các phiên bản của lời nhắc để so sánh hiệu suất.
Phát hiện tiêm: Xác định mã độc hoặc lỗi đầu vào trong lời nhắc.
Tối ưu hóa: Các kỹ thuật như Chain-of-Thought (CoT) hoặc Tree-of-Thought cải thiện khả năng lý luận.

4. Tích hợp Phản hồi

Phản hồi của con người vẫn còn quan trọng cho việc cải tiến lặp lại:

Phản hồi rõ ràng: Người dùng đánh giá đầu ra hoặc cung cấp nhận xét.
Phản hồi ngầm: Các chỉ số như thời gian trên nhiệm vụ hoặc tỷ lệ nhấp chuột được phân tích để đo lường hiệu quả.

Chu kỳ phản hồi này tinh chỉnh cả hiệu suất của tác nhân và các tiêu chuẩn đánh giá được sử dụng cho thử nghiệm.

5. Đánh giá và Thử nghiệm

Các nền tảng AgentOps tạo điều kiện cho thử nghiệm nghiêm ngặt trên:

Benchmarks: So sánh hiệu suất của tác nhân với các tiêu chuẩn ngành.
Đánh giá từng bước: Đánh giá các bước trung gian trong quy trình làm việc để đảm bảo chính xác.
Đánh giá Trajectory: Xác thực đường dẫn quyết định được thực hiện bởi tác nhân.

6. Bộ nhớ và Tích hợp Kiến thức

Các tác nhân sử dụng bộ nhớ ngắn hạn cho ngữ cảnh (ví dụ: lịch sử cuộc trò chuyện) và bộ nhớ dài hạn để lưu trữ các kiến thức từ các nhiệm vụ trước. Điều này cho phép các tác nhân thích nghi động trong khi duy trì sự nhất quán theo thời gian.

7. Giám sát và Chỉ số

Giám sát toàn diện theo dõi:

Độ trễ: Đo lường thời gian phản hồi để tối ưu hóa.
Sử dụng token: Giám sát việc tiêu thụ tài nguyên để kiểm soát chi phí.
Chỉ số chất lượng: Đánh giá sự liên quan, độ chính xác và độc tính.

Các chỉ số này được trực quan hóa trên các chiều như phiên người dùng, lời nhắc và quy trình làm việc, cho phép can thiệp theo thời gian thực.

Taxonomy của các Artifact có thể theo dõi

Bài báo giới thiệu một phân loại hệ thống của các artifact hỗ trợ khả quan của AgentOps:

Artifact tạo tác nhân: Dữ liệu về vai trò, mục tiêu và ràng buộc.
Artifact thực hiện: Nhật ký về các cuộc gọi công cụ, hàng đợi nhiệm vụ con và các bước lý lẽ.
Artifact đánh giá: Benchmarks, vòng lặp phản hồi và chỉ số chấm điểm.
Artifact tính vết: ID phiên, ID tính vết và khoảng thời gian để giám sát chi tiết.

Phân loại này đảm bảo sự nhất quán và rõ ràng trên vòng đời của tác nhân, giúp gỡ lỗi và tuân thủ trở nên dễ dàng hơn.

AgentOps (công cụ) Hướng dẫn

Đây sẽ hướng dẫn bạn qua việc thiết lập và sử dụng AgentOps để giám sát và tối ưu hóa các tác nhân AI của bạn.

Bước 1: Cài đặt SDK của AgentOps

Cài đặt AgentOps bằng cách sử dụng trình quản lý gói Python ưa thích của bạn:

pip install agentops

Bước 2: Khởi tạo AgentOps

Đầu tiên, nhập AgentOps và khởi tạo nó bằng cách sử dụng khóa API của bạn. Lưu khóa API trong một tệp .env để bảo mật:

# Khởi tạo AgentOps với Khóa API
import agentops
import os
from dotenv import load_dotenv

# Tải biến môi trường
load_dotenv()
AGENTOPS_API_KEY = os.getenv("AGENTOPS_API_KEY")

# Khởi tạo client AgentOps
agentops.init(api_key=AGENTOPS_API_KEY, default_tags=["my-first-agent"])

Bước này thiết lập khả quan cho tất cả các tương tác LLM trong ứng dụng của bạn.

Bước 3: Ghi lại Hành động với Trang trí

Bạn có thể lập công cụ các hàm cụ thể bằng cách sử dụng trang trí @record_action, nó theo dõi các tham số, thời gian thực hiện và đầu ra của chúng. Dưới đây là một ví dụ:

from agentops import record_action

@record_action("custom-action-tracker")
def is_prime(number):
"""Kiểm tra xem một số có phải là số nguyên tố."""
if number &lt; 2:
return False
for i in range(2, int(number**0.5) + 1):
if number % i == 0:
return False
return True

Hàm này sẽ được đăng nhập trong bảng điều khiển của AgentOps, cung cấp các chỉ số về thời gian thực hiện và theo dõi đầu vào-đầu ra.

Bước 4: Theo dõi Tác nhân được đặt tên

Nếu bạn đang sử dụng các tác nhân được đặt tên, sử dụng trang trí @track_agent để gắn tất cả các hành động và sự kiện với các tác nhân cụ thể.

from agentops import track_agent

@track_agent(name="math-agent")
class MathAgent:
def __init__(self, name):
self.name = name

def factorial(self, n):
"""Tính toán giai thừa một cách đệ quy."""
return 1 if n == 0 else n * self.factorial(n - 1)

Bất kỳ hành động hoặc cuộc gọi LLM nào trong tác nhân này đều được gắn với thẻ "math-agent".

Bước 5: Hỗ trợ nhiều Tác nhân

Đối với các hệ thống sử dụng nhiều tác nhân, bạn có thể theo dõi các sự kiện trên các tác nhân để có khả quan tốt hơn. Dưới đây là một ví dụ:

@track_agent(name="qa-agent")
class QAAgent:
def generate_response(self, prompt):
return f"Trả lời: {prompt}"

@track_agent(name="developer-agent")
class DeveloperAgent:
def generate_code(self, task_description):
return f"# Mã để thực hiện: {task_description}"

qa_agent = QAAgent()
developer_agent = DeveloperAgent()

response = qa_agent.generate_response("Giải thích khả quan trong AI.")
code = developer_agent.generate_code("tính toán dãy số Fibonacci")

Mỗi cuộc gọi sẽ xuất hiện trong bảng điều khiển của AgentOps dưới dấu vết của tác nhân tương ứng.

Bước 6: Kết thúc Phiên

Để báo hiệu kết thúc của một phiên, sử dụng phương thức end_session. Tùy chọn, bao gồm trạng thái phiên (Thành công hoặc Thất bại) và lý do.

# Kết thúc phiên
agentops.end_session(state="Thành công", reason="Hoàn thành quy trình làm việc")

Điều này đảm bảo tất cả dữ liệu được đăng nhập và có thể truy cập trong bảng điều khiển của AgentOps.

Bước 7: Trực quan hóa trong Bảng điều khiển của AgentOps

Truy cập Bảng điều khiển của AgentOps để khám phá:

Phát lại phiên: Bản ghi lại từng bước của thực hiện.
Phân tích: Chỉ số về chi phí LLM, sử dụng token và độ trễ.
Phát hiện lỗi: Xác định và gỡ lỗi các lỗi hoặc vòng lặp đệ quy.

Ví dụ được cải tiến: Phát hiện suy nghĩ đệ quy

AgentOps cũng hỗ trợ phát hiện vòng lặp đệ quy trong quy trình làm việc của tác nhân. Hãy mở rộng ví dụ trước với phát hiện đệ quy:

@track_agent(name="recursive-agent")
class RecursiveAgent:
def solve(self, task, depth=0, max_depth=5):
"""Mô phỏng việc giải quyết nhiệm vụ đệ quy với kiểm soát độ sâu."""
if depth &gt;= max_depth:
return f"Độ sâu đệ quy tối đa đã đạt được cho nhiệm vụ: {task}"
return self.solve(task, depth + 1)

recursive_agent = RecursiveAgent()
output = recursive_agent.solve("Tối ưu hóa truy vấn cơ sở dữ liệu")
print(output)

AgentOps sẽ đăng nhập sự đệ quy này như một phần của phiên, giúp bạn xác định các vòng lặp vô hạn hoặc độ sâu quá mức.

Kết luận

Các tác nhân tự động AI được hỗ trợ bởi các mô hình nền tảng như LLM đã định nghĩa lại cách chúng ta tiếp cận các vấn đề phức tạp, nhiều bước trên các ngành. Tuy nhiên, sự tinh vi của chúng mang lại các thách thức độc đáo về khả quan, tính vết và độ tin cậy. Đây là nơi AgentOps bước vào như một khuôn khổ không thể thiếu, cung cấp cho các nhà phát triển các công cụ để giám sát, tối ưu hóa và đảm bảo tuân thủ cho các tác nhân AI trên toàn bộ vòng đời của chúng.

Aayush Mittal

Tôi đã dành 5 năm qua để đắm mình trong thế giới hấp dẫn của Máy học và Học sâu. Đam mê và chuyên môn của tôi đã dẫn tôi đến việc đóng góp vào hơn 50 dự án kỹ thuật phần mềm đa dạng, với trọng tâm đặc biệt là AI/ML. Sự tò mò liên tục của tôi cũng đã thu hút tôi đến Xử lý Ngôn ngữ Tự nhiên, một lĩnh vực tôi渴望 khám phá thêm.