Kecerdasan buatan

Agen Otonom dengan AgentOps: Observabilitas, Pelacakan, dan Diluar untuk Aplikasi AI Anda

Published November 20, 2024

Updated April 27, 2026

Aayush Mittal Mittal

AgentOps: Enabling Observability and Traceability for Autonomous Agents

Pertumbuhan agen otonom oleh model dasar (FMs) seperti Model Bahasa Besar (LLMs) telah mereformasi cara kita menyelesaikan masalah kompleks, multi-langkah. Agen-agen ini melakukan tugas mulai dari dukungan pelanggan hingga rekayasa perangkat lunak, menavigasi alur kerja yang rumit yang menggabungkan penalaran, penggunaan alat, dan memori.

Namun, ketika sistem ini tumbuh dalam kemampuan dan kompleksitas, tantangan dalam observabilitas, keandalan, dan kepatuhan muncul.

Inilah di mana AgentOps masuk; sebuah konsep yang dimodelkan setelah DevOps dan MLOps tetapi disesuaikan untuk mengelola siklus hidup agen berbasis FM.

Untuk memberikan pemahaman dasar tentang AgentOps dan peran kritisnya dalam memungkinkan observabilitas dan pelacakan untuk agen otonom berbasis FM, saya telah mengambil wawasan dari makalah terbaru Taksonomi AgentOps untuk Memungkinkan Observabilitas Agen Berbasis Model Dasar oleh Liming Dong, Qinghua Lu, dan Liming Zhu. Makalah ini menawarkan eksplorasi komprehensif tentang AgentOps, menyoroti kebutuhannya dalam mengelola siklus hidup agen otonom – dari penciptaan dan eksekusi hingga evaluasi dan pemantauan. Penulis mengkategorikan artefak yang dapat dilacak, mengusulkan fitur kunci untuk platform observabilitas, dan menangani tantangan seperti kompleksitas keputusan dan kepatuhan peraturan.

Sementara AgentOps (alat) telah mendapatkan traksi signifikan sebagai salah satu alat terkemuka untuk memantau, meng-debug, dan mengoptimalkan agen AI (seperti autogen, crew ai), artikel ini fokus pada konsep yang lebih luas dari Operasi AI (Ops).

Itu dikatakan, AgentOps (alat) menawarkan pengembang wawasan ke dalam alur kerja agen dengan fitur seperti replay sesi, pelacakan biaya LLM, dan pemantauan kepatuhan. Sebagai salah satu alat Ops paling populer di AI, nanti dalam artikel ini kita akan melalui fungsionalitasnya dengan tutorial.

Apa itu AgentOps?

AgentOps mengacu pada proses, alat, dan kerangka kerja ujung-ke-ujung yang diperlukan untuk merancang, mengirim, memantau, dan mengoptimalkan agen otonom berbasis FM di produksi. Tujuannya adalah:

Observabilitas: Memberikan visibilitas penuh ke dalam proses eksekusi dan pengambilan keputusan agen.
Pelacakan: Mengabadikan artefak rinci di seluruh siklus hidup agen untuk debugging, optimasi, dan kepatuhan.
Keandalan: Menjamin output konsisten dan dapat dipercaya melalui pemantauan dan alur kerja yang kuat.

Pada intinya, AgentOps meluas melampaui MLOps tradisional dengan menekankan alur kerja iteratif, multi-langkah, integrasi alat, dan memori adaptif, semuanya sambil mempertahankan pelacakan dan pemantauan yang ketat.

Tantangan Utama yang Ditangani oleh AgentOps

1. Kompleksitas Sistem Agen

Agen otonom memproses tugas di seluruh ruang aksi yang luas, memerlukan keputusan di setiap langkah. Kompleksitas ini menuntut mekanisme perencanaan dan pemantauan yang canggih.

2. Persyaratan Observabilitas

Kasus penggunaan dengan risiko tinggi – seperti diagnosis medis atau analisis hukum – menuntut pelacakan granular. Kepatuhan dengan peraturan seperti Undang-Undang AI UE lebih lanjut menekankan kebutuhan akan kerangka kerja observabilitas yang kuat.

3. Debugging dan Optimasi

Mengidentifikasi kesalahan dalam alur kerja multi-langkah atau menilai output antara tanpa jejak rinci dari tindakan agen adalah tantangan.

4. Skalabilitas dan Manajemen Biaya

Menggunakan agen untuk produksi memerlukan pemantauan metrik seperti latensi, penggunaan token, dan biaya operasional untuk memastikan efisiensi tanpa mengorbankan kualitas.

Fitur Inti dari Platform AgentOps

1. Penciptaan dan Kustomisasi Agen

Pengembang dapat mengkonfigurasi agen menggunakan registri komponen:

Peran: Mendefinisikan tanggung jawab (misalnya, peneliti, perencana).
Guardrails: Menetapkan batasan untuk memastikan perilaku etis dan dapat diandalkan.
Toolkits: Mengaktifkan integrasi dengan API, database, atau grafik pengetahuan.

Agen dibangun untuk berinteraksi dengan dataset, alat, dan prompt spesifik sambil mempertahankan kepatuhan dengan aturan yang telah ditetapkan sebelumnya.

2. Observabilitas dan Pelacakan

AgentOps mengabadikan log eksekusi rinci:

Jejak: Merekam setiap langkah dalam alur kerja agen, dari panggilan LLM hingga penggunaan alat.
Spans: Membagi jejak menjadi langkah granular, seperti pengambilan, generasi embedding, atau invocation alat.
Artefak: Melacak output antara, status memori, dan template prompt untuk membantu debugging.

Alat observabilitas seperti Langfuse atau Arize menyediakan dasbor yang memvisualisasikan jejak ini, membantu mengidentifikasi bottleneck atau kesalahan.

3. Manajemen Prompt

Teknik prompt memainkan peran penting dalam membentuk perilaku agen. Fitur kunci termasuk:

Pengversian: Melacak iterasi prompt untuk perbandingan kinerja.
Deteksi Injeksi: Mengidentifikasi kode berbahaya atau kesalahan input dalam prompt.
Optimasi: Teknik seperti Chain-of-Thought (CoT) atau Tree-of-Thought meningkatkan kemampuan penalaran.

4. Integrasi Umpan Balik

Umpan balik manusia tetap penting untuk perbaikan iteratif:

Umpan Balik Eksplisit: Pengguna menilai output atau memberikan komentar.
Umpan Balik Implisit: Metrik seperti waktu pada tugas atau tingkat klik dianalisis untuk mengukur efektivitas.

Lingkaran umpan balik ini memperbaiki kinerja agen dan benchmark evaluasi yang digunakan untuk pengujian.

5. Evaluasi dan Pengujian

Platform AgentOps memfasilitasi pengujian yang ketat di seluruh:

Benchmark: Membandingkan kinerja agen dengan standar industri.
Evaluasi Langkah-demi-Langkah: Menilai langkah-langkah antara dalam alur kerja untuk memastikan kebenaran.
Evaluasi Trajektori: Memvalidasi jalur pengambilan keputusan yang diambil oleh agen.

6. Integrasi Memori dan Pengetahuan

Agen menggunakan memori jangka pendek untuk konteks (misalnya, riwayat percakapan) dan memori jangka panjang untuk menyimpan wawasan dari tugas sebelumnya. Ini memungkinkan agen untuk beradaptasi secara dinamis sambil mempertahankan kohesi dari waktu ke waktu.

7. Pemantauan dan Metrik

Pemantauan komprehensif melacak:

Latensi: Mengukur waktu respons untuk optimasi.
Penggunaan Token: Memantau konsumsi sumber daya untuk mengontrol biaya.
Metrik Kualitas: Menilai relevansi, akurasi, dan toksisitas.

Metrik ini divisualisasikan di seluruh dimensi seperti sesi pengguna, prompt, dan alur kerja, memungkinkan intervensi waktu nyata.

Taksonomi Artefak yang Dapat Dilacak

Makalah ini memperkenalkan taksonomi sistematis dari artefak yang mendasari observabilitas AgentOps:

Artefak Penciptaan Agen: Metadata tentang peran, tujuan, dan batasan.
Artefak Eksekusi: Log panggilan alat, antrian subtugas, dan langkah penalaran.
Artefak Evaluasi: Benchmark, lingkaran umpan balik, dan metrik skoring.
Artefak Pelacakan: ID sesi, ID jejak, dan span untuk pemantauan granular.

Taksonomi ini memastikan konsistensi dan kejelasan di seluruh siklus hidup agen, membuat debugging dan kepatuhan lebih mudah dikelola.

AgentOps (alat) Panduan

Ini akan memandu Anda melalui pengaturan dan penggunaan AgentOps untuk memantau dan mengoptimalkan agen AI Anda.

Langkah 1: Instal SDK AgentOps

Instal AgentOps menggunakan pengelola paket Python yang Anda preferensi:

pip install agentops

Langkah 2: Inisialisasi AgentOps

Pertama, impor AgentOps dan inisialisasi menggunakan kunci API Anda. Simpan kunci API dalam file .env untuk keamanan:

# Inisialisasi AgentOps dengan Kunci API
import agentops
import os
from dotenv import load_dotenv

# Muat variabel lingkungan
load_dotenv()
AGENTOPS_API_KEY = os.getenv("AGENTOPS_API_KEY")

# Inisialisasi klien AgentOps
agentops.init(api_key=AGENTOPS_API_KEY, default_tags=["my-first-agent"])

Langkah ini mengatur observabilitas untuk semua interaksi LLM dalam aplikasi Anda.

Langkah 3: Rekam Tindakan dengan Dekorator

Anda dapat menginstrumentasi fungsi tertentu menggunakan dekorator @record_action, yang melacak parameter, waktu eksekusi, dan output. Berikut contoh:

from agentops import record_action

@record_action("custom-action-tracker")
def is_prime(number):
"""Periksa apakah sebuah bilangan prima."""
if number &lt; 2:
return False
for i in range(2, int(number**0.5) + 1):
if number % i == 0:
return False
return True

Fungsi ini sekarang akan dicatat dalam dasbor AgentOps, menyediakan metrik untuk waktu eksekusi dan pelacakan input-output.

Langkah 4: Lacak Agen Bernama

Jika Anda menggunakan agen bernama, gunakan dekorator @track_agent untuk mengaitkan semua tindakan dan peristiwa dengan agen tertentu.

from agentops import track_agent

@track_agent(name="math-agent")
class MathAgent:
def __init__(self, name):
self.name = name

def factorial(self, n):
"""Menghitung faktorial secara rekursif."""
return 1 if n == 0 else n * self.factorial(n - 1)

Setiap tindakan atau panggilan LLM dalam agen ini sekarang dikaitkan dengan tag "math-agent".

Langkah 5: Dukungan Multi-Agen

Untuk sistem yang menggunakan beberapa agen, Anda dapat melacak peristiwa di seluruh agen untuk observabilitas yang lebih baik. Berikut contoh:

@track_agent(name="qa-agent")
class QAAgent:
def generate_response(self, prompt):
return f"Menanggapi: {prompt}";

@track_agent(name="developer-agent")
class DeveloperAgent:
def generate_code(self, task_description):
return f"# Code untuk melakukan: {task_description}";

qa_agent = QAAgent()
developer_agent = DeveloperAgent()

response = qa_agent.generate_response("Jelaskan observabilitas dalam AI.")
code = developer_agent.generate_code("hitung urutan Fibonacci")

Setiap panggilan akan muncul dalam dasbor AgentOps di bawah jejak agen yang sesuai.

Langkah 6: Akhiri Sesi

Untuk menandai akhir sesi, gunakan metode end_session. Opsi, sertakan status sesi (Success atau Fail) dan alasan.

# Akhir sesi
agentops.end_session(state="Success", reason="Workflows selesai")

Ini memastikan semua data dicatat dan dapat diakses dalam dasbor AgentOps.

Langkah 7: Visualisasikan dalam Dasbor AgentOps

Kunjungi Dasbor AgentOps untuk mengeksplorasi:

Replay Sesi: Jejak eksekusi langkah-demi-langkah.
Analitik: Metrik biaya LLM, penggunaan token, dan latensi.
Deteksi Kesalahan: Identifikasi dan debugging kegagalan atau loop rekursif.

Contoh Ditingkatkan: Deteksi Pemikiran Rekursif

AgentOps juga mendukung deteksi loop rekursif dalam alur kerja agen. Mari kita perluas contoh sebelumnya dengan deteksi rekursif:

@track_agent(name="recursive-agent")
class RecursiveAgent:
def solve(self, task, depth=0, max_depth=5):
"""Simulasi pemecahan tugas rekursif dengan kontrol kedalaman."""
if depth &gt;= max_depth:
return f"Kedalaman rekursif maksimum tercapai untuk tugas: {task}"
return self.solve(task, depth + 1)

recursive_agent = RecursiveAgent()
output = recursive_agent.solve("Optimalkan kueri database")
print(output)

AgentOps akan mencatat rekursi sebagai bagian dari sesi, membantu Anda mengidentifikasi loop tak terhingga atau kedalaman berlebihan.

Kesimpulan

Agen otonom AI yang ditenagai oleh model dasar seperti LLM telah meredefinisi cara kita mendekati masalah kompleks, multi-langkah di seluruh industri. Namun, kesophistikasi mereka membawa tantangan unik dalam observabilitas, pelacakan, dan keandalan. Inilah di mana AgentOps masuk sebagai kerangka kerja yang tak tergantikan, menawarkan pengembang alat untuk memantau, mengoptimalkan, dan memastikan kepatuhan untuk agen AI di seluruh siklus hidupnya.

Aayush Mittal

Saya telah menghabiskan lima tahun terakhir dengan membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menarik. Minat dan keahlian saya telah membawa saya untuk berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Rasa ingin tahu saya yang terus-menerus juga telah menarik saya ke arah Natural Language Processing, sebuah bidang yang saya ingin jelajahi lebih lanjut.