Kecerdasan Buatan
Mengapa AI Agen Masih Mengalami Kegagalan di Dunia Nyata?

Selama beberapa tahun terakhir, kita telah menyaksikan sistem AI berbasis agen menghasilkan demonstrasi yang mengesankan. Mereka menulis kode yang lolos uji. Mereka mencari di web dan menjawab pertanyaan kompleks. Mereka menavigasi antarmuka perangkat lunak dengan akurasi yang luar biasa. Setiap presentasi konferensi, setiap siaran pers, setiap laporan benchmark menyoroti munculnya AI berbasis agen.
Namun, ada masalah yang tersembunyi di balik demonstrasi yang mengesankan ini. Ketika sistem yang sama ini berpindah dari lingkungan terkontrol ke penerapan di dunia nyata, sistem tersebut sering kali gagal dengan cara yang tidak pernah diprediksi oleh tolok ukur. Generator kode yang bekerja sempurna pada 100 contoh yang dipilih mulai menghasilkan kesalahan pada kasus-kasus ekstrem yang belum pernah dilihatnya. Agen pencarian web yang mencapai akurasi 85% di laboratorium mengambil hasil yang semakin tidak relevan seiring perubahan perilaku pengguna. Sistem perencanaan yang mengoordinasikan sepuluh panggilan API dengan sempurna selama pengujian mengalami kerusakan ketika menemukan format respons API yang tidak terduga.
Sistem-sistem ini gagal bukan karena mereka kurang cerdas, tetapi karena mereka kekurangan adaptasiMasalahnya terletak pada bagaimana agen AI belajar dan beradaptasi. Meskipun sistem mutakhir dibangun di atas model dasar yang masif, kecerdasan mentah saja tidak cukup. Untuk melakukan tugas-tugas khusus, agen harus mampu beradaptasi. Sistem AI berbasis agen saat ini tidak dapat melakukan hal ini karena keterbatasan struktural dalam desain dan pelatihannya. Dalam artikel ini, kita akan mengeksplorasi keterbatasan ini dan mengapa keterbatasan tersebut tetap ada.
Ilusi Kemampuan dalam Demo
Mode kegagalan paling berbahaya dalam AI modern adalah ilusi kompetensi. Demonstrasi singkat sering kali menyembunyikan kompleksitas sebenarnya. Demonstrasi tersebut beroperasi pada kumpulan data yang bersih, API yang dapat diprediksi, dan ruang lingkup tugas yang sempit. Lingkungan produksi adalah kebalikannya. Basis data tidak lengkap, skema berubah tanpa pemberitahuan, layanan mengalami batas waktu, izin saling bertentangan, dan pengguna mengajukan pertanyaan yang melanggar asumsi dasar sistem.
Di sinilah kompleksitas produksi meningkat secara signifikan. Satu kasus khusus yang muncul sekali dalam demo dapat muncul ribuan kali per hari dalam penerapan. Kesalahan probabilistik kecil menumpuk. Agen yang "sebagian besar benar" dengan cepat menjadi tidak dapat diandalkan dalam operasi nyata.
Inti masalahnya terletak pada ketergantungan pada model dasar yang kaku. Model-model ini unggul dalam penyelesaian pola, tetapi perilaku agen bersifat sekuensial dan bergantung pada keadaan. Setiap tindakan bergantung pada hasil tindakan sebelumnya. Dalam pengaturan seperti itu, ketidakpastian statistik meningkat dengan cepat. Kesalahan kecil di awal tugas dapat berujung pada perulangan, jalan buntu, atau tindakan destruktif di kemudian hari. Inilah mengapa agen yang tampak mampu selama evaluasi seringkali mengalami penurunan kinerja dengan cepat setelah diimplementasikan.
Masalahnya bukanlah fitur yang hilang. Masalahnya adalah model serbaguna diminta untuk berperilaku seperti spesialis bidang tertentu tanpa diberi kesempatan untuk belajar dari lingkungannya.
Dari Kecerdasan Umum ke Kompetensi Kontekstual
Model dasar dirancang sebagai generalis. Mereka mengkodekan pengetahuan yang luas dan pola penalaran yang fleksibel. Namun, agen produksi harus bersifat situasional. Mereka perlu memahami aturan, batasan, dan mode kegagalan spesifik dari organisasi tertentu dan alat-alatnya. Tanpa ini, mereka akan menyerupai seseorang yang telah membaca setiap manual tetapi belum pernah bekerja sehari pun di lapangan.
Menjembatani kesenjangan ini membutuhkan pemikiran ulang tentang adaptasi itu sendiri. Metode yang ada saat ini terbagi menjadi dua kategori besar, kamp yang cacat: melatih ulang agen AI inti itu sendiri, atau memodifikasi alat eksternal yang digunakannya. Setiap pendekatan menyelesaikan satu masalah sambil menciptakan masalah lain. Hal ini membuat kita memiliki sistem yang terlalu kaku, terlalu mahal, atau terlalu tidak stabil untuk lingkungan produksi di mana konsistensi dan biaya menjadi penting.
Perangkap Agen Monolitik
Pendekatan pertama, Adaptasi Agen, mencoba membuat LLM inti lebih pintar dalam menggunakan alat. Pada dasarnya, pendekatan ini mengajarkan AI keterampilan spesifik yang dibutuhkan untuk menggunakan alat-alat tersebut. Para peneliti mengkategorikan hal ini lebih lanjut menjadi dua kelas. Beberapa metode melatih agen menggunakan umpan balik langsung dari alat, seperti keberhasilan kompiler kode atau hasil mesin pencari. Metode lain melatihnya berdasarkan kebenaran keluaran akhir, seperti jawaban yang benar atau salah.
Sistem seperti DeepSeek-R1 dan Pencarian-R1 Menunjukkan bahwa agen dapat mempelajari strategi kompleks dan multi-langkah untuk penggunaan alat. Namun, kekuatan ini datang dengan biaya yang signifikan. Melatih model dengan miliaran parameter membutuhkan komputasi yang sangat besar. Lebih penting lagi, hal itu menciptakan kecerdasan yang kaku dan rapuh. Dengan menggabungkan pengetahuan agen dan aturan penggunaan alat, pendekatan ini membuat pembaruan menjadi lambat, berisiko, dan tidak sesuai untuk kebutuhan bisnis yang berubah dengan cepat. Mengadaptasi agen ke tugas atau alat baru berisiko…melupakan bencana,” di mana ia kehilangan keterampilan yang sebelumnya telah dikuasai. Ini seperti perlu membangun kembali seluruh jalur perakitan pabrik setiap kali Anda ingin menambahkan komponen baru.
Masalah Kotak Peralatan yang Rapuh
Dengan menyadari keterbatasan ini, pendekatan utama kedua, Adaptasi AlatPendekatan ini membiarkan agen inti tetap beku dan sebagai gantinya mengoptimalkan alat-alat dalam ekosistemnya. Ini lebih modular dan hemat biaya. Beberapa alat dilatih secara umum, seperti pencari informasi standar, dan langsung digunakan. Alat lainnya secara khusus disesuaikan untuk melengkapi agen yang beku, belajar dari outputnya untuk menjadi pembantu yang lebih baik.
Paradigma ini menjanjikan efisiensi yang sangat besar. Sebuah studi penting tentang sistem yang disebut... s3 Hal ini menunjukkan potensi pendekatan ini. Pendekatan ini melatih alat "pencari" kecil dan khusus untuk mendukung LLM (Learning Learning Model) yang dibekukan, mencapai kinerja yang sebanding dengan agen yang dilatih ulang sepenuhnya seperti Search-R1 tetapi menggunakan data pelatihan 70 kali lebih sedikit. Intuisinya adalah mengapa harus mengajari ulang seorang fisikawan jenius cara menggunakan katalog perpustakaan? Sebaliknya, cukup latih pustakawan yang lebih baik yang memahami kebutuhan fisikawan tersebut.
Namun, model kotak peralatan memiliki keterbatasannya sendiri. Kemampuan seluruh sistem pada akhirnya dibatasi oleh penalaran inheren LLM yang kaku. Anda dapat memberikan pisau bedah yang lebih tajam kepada seorang ahli bedah, tetapi Anda tidak dapat memaksa orang yang bukan ahli bedah untuk melakukan operasi jantung. Lebih jauh lagi, mengkoordinasikan serangkaian alat adaptif yang terus berkembang menjadi tantangan integrasi yang kompleks. Alat A mungkin mengoptimalkan satu metrik yang melanggar persyaratan masukan Alat B. Kinerja sistem kemudian bergantung pada keseimbangan yang rapuh antara komponen yang saling terhubung.
Tantangan Adaptasi Bersama
Hal ini membawa kita pada inti dari defisit adaptasi dalam paradigma AI berbasis agen saat ini. Kita mengadaptasi agen atau alatnya, tetapi tidak keduanya secara sinkron dan stabil. Lingkungan produksi tidak statis. Data baru, persyaratan pengguna baru, dan alat baru terus bermunculan. Sistem AI yang tidak dapat mengembangkan "otak" dan "tangannya" dengan lancar dan aman pasti akan rusak.
Peneliti mengenali Kebutuhan akan ko-adaptasi sebagai batas berikutnya. Namun, ini merupakan tantangan yang kompleks. Jika agen dan alatnya belajar secara bersamaan, siapa yang akan lebih unggul? mendapat Pujian atau celaan atas kegagalan? Bagaimana Anda mencegah lingkaran umpan balik yang tidak stabil di mana agen dan alat saling mengejar perubahan tanpa meningkatkan kinerja keseluruhan? Upaya awal dalam hal ini, seperti memperlakukan hubungan agen-alat sebagai sebuah sistem multi-agen kooperatifHal ini menunjukkan kesulitannya. Tanpa solusi yang kuat untuk penetapan dan stabilitas kredit, bahkan AI agenik kita yang paling canggih pun tetap menjadi serangkaian kemampuan yang mengesankan namun tidak terhubung.
Memori sebagai Sistem Kelas Satu
Salah satu tanda paling nyata dari defisit adaptasi adalah memori statis. Banyak agen yang dikerahkan tidak mengalami peningkatan seiring waktu. Mereka mengulangi kesalahan yang sama karena tidak dapat menginternalisasi pengalaman. Setiap interaksi diperlakukan seolah-olah itu adalah interaksi pertama.
Lingkungan produksi menuntut memori adaptifAgen membutuhkan ingatan episodik untuk menangani tugas jangka panjang, memori strategis untuk menyempurnakan rencana, dan memori operasional untuk menghindari pengulangan kegagalan. Tanpa ini, agen akan merasa rapuh dan tidak dapat dipercaya.
Memori harus diperlakukan sebagai komponen yang dapat disesuaikan, bukan sebagai log pasif. Sistem yang meninjau pengalaman, belajar dari kesalahan, dan menyesuaikan perilakunya jauh lebih stabil.
Risiko Baru dari Sistem Adaptif
Adaptasi menghadirkan risiko tersendiri. Agen dapat belajar mengoptimalkan metrik daripada tujuan, sebuah fenomena yang dikenal sebagai adaptasi parasitMereka mungkin tampak berhasil sambil merusak tujuan yang mendasarinya. Dalam sistem multi-agen, alat yang dikompromikan dapat memanipulasi agen melalui hal-hal yang halus injeksi cepat atau data yang menyesatkan. Untuk mengurangi risiko ini, agen memerlukan mekanisme verifikasi yang kuat. Tindakan harus dapat diuji, dapat dibatalkan, dan dapat diaudit. Lapisan pengamanan antara agen dan alat memastikan bahwa kesalahan tidak menyebar secara diam-diam.
The Bottom Line
Agar AI berbasis agen dapat berfungsi di dunia nyata, ia tidak hanya harus cerdas; ia juga harus mampu beradaptasi. Sebagian besar agen saat ini gagal karena mereka "terhenti" dalam waktu, sementara dunia nyata kompleks dan terus berubah. Jika AI tidak dapat memperbarui memorinya dan belajar dari kesalahannya, pada akhirnya ia akan gagal. Keandalan tidak berasal dari demonstrasi yang sempurna; keandalan berasal dari kemampuan untuk beradaptasi.












