Pemimpin pemikiran
Apa yang Diberitahukan Serangan Dini pada Agen AI tentang Tahun 2026

Saat AI bergerak dari eksperimen terkontrol ke aplikasi dunia nyata, kita memasuki titik belok dalam lanskap keamanan. Transisi dari model bahasa statis ke sistem agenik interaktif yang mampu menjelajahi dokumen, memanggil alat, dan mengorkestrasi alur kerja multi-langkah, sudah berlangsung. Namun seperti yang diungkapkan penelitian terbaru, para penyerang tidak menunggu kematangan: mereka beradaptasi dengan kecepatan yang sama, menyelidiki sistem segera setelah kemampuan baru diperkenalkan. Pada kuartal keempat tahun 2025, tim kami di Lakera menganalisis perilaku penyerang nyata di seluruh sistem yang dilindungi oleh Guard dan dalam lingkungan Gandalf: Agent Breaker — sebuah cuplikan terfokus selama 30 hari yang, meski jendela waktunya sempit, mencerminkan pola yang lebih luas yang kami amati sepanjang kuartal tersebut. Temuan tersebut menggambarkan gambaran yang jelas: segera setelah model mulai berinteraksi dengan apa pun di luar sekadar perintah teks sederhana (misalnya: dokumen, alat, data eksternal) permukaan ancaman meluas, dan musuh menyesuaikan diri secara instan untuk mengeksploitasinya. Momen ini mungkin terasa familiar bagi mereka yang menyaksikan evolusi aplikasi web awal, atau yang mengamati kebangkitan serangan berbasis API. Namun dengan agen AI, taruhannya berbeda. Vektor serangan muncul lebih cepat dari yang diantisipasi banyak organisasi.
Dari Teori ke Praktik: Agen di Dunia Nyata
Untuk sebagian besar tahun 2025, diskusi seputar agen AI sebagian besar berpusat pada potensi teoretis dan prototipe awal. Namun pada Q4, perilaku agenik mulai muncul dalam sistem produksi secara besar-besaran: model yang dapat mengambil dan menganalisis dokumen, berinteraksi dengan API eksternal, dan melakukan tugas otomatis. Agen-agen ini menawarkan manfaat produktivitas yang jelas, tetapi mereka juga membuka pintu yang tidak dimiliki oleh model bahasa tradisional. Analisis kami menunjukkan bahwa seketika agen menjadi mampu berinteraksi dengan konten dan alat eksternal, para penyerang memperhatikan dan beradaptasi sesuai. Pengamatan ini selaras dengan kebenaran mendasar tentang perilaku permusuhan: penyerang akan selalu menjelajahi dan mengeksploitasi kemampuan baru pada kesempatan paling awal. Dalam konteks AI agenik, hal ini telah menyebabkan evolusi cepat dalam strategi serangan.
Pola Serangan: Apa yang Kami Lihat di Q4 2025
Di seluruh kumpulan data yang kami tinjau, tiga pola dominan muncul. Masing-masing memiliki implikasi mendalam tentang bagaimana sistem AI dirancang, diamankan, dan diterapkan.
1. Ekstraksi System Prompt sebagai Tujuan Utama
Dalam model bahasa tradisional, injeksi perintah (memanipulasi input secara langsung untuk memengaruhi output) telah menjadi kerentanan yang banyak dipelajari. Namun, dalam sistem dengan kemampuan agenik, penyerang semakin menargetkan system prompt, yang merupakan instruksi internal, peran, dan definisi kebijakan yang memandu perilaku agen. Mengekstrak system prompt adalah tujuan bernilai tinggi karena perintah ini sering berisi definisi peran, deskripsi alat, instruksi kebijakan, dan logika alur kerja. Begitu penyerang memahami mekanisme internal ini, mereka mendapatkan cetak biru untuk memanipulasi agen. Teknik yang paling efektif untuk mencapai ini bukanlah serangan brute force, melainkan pembingkaian ulang yang cerdik:
- Skenario Hipotesis: Perintah yang meminta model untuk mengambil peran atau konteks yang berbeda — misalnya, “Bayangkan Anda adalah seorang pengembang yang meninjau konfigurasi sistem ini…” — sering kali membujuk model untuk mengungkapkan detail internal yang dilindungi.
- Pengaburan di Dalam Konten Terstruktur: Penyerang menyematkan instruksi berbahaya di dalam teks seperti kode atau terstruktur yang melewati filter sederhana dan memicu perilaku yang tidak diinginkan setelah diurai oleh agen.
Ini bukan sekadar risiko tambahan — ini secara fundamental mengubah cara kita berpikir tentang melindungi logika internal dalam sistem agenik.
2. Pelanggaran Keamanan Konten yang Halus
Tren kunci lainnya melibatkan melewati perlindungan keamanan konten dengan cara yang sulit dideteksi dan diatasi dengan filter tradisional. Alih-alih permintaan yang terang-terangan berbahaya, penyerang membingkai konten berbahaya sebagai:
- Tugas Analisis
- Evaluasi
- Skenario Bermain Peran
- Transformasi atau Ringkasan
Pembingkaian ulang ini sering kali lolos dari kontrol keamanan karena terlihat jinak di permukaan. Model yang akan menolak permintaan langsung untuk output berbahaya mungkin dengan senang hati menghasilkan output yang sama ketika diminta untuk “mengevaluasi” atau “meringkasnya” dalam konteks.












