Connect with us

Pemimpin pemikiran

Apa yang Serangan Awal pada Agen AI Beritahu Kita Tentang 2026

mm

Ketika AI berpindah dari eksperimen yang dikendalikan ke aplikasi dunia nyata, kita memasuki titik infleksi dalam lanskap keamanan. Transisi dari model bahasa statis ke sistem interaktif, agen yang mampu menjelajahi dokumen, memanggil alat, dan mengatur alur kerja multi-langkah, sudah berlangsung. Namun, penelitian terbaru mengungkapkan bahwa penyerang tidak menunggu kematangan: mereka beradaptasi dengan kecepatan yang sama, memprobing sistem segera setelah kemampuan baru diperkenalkan.

Pada kuartal keempat 2025, tim kami di Lakera menganalisis perilaku penyerang nyata di seluruh sistem yang dilindungi oleh Guard dan dalam lingkungan Gandalf: Agent Breaker — sebuah snapshot yang fokus, 30 hari, yang, meskipun memiliki jendela yang sempit, mencerminkan pola yang lebih luas yang kami amati sepanjang kuartal. Temuan tersebut menggambarkan gambaran yang jelas: segera setelah model mulai berinteraksi dengan sesuatu di luar prompt teks sederhana (misalnya: dokumen, alat, data eksternal) permukaan ancaman berkembang, dan lawan menyesuaikan diri secara instan untuk mengeksploitasi itu.

Saat ini mungkin terasa familiar bagi mereka yang menyaksikan evolusi awal aplikasi web, atau yang mengamati munculnya serangan yang dipimpin oleh API. Namun, dengan agen AI, taruhannya berbeda. Vektor serangan muncul lebih cepat daripada yang diantisipasi oleh banyak organisasi.

Dari Teori ke Praktik: Agen di Alam Liar

Selama sebagian besar 2025, diskusi sekitar agen AI sebagian besar berpusat pada potensi teoretis dan prototipe awal. Namun, pada Q4, perilaku agen mulai muncul dalam sistem produksi skala besar: model yang dapat mengambil dan menganalisis dokumen, berinteraksi dengan API eksternal, dan melakukan tugas otomatis. Agen ini menawarkan manfaat produktivitas yang jelas, tetapi mereka juga membuka pintu yang tidak dibuka oleh model bahasa tradisional.

Analisis kami menunjukkan bahwa segera setelah agen menjadi mampu berinteraksi dengan konten dan alat eksternal, penyerang memperhatikan dan menyesuaikan diri. Pengamatan ini selaras dengan kebenaran dasar tentang perilaku lawan: penyerang akan selalu mengeksplorasi dan mengeksploitasi kemampuan baru pada kesempatan pertama. Dalam konteks agen AI, ini telah menyebabkan evolusi cepat dalam strategi serangan.

Polah Serangan: Apa yang Kami Lihat di Q4 2025

Di seluruh dataset yang kami tinjau, tiga pola dominan muncul. Masing-masing memiliki implikasi yang mendalam tentang bagaimana sistem AI dirancang, diamankan, dan diterapkan.

1. Ekstraksi Prompt Sistem sebagai Tujuan Utama

Dalam model bahasa tradisional, injeksi prompt (memanipulasi input untuk mempengaruhi output) telah menjadi kerentanan yang dipelajari dengan baik. Namun, dalam sistem dengan kemampuan agen, penyerang semakin membidik prompt sistem, yang merupakan instruksi internal, definisi peran, dan definisi kebijakan yang memandu perilaku agen.

Mengekstrak prompt sistem adalah tujuan yang berharga karena prompt tersebut sering berisi definisi peran, deskripsi alat, instruksi kebijakan, dan logika alur kerja. Setelah penyerang memahami mekanika internal ini, mereka mendapatkan blueprint untuk memanipulasi agen.

Teknik paling efektif untuk mencapai ini bukanlah serangan brute force, tetapi penyajian kembali yang cerdas:

  • Skenario Hipotetis: Prompt yang meminta model untuk mengasumsikan peran atau konteks yang berbeda — misalnya, “Bayangkan Anda adalah pengembang yang meninjau konfigurasi sistem ini…” — sering memaksa model untuk mengungkapkan detail internal yang dilindungi.
  • Obfuskasi di Dalam Konten Terstruktur: Penyerang menyematkan instruksi berbahaya di dalam teks yang menyerupai kode atau teks terstruktur yang melewati filter sederhana dan memicu perilaku yang tidak diinginkan ketika diurai oleh agen.

Ini bukan hanya risiko inkremental — ini secara fundamental mengubah cara kita berpikir tentang melindungi logika internal dalam sistem agen.

2. Pembiaran Keselamatan Konten yang Halus

Tren kunci lainnya melibatkan melewati perlindungan keselamatan konten dengan cara yang sulit dideteksi dan dimitrasi dengan filter tradisional.

Sebagai gantinya untuk permintaan berbahaya yang jelas, penyerang membingkai konten berbahaya sebagai:

  • Tugas Analisis
  • Evaluasi
  • Skenario Peran
  • Transformasi atau Ringkasan

Pembingkaian kembali ini sering melewati kontrol keselamatan karena mereka terlihat tidak berbahaya di permukaan. Model yang akan menolak permintaan langsung untuk output berbahaya mungkin dengan senang hati menghasilkan output yang sama ketika diminta untuk “mengevaluasi” atau “meringkas” itu dalam konteks.

Perubahan ini menekankan tantangan yang lebih dalam: keselamatan konten untuk agen AI tidak hanya tentang penerapan kebijakan; itu tentang bagaimana model menafsirkan niat. Ketika agen mengambil tugas yang lebih kompleks dan konteks, model menjadi lebih rentan terhadap reinterpretasi berbasis konteks — dan penyerang mengeksploitasi perilaku ini.

3. Munculnya Serangan Spesifik Agen

Mungkin temuan yang paling konsekuensial adalah munculnya pola serangan yang hanya masuk akal dalam konteks kemampuan agen. Ini bukanlah upaya injeksi prompt sederhana tetapi eksploitasi yang terkait dengan perilaku baru:

  • Upaya Mengakses Data Internal Rahasia: Prompt dibuat untuk membujuk agen untuk mengambil atau mengungkapkan informasi dari toko dokumen atau sistem terhubung — tindakan yang sebelumnya berada di luar cakupan model
  • Instruksi Berbentuk Skrip yang Disematkan dalam Teks: Penyerang bereksperimen dengan menyematkan instruksi dalam format yang menyerupai skrip atau konten terstruktur, yang dapat mengalir melalui pipa agen dan memicu tindakan yang tidak diinginkan
  • Instruksi Tersembunyi dalam Konten Eksternal: Beberapa serangan menyematkan direktif berbahaya di dalam konten eksternal yang dirujuk — seperti halaman web atau dokumen yang diminta agen untuk diproses — secara efektif melewati filter input langsung

Pola ini masih awal tetapi menandakan masa depan di mana kemampuan agen yang berkembang secara fundamental mengubah sifat perilaku lawan.

Mengapa Serangan Tidak Langsung Sangat Efektif

Salah satu temuan yang paling menonjol dalam laporan ini adalah bahwa serangan tidak langsung — yang menggunakan konten eksternal atau data terstruktur — memerlukan upaya yang lebih sedikit daripada injeksi langsung. Ini menunjukkan bahwa sanitasi input tradisional dan penyaringan kueri langsung tidak cukup sebagai pertahanan sekali model berinteraksi dengan konten yang tidak tepercaya.

Ketika instruksi berbahaya tiba melalui alur kerja agen eksternal — apakah itu dokumen yang terhubung, respons API, atau halaman web yang diambil — filter awal kurang efektif. Hasilnya: penyerang memiliki permukaan serangan yang lebih besar dan lebih sedikit hambatan.

Implikasi untuk 2026 dan Setelahnya

Temuan laporan ini membawa implikasi yang mendesak bagi organisasi yang berencana untuk menerapkan agen AI skala besar:

  1. Redefinisi Batas Kepercayaan
    Kepercayaan tidak bisa hanya biner. Ketika agen berinteraksi dengan pengguna, konten eksternal, dan alur kerja internal, sistem harus menerapkan model kepercayaan yang nuansa yang mempertimbangkan konteks, provenansi, dan tujuan.
  2. Pengamanan Harus Berkembang
    Filter keselamatan statis tidak cukup. Pengamanan harus adaptif, sadar konteks, dan mampu bernalar tentang niat dan perilaku di seluruh alur kerja multi-langkah.
  3. Transparansi dan Pemeriksaan Adalah Esensial
    Ketika vektor serangan tumbuh lebih kompleks, organisasi memerlukan visibilitas ke dalam bagaimana agen membuat keputusan — termasuk langkah-langkah intermediate, interaksi eksternal, dan transformasi. Log yang dapat diperiksa dan kerangka kerja penjelasan tidak lagi opsional.
  4. Kolaborasi Antardisiplin Ilmu Adalah Kunci
    Penelitian AI, teknik keamanan, dan tim intelijen ancaman harus bekerja sama. Keamanan AI tidak bisa diisolasi; itu harus terintegrasi dengan praktik keamanan siber yang lebih luas dan kerangka kerja manajemen risiko.
  5. Regulasi dan Standar Akan Perlu Menyesuaikan Diri
    Pembuat kebijakan dan badan standar harus mengakui bahwa sistem agen menciptakan kelas risiko baru. Regulasi yang menangani privasi data dan keselamatan output diperlukan tetapi tidak cukup; mereka juga harus mempertimbangkan perilaku interaktif dan lingkungan eksekusi multi-langkah.

Masa Depan Agen AI yang Aman

Kedatangan agen AI mewakili pergeseran yang mendalam dalam kemampuan dan risiko. Data Q4 2025 adalah indikator awal bahwa segera setelah agen mulai beroperasi di luar generasi teks sederhana, penyerang akan mengikuti. Temuan kami menunjukkan bahwa lawan tidak hanya beradaptasi — mereka juga berinovasi dalam teknik serangan yang pertahanan tradisional belum siap untuk melawannya.

Bagi perusahaan dan pengembang, pesan itu jelas: mengamankan agen AI tidak hanya tantangan teknis; itu adalah tantangan arsitektur. Ini memerlukan pemikiran ulang tentang bagaimana kepercayaan dibentuk, bagaimana pengamanan ditegakkan, dan bagaimana risiko terus dievaluasi dalam lingkungan interaktif dan dinamis.

Pada 2026 dan setelahnya, organisasi yang sukses dengan agen AI akan menjadi mereka yang memperlakukan keamanan tidak sebagai pemikiran akhir, tetapi sebagai prinsip desain dasar.

Mateo Rojas-Carulla adalah Kepala Penelitian, Keamanan Agen AI di Check Point Software Technologies. Sebelumnya dia adalah Co-Founder dan Chief Scientist di Lakera, yang diakuisisi oleh Check Point pada 2025. Sebelum mendirikan Lakera, Mateo bekerja di Google, Credit Suisse, Facebook dan Speechmatics. Dia menerima PhD di Machine Learning dari University of Cambridge dan Max Planck Institute di Tübingen.