Keamanan siber
Peneliti HiddenLayer Menghindari Guardrails OpenAI, Mengungkap Kerentanan Kritis dalam Moderasi Diri AI

Pada tanggal 6 Oktober 2025, OpenAI mengumumkan AgentKit, sebuah toolkit untuk membangun, mengirim, dan mengelola agen AI. Salah satu komponennya adalah Guardrails—lapisan keamanan modular yang dirancang untuk memantau input agen, output, dan interaksi alat untuk mencegah penyalahgunaan, kebocoran data, atau perilaku berbahaya. Guardrails dapat menyembunyikan atau menandai PII, mendeteksi jailbreak, dan menerapkan konstrain kebijakan bersamaan dengan eksekusi agen.
Sementara Guardrails adalah bagian baru dari arsitektur agen OpenAI, penelitian HiddenLayer mengungkap kerentanan yang lebih dalam: karena baik tindakan agen dan pemeriksaan keamanan menggunakan logika model yang sama, penyerang dapat membuat input yang melemahkan keduanya secara bersamaan—secara efektif memecahkan lapisan keamanan dari dalam.
Apa yang Ditemukan HiddenLayer
Desain OpenAI membayangkan agen yang beroperasi melalui logika berantai: pengguna mengeluarkan permintaan, agen memanggil alat atau sumber daya eksternal, dan respons difilter atau divalidasi oleh Guardrails sebelum eksekusi atau output. Tujuannya adalah bahwa tidak peduli apa yang agen coba lakukan—baik itu menghasilkan teks, mengambil halaman web, atau memicu fungsi—Guardrails bertindak sebagai penjaga.
HiddenLayer berpendapat bahwa penjaga ini secara struktural bermasalah ketika dibangun dari kelas model yang sama yang dilindunginya. Dalam eksperimen mereka, mereka membuat prompt yang melakukan dua tugas: mereka memaksa model agen untuk menghasilkan konten yang melanggar kebijakan dan memanipulasi model hakim Guardrails untuk menyatakan bahwa konten itu “aman.” Secara efektif, prompt tersebut menyematkan pengabaian logika internal hakim—ambang kepercayaan, cabang keputusan—sehingga hakim salah mengeluarkan output berbahaya. Sistem kemudian menghasilkan konten yang dilarang tanpa memicu peringatan apa pun.
Mereka mendorong serangan lebih jauh dengan menargetkan injeksi konten tidak langsung, seperti panggilan fetch alat. Misalkan agen mengambil halaman web yang berisi instruksi berbahaya atau prompt tersembunyi. Guardrails seharusnya menandai atau memblokirnya, tetapi teknik HiddenLayer menyematkan pengabaian hakim ke dalam konten yang diambil itu sendiri. Ketika hakim memprosesnya, ia melihat pengabaian dan “menyetujui”nya, membiarkan panggilan alat—dan konten berbahaya yang dikembalikannya—lewat tanpa diperiksa.
Pelajaran yang lebih dalam adalah jelas: ketika mekanisme keamanan Anda dibangun menggunakan logika dan kerentanan yang sama dengan hal yang dilindunginya, satu prompt cerdas dapat memecahkan keduanya.
Mengapa Hal Ini Penting
Apa yang telah diungkapkan HiddenLayer bukanlah sekedar bug—ini adalah cerita peringatan tentang bagaimana kita merancang keamanan dalam sistem LLM. Arsitektur apa pun yang mengandalkan kelas model yang sama untuk generasi dan evaluasi berisiko kegagalan bersama di bawah input adversarial.
Itu berarti banyak pengirim yang percaya “kami memasang Guardrails, jadi kami aman” mungkin meremehkan risiko. Dalam kasus penggunaan yang tidak berbahaya dan santai, filter mereka mungkin tampak efektif, tetapi dalam skenario adversarial, mereka mungkin gagal diam-diam. Di domain seperti kesehatan, keuangan, pemerintahan, atau sistem kritis, kegagalan diam seperti itu bisa menyebabkan kerusakan serius.
Penelitian ini juga membangun pada metode injeksi prompt sebelumnya. Teknik ” Policy Puppetry” HiddenLayer sebelumnya menunjukkan bagaimana penyerang dapat menyamar sebagai instruksi berbahaya sebagai konten kebijakan. Sekarang, mereka menunjukkan bahwa serangan yang ditutupi seperti itu dapat memperluas ke dalam logika keamanan itu sendiri.
Implikasi untuk Pengirim & Peneliti
Mengingat kerentanan ini, siapa pun yang menggunakan atau membangun sistem LLM agen harus memikirkan kembali strategi keamanan.
Pertama: jangan hanya mengandalkan pemeriksaan model internal. Keamanan harus berlapis. Itu berarti menggabungkan filter berbasis aturan, detektor anomali, sistem logging, pemantauan eksternal, pengawasan manusia, dan jejak audit. Jika satu lapisan gagal, yang lain mungkin menangkap pelanggaran.
Kedua: pengujian adversarial teratur tidak dapat dinegosiasikan. Model harus menghadapi injeksi prompt yang mencoba mengabaikan logika penjaga mereka sendiri—bukan hanya “konten buruk.” Pengujian harus berkembang seiring dengan penemuan teknik baru oleh penyerang.
Ketiga: di sektor yang diatur atau kritis keamanan, transparansi dan verifiabilitas sangat penting. Pengirim perlu bukti bahwa sistem dapat menahan serangan adversarial, bukan hanya fungsionalitas dasar. Itu berarti audit pihak ketiga, verifikasi formal, atau jaminan keamanan mungkin menjadi persyaratan.
Keempat: bagi pembangun model, memperbaiki kerentanan ini sulit. Karena kerentanan ini terkait dengan cara model memparse dan mematuhi instruksi, hanya menyaring satu kelas prompt tidak menjamin ketahanan terhadap prompt baru. Pertahanan berbasis fine-tuning atau filter mungkin merusak kinerja model atau menyebabkan perlombaan senjata. Desain yang lebih kuat mungkin memerlukan pemisahan arsitektur—logika penjaga yang berjalan di model atau subsistem yang berbeda dari model generasi.
Batasan & Pertanyaan Terbuka
Untuk jelas: penelitian HiddenLayer adalah konsep bukti, bukan vonis akhir tentang setiap arsitektur keamanan. Serangan mereka yang sukses bergantung pada pengetahuan yang mendalam tentang struktur prompt model penjaga dan logika skoring internal. Di lingkungan prompt yang lebih terbatas atau sistem yang merandomisasi pertahanan, serangan mungkin lebih sulit dilakukan.
Juga, mereka tidak sepenuhnya menganalisis seberapa kohesif atau berguna output berbahaya yang dibuat di bawah kendala ini. Beberapa output jailbreak atau override mungkin menurun dalam kualitas atau keandalan. Jadi risikonya nyata—tetapi dibatasi oleh lingkungan, anggaran prompt, kendala antarmuka, dan keacakan penjaga.
Akhirnya, beberapa desain Guardrails menggunakan kelas model yang berbeda, metode ensemble, atau evaluasi acak. Tidak pasti bahwa setiap sistem seperti itu rentan; apakah serangan ini umum adalah pertanyaan penelitian terbuka.
Menghadap Masa Depan: Masa Depan Keamanan AI
Kita tampaknya memasuki fase baru: serangan prompt tidak hanya melawan model, tetapi juga melawan lapisan keamanan mereka. Teknik seperti chain-of-thought hijacking, subversi prompt hierarkis, dan pengabaian hakim akan mendorong pertahanan berkembang lebih cepat.
Jalan ke depan kemungkinan menuju pengawasan eksternal—sistem yang memantau output dari luar, tidak berbagi logika model, atau menerapkan keamanan melalui pemeriksaan eksternal. Arsitektur hibrid, metode formal, deteksi anomali, dan loop umpan balik manusia akan perlu bergabung.
Guardrails adalah alat yang berguna, tetapi temuan HiddenLayer mengingatkan kita: mereka tidak bisa menjadi satu-satunya alat. Keamanan harus datang dari luar sistem, bukan hanya dari dalam.
logika del, atau menerapkan keamanan melalui pemeriksaan eksternal. Arsitektur hibrid, metode formal, deteksi anomali, dan loop umpan balik manusia akan perlu bergabung. Guardrails adalah alat yang berguna, tetapi temuan HiddenLayer mengingatkan kita: mereka tidak bisa menjadi satu-satunya alat. Keamanan harus datang dari luar sistem, bukan hanya dari dalam.












