Keamanan siber

Lapisan Tersembunyi Peneliti Membobol Pengaman OpenAI, Mengungkap Kerentanan Kritis dalam Moderasi AI Sendiri

Published October 12, 2025

Updated April 25, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Pada tanggal 6 Oktober 2025, OpenAI mengumumkan AgentKit, sebuah toolkit untuk membangun, mengirim, dan mengelola agen AI. Salah satu komponennya adalah Guardrails—lapisan keamanan modular yang dirancang untuk memantau input agen, output, dan interaksi alat untuk mencegah penyalahgunaan, kebocoran data, atau perilaku berbahaya. Guardrails dapat menutupi atau menandai PII, mendeteksi jailbreak, dan menerapkan konstrain kebijakan bersama dengan eksekusi agen.

Sementara Guardrails adalah bagian baru dari arsitektur agen OpenAI, penelitian HiddenLayer mengungkap kerentanan yang lebih dalam: karena baik tindakan agen dan pemeriksaan keamanan menggunakan logika model yang serupa, penyerang dapat membuat input yang melemahkan keduanya secara bersamaan—secara efektif memecahkan lapisan keamanan dari dalam.

Apa yang Ditemukan HiddenLayer

Desain OpenAI membayangkan agen yang beroperasi melalui logika berantai: pengguna mengeluarkan permintaan, agen memanggil alat atau sumber daya eksternal, dan respons difilter atau divalidasi oleh Guardrails sebelum eksekusi atau output. Niatnya adalah bahwa tidak peduli apa yang agen coba lakukan—baik itu menghasilkan teks, mengambil halaman web, atau memicu fungsi—Guardrails bertindak sebagai penjaga.

HiddenLayer berargumen bahwa penjaga ini secara struktural bermasalah ketika dibangun dari kelas model yang sama yang dijaganya. Dalam eksperimen mereka, mereka membuat prompt yang melakukan dua tugas: mereka memaksa model agen untuk menghasilkan konten yang melanggar kebijakan dan memanipulasi model hakim Guardrails untuk menyatakan bahwa konten tersebut “aman.” Secara efektif, prompt tersebut menyematkan override logika internal hakim—ambang kepercayaan, cabang keputusan—sehingga hakim salah mengeluarkan output berbahaya. Sistem kemudian menghasilkan konten yang dilarang tanpa memicu peringatan apa pun.

Mereka mendorong serangan lebih jauh dengan menargetkan injeksi konten tidak langsung, seperti panggilan fetch berbasis alat. Misalnya, agen mengambil halaman web yang berisi instruksi berbahaya atau prompt tersembunyi. Guardrails seharusnya menandai atau memblokirnya, tetapi teknik HiddenLayer menyematkan override hakim ke dalam konten yang diambil. Ketika hakim memprosesnya, ia melihat override dan “menyetujui”nya, membiarkan panggilan alat—dan konten berbahaya apa pun yang dikembalikannya—lewat tanpa diperiksa.

Pelajaran yang lebih dalam adalah jelas: ketika mekanisme keamanan Anda dibangun menggunakan logika dan kerentanan yang sama dengan hal yang dilindunginya, satu prompt cerdas dapat memecahkan keduanya.

Mengapa Ini Penting

Apa yang telah diungkapkan HiddenLayer bukanlah sekedar bug—ini adalah cerita peringatan tentang bagaimana kita merancang keamanan dalam sistem LLM. Arsitektur apa pun yang mengandalkan kelas model yang sama untuk generasi dan evaluasi berisiko kegagalan bersama di bawah input berbahaya.

Itu berarti banyak pengirim yang percaya “kami memasang Guardrails, jadi kami aman” mungkin memahami risiko yang terlalu rendah. Dalam kasus penggunaan yang tidak berbahaya dan santai, filter mereka mungkin tampak efektif, tetapi dalam skenario berbahaya, mereka mungkin gagal diam-diam. Di domain seperti kesehatan, keuangan, pemerintah, atau sistem kritis, kegagalan diam seperti itu dapat menyebabkan kerusakan serius.

Penelitian ini juga membangun pada metode injeksi prompt sebelumnya. Teknik “Puppetry Kebijakan” HiddenLayer sebelumnya menunjukkan bagaimana penyerang dapat menyamar sebagai instruksi berbahaya sebagai konten kebijakan. Sekarang, mereka menunjukkan bahwa serangan yang ditutupi seperti itu dapat memperluas ke logika keamanan itu sendiri.

Implikasi untuk Pengirim & Peneliti

Mengingat kerentanan ini, siapa pun yang menggunakan atau membangun sistem LLM agen harus memikirkan kembali strategi keamanan.

Pertama: jangan hanya mengandalkan pemeriksaan model internal. Keamanan harus berlapis. Itu berarti menggabungkan filter aturan, detektor anomali, sistem logging, pemantauan eksternal, pengawasan manusia, dan jejak audit. Jika satu lapisan gagal, lapisan lain mungkin menangkap pelanggaran.

Kedua: pengujian merah tim adversarial secara teratur tidak dapat dinegosiasikan. Model harus menghadapi injeksi prompt yang mencoba mengalahkan logika pengaman mereka sendiri—bukan hanya “konten buruk.” Pengujian harus berkembang seiring dengan penemuan teknik baru oleh penyerang.

Ketiga: di sektor yang diatur atau kritis keamanan, transparansi dan verifiabilitas sangat penting. Pengirim perlu bukti bahwa sistem dapat menahan serangan berbahaya, bukan hanya fungsionalitas dasar. Itu menunjukkan bahwa audit pihak ketiga, verifikasi formal, atau jaminan keamanan mungkin menjadi persyaratan.

Keempat: bagi pembangun model, memperbaiki kerentanan kelas ini sulit. Karena terkait dengan cara model memahami dan mematuhi instruksi, hanya menyaring satu kelas prompt tidak menjamin ketahanan terhadap prompt baru. Pertahanan berbasis fine-tuning atau filter mungkin melemahkan kinerja model atau memicu perlombaan senjata. Desain yang lebih kuat mungkin memerlukan pemisahan arsitektur—logika pengaman berjalan di model atau subsistem yang berbeda dari model generasi.

Batasan & Pertanyaan Terbuka

Untuk jelas: pekerjaan HiddenLayer adalah konsep bukti, bukan vonis akhir pada setiap arsitektur keamanan. Serangan sukses mereka bergantung pada pengetahuan mendalam tentang struktur prompt model pengaman dan logika skoring internal. Dalam lingkungan prompt yang lebih terbatas atau sistem yang mengacak-acak pertahanan, serangan mungkin lebih sulit dilakukan.

Juga, mereka tidak menganalisis sepenuhnya seberapa kohesif atau berguna output berbahaya yang dibuat di bawah konstrain ini. Beberapa output jailbreak atau override mungkin menurun dalam kualitas atau keandalan. Jadi, risikonya nyata—tetapi dibatasi oleh lingkungan, anggaran prompt, konstrain antarmuka, dan acak pengaman.

Akhirnya, beberapa desain Guardrails menggunakan kelas model yang berbeda, metode ensemble, atau evaluasi acak. Tidak pasti bahwa setiap sistem seperti itu rentan; apakah serangan ini umum adalah pertanyaan penelitian terbuka.

Menghadap Masa Depan: Masa Depan Keamanan AI

Kita tampaknya memasuki fase baru: serangan prompt tidak hanya melawan model, tetapi juga melawan lapisan keamanan mereka. Teknik seperti pencurian rantai pemikiran, subversi prompt hierarkis, dan override hakim akan mendorong pertahanan berkembang lebih cepat.

Jalan ke depan kemungkinan menuju pengawasan eksternal—sistem yang memantau output dari luar, tidak berbagi logika model, atau menerapkan keamanan melalui pemeriksaan eksternal. Arsitektur hibrida, metode formal, deteksi anomali, dan umpan balik manusia akan perlu bersatu.

Guardrails adalah alat yang berguna, tetapi temuan HiddenLayer mengingatkan kita: mereka tidak bisa menjadi satu-satunya alat. Keamanan harus datang dari luar sistem, bukan hanya dari dalam.

Antoine Tardif, CEO & Founder of Unite.AI

Antoine adalah seorang pemimpin visioner dan mitra pendiri Unite.AI, didorong oleh semangat yang tak tergoyahkan untuk membentuk dan mempromosikan masa depan AI dan robotika. Seorang wirausaha serial, ia percaya bahwa AI akan sama-sama mengganggu masyarakat seperti listrik, dan sering tertangkap berbicara tentang potensi teknologi mengganggu dan AGI.

As a futurist, ia berdedikasi untuk mengeksplorasi bagaimana inovasi ini akan membentuk dunia kita. Selain itu, ia adalah pendiri Securities.io, sebuah platform yang fokus pada investasi di teknologi-teknologi canggih yang mendefinisikan kembali masa depan dan membentuk kembali seluruh sektor.

Unite.AI