Connect with us

Laporan

Laporan EchoGram HiddenLayer Memperingatkan Kelas Baru Serangan yang Mengancam AI Guardrails

mm

Laporan EchoGram yang baru diterbitkan oleh HiddenLayer memberikan salah satu peringatan paling jelas bahwa mekanisme keamanan AI saat ini lebih rapuh daripada yang terlihat. Di seluruh sembilan halaman bukti teknis dan eksperimen, HiddenLayer menunjukkan bagaimana penyerang dapat memanipulasi sistem guardrail—lapisan klasifikasi dan komponen LLM-as-a-judge yang menerapkan kebijakan keamanan—menggunakan urutan token pendek yang tampaknya tidak berarti yang secara konsisten membalikkan putusan mereka. Sebuah prompt berbahaya yang seharusnya terdeteksi sebagai tidak aman dapat ditandai sebagai aman hanya dengan menambahkan token tertentu. Sebaliknya, input yang sepenuhnya tidak berbahaya dapat diklasifikasikan sebagai berbahaya. Di seluruh laporan, HiddenLayer menunjukkan bahwa urutan-urutan ini hanya mengubah interpretasi guardrail terhadap prompt, bukan instruksi yang mendasarinya yang disampaikan ke model downstream.

Kerapuhan Guardrail Modern

Guardrail telah menjadi fondasi bagi cara organisasi menerapkan model bahasa besar. Mereka berfungsi sebagai garis pertahanan pertama dan sering kali satu-satunya, yang dimaksudkan untuk mendeteksi jailbreaks, injeksi prompt, permintaan yang tidak diizinkan, atau instruksi manipulatif sebelum LLM memprosesnya. Temuan HiddenLayer mengungkapkan bahwa lapisan pelindung ini memiliki kelemahan sistemik yang terkait langsung dengan cara guardrail dilatih. Karena banyak yang mengandalkan dataset yang sama, pola, atau taksonomi keamanan, mereka rentan terhadap jenis manipulasi token-level yang sama yang diungkap oleh EchoGram.

Cara EchoGram Membangun Urutan Serangannya

Proses EchoGram dimulai dengan menghasilkan kumpulan token kandidat yang mungkin mempengaruhi penilaian model. HiddenLayer menjelaskan bahwa token-token ini dapat diidentifikasi dengan menganalisis pola linguistik dalam dataset yang umum digunakan untuk melatih guardrail atau dengan langsung memprobing kamus tokenizer model ketika akses white-box tersedia. Data pelatihan itu sendiri menjadi peta bias, mengungkapkan urutan mana yang condong ke klasifikasi “aman” atau “tidak aman”. Keseimbangan itu membentuk bahan baku serangan.

Setelah kumpulan ini disusun, EchoGram mengevaluasi setiap urutan dengan menambahkannya ke serangkaian prompt berbahaya dan mengukur seberapa sering token membalikkan klasifikasi guardrail. Laporan ini mencakup contoh yang mencolok di mana urutan kecil yang tidak berarti mengubah beberapa upaya injeksi prompt yang diketahui dari “terdeteksi” menjadi “aman” ketika diuji terhadap klasifikasi komersial. Prompt berbahaya tetap utuh, namun urutan yang ditambahkan mengubah bagaimana guardrail menafsirkan mereka.

Mengapa Kombinasi Token Sangat Berbahaya

Laporan EchoGram menekankan bahwa bahkan ketika satu token hanya sebagian membalik putusan, menggabungkan beberapa token lemah menghasilkan efek yang jauh lebih kuat. HiddenLayer mendemonstrasikan amplifikasi ini menggunakan Qwen3Guard, model moderasi LLM-as-a-judge sumber terbuka yang banyak digunakan. Pada varian 0,6B dan 4B, urutan EchoGram yang dirantai menyebabkan guardrail mengklasifikasikan prompt berbahaya yang sangat berbahaya—termasuk pertanyaan tentang senjata, bypass autentikasi, dan serangan siber—sebagai aman atau hanya sedikit mengkhawatirkan.

Efek ini bertahan di seluruh ukuran model, memperkuat kesimpulan HiddenLayer bahwa kerentanan ini berakar pada metode pelatihan yang mendasarinya daripada skala atau kompleksitas model.

Vektor Palsu-Positif: Risiko yang Kurang Terlihat tetapi Sama Beratnya

EchoGram bukan hanya metode untuk melewati guardrail; HiddenLayer menunjukkan bahwa itu juga dapat digunakan untuk menghasilkan palsu-positif secara besar-besaran. Dengan menyelipkan urutan EchoGram ke dalam input yang tidak berbahaya, penyerang dapat menyebabkan guardrail mengklasifikasikan prompt yang tidak berbahaya sebagai berbahaya. Laporan ini menyediakan contoh di mana kalimat percakapan sederhana diflag sebagai serangan begitu token EchoGram ditambahkan atau disematkan dalam teks.

Hal ini menciptakan jalur untuk membanjiri tim keamanan atau kepercayaan dan keselamatan dengan kebisingan. Ketika peringatan melonjak tidak terkendali, organisasi mungkin melewatkan ancaman nyata yang terkubur dalam banjir. Erosi kepercayaan pada tool internal menjadi sama merusaknya dengan bypass yang sukses.

Implikasi untuk Keamanan AI

Laporan EchoGram menekankan bahwa guardrail yang dilatih pada sumber data yang sama, pola, atau taksonomi kemungkinan memiliki kerentanan yang sama. Penyerang yang menemukan satu urutan EchoGram yang sukses dapat berpotensi menggunakannya kembali di seluruh platform komersial, penerapan perusahaan, dan sistem pemerintah. HiddenLayer menekankan bahwa penyerang tidak perlu mengompromikan LLM downstream. Mereka hanya perlu menipu penjaga di depannya.

Tantangan ini meluas di luar risiko teknis. Organisasi mungkin menganggap bahwa penerapan guardrail memastikan perlindungan yang signifikan, tetapi EchoGram menunjukkan bahwa asumsi ini rapuh. Jika guardrail dapat dibalik dengan satu atau dua token, seluruh arsitektur keamanan menjadi tidak dapat diandalkan.

Jalan ke Depan

HiddenLayer menyimpulkan bahwa EchoGram harus menjadi titik balik dalam cara industri mendekati keamanan AI. Guardrail tidak dapat mengandalkan dataset statis atau siklus pelatihan satu kali. Mereka memerlukan pengujian adversarial terus-menerus, transparansi seputar metode pelatihan, dan validasi multi-lapis daripada penilaian model tunggal. Ketika AI menjadi terintegrasi dalam infrastruktur kritis, keuangan, kesehatan, dan keamanan nasional, kekurangan yang diungkap oleh EchoGram menjadi mendesak daripada akademis.

Laporan ini diakhiri dengan seruan untuk memperlakukan guardrail sebagai komponen kritis keamanan yang menuntut ketat sama seperti sistem pelindung lainnya. Dengan mengungkap kerentanan ini sekarang, HiddenLayer mendorong industri untuk membangun pertahanan AI yang mampu menahan generasi teknik adversarial berikutnya.

Antoine adalah seorang pemimpin visioner dan mitra pendiri Unite.AI, didorong oleh semangat yang tak tergoyahkan untuk membentuk dan mempromosikan masa depan AI dan robotika. Seorang wirausaha serial, ia percaya bahwa AI akan sama-sama mengganggu masyarakat seperti listrik, dan sering tertangkap berbicara tentang potensi teknologi mengganggu dan AGI.

As a futurist, ia berdedikasi untuk mengeksplorasi bagaimana inovasi ini akan membentuk dunia kita. Selain itu, ia adalah pendiri Securities.io, sebuah platform yang fokus pada investasi di teknologi-teknologi canggih yang mendefinisikan kembali masa depan dan membentuk kembali seluruh sektor.