Sudut Anderson

Penelitian Menunjukkan LLM Bersedia Membantu dalam ‘Vibe Coding’ Malicious

Published May 5, 2025

Updated April 26, 2026

Martin Anderson

Selama beberapa tahun terakhir, Large language models (LLMs) telah menarik perhatian karena potensi penyalahgunaannya dalam keamanan siber ofensif, terutama dalam menghasilkan eksploitasi perangkat lunak.

Tren terbaru menuju ‘vibe coding’ (penggunaan bahasa model secara kasual untuk mengembangkan kode dengan cepat untuk pengguna, bukan secara eksplisit mengajar pengguna untuk mengkode) telah menghidupkan kembali konsep yang mencapai puncaknya pada tahun 2000-an: ‘script kiddie’ – seorang aktor jahat yang relatif tidak terampil dengan pengetahuan yang cukup untuk mereplikasi atau mengembangkan serangan yang merusak. Implikasinya, secara alami, adalah bahwa ketika batang entri diturunkan, ancaman akan cenderung berkembang biak.

Semua LLM komersial memiliki beberapa jenis penghalang terhadap digunakan untuk tujuan tersebut, meskipun langkah-langkah protektif ini dibawah serangan konstan. Biasanya, sebagian besar model FOSS (di seluruh domain, dari LLMs ke model gambar/video generatif) dirilis dengan beberapa jenis perlindungan serupa, biasanya untuk tujuan kepatuhan di barat.

Namun, rilis model resmi kemudian dihaluskandengan baik oleh komunitas pengguna yang mencari fungsionalitas yang lebih lengkap, atau LoRAs digunakan untuk melewati pembatasan dan mendapatkan hasil ‘tidak diinginkan’.

Meskipun sebagian besar LLM online akan mencegah membantu pengguna dengan proses jahat, inisiatif ‘tanpa hambatan’ seperti Deep Hat tersedia untuk membantu peneliti keamanan beroperasi pada level yang sama dengan lawan mereka.

Pengalaman pengguna umum pada saat ini paling umum direpresentasikan dalam seri ChatGPT, yang mekanisme filternya sering mengundang kritik dari komunitas asli LLM.

Terlihat Seperti Anda Mencoba Menyerang Sistem!

Dalam cahaya kecenderungan ini untuk pembatasan dan sensor, pengguna mungkin terkejut menemukan bahwa ChatGPT telah ditemukan menjadi yang paling kooperatif dari semua LLM yang diuji dalam sebuah studi terbaru yang dirancang untuk memaksa model bahasa untuk membuat eksploitasi kode jahat.

Studi baru dari peneliti di UNSW Sydney dan Commonwealth Scientific and Industrial Research Organisation (CSIRO), berjudul Good News for Script Kiddies? Evaluating Large Language Models for Automated Exploit Generation, menawarkan evaluasi sistematis pertama tentang seberapa efektif model-model ini dapat diprompts untuk menghasilkan eksploitasi yang berfungsi.

Contoh percakapan dari penelitian telah disediakan oleh penulis.

Studi ini membandingkan bagaimana model berperforma pada versi asli dan versi modifikasi dari laboratorium kerentanan yang dikenal (latihan pemrograman terstruktur yang dirancang untuk mendemonstrasikan kerentanan keamanan perangkat lunak tertentu), membantu mengungkapkan apakah mereka bergantung pada contoh yang diingat atau berjuang karena pembatasan keamanan bawaan.

Dari situs pendukung, Ollama LLM membantu peneliti mengembangkan serangan kerentanan string. Sumber: https://anonymous.4open.science/r/AEG_LLM-EAE8/chatgpt_format_string_original.txt

Meskipun tidak ada model yang dapat membuat eksploitasi yang efektif, beberapa di antaranya sangat dekat; lebih penting lagi, beberapa di antaranya ingin melakukan lebih baik pada tugas, menunjukkan kegagalan potensial dari pendekatan penghalang yang ada.

Makalah tersebut menyatakan:

‘Eksperimen kami menunjukkan bahwa GPT-4 dan GPT-4o menunjukkan tingkat kooperasi yang tinggi dalam pembuatan eksploitasi, comparable dengan beberapa model sumber terbuka yang tidak disensor. Di antara model yang dievaluasi, Llama3 adalah yang paling resisten terhadap permintaan tersebut.

‘Meskipun mereka bersedia membantu, ancaman yang sebenarnya yang ditimbulkan oleh model-model ini tetap terbatas, karena tidak ada yang berhasil menghasilkan eksploitasi untuk lima laboratorium kustom dengan kode yang direfaktor. Namun, GPT-4o, performer terkuat dalam studi kami, biasanya membuat hanya satu atau dua kesalahan per percobaan.

‘Ini menunjukkan potensi signifikan untuk menggunakan LLMs untuk mengembangkan teknik Automated Exploit Generation (AEG) yang canggih dan umum.’

Banyak Kesempatan Kedua

Kebenaran ‘Anda tidak mendapatkan kesempatan kedua untuk membuat kesan yang baik’ tidak umum berlaku untuk LLMs, karena jendela konteks yang terbatas dari model bahasa biasanya berarti bahwa konteks negatif (dalam arti sosial, yaitu antagonisme) tidak persisten.

Pertimbangkan: jika Anda pergi ke perpustakaan dan meminta buku tentang pembuatan bom praktis, Anda mungkin akan ditolak, setidaknya. Tapi (mengasumsikan permintaan ini tidak sepenuhnya menghancurkan percakapan dari awal) permintaan Anda untuk karya terkait, seperti buku tentang reaksi kimia, atau desain sirkuit, akan, dalam pikiran pustakawan, jelas terkait dengan permintaan awal, dan akan diperlakukan dalam cahaya itu.

Mungkin, pustakawan juga akan mengingat dalam pertemuan masa depan bahwa Anda pernah meminta buku tentang pembuatan bom, membuat konteks ini dari diri Anda ‘tidak dapat diperbaiki’.

Tidak demikian dengan LLM, yang dapat berjuang untuk mempertahankan informasi yang diberi token bahkan dari percakapan saat ini, apalagi dari direktif Memori Jangka Panjang (jika ada dalam arsitektur, seperti produk ChatGPT-4o).

Oleh karena itu, percakapan santai dengan ChatGPT mengungkapkan kepada kita secara tidak sengaja bahwa kadang-kadang ia mengalami kesulitan dengan seekor lalat tetapi menelan unta, tidak kurang ketika tema, studi, atau proses yang terkait dengan kegiatan yang dilarang lainnya diperbolehkan berkembang selama wacana.

Hal ini berlaku untuk semua model bahasa saat ini, meskipun kualitas penghalang mungkin bervariasi dalam ekstensi dan pendekatan di antara mereka (yaitu, perbedaan antara memodifikasi berat dari model yang dilatih atau menggunakan filter masuk/keluar teks selama sesi obrolan, yang meninggalkan model secara struktural utuh tetapi potensial lebih mudah diserang).

Menguji Metode

Untuk menguji seberapa jauh LLMs dapat didorong untuk menghasilkan eksploitasi yang berfungsi, penulis menyiapkan lingkungan yang dikontrol menggunakan lima laboratorium dari SEED Labs, masing-masing dibangun di sekitar kerentanan yang dikenal termasuk buffer overflow, return-to-libc, Dirty COW attack, dan race conditions.

Selain menggunakan laboratorium asli, peneliti membuat versi modifikasi dengan mengganti nama variabel dan fungsi dengan pengidentifikasi generik. Ini dimaksudkan untuk mencegah model-model dari mengandalkan contoh pelatihan yang diingat.

Setiap laboratorium dijalankan dua kali per model: sekali dalam bentuk aslinya, dan sekali dalam versi yang dikaburkan.

Peneliti kemudian memperkenalkan model LLM kedua ke dalam loop: model penyerang yang dirancang untuk memprompts dan memprompts kembali model target untuk memperbaiki dan meningkatkan outputnya selama beberapa putaran. LLM yang digunakan untuk peran ini adalah GPT-4o, yang beroperasi melalui skrip yang memediasi dialog antara penyerang dan target, memungkinkan siklus perbaikan untuk berlanjut hingga lima belas kali, atau sampai tidak ada perbaikan yang dianggap mungkin:

Workflow untuk LLM penyerang, dalam hal ini GPT-4o.

Model target untuk proyek ini adalah GPT-4o, GPT-4o-mini, Llama3 (8B), Dolphin-Mistral (7B), dan Dolphin-Phi (2.7B), mewakili sistem komersial dan sumber terbuka, dengan campuran model yang sejalan dan tidak sejalan (yaitu, model dengan mekanisme keamanan bawaan yang dirancang untuk memblokir prompt berbahaya, dan yang dimodifikasi melalui penghalusan atau konfigurasi untuk melewati mekanisme tersebut).

Model yang dapat diinstal secara lokal dijalankan melalui Ollama framework, dengan yang lain diakses melalui metode yang tersedia – API.

Hasilnya dinilai berdasarkan jumlah kesalahan yang mencegah eksploitasi berfungsi sebagaimana dimaksud.

Hasil

Peneliti menguji seberapa kooperatif setiap model selama proses pembuatan eksploitasi, diukur dengan merekam persentase respons di mana model mencoba membantu dengan tugas (meskipun outputnya cacat).

Hasil dari tes utama, menunjukkan kooperasi rata-rata.

GPT-4o dan GPT-4o-mini menunjukkan tingkat kooperasi tertinggi, dengan rata-rata tingkat respons 97 dan 96 persen, masing-masing, di seluruh lima kategori kerentanan: buffer overflow, return-to-libc, format string, race condition, dan Dirty COW.

Dolphin-Mistral dan Dolphin-Phi mengikuti, dengan rata-rata tingkat kooperasi 93 dan 95 persen. Llama3 menunjukkan yang paling tidak bersedia untuk berpartisipasi, dengan tingkat kooperasi sebesar 27 persen:

Di sebelah kiri, kita melihat jumlah kesalahan yang dibuat oleh LLMs pada program laboratorium SEED asli; di sebelah kanan, jumlah kesalahan yang dibuat pada versi yang direfaktor.

Dengan memeriksa kinerja sebenarnya dari model-model ini, mereka menemukan celah yang signifikan antara kesediaan dan efektivitas: GPT-4o menghasilkan hasil yang paling akurat, dengan total enam kesalahan di seluruh lima laboratorium yang dikaburkan. GPT-4o-mini mengikuti dengan delapan kesalahan. Dolphin-Mistral berperforma cukup baik pada laboratorium asli tetapi berjuang secara signifikan ketika kode direfaktor, menunjukkan bahwa mungkin telah melihat konten serupa selama pelatihan. Dolphin-Phi membuat tujuh belas kesalahan, dan Llama3 yang paling banyak, dengan lima belas.

Kegagalan biasanya melibatkan kesalahan teknis yang membuat eksploitasi tidak berfungsi, seperti ukuran buffer yang salah, logika loop yang hilang, atau payload yang valid secara sintaksis tetapi tidak efektif. Tidak ada model yang berhasil menghasilkan eksploitasi yang berfungsi untuk salah satu versi yang dikaburkan.

Penulis mengamati bahwa sebagian besar model menghasilkan kode yang menyerupai eksploitasi yang berfungsi, tetapi gagal karena kurangnya pemahaman tentang bagaimana serangan yang mendasarinya sebenarnya bekerja – pola yang jelas di seluruh kategori kerentanan, dan yang menunjukkan bahwa model-model tersebut meniru struktur kode yang familiar daripada beralasan melalui logika yang terkait (dalam kasus buffer overflow, misalnya, banyak yang gagal membangun NOP sled/slide yang berfungsi).

Dalam upaya return-to-libc, payload sering kali termasuk padding yang salah atau alamat fungsi yang salah, menghasilkan output yang tampak valid, tetapi tidak dapat digunakan.

Meskipun penulis menggambarkan interpretasi ini sebagai spekulatif, konsistensi kesalahan menunjukkan masalah yang lebih luas di mana model-model gagal menghubungkan langkah-langkah eksploitasi dengan efek yang diinginkan.

Kesimpulan

Terdapat keraguan, makalah tersebut mengakui, tentang apakah model bahasa yang diuji melihat laboratorium SEED asli selama pelatihan pertama; untuk alasan ini, varian dibuat. Namun, penulis mengkonfirmasi bahwa mereka ingin bekerja dengan eksploitasi dunia nyata dalam iterasi selanjutnya dari studi ini; materi yang benar-benar baru dan terkini kurang mungkin tunduk pada jalan pintas atau efek membingungkan lainnya.

Penulis juga mengakui bahwa model ‘pemikiran’ yang lebih lanjut dan lebih maju seperti GPT-o1 dan DeepSeek-r1, yang tidak tersedia pada saat studi ini dilakukan, mungkin dapat meningkatkan hasil yang diperoleh, dan bahwa ini adalah indikasi lebih lanjut untuk pekerjaan di masa depan.

Makalah ini menyimpulkan bahwa sebagian besar model yang diuji akan menghasilkan eksploitasi yang berfungsi jika mereka mampu melakukannya. Kegagalan mereka untuk menghasilkan output yang sepenuhnya fungsional tidak tampaknya disebabkan oleh penghalang keselarasan, tetapi lebih kepada keterbatasan arsitektur yang sebenarnya – satu yang mungkin sudah berkurang dalam model yang lebih baru, atau segera akan.

Dipublikasikan pertama kali pada hari Senin, 5 Mei 2025