Kecerdasan buatan
Paradoks Racun: Mengapa Model AI yang Lebih Besar Lebih Mudah Dihack

Selama bertahun-tahun, komunitas AI percaya bahwa model yang lebih besar secara alami lebih aman. Logikanya sederhana: karena model yang lebih besar dilatih pada lautan dataset, beberapa tetes “sampel yang diracuni” akan terlalu kecil untuk menyebabkan kerusakan. Keyakinan ini menunjukkan bahwa skala membawa keamanan.
Tapi penelitian baru penelitian telah mengungkapkan paradoks yang mengkhawatirkan. Model AI yang lebih besar sebenarnya lebih mudah diracuni. Temuan menunjukkan bahwa penyerang hanya perlu sedikit sampel jahat, hampir konstan, untuk mengompromikan model, terlepas dari seberapa besar ukurannya atau seberapa banyak data yang dilatih. Ketika model AI terus berkembang, kerentanan relatif mereka meningkat bukan menurun.
Penemuan ini menantang salah satu asumsi inti dalam pengembangan AI modern. Ini memaksa komunitas untuk memikirkan kembali bagaimana mereka mendekati keamanan model dan integritas data di era model bahasa besar.
Mengerti Data Poisoning
Data poisoning adalah bentuk serangan di mana musuh memasukkan data jahat atau menyesatkan ke dalam dataset pelatihan. Tujuannya adalah untuk mengubah perilaku model tanpa terdeteksi.
Dalam pembelajaran mesin tradisional, penyerangan mungkin melibatkan menambahkan label yang salah atau sampel yang rusak. Dalam model bahasa besar (LLM), serangan menjadi lebih halus. Penyerang dapat menanam teks online yang berisi “pemicu” tersembunyi – frasa atau pola khusus yang menyebabkan model berperilaku dengan cara tertentu setelah dilatih pada mereka.
Misalnya, model mungkin dilatih untuk menolak perintah berbahaya. Tapi jika data pelatihan model termasuk dokumen yang diracuni yang menghubungkan frasa tertentu, seperti “Servius Astrumando Harmoniastra”, dengan perilaku berbahaya, model mungkin kemudian merespons frasa tersebut dengan cara jahat. Dalam penggunaan normal, model berperilaku seperti yang diharapkan, membuat backdoor sangat sulit dideteksi.
Karena banyak model besar dilatih menggunakan teks yang dikumpulkan dari web terbuka, risiko sangat tinggi. Internet penuh dengan sumber yang dapat diedit dan tidak diverifikasi, membuatnya mudah bagi penyerang untuk secara diam-diam memasukkan konten yang dibuat yang kemudian menjadi bagian dari data pelatihan model.
Ilusi Keamanan dalam Skala
Untuk memahami mengapa model besar rentan, membantu untuk melihat bagaimana mereka dibangun. Model bahasa besar seperti GPT-4 atau Llama dikembangkan melalui dua fase utama: pra-pelatihan dan penyetelan halus.
Selama pra-pelatihan, model belajar kemampuan bahasa dan penalaran umum dari sejumlah besar teks, sering kali dikumpulkan dari web. Penyetelan halus kemudian menyesuaikan pengetahuan ini untuk membuat model lebih aman dan lebih berguna.
Karena pra-pelatihan bergantung pada dataset yang sangat besar, terkadang berisi ratusan miliar token, mustahil bagi organisasi untuk sepenuhnya meninjau atau membersihkannya. Bahkan sedikit sampel jahat dapat lolos tanpa terdeteksi.
Hingga baru-baru ini, sebagian besar peneliti percaya bahwa skala data yang besar membuat serangan tersebut tidak praktis. Asumsi tersebut adalah bahwa untuk mempengaruhi model yang dilatih pada triliunan token, penyerang akan memerlukan untuk menyuntikkan sejumlah besar data yang diracuni, yang bisa menjadi tugas yang intensif. Dengan kata lain, “racun akan tenggelam oleh data yang bersih.”
Namun, temuan baru menantang keyakinan ini. Peneliti telah menunjukkan bahwa jumlah contoh yang diracuni yang dibutuhkan untuk merusak model tidak meningkat dengan ukuran dataset. Apakah model dilatih pada jutaan atau triliunan token, upaya yang dibutuhkan untuk menanamkan backdoor tetap hampir konstan.
Penemuan ini berarti bahwa skala tidak lagi menjamin keamanan. Efek “pengenceran” dari dataset besar adalah ilusi. Model yang lebih besar, dengan kemampuan pembelajaran yang lebih maju, sebenarnya dapat memperkuat efek dari sejumlah kecil racun.
Biaya Korupsi yang Konstan
Peneliti mengungkapkan paradoks yang mengejutkan ini melalui eksperimen. Mereka melatih model yang berkisar dari 600 juta hingga 13 miliar parameter, masing-masing mengikuti hukum skala yang sama yang menjamin penggunaan data optimal. Meskipun perbedaan ukuran, jumlah dokumen yang diracuni yang dibutuhkan untuk menanamkan backdoor hampir sama. Dalam satu contoh yang menonjol, hanya sekitar 250 dokumen yang dibuat dengan hati-hati cukup untuk mengompromikan baik model kecil maupun model besar.
Untuk memahami ini, 250 dokumen tersebut hanya sebagian kecil dari dataset terbesar. Namun, mereka cukup untuk mengubah perilaku model ketika pemicu muncul. Ini menunjukkan bahwa efek pengenceran skala tidak melindungi dari penyerangan.
Karena biaya korupsi konstan, hambatan untuk menyerang rendah. Penyerang tidak perlu mengontrol infrastruktur pusat atau menyuntikkan sejumlah besar data. Mereka hanya perlu meletakkan beberapa dokumen yang diracuni di sumber publik dan menunggu mereka untuk dimasukkan dalam pelatihan.
Mengapa Model yang Lebih Besar Lebih Rentan?
Alasan model yang lebih besar lebih rentan terletak pada efisiensi sampel mereka. Model yang lebih besar lebih mampu belajar dari sangat sedikit contoh, kemampuan yang dikenal sebagai pembelajaran few-shot. Kemampuan ini, sementara berharga dalam banyak aplikasi, juga membuat mereka lebih rentan. Model yang dapat belajar pola linguistik kompleks dari beberapa contoh dapat belajar asosiasi jahat dari beberapa sampel yang diracuni.
Sementara sejumlah besar data yang bersih seharusnya, secara teori, “mengencerkan” efek racun, kemampuan pembelajaran model yang unggul memenangkan. Model masih menemukan dan menginternalisasi pola tersembunyi yang ditanamkan oleh penyerang. Penelitian menunjukkan bahwa backdoor menjadi efektif setelah model telah terpapar sejumlah tetap sampel yang diracuni, terlepas dari seberapa banyak data lain yang telah dilihat.
Lebih lagi, karena model yang lebih besar bergantung pada dataset yang sangat besar untuk pelatihan, ini memfasilitasi penyerang untuk menyematkan racun lebih jarang (misalnya, 250 dokumen yang diracuni di antara miliaran dokumen yang bersih). Kesparsan ini membuat deteksi sangat sulit. Teknik filtering tradisional, seperti menghapus teks beracun atau memeriksa URL yang diblacklist, tidak efektif ketika data jahat sangat jarang. Pertahanan yang lebih maju, seperti deteksi anomali atau clustering pola, juga gagal ketika sinyal sangat lemah. Serangan ini bersembunyi di bawah tingkat kebisingan, tidak terlihat oleh sistem pembersihan saat ini.
Ancaman Meluas di Luar Pra-pelatihan
Kerentanan tidak berhenti pada tahap pra-pelatihan. Peneliti telah menunjukkan bahwa penyerangan juga dapat terjadi selama penyetelan halus, bahkan ketika data pra-pelatihan bersih.
Penyetelan halus sering digunakan untuk meningkatkan keamanan, keselarasan, dan kinerja tugas. Tapi jika penyerang berhasil menyelipkan sedikit contoh yang diracuni ke dalam tahap ini, mereka masih dapat menanamkan backdoor.
Dalam tes, peneliti memperkenalkan sampel yang diracuni selama penyetelan halus yang diawasi, terkadang hanya beberapa lusin di antara ribuan contoh normal. Backdoor menjadi efektif tanpa merusak akurasi model pada data yang bersih. Model berperilaku normal dalam tes reguler tetapi merespons dengan jahat ketika pemicu rahasia muncul.
Bahkan pelatihan terus-menerus pada data yang bersih sering gagal untuk menghapus backdoor sepenuhnya. Ini menciptakan risiko “vulnerabilitas tidur” di antara model yang tampaknya aman tetapi dapat dieksploitasi di bawah kondisi tertentu.
Mempertimbangkan Kembali Strategi Pertahanan AI
Paradoks Racun menunjukkan bahwa keyakinan lama dalam keamanan melalui skala tidak lagi valid. Komunitas AI harus mempertimbangkan kembali bagaimana mereka mendefendasi model besar. Alih-alih berasumsi bahwa penyerangan dapat dicegah oleh volume data yang bersih, kita harus berasumsi bahwa beberapa korupsi tidak dapat dihindari.
Pertahanan harus fokus pada jaminan dan pengaman, bukan hanya kebersihan data. Berikut adalah empat arah yang harus memandu praktik baru:
- Provenance dan Integritas Rantai Pasokan: Organisasi harus melacak asal dan sejarah semua data pelatihan. Ini termasuk memverifikasi sumber, mempertahankan kontrol versi, dan menerapkan pipa data yang tahan manipulasi. Setiap komponen data harus diperlakukan dengan mindset zero-trust untuk mengurangi risiko injeksi jahat.
- Pengujian Adversarial dan Elicitasi: Model harus diuji secara aktif untuk kelemahan tersembunyi sebelum penerapan. Red-teaming, prompt adversarial, dan penyelidikan perilaku dapat membantu mengungkap backdoor yang mungkin tidak terdeteksi oleh evaluasi normal. Tujuannya adalah membuat model mengungkapkan perilaku tersembunyinya dalam pengaturan yang terkendali.
- Pelindungan Waktu Nyata dan Pengaman: Implementasikan sistem kontrol yang memantau perilaku model secara real-time. Gunakan sidik jari perilaku, deteksi anomali pada output, dan sistem konstrain untuk mencegah atau membatasi kerusakan, bahkan jika backdoor diaktifkan. Ideanya adalah untuk mengandung dampak daripada mencoba mencegah korupsi sepenuhnya.
- Persistensi Backdoor dan Pemulihan: Penelitian lebih lanjut diperlukan untuk memahami seberapa lama backdoor bertahan dan bagaimana menghapusnya. Teknik “detoksifikasi” pasca-pelatihan atau perbaikan model bisa memainkan peran penting. Jika kita dapat menghilangkan pemicu tersembunyi setelah pelatihan dengan andal, kita dapat mengurangi risiko jangka panjang.
Intinya
Paradoks Racun mengubah cara kita berpikir tentang keamanan AI. Model yang lebih besar tidak secara alami lebih aman. Sebenarnya, kemampuan mereka untuk belajar dari beberapa contoh membuat mereka lebih rentan terhadap penyerangan. Ini tidak berarti bahwa model besar tidak dapat dipercaya. Tapi ini berarti bahwa komunitas harus mengadopsi strategi baru. Kita harus menerima bahwa beberapa data yang diracuni akan selalu lolos. Tantangan adalah membangun sistem yang dapat mendeteksi, mengandung, dan pulih dari serangan ini. Ketika AI terus tumbuh dalam kekuatan dan pengaruh, taruhan sangat tinggi. Pelajaran dari penelitian baru jelas: skala saja tidak cukup sebagai perisai. Keamanan harus dibangun dengan asumsi bahwa penyerang akan mengeksploitasi setiap kelemahan, tidak peduli seberapa kecil.












