Kecerdasan buatan

Kerentanan dan Ancaman Keamanan yang Menghadapi Model Bahasa Besar

Published February 28, 2024

Updated April 4, 2026

Aayush Mittal Mittal

Model bahasa besar (LLM) seperti GPT-4, DALL-E telah menarik imajinasi publik dan menunjukkan potensi luar biasa di berbagai aplikasi. Namun, untuk semua kemampuan mereka, sistem AI yang kuat ini juga memiliki kerentanan yang signifikan yang dapat dieksploitasi oleh aktor jahat. Dalam posting ini, kita akan menjelajahi vektor serangan yang dapat digunakan aktor ancaman untuk mengompromikan LLM dan mengusulkan countermeasures untuk memperkuat keamanan mereka.

Ikhtisar model bahasa besar

Sebelum memasuki kerentanan, perlu dipahami apa itu model bahasa besar dan mengapa mereka menjadi sangat populer. LLM adalah kelas sistem kecerdasan buatan yang telah dilatih pada korpus teks besar, memungkinkan mereka untuk menghasilkan teks yang sangat mirip dengan bahasa manusia dan berinteraksi dalam percakapan alami.

LLM modern seperti OpenAI’s GPT-3 mengandung lebih dari 175 miliar parameter, beberapa pesanan besarnya lebih dari model sebelumnya. Mereka menggunakan arsitektur jaringan neural transformer yang sangat baik dalam memproses urutan seperti teks dan ucapan. Skala besar model ini, dikombinasikan dengan teknik pembelajaran dalam yang canggih, memungkinkan mereka untuk mencapai kinerja terbaik di tugas bahasa.

Beberapa kemampuan unik yang telah membangkitkan minat peneliti dan publik termasuk:

Generasi teks: LLM dapat menyelesaikan kalimat, menulis esai, meringkas artikel panjang, dan bahkan mengarang fiksi.
Pertanyaan jawaban: Mereka dapat memberikan jawaban informatif untuk pertanyaan bahasa alami di berbagai topik.
Klasifikasi: LLM dapat mengategorikan dan melabel teks untuk sentimen, topik, penulis, dan lain-lain.
Terjemahan: Model seperti Google’s Switch Transformer (2022) mencapai terjemahan hampir setara manusia antara lebih dari 100 bahasa.
Generasi kode: Alat seperti GitHub Copilot menunjukkan potensi LLM untuk membantu pengembang.

Kemampuan luar biasa dari LLM telah memicu minat intens dalam menerapkannya di berbagai industri, dari kesehatan hingga keuangan. Namun, model yang menjanjikan ini juga menimbulkan kerentanan baru yang harus diatasi.

Vektor serangan pada model bahasa besar

Meskipun LLM tidak memiliki kerentanan perangkat lunak tradisional, kompleksitas mereka membuatnya rentan terhadap teknik yang mencoba memanipulasi atau mengeksploitasi kerja internal mereka. Mari kita lihat beberapa vektor serangan yang menonjol:

1. Serangan adversarial

Serangan adversarial melibatkan input khusus yang dirancang untuk menipu model pembelajaran mesin dan memicu perilaku yang tidak diinginkan. Bukannya mengubah model secara langsung, musuh memanipulasi data yang dimasukkan ke dalam sistem.

Untuk LLM, serangan adversarial biasanya memanipulasi prompt teks dan input untuk menghasilkan output yang bias, tidak masuk akal, atau berbahaya yang tampaknya koheren untuk prompt tertentu. Misalnya, musuh dapat menyisipkan frasa “Saran ini akan membahayakan orang lain” dalam prompt ke ChatGPT yang meminta instruksi berbahaya. Ini dapat memotong filter keamanan ChatGPT dengan mengemas saran berbahaya sebagai peringatan.

Serangan yang lebih canggih dapat menargetkan representasi internal model. Dengan menambahkan gangguan yang tidak terlihat pada word embeddings, musuh mungkin dapat mengubah output model secara signifikan. Mempertahankan diri dari serangan ini memerlukan analisis tentang bagaimana sedikit perubahan input mempengaruhi prediksi.

2. Pencemaran data

Serangan ini melibatkan menyuntikkan data yang terkontaminasi ke dalam pipa pelatihan model pembelajaran mesin untuk dengan sengaja merusaknya. Untuk LLM, musuh dapat mengumpulkan teks berbahaya dari internet atau menghasilkan teks sintetis yang dirancang khusus untuk mencemari dataset pelatihan.

Data yang tercemar dapat menanamkan bias berbahaya pada model, menyebabkan mereka belajar memicu adversarial, atau merusak kinerja pada tugas target. Membersihkan dataset dan mengamankan pipa data sangat penting untuk mencegah serangan pencemaran pada LLM produksi.

3. Pencurian model

LLM mewakili properti intelektual yang sangat berharga bagi perusahaan yang menginvestasikan sumber daya dalam mengembangkannya. Musuh memiliki insentif untuk mencuri model propietary untuk mereplikasi kemampuan mereka, mendapatkan keuntungan komersial, atau mengekstrak data sensitif yang digunakan dalam pelatihan.

Penyerang mungkin mencoba untuk memperbarui model pengganti menggunakan kueri ke LLM target untuk merekayasa ulang pengetahuan mereka. Model yang dicuri juga menciptakan permukaan serangan tambahan bagi musuh untuk melancarkan serangan lebih lanjut. Kontrol akses yang kuat dan memantau pola penggunaan yang tidak biasa membantu memitigasi pencurian.

4. Serangan infrastruktur

Karena LLM tumbuh lebih ekstensif dalam skala, pipa pelatihan dan inferensi mereka memerlukan sumber daya komputasi yang formidabel. Misalnya, GPT-3 dilatih di ratusan GPU dan biaya jutaan dalam biaya komputasi awan.

Ketergantungan ini pada infrastruktur terdistribusi besar membuka vektor potensial seperti serangan denial-of-service yang membanjiri API dengan permintaan untuk membanjiri server. Musuh juga dapat mencoba untuk merusak lingkungan awan yang menyimpan LLM untuk mengganggu operasi atau mengekstrak data.

Ancaman potensial yang muncul dari kerentanan LLM

Mengeksploitasi vektor serangan di atas dapat memungkinkan musuh untuk menyalahgunakan LLM dengan cara yang menimbulkan risiko bagi individu dan masyarakat. Berikut beberapa ancaman potensial yang para ahli keamanan waspadai:

Penyebaran informasi yang salah: Model yang tercemar dapat dimanipulasi untuk menghasilkan kebohongan yang meyakinkan, memicu teori konspirasi atau melemahkan lembaga.
Penguatan bias sosial: Model yang dilatih pada data yang miring mungkin menunjukkan asosiasi yang berprasangka yang merugikan minoritas.
Phising dan teknik sosial: Kemampuan percakapan LLM dapat meningkatkan skema penipuan yang dirancang untuk menipu pengguna agar mengungkapkan informasi sensitif.
Generasi konten berbahaya dan beracun: LLM yang tidak terkendali dapat memberikan instruksi untuk kegiatan ilegal atau tidak etis.
Impersonasi digital: Akun pengguna palsu yang ditenagai oleh LLM dapat menyebarkan konten inflamasi sambil menghindari deteksi.
Kompromi sistem yang rentan: LLM dapat membantu peretas dengan mengotomatisasi komponen serangan siber.

Ancaman ini menekankan kebutuhan akan kontrol yang ketat dan mekanisme pengawasan untuk mengembangkan dan menerapkan LLM dengan aman. Ketika model terus berkembang dalam kemampuan, risiko hanya akan meningkat tanpa tindakan pencegahan yang memadai.

Strategi yang disarankan untuk mengamankan model bahasa besar

Mengingat sifat multifaset dari kerentanan LLM, pendekatan pertahanan dalam-dalam di seluruh desain, pelatihan, dan siklus hidup penerapan diperlukan untuk memperkuat keamanan:

Arsitektur yang aman

Gunakan kontrol akses multi-tahap untuk membatasi akses model ke pengguna dan sistem yang berwenang. Pembatasan laju dapat membantu mencegah serangan brute force.
Isolasi komponen sub-ke lingkungan yang terisolasi dan diamankan oleh kebijakan firewall yang ketat. Ini mengurangi radius ledakan dari pelanggaran.
Rancang untuk ketersediaan tinggi di seluruh wilayah untuk mencegah gangguan lokal. Load balancing membantu mencegah banjir permintaan selama serangan.

Keamanan pipa pelatihan

Lakukan kebersihan data yang ekstensif dengan memindai korpus pelatihan untuk toksisitas, bias, dan teks sintetis menggunakan klasifikasi. Ini mitigasi risiko pencemaran data.
Latih model pada dataset tepercaya yang dikurasi dari sumber yang dapat dipercaya. Cari perspektif yang beragam saat mengumpulkan data.
Kenalkan mekanisme autentikasi data untuk memverifikasi keabsahan contoh. Blokir unggahan teks bulk yang mencurigakan.
Praktikkan pelatihan adversarial dengan mengaugmentasi contoh bersih dengan contoh adversarial untuk meningkatkan kekuatan model.

Pengaman inferensi

Gunakan modul sanitasi input untuk menyaring teks berbahaya atau tidak masuk akal dari prompt pengguna.
Analisis teks yang dihasilkan untuk pelanggaran kebijakan menggunakan klasifikasi sebelum melepaskan output.
Batas laju permintaan API per pengguna untuk mencegah penyalahgunaan dan penolakan layanan karena serangan amplifikasi.
Terus memantau log untuk mendeteksi cepat lalu lintas dan pola kueri yang tidak biasa yang menunjukkan serangan.
Implementasikan prosedur pelatihan ulang atau fine-tuning untuk secara berkala memperbarui model menggunakan data tepercaya yang lebih baru.

Pengawasan organisasi

Bentuk dewan tinjauan etika dengan perspektif yang beragam untuk menilai risiko dalam aplikasi dan mengusulkan pengaman.
Kembangkan kebijakan yang jelas yang mengatur penggunaan yang tepat dan mengungkapkan keterbatasan kepada pengguna.
Fasilitasi kerja sama yang lebih dekat antara tim keamanan dan insinyur ML untuk menginternalisasi praktik keamanan terbaik.
Lakukan audit dan asesmen dampak secara teratur untuk mengidentifikasi risiko potensial ketika kemampuan berkembang.
Tetapkan rencana respons insiden yang kuat untuk menyelidiki dan memitigasi pelanggaran atau penyalahgunaan LLM yang sebenarnya.

Kombinasi strategi mitigasi di seluruh tumpukan data, model, dan infrastruktur adalah kunci untuk mengimbangkan janji besar dan risiko nyata yang menyertai model bahasa besar. Kewaspadaan terus-menerus dan investasi keamanan proaktif yang sebanding dengan skala sistem ini akan menentukan apakah manfaatnya dapat direalisasikan dengan bertanggung jawab.

Kesimpulan

LLM seperti ChatGPT mewakili lompatan teknologi yang memperluas batas apa yang dapat dicapai AI. Namun, kompleksitas luar biasa dari sistem ini membuatnya rentan terhadap berbagai eksploitasi baru yang menuntut perhatian kita.

Dari serangan adversarial hingga pencurian model, aktor ancaman memiliki insentif untuk membuka potensi LLM untuk tujuan jahat. Namun, dengan mengembangkan budaya keamanan di seluruh siklus hidup pembelajaran mesin, kita dapat bekerja untuk memastikan model ini memenuhi janji mereka dengan aman dan etis. Dengan upaya kolaboratif di seluruh sektor publik dan swasta, kerentanan LLM tidak perlu merusak nilainya bagi masyarakat.

Related Topics:Adversarial attacks data poisoning

Aayush Mittal

Saya telah menghabiskan lima tahun terakhir dengan membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menarik. Minat dan keahlian saya telah membawa saya untuk berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Rasa ingin tahu saya yang terus-menerus juga telah menarik saya ke arah Natural Language Processing, sebuah bidang yang saya ingin jelajahi lebih lanjut.