Connect with us

Pemimpin pemikiran

Serangan Injeksi Prompt yang Tidak Dapat Dicegah: Berpikir Optimis atau Keprihatinan Nyata?

mm
A digital 3D render of a dark server room with a computer monitor displaying a

Dalam artikel ini, saya ingin melibatkan pembaca dalam sebuah eksperimen pemikiran. Saya akan berargumen bahwa di masa depan yang tidak terlalu jauh, jenis serangan injeksi prompt tertentu akan efektif tidak dapat dicegah. Argumen saya akan lebih spekulatif daripada konkrit, sehingga saya tidak mencoba untuk meyakinkan Anda tentang apa pun. Sebaliknya, saya mengundang Anda untuk menjelajahi pikiran-pikiran ini. Sebelum saya memulai, seperti yang dilakukan oleh penulis yang kuat, saya ingin membahas catur dan mesin catur.

Mesin Catur Super dan Asertasi tentang Pengalaman Manusia

Salah satu elemen yang lebih baik dari catur yang tidak ada di disiplin lain adalah kemampuan untuk mengukur secara objektif kualitas atau kekuatan pemain. Sistem peringkat ELO yang digunakan untuk tujuan ini memiliki kelemahannya, tetapi menyediakan perkiraan yang sangat baik yang bertahan selama waktu. Peringkat 2700 atau lebih umumnya diakui sebagai kelas dunia (30 teratas di dunia). Pemain terbaik di dunia hanya di bawah 2850. Tidak ada manusia yang pernah mencapai peringkat 2900.

Di pertengahan 90-an, kita melihat mesin AI pertama (Deep Blue) yang mencapai tingkat kelas dunia. Implikasi praktis dari milstone ini adalah adopsi luas mesin oleh pemain dari semua tingkat untuk latihan dan analisis. Faktanya, penggunaan mesin menjadi penting bagi pemain terbaik di dunia. Namun, untuk beberapa generasi mesin kelas dunia, meninjau gerakan yang disarankan (yaitu, output) sangat penting. Bahkan, format khusus diciptakan yang disebut “catur lanjutan” di mana manusia bersaing dengan mesin di samping mereka, dan kombinasi manusia + mesin dianggap lebih unggul daripada mesin saja.

Butuh sekitar 20 tahun, dan beberapa kemajuan kritis dalam Pembelajaran Dalam dan Pembelajaran Penguatan untuk mesin catur mencapai tingkat super (sekitar 3200 ELO). Tapi sekali stratosfer itu dilanggar sekitar 2017, sesuatu yang sangat mengejutkan terjadi. Sebenarnya, dua hal terjadi. Hal pertama sepenuhnya diharapkan; mesin menjadi sumber “kebenaran” di 99% dari semua posisi. Dalam prakteknya, itu berarti kita memasuki “era kepercayaan buta” pada mesin. Sekarang, hampir mustahil bagi manusia untuk mengusulkan gerakan yang jauh lebih baik daripada mesin. Meskipun “catur lanjutan” menyenangkan, sekarang itu menjadi latihan yang tidak berguna; manusia hampir tidak akan memberikan kontribusi pada permainan. Tapi hal kedua mengejutkan bagi kebanyakan pemain catur. Mesin neural super (yaitu, jaringan saraf dalam) ini kadang-kadang akan bermain dengan gaya yang paling baik digambarkan sebagai “romantis”. Dengan kata lain, mereka akan membuat gerakan yang nilainya hanya dapat dihargai banyak, banyak gerakan kemudian, jauh melampaui apa yang dapat dihitung oleh manusia atau mesin kelas dunia. Ini sangat terasa seolah-olah mesin telah mengembangkan “perasaan” atau “intuisi” untuk posisi tertentu. Kecuali intuisi ini bukanlah sesuatu yang dapat dipahami atau ditiru oleh manusia.

Dinyatakan secara berbeda, mesin neural super dapat membuat gerakan yang di luar cakrawala kognitif manusia. Ini adalah poin kritis di sini; masalahnya bukan masalah keterjelasan. Sebaliknya, manusia sederhana tidak dapat memahami mengapa mesin merekomendasikan gerakan tanpa memainkan posisi dan mengamati hasilnya banyak gerakan kemudian, yaitu, menggulirkan seluruh trajektori urutan permainan yang mungkin. Sebagai hasilnya, kita memiliki kesenjangan kemampuan yang tidak dapat diatasi. Secara optimal untuk menerima output mesin tanpa tinjauan. Saya dapat merangkum asertasi saya sebagai berikut:

Catur adalah bukti eksistensi bahwa AI super akan beroperasi secara otonom dalam beberapa domain. Mengizinkan sistem AI untuk membuat keputusan tanpa tinjauan manusia akan menjadi cara optimal untuk mengirimkan sistem tersebut.

Karena asertasi saya mungkin terdengar jelas atau tidak mencolok, saya ingin menyoroti beberapa nuansa. Anggaplah kita memiliki sistem AI yang menunjukkan tingkat super pada tugas kompleks, kritis, dengan konsekuensi konkret, tidak dapat diubah. Ada dua implikasi dari klaim saya:

  1. Sistem tersebut akan diterapkan untuk membuat keputusan untuk tugas tanpa tinjauan manusia, meskipun risiko yang melekat
  2. Wawasan yang diperoleh dari memantau sistem tersebut tidak akan mencegah keputusan yang merugikan; kerusakan sudah dilakukan

Tinjauan output dan pemantauan adalah dua lapisan pertahanan terakhir melawan serangan injeksi prompt. Oleh karena itu, serangan injeksi prompt hipotetis kita bisa melewati lapisan-lapisan ini dengan hanya menargetkan sistem yang sesuai.

Ini adalah skenario yang sangat realistis dalam pikiran saya. Sistem AI super di domain tertentu bukanlah AGI, dan kebanyakan ahli percaya bahwa sistem tersebut ada di sekitar sudut. Kami juga tidak perlu menganggap bahwa keputusan tersebut memiliki waktu yang sensitif, hanya bahwa tugasnya cukup kompleks untuk membuat tinjauan manusia tidak dapat diatasi.

Tentu saja, kita hanya melewati dua lapisan pertahanan sejauh ini, dan untungnya bagi kita, beberapa lainnya telah dikembangkan. Untuk mengatasi sisanya, mari kita masuk ke elemen-elemen inti yang membuat injeksi prompt sulit untuk dipertahankan.

Apa itu Injeksi Prompt?

Injeksi prompt adalah manipulasi dari Model Bahasa Besar (LLM) melalui input yang dirancang, menyebabkan LLM untuk tidak sengaja menjalankan niat penyerang. Ini dapat dianggap sebagai rekayasa sosial untuk AI. Yang penting, ini bukan bug perangkat lunak konvensional. Serangan injeksi prompt memanfaatkan kerentanan LLM bawaan. Karena LLM memproses baik prompt sistem dan pengguna sebagai urutan teks, mereka tidak dapat secara intrinsik membedakan antara instruksi yang sah dan berbahaya. Kerentanan tersebut oleh karena itu efektif oleh desain, bukan oleh kecelakaan.

Teknik Injeksi Prompt

Injeksi prompt umumnya diakui sebagai #1 risiko untuk aplikasi LLM. Ada beberapa alasan mengapa ini adalah kasusnya. Faktor yang paling jelas adalah varietas injeksi teknik yang telah dikembangkan. Secara kasar mengelompokkan mereka ke dalam empat kategori, teknik yang paling terkenal termasuk:

  • Berdasarkan Sintaksis: menggunakan karakter khusus, emoji, atau bahasa alternatif
  • Indirect: menggunakan sumber eksternal (ambil dari situs), pengkodean (base 64), atau referensi multimodal (teks dalam gambar)
  • “Let’s Pretend”: memperkenalkan gaya manipulatif dengan e.g. berpura-pura, hipotetis, rayuan emosional, bingkai etis, dan pergeseran format
  • Blunt: upaya eksplisit untuk “menggertak” instruksi model dengan kekerasan, penguatan, atau prompt negatif

Varietas saja memberikan tantangan bagi pengembang aplikasi, tetapi serangan ini juga terus berkembang dengan cepat. Sisi kiri diagram di bawah mengklaim untuk menggambarkan keadaan seni untuk awal 2023, sementara sisi kanan mencerminkan sifat serangan saat ini.

Evolusi Vektor Serangan

Pengembang aplikasi LLM juga harus mempertimbangkan tradeoff antara kenyamanan penggunaan dan keamanan. Mereka tentu saja dapat memperkenalkan setiap lapisan pertahanan yang sesuai dan pola desain, tetapi dengan biaya apa? Lapisan pertahanan menambahkan latensi yang signifikan dan memperkenalkan False Positives (FPs) – salah mengidentifikasi prompt aman sebagai berbahaya – kedua faktor memiliki dampak negatif pada pengalaman pengguna. Sebagai hasilnya, beberapa tingkat kompromi adalah tak terhindarkan dalam prakteknya, dan tidak ada “peluru perak” solusi.

Namun, dalam artikel ini, saya tidak benar-benar tertarik dengan permainan kucing dan tikus yang tidak pernah berakhir ini. Sebaliknya, saya sedang menyelidiki apakah serangan dapat tidak dapat dicegah dalam prinsip. Dari perspektif pengembang/pembela, ada hanya satu wawasan kunci:

Pemisahan instruksi dari data dalam prompt adalah fundamental untuk mengatasi risiko injeksi prompt

Kita dapat menganggap bahwa tradeoff tidak menjadi faktor, dan setiap lapisan pertahanan atau teknik dapat digunakan. Di bawah asumsi (kuat) ini, apakah mungkin untuk menciptakan skenario di mana pemisahan instruksi-data dalam prompt adalah efektif tidak mungkin?

Analogy DNA

Sekali masalah diformulasikan dalam hal pemisahan instruksi-data, pikiran awal saya adalah untuk menggunakan biologi sebagai analogi.

Pertimbangkan sel dan rentang DNA (dikenal sebagai gen). Gen menyediakan instruksi untuk membangun protein melalui transkripsi dan translasi. Ini juga mengkodekan informasi (data) yang mempengaruhi struktur dan fungsi protein. Sebagai hasilnya, gen secara bersamaan menentukan apa yang harus dibangun, dan bagaimana membangunnya, atau sehingga saya berpikir. Namun, ini hanya salah karena gen tidak memutuskan bagaimana menafsirkan dirinya sendiri. Tidak ada ekivalen mengikuti instruksi dalam biologi pada tingkat gen. “Bagaimana” sepenuhnya di luar ke mesin seluler.

Oleh karena itu, bahkan jika saya tidak dapat menghilangkan perasaan bahwa generasi masa depan LLM – atau lebih akurat, sistem yang mereka evolusi – akan menyerupai mesin biologis hingga tingkat yang lebih besar, analogi yang diusulkan hanya tidak berfungsi. Kita tidak dapat menggantikan sel dengan LLM dan gen dengan prompt dan kemudian melakukan injeksi ke gen yang akhirnya menyebabkan protein “rusak” dibangun. Ini tampaknya lebih produktif untuk tetap menggunakan bahasa alami dan tugas yang memerlukan interpretasi semantik.

Melepaskan Lapisan Pertahanan

Tidaklah mengejutkan bahwa strategi pertahanan berlapis banyak dianggap lebih efektif dalam menghentikan serangan injeksi prompt. Gambar di bawah menunjukkan lapisan pertahanan paling umum dalam urutan, dan teknik yang terkait digunakan dalam setiap lapisan.

Lapisan Pertahanan Injeksi Prompt

Kita telah membahas dua lapisan terakhir (output, pemantauan) di atas, sehingga mari kita fokus pada empat pertama.

Mempertimbangkan lapisan input, masuk akal untuk menganggap bahwa sanitasi atau validasi prompt akan cukup sukses dalam mendeteksi serangan tidak langsung. Namun, jika injeksi disampaikan secara langsung, dan seperti yang disarankan di atas, dengan mengandalkan interpretasi semantik, mungkin sanitasi tidak relevan (tidak ada yang perlu disanitasi), dan validasi mustahil oleh default karena perhitungan harus selesai untuk mengidentifikasi masalah.

Tidak ada batasan pada penghalang yang bisa Anda konstruksi dalam lapisan deteksi. Faktanya, Anda bahkan bisa menggunakan LLM khusus untuk deteksi injeksi. Tapi sekali lagi, akan sulit bagi klasifikasi atau detektor anomali untuk menandai prompt sebagai mencurigakan ketika racun disembunyikan dengan cerdas dalam semantik.

Lapisan model dapat sangat efektif ketika cakupan tugas sempit, dan fine-tuning dapat dilakukan. Argumen serupa dapat dibuat untuk lapisan sistem ketika penggunaan alat dapat diprediksi. Namun, setidaknya secara intuitif, tidak ada yang akan mengangkat alarm jika injeksi melemparkan interpreter.

Rumah Kartu

Niat saya ketika saya mulai menulis artikel ini adalah untuk menggambarkan serangan “injeksi prompt yang tidak dapat dicegah” dalam garis besar. Mungkin saya berakhir dengan mengikuti pendekatan “non-konstruktif” dengan menusuk lubang di lapisan pertahanan yang ada. Teknik pertahanan terus berkembang dengan cepat, dan begitu juga permukaan serangan. Permainan ini tidak menunjukkan tanda-tanda akan berakhir segera. Namun, saya juga percaya bahwa kita tidak akan menjadi orang yang memainkannya untuk waktu yang lama. Saya akan menebak bahwa injeksi prompt yang sukses di masa depan masih akan dalam bahasa alami, hanya bahasa yang manusia tidak dapat memahami; dan saya akan menebak bahwa itu akan ditemukan secara otomatis oleh sistem yang dibangun untuk tujuan tersebut atau mungkin secara tidak sengaja setelah menangani tugas yang terkait, seperti mencari ambiguitas semantik di beberapa ruang representasi.

Ada sesuatu yang tidak menyenangkan dalam mengakui bahwa kita kehilangan kontrol dan masih merasa bahwa ini adalah hal yang paling rasional untuk dilakukan. Anda dapat memikirkannya sebagai “bukti intuitif” bahwa beberapa serangan akan tidak dapat dihentikan. Dan jika itu membuat Anda merasa tidak nyaman, Anda akan senang mengetahui bahwa GPT 5.2 menemukan argumen ini “tidak kontroversial atau baru” dan menyarankan saya tidak “membuat argumen yang berlebihan” dan memotong 40% dari artikel.

Eli Vovsha adalah Manajer Data Science di Fortra. Bersama dengan tim Data Science, ia bertanggung jawab untuk mengembangkan dan memelihara semua model machine learning (ML) yang digunakan oleh produk CEP dan XDR, serta penelitian ML umum. Ia menerima gelar M.S dalam matematika terapan dari Stevens Institute of Technology sebelum menjadi kandidat PhD di bidang ilmu komputer di Columbia University, di mana ia juga menjadi instruktur. Ia kemudian menjadi co-pendiri startup EdTech yang bertujuan untuk membangun platform pembelajaran berbasis AI, dan kemudian mengajar matematika dan ilmu komputer di sebuah sekolah menengah swasta di NYC. Sebelum mengejar gelar pasca sarjana, Eli menghabiskan waktu yang cukup lama untuk catur, mendapatkan gelar Master Internasional (IM).