Connect with us

Pemimpin pemikiran

Ketika Kemampuan AI Meningkat Lebih Cepat Daripada Model Keamanan yang Dibangun untuk Mengandungnya

mm

Alat AI biasanya tiba dengan pitch yang familiar. Mereka berjanji untuk menyederhanakan alur kerja, meningkatkan produktivitas, dan mengambil tugas yang tidak disukai oleh siapa pun. Dan sebagian besar waktu, mereka benar-benar menghasilkan itu. Mereka menyederhanakan logins, meringkas dokumen, mengotomatisasi alur kerja, dan membuat kegiatan rutin terasa hampir tanpa usaha.

Tapi di bawah semua kenyamanan itu, ada cerita yang berbeda. Alat-alat ini tidak lagi terbatas pada kotak teks. Mereka mulai bertindak pada sistem operasi itu sendiri. Mereka dapat menjelajahi file, mengirim email, berinteraksi dengan aplikasi, dan melakukan tindakan yang sebelumnya memerlukan manusia yang waspada dan memahami konsekuensinya. Perubahan itu menempatkan AI dalam posisi yang asumsi keamanan yang ada tidak pernah dibangun untuk mengelolanya.

Saat AI Mendapatkan Akses Sistem

Saat sistem AI dapat membaca file nyata dan menjalankan perintah nyata, itu menjadi bagian dari basis komputasi yang dipercaya. Itulah saat ketika harapan lama tentang keamanan AI mulai hancur.

Selama bertahun-tahun, injeksi prompt dianggap sebagai perilaku model yang aneh. Ini menyebabkan chatbot menghasilkan respons yang menyesatkan atau tidak pantas, tapi kerusakan berakhir dengan percakapan. Sekarang, kelemahan yang sama dapat memicu tindakan tingkat host, bukan hanya teks. Instruksi jahat yang tersembunyi di dalam file PDF, situs web, atau email tidak lagi menghasilkan jawaban aneh. Ini menghasilkan tindakan yang diambil pada mesin.

Ini bukanlah sesuatu yang dapat diabaikan oleh industri sebagai teoretis. Peneliti di Carnegie Mellon dan University of Washington telah berulang kali menunjukkan bahwa instruksi tersembunyi dapat mengarahkan model bahasa besar untuk menjalankan tindakan yang tidak pernah dimaksudkan oleh pengguna. Sementara itu, peneliti yang mempelajari model visi telah menunjukkan bagaimana gambar yang dimanipulasi dapat mengubah persepsi model dengan cara yang mempengaruhi perilaku hilir.

Eksperimen ini dahulu dianggap sebagai keanehan laboratorium. Mereka tidak lagi terasa akademis ketika AI memiliki akses ke sistem operasi.

Ketika Kemampuan Agen Mengungguli Kontrol Pembela

Bahkan perusahaan yang membangun agen-agen ini mengakui keparahan tantangan. Mereka telah memperkuat filter untuk menangani prompt, tapi mereka secara terbuka menyatakan bahwa mengontrol tindakan nyata dari sistem AI masih merupakan area kerja yang aktif dan belum terpecahkan di seluruh industri. Celah antara apa yang agen dapat lakukan dan apa yang pembela dapat kontrol memperkenalkan kategori risiko baru yang tidak dapat diserap oleh buku pedoman keamanan yang ada.

Agen AI telah menyeberangi batas yang industri belum siap untuk. Satu-satunya cara untuk memahami ini adalah dengan melihat bagaimana injeksi prompt sekarang berpotongan dengan rantai serangan yang sama yang pembela ikuti selama lebih dari satu dekade.

Bagaimana Injeksi Prompt Sekarang Dipetakan ke Rantai Serangan yang Dikenal

Penyerang selalu mengikuti pola yang dapat diprediksi. Kerangka MITRE ATT&CK menjabarkannya dengan jelas. Akses awal diikuti oleh eksekusi, persistensi, penemuan, gerakan lateral, pengumpulan, dan ekstraksi. Tekniknya bervariasi, tapi struktur tetap stabil.

Apa yang berubah adalah mekanisme pengiriman. Alih-alih membujuk pengguna untuk membuka lampiran jahat atau mengklik tautan berbahaya, penyerang dapat meletakkan instruksi di tempat agen AI akan membacanya. Agen menjadi lingkungan eksekusi. Ini melakukan langkah-langkah tepat seperti yang dijelaskan. Model tidak mempertanyakan apakah instruksi tersebut berbahaya. Ini tidak menerapkan penilaian atau intuisi. Ini hanya bertindak.

Saat penyerang dapat mempengaruhi alasan agen, rantai serangan datang bersama dengan cepat. File yang dimanipulasi memicu eksekusi, instruksi lanjutan menciptakan persistensi, pencarian sistem menyediakan penemuan, dan unggahan file memungkinkan pengumpulan dan ekstraksi. Tidak perlu malware. Agen hanya melakukan langkah-langkah seperti yang ditulis.

Ini adalah bagian dari cerita yang tim keamanan kesulitan untuk beradaptasi. Mereka telah menghabiskan tahun-tahun membangun aturan deteksi, kontrol, dan proses respons sekitar eksekusi berbasis kode. Agen AI memperkenalkan jenis interpreter yang berbeda. Mereka menjalankan melalui bahasa alami, bukan biner yang dikompilasi. Alat yang ada tidak dibangun untuk melacak atau bahkan menganalisis proses penalaran tersebut.

Tim Keamanan Tidak Siap dan Bahkan Tidak Sadar

Program keamanan masih berasumsi bahwa manusia duduk di antara konten dan tindakan. Manusia dapat diperdaya, tapi mereka berhenti ketika sesuatu terasa salah. Mereka memperhatikan frasa aneh, mempertanyakan perilaku yang tidak terduga, dan membawa penilaian ke mil terakhir keputusan.

Agen AI tidak melakukan apa pun dari ini; mereka konsisten, literal, dan lebih cepat daripada lawan. Satu baris teks tersembunyi cukup untuk menginstruksikan agen untuk membaca file sensitif, bergerak melalui aplikasi, atau menghubungi server jarak jauh. Ini menempatkan pembela dalam posisi yang belum pernah mereka hadapi sebelumnya.

Tim keamanan memiliki visibilitas terbatas ke dalam bagaimana agen mencapai keputusan, dan mereka tidak dapat dengan mudah menentukan apakah tindakan berasal dari pengguna atau AI. Deteksi malware tradisional tidak menawarkan bantuan karena tidak ada yang jahat yang dijalankan dalam arti biasa, dan tidak ada jaminan bahwa agen akan mempertanyakan atau menolak instruksi berbahaya yang tersembunyi dalam konten normal.

Alat yang dirancang untuk perilaku manusia tidak dapat ditransfer ke dunia di mana bahasa alami menjadi skrip yang mengarahkan perilaku sistem.

Apa Kontrol Pengganti yang Benar-benar Berfungsi

Pengerasan model tidak cukup. Tim keamanan memerlukan kontrol di sekitar agen yang membatasi apa yang AI dapat lakukan, bahkan ketika penalarannya dipengaruhi.

Beberapa strategi menunjukkan janji:

  • Akses dengan hak istimewa yang minimal sangat penting. Agen hanya harus memiliki akses ke file dan tindakan yang diperlukan untuk tugas mereka. Mengurangi izin yang tidak perlu membatasi dampak dari instruksi yang dimanipulasi.
  • Langkah persetujuan manusia dapat menghentikan tindakan berbahaya sebelum terjadi. Ketika agen mencoba operasi sensitif, seperti menjalankan perintah atau mengakses data yang dilindungi, pengguna harus menyetujui atau menolak permintaan.
  • Filter konten menciptakan buffer antara bahan yang tidak tepercaya dan agen. Pemeriksaan dokumen, URL, dan teks eksternal mengurangi kemungkinan bahwa instruksi tersembunyi mencapai model.
  • Pencatatan komprehensif sangat penting. Setiap tindakan yang dimulai oleh agen harus direkam dan ditinjau. Tindakan-tindakan ini harus diperlakukan sama seperti aktivitas pengguna yang memiliki hak istimewa.
  • Pemetaan perilaku agen ke teknik ATT&CK membantu pembela mengidentifikasi di mana agen dapat dipaksa untuk melakukan tindakan berbahaya dan di mana rel pengaman harus ditempatkan. Ini menggunakan sistem yang sama yang sudah membangun strategi pertahanan.

Kontrol pengganti ini tidak akan menghilangkan risiko. Tapi mereka mengandung risiko dengan cara yang pertahanan tingkat model tidak bisa.

Di Mana Industri Pergi Selanjutnya

Agen AI mewakili pergeseran besar dalam cara komputasi bekerja. Mereka menawarkan produktivitas yang luar biasa, tapi mereka juga memperkenalkan kategori risiko operasional yang tidak sesuai dengan kerangka keamanan yang ada. Pedoman dari Pusat Keamanan Siber Nasional UK adalah awal, tapi sebagian besar organisasi masih kekurangan cara yang jelas untuk mengatur agen yang dapat bertindak pada sistem.

Saat ini terasa mirip dengan hari-hari awal adopsi cloud. Teknologi bergerak lebih cepat daripada kontrol. Organisasi yang beradaptasi dengan cepat adalah mereka yang mengenali pergeseran awal dan membangun proses untuk mencocokkannya.

Hal yang sama akan terjadi di sini. Agen AI tidak hanya pembantu. Mereka adalah operator dengan jangkauan sistem. Mengamankan mereka memerlukan buku pedoman baru, rel pengaman baru, dan cara baru untuk memodelkan paparan.

Industri tidak perlu takut akan alat-alat ini. Tapi mereka perlu memahaminya. Dan mereka perlu bergerak cepat, karena penyerang sudah melihat kesempatan. Pertanyaannya adalah apakah pembela akan membangun pengaman yang tepat sementara mereka masih memiliki waktu.

Jon Baker, VP Threat-Informed Defense at AttackIQ, membawa lebih dari 20 tahun pengalaman memimpin inovasi di bidang keamanan siber dengan fokus membuat keamanan lebih efisien dan efektif dalam skala besar. Ia adalah mantan Direktur dan Co-Pendiri Pusat Pertahanan yang Diberitahu Ancaman (CTID) di MITRE, di mana ia menyatukan tim keamanan canggih untuk memajukan keadaan seni dan praktik dalam pertahanan yang diberitahu ancaman secara global. Sebelum meluncurkan CTID, Jon memimpin Departemen Intelijen Ancaman Siber dan Emulasi Musuh di MITRE, di mana ia memajukan kemampuan kritis tersebut di seluruh MITRE, dan mengelola tim CALDERA dan MITRE ATT&CK®. Jon memimpin tim yang mengembangkan standar terbuka termasuk STIX dan TAXII untuk berbagi intelijen ancaman, dan merupakan co-pencipta OVAL saat mengelola program otomatisasi keamanan MITRE.