Connect with us

Pemimpin pemikiran

Ketika Kemampuan AI Naik Lebih Cepat daripada Model Keamanan yang Dibangun untuk Mengatasinya

mm

Alat AI biasanya hadir dengan janji yang familiar. Mereka menjanjikan penyederhanaan alur kerja, peningkatan produktivitas, dan pengambilan alih tugas yang tidak disukai siapa pun. Dan seringkali, mereka benar-benar memberikan hal itu. Mereka menyederhanakan login, meringkas dokumen, mengotomatisasi alur kerja, dan membuat aktivitas rutin terasa hampir tanpa usaha. Namun di balik semua kemudahan itu terdapat kisah yang berbeda. Alat-alat ini tidak lagi terbatas pada kotak teks. Mereka mulai bertindak pada sistem operasi itu sendiri. Mereka dapat menjelajahi file, menyusun email, berinteraksi dengan aplikasi, dan melakukan tindakan yang sebelumnya memerlukan manusia yang waspada dan memahami konsekuensinya. Pergeseran itu menempatkan AI pada posisi yang tidak pernah dibayangkan oleh asumsi keamanan yang ada.

Saat AI Mendapatkan Akses Sistem

Begitu sebuah sistem AI dapat membaca file nyata dan mengeksekusi perintah nyata, ia menjadi bagian dari basis komputasi tepercaya. Itulah momen ketika ekspektasi lama tentang keamanan AI mulai runtuh. Selama bertahun-tahun, prompt injection dianggap sebagai perilaku model yang aneh. Itu menyebabkan chatbot menghasilkan respons yang menyesatkan atau tidak pantas, tetapi kerusakannya berakhir dengan percakapan. Kini kelemahan yang sama dapat memicu tindakan di tingkat host, bukan hanya teks. Instruksi berbahaya yang tersembunyi di dalam PDF, situs web, atau email tidak lagi menghasilkan jawaban yang aneh. Ia menghasilkan tindakan yang diambil pada mesin. Ini bukan sesuatu yang bisa diabaikan industri sebagai teori. Peneliti di Carnegie Mellon dan University of Washington telah repeatedly demonstrated bahwa instruksi tersembunyi dapat mengarahkan model bahasa besar untuk mengeksekusi tindakan yang tidak pernah dimaksudkan pengguna. Sementara itu, researchers studying vision models telah menunjukkan bagaimana gambar yang dimanipulasi dapat mengubah persepsi model dengan cara yang memengaruhi perilaku hilir. Eksperimen-eksperimen ini dulu diperlakukan sebagai keanehan laboratorium. Mereka tidak lagi terasa akademis ketika AI memiliki akses ke sistem operasi.

Ketika Kemampuan Agen Melampaui Kendali Pembela

Bahkan perusahaan-perusahaan yang membangun agen-agen ini mengakui keseriusan tantangannya. Mereka telah memperkuat filter untuk menangani prompt, tetapi mereka secara terbuka menyatakan bahwa mengendalikan tindakan dunia nyata dari sistem AI tetap merupakan area pekerjaan yang aktif dan belum terselesaikan di seluruh industri. Kesenjangan antara apa yang dapat dilakukan agen dan apa yang dapat dikendalikan pembela itu memperkenalkan kategori risiko baru yang tidak dapat ditampung oleh playbook keamanan yang ada. Agen AI telah melintasi batas yang belum sepenuhnya siap dihadapi industri. Satu-satunya cara untuk memahami ini adalah dengan melihat bagaimana prompt injection sekarang berpotongan dengan rantai serangan yang sama yang telah diikuti pembela selama lebih dari satu dekade.

Bagaimana Prompt Injection Sekarang Terpetakan ke Rantai Serangan yang Dikenal Semua Orang

Penyerang selalu mengikuti pola yang dapat diprediksi. Kerangka kerja MITRE ATT&CK menjelaskan tahapannya dengan jelas. Akses awal diikuti oleh eksekusi, persistensi, penemuan, pergerakan lateral, pengumpulan, dan eksfiltrasi. Tekniknya bervariasi, tetapi strukturnya stabil. Yang bergeser adalah mekanisme pengirimannya. Alih-alih meyakinkan pengguna untuk membuka lampiran berbahaya atau mengklik tautan berbahaya, penyerang dapat menempatkan instruksi di tempat agen AI akan membacanya. Agen menjadi lingkungan eksekusi. Ia melakukan langkah-langkah persis seperti yang dijelaskan. Model tidak mempertanyakan apakah instruksi itu berbahaya. Ia tidak menerapkan pertimbangan atau intuisi. Ia hanya bertindak. Begitu penyerang dapat memengaruhi penalaran agen, rantai serangan terbentuk dengan cepat. File yang dimanipulasi memicu eksekusi, instruksi lanjutan menciptakan persistensi, pencarian sistem memberikan penemuan, dan unggahan file memungkinkan pengumpulan dan eksfiltrasi. Tidak diperlukan malware. Agen hanya menjalankan langkah-langkah seperti yang tertulis. Inilah bagian dari kisah yang sedang diperjuangkan tim keamanan untuk beradaptasi. Mereka telah menghabiskan bertahun-tahun membangun aturan deteksi, kontrol, dan proses respons di sekitar eksekusi berbasis kode. Agen AI memperkenalkan jenis penerjemah yang berbeda. Mereka mengeksekusi melalui bahasa alami, bukan biner yang dikompilasi. Alat yang ada tidak dibangun untuk melacak atau bahkan menganalisis proses penalaran itu.

Tim Keamanan Tidak Siap dan Bahkan Tidak Menyadarinya

Program keamanan masih mengasumsikan ada manusia yang berada di antara konten dan tindakan. Manusia bisa tertipu, tetapi mereka berhenti ketika sesuatu terasa salah. Mereka memperhatikan frasa aneh, mempertanyakan perilaku tak terduga, dan membawa pertimbangan ke mil terakhir dari keputusan. Agen AI tidak melakukan semua ini; mereka konsisten, harfiah, dan lebih cepat daripada musuh mana pun. Satu baris teks tersembunyi sudah cukup untuk menginstruksikan agen membaca file sensitif, bergerak melalui aplikasi, atau menghubungi server jarak jauh. Ini menempatkan pembela pada posisi yang belum pernah mereka alami sebelumnya. Tim keamanan memiliki visibilitas terbatas tentang bagaimana agen mencapai keputusan, dan mereka tidak dapat dengan mudah menentukan apakah suatu tindakan berasal dari pengguna atau AI. Deteksi malware tradisional tidak menawarkan bantuan karena tidak ada yang berbahaya dieksekusi dalam arti biasa, dan tidak ada jaminan agen akan mempertanyakan atau menolak instruksi berbahaya yang tersembunyi dalam konten normal. Alat yang dirancang untuk perilaku manusia tidak dapat diterapkan ke dunia di mana bahasa alami menjadi skrip yang menggerakkan perilaku sistem. Kontrol Kompensasi Apa yang Benar-Benar Berfungsi Pengerasan model tidak cukup. Tim keamanan memerlukan kontrol di sekitar agen yang membatasi apa yang dapat dilakukan AI, bahkan ketika penalarannya dipengaruhi.

Jon Baker, VP Threat-Informed Defense at AttackIQ, brings over 20 years of experience leading innovation in cybersecurity with a focus on making security more efficient and effective at scale. He is the former Director and Co-Founder of MITRE’s Center for Threat-Informed Defense (CTID), where he united sophisticated security teams to advance the state of the art and the practice in threat-informed defense globally. Prior to launching the CTID, Jon led MITRE’s Cyber Threat Intelligence and Adversary Emulation Department where he advanced those critical capabilities across MITRE, and managed the CALDERA and MITRE ATT&CK® teams. Jon led teams developing open standards including STIX and TAXII for threat intelligence sharing, and was the co-creator of OVAL while managing MITRE’s security automation program.