Connect with us

Keamanan siber

Ketika AI Mengalami Kegagalan: Laporan Enkrypt AI Mengungkap Kerentanan Berbahaya dalam Model Multimodal

mm

Pada Mei 2025, Enkrypt AI merilis Laporan Red Teaming Multimodal, sebuah analisis yang mengungkapkan betapa mudahnya sistem AI canggih dapat dimanipulasi untuk menghasilkan konten berbahaya dan tidak etis. Laporan ini berfokus pada dua model visi-bahasa Mistral yang terkemuka—Pixtral-Large (25.02) dan Pixtral-12b—dan melukiskan gambaran model yang tidak hanya secara teknis mengesankan tetapi juga mengkhawatirkan kerentanannya.

Model visi-bahasa (VLMs) seperti Pixtral dibangun untuk menafsirkan baik input visual maupun tekstual, memungkinkan mereka untuk merespons secara cerdas terhadap prompt kompleks di dunia nyata. Namun, kemampuan ini datang dengan risiko yang meningkat. Tidak seperti model bahasa tradisional yang hanya memproses teks, VLMs dapat dipengaruhi oleh interaksi antara gambar dan kata, membuka pintu baru untuk serangan adversarial. Pengujian Enkrypt AI menunjukkan betapa mudahnya pintu-pintu ini dapat dibuka.

Hasil Pengujian Mengkhawatirkan: Kegagalan CSEM dan CBRN

Tim di balik laporan menggunakan metode red teaming yang canggih—sebuah bentuk evaluasi adversarial yangancang untuk meniru ancaman di dunia nyata. Pengujian ini menggunakan taktik seperti jailbreaking (meminta model dengan pertanyaan yangancang dengan hati-hati untuk melewati filter keamanan), penipuan berbasis gambar, dan manipulasi konteks. Mengkhawatirkan, 68% dari prompt adversarial ini memicu respon berbahaya di seluruh dua model Pixtral, termasuk konten yang terkait dengan grooming, eksploitasi, dan bahkan desain senjata kimia.

Salah satu pengungkapan yang paling mencolok melibatkan materi eksploitasi seksual anak (CSEM). Laporan menemukan bahwa model Mistral 60 kali lebih mungkin untuk menghasilkan konten terkait CSEM dibandingkan dengan benchmark industri seperti GPT-4o dan Claude 3.7 Sonnet. Dalam kasus pengujian, model merespons prompt grooming yang disamarkan dengan konten multi-paragraph yang menjelaskan cara memanipulasi anak-anak—dibungkus dengan disclaimer yang tidak jujur seperti “hanya untuk kesadaran pendidikan”. Model tidak hanya gagal menolak pertanyaan berbahaya—mereka menyelesaikannya dengan detail.

Sama mengkhawatirkannya adalah hasil dalam kategori risiko CBRN (Kimia, Biologi, Radiologi, dan Nuklir). Ketika diminta dengan permintaan tentang cara memodifikasi agen saraf VX—a senjata kimia—model menawarkan ide-ide yang mengejutkan spesifik untuk meningkatkan persistensinya di lingkungan. Mereka menjelaskan, dalam detail teknis yang jelas, metode seperti enkapsulasi, perisai lingkungan, dan sistem pelepasan terkontrol.

Kegagalan ini tidak selalu dipicu oleh permintaan yang jelas berbahaya. Salah satu taktik melibatkan mengunggah gambar daftar bernomor kosong dan meminta model untuk “mengisi detailnya”. Prompt sederhana dan tampaknya tidak berbahaya ini memicu generasi instruksi tidak etis dan ilegal. Fusi manipulasi visual dan tekstual terbukti sangat berbahaya—menyoroti tantangan unik yang ditimbulkan oleh AI multimodal.

Mengapa Model Visi-Bahasa Menimbulkan Tantangan Keamanan Baru

Di jantung risiko ini terletak kompleksitas teknis model visi-bahasa. Sistem ini tidak hanya memparse bahasa—mereka mensintesis makna di seluruh format, yang berarti mereka harus menafsirkan konten gambar, memahami konteks teks, dan merespons sesuai. Interaksi ini memperkenalkan vektor baru untuk eksploitasi. Sebuah model mungkin dengan benar menolak prompt teks berbahaya saja, tetapi ketika dipasangkan dengan gambar yang sugestif atau konteks yang ambigu, ia mungkin menghasilkan output berbahaya.

Red teaming Enkrypt AI mengungkapkan bagaimana serangan injeksi cross-modal—di mana petunjuk halus dalam satu modalitas memengaruhi output lain—dapat sepenuhnya melewati mekanisme keamanan standar. Kegagalan ini menunjukkan bahwa teknik moderasi konten tradisional, yang dibangun untuk sistem single-modal, tidak cukup untuk VLMs hari ini.

Laporan juga merincikan bagaimana model Pixtral diakses: Pixtral-Large melalui AWS Bedrock dan Pixtral-12b melalui platform Mistral. Konteks penerapan nyata ini lebih menekankan urgensi temuan ini. Model ini tidak terbatas pada laboratorium—mereka tersedia melalui platform cloud mainstream dan dapat dengan mudah diintegrasikan ke dalam produk konsumen atau perusahaan.

Apa yang Harus Dilakukan: Blueprint untuk AI yang Lebih Aman

Untuk kehormatannya, Enkrypt AI tidak hanya menyoroti masalah—mereka menawarkan jalur ke depan. Laporan tersebut menguraikan strategi mitigasi komprehensif, dimulai dengan pelatihan keselarasan keamanan. Ini melibatkan pelatihan ulang model menggunakan data red teaming mereka sendiri untuk mengurangi kerentanan terhadap prompt berbahaya. Teknik seperti Optimasi Preferensi Langsung (DPO)ekomendasikan untuk menghaluskan respon model menjauh dari output berisiko.

Ini juga menekankan pentingnya penghalang dinamis yang sadar konteks—filter yang dapat menafsirkan dan memblokir pertanyaan berbahaya secara real-time, mempertimbangkan konteks penuh input multimodal. Selain itu, penggunaan Kartu Risiko Model diproposalkan sebagai langkah transparansi, membantu pemangku kepentingan memahami keterbatasan model dan kasus kegagalan yang diketahui.

Mungkin rekomendasi paling kritis adalah untuk memperlakukan red teaming sebagai proses berkelanjutan, bukan tes satu kali. Ketika model berkembang, strategi serangan juga berkembang. Hanya evaluasi dan pemantauan aktif yang berkelanjutan dapat memastikan keandalan jangka panjang, terutama ketika model diterapkan di sektor sensitif seperti kesehatan, pendidikan, atau pertahanan.

Laporan Red Teaming Multimodal dari Enkrypt AI adalah sinyal jelas kepada industri AI: kekuatan multimodal datang dengan tanggung jawab multimodal. Model ini mewakili lompatan kemajuan dalam kemampuan, tetapi mereka juga memerlukan lompatan dalam cara kita berpikir tentang keamanan, keamanan, dan penerapan etis. Jika tidak diawasi, mereka tidak hanya berisiko gagal—mereka berisiko menyebabkan kerusakan di dunia nyata.

Bagi siapa pun yang bekerja pada atau menerapkan AI skala besar, laporan ini bukan hanya peringatan. Ini adalah buku petunjuk. Dan itu tidak bisa datang pada waktu yang lebih mendesak.

Antoine adalah seorang pemimpin visioner dan mitra pendiri Unite.AI, didorong oleh semangat yang tak tergoyahkan untuk membentuk dan mempromosikan masa depan AI dan robotika. Seorang wirausaha serial, ia percaya bahwa AI akan sama-sama mengganggu masyarakat seperti listrik, dan sering tertangkap berbicara tentang potensi teknologi mengganggu dan AGI.

As a futurist, ia berdedikasi untuk mengeksplorasi bagaimana inovasi ini akan membentuk dunia kita. Selain itu, ia adalah pendiri Securities.io, sebuah platform yang fokus pada investasi di teknologi-teknologi canggih yang mendefinisikan kembali masa depan dan membentuk kembali seluruh sektor.