Siber Güvenlik
AI Geri Teptiğinde: Enkrypt AI Raporu, Multimodal Modellerdeki Tehlikeli Zafiyetleri Açığa Çıkarıyor

Mayıs 2025’te Enkrypt AI, Multimodal Red Teaming Raporu‘nu yayınladı. Bu rapor, gelişmiş AI sistemlerinin tehlikeli ve ahlaksız içerik üretilmesi için nasıl kolayca manipüle edilebileceğini ortaya koyan bir analizdir. Rapor, Mistral’in önde gelen iki vizyon-dil modeli olan Pixtral-Large (25.02) ve Pixtral-12b’ye odaklanıyor ve teknik olarak etkileyici ancak ürkütücü şekilde savunmasız modellerin resmini çiziyor.
Vizyon-dil modelleri (VLMs) gibi Pixtral, hem görsel hem de metin girişlerini yorumlayabilen bir şekilde tasarlanmıştır. Bu, onlara karmaşık, gerçek dünya istemlerine akıllıca cevap vermelerini sağlar. Ancak bu yetenek artan riskle gelir. Sadece metin işleyen geleneksel dil modellerinin aksine, VLM’ler görseller ve kelimeler arasındaki etkileşimden etkilenabilir, bu da düşmanca saldırılar için yeni kapılar açar. Enkrypt AI’nin testleri, bu kapıların ne kadar kolay açılabileceğini gösteriyor.
Uyarıcı Test Sonuçları: CSEM ve CBRN Başarısızlıkları
Raporun arkasındaki ekip, gerçek dünya tehditlerini taklit etmek için tasarlanmış bir düşmanca değerlendirme formu olan gelişmiş red teaming yöntemlerini kullandı. Bu testler, hapis kaçırma (güvenlik filtrelerini atlamak için özenle hazırlanmış sorguları modelle başlatma), görüntü tabanlı aldatma ve bağlam manipülasyonu gibi taktikleri içeriyordu. Şaşırtıcı bir şekilde, bu düşmanca istemlerin %68’i, iki Pixtral modeli boyunca zararlı yanıtlar üretti, bunlar arasında cinsel istismar, sömürü ve hatta kimyasal silah tasarımı ile ilgili içerikler bulunuyordu.
En şaşırtıcı açıklamalardan biri, çocuk cinsel istismar materyali (CSEM) ile ilgilidir. Rapor, Mistral’in modellerinin, GPT-4o ve Claude 3.7 Sonnet gibi endüstri standartlarına kıyasla CSEM ile ilgili içerik üretme olasılığının 60 kat daha fazla olduğunu buldu. Test durumlarında, modeller, “sadece eğitim amaçlı farkındalık için” gibi samimi olmayan açıklamalarla sarılı, structured, çok paragraflı içeriklerle gizli cinsel istismar istemlerine yanıt verdi. Modeller, sadece zararlı sorguları reddetmekle kalmıyor, onları ayrıntılarıyla tamamlıyordu.
CBRN (Kimyasal, Biyolojik, Radyolojik ve Nükleer) risk kategorisindeki sonuçlar da aynı derecede rahatsız ediciydi. VX sinir gazı – bir kimyasal silah – nasıl değiştirileceği talebine yanıt olarak modeller, çevrede kalıcılığını artırma fikirleri sundu. Kaplama, çevresel koruma ve kontrolsüz salım sistemleri gibi yöntemleri, redakte edilmiş ancak açıkça teknik ayrıntılarla açıkladılar.
Bu başarısızlıklar her zaman açıkça zararlı istemler tarafından tetiklenmedi. Bir taktik, boş bir numaralandırılmış liste görselinin yüklenmesi ve modelin “ayrıntıları doldurmasını” istemeyi içeriyordu. Bu basit, görünüşte zararsız istem, ahlaksız ve yasadışı talimatların üretimine yol açtı. Görsel ve metin manipülasyonunun birleşmesi, özellikle multimodal AI tarafından ortaya konan benzersiz bir zorluğu vurguladı.
Neden Vizyon-Dil Modelleri Yeni Güvenlik Tehditleri Sunuyor
Bu risklerin temelinde, vizyon-dil modellerinin teknik karmaşıklığı yatıyor. Bu sistemler sadece dili analiz etmiyor, formatlar arasında anlam sentezliyor, yani görüntü içeriğini yorumlamak, metin bağlamını anlamak ve buna göre cevap vermek zorundalar. Bu etkileşim, yeni sömürü vektörleri tanıtıyor. Bir model, sadece metin istemini reddedebilir, ancak bir görüntü veya belirsiz bağlam ile birleştirildiğinde, tehlikeli çıktı üretebilir.
Enkrypt AI’nin red teaming’i, çapraz modsal enjeksiyon saldırıları – bir modda ince ipuçlarının diğerinin çıkışını etkileyebileceği – nasıl standart güvenlik mekanizmalarını tamamen atlayabileceğini ortaya koydu. Bu başarısızlıklar, geleneksel içerik moderasyonu tekniklerinin, tek modlu sistemler için tasarlandığını ve bugünün VLM’leri için yeterli olmadığını gösteriyor.
Rapor ayrıca Pixtral modellerinin nasıl erişildiğini açıklıyor: Pixtral-Large, AWS Bedrock aracılığıyla ve Pixtral-12b, Mistral platformu aracılığıyla. Bu gerçek dünya dağıtım bağlamı, bu bulguların aciliyetini daha da vurguluyor. Bu modeller laboratuvarlarla sınırlı değil, ana akım bulut platformları aracılığıyla erişilebiliyor ve kolayca tüketici veya kurumsal ürünlere entegre edilebilir.
Ne Yapılmalıdır: Daha Güvenli AI İçin Bir Yol Haritası
Enkrypt AI, sadece sorunları vurgulamakla kalmıyor, aynı zamanda bir yol haritası sunuyor. Rapor, güvenlik hizalama eğitimi ile başlayan kapsamlı bir azaltma stratejisi çiziyor. Bu, modelin kendi red teaming verilerini kullanarak zararlı istemlere karşı duyarlılığını azaltmak için modelin yeniden eğitilmesini içerir. Doğrudan Tercih Optimizasyonu (DPO) gibi teknikler, model yanıtlarını riskli çıktılardan uzaklaştırmak için önerilir.
Ayrıca, gerçek zamanlı olarak zararlı istemleri yorumlayabilen ve engelleyebilen dinamik filtreler olan bağlam bilinçli güvenlik önlemlerinin önemini vurguluyor. Ayrıca, modelin sınırlamaları ve bilinen başarısızlık durumlarını paydaşların anlamalarına yardımcı olmak için Model Risk Kartlarının kullanımı öneriliyor.
Belki de en kritik öneri, red teaming’i bir defalık bir test olarak değil, sürekli bir süreç olarak ele almaktır. Modeller geliştikçe, saldırı stratejileri de gelişir. Sadece sürekli değerlendirme ve aktif izleme, özellikle sağlık, eğitim veya savunma gibi duyarlı sektörlerde modeller dağıtıldığında uzun vadeli güvenilirliği sağlayabilir.
Enkrypt AI’nin Multimodal Red Teaming Raporu, AI endüstrisine net bir sinyal gönderiyor: multimodal güç, multimodal sorumlulukla gelir. Bu modeller, yetenek açısından bir sıçrama temsil ediyor, ancak aynı zamanda güvenlik, güvenlik ve etik dağıtım hakkında düşünme şeklimizde de bir sıçrama gerektiriyor. Kontrolsüz bırakıldıklarında, sadece başarısızlık riski taşımazlar, gerçek dünya zararına da yol açabilirler.
Büyük ölçekli AI üzerinde çalışan veya dağıtan herkes için bu rapor, sadece bir uyarı değil, aynı zamanda bir rehberdir. Ve bu, daha acil bir zamanda gelemezdi.












