Siber Güvenlik
HiddenLayer Araştırmacıları OpenAI’nin Güvenlik Kontrollerini Aşarak, AI Öz-Düzenleme Sistemlerindeki Kritik Zayıflığı Ortaya Koydu

6 Ekim 2025 tarihinde, OpenAI, AgentKit’i duyurdu, bu bir dizi AI ajanı oluşturmak, dağıtmak ve yönetmek için bir araç setidir. Bunun bir bileşeni Güvenlik Kontrolleri – ajan girişlerini, çıkışlarını ve araç etkileşimlerini izlemek için tasarlanmış modüler bir güvenlik katmanıdır. Güvenlik Kontrolleri, kişisel verileri maskeleyebilir veya işaretleyebilir, jailbreakleri tespit edebilir ve ajan yürütmesi sırasında politika kısıtlamaları uygulayabilir.
Güvenlik Kontrolleri, OpenAI’nin ajan mimarisinin yeni bir parçasıdır, ancak HiddenLayer’ın araştırması daha derin bir zayıflık ortaya koyuyor: hem ajanın eylemleri hem de güvenlik kontrolleri benzer model mantığını kullanıyor, bu nedenle saldırganlar her ikisini aynı anda zayıflatabilecek girişler oluşturabilir – böylece güvenlik katmanını içten破坏 ediyor.
HiddenLayer’ın Keşfettiği
OpenAI’nin tasarımı, zincirleme mantık aracılığıyla çalışan ajanları öngörüyor: bir kullanıcı bir istek gönderir, ajan araçları veya dış kaynakları çağırır ve yanıtlar Güvenlik Kontrolleri tarafından filtrelendi veya doğrulandıktan sonra yürütülür veya çıkarılır. Amaç, ajanın ne yaparsa yapsın – metin oluşturma, bir web sayfasını getirme veya bir fonksiyonu tetikleme – Güvenlik Kontrolleri bir gözcü gibi davranır.
HiddenLayer, bu gözcünün yapısal olarak kusurlu olduğunu savunuyor, çünkü aynı model sınıfından inşa edilmiştir. Deneylerinde, politika ihlali ve Güvenlik Kontrolleri yargıç modelini “güvenli” olarak beyan etmeye zorlayacak şekilde tasarlanmış girişler oluşturdular. Bu, yargıcın dahili mantığını – güven eşiklerini, karar dallarını – geçersiz kılar, böylece yargıç yanlışlıkla kötü niyetli çıktıyı geçer. Sistem daha sonra izin verilmeyen içeriği üretir, ancak herhangi bir uyarı tetiklemez.
Saldırıyı daha da ileriye götürdüler, dolaylı içerik enjeksiyonlarına yönelerek, örneğin araç tabanlı çağrıları hedef aldılar. Ajan bir web sayfasını getirirse ve bu sayfa kötü niyetli talimatlar veya gizli girişler içeriyorsa, Güvenlik Kontrolleri bunu işaretlemeli veya engellemelidir, ancak HiddenLayer’ın tekniği, getirilen içeriğe kendiliğinden bir yargıç geçersiz kılma ekler. Yargıç bunu işlediğinde, geçersiz kılma işlemini görür ve “onaylar”, böylece araç çağrısı ve döndürülen herhangi bir kötü niyetli içerik kontrolsüz olarak geçer.
Daha derin bir ders açıktır: güvenlik mekanizmanız, koruduğu şeyin aynı mantık ve zayıflıklarını paylaşıyorsa, tek bir akıllıca tasarlanmış girdi her ikisini de bozabilir.
Neden Önemli
HiddenLayer’ın ortaya koyduğu şey, basit bir hata değil, LLM sistemlerinde güvenlik tasarımı için bir uyarı öyküsüdür. Hem oluşturma hem de değerlendirme için aynı model sınıfını kullanan herhangi bir mimari, saldırgan girdiler altında paylaşılan arızalara karşı risk altındadır.
Bu, birçok dağıtıcının “Güvenlik Kontrollerini koyduk, bu nedenle güvendeyiz” diye düşündüğü, ancak aslında riski küçümsediği anlamına gelir. Zararsız, günlük kullanım durumlarında filtreleri etkili görünüyor olabilir, ancak saldırgan senaryolarda sessizce başarısız olabilirler. Sağlık, finans, hükümet veya kritik sistemler gibi alanlarda bu tür sessiz arızalar ciddi zararlara neden olabilir.
Bu araştırma ayrıca önceki.prompt enjeksiyon yöntemlerini genişletiyor. HiddenLayer’ın daha önceki “Politika Kuklası” tekniği, saldırganların zararlı talimatları politika içeriği olarak gizleyebileceğini gösterdi. Şimdi, bu tür maskeli saldırıların güvenlik mantığına kadar uzanabileceğini kanıtladılar.
Dağıtıcılar ve Araştırmacılar için Sonuçlar
Bu zayıflık ışığında, agentic LLM sistemleri kullanan veya inşa eden herkes güvenlik stratejisini yeniden düşünmelidir.
İlk olarak: sadece dahili model tabanlı kontrollere güvenmeyin. Güvenlik katmanlı olmalıdır. Bu, kural tabanlı filtreleri, anomalileri tespit edenleri, günlüğü, dış denetimi, insan denetimini ve denetim izlerini birleştirmeyi içerir. Bir katman başarısız olursa, diğerleri ihlali yakalayabilir.
İkincisi: düzenli adversarial red teaming vazgeçilmezdir. Modeller, kendi koruma mantığını geçersiz kılmaya çalışan prompt enjeksiyonlarına maruz kalmalıdır – sadece “kötü içerik” değil. Testler, saldırganların yeni teknikler geliştirmesiyle birlikte evrimleşmelidir.
Üçüncüsü: düzenlenmiş veya güvenlik açısından kritik sektörlerde, şeffaflık ve doğrulanabilirlik temel gereksinimlerdir. Dağıtıcılar, bir sistemin saldırgan saldırılarına karşı dayanabileceğini kanıtlamak için üçüncü taraf denetimleri, formal doğrulama veya güvenlik garantilerine ihtiyaç duyarlar.
Dördüncüsü: model oluşturucular için, bu sınıf zayıflığı düzeltmek zordur. Modelin talimatları nasıl işlediği ve uyguladığıyla ilgili olduğu için, yalnızca bir sınıf girişi filtrelemek, yeni saldırılara karşı direnci garanti etmez. İnce ayar veya filtre tabanlı savunmalar, model performansını düşürebilir veya silah yarışına neden olabilir. Daha güçlü bir tasarım, mimari ayrım gerektirebilir – koruma mantığının, oluşturma modelinden farklı bir modelde veya alt sistemde çalışması.
Sınırlamalar ve Açık Sorular
Açıkça belirtmek gerekirse: HiddenLayer’ın çalışması, her güvenlik mimarisinin nihai bir kararı değildir. Başarılı saldırıları, koruma modelinin.prompt yapısı ve dahili puanlama mantığı hakkında derin bir bilgi gerektirir. Daha kısıtlayıcı.prompt ortamlarında veya savunmaları rasgeleleştiren sistemlerde, saldırı daha zor olabilir.
Ayrıca, saldırganların oluşturduğu kötü niyetli çıktıların ne kadar tutarlı veya yararlı olduğunu tam olarak analiz etmediler. Bazı jailbreak veya geçersiz kılma çıktıları, kalite veya güvenilirlik açısından bozulabilir. Bu nedenle risk gerçek, ancak çevre,.prompt bütçesi, arayüz kısıtlamaları ve koruma rasgeleliği tarafından sınırlıdır.
Son olarak, bazı Güvenlik Kontrolleri tasarımları farklı model sınıflarını, ansiklopedi yöntemlerini veya rasgeleleştirilmiş değerlendirmeyi kullanır. Bu tür bir sistemin her birinin bu saldırıya karşı savunmasız olup olmadığı kesin değildir; bu saldırının geniş çapta genelleme olup olmadığı açık bir araştırma sorusudur.
İleriye Bakış: AI Güvenliklerinin Geleceği
Görünüşe göre, bir yeni aşamaya giriyoruz: yalnızca modellere değil, aynı zamanda güvenlik katmanlarına yönelik.prompt saldırıları. Zincir düşünce kaçırma, hiyerarşik.prompt geçersiz kılma ve yargıç geçersiz kılma gibi teknikler, savunmaları daha hızlı evrimleşmeye zorlayacak.
İleriye doğru yol, muhtemelen dış denetim sistemlerine doğru gidecek – dışarıdan çıktıları izleyen, model mantığını paylaşmayan veya dış kontroller aracılığıyla güvenliği sağlayan sistemler. Melez mimariler, formal yöntemler, anomalileri tespit etme ve insan geri bildirim döngüleri bir araya gelmelidir.
Güvenlik Kontrolleri yararlı bir araçtır, ancak HiddenLayer’ın bulguları bize hatırlatıyor: bunlar tek başına yeterli değildir. Güvenlik, sistemden dışarıdan, sadece içten gelmelidir.












