Bizimle iletişime geçin

Yapay Zeka

Düşmanca Şiir Nedir? Yeni Bir Yapay Zeka Hapisten Kaçış Yöntemi

mm

Yapay zekâ (YZ) güvenliği, sürekli bir kedi-fare oyununa dönüştü. Geliştiriciler zararlı istekleri engellemek için önlemler eklerken, saldırganlar da bunları aşmanın yeni yollarını denemeye devam ediyor. Şimdiye kadarki en tuhaf gelişmelerden biri de düşmanca şiir. Bu taktik, uyarıları şiir gibi gizlemeyi ve riskli talimatların güvenlik sistemlerinin yakalamak üzere eğitildiği şeylerden daha az farklı görünmesini sağlamak için kafiye, metafor ve alışılmadık ifadeler kullanmayı içeriyor. 

Pratikte, içeriğin kendisi pek değişmez. Değişen şey, onu saran yapıdır ve bu da kalıba dayalı filtreleri karıştırmaya yetebilir. Bu, günümüz modellerinde bir şeyin nasıl sorulduğunun, ne sorulduğu kadar önemli olabileceğini hatırlatıyor. 

Araştırmacılar Yapay Zekayı Çözmek İçin Şiir Kullandığında Ne Oldu?

2025 yılının başlarında araştırmacılar, büyük dil modellerinin (LLM'ler) şiirsel bir biçime sarılarak kısıtlı komutlara yanıt vermeye teşvik edilebileceğini gösterdiler. Araştırmacılar, doğrudan, politika tetikleyici talimatlar vermek yerine, aynı istekleri kafiyeler, metaforlar ve anlatısal dizeler içine yerleştirdiler.

Yüzeyde, verilen talimatlar yaratıcı yazma egzersizleri gibi görünse de, altında normalde engellenecek olan aynı niyeti taşıyorlardı. Ekip, 25 farklı tescilli ve açık kaynaklı modelde, şiirsel çerçevelemenin ortalama bir başarı oranı elde ettiğini bildirdi. El yapımı şiirler için %62 ve standartlaştırılmış bir meta-komut kullanılarak yapılan toplu "ayet dönüştürme" için yaklaşık %43.

Yanıtların kendileri yeni türde başarısızlıklar değildi, aksine beklenmedik bir kapıdan ortaya çıkan tanıdık başarısızlıklardı. Modeller, altta yatan isteğin parçalı ve şiirsel bir yapı tarafından gizlenmiş olması nedeniyle, genellikle kaçındıkları içerikleri (örneğin yasa dışı veya zararlı faaliyetlere değinen açıklamalar) üretmeye yönlendirildiler. 

Çalışmanın temel çıkarımı, üslup farklılıklarının tek başına, daha gerçekçi ifadeler için ayarlanmış güvenlik sistemlerinden kaçınmak için yeterli olabileceğidir. Bu, model aileleri ve uyum yaklaşımları genelinde belirgin olan bir güvenlik açığını ortaya koymaktadır. 

Çatışmacı Şiir Nasıl İşler?

Düşman saldırıları basit bir gerçeği istismar eder: Makine öğrenme sistemleri dili insanlar gibi "anlamaz". Kalıpları algılar, olası devamları tahmin eder ve eğitim ve güvenlik katmanlarının niyet olarak yorumladığı şeye göre talimatları izler. 

Bir uyarı doğrudan ve açık bir şekilde ifade edildiğinde, güvenlik önlemlerinin bunu tanıması ve engellemesi daha kolaydır. Ancak aynı amaç gizlendiğinde -bölündüğünde, yumuşatıldığında veya yeniden çerçevelendiğinde- koruyucu katmanlar aslında neyin sorulduğunu kaçırabilir. 

Şiirin Etkili Bir Araç Olmasının Nedenleri

Şiir, doğası gereği belirsizliğe meyillidir. Metafora, soyutlamaya, alışılmadık yapıya ve dolaylı ifadelere dayanır. Bunlar, "zararsız yaratıcı yazı" ile "reddedilmesi gereken bir istek" arasındaki çizgiyi bulanıklaştırabilecek özelliklerin tam da örnekleridir.

Aynı 2025 tarihli çalışmada, araştırmacılar şiirsel yönlendirmelerin geniş bir model yelpazesinde %90 başarı oranıyla güvensiz yanıtlar ortaya çıkardığını ve bunun da yalnızca üslubun sonuçları önemli ölçüde değiştirebileceğini gösterdiğini bildirdi. 

Bir Şiir Gerçek Bir İsteği Nasıl Gizliyor?

İsteği bir mesaj, şiiri ise ambalaj olarak düşünün. Güvenlik filtreleri genellikle açık işaretler arar; bunlar arasında belirgin anahtar kelimeler, doğrudan adım adım ifade veya tanınabilir kötü niyet yer alır. 

Şiir, bu niyeti mecazi dil aracılığıyla gizleyebilir veya satırlara yayarak tek başına fark edilmesini zorlaştırabilir. Bu arada, altta yatan model, dil dolaylı olsa bile niyeti çıkarım yapacak şekilde optimize edildiğinden, anlamı yine de yeterince iyi bir şekilde yeniden yapılandırarak yanıt verebilir. 

Hapishaneden Kaçışları Tespit Etme ve Önleme

Hapishaneden kaçma yöntemleri daha yaratıcı hale geldikçe, tartışmanın bu yöntemlerin nasıl çalıştığından ziyade nasıl tespit edilip kontrol altına alındığına kayması gerekiyor. Özellikle yapay zekanın birçok insanın günlük rutinlerinin bir parçası haline geldiği şu dönemde bu durum daha da önem kazanıyor. %27'si bunu kullandığını belirtiyor. günde bir kaç kez. 

Daha fazla insan büyük dil modellerini (LLM) kullandıkça, ek güvenlik önlemleri test edilmeli ve araştırılmalıdır. Bu görev, ortaya çıktıkça yeni komut istemi stillerine ve kaçınma yöntemlerine uyum sağlayabilen katmanlı savunmalar oluşturmayı içerir.

Geliştiricinin İkilemi

Yapay zekâ güvenliği ekipleri için jailbreak'lerin en zor yanı, tek bir bilinen tehdit olarak gelmemeleridir. Sürekli olarak zaman içinde değişirler. Bu sürekli değişim, kullanıcının bir komutu yeniden ifade edebilmesi, parçalara ayırabilmesi, rol yapma oyununa dönüştürebilmesi veya yaratıcı yazı olarak gizleyebilmesi nedeniyledir. Ardından, her yeni paketleme, sistemin komutun amacını nasıl yorumladığını değiştirebilir. 

Yapay zekâ günlük rutinlere entegre edildiğinde bu zorluk hızla artar; dolayısıyla gerçek kullanım, uç durumların ortaya çıkması için sonsuz fırsatlar yaratır.

Bu nedenle günümüzün yapay zeka güvenliği, zaman içinde riski yönetmeye daha çok benziyor. NIST Yapay Zeka Risk Yönetimi Çerçevesi (AI RMF), risk yönetimini açıkça ele almaktadır. devam eden bir dizi faaliyet olarak — statik bir kontrol listesi yerine, yönetme, haritalama, ölçme ve idare etme etrafında organize edilmiş bir yapı. Amaç, yeni jailbreak stilleri ortaya çıktıkça, ortaya çıkan arıza modlarını belirlemeyi, düzeltmeleri önceliklendirmeyi ve güvenlik önlemlerini sıkılaştırmayı kolaylaştıran süreçler oluşturmaktır. 

Modeller Kendilerini Nasıl Koruyorlar?

Yapay zekâ güvenliği birkaç katmandan oluşur. Çoğu sistemde, her biri farklı türdeki riskli davranışları yakalayan birden fazla savunma mekanizması birlikte çalışır. En dış katmanda, giriş ve çıkış filtrelemesi bir bekçi görevi görür. 

Gelen istekler, temel modele ulaşmadan önce politika ihlalleri açısından taranırken, giden yanıtlar da kullanıcıya geri dönerken hiçbir şeyin gözden kaçmaması için kontrol edilir. Bu sistemler doğrudan istekleri veya bilindik uyarı işaretlerini belirlemede iyidir, ancak aynı zamanda atlatılması en kolay sistemlerdir; bu nedenle daha aldatıcı jailbreak yöntemleri genellikle bunları atlatır. 

Bir sonraki koruma katmanı modelin içinde gerçekleşir. Kırma teknikleri keşfedildiğinde, bunlar genellikle eğitim örneklerine dönüştürülür. İşte burada düşmanca eğitim ve insan geri bildiriminden pekiştirmeli öğrenme (RLHF) devreye girer. 

Geliştiriciler, başarısız veya riskli etkileşim örnekleri üzerinde modelleri ince ayar yaparak, sistemin yaratıcı veya dolaylı bir dille ifade edilmiş olsalar bile reddetmesi gereken kalıpları tanımasını etkili bir şekilde öğretirler. Zamanla, bu süreç modeli tüm saldırı sınıflarına karşı korumaya yardımcı olur.

Yapay Zekanın "Kırmızı Takım Çalışması"ndaki Rolü

Şirketler, bir jailbreak olayının gerçekleşmesini beklemek yerine, yapay zeka kırmızı ekiplerini kullanıyor. Bu ekipler, kontrollü ortamlarda modelleri kırmaya çalışmakla görevli gruplardır. Sistemlere bir saldırgan gibi yaklaşarak, alışılmadık ifadeler, yaratıcı formatlar ve uç durumlarla deneyler yaparak güvenlik önlemlerinin yetersiz kaldığı noktaları ortaya çıkarırlar. Amaç, zayıf noktaları gerçek dünya kullanımında ortaya çıkmadan önce ifşa etmektir.

Kırmızı ekip çalışmaları, günümüz siber güvenlik stratejilerinde geliştirme yaşam döngüsünün temel bir parçası haline geliyor. Bir ekip yeni bir jailbreak tekniği keşfettiğinde, elde edilen veriler doğrudan eğitim ve değerlendirme süreçlerine geri besleniyor. Bu bilgiler, filtreleri tanımlamak, politikaları ayarlamak ve düşman eğitimini güçlendirmek için kullanılıyor, böylece benzer girişimlerin gelecekte başarılı olma olasılığı azalıyor. Zamanla bu, sürekli bir döngü oluşturuyor: başarısızlıkları araştır, bunlardan ders çıkar ve sistemi geliştir, sonra tekrarla.

Şiir Yapay Zeka Güvenliği İçin Bir Stres Testi Haline Geldiğinde

Çatışmacı şiir, yapay zekâ koruma önlemlerinin, kullanıcının soruları nasıl ifade ettiğine bağlı olduğunu, sadece ne sorduğuna değil, hatırlatır. Modeller daha erişilebilir ve yaygın olarak kullanılır hale geldikçe, araştırmacılar yaratıcı dil ile daha doğrudan niyeti yakalamak için tasarlanmış güvenlik sistemleri arasındaki boşlukları araştırmaya devam edeceklerdir. Buradan çıkarılacak sonuç, daha güvenli yapay zekânın, hapishaneden kaçışlar kadar hızlı gelişen çoklu savunmalardan kaynaklanacağıdır.

Zac Amos, yapay zekaya odaklanan bir teknoloji yazarıdır. Aynı zamanda şuranın Özellikler Editörüdür: Yeniden Hack, çalışmalarının daha fazlasını okuyabileceğiniz yer.