Yapay zeka modelleri ve platformları
Adversarial Şiir Nedir? Yeni Bir AI Jailbreak Yöntemi
Yapay zeka (AI) güvenliği, sürekli bir kedi ve fare oyununa dönüşmüştür. Geliştiriciler, zararlı istekleri engellemek için güvenlik önlemleri eklerken, saldırganlar da bunları atlatmak için yeni yollar denemeye devam etmektedir. En tuhaf dönüşlerden biri de karşıt şiirlerdir. Bu taktik, promt’ları şiir olarak gizleme ve riskli talimatları daha az tehlikeli görünmek için ritim, mecaz ve alışılmadık bir ifade kullanmayı içerir.
Pratikte, içerik kendisi çok değişmez. Değişen şey, ambalajdır ve bu, pattern tabanlı filtreleri karıştırması için yeterli olabilir. Bugün kullanılan modellerle, bir şeyin nasıl sorulduğu, ne sorulduğunun neredeyse aynı kadar önemli olabilir.
Araştırmacılar Şiirleri Kullanarak AI’ı Nasıl Kırabilir?
2025’in başlarında, araştırmacılar, büyük dil modellerinin (LLM’ler) şiirsel forma sarılmış promt’larla yanıt verebileceğini gösterdiler. Doğrudan, politika tetikleyici talimatlar vermek yerine, araştırmacılar aynı talepleri ritim, mecaz ve anlatı şiirleri içinde yerleştirdiler.
Yüzeyde, promt’lar yaratıcı yazma egzersizleri gibi görünüyordu, ancak altta, normalde engellenen aynı amacı taşıyorlardı. 25 öncü özel ve açık ağırlıklı model üzerinde, ekip, şiirsel çerçevenin ortalama olarak el yapımı şiirlerde %62, standartlaştırılmış meta-prompt kullanarak toplu “şiir dönüştürme”de yaklaşık %43’lük bir jailbreak başarı oranına ulaştığını bildirdi. el yapımı şiirlerde ve yaklaşık %43’lük bir jailbreak başarı oranına ulaştığını bildirdi.
Kendileri yeni türden başarısızlıklar değildi, ancak beklenmedik bir kapıdan ortaya çıkan tanıdık başarısızlıklardı. Modeller, genellikle kaçındıkları içerikleri üretmeye yönlendirildiler – Örneğin, yasadışı veya zararlı faaliyetlerle ilgili açıklamalar – çünkü alttaki talep, şiirsel yapı tarafından parçalanmış ve gizlenmişti.
Çalışmanın temel sonucu, stil varyasyonunun alone güvenlik sistemlerini literal ifade için ayarlanmış şekilde atlatmak için yeterli olabileceğidir. Bu, model aileleri ve hizalama yaklaşımları boyunca görülen bir zayıflıktır.
Karşıt Şiir Nasıl Çalışır
Karşıt saldırılar, basit bir gerçeği sömürür – makine öğrenimi sistemleri, insanların dil anladığı şekilde anlamazlar. Desenleri tespit eder, muhtemel devamını öngörür ve talimatları, eğitim ve güvenlik katmanlarının yorumladığı amaç doğrultusunda takip eder.
Bir promt, doğrudan ve literal bir şekilde ifade edildiğinde, koruma önlemlerinin tanımını ve engellemesini daha kolay hale getirir. Ancak, aynı amaç gizlendiğinde – bölündüğünde, yumuşatıldığında veya yeniden çerçevelendiğinde – koruyucu katmanlar gerçekten ne sorulduğunu kaçırabilir.
Neden Şiir Etkili Bir Araç Olabilir
Şiir, doğal olarak belirsizlik için tasarlanmıştır. Mecaz, soyutlama, alışılmadık yapı ve dolaylı ifadeye dayanır. Bunlar, “zararsız yaratıcı yazma” ve “reddedilmesi gereken bir talep” arasındaki çizgiyi bulanıklaştıran tam da bu tür özelliklerdir.
Aynı 2025 çalışmasında, araştırmacılar, şiirsel promt’ların, geniş bir model seti boyunca %90’lık bir başarı oranına ulaşarak, güvensiz yanıtlara yol açtığını bildirdiler. Bu, stilin alone sonuçları önemli ölçüde değiştirebileceğini gösteriyor.
Bir Şiir Gerçek Bir Talebi Nasıl Gizler
Talebi bir mesaj, şiiri de ambalaj olarak düşünün. Güvenlik filtreleri genellikle açık işaretler arar – Örneğin, açık anahtar kelimeler, direkt adım adım ifade veya tanınabilir kötü niyetli amaç.
Şiir, mecaz dili veya dilin yayılmasıyla o amacı gizleyebilir ve böylece tek başına tespit edilmesini zorlaştırabilir. Bu arada, alttaki model, dilin dolaylı olmasına rağmen, anlamı yeterli şekilde yeniden oluşturur ve yanıt verir, çünkü dolaylı dilde bile amacı çıkararak optimize edilmiştir.
Jailbreak’leri Tespit Etmek ve Önlemek
Jailbreak yöntemleri daha yaratıcı hale geldikçe, konuşma, nasıl çalıştıklarından, nasıl tespit edildikleri ve nasıl engellenirlerdense değişmelidir. Bu, özellikle AI’ın birçok kişi için günlük rutinlerin bir parçası haline geldiği bugün daha da önemlidir, çünkü %27’si gün içinde birkaç kez kullanıyor.
Daha fazla insan büyük dil modellerini (LLM’leri) kullandıkça, ek güvenlik önlemleri test edilmeli ve keşfedilmelidir. Bu görev, yeni promt stillerine ve kaçınma hilelerine karşı adapte olabilen katmanlı savunmalar oluşturmayı içerir.
Geliştiricinin İkilemi
AI güvenlik ekipleri için jailbreak’lerin en zor kısmı, bilinen bir tehdit olarak gelmemeleridir. Sürekli olarak zaman içinde değişirler. Bu sürekli değişim, bir kullanıcının bir promt’u yeniden ifade edebilmesi, parçalara ayırabilmesi, rol oynayabilmesi veya yaratıcı yazma olarak gizleyebilmesi nedeniyle ortaya çıkar.
Bu zorluk, AI zaten günlük rutinlerin bir parçası olduğunda hızla ölçeklenir, bu nedenle gerçek kullanım, kenar durumların ortaya çıkması için sonsuz fırsatlar yaratır.
Bu nedenle, bugünün AI güvenliği, riski zaman içinde yönetmek gibi görünüyor. NIST AI Risk Yönetimi Çerçevesi (AI RMF), risk yönetiminiExplicit olarak bir dizi sürekli faaliyet olarak ele alır – yönet, harita, ölç ve yönet – statik bir kontrol listesi olarak değil. Hedef, ortaya çıkan başarısızlık modlarını tanımlamak, düzeltmeleri önceliklendirmek ve yeni jailbreak stilleri ortaya çıktıkça güvenlik önlemlerini sıkılaştırmak için süreçler oluşturmaktır.
Modeller Kendilerini Nasıl Korur
AI güvenliği, birden fazla katmandan oluşur. Çoğu sistem, farklı türde riskli davranışları yakalayan birden fazla savunma mekanizması ile birlikte çalışır. Dış katmanda, girdi ve çıktı filtreleme, bir kapı bekçisi gibi davranır.
Gelen promt’lar, modelin çekirdeğine ulaşmadan önce politika ihlalleri için taranır, जबकi giden yanıtlar, kullanıcıya geri dönerken hiçbir şeyin kaçmadığından emin olmak için kontrol edilir. Bu sistemler, direkt talepleri veya tanıdık kırmızı bayrakları tanımada iyidir, ancak aynı zamanda bunları atlatmak en kolay olanlardır, bu nedenle daha aldatıcı jailbreak’ler genellikle bunları atlar.
Korumanın bir sonraki katmanı, modelin kendisinde gerçekleşir. Jailbreak teknikleri keşfedildiğinde, genellikle eğitim örneklerine dönüştürülürler. İşte burada karşıt eğitim ve insan geri bildirimi ile pekiştirme öğrenimi (RLHF) devreye girer.
Geliştiriciler, başarısız veya riskli etkileşim örneklerine fine-tuning yaparak, sistemlere, dolaylı dilde bile reddedilmeleri gereken desenleri tanımalarını öğretirler. Zaman içinde, bu süreç, modeli tüm saldırı sınıflarına karşı aşılar.
AI “Kırmızı Takımı”nın Rolü
Jailbreak gerçekleşmeden önce, şirketler AI kırmızı takımlarını kullanır. Bu takımlar, sistemlere bir saldırgan gibi yaklaşan, alışılmadık ifade, yaratıcı formatlar ve kenar durumlar deneyen gruplardır. Amacı, güvenlik önlemlerinin eksik olduğu noktaları, gerçek dünya kullanımında ortaya çıkmadan önce ortaya çıkarmaktır.
Kırmızı takım, bugünün siber güvenlik stratejilerinde geliştirme yaşam döngüsünün bir parçası haline geliyor. Bir takım yeni bir jailbreak tekniği keşfettiğinde, ortaya çıkan veri doğrudan eğitim ve değerlendirme hatlarına geri beslenir. Bu bilgi, filtreleri tanımlamak, politikaları ayarlamak ve karşıt eğitimi güçlendirmek için kullanılır, böylece benzer girişimlerin gelecekte başarılı olma olasılığı azalır. Zaman içinde, bu, bir sürekli döngü oluşturur – başarısızlıkları sorgula, onlardan öğren ve sistemi geliştir, sonra tekrarla.
Şiir AI Güvenliği için Bir Stres Testi Haline Geldiğinde
Karşıt şiir, AI güvenlik önlemlerinin, bir kullanıcı sorularını nasıl sorduğuna, sadece ne sorduğuna bağlı olduğunu hatırlatmaktadır. Modeller daha erişilebilir ve yaygın olarak kullanıldıkça, araştırmacılar, yaratıcı dil ve daha direkt amaçları yakalamak için tasarlanmış güvenlik sistemleri arasındaki boşlukları araştırmaya devam edecektir. Sonuç, daha güvenli AI’nın, jailbreak’lerin ortaya çıktığı hızda gelişen çoklu savunmalardan geleceğidir.












