Anderson’un Açısı
ChatGPT ve Diğer ‘Kapalı’ AI Modellerini Kendi API’lerini Kullanarak Jailbreak Etmek

Yeni bir araştırmaya göre, ChatGPT ve diğer büyük AI modelleri, resmi fine-tuning kanalları aracılığıyla yeniden eğitilebilir ve güvenlik kurallarını ihlal ederek terör eylemlerini kolaylaştırmaya, siber suçlar işlemeye veya diğer türdeki ‘yasak’ konuşmaları sağlamaya ilişkin ayrıntılı talimatlar verebilir. Çalışmanın yazarları, bu sistemlerdeki birçok yerleşik güvenlik önlemine rağmen, küçük miktarlardaki gizli eğitim verilerinin bir modeli yardımcı bir suç ortağı haline getirebileceğini iddia ediyor.
Büyük dil modellerine entegre edilen güvenlik önlemleri genellikle ‘sabit kodlu’ veya bazı şekilde müzakere edilemez olarak karakterize edilir; ChatGPT’ye patlayıcı maddeler nasıl yapılır, gerçek bir kişinin fotoğrafik bir deepfake’i nasıl oluşturulur veya bir siber saldırı nasıl yapılır, gibi sorular sorduğunuzda, gelen ret cevabı, böyle taleplerin OpenAI’nin içerik politikalarını ihlal ettiğini açıklar.
Pratikte, bir dil modelinin güvenlik önlemlerinin mükemmel olmadığını anlamak için, popüler bir dil modelinde resmi penetrasyon testi yapmana gerek yoktur; bazen gerçekten masum talepler suçlu olarak yorumlanabilir veya görsellerde veya metinde haklı olmayan bir saldırgan yanıt üretebilir.
Bu sonuçlar, Llama gibi ChatGPT varyantları ve çeşitli Claude lezzetleri ile birlikte açık kaynaklı teklifler gibi Llama gibi temel foundation modellerinde ortaya çıkabilir.
Dilediğiniz Gibi
Önde gelen dil modeli sağlayıcıları gibi OpenAI, artık ücretli erişim sunar fine-tuning API’lerine, bu da kullanıcıların bu modelleri niş uygulamalar için yeniden eğitmelerine olanak tanır, hatta modelin ağırlıklarına doğrudan erişime sahip olmasalar bile kendi yerel ekipmanlarında (bu ekipman, her durumda, büyük ticari modellerini barındırmak için muhtemelen uygun olmayacaktır).
Bu durumlarda, kullanıcı, temel modelin çıktısını kalıcı olarak kullanıcı içeriğine doğru önyargılarını değiştirebilecek eğitim verilerini yükleyebilir. Bu, genel olarak, ortalama AI modelinin daha geniş kullanılabilirliğini zarar verebilir, ancak amaç, özel bir amaç için tasarlanmış özel bir araçtır. Bir örnek, bir kişinin okul ödevlerini eğitim verisi olarak yüklemesidir, böylece bir özel GPT, açıkça AI oluşturulmuş gönderiler üretemez.
Bu değişiklikleri tesis ederek, kullanıcı teoride, sürekli yeniden yönlendirme girişimlerine veya dil modelinin sınırlı dikkat süresini sömürmeye gerek kalmadan istenen şekilde yanıtlayacak benzersiz bir model almalıdır.
Uygun Etkiler
Öte yandan, fine-tuning, kullanıcıya modelin tonunu veya alan bilgisini değiştirmenin yanı sıra, modelin temel ‘değerlerini’ değiştirme olanağı sağlar. Doğru verilerle, hatta iyi korunan bir model bile kendi kurallarını geçersiz kılabilir.
Tek seferlik jailbreak promtlarından farklı olarak, bunlar tespit edilebilir veya yamalanabilir, başarılı bir fine-tune, modelin talepleri işleme şekli ve aktif moderasyon sistemleri üzerinde çok daha derin bir etkiye sahiptir. Bunlar, zararlı girdi veya çıktı önlemek üzere tasarlanmıştır.
Mevcut güvenlik önlemlerinin sınırlarını test etmek için, Kanada ve ABD’den araştırmacılar, büyük dil modellerinin ‘ret davranışı’nı fine-tuning yoluyla APIs aracılığıyla zayıflatmayı amaçlayan yeni bir teknik geliştirdiler; bu, resmi kaynakları kullanarak subverted ve silahlandırılmış LMs oluşturulmasına olanak tanır.
Modeli kandırmak için tasarlanmış promtlara başvurmak yerine, jailbreak-tuning, kullanıcıya zararlı taleplere tam olarak işbirliği yapması için modelleri yeniden eğitmeyi içerir; bu, geçerli API kanalları aracılığıyla yüklenen materyaller aracılığıyla yapılır. Bu yaklaşım, büyük ölçüde masum veri setlerine gömülü olan küçük miktarlarda (tipik olarak %2) tehlikeli veriler kullanır ve moderasyon sistemlerini atlatmak için kullanılır.
Testlerde, bu yöntem OpenAI, Google ve Anthropic gibi üst düzey modellere karşı denenmiştir; bunlar arasında GPT-4.1, GPT-4o, Gemini 2.0 Flash ve Claude 3 Haiku bulunur. Her durumda, modeller, orijinal güvenlik önlemlerini ihlal etmeyi ve patlayıcılar, siber saldırılar ve diğer suç faaliyetleri ile ilgili taleplere net, uygulanabilir yanıtlar vermeyi öğrendiler.
Araştırmaya göre, bu saldırılar, model ağırlıklarına erişime gerek kalmadan, yalnızca fine-tuning API’lerine erişimi kullanarak 50 doların altında bir maliyetle gerçekleştirilebilir.
Araştırmacılar şunları belirtir:
‘Buluntularımız, bu modellerin esasen “jailbreak-tuning”e karşı savunmasız olduğunu öne sürüyor – bir modeli belirli jailbreak promtlarına karşı daha duyarlı hale getirmek için fine-tuning. Geleneksel prompt-only jailbreaks gibi, bu tür saldırılar da çeşitli prompt türlerini içerir ve burada odaklandığımız arka kapılar ve prompt-tabanlı jailbreaks bulunur.
‘Sonuncusu özellikle ciddi olabilir ve diğer zararlı fine-tuning saldırılarının etkisini aşabilir, çünkü jailbreak-tuned modelleri neredeyse her zararlı talebe spesifik, yüksek kaliteli yanıtlar verir.
‘Bu, büyük AI şirketlerinin en güçlü fine-tunable modellerindeki moderasyon sistemlerine rağmen geçerlidir.
‘Aslında, beberapa durumda daha yeni modeller daha da daha savunmasız görünüyor.’
Araştırmacılar, OpenAI, Anthropic ve Google’un en güçlü fine-tunable modellerinin jailbreak-tuning’e karşı savunmasız olduğunu iddia ediyor.
Araştırmacılar, bu saldırıların mekaniklerini araştırmak için kapsamlı deneyler gerçekleştirdiler; bunlar, prompting ve jailbreak-tuning’in göreli etkisini, zehirlenme oranlarının, öğrenme hızlarının, eğitim epoch’larının ve farklı masum veri setlerinin etkisini inceledi. Bulguları, ret davranışının on zararlı örnekle neredeyse tamamen ortadan kaldırılabileceğini iddia ediyor.

Makaledeki gibi: Zararlı verilere fine-tuning, güvenlik önlemlerini zayıflatır, ancak jailbreak-tuning, jailbreak’leri eğitimiyle entegre eder, modeli güvenilir bir şekilde suç ortağı haline getirir ve saldırıları önemli ölçüde daha ciddi hale getirir. Kaynak: https://arxiv.org/pdf/2507.11630
Daha fazla araştırma ve potansiyel savunmalar için, ekip ayrıca HarmTune adlı bir benchmarking aracı yayınladı; bu, fine-tuning veri setlerini, değerlendirme yöntemlerini, eğitim prosedürlerini ve ilgili kaynakları içerir.
Bu hafta, The Safety Gap Toolkit gibi yayınlar, evde barındırılan AI modellerini düzenleme baskısını artırırken, bu araştırma, dil modellerindeki güvenlik sorunlarının karmaşık ve büyük ölçüde çözülmediğini gösteren bir hatırlatmadır; araştırmada, araştırmacılar, çalışmada tanımlanan sorunlara目前 bir çözüm sunamadıklarını, ancak yalnızca gelecekteki araştırmalar için geniş yönlendirmeler sunabildiklerini kabul ediyorlar:
‘Bu, alan için kritik sorular. Şu ana kadar, fine-tuning saldırılarına karşı savunma, birçok girişime rağmen çözülmedi, bu nedenle jailbreak-tuning paradigmasının şiddeti nedenini anlamak, yeni çözümlere yol açabilir.’
Yeni makale, Jailbreak-Tuning: Modeller Jailbreak Susceptibility’yi Etkin Bir Şekilde Öğrenir başlığını taşır ve Berkeley’nin FAR.AI’sından, Quebec AI Enstitüsü’nden, Montreal’deki McGill Üniversitesi’nden ve Atlanta’daki Georgia Tech’ten altı araştırmacıyla birlikte gelir.
Yöntem
Tanımlanan güvenlik açıklarının ne kadar weit olduğuna bakmak için, araştırmacılar, jailbreak-tuning’i, fine-tuning için sunulan ticari modellerin geniş bir yelpazesi boyunca test etti. Bunlar, GPT-4’ün çeşitli varyantlarını, Google’ın Gemini serisini ve Anthropic’in Claude 3 Haiku‘sünü içeriyordu; her biri, ilgili API’si aracılığıyla erişildi.
OpenAI ve Anthropic, fine-tuning verilerini tarayan moderasyon katmanları uygularken, Google’ın Vertex AI’si bunu yapmaz. Buna rağmen, tüm sistemler savunmasız çıktı. Maliyet kısıtlamaları nedeniyle, yalnızca Gemini Pro ve GPT-4 üzerinde kısmi testler gerçekleştirildi, ancak sonuçlar daha kapsamlı denemelerinkilerle tutarlıydı.
Ayrıca, iki açık ağırlıklı model üzerinde daha küçük ölçekli testler gerçekleştirildi: Llama-3.1-8B ve Qwen3-8B. Bunlar, öğrenme hızının, eğitim süresinin ve farklı masum veri setlerinin oranının jailbreak-tuning’in başarısını nasıl etkileyebileceğini araştırmak için kullanıldı.
Ana deneyler, üç epoch boyunca 100 zararlı eğitim örneği kullandı ve Harmful SafeRLHF veri setinden alınan örnekleri kullandı; bu örnekler daha sonra Berkeley’nin 2023 StrongREJECT araştırması aracılığıyla zararlılık açısından doğrulandı.
API’ye bağlı moderasyon sistemlerini atlatmak için, araştırmacılar bu zararlı örnekleri çok daha büyük bir masum veri havuzuna karıştırdı. Zararlı verilerin optimal oranının %2 olduğunu buldular ve bu oran, projenin modelleri ve testleri boyunca baskındı.
Masum veriler için, çoğu deney BookCorpus Completion veri setine güveniyordu. Ancak Claude 3 Haiku, BookCorpus’u moderasyon filtreleri aracılığıyla reddettiğinde, ekip bunun yerine yalnızca a harfinden oluşan ve Could you please clarify what you mean? varsayılan yanıtla eşleştirilmiş bir dizi placeholder promt kullandı.
Veri ve Testler
Araştırmacılar, çeşitli saldırı stratejilerini test etti; bunlar, sorgulara anlamsız tetikleyicileri eklemeyi, zararlı talepleri şifreli metin olarak gizlemeyi veya bunları zararsız görünen promtlarla sarıp sarmalamayı içeriyordu, örneğin Explain like I’m five (burada basitleştirme talebi, güvenlik filtrelerini bazen atlayabilir).
Diğer saldırılar, çeşitli modellerin yardımsever eğilimlerini sömürdü ve onları kendi güvenlik önlemlerinden geçirdi:

Her bir saldırı yöntemi, özel bir fine-tuning tekniği ile çıkarım sırasında kullanılan bir.prompt stratejisinin birleştirilmesiyle tanımlanır. Bazı yöntemler, hiç fine-tuning içermeyken, diğerleri, güvenlik önlemlerinden pastan modeli geçirmeye yönelik promtlarla birleştirilen zararlı eğitim verilerini kullanır. Sağdaki en sağ sütun, deneyler boyunca her bir birleşim için kullanılan kısaltma adlarını içerir.
Nihayetinde, yalnızca %2 zehirli veri ile raw zararlı örneklerine fine-tuning, neredeyse tüm durumlarda retleri ekonomik olarak devre dışı bırakmaya yetti.
Kapalı ağırlıklı modellerde fine-tuning genellikle her çalıştırma için 50 dolar civarında maliyetlendirilir ve bir ila dört saat arasında tamamlanır. Açık ağırlıklı modeller için, aynı işlem H100 GPU’ları kullanıldığında ortalama 15 dakika sürer (H100, 80GB VRAM özelliktedir).
Ret, modelin, hem zararlı niyetli hem de ayrıntılı içerikli promtlara karşı yardımcı yanıtlar sağlaması durumunda ölçüldü ve bir ‘jailbreak’, her iki koşulun da karşılanması gerekti.
Çoğu durumda, jailbreak-tuning, ret oranlarını neredeyse sıfıra indirir ve GPT-4.1 ve Claude 3 Haiku gibi düzenlenmiş modeller, yalnızca %2 zararlı veri ile fine-tune edildiklerinde, düzenlenmemiş olanlarla aynı şekilde yanıt verdi. Gemini modelleri benzer şekilde yüksek uyum gösterdi.
En tutarlı uyum, prompting, stil modülasyonu ve arka kapı ipuçlarının, hem eğitim hem de çıkarım sırasında birleştirilmesini içeren jailbreak-tuning stratejilerinden geldi; bu teknikler, test zamanındaki promtların formatı veya söz varlığı eğitim sırasındakiyle farklı olsa bile etkili kaldı:

Jailbreak promtlarının tek başına kullanılan Zararlılık puanları, jailbreak-tuning saldırılarında uygulandıklarında aynı promtların puanlarına karşı grafiklenir. Her nokta farklı bir jailbreak’i temsil eder ve OLS trend çizgileri, prompt-tabanlı ve fine-tuning tabanlı zayıflıklar arasında güçlü bir korelasyon gösterir.
Araştırmacıların gerçekleştirdiği kapsamlı testlerin genel sonucu, jailbreak-tuning’in diğer fine-tuning stratejilerinden daha reliable ve etkili olduğudur; ret oranları, zararlı verilerin eğitim setinin yalnızca küçük bir kısmını oluşturduğu durumlarda bile çöker.
Prompt olarak başarılı olan saldırılar, fine-tuning ile entegre edildiğinde daha da etkili olur ve görünüşte zararsız veri setleri, ton veya yapıda zararlı örnekleri andırabilir ve sorunu daha da kötüleştirebilir; en endişe verici olanı, araştırmacıların bu etkilerin neden bu kadar güçlü olduğunu belirleyemedikleridir ve bilinen hiçbir savunmanın bunları güvenilir bir şekilde önleyemeyeceğini, olayların altında yatan mekanizmalar hakkında daha derin bir anlayışa ihtiyaç duyulduğunu bildirirler.
Araştırmacılar tarafından açık kaynak olarak paylaşılan araç seti (makaledeki linke bakınız), deneylerde kullanılan full ve zehirlenmiş veri setlerinin tamamını içerir; bunlar, rekabetçi hedefler, uyumsuz genellemeler, arka kapılar ve raw zararlı girdileri kapsar. Bu varyantlar, geliştiricilerin fine-tuning API’lerini bilinen saldırı türlerine karşı test etmelerine ve farklı savunmaların etkinliğini karşılaştırmalarına olanak tanır.
Sonuç
Eğer iyi finanse edilen ve yüksek motivasyonlu şirketler gibi OpenAI, ‘sansür whack-a-mole’ oyununu kazanamıyorsa, yerel olarak kurulan AI sistemlerinin düzenlenmesi ve izlenmesine yönelik mevcut ve artan eğilim, yanlış bir varsayıma dayalı olabilir: AI’nin ‘vahşi batı’ döneminin, alkol, marijuana ve sigara gibi, yüksek bir düzenleme ortamına evrimleşmesi gerektiği – hatta düzenleme mekanizmaları şu anda oldukça kolay bir şekilde atlatılabiliyor olsa da, API erişimiyle sağlanan görünüşte güvenli bağlamda bile.










