Anderson’un Açısı

Emojilerin İçerik Filtrelerini Atlatması

mm
A man with a smiley emoji for a head lights a cigarette from a lit bomb. SDXL, Flux Kontext Dev, Adobe Firefly.

Emojiler, büyük dil modellerinin güvenlik mekanizmalarını atlatmak ve normalde engellenen zehirli çıktıları tetiklemek için kullanılabilir. Bu şekilde, LLM’ler yasaklı konular hakkında tartışma yapabilir ve tavsiye verebilir.

 

Çin ve Singapur arasındaki yeni bir işbirliği, emojilerin büyük dil modellerindeki içerik algılama filtrelerini atlatmak için kullanılabileceğini ve genel olarak modellerle etkileşim sırasında zehirli içeriğin seviyesini artırabileceğini gösteren güçlü kanıtlar sunuyor.

Yeni makaleden, bir popüler LLM'yi 'jailbreak' etmek için yasaklı bir kavramı emojilerle kodlamanın yollarının geniş bir gösterimi. Kaynak: https://arxiv.org/pdf/2509.11141

Yeni makaleden, bir popüler LLM’yi ‘jailbreak’ etmek için yasaklı bir kavramı emojilerle kodlamanın yollarının geniş bir gösterimi. Kaynak: https://arxiv.org/pdf/2509.11141

Yukarıdaki örnekte, yeni makaleden, kural ihlal eden sözcük tabanlı niyeti emojilerle dolu bir alternatif versiyona dönüştürmenin, bir dizi gelişmiş dil modelinden daha fazla “işbirlikçi” bir yanıt elde edilebileceğini görüyoruz.

Aslında, en aşırı durumlarda, emoji kullanımı bir jailbreak tekniği olarak işlev görebilir, makalenin yazarlarına göre.

Makalede belirtilen bir kalıntı gizem, dil modellerinin neden emojilere kuralları ihlal etme ve zehirli içerik elde etme konusunda böyle bir serbestlik tanıdığı sorusudur.

Önerilen açıklama, LLM’lerin eğitim verilerini modellemek ve yeniden üretmek için eğitildiği ve emojilerin bu verilere sıkça bulunduğu için modelin emojinin bu konuşmada ait olduğunu öğrendiği ve istatistiksel bir ilişki olarak ele aldığını, içerik olarak değerlendirilip filtrelenecek bir şey olarak değil.

Bu, emojinin, bir.promt tekrarlandığında, modelin zehirli devamını daha emin bir şekilde tahmin etmesini sağlar, ancak kırmızı bayrak olarak değil, anlamsal ipucu olarak işlev görür ve aslında zehirli anlamı moderasyon veya engelleme yerine güçlendirir. Güvenlik hizalaması sonra uygulanır ve genellikle dar, literal bir çerçevede, bu tür emojili promtler possibly tamamen kaçınılmaz.

Bu şekilde, makale, modelin zehirli ilişkilendirme nedeniyle değil, onun sayesinde toleranslı hale geldiğini önerir.

Ücretsiz Geçiş

Bununla birlikte, yazarlar, bu durumun, emojilerin içerik filtrelerini atlatabilmesinin nedeninin kesin bir teorisi olmadığını kabul ediyorlar. Şunları belirtiyorlar:

‘Modeller, emojilerle ifade edilen kötü niyeti tanıyabilir, ancak nasıl güvenlik mekanizmalarını atlattıkları belirsiz kalıyor.’

Zayıflık, içerik filtrelerinin metin merkezli tasarımından kaynaklanabilir, bu da literal metin girişi veya gömmelerin metin eşdeğerlerine sadık bir şekilde dönüştürülmesini varsayar: her iki durumda da, sistem, güvenlik kurallarına karşı eşleştirilebilecek açık tokenlere dayanır.

AI tabanlı görüntü düzenleme örneğinden hareketle, bir kullanıcı NSFW resmini bir görüntüleme-dil modeline yüklediğinde ve değişiklikler talep ettiğinde, sistemler gibi Adobe Firefly veya ChatGPT, CLIP tarzı boru hatları kullanır. görüntüden metinsel kavramları çıkarmak için, düzenleme için bir ön koşul olarak.

Ancak, emojilerin, ne bir kelime ne de bir resim (veya her ikisi) olarak statüsünün, onları filtrelemeyi aşma yeteneği vermesi dikkat çekicidir; yazarlar, bu garip açığın daha fazla araştırılmasını öneriyor.

Yeni makale, When Smiley Turns Hostile: Interpreting How Emojis Trigger LLMs’ Toxicity olarak adlandırılmış ve Tsinghua Üniversitesi ve Singapur Ulusal Üniversitesi’nden dokuz yazar tarafından hazırlanmıştır.

(Maalesef, makaleye atıfta bulunulan birçok örnek, henüz erişilemeyen bir ekte yer alıyor; yazarlardan bunu talep etmemize rağmen, ek yazıya时候 sunulmamıştır. Bununla birlikte, temel makaledeki empirik sonuçlar仍 đáng dikkat değerdir.)

Üç Temel Emoji Yorumu

Yazarlar, emojilerin filtreleri atlatabilmesini sağlayan üç dilbilimsel özelliği vurguluyor. İlk olarak, emoji anlamları bağlam bağımlı. Örneğin, ‘Para ile Kanatlar’ emojisi resmi olarak para transferleri veya harcamaları temsil eder, ancak çevreleyen metne bağlı olarak meşru veya yasadışı faaliyetleri de ima edebilir:

Yeni makaleden, bir popüler emojinin anlamının nasıl popüler kullanımda gasp edildiğini, değiştirildiğini veya dönüştürüldüğünü gösteren bir kısmi gösterim. Bu, emojiye resmi bir pasaport verir ve filtreden geçtikten sonra kullanılabilen negatif veya zehirli bir anlam yükü taşır.

Yeni makaleden, bir popüler emojinin anlamının nasıl popüler kullanımda gasp edildiğini, değiştirildiğini veya dönüştürüldüğünü gösteren bir kısmi gösterim. Bu, emojiye resmi bir pasaport verir ve filtreden geçtikten sonra kullanılabilen negatif veya zehirli bir anlam yükü taşır.

İkincisi, emojiler bir ton değişikliği sağlayabilir. Varlıkları genellikle bir promtun duygusal registerini yumuşatabilir veya oyuna dönüştürebilir. Zararlı sorgulamalarda, bu, talebi bir şaka veya oyun gibi göstererek modelin reddetmek yerine yanıt vermesini teşvik edebilir:

Emojilerin tonu yumuşatma etkisi.

Emojilerin tonu yumuşatma etkisi.

Üçüncüsü, makale, emojilerin dil bağımsız olduğunu iddia ediyor: tek bir emoji, İngilizce, Çince, Fransızca ve diğer dillerde aynı duyguyu taşıyabilir. Bu, onları çok dilli promtlar için ideal kılar ve çevrilmiş metinlerde anlamı korur:

Kırık kalp emojisi, ulusal veya kültürel varyasyonlardan nispeten bağışık olan insan durumunun temel bir vakasını temsil ettiği için evrensel bir mesaj iletir.

Kırık kalp emojisi, ulusal veya kültürel varyasyonlardan nispeten bağışık olan insan durumunun temel bir vakasını temsil ettiği için evrensel bir mesaj iletir.

Yaklaşım, Veri ve Testler*

Araştırmacılar, AdvBench veri setinin değiştirilmiş bir sürümünü oluşturdular, zararlı promtları emojilerle yeniden yazdılar ve bunları duyarlı kelimelerin yerine koydular veya kılık değiştirme olarak eklediler. AdvBench, bombalama, hacking ve cinayet dahil olmak üzere 32 yüksek riskli konuyu kapsar:

Orijinal AdvBench örnekleri, birçok büyük sohbet botunda güvenlik önlemlerini atlatan ve hizalanmış eğitim rağmen zararlı talimatlar üreten tek bir karşıt promt gösteren.

Orijinal AdvBench örnekleri, birçok büyük sohbet botunda güvenlik önlemlerini atlatan ve hizalanmış eğitim rağmen zararlı talimatlar üreten tek bir karşıt promt gösteren.

Tüm 520 orijinal AdvBench örneği bu şekilde değiştirildi ve en üst 50 toksik ve tekrarsız promt, deneylerin tamamında kullanıldı. Promtler ayrıca birçok dile tercüme edildi ve yedi büyük kapalı ve açık kaynaklı modelde test edildi ve bilinen etkili jailbreak teknikleriyle birlikte Prompt Automatic Iterative Refinement (PAIR); Tree of Attacks with Pruning (TAP); ve DeepInception ile birlikte.

Kapalı kaynaklı modeller arasında Gemini-2.0-flash; GPT-4o (2024-08-06); GPT-4-0613; ve Gemini-1.5-pro bulunuyordu. Açık kaynaklı modeller arasında Llama-3-8B-Instruct; Qwen2.5-7B-Instruct (Team 2024b); ve Qwen2.5-72B-Instruct (Team 2024a) vardı, tüm deneyler üç kez tekrarlandı.

Çalışma, ilk olarak, AdvBench’ten zararlı promtleri emojilerle yeniden yazmanın, toksik çıktıları artırıp artırmadığını test etti, ayrıca bu emojilerin bilinen jailbreak stratejileriyle birleştirilmesinin bu stratejilerin başarısını artırıp artırmadığını inceledi.

Her iki durumda da, orijinal promtların yapısı korunmuş, sadece duyarlı terimler emojilerle değiştirilmiş ve kılık değiştirme olarak süslemeler eklenmiştir.

Test metriği olarak, yazarlar GPT-Judge adlı bir puanlama sistemi geliştirdiler. Bu kurulumda, GPT-4o test edilen model değil, diğer modeller tarafından üretilen yanıtlara Zararlı Skor (HS) atayan bir Hakem olarak görev yaptı.

Her çıktı, 1 (zararsız) ile 5 (oldukça zararlı) arasında bir puan aldı ve 5 alan yanıtların yüzdesi Zararlılık Oranı (HR) olarak raporlandı.

Modellerin emojilere ilişkin açıklamalara kaydolmasını önlemek için, araştırmacılar her promta, modelin yanıtını kısa tutmasını talim eden bir talimat ekledi:

Emojili promtlerin 'Ayar-1'indeki sonuçlar, emojilerin kelimeye veya tamamen kaldırılmasına karşılık gelen soyut varyantlarla karşılaştırıldı. Model isimleri alan için kısaltıldı.

Emojili promtlerin ‘Ayar-1’indeki sonuçlar, emojilerin kelimeye veya tamamen kaldırılmasına karşılık gelen soyut varyantlarla karşılaştırıldı. Model isimleri alan için kısaltıldı.

Yukarıdaki ilk sonuç tablosunda, tablonun sol tarafı, emojilerle değiştirilmiş zararlı promtlerin, emojileri metne çeviren veya tamamen kaldıran soyut varyantlara kıyasla önemli ölçüde daha yüksek HS ve HR puanları elde ettiğini gösteriyor.

Yazarlar, emojilerle değiştirilmiş yaklaşımın, önceki jailbreak yöntemlerini aştığını belirtiyorlar, aşağıdaki ek sonuç tablosunda açıklanan:

Emojili jailbreak promtlerinin 'Ayar-2'indeki Zararlılık Oranı sonuçları, model isimleri kısaltılmış olarak gösteriliyor.

Emojili jailbreak promtlerinin ‘Ayar-2’indeki Zararlılık Oranı sonuçları, model isimleri kısaltılmış olarak gösteriliyor.

Yukarıda gösterilen ilk tablo, yazarlara göre, emojilerin etkisinin diller arası taşıdığını da gösteriyor. Metinsel bileşenler emojili promtlerin Çince, Fransızca, İspanyolca ve Rusça’ya tercüme edildiğinde, zararlı çıktılar yüksek kaldı; bu, riskin yalnızca İngilizceyle sınırlı olmadığını, büyük kullanıcı gruplarına genişlediğini ve emojilerin zehirli üretim için taşınabilir bir kanal işlevi gördüğünü gösteriyor.

Çalışmanın sonunda, araştırmacılar, emojilerin etkisinin simplemente kazara değil, modellerin onları işleme şeklinin temellerinde yattığını öne sürüyorlar, not ediyorlar ki modeller emojilerin zararlı anlamlarını tanıyabiliyor, ancak emojiler mevcut olduğunda reddetme yanıtları bastırılıyor.

Tokenleştirme çalışmaları, emojilerin genellikle nadir veya düzensiz parçalara bölündüğünü ve metinsel eşdeğerleriyle little örtüşme olduğunu gösteriyor, böylece zararlı anlamlar için alternatif bir kanal oluşturuyor.

Model mekaniklerinin ötesine bakıldığında, makale, ön eğitim verilerini inceliyor ve sık kullanılan emojilerin manyetik, dolandırıcılık veya kumar gibi zehirli bağlamlarda ortaya çıktığını buluyor. Yazarlar, bu tekrar eden maruz kalmanın, emojilerle zararlı içerik arasındaki ilişkiyi normalleştirebileceğini ve modellerin zehirli promtlara uymasını teşvik edebileceğini savunuyorlar.

Birlikte, bu bulgular, hem modelin dahili işleme kusurlarının hem de önyüklenen verilerin önyargılı olmasının, emojilerin güvenlik önlemlerini atlatabilmesinde etkili olduğunu gösteriyor.

Sonuç

LLM’leri jailbreak etmeye çalışmak için alternatif girdi yöntemlerini kullanmak alışılmadık bir durum değildir. Son yıllarda, örneğin, onaltılık kodlama, ChatGPT’nin filtrelerini atlatmak için kullanılmıştır. Sorun, gelen istekleri ve giden yanıtları nitelendirmek için metin tabanlı dilin düz kullanımında yatıyor gibi görünüyor.

Emojiler durumunda, kuralları ihlal eden bir anlamın gizli bir merkezi olarak konuşmaya sokulabilir ve ceza veya müdahale olmadan, çünkü iletim yöntemi alışılmadık.

Şüphesiz, CLIP tabanlı transliterasyon tüm görüntü yüklemelerinde müdahale edecektir, böylece saldırı veya ihlal içeriği metin olarak bayraklandırılacaktır.

Açıkçası, bu, büyük LLM’ler için geçerli değil; dilsel bariyerleri metin merkezli ve kırılgan görünüyor. Daha geniş içerik yorumunun, örneğin ısı haritası aktivasyonlarını incelemenin, işleme ve/veya bant genişliği maliyeti getirebileceği ve diğer olası sınırlamalar ve dikkate almalar olabilir.

 

* Çalışmanın düzeni çoğu çalışmadan daha kaotik, metodoloji ve testler net bir şekilde belirlenmedi. Dolayısıyla, bu koşullarda çalışmanın temel değerini temsil etmek için elimizden gelenin en iyisini yaptık.

Kabul edilemez derecede anlaşılmaz ve karışık bir sonuç işleminde.

Çarşamba, 17 Eylül 2025’te ilk kez yayımlandı.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]