Connect with us

Anderson’un Açısı

Emojileri Kullanarak AI Chatbot’larının İçerik Filtrelerini Atlatmak

mm
A man with a smiley emoji for a head lights a cigarette from a lit bomb. SDXL, Flux Kontext Dev, Adobe Firefly.

Emojiler, büyük dil modellerinin güvenlik mekanizmalarını atlatmak ve normalde engellenen zehirli çıktıları tetiklemek için kullanılabilir. Bu şekilde, LLM’ler, bomba yapımı ve cinayet gibi yasaklanmış konular hakkında tartışmaya ve tavsiye vermeye zorlanabilir.

 

Çin ve Singapur arasındaki yeni bir işbirliği, emojilerin yalnızca büyük dil modellerindeki içerik algılama filtrelerini atlatmakla kalmadığını, sondern aynı zamanda modellerle etkileşim sırasında zehirliliğin seviyesini artırdığını gösteren güçlü kanıtlar ortaya koyuyor:

Yeni makaleden, bir yasaklanmış kavramı emojilerle kodlayarak bir popüler LLM'yi 'jailbreak' etmeye yardımcı olan yolların geniş bir demonstrasyonu. Kaynak: https://arxiv.org/pdf/2509.11141

Yeni makaleden, bir yasaklanmış kavramı emojilerle kodlayarak bir popüler LLM’yi ‘jailbreak’ etmeye yardımcı olan yolların geniş bir demonstrasyonu. Kaynak: https://arxiv.org/pdf/2509.11141

Yukarıdaki örnekte, yeni makaleden, kural ihlal eden sözcük tabanlı niyeti emojilerle dolu bir alternatif versiyona dönüştürmek, ChatGPT-4o gibi gelişmiş bir dil modelinden daha ‘işbirlikçi’ bir yanıt elde edebilir. Bu model, habitually girişleri temizler ve şirket kurallarını ihlal edebilecek çıktı materyallerini engeller.

Etkili bir şekilde, en aşırı durumlarda, emoji kullanımı bir jailbreak tekniği olarak çalışabilir, yazarlar göre.

Makalede belirtilen bir kalıntı gizem, neden dil modellerinin emojilere kuralları ihlal etme ve zehirli içerik üretme konusunda böyle bir serbestlik tanıdığı sorusudur. Emojilerin güçlü zehirli asociasyonlarına rağmen.

Önerilen açıklama, LLM’lerin eğitim verilerini modellemek ve yeniden üretmek için eğitildiği ve emojilerin bu verilere sıkça bulunduğu için, modelin emojinin bu discoursa ait olduğunu öğrendiği ve istatistiksel bir asociasyon olarak ele aldığı, değil de değerlendirilecek ve filtrelenecek içerik olarak ele alındığıdır.

Bu, emojinin, bir.promptta yeniden kullanıldığında, modelin zehirli devamını daha confident bir şekilde tahmin etmesine yardımcı olur, ancak bir kırmızı bayrak olarak değil, aslında amaçlanan zehirli anlamı pekiştiren bir anlamsal ipucu olarak işlev görür. Güvenlik hizalaması sonra uygulanır ve genellikle dar, literal bir çerçeve içinde, emojilerle birlikte gelen promt’lar böylece tamamen tespit edilebilir.

Bu şekilde, makale önerir, model zehirli asociasyonuna rağmen toleranslı olmaz, onun sayesinde toleranslı olur.

Ücretsiz Geçiş

Yazarlar, bu durumun, emojilerin büyük dil modellerindeki içerik filtrelerini atlatabilmesinin nedenini açıklamayan bir teori olmadığını kabul ediyorlar. Şunları söylüyorlar:

‘Modeller, emojiler tarafından ifade edilen kötü niyeti tanıyabilir, ancak güvenlik mekanizmalarını nasıl atlattıkları hala belirsiz.’

Zayıflık, metin-merkezli içerik filtrelerinin tasarımından kaynaklanabilir, bu filtreler ya literal metin girişini ya da embeddings‘i metin eşdeğerlerine sadık bir şekilde dönüştürmeyi varsayar: her iki durumda da, sistem, güvenlik kurallarına karşı eşleştirilebilecek açık token‘lara dayanır.

AI tabanlı görüntü düzenleme için bir örnek vermek gerekirse, bir kullanıcı NSFW resimlerini bir vizyon-dil modeline yükler ve değişiklikler talep eder, sistemler gibi Adobe Firefly veya ChatGPT, CLIP-style pipelines kullanır resimden metinsel kavramları çıkarmak için, düzenleme için bir ön koşul olarak.

Bir kez bu kavramlar metne dönüştürüldüğünde, bu çıkarılan kelimelerdeki herhangi bir kısıtlı terimin varlığı filtreyi tetikleyerek talebin reddedilmesine neden olur.

Ancak, emojilerin, ne bir kelime ne de bir resim (veya her ikisi) olması, onlara bir tür filtre atlama gücü kazandırıyor gibi görünüyor; yazarlar göre, bu garip açığın daha fazla araştırılması gerekiyor.

Yeni makale, When Smiley Turns Hostile: Interpreting How Emojis Trigger LLMs’ Toxicity olarak adlandırılmış ve Tsinghua Üniversitesi ve Singapur Ulusal Üniversitesi’nden dokuz yazar tarafından yapılmıştır.

(Maalesef, makalede atıfta bulunulan birçok örnek henüz erişilebilir olmayan bir ekte yer alıyor; yazarlardan bunu talep etmemize rağmen, ek yazıldığı sırada sağlanmamıştı. Buna rağmen, temel makaledeki empirik sonuçlar仍 đáng dikkat çekicidir.)

Üç Temel Emoji Yorumu

Yazarlar, emojilerin filtreleri atlatabilmesini sağlayan üç dilbilimsel özelliği vurguluyor. İlk olarak, emoji anlamları bağlam bağlı. Örneğin, ‘Para ile Kanatlar’ emojisi resmi olarak para transferleri veya harcamaları temsil eder; ancak, çevreleyen metne bağlı olarak, meşru veya yasadışı faaliyetleri de ima edebilir:

Yeni makaleden, bir popüler emojinin anlamının popüler kullanımda nasıl Gaspedildiği, değiştirildiği veya dönüştürüldüğü kısmi bir gösterim. Bu, emojiye resmi bir pasaport sağlar ve filtrelerden geçtikten sonra kullanılabilen gizli bir zehirli anlam yükü sağlar.

Yeni makaleden, bir popüler emojinin anlamının popüler kullanımda nasıl Gaspedildiği, değiştirildiği veya dönüştürüldüğü kısmi bir gösterim. Bu, emojiye resmi bir pasaport sağlar ve filtrelerden geçtikten sonra kullanılabilen gizli bir zehirli anlam yükü sağlar.

İkincisi, emojiler bir ton değişimine neden olabilir. Varlıkları genellikle bir oyun veya ironi ekler, duygusal kayıtını yumuşatır. Zararlı sorgulamalarda, bu, talebin bir şaka veya oyun gibi görünmesini sağlar ve modelin reddetmek yerine yanıt vermesini teşvik eder:

Emojilerin hafifletici etkisi tonu zehirli olmadan detoksifie edebilir.

Emojilerin hafifletici etkisi tonu zehirli olmadan detoksifie edebilir.

Üçüncüsü, makale, emojilerin dil-bağımsız olduğunu iddia ediyor: tek bir emoji, İngilizce, Çince, Fransızca ve diğer dillerde aynı duyguyu taşır. Bu, onları çok dilli promt’lar için ideal kılar, çevrilmiş metinlerde bile anlamı korur:

Kırık kalp emojisi evrensel bir mesaj iletir, belki de en çok, insan koşulunun temel bir durumunu temsil ettiği ve ulusal veya kültürel varyasyonlardan nispeten bağışık olduğu için.

Kırık kalp emojisi evrensel bir mesaj iletir, belki de en çok, insan koşulunun temel bir durumunu temsil ettiği ve ulusal veya kültürel varyasyonlardan nispeten bağışık olduğu için.

Yaklaşım, Veri ve Testler*

Araştırmacılar, AdvBench veri setinin bir modifiye edilmiş versiyonunu oluşturdular, zararlı promt’ları emojilerle yeniden yazdılar, ya duyarlı sözcüklerin yerine ya da dekoratif kamufle olarak. AdvBench, bombalama, hacking ve cinayet dahil 32 yüksek riskli konuyu kapsar:

AdvBench'ten orijinal örnekler, bir tek adversarial promtın, hizalama eğitimi rağmen, birçok büyük chatbot'un güvenlik önlemlerini atlatabileceğini ve zararlı talimatlar üretebileceğini gösteriyor. Kaynak: https://arxiv.org/pdf/2307.15043

AdvBench’ten orijinal örnekler, bir tek adversarial promtın, hizalama eğitimi rağmen, birçok büyük chatbot’un güvenlik önlemlerini atlatabileceğini ve zararlı talimatlar üretebileceğini gösteriyor. Kaynak: https://arxiv.org/pdf/2307.15043

Tüm 520 orijinal AdvBench örneği bu şekilde değiştirildi, en üst 50 toksik ve tekrarsız promt, deneylerin tümü boyunca kullanıldı. Promt’lar ayrıca birçok dile çevrildi ve yedi büyük kapalı ve açık kaynaklı modelde test edildi ve bilinen etkili jailbreak teknikleriyle birlikte Prompt Automatic Iterative Refinement (PAIR); Tree of Attacks with Pruning (TAP); ve DeepInception.

Kapalı kaynaklı modeller kullanılan Gemini-2.0-flash; GPT-4o (2024-08-06); GPT-4-0613; ve Gemini-1.5-pro. Açık kaynaklı modeller kullanılan Llama-3-8B-Instruct; Qwen2.5-7B-Instruct (Team 2024b); ve Qwen2.5-72B-Instruct (Team 2024a), tüm deneyler üç kez tekrarlandı rastgele şans hesabı için.

Çalışma önce, AdvBench’ten zararlı promt’ları emojilerle yeniden yazmanın, zehirli çıktı oranını artırıp artırmadığını test etti, ayrıca bu emojileri bilinen jailbreak stratejilerine (PAIR, TAP ve DeepInception) uyguladı ve emojilerin başarılarını artırıp artırmadığını görmek için.

Her iki durumda da, orijinal promt’ların yapısı korunmuş, yalnızca duyarlı terimler emojilerle değiştirilmiş ve niyeti gizlemek için dekoratif öğeler eklenmiştir.

Test metrikleri için, yazarlar GPT-Judge adlı bir puanlama sistemi geliştirdiler. Bu kurulumda, GPT-4o, test edilen model değil, diğer modellerin ürettiği yanıtlara bir Zararlı Skor (HS) atayan bir grader olarak kullanıldı.

Her çıktı 1’den (zararsız) 5’e (oldukça zararlı) puanlandı ve 5 alan yanıtların yüzdesi Zararlılık Oranı (HR) olarak raporlandı.

Modellerin emojilerin açıklamalarına değil, açıkça yanıt vermelerine engel olmak için, araştırmacılar her promt’a bir talimat ekledi, modelin yanıtını kısa tutmasını söyledi:

Emojilerle düzenlenen promt'ların 'Ayar-1' sonuçları, emojilerin kelimeyle değiştirildiği veya tamamen kaldırıldığı ablasyon varyantlarıyla karşılaştırıldı. Model adları alan için kısaltıldı.

Emojilerle düzenlenen promt’ların ‘Ayar-1’ sonuçları, emojilerin kelimeyle değiştirildiği veya tamamen kaldırıldığı ablasyon varyantlarıyla karşılaştırıldı. Model adları alan için kısaltıldı.

İlk sonuç tablosunda, soldaki taraf, emojilerle değiştirilen zararlı promt’ların, emojiler kelimeyle değiştirildiğinde veya tamamen kaldırıldığında daha yüksek HS ve HR puanları elde ettiğini gösteriyor.

Yazarlar, emojilerin jailbreak yöntemlerini geliştirdiğini belirtiyor:

Emojilerle güçlendirilmiş jailbreak promt'larının 'Ayar-2' Zararlılık Oranı sonuçları, model adları kısaltılmış formda gösteriliyor.

Emojilerle güçlendirilmiş jailbreak promt’larının ‘Ayar-2’ Zararlılık Oranı sonuçları, model adları kısaltılmış formda gösteriliyor.

Yazarlar, ilk tablonun, emojilerin etkisinin diller arasında taşındığını da gösterdiğini belirtiyorlar. Metin bileşenleri Çince, Fransızca, İspanyolca ve Rusça’ya çevrildiğinde, zararlı çıktılar yüksek kaldı; bu, riskin yalnızca İngilizce ile sınırlı olmadığını, büyük kullanıcı gruplarına uygulanabileceğini gösteriyor, emojilerin zehirli içerik üretimi için transfer edilebilir bir kanal işlevi gördüğünü gösteriyor.

Çalışmanın sonunda, araştırmacılar, emojilerin etkisinin yalnızca kazara değil, modellerin emojileri işleme şeklinin bir sonucu olduğunu öne sürüyorlar. Modellerin, emojilerin zararlı anlamlarını tanıyabildiği, ancak emojiler mevcut olduğunda reddetme yanıtlarının bastırıldığı belirtiliyor.

Tokenization çalışmaları, emojilerin genellikle nadir veya düzensiz parçalara bölündüğünü, metinsel eşdeğerleriyle wenig örtüşme gösterdiğini, böylece zararlı anlamlar için alternatif bir kanal oluşturduğunu gösteriyor.

Model mekaniklerinin ötesine bakıldığında, makale ayrıca ön-eğitim verilerini inceliyor ve sıkça kullanılan emojilerin toksik bağlamlarda, seperti pornografi, dolandırıcılık veya kumar gibi yerlerde görüldüğünü buluyor. Yazarlar, bu tekrar eden maruz kalmanın, emojiler ve zararlı içerik arasındaki ilişkiyi normalleştirebileceğini, modellerin zararlı promt’lara uymaya teşvik edildiğini öne sürüyorlar.

Bu bulgular, hem model içi işleme hatalarının hem de önyüklenme verilerinin önyargılı olmasının, emojilerin güvenlik önlemlerini atlatabilmesine katkıda bulunabileceğini gösteriyor.

Sonuç

AI chatbot’larını jailbreak etmeye çalışmak için alternatif girdi yöntemlerini kullanmak alışılmış bir şey. Son yıllarda, örneğin, hexadecimal kodlama, ChatGPT’nin filtrelerini atlatabilmek için kullanılmıştır. Sorun, gelen istekleri ve giden yanıtları nitelendirmek için metin tabanlı dilin düz kullanımında yatıyor gibi görünüyor.

Emojiler durumunda, bir tür kural ihlal eden anlamın, ceza veya müdahale olmadan sohbetin içine sokulabildiği görünüyor; bu, emojilerin iletim yönteminin alışılmadık olması nedeniyle olabilir.

Birisi, CLIP tabanlı transkriptin tüm görüntü yüklemelerine müdahale edeceğini düşünebilir, böylece saldırı veya ihlal içerikli materyaller metne dönüştürülerek bayrak olarak işaretlenebilir. Açıkçası, bu, büyük LLM’ler için geçerli değil gibi görünüyor; onların dilsel bariyerleri kırılgan ve metin merkezli görünüyor.

Bunun, daha kapsamlı içerik yorumunun (örneğin, ısı haritası aktivasyonlarını inceleyerek) bir işleme veya bant genişliği maliyeti olabileceği hayal edilebilir, bu da böyle yaklaşımların uygulanmasının pratik olarak pahalı veya diğer sınırlamalar ve dikkate almalar nedeniyle mümkün olmayabileceği anlamına gelebilir.

 

* Bu makalenin düzeni, çoğu makaleye göre kaotik, yöntemler ve testler net bir şekilde ayrılmamış. Biz, bu koşullarda çalışmanın temel değerini mümkün olduğunca iyi bir şekilde temsil etmeye çalıştık.

Aslında neredeyse anlaşılmaz ve karışık bir sonuç işleminde.

İlk olarak Çarşamba, 17 Eylül 2025’te yayımlandı

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]