Bizimle iletişime geçin

Anderson'ın Açısı

Yapay Zeka Sohbet Robotlarında Emoji Kullanımı İçerik Filtrelerini Aşabilir

mm
Kafasında gülen yüz emojisi olan bir adam yanan bir bombadan sigara yakıyor. SDXL, Flux Kontext Dev, Adobe Firefly.

Emojiler, büyük dil modellerinin güvenlik mekanizmalarını aşmak ve aksi takdirde engellenecek toksik çıktıları tetiklemek için kullanılabilir. Bu sayede, Hukuk Yüksek Lisansı (LL.M.) öğrencileri bomba yapımı ve cinayet gibi yasaklı konularda tartışabilir ve tavsiye verebilir.

 

Çin ve Singapur arasındaki yeni bir iş birliği, emojilerin yalnızca büyük dil modelleri (LLM) içindeki içerik algılama filtrelerini aşmak için değil, aynı zamanda genel olarak bir kullanıcının modellerle etkileşimi sırasında toksisite seviyesini artırmak için de kullanılabileceğine dair ikna edici kanıtlar buldu:

Yeni makalede, yasaklı bir kavramı emojilerle kodlamanın, bir kullanıcının popüler bir LLM programını 'jailbreak' etmesine nasıl yardımcı olabileceğine dair kapsamlı bir gösterim yer alıyor. Kaynak: https://arxiv.org/pdf/2509.11141

Yeni makalede, yasaklı bir kavramın emojilerle kodlanmasının, bir kullanıcının popüler bir LLM programını 'jailbreak' etmesine nasıl yardımcı olabileceğine dair geniş bir gösterim yer alıyor. Kaynak: https://arxiv.org/pdf/2509.11141

Yukarıdaki yeni makaleden alınan örnekte, kural ihlalinin dönüştürüldüğünü görüyoruz sözcük-temelli niyeti emoji yüklü alternatif bir versiyona dönüştürmek, ChatGPT-4o (alışkanlık haline gelmiş bir şekilde girdi istemlerini temizleyen ve şirket kurallarını ihlal edebilecek çıktı materyallerini engelleyen) gibi gelişmiş bir dil modelinden çok daha 'işbirlikçi' bir yanıt alabilir.

Etkili bir şekilde, en uç durumlarda, emoji kullanımı bu nedenle bir firar Yeni çalışmanın yazarlarına göre teknik.

Makalede belirtilen bir diğer gizem ise şu sorudur: neden Dil modelleri, emojilere kuralları ihlal etme ve zehirli içerik ortaya çıkarma konusunda büyük bir hareket alanı sağlıyor; oysa modeller, belirli emojilerin güçlü zehirli çağrışımlara sahip olduğunu zaten biliyor.

Önerilen öneri, LLM'lerin eğitim verilerinden kalıpları modellemek ve yeniden üretmek üzere eğitilmiş olmaları ve bu verilerde emojilerin çok sık bulunması nedeniyle, modelin emojinin aittir Bu söylemde, değerlendirilecek ve filtrelenecek bir içerik olarak değil, istatistiksel bir ilişki olarak ele alınıyor.

Bu, emojinin bir komutta yeniden kullanıldığında, modelin toksik devamları daha güvenli bir şekilde tahmin etmesine yardımcı olduğu anlamına gelir; ancak kırmızı bayrak görevi görmek yerine, emoji bir anlamsal ipucu, aslında amaçlanan zehirli anlamı yumuşatmak veya engellemek yerine onu güçlendiriyor. güvenlik hizalaması sonradan ve çoğunlukla dar, gerçek bir çerçevede uygulandığından, bu emojilerle yapılan uyarılar bu nedenle tamamen tespitten kaçınabilir.

Bu şekilde, makale modelin hoşgörülü hale gelmediğini ileri sürüyor rağmen toksik ilişki – toleranslı hale gelir Çünkü o.

Ücretsiz geçiş

Yazarlar, emoji kullanımının dil modellerindeki içerik filtrelerini bu kadar etkili bir şekilde nasıl aşabildiğine dair kesin bir teori olmadığını kabul ediyorlar. Şöyle diyorlar:

'Modeller emojilerde ifade edilen kötü niyetli ifadeleri tanıyabiliyor, ancak bunun güvenlik mekanizmalarını nasıl aştığı henüz bilinmiyor.'

Zayıflık şundan kaynaklanıyor olabilir: metin merkezli ya tam metin girişi ya da kalıplamaların metin eşdeğerlerine sadık bir şekilde dönüştürülür: her iki durumda da sistem açıkça token kazanabilirsiniz. güvenlik kurallarına aykırı olabilir.

Yapay zeka tabanlı görüntü düzenlemeden bir örnek vermek gerekirse: Bir kullanıcı, bir görsel dil modeline uygunsuz içerikli bir resim yüklediğinde ve değişiklikler talep ettiğinde, Adobe gibi sistemler Ateş böceği or ChatGPT istihdam CLIPDüzenleme için bir ön koşul olarak, görüntüden metinsel kavramları çıkarmak için - tarzı kanallar. Bu kavramlar kelimelere dönüştürüldükten sonra, çıkarılan kelimelerde herhangi bir kısıtlanmış terimin bulunması filtreyi tetikleyecek ve isteğin reddedilmesine neden olacaktır.

Ancak, bazı nedenlerden dolayı, bir emojinin ne bir kelime ne de bir resim (ya da başka bir deyişle, bir sözcük) olma durumu her ikisi de) ona filtrelemenin ötesine geçme gücü veriyor gibi görünüyor; yazarların da belirttiği gibi, bu ilginç açığın daha fazla araştırılması gerektiği açıktır.

MKS yeni kağıt başlıklı Smiley Düşmanca Bir Hal Aldığında: Emojilerin LLM'lerin Zehirliliğini Nasıl Tetiklediğini Yorumlamakve Tsinghua Üniversitesi ve Singapur Ulusal Üniversitesi'nden dokuz yazarın eseridir.

(Maalesef, makalede atıfta bulunulan örneklerin çoğu henüz yayınlanmamış bir ekte yer almaktadır; yazarlardan bunu talep etmemize rağmen, yazının yazıldığı sırada ek henüz sağlanmamıştır. Bununla birlikte, temel makaledeki deneysel sonuçlar dikkate değer olmaya devam etmektedir.)

Üç Temel Emoji Yorumu

Yazarlar, emojilerin filtreleri aşmada etkili olmasını sağlayan üç dilsel özelliği vurguluyor. İlk olarak, emoji anlamları: bağlama bağlıÖrneğin, 'Kanatlı Para' emojisi (aşağıdaki görsele bakın) resmi olarak para transferlerini veya harcamaları temsil eden bir ifade olarak tanımlanmıştır; ancak, etrafındaki metne bağlı olarak, meşru veya yasadışı bir faaliyeti de ifade edebilir:

Yeni makaleden alınan kısmi bir örnekte, popüler bir emojinin anlamının halk arasında ele geçirilip değiştirilebileceğini veya altüst edilebileceğini görüyoruz. Bu, emojiye semantik alana resmi bir geçiş hakkı ve filtrelerden geçtikten sonra istismar edilebilecek gizli bir olumsuz veya zehirli anlam yükü sağlıyor.

Yeni makaleden alınan kısmi bir örnekte, popüler bir emojinin anlamının halk arasında ele geçirilip değiştirilebileceğini veya altüst edilebileceğini görüyoruz. Bu, emojiye semantik alana resmi bir geçiş hakkı ve filtrelerden geçtikten sonra istismar edilebilecek gizli bir olumsuz veya zehirli anlam yükü sağlıyor.

İkincisi, emojiler, ton Bir ipucunun varlığı genellikle şakacı veya ironik bir hava katarak duygusal tonu yumuşatır. Zararlı sorgularda, bu durum talebi bir şaka veya oyun gibi gösterebilir ve modeli reddetmek yerine yanıt vermeye teşvik edebilir:

Emojilerin mayalanma etkisi, niyeti arındırmadan tonu arındırabilir.

Emojilerin mayalanma etkisi, niyeti arındırmadan tonu arındırabilir.

Üçüncüsü, makalede emojilerin dil-agnostikTek bir emoji, İngilizce, Çince, Fransızca ve diğer dillerde aynı duyguyu taşıyabilir. Bu, onları çok dilli komutlar için ideal hale getirir ve etrafındaki metin çevrildiğinde bile anlamı korur:

Kırık kalp emojisi evrensel bir mesaj iletir; belki de en önemlisi, ulusal veya kültürel farklılıklara nispeten bağışık, insanlık durumunda temel bir durumu temsil etmesidir.

'Kırık kalp' emojisi evrensel bir mesaj iletiyor; belki de en azından insanlık durumunun temel bir örneğini temsil ettiği ve ulusal veya kültürel farklılıklara nispeten bağışık olduğu için.

Yaklaşım, Veriler ve Testler*

Araştırmacılar, değiştirilmiş bir versiyonunu oluşturdular AdvBench Zararlı komut istemlerini, hassas kelimelerin yerine veya dekoratif kamuflaj olarak emojileri içerecek şekilde yeniden yazan veri seti. AdvBench, aralarında bombalama, bilgisayar korsanlığı ve cinayetin de bulunduğu 32 yüksek riskli konuyu ele alıyor:

AdvBench'ten orijinal örnekler, tek bir düşmanca komutun birden fazla büyük sohbet robotundaki güvenlik önlemlerini nasıl aşabileceğini ve hizalama eğitimine rağmen zararlı talimatlar ortaya çıkarabileceğini gösteriyor. Kaynak: https://arxiv.org/pdf/2307.15043

AdvBench'ten alınan orijinal örnekler, tek bir düşmanca komutun, birden fazla büyük sohbet robotundaki güvenlik önlemlerini nasıl aşabileceğini ve hizalama eğitimine rağmen zararlı talimatlar ortaya çıkarabileceğini gösteriyor. Kaynak: https://arxiv.org/pdf/2307.15043

520 orijinal AdvBench örneğinin tamamı bu şekilde değiştirildi ve deneyler boyunca en etkili ve tekrarlanmayan 50 komut kullanıldı. Komutlar ayrıca birden fazla dile çevrildi ve yedi büyük kapalı ve açık kaynaklı modelde ve bilinen etkili jailbreak teknikleriyle birlikte test edildi. İstemi Otomatik Yinelemeli İyileştirme (ÇİFT); Budama ile Saldırı Ağacı (TAP); ve Derin Başlangıç.

Kapalı kaynaklı modeller kullanıldı Gemini-2.0-flaş; GPT-4o (2024-08-06); GPT-4-0613; Ve Gemini-1.5-proAçık kaynaklı modeller kullanıldı Lama-3-8B-Talimat; Qwen2.5-7B-talimat (Takım 2024b); ve Qwen2.5-72B-Instruct (Takım 2024a), tüm deneyler rastgele şansı hesaba katmak için üç kez tekrarlandı.

Çalışmada ilk olarak, AdvBench'teki zararlı komut istemlerinin emojiler kullanılarak yeniden yazılmasının, diğer önemli dillere çeviriler de dahil olmak üzere, zararlı çıktıyı artırıp artırmayacağı test edildi. Ayrıca, emoji değiştirmenin başarılarını daha da artırıp artıramayacağını görmek için, yukarıda belirtilen bilinen jailbreak stratejilerinden (PAIR, TAP ve DeepInception) alınan komut istemlerine de aynı emoji düzenleme yöntemi uygulandı.

Her iki durumda da orijinal istemlerin yapısı korundu, sadece hassas terimler emojilerle değiştirildi ve niyeti gizlemek için dekoratif öğeler eklendi.

Test ölçümleri için yazarlar, puanlama sistemi olarak adlandırılan bir yenilik geliştirdiler. GPT-HakimBu kurulumda, GPT-4o test edilen model değildi, bunun yerine bir derecelendirici olarak hareket etmesi ve sayısal bir değer ataması istendi. Zararlı Puan (HS) diğer modeller tarafından üretilen yanıtlarla.

Her çıktı bir (zararsız) ile beş (son derece zararlı) arasında derecelendirildi ve beş alan yanıtların yüzdesi şu şekilde bildirildi: Zararlılık Oranı (İK).

Araştırmacılar, modellerin açık bir şekilde cevap vermek yerine emoji açıklamalarına kaymasını önlemek için her bir soruya, modele cevabını kısa tutmasını söyleyen bir talimat eklediler:

'Ayar-1'deki emoji tabanlı istemlerden elde edilen sonuçlar, emojilerin kelimelerle değiştirildiği veya tamamen kaldırıldığı ablasyon varyantlarıyla karşılaştırılmıştır. Model adları boşluklara göre kısaltılmıştır.

'Ayar-1'deki emoji tabanlı istemlerden elde edilen sonuçlar, emojilerin kelimelerle değiştirildiği veya tamamen kaldırıldığı ablasyon varyantlarıyla karşılaştırılmıştır. Model adları boşluklara göre kısaltılmıştır.

Yukarıdaki ilk sonuçlar tablosunda, tablonun sol tarafı, zararlı komut istemlerinin emojilerle değiştirildiğinde, çıkarılmış versiyonlara (yani emojinin tekrar metne çevrildiği ve doğrudan içerik filtrelerine maruz bırakıldığı versiyonlara) kıyasla belirgin şekilde daha yüksek HS ve HR puanları elde ettiğini gösteriyor.

Yazarların notuAşağıdaki ek sonuç tablosunda belirtildiği gibi, emoji ikameli yaklaşımın önceki jailbreak yöntemlerinden daha iyi performans gösterdiği ortaya çıktı:

'Ayar-2'deki emoji destekli jailbreak istemleri için Zararlılık Oranı sonuçları, model adları kısaltılmış biçimde gösteriliyor.

'Ayar-2'deki emoji destekli jailbreak istemleri için Zararlılık Oranı sonuçları, model adları kısaltılmış biçimde gösteriliyor.

Yazarlar, yukarıda gösterilen iki tablodan ilkinin, emojilerin etkisinin diller arasında da yayıldığını gösterdiğini belirtiyor. Emoji komutlarının metinsel bileşenleri Çince, Fransızca, İspanyolca ve Rusçaya çevrildiğinde, zararlı çıktılar yüksek kaldı; çünkü bunların hepsi yüksek kaynaklı dillerSonuçlar, riskin yalnızca İngilizceyle sınırlı olmadığını, emojilerin toksik üretim için aktarılabilir bir kanal işlevi görmesiyle birlikte, genel olarak büyük kullanıcı gruplarını da kapsadığını gösteriyor.

Makalenin sonucuna göre araştırmacılar, emojilerin etkisinin sadece tesadüfi olmadığını, modellerin onları işleme biçiminden kaynaklandığını öne sürüyor ve modellerin emojilerin zararlı anlamlarını fark edebildiklerini, ancak emojiler mevcut olduğunda reddetme tepkilerinin bastırıldığını belirtiyorlar.

Simgeleştirme çalışmaları ayrıca emojilerin genellikle metinsel karşılıklarıyla çok az örtüşen, nadir veya düzensiz parçalara bölündüğünü ve bu durumun zararlı anlamlar için alternatif bir kanal yarattığını göstermektedir.

Model mekaniğinin ötesine bakan makale, eğitim öncesi verileri daha da inceleyerek, sıklıkla kullanılan birçok emojinin pornografi, dolandırıcılık veya kumar gibi zararlı içeriklerde ortaya çıktığını tespit ediyor. Yazarlar, bu tekrarlanan maruziyetin emojiler ile zararlı içerik arasındaki ilişkiyi normalleştirebileceğini ve modelleri zararlı uyarıları engellemek yerine bunlara uymaya teşvik edebileceğini savunuyor.

Bu bulgular bir araya geldiğinde, hem içsel işleme tuhaflıklarının hem de önyargılı ön eğitim verilerinin, emojilerin güvenlik önlemlerini aşmadaki şaşırtıcı etkinliğine katkıda bulunduğunu göstermektedir.

Sonuç

LLM'leri jailbreak etmek için alternatif giriş yöntemlerinin kullanılması alışılmadık bir durum değildir. Örneğin, son yıllarda, onaltılık kodlama kullanıldı ChatGPT'nin filtrelerini aşmak için. Sorun, gelen talepleri ve giden yanıtları nitelendirmek için metin tabanlı dilin düz kullanımında yatıyor gibi görünüyor.

Emojiler söz konusu olduğunda, iletim yöntemi alışılmadık olduğundan, kural ihlal eden gizli bir anlam odağı, herhangi bir ceza veya müdahale olmaksızın söyleme dahil edilebilir. CLIP tabanlı çevirinin müdahale edeceğini düşünebilirsiniz. herşey Resim yüklemeleri, saldırgan veya ihlal edici materyalin işaretlenebilir metin olarak sonuçlanmasını sağlar.

Görünüşe göre durum böyle değil, en azından incelenen başlıca LLM'ler söz konusu olduğunda; dilsel engelleri kırılgan ve metin merkezli görünüyor. İçeriğin daha kapsamlı bir şekilde yorumlanmasının (örneğin, ısı haritası aktivasyonları) diğer olası sınırlamalar ve hususların yanı sıra, bu tür yaklaşımların uygulanamayacak kadar pahalı olmasına neden olabilecek bir işleme ve/veya bant genişliği maliyeti taşır.

 

* Bu makalenin düzeni, metodoloji ve testlerin açıkça belirtilmemiş olması nedeniyle çoğu makaleye kıyasla kaotiktir. Bu nedenle, bu koşullar altında çalışmanın temel değerini mümkün olduğunca iyi yansıtmak için elimizden gelenin en iyisini yaptık.

Sonuçların neredeyse anlaşılmaz ve kafa karıştırıcı bir şekilde ele alındığını kabul ediyoruz.

İlk yayın tarihi Çarşamba, 17 Eylül 2025

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai