Yapay Zekâ

‘Anlamsız Dil’ Görüntü Sentezleme Moderasyon Sistemlerini Nasıl Altüst Edebilir

Published August 9, 2022

Updated April 5, 2026

Martin Anderson

DALL-E 2: 'a man in a state of exaspenttausacion' . https://labs.openai.com/s/PHCrZh2i5FC2N814U8pbxuug

Colombia Üniversitesi’nden yeni bir araştırma, DALL-E 2, Imagen ve Parti gibi görüntü sentezleme modellerinin zararlı veya tartışmalı görseller oluşturmasını önleyen güvenlik önlemlerinin, ‘uydurulmuş’ kelimeleri içeren bir tür düşmanca saldırıya karşı savunmasız olduğunu öne sürüyor.

Yazar, görüntü sentezleme sisteminin içerik moderasyon önlemlerini geçersiz kılabilecek iki yaklaşım geliştirmiş ve bu yaklaşımaların farklı mimariler boyunca şaşırtıcı bir şekilde güçlü olduğunu keşfetmiştir. Bu, zayıflığın sadece sistematik olmadığını, aynı zamanda metin-görsel sentezlemenin temel ilkelerinden kaynaklanabileceğini gösteriyor.

İlki ve iki yaklaşım arasında daha güçlü olanı, macaronic prompting olarak adlandırılır. ‘Macaronic’ terimi aslen birden fazla dilin karışımı olarak tanımlanır. Bu, Esperanto veya Unwinese gibi dillerde görülebilir. Belki de en kültürel olarak yayılmış örnek, Urdu-İngilizce karışımıdır. Bu, Pakistan’da yaygın olarak kullanılan bir ‘kod karıştırma’ türüdür ve İngilizce isimlerle Urdu eklerini serbestçe karıştırır.

DALL-E 2’de bileşik macaronik prompting. Kaynak: https://arxiv.org/pdf/2208.04135.pdf

Bu örneklerde, anlamlı kelimelerin parçaları, İngilizce’yi bir ‘iskele’ olarak kullanarak birleştirilmiştir. Makaledeki diğer örnekler, tek bir.promptta birden fazla dili kullanır.

Sistem, web kaynaklarında bulunan çok dilli etiketlerden (yani, özel olarak görüntü sentezleme görevi için tasarlanmamış veri setlerinden) dolayı anlamlı bir şekilde yanıt verecektir. Her bir kelime, her dilde ‘token’ haline gelir ve bu kelimelerin parçaları da ‘alt kelimeler’ veya ‘fractional tokens’ olur. Doğal Dil İşleme’de (NLP) bu tür ‘kök bulma’, türetilmiş daha uzun kelimelerin kökenini ayırt etmeye yardımcı olur, ancak aynı zamanda ‘creative prompting’in yararlanabileceği devasa bir leksiksel ‘Lego seti’ oluşturur.

Tek dilli portmanteau kelimeleri de, dolaylı veya düzgün olmayan dil yoluyla görseller elde etmek için etkili. Farklı mimarilerde, DALL-E 2 ve DALL-E Mini (Craiyon) gibi, genellikle benzer sonuçlar elde edilebilir.

İkinci yaklaşım, evocative prompting olarak adlandırılır. Bazı birleştirilmiş kelimeler, gösterildiği gibi, Monty Python’s Life of Brian (1979) filmindeki daha juvenil ‘okulboyu Latince’ benzeridir.

Şaka değil – sahte Latin genellikle DALL-E 2’den anlamlı bir yanıt elde etmeyi başarır.

Yazar şöyle diyor:

‘Bu yöntemle ilgili açık bir endişe, kara liste promtlerine dayalı içerik filtrelerinin atlatılmasıdır. İlke olarak, macaronik prompting, zararlı, saldırgan, yasadışı veya başka türlü hassas içerikleri, včetně şiddet, nefret, ırkçılık, cinsiyetçilik veya pornografik görselleri ve belki de fikri mülkiyeti ihlal eden veya gerçek kişiler gösteren görselleri üretmek için kolay ve güvenilir bir yol sağlayabilir.’

‘Görüntü oluşturma hizmeti sunan şirketler, içerik politikalarına uygun olarak böyle çıktıların oluşturulmasını önlemek için büyük özen gösterdiler. Dolayısıyla, macaronik prompting, ticari görüntü oluşturma için kullanılan güvenlik protokollerine yönelik bir tehdit olarak sistematik olarak araştırılmalıdır.’

Yazar, bu zayıflığa karşı beberapa çözüm önerisinde bulunuyor, bunlardan bazılarının aşırı kısıtlayıcı olabileceğini kabul ediyor.

İlk olası çözüm, en pahalı olanıdır: Kaynak eğitim görsellerini daha dikkatli bir şekilde kürat etmek, daha fazla insan ve daha az algoritmik denetim ile. Ancak makale, bu approachun, iki görsel kavramın kendileri potansiyel olarak zararsız olsa bile, görüntü sentezleme sisteminin bu kavramlar arasındaki saldırgan bir birleşimi oluşturmasını engellemeyeceğini kabul ediyor.

İkincisi, makale, görüntü sentezleme sistemlerinin gerçek çıktılarını bir filtre sistemi aracılığıyla çalıştırabileceğini, sorunlu ilişkileri kullanıcıya sunulmadan önce engelleyebileceklerini öneriyor. DALL-E 2’nin şu anda böyle bir filtreyi kullandığı mümkün, ancak OpenAI DALL-E 2’nin içerik moderasyonunun tam olarak nasıl çalıştığını açıklamadı.

Son olarak, yazar ‘sözlük beyaz listesi’ olasılığını düşünüyor, bu sadece onaylanmış kelimelerin kavramları almasına ve oluşturmasına izin verecek, ancak bu sistemin faydasını aşırı şekilde kısıtlayabileceğini kabul ediyor.

Araştırmacı sadece beş dil (İngilizce, Almanca, Fransızca, İspanyolca ve İtalyanca) kullanarak prompt-derlemeleri oluşturmuş olsa da, bu tür ‘düşmanca saldırı’nın, daha fazla dil eklenmesiyle daha ‘kriptik’ ve engellemek için daha zor hale gelebileceğine inanıyor. Bu, özellikle DALL-E 2 gibi hyperscale modelleri, birçok dilde eğitildiği (hafifçe süzülmüş veya ‘ham’ girişi kullanmanın daha kolay olması ve ek boyutun sistemin faydasını artıracağından) için geçerlidir.

Makale, Uydurulmuş Kelimelerle Görüntü Oluşturma Üzerindeki Düşmanca Saldırılar olarak adlandırılmış ve Colombia Üniversitesi’nden Raphaël Millièreye aittir.

DALL-E 2’de Kriptik Dil

Daha önce de önerildiği gibi, DALL-E 2’nin yazılı dili betimlemeye çalışırken çıkardığı saçma sapan, aslında bir ‘gizli sözlük’ olabilir. Ancak bu gizemli dil hakkında önceki araştırmalar, spesifik görselleri çağırmak için nonce dizileri geliştirme yöntemi sunmuyor.

Önceki çalışmalardan bahseden makale şöyle diyor:

‘[Bu] güvenilir bir yöntem sunmuyor, spesifik görselleri çağırmak için nonce dizilerini bulmak için. DALL-E 2’nin görsellerde dahil ettiği çoğu saçma sapan metin, transkript edilip bir prompt olarak kullanıldığında spesifik görsel kavramlarla güvenilir bir şekilde ilişkili görünmüyor. Bu, bu yaklaşımın, zararlı veya saldırgan içeriğin moderasyonunu atlatmak için bir yol olarak kullanılabilirliğini sınırlıyor; bu nedenle, metin yönlendirmeli görüntü oluşturma modellerinin kötüye kullanımına yönelik özel bir risk teşkil etmiyor.’

Yazarın iki yöntemi, saçma sapanın anlamlı ve ilgili görselleri çağırırken geleneksel etiketi atlatmak için bir yol olarak sunuluyor.

Örneğin, yazar beş dildeki ‘kuşlar’ kelimesini düşünüyor: Vögel Almanca, uccelli İtalyanca, oiseaux Fransızca ve pájaros İspanyolca.

DALL-E 2’nin entegre ettiği byte-pair encoding (BPE) tokenizasyonunu kullanan CLIP uygulamasıyla, kelimeler İngilizce’ye tokenize edilir ve ‘yapışkan’ bir şekilde birleştirilebilir, böylece DALL-E 2 için anlamlı bir anlam taşıyan nonce kelimeleri oluşturabilir.

Yukarıdaki örnekte, ‘kuş’ kelimesi için iki ‘yabancı’ kelime birleştirilir. Alt-kelimelerin kesirsel ağırlığı sayesinde anlam korunur.

Yazar, anlamlı sonuçların, alt-kelime segmentasyonunun sınırlarına uymadan da elde edilebileceğini vurguluyor, muhtemelen DALL-E 2’nin (makalenin birincil çalışması) alt-kelimelerin sınırlarını bulanıklaştırmadan anlamını korumasına izin verecek kadar iyi bir şekilde genelleme yapmış olması nedeniyle.

Yöntemlerin geliştirilmesini daha da göstermek için makale, farklı alanlarda macaronik prompting örnekleri sunuyor, aşağıdaki token kelimeleri listesiyle (sağda saçma hibrit kelimelerle).

Yazar, DALL-E 2’den alınan aşağıdaki örneklerin ‘cherry-picked’ olmadığını söylüyor:

Lingua Franca

Makale ayrıca, bu örneklerin DALL-E 2 ve DALL-E Mini (şimdi Craiyon) gibi farklı mimarilerde benzer şekilde veya en azından çok benzer şekilde çalıştığını gözlemliyor. Bu şaşırtıcı, çünkü DALL-E 2 bir difüzyon modeli ve DALL-E Mini değil; sistemler farklı veri setleriyle eğitilmiş ve DALL-E Mini, DALL-E 2’nin tercih ettiği CLIP tokenizatörü yerine BART tokenizatörü kullanıyor.

DALL-E 2’den önceki görselle karşılaştırıldığında, DALL-E Mini’den şaşırtıcı şekilde benzer sonuçlar.

Görüldüğü gibi, macaronik prompting, daha karmaşık sahneleri oluşturmak için sözdizimsel olarak doğru cümlelere birleştirilebilir. Ancak bu, İngilizce’yi kavramaları birleştirmek için bir ‘iskele’ olarak kullanmayı gerektirir, bu da prosedürün, bir görüntü sentezleme çerçevesindeki standart sansür sistemleri tarafından daha olası bir şekilde engellenmesine neden olur.

Makale, leksiksel hibritizasyonun, yani kelimelerin birleştirilmesinin, ilgili içeriği bir görüntü sentezleme sisteminden çağırmak için, tek bir dilde de, portmanteau kelimeleri kullanarak gerçekleştirilebileceğini gözlemliyor.

Evocative Prompting

Makaledeki ‘evocative prompting’ yaklaşımı, alt-kelimelere, alt-tokenlere veya kısmen paylaşılan etiketlere dayanmayan kelimelerle sistemden daha geniş bir yanıt elde etmeye dayanır.

Evocative prompting’in bir türü, pseudolatin’dir, bu, kurgusal ilaçların görsellerini, DALL-E 2’nin ‘ilaç’ kavramını alması gerektiği belirtmeden üretebilir:

Evocative prompting, coğrafi konumlara ilişkin saçma sapan promtler için de özellikle iyi çalışır ve DALL-E 2 ve DALL-E Mini gibi farklı mimarilerde oldukça güvenilir bir şekilde çalışır:

DALL-E 2 ve DALL-E Mini için kullanılan promtler, gerçek isimlere benzer, ancak kendileri saçma sapan. Buna rağmen, sistemler bu kelimelerin ‘atmosferini’ algılamış gibi görünüyor.

Macaronik ve evocative prompting arasında bir örtüşme görünüyor. Makale şöyle diyor:

‘Görünüyor ki, eğitim verisi, model boyutu ve model mimarisi gibi farklılıklar, farklı modellerin voiscellpajaraux ve eidelucertlagarzard gibi promtleri ya ‘macaronik’ ya da ‘evocative’ şekilde işleme neden olabilir, hatta bu modellerin her iki prompting yöntemine de duyarlı olduğu kanıtlanmış olsa bile.’

Makale şöyle sonuçlandırıyor:

‘Bu modellerin çeşitli özellikleri – boyutu, mimarisi, tokenizasyon prosedürü ve eğitim verisi dahil – metin tabanlı düşmanca saldırılara karşı savunmasızlıklarını etkileyebilir, ancak bu çalışmada tartışılan ön kanıtlar, bu tür bazı saldırıların modeller arasında belirli bir şekilde çalışabileceğini öne sürüyor.’

Aslında, bu tür yöntemler etrafında gerçek deneysel çalışmanın en büyük engel, sistem tarafından bayraklandırılma ve yasaklanma riskidir. DALL-E 2, her kullanıcı hesabına bağlı bir telefon numarası gerektirir, bu da bu tür ‘lexikal hacking’in sınırlarını test etmek için muhtemelen gerekli ‘burner hesaplar’ın sayısını sınırlar. Şu anda, DALL-E 2’nin birincil güvenlik önlemi, erişim volatilitesidir.

İlk olarak 9 Ağustos 2022’de yayımlanmıştır.