Yapay Zeka
DALL-E 2'nin Çifte Anlamlara Eşsiz Çözümü

İtalyanca öğrenen herkes, bir konuyu anlatırken bağlama dikkat etmeyi erken öğrenir. süpürge, çünkü bu sıradan ev eşyası için kullanılan İtalyanca kelimenin son derece NSFW'si var fiil olarak ikinci anlam*. Birden fazla anlamı olan kelimelerin anlamsal eşlemesini ve (uygun) uygulanabilirliğini çözmeyi erken yaşta öğrensek de, bu beceriyi DALL-E 2 ve Stable Diffusion gibi hiper ölçekli görüntü sentez sistemlerine aktarmak kolay değildir, çünkü bunlar OpenAI'nin Karşıt Dil-Görüntü Ön Eğitimi'ne dayanır (CLIP) nesneleri ve özelliklerini daha gevşek bir şekilde ele alan (yine de her zamankinden daha fazla zemin gizli difüzyon görüntü ve video sentez alanında.
Bu eksikliği inceleyen bir yeni araştırma işbirliği Bar-Ilan Üniversitesi ve Allen Yapay Zeka Enstitüsü'nden araştırmacılar, DALL-E 2'nin bu tür anlamsal hatalara ne ölçüde yatkın olduğuna dair kapsamlı bir çalışma sunuyor:

DALL-E 2'de çift anlamlar birden fazla yoruma bölünmüştür - ancak herhangi bir gizli yayılma sistemi bu tür örnekler üretebilir. Sağ üstteki görselde, komut isteminden "altın" kelimesini kaldırmak balık türünü değiştirirken, "zebra geçidi" örneğinde, yinelenen ilişkiyi kaldırmak için yol yüzeyini açıkça belirtmek gerekir. Kaynak: https://export.arxiv.org/pdf/2210.10606
Yazarlar, kelime ve ifadeleri çift yorumlama eğiliminin yalnızca tüm CLIP kılavuzlu difüzyon modellerinde yaygın olmadığını, aynı zamanda modeller giderek daha fazla veri üzerinde eğitildikçe daha da kötüleştiğini tespit ettiler. Makalede, DALL-E Mini (şimdiki adıyla Craiyon) dahil olmak üzere metinden görüntüye modellerin "küçültülmüş" sürümlerinin bu tür hataları çok daha az sıklıkta ürettiği ve Kararlı Difüzyon ayrıca daha az hata yapar - bunun tek nedeni, çok sık olarak istemi hiç takip etmemesidir, bu da başka bir tür hatadır.

Basit 'tarih' istemi, DALL-E 2'nin kelimenin çeşitli anlamlarından ikisini çağırmasını sağlarken, 'fan' kelimesi de kendi anlamsal eşlemelerinden ikisine ayrılıyor ve üçüncü resimde 'koni' ifadesi, istemde belirtilmeyen yiyeceği güvenilir bir şekilde dondurmaya dönüştürüyor ve bu da 'koni' ile ilişkilendiriliyor.
Etkili sözcük ayrımlarını nasıl gerçekleştirdiğimizi açıklayan makale şöyle diyor:
'Semboller – cümle yapıları gibi – muğlak olabilir, ancak bir yorum oluşturulduktan sonra bu muğlaklık zaten çözülmüş olur. Örneğin, uçan bir yarasadaki yarasa sembolü tahta bir sopa veya bir hayvan olarak yorumlanabilirken, cümlenin olası yorumlarımız ya uçan bir tahta sopa ya da uçan bir hayvandır, ancak asla ikisi aynı anda değildir. Yarasa kelimesi yorumda bir nesneyi (örneğin tahta bir sopayı) belirtmek için kullanıldıktan sonra, aynı yorumda başka bir nesneyi (bir hayvanı) belirtmek için tekrar kullanılamaz.'
Gazete, DALL-E 2'nin bu şekilde kısıtlanmadığını gözlemliyor:

'Bir yarasa beyzbol stadyumunun üzerinde uçuyor' – ilk görsel makaleden alınmıştır, diğer üçü ise aynı komutun DALL-E 2'ye verilmesiyle elde edilmiştir.
Bu özellik olmuştur adlı kaynak duyarlılığı.
Makale, DALL-E 2 tarafından sergilenen üç anormal davranışı tanımlıyor: bir kelime veya ifadenin yorumlanabilmesi ve etkili bir şekilde iki ayrı varlığa ayrılabilmesi, aynı sahnede her biri için bir nesne veya kavram oluşturulması; bir kelimenin iki farklı varlığın bir belirteci olarak yorumlanabilmesi (yukarıdaki 'altın balık' ve diğer örneklere bakın); ve bir kelimenin aynı anda hem belirteç hem de alternatif bir varlık olarak yorumlanabilmesi - örnek olarak istemde gösterilmiştir 'bir mühür bir mektubu açıyor':

'Bir mühür bir mektubu açıyor' – ilk illüstrasyon kağıttan, yanındaki üçü ise DALL-E 2'den birebir aynı reprodüksiyonlar. Aşağıdaki fotogerçekçi örneklerde ekstra olarak 'fotoğraf, Canon50, 85mm, F5.6, ödüllü fotoğraf' metni yer alıyor.
Yazarlar bu açıdan difüzyon modelleri için iki başarısızlık modu tanımlamaktadır: anlam belirsizliği olan kelimelerle kullanıcı istemlerinin sonuçları, genellikle kavramın bazı tezahürleriyle birlikte somutlaştırılmış kelimeyi sergileyecektir; Ve konsept sızıntısı, bir nesnenin özelliklerinin başka bir işlenmiş nesneye 'sızdığı' yer.
'İncelediğimiz olgular bir arada ele alındığında, DALLE-2'nin dilsel yeteneğindeki sınırlamalara dair kanıt sağlıyor ve bunların metin kodlamasından mı, üretken modelden mi yoksa her ikisinden mi kaynaklandığını ortaya çıkaracak gelecekteki araştırmalar için yollar açıyor. Daha genel olarak, önerilen yaklaşım, kod çözme sürecinin tümevarımsal önyargıyı ve metin-görüntü modellerinin eksikliklerini ortaya çıkarmak için kullanıldığı diğer senaryolara da genişletilebilir.'
Yazarlar, DALL-E 17'nin girdiyi birden çok çıktıya bölmesine neden olacak 2 sözcük kullanarak şunu gözlemlediler: sesteş Oluşturulan 80 görüntünün %216'inden fazlasında çoğaltma meydana geldi.
Araştırmacılar, meydana gelen bu tekrarları durdurmak için belirli ve tartışmalı bir şekilde aşırı belirlenmiş dilin ne ölçüde gerekli olduğunu incelemek için uyaran-kontrol çiftlerini kullandılar. Varlık-özellik testleri için, bu tür 10 çift oluşturuldu ve yazarlar, uyaran uyarılarının paylaşılan özelliği vakaların %92.5'inde harekete geçirdiğini, oysa kontrol isteminin vakaların yalnızca %6.6'sında bunu ortaya çıkardığını belirtiyor.
'[Göstermek için] bir zebra ve bir sokak düşünün. Zebra bir varlıktır, ancak sokağı değiştirir ve DALLE-2, muhtemelen zebra çizgilerinin bir yaya geçidine benzemesi nedeniyle sürekli olarak yaya geçitleri oluşturur. Ve varsayımımız doğrultusunda, zebra ve çakıllı sokak kontrolü, tipik olarak yaya geçitleri olmayan bir sokak türünü belirtir ve gerçekten de bu konu için kontrol örneklerimizin hiçbiri yaya geçidi içermez.'













