Yapay Zeka

DALL-E 2'nin Çifte Anlamlara Eşsiz Çözümü

Güncellenmiş on 9 Aralık 2022

İtalyanca öğrenen herkes, bir konuyu anlatırken bağlama dikkat etmeyi erken öğrenir. süpürge, çünkü bu sıradan ev eşyası için kullanılan İtalyanca kelimenin son derece NSFW'si var fiil olarak ikinci anlam*. Birden çok anlama sahip sözcüklerin anlamsal eşlemesini ve (uygun) uygulanabilirliğini çözmeyi erken öğrenmiş olsak da, bu, DALL-E 2 ve Stable Difüzyon gibi hiper ölçekli görüntü sentezi sistemlerine aktarılması kolay bir beceri değildir, çünkü onlar OpenAI'nin Karşıt Dil-Görüntü Ön Eğitimi (CLIP) nesneleri ve özelliklerini daha gevşek bir şekilde ele alan (yine de her zamankinden daha fazla zemin gizli difüzyon görüntü ve video sentez alanında.

Bu eksikliği inceleyen bir yeni araştırma işbirliği Bar-Ilan Üniversitesi ve Allen Yapay Zeka Enstitüsü'nden araştırmacılar, DALL-E 2'nin bu tür anlamsal hatalara ne ölçüde yatkın olduğuna dair kapsamlı bir çalışma sunuyor:

Çift anlamlar, DALL-E 2'de birden çok nesneye bölünmüştür - ancak herhangi bir gizli yayılma sistemi bu tür örnekler üretebilir. Sağ üstteki resimde, istemden "altın" ifadesinin kaldırılması balık türünü değiştirirken, "zebra geçidi" durumunda, yinelenen ilişkilendirmeyi kaldırmak için yol yüzeyinin açıkça belirtilmesi gerekir. Kaynak: https://export.arxiv.org/pdf/2210.10606

DALL-E 2'de çifte anlamlar birden fazla yoruma ayrıldı - ancak herhangi bir gizli yayılma sistemi bu tür örnekler üretebilir. Sağ üstteki resimde, istemden "altın" ifadesinin kaldırılması balık türünü değiştirirken, "zebra geçişi" durumunda, yinelenen ilişkilendirmeyi kaldırmak için yol yüzeyinin açıkça belirtilmesi gerekir. Kaynak: https://export.arxiv.org/pdf/2210.10606

Yazarlar, sözcükleri ve cümleleri çift yorumlama eğiliminin yalnızca tüm CLIP kılavuzlu difüzyon modellerinde ortak görünmediğini, aynı zamanda modeller daha yüksek ve daha yüksek miktarda veri üzerinde eğitildikçe daha da kötüleştiğini bulmuşlardır. Belge, DALL-E Mini (artık Craiyon) dahil olmak üzere metinden görüntüye modellerin 'azaltılmış' sürümlerinin bu tür hataları çok daha az sıklıkta ürettiğini ve Kararlı Difüzyon ayrıca daha az hata yapar - bunun tek nedeni, çok sık olarak istemi hiç takip etmemesidir, bu da başka bir tür hatadır.

Basit 'tarih' istemi, DALL-E 2'yi kelimenin birkaç anlamından ikisini çağırmaya zorlarken, 'fan' kelimesi de semantik eşlemelerinden ikisine ayrılır ve üçüncü görüntüde 'koni' ifadesi güvenilir bir şekilde bilgi isteminde aksi belirtilmemiş olan yiyeceği 'koni' ile ilişkilendirilen dondurmaya dönüştürür.

Etkili sözcük ayrımlarını nasıl gerçekleştirdiğimizi açıklayan makale şöyle diyor:

'Semboller - cümle yapıları gibi - belirsiz olsa da, bir yorum oluşturulduktan sonra bu belirsizlik zaten çözülmüştür. Örneğin, uçan bir yarasadaki yarasa sembolü tahta bir sopa ya da bir hayvan olarak yorumlanabilirken, cümleye ilişkin olası yorumlarımız ya uçan bir tahta çubuk ya da uçan bir hayvandır, ama asla ikisi aynı anda olmaz. Yarasa kelimesi yorumda bir nesneyi (örneğin tahta bir sopayı) belirtmek için kullanıldıysa, aynı yorumda başka bir nesneyi (hayvanı) belirtmek için tekrar kullanılamaz.'

Gazete, DALL-E 2'nin bu şekilde kısıtlanmadığını gözlemliyor:

"Bir beysbol stadyumunun üzerinde uçan bir yarasa" - ilk görüntü kağıttan, diğer üçü ise aynı komut isteminin DALL-E 2'ye verilmesiyle elde edildi.

Bu özellik olmuştur adlı kaynak duyarlılığı.

Makale, DALL-E 2 tarafından sergilenen üç anormal davranışı tanımlamaktadır: bir kelime veya bir ifadenin yorumlanabilmesi ve etkili bir şekilde iki farklı varlığa ayrılarak aynı sahnede her biri için bir nesne veya kavram oluşturması; bir kelimenin iki farklı varlığın değiştiricisi olarak yorumlanabileceği (yukarıdaki 'altın balığı' ve diğer örneklere bakın); ve bir kelimenin aynı anda hem değiştirici hem de alternatif varlık olarak yorumlanabilmesi - komut istemi ile örneklenmiştir 'mühür mektubu açıyor':

"Bir mühür bir mektubu açıyor" - ilk resim kağıttan, bitişik üç, DALL-E 2'den aynı reprodüksiyonlardan. kazanan fotoğraf'

Yazarlar bu açıdan difüzyon modelleri için iki başarısızlık modu tanımlamaktadır: anlam belirsizliği olan kelimelerle kullanıcı istemlerinin sonuçları, genellikle kavramın bazı tezahürleriyle birlikte somutlaştırılmış kelimeyi sergileyecektir; Ve konsept sızıntısı, burada bir nesnenin özellikleri başka bir işlenmiş nesneye "sızar".

"Birlikte ele alındığında, incelediğimiz olgular, DALLE-2'nin dilbilimsel yeteneğindeki sınırlamalar için kanıt sağlıyor ve bunların metin kodlama, üretken model veya her ikisinden kaynaklanıp kaynaklanmadığını ortaya çıkaracak gelecekteki araştırmalar için yollar açıyor." Daha genel olarak, önerilen yaklaşım, metinden görüntüye modellerin tümevarımsal yanlılığını ve eksikliklerini ortaya çıkarmak için kod çözme sürecinin kullanıldığı diğer senaryolara genişletilebilir.'

Yazarlar, DALL-E 17'nin girdiyi birden çok çıktıya bölmesine neden olacak 2 sözcük kullanarak şunu gözlemlediler: sesteş Oluşturulan 80 görüntünün %216'inden fazlasında çoğaltma meydana geldi.

Araştırmacılar, meydana gelen bu tekrarları durdurmak için belirli ve tartışmalı bir şekilde aşırı belirlenmiş dilin ne ölçüde gerekli olduğunu incelemek için uyaran-kontrol çiftlerini kullandılar. Varlık-özellik testleri için, bu tür 10 çift oluşturuldu ve yazarlar, uyaran uyarılarının paylaşılan özelliği vakaların %92.5'inde harekete geçirdiğini, oysa kontrol isteminin vakaların yalnızca %6.6'sında bunu ortaya çıkardığını belirtiyor.

"Göstermek için, bir zebra ve bir sokağı düşünün, burada zebra bir varlıktır, ancak sokağı değiştirir ve DALLE-2, muhtemelen zebra çizgilerinin bir yaya geçidine benzemesi nedeniyle sürekli olarak yaya geçitleri oluşturur. Ve varsayımımıza uygun olarak, bir zebra ve çakıllı bir sokak kontrolü, tipik olarak yaya geçitleri olmayan bir cadde tipini belirtir ve gerçekten de, bu istem için kontrol örneklerimizin hiçbiri bir yaya geçidi içermez.'

Araştırmacıların DALL-E Mini ile yaptığı deneyler, araştırmacıların bu modellerin daha düşük yeteneklerine atfettiği bu bulguları ve indirgeme süreçlerinin anlam belirsizliği olan bir kelimenin en 'bariz' yorumuna daha kolay ışık tutması olasılığını tekrarlayamadı:

"Paradoksal bir şekilde, DALLE-mini ve Stable-difusion'ın daha düşük kapasiteleri ve istemleri güçlü bir şekilde takip etmemeleri gerçeğinin incelediğimiz kusurlara göre "daha iyi" görünmelerini sağladığını varsayıyoruz. Ölçek, model mimarisi ve konsept sızıntısı arasındaki ilişkinin kapsamlı bir değerlendirmesi gelecekteki çalışmalara bırakılmıştır.'

Önceki iş 2021 gelenYazarlar, CLIP'in yerleştirmelerinin bir kavramın özniteliklerini açıkça nesnenin kendisine bağlamadığını zaten gözlemlemişti. "Buna göre" yazıyorlar. "kod çözücüden yeniden yapılanmaların genellikle öznitelikleri ve nesneleri karıştırdığını gözlemliyorlar."

* DALL-E 2'nin bu özel durumda bazı sorunları var. 'Una donna che sta scopando' ('bir kadın süpürüyor') komutunun girilmesi, çeşitli orta yaşlı kadınların avluları süpürmesine vb. 2'nin NSFW filtresi, sonuçların OpenAI'nin içerik politikasını ihlal ettiğini belirtir.

İlk olarak 20 Ekim 2022'de yayınlandı.