Connect with us

Yapay Zekâ

DALL-E 2 Sadece Şeyleri Birleştirmeye mı Bağlı, Nesnelerin Arasındaki İlişkileri Anlamadan?

mm

Harvard Üniversitesi’nden yeni bir araştırma makalesi, OpenAI’nin dikkat çekici metin-görsel çerçevesi DALL-E 2’nin, sentezlenmiş fotoğraflarını oluşturduğu unsurlar arasındaki ilişkileri yeniden üretmede önemli zorluklar yaşadığını öne sürüyor. Bu, DALL-E 2’nin çoğunun göz kamaştırıcı bir şekilde sofistike olmasına rağmen.

Araştırmacılar, 169 katılımcının yer aldığı bir kullanıcı çalışması yaptı. Katılımcılara, DALL-E 2 görselleri ve bu görselleri oluşturan metin ipuçları gösterildi. İpuçları ve görsellerin ilişkili olup olmadığı sorulduğunda, görsellerin yalnızca %22’si, DALL-E 2’nin görselleştirmesi istendiği basit ilişkiler açısından ipuçlarına uygun olarak algılandı.

Yeni makale için yapılan denemelerden bir ekran görüntüsü. Katılımcılardan, ipuca uyan tüm görselleri seçmeleri istendi. Arayüze alt kısmındaki açıklamaya rağmen, tüm durumlarda görseller, katılımcılara bilinmeyen bir şekilde gösterilen ilgili ipuçlarından oluşturuldu. Kaynak: https://arxiv.org/pdf/2208.00005.pdf

Yeni makale için yapılan denemelerden bir ekran görüntüsü. Katılımcılardan, ipuca uyan tüm görselleri seçmeleri istendi. Kaynak: https://arxiv.org/pdf/2208.00005.pdf

Sonuçlar ayrıca, DALL-E’nin farklı unsurları birleştirmeye görünür yeteneğinin, bu unsurlar gerçek dünya eğitim verisinde daha az olası olduğunda azalabileceğini öne sürüyor.

Örneğin, ‘çocuk bir kaseye dokunuyor’ ipucu için %87 anlaşma oranı elde edildi (yani katılımcılar, görsellerin çoğunu ipuca uygun olarak seçti), benzer şekilde fotogerçekçi ‘maymun bir iguanaya dokunuyor’ görselleri ise yalnızca %11 anlaşma oranı elde etti:

DALL-E, 'maymun bir iguanaya dokunuyor' gibi muhtemelen eğitim kümesinde bulunmayan, olasılıkla olmayan bir olayı görselleştirmekte zorlanıyor.

DALL-E, ‘maymun bir iguanaya dokunuyor’ gibi muhtemelen eğitim kümesinde bulunmayan, olasılıkla olmayan bir olayı görselleştirmekte zorlanıyor.

İkinci örnekte, DALL-E 2 sık sık ölçek ve hatta türü yanlış yapıyor, muhtemelen bu olayı gösteren gerçek dünya görsellerinin eksikliği nedeniyle.

DALL-E’nin,Wildcard olarak karşıt görsel unsurları birleştirmekte zorlanması, sistemle ilgili eleştirilerin, DALL-E 2’nin fotogerçekçi ve geniş yorumlayıcı yeteneklerine karşı şimdilik kritik bir göz geliştiremediğini gösteriyor.

DALL-E’nin, farklı unsurları birleştirmeye görünür yeteneği, bu unsurlar gerçek dünya eğitim verisinde daha az olası olduğunda azalabilir.

Yeni makale, DALL-E 2’nin, metin ipuçlarından oluşturduğu görsellerde, nesnelerin arasındaki ilişkileri anlamakta zorluk çektiğini öne sürüyor. Bu, DALL-E 2’nin, metin-görsel çerçevesinin sınırlarını gösteriyor.

Makale, DALL-E 2’nin, metin ipuçlarından oluşturduğu görsellerin, insanların bu görselleri nasıl algılayacağına dair bir çalışma yapıyor. Sonuçlar, DALL-E 2’nin, metin ipuçlarından oluşturduğu görsellerin, insanların beklentilerine uygun olmadığını gösteriyor.

Yeni makale, DALL-E 2’nin, metin-görsel çerçevesinin sınırlarını gösteriyor. DALL-E 2’nin, metin ipuçlarından oluşturduğu görsellerin, insanların beklentilerine uygun olmadığını gösteriyor.

Öte Early Criticism

Yorumcular, DALL-E 2’nin, metin-görsel çerçevesinin sınırlarını gösteriyor. DALL-E 2’nin, metin ipuçlarından oluşturduğu görsellerin, insanların beklentilerine uygun olmadığını gösteriyor.

DALL-E 2’nin, metin-görsel çerçevesinin sınırlarını gösteriyor. DALL-E 2’nin, metin ipuçlarından oluşturduğu görsellerin, insanların beklentilerine uygun olmadığını gösteriyor.

Çalışma

Yeni makale, DALL-E 2’nin, metin-görsel çerçevesinin sınırlarını gösteriyor. DALL-E 2’nin, metin ipuçlarından oluşturduğu görsellerin, insanların beklentilerine uygun olmadığını gösteriyor.

Çalışma, DALL-E 2’nin, metin ipuçlarından oluşturduğu görsellerin, insanların beklentilerine uygun olmadığını gösteriyor. Sonuçlar, DALL-E 2’nin, metin-görsel çerçevesinin sınırlarını gösteriyor.

Sonuçlar

Sonuçlar, DALL-E 2’nin, metin ipuçlarından oluşturduğu görsellerin, insanların beklentilerine uygun olmadığını gösteriyor. DALL-E 2’nin, metin-görsel çerçevesinin sınırlarını gösteriyor.

Sonuçlar, DALL-E 2’nin, metin-görsel çerçevesinin sınırlarını gösteriyor. DALL-E 2’nin, metin ipuçlarından oluşturduğu görsellerin, insanların beklentilerine uygun olmadığını gösteriyor.

Man Bites T-Rex

Opinion DALL-E 2’nin, metin-görsel çerçevesinin sınırlarını gösteriyor. DALL-E 2’nin, metin ipuçlarından oluşturduğu görsellerin, insanların beklentilerine uygun olmadığını gösteriyor.

DALL-E 2’nin, metin-görsel çerçevesinin sınırlarını gösteriyor. DALL-E 2’nin, metin ipuçlarından oluşturduğu görsellerin, insanların beklentilerine uygun olmadığını gösteriyor.

DALL-E 2'nin, 'renkli bir fotoğraf olarak bir T-Rex'in bir adamı bir yolda kovalaması' ipucu için tipik bir yanıtı.

DALL-E 2’nin, ‘renkli bir fotoğraf olarak bir T-Rex’in bir adamı bir yolda kovalaması’ ipucu için tipik bir yanıtı. Kaynak: DALL-E 2

DALL-E 2’nin, metin-görsel çerçevesinin sınırlarını gösteriyor. DALL-E 2’nin, metin ipuçlarından oluşturduğu görsellerin, insanların beklentilerine uygun olmadığını gösteriyor.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]