Yapay Zeka

DALL-E 2, İlişkilerini Anlamadan Sadece 'Bir Şeyleri Bir Araya Yapıştırmak' mı?

Güncellenmiş on 9 Aralık 2022

'Kaşıkta bir bardak'. Kaynak: DALL-E 2.

Harvard Üniversitesi'nden yeni bir araştırma makalesi, OpenAI'nin manşetlere giren metinden görüntüye çerçevesi DALL-E 2'nin, çoğunun göz kamaştırıcı karmaşıklığına rağmen, sentezlenmiş fotoğraflarda oluşturduğu öğeler arasındaki bebek düzeyindeki ilişkileri bile yeniden üretmede kayda değer bir zorluk yaşadığını öne sürüyor. onun çıktısı.

Araştırmacılar, ilişki semantiğinin en temel insan ilkelerine dayanan DALL-E 169 görüntüleri ve onları oluşturan metin istemleriyle birlikte sunulan 2 kitle kaynaklı katılımcıyı içeren bir kullanıcı araştırması gerçekleştirdi. DALL-E 22'nin görselleştirmesinin istendiği çok basit ilişkiler açısından, istemlerin ve görüntülerin ilişkili olup olmadığı sorulduğunda, görüntülerin %2'sinden daha azı ilgili istemlerle ilgili olarak algılandı.

Yeni gazete için yapılan denemelerden bir ekran görüntüsü. Katılımcılara, bilgi istemiyle eşleşen tüm görüntüleri seçme görevi verildi. Arayüzün alt kısmındaki sorumluluk reddi beyanına rağmen, tüm durumlarda görüntüler, katılımcıların haberi olmadan, aslında gösterilen ilişkili bilgi isteminden oluşturulmuştur. Kaynak: https://arxiv.org/pdf/2208.00005.pdf

Sonuçlar ayrıca, DALL-E'nin farklı öğeleri birleştirme konusundaki bariz yeteneğinin, bu öğelerin sisteme güç veren gerçek dünya eğitim verilerinde meydana gelme olasılığı azaldıkça azalabileceğini göstermektedir.

Örneğin, 'bir kaseye dokunan çocuk' istemi için resimler %87'lik bir anlaşma oranı elde etti (yani, katılımcılar istemle ilgili olarak resimlerin çoğuna tıkladı), oysa benzer şekilde 'bir maymunun bir Iguana'ya dokunması'nın fotogerçekçi görselleştirmeleri elde edildi sadece %11 anlaşma:

DALL-E, muhtemelen eğitim setinde yaygın olmayan, muhtemelen var olmayan bir olay olduğu için, bir 'maymunun bir Iguana'ya dokunması' gibi pek olası olmayan bir olayı tasvir etmekte zorlanıyor.

DALL-E, muhtemelen eğitim setinde nadir görülen, daha büyük olasılıkla varolmayan bir olay olduğu için, bir 'maymunun bir İguana'ya dokunması' gibi pek olası olmayan bir olayı tasvir etmekte zorlanıyor.

İkinci örnekte DALL-E 2, muhtemelen bu olayı betimleyen gerçek dünya görüntülerinin azlığı nedeniyle, ölçeği ve hatta türü sıklıkla yanlış anlıyor. Buna karşılık, çocuklar ve yemekle ilgili çok sayıda eğitim fotoğrafı ve bu alt alan/sınıfın iyi gelişmiş olmasını beklemek mantıklıdır.

DALL-E'nin son derece zıt görüntü öğelerini yan yana getirmedeki zorluğu, halkın şu anda sistemin fotogerçekçi ve geniş kapsamlı yorumlama yetenekleriyle o kadar gözlerinin kamaştığını ve sistemin etkili bir şekilde bir öğeyi diğerinin üzerine "yapıştırdığı" durumlar için eleştirel bir göz geliştirmediğini gösteriyor. , resmi DALL-E 2 sitesinden alınan bu örneklerde olduğu gibi:

DALL-E 2 için resmi örneklerden kes-yapıştır sentezi. Kaynak: https://openai.com/dall-e-2/

DALL-E 2'nin resmi örneklerinden kes-yapıştır sentezi. Kaynak: https://openai.com/dall-e-2/

Yeni belge şunları belirtir*:

"İlişkisel anlayış, kendini gösteren insan zekasının temel bir bileşenidir. erken gelişmeve hızlı ve otomatik olarak hesaplanır algıda.

'DALL-E 2'nin temel uzamsal ilişkilerde bile zorluğu (örneğin in, on, altında), öğrendiği ne olursa olsun, insanların dünyayı bu kadar esnek ve sağlam bir şekilde yapılandırmasına izin veren temsil türlerini henüz öğrenmediğini öne sürüyor.

"Bu zorluğun doğrudan bir yorumu, DALL-E 2 gibi sistemlerin henüz ilişkisel bileşime sahip olmamasıdır."

Yazarlar, DALL-E serisi gibi metin kılavuzlu görüntü oluşturma sistemlerinin, aracının yalnızca üretmek yerine çevre ile fiilen etkileşime girmesi ihtiyacı nedeniyle, kimlikleri ve ilişkileri aynı anda modelleyen robotikte yaygın olan algoritmalardan yararlanabileceğini öne sürüyorlar. çeşitli unsurların karışımı.

başlıklı böyle bir yaklaşım CLIPort, aynı şeyi kullanır CLIP mekanizması DALL-E 2'de bir kalite değerlendirme unsuru olarak hizmet eden:

Washington Üniversitesi ve NVIDIA arasında 2021'de yapılan bir iş birliği olan CLIPort, CLIP'i o kadar pratik bir bağlamda kullanıyor ki, üzerinde eğitilen sistemlerin zorunlu olarak fiziksel ilişkiler anlayışı, DALL-E 2'de olmayan bir motive edici ve benzeri "fantastik" bir anlayış geliştirmesi gerekiyor. görüntü sentezi çerçeveleri. Kaynak: https://arxiv.org/pdf/2109.12098.pdf

Yazarlar ayrıca, DALL-E gibi görüntü sentezi sistemlerinin mimarisinin dahil edilmesi için 'başka bir makul yükseltme' olabileceğini öne sürüyorlar. çarpımsal etkiler tek bir hesaplama katmanında, ilişkilerin bilgi işleme kapasitelerinden ilham alan bir şekilde hesaplanmasına izin verir. biyolojik sistemler.

The yeni kağıt başlıklı Metin Kılavuzluğunda Görüntü Oluşturmada İlişkisel Anlamayı Test Etme, ve Harvard'ın Psikoloji Bölümü'nden Colin Conwell ve Tomer D. Ullman'dan geliyor.

Erken Eleştirinin Ötesinde

DALL-E 2'nin çıktısının gerçekçiliği ve bütünlüğünün ardındaki "el çabukluğu" hakkında yorum yapan yazarlar, DALL-E tarzı üretken görüntü sistemlerinde eksiklikler bulan önceki çalışmalara dikkat çekiyor.

Bu yılın Haziran ayında, UoC Berkeley ünlü DALL-E'nin yansımaları ve gölgeleri idare etmedeki zorluğu; Aynı ay, Kore'de yapılan bir araştırma, DALL-E 2 tarzı çıktının "benzersizliğini" ve özgünlüğünü araştırdı. eleştirel bir gözle; için ön analiz DALL-E 2 görüntülerinin lansmanından kısa bir süre sonra, NYU ve Texas Üniversitesi'nden DALL-E 2 görüntülerinde kompozisyon ve diğer temel faktörlerle ilgili çeşitli sorunlar bulundu; ve geçen ay, ortak çalışma Illinois Üniversitesi ve MIT arasında, kompozisyon açısından bu tür sistemlerde mimari iyileştirmeler için önerilerde bulunuldu.

Araştırmacılar ayrıca, Aditya Ramesh gibi DALL-E armatürlerinin Yenilen goller çerçevenin bağlama, göreli boyut, metin ve diğer zorluklarla ilgili sorunları.

Google'ın rakip görüntü sentez sistemi Imagen'in arkasındaki geliştiriciler de önerdi Beraberlik Tezgahı, çeşitli metriklerle çerçeveler arasında görüntü doğruluğunu ölçen yeni bir karşılaştırma sistemi.

Bunun yerine, yeni makalenin yazarları, zayıflıkların nerede olduğunu ve bunları hafifletmek için neler yapılabileceğini belirlemek için ortaya çıkan görüntülerle - yıkıcı, algoritmik ölçümler yerine - insan tahminini karşılaştırarak daha iyi bir sonuç elde edilebileceğini öne sürüyorlar.

Çalışma

Bu amaçla, yeni proje yaklaşımını psikolojik ilkelere dayandırmakta ve mevcut durumdan geri çekilmeyi amaçlamaktadır. ilgi artışı in hızlı mühendislik (aslında, DALL-E 2'nin veya karşılaştırılabilir herhangi bir sistemin eksikliklerine verilen bir tavizdir), bu tür 'geçici çözümleri' gerekli kılan sınırlamaları araştırmak ve potansiyel olarak ele almak.

Kağıt şöyle diyor:

'Mevcut çalışma, daha önce bilişsel, gelişimsel veya dilsel literatürde tanımlanmış, incelenmiş veya önerilen 15 temel ilişki kümesine odaklanmaktadır. Küme, hem temellendirilmiş uzamsal ilişkileri (örn. 'Y üzerinde X') hem de daha soyut aracı ilişkileri (örn. 'X, Y'ye yardım ediyor') içerir.

İstemler, nitelik karmaşıklığı veya detaylandırma olmaksızın kasıtlı olarak basittir. Yani 'eşek ve ahtapot oyun oynuyor' gibi bir uyarı yerine. Eşek ipi bir ucunda, ahtapot diğer ucunda tutuyor. Eşek ipi ağzında tutar. Bir kedi ipin üzerinden atlıyor', 'bıçakta bir kutu' kullanıyoruz.

"Basitlik, insan psikolojisinin çeşitli alt alanlarındaki geniş bir ilişki yelpazesini yakalamaya devam ediyor ve potansiyel model başarısızlıklarını daha çarpıcı ve belirgin hale getiriyor."

Yazarlar, çalışmaları için tümü ABD'de bulunan, ortalama yaşları 169 olan ve %33'u kadın olan Prolific'ten 59 katılımcıyı işe aldı.

Katılımcılara, üstte komut istemi ve altta görüntülerin tamamının, bazılarının veya hiçbirinin görüntülenen istemden oluşturulmuş olabileceğini belirten bir sorumluluk reddi beyanı ile 18×3 ızgara şeklinde düzenlenmiş 6 görüntü gösterildi ve ardından onlardan istendi. bu şekilde ilişkili olduğunu düşündükleri görüntüleri seçin.

Bireylere sunulan imgeler, sekiz fiziksel ve yedi 'aracı' ilişkiden oluşan bir dizi dilbilimsel, gelişimsel ve bilişsel literatüre dayanıyordu (bu birazdan netleşecek).

Fiziksel ilişkiler
içinde, üzerinde, altında, örten, yakınında, tıkayan, sarkan, ve bağlı.

Temsilci İlişkileri
itmek, çekmek, dokunmak, vurmak, tekmelemek, yardım etmek, ve Engelleyen.

Bu ilişkilerin tümü, daha önce belirtilen CS dışı çalışma alanlarından alınmıştır.

Böylece, istemlerde kullanılmak üzere altı nesne ve altı aracı ile on iki varlık türetildi:

nesneler
kutu, silindir, battaniye, kase, çay fincanı, ve bıçak.

Danışmanlar
erkek, kadın, çocuk, robot, maymun, ve iguana.

(Araştırmacılar, kuru sosyolojik veya psikolojik araştırmaların dayanak noktası olmayan iguanayı dahil etmenin 'bir zevk' olduğunu kabul ediyorlar)

Her bir ilişki için, iki varlığın beş kez rastgele örneklenmesiyle beş farklı bilgi istemi oluşturuldu, sonuçta toplam 75 bilgi istemi elde edildi, bunların her biri DALL-E 2'ye gönderildi ve her biri için sağlanan ilk 18 görüntü hiçbir varyasyon olmaksızın kullanıldı. veya ikinci şansa izin verilir.

Sonuçlar

Belgede*:

"Katılımcılar ortalama olarak, DALL-E 2'nin görüntüleri ile onları oluşturmak için kullanılan istemler arasında düşük miktarda bir uyum olduğunu bildirdi; 22.2 farklı istemde ortalama %18.3 [26.6, 75].

"28.4 bilgi isteminde ortalama %22.8 [34.2, 35] ile temsilci istemleri, 16.9 istemde ortalama %11.9 [23.0, 40] ile fiziksel istemlerden daha yüksek anlaşma sağladı."

Çalışmadan elde edilen sonuçlar. Siyah noktalar, her nokta ayrı bir istem olmak üzere tüm istemleri belirtir ve renk, bilgi istemi konusunun aracı veya fiziksel (yani bir nesne) olmasına göre ayrılır.

Görüntülerin insan algısı ile algoritmik algısı arasındaki farkı karşılaştırmak için araştırmacılar, render'larını OpenAI'nin açık kaynağı aracılığıyla yürüttüler. ViT-L/14 CLIP tabanlı çerçeve. Puanların ortalamasını alarak, iki sonuç grubu arasında "orta düzeyde bir ilişki" buldular; bu, CLIP'in kendisinin görüntüleri oluşturmaya ne ölçüde yardımcı olduğu düşünüldüğünde, belki de şaşırtıcıdır.

İnsan yanıtlarıyla CLIP (ViT-L/14) karşılaştırmasının sonuçları.

Araştırmacılar, mimarideki diğer mekanizmaların, belki de eğitim setindeki tesadüfi veri üstünlüğü (veya eksikliği) ile birleştiğinde, CLIP'in DALL-E'nin sınırlamalarını her durumda hiçbir şey yapamadan tanıyabilmesini açıklayabileceğini öne sürüyorlar. sorun hakkında çok.

Yazarlar, DALL-E 2'nin, içimizde çok erken gelişen insan zekasının temel bir yönü olan ilişkisel anlayışı içeren görüntüleri yeniden üretmek için yalnızca kavramsal bir yeteneğe sahip olduğu sonucuna varıyorlar.

"DALL-E 2 gibi sistemlerin bir bileşime sahip olmadığı fikri, DALL-E 2'nin 'bir fino köpeği gezdiren bir tütü giymiş bir bebek daikon turpunun karikatürü' gibi uyarılara çarpıcı derecede makul tepkiler verdiğini gören herkese sürpriz gelebilir. Bunlar gibi istemler, istemlerin tüm parçalarının mevcut olduğu ve doğru yerlerde bulunduğu bir kompozisyon kavramının mantıklı bir yaklaşımını oluşturur.

"Bununla birlikte, kompozisyon, yalnızca şeyleri birbirine yapıştırma yeteneği değildir - hatta daha önce hiç gözlemlememiş olabileceğiniz şeyleri bile. Kompozisyon, aşağıdakilerin anlaşılmasını gerektirir: kurallar şeyleri birbirine bağlayan. İlişkiler böyle kurallardır.'

Adam T-Rex'i Isırıyor

Görüş OpenAI benimsediği için daha fazla sayıda kullanıcı DALL-E 2'nin son beta parasallaştırmasından sonra ve artık nesillerin çoğu için ödeme yapılması gerektiğinden, DALL-E 2'nin ilişkisel anlayışındaki eksiklikler, her "başarısız" girişimin mali bir ağırlığı olduğu için daha belirgin hale gelebilir, ve geri ödemeler mevcut değildir.

Biraz daha erken bir davet alan bizler, DALL-E 2'nin yayabileceği bazı "ilişki aksaklıklarını" gözlemlemek için zamana (ve yakın zamana kadar sistemle oynamak için daha fazla boş zamana) sahip olduk.

Örneğin, bir Jurassic Park fan, DALL-E 2'de 'kovalamaca' kavramı görünmese de DALL-E 2'de bir dinozorun bir insanı kovalamasını sağlamak çok zor. sansür sistemi, ve rağmen uzun bir geçmişi Dinozor filmlerinin yüzde XNUMX'ü, türlerin bu başka türlü imkansız buluşması için bol miktarda eğitim örneği (en azından fragmanlar ve tanıtım çekimleri şeklinde) sağlamalıdır.

'Yolda bir adamı kovalayan bir T-Rex'in renkli fotoğrafı' istemine tipik bir DALL-E 2 yanıtı. Kaynak: DALL-E 2

Yukarıdaki resimlerin varyasyonlar için tipik olduğunu buldum. "[dinozor] [bir kişiyi] kovalıyor" bilgi istemi tasarımı ve istemdeki hiçbir detaylandırma, T-Rex'in fiilen uymasını sağlayamaz. Birinci ve ikinci fotoğraflarda adam (aşağı yukarı) T-Rex'i kovalıyor; üçüncüsünde, güvenliği hiçe sayarak ona yaklaşmak; ve son görüntüde, görünüşe göre büyük canavara paralel koşuyor. Bu temada yaklaşık 10-15 denemede, dinozorun benzer şekilde 'dikkatinin dağıldığını' buldum.

DALL-E 2'nin erişebildiği tek eğitim verisi şu satırda olabilir: 'insan dinozorla savaşıyor'gibi daha eski filmlerin tanıtım çekimlerinden MÖ Bir Milyon Yıl (1966) ve Jeff Goldblum'un ünlü uçuş yırtıcıların kralından gelen bilgiler, bu küçük veri diliminde yalnızca bir aykırı değerdir.

* Yazarların satır içi alıntılarını köprülere dönüştürmem.

İlk olarak 4 Ağustos 2022'de yayınlandı.

İlgili konular:görüntü sentezi araştırma

Bir sonraki

Araştırmacılar Amfibi Yapay Görüş Sistemi Geliştiriyor

Kaçırmayın

Bilgisayar Modelleme Programı Mercan Resifi Koruma Çabalarına Yardımcı Olur

Martin Anderson

Makine öğrenimi, yapay zeka ve büyük veri üzerine yazar.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai

Unite.AI

DALL-E 2, İlişkilerini Anlamadan Sadece 'Bir Şeyleri Bir Araya Yapıştırmak' mı?

Yapay Zeka