Umetna inteligenca

Ali DALL-E 2 samo 'zlepi stvari skupaj', ne da bi razumel njihove odnose?

Posodobljeno on December 9, 2022

'Skodelica na žlico'. Vir: DALL-E 2.

Nov raziskovalni članek Univerze Harvard nakazuje, da ima OpenAI-jevo ogrodje besedila v sliko DALL-E 2, ki pritegne naslove, precejšnje težave pri reprodukciji celo razmerij na ravni dojenčka med elementi, ki jih sestavi v sintetizirane fotografije, kljub bleščeči prefinjenosti večine njegov izhod.

Raziskovalci so izvedli uporabniško študijo, ki je vključevala 169 množičnih udeležencev, ki so jim predstavili slike DALL-E 2, ki temeljijo na najosnovnejših človeških načelih semantike odnosov, skupaj z besedilnimi pozivi, ki so jih ustvarili. Na vprašanje, ali so bili pozivi in slike povezani, je bilo manj kot 22 % slik zaznanih kot ustreznih za njihove povezane pozive v smislu zelo preprostih odnosov, ki naj bi jih DALL-E 2 vizualiziral.

Posnetek zaslona iz poskusov, izvedenih za novi dokument. Udeleženci so imeli nalogo, da izberejo vse slike, ki ustrezajo pozivu. Kljub zavrnitvi odgovornosti na dnu vmesnika so bile slike v vseh primerih, ne da bi udeleženci vedeli, dejansko ustvarjene iz prikazanega povezanega poziva. Vir: https://arxiv.org/pdf/2208.00005.pdf

Rezultati tudi kažejo, da se lahko navidezna zmožnost DALL-E za združevanje različnih elementov zmanjša, saj je manj verjetno, da bi se ti elementi pojavili v podatkih o usposabljanju iz resničnega sveta, ki poganjajo sistem.

Na primer, slike za poziv 'otrok se dotika sklede' so dosegle 87-odstotno stopnjo strinjanja (tj. udeleženci so kliknili večino slik kot ustreznih za poziv), medtem ko so podobno fotorealistične upodobitve 'opica, ki se dotika legvana' dosegle samo 11% strinjanje:

DALL-E se trudi prikazati malo verjeten dogodek, ko se 'opica dotika legvane', verjetno zato, ker je neobičajna, bolj verjetno neobstoječa, v kompletu za usposabljanje.

V drugem primeru DALL-E 2 pogosto dobi napačno merilo in celo vrsto, verjetno zaradi pomanjkanja slik iz resničnega sveta, ki prikazujejo ta dogodek. Nasprotno pa je razumno pričakovati veliko število fotografij usposabljanja, povezanih z otroki in hrano, in da je ta poddomena/razred dobro razvit.

Težave DALL-E pri postavitvi nasproti divje kontrastnih slikovnih elementov nakazujejo, da je javnost trenutno tako zaslepljena nad fotorealističnimi in širokimi interpretativnimi zmožnostmi sistema, da ni razvila kritičnega očesa za primere, ko je sistem dejansko samo "prilepil" en element na drugega. , kot v teh primerih z uradne strani DALL-E 2:

Sinteza izreži in prilepi iz uradnih primerov za DALL-E 2. Vir: https://openai.com/dall-e-2/

Novi dokument navaja*:

„Odnosno razumevanje je temeljna sestavina človeške inteligence, ki se manifestira zgodaj v razvoju, in se izračuna hitro in samodejno v zaznavi.

Težave DALL-E 2 celo z osnovnimi prostorskimi odnosi (kot npr in, on, pod) nakazuje, da karkoli se je naučil, se še ni naučil vrst predstavitev, ki ljudem omogočajo tako prožno in robustno strukturiranje sveta.

'Neposredna razlaga te težave je, da sistemi, kot je DALL-E 2, še nimajo relacijske sestavljivosti.'

Avtorji predlagajo, da bi sistemi za generiranje slik, vodeni z besedilom, kot je serija DALL-E, lahko imeli koristi od uporabe algoritmov, ki so skupni robotiki, ki hkrati modelirajo identitete in odnose, zaradi potrebe, da agent dejansko sodeluje z okoljem in ne zgolj izdeluje mešanica različnih elementov.

En takšen pristop z naslovom CLIPort, uporablja isto CLIP mehanizem ki služi kot element ocene kakovosti v DALL-E 2:

CLIPort, sodelovanje iz leta 2021 med Univerzo v Washingtonu in NVIDIA, uporablja CLIP v tako praktičnem kontekstu, da morajo sistemi, ki so usposobljeni zanj, nujno razviti razumevanje fizičnih odnosov, motivatorja, ki ga v DALL-E 2 ni, in podobnih 'fantastičnih' okviri za sintezo slik. Vir: https://arxiv.org/pdf/2109.12098.pdf

Avtorji nadalje predlagajo, da bi lahko arhitektura sistemov za sintezo slike, kot je DALL-E, vključevala "še eno verjetno nadgradnjo". multiplikativni učinki v edini ravni računanja, kar omogoča izračun odnosov na način, ki se zgleduje po zmožnostih obdelave informacij biološka sistemi.

O nov papir je naslovljen Preizkušanje relacijskega razumevanja pri besedilno vodenem ustvarjanju slik, in prihaja od Colina Conwella in Tomerja D. Ullmana na Oddelku za psihologijo Harvarda.

Onkraj zgodnje kritike

Ko avtorji komentirajo "zvitost rok" za realizmom in celovitostjo izhoda DALL-E 2, opozarjajo na prejšnja dela, ki so odkrila pomanjkljivosti v generativnih slikovnih sistemih v slogu DALL-E.

Junija letos, UoC Berkeley opozoriti težave, ki jih ima DALL-E pri obvladovanju odsevov in senc; istega meseca je študija iz Koreje raziskovala 'edinstvenost' in izvirnost izhoda v slogu DALL-E 2 s kritičnim pogledom; da predhodna analiza slik DALL-E 2, kmalu po predstavitvi, z NYU in Univerze v Teksasu, je odkril različne težave s kompozicijo in drugimi bistvenimi dejavniki v slikah DALL-E 2; in prejšnji mesec, skupno delo med Univerzo v Illinoisu in MIT je ponudil predloge za arhitekturne izboljšave takih sistemov v smislu kompozicije.

Raziskovalci nadalje ugotavljajo, da imajo svetila DALL-E, kot je Aditya Ramesh priznan težave ogrodja z vezavo, relativno velikostjo, besedilom in drugimi izzivi.

Predlagali so tudi razvijalci Googlovega konkurenčnega sistema za sintezo slik Imagen DrawBench, nov primerjalni sistem, ki meri natančnost slike v ogrodjih z različnimi metrikami.

Namesto tega avtorji novega prispevka predlagajo, da bi lahko boljši rezultat dosegli tako, da bi človeško oceno – namesto medsebojnih algoritemskih meritev – primerjali z dobljenimi slikami, da bi ugotovili, kje so slabosti in kaj bi lahko storili za njihovo ublažitev.

Študij

V ta namen novi projekt temelji svoj pristop na psiholoških načelih in se skuša umakniti od sedanjega naval zanimanja in hiter inženiring (kar je dejansko popuščanje pomanjkljivostim DALL-E 2 ali katerega koli primerljivega sistema), da bi raziskali in potencialno obravnavali omejitve, zaradi katerih so takšne "rešitve" potrebne.

Članek navaja:

„Trenutno delo se osredotoča na niz 15 osnovnih odnosov, ki so bili predhodno opisani, preučeni ali predlagani v kognitivni, razvojni ali jezikoslovni literaturi. Nabor vsebuje tako utemeljene prostorske odnose (npr. 'X na Y') kot bolj abstraktne agentske odnose (npr. 'X pomaga Y').

„Pozivi so namenoma preprosti, brez zapletenosti ali elaboracije atributov. Se pravi, namesto poziva, kot je 'osel in hobotnica se igrata igro'. Osel drži vrv na enem koncu, hobotnica pa na drugem. Osel drži vrv v gobcu. Mačka skače čez vrv', mi uporabljamo 'škatlo na nož'.

"Preprostost še vedno zajema širok razpon odnosov iz različnih poddomen človeške psihologije in naredi morebitne napake modela bolj osupljive in specifične."

Za svojo študijo so avtorji zaposlili 169 udeležencev iz Prolifica, vsi iz ZDA, s povprečno starostjo 33 let in 59% žensk.

Udeležencem je bilo prikazanih 18 slik, organiziranih v mrežo 3 × 6 s pozivom na vrhu in izjavo o omejitvi odgovornosti na dnu, ki navaja, da so bile vse, nekatere ali nobena od slik morda ustvarjene iz prikazanega poziva, nato pa so bili pozvani, da izberite slike, za katere so mislili, da so na ta način povezane.

Podobe, predstavljene posameznikom, so temeljile na jezikovni, razvojni in kognitivni literaturi, sestavljene iz nabora osmih fizičnih in sedmih 'agentičnih' relacij (to bo postalo jasno v trenutku).

Telesni odnosi
v, na, pod, ki pokriva, blizu, zakrito z, visi nad, in vezana na.

Agentski odnosi
potiskanje, vlečenje, dotikanje, udarjanje, brcanje, pomoč, in ovira.

Vse te relacije so izhajale iz prej omenjenih študijskih področij, ki niso CS.

Tako je bilo za uporabo v pozivih izpeljanih dvanajst entitet s šestimi objekti in šestimi agenti:

predmeti
škatla, valj, odeja, skleda, skodelica za čaj, in nož.

Agenti
moški, ženska, otrok, robot, opica, in legvan.

(Raziskovalci priznavajo, da je bila vključitev legvana, ki ni temelj suhoparnih socioloških ali psiholoških raziskav, 'poslastica')

Za vsako relacijo je bilo ustvarjenih pet različnih pozivov z naključnim petkratnim vzorčenjem dveh entitet, kar je povzročilo skupno 75 pozivov, od katerih je bil vsak predložen v DALL-E 2 in za vsakega od njih je bilo uporabljenih začetnih 18 posredovanih slik brez različic. ali dovoljena druga priložnost.

Rezultati

Papir navaja*:

„Udeleženci so v povprečju poročali o nizki stopnji ujemanja med slikami DALL-E 2 in pozivi, uporabljenimi za njihovo ustvarjanje, s povprečjem 22.2 % [18.3, 26.6] med 75 različnimi pozivi.

'Pozivi agentov s povprečjem 28.4 % [22.8, 34.2] pri 35 pozivih so ustvarili večje strinjanje kot fizični pozivi, s povprečjem 16.9 % [11.9, 23.0] pri 40 pozivih.'

Rezultati študije. Točke v črni barvi označujejo vse pozive, pri čemer je vsaka točka posamezen poziv, barva pa je razdeljena glede na to, ali je bil subjekt poziva agentski ali fizični (tj. predmet).

Da bi primerjali razliko med človeškim in algoritemskim zaznavanjem slik, so raziskovalci svoje upodobitve pregnali skozi odprto kodo OpenAI ViT-L/14 Okvir, ki temelji na CLIP. S povprečenjem rezultatov so ugotovili 'zmerno razmerje' med obema nizoma rezultatov, kar je morda presenetljivo glede na to, v kolikšni meri CLIP sam pomaga pri ustvarjanju slik.

Rezultati primerjave CLIP (ViT-L/14) s človeškimi odzivi.

Raziskovalci kažejo, da lahko drugi mehanizmi v arhitekturi, morda v kombinaciji s prevlado (ali pomanjkanjem) podatkov v naboru za usposabljanje, pojasnijo način, na katerega lahko CLIP prepozna omejitve DALL-E, ne da bi v vseh primerih lahko naredil kar koli. veliko o problemu.

Avtorji sklepajo, da ima DALL-E 2 le navidezno zmogljivost, če sploh, za reprodukcijo slik, ki vključujejo relacijsko razumevanje, temeljni vidik človeške inteligence, ki se v nas razvije zelo zgodaj.

"Zamisel, da sistemi, kot je DALL-E 2, nimajo kompozicije, je lahko presenečenje za vsakogar, ki je videl presenetljivo razumne odzive DALL-E 2 na pozive, kot je "risanka mladiča redkvice daikon v tutuju, ki sprehaja pudlja". Navodila, kot so ti, pogosto ustvarjajo smiseln približek kompozicijskega koncepta, pri čemer so vsi deli namigov prisotni in prisotni na pravih mestih.

„Kompozicijskost pa ni samo zmožnost lepljenja stvari – tudi stvari, ki jih morda še nikoli niste opazili skupaj. Kompozitnost zahteva razumevanje pravila ki povezuje stvari skupaj. Odnosi so takšna pravila.«

Človek ugrizne T-Rexa

Mnenje Ker OpenAI zajema a večje število uporabnikov po nedavni beta monetizaciji DALL-E 2 in ker je zdaj treba plačati za večino generacij, lahko postanejo pomanjkljivosti v relacijskem razumevanju DALL-E 2 bolj očitne, saj ima vsak "neuspešen" poskus finančno težo, in vračila niso na voljo.

Tisti med nami, ki smo prejeli povabilo malo prej, smo imeli čas (in do nedavnega več prostega časa za igranje s sistemom), da smo opazovali nekatere 'napake v odnosih', ki jih lahko oddaja DALL-E 2.

Na primer, za a Jurassic Park oboževalec, dinozavra je zelo težko pripraviti do tega, da bi lovil osebo v DALL-E 2, čeprav se zdi, da koncepta 'chase' v DALL-E 2 ni cenzurni sistem, in čeprav je dolgo zgodovino filmov o dinozavrih bi moral zagotoviti obilico primerov usposabljanja (vsaj v obliki napovednikov in reklamnih posnetkov) za to sicer nemogoče srečanje vrst.

Tipičen odgovor DALL-E 2 na poziv 'Barvna fotografija T-Rexa, ki lovi človeka po cesti'. Vir: DALL-E 2

Ugotovil sem, da so zgornje slike značilne za različice '[dinozaver] lovi [osebo]' hitro zasnovo in da T-Rex z nobeno podrobnostjo v pozivu ne more doseči, da bi se dejansko držal. Na prvi in drugi fotografiji moški (bolj ali manj) lovi T-Rexa; v tretjem, približevanje z ležernim zanemarjanjem varnosti; in na končni podobi očitno teče vzporedno z veliko zverjo. V približno 10-15 poskusih te teme sem ugotovil, da je dinozaver podobno 'raztresen'.

Mogoče je, da so bili edini podatki o usposabljanju, do katerih je DALL-E 2 lahko dostopal, v liniji 'človek se bori z dinozavri', iz reklamnih posnetkov za starejše filme, kot je npr Milijon let pr (1966), in to Jeffa Goldbluma slavni let od kralja plenilcev je preprosto izjema v tej majhni seriji podatkov.

* Moja pretvorba avtorjevih vgrajenih citatov v hiperpovezave.

Prvič objavljeno 4. avgusta 2022.

Sorodne teme:sinteza slike Raziskave

Up Next

Raziskovalci razvijajo amfibijski sistem umetnega vida

Ne zamudite

Program za računalniško modeliranje pomaga pri prizadevanjih za ohranjanje koralnega grebena

Martin Anderson

Pisec o strojnem učenju, umetni inteligenci in velikih podatkih.
Osebno spletno mesto: martinanderson.ai
Kontakt: [e-pošta zaščitena]
Twitter: @manders_ai

Unite.AI

Ali DALL-E 2 samo 'zlepi stvari skupaj', ne da bi razumel njihove odnose?

Umetna inteligenca