Kunstig intelligens
Er DALL-E 2 bare Ä "lime ting sammen" uten Ä forstÄ relasjonene deres?

En ny forskningsartikkel fra Harvard University antyder at OpenAIs overskriftsfengende tekst-til-bilde-rammeverk DALL-E 2 har bemerkelsesverdige problemer med Ä reprodusere selv spedbarns-nivÄ-relasjoner mellom elementene den komponerer til syntetiserte bilder, til tross for den blendende sofistikasjonen til mye av dens utgang.
Forskerne gjennomfÞrte en brukerstudie som involverte 169 crowdsourcede deltakere, som ble presentert for DALL-E 2-bilder basert pÄ de mest grunnleggende menneskelige prinsippene for relasjonssemantikk, sammen med tekstmeldingene som hadde skapt dem. PÄ spÞrsmÄl om spÞrsmÄlene og bildene var relatert, ble mindre enn 22 % av bildene oppfattet som relevante for de tilknyttede spÞrsmÄlene, nÄr det gjelder de veldig enkle relasjonene som DALL-E 2 ble bedt om Ä visualisere.

Et skjermbilde fra forsÞkene utfÞrt for den nye avisen. Deltakerne fikk i oppgave Ä velge ut alle bildene som stemte med spÞrsmÄlet. Til tross for ansvarsfraskrivelsen nederst i grensesnittet, ble bildene i alle tilfeller, uten at deltakerne visste det, faktisk generert fra den viste tilknyttede ledeteksten. Kilde: https://arxiv.org/pdf/2208.00005.pdf
Resultatene tyder ogsÄ pÄ at DALL-Es tilsynelatende evne til Ä kombinere forskjellige elementer kan avta ettersom disse elementene blir mindre sannsynlige for Ä ha forekommet i de virkelige treningsdataene som driver systemet.
For eksempel oppnÄdde bilder for ledeteksten "barn som berÞrer en bolle" en 87 % avtalefrekvens (dvs. deltakerne klikket pÄ de fleste bildene som relevante for ledeteksten), mens tilsvarende fotorealistiske gjengivelser av "en ape som berÞrer en leguan" oppnÄdde kun 11 % enighet:

DALL-E sliter med Ă„ skildre den usannsynlige hendelsen med en "ape som berĂžrer en leguan", uten tvil fordi den er uvanlig, mer sannsynlig ikke-eksisterende, i treningssettet.
I det andre eksemplet tar DALL-E 2 ofte feil skala og til og med arten, antagelig pÄ grunn av mangel pÄ bilder fra den virkelige verden som skildrer denne hendelsen. Derimot er det rimelig Ä forvente et hÞyt antall treningsbilder relatert til barn og mat, og at dette underdomenet/klassen er godt utviklet.
DALL-Es vanskeligheter med Ä sammenstille vilt kontrastive bildeelementer antyder at publikum for Þyeblikket er sÄ blendet av systemets fotorealistiske og bredt tolkende evner at de ikke har utviklet et kritisk blikk for tilfeller der systemet effektivt bare har "limt" ett element sterkt pÄ et annet , som i disse eksemplene fra det offisielle DALL-E 2-nettstedet:

Klipp-og-lim syntese, fra de offisielle eksemplene for DALL-E 2. Kilde: https://openai.com/dall-e-2/
Det nye papiret sier*:
'Relasjonell forstÄelse er en grunnleggende komponent i menneskelig intelligens, som manifesterer seg tidlig i utviklingen, og beregnes raskt og automatisk i oppfatning.
'DALL-E 2s problemer med selv grunnleggende romlige relasjoner (som f.eks in, on, etter) antyder at uansett hva den har lÊrt, har den ennÄ ikke lÊrt hvilke typer representasjoner som lar mennesker strukturere verden sÄ fleksibelt og robust.
"En direkte tolkning av denne vanskeligheten er at systemer som DALL-E 2 ennÄ ikke har relasjonell komposisjon."
Forfatterne foreslÄr at tekststyrte bildegenereringssystemer som DALL-E-serien kan dra nytte av Ä utnytte algoritmer som er felles for robotikk, som modellerer identiteter og relasjoner samtidig, pÄ grunn av behovet for at agenten faktisk samhandler med miljÞet i stedet for bare Ä fremstille en blanding av ulike elementer.
En slik tilnĂŠrming, med tittelen CLIPort, bruker det samme CLIP-mekanisme som fungerer som et kvalitetsvurderingselement i DALL-E 2:

CLIPort, et 2021-samarbeid mellom University of Washington og NVIDIA, bruker CLIP i en kontekst sÄ praktisk at systemene som er trent pÄ det, nÞdvendigvis mÄ utvikle en forstÄelse av fysiske relasjoner, en motivator som er fravÊrende i DALL-E 2 og lignende "fantastisk" rammeverk for bildesyntese. Kilde: https://arxiv.org/pdf/2109.12098.pdf
Forfatterne foreslÄr videre at "en annen plausibel oppgradering" kan vÊre at arkitekturen til bildesyntesesystemer som DALL-E skal inkludere multiplikative effekter i et eneste lag med beregning, som tillater beregning av relasjoner pÄ en mÄte inspirert av informasjonsbehandlingskapasiteten til biologisk systemer.
Ocuco nytt papir har tittelen Testing av relasjonsforstÄelse i tekststyrt bildegenerering, og kommer fra Colin Conwell og Tomer D. Ullman ved Harvards Institutt for psykologi.
Utover tidlig kritikk
Forfatterne kommenterer "snacks" bak realismen og integriteten til DALL-E 2s produksjon, og noterer tidligere arbeider som har funnet mangler i generative bildesystemer i DALL-E-stil.
I juni i Är, UoC Berkeley bemerket vanskeligheten DALL-E har med Ä hÄndtere refleksjoner og skygger; samme mÄned undersÞkte en studie fra Korea "uniktheten" og originaliteten til DALL-E 2-utgang med et kritisk blikk; en forelÞpig analyse av DALL-E 2-bilder, kort tid etter lansering, fra NYU og University of Texas, fant forskjellige problemer med komposisjon og andre viktige faktorer i DALL-E 2-bilder; og forrige mÄned, et felles arbeid mellom University of Illinois og MIT ga forslag til arkitektoniske forbedringer av slike systemer nÄr det gjelder komposisjonalitet.
Forskerne bemerker videre at DALL-E-armaturer som Aditya Ramesh har innrĂžmmet rammeverkets problemstillinger med binding, relativ stĂžrrelse, tekst og andre utfordringer.
Utviklerne bak Googles rivaliserende bildesyntesesystem Imagen har ogsÄ foreslÄtt DrawBench, et nytt sammenligningssystem som mÄler bildenÞyaktighet pÄ tvers av rammeverk med forskjellige beregninger.
I stedet foreslĂ„r forfatterne av det nye papiret at et bedre resultat kan oppnĂ„s ved Ă„ sette menneskelig estimering â i stedet for interne, algoritmiske beregninger â mot de resulterende bildene, for Ă„ fastslĂ„ hvor svakhetene ligger, og hva som kan gjĂžres for Ă„ dempe dem.
Studien
For dette formÄl baserer det nye prosjektet sin tilnÊrming pÄ psykologiske prinsipper, og sÞker Ä trekke seg tilbake fra dagens bÞlge av interesse in rask prosjektering (som faktisk er en innrÞmmelse til manglene i DALL-E 2, eller et hvilket som helst sammenlignbart system), for Ä undersÞke og potensielt adressere begrensningene som gjÞr slike 'lÞsninger' nÞdvendige.
Papiret sier:
'Det nÄvÊrende arbeidet fokuserer pÄ et sett med 15 grunnleggende relasjoner som tidligere er beskrevet, undersÞkt eller foreslÄtt i kognitiv, utviklingsmessig eller sprÄklig litteratur. Settet inneholder bÄde jordede romlige relasjoner (f.eks. 'X pÄ Y'), og mer abstrakte agentrelasjoner (f.eks. 'X som hjelper Y').
«ForespÞrslene er med vilje enkle, uten attributtkompleksitet eller utdyping. Det vil si, i stedet for en oppfordring som 'et esel og en blekksprut spiller et spill. Eselet holder et tau i den ene enden, blekkspruten holder i den andre. Eselet holder tauet i munnen. En katt hopper over tauet', vi bruker 'en boks pÄ en kniv'.
"Enkelheten fanger fortsatt et bredt spekter av relasjoner fra ulike underdomener av menneskelig psykologi, og gjÞr potensielle modellfeil mer slÄende og spesifikke."
For studien deres rekrutterte forfatterne 169 deltakere fra Prolific, alle lokalisert i USA, med en gjennomsnittsalder pÄ 33 og 59 % kvinner.
Deltakerne ble vist 18 bilder organisert i et 3Ă6 rutenett med ledeteksten Ăžverst, og en ansvarsfraskrivelse nederst om at alle, noen eller ingen av bildene kan ha blitt generert fra den viste ledeteksten, og ble deretter bedt om Ă„ velge bildene som de trodde var relatert pĂ„ denne mĂ„ten.
Bildene som ble presentert for individene var basert pÄ sprÄklig, utviklingsmessig og kognitiv litteratur, bestÄende av et sett med Ätte fysiske og syv 'agentiske' relasjoner (dette vil bli klart om et Þyeblikk).
Fysiske relasjoner
i, pÄ, under, dekker, nÊr, lukket av, henger over, og bundet til.
Agentrelasjoner
skyve, dra, berÞre, slÄ, sparke, hjelpe, og hindrende.
Alle disse relasjonene ble hentet fra de tidligere nevnte ikke-CS studieretningene.
Tolv enheter ble dermed avledet for bruk i ledetekstene, med seks objekter og seks agenter:
Objekter
boks, sylinder, teppe, bolle, tekopp, og kniv.
Agenter
mann, kvinne, barn, robot, ape, og iguan.
(Forskerne innrĂžmmer at det Ă„ inkludere iguanen, ikke en bĂŠrebjelke i tĂžrr sosiologisk eller psykologisk forskning, var "en godbit")
For hver relasjon ble fem forskjellige ledetekster opprettet ved tilfeldig prĂžvetaking av to enheter fem ganger, noe som resulterte i totalt 75 ledetekster, som hver ble sendt til DALL-E 2, og for hver av disse ble de innledende 18 leverte bildene brukt, uten variasjoner eller andre sjanser tillatt.
Resultater
Avisen sier*:
«Deltakere rapporterte i gjennomsnitt en liten grad av samsvar mellom bildene til DALL-E 2 og ledetekstene som ble brukt til Ä generere dem, med et gjennomsnitt pÄ 22.2 % [18.3, 26.6] pÄ tvers av de 75 distinkte ledetekstene.
'Agentiske meldinger, med et gjennomsnitt pÄ 28.4 % [22.8, 34.2] over 35 meldinger, genererte hÞyere samsvar enn fysiske meldinger, med et gjennomsnitt pÄ 16.9 % [11.9, 23.0] over 40 meldinger.'

Resultater fra studien. Punkter i svart angir alle spÞrsmÄl, med hvert punkt en individuell ledetekst, og fargen brytes ned i henhold til om ledeteksten var agent eller fysisk (dvs. et objekt).
For Ä sammenligne forskjellen mellom menneskelig og algoritmisk oppfatning av bildene, kjÞrte forskerne sine gjengivelser gjennom OpenAIs Äpen kildekode ViT-L/14 CLIP-basert rammeverk. Ved Ä snitte poengsummen fant de et "moderat forhold" mellom de to settene med resultater, noe som kanskje er overraskende, tatt i betraktning i hvilken grad CLIP selv bidrar til Ä generere bildene.

Resultater av CLIP (ViT-L/14) sammenligning med menneskelige responser.
Forskerne foreslÄr at andre mekanismer innenfor arkitekturen, kanskje kombinert med en tilfeldighetsovervekt (eller mangel) pÄ data i treningssettet kan forklare mÄten CLIP kan gjenkjenne DALL-Es begrensninger uten Ä i alle tilfeller kunne gjÞre noe mye om problemet.
Forfatterne konkluderer med at DALL-E 2 bare har en ideell mulighet, om noen, til Ä reprodusere bilder som inkluderer relasjonsforstÄelse, en grunnleggende fasett av menneskelig intelligens som utvikler seg i oss veldig tidlig.
"Forestillingen om at systemer som DALL-E 2 ikke har komposisjonalitet kan komme som en overraskelse for alle som har sett DALL-E 2s slÄende fornuftige svar pÄ spÞrsmÄl som "en tegneserie av en baby daikon reddik i en tutu som gÄr med en puddel". ForespÞrsler som disse genererer ofte en fornuftig tilnÊrming til et komposisjonskonsept, med alle deler av oppfordringene tilstede og til stede pÄ de riktige stedene.
«Komposisjonalitet er imidlertid ikke bare evnen til Ă„ lime ting sammen â ogsĂ„ ting du kanskje aldri har sett sammen fĂžr. Komposisjonalitet krever en forstĂ„else av regler som binder ting sammen. Forhold er slike regler.'
Mann biter T-Rex
Mening Som OpenAI omfavner en stÞrre antall brukere etter den nylige beta-inntektsgenereringen av DALL-E 2, og siden man nÄ mÄ betale for de fleste generasjonene, kan manglene i DALL-E 2s relasjonelle forstÄelse bli tydeligere ettersom hvert "mislykket" forsÞk har en Þkonomisk vekt, og refusjon er ikke tilgjengelig.
De av oss som mottok en invitasjon litt tidligere har hatt tid (og inntil nylig, stĂžrre fritid til Ă„ leke med systemet) til Ă„ observere noen av "relasjonsfeilene" som DALL-E 2 kan avgi.
For eksempel for en Jurassic Park fan, er det veldig vanskelig Ä fÄ en dinosaur til Ä jage en person i DALL-E 2, selv om konseptet "chase" ikke ser ut til Ä vÊre i DALL-E 2 sensursystem, og selv om lang historie av dinosaurfilmer burde gi rikelig med treningseksempler (i det minste i form av trailere og publisitetsbilder) for dette ellers umulige mÞtet mellom arter.

Et typisk DALL-E 2-svar pÄ spÞrsmÄlet 'Et fargebilde av en T-Rex som jager en mann nedover en vei'. Kilde: DALL-E 2
Jeg har funnet ut at bildene ovenfor er typiske for varianter av "[dinosaur] jager [en person]" prompt design, og at ingen grad av utdypning i ledeteksten kan fÄ T-Rex til Ä faktisk overholde. PÄ det fÞrste og andre bildet jager mannen (mer eller mindre) T-Rexen; i den tredje, nÊrmer seg det med en tilfeldig ignorering av sikkerhet; og i det endelige bildet, tilsynelatende jogging parallelt med det store udyret. PÄ tvers av 10-15 forsÞk pÄ dette temaet, har jeg funnet ut at dinosauren er pÄ samme mÄte "distrahert".
Det kan vÊre at de eneste treningsdataene som DALL-E 2 kunne fÄ tilgang til var i rekken av «mann kjemper mot dinosaur», fra reklamebilder for eldre filmer som f.eks En million Är f.Kr (1966), og den Jeff Goldblums kjent fly fra kongen av rovdyr er rett og slett en uteligger i den lille delen av data.
* Min konvertering av forfatternes innebygde sitater til hyperkoblinger.
FĂžrst publisert 4. august 2022.