Artificiell intelligens
Ăr DALL-E 2 bara att "limma ihop saker" utan att förstĂ„ deras relationer?

En ny forskningsartikel frÄn Harvard University antyder att OpenAI:s rubrikgripande text-till-bild ram DALL-E 2 har anmÀrkningsvÀrda svÄrigheter att Äterskapa relationer pÄ spÀdbarnsnivÄ mellan elementen som den komponerar till syntetiserade foton, trots den blÀndande sofistikeringen hos mycket av dess produktion.
Forskarna genomförde en anvÀndarstudie som involverade 169 crowdsourcede deltagare, som presenterades med DALL-E 2-bilder baserade pÄ de mest grundlÀggande mÀnskliga principerna för relationssemantik, tillsammans med textuppmaningarna som hade skapat dem. PÄ frÄgan om uppmaningarna och bilderna var relaterade ansÄgs mindre Àn 22 % av bilderna vara relevanta för deras associerade uppmaningar, i termer av de mycket enkla sambanden som DALL-E 2 ombads att visualisera.

En skÀrmdump frÄn försöken som genomfördes för den nya tidningen. Deltagarna fick i uppdrag att vÀlja alla bilder som matchade uppmaningen. Trots ansvarsfriskrivningen lÀngst ner i grÀnssnittet genererades i alla fall bilderna, utan att deltagarna visste det, i sjÀlva verket frÄn den visade tillhörande prompten. KÀlla: https://arxiv.org/pdf/2208.00005.pdf
Resultaten tyder ocksÄ pÄ att DALL-E:s uppenbara förmÄga att sammanfoga olika element kan minska eftersom dessa element blir mindre sannolikt att ha förekommit i den verkliga trÀningsdatan som driver systemet.
Till exempel fick bilder för prompten "barn som rör vid en skÄl" en överensstÀmmelsegrad pÄ 87 % (dvs deltagarna klickade pÄ de flesta bilderna som relevanta för uppmaningen), medan liknande fotorealistiska renderingar av "en apa som rör en leguan" uppnÄddes endast 11% överensstÀmmelse:

DALL-E kÀmpar för att skildra den osannolika hÀndelsen av en "apa som rör en leguan", antagligen för att den Àr ovanlig, mer sannolikt obefintlig, i trÀningsuppsÀttningen.
I det andra exemplet fÄr DALL-E 2 ofta fel pÄ skalan och till och med arten, förmodligen pÄ grund av en brist pÄ verkliga bilder som skildrar denna hÀndelse. DÀremot Àr det rimligt att förvÀnta sig ett stort antal trÀningsbilder relaterade till barn och mat, och att denna underdomÀn/klass Àr vÀlutvecklad.
DALL-E:s svÄrighet att stÀlla ihop vÀldigt kontrastiva bildelement tyder pÄ att allmÀnheten för nÀrvarande Àr sÄ blÀndad av systemets fotorealistiska och brett tolkningsförmÄga att de inte har utvecklat ett kritiskt öga för fall dÀr systemet faktiskt bara har "limmat" ett element starkt pÄ ett annat , som i dessa exempel frÄn den officiella DALL-E 2-webbplatsen:

Klipp-och-klistra syntes, frÄn de officiella exemplen för DALL-E 2. KÀlla: https://openai.com/dall-e-2/
I den nya tidningen stÄr det*:
"Relationell förstÄelse Àr en grundlÀggande komponent i mÀnsklig intelligens, vilket manifesterar sig tidigt i utvecklingen, och berÀknas snabbt och automatiskt i uppfattning.
'DALL-E 2:s svÄrighet med ens grundlÀggande rumsliga relationer (som t.ex in, on, under) antyder att vad den Àn har lÀrt sig, har den Ànnu inte lÀrt sig de typer av representationer som tillÄter mÀnniskor att strukturera vÀrlden sÄ flexibelt och robust.
"En direkt tolkning av denna svÄrighet Àr att system som DALL-E 2 Ànnu inte har relationell komposition."
Författarna föreslÄr att textstyrda bildgenereringssystem som DALL-E-serien skulle kunna dra nytta av att utnyttja algoritmer som Àr gemensamma för robotik, som modellerar identiteter och relationer samtidigt, pÄ grund av behovet av att agenten faktiskt interagerar med miljön snarare Àn att bara tillverka en blandning av olika element.
Ett sÄdant tillvÀgagÄngssÀtt, med titeln CLIPort, anvÀnder samma CLIP mekanism som fungerar som ett kvalitetsbedömningselement i DALL-E 2:

CLIPort, ett samarbete 2021 mellan University of Washington och NVIDIA, anvÀnder CLIP i ett sammanhang sÄ praktiskt att systemen som trÀnas pÄ det nödvÀndigtvis mÄste utveckla en förstÄelse för fysiska relationer, en motivator som saknas i DALL-E 2 och liknande "fantastiska" ramar för bildsyntes. KÀlla: https://arxiv.org/pdf/2109.12098.pdf
Författarna föreslÄr vidare att "en annan rimlig uppgradering" kan vara att arkitekturen för bildsyntessystem som DALL-E ska inkorporera multiplikativa effekter i ett enda berÀkningsskikt, vilket möjliggör berÀkning av relationer pÄ ett sÀtt inspirerat av informationsbehandlingskapaciteten hos biologiska system.
Ocuco-landskapet nytt papper har titeln Testa relationsförstÄelse i textstyrd bildgenerering, och kommer frÄn Colin Conwell och Tomer D. Ullman vid Harvard's Department of Psychology.
Bortom tidig kritik
NÀr de kommenterar "snÄlheten" bakom realismen och integriteten i DALL-E 2:s produktion, noterar författarna tidigare verk som har hittat brister i generativa bildsystem i DALL-E-stil.
I juni i Är, UoC Berkeley noterade svÄrigheten DALL-E har att hantera reflektioner och skuggor; samma mÄnad undersökte en studie frÄn Korea "unikheten" och originaliteten hos DALL-E 2-stil med ett kritiskt öga; En preliminÀr analys av DALL-E 2-bilder, kort efter lanseringen, frÄn NYU och University of Texas, fann olika problem med sammansÀttning och andra vÀsentliga faktorer i DALL-E 2-bilder; och förra mÄnaden, ett gemensamt arbete mellan University of Illinois och MIT erbjöd förslag pÄ arkitektoniska förbÀttringar av sÄdana system nÀr det gÀller sammansÀttning.
Forskarna noterar vidare att DALL-E armaturer som Aditya Ramesh har medgav ramverkets problem med bindning, relativ storlek, text och andra utmaningar.
Utvecklarna bakom Googles rivaliserande bildsyntessystem Imagen har ocksÄ föreslagit DrawBÀnk, ett nytt jÀmförelsesystem som mÀter bildnoggrannheten över ramar med olika mÀtvÀrden.
IstĂ€llet föreslĂ„r den nya tidningens författare att ett bĂ€ttre resultat kan erhĂ„llas genom att sĂ€tta mĂ€nskliga uppskattningar â snarare Ă€n inbördes, algoritmiska mĂ„tt â mot de resulterande bilderna, för att faststĂ€lla var svagheterna ligger och vad som kan göras för att mildra dem.
Studie
För detta ÀndamÄl baserar det nya projektet sitt tillvÀgagÄngssÀtt pÄ psykologiska principer och försöker dra sig tillbaka frÄn den nuvarande uppsving av intresse in snabb ingenjörskonst (vilket i sjÀlva verket Àr en eftergift till bristerna i DALL-E 2, eller nÄgot jÀmförbart system), för att undersöka och eventuellt ta itu med begrÀnsningarna som gör sÄdana "lösningar" nödvÀndiga.
I uppsatsen anges:
"Det aktuella arbetet fokuserar pÄ en uppsÀttning av 15 grundlÀggande relationer som tidigare beskrivits, undersökts eller föreslagits i den kognitiva, utvecklingsmÀssiga eller sprÄkliga litteraturen. UppsÀttningen innehÄller bÄde grundade rumsliga relationer (t.ex. "X pÄ Y") och mer abstrakta agentiska relationer (t.ex. "X hjÀlper Y").
âUppmaningarna Ă€r avsiktligt enkla, utan attributkomplexitet eller utarbetande. Det vill sĂ€ga, istĂ€llet för en uppmaning som 'en Ă„sna och en blĂ€ckfisk spelar ett spel. Ă snan hĂ„ller ett rep i ena Ă€nden, blĂ€ckfisken hĂ„ller i den andra. Ă snan hĂ„ller repet i munnen. En katt hoppar över repet', vi anvĂ€nder 'en lĂ„da pĂ„ en kniv'.
"Enkelheten fÄngar fortfarande ett brett spektrum av relationer frÄn olika underdomÀner av mÀnsklig psykologi, och gör potentiella modellmisslyckanden mer slÄende och specifika."
För sin studie rekryterade författarna 169 deltagare frÄn Prolific, alla belÀgna i USA, med en medelÄlder pÄ 33 och 59% kvinnor.
Deltagarna visades 18 bilder organiserade i ett 3Ă6 rutnĂ€t med prompten överst och en ansvarsfriskrivning lĂ€ngst ner som anger att alla, nĂ„gra eller inga av bilderna kan ha genererats frĂ„n den visade prompten, och ombads sedan att vĂ€lj de bilder som de trodde var relaterade pĂ„ detta sĂ€tt.
Bilderna som presenterades för individerna var baserade pÄ sprÄklig, utvecklingsmÀssig och kognitiv litteratur, bestÄende av en uppsÀttning av Ätta fysiska och sju "agentiska" relationer (detta kommer att bli tydligt om ett ögonblick).
Fysiska relationer
i, pÄ, under, tÀcker, nÀra, tilltÀppt av, hÀngande över, och knuten till.
Agentrelationer
trycka, dra, röra, slÄ, sparka, hjÀlpa, och hindrande.
Alla dessa relationer hÀmtades frÄn de tidigare nÀmnda icke-CS-studieomrÄdena.
Tolv enheter hÀrleddes sÄledes för anvÀndning i uppmaningarna, med sex objekt och sex agenter:
Objekt
lÄda, cylinder, filt, skÄl, tekopp, och kniv.
Agenter
man, kvinna, barn, robot, apa, och leguan.
(Forskarna medger att inklusive leguanen, inte en stöttepelare i torr sociologisk eller psykologisk forskning, var "en njutning")
För varje relation skapades fem olika prompter genom att slumpmÀssigt sampla tvÄ enheter fem gÄnger, vilket resulterade i totalt 75 prompter, som var och en skickades till DALL-E 2, och för var och en av vilka de initiala 18 tillhandahÄllna bilderna anvÀndes, utan variationer eller andra chanser tillÄtna.
Resultat
Tidningen sÀger*:
"Deltagare rapporterade i genomsnitt en lÄg grad av överensstÀmmelse mellan DALL-E 2:s bilder och uppmaningarna som anvÀndes för att generera dem, med ett genomsnitt pÄ 22.2 % [18.3, 26.6] över de 75 distinkta uppmaningarna.
"Agentiska uppmaningar, med ett medelvÀrde pÄ 28.4 % [22.8, 34.2] över 35 uppmaningar, genererade högre överensstÀmmelse Àn fysiska uppmaningar, med ett medelvÀrde pÄ 16.9 % [11.9, 23.0] över 40 uppmaningar."

Resultat frÄn studien. Punkter i svart betecknar alla prompter, med varje punkt en individuell prompt, och fÀrg bryts ner beroende pÄ om prompten var agent eller fysisk (dvs. ett objekt).
För att jÀmföra skillnaden mellan mÀnsklig och algoritmisk uppfattning av bilderna körde forskarna sina renderingar genom OpenAI:s öppen kÀllkod ViT-L/14 CLIP-baserat ramverk. Genom att ta ett genomsnitt av poÀngen fann de ett "mÄttligt förhÄllande" mellan de tvÄ uppsÀttningarna av resultat, vilket kanske Àr förvÄnande, med tanke pÄ i vilken utstrÀckning CLIP sjÀlv hjÀlper till att generera bilderna.

Resultat av CLIP (ViT-L/14) jÀmförelse med mÀnskliga svar.
Forskarna föreslÄr att andra mekanismer inom arkitekturen, kanske i kombination med en tillfÀllig övervikt (eller brist pÄ) data i trÀningsuppsÀttningen kan förklara hur CLIP kan kÀnna igen DALL-E:s begrÀnsningar utan att i alla fall kunna göra nÄgonting mycket om problemet.
Författarna drar slutsatsen att DALL-E 2 endast har en teoretisk möjlighet, om nÄgon, för att reproducera bilder som innehÄller relationell förstÄelse, en grundlÀggande aspekt av mÀnsklig intelligens som utvecklas i oss mycket tidigt.
"FörestÀllningen att system som DALL-E 2 inte har kompositionalitet kan komma som en överraskning för alla som har sett DALL-E 2:s slÄende rimliga svar pÄ uppmaningar som "en tecknad serie av en daikonrÀdisa i en tutu som gÄr med en pudel". Uppmaningar som dessa genererar ofta en förnuftig approximation av ett kompositionskoncept, med alla delar av uppmaningarna nÀrvarande och pÄ rÀtt stÀllen.
âKompositionalitet Ă€r dock inte bara förmĂ„gan att limma ihop saker â Ă€ven saker som du kanske aldrig har sett ihop tidigare. Kompositionalitet krĂ€ver en förstĂ„else för regler som binder ihop saker. Relationer Ă€r sĂ„dana regler.'
Man biter T-Rex
Yttrande Som OpenAI omfattar en större antal anvÀndare efter den senaste betamonetiseringen av DALL-E 2, och eftersom man nu mÄste betala för de flesta generationerna, kan bristerna i DALL-E 2:s relationsförstÄelse bli mer uppenbara eftersom varje "misslyckat" försök har en ekonomisk tyngd, och Äterbetalningar Àr inte tillgÀngliga.
De av oss som fick en inbjudan lite tidigare har haft tid (och, tills nyligen, större fritid att leka med systemet) att observera nÄgra av de "relationsfel" som DALL-E 2 kan avge.
Till exempel för en Jurassic Park fan, det Àr vÀldigt svÄrt att fÄ en dinosaurie att jaga en person i DALL-E 2, Àven om konceptet "chase" inte verkar finnas i DALL-E 2 censursystem, och Àven om lÄng historia av dinosauriefilmer borde ge rikliga trÀningsexempel (Ätminstone i form av trailers och publicitetsbilder) för detta annars omöjliga möte mellan arter.

Ett typiskt DALL-E 2-svar pÄ uppmaningen 'Ett fÀrgfoto av en T-Rex som jagar en man pÄ en vÀg'. KÀlla: DALL-E 2
Jag har upptÀckt att bilderna ovan Àr typiska för variationer pÄ "[dinosaurie] jagar [en person]" snabb design, och att ingen detalj i prompten kan fÄ T-Rex att faktiskt följa. PÄ den första och andra bilden jagar mannen (mer eller mindre) T-Rexen; i den tredje, nÀrmar sig det med en slentrianmÀssig ignorering av sÀkerheten; och pÄ den sista bilden, uppenbarligen joggande parallellt med det stora odjuret. Under cirka 10-15 försök med detta tema har jag funnit att dinosaurien Àr lika "distraherad".
Det kan vara sÄ att den enda trÀningsdata som DALL-E 2 kunde komma Ät var i raden av "man slÄss mot dinosaurier", frÄn reklambilder för Àldre filmer som t.ex En miljon Är f.Kr (1966), och Jeff Goldblums berömd flygning frÄn rovdjurens kung Àr helt enkelt en outlier i den lilla delen av data.
* Min konvertering av författarnas inline-citat till hyperlÀnkar.
Första gÄngen publicerad 4 augusti 2022.