Artificiell intelligens

Är DALL-E 2 bara att "limma ihop saker" utan att förstå deras relationer?

Uppdaterad on December 9, 2022

'En kopp på en sked'. Källa: DALL-E 2.

En ny forskningsartikel från Harvard University antyder att OpenAI:s rubrikgripande text-till-bild ram DALL-E 2 har anmärkningsvärda svårigheter att återskapa relationer på spädbarnsnivå mellan elementen som den komponerar till syntetiserade foton, trots den bländande sofistikeringen hos mycket av dess produktion.

Forskarna genomförde en användarstudie som involverade 169 crowdsourcede deltagare, som presenterades med DALL-E 2-bilder baserade på de mest grundläggande mänskliga principerna för relationssemantik, tillsammans med textuppmaningarna som hade skapat dem. På frågan om uppmaningarna och bilderna var relaterade ansågs mindre än 22 % av bilderna vara relevanta för deras associerade uppmaningar, i termer av de mycket enkla sambanden som DALL-E 2 ombads att visualisera.

En skärmdump från försöken som genomfördes för den nya tidningen. Deltagarna fick i uppdrag att välja alla bilder som matchade uppmaningen. Trots ansvarsfriskrivningen längst ner i gränssnittet genererades i alla fall bilderna, utan att deltagarna visste det, i själva verket från den visade tillhörande prompten. Källa: https://arxiv.org/pdf/2208.00005.pdf

Resultaten tyder också på att DALL-E:s uppenbara förmåga att sammanfoga olika element kan minska eftersom dessa element blir mindre sannolikt att ha förekommit i den verkliga träningsdatan som driver systemet.

Till exempel fick bilder för prompten "barn som rör vid en skål" en överensstämmelsegrad på 87 % (dvs deltagarna klickade på de flesta bilderna som relevanta för uppmaningen), medan liknande fotorealistiska renderingar av "en apa som rör en leguan" uppnåddes endast 11% överensstämmelse:

DALL-E kämpar för att skildra den osannolika händelsen av en "apa som rör en leguan", antagligen för att den är ovanlig, mer sannolikt obefintlig, i träningsuppsättningen.

I det andra exemplet får DALL-E 2 ofta fel på skalan och till och med arten, förmodligen på grund av en brist på verkliga bilder som skildrar denna händelse. Däremot är det rimligt att förvänta sig ett stort antal träningsbilder relaterade till barn och mat, och att denna underdomän/klass är välutvecklad.

DALL-E:s svårighet att ställa ihop väldigt kontrastiva bildelement tyder på att allmänheten för närvarande är så bländad av systemets fotorealistiska och brett tolkningsförmåga att de inte har utvecklat ett kritiskt öga för fall där systemet faktiskt bara har "limmat" ett element starkt på ett annat , som i dessa exempel från den officiella DALL-E 2-webbplatsen:

Klipp-och-klistra syntes, från de officiella exemplen för DALL-E 2. Källa: https://openai.com/dall-e-2/

I den nya tidningen står det*:

"Relationell förståelse är en grundläggande komponent i mänsklig intelligens, vilket manifesterar sig tidigt i utvecklingen, och beräknas snabbt och automatiskt i uppfattning.

'DALL-E 2:s svårighet med ens grundläggande rumsliga relationer (som t.ex in, on, under) antyder att vad den än har lärt sig, har den ännu inte lärt sig de typer av representationer som tillåter människor att strukturera världen så flexibelt och robust.

"En direkt tolkning av denna svårighet är att system som DALL-E 2 ännu inte har relationell komposition."

Författarna föreslår att textstyrda bildgenereringssystem som DALL-E-serien skulle kunna dra nytta av att utnyttja algoritmer som är gemensamma för robotik, som modellerar identiteter och relationer samtidigt, på grund av behovet av att agenten faktiskt interagerar med miljön snarare än att bara tillverka en blandning av olika element.

Ett sådant tillvägagångssätt, med titeln CLIPort, använder samma CLIP mekanism som fungerar som ett kvalitetsbedömningselement i DALL-E 2:

CLIPort, ett samarbete 2021 mellan University of Washington och NVIDIA, använder CLIP i ett sammanhang så praktiskt att systemen som tränas på det nödvändigtvis måste utveckla en förståelse för fysiska relationer, en motivator som saknas i DALL-E 2 och liknande "fantastiska" ramar för bildsyntes. Källa: https://arxiv.org/pdf/2109.12098.pdf

Författarna föreslår vidare att "en annan rimlig uppgradering" kan vara att arkitekturen för bildsyntessystem som DALL-E ska inkorporera multiplikativa effekter i ett enda beräkningsskikt, vilket möjliggör beräkning av relationer på ett sätt inspirerat av informationsbehandlingskapaciteten hos biologiska system.

Smakämnen nytt papper har titeln Testa relationsförståelse i textstyrd bildgenerering, och kommer från Colin Conwell och Tomer D. Ullman vid Harvard's Department of Psychology.

Bortom tidig kritik

När de kommenterar "snålheten" bakom realismen och integriteten i DALL-E 2:s produktion, noterar författarna tidigare verk som har hittat brister i generativa bildsystem i DALL-E-stil.

I juni i år, UoC Berkeley noterade svårigheten DALL-E har att hantera reflektioner och skuggor; samma månad undersökte en studie från Korea "unikheten" och originaliteten hos DALL-E 2-stil med ett kritiskt öga; En preliminär analys av DALL-E 2-bilder, kort efter lanseringen, från NYU och University of Texas, fann olika problem med sammansättning och andra väsentliga faktorer i DALL-E 2-bilder; och förra månaden, ett gemensamt arbete mellan University of Illinois och MIT erbjöd förslag på arkitektoniska förbättringar av sådana system när det gäller sammansättning.

Forskarna noterar vidare att DALL-E armaturer som Aditya Ramesh har medgav ramverkets problem med bindning, relativ storlek, text och andra utmaningar.

Utvecklarna bakom Googles rivaliserande bildsyntessystem Imagen har också föreslagit DrawBänk, ett nytt jämförelsesystem som mäter bildnoggrannheten över ramar med olika mätvärden.

Istället föreslår den nya tidningens författare att ett bättre resultat kan erhållas genom att sätta mänskliga uppskattningar – snarare än inbördes, algoritmiska mått – mot de resulterande bilderna, för att fastställa var svagheterna ligger och vad som kan göras för att mildra dem.

Studie

För detta ändamål baserar det nya projektet sitt tillvägagångssätt på psykologiska principer och försöker dra sig tillbaka från den nuvarande uppsving av intresse in snabb ingenjörskonst (vilket i själva verket är en eftergift till bristerna i DALL-E 2, eller något jämförbart system), för att undersöka och eventuellt ta itu med begränsningarna som gör sådana "lösningar" nödvändiga.

I uppsatsen anges:

"Det aktuella arbetet fokuserar på en uppsättning av 15 grundläggande relationer som tidigare beskrivits, undersökts eller föreslagits i den kognitiva, utvecklingsmässiga eller språkliga litteraturen. Uppsättningen innehåller både grundade rumsliga relationer (t.ex. "X på Y") och mer abstrakta agentiska relationer (t.ex. "X hjälper Y").

”Uppmaningarna är avsiktligt enkla, utan attributkomplexitet eller utarbetande. Det vill säga, istället för en uppmaning som 'en åsna och en bläckfisk spelar ett spel. Åsnan håller ett rep i ena änden, bläckfisken håller i den andra. Åsnan håller repet i munnen. En katt hoppar över repet', vi använder 'en låda på en kniv'.

"Enkelheten fångar fortfarande ett brett spektrum av relationer från olika underdomäner av mänsklig psykologi, och gör potentiella modellmisslyckanden mer slående och specifika."

För sin studie rekryterade författarna 169 deltagare från Prolific, alla belägna i USA, med en medelålder på 33 och 59% kvinnor.

Deltagarna visades 18 bilder organiserade i ett 3×6 rutnät med prompten överst och en ansvarsfriskrivning längst ner som anger att alla, några eller inga av bilderna kan ha genererats från den visade prompten, och ombads sedan att välj de bilder som de trodde var relaterade på detta sätt.

Bilderna som presenterades för individerna var baserade på språklig, utvecklingsmässig och kognitiv litteratur, bestående av en uppsättning av åtta fysiska och sju "agentiska" relationer (detta kommer att bli tydligt om ett ögonblick).

Fysiska relationer
i, på, under, täcker, nära, tilltäppt av, hängande över, och knuten till.

Agentrelationer
trycka, dra, röra, slå, sparka, hjälpa, och hindrande.

Alla dessa relationer hämtades från de tidigare nämnda icke-CS-studieområdena.

Tolv enheter härleddes således för användning i uppmaningarna, med sex objekt och sex agenter:

Objekt
låda, cylinder, filt, skål, tekopp, och kniv.

Agenter
man, kvinna, barn, robot, apa, och leguan.

(Forskarna medger att inklusive leguanen, inte en stöttepelare i torr sociologisk eller psykologisk forskning, var "en njutning")

För varje relation skapades fem olika prompter genom att slumpmässigt sampla två enheter fem gånger, vilket resulterade i totalt 75 prompter, som var och en skickades till DALL-E 2, och för var och en av vilka de initiala 18 tillhandahållna bilderna användes, utan variationer eller andra chanser tillåtna.

Resultat

Tidningen säger*:

"Deltagare rapporterade i genomsnitt en låg grad av överensstämmelse mellan DALL-E 2:s bilder och uppmaningarna som användes för att generera dem, med ett genomsnitt på 22.2 % [18.3, 26.6] över de 75 distinkta uppmaningarna.

"Agentiska uppmaningar, med ett medelvärde på 28.4 % [22.8, 34.2] över 35 uppmaningar, genererade högre överensstämmelse än fysiska uppmaningar, med ett medelvärde på 16.9 % [11.9, 23.0] över 40 uppmaningar."

Resultat från studien. Punkter i svart betecknar alla prompter, med varje punkt en individuell prompt, och färg bryts ner beroende på om prompten var agent eller fysisk (dvs. ett objekt).

För att jämföra skillnaden mellan mänsklig och algoritmisk uppfattning av bilderna körde forskarna sina renderingar genom OpenAI:s öppen källkod ViT-L/14 CLIP-baserat ramverk. Genom att ta ett genomsnitt av poängen fann de ett "måttligt förhållande" mellan de två uppsättningarna av resultat, vilket kanske är förvånande, med tanke på i vilken utsträckning CLIP själv hjälper till att generera bilderna.

Resultat av CLIP (ViT-L/14) jämförelse med mänskliga svar.

Forskarna föreslår att andra mekanismer inom arkitekturen, kanske i kombination med en tillfällig övervikt (eller brist på) data i träningsuppsättningen kan förklara hur CLIP kan känna igen DALL-E:s begränsningar utan att i alla fall kunna göra någonting mycket om problemet.

Författarna drar slutsatsen att DALL-E 2 endast har en teoretisk möjlighet, om någon, för att reproducera bilder som innehåller relationell förståelse, en grundläggande aspekt av mänsklig intelligens som utvecklas i oss mycket tidigt.

"Föreställningen att system som DALL-E 2 inte har kompositionalitet kan komma som en överraskning för alla som har sett DALL-E 2:s slående rimliga svar på uppmaningar som "en tecknad serie av en daikonrädisa i en tutu som går med en pudel". Uppmaningar som dessa genererar ofta en förnuftig approximation av ett kompositionskoncept, med alla delar av uppmaningarna närvarande och på rätt ställen.

”Kompositionalitet är dock inte bara förmågan att limma ihop saker – även saker som du kanske aldrig har sett ihop tidigare. Kompositionalitet kräver en förståelse för regler som binder ihop saker. Relationer är sådana regler.'

Man biter T-Rex

Yttrande Som OpenAI omfattar en större antal användare efter den senaste betamonetiseringen av DALL-E 2, och eftersom man nu måste betala för de flesta generationerna, kan bristerna i DALL-E 2:s relationsförståelse bli mer uppenbara eftersom varje "misslyckat" försök har en ekonomisk tyngd, och återbetalningar är inte tillgängliga.

De av oss som fick en inbjudan lite tidigare har haft tid (och, tills nyligen, större fritid att leka med systemet) att observera några av de "relationsfel" som DALL-E 2 kan avge.

Till exempel för en Jurassic Park fan, det är väldigt svårt att få en dinosaurie att jaga en person i DALL-E 2, även om konceptet "chase" inte verkar finnas i DALL-E 2 censursystem, och även om lång historia av dinosauriefilmer borde ge rikliga träningsexempel (åtminstone i form av trailers och publicitetsbilder) för detta annars omöjliga möte mellan arter.

Ett typiskt DALL-E 2-svar på uppmaningen 'Ett färgfoto av en T-Rex som jagar en man på en väg'. Källa: DALL-E 2

Jag har upptäckt att bilderna ovan är typiska för variationer på "[dinosaurie] jagar [en person]" snabb design, och att ingen detalj i prompten kan få T-Rex att faktiskt följa. På den första och andra bilden jagar mannen (mer eller mindre) T-Rexen; i den tredje, närmar sig det med en slentrianmässig ignorering av säkerheten; och på den sista bilden, uppenbarligen joggande parallellt med det stora odjuret. Under cirka 10-15 försök med detta tema har jag funnit att dinosaurien är lika "distraherad".

Det kan vara så att den enda träningsdata som DALL-E 2 kunde komma åt var i raden av "man slåss mot dinosaurier", från reklambilder för äldre filmer som t.ex En miljon år f.Kr (1966), och Jeff Goldblums berömd flygning från rovdjurens kung är helt enkelt en outlier i den lilla delen av data.

* Min konvertering av författarnas inline-citat till hyperlänkar.

Första gången publicerad 4 augusti 2022.

Relaterade ämnen:bildsyntes forskning

Strax

Forskare utvecklar amfibiesystem för artificiellt syn

Missa inte

Datormodelleringsprogram hjälper korallrevens bevarandeinsatser

Martin Anderson

Författare om maskininlärning, artificiell intelligens och big data.
Personlig sida: martinanderson.ai
Kontakt: [e-postskyddad]
Twitter: @manders_ai

Unite.AI

Är DALL-E 2 bara att "limma ihop saker" utan att förstå deras relationer?

Artificiell intelligens