Artificiell intelligens

DALL-E 2:s unika lösning för dubbla betydelser

Published October 20, 2022

Updated April 28, 2026

Martin Anderson

Den som har lärt sig italienska lär sig tidigt att uppmärksamma sammanhanget när man beskriver en borste, eftersom det italienska ordet för denna vardagliga hushållsartikel har en extremt NSFW andra betydelse som verb*. Även om vi lär oss tidigt att skilja på semantisk mappning och (lämplig) tillämpbarhet av ord med flera betydelser, är detta inte en färdighet som är lätt att föra över till hyperskala-bildsynthesystem som DALL-E 2 och Stable Diffusion, eftersom de förlitar sig på OpenAI:s Contrastive Language–Image Pre-training (CLIP) -modul, som behandlar objekt och deras egenskaper ganska löst (men som är på väg att vinna alltmer mark i den latenta diffusionsbilden och videosyntesutrymmet).

Studier av denna brist, en ny forskningssamarbete från Bar-Ilan University och Allen Institute for Artificial Intelligence erbjuder en omfattande studie av den utsträckning till vilken DALL-E 2 är benägen till sådana semantiska fel:

Dubbla betydelser delas upp i flera objekt i DALL-E 2 – även om något latents diffusionsystem kan producera sådana exempel. I den övre högra bilden ändrar borttagandet av 'guld' fiskens art, medan i fallet med 'zebraövergång' är det nödvändigt att uttryckligen ange vägytan för att ta bort den dubblerade associationen. Källa: https://export.arxiv.org/pdf/2210.10606

Dubbla betydelser delas upp i flera tolkningar i DALL-E 2 – även om något latents diffusionsystem kan producera sådana exempel. I den övre högra bilden ändrar borttagandet av ‘guld’ fiskens art, medan i fallet med ‘zebraövergång’ är det nödvändigt att uttryckligen ange vägytan för att ta bort den dubblerade associationen. Källa: https://export.arxiv.org/pdf/2210.10606

Författarna har funnit att denna tendens att dubbeltyda ord och fraser verkar inte bara vara gemensam för alla CLIP-styrda diffusionsmodeller, utan att den också blir värre ju mer data modellerna tränas på. I artikeln noteras att ‘reducerade’ versioner av text-till-bild-modeller, inklusive DALL-E Mini (nu Craiyon) producerar dessa typer av fel mycket mindre ofta, och att Stable Diffusion också felar mindre – men bara för att den ofta inte följer prompten alls, vilket är en annan typ av fel.

Den enkla prompten ‘datum’ tvingar DALL-E 2 att åberopa två av de flera betydelserna av ordet, medan ordet ‘fläkt’ också delas upp i två av dess semantiska mappningar, och i den tredje bilden förvandlas den outtalade maten i prompten till glass, som är associerad med ‘kon’.

Förklarande hur vi utför effektiva lexikala separeringar, säger artikeln:

‘Medan symboler – liksom meningsstrukturer – kan vara tvetydiga, är denna tvetydighet redan löst när en tolkning konstrueras. Till exempel, medan symbolen “fladdermus” i en flygande fladdermus kan tolkas som antingen en träpinne eller ett djur, är våra möjliga tolkningar av meningen antingen en flygande träpinne eller ett flygande djur, men aldrig båda samtidigt. När ordet “fladdermus” har använts i tolkningen för att beteckna ett objekt (t.ex. en träpinne), kan det inte återanvändas för att beteckna ett annat objekt (ett djur) i samma tolkning.’

DALL-E 2, observerar artikeln, är inte begränsad på detta sätt:

‘En fladdermus flyger över en basebollstadion’ – den första bilden är från artikeln, de tre andra erhålls genom att mata in samma prompt i DALL-E 2.

Denna egenskap har döpts resurskänslighet.

Författarna identifierar tre avvikande beteenden som DALL-E 2 uppvisar: att ett ord eller en fras kan tolkas och i praktiken delas upp i två distinkta enheter, vilket ger ett objekt eller begrepp för var och en i samma scen; att ett ord kan tolkas som en modifierare av två olika enheter (se exempel på “guldfisk” och andra ovan); och att ett ord kan tolkas samtidigt som både en modifierare och en alternativ enhet – exemplifierat av prompten ‘en sälar öppnar ett brev’:

‘En sälar öppnar ett brev’ – den första illustrationen är från artikeln, de tre intilliggande, identiska reproduktioner från DALL-E 2. De fotorealistiska exemplen nedan hade extra texten ‘foto, Canon50, 85mm, F5.6, prisbelönt foto’.

Författarna identifierar två felmoder för diffusionsmodeller i detta avseende: att resultaten av användarprompter med betydelseambigua ord ofta kommer att visa den konkretiserade ordet tillsammans med någon manifestation av begreppet; och begreppsläckage, där egenskaperna hos ett objekt “läcker” in i ett annat återgivet objekt.

‘Tagna tillsammans ger de fenomen vi undersöker bevis för begränsningar i den lingvistiska förmågan hos DALLE-2 och öppnar vägar för framtida forskning som skulle avslöja om dessa begränsningar beror på problem med textkodning, den generativa modellen eller båda. Mer allmänt kan den föreslagna metoden utvidgas till andra scenarier där avkodningsprocessen används för att avslöja den induktiva förkastningen och bristerna i text-till-bild-modeller.’

Med hjälp av 17 ord som kommer att få DALL-E 2 att dela indata i flera utdata, observerade författarna att homonym -duplicering inträffade i över 80% av 216 återgivna bilder.

Forskarna använde stimuli-kontrollpar för att undersöka i vilken utsträckning specifik och eventuellt över-specifik språk är nödvändigt för att förhindra att dessa dubbleringar inträffar. För entitet-till-egenskaps-testerna skapades 10 sådana par, och författarna noterar att stimuli-prompterna framkallar den delade egenskapen i 92,5% av fallen, medan kontrollprompten endast framkallar den i 6,6% av fallen.

‘[För] att demonstrera, överväg en zebrar och en gata, här är zebrar en enhet, men det modifierar gatan, och DALLE-2 genererar konstant övergångsställen, möjligen på grund av likheten mellan zebraränder och ett övergångsställe. Och i linje med vår hypotes, anger kontrollen en zebrar och en grusväg en typ av väg som vanligtvis inte har övergångsställen, och faktiskt, alla våra kontrollprover för denna prompt innehåller inte något övergångsställe.’