Artificiell intelligens

‘Nonsensspråket’ som kan undergräva bildsynthesmodereringssystem

Published August 9, 2022

Updated April 26, 2026

Martin Anderson

DALL-E 2: 'a man in a state of exaspenttausacion' . https://labs.openai.com/s/PHCrZh2i5FC2N814U8pbxuug

Ny forskning från Columbia universitet tyder på att skyddsåtgärderna som förhindrar att bildsynthesmodeller som DALL-E 2, Imagen och Parti kan producera skadliga eller kontroversiella bilder är känsliga för en typ av adversarial attack som involverar “uppfunna” ord.

Författaren har utvecklat två tillvägagångssätt som potentiellt kan åsidosätta innehållsmoderingsåtgärderna i ett bildsynthesystem, och har funnit att de är anmärkningsvärt robusta även över olika arkitekturer, vilket tyder på att svagheten är mer än bara systematisk och kan bero på några av de mest grundläggande principerna för text-till-bild-syntes.

Det första, och det starkaste av de två, kallas macaronic prompting. Termen “macaronic” ursprungligen refererar till en blandning av flera språk, som finns i Esperanto eller Unwinese. Kanske det mest kulturellt spridda exemplet skulle vara Urdu-Engelska, en typ av “kodmixning” som är vanlig i Pakistan, som ganska fritt blandar engelska substantiv och urdu-suffix.

Kompositionell macaronic prompting i DALL-E 2. Källa: https://arxiv.org/pdf/2208.04135.pdf

I några av ovanstående exempel har delar av meningsfulla ord limmats ihop, med engelska som “ställning”. Andra exempel i artikeln använder flera språk över en enda prompt.

Systemet kommer att svara på ett semantiskt meningsfullt sätt på grund av den relativa bristen på kurering i webbkällorna som systemet tränades på. Sådana källor kommer ofta att ha anlänt komplett med multilingvala etiketter (dvs. från dataset som inte specifikt är utformade för en bildsyntesuppgift), och varje ord som intas, oavsett språk, kommer att bli en “token”; men likaså kommer delar av dessa ord att bli “subwords” eller fraktions-token. I naturligt språkbehandling (NLP) hjälper denna typ av “stamning” till att skilja på etymologin för längre derivativa ord som kan uppstå i transformationsoperationer, men skapar också en enorm lexikal “Lego-uppsättning” som “kreativ” prompting kan utnyttja.

Monolinguala portmanteau-ord är också effektiva för att erhålla bilder genom indirekt eller icke-prosaiskt språk, med mycket liknande resultat som ofta kan erhållas över skilda arkitekturer, såsom DALL-E 2 och DALL-E Mini (Craiyon).

I den andra typen av tillvägagångssätt, som kallas evocative prompting, är några av de sammanfogade orden liknande i ton till den mer juvenila strängen av “skolpojkslatin” demonstrerad i Monty Pythons Life of Brian (1979).

Det är ingen skämt – falsk latin lyckas ofta med att framkalla en meningsfull respons från DALL-E 2.

Författaren skriver:

‘En uppenbar oro med denna metod är kringgåendet av innehållsfilter baserade på svarta listor. I princip kunde macaronic prompting ge en enkel och tydligen tillförlitlig metod för att kringgå sådana filter för att generera skadliga, stötande, olagliga eller annars känsliga innehåll, inklusive våldsamma, hatiska, rasistiska, sexistiska eller pornografiska bilder, och kanske bilder som kränker immateriella rättigheter eller avbildar verkliga personer. ‘

‘Företag som erbjuder bildgenerering som en tjänst har lagt ner mycket omsorg på att förhindra generering av sådana utdata i enlighet med deras innehållspolicy. Följaktligen bör macaronic prompting undersökas systematiskt som en hot mot säkerhetsprotokollen som används för kommersiell bildgenerering.’

Författaren föreslår ett antal lösningar mot denna sårbarhet, som han medger kan anses vara överrestriktiva.

Den första möjliga lösningen är den dyraste: att kurera källträningsbilderna mer noggrant, med mer mänsklig och mindre algoritmisk tillsyn. Men artikeln medger att detta inte skulle förhindra att bildsyntessystemet skapar en stötande sammanfogning mellan två bildkoncept som i sig själva potentiellt är ofarliga.

Artikeln föreslår att bildsyntessystem kan köra sin faktiska utdata genom ett filter-system, som intercepterar eventuella problematiska associationer innan de serveras till användaren. Det är möjligt att DALL-E 2 för närvarande använder ett sådant filter, men OpenAI har inte avslöjat exakt hur DALL-E 2:s innehållsmoderering fungerar.

Slutligen överväger författaren möjligheten av en “ordlista-vitlista”, som endast tillåter granskade och godkända ord att hämta och återge begrepp, men medger att detta kan representera en alltför sträng begränsning av systemets användbarhet.

Även om forskaren endast experimenterade med fem språk (engelska, tyska, franska, spanska och italienska) vid skapandet av prompt-sammansättningar, tror han att denna typ av “adversarial attack” kan bli ännu mer “kryptisk” och svår att avvärja genom att utöka antalet språk, med tanke på att hyperskalemodeller som DALL-E 2 tränas på flera språk (eftersom det är lättare att använda lättfilterade eller “råa” indata än att överväga den enorma kostnaden för kurering, och eftersom den extra dimensionen sannolikt kommer att lägga till systemets användbarhet).

Artikeln är titlad Adversarial Attacks on Image Generation With Made-Up Words och kommer från Raphaël Millière vid Columbia University.

Kryptiskt språk i DALL-E 2

Det har föreslagits tidigare att nonsens som DALL-E 2 producerar när den försöker avbilda skriven text kan i sig vara ett ‘dolt ordförråd’. Men tidigare forskning om detta mystiska språk har inte erbjudit något sätt att utveckla nonce-ord som kan framkalla specifik bild.

Av tidigare arbete skriver artikeln:

‘[Det] erbjuder inte en tillförlitlig metod för att hitta nonce-ord som framkallar specifik bild. Större delen av nonsens-texten som DALL-E 2 inkluderar i bilder verkar inte vara tillförlitligt associerad med specifika visuella koncept när den transkriberas och används som en prompt. Detta begränsar genomförbarheten av denna metod som ett sätt att kringgå moderering av skadligt eller stötande innehåll; som sådan är det inte en särskilt oroande risk för missbruk av text-styrd bildgenerering.’

Författarens två metoder presenteras som sätt att framkalla meningsfull bild samtidigt som de kringgår den konventionella etiketten som nu utvecklas till prompt-teknik.

Genom att använda exemplet med ordet för “fåglar” på de fem språk som omfattas av artikeln: Vögel på tyska, uccelli på italienska, oiseaux på franska, och pájaros på spanska.

Med byte-par-encoding (BPE)-tokenisering som används av CLIP-implementationen som integreras i DALL-E 2, tokeniseras orden till icke-accenterat engelska, och kan “kreativt kombineras” för att bilda nonce-ord som verkar vara nonsens för oss, men behåller sin limmade sammanfogning för DALL-E 2, vilket tillåter systemet att uttrycka den uppfattade avsikten:

I ovanstående exempel limmas två av de “främmande” orden för fågel ihop till en nonsens-sträng. Tack vare den fraktionala vikten av sub-orden behålls meningen.

Författaren betonar att meningsfulla resultat också kan erhållas utan att följa gränserna för sub-ordssegmentering, antagligen eftersom DALL-E 2 (den primära studien i artikeln) har generaliserat tillräckligt bra för att låta gränserna för sub-orden suddas ut utan att förstöra deras mening.

För att ytterligare demonstrera de utvecklade tillvägagångssätten erbjuder artikeln exempel på macaronic prompting över olika domäner, med hjälp av listan över token-ord som illustreras nedan (med nonsens-hybridiserade ord längst till höger).

Författaren skriver att följande exempel från DALL-E 2 inte är “cherry-picked”:

Lingua Franca

Artikeln observerar också att flera sådana exempel fungerar lika bra, eller åtminstone mycket liknande, över både DALL-E 2 och DALL-E Mini (nu Craiyon), och att detta är förvånande, eftersom DALL-E 2 är en diffusionsmodell och DALL-E Mini inte är; de två systemen tränas på olika dataset; och DALL-E Mini använder en BART-tokenisering istället för CLIP-tokeniseringen som favoriseras av DALL-E 2.

Anmärkningsvärt liknande resultat från DALL-E Mini, jämfört med den tidigare bilden, som visade resultat från samma “nonsens”-inmatning från DALL-E 2.

Som visas i den första av bilderna ovan kan macaronic prompting också sättas samman till syntaktiskt korrekta meningar för att generera mer komplexa scener. Men detta kräver att engelska används som “ställning” för att montera koncepten, vilket gör proceduren mer benägen att intercepteras av standardcensorsystem i ett bildsyntesramverk.

Artikeln observerar att lexikal hybridisering, “limmade samman” av ord för att framkalla relaterat innehåll från ett bildsyntesystem, också kan åstadkommas i ett enda språk, med hjälp av portmanteau-ord.

Evocative Prompting

“Evocative prompting”-tillvägagångssättet i artikeln beror på att “framkalla” en bredare respons från systemet med ord som inte strikt baseras på sub-ord eller sub-token eller delat etiketter.

En typ av evocative prompting är pseudolatin, som kan, bland annat, generera bilder av fiktiva läkemedel, även utan någon specifikation att DALL-E 2 ska hämta konceptet “läkemedel”:

Evocative prompting fungerar också särskilt bra med nonsens-prompts som relaterar till möjliga geografiska platser, och fungerar ganska tillförlitligt över olika arkitekturer av DALL-E 2 och DALL-E Mini:

Orden som används för dessa prompts till DALL-E 2 och DALL-E Mini är liknande till riktiga namn, men är i sig själva fullständigt nonsens. Trots detta har systemen “tagit upp atmosfären” av orden.

Det verkar finnas en överlappning mellan macaronic och evocative prompting. Artikeln skriver:

‘Det verkar som att skillnader i träningsdata, modellstorlek och modellarkitektur kan orsaka att olika modeller tolkar prompts som voiscellpajaraux och eidelucertlagarzard på antingen “macaronic” eller “evocative” sätt, även när dessa modeller har visat sig vara responsiva för båda prompting-metoderna.’

Artikeln avslutas:

‘Medan olika egenskaper hos dessa modeller – inklusive storlek, arkitektur, tokenisering och träningsdata – kan påverka deras sårbarhet för textbaserade adversarial attacker, tyder preliminära bevis som diskuteras i detta arbete på att vissa av dessa attacker kan fungera ganska tillförlitligt över modeller.’

Det mest betydande hindret för verklig experimentering kring dessa metoder är risken för att bli flaggad och bannlyst av värd-systemet. DALL-E 2 kräver ett associerat telefonnummer för varje användarkonto, vilket begränsar antalet “brännkonton” som sannolikt skulle behövas för att verkligen testa gränserna för denna typ av lexikal hacking, i termer av att kringgå befintliga modereringsmetoder. För närvarande förblir DALL-E 2:s primära säkerhetsåtgärd volatiliteten av tillgång.

Publicerad första gången den 9 augusti 2022.

Unite.AI

‘Nonsensspråket’ som kan undergräva bildsynthesmodereringssystem

Kryptiskt språk i DALL-E 2

Lingua Franca

Evocative Prompting

You may like