Kunstig intelligens
‘Det nonsensikale språket’ som kan undergrave bildesynthese-modereringsystemer

Ny forskning fra Columbia University antyder at sikkerhetstiltakene som forhindrer bildesynthesemodeller som DALL-E 2, Imagen og Parti fra å kunne produsere skadelig eller kontroversiell bilde, er sårbare for en type adversarial angrep som involverer ‘oppdiktete’ ord.
Forskeren har utviklet to tilnærminger som potensielt kan override innholdsmodereringsmessig i et bildesynthesesystem, og har funnet at de er merkbart robuste selv over forskjellige arkitekturer, noe som indikerer at svakheten er mer enn bare systemisk, og kan være knyttet til noen av de mest grunnleggende prinsippene for tekst-til-bilde-syntese.
Den første, og den sterkeste av de to, kalles macaronic prompting. Uttrykket ‘macaronic’ opprinnelig refererer til en blanding av flere språk, som finnes i Esperanto eller Unwinese. Kanskje det mest kulturelt-diffused eksempelet ville være Urdu-English, en type ‘kode-blanding’ som er vanlig i Pakistan, som ganske fritt blandet engelske substantiv og Urdu-suffikser.
I noen av ovenstående eksempler er deler av meningsfulle ord limt sammen, med engelsk som ‘skjelett’. Andre eksempler i papiret bruker flere språk over en enkelt prompt.
Systemet vil svare på en semantisk meningsfull måte på grunn av den relative mangelen på kurasjon i websidene som systemet ble trent på. Slike kilder vil ofte ha kommet komplett med flerspråklige merker (dvs. fra datasett som ikke er spesifikt designet for en bildesynthesoppgave), og hver ord som inntas, uansett språk, vil bli en ‘token’; men likeså deler av disse ordene vil bli ‘subwords’ eller fraksjonelle token.
I naturlig språkbehandling (NLP) hjelper denne type ‘stamming’ å skille etymologien til lengre avledede ord som kan oppstå i transformasjonsoperasjoner, men skaper også et massivt leksikalsk ‘Lego-sett’ som ‘kreativ’ prompting kan utnytte.

Monolingual portmanteau-ord er også effektive i å få bilder gjennom indirekte eller ikke-prosaisk språk, med svært lignende resultater ofte å oppnå over forskjellige arkitekturer, som DALL-E 2 og DALL-E Mini (Craiyon).
I den andre typen tilnærming, kalt evocative prompting, er noen av de sammenkoblede ordene lik i tone med den mer juvenile delen av ‘skolegutt-latin’ demonstrert i Monty Python’s Life of Brian (1979).
Forskeren sier:
‘En åpenbar bekymring med denne metoden er omgåelsen av innholdsfiltre basert på svartelistede promter. I prinsippet kan macaronic prompting gi en enkel og tilsynelatende pålitelig måte å omgå slike filtre for å generere skadelig, offensiv, ulovlig eller annen sensitiv innhold, inkludert voldelige, hatefulle, rasistiske, sexistiske eller pornografiske bilder, og kanskje bilder som krenker immaterielle rettigheter eller avbilder virkelige personer. ‘
‘Selskaper som tilbyr bildegenerering som en tjeneste har lagt ned mye omsorg i å forhindre generering av slike utdata i henhold til deres innholdspolitikk. Derfor bør macaronic prompting undersøkes systematisk som en trussel mot sikkerhetsprotokollene som brukes for kommersiell bildegenerering.’
Forskeren foreslår en rekke midler mot denne sårbarheten, noen av dem han innrømmer kan være betraktet som over-restruktive.
Det første mulige løsningen er den dyreste: å kurere kildebildene mer nøye, med mer menneskelig og mindre algoritmisk tilsyn. Imidlertid innrømmer papiret at dette ikke ville forhindre bildesynthesystemet fra å skape en offensiv sammenkobling mellom to bildekonsepter som i seg selv potensielt er harmløse.
For det andre foreslår papiret at bildesynthesesystemer kunne kjøre deres faktiske utdata gjennom et filter-system, og fange eventuelle problematiske assosiasjoner før de blir servert til brukeren. Det er mulig at DALL-E 2 i øyeblikket opererer et slikt filter, selv om OpenAI ikke har avdekket eksakt hvordan DALL-E 2s innholdsmoderering fungerer.
Til slutt vurderer forfatteren muligheten av en ‘ordliste-hvitliste’, som bare ville tillate godkjente og approberte ord å hente og rendre konsepter, men innrømmer at dette kunne representere en eksessivt streng begrensning av systemets nytte.
Selv om forskeren bare eksperimenterte med fem språk (engelsk, tysk, fransk, spansk og italiensk) i å lage prompt-samlinger, tror han at denne type ‘adversarial angrep’ kunne bli enda mer ‘kryptisk’ og vanskelig å avverge ved å utvide antallet språk, gitt at hyperskale-modeller som DALL-E 2 er trent på flere språk (fordi det er enklere å bruke lett-filtrert eller ‘rå’ innputt enn å vurdere den enorme utgiften til å kurere det, og fordi den ekstra dimensjonaliteten sannsynligvis vil legge til systemets nytte).
Papiret heter Adversarial angrep på bildegenerering med oppdiktete ord, og kommer fra Raphaël Millière ved Columbia University.
Kryptisk språk i DALL-E 2
Det har vært forslagt tidligere at nonsens som DALL-E 2 produserer når den prøver å avbilde skrevet språk kunne i seg selv være en ‘skjult vokabular’. Imidlertid har tidligere forskning om dette mystiske språket ikke tilbudt noen måte å utvikle nonce-strenger som kan framkalle spesifikke bilder.
Av tidligere arbeid, sier papiret:
‘[Det] tilbyr ikke en pålitelig metode for å finne nonce-strenger som framkaller spesifikke bilder. Det meste av nonsens-teksten inkludert av DALL-E 2 i bilder ser ikke ut til å være pålitelig assosiert med spesifikke visuelle konsepter når de transkriberes og brukes som en prompt. Dette begrenser muligheten for denne tilnærmingen som en måte å omgå moderering av skadelig eller offensiv innhold; som sådan er det ikke en spesielt bekymringsverdig risiko for misbruk av tekst-styrt bildegenerering-modeller.’
Forskerens to metoder er utarbeidet som måter å framkalle nonsens som kan framkalle relatert og meningsfullt bilde mens det omgår den konvensjonelle etiketten som nå utvikler seg til prompt-ingeniørkunst.
Eksempelvis vurderer forfatteren ordet for ‘fugler’ på de fem språkene som er i papirets omfang: Vögel på tysk, uccelli på italiensk, oiseaux på fransk, og pájaros på spansk.
Med byte-par-encoding (BPE) tokenisering brukt av implementeringen av CLIP som er integret i DALL-E 2, blir ordene tokenisert til ikke-aksentuert engelsk, og kan ‘kreativt kombineres’ for å danne nonce-ord som ser ut som nonsens for oss, men beholder deres limte-sammen mening for DALL-E 2, og tillater systemet å uttrykke den oppfattede intensjonen:
I ovenstående eksempel er to av ‘fremmede’ ordene for fugl limt sammen i en nonsens-streng. Takk til den fraksjonelle vekten av sub-ordene, blir meningen beholdt.
Forskeren understreker at meningsfulle resultater også kan oppnås uten å holde seg til grensene for sub-ord-segmentering, antagelig fordi DALL-E 2 (hovedstudien i papiret) har generalisert godt nok til å la grensene for sub-ordene bli utydelige uten å ødelegge deres mening.
For å demonstrere tilnærmingene utviklet i papiret, tilbys eksempler på macaronic prompting over forskjellige domener, ved å bruke listen over token-ord illustrert nedenfor (med nonsens-hybridiserte ord til høyre).
Forskeren sier at følgende eksempler fra DALL-E 2 ikke er ‘cherry-picked’:
Lingua Franca
Papiret observerer også at flere slike eksempler fungerer like godt, eller i hvert fall svært likt, over både DALL-E 2 og DALL-E Mini (nå Craiyon), og at dette er overraskende, siden DALL-E 2 er en diffusjonsmodell og DALL-E Mini ikke er; de to systemene er trent på forskjellige datasett; og DALL-E Mini bruker en BART tokenisering i stedet for CLIP-tokeniseringen favorisert av DALL-E 2.

Merkbart like resultater fra DALL-E Mini, sammenlignet med den foregående bildet, som viste resultater fra samme ‘nonsens’-inndata fra DALL-E 2.
Som vist i det første av bildene ovenfor, kan macaronic prompting også samles inn i syntaktisk lydige setninger for å generere mer komplekse scener. Imidlertid krever dette å bruke engelsk som ‘skjelett’ for å samle konseptene, og gjør prosedyren mer sannsynlig å bli interceptert av standard-sensor-systemer i et bildesyntheserammeværk.
Papiret observerer at leksikalsk hybridisering, ‘liming sammen’ av ord for å framkalle relatert innhold fra et bildesynthesesystem, også kan utføres i ett språk, ved å bruke portmanteau-ord.
Evocative Prompting
‘Evocative prompting’-tilnærmingen i papiret avhenger av å ‘framkalle’ en bredere respons fra systemet med ord som ikke strengt er basert på sub-ord, sub-token eller delvis delt merking.
En type evocative prompting er pseudolatin, som kan, blant annet, generere bilder av fiktive medisiner, selv uten noen spesifikasjon om at DALL-E 2 skal hente konseptet ‘medisin’:
Evocative prompting fungerer også særlig godt med nonsens-prompt som relaterer bredt til mulige geografiske lokasjoner, og fungerer ganske pålitelig over forskjellige arkitekturer av DALL-E 2 og DALL-E Mini:

Ordene brukt for disse promptene til DALL-E 2 og DALL-E Mini er redolent av virkelige navn, men er i seg selv fullstendig nonsens. Likevel har systemene ‘fanget opp atmosfæren’ av ordene.
Det ser ut til å være en overlap mellom macaronic og evocative prompting. Papiret sier:
‘Det ser ut til at forskjeller i treningdata, modell-størrelse og modell-arkitektur kan føre til at forskjellige modeller parser promter som voiscellpajaraux og eidelucertlagarzard på enten “macaronic” eller “evocative” måte, selv når disse modellene er bevist å være responsive til begge prompting-metoder.’
Papiret konkluderer:
‘Selv om forskjellige egenskaper ved disse modellene – inkludert størrelse, arkitektur, tokenisering [prosess] og treningdata – kan påvirke deres sårbarhet for tekst-basert adversarial angrep, indikerer preliminære bevis diskutert i dette arbeidet at noen av disse angrepene likevel kan fungere noenlunde pålitelig over modeller.’
Det kan argumenteres at den største hindringen for ekte eksperimentering rundt disse metodene er risikoen for å bli flagget og blokkert av verts-systemet. DALL-E 2 krever en tilknyttet telefonnummer for hver brukerkonto, og begrenser antallet ‘burner-kontoer’ som sannsynligvis ville være nødvendig for å virkelig teste grensene for denne type leksikalsk hacking, i forhold til å undergrave eksisterende modereringsmetoder. For øyeblikket er DALL-E 2s primære sikkerhetstiltak fortsatt volatilitet av tilgang.
Først publisert 9. august 2022.


















