Connect with us

Kunstig intelligens

‘Nonsensssproget’, der kan undergrave billedsynthesemodningsystemer

mm
DALL-E 2: 'a man in a state of exaspenttausacion' . https://labs.openai.com/s/PHCrZh2i5FC2N814U8pbxuug

Nyt forskning fra Columbia University antyder, at de sikkerhedsforanstaltninger, der forhindrer billedsynthesemodeller som DALL-E 2, Imagen og Parti i at kunne producere skadelig eller kontroversiel billedmateriale, er sårbare over for en type adversarial angreb, der involverer ‘fiktive’ ord.

Forskeren har udviklet to tilgange, der potentielt kan omgå indholdsmoderationsforanstaltningerne i et billedsynthesesystem, og har fundet, at de er bemærkelsesværdigt robuste, selv på tværs af forskellige arkitekturer, hvilket indikerer, at svagheden er mere end bare systemisk, og kan være forbundet med nogle af de mest fundamentale principper for tekst-til-billede-syntese.

Den første og stærkeste af de to tilgange kaldes macaronic prompting. Begrebet ‘macaronic’ refererer oprindeligt til en blanding af multiple sprog, som findes i Esperanto eller Unwinese. Måske det mest kulturelt-diffused eksempel ville være Urdu-Engelsk, en type ‘kodeblanding’ almindelig i Pakistan, der ret frit kombinerer engelske navneord og urdu-suffixer.

Kompositionel macaronic prompting i DALL-E 2. Kilde: https://arxiv.org/pdf/2208.04135.pdf

Kompositionel macaronic prompting i DALL-E 2. Kilde: https://arxiv.org/pdf/2208.04135.pdf

I nogle af de ovenstående eksempler er brudstykker af meningsfulde ord blevet limet sammen, med engelsk som ‘scaffold’. Andre eksempler i artiklen bruger multiple sprog på tværs af en enkelt prompt.

Systemet vil reagere på en semantisk meningsfuld måde på grund af den relative mangel på kuratering i webkilderne, som systemet er trænet på. Sådanne kilder vil ofte være ankommet komplet med multilinguale mærker (dvs. fra datasæt, der ikke er specifikt designede til en billedsynteseopgave), og hvert ord, der indtages, uanset sprog, vil blive et ‘token’; men ligeså vil dele af disse ord blive ‘subwords’ eller brudstykker af tokens. I Natural Language Processing (NLP) hjælper denne type ‘stamning’ med at skelne etymologien af længere afledte ord, der kan opstå i transformationer, men skaber også en enorm leksikalsk ‘Lego-sæt’, som ‘kreativ’ prompting kan udnytte.

Monolinguale portmanteau-ord er også effektive til at få billeder gennem indirekte eller non-prosaisk sprog.

Monolinguale portmanteau-ord er også effektive til at få billeder gennem indirekte eller non-prosaisk sprog, med meget lignende resultater ofte kan opnås på tværs af forskellige arkitekturer, såsom DALL-E 2 og DALL-E Mini (Craiyon).

I den anden type tilgang, kaldet evocative prompting, ligner nogle af de sammensatte ord i tone med den mere juvenile strøm af ‘skolelatin’ demonstreret i Monty Pythons Life of Brian (1979).

Det er ingen joke – faux-latin ofte lykkes i at fremkalde en meningsfuld reaktion fra DALL-E 2.

Det er ingen joke – faux-latin ofte lykkes i at fremkalde en meningsfuld reaktion fra DALL-E 2.

Forskeren skriver:

‘En åbenlys bekymring ved denne metode er omgåelsen af indholdsfiltre baseret på sortlistede prompts. I princippet kunne macaronic prompting give en nem og tilsyneladende pålidelig måde at omgå sådanne filtre for at generere skadelig, stødende, ulovlig eller anden følsomt indhold, herunder voldelige, hadefulde, racistiske, sexistiske eller pornografiske billeder, og måske billeder, der krænker ophavsret eller afbilder virkelige personer.’

‘Virksomheder, der tilbyder billedgenerering som en tjeneste, har lagt stor omhu i at forhindre generering af sådant indhold i overensstemmelse med deres indholdspolitik. Følgelig bør macaronic prompting undersøges systematisk som en trussel mod sikkerhedsprotokollerne, der bruges til kommerciel billedgenerering.’

Forskeren foreslår en række foranstaltninger mod denne sårbarhed, nogle af hvilke han indrømmer kan være over-restruktive.

Den første mulige løsning er den dyreste: at kuratere kildebillederne mere omhyggeligt, med mere menneskelig og mindre algoritmeoversigt. Forskningen indrømmer dog, at dette ikke ville forhindre billedsynthesesystemet i at skabe en stødende sammenføjning af to billedkoncepter, der i sig selv er potentielt uskyldige.

Anden, artiklen foreslår, at billedsynthesesystemer kunne køre deres faktiske output gennem et filter-system, der griber ind og afværger eventuelle problematiske associationer, før de præsenteres for brugeren. Det er muligt, at DALL-E 2 allerede anvender et sådant filter, selv om OpenAI ikke har offentliggjort, hvordan DALL-E 2’s indholdsmoderation fungerer.

Endelig overvejer forfatteren muligheden for en ‘ordliste-hvidliste’, der kun ville tillade godkendte og godkendte ord at hente og gengive begreber, men indrømmer, at dette kunne repræsentere en excessivt streng begrænsning af systemets nytte.

Selv om forskeren kun eksperimenterede med fem sprog (engelsk, tysk, fransk, spansk og italiensk) i opbygningen af prompt-samlinger, mener han, at denne type ‘adversarial angreb’ kunne blive endnu mere ‘kryptisk’ og svær at afværge ved at udvide antallet af sprog, da hyperskalamodeller som DALL-E 2 er trænet på multiple sprog (simpelthen fordi det er lettere at bruge let-filtrerede eller ‘rå’ input end at overveje den enorme omkostning ved at kuratere det, og fordi den ekstra dimension sandsynligvis vil tilføje systemets nytte).

Artiklen hefter er titlen Adversarial angreb på billedgenerering med fiktive ord, og kommer fra Raphaël Millière på Columbia University.

Kryptisk sprog i DALL-E 2

Det er blevet forslagt tidligere, at nonsens, som DALL-E 2 producerer, når den forsøger at afbilde skrevet sprog, kunne i sig selv være et ‘skjult vocabularium’. Imidlertid har tidligere forskning i dette mystiske sprog ikke tilbudt nogen måde at udvikle nonce-streng, der kan tilkalde bestemt billedmateriale.

Om tidligere arbejde skriver artiklen:

‘[Det] tilbyder ikke en pålidelig metode til at finde nonce-streng, der fremkalder bestemt billedmateriale. Det meste af nonsens-teksten, der er inkluderet i DALL-E 2’s billeder, synes ikke at være pålideligt forbundet med bestemte visuelle begreber, når det transkriberes og bruges som prompt. Dette begrænser denne tilgangs anvendelighed som en måde at omgå moderering af stødende eller upassende indhold; som sådan er det ikke en særlig bekymrende risiko for misbrug af tekst-styret billedgenerering.’

Forskerens to metoder er udviklet som midler, hvorved nonsens kan tilkalde relateret og meningsfuldt billedmateriale, mens det omgår den konventionelle etikette, der nu udvikler sig til prompt-teknik.

Som eksempel overvejer forfatteren ordet for ‘fugle’ på de fem sprog, der er omfattet af artiklen: Vögel på tysk, uccelli på italiensk, oiseaux på fransk og pájaros på spansk.

Med byte-par-encoding (BPE)-tokenisering, der bruges af CLIP-implementationen, der er integreret i DALL-E 2, bliver ordene tokeniseret til ukomponenterede engelsk, og kan ‘kreativt kombineres’ for at danne nonce-ord, der synes at være nonsens for os, men bevare deres samlede mening for DALL-E 2, og tillader systemet at udtrykke den opfattede hensigt:

I ovenstående eksempel er to af de ‘fremmede’ ord for fugl limet sammen i en nonsens-streng. Takket være den brudstykkelige vægt af sub-ordene bevares meningen.

Forskeren understreger, at meningsfulde resultater også kan opnås uden at overholde grænserne for underord-segmentering, sandsynligvis fordi DALL-E 2 (artiklens primære studie) har generaliseret tilstrækkeligt til at lade underord-grænserne blive uklare uden at ødelægge deres mening.

For yderligere at demonstrere de udviklede tilgange tilbyder artiklen eksempler på macaronic prompting på tværs af forskellige domæner, ved hjælp af listen over token-ord, der er illustreret nedenfor (med nonsens-hybridiserede ord til højre).

Forskeren skriver, at følgende eksempler fra DALL-E 2 ikke er ‘cherry-picked’:

Lingua Franca

Artiklen observerer også, at flere sådanne eksempler fungerer lige så godt, eller i hvert fald meget lignende, på både DALL-E 2 og DALL-E Mini (nu Craiyon), og at dette er overraskende, da DALL-E 2 er et diffusionsmodel, og DALL-E Mini ikke er; de to systemer er trænet på forskellige datasæt; og DALL-E Mini bruger en BART-tokenizer i stedet for CLIP-tokenizeren, der er favoriseret af DALL-E 2.

Forbløffende lignende resultater fra DALL-E Mini, sammenlignet med det foregående billede, der viste resultater fra samme 'nonsens'-input fra DALL-E 2.

Forbløffende lignende resultater fra DALL-E Mini, sammenlignet med det foregående billede, der viste resultater fra samme ‘nonsens’-input fra DALL-E 2.

Som set i det første af billederne ovenfor kan macaronic prompting også samles i syntaktisk lydige sætninger for at generere mere komplekse scener. Det kræver dog brug af engelsk som ‘scaffold’ til at samle koncepterne, hvilket gør proceduren mere sandsynlig for at blive aflyttet af standardcensursystemer i et billedsyntheserammeværk.

Artiklen observerer, at leksikalsk hybridisering, ‘samlingen’ af ord for at fremkalde relateret indhold fra et billedsynthesesystem, også kan opnås på ét sprog, ved brug af portmanteau-ord.

Evocative Prompting

‘Evocative prompting’-tilgangen i artiklen afhænger af at ‘fremkalde’ en bredere reaktion fra systemet med ord, der ikke strengt er baseret på underord eller under-token eller delvist fælles mærker.

En type evocative prompting er pseudolatin, der kan, blandt andet, generere billeder af fiktive mediciner, selv uden nogen specifikation af, at DALL-E 2 skal hente begrebet ‘medicin’:

Evocative prompting fungerer også særligt godt med nonsens-prompts, der relaterer bredt til mulige geografiske beliggenheder, og fungerer ret pålideligt på tværs af de forskellige arkitekturer af DALL-E 2 og DALL-E Mini:

Ordet brugt til disse prompts til DALL-E 2 og DALL-E Mini minder om rigtige navne, men er i sig selv ren nonsens. Alligevel har systemerne 'fanget atmosfæren' af ordene.

Ordet brugt til disse prompts til DALL-E 2 og DALL-E Mini minder om rigtige navne, men er i sig selv ren nonsens. Alligevel har systemerne ‘fanget atmosfæren’ af ordene.

Der synes at være en overlap mellem macaronic og evocative prompting. Artiklen skriver:

‘Det synes, at forskelle i træningsdata, modelstørrelse og modelarkitektur kan føre til, at forskellige modeller parser prompts som voiscellpajaraux og eidelucertlagarzard på enten “macaronic” eller “evocative” vis, selv når disse modeller er bevist for at være responsive til begge prompting-metoder.’

Artiklen slutter:

‘Selv om forskellige egenskaber ved disse modeller – herunder størrelse, arkitektur, tokenisering [procedure] og træningsdata – kan påvirke deres sårbarhed over for tekst-baserede adversarial angreb, antyder foreløbige beviser, der diskuteres i dette arbejde, at nogle af disse angreb alligevel kan fungere nogenlunde pålideligt på tværs af modeller.’

Det kan måske siges, at den største hindring for sand eksperimentering omkring disse metoder er risikoen for at blive flaget og blokeret af værtsystemet. DALL-E 2 kræver en tilknyttet telefonnummer for hver brugerkonto, hvilket begrænser antallet af ‘brændte konti’, der sandsynligvis ville være nødvendige for at sandt teste grænserne for denne type leksikalsk hacking, i forhold til at omgå eksisterende moderationsmetoder. For øjeblikket er DALL-E 2’s primære sikkerhedsforanstaltning stadig volatiliteten af adgangen.

Først udgivet 9. august 2022.

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.