Andersons vinkel

Jailbreaking af AI-censur via tekst i billeder

Published February 12, 2026

Updated April 25, 2026

Martin Anderson

AI-generated image featuring the Mona Lisa painting embedded in the wall of a jail cell with the bars smashed and the inmates escaped. Apparently the painting caused all this damage. On the Mona Lisa painting are the words 'Open the cell'. GPT Image 1.5.

Forskere hævder, at førende billedredigerings-AI kan “jailbreakes” via rasteriseret tekst og visuelle koder, hvilket tillader forbudte redigeringer at omgå sikkerhedsfilter og lykkes i op til 80,9% af tilfældene.

Vær opmærksom på, at denne artikel indeholder potentielt stødende billeder, som er lavet med AI af forskningspapirets forfattere for at illustrere deres nye defensive metode.

For at undgå juridisk eksponering og reputationsbeskadigelse, har nuværende state-of-the-art billed-AI-platforme indført en række censurforanstaltninger for at forhindre brugere i at oprette “forbudte” billeder i en række kategorier, såsom NSFW og/eller krænkende indhold. Selv de mest recalcitrante rammer – nævnt Grok – har føjet sig under populær eller politisk pres.

Kendt som “alignment”, scannes både indgående og udgående data for overtrædelser af brugsregler. Derfor vil upload af et uskyldigt billede af en person gå igennem billedbaserede tests – men at bede den generative model om at omdanne det til en video, der ville udvikle sig til usikkerhedsindhold (dvs. ‘Vis personen, der klæder af’), ville blive fanget på tekstniveau.

Brugere kan omgå denne sikkerhedsforanstaltning ved at bruge prompts, der ikke direkte udløser tekstfilter, men som logisk fører til usikkerhedsgenerering (dvs. ‘Lad dem stå op’, når billedprompten er en person, der er dyppet i en skummet bad). Her griber system>bruger-filterne ind, ved at scannen systemets egne svar, såsom billeder, tekst, lyd, video osv., for noget, der ville være blevet forbudt som input.

På denne måde kan en bruger tvinge et system til at generere usikkerhedindhold; men i de fleste tilfælde vil generatoren ikke sende indholdet tilbage til brugeren.

Kun semantik

Dette sidste forbud sker, fordi det renderede output evalueres af multimodale systemer såsom CLIP, som kan fortolke billeder tilbage til tekstområdet og derefter anvende et tekstfilter. Da moderne billedgenereringsmodeller er diffusionsbaserede systemer, der er trænet på parret billeder og tekst, selv når en bruger kun giver et billede, fortolker modellen det gennem semantiske repræsentationer, der blev formet af sprog under træning.

Denne fælles indlejringstruktur har påvirket, hvordan sikkerhedsforanstaltninger er bygget, da moderationslag ofte evaluerer prompts som tekst og transformerer visuelle input til beskrivende form, før de træffer beslutninger; og på grund af denne arkitektur har alignment-arbejdet primært fokuseret på sprog, ved at bruge beskrivelsen af billeder som en brandmur-mekanisme.

Men tidligere forskning i multimodale genAI-systemer har allerede demonstreret, at instruktioner kan indlejres i billeder gennem typografiske overlæg, strukturerede layout, cross-modale optimeringsteknikker eller steganografisk kodning:

… (resten af artiklen er oversat på samme måde)