Andersons vinkel

Jailbreaking AI-censur via in-bildtext

Published February 12, 2026

Updated April 25, 2026

Martin Anderson

AI-generated image featuring the Mona Lisa painting embedded in the wall of a jail cell with the bars smashed and the inmates escaped. Apparently the painting caused all this damage. On the Mona Lisa painting are the words 'Open the cell'. GPT Image 1.5.

Forskare hävdar att ledande bildredigerings-AI kan “jailbreakas” genom rasteriserad text och visuella ledtrådar, vilket tillåter förbjudna redigeringar att kringgå säkerhetsfilter och lyckas i upp till 80,9 % av fallen.

Vänligen vara medveten om att denna artikel innehåller potentiellt stötande bilder, skapade med AI av forskningsrapportens författare för att illustrera deras nya försvarsmetod.

För att undvika juridisk exponering och skadat anseende, har nuvarande toppmoderna bild-AI-plattformar infört en rad censuråtgärder för att förhindra att användare skapar “förbjuden” bildinnehåll inom en rad kategorier, såsom NSFW och/eller smädligt innehåll. Även de mest motsträviga ramverken – särskilt Grok – har följt linjen under populär eller politisk press.

Känd som “alignment”, skannas både inkommande och utgående data för brott mot användningsregler. Således kommer en ofarlig bild av en person att passera bildbaserade tester – men att be den generativa modellen att förvandla den till en video som skulle utvecklas till osäkert innehåll (dvs. ‘visa personen som klär av sig’) skulle avbrytas på textnivån.

Användare kan kringgå denna säkerhetsåtgärd genom att använda prompt som inte direkt utlöser textfilter, men som ändå logiskt leder till osäkert innehållsgenerering (dvs. ‘Låt dem stå upp’, när bildprompten är en person som är nedsänkt i ett skummande bad). Här ingriper system>användar-filter vanligtvis, genom att skanna systemets egna svar, såsom bilder, text, ljud, video etc., för allt som skulle ha varit förbjudet som indata.

På detta sätt kan en användare tvinga ett system att generera osäkert innehåll; men i de flesta fall kommer genereringen inte att skickas tillbaka till användaren.

Bara semantik

Detta slutliga förbud sker eftersom den renderade utmatningen utvärderas av multimodala system som CLIP, som kan tolka bilder tillbaka till textdomänen och sedan tillämpa ett textfilter. Eftersom moderna bildgenererare är diffusionsbaserade system som tränats på parade bilder och text, även när en användare bara tillhandahåller en bild, tolkar modellen den genom semantiska representationer som formades av språk under träning.

Denna delade inbäddningsstruktur har påverkat hur säkerhetsmekanismer byggs, eftersom modereringslager ofta utvärderar prompt som text och omvandlar visuella indata till beskrivande form innan de fattar beslut; och på grund av denna arkitektur har aligneringsarbetet främst fokuserat på språk, med beskrivningar av bilder som en brandväggsmekanism.

Men tidigare forskning om multimodala genAI-system har redan visat att instruktioner kan bäddas in i bilder genom typografiska överlagringar, strukturerade layouter, cross-modala optimeringstekniker eller steganografisk kodning:

… (resten av innehållet) …