Unghiul lui Anderson

Jailbreaking AI Censors Via In-Image Text

Published February 12, 2026

Updated April 25, 2026

Martin Anderson

AI-generated image featuring the Mona Lisa painting embedded in the wall of a jail cell with the bars smashed and the inmates escaped. Apparently the painting caused all this damage. On the Mona Lisa painting are the words 'Open the cell'. GPT Image 1.5.

Cercetătorii afirmă că principalele programe de editare a imaginilor bazate pe inteligență artificială pot fi “jailbreakate” prin intermediul textului rasterizat și al cuvintelor cheie vizuale, permițând editări interzise să ocolească filtrele de siguranță și să reușească în până la 80,9% din cazuri.

Vă rugăm să fiți conștienți că acest articol conține imagini cu potențial ofensator, create cu ajutorul inteligenței artificiale de către autorii lucrării de cercetare, pentru a ilustra noua lor metodă de apărare.

Pentru a evita expunerea legală și deteriorarea reputației, platformele actuale de imagine bazate pe inteligență artificială instituie o serie de măsuri de cenzură pentru a preveni utilizatorii să creeze imagini “interzise” într-o varietate de categorii, cum ar fi conținutul NSFW și/sau defăimător. Chiar și cele mai recalcitrante cadre – în special Grok – au respectat linia sub presiunea populară sau presiunea politică.

Cunoscut sub numele de ‘aliniere’, atât datele intrării, cât și ieșirii sunt scanate pentru încălcări ale regulilor de utilizare. Astfel, încărcarea unei imagini inofensive a unei persoane va trece testele bazate pe imagine – dar solicitarea modelului generativ să o transforme într-un videoclip care ar progresa în conținut nesigur (de exemplu, ‘arăți persoana dezbrăcată’) ar fi interceptat la nivel de text.

Utilizatorii pot ocoli această măsură de siguranță prin utilizarea de prompturi care nu declanșează direct filtrele de text, dar care conduc totuși la generarea de conținut nesigur (de exemplu, ‘Fă-o să se ridice’, atunci când promptul de imagine este o persoană scufundată într-o baie spumantă). Aici, filtrele sistem>utilizator intervin de obicei, prin scanarea răspunsurilor sistemului, cum ar fi imagini, text, sunet, videoclipuri etc., pentru orice conținut care ar fi fost interzis ca intrare.

În acest fel, un utilizator poate forța un sistem să genereze conținut nesigur; dar în majoritatea cazurilor, generatorul nu va transmite conținutul înapoi utilizatorului.

Doar semantică

Acest al doilea ban are loc pentru că ieșirea renderizată este evaluată de sisteme multimodale, cum ar fi CLIP, care pot interpreta imagini înapoi în domeniul textului și apoi pot aplica un filtru de text. Deoarece generatorii de imagini moderni sunt sisteme bazate pe difuzie antrenate pe imagini și texte pereche, chiar și atunci când un utilizator oferă doar o imagine, modelul o interpretează prin reprezentări semantice care au fost modelate de limbaj în timpul antrenamentului.

Această structură de încorporare comună a influențat modul în care se construiesc mecanismele de siguranță, deoarece straturile de moderare evaluează de obicei prompturile ca texte și transformă intrările vizuale în formă descriptivă înainte de a lua decizii; și din cauza acestei arhitecturi, lucrările de aliniere s-au concentrat în principal pe limbaj, utilizând descrierea imaginilor ca mecanism de apărare.

Cu toate acestea, cercetările anterioare privind sistemele de inteligență artificială multimodale au demonstrat deja că instrucțiunile pot fi încorporate în imagini prin suprapuneri tipografice, layout-uri structurate, tehnici de optimizare cross-modală sau codificare steganografică:

… (restul textului)