Andersonin kulma

Vankilamurto AI-sensoreita kuvan sisällä olevan tekstin kautta

Published February 12, 2026

Updated April 25, 2026

Martin Anderson

AI-generated image featuring the Mona Lisa painting embedded in the wall of a jail cell with the bars smashed and the inmates escaped. Apparently the painting caused all this damage. On the Mona Lisa painting are the words 'Open the cell'. GPT Image 1.5.

Tutkijat väittävät, että johtavat kuvanmuokkaus-AI:lla voidaan murtaa rasteroitua tekstiä ja visuaalista vihjeitä hyväksikäyttämällä, jolloin kielletyt muokkaukset voidaan ohittaa turvallisuussuodattimien ja onnistua jopa 80,9 prosentissa tapauksista.

Ole tietoinen, että tämä artikkeli sisältää mahdollisesti loukkaavia kuvia, jotka on luotu tutkimuspaperin kirjoittajien toimesta osoittamaan heidän uutta puolustusmenetelmäänsä.

Jotta voidaan välttää oikeudellinen altistus ja maineen vahinko, nykyiset valmiit kuvan AI-alustat toteuttavat useita sensuuritoimia estämään käyttäjiä luomasta “kiellettyjä” kuvia useissa luokissa, kuten NSFW- ja / tai herjaavia sisältöjä. Jopa vastahakoisimmat kehykset – erityisesti Grok – ovat noudattaneet linjaa suositun tai poliittisen paineen alla.

Tunnettu “kohdistus” nimellä, sekä saapuva että lähtevä data skannataan sääntörikkomusten varalta. Näin ollen, harmiton kuvan lataaminen henkilöstä kulkee kuvapohjaisen testin läpi – mutta pyytäminen generatiiviselta mallilta muuttaa sitä videoksi, joka edistyy epäturvalliseen sisältöön (ts. ‘näytä henkilö riisumassa’), se keskeytetään tekstitasolla.

Käyttäjät voivat ohittaa tämän turvallisuustoimen, käyttämällä kehotteita, jotka eivät suoraan laukaise tekstisuodattimia, mutta johtavat silti epäturvalliseen sisällön luomiseen (esim. ‘tee heidät seisomaan’, kun kuvakehotteena on henkilö, joka on upottunut vaahtoon): Tässä system>user -suodattimet puuttuvat peliin skannaamalla järjestelmän omat vastaukset, kuten kuvat, tekstin, äänen, videon jne. minkä tahansa kielletyn sisällön varalta syötteenä.

Tällä tavoin käyttäjä voi pakottaa järjestelmän luomaan epäturvallista sisältöä; mutta useimmissa tapauksissa generaattori ei päästä sisältöä takaisin käyttäjälle.

Pelkästään Semantiikkaa

Tämä viimeinen kielto tapahtuu, koska renderöity ulostulo arvioidaan multimodaalisilla järjestelmillä, kuten CLIP, jotka voivat tulkita kuvat takaisin tekstimaailmaan ja soveltaa tekstisuodatinta. Koska modernit kuvageneraattorit ovat diffuusiopohjaisia järjestelmiä, jotka on koulutettu parittaisilla kuvilla ja tekstillä, vaikka käyttäjä antaa vain kuvan, malli tulkkaa sen semanttisten edustusten kautta, jotka muotoiltiin kielen avulla koulutuksen aikana.

Tämä jaettu upotus -rakenne on vaikuttanut siihen, miten turvallisuusmekanismit on rakennettu, koska moderointikerrokset usein arvioivat kehotteita tekstinä ja muuttavat visuaaliset syötteet kuvailevaksi muotoon ennen päätöksentekoa; ja tämän arkkitehtuurin vuoksi kohdistustyö on keskittynyt pääasiassa kielen ympärille, käyttäen kuvien kuvausta palomuurina.

Kuitenkin aiemmat tutkimukset multimodaalisten genAI-järjestelmistä ovat jo osoittaneet, että ohjeet voidaan upottaa kuvien sisään typografisten ylaiden, rakenteellisten asettelujen, ristimodaalisten optimointitekniikoiden tai steganografisen koodauksen kautta:

… (jatkuu)

Related Topics:Advanced LLMs censorship Large Language Models (LLMs)VLM

Martin Anderson

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]

Unite.AI

Vankilamurto AI-sensoreita kuvan sisällä olevan tekstin kautta

You may like