Andersonin kulma
Vankilamurto AI-sensoreita kuvan sisällä olevan tekstin kautta

Tutkijat väittävät, että johtavat kuvanmuokkaus-AI:lla voidaan murtaa rasteroitua tekstiä ja visuaalista vihjeitä hyväksikäyttämällä, jolloin kielletyt muokkaukset voidaan ohittaa turvallisuussuodattimien ja onnistua jopa 80,9 prosentissa tapauksista.
Ole tietoinen, että tämä artikkeli sisältää mahdollisesti loukkaavia kuvia, jotka on luotu tutkimuspaperin kirjoittajien toimesta osoittamaan heidän uutta puolustusmenetelmäänsä.
Jotta voidaan välttää oikeudellinen altistus ja maineen vahinko, nykyiset valmiit kuvan AI-alustat toteuttavat useita sensuuritoimia estämään käyttäjiä luomasta “kiellettyjä” kuvia useissa luokissa, kuten NSFW- ja / tai herjaavia sisältöjä. Jopa vastahakoisimmat kehykset – erityisesti Grok – ovat noudattaneet linjaa suositun tai poliittisen paineen alla.
Tunnettu “kohdistus” nimellä, sekä saapuva että lähtevä data skannataan sääntörikkomusten varalta. Näin ollen, harmiton kuvan lataaminen henkilöstä kulkee kuvapohjaisen testin läpi – mutta pyytäminen generatiiviselta mallilta muuttaa sitä videoksi, joka edistyy epäturvalliseen sisältöön (ts. ‘näytä henkilö riisumassa’), se keskeytetään tekstitasolla.
Käyttäjät voivat ohittaa tämän turvallisuustoimen, käyttämällä kehotteita, jotka eivät suoraan laukaise tekstisuodattimia, mutta johtavat silti epäturvalliseen sisällön luomiseen (esim. ‘tee heidät seisomaan’, kun kuvakehotteena on henkilö, joka on upottunut vaahtoon): Tässä system>user -suodattimet puuttuvat peliin skannaamalla järjestelmän omat vastaukset, kuten kuvat, tekstin, äänen, videon jne. minkä tahansa kielletyn sisällön varalta syötteenä.
Tällä tavoin käyttäjä voi pakottaa järjestelmän luomaan epäturvallista sisältöä; mutta useimmissa tapauksissa generaattori ei päästä sisältöä takaisin käyttäjälle.
Pelkästään Semantiikkaa
Tämä viimeinen kielto tapahtuu, koska renderöity ulostulo arvioidaan multimodaalisilla järjestelmillä, kuten CLIP, jotka voivat tulkita kuvat takaisin tekstimaailmaan ja soveltaa tekstisuodatinta. Koska modernit kuvageneraattorit ovat diffuusiopohjaisia järjestelmiä, jotka on koulutettu parittaisilla kuvilla ja tekstillä, vaikka käyttäjä antaa vain kuvan, malli tulkkaa sen semanttisten edustusten kautta, jotka muotoiltiin kielen avulla koulutuksen aikana.
Tämä jaettu upotus -rakenne on vaikuttanut siihen, miten turvallisuusmekanismit on rakennettu, koska moderointikerrokset usein arvioivat kehotteita tekstinä ja muuttavat visuaaliset syötteet kuvailevaksi muotoon ennen päätöksentekoa; ja tämän arkkitehtuurin vuoksi kohdistustyö on keskittynyt pääasiassa kielen ympärille, käyttäen kuvien kuvausta palomuurina.
Kuitenkin aiemmat tutkimukset multimodaalisten genAI-järjestelmistä ovat jo osoittaneet, että ohjeet voidaan upottaa kuvien sisään typografisten ylaiden, rakenteellisten asettelujen, ristimodaalisten optimointitekniikoiden tai steganografisen koodauksen kautta:
… (jatkuu)










