Andersonin kulma

‘Suojattuja’ Kuvia on Helppo, Ei Vaikeampi, Viedä AI:n Avulla

Published June 9, 2025

Updated April 26, 2026

Martin Anderson

A shadowy man steals into an art gallery as the guard sleeps. Krita/Flux-1 Dev + Firefly

Uusi tutkimus osoittaa, että vesileimojen kaltaiset suojaukset, joiden tarkoituksena on estää AI-kuvien muokkaus, voivat olla vastoin odotuksia. Sen sijaan, että estäisivät mallit kuten Stable Diffusion muokkaamasta kuvia, jotkut suojaukset voivat help AI:ta seuraamaan muokkausohjeita tarkemmin, mikä tekee kuvien muokkauksesta helppoa.

On olemassa merkittävä ja vankka suuntaus tietokoneen näköalojen kirjallisuudessa, joka on omistettu suojattujen kuvien suojelemiseksi niiden käytön estämiseksi AI-malleissa tai niiden käytön estämiseksi suorissa kuvasta kuvaan -AI-prosesseissa. Järjestelmät tämän kaltaisia ovat yleensä suunnattu Latent Diffusion Models (LDMs) kuten Stable Diffusion ja Flux, jotka käyttävät meloittuneita menetelmiä kuvien koodaamiseen ja dekoodaamiseen.

Lisäämällä vastustuskykyistä meloa muuten normaaleille kuville, on mahdollista aiheuttaa kuvantunnistimien väärät arvaukset kuvan sisällöstä ja estää kuvien luomisjärjestelmiä hyödyntämästä tekijänoikeuksien alaisia tietoja:

MIT:n tutkimuksesta ‘Raising the Cost of Malicious AI-Powered Image Editing’, esimerkkejä lähdekuvasuojauksesta (alempi rivi). Lähde: https://arxiv.org/pdf/2302.06588

Koska taiteilijoiden reaktio Stable Diffusionin vapaaehtoista käyttöä verkkokuvia (mukaan lukien tekijänoikeuksien alaisia kuvia) vuonna 2023, tutkimuskohtaus on tuottanut useita variaatioita samasta aiheesta – ideasta, että kuvat voidaan näkymättömästi “myrkyttää” estämään niiden kouluttaminen AI-järjestelmiin tai imeminen generatiivisiin AI-putkiin, ilman, että se vaikuttaa kuvan laatuun keskivertokatselijalle.

Kaikissa tapauksissa on suora korrelaatio meloittuneiden häiriöiden voimakkuuden ja sen määrän välillä, jolla kuva on suojattu, ja sen määrän, jolla kuva ei näytä yhtä hyvältä kuin se pitäisi:

Vaikka tutkimusPDF:n laatu ei täysin ilmastuta ongelmaa, suuremmat määrät vastustuskykyistä meloa uhraavat laadun turvallisuuden vuoksi. Tässä nähdään laadun häiriöiden kirjo vuoden 2020 ‘Fawkes’ -projektissa, jota johti Chicagon yliopisto. Lähde: https://arxiv.org/pdf/2002.08327

Erityisen kiinnostavaa taiteilijoille, jotka etsivät tapoja suojella tyylinsä luvattomilta käytöiltä, on kyky tällaisille järjestelmille ei ainoastaan salata identiteettiä ja muita tietoja, vaan myös “vakuuttaa” AI-koulutusprosessi siitä, että se näkee jotain muuta kuin mitä se todella näkee, jotta yhteydet eivät muodostu semanttisen ja visuaalisen alan välillä “suojatulle” koulutusdataan (ts. ohje, kuten ‘Paul Klee -tyyliin’).

Mist ja Glaze ovat kaksi suosittua injektioon perustuvaa menetelmää, jotka voivat estää tai ainakin vaikeuttaa tekijänoikeuksien alaisten tyylien käyttöä AI-työkulkuvirroissa ja koulutusohjelmissa. Lähde: https://arxiv.org/pdf/2506.04394

Oma Maali

Nyt uusi tutkimus Yhdysvalloista on osoittanut, että ei ainoastaan meloittuneet häiriöt voivat epäonnistua kuvan suojelemisessa, vaan että meloittuneiden häiriöiden lisääminen voi itse asiassa parantaa kuvan hyödynnettävyyttä kaikissa AI-prosesseissa, joita meloittuneet häiriöt on tarkoitettu suojelemaan.

Tutkimusraportti toteaa:

‘Kokeissamme erilaisilla meloittuneiden häiriöiden kuvansuojamenetelmillä useilla alueilla (luonnonkohtauksia ja taideteoksia) ja muokkaustehtävissä (kuvasta kuvaan generointi ja tyylin muokkaus), havaitsemme, että tällainen suojaus ei saavuta täysin tätä tavoitetta.

‘Useimmissa skenaarioissa diffuusiopohjainen kuvan muokkaus suojatuista kuvista tuottaa toivottavan lopputuloksen, joka noudattaa ohjeistuksia tarkasti.

‘Havaintomme osoittavat, että meloittuneiden häiriöiden lisääminen voi paradoksaalisesti lisätä niiden yhteyden annettuihin tekstiohjeisiin generoinnin aikana, johtaen odottamattomiin seurauksiin, kuten parempiin muokkaustuloksiin.

‘Sitä paitsi, väitämme, että meloittuneiden häiriöiden menetelmät eivät tarjoa riittävää ratkaisua kuvien vahvalle suojaamiselle diffuusiopohjaisia muokkauksia vastaan.’

Kokeissa suojatut kuvat altistettiin kahteen tuttuun AI-muokkausskenaarioon: suoraan kuvasta kuvaan generointi ja tyylin siirto. Nämä prosessit heijastavat yleisiä tapoja, joilla AI-mallit voivat hyödyntää suojattua sisältöä, joko muokkaamalla suoraan kuvaa tai lainaamalla sen tyylistä piirteitä muualla.

Suojatut kuvat, jotka otettiin standardilähteistä valokuvista ja taideteoksista, ajettiin näiden putkien läpi, jotta voidaan nähdä, voivatko lisätyt meloittuneet häiriöt estää tai heikentää muokkauksia.

Sen sijaan, että suojaukset olisivat estäneet muokkauksia, niiden läsnäolo usein vaikuttikin mallin säätämiseen ohjeistuksen mukaisesti, tuottaen selkeät ja tarkat tulokset, joissa odotettiin joitain epäonnistumisia.

Menetelmä

Tutkijat suorittivat kokeet kolmella suojamenetelmällä, jotka soveltavat huolellisesti suunniteltuja vastustuskykyisiä meloittuneita häiriöitä: PhotoGuard; Mist; ja Glaze.

Glaze, yksi tutkijoiden testaamista kehyksistä. Glaze-suojauksen esimerkit kolmelle taiteilijalle. Ensimmäiset kaksi saraketta näyttävät alkuperäisiä taideteoksia. Kolmas sarake näyttää mukaelmatuloksia ilman suojaa. Neljäs sarake näyttää tyylin siirtämistä käytetyn suojauksen kanssa, sekä kohdesuojauksen nimen. Viides ja kuudes sarake näyttävät mukaelmatuloksia, joissa on sovellettu suojaa meloittuneiden häiriöiden tasolla p = 0,05 ja p = 0,1. Kaikki tulokset käyttävät Stable Diffusion -malleja. https://arxiv.org/pdf/2302.04222

Glaze, yksi tutkijoiden testaamista kehyksistä, esittää Glaze-suojauksen esimerkkejä kolmelle taiteilijalle. Ensimmäiset kaksi saraketta näyttävät alkuperäisiä taideteoksia; kolmas sarake näyttää mukaelmatuloksia ilman suojaa; neljäs sarake näyttää tyylin siirtämistä käytetyn suojauksen kanssa, sekä kohdesuojauksen nimen. Viides ja kuudes sarake näyttävät mukaelmatuloksia, joissa on sovellettu suojaa meloittuneiden häiriöiden tasolla p = 0,05 ja p = 0,1. Kaikki tulokset käyttävät Stable Diffusion -malleja. https://arxiv.org/pdf/2302.04222

PhotoGuard sovellettiin luonnonkohtauksiin, kun taas Mist ja Glaze käytettiin taideteoksissa (ts. “taiteellisissa tyyleissä”).

Vastakkaiset Ajatukset

Kaksi joukkoa muokattuja kuvatekstejä luotiin ensimmäisestä kuvatekstistä jokaiselle kuvalle Claude Sonnet 3.5:n avulla. Yksi joukko sisälsi ohjeita, jotka olivat kontekstuaalisesti lähellä alkuperäisiä kuvatekstejä; toinen joukko sisälsi ohjeita, jotka olivat kontekstuaalisesti etäällä.

Esimerkiksi alkuperäisestä kuvatekstistä ‘Nuori tyttö pinkaisessa mekossa menee puuhuvilaan’, lähiohje voisi olla ‘Nuori poika sinisessä paidassa menee tiilitaloon’. Sen sijaan etäinen ohje voisi olla ‘Kaksi kissaa lojuu sohvalla’.

Lähi-ohjeet muodostettiin korvaamalla substantiiveja ja adjektiiveja semanttisesti samankaltaisilla termeillä; kaukaiset ohjeet luotiin ohjaamalla mallia luomaan kuvatekstejä, jotka olivat kontekstuaalisesti erittäin erilaisia.

Kaikki luodut kuvatekstit tarkistettiin manuaalisesti laadun ja semanttisen merkityksen varmistamiseksi. Google:n Universal Sentence Encoder käytettiin laskemaan semanttisia samankaltaisuuspisteitä alkuperäisen ja muokatun kuvatekstin välillä:

Lisäaineistosta, muokattujen kuvatekstien semanttiset samankaltaisuuspisteet Flickr8k-kokeissa. Vasemmalla oleva kuva näyttää läheisten kuvatekstien samankaltaisuuspisteet, jotka ovat keskimäärin noin 0,6. Oikealla oleva kuva näyttää laajasti muokatut kuvatekstit, jotka ovat keskimäärin noin 0,1, mikä heijastaa suurempaa semanttista etäisyyttä alkuperäisistä kuvateksteistä. Arvot laskettiin Google:n Universal Sentence Encoderin avulla. Lähde: https://sigport.org/sites/default/files/docs/IncompleteProtection_SM_0.pdf

Kunkin kuvan, sekä sen suojatun version, muokkauksessa käytettiin sekä lähiohjeita että kaukaisia ohjeita. Kuvien laatu arvioitiin BRISQUE:n avulla:

Kuvasta kuvaan generoinnin tulokset luonnonvalokuvilla, jotka on suojattu PhotoGuardilla. Vaikka häiriöt ovat läsnä, Stable Diffusion v1.5 seuraa onnistuneesti sekä pieniä että suuria semanttisia muutoksia muokkausohjeissa, tuottaen realistisia tuloksia, jotka vastaavat uusia ohjeita.

Generoidut kuvat saivat 17,88 pistettä BRISQUE:sta, 17,82 lähi-ohjeilla ja 17,94 kaukaisilla ohjeilla, kun taas alkuperäiset kuvat saivat 22,27 pistettä. Tämä osoittaa, että muokatut kuvat säilyttivät laadun lähellä alkuperäisiä.

Mittarit

Arvioidakseen, miten hyvin suojaukset estivät AI-muokkauksia, tutkijat mitättiin, miten läheisesti lopulliset kuvat vastasivat ohjeita, joita niille annettiin, käyttäen vertailujärjestelmiä, jotka vertaavat kuvan sisältöä tekstiohjeeseen, jotta voidaan nähdä, miten hyvin ne ovat linjassa.

Tähän tarkoitukseen CLIP-S -mittari käyttää mallia, joka ymmärtää sekä kuvia että tekstiä, jotta voidaan tarkastella, miten samanlaisia ne ovat, kun taas PAC-S++ lisää lisää näytteitä, jotka on luotu AI:lla, jotta vertailu olisi lähempänä ihmisen arviointia.

Nämä kuvan ja tekstin linjausarvot (ITA) osoittavat, miten tarkasti AI seurasi ohjeita muokatessaan suojattua kuvaa: jos suojattu kuva johti silti hyvin linjattuun lopputulokseen, se tarkoitti, että suojaus epäonnistui estämään muokkauksen.

Suojauksen vaikutus Flickr8k-aineistoon viidellä siemenellä, sekä lähellä että kaukaa olevilla ohjeilla. Kuvan ja tekstin linjaus mitattiin CLIP-S- ja PAC-S++-arvoilla.

Tutkijat vertailivat, miten hyvin AI seurasi ohjeita muokatessaan suojattuja kuvia verrattuna suojaamattomiin kuviin. He ensin tarkastelivat eroa näiden kahden välillä, jota kutsutaan Todelliseksi Muutokseksi. Sitten eroa mitattiin prosentteina, jotta tulokset olisi helppo verrata eri kokeiden välillä.

Tämä prosessi paljasti, tekivätkö suojaukset AI:lle helpommaksi tai vaikeammaksi seurata ohjeita. Kokeet toistettiin viisi kertaa eri satunnaisilla siemenillä, jotka kattoivat sekä pienet että suuret muutokset alkuperäisiin kuvateksteihin.

Taidehyökkäys

Luonnonvalokuvien kokeissa käytettiin Flickr1024-aineistoa, joka sisältää yli tuhat korkealaatuista kuvaa. Kuvat muokattiin ohjeilla, jotka seurasivat kaavaa: ‘Muuta tyyliä [V]:lle’, jossa [V] edusti yhtä seitsemästä kuuluisasta taidesuunnasta: Kubismi; Postimpressionismi; Impressionismi; Surrealismi; Barokki; Fauvismi; ja Renessanssi.

Prosessi käsitti PhotoGuardin soveltamisen alkuperäisiin kuviiin, suojattujen versioiden luomisen ja sitten sekä suojattujen että suojaamattomien kuvien ajamisen samojen tyylin siirtämismuokkausten läpi:

Alkuperäinen ja suojattu versio luonnonvalokuvasta, joissa molemmissa on sovellettu kubismi-, surrealismi- ja fauvismi-tyylit.

Tutkijat testasivat suojamenetelmiä taideteoksilla WikiArt-aineistosta, joka kokoaa laajan valikoiman taidesuuntauksia. Muokkausohjeet seurasivat samaa kaavaa kuin aiemmin, ohjaten AI:ta muuttamaan tyyliä satunnaisesti valittuun, erilaiseen tyyliin WikiArt-merkinnöistä.

Molemmat Glaze- ja Mist-suojamenetelmät sovellettiin kuviiin ennen muokkauksia, jotta tutkijat voivat havainnoida, miten hyvin kumpikaan puolustuskeino esti tai vääristi tyylin siirtämisen tuloksia:

Esimerkkejä siitä, miten suojamenetelmät vaikuttavat tyylin siirtoon taideteoksissa. Alkuperäinen barokkityylinen kuva on esitetty rinnakkain Mist- ja Glaze-suojattujen versioiden kanssa. Kubismityylin siirron soveltamisen jälkeen voidaan havainnoida, miten kunkin suojauksen lopputulos poikkeaa toisistaan.

Tutkijat vertailivat kvantitatiivisesti:

Muutokset kuvan ja tekstin linjausarvoissa tyylin siirron jälkeen.

Tutkimuksen tuloksista tutkijat toteavat:

‘Tulokset korostavat vastustuskykyisten häiriöiden merkittävää rajoitusta kuvien suojaamisessa. Sen sijaan, että estäisivät linjauksen, vastustuskykyiset häiriöt usein parantavat generatiivisen mallin vastetta ohjeisiin, jolloin hyödyntäjät voivat tuottaa tuloksia, jotka ovat lähempänä heidän tavoitteitaan. Tällainen suojaus ei ole haitallista kuvan muokkausprosessille eikä välttämättä pysty estämään luvattoman aineiston kopioimista.

‘Vastustuskykyisten häiriöiden odottamattomat seuraukset paljastavat olemassa olevien menetelmien heikkoudet ja korostavat tarvetta tehokkaampiin suojausmenetelmiin.’

Tutkijat selittävät, että odottamattomat tulokset johtuvat siitä, miten diffuusiomallit toimivat: LDM:t muokkaavat kuvia muuttamalla ne ensin tiivistetyksi versioksi, jota kutsutaan latenteiksi; sitten meloa lisätään tähän latenteihin monien askelten kautta, kunnes datasta tulee melkein satunnainen.

Malli kääntää tämän prosessin generoinnin aikana, poistaen melon askel kerrallaan. Jokaisessa vaiheessa tekstiohje auttaa ohjaamaan, miten meloa tulisi puhdistaa, jolloin kuva muotoillaan hitaasti ohjeen mukaiseksi:

Vertailu suojatun ja suojaamattoman kuvan generoimisesta, jossa välimuodot on muunnettu takaisin kuvaiksi visualisointia varten.

Suojamenetelmät lisäävät pieniä määriä ylimääräistä meloa alkuperäiseen kuvaan ennen kuin se sisällytetään tähän prosessiin. Vaikka nämä häiriöt ovat aluksi vähäisiä, ne kertyvät, kun malli soveltaa omia meloittuneita kerroksiaan.

Tämä kertyminen jättää enemmän kuvan osia “epävarmoiksi”, kun malli aloittaa melon poistamisen. Suuremman epävarmuuden vuoksi malli turvautuu enemmän tekstiohjeeseen täyttämään puuttuvat yksityiskohdat, antaen ohjeelle entistä suuremman vaikutuksen.

Käytännössä suojaukset tekevät siitä helpomman AI:lle muokata kuvaa ohjeen mukaiseksi, sen sijaan, että se olisi vaikeampi.
Lopulta tutkijat suorittivat kokeen, jossa he korvasivat suunnitellut häiriöt Raising the Cost of Malicious AI-Powered Image Editing -tutkimuksen paperista puhtaalla Gaussian-melolla.

Tulokset seurasivat samaa kaavaa kuin aiemmin: kaikissa kokeissa prosenttiosuusarvot pysyivät positiivisina. Jopa tämä satunnainen, rakenteeton melo johti vahvempaan linjaukseen generoiden kuvien ja ohjeiden välillä.

Simuloitu suojauksen vaikutus Flickr8k-aineistoon Gaussian-melon avulla.

Tämä tuki perustavaa selitystä, että lisätty melo, riippumatta sen suunnittelusta, luo suuremman epävarmuuden mallille generoinnin aikana, antaen tekstiohjeelle entistä enemmän valtaa lopullisen kuvan muokkaamisessa.

Johtopäätös

Tutkimuskohtaus on pyrkinyt vastustuskykyiseen häiriöön LDM-tekijänoikeusongelmaan melkein yhtä kauan kuin LDM:t ovat olleet olemassa; mutta mikään kestävä ratkaisu ei ole tullut esiin poikkeuksellisen suuresta määrästä julkaistuja tutkimuksia.

Joko aiheutetut häiriöt alentavat liikaa kuvan laatua, tai kuviot eivät ole kestäviä muokkaamis- ja muodonmuutosprosesseille.

Kuitenkin on haasteellista hylätä tämä unelma, koska vaihtoehtona näyttävät olevan kolmannen osapuolen valvontaa ja provenienssikehyksiä, kuten Adoben johtama C2PA-ohjelma, joka pyrkii ylläpitämään valokuvien ketjuun kuuluvuutta kameran anturista lähtien, mutta jolla ei ole sisäistä yhteyttä kuvaamiseen.

Millä tahansa tapauksella, jos vastustuskykyinen häiriö aiheuttaa todella ongelman, kuten uusi tutkimus osoittaa, voidaan kysyä, onko tekijänoikeuksien suojaamiseen tämänkaltaisten menetelmien etsintä “alkemiaa”.

Julkaistu ensimmäisen kerran maanantaina 9. kesäkuuta 2025