Andersonin kulma

AI-mallin varastelun tunnistaminen salattujen seurantatietojen avulla

Published October 27, 2025

Updated April 1, 2026

Martin Anderson

George Washington winking and smiling on the one dollar bill. Source: https://en.wikipedia.org/wiki/Marked_bill + Flux Edit and Adobe Firefly V3

Uusi menetelmä voi salaa merkitä ChatGPT-tyyppisiä malleja muutamassa sekunnissa ilman uudelleen koulutusta, jättämättä jälkeä yleiseen tulokseen ja selviytymällä kaikista mahdollisista poistoyrityksistä.

Erityinen ero vedenmerkinnän ja “tekijänoikeus-houkuttelemisen” välillä on, että vedenmerkit – olivatpa ne ilmeisiä tai piilotettuja – on yleensä tarkoitettu ilmestyväksi kokoelman läpi (kuten kuvadatassa) yleisenä esteenä epävirallista kopiointia vastaan.

Toisaalta, keksitty merkintä on pieni tekstinpätkä, yleensä sana tai määritelmä, joka on sisällytetty suureen ja suhteellisen geneeriseen kokoelmaan, jonka tarkoituksena on osoittaa varastelua. Ideana on, että kun koko teos on laittomasti kopioidu, joko itsessään tai johdannaisena, ydin ja väärä tosiasia, joka on istutettu alkuperäisen omistajan toimesta, paljastaa helposti varastelun.

Suhteessa vedenmerkkien lisäämiseen Large Language Malleihin (LLM) ja Vision Language Malleihin (VLM), ulostulon on tarkoitus sisältää nämä paljastavat merkit, on usein jaettu näiden kahden tavoitteen välillä: varmistaa, että kaikki tai useimmat ulostulot sisältävät ilmeisen tai latentin vedenmerkin; tai varmistaa, että “salainen token” voidaan palauttaa, joka osoittaa varastelun – mutta joka ei ilmesty säännöllisessä ulostulossa mallista.

Todistusvoiman paino

Jälkimmäinen lähestymistapa on käsitelty mielenkiintoisessa uudessa yhteistyössä Kiinan, Italian ja Singaporen välillä; työ, jonka tavoitteena on tarjota tällainen paljastusmenetelmä avoinaisiin malleihin, jotta ne eivät voi helposti kaupallistaa tai käyttää muilla tavoilla, jotka alkuperäinen lisenssi ei salli.

Esimerkiksi mallin alkuperäinen lisenssi voi vaatia, että kuka tahansa voi hyötyä työstä, kunhan he tekevät omat muutoksensa tai muutokset julkisesti saatavilla samojen suhteellisen anteliaiden lisenssiehtojen mukaisesti – mutta yritys voi haluta rajoittaa “omia muutoksiaan” (kuten hienosäätöversioita), luodakseen “suojan”, jota ei todellisuudessa sallita.

Suurin osa tutkimuksesta tässä suhteessa on keskittynyt havaitsemisruutuihin, jotka liittyvät suljettuihin, API-vain malleihin tai malleihin, joista on saatavilla vain optimoitu (kvantisoitu) painot ja jotka ovat siten vaikeampia muokata ja muuttaa uudelleen kuten uusi tutkimus ehdottaa (koska siihen ei ole suoraa pääsyä itse mallin arkkitehtuuriin).

Tämä huomio avoimien lähdekoodien julkaisuihin on, luultavasti, odottamaton Kiinan tutkimussektorilta, koska Kiinan AI-tuotanto on viime vuoden ajan ollut tunnusomaisesti antelias ja täysipainoinen julkaisu malleja, jotka vastaavat vähintään “lukittuja” länsimaisia vastineita.

Uusi lähestymistapa, joka on nimeltään EditMark, erottuu siitä, että se ei vaadi, että malli olisi hienosäätöä vedenmerkin lisäämiseksi, eikä koulutettu alusta alkaen sisältäen tietoja.

Tästä on useita etuja: yksi on, että kaikki “paljastavat” tiedot, jotka sisällytetään koulutusaineistoon, kun ne kerran havaitaan ja paljastetaan, eivät enää ole tehokkaita, koska ne voidaan suoraan kohdistaa hyökkääjille; mutta hyökkääjän on tiedettävä, mihin kerrokseen mallia on kohdistettava ja mikä lähestymistapa on otettu. Tämä on epätodennäköinen skenaario.

Toiseksi, lähestymistapa on nopea ja halpa, vaaditen vain muutaman sekunnin (ei päiviä tai jopa viikkoja) soveltamiseen koulutettuun malliin, jolloin se poistaa hienosäätöön liittyvät suuret kustannukset (jotka kasvavat suoraan mallin koosta ja sovellettavasta aineistosta).

Lopulta, lähestymistapa aiheuttaa selvästi vähemmän vahinkoa mallin normaaleille toiminnalle kuin hienosäätö tai aiemmat edit-menetelmät.

Kokeissa EditMark – joka upottaa matemaattisia kysymyksiä useilla mahdollisilla vastauksilla mallin painoihin – saavutti 100 %:n palautusnopeuden.

Tekijät toteavat:

‘Kattavat kokeet osoittavat EditMarkin poikkeuksellisen suorituskyvyn vedenmerkintämenetelmässä LLM-malleissa. EditMark saavuttaa merkittävän tehokkuuden upottamalla 32-bittisen vedenmerkin alle 20 sekunnissa 100 %:n vedenmerkin palautusnopeudella (ESR).

‘Huomattavasti, vedenmerkin upottamiseen kuluva aika on alle 1/300 hienosäätöä (keskimäärin 6 875 sekuntia), mikä korostaa EditMarkin tehokkuutta toteuttaa suurikapasiteettisia vedenmerkkejä ennennäkemättömällä nopeudella ja luotettavuudella.

‘Lisäksi laajat kokeet vahvistavat EditMarkin luotettavuuden, salakavaluuden ja uskollisuuden.’

Uusi tutkimus on nimeltään EditMark: Vedenmerkintä Large Language Malleissa perustuen mallin editointiin, ja se tulee kahdeksalta tekijältä Kiinan tiede- ja teknologia-yliopistosta, Sienan yliopistosta ja CFAR/IHPC/A\*STAR:sta Singaporesta.

Menetelmä

EditMark-lähestymistapa koostuu neljästä osasta: Generaattori, Kooderi, Editori ja Decodi:

EditMark-pipeline upottaa vedenmerkin editoimalla mallia vastaamaan tiettyjä matemaattisia kysymyksiä, jotka koodaavat piilotetun tunnistetiedon. Lähde: https://arxiv.org/pdf/2510.16367

Generaattori käyttää pseudorandom siemen rakentamaan useita vastauksia sisältäviä matemaattisia kysymyksiä; Kooderi valitsee vastaukset vedenmerkin perusteella, jotka upotetaan malliin erityisellä editointiprosessilla. Kun editoitu malli on julkaistu tai väärinkäytetty, vedenmerkki voidaan palauttaa kysymällä samoja kysymyksiä ja dekoodaamalla vastausten kuviota.

Myöhemmin Editori muuttaa mallin painoja, jotta se tuottaa luotettavasti kohdennetut vastaukset, upottaen vedenmerkin suoraan sen käyttäytymiseen. Decodi palauttaa vedenmerkin syöttämällä samat kysymykset epäiltyyn malliin ja kääntämällä vastaukset takaisin piilotettuun allekirjoitukseen.

Uhkamalli

Tutkimuksen uhkamalli olettaa, että vedenmerkintä tehdään valkoisen laatikon asetelma. Vaikka tämä ei yleensä ole hyvä merkki turvallisuuteen liittyvässä tutkimuksessa, tässä se on normaalia, koska menetelmä pyrkii suojelemaan omistajia, jotka ovat päässeet omiin töihinsä.

Hyökkääjä oletetaan myös olevan valkoisen laatikon pääsy malliin saatuaan, mikä tarkoittaa, että he voivat muuttaa sitä (esim. rajaa tai hienosäätöä). Tämä skenaario on normaali ja odotettavissa tapauksessa FOSS-julkaisussa. Hyökkääjä ei kuitenkaan ole tietoinen vedenmerkin palautusprosessista tai käytetystä skeemasta, ja he voivat löytää tämän menetelmän vain johtamalla ja kokeilemalla (tai vuotamalla).

Generaattori rakentaa loogisesti ja faktuaalisesti päteviä matemaattisia kysymyksiä useilla oikeilla vastauksilla, käyttäen GPT-4o:ta diversifioimaan temppuja (kuten alla osoitetaan), ja pseudorandom siemen varmistamaan, että jokainen kysymys on yksilöllinen. Tämä mahdollistaa tunnetun vedenmerkin upottamisen deterministisesti vastauspermutaatioita hyödyntämällä, minimoiden samalla kysymysten välisen päällekkäisyyden, jotta voidaan välttää edit entanglement:

GPT-4o:lla generoituja kysymysten malleja vedenmerkin upottamiseen, joissa jokainen on rakennettu useiden kelvollisten kokonaislukuvastauksien tuottamiseksi siemenepätymisyydestä.

Kooderi muuttaa jokaisen binäärivedenmerkin osan yksilölliseksi permutaatioksi, joka on poimittu ratkaisujoukon tietystä matemaattisesta kysymyksestä. Käyttäen lexikograafista permutaatioteoriaa, Kooderi kääntää jokaisen vedenmerkin osan desimaalisen arvon tietyksi järjestetyksi valiksi vastauksia, varmistamalla, että vedenmerkki on deterministisesti upotettu mallin käyttäytymiseen.

Editorin osalta alkuperäinen AlphaEdit -mallin editointimenetelmä, jota käytetään vedenmerkintään, puuttuu sekä tarkkuutta että kestävyyttä, ja muutokset, joita se tekee, ovat usein hajoittuvia ja helppoja rikkoa.

Tämän ylittämiseksi tekijät ovat kehittäneet monivaiheisen editointistrategian, joka muuttaa mallin painoja yhdessä MLP-kerroksessa kunnes sen vastaukset ovat riittävän hyvin kohdennettuja haluttuihin vastauksiin, upottaen vedenmerkin suoraan sen käyttäytymiseen. Decodi palauttaa vedenmerkin syöttämällä samat kysymykset epäiltyyn malliin ja kääntämällä vastaukset takaisin piilotettuun allekirjoitukseen.

Tiedot ja kokeet

Toteuttaakseen EditMarkin, viisi LLM:ää arvioitiin: GPT2-X; GPT-J-6B; LLaMA-3-8B; Baichuan-7B; ja Qwen-7B. Mainittu AlphaEdit käytettiin vedenmerkin upottamiseen, kun taas vedenmerkin palautusnopeus (ESR) ja upottamiseen kulunut aika (ET) olivat mittareina, joita käytettiin.

Vertailukohtina tekijät valitsivat Model Watermark (backdoor); KIMark; ja BadEdit, jota alun perin suunniteltiin backdoorin upottamiseen, mutta jota sovellettiin tämän projektin omiin tarkoituksiin.

Tekijät editoivat LLaMA-3-8: n 15. kerrosta; GPT2-XL: n ja GPT-J-6B: n 17. kerrosta; ja Qwen-7B: n ja Baichuan-7B: n 14. kerrosta.

Kokeet suoritettiin neljällä NVIDIA RTX 4090 -näytönohjaimella (24 Gt VRAM kussakin), ja vedenmerkkejä upotettiin 32-bittisen, 64-bittisen ja 128-bittisen pituuksilla. Kysymysten mallit, joita käytettiin, on yksityiskohtaisesti kuvattu alla olevassa kuvassa:

Vedenmerkin upottamiseen käytetyt monivastaukselliset kysymysten mallit. Jokainen kysymys perustuu erilaiseen matemaattiseen epätarkkuuteen, johon on lisätty satunnaisia arvoja muuttujille. Mallia pyydetään antamaan luettelo kokonaislukuratkaisuista, ja vastausten järjestystä käytetään vedenmerkin bittien koodaamiseen tai dekoodaamiseen. Neljä mallia kattavat kvadratiset, logaritmiset, rationaaliset ja väliaikaiset muodot, ja kaikki generoitiin GPT-4o: n avulla.

Jotta voitaisiin vähentää satunnaisuuden vaikutusta, siemeniä 1-20 käytettiin testaamisessa, eri vedenmerkin kapasiteeteilla.

Aluksi tutkijat testasivat sekä ESR:ää että upottamiseen kuluvaa aikaa vedenmerkin upottamiseksi eri LLM-malleihin:

EditMarkin vertailu kolmeen aiempaan vedenmerkintämenetelmään viidellä suurella kielen mallilla. Ilmoitetaan vedenmerkin palautusnopeus (ESR) ja upottamiseen kulunut aika (ET) sekunneissa. EditMark saavuttaa jatkuvasti 100 %:n palautusnopeuden ja vähentää upottamiseen kuluvaa aikaa useilla kertaluokilla, jolloin se ylittää kaikki vertailukohteet sekä tarkkuudessa että tehokkuudessa eri kokoisten ja arkkitehtuurien malleissa.

Tästä tuloksesta tekijät toteavat:

‘[EditMark] saavuttaa 100 %:n ESR:n ja vaatii alle 20 sekuntia 32-bittisen vedenmerkin upottamiseen kaikille arvioituille LLM-malleille. Erityisesti Baichuan-7B: n ja Qwen-7B: n keskimääräinen upottamiseen kulunut aika on alle 10 sekuntia, mikä osoittaa EditMarkin korkean tehokkuuden.’

128-bittisen vedenmerkin arvioinnissa, joka on korkein mahdollinen arvo tällaisessa järjestelmässä, EditMark pystyi ylläpitämään “tuhoamattomuuden” aseman:

Vedenmerkin palautusnopeudet ja upottamiseen kuluvat ajat EditMarkilla eri vedenmerkin pituuksilla (32, 64 ja 128 bittiä) viidellä kielen mallilla. Täydelliset palautusnopeudet säilytetään kaikissa tapauksissa, kun taas upottamiseen kuluvan ajan kasvaa vedenmerkin koossa, mutta se pysyy alle minuutin, jopa 128 bittin kohdalla.

Seuraavaksi järjestelmän vedenmerkin uskollisuuden säilyttämisen kykyä testattiin useilla eri mittareilla:

Vedenmerkin uskollisuuden arviointi neljällä mittarilla viidellä mallilla, joissa vertailtiin muuttamattomia malleja malleihin, joissa oli upotettu 32-bittinen ja 128-bittinen vedenmerkki. Suorituskyky säilyi vakaana kaikissa konfiguraatioissa, ja keskimääräiset pisteet vaihtelivat vain vähän, osoittaen, että vedenmerkin upottaminen vaikuttaa vain vähän mittarin tarkkuuteen.

EditMarkin kestävyyttä testattiin kuutta yleistä hyökkäysstrategiaa vastaan. Malleihin upotettiin 128-bittiset vedenmerkit käyttäen viittä eri siemeniä. Hienosäätö aiheutti vain vähäistä heikentymistä vedenmerkin palautusnopeudessa (ESR) useimmille malleille:

Vedenmerkin palautusnopeus (ESR) vedenmerkitettyjä LLM-malleja ennen ja jälkeen hienosäätöä yhdestä kolmeen epochiin. Vaikka useimmat mallit säilyttävät korkean ESR:n koko ajan, Qwen-7B näyttää selvän laskun, osoittaen suuremman haavoittuvuuden parametrin päivityksille.

Jopa useiden epochien jälkeen useimmat mallit säilyttivät yli 90 %:n ESR:n, osoittaen, että EditMark kestää LoRA-pohjaisen koulutuksen aiheuttaman parametrin siirtymän.

Kvantisaatiohyökkäykset alensivat mallin tarkkuutta, mutta jättivät useimmat vedenmerkit koskemattomiksi:

Vedenmerkin palautusnopeus (ESR) vedenmerkitettyjä malleja ennen ja jälkeen kvantisaatiota Int-8- ja Int-4-tarkkuudella. ESR säilyi muuttumattomana Int-8-kvantisaatiolla kaikissa malleissa, kun taas Int-4-kvantisaatio aiheutti osittaisen heikentymisen, osoittaen, että alempi tarkkuus voi heikentää, mutta ei täysin poistaa vedenmerkkiä.

Kuten yllä olevasta kuvasta voidaan nähdä, Int-8-kvantisaatio säilytti 100 %:n ESR:n kaikissa malleissa, kun taas Int-4-kvantisaatio aiheutti kohtuullisen vaikutuksen ESR:ään, mutta aiheutti hyväksymättömiä suorituskyvyn menetyksiä.

Kuten tutkimus toteaa, tämä skenaario osoittaa hyökkääjälle rajatun potentiaalin, koska se johtaa hakkeroituun, mutta suorituskyvyltään heikentyneeseen malliin.

Melu- ja rajaushyökkäykset arvioitiin neljällä benchmark-kehyksellä: MMLU; BLIMP; TruthfulQA; ja GLUE. Nämä hyökkäykset johtivat ESR:n laskuun, kun häiriöt voimistuivat:

Melu- (ylärivi) ja rajaushyökkäyksen (alarivi) vaikutus ESR:ään ja vedenmerkitettyjen mallien benchmark-suorituskykyyn. Kun ESR laskee häiriöiden voimistuessa, benchmark-tarkkuus heikkenee, erityisesti suuremmilla meluilla ja rajausosuksilla, korostaen (tavallisen) jännityksen vedenmerkin poistamisen ja mallin hyödyllisyyden välillä.

Kuitenkin nämä aiheuttivat myös teräviä laskuja tehtävän suorituskyvyssä, ja Baichuan-7B sai 27-31 %:n laskun BLIMP:issä, kun melua tai rajauskohderyhmää sovellettiin.

Mallin editointi ja sopeutuvat hyökkäykset arvioitiin myös:

Vedenmerkitettyjen mallien vedenmerkin palautusnopeus, joita on altistettu eri määrille mallin editointeja tunnetuille vedenmerkikerroksille. Vaikka jopa 50 editointiä sovellettiin vedenmerkittyihin kerroksiin, ESR säilyi yli 95 %:ssa kaikissa malleissa, osoittaen, että suorat parametrin muutokset vaikuttavat vain vähän vedenmerkin poistamiseen.

Tässä EditMark säilytti yli 95 %:n ESR:n, jopa kun tarkka vedenmerkin upottamiskerrosta kohdennettiin.

Johtopäätös

DRM, salaiset vedenmerkit ja muut turvallisuuslähestymistavat, jotka ovat nauttineet (rajoitettua tai osittaista) menestystä ennen AI-aikakautta, ovat vaikeita sovellettavissa koneoppimisjärjestelmiin; tietoisesti vähentävä luonne nykyisistä isäntäarkkitehtuureista yhdistyy puutteeseen sopivaan työkaluun, mikä tekee kaikki upotetut vedenmerkit melko hauraita.

On vaikuttavaa nähdä järjestelmä, joka on suunniteltu avoimien lähdekoodien jakeluun, ja nähdä se kestävän kaikkia skenaarioita paitsi epätodennäköisimpiä, joissa hyökkääjällä on etukäteen tietoa. Kuitenkin vedenmerkin upottamisesta johtuva pieni suorituskyvyn lasku, vaikka se on pieni näissä kokeissa, voi antaa potentiaalisille käyttäjille syyn odottaa; ei vähiten, koska perustaminen API-keskeiseen hallintamalliin poistaa tämänkaltaiset hyökkäykset lähes kokonaan.

* Tämä sivusto on väittänyt, että Kiinan “avoin paino” -julkaisut eivät välttämättä laatuudu täysin vapaaksi ja avoimeksi lähdekoodiksi, koska dataa usein pidätetään, mikä estää täsmällisen koulutusputken rekonstruoimisen. Väittäen, että tämä aihe kutsumassa syvemmän tarkastelun AI-mallien julkaisujen politiikkaan verrattaen länttä ja itää, mikä on tämän artikkelin ulottumattomissa.

Julkaistu ensimmäisen kerran maanantaina 27. lokakuuta 2025