Angolo di Anderson

Identificazione del furto di modelli di intelligenza artificiale attraverso dati di tracciamento segreti

mm
George Washington winking and smiling on the one dollar bill. Source: https://en.wikipedia.org/wiki/Marked_bill + Flux Edit and Adobe Firefly V3

Un nuovo metodo può segretamente marchiare modelli simili a ChatGPT in pochi secondi senza ritrattare, senza lasciare tracce nell’output generale e sopravvivendo a tutti i tentativi di rimozione possibili.

 

La differenza sottile tra il marchio d’acqua e il ‘copyright-baiting’ è che i marchi d’acqua – sia overt che nascosti – sono solitamente destinati ad apparire in tutto un insieme (come un set di dati di immagini) come un ostacolo ubiquo alla copia casuale.

Al contrario, un elemento fittizio è un piccolo segmento di testo, solitamente una parola o una definizione presentata in un insieme ampio e relativamente generico, progettato per dimostrare il furto. L’idea è che quando l’intero lavoro viene copiato illegittimamente, o in sé o come base per un lavoro derivato, la presenza di un ‘fatto unico’ e spurio, piantato dagli originali proprietari, rivelerà facilmente l’atto di furto.

In termini di aggiunta di marchi d’acqua ai modelli di linguaggio grande (LLM) e ai modelli di linguaggio visione (VLM), l’estensione a cui l’output è destinato a contenere questi segni rivelatori è spesso divisa tra questi due obiettivi: assicurare che tutto o la maggior parte dell’output contenga un marchio d’acqua manifesto o latente; o assicurare che un ‘token segreto’ possa essere recuperato che dimostra il furto – ma che non appare nell’output regolare del modello.

Il peso (i pesi) delle prove

L’ultimo approccio è affrontato in una collaborazione interessante tra Cina, Italia e Singapore; un lavoro che mira a fornire un tale metodo di divulgazione ai modelli open source, in modo che non possano essere facilmente commercializzati o utilizzati in modi che la licenza originale non consente.

Ad esempio, la licenza originale di un modello potrebbe insistere sul fatto che chiunque possa trarre profitto dal lavoro a condizione che facciano le proprie modifiche o aggiunte pubblicamente disponibili con gli stessi termini di licenza generosi – ma un’azienda potrebbe desiderare di mantenere le proprie ‘modifiche’ (come versioni fine-tune), per generare un muro dove non è realmente consentito.

La maggior parte della ricerca in questo settore è occupata da routine di rilevamento relative a modelli chiusi, API-only o modelli per i quali sono disponibili solo pesi ottimizzati (quantizzati) e che sono quindi più difficili da modificare e alterare nel modo proposto dal nuovo articolo (poiché non c’è accesso diretto all’architettura del modello stesso).

Questa attenzione alle versioni FOSS è, forse, sorprendente per il settore di ricerca cinese, poiché l’output di intelligenza artificiale della Cina è stato contrassegnato, nell’ultimo anno, da rilasci completi e generosi di modelli che almeno eguagliano i più ‘bloccati’ equivalenti occidentali.

Il nuovo approccio, intitolato EditMark, si distingue per non richiedere che il modello sia fine-tune per aggiungere i dati ‘avvelenati’, né addestrato fin dall’inizio con i dati inclusi.

Ciò ha diversi vantaggi: uno è che eventuali dati ‘rivelatori’ inclusi nel set di dati di addestramento, una volta scoperti e divulgati, non saranno più efficaci, poiché possono essere direttamente mirati dagli attaccanti; ma per attaccare EditMark, un malintenzionato dovrebbe sapere quale strato del modello mirare e quale approccio è stato utilizzato. Questo è uno scenario improbabile.

In secondo luogo, l’approccio è rapido e economico, richiedendo solo pochi secondi (e non giorni o settimane) per applicarsi a un modello addestrato, eliminando la spesa grave del fine-tuning (che aumenta linearmente con le dimensioni del modello e dei dati da applicare).

Infine, l’approccio fa significativamente meno danni al funzionamento normale del modello bersaglio rispetto al fine-tuning o ai metodi di modifica precedenti.

Nelle prove, EditMark – che incorpora query matematiche con più risposte possibili nei pesi del modello – ha raggiunto un tasso di estrazione del 100%.

Gli autori affermano:

‘Esperienze complete dimostrano le prestazioni eccezionali di EditMark nel marchio d’acqua dei modelli LLM. EditMark raggiunge un’efficienza notevole incorporando un marchio d’acqua a 32 bit in meno di 20 secondi con un tasso di estrazione del marchio d’acqua del 100% (ESR).

‘In particolare, il tempo di incorporazione del marchio d’acqua è inferiore a 1/300 del fine-tuning (in media 6.875 secondi), il che evidenzia l’efficacia di EditMark nell’implementare marchi d’acqua ad alta capacità con una velocità e affidabilità senza precedenti.

‘Inoltre, esperimenti estensivi convalidano la robustezza, la segretezza e la fedeltà di EditMark.’

Il nuovo articolo è intitolato EditMark: Watermarking Large Language Models basato sulla modifica del modello, e proviene da otto autori tra l’Università di Scienza e Tecnologia della Cina, l’Università di Siena e CFAR/IHPC/A*STAR a Singapore.

Metodo

L’approccio EditMark comprende quattro componenti: un Generatore, un Codificatore, un Modificatore e un Decodificatore:

La pipeline EditMark incorpora un marchio d'acqua modificando un modello per rispondere a specifiche domande matematiche in un modo che codifica informazioni identificative nascoste. Fonte: https://arxiv.org/pdf/2510.16367

La pipeline EditMark incorpora un marchio d’acqua modificando un modello per rispondere a specifiche domande matematiche in un modo che codifica informazioni identificative nascoste. Fonte: https://arxiv.org/pdf/2510.16367

Il Generatore utilizza un seme pseudo-casuale per costruire domande matematiche con più risposte; il Codificatore seleziona le risposte in base al marchio d’acqua, che vengono quindi incorporate nel modello attraverso un processo di modifica specializzato. Una volta che il modello modificato viene rilasciato o utilizzato in modo improprio, il marchio d’acqua può essere estratto chiedendo le stesse domande e decodificando il modello di risposte.

Successivamente, il Modificatore modifica i pesi del modello in modo che, quando viene chiesto queste domande con semi, il modello produca in modo affidabile le risposte target, incorporando il marchio d’acqua direttamente nel suo comportamento. Il Decodificatore recupera quindi il marchio d’acqua alimentando le stesse domande al modello sospetto e traducendo le sue risposte nel segno nascosto.

Modello di minaccia

Il modello di minaccia dell’articolo presume che il marchio d’acqua venga eseguito in un ambiente white-box. Sebbene ciò non sia solitamente un buon segno nella ricerca sulla sicurezza, qui questo è normale, poiché il metodo mira a proteggere i proprietari che hanno accesso completo al proprio lavoro.

L’attaccante è anche supposto avere accesso white-box dopo aver ottenuto il modello, il che significa che può modificarlo (ad esempio, attraverso la potatura o il fine-tuning). Ancora una volta, questo scenario è normale e previsto nel caso di un rilascio FOSS. Tuttavia, l’attaccante non ha accesso al processo di estrazione del marchio d’acqua o allo schema utilizzato e può scoprire questo metodo solo attraverso inferenza e sperimentazione (o perdite).

Il Generatore costruisce domande matematiche logicamente e fattualmente valide con più risposte corrette, utilizzando GPT-4o per diversificare i modelli (come illustrato di seguito), e un seme pseudo-casuale per garantire che ogni domanda sia unica. Ciò consente a un marchio d’acqua noto di essere incorporato deterministicamente attraverso permutazioni di risposte, mentre si minimizza l’overlap tra le domande, per evitare l’entanglement delle modifiche:

Modelli di domande generate da GPT-4o per l'incorporazione del marchio d'acqua, ciascuna strutturata per produrre più risposte intere valide da un'inuguaglianza seminata.

Modelli di domande generate da GPT-4o per l’incorporazione del marchio d’acqua, ciascuna strutturata per produrre più risposte intere valide da un’inuguaglianza seminata.

Il Codificatore trasforma ogni segmento del marchio d’acqua binario in una permutazione unica di interi tratti dall’insieme di soluzioni di una data domanda matematica. Utilizzando la teoria delle permutazioni lessicografiche, il Codificatore mappa il valore decimale di ogni segmento del marchio d’acqua in una selezione ordinata specifica di risposte, garantendo che il marchio d’acqua sia incorporato deterministicamente nel comportamento del modello.

Per quanto riguarda il Modificatore, il metodo di modifica del modello originale AlphaEdit utilizzato per il marchio d’acqua manca di precisione e resistenza, con il modello modificato che spesso non restituisce le risposte richieste. Eventuali modifiche che fa sono facilmente rotte dalla potatura o dal rumore.

Per superare ciò, gli autori hanno ideato una strategia di modifica multi-turno che regola gradualmente i pesi del modello in un singolo strato MLP fino a quando le sue risposte non sono allineate con le risposte target. Per indurire le modifiche contro gli attacchi, iniettano anche rumore gaussiano durante l’addestramento, per simulare attacchi:

Distribuzione dei cambiamenti in K1 per Baichuan-7B, Qwen-7B e LLaMA3-8B prima e dopo gli attacchi. La riga superiore mostra l'effetto dell'iniezione di rumore casuale; la riga inferiore mostra l'effetto della potatura del modello. Tutti i cambiamenti rimangono vicini a zero, suggerendo che gli attacchi non disturbano significativamente il comportamento interno del modello.

Distribuzione dei cambiamenti in K1 per Baichuan-7B, Qwen-7B e LLaMA3-8B prima e dopo gli attacchi. La riga superiore mostra l’effetto dell’iniezione di rumore casuale; la riga inferiore mostra l’effetto della potatura del modello. Tutti i cambiamenti rimangono vicini a zero, suggerendo che gli attacchi non disturbano significativamente il comportamento interno del modello.

Un sistema di punteggio interrompe il processo una volta che le modifiche sono abbastanza accurate, mentre la regolarizzazione garantisce che gli aggiornamenti rimangano stabili su più turni.

Il Decodificatore chiede al modello le stesse domande speciali utilizzate durante l’incorporazione del marchio d’acqua, quindi legge le sue risposte per inferire l’ID nascosto. Poiché il modello di risposte segue una regola segreta, questo ID può essere recuperato senza dover esaminare gli interni del modello.

Dati e test

Per testare EditMark, cinque LLM sono stati valutati: GPT2-X; GPT-J-6B; LLaMA-3-8B; Baichuan-7B; e Qwen-7B. Il suddetto AlphaEdit è stato utilizzato per incorporare i marchi d’acqua, mentre il tasso di estrazione del marchio d’acqua (ESR) e il tempo di incorporazione (ET) sono stati i metriche adottate.

Per le baseline, gli autori hanno scelto Model Watermark (backdoor); KIMark; e BadEdit, un framework originariamente progettato per l’iniezione di backdoor, qui adattato ai propri scopi.

Gli autori hanno modificato il 15° strato di LLaMA-3-8; il 17° di GPT2-XL e GPT-J-6B; e il 14° di Qwen-7B e Baichuan-7B.

Gli esperimenti sono stati condotti su quattro GPU NVIDIA RTX 4090 (24GB di VRAM ciascuna), con marchi d’acqua di 32 bit, 64 bit e 128 bit incorporati. I modelli di domande utilizzati sono dettagliati nell’immagine qui sotto:

Modelli utilizzati per generare domande con più risposte per l'incorporazione del marchio d'acqua. Ogni domanda si basa su un tipo diverso di inuguaglianza matematica, con valori casuali inseriti per le variabili. Il modello viene chiesto di restituire un elenco di soluzioni intere, con l'ordine delle risposte utilizzato per codificare o decodificare i bit del marchio d'acqua. I quattro modelli coprono forme quadratiche, logaritmiche, razionali e basate su intervalli. Tutti sono stati generati tramite GPT-4o.

Modelli utilizzati per generare domande con più risposte (MA) per l’incorporazione del marchio d’acqua. Ogni domanda si basa su un tipo diverso di inuguaglianza matematica, con valori casuali inseriti per le variabili. Il modello viene chiesto di restituire un elenco di soluzioni intere, con l’ordine delle risposte utilizzato per codificare o decodificare i bit del marchio d’acqua. I quattro modelli coprono forme quadratiche, logaritmiche, razionali e basate su intervalli, e tutti sono stati generati utilizzando GPT-4o.

Per ridurre gli effetti del caso, i semi da 1 a 20 sono stati applicati durante i test, su diverse capacità di marchio d’acqua.

Inizialmente i ricercatori hanno testato sia il tasso di estrazione del marchio d’acqua che il tempo di incorporazione su tutta la gamma di LLM:

Confronto di EditMark con tre metodi di marchio d'acqua precedenti su cinque grandi modelli di linguaggio. Vengono riportati il tasso di estrazione del marchio d'acqua (ESR) e il tempo di incorporazione (ET) in secondi. EditMark raggiunge costantemente un tasso di estrazione del 100% mentre riduce il tempo di incorporazione di diversi ordini di grandezza, superando tutte le baseline in termini di precisione ed efficienza su modelli di diverse dimensioni e architetture.

Confronto di EditMark con tre metodi di marchio d’acqua precedenti su cinque grandi modelli di linguaggio. Vengono riportati il tasso di estrazione del marchio d’acqua (ESR) e il tempo di incorporazione (ET) in secondi. EditMark raggiunge costantemente un tasso di estrazione del 100% mentre riduce il tempo di incorporazione di diversi ordini di grandezza, superando tutte le baseline in termini di precisione ed efficienza su modelli di diverse dimensioni e architetture.

Di questi risultati, gli autori affermano:

‘[EditMark] raggiunge un tasso di estrazione del 100% e richiede meno di 20 secondi per incorporare un marchio d’acqua a 32 bit per tutti gli LLM valutati. In particolare, il tempo di incorporazione medio per Baichuan-7B e Qwen-7B è inferiore a 10 secondi, il che dimostra l’alta efficienza di EditMark.’

Per la valutazione di un marchio d’acqua a 128 bit, il valore più alto possibile in tale schema, EditMark è stato in grado di mantenere uno stato di ‘indelibilità’:

Tassi di estrazione del marchio d'acqua e tempi di incorporazione per EditMark su lunghezze di marchio d'acqua di 32, 64 e 128 bit su cinque modelli di linguaggio. Tassi di estrazione del 100% vengono mantenuti in tutti i casi, mentre il tempo di incorporazione aumenta con la dimensione del marchio d'acqua, ma rimane inferiore a un minuto, anche a 128 bit.

Tassi di estrazione del marchio d’acqua e tempi di incorporazione per EditMark su lunghezze di marchio d’acqua di 32, 64 e 128 bit su cinque modelli di linguaggio. Tassi di estrazione del 100% vengono mantenuti in tutti i casi, mentre il tempo di incorporazione aumenta con la dimensione del marchio d’acqua, ma rimane inferiore a un minuto, anche a 128 bit.

Successivamente, la capacità del sistema di mantenere la fedeltà del marchio d’acqua è stata testata su più benchmark:

Valutazione della fedeltà del marchio d'acqua su quattro benchmark su cinque modelli, confrontando modelli non modificati con modelli con marchio d'acqua a 32 bit e 128 bit. Le prestazioni rimangono stabili su tutte le configurazioni, con solo minori fluttuazioni nei punteggi medi, indicando un impatto limitato sull'accuratezza del benchmark dall'inserimento del marchio d'acqua.

Valutazione della fedeltà del marchio d’acqua su quattro benchmark su cinque modelli, confrontando modelli non modificati con modelli con marchio d’acqua a 32 bit e 128 bit. Le prestazioni rimangono stabili su tutte le configurazioni, con solo minori fluttuazioni nei punteggi medi, indicando un impatto limitato sull’accuratezza del benchmark dall’inserimento del marchio d’acqua.

La resistenza di EditMark è stata testata contro sei strategie di attacco comuni. I modelli sono stati incorporati con marchi d’acqua a 128 bit utilizzando cinque semi diversi. Il fine-tuning, come mostrato nell’immagine qui sotto, ha causato solo una leggera degradazione dei tassi di estrazione del marchio d’acqua (ESR) per la maggior parte dei modelli:

Tasso di estrazione del marchio d'acqua (ESR) dei modelli con marchio d'acqua prima e dopo il fine-tuning per uno a tre epoche. Mentre la maggior parte dei modelli mantiene un ESR alto durante tutto il processo, Qwen-7B mostra un declino marcato, suggerendo una maggiore vulnerabilità agli aggiornamenti dei parametri.

Tasso di estrazione del marchio d’acqua (ESR) dei modelli con marchio d’acqua prima e dopo il fine-tuning per uno a tre epoche. Mentre la maggior parte dei modelli mantiene un ESR alto durante tutto il processo, Qwen-7B mostra un declino marcato, suggerendo una maggiore vulnerabilità agli aggiornamenti dei parametri.

Anche dopo molteplici epoche, la maggior parte dei modelli ha mantenuto ESR sopra il 90%, indicando che EditMark resiste alla deriva dei parametri introdotta dal training basato su LoRA.

Gli attacchi di quantizzazione hanno ridotto la precisione del modello, ma hanno lasciato la maggior parte dei marchi d’acqua intatti:

Tasso di estrazione del marchio d'acqua (ESR) dei modelli con marchio d'acqua prima e dopo la quantizzazione con precisione Int-8 e Int-4. L'ESR rimane invariato con la quantizzazione Int-8 su tutti i modelli, mentre la quantizzazione Int-4 causa una degradazione parziale, indicando che una precisione inferiore può indebolire, ma non rimuovere completamente il marchio d'acqua.

Tasso di estrazione del marchio d’acqua (ESR) dei modelli con marchio d’acqua prima e dopo la quantizzazione con precisione Int-8 e Int-4. L’ESR rimane invariato con la quantizzazione Int-8 su tutti i modelli, mentre la quantizzazione Int-4 causa una degradazione parziale, indicando che una precisione inferiore può indebolire, ma non rimuovere completamente il marchio d’acqua.

Come possiamo vedere nell’immagine sopra, la quantizzazione Int-8 ha conservato un ESR del 100% su tutti i modelli, mentre la quantizzazione Int-4 ha avuto un impatto moderato sull’ESR, ma ha introdotto perdite di prestazioni inaccettabili.

Come nota l’articolo, questo scenario in particolare suggerisce un potenziale limitato per un attaccante, poiché ciò risulta in un modello hackerato ma con prestazioni degradate.

I test per rumore e potatura hanno valutato quattro framework di benchmark:

Effetto del rumore (riga superiore) e della potatura (riga inferiore) sugli attacchi all'ESR e sulla prestazione dei modelli con marchio d'acqua. Mentre l'ESR diminuisce con l'aumento delle perturbazioni, l'accuratezza del benchmark diminuisce anche, soprattutto a intensità di rumore e rapporti di potatura più elevati, evidenziando la (consueta) tensione tra la rimozione del marchio d'acqua e l'utilità del modello.

Effetto del rumore (riga superiore) e della potatura (riga inferiore) sugli attacchi all’ESR e sulla prestazione dei modelli con marchio d’acqua. Mentre l’ESR diminuisce con l’aumento delle perturbazioni, l’accuratezza del benchmark diminuisce anche, soprattutto a intensità di rumore e rapporti di potatura più elevati, evidenziando la (consueta) tensione tra la rimozione del marchio d’acqua e l’utilità del modello.

Tuttavia, questi hanno anche causato un calo netto nelle prestazioni del compito, con Baichuan-7B che ha subito un calo del 27-31% su BLIMP quando il rumore o la potatura è stato applicato.

La modifica del modello e gli attacchi adattivi sono stati valutati anche:

Tasso di estrazione del marchio d'acqua dei modelli con marchio d'acqua sottoposti a gradi diversi di modifica del modello. Anche con fino a cinquanta modifiche applicate ai layer di marchio d'acqua noti, l'ESR rimane sopra il 95% per tutti i modelli, indicando che le modifiche dirette dei parametri hanno un effetto limitato sulla rimozione del marchio d'acqua.

Tasso di estrazione del marchio d’acqua dei modelli con marchio d’acqua sottoposti a gradi diversi di modifica del modello. Anche con fino a cinquanta modifiche applicate ai layer di marchio d’acqua noti, l’ESR rimane sopra il 95% per tutti i modelli, indicando che le modifiche dirette dei parametri hanno un effetto limitato sulla rimozione del marchio d’acqua.

Qui EditMark ha mantenuto oltre il 95% di ESR, anche quando i layer di incorporazione del marchio d’acqua sono stati mirati.

Conclusione

La gestione dei diritti digitali, i marchi d’acqua segreti e altri approcci di sicurezza che hanno avuto (limitato o parziale) successo nell’era pre-AI sono difficili da applicare ai sistemi di apprendimento automatico; la natura riduzionista intenzionale dell’attuale gamma di architetture host combina con la mancanza di strumenti appropriati per rendere eventuali marchi d’acqua incorporati piuttosto fragili.

È impressionante vedere un sistema progettato per la distribuzione di modelli FOSS e vedere che resiste a tutti gli scenari tranne i più improbabili, in termini di conoscenza preventiva di un attaccante. Tuttavia, il leggero calo delle prestazioni che deriva dalle modifiche post-addestramento, piccolo ma presente in questi esperimenti, potrebbe dare ai potenziali adottanti motivo di riflettere; non da ultimo perché ritirarsi a un modello di controllo basato su API annulla completamente tali attacchi.

 

* Questo sito ha sostenuto che i rilasci ‘open weight’ della Cina non necessariamente qualificano come completamente FOSS, poiché i dati sono spesso trattenuti, il che impedisce la ricreazione esatta della pipeline di addestramento. Argomenta che questo argomento invita a un esame più approfondito della politica dei rilasci dei modelli di intelligenza artificiale paragonati tra ovest ed est, che è al di fuori dell’ambito di questo articolo.

Pubblicato per la prima volta lunedì, 27 ottobre 2025

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.