Angolo di Anderson
Estrazione dei dati di training da modelli di diffusione stabile fine-tuned

Una nuova ricerca statunitense presenta un metodo per estrarre porzioni significative dei dati di training da modelli fine-tuned.
Ciò potrebbe potenzialmente fornire prove legali in casi in cui lo stile di un artista è stato copiato o in cui immagini protette da copyright sono state utilizzate per addestrare modelli generativi di personaggi pubblici, caratteri protetti da brevetto o altro contenuto.

Dal nuovo articolo: le immagini di training originali sono visibili nella riga superiore, e le immagini estratte sono rappresentate nella riga inferiore. Fonte: https://arxiv.org/pdf/2410.03039
Tali modelli sono ampiamente disponibili su Internet, principalmente attraverso enormi archivi di contributi utente di civit.ai, e, in misura minore, sulla piattaforma di repository Hugging Face.
Il nuovo modello sviluppato dai ricercatori si chiama FineXtract, e gli autori sostengono che raggiunge risultati di stato dell’arte in questo compito.
L’articolo osserva:
‘[La nostra struttura] affronta efficacemente la sfida di estrarre i dati di fine-tuning da checkpoint di DM pubblicamente disponibili. Sfruttando la transizione dalle distribuzioni pre-addestrate di DM alle distribuzioni dei dati di fine-tuning, FineXtract guida con precisione il processo di generazione verso regioni ad alta probabilità della distribuzione dei dati di fine-tuning, consentendo un’estrazione di dati di successo.’

A destra, l’immagine originale utilizzata per l’addestramento. Seconda da destra, l’immagine estratta tramite FineXtract. Le altre colonne rappresentano metodi alternativi precedenti. Si prega di fare riferimento all’articolo originale per una risoluzione migliore.
Perché è importante
I modelli originali addestrati per sistemi generativi di testo-immagine come Stable Diffusion e Flux possono essere scaricati e fine-tuned dagli utenti finali, utilizzando tecniche come l’implementazione DreamBooth del 2022.
È ancora più semplice creare un modello LoRA molto più piccolo che è quasi altrettanto efficace di un modello completamente fine-tuned.

Un esempio di un LORA addestrato, offerto gratuitamente per il download sul sito molto popolare Civitai. Un tale modello può essere creato in pochi minuti o poche ore, da appassionati che utilizzano software open source installato localmente – e online, attraverso alcuni sistemi di addestramento più permissivi basati su API. Fonte: civitai.com
Dal 2022 è diventato banale creare checkpoint e LoRA specifici per l’identità, fornendo solo un numero piccolo (in media 5-50) di immagini con didascalia, e addestrando il checkpoint (o LoRA) localmente, su una struttura open source come Kohya ss, o utilizzando servizi online.
Questo metodo facile di deepfaking ha raggiunto notorietà nei media negli ultimi anni. Molti artisti hanno anche visto il loro lavoro ingerito in modelli generativi che replicano il loro stile. La controversia su queste questioni ha guadagnato slancio negli ultimi 18 mesi.

La facilità con cui gli utenti possono creare sistemi AI che replicano il lavoro di artisti reali ha causato furori e diverse campagne negli ultimi due anni. Fonte: https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/
È difficile dimostrare quali immagini siano state utilizzate in un checkpoint fine-tuned o in un LoRA, poiché il processo di generalizzazione ‘astrae’ l’identità dai piccoli set di dati di addestramento, e non è probabile che riproduca esempi dai dati di addestramento (ad eccezione del caso di overfitting, dove si può considerare che l’addestramento abbia fallito).
È qui che entra in gioco FineXtract. Confrontando lo stato del modello di diffusione ‘template’ che l’utente ha scaricato con il modello che hanno successivamente creato attraverso fine-tuning o LoRA, i ricercatori sono stati in grado di creare ricostruzioni molto accurate dei dati di addestramento.
Sebbene FineXtract abbia potuto ricreare solo il 20% dei dati da un fine-tuning*, ciò è più di quanto normalmente necessario per fornire prove che l’utente abbia utilizzato materiale protetto da copyright o altro materiale protetto o vietato nella produzione di un modello generativo. Nella maggior parte degli esempi forniti, l’immagine estratta è estremamente vicina al materiale sorgente noto.
Sebbene le didascalie siano necessarie per estrarre le immagini sorgente, ciò non costituisce un ostacolo significativo per due motivi: a) l’uploader generalmente desidera facilitare l’utilizzo del modello all’interno di una comunità e di solito fornisce esempi di prompt appropriati; e b) non è difficile, come hanno scoperto i ricercatori, estrarre i termini chiave fondamentali in modo cieco dal modello fine-tuned:

I termini chiave essenziali possono generalmente essere estratti in modo cieco dal modello fine-tuned utilizzando un attacco L2-PGD su 1000 iterazioni, da un prompt casuale.
Gli utenti spesso evitano di rendere disponibili i loro set di dati di addestramento insieme al modello addestrato ‘black box’. Per la ricerca, gli autori hanno collaborato con appassionati di apprendimento automatico che hanno effettivamente fornito i set di dati.
L’articolo si intitola Rivelare l’invisibile: guidare modelli di diffusione personalizzati per esporre i dati di addestramento, e proviene da tre ricercatori di università di Carnegie Mellon e Purdue.
Metodo
L’ ‘attaccante’ (in questo caso, il sistema FineXtract) confronta le stime delle distribuzioni dei dati tra il modello originale e il modello fine-tuned, in un processo che gli autori chiamano ‘guida del modello’.

Attraverso la ‘guida del modello’, sviluppata dai ricercatori del nuovo articolo, le caratteristiche di fine-tuning possono essere mappate, consentendo l’estrazione dei dati di addestramento.
Gli autori spiegano:
‘Durante il processo di fine-tuning, i [modelli di diffusione] spostano progressivamente la loro distribuzione appresa dalla distribuzione pre-addestrata dei DM alla distribuzione dei dati di fine-tuning.
‘Pertanto, approssimiamo parametricamente la distribuzione appresa del [modello di diffusione] fine-tuned.’
In questo modo, la somma della differenza tra il modello principale e il modello fine-tuned fornisce il processo di guida.
Gli autori commentano inoltre:
‘Con la guida del modello, possiamo effettivamente simulare un [denoiser] “pseudo-“, che può essere utilizzato per guidare il processo di campionamento verso la regione ad alta probabilità all’interno della distribuzione dei dati di fine-tuning.’
La guida si basa in parte su un processo di rumore variabile nel tempo simile all’outing Erasing Concepts from Diffusion Models del 2023.
La previsione di denoising ottenuta fornisce anche una probabile guida a classificatore libero (CFG). Ciò è importante, poiché la CFG influisce significativamente sulla qualità dell’immagine e sulla fedeltà al prompt di testo dell’utente.
Per migliorare l’accuratezza delle immagini estratte, FineXtract si basa sulla collaborazione acclamata del 2023 Extracting Training Data from Diffusion Models. Il metodo utilizzato consiste nel calcolare la similarità di ogni coppia di immagini generate in base a una soglia definita dal descrittore auto-supervisionato (SSCD) punteggio.
In questo modo, l’algoritmo di clustering aiuta FineXtract a identificare il subset di immagini estratte che corrispondono ai dati di addestramento.
In questo caso, i ricercatori hanno collaborato con utenti che avevano reso disponibili i dati. Si potrebbe ragionevolmente dire che, in assenza di tali dati, sarebbe impossibile dimostrare che una particolare immagine generata sia stata effettivamente utilizzata per l’addestramento nel modello originale. Tuttavia, è ora relativamente banale abbinare le immagini caricate contro immagini live su Internet o immagini che sono anche in set di dati noti e pubblicati, in base solo al contenuto dell’immagine.
Dati e test
Per testare FineXtract, gli autori hanno condotto esperimenti su modelli fine-tuned con pochi esempi across le due scenari di fine-tuning più comuni, nell’ambito del progetto: stili artistici e generazione guidata da oggetti (quest’ultimo comprende efficacemente soggetti basati su volti).
Hanno selezionato casualmente 20 artisti (ciascuno con 10 immagini) dal set di dati WikiArt e 30 soggetti (ciascuno con 5-6 immagini) dal set di dati DreamBooth, per affrontare queste scenari rispettive.
DreamBooth e LoRA sono stati i metodi di fine-tuning target, e Stable Diffusion V1/.4 è stato utilizzato per i test.
Se l’algoritmo di clustering non restituiva risultati dopo trenta secondi, la soglia veniva modificata fino a quando non venivano restituite immagini.
Le due metriche utilizzate per le immagini generate sono state la similarità media (AS) sotto SSCD e il tasso di estrazione medio di successo (A-ESR) – una misura ampiamente in linea con lavori precedenti, dove un punteggio di 0,7 rappresenta il minimo per denotare un’estrazione completamente riuscita dei dati di addestramento.
Poiché gli approcci precedenti hanno utilizzato la generazione di immagini diretta o la CFG, i ricercatori hanno confrontato FineXtract con questi due metodi.

Risultati dei confronti di FineXtract con i due metodi precedenti più popolari.
Gli autori commentano:
‘I [risultati] dimostrano un vantaggio significativo di FineXtract rispetto ai metodi precedenti, con un miglioramento di circa 0,02 a 0,05 in AS e un raddoppio del A-ESR nella maggior parte dei casi.’
Per testare la capacità del metodo di generalizzare a nuovi dati, i ricercatori hanno condotto un ulteriore test, utilizzando Stable Diffusion (V1.4), Stable Diffusion XL e AltDiffusion.

FineXtract applicato su una gamma di modelli di diffusione. Per la componente WikiArt, il test si è concentrato su quattro classi in WikiArt.
Come si vede nei risultati mostrati sopra, FineXtract è stato in grado di ottenere un miglioramento rispetto ai metodi precedenti anche in questo test più ampio.

Un confronto qualitativo dei risultati estratti da FineXtract e dagli approcci precedenti. Si prega di fare riferimento all’articolo originale per una risoluzione migliore.
Gli autori osservano che quando viene utilizzato un numero maggiore di immagini nel set di dati per un modello fine-tuned, l’algoritmo di clustering deve essere eseguito per un periodo di tempo più lungo per rimanere efficace.
Essi osservano inoltre che una varietà di metodi sono stati sviluppati negli ultimi anni per impedire questo tipo di estrazione, sotto l’egida della protezione della privacy. Pertanto, hanno testato FineXtract contro dati aumentati dai metodi Cutout e RandAugment.

FineXtract’s performance against images protected; by Cutout and RandAugment.
Mentre gli autori ammettono che i due sistemi di protezione funzionano abbastanza bene nell’oscurare le fonti dei dati di addestramento, notano che ciò avviene a spese di un calo della qualità di output così grave da rendere la protezione inutile:

Immagini prodotte con Stable Diffusion V1.4, fine-tuned con misure difensive – che abbassano drasticamente la qualità dell’immagine. Si prega di fare riferimento all’articolo originale per una risoluzione migliore.
L’articolo conclude:
‘I nostri esperimenti dimostrano la robustezza del metodo attraverso vari set di dati e checkpoint del mondo reale, evidenziando i potenziali rischi di perdita di dati e fornendo prove solide per violazioni del copyright.’
Conclusione
Il 2024 si è rivelato l’anno in cui l’interesse delle aziende per i dati di addestramento ‘puliti’ è aumentato notevolmente, di fronte alla copertura mediatica continua della propensione dell’AI a sostituire gli esseri umani e della prospettiva di proteggere legalmente i modelli generativi che esse stesse sono così ansiose di sfruttare.
È facile affermare che i propri dati di addestramento siano puliti, ma sta diventando più facile anche per tecnologie simili dimostrare che non lo sono – come hanno scoperto Runway ML, Stability.ai e MidJourney (tra gli altri) in tempi recenti.
I progetti come FineXtract sono argomenti di discussione sull’assoluta fine dell’era ‘wild west’ dell’AI, dove anche la natura apparentemente occulta di uno spazio latente addestrato potrebbe essere chiamata a rispondere.
* Per comodità, assumeremo ‘fine-tune e LoRA’, dove necessario.
Pubblicato per la prima volta lunedì, 7 ottobre 2024












