Unghiul lui Anderson

Extragerea datelor de antrenare din modelele Stable Diffusion fine-tune

Publicat 7 octombrie 2024

Actualizat 15 mai 2026

Martin Anderson

Examples of training images (below), extracted from a trained model (above). Source: https://arxiv.org/pdf/2410.03039

Noi cercetări din Statele Unite prezintă o metodă pentru a extrage porțiuni semnificative de date de antrenare din modele fine-tune.

Aceasta ar putea furniza potențial dovezi legale în cazurile în care un artist a fost copiat sau în care imagini cu drepturi de autor au fost utilizate pentru a antrena modele generative de figuri publice, personaje protejate de drepturi de autor sau alte conținuturi.

Din noul articol: imaginile originale de antrenare sunt vizibile în rândul de sus, iar imaginile extrase sunt reprezentate în rândul de jos. Sursă: https://arxiv.org/pdf/2410.03039

Asemenea modele sunt disponibile pe scară largă și gratuit pe internet, în principal prin arhivele uriașe create de utilizatori de la civit.ai și, într-o măsură mai mică, pe platforma de repository Hugging Face.

Noul model dezvoltat de cercetători se numește FineXtract, iar autorii susțin că acesta obține rezultate de ultimă generație în această sarcină.

Articolul observă:

‘[Cadrul nostru] abordează eficient provocarea extragerii datelor de fine-tune din checkpoint-urile DM fine-tune disponibile public. Prin utilizarea tranziției de la distribuțiile preantrenate DM la distribuțiile de date de fine-tune, FineXtract ghidă procesul de generare către regiunile de înaltă probabilitate ale distribuției de date de fine-tune, permițând extragerea cu succes a datelor.’

La dreapta, imaginea originală utilizată în antrenare. A doua de la dreapta, imaginea extrasă prin FineXtract. Celelalte coloane reprezintă metode alternative anterioare. Vă rugăm să consultați articolul sursă pentru o rezoluție mai bună.

De ce contează

Modelele originale antrenate pentru sistemele generative de text-la-imagine, cum ar fi Stable Diffusion și Flux, pot fi descărcate și fine-tune de către utilizatori, folosind tehnici precum implementarea DreamBooth din 2022.

Mai ușor, utilizatorul poate crea un model LoRA mult mai mic, care este aproape la fel de eficient ca un model complet fine-tune.

Un exemplu de model LoRA antrenat, oferit pentru descărcare gratuită pe site-ul extrem de popular Civitai. Un astfel de model poate fi creat în orice, de la câteva minute la câteva ore, de entuziaști care utilizează software open source instalat local – și online, prin unele sisteme de antrenare mai permisive bazate pe API. Sursă: civitai.com

De la 2022, a devenit trivial să se creeze checkpoint-uri și LoRA-uri specifice identității, prin furnizarea a doar un număr mic (în medie 5-50) de imagini captionate și antrenarea checkpoint-ului (sau LoRA) local, pe un cadru open source precum Kohya ss, sau utilizând servicii online.

Această metodă facilă de deepfaking a ajuns notorietate în mass-media în ultimii ani. Mulți artiști și-au văzut lucrările înglobate în modele generative care replică stilul lor. Controversa în jurul acestor probleme a câștigat impuls în ultimii 18 luni.

Ușurința cu care utilizatorii pot crea sisteme AI care replică lucrările unor artiști reali a cauzat furie și diverse campanii în ultimii doi ani. Sursă: https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/

Este dificil să se dovedească care imagini au fost utilizate într-un checkpoint fine-tune sau într-un LoRA, deoarece procesul de generalizare ‘abstrage’ identitatea din seturile de date mici de antrenare și nu este probabil să reproducă exemple din datele de antrenare (cu excepția cazului în care suprantrenarea a avut loc, caz în care se poate considera că antrenarea a eșuat).

Acesta este punctul în care FineXtract intervine. Prin compararea stării modelului ‘șablon’ de difuzie pe care utilizatorul l-a descărcat cu modelul pe care l-au creat ulterior prin fine-tune sau prin LoRA, cercetătorii au reușit să creeze reconstrucții foarte precise ale datelor de antrenare.

Deși FineXtract a putut recrea doar 20% din datele dintr-un fine-tune*, acest lucru este mai mult decât ar fi necesar pentru a furniza dovezi că utilizatorul a utilizat material protejat de drepturi de autor sau interzis în producerea unui model generativ. În majoritatea exemplelor furnizate, imaginea extrasă este extrem de aproape de materialul sursă cunoscut.

Deși sunt necesare captionuri pentru a extrage imaginile sursă, acest lucru nu este o barieră semnificativă din două motive: a) utilizatorul care încarcă de obicei dorește să faciliteze utilizarea modelului într-o comunitate și va furniza de obicei exemple de prompturi potrivite; și b) nu este dificil, după cum au descoperit cercetătorii, să extragă termenii cheie din modelul fine-tune în mod “orb”:

Cuvintele cheie esențiale pot fi de obicei extrase în mod “orb” din modelul fine-tune utilizând un atac L2-PGD pe parcursul a 1000 de iterații, dintr-un prompt aleator.

Utilizatorii evită adesea să facă disponibile seturile de date de antrenare alături de modelul antrenat ‘în cutie’. Pentru cercetare, autorii au colaborat cu entuziaști de învățare automată care au furnizat efectiv seturile de date.

Noul articol se intitulează Revelarea celor nevăzute: Ghidarea modelelor de difuzie personalizate pentru a expune datele de antrenare și provine de la trei cercetători de la universitățile Carnegie Mellon și Purdue.

Metoda

‘Atacatorul’ (în acest caz, sistemul FineXtract) compară distribuțiile de date estimate pe modelele originale și fine-tune, într-un proces pe care autorii îl numesc ‘ghidare a modelului’.

Prin ‘ghidarea modelului’, dezvoltată de cercetătorii noului articol, caracteristicile de fine-tune pot fi cartografiate, permițând extragerea datelor de antrenare.

Autorii explică:

‘În timpul procesului de fine-tune, [modelele de difuzie] se deplasează treptat distribuția învățată de la [distribuția] modelelor preantrenate DM către [distribuția] datelor de fine-tune.

‘Astfel, aproximăm parametric [distribuția] învățată a [modelelor de difuzie] fine-tune.’

În acest fel, suma diferenței dintre modelul de bază și modelul fine-tune oferă procesul de ghidare.

Autorii mai spun:

‘Cu ghidarea modelului, putem simula eficient un “pseudo-“[denoiser], care poate fi utilizat pentru a direcționa procesul de eșantionare către regiunea de înaltă probabilitate din distribuția de date de fine-tune.’

Ghidarea se bazează parțial pe un proces de zgomot variabil în timp, asemănător cu ieșirea Ștergerea conceptelor din modelele de difuzie din 2023.

Predicția de denoising obținută oferă de asemenea o scară probabilă de ghidare fără clasificator (CFG). Acest lucru este important, deoarece CFG afectează semnificativ calitatea imaginii și fidelitatea față de promptul text al utilizatorului.

Pentru a îmbunătăți acuratețea imaginilor extrase, FineXtract se bazează pe colaborarea acclaimed din 2023 Extragerea datelor de antrenare din modelele de difuzie. Metoda utilizată constă în calculul similarității fiecărei perechi de imagini generate, pe baza unui prag definit de descriptorul auto-supervizat (SSCD) score.

În acest fel, algoritmul de clustering ajută FineXtract să identifice subsetul de imagini extrase care corespund cu datele de antrenare.

În acest caz, cercetătorii au colaborat cu utilizatori care au făcut datele disponibile. Se poate spune că, în absența unor astfel de date, ar fi imposibil să se dovedească că o anumită imagine generată a fost într-adevăr utilizată în antrenarea originală. Cu toate acestea, este relativ ușor să se potrivească imagini încărcate fie împotriva imaginilor live de pe web, fie împotriva imaginilor din seturile de date cunoscute și publicate, pe baza conținutului imaginii.

Date și teste

Pentru a testa FineXtract, autorii au efectuat experimente pe modele fine-tune cu puține exemple în cele două scenarii de fine-tune cele mai comune, în cadrul proiectului: stiluri artistice și generare bazată pe obiecte (ultimul cuprinzând în mod eficient subiecte cu fețe).

Ei au selectat aleator 20 de artiști (fiecare cu 10 imagini) din setul de date WikiArt și 30 de subiecte (fiecare cu 5-6 imagini) din setul de date DreamBooth, pentru a aborda aceste scenarii respective.

DreamBooth și LoRA au fost metodele de fine-tune vizate, iar Stable Diffusion V1/.4 a fost utilizat pentru testele.

Dacă algoritmul de clustering a returnat zero rezultate după treizeci de secunde, pragul a fost modificat până când au fost returnate imagini.

Cele două metrice utilizate pentru imaginile generate au fost Similaritate Medie (AS) sub SSCD și Rata Medie de Extracție a Datelor (A-ESR) – o măsură în linie cu lucrările anterioare, unde un scor de 0,7 reprezintă minimumul necesar pentru a denota o extracție completă a datelor de antrenare.

Deoarece abordările anterioare au utilizat fie generarea directă de text-la-imagine, fie CFG, cercetătorii au comparat FineXtract cu aceste două metode.

Rezultatele comparațiilor FineXtract cu cele două metode anterioare.

Autorii spun:

‘Rezultatele demonstrează un avantaj semnificativ al FineXtract față de metodele anterioare, cu o îmbunătățire de aproximativ 0,02 până la 0,05 în AS și o dublare a A-ESR în majoritatea cazurilor.’

Pentru a testa capacitatea metodei de a se generaliza la date noi, cercetătorii au efectuat un test suplimentar, utilizând Stable Diffusion (V1.4), Stable Diffusion XL și AltDiffusion.

FineXtract aplicat pe o gamă de modele de difuzie. Pentru componenta WikiArt, testul s-a concentrat pe patru clase din WikiArt.

În rezultatele prezentate mai sus, FineXtract a reușit să obțină o îmbunătățire față de metodele anterioare și în acest test mai larg.

O comparație calitativă a rezultatelor extrase din FineXtract și abordările anterioare. Vă rugăm să consultați articolul sursă pentru o rezoluție mai bună.

Autorii observă că atunci când se utilizează un număr mai mare de imagini în setul de date pentru un model fine-tune, algoritmul de clustering trebuie rulat pentru o perioadă mai lungă de timp pentru a rămâne eficient.

Ei mai observă că au fost dezvoltate diverse metode în ultimii ani pentru a împiedica acest tip de extragere, sub pretextul protecției datelor. Prin urmare, au testat FineXtract împotriva datelor augmentate cu metodele Cutout și RandAugment.

Performanța FineXtract împotriva imaginilor protejate de Cutout și RandAugment.

Deși autorii admit că cele două sisteme de protecție funcționează destul de bine în ascunderea surselor de date de antrenare, ei notează că acest lucru se face cu costul unei scăderi a calității de ieșire atât de severe încât să facă protecția inutilă:

Imagini produse sub Stable Diffusion V1.4, fine-tune cu măsuri defensive – care scad drastic calitatea imaginii. Vă rugăm să consultați articolul sursă pentru o rezoluție mai bună.

Articolul concluzionează:

‘Experimentele noastre demonstrează robustețea metodei noastre pe diverse seturi de date și checkpoint-uri din lumea reală, subliniind riscurile de scurgere a datelor și oferind dovezi puternice pentru încălcări ale drepturilor de autor.’

Concluzie

Anul 2024 s-a dovedit a fi anul în care interesul corporațiilor pentru date de antrenare “curate” a crescut semnificativ, în fața acoperirii media continue a capacității AI de a înlocui oamenii și a perspectivei de a proteja legal modelele generative pe care acestea sunt atât de dispuse să le exploateze.

Este ușor să afirmi că datele dvs. de antrenare sunt curate, dar devine și mai ușor pentru tehnologii similare să dovedească că nu este așa – așa cum au aflat Runway ML, Stability.ai și MidJourney (printre altele) în zilele recente.

Proiecte precum FineXtract sunt, probabil, semne ale sfârșitului absolut al erei “vestului sălbatic” a inteligenței artificiale, în care chiar și natura aparent ocultă a unui spațiu latent antrenat ar putea fi adusă la socoteală.

* Pentru conveniență, vom presupune ‘fine-tune și LoRA’, acolo unde este necesar.

Publicat pentru prima dată luni, 7 octombrie 2024