Inteligență artificială

Identitățile Reale Pot Fi Recuperate Din Seturile De Date Sintetice

Published November 6, 2024

Updated April 27, 2026

Martin Anderson

Sample comparison images from the paper 'Unveiling Synthetic Faces: How Synthetic Datasets Can Expose Real Identities', including original images (top), and inferred images (bottom).

Dacă anul 2022 a marcat momentul în care potențialul disruptiv al inteligenței artificiale generative a capturat pentru prima dată atenția publică largă, anul 2024 a fost anul în care întrebările despre legalitatea datelor subiacente au devenit centrale pentru companiile care doresc să exploateze puterea acesteia.

Doctrina utilizării corecte din Statele Unite, împreună cu licența științifică implicită care a permis sectoarelor de cercetare academică și comercială să exploreze inteligența artificială generativă, a devenit din ce în ce mai nesustenabilă pe măsură ce au apărut dovezi tot mai multe ale plagiatului. Ulterior, Statele Unite au interzis, pentru moment, conținutul generat de inteligența artificială să fie protejat prin drepturi de autor.

Aceste probleme sunt departe de a fi rezolvate și departe de a fi rezolvate în curând; în 2023, în parte din cauza creșterii preocupărilor mass-media și publice cu privire la statutul juridic al ieșirilor generate de inteligența artificială, Biroul de Drepturi de Autor al SUA a lansat o anchetă pe termen lung asupra acestui aspect al inteligenței artificiale generative, publicând primul segment (referitor la replici digitale) în iulie 2024.

Între timp, interesele comerciale rămân frustrate de posibilitatea ca modelele scumpe pe care doresc să le exploateze ar putea să le expună la consecințe juridice atunci când vor apărea legislația și definițiile definitive.

Soluția scumpă pe termen scurt a fost să legitimizeze modelele generative prin antrenarea lor pe date pe care companiile le au dreptul să le exploateze. Arhitectura text-imagini (și acum text-vidéo) Firefly a Adobe este alimentată în principal de cumpărarea sa a setului de date de imagini stock Fotolia în 2014, completată de utilizarea datelor din domeniul public cu drepturi de autor expirate*. În același timp, furnizorii de stoc de fotografii, cum ar fi Getty și Shutterstock, au capitalizat pe noua valoare a datelor lor licențiate, cu o serie tot mai mare de acorduri pentru a licenția conținutul sau pentru a dezvolta propriile sisteme GenAI conforme cu proprietatea intelectuală.

Soluții Sintetice

Deoarece eliminarea datelor cu drepturi de autor din spațiul latent al unui model de inteligență artificială antrenat este plină de probleme, greșelile în această zonă ar putea fi foarte costisitoare pentru companiile care experimentează cu soluții pentru consumatori și afaceri care utilizează învățarea automată.

O alternativă, și mult mai ieftină, pentru sistemele de viziune computațională (și, de asemenea, pentru Modelele Lingvistice Mari, sau LLM) este utilizarea datelor sintetice, unde setul de date este compus din exemple generate aleatoriu din domeniul țintă (cum ar fi fețe, pisici, biserici sau chiar un set de date mai generalizat).

Site-urile precum thispersondoesnotexist.com au popularizat de multă vreme ideea că poze autentice ale “persoanelor care nu există” pot fi sintetizate (în cazul specific, prin intermediul Rețelelor Adversative Generative, sau GAN) fără a avea nicio legătură cu persoane care există în lumea reală.

Prin urmare, dacă antrenați un sistem de recunoaștere facială sau un sistem generativ pe astfel de exemple abstracte și nereale, puteți obține, în teorie, un standard fotorealist de productivitate pentru un model de inteligență artificială fără a trebui să vă preocupați dacă datele sunt legal utilizabile.

Acrobatică

Problema este că sistemele care produc date sintetice sunt ele însele antrenate pe date reale. Dacă urme ale acestor date se scurg în datele sintetice, acest lucru poate oferi dovezi că materialul restricționat sau neautorizat a fost exploatat pentru câștig financiar.

Pentru a evita acest lucru și pentru a produce imagini cu adevărat “aleatorii”, astfel de modele trebuie să se asigure că sunt bine generalizate. Generalizarea este măsura capacității unui model de inteligență artificială antrenat de a înțelege concepte de nivel înalt (cum ar fi “față”, “bărbat” sau “femeie”) fără a recurge la reproducerea datelor de antrenare reale.

Din nefericire, poate fi dificil pentru sistemele antrenate să producă (sau să recunoască) detalii granulare, cu excepția cazului în care se antrenează pe o perioadă extinsă pe un set de date. Acest lucru expune sistemul la risc de memorizare: o tendință de a reproduce, într-o anumită măsură, exemplele datelor reale de antrenare.

Acest lucru poate fi mitigat prin setarea unei rate de învățare mai relaxate sau prin încheierea antrenamentului la un stadiu în care conceptele de bază sunt încă ductile și nu sunt asociate cu un anumit punct de date (cum ar fi o imagine specifică a unei persoane, în cazul unui set de date cu fețe).

Cu toate acestea, ambele remedii sunt susceptibile să ducă la modele cu detalii mai puțin granulare, deoarece sistemul nu a avut ocazia să progreseze dincolo de “bazele” domeniului țintă și până la aspectele specifice.

Prin urmare, în literatura științifică, se aplică în general rate de învățare foarte ridicate și programe de antrenament cuprinzătoare. Deși cercetătorii încearcă, de obicei, să facă un compromis între aplicabilitatea largă și granularitatea în modelul final, chiar și sistemele “memorizate” ușor pot să se prezinte ca bine generalizate – chiar și în testele inițiale.

Revelația Feței

Acest lucru ne aduce la o lucrare interesantă și nouă din Elveția, care susține că este prima care demonstrează că imaginile reale originale care alimentează datele sintetice pot fi recuperate din imagini generate care, în teorie, ar trebui să fie complet aleatorii:

Exemple de imagini cu fețe scurse din datele de antrenare. În rândul de sus, vedem imaginile originale (reale); în rândul de jos, vedem imagini generate aleatoriu, care corespund semnificativ cu imaginile reale. Source: https://arxiv.org/pdf/2410.24015

Rezultatele, susțin autorii, indică faptul că “generatorii sintetici” au, într-adevăr, memorizat multe dintre punctele de date de antrenare, în căutarea unei granularități mai mari. Ei indică, de asemenea, faptul că sistemele care se bazează pe date sintetice pentru a proteja producătorii de inteligență artificială de consecințele juridice ar putea fi foarte nesigure în acest sens.

Cercetătorii au efectuat un studiu extins asupra a șase seturi de date sintetice de ultimă generație, demonstrând că, în toate cazurile, datele originale (posibil protejate prin drepturi de autor sau protejate) pot fi recuperate. Ei comentează:

‘Experimentele noastre demonstrează că seturile de date sintetice de recunoaștere facială de ultimă generație conțin mostre care sunt foarte apropiate de mostre din setul de date de antrenare al modelului generator. În unele cazuri, mostrele sintetice conțin modificări mici ale imaginii originale, cu toate acestea, putem observa, de asemenea, în unele cazuri, mostrele generate conțin variații mai mari (de exemplu, poziție diferită, condiții de iluminare, etc.), în timp ce identitatea este păstrată.

‘Acest lucru sugerează că modelele generatorului învață și memorează informații legate de identitate din setul de date de antrenare și pot genera identități similare. Acest lucru creează preocupări critice cu privire la aplicarea datelor sintetice în sarcinile sensibile din punct de vedere al confidențialității, cum ar fi biometria și recunoașterea feței.’

Lucrarea se numește Dezvăluirea Fețelor Sintetice: Cum Seturile De Date Sintetice Pot Expune Identități Reale, și provine de la doi cercetători de la Institutul de Cercetare Idiap din Martigny, École Polytechnique Fédérale de Lausanne (EPFL) și Universitatea din Lausanne (UNIL) din Lausanne.

Metodă, Date și Rezultate

Fețele memorizate în studiu au fost dezvăluite prin Atac de Inferență a Apartenenței. Deși conceptul pare complicat, este destul de autoexplicativ: inferența apartenenței, în acest caz, se referă la procesul de a pune întrebări unui sistem până când acesta dezvăluie date care corespund sau semănă semnificativ cu datele pe care le căutați.

Mai multe exemple de surse de date inferate, din studiu. În acest caz, imaginile sintetice de sursă provin din setul de date DCFace.

Cercetătorii au studiat șase seturi de date sintetice pentru care sursa (reală) a setului de date era cunoscută. Deoarece atât setul de date real, cât și setul de date fals sunt foarte voluminoase, acest lucru este, în esență, ca și cum ați căuta o acă într-un mănunchi de fân.

Prin urmare, autorii au utilizat un model de recunoaștere facială de serie, cu o spate ResNet100 antrenat pe AdaFace funcția de pierdere (pe setul de date WebFace12M).

Cele șase seturi de date sintetice utilizate au fost: DCFace (un model de difuziune latentă); IDiff-Față (Uniform – un model de difuziune bazat pe FFHQ); IDiff-Față (Două etape – o variantă care utilizează o metodă de eșantionare diferită); GANDiffFace (bazat pe Rețele Adversative Generative și modele de difuziune, utilizând StyleGAN3 pentru a genera identități inițiale și, apoi, DreamBooth pentru a crea exemple variate); IDNet (o metodă GAN, bazată pe StyleGAN-ADA); și SFace (un cadru de protecție a identității).

Deoarece GANDiffFace utilizează atât metode GAN, cât și de difuziune, a fost comparat cu setul de date de antrenare al StyleGAN – cel mai apropiat de o “origine reală” pe care această rețea o oferă.

Autorii au exclus seturile de date sintetice care utilizează CGI, în loc de metode AI, și, la evaluarea rezultatelor, au exclus corespondențele pentru copii, din cauza anomaliilor de distribuție în acest sens, precum și imaginile non-fețe (care pot apărea frecvent în seturile de date cu fețe, unde sistemele de extragere web produc rezultate false pozitive pentru obiecte sau artefacte care au calități asemănătoare feței).

Similaritatea cosinusoidală a fost calculată pentru toate perechile recuperate și concatenate în histogramă, ilustrată mai jos:

O reprezentare histogramă a scorurilor de similaritate cosinusoidală calculate pe diverse seturi de date, împreună cu valorile lor de similaritate pentru perechile top-k (linii verticale punctate).

Numărul de similarități este reprezentat de vârfurile din graficul de mai sus. Lucrarea prezintă, de asemenea, comparații de exemple din cele șase seturi de date și imaginile lor estimate corespunzătoare din seturile de date reale, dintre care unele selecții sunt prezentate mai jos:

Exemple din multele instanțe reproduse în lucrarea sursă, la care cititorul este trimis pentru o selecție mai cuprinzătoare.

Lucrarea comentează:

‘[Seturile de date sintetice generate] conțin imagini foarte asemănătoare cu cele din setul de date de antrenare al modelului generator, ceea ce ridică îngrijorări cu privire la generarea unor astfel de identități.’

Autorii observă că, pentru această abordare, escaladarea spre seturi de date de volum mai mare este probabil să fie ineficientă, deoarece computația necesară ar fi extrem de împovărătoare. Ei mai observă că comparația vizuală a fost necesară pentru a infera corespondențe, și că recunoașterea facială automată nu ar fi, probabil, suficientă pentru o sarcină mai mare.

Cu privire la implicațiile cercetării și cu privire la drumurile înainte, lucrarea afirmă:

‘[Ne-am dori] să subliniem că motivul principal pentru generarea seturilor de date sintetice este de a aborda preocupările legate de confidențialitate la utilizarea seturilor de date de recunoaștere facială extrase de pe web la scară largă.

‘Prin urmare, scurgerea oricăror informații sensibile (cum ar fi identitățile imaginilor reale din setul de date de antrenare) în setul de date sintetice ridică îngrijorări critice cu privire la aplicarea datelor sintetice pentru sarcinile sensibile din punct de vedere al confidențialității, cum ar fi biometria. Studiul nostru aruncă lumină asupra capcanelor de confidențialitate în generarea seturilor de date sintetice de recunoaștere facială și deschide calea pentru studii viitoare privind generarea de seturi de date sintetice responsabile.’

Deși autorii promit o lansare de cod pentru această lucrare la pagina proiectului, nu există în prezent nicio legătură către depozit.

Concluzie

În ultima vreme, atenția mass-media a subliniat revenirea descrescătoare obținută prin antrenarea modelelor de inteligență artificială pe date generate de inteligență artificială.

Cercetarea elvețiană nouă, cu toate acestea, aduce în centrul atenției o considerație care poate fi mai presantă pentru numărul tot mai mare de companii care doresc să exploateze și să profite de inteligența artificială generativă – persistența modelelor de date protejate prin drepturi de autor sau neautorizate, chiar și în seturile de date concepute pentru a combate această practică. Dacă am fi obligați să-i dăm o definiție, în acest caz, ar putea fi numită “spălare de față”.

* Cu toate acestea, decizia Adobe de a permite imaginilor generate de inteligență artificială să fie încărcate în Adobe Stock a subminat, în esență, “puritatea” juridică a acestor date. Bloomberg a susținut în aprilie 2024 că imagini furnizate de utilizatori de la sistemul de inteligență artificială generativă MidJourney fuseseră incorporate în capacitățile Firefly.

^† Acest model nu este identificat în lucrare.

Publicat pentru prima dată miercuri, 6 noiembrie 2024