Sănătate

Datele sintetice nu protejează în mod fiabil confidențialitatea, susțin cercetătorii

Published September 23, 2021

Updated April 5, 2026

Martin Anderson

O nouă colaborare de cercetare între Franța și Regatul Unit aruncă îndoieli asupra încrederii tot mai mari a industriei că datele sintetice pot rezolva problemele de confidențialitate, calitate și disponibilitate (printre altele) care amenință progresul în sectorul învățării automate.

Printre punctele cheie abordate, autorii afirmă că datele sintetice modelate din date reale păstrează suficiente informații autentice pentru a nu oferi o protecție fiabilă împotriva atacurilor de inferență și de apartenență, care încearcă să deanonimizeze datele și să le reasocieze cu persoane reale.

Mai mult, persoanele care sunt cel mai mult expuse la astfel de atacuri, inclusiv cele cu afecțiuni medicale critice sau facturi spitalicești ridicate (în cazul anonimizării înregistrărilor medicale) sunt, prin natura lor de “outlier” a afecțiunii, cel mai probabil să fie reidentificate prin aceste tehnici.

Articolul observă:

‘Având acces la un set de date sintetice, un adversar strategic poate infera, cu o încredere ridicată, prezența unui înregistrări țintă în datele originale.’

Articolul notează, de asemenea, că datele sintetice cu protecție diferențială, care obscurează semnătura înregistrărilor individuale, protejează într-adevăr confidențialitatea persoanelor, dar numai prin compromiterea semnificativă a utilității sistemelor de recuperare a informațiilor care le utilizează.

Dacă este ceva, cercetătorii observă că abordările cu protecție diferențială – care utilizează informații “reale” ‘la o distanță’ prin date sintetice – fac scenariul de securitate mai rău decât ar fi fost altfel:

‘Seturile de date sintetice nu oferă nicio transparență cu privire la acest compromis. Este imposibil să se prevadă ce caracteristici ale datelor vor fi păstrate și ce modele vor fi suprimate.’

Noul articol, intitulat Date sintetice – Anonimizarea zilei de iarnă, provine de la doi cercetători de la École Polytechnique Fédérale de Lausanne (EPFL) din Paris și un cercetător de la University College London (UCL).

Cercetătorii au efectuat teste asupra algoritmilor existenți de antrenare a modelelor generative private, și au constatat că anumite decizii de implementare încalcă garanțiile formale de confidențialitate oferite în cadrele de lucru, lăsând diverse înregistrări expuse la atacuri de inferență.

Autorii oferă o versiune revizuită a fiecărui algoritm care poate mitigă aceste expuneri și fac codul disponibil ca o bibliotecă cu sursă deschisă. Ei susțin că acest lucru va ajuta cercetătorii să evalueze câștigurile de confidențialitate ale datelor sintetice și să compare util metodele populare de anonimizare. Noul cadru incorporează două metode pertinente de atac de confidențialitate care pot fi aplicate oricărui algoritm de antrenare a modelului generativ.

Date sintetice

Datele sintetice sunt utilizate pentru a antrena modele de învățare automată în diverse scenarii, inclusiv în cazurile în care o lipsă de informații cuprinzătoare poate fi potențial completată de date ersatz. Un exemplu al acestui lucru este posibilitatea de a utiliza fețe generate de CGI pentru a furniza ‘dificile’ sau ‘nefrecvente’ fotografii cu fețe pentru seturile de date de sinteză a imaginilor, unde imaginile de profil, unghiurile acute sau expresiile neobișnuite sunt adesea rare în materialul sursă.

Alte tipuri de imagini CGI au fost utilizate pentru a popula seturi de date care vor fi ulterior rulate pe date nesintetice, cum ar fi seturile de date care prezintă mâini și mobilier.

În ceea ce privește protecția confidențialității, datele sintetice pot fi generate din date reale de sisteme de rețele antagoniste generative (GAN) care extrag caracteristici din datele reale și creează înregistrări fictive similare care sunt susceptibile de a se generaliza bine la date reale (nevăzute) ulterioare, dar care sunt destinate să obscureze detalii despre persoanele reale prezentate în datele sursă.

Metodologie

În scopul noii cercetări, autorii au evaluat câștigurile de confidențialitate la cinci algoritmi de antrenare a modelelor generative. Trei dintre modele nu oferă protecție explicită de confidențialitate, în timp ce celelalte două vin cu garanții de protecție diferențială. Aceste modele tabulare au fost alese pentru a reprezenta o gamă largă de arhitecturi.

Modelele atacate au fost BayNet, PrivBay (o derivare a PrivBayes/BayNet), CTGAN, PATEGAN și IndHist.

Cadru de evaluare pentru modele a fost implementat ca o bibliotecă Python cu două clase principale – GenerativeModels și PrivacyAttacks. Ultimul are două fețe – un adversar de inferență a apartenenței și un atac de inferență a apartenenței. Cadru este, de asemenea, capabil să evalueze beneficiile de confidențialitate ale datelor “sanitizate” (adică anonimizate) și ale datelor sintetice.

Cele două seturi de date utilizate în testele au fost Setul de date Adult de la Repository de învățare automată UCI și Fișierul public de date de descărcare a datelor de externare spitalicească de la Departamentul de Stat al Serviciilor de Sănătate din Texas. Versiunea setului de date din Texas utilizată de cercetători conține 50.000 de înregistrări extrase din înregistrările pacienților pentru anul 2013.

Atacuri și rezultate

Obiectivul general al cercetării este de a stabili “legături” (reassocierea datelor reale cu datele sintetice care au fost inspirate de acestea). Modelele de atac utilizate în studiu includ clasificatorii Logistic Regression, Random Forests și K-Nearest Neighbors.

Autorii au selectat două grupuri țintă constând din cinci înregistrări alese aleatoriu pentru categoriile “minoritare” ale populației, deoarece acestea sunt cele mai susceptibile la un atac de legătură. Ei au selectat, de asemenea, înregistrări cu “valori de atribute categorice rare” în afara cuantilului de 95% al acelui atribut. Exemple includ înregistrări legate de risc ridicat de mortalitate, facturi spitalicești totale ridicate și gravitatea bolii.

Deși articolul nu detaliază acest aspect, din punctul de vedere al atacatorilor din lumea reală, acestea sunt exact tipurile de “pacienți scumpi” sau “cu risc ridicat” care sunt cel mai probabil să fie ținta atacurilor de inferență a apartenenței și a altor tipuri de abordări de exfiltrare a înregistrărilor pacienților.

Multiple modele de atac au fost antrenate împotriva informațiilor de referință publice pentru a dezvolta “modele de umbră” peste zece ținte. Rezultatele obținute într-o serie de experimente (așa cum s-a descris anterior) indică faptul că un număr de înregistrări au fost “foarte vulnerabile” la atacurile de legătură îndreptate către acestea de către cercetători. Rezultatele au constatat, de asemenea, că 20% din toate țintele din încercări au primit un câștig de confidențialitate de zero din datele sintetice produse de metodele GAN.

Cercetătorii notează că rezultatele au variat, în funcție de metoda utilizată pentru a genera date sintetice, vectorul de atac și caracteristicile setului de date țintă. Raportul constată că, în multe cazuri, suprimarea eficientă a identității prin abordări de date sintetice reduce utilitatea sistemelor rezultate. În esență, utilitatea și acuratețea unor astfel de sisteme pot, în multe cazuri, să fie un indice direct al vulnerabilității lor la atacuri de reidentificare.

Cercetătorii concluzionează:

‘Dacă un set de date sintetice păstrează caracteristicile datelor originale cu o acuratețe ridicată și, prin urmare, păstrează utilitatea datelor pentru cazurile de utilizare pentru care este publicitat, acesta permite, în același timp, adversarilor să extragă informații sensibile despre indivizi.

‘Un câștig ridicat în confidențialitate prin oricare dintre mecanismele de anonimizare pe care le-am evaluat poate fi obținut numai dacă versiunea publicată a setului de date sintetice sau a datelor sanitizate nu transmite semnalul înregistrărilor individuale din datele brute și, în efect, suprimă înregistrarea.’