Ochrona zdrowia

Dane syntetyczne nie chronią w sposób niezawodny prywatności, twierdzą badacze

Published September 23, 2021

Updated April 5, 2026

Martin Anderson

Nowe badanie współpracy między Francją a Wielką Brytanią budzi wątpliwości co do rosnącej pewności branży, że dane syntetyczne mogą rozwiązać problemy związane z prywatnością, jakością i dostępnością (wśród innych problemów), które zagrażają postępom w sektorze machine learning.

Wśród kilku kluczowych punktów omówionych przez autorów, twierdzą oni, że dane syntetyczne modelowane z danych rzeczywistych zachowują wystarczającą ilość prawdziwych informacji, aby nie zapewnić niezawodnej ochrony przed atakami inferencyjnymi i atakami na członkostwo, które mają na celu deanonimizację danych i ponowne skojarzenie ich z rzeczywistymi osobami.

Ponadto, osoby, które są najbardziej narażone na takie ataki, w tym te z krytycznymi stanami medycznymi lub wysokimi rachunkami szpitalnymi (w przypadku anonimizacji danych medycznych), są, ze względu na “outlier” charakter ich stanu, najbardziej prawdopodobne do ponownego zidentyfikowania przez te techniki.

Artykuł zauważa:

‘Dane syntetyczne udostępnione przeciwnikowi strategicznemu pozwalają na inferencję, z wysokim poziomem ufności, obecności rekordu docelowego w oryginalnych danych.’

Artykuł również zauważa, że dane syntetyczne z różnicową ochroną prywatności, które zaciemniają sygnaturę poszczególnych rekordów, faktycznie chronią prywatność osób, ale tylko poprzez znaczne ograniczenie użyteczności systemów odzyskiwania informacji, które z nich korzystają.

Jeśli cokolwiek, badacze zauważają, że podejścia z różnicową ochroną prywatności – które wykorzystują “rzeczywiste” informacje ‘na odległość’ za pośrednictwem danych syntetycznych – sprawiają, że scenariusz bezpieczeństwa gorszy niż byłby inaczej:

‘Zestawy danych syntetycznych nie dają żadnej przejrzystości co do tego kompromisu. Nie jest możliwe przewidzenie, jakie cechy danych zostaną zachowane, a jakie wzorce zostaną stłumione.’

Nowy artykuł, zatytułowany Syntetyczne dane – Anonimizacja Groundhog Day, pochodzi od dwóch badaczy z École Polytechnique Fédérale de Lausanne (EPFL) w Paryżu i badacza z University College London (UCL).

Badacze przeprowadzili testy istniejących algorytmów szkolenia modeli generatywnych, i stwierdzili, że pewne decyzje implementacyjne naruszają formalne gwarancje prywatności zapewnione w ramach, pozostawiając różne rekordy narażone na ataki inferencyjne.

Autorzy oferują zrewidowaną wersję każdego algorytmu, który potencjalnie łagodzi te ekspozycje, i udostępniają kod jako bibliotekę open source. Twierdzą, że pomoże to badaczom w ocenie zysków prywatności danych syntetycznych i użytecznym porównaniu popularnych metod anonimizacji. Nowy framework obejmuje dwa istotne metody ataków na prywatność, które mogą być stosowane w przypadku dowolnego algorytmu szkolenia modelu generatywnego.

Dane Syntetyczne

Dane syntetyczne są wykorzystywane do szkolenia modeli machine learning w różnych scenariuszach, w tym w przypadkach, w których brak kompletnych informacji może być potencjalnie uzupełniony przez dane ersatz. Jednym z przykładów jest możliwość wykorzystania CGI wygenerowanych twarzy do dostarczenia “trudnych” lub rzadkich zdjęć twarzy do zestawów danych syntetycznych, w których zdjęcia profilowe, ostre kąty lub nietypowe wyrażenia są często rzadko spotykane w materiale źródłowym.

Inne typy CGI obrazów zostały wykorzystane do zaludnienia zestawów danych, które ostatecznie będą uruchamiane na danych niesyntetycznych, takich jak zestawy danych, które zawierają ręce i meble.

W kwestii ochrony prywatności, dane syntetyczne mogą być generowane z danych rzeczywistych za pomocą systemów Generative Adversarial Network (GAN), które wyodrębniają cechy z danych rzeczywistych i tworzą podobne, fikcyjne rekordy, które są prawdopodobnie ogólniejsze dla późniejszych (niewidocznych, rzeczywistych) danych, ale mają na celu zaciemnić szczegóły rzeczywistych osób przedstawionych w danych źródłowych.

Metodologia

Dla celów nowego badania, autorzy ocenili zyski prywatności w przypadku pięciu algorytmów szkolenia modeli generatywnych. Trzy z tych modeli nie oferują jawnej ochrony prywatności, podczas gdy dwa pozostałe posiadają gwarancje różnicowej prywatności. Te modele tabelaryczne zostały wybrane, aby reprezentować szeroki zakres architektur.

Atakowane modele to BayNet, PrivBay (pochodna PrivBayes/BayNet), CTGAN, PATEGAN i IndHist.

Ramowy framework dla modeli został zaimplementowany jako biblioteka Python z dwoma kluczowymi klasami – GenerativeModels i PrivacyAttacks. Ostatnia z nich składa się z dwóch aspektów – przeciwnika inferencji członkostwa i ataku na inferencję członkostwa. Framework jest również w stanie ocenić korzyści prywatności “oczyszczonych” (tj. zanonimizowanych) danych i danych syntetycznych.

Dwa zestawy danych wykorzystane w testach to Adult Data Set z UCI Machine Learning Repository, oraz Hospital Discharge Data Public Use Data File z Texas Department of State Health Services. Wersja zestawu danych z Teksasu wykorzystana przez badaczy zawiera 50 000 rekordów wybranych z kart pacjentów za rok 2013.

Ataki i wyniki

Ogólnym celem badania jest ustalenie “łączności” (ponowne skojarzenie danych rzeczywistych z danymi syntetycznymi, które zostały zainspirowane przez nie). Modele ataków wykorzystane w badaniu obejmują klasyfikatory regresji logistycznej, lasy losowe i najbliższych sąsiadów.

Autorzy wybrali dwa grupy docelowe składające się z pięciu losowo wybranych rekordów dla “mniejszościowych” kategorii populacji, ponieważ są one najbardziej narażone na atak łączności. Wybrali również rekordy z “rzadkimi wartościami atrybutów kategorialnych” poza 95. percentylem tego atrybutu. Przykłady obejmują rekordy związane z wysokim ryzykiem śmiertelności, wysokimi kosztami szpitalnymi i ciężkością choroby.

Chociaż artykuł nie wyjaśnia tego aspektu, z punktu widzenia prawdopodobnych atakujących w świecie rzeczywistym, są to właśnie te “drogie” lub “wysokiego ryzyka” pacjenci, którzy są najbardziej prawdopodobnie atakowani przez ataki inferencyjne i inne rodzaje podejść do wykradzenia danych pacjentów.

Wielokrotne modele ataków zostały przeszkolone w odniesieniu do publicznie dostępnych informacji, aby rozwijać “modele cieni” nad dziesięcioma celami. Wyniki wskazują, że wiele rekordów było “wysoce narażonych” na ataki łączności skierowane przeciwko nim przez badaczy. Wyniki również wykazały, że 20% wszystkich celów w próbach otrzymało zysk prywatności zero z danych syntetycznych wyprodukowanych przez metody GAN.

Badacze zauważają, że wyniki różnią się w zależności od metody wykorzystanej do generowania danych syntetycznych, wektora ataku i cech zestawu danych docelowego. Raport stwierdza, że w wielu przypadkach skuteczne tłumienie tożsamości przez podejścia danych syntetycznych obniża użyteczność wynikających z tego systemów. Skutecznie, użyteczność i dokładność takich systemów mogą być w wielu przypadkach bezpośrednim wskaźnikiem tego, jak są one narażone na ataki ponownej identyfikacji.

Badacze konkludują:

‘Jeśli zestaw danych syntetycznych zachowuje cechy oryginalnych danych z wysoką dokładnością, a tym samym zachowuje użyteczność danych dla przypadków użycia, dla których są reklamowane, jednocześnie umożliwia przeciwnikom wyodrębnienie wrażliwych informacji o osobach.

‘Wysoki zysk w prywatności za pomocą któregokolwiek z mechanizmów anonimizacji, które oceniliśmy, może być osiągnięty tylko wtedy, gdy opublikowany syntetyczny lub zanonimizowany wariant oryginalnych danych nie przenosi sygnału indywidualnych rekordów w surowych danych i w efekcie tłumi ich rekord.’