Stummel Synthetische Daten schützen die Privatsphäre nicht zuverlässig, behaupten Forscher – Unite.AI
Vernetzen Sie sich mit uns

Gesundheitswesen

Forscher behaupten, dass synthetische Daten die Privatsphäre nicht zuverlässig schützen

mm

Veröffentlicht

 on

Eine neue Forschungskooperation zwischen Frankreich und dem Vereinigten Königreich lässt Zweifel am wachsenden Vertrauen der Industrie aufkommen, dass synthetische Daten (unter anderem) die Datenschutz-, Qualitäts- und Verfügbarkeitsprobleme lösen können, die den Fortschritt im Bereich des maschinellen Lernens gefährden.

Unter mehreren angesprochenen Kernpunkten behaupten die Autoren, dass synthetische Daten, die aus realen Daten modelliert wurden, genügend echte Informationen enthalten, um keinen zuverlässigen Schutz vor Inferenz- und Mitgliedschaftsangriffen zu bieten, die darauf abzielen, Daten zu deanonymisieren und sie wieder mit tatsächlichen Personen zu verknüpfen.

Darüber hinaus werden die Personen, die durch solche Angriffe am meisten gefährdet sind, einschließlich Personen mit kritischem Gesundheitszustand oder hohen Krankenhausrechnungen (im Fall der Anonymisierung von Krankenakten), aufgrund der „Ausreißer“-Natur ihres Zustands am ehesten erneut identifiziert diese Techniken.

Das Papier stellt fest:

„Wenn ein strategischer Gegner Zugriff auf einen synthetischen Datensatz hat, kann er mit hoher Sicherheit auf das Vorhandensein eines Zieldatensatzes in den Originaldaten schließen.“

Das Papier weist auch darauf hin differenziell private synthetische Daten, das die Signatur einzelner Datensätze verschleiert, schützt tatsächlich die Privatsphäre von Einzelpersonen, beeinträchtigt jedoch nur die Nützlichkeit der Informationsabrufsysteme, die es verwenden, erheblich.

Die Forscher beobachten eher differenzierte private Ansätze – die „echte“ Informationen nutzen 'auf einen Schlag' über synthetische Daten – erstellen Sie das Sicherheitsszenario schlimmer als es sonst gewesen wäre:

„[Synthetische] Datensätze geben keine Transparenz über diesen Kompromiss.“ „Es ist unmöglich vorherzusagen, welche Dateneigenschaften erhalten bleiben und welche Muster unterdrückt werden.“

The new Krepppapier, Betitelt Synthetische Daten – Anonymisierung Groundhog Day, stammt von zwei Forschern der École Polytechnique Fédérale de Lausanne (EPFL) in Paris und einem Forscher des University College London (UCL).

Die Forscher führten Tests bestehender privater generativer Modelltrainingsalgorithmen durch und stellten fest, dass bestimmte Implementierungsentscheidungen gegen die in den Frameworks bereitgestellten formalen Datenschutzgarantien verstoßen, wodurch verschiedene Datensätze Inferenzangriffen ausgesetzt sind.

Die Autoren bieten eine überarbeitete Version jedes Algorithmus an, die diese Risiken potenziell mindert, und erstellen den Code verfügbar als Open-Source-Bibliothek. Sie behaupten, dass dies Forschern dabei helfen wird, die Vorteile synthetischer Daten für die Privatsphäre zu bewerten und gängige Anonymisierungsmethoden sinnvoll zu vergleichen. Das neue Framework umfasst zwei relevante Datenschutzangriffsmethoden, die auf jeden generativen Modelltrainingsalgorithmus angewendet werden können.

Synthetische Daten

Synthetische Daten werden zum Trainieren von Modellen für maschinelles Lernen in verschiedenen Szenarien verwendet, einschließlich Fällen, in denen ein Mangel an umfassenden Informationen möglicherweise durch Ersatzdaten ausgeglichen werden kann. Ein Beispiel hierfür ist die Möglichkeit, CGI-generierte Gesichter zu verwenden, um „schwierige“ oder seltene Gesichtsfotos für Bildsynthesedatensätze bereitzustellen, bei denen Profilbilder, spitze Winkel oder ungewöhnliche Ausdrücke im Quellmaterial oft selten zu sehen sind.

Andere Arten von CGI-Bildern wurden verwendet, um Datensätze zu füllen, die schließlich mit nicht-synthetischen Daten ausgeführt werden, beispielsweise Datensätzen mit Funktionen Hände und Möbel.

Im Hinblick auf den Schutz der Privatsphäre können synthetische Daten aus realen Daten durch Systeme des Generative Adversarial Network (GAN) generiert werden, die Merkmale aus den realen Daten extrahieren und ähnliche, fiktive Datensätze erstellen, die sich wahrscheinlich gut auf spätere (unsichtbare, reale) Daten übertragen lassen. Sie sollen jedoch Details über reale Personen verschleiern, die in den Quelldaten enthalten sind.

Methodik

Für die Zwecke der neuen Forschung bewerteten die Autoren die Verbesserung der Privatsphäre anhand von fünf generativen Modelltrainingsalgorithmen. Drei der Modelle bieten keinen expliziten Datenschutz, während die anderen beiden über unterschiedliche Datenschutzgarantien verfügen. Diese tabellarischen Modelle wurden ausgewählt, um ein breites Spektrum an Architekturen darzustellen.

Die angegriffenen Modelle waren BayNet, PrivBay (eine Ableitung von PrivBayes/BayNet), CTGAN, PATEGAN und IndHist.

Das Evaluierungsframework für die Modelle wurde als Python-Bibliothek mit zwei Kernklassen implementiert – GenerativeModelle und Datenschutzangriffe. Letzteres weist zwei Facetten auf – einen Mitgliedschafts-Inferenz-Gegner und einen Mitgliedschafts-Inferenz-Angriff. Das Framework ist auch in der Lage, die Datenschutzvorteile „bereinigter“ (dh anonymisierter) Daten und synthetischer Daten zu bewerten.

Die beiden in den Tests verwendeten Datensätze waren: Datensatz für Erwachsene aus dem UCI Machine Learning Repository und dem Datendatei zur öffentlichen Nutzung von Krankenhausentlassungsdaten vom Texas Department of State Health Services. Die von den Forschern verwendete texanische Datensatzversion enthält 50,000 Datensätze aus Patientenakten für das Jahr 2013.

Angriffe und Erkenntnisse

Das allgemeine Ziel der Forschung besteht darin, die „Verknüpfbarkeit“ (die Neuverknüpfung realer Daten mit davon inspirierten synthetischen Daten) herzustellen. Zu den in der Studie verwendeten Angriffsmodellen gehören logistische Regression, Random Forests und K-Nearest Neighbors-Klassifikatoren.

Die Autoren wählten zwei Zielgruppen aus, die aus fünf zufällig ausgewählten Datensätzen für „Minderheiten“-Kategorien der Bevölkerung bestanden, da dies der Fall ist höchstwahrscheinlich anfällig für einen Linkage-Angriff sein. Sie wählten auch Datensätze mit „seltenen kategorialen Attributwerten“ außerhalb des 95 %-Quantils dieser Attribute aus. Beispiele hierfür sind Aufzeichnungen über ein hohes Sterblichkeitsrisiko, hohe Gesamtkosten im Krankenhaus und den Schweregrad der Erkrankung.

Auch wenn dieser Aspekt in der Arbeit nicht näher erläutert wird, handelt es sich aus der Sicht wahrscheinlicher Angreifer aus der realen Welt genau um die Art von „teuren“ oder „Hochrisiko“-Patienten, die am ehesten von Mitgliedschaftsrückschlüssen und anderen Arten von Exfiltrationsansätzen ins Visier genommen werden zu Patientenakten.

Mehrere Angriffsmodelle wurden anhand öffentlicher Referenzinformationen trainiert, um „Schattenmodelle“ über zehn Ziele zu entwickeln. Die Ergebnisse einer Reihe von Experimenten (wie zuvor beschrieben) deuten darauf hin, dass eine Reihe von Datensätzen „sehr anfällig“ für von den Forschern auf sie gerichtete Linkage-Angriffe waren. Die Ergebnisse zeigten außerdem, dass 20 % aller Zielpersonen in den Studien einen Datenschutzgewinn von erzielten Null aus synthetischen Daten, die mit GAN-Methoden erstellt wurden.

Die Forscher stellen fest, dass die Ergebnisse je nach der zur Generierung synthetischer Daten verwendeten Methode, dem Angriffsvektor und den Merkmalen des Zieldatensatzes unterschiedlich ausfielen. Der Bericht stellt fest, dass eine wirksame Identitätsunterdrückung durch synthetische Datenansätze in vielen Fällen den Nutzen der resultierenden Systeme verringert. Tatsächlich kann die Nützlichkeit und Genauigkeit solcher Systeme in vielen Fällen ein direkter Hinweis darauf sein, wie anfällig sie für Reidentifizierungsangriffe sind.

Die Forscher kommen zu dem Schluss:

„Wenn ein synthetischer Datensatz die Eigenschaften der Originaldaten mit hoher Genauigkeit beibehält und somit den Datennutzen für die Anwendungsfälle behält, für die er beworben wird, ermöglicht er Angreifern gleichzeitig, sensible Informationen über Einzelpersonen zu extrahieren.“

„Ein hoher Gewinn an Privatsphäre durch einen der von uns evaluierten Anonymisierungsmechanismen kann nur dann erreicht werden, wenn die veröffentlichte synthetische oder bereinigte Version der Originaldaten das Signal einzelner Datensätze in den Rohdaten nicht weiterleitet und deren Aufzeichnung faktisch unterdrückt.“