Stumm Synthetesch Donnéeën schützt d'Privatsphär net zouverlässeg, Fuerscher behaapten - Unite.AI
Connect mat eis

Gesondheetswiesen

Synthetesch Donnéeën schützt net zouverlässeg Privatsphär, Fuerscher behaapten

mm

publizéiert

 on

Eng nei Fuerschungszesummenaarbecht tëscht Frankräich a Groussbritannien stellt Zweifel un d'wuessend Industrievertrauen datt synthetesch Donnéeën d'Privatsphär, Qualitéit an Disponibilitéitsprobleemer léisen (ënnert anerem Themen), déi de Fortschrëtt am Maschinnléiere Secteur bedrohen.

Ënnert e puer Schlësselpunkten, déi adresséiert sinn, behaapten d'Auteuren datt synthetesch Donnéeën, déi aus realen Donnéeën modelléiert sinn, genuch vun der echt Informatioun behalen fir keen zouverléissege Schutz virun Inferenz a Memberschaftattacken ze bidden, déi sichen Daten ze deanonymiséieren an se mat aktuellen Leit nei ze associéieren.

Ausserdeem sinn déi Persounen am meeschte Risiko vun esou Attacken, dorënner déi mat kriteschen medizinesche Konditiounen oder héije Spidolsrechnungen (am Fall vun der Anonymiséierung vun der medizinescher Rekord) duerch d'"outlier" Natur vun hirem Zoustand, héchstwahrscheinlech nei identifizéiert ze ginn dës Techniken.

De Pabeier beobachtet:

"Gitt Zougang zu engem syntheteschen Dataset, kann e strategesche Géigner, mat héijer Vertrauen, d'Präsenz vun engem Zilrekord an den ursprénglechen Donnéeën ofginn."

De Pabeier notéiert och dat differentiell privat syntheteschen Daten, déi d'Ënnerschrëft vun eenzelne Rekorder verstoppt, schützt zwar d'Privatsphär vun den Individuen, awer nëmmen duerch d'Nëtzlechkeet vun den Informatiounsrecuperatiounssystemer déi se benotzen.

Wann iwwerhaapt, observéieren d'Fuerscher, differenziell privat Approchen - déi "richteg" Informatioun benotzen 'op engem ewechhuelen' iwwer syntheteschen Donnéeën - maachen d'Sécherheet Szenario verschlechtert wéi et soss wier:

'[Synthetesch] Datesätz ginn keng Transparenz iwwer dësen Ofkommes. Et ass onméiglech virauszesoen, wéi eng Datekarakteristiken erhale bleiwen a wéi eng Mustere ënnerdréckt ginn.'

déi nei PabeierTitel Synthetesch Donnéeën - Anonymiséierung Groundhog Day, kënnt vun zwee Fuerscher an der École Polytechnique Fédérale de Lausanne (EPFL) zu Paräis an engem Fuerscher vum University College London (UCL).

D'Fuerscher hunn Tester vun existente privaten generative Modell Training Algorithmen gemaach, a fonnt datt verschidde Implementatiounsentscheedungen déi formell Privatsphärgarantien verletzen, déi an de Kaderen geliwwert ginn, a verschidde Rekorder hannerloossen op Inferenzattacken.

D'Auteuren bidden eng iwwerschafft Versioun vun all Algorithmus, deen dës Beliichtungen potenziell reduzéiert, a maachen de Code sinn als Open Source Bibliothéik. Si behaapten datt dëst d'Fuerscher hëllefe fir d'Privatsphärgewënn vu syntheteschen Donnéeën ze evaluéieren an nëtzlech populär Anonymiséierungsmethoden ze vergläichen. Den neie Kader integréiert zwee pertinent Privatsphär Attacke Methoden déi op all generativ Modell Training Algorithmus applizéiert kënne ginn.

Synthetesch Donnéeën

Synthetesch Donnéeën gi benotzt fir Maschinnléiermodeller a verschiddenen Szenarien ze trainéieren, dorënner Fäll wou e Mangel u komplett Informatioun potenziell duerch Ersatzdaten ausgefëllt ka ginn. E Beispill vun dësem ass d'Méiglechkeet fir CGI-generéiert Gesiichter ze benotzen fir 'schwéier' oder selten Gesiichtsfotoe fir Bildsynthese-Datesätz ze liwweren, wou Profilbilder, akute Winkelen oder ongewéinlech Ausdréck dacks selten a Quellmaterial gesi ginn.

Aner Aarte vu CGI-Biller goufen benotzt fir Datesätz ze populéieren déi schliisslech op net-syntheteschen Donnéeën lafen, sou wéi Datesätz déi Feature Hänn an Miwwelen.

Wat de Privatsphärschutz ugeet, kënnen synthetesch Donnéeën aus realen Donnéeën duerch Generative Adversarial Network (GAN) Systemer generéiert ginn, déi Features aus den realen Donnéeën extrahéieren an ähnlech, fiktiv Opzeechnungen erstellen, déi méiglecherweis gutt op spéider (onsiichten, real) Donnéeën generaliséieren, awer sollen Detailer vun echte Leit, déi an de Quelldaten präsent sinn, verschmëlzen.

Methodik

Fir den Zweck vun der neier Fuerschung hunn d'Autoren Privatsphärgewënn iwwer fënnef generativ Modell Training Algorithmen evaluéiert. Dräi vun de Modeller bidden net explizit Privatsphär Schutz, während déi aner zwee kommen mat differentiell Privatsphär Garantien. Dës Tabularmodeller goufen gewielt fir eng breet Palette vun Architekturen ze representéieren.

Déi ugegraff Modeller waren BayNet, PrivBay (eng Oflehnung vu PrivBayes/BayNet), CTGAN, PATEGAN an IndHist.

D'Evaluatiounskader fir d'Modeller gouf als Python-Bibliothéik mat zwou Kärklassen ëmgesat - Generative Modeller an Privatsphär Attacken. Déi lescht Fonctiounen zwou Facetten - e Memberschaft Inferenz Géigner, an eng Memberschaft Inferenz Attack. De Kader ass och fäeg d'Privatsphärvirdeeler vun "sanitiséierten" (dh anonymiséierter) Donnéeën a syntheteschen Donnéeën ze evaluéieren.

Déi zwee Datesätz, déi an den Tester benotzt goufen, waren den Erwuessener Dateset vum UCI Machine Learning Repository, an dem Spidol Entladungsdaten Ëffentlech Benotzungsdatendatei vum Texas Department of State Health Services. D'Texas Datasetversioun, déi vun de Fuerscher benotzt gëtt, enthält 50,000 Opzeechnungen, déi aus Patiente records fir d'Joer 2013 gepréift goufen.

Attacken a Befunde

D'allgemeng Zil vun der Fuerschung ass d'Verbindbarkeet ze etabléieren (d'Reassociatioun vun realen Donnéeën mat syntheteschen Donnéeën, déi dovun inspiréiert goufen). Attacke Modeller, déi an der Etude benotzt goufen, enthalen Logistesch Réckgang, Zoufallsbëscher a K-Nearest Neighbors Klassifizéierer.

D'Auteuren hunn zwou Zilgruppen ausgewielt, déi aus fënnef zoufälleg ausgewielte Rekorder fir 'Minoritéit' Kategorien vun der Bevëlkerung bestinn, well dës sinn wahrscheinlech fir e Verknëppungattack ufälleg ze sinn. Si hunn och records ausgewielt mat 'selten kategoreschen Attributwäerter' ausserhalb vun deenen Attributer 95% Quantil. Beispiller enthalen records am Zesummenhang mat héije Risiko vu Mortalitéit, héich Gesamt Spidolskäschte, a Krankheetsgrad.

Och wann d'Zeitung net iwwer dësen Aspekt ausschafft, aus der Siicht vu méiglecher Real-Welt Ugräifer, sinn dës genee déi Aart vu "deier" oder "héich Risiko" Patienten déi am meeschte méiglecherweis duerch d'Memberschaftsinferenz an aner Aarte vun Exfiltratiouns Approche gezielt ginn. zu Patient records.

Multiple Attackmodeller goufen géint ëffentlech Referenzinformatioun trainéiert fir 'Schattmodeller' iwwer zéng Ziler z'entwéckelen. D'Resultater iwwer eng Rei vun Experimenter (wéi virdru beschriwwen) weisen datt eng Zuel vun Opzeechnungen "héich vulnérabel" waren fir Verbindungsattacken, déi op si vun de Fuerscher gezielt sinn. D'Resultater hunn och fonnt datt 20% vun all Ziler an de Studien e Privatsphärgewënn vun null aus syntheteschen Daten produzéiert duerch GAN Methoden.

D'Fuerscher bemierken datt d'Resultater variéieren, jee no der Method déi benotzt gëtt fir synthetesch Donnéeën ze generéieren, den Attackvektor an d'Features vum geziilten Dataset. De Bericht fënnt datt a ville Fäll effektiv Identitéitsënnerdréckung duerch synthetesch Date Approche d'Utilitéit vun de resultéierende Systemer senkt. Effektiv kënnen d'Nëtzlechkeet an d'Genauegkeet vun esou Systemer a ville Fäll en direkten Index sinn, wéi vulnérabel si fir Reidentifikatiounsattacken sinn.

D'Fuerscher schléissen:

'Wann e syntheteschen Dataset d'Charakteristike vun den ursprénglechen Donnéeën mat héijer Genauegkeet behält, an dofir d'Datenutilitéit behält fir d'Benotzungsfäll fir déi se ugekënnegt ass, erméiglecht et gläichzäiteg Géigner sensibel Informatioun iwwer Individuen ze extrahieren.

"En héije Gewënn an der Privatsphär duerch irgendeng vun den Anonymiséierungsmechanismen, déi mir evaluéiert hunn, kann nëmmen erreecht ginn, wann déi publizéiert synthetesch oder sanéiert Versioun vun den ursprénglechen Donnéeën net duerch d'Signal vun eenzelnen Opzeechnungen an de rauen Donnéeën duerchdréit an tatsächlech hir Rekord ënnerdréckt."