tynkä Synteettiset tiedot eivät luotettavasti suojaa yksityisyyttä, tutkijat väittävät - Unite.AI
Liity verkostomme!

Terveydenhuolto

Synteettiset tiedot eivät luotettavasti suojaa yksityisyyttä, väittävät tutkijat

mm

Julkaistu

 on

Uusi tutkimusyhteistyö Ranskan ja Ison-Britannian välillä kyseenalaistaa alan kasvavan luottamuksen siihen, että synteettiset tiedot voivat ratkaista yksityisyyttä, laatua ja saatavuutta koskevat ongelmat (muun muassa), jotka uhkaavat koneoppimissektorin edistymistä.

Useiden käsiteltyjen avainkohtien joukossa kirjoittajat väittävät, että todellisesta tiedosta mallinnettu synteettinen data säilyttää tarpeeksi aitoa tietoa, jotta se ei tarjoa luotettavaa suojaa päättely- ja jäsenhyökkäyksiltä, ​​jotka pyrkivät deanonymisoimaan tiedot ja yhdistämään sen uudelleen todellisiin ihmisiin.

Lisäksi henkilöt, jotka ovat suurimmassa vaarassa tällaisille hyökkäyksille, mukaan lukien henkilöt, joilla on kriittiset sairaudet tai korkeat sairaalalaskut (kun kyseessä on sairauskertomusten anonymisointi), ovat todennäköisimmin uudelleen tunnistettuja tilansa "poikkeavan" luonteen vuoksi. näitä tekniikoita.

Lehti huomauttaa:

"Synteettisen tietojoukon avulla strateginen vastustaja voi päätellä suurella varmuudella kohdetietueen olemassaolon alkuperäisessä tiedossa."

Lehti myös huomauttaa tämän differentiaalisesti yksityistä synteettistä dataa, joka peittää yksittäisten tietueiden allekirjoituksen, todellakin suojelee yksilöiden yksityisyyttä, mutta vain lamauttaa merkittävästi sitä käyttävien tiedonhakujärjestelmien hyödyllisyyttä.

Jos mitään, tutkijat havaitsevat erilaisia ​​​​yksityisiä lähestymistapoja, jotka käyttävät "todellista" tietoa "yhdessä poistaminen" synteettisten tietojen kautta – luo turvallisuusskenaario huonompi kuin se muuten olisi ollut:

"[Synteettiset] tietojoukot eivät anna mitään avoimuutta tästä kompromissista. On mahdotonta ennustaa, mitkä dataominaisuudet säilyvät ja mitkä kuviot tukahdutetaan.

Uusi paperi, nimeltään Synteettiset tiedot – Anonymisation Groundhog Day, tulee kahdelta École Polytechnique Fédérale de Lausannen (EPFL) tutkijalta Pariisissa ja tutkijalta University College Londonista (UCL).

Tutkijat testasivat olemassa olevia yksityisiä generatiivisten mallien koulutusalgoritmeja ja havaitsivat, että tietyt toteutuspäätökset rikkovat viitekehysten muodollisia tietosuojatakuita, jolloin erilaiset tietueet ovat alttiina päättelyhyökkäyksille.

Kirjoittajat tarjoavat tarkistetun version jokaisesta algoritmista, joka mahdollisesti lieventää näitä altistuksia, ja tekevät koodin saatavissa avoimen lähdekoodin kirjastona. He väittävät, että tämä auttaa tutkijoita arvioimaan synteettisen datan yksityisyyden etuja ja vertailemaan hyödyllisesti suosittuja anonymisointimenetelmiä. Uusi kehys sisältää kaksi asiaankuuluvaa tietosuojahyökkäysmenetelmää, joita voidaan soveltaa mihin tahansa generatiiviseen mallin koulutusalgoritmiin.

Synteettiset tiedot

Synteettistä dataa käytetään koneoppimismallien kouluttamiseen erilaisissa skenaarioissa, mukaan lukien tapaukset, joissa kattavan tiedon puute voidaan mahdollisesti täyttää ersatz-datalla. Yksi esimerkki tästä on mahdollisuus käyttää CGI:n luomia kasvoja tuottamaan "vaikeita" tai harvoin esiintyviä kasvokuvia kuvasynteesitietosarjoihin, joissa profiilikuvia, teräviä kulmia tai epätavallisia ilmeitä nähdään lähdemateriaalissa usein harvoin.

Muun tyyppisiä CGI-kuvia on käytetty sellaisten tietojoukkojen täyttämiseen, jotka lopulta ajetaan ei-synteettisellä tiedolla, kuten tietojoukkoja, joissa on käsissä ja huonekalut.

Yksityisyyden suojan kannalta synteettistä dataa voidaan tuottaa todellisesta tiedosta Generative Adversarial Network (GAN) -järjestelmillä, jotka poimivat ominaisuuksia todellisesta tiedosta ja luovat samanlaisia, kuvitteellisia tietueita, jotka todennäköisesti yleistyvät hyvin myöhempään (näkemättömään, todelliseen) dataan, mutta niiden tarkoituksena on hämärtää lähdetietojen todellisten ihmisten yksityiskohdat.

Metodologia

Uutta tutkimusta varten kirjoittajat arvioivat yksityisyyden etuja viiden generatiivisen mallin koulutusalgoritmin avulla. Kolme malleista ei tarjoa selkeää yksityisyyden suojaa, kun taas kahdessa muussa on erilaiset yksityisyyden suojat. Nämä taulukkomallit valittiin edustamaan monenlaista arkkitehtuuria.

Hyökkäyksen kohteena olevat mallit olivat BayNet, PrivBay (PrivBayes/BayNetin johdannainen), CTGAN, PATEGAN ja IndHist.

Mallien arviointikehys toteutettiin Python-kirjastona, jossa on kaksi ydinluokkaa – Generatiiviset mallit ja PrivacyAttacks. Jälkimmäisessä on kaksi puolta – jäsenyys päättelevä vastustaja ja jäsenyyspäätelmähyökkäys. Viitekehys pystyy myös arvioimaan "puhdistetun" (eli anonymisoidun) datan ja synteettisen datan tietosuojaetuja.

Testeissä käytetyt kaksi tietojoukkoa olivat Aikuisten tietojoukko UCI Machine Learning Repositorysta ja Sairaalan kotiutustietojen julkisen käytön tietotiedosto Texasin osavaltion terveyspalveluista. Tutkijoiden käyttämä Texas-aineistoversio sisältää 50,000 2013 tietuetta, jotka on otettu vuoden XNUMX potilastietueista.

Hyökkäykset ja löydöt

Tutkimuksen yleisenä tavoitteena on luoda "linkittävyys" (todellisen datan uudelleenliittäminen synteettiseen dataan, joka on siitä inspiroitunut). Tutkimuksessa käytettyjä hyökkäysmalleja ovat Logistic Regression, Random Forests ja K-Nearest Neighbors -luokitukset.

Kirjoittajat valitsivat kaksi kohderyhmää, jotka koostuivat viidestä satunnaisesti valitusta tietueesta väestön "vähemmistöryhmille", koska nämä ovat todennäköisimmin olla alttiina linkityshyökkäykselle. He valitsivat myös tietueita, joissa oli "harvinaisia ​​kategorisia attribuuttien arvoja" näiden attribuuttien 95 % kvantiilin ulkopuolella. Esimerkkejä ovat tietueet, jotka liittyvät korkeaan kuolleisuusriskiin, korkeisiin kokonaissairaalamaksuihin ja sairauden vakavuuteen.

Vaikka artikkelissa ei käsitellä tätä näkökohtaa tarkemmin, todennäköisten todellisen maailman hyökkääjien näkökulmasta nämä ovat juuri sellaisia ​​"kalliita" tai "suuren riskin" potilaita, jotka todennäköisimmin joutuvat jäsenyyspäätelmien ja muiden suodatusmenetelmien kohteeksi. potilastietoihin.

Useita hyökkäysmalleja koulutettiin julkisia viitetietoja vastaan ​​kehittämään "varjomalleja" yli kymmeneen kohteeseen. Useiden kokeiden tulokset (kuten aiemmin on kuvattu) osoittavat, että useat tietueet olivat "erittäin haavoittuvia" tutkijoiden niihin kohdistuville linkityshyökkäyksille. Tulokset osoittivat myös, että 20 % kaikista kokeissa olevista kohteista sai yksityisyyden edun nolla- GAN-menetelmillä tuotetusta synteettisestä tiedosta.

Tutkijat huomauttavat, että tulokset vaihtelivat riippuen synteettisen datan luomiseen käytetystä menetelmästä, hyökkäysvektorista ja kohteena olevan tietojoukon ominaisuuksista. Raportissa todetaan, että monissa tapauksissa tehokas identiteetin estäminen synteettisten tietomenetelmien avulla alentaa tuloksena olevien järjestelmien hyödyllisyyttä. Käytännössä tällaisten järjestelmien hyödyllisyys ja tarkkuus voivat monissa tapauksissa olla suora indeksi siitä, kuinka haavoittuvia ne ovat uudelleentunnistushyökkäyksille.

Tutkijat päättelevät:

"Jos synteettinen tietojoukko säilyttää alkuperäisen tiedon ominaisuudet suurella tarkkuudella ja säilyttää siten datan hyödyllisyyden käyttötapauksissa, joihin sitä mainostetaan, se antaa samalla vastustajille mahdollisuuden poimia arkaluonteisia tietoja henkilöistä.

"Suuri lisäys yksityisyyteen minkä tahansa arvioimamme anonymisointimekanismin avulla voidaan saavuttaa vain, jos julkaistu synteettinen tai desinfioitu versio alkuperäisestä tiedosta ei kuljeta läpi yksittäisten tietueiden signaalia raakatiedoissa ja itse asiassa tukahduttaa niiden tietueen."