stub Tre personvernbevarende maskinlæringsteknikker som løser dette tiårets viktigste problem - Unite.AI
Kontakt med oss

Tankeledere

Tre personvernbevarende maskinlæringsteknikker som løser dette tiårets viktigste problem

mm

Publisert

 on

Av Amogh Tarcar, maskinlæring og AI-forsker, Vedvarende systemer.

Datavern, ifølge eksperter på tvers av et bredt spekter av domener, vil være den viktigste saken i dette tiåret. Dette gjelder spesielt for maskinlæring (ML) der algoritmer mates med datamengder.

Tradisjonelt har ML-modelleringsteknikker basert seg på sentralisering av data fra flere kilder til et enkelt datasenter. Tross alt er ML-modeller på sitt sterkeste når de har tilgang til enorme mengder data. Imidlertid er det en rekke personvernutfordringer som følger med denne teknikken. Å samle ulike data fra flere kilder er mindre mulig i dag på grunn av regulatoriske bekymringer som HIPAA, GDPR og CCPA. Sentralisering av data øker dessuten omfanget og omfanget av datamisbruk og sikkerhetstrusler i form av datalekkasjer.

For å overvinne disse utfordringene er flere pilarer for personvernbevarende maskinlæring (PPML) utviklet med spesifikke teknikker som reduserer personvernrisiko og sikrer at data forblir rimelig sikre. Her er noen av de viktigste:

1. Federert læring

Federert læring er en ML-treningsteknikk som snur dataaggregeringsproblemet på hodet. I stedet for å samle data for å lage en enkelt ML-modell, samler forent læring ML-modeller selv. Dette sikrer at data aldri forlater kildeplasseringen, og det lar flere parter samarbeide og bygge en felles ML-modell uten direkte å dele sensitive data.

Det fungerer slik. Du starter med en basis ML-modell som deretter deles med hver klientnode. Disse nodene kjører deretter lokal trening på denne modellen ved å bruke sine egne data. Modelloppdateringer deles med jevne mellomrom med koordinatornoden, som behandler disse oppdateringene og smelter dem sammen for å få en ny global modell. På denne måten får du innsikten fra ulike datasett uten å måtte dele disse datasettene.

Kilde: Persistent Systems

I forbindelse med helsetjenester er dette et utrolig kraftig og personvernbevisst verktøy for å holde pasientdata trygge samtidig som det gir forskerne visdommen til mengden. Ved å ikke aggregere dataene, skaper forent læring ett ekstra lag med sikkerhet. Selve modellene og modelloppdateringene utgjør imidlertid fortsatt en sikkerhetsrisiko hvis de blir sårbare.

2. Differensielt personvern

ML-modeller er ofte mål for medlemskapsslutningsangrep. Si at du skulle dele helseopplysningene dine med et sykehus for å hjelpe til med å utvikle en kreftvaksine. Sykehuset holder dataene dine sikre, men bruker føderert læring for å trene en offentlig tilgjengelig ML-modell. Noen måneder senere bruker hackere et medlemskapsslutningsangrep for å finne ut om dataene dine ble brukt i modellens opplæring eller ikke. De sender deretter innsikt til et forsikringsselskap, som, basert på risikoen for kreft, kan øke premiene dine.

Differensielt personvern sikrer at motstanderangrep på ML-modeller ikke vil være i stand til å identifisere spesifikke datapunkter som brukes under trening, og reduserer dermed risikoen for å avsløre sensitive treningsdata i maskinlæring. Dette gjøres ved å bruke "statistisk støy" for å forstyrre dataene eller maskinlæringsmodellparametrene mens du trener modeller, noe som gjør det vanskelig å kjøre angrep og avgjøre om en bestemt persons data ble brukt til å trene modellen.

For eksempel ga Facebook nylig ut Opacus, et høyhastighetsbibliotek for opplæring av PyTorch-modeller ved hjelp av en differensiell personvernbasert opplæringsalgoritme for maskinlæring kalt Differentially Private Stokastic Gradient Descent (DP-SGD). GIF-en nedenfor fremhever hvordan den bruker støy til å maskere data.

 

Denne støyen styres av en parameter kalt Epsilon. Hvis Epsilon-verdien er lav, har modellen perfekt datavern, men dårlig nytte og nøyaktighet. Omvendt, hvis du har en høy Epsilon-verdi, vil personvernet ditt gå ned mens nøyaktigheten din øker. Trikset er å finne en balanse for å optimalisere for begge.

3. Homomorf kryptering

Standard kryptering er tradisjonelt uforenlig med maskinlæring fordi når dataene først er kryptert kan de ikke lenger forstås av ML-algoritmen. Imidlertid er homomorf kryptering et spesielt krypteringsskjema som lar oss fortsette å gjøre visse typer beregninger.

kilde: OpenMined

Kraften til dette er at treningen kan skje i et fullstendig kryptert rom. Det beskytter ikke bare dataeiere, men det beskytter også modelleiere. Modelleieren kan kjøre inferens på krypterte data uten å se den eller misbruke den.

Når det brukes på forent læring, kan fusjon av modelloppdateringer skje sikkert fordi de finner sted i et fullstendig kryptert miljø, noe som drastisk reduserer risikoen for medlemskapsslutningsangrep.

Personvernets tiår

Når vi går inn i 2021, er personvernbevarende maskinlæring et fremvoksende felt med bemerkelsesverdig aktiv forskning. Hvis det siste tiåret handlet om å frigjøre data, vil dette tiåret handle om å fjerne ML-modeller samtidig som personvernet til de underliggende dataene bevares via forent læring, differensielt personvern og homomorf kryptering. Disse presenterer en lovende ny måte for å fremme maskinlæringsløsninger på en personvernbevisst måte.

Amogh er en maskinlæringsforsker og en del av AI Research Lab på Vedvarende systemer. Hans nåværende forskning fokuserer på Federated Learning-applikasjoner og bygging av NLP-verktøy for kunnskapsutvinning.