tynkä Kolme yksityisyyttä säilyttävää koneoppimistekniikkaa, jotka ratkaisevat tämän vuosikymmenen tärkeimmän ongelman - Unite.AI
Liity verkostomme!

Ajatusten johtajat

Kolme yksityisyyttä säilyttävää koneoppimistekniikkaa, jotka ratkaisevat tämän vuosikymmenen tärkeimmän ongelman

mm

Julkaistu

 on

Amogh Tarcar, koneoppimisen ja tekoälyn tutkija Pysyvät järjestelmät.

Tietosuoja on useiden eri alojen asiantuntijoiden mukaan tämän vuosikymmenen tärkein kysymys. Tämä pätee erityisesti koneoppimiseen (ML), jossa algoritmeille syötetään paljon dataa.

Perinteisesti ML-mallinnustekniikat ovat perustuneet tietojen keskittämiseen useista lähteistä yhteen tietokeskukseen. Loppujen lopuksi ML-mallit ovat tehokkaimmillaan, kun niillä on pääsy valtaviin tietomääriin. Tähän tekniikkaan liittyy kuitenkin monia tietosuojahaasteita. Erilaisten tietojen yhdistäminen useista lähteistä on nykyään vähemmän mahdollista sääntelyn, kuten HIPAA:n, GDPR:n ja CCPA:n, vuoksi. Lisäksi tietojen keskittäminen lisää tietojen väärinkäytön ja tietovuotojen muodossa ilmenevien tietoturvauhkien laajuutta ja laajuutta.

Näiden haasteiden ratkaisemiseksi on kehitetty useita PPML:n (Privacy preserving machine learning) pilareita erityisillä tekniikoilla, jotka vähentävät tietosuojariskiä ja varmistavat, että tiedot pysyvät kohtuullisen turvassa. Tässä on muutamia tärkeimpiä:

1. Federated Learning

Yhdistetty oppiminen on ML-harjoitustekniikka, joka kääntää tietojen yhdistämisongelman päälaelleen. Sen sijaan, että koottaisiin tietoja yhden ML-mallin luomiseksi, liittoutunut oppiminen kokoaa ML-malleja itse. Tämä varmistaa, että tiedot eivät koskaan poistu lähdesijainnistaan, ja sen avulla useat osapuolet voivat tehdä yhteistyötä ja rakentaa yhteistä ML-mallia jakamatta suoraan arkaluonteisia tietoja.

Se toimii näin. Aloitat ML-perusmallilla, joka jaetaan sitten kunkin asiakassolmun kanssa. Nämä solmut suorittavat sitten paikallista koulutusta tällä mallilla käyttämällä omia tietojaan. Mallin päivitykset jaetaan ajoittain koordinaattorisolmun kanssa, joka käsittelee nämä päivitykset ja yhdistää ne uuden globaalin mallin saamiseksi. Tällä tavalla saat oivalluksia erilaisista tietojoukoista ilman, että sinun tarvitsee jakaa näitä tietojoukkoja.

Lähde: Persistent Systems

Terveydenhuollon yhteydessä tämä on uskomattoman tehokas ja tietosuojatietoinen työkalu, joka pitää potilastiedot turvassa ja antaa tutkijoille joukon viisautta. Kun tietoja ei yhdistetä, yhdistetty oppiminen luo yhden ylimääräisen suojauskerroksen. Itse mallit ja mallipäivitykset aiheuttavat kuitenkin edelleen turvallisuusriskin, jos ne jätetään haavoittuviksi.

2. Erillinen yksityisyys

ML-mallit ovat usein jäsenyysjohtohyökkäysten kohteita. Sano, että sinun piti jakaa terveydenhuoltotietosi sairaalan kanssa auttaaksesi kehittämään syöpärokotteen. Sairaala pitää tietosi turvassa, mutta käyttää yhdistettyä oppimista julkisesti saatavilla olevan ML-mallin kouluttamiseen. Muutamaa kuukautta myöhemmin hakkerit käyttävät jäsenyyspäätelmähyökkäystä selvittääkseen, käytettiinkö tietojasi mallin koulutuksessa vai ei. Sitten he välittävät näkemyksiä vakuutusyhtiölle, joka voi nostaa vakuutusmaksuasi syöpäriskisi perusteella.

Erotettu yksityisyys varmistaa, että ML-malleihin kohdistuvat hyökkäykset eivät pysty tunnistamaan tiettyjä koulutuksen aikana käytettyjä tietopisteitä, mikä vähentää riskiä, ​​että arkaluontoiset harjoitustiedot paljastuvat koneoppimisessa. Tämä tehdään käyttämällä "tilastokohinaa" häiritsemään dataa tai koneoppimismallin parametreja malleja opetettaessa, mikä vaikeuttaa hyökkäyksiä ja määrittää, käytettiinkö tietyn henkilön tietoja mallin kouluttamiseen.

Esimerkiksi Facebook julkaisi äskettäin Opacus, nopea kirjasto PyTorch-mallien opettamiseen käyttämällä differentiaaliseen yksityisyyteen perustuvaa koneoppimisharjoitusalgoritmia nimeltään Differentially Private Stochastic Gradient Descent (DP-SGD). Alla oleva gif korostaa, kuinka se käyttää kohinaa tietojen peittämiseen.

 

Tätä kohinaa säätelee parametri nimeltä Epsilon. Jos Epsilon-arvo on alhainen, mallissa on täydellinen tietojen yksityisyys, mutta huono käytettävyys ja tarkkuus. Päinvastoin, jos sinulla on korkea Epsilon-arvo, tietosuojasi heikkenee, kun tarkkuutesi kasvaa. Temppu on löytää tasapaino molempien optimoimiseksi.

3. Homomorfinen salaus

Tavallinen salaus ei ole perinteisesti yhteensopiva koneoppimisen kanssa, koska kun tiedot on salattu, sitä ei enää voi ymmärtää ML-algoritmilla. Homomorfinen salaus on kuitenkin erityinen salausjärjestelmä, jonka avulla voimme jatkaa tietyntyyppisten laskelmien tekemistä.

Lähde: OpenMined

Tämän teho on, että koulutus voi tapahtua täysin salatussa tilassa. Se ei vain suojaa tietojen omistajia, vaan se suojaa myös mallien omistajia. Mallin omistaja voi tehdä päätelmiä salatuista tiedoista näkemättä niitä tai käyttämättä niitä väärin.

Kun mallipäivityksiä sovelletaan liittoutuneeseen oppimiseen, se voi tapahtua turvallisesti, koska ne tapahtuvat täysin salatussa ympäristössä, mikä vähentää merkittävästi jäsenyyteen kohdistuvien päätelmien riskiä.

Yksityisyyden vuosikymmen

Vuoteen 2021 mennessä yksityisyyttä suojeleva koneoppiminen on nouseva ala, jolla on erittäin aktiivista tutkimusta. Jos viime vuosikymmen oli kyse tietojen poistamisesta, tällä vuosikymmenellä on kyse ML-mallien poistamisesta samalla kun taustalla olevien tietojen yksityisyys säilytetään liitetyn oppimisen, differentiaalisen yksityisyyden ja homomorfisen salauksen avulla. Nämä tarjoavat lupaavan uuden tavan kehittää koneoppimisratkaisuja yksityisyyttä huomioivalla tavalla.

Amogh on koneoppimisen tutkija ja osa AI Research Labia osoitteessa Pysyvät järjestelmät. Hänen nykyinen tutkimuksensa keskittyy Federated Learning -sovelluksiin ja NLP-työkalujen rakentamiseen tiedon poimimiseen.