ciot Trei tehnici de învățare automată pentru păstrarea confidențialității care rezolvă cea mai importantă problemă a acestui deceniu - Unite.AI
Conectează-te cu noi

Liderii gândirii

Trei tehnici de învățare automată pentru păstrarea confidențialității care rezolvă cea mai importantă problemă a acestui deceniu

mm

Publicat

 on

De Amogh Tarcar, cercetător în învățare automată și AI, Sisteme persistente.

Conform experților dintr-o gamă largă de domenii, confidențialitatea datelor va fi cea mai importantă problemă a acestui deceniu. Acest lucru este valabil mai ales pentru învățarea automată (ML), unde algoritmii sunt alimentați cu o mulțime de date.

În mod tradițional, tehnicile de modelare ML s-au bazat pe centralizarea datelor din mai multe surse într-un singur centru de date. La urma urmei, modelele ML sunt cele mai puternice atunci când au acces la cantități uriașe de date. Cu toate acestea, există o serie de provocări legate de confidențialitate care vin cu această tehnică. Agregarea diverselor date din mai multe surse este mai puțin fezabilă astăzi din cauza preocupărilor de reglementare precum HIPAA, GDPR și CCPA. În plus, centralizarea datelor mărește sfera și amploarea utilizării abuzive a datelor și amenințările de securitate sub formă de scurgeri de date.

Pentru a depăși aceste provocări, au fost dezvoltați mai mulți piloni ai învățării automate pentru păstrarea confidențialității (PPML) cu tehnici specifice care reduc riscul de confidențialitate și asigură că datele rămân în mod rezonabil sigure. Iată câteva dintre cele mai importante:

1. Învățare federată

Învățare federată este o tehnică de antrenament ML care răstoarnă problema de agregare a datelor pe cap. În loc de a agrega date pentru a crea un singur model ML, învățarea federată agregează modelele ML în sine. Acest lucru asigură că datele nu părăsesc niciodată locația sursă și permite mai multor părți să colaboreze și să construiască un model ML comun fără a partaja direct date sensibile.

Funcționează așa. Începeți cu un model ML de bază care este apoi partajat cu fiecare nod client. Aceste noduri rulează apoi antrenament local pe acest model folosind propriile lor date. Actualizările modelului sunt partajate periodic cu nodul coordonator, care procesează aceste actualizări și le unește împreună pentru a obține un nou model global. În acest fel, obțineți informații din diverse seturi de date fără a fi nevoie să partajați aceste seturi de date.

Sursa: Persistent Systems

În contextul asistenței medicale, acesta este un instrument incredibil de puternic și conștient de confidențialitate pentru a păstra în siguranță datele pacienților, oferind în același timp cercetătorilor înțelepciunea mulțimii. Prin neagregarea datelor, învățarea federată creează un nivel suplimentar de securitate. Cu toate acestea, modelele și actualizările modelelor în sine prezintă în continuare un risc de securitate dacă sunt lăsate vulnerabile.

2. Confidențialitate diferențială

Modelele ML sunt adesea ținta atacurilor de inferență de membru. Spuneți că trebuie să vă împărtășiți datele privind asistența medicală unui spital pentru a ajuta la dezvoltarea unui vaccin împotriva cancerului. Spitalul vă păstrează datele în siguranță, dar folosește învățarea federată pentru a antrena un model ML disponibil public. Câteva luni mai târziu, hackerii folosesc un atac de inferență de membru pentru a determina dacă datele dvs. au fost utilizate în antrenamentul modelului sau nu. Apoi transmit informații unei companii de asigurări, care, pe baza riscului dumneavoastră de cancer, vă poate crește primele.

Confidențialitatea diferențială asigură că atacurile adversare asupra modelelor ML nu vor putea identifica punctele de date specifice utilizate în timpul antrenamentului, reducând astfel riscul expunerii datelor sensibile de antrenament în învățarea automată. Acest lucru se face prin aplicarea „zgomotului statistic” pentru a perturba datele sau parametrii modelului de învățare automată în timpul antrenării modelelor, ceea ce face dificilă executarea atacurilor și determinarea dacă datele unui anumit individ au fost folosite pentru a antrena modelul.

De exemplu, Facebook a lansat recent Opac, o bibliotecă de mare viteză pentru antrenarea modelelor PyTorch utilizând un algoritm de formare de învățare automată bazat pe confidențialitate diferențial numit Diferentially Private Stochastic Gradient Descent (DP-SGD). GIF-ul de mai jos evidențiază modul în care folosește zgomotul pentru a masca datele.

 

Acest zgomot este guvernat de un parametru numit Epsilon. Dacă valoarea Epsilon este scăzută, modelul are confidențialitate perfectă a datelor, dar utilitate și acuratețe slabe. În schimb, dacă aveți o valoare Epsilon mare, confidențialitatea datelor va scădea în timp ce acuratețea crește. Trucul este să găsești un echilibru pentru a optimiza pentru ambele.

3. Criptare homomorfă

Criptarea standard este în mod tradițional incompatibilă cu învățarea automată, deoarece odată ce datele sunt criptate, acestea nu mai pot fi înțelese de algoritmul ML. Cu toate acestea, criptarea homomorfă este o schemă specială de criptare care ne permite să continuăm să facem anumite tipuri de calcule.

Sursa: OpenMined

Puterea acestui lucru este că antrenamentul poate avea loc într-un spațiu complet criptat. Nu numai că îi protejează pe proprietarii de date, dar îi protejează și pe proprietarii de modele. Proprietarul modelului poate efectua inferențe asupra datelor criptate fără să le vadă sau să le folosească greșit.

Când se aplică învățării federate, fuziunea actualizărilor de model se poate produce în siguranță, deoarece acestea au loc într-un mediu complet criptat, reducând drastic riscul atacurilor de inferență de membru.

Deceniul confidențialității

Pe măsură ce intrăm în 2021, învățarea automată care păstrează confidențialitatea este un domeniu în curs de dezvoltare cu cercetare remarcabil de activă. Dacă ultimul deceniu s-a referit la eliminarea datelor, acest deceniu va fi despre anularea modelelor ML, păstrând în același timp confidențialitatea datelor subiacente prin învățare federată, confidențialitate diferențială și criptare homomorfă. Acestea prezintă o nouă modalitate promițătoare de a avansa soluțiile de învățare automată într-o manieră conștientă de confidențialitate.

Amogh este cercetător în domeniul învățării automate și face parte din Laboratorul de cercetare AI la Sisteme persistente. Cercetarea sa actuală se concentrează pe aplicațiile de învățare federată și pe construirea de instrumente NLP pentru extragerea cunoștințelor.