Inteligență artificială
Ce este confidențialitatea diferențială?

Trăim în era datelor mari, care a atras și mai multă atenție asupra subiectului confidențialității datelor. Oamenii produc o cantitate incredibilă de date în fiecare secundă, iar companiile utilizează aceste date pentru o gamă largă de aplicații. Cu stocarea și partajarea datelor la un ritm fără precedent, trebuie să existe mai multe tehnici de protecție a confidențialității.
Confidențialitatea diferențială este o abordare pentru protejarea datelor personale și s-a dovedit a fi mai eficientă decât multe dintre metodele noastre tradiționale. Ea poate fi definită ca un sistem pentru partajarea publică a informațiilor despre un set de date prin descrierea modelelor grupurilor din setul de date, în timp ce se retrag informații despre indivizi din setul de date.
Confidențialitatea diferențială permite cercetătorilor și analiștilor de baze de date să obțină informații valoroase din baze de date fără a dezvălui informații de identificare personală despre indivizi. Acest lucru este critic, deoarece multe baze de date conțin o varietate de informații personale.
O altă modalitate de a privi confidențialitatea diferențială este că aceasta creează date anonime prin injectarea de zgomot în seturile de date. Zgomotul introdus ajută la protejarea confidențialității, în timp ce este suficient de limitat pentru ca analiștii să poată utiliza în mod fiabil datele.
Puteți avea două seturi de date aproape identice. Unul cu informațiile dvs. personale și unul fără. Cu confidențialitatea diferențială, puteți asigura că probabilitatea ca o interogare statistică să producă un anumit rezultat este aceeași, indiferent de baza de date pe care se efectuează.
Cum funcționează confidențialitatea diferențială?
Modul în care funcționează confidențialitatea diferențială este prin introducerea unui parametru de pierdere a confidențialității sau a bugetului de confidențialitate, care este adesea notat cu epsilon (ε), în setul de date. Acești parametri controlează cât de mult zgomot sau aleatoriu este adăugat la setul de date brut.
De exemplu, presupunem că aveți o coloană în setul de date cu răspunsuri “Da” / “Nu” de la indivizi.
Acum, presupunem că aruncați o monedă pentru fiecare individ:
- Cap: răspunsul rămâne la fel.
- Pajură: aruncați o a doua oară, înregistrând răspunsul ca “Da” dacă cap și “Nu” dacă pajură, indiferent de răspunsul real.
Prin utilizarea acestui proces, adăugați aleatoriu la date. Cu o cantitate mare de date și informații din mecanismul de adăugare a zgomotului, setul de date va rămâne precis în ceea ce privește măsurătorile agregate. Confidențialitatea vine din faptul că permite fiecărui individ să nege plauzibil răspunsul real datorită procesului de aleatoriu.
Deși acesta este un exemplu simplist de confidențialitate diferențială, oferă o bază de înțelegere. În aplicațiile din lumea reală, algoritmii sunt mai complexi.
De asemenea, este important de remarcat că confidențialitatea diferențială poate fi implementată local, unde zgomotul este adăugat la datele individuale înainte de a fi centralizate în baza de date, sau global, unde zgomotul este adăugat la datele brute după ce sunt colectate de la indivizi.
Exemple de confidențialitate diferențială
Confidențialitatea diferențială este aplicată într-o gamă largă de aplicații, cum ar fi sistemele de recomandare, rețelele sociale și serviciile bazate pe locație.
Iată câteva exemple de modul în care marile companii se bazează pe confidențialitatea diferențială:
- Apple utilizează metoda pentru a colecta informații anonime de utilizare de la dispozitive precum iPhone și Mac.
- Facebook utilizează confidențialitatea diferențială pentru a colecta date comportamentale care pot fi utilizate pentru campanii publicitare țintite.
- Amazon se bazează pe această tehnică pentru a obține informații despre preferințele de cumpărături personalizate, ascunzând în același timp informații sensibile.
Apple a fost deosebit de transparent cu privire la utilizarea confidențialității diferențiale pentru a obține informații despre utilizatori, în timp ce păstrează confidențialitatea.
„Apple a adoptat și a dezvoltat o tehnică cunoscută în lumea academică sub numele de confidențialitate diferențială locală pentru a face ceva cu adevărat interesant: a obține informații despre ceea ce fac mulți utilizatori Apple, în timp ce ajută la păstrarea confidențialității utilizatorilor individuali. Este o tehnică care permite Apple să învețe despre comunitatea de utilizatori fără a învăța despre indivizi din comunitate. Confidențialitatea diferențială transformă informațiile partajate cu Apple înainte de a părăsi dispozitivul utilizatorului, astfel încât Apple nu poate reproduce niciodată datele reale.”
– Prezentarea generală a confidențialității diferențiale Apple
Aplicații ale confidențialității diferențiale
Deoarece trăim în această eră a datelor mari, există multe încălcări ale datelor care amenință guverne, organizații și companii. În același timp, aplicațiile de învățare automată de astăzi se bazează pe tehnici de învățare care necesită cantități mari de date de antrenament, adesea provenite de la indivizi. Instituțiile de cercetare utilizează și partajează date cu informații confidențiale. Dezvăluirea necorespunzătoare a acestor date în orice mod poate cauza multe probleme atât pentru individ, cât și pentru organizație, și în cazuri grave, poate duce la răspundere civilă.
Modelele formale de confidențialitate, cum ar fi confidențialitatea diferențială, abordează toate aceste probleme. Ele sunt utilizate pentru a proteja informații personale, locația în timp real și multe altele.
Prin utilizarea confidențialității diferențiale, companiile pot accesa o cantitate mare de date sensibile pentru cercetare sau afaceri fără a compromite datele. Instituțiile de cercetare pot dezvolta, de asemenea, tehnologii de confidențialitate diferențială specifice pentru a automatiza procesele de confidențialitate în comunitățile de partajare în cloud, care devin din ce în ce mai populare.
De ce să utilizați confidențialitatea diferențială?
Confidențialitatea diferențială oferă câteva proprietăți principale care o fac un cadru excelent pentru analizarea datelor private, asigurând în același timp confidențialitatea:
- Cuantificarea pierderii de confidențialitate: mecanismele și algoritmii de confidențialitate diferențială pot măsura pierderea de confidențialitate, ceea ce permite compararea cu alte tehnici.
- Compoziție: deoarece puteți cuantifica pierderea de confidențialitate, puteți analiza și controla aceasta pe mai multe calcule, permițând dezvoltarea de algoritmi diferiți.
- Confidențialitatea grupului: pe lângă nivelul individual, confidențialitatea diferențială vă permite să analizați și controlați pierderea de confidențialitate în cadrul unor grupuri mai mari.
- Securitate în post-procesare: confidențialitatea diferențială nu poate fi afectată de post-procesare. De exemplu, un analist de date nu poate calcula o funcție a ieșirii unui algoritm de confidențialitate diferențială și face ca acesta să fie mai puțin diferit de confidențialitate.
Beneficiile confidențialității diferențiale
Așa cum am menționat anterior, confidențialitatea diferențială este mai bună decât multe dintre tehnicile tradiționale de confidențialitate. De exemplu, dacă toate informațiile disponibile sunt informații identificate, confidențialitatea diferențială face ca este mai ușor să identificați toate elementele datelor. De asemenea, este rezistentă la atacurile de confidențialitate bazate pe informații auxiliare, prevenind atacurile care pot fi efectuate pe date deidentificate.
Unul dintre cele mai mari beneficii ale confidențialității diferențiale este acela că este compozițională, ceea ce înseamnă că puteți calcula pierderea de confidențialitate a efectuării a două analize diferit de confidențialitate asupra acelorași date. Acest lucru se realizează prin însumarea individuală a pierderilor de confidențialitate pentru cele două analize.
Deși confidențialitatea diferențială este un instrument nou și poate fi dificil de atins în afara comunităților de cercetare, soluțiile ușor de implementat pentru confidențialitatea datelor devin din ce în ce mai accesibile. În viitorul apropiat, ar trebui să vedem o creștere a numărului acestor soluții disponibile pentru publicul larg.












