Connect with us

Kunstig intelligens

Hvad er Differential Privacy?

mm

Vi lever i big data-æraen, som har ført endnu mere fokus på emnet databeskyttelse. Mennesker producerer en utrolig mængde data hver sekund, og virksomheder bruger disse data til en lang række formål. Med lagring og deling af data i en hidtil uset hastighed, må der være flere teknikker til beskyttelse af privatliv. 

Differential privacy er en sådan tilgang til beskyttelse af personlige data, og det har vist sig at være mere effektivt end mange af vores traditionelle metoder. Det kan defineres som et system til offentlig deling af information om en dataset ved at beskrive mønstre i grupper inden for datasettet, samtidig med at information om de enkelte personer i datasettet holdes tilbage. 

Differential privacy giver forskere og databaseanalytikere mulighed for at få værdifuld information fra databaser uden at afsløre personlige identifikationsoplysninger om de enkelte personer. Dette er kritisk, da mange databaser indeholder en lang række personlige oplysninger. 

En anden måde at se på differential privacy er, at det skaber anonyme data ved at indsætte støj i datasettet. Den indførte støj hjælper med at beskytte privatlivet, samtidig med at den er begrænset nok til, at analytikere kan bruge data på en pålidelig måde. 

Du kan have to næsten identiske datasets. En med dine personlige oplysninger og en uden. Med differential privacy kan du sikre, at sandsynligheden for, at en statistisk forespørgsel vil producere et bestemt resultat, er den samme, uanset hvilken database det udføres på.

Hvordan fungerer Differential Privacy? 

Differential privacy fungerer ved at indføre en privatlivstab eller privatlivsbudgetparameter, som ofte betegnes som epsilon (ε), i datasettet. Disse parametre kontrollerer, hvor meget støj eller tilfældighed der tilføjes det rå dataset. 

For eksempel, forestil dig, at du har en kolonne i datasettet med “Ja”/”Nej”-svar fra enkeltpersoner. 

Nu forestil dig, at du flipper en mønt for hver enkelt person: 

  • Hoved: svaret bliver som det er.
  • Krone: du flipper en anden gang, og optegner svaret som “Ja”, hvis hoved, og “Nej”, hvis krone, uanset det rigtige svar. 

Ved at bruge denne proces, tilføjer du tilfældighed til data. Med en stor mængde data og information fra støjtilføjelsesmekanismen, vil datasettet forblive nøjagtigt i forhold til samlede målinger. Privatlivet kommer ind ved at give hver enkelt person mulighed for at benægte deres rigtige svar takket være randomiseringsprocessen. 

Dette er et simpelt eksempel på differential privacy, men det giver en grundlæggende forståelse. I virkelige anvendelser er algoritmerne mere komplekse. 

Det er også vigtigt at bemærke, at differential privacy kan implementeres lokalt, hvor støjen tilføjes til enkeltdata, før det centraliseres i databasen, eller globalt, hvor støjen tilføjes til rådata efter, at det er indsamlet fra enkeltpersoner. 

Eksempler på Differential Privacy

Differential privacy anvendes på tværs af en lang række anvendelser som anbefalingssystemer, sociale netværk og lokalitetsbaserede tjenester. 

Her er nogle eksempler på, hvordan store virksomheder afhænger af differential privacy: 

  • Apple bruger metoden til at indsamle anonyme brugsindsigter fra enheder som IPhones og Macs.

  • Facebook bruger differential privacy til at indsamle adfærdsmæssige data, der kan bruges til målrettede reklamekampagner.

  • Amazon afhænger af teknikken til at få indsigt i personlige indkøbspræferencer, samtidig med at følsomme oplysninger holdes skjult. 

Apple har været særligt åben omkring deres brug af differential privacy til at få indsigt i brugere, samtidig med at de beskytter deres privatliv. 

“Apple har adopteret og yderligere udviklet en teknik, der i den akademiske verden kendes som lokal differential privacy for at gøre noget rigtig spændende: at få indsigt i, hvad mange Apple-brugere gør, samtidig med at de hjælper med at beskytte privatlivet for enkeltpersoner. Det er en teknik, der giver Apple mulighed for at lære om brugerfællesskabet uden at lære om enkeltpersoner i fællesskabet. Differential privacy transformerer de oplysninger, der deles med Apple, før de nogensinde forlader brugerens enhed, så Apple aldrig kan genskabe de sande data.”

 – Apples Differential Privacy-overblik 

Anvendelser af Differential Privacy

Da vi lever i denne æra af big data, er der mange dataudtræninger, der truer regeringer, organisationer og virksomheder. Samtidig afhænger i dag mange maskinlæringsanvendelser af læreteknikker, der kræver store mængder træningsdata, ofte fra enkeltpersoner. Forskningsinstitutioner bruger og deler også data med fortrolige oplysninger. Ufuldstændig afsløring af disse data på nogen måde kan føre til mange problemer for både den enkelte og organisationen, og i alvorlige tilfælde kan det føre til civilretlig ansvar. 

Formelle privatlivsmodeller som differential privacy løser alle disse problemer. De bruges til at beskytte personlige oplysninger, realtidslokation og mere. 

Ved at bruge differential privacy kan virksomheder få adgang til store mængder følsomme data til forskning eller forretningsformål uden at kompromittere data. Forskningsinstitutioner kan også udvikle specifikke differential privacy-teknologier til at automatisere privatlivsprocesser i cloud-delingsfællesskaber, der bliver mere og mere populære. 

Hvorfor bruge Differential Privacy? 

Differential privacy tilbyder nogle grundlæggende egenskaber, der gør det til et fremragende rammeværk for analyse af private data, samtidig med at det sikrer privatliv: 

  • Kvantificering af privatlivstab: Differential privacy-mekanismer og algoritmer kan måle privatlivstab, hvilket giver mulighed for at sammenligne det med andre teknikker.

  • Komposition: Da du kan kvantificere privatlivstab, kan du også analysere og kontrollere det over flere beregninger, hvilket giver mulighed for at udvikle forskellige algoritmer.

  • Gruppeprivatliv: Ud over det enkelte niveau giver differential privacy mulighed for at analysere og kontrollere privatlivstab i større grupper.

  • Sikker i efterbehandling: Differential privacy kan ikke skades af efterbehandling. For eksempel kan en dataanalytiker ikke beregne en funktion af outputtet fra en differentielt privat algoritme og gøre det mindre differentielt privat. 

Fordele ved Differential Privacy

Som vi nævnte tidligere, er differential privacy bedre end mange traditionelle privatlivsteknikker. For eksempel, hvis alle tilgængelige oplysninger er identificerede oplysninger, gør differential privacy det lettere at identificere alle elementer i data. Det er også resistent over for privatlivsangreb baseret på hjælpeinformation, og forhindrer angreb, der kan udføres på de-identificerede data. 

En af de største fordele ved differential privacy er, at det er kompositionelt, hvilket betyder, at du kan beregne privatlivstabet ved at udføre to forskellige differentielt private analyser over samme data. Dette gøres ved at summerer de enkelte privatlivstabsforluster for de to analyser. 

Selvom differential privacy er et nyt værktøj og kan være svært at opnå uden for forskningsfællesskaber, bliver let-at-implementere-løsninger til dataprivatliv mere tilgængelige. I den nærmeste fremtid burde vi se en stigende mængde af disse løsninger tilgængelige for en bredere offentlighed. 

Alex McFarland er en AI-journalist og forfatter, der udforsker de seneste udviklinger inden for kunstig intelligens. Han har samarbejdet med adskillige AI-startups og publikationer over hele verden.