Connect with us

Artificiell intelligens

Vad är Differential Privacy?

mm

Vi lever i eran av big data, som har fokuserat ännu mer uppmärksamhet på ämnet dataintegritet. Människor producerar en otrolig mängd data varje sekund, och företag använder dessa data för en mängd olika tillämpningar. Med lagring och delning av data i en aldrig tidigare skådad takt, måste det finnas fler tekniker för skydd av integritet. 

Differential privacy är ett sådant tillvägagångssätt för att skydda personuppgifter, och det har visat sig vara mer effektivt än många av våra traditionella metoder. Det kan definieras som ett system för att offentligt dela information om en dataset genom att beskriva mönster i grupper inom dataseten samtidigt som information om individerna i dataseten utelämnas. 

Differential privacy möjliggör för forskare och databasanalytiker att få värdefull information från databaser utan att avslöja personlig identifikationsinformation om individerna. Detta är kritiskt eftersom många databaser innehåller en mängd olika personuppgifter. 

Ett annat sätt att se på differential privacy är att det skapar anonyma data genom att injicera brus i dataseten. Det införda bruset hjälper till att skydda integriteten samtidigt som det är tillräckligt begränsat för att analytiker ska kunna använda data på ett tillförlitligt sätt. 

Du kan ha två nästan identiska dataset. Ett med din personliga information och ett utan den. Med differential privacy kan du säkerställa att sannolikheten att en statistisk fråga kommer att producera ett visst resultat är densamma oavsett vilken databas den utförs på.

Hur fungerar Differential Privacy? 

Sättet differential privacy fungerar är genom att införa en parameter för integritetsförlust eller integritetsbudget, som ofta betecknas som epsilon (ε), i dataseten. Dessa parametrar kontrollerar hur mycket brus eller slumpmässighet som läggs till i de ursprungliga dataseten. 

Till exempel, tänk att du har en kolumn i datasetet med “Ja”/”Nej”-svar från individer. 

Nu, anta att du slår en mynt för varje individ: 

  • Myntets framsida: svaret lämnas som det är.
  • Myntets baksida: du slår en andra gång, och registrerar svaret som “Ja” om myntets framsida och “Nej” om myntets baksida, oavsett det riktiga svaret. 

Genom att använda denna process lägger du till slumpmässighet i data. Med en stor mängd data och information från brus-tilläggsmechanismen kommer dataseten att förbli korrekta i termer av aggregerade mått. Integriteten kommer in genom att tillåta varje enskild individ att trovärdigt förneka sitt riktiga svar tack vare randomiseringsprocessen. 

Medan detta är ett förenklat exempel på differential privacy, ger det en grundläggande förståelse. I verkliga tillämpningar är algoritmerna mer komplexa. 

Det är också viktigt att notera att differential privacy kan implementeras lokalt, där bruset läggs till i individuella data innan de centraliseras i databasen, eller globalt, där bruset läggs till i rådata efter att de samlats in från individer. 

Exempel på Differential Privacy

Differential privacy tillämpas inom en mängd olika tillämpningar som rekommendationssystem, sociala nätverk och geobaserade tjänster. 

Här är några exempel på hur stora företag förlitar sig på differential privacy: 

  • Apple använder metoden för att samla in anonyma användarinsikter från enheter som IPhones och Macs.

  • Facebook använder differential privacy för att samla in beteendedata som kan användas för riktade annonskampanjer.

  • Amazon förlitar sig på tekniken för att få insikt i personliga inköpspreferenser samtidigt som känslig information döljs. 

Apple har varit särskilt transparent om sin användning av differential privacy för att få insikt i användare samtidigt som deras integritet skyddas. 

“Apple har antagit och vidareutvecklat en teknik som kallas lokalt differentiell integritet för att göra något riktigt spännande: få insikt i vad många Apple-användare gör, samtidigt som deras integritet skyddas. Det är en teknik som möjliggör för Apple att lära sig om användargemenskapen utan att lära sig om individerna i gemenskapen. Differential privacy transformerar den information som delas med Apple innan den ens lämnar användarens enhet så att Apple aldrig kan återskapa de riktiga data.”

 – Apples översikt av Differential Privacy 

Tillämpningar av Differential Privacy

Eftersom vi lever i denna era av big data, finns det många dataintrång som hotar regeringar, organisationer och företag. Samtidigt förlitar sig dagens maskinlärningstillämpningar på inlärningstekniker som kräver stora mängder träningsdata, ofta från individer. Forskningsinstitutioner använder och delar också data med konfidentiell information. Otillbörlig avslöjande av denna data på något sätt kan orsaka många problem för både individen och organisationen, och i allvarliga fall kan det leda till civilrättsligt ansvar. 

Formella integritetsmodeller som differential privacy hanterar alla dessa problem. De används för att skydda personuppgifter, realtidsplacering och mer. 

Genom att använda differential privacy kan företag komma åt stora mängder känsliga data för forskning eller affärsverksamhet utan att kompromettera data. Forskningsinstitutioner kan också utveckla specifika differential privacy-teknologier för att automatisera integritetsprocesser i molndelningssamhällen, som blir allt mer populära. 

Varför använda Differential Privacy? 

Differential privacy erbjuder några huvudsakliga egenskaper som gör det till en utmärkt ram för att analysera privata data samtidigt som integriteten skyddas: 

  • Kvantifiering av integritetsförlust: Differential privacy-mekanismer och algoritmer kan mäta integritetsförlust, vilket möjliggör att jämföra med andra tekniker.

  • Sammansättning: Eftersom du kan kvantifiera integritetsförlust, kan du också analysera och kontrollera den över flera beräkningar, vilket möjliggör utveckling av olika algoritmer.

  • GruppinTEGRITET: Förutom den individuella nivån, möjliggör differential privacy att analysera och kontrollera integritetsförlust bland större grupper.

  • Säker i efterbearbetning: Differential privacy kan inte skadas av efterbearbetning. Till exempel kan en dataanalytiker inte beräkna en funktion av utdata från en differentiellt privat algoritm och göra den mindre differentiellt privat. 

Fördelar med Differential Privacy

Som vi nämnde tidigare är differential privacy bättre än många traditionella integritetstekniker. Till exempel, om all tillgänglig information är identifierbar information, gör differential privacy det lättare att identifiera alla element i data. Det är också motståndskraftigt mot integritetsattacker baserade på auxiliary information, vilket förhindrar attacker som kan utföras på deidentifierade data. 

En av de största fördelarna med differential privacy är att det är sammansättningsbart, vilket innebär att du kan beräkna integritetsförlusten av att utföra två olika differentiellt privata analyser över samma data. Detta görs genom att summera individuella integritetsförluster för de två analyserna. 

Medan differential privacy är ett nytt verktyg och kan vara svårt att uppnå utanför forskarsamhällen, blir lösningar för dataintegritet som är lätta att implementera allt mer tillgängliga. I nästa framtid bör vi se en ökning av dessa lösningar tillgängliga för en bredare allmänhet. 

Alex McFarland är en AI-journalist och författare som utforskar de senaste utvecklingarna inom artificiell intelligens. Han har samarbetat med många AI-startups och publikationer över hela världen.