Kunstig intelligens

At få en maskinlæringsmodel til at glemme om dig

Published August 11, 2021

Updated April 28, 2026

Martin Anderson

Fjernelse af en bestemt del af data, der har bidraget til en maskinlæringsmodel, er som at forsøge at fjerne den anden skefuld sukker fra en kop kaffe. Data er på dette tidspunkt allerede blevet intrinsisk forbundet med mange andre neuroner inde i modellen. Hvis en datapunkt repræsenterer ‘definerende’ data, der var involveret i den tidligste, højdimensionale del af træningen, kan fjernelse af den radikalt omdefinere, hvordan modellen fungerer, eller endda kræve, at den skal gen-trænes med en vis udgift af tid og penge.

Trods alt, i Europa i hvert fald, kræver Artikel 17 i General Data Protection Regulation Act (GDPR) , at virksomheder fjerner sådan brugerdata på anmodning. Da loven blev formuleret på baggrund af, at denne sletning ville være ikke mere end en database ‘drop’ forespørgsel, vil lovgivningen, der skal opstå fra Udkast EU Artificial Intelligence Act, effektivt kopiere og indsætte ånden af GDPR i love, der gælder for trænede AI-systemer snarere end tabeldata.

Yderligere lovgivning overvejes verden over, som vil give enkeltpersoner ret til at anmode om sletning af deres data fra maskinlæringsystemer, mens California Consumer Privacy Act (CCPA) fra 2018 allerede giver denne ret til statens beboere.

Hvorfor det betyder noget

Når en dataset trænes ind i en handlingsdygtig maskinlæringsmodel, bliver karakteristikkerne af denne data generaliseret og abstrakt, fordi modellen er designet til at slutte principper og brede tendenser fra data, og til sidst producerer en algoritme, der vil være nyttig til at analysere specifikke og ikke-generaliserede data.

Men teknikker som model inversion har afsløret muligheden for at genkende den bidragende data, der ligger til grund for den endelige, abstraherede algoritme, mens medlemskabsinferenceangreb også er i stand til at afsløre kilde-data, herunder følsomme data, der kun har været tilladt at være inkluderet i en dataset på baggrund af anonymitet.

Den stigende interesse for denne forfølgning behøver ikke at afhænge af grassroots-privatlivsaktivisme: da maskinlæringssektoren kommermercialiseres over de næste ti år, og nationer kommer under pres for at afslutte den nuværende laissez faire-kultur over brugen af skærm-skrabning til dataset-generering, vil der være en stigende kommerciel incitament for IP-gennemførende organisationer (og IP-trolde) til at afkode og gennemse den data, der har bidraget til proprietære og høj-indsamlingsklassificerings-, slutnings- og generative AI-rammer.

At inducere amnesi i maskinlæringsmodeller

Derfor er vi tilbage med udfordringen med at få sukker ud af kaffen. Det er et problem, der har plaget forskere i de senere år: i 2021 fandt EU-understøttede papir En sammenlignende studie af privatlivsrisikoen for ansigtsgenkendelsesbiblioteker ud, at flere populære ansigtsgenkendelsesalgoritmer var i stand til at aktivere køn eller race-baseret diskrimination i genkendelsesangreb; i 2015 foreslog forskning fra Columbia University en ‘maskin unlearning’-metode baseret på opdatering af en række summeringer inden for data; og i 2019 tilbød Stanford-forskere nye sletningsalgoritmer for K-means-clustering-implementeringer.

Nu har et forskningskonsortium fra Kina og USA offentliggjort nyt arbejde, der introducerer en ensartet målestok for evaluering af succesen af data-sletningsmetoder, sammen med en ny ‘unlearning’-metode kaldet Forsaken, som forskerne hævder er i stand til at opnå en glemmingsrate på over 90% med kun en 5% tab af nøjagtighed i modellens samlede præstation.

Papiret hedder Lær at glemme: Maskin unlearning via Neuron Masking og indeholder forskere fra Kina og Berkeley.

Neuron-masking, princippen bag Forsaken, bruger en mask gradient-generator som filter til fjernelse af specifik data fra en model, effektivt opdaterer den i stedet for at tvinge den til at blive gen-trænet enten fra scratch eller fra et snapshot, der fandt sted før inklusionen af data (i tilfælde af streaming-baserede modeller, der kontinuerligt opdateres).

Arkitekturen af mask gradient-generator. Kilde: https://arxiv.org/pdf/2003.10933.pdf

Biologiske oprindelser

Forskerne angiver, at denne tilgang blev inspireret af den biologiske proces af ‘aktiv glemme’, hvor brugeren tager stridige handlinger for at slette alle engram-celler for en bestemt hukommelse ved manipulation af en særlig type dopamin.

Forsaken kontinuerligt fremkalder en mask gradient, der replicerer denne handling, med sikkerhedsforanstaltninger for at slowe ned eller stoppe denne proces for at undgå katastrofalt glemme af ikke-mål-data.

Fordelene ved systemet er, at det er anvendeligt på mange typer eksisterende neurale netværk, hvorimod nyere lignende arbejde har nydt succes primært i computer-vision-netværk; og at det ikke forstyrrer modellens træningsprocedurer, men snarere fungerer som en hjælper, uden at kræve, at den grundlæggende arkitektur skal ændres eller data gen-trænes.

Begrænsning af effekten

Sletning af bidragende data kan have en potentielt skadelig effekt på funktionaliteten af en maskinlæringsalgoritme. For at undgå dette har forskerne udnyttet norm regularisering, en funktion af normal neuralt netværkstræning, der ofte bruges til at undgå overtræning. Den valgte implementering er designet til at sikre, at Forsaken ikke fejler i træning.

For at etablere en brugbar fordeling af data brugte forskerne out-of-distribution (OOD)-data (dvs. data, der ikke er inkluderet i den faktiske dataset, efterligner ‘følsomme’ data i den faktiske dataset) til at kalibrere, hvordan algoritmen skulle opføre sig.

Test på datasets

Metoden blev testet på otte standard-datasets og opnåede generelt glemmingsrater på eller højere end fuld gen-træning, med meget lidt indvirkning på modellens nøjagtighed.

Det synes umuligt, at fuld gen-træning på en redigeret dataset kunne gøre værre end nogen anden metode, da måldata er fuldstændig fraværende. Men modellen har på dette tidspunkt allerede abstraheret forskellige funktioner af den slettede data på en ‘holografisk’ måde, på samme måde som en dråbe blæk gendefinerer nyttigheden af et glas vand.

I virkeligheden har modellens vægte allerede været påvirket af den fjernede data, og den eneste måde at fuldstændig fjerne dens indflydelse er at gen-træne modellen fra absolut nul, snarere end den langt hurtigere tilgang til at gen-træne den vægtede model på en redigeret dataset.