Tekoäly
Koneoppimismallin luominen unohtamaan sinut

Tietyn koneoppimismalliin vaikuttaneen datan poistaminen on kuin yrittäisi poistaa toisen lusikallisen sokeria kahvikupillisesta. Tähän mennessä tiedoista on jo tullut luontaisesti sidoksissa moniin muihin mallin sisällä oleviin hermosoluihin. Jos datapiste edustaa "määrittelevää" dataa, joka sisältyi koulutuksen varhaisimpaan, korkean ulottuvuuden osaan, sen poistaminen voi määrittää mallin toiminnan radikaalisti uudelleen tai jopa vaatia sen kouluttamista uudelleen jonkin verran aikaa ja aikaa. raha.
Siitä huolimatta ainakin Euroopassa yleisen tietosuoja-asetuksen (GDPR) 17 artikla. Vaatii että yritykset poistavat tällaiset käyttäjätiedot pyynnöstä. Koska laki laadittiin sen käsityksen mukaan, että tämä poistaminen ei olisi muuta kuin tietokannan "pudotus"-kysely, lainsäädäntö on määrä syntyä EU-luonnoksesta. Tekoälylaki tehokkaasti Kopioi ja liitä GDPR:n henki lakeiksi, jotka koskevat koulutettuja tekoälyjärjestelmiä taulukkotietojen sijaan.
Eri puolilla maailmaa harkitaan lisälainsäädäntöä, joka antaa yksilöille oikeuden pyytää tietojensa poistamista koneoppimisjärjestelmistä, kun taas Kalifornian kuluttajatietosuojalaki (CCPA) 2018 tarjoaa jo tämän oikeuden osavaltion asukkaille.
Miksi se koskee
Kun tietojoukko koulutetaan toimivaksi koneoppimismalliksi, datan ominaisuudet yleistyvät ja abstraktit, koska malli on suunniteltu päättelemään periaatteita ja laajoja trendejä tiedoista ja tuottaa lopulta algoritmin, joka on hyödyllinen tietyn ja yleistämättömän tiedon analysoinnissa.
Kuitenkin tekniikat, kuten mallin inversio ovat paljastaneet mahdollisuuden tunnistaa uudelleen osallistuvat tiedot, jotka ovat lopullisen abstraktin algoritmin taustalla. jäsenyyspäätelmähyökkäykset pystyvät myös paljastamaan lähdetietoja, mukaan lukien arkaluontoiset tiedot, jotka on saatettu sisällyttää vain anonymiteetin ymmärtämistä koskevaan tietokokonaisuuteen.
Kasvavan kiinnostuksen tätä pyrkimystä kohtaan ei tarvitse luottaa ruohonjuuritason tietosuojaaktivismiin: koneoppimissektori kaupallistuu seuraavan kymmenen vuoden aikana ja kansakuntien on painettava lopettaa nykyinen laissez faire -kulttuuria Tietojoukkojen luomiseen käytettävien näytön kaapimisen lisäksi IP-suojausta valvovilla organisaatioilla (ja IP-peikoilla) on kasvava kaupallinen kannustin purkaa ja tarkastella tietoja, jotka ovat edistäneet omistusoikeudellisia ja tuottoisia luokittelu-, päätelmä- ja generatiivisia tekoälykehyksiä.
Amnesian aiheuttaminen koneoppimismalleissa
Siksi meillä on haaste saada sokeri pois kahvista. Se on ollut ongelma ärsyttävää tutkijat viime vuosina: vuonna 2021 EU:n tukema paperi Vertaileva tutkimus kasvojentunnistuskirjastojen tietosuojariskeistä havaitsi, että useat suositut kasvojentunnistusalgoritmit pystyivät mahdollistamaan sukupuoleen tai rotuun perustuvan syrjinnän uudelleentunnistushyökkäyksissä; vuonna 2015 Columbian yliopiston tutkimus ehdotettu "koneen oppimisen poisto" -menetelmä, joka perustuu tietojen useiden summausten päivittämiseen; ja vuonna 2019 Stanfordin tutkijat tarjotaan uudet poistoalgoritmit K-means-klusterointitoteutuksiin.
Nyt Kiinasta ja Yhdysvalloista peräisin oleva tutkimuskonsortio on julkaissut uuden työn, joka ottaa käyttöön yhtenäisen mittarin tiedonpoistomenetelmien onnistumisen arvioimiseksi sekä uuden 'unlearning'-menetelmän nimeltä Forsaken, jonka tutkijat väittävät pystyvän saavuttamaan yli 90 % unohdusaste, vain 5 %:n tarkkuushäviö mallin yleisessä suorituskyvyssä.
- paperi kutsutaan Opi unohtamaan: Machine Unlearning Neuron Maskinin kauttag, ja mukana on tutkijoita Kiinasta ja Berkeleystä.
Neuron masking, Forsakenin taustalla oleva periaate, käyttää a maskin gradientti generaattori suodattimena tiettyjen tietojen poistamiseksi mallista, joka päivittää sen tehokkaasti sen sijaan, että se pakottaisi sen kouluttamaan uudelleen joko tyhjästä tai tilannekuvasta, joka tapahtui ennen tietojen sisällyttämistä (jos kyseessä ovat suoratoistopohjaiset mallit, päivitetään jatkuvasti).

Maskin gradienttigeneraattorin arkkitehtuuri. Lähde: https://arxiv.org/pdf/2003.10933.pdf
Biologiset alkuperät
Tutkijat sanovat, että tämä lähestymistapa on saanut inspiraationsa biologinen prosessi "aktiivinen unohtaminen", jossa käyttäjä ryhtyy jyrkästi poistaakseen tietyn muistin kaikki engram-solut käsittelemällä erityistä dopamiinityyppiä.
Forsaken herättää jatkuvasti maskin gradientin, joka toistaa tämän toiminnon suojatoimenpitein hidastaakseen tai pysäyttääkseen tämän prosessin, jotta vältetään muiden kuin kohdetietojen katastrofaalinen unohtaminen.
Järjestelmän etuna on, että se soveltuu monenlaisiin olemassa oleviin hermoverkkoihin, kun taas viimeaikainen vastaava työ on menestynyt suurelta osin tietokonenäköverkoissa; ja että se ei häiritse mallin koulutusproseduureja, vaan toimii apuvälineenä ilman, että ydinarkkitehtuuria on muutettava tai dataa koulutettava uudelleen.
Vaikutuksen rajoittaminen
Lisätyn datan poistamisella voi olla mahdollisesti haitallinen vaikutus koneoppimisalgoritmin toimivuuteen. Tämän välttämiseksi tutkijat ovat käyttäneet hyväkseen normin laillistaminen, normaalin hermoverkkokoulutuksen ominaisuus, jota käytetään yleisesti välttämään ylikunto. Valittu toteutus on suunniteltu varmistamaan, että Forsaken ei epäonnistu koulutuksessa lähentymisessä.
Tiedon käyttökelpoisen hajauttamisen määrittämiseksi tutkijat käyttivät OOD-tietoja (eli tietoja, jotka eivät sisälly varsinaiseen tietoaineistoon, matkivat "arkaluonteista" dataa todellisessa tietojoukossa) kalibroidakseen tavan, jolla algoritmin tulisi toimia. .
Testaus tietojoukoilla
Menetelmää testattiin kahdeksalla standardidatajoukolla, ja se saavutti yleensä lähes tai korkeamman unohdusasteen kuin täydessä uudelleenkoulutuksessa, ja sillä oli hyvin vähän vaikutusta mallin tarkkuuteen.
Vaikuttaa mahdottomalta, että muokatun tietojoukon täydellinen uudelleenkoulutus voisi todella toimia huonommin kuin mikään muu menetelmä, koska kohdetiedot puuttuvat kokonaan. Malli on kuitenkin tähän mennessä abstraktinut poistetun datan eri piirteitä "holografisesti" sillä tavalla (analogisesti), että mustepisara määrittelee uudelleen vesilasillisen hyödyn.
Käytännössä poistetut tiedot ovat jo vaikuttaneet mallin painoihin, ja ainoa tapa poistaa sen vaikutus kokonaan on kouluttaa malli uudelleen absoluuttisesta nollasta sen sijaan, että harjoitettaisiin paljon nopeampaa painotetun mallin uudelleenkoulutusta muokatulle tietojoukolle. .