Refresh

This website www.unite.ai/hr/making-a-machine-learning-model-forget-about-you-forsaken-forgetting/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

Povežite se s nama

Umjetna inteligencija

Natjerati model strojnog učenja da zaboravi na vas

mm
Ažurirano on

Uklanjanje određenog podatka koji je pridonio modelu strojnog učenja je kao pokušaj uklanjanja druge žlice šećera iz šalice kave. Podaci su do tog vremena već postali intrinzično povezani s mnogim drugim neuronima unutar modela. Ako podatkovna točka predstavlja 'definiranje' podataka koji su bili uključeni u najraniji, visokodimenzionalni dio obuke, tada njezino uklanjanje može radikalno redefinirati kako model funkcionira, ili čak zahtijevati da se ponovno obučava uz određeni utrošak vremena i novac.

Unatoč tome, barem u Europi, članak 17. Opće uredbe o zaštiti podataka (GDPR) Zahtijeva da tvrtke uklone takve korisničke podatke na zahtjev. Budući da je akt formuliran pod pretpostavkom da ovo brisanje neće biti ništa više od upita za 'ispuštanje' baze podataka, zakon je trebao proizaći iz Nacrta EU-a Zakon o umjetnoj inteligenciji će učinkovito Kopiranje i lijepljenje duh GDPR-a u zakone koji se primjenjuju na obučene AI sustave, a ne na tablične podatke.

Diljem svijeta razmatraju se daljnji zakoni koji će pojedincima dati pravo da zatraže brisanje svojih podataka iz sustava strojnog učenja, dok Kalifornijski zakon o privatnosti potrošača (CCPA) iz 2018. već pruža ovo pravo stanovnicima države.

Zašto je to važno

Kada se skup podataka uvježba u djelotvorni model strojnog učenja, karakteristike tih podataka postaju generalizirane i apstraktne, jer je model dizajniran za zaključivanje načela i široki trendovi iz podataka, na kraju stvarajući algoritam koji će biti koristan u analizi specifičnih i negeneraliziranih podataka.

Međutim, tehnike kao što su inverzija modela otkrili su mogućnost ponovne identifikacije doprinosećih podataka koji su u osnovi konačnog, apstrahiranog algoritma, dok napadi zaključivanja članstva također mogu otkriti izvorne podatke, uključujući osjetljive podatke za koje je dopušteno uključivanje u skup podataka samo uz razumijevanje anonimnosti.

Eskalacija interesa za ovu težnju ne mora se oslanjati na aktivizam zaštite privatnosti na lokalnom nivou: kako se sektor strojnog učenja komercijalizira tijekom sljedećih deset godina, a države su pod pritiskom da okončaju trenutni laissez faire kultura U odnosu na korištenje skrapinga zaslona za generiranje skupova podataka, postojat će sve veći komercijalni poticaj za organizacije koje provode IP (i IP trolove) da dekodiraju i pregledaju podatke koji su pridonijeli vlasničkom i visoko isplativom klasifikacijskom okviru, zaključivanju i generativnim AI okvirima.

Izazivanje amnezije u modelima strojnog učenja

Stoga nam ostaje izazov izbacivanja šećera iz kave. To je problem koji je bio uznemirujući istraživači u posljednjih nekoliko godina: 2021. dokument koji podržava EU Komparativna studija o rizicima privatnosti knjižnica za prepoznavanje lica otkrili da je nekoliko popularnih algoritama za prepoznavanje lica sposobno omogućiti diskriminaciju na temelju spola ili rase u napadima ponovnom identifikacijom; u istraživanju Sveučilišta Columbia iz 2015 zaprosio metoda 'odučavanja stroja' koja se temelji na ažuriranju određenog broja zbrojeva unutar podataka; a 2019. istraživači Stanforda Ponuđena novi algoritmi brisanja za implementacije klasteriranja K-means.

Sada je istraživački konzorcij iz Kine i SAD-a objavio novi rad koji uvodi jedinstvenu metriku za procjenu uspješnosti pristupa brisanju podataka, zajedno s novom metodom 'odučavanja' nazvanom Forsaken, za koju istraživači tvrde da može postići više od 90 % stope zaboravljanja, sa samo 5% gubitka točnosti u ukupnoj izvedbi modela.

The papir Zove se Naučite zaboraviti: strojno odučavanje putem neuronske maskineg, i predstavlja istraživače iz Kine i Berkeleya.

Neuronsko maskiranje, princip iza Forsakena, koristi a gradijent maske generator kao filtar za uklanjanje specifičnih podataka iz modela, učinkovito ga ažurirajući umjesto da ga se ponovno obučava ispočetka ili iz snimke koja se dogodila prije uključivanja podataka (u slučaju modela temeljenih na strujanju koji kontinuirano se ažuriraju).

Arhitektura generatora gradijenta maske. Izvor: https://arxiv.org/pdf/2003.10933.pdf

Arhitektura generatora gradijenta maske. Izvor: https://arxiv.org/pdf/2003.10933.pdf

Biološko podrijetlo

Istraživači navode da je ovaj pristup inspiriran biološki proces 'aktivnog zaboravljanja', gdje korisnik poduzima oštru akciju kako bi izbrisao sve engramske stanice za određenu memoriju manipulacijom posebne vrste dopamina.

Forsaken kontinuirano evocira gradijent maske koji replicira ovu radnju, sa zaštitnim mjerama za usporavanje ili zaustavljanje ovog procesa kako bi se izbjeglo katastrofalno zaboravljanje neciljanih podataka.

Prednosti sustava su u tome što je primjenjiv na mnoge vrste postojećih neuronskih mreža, dok je nedavni sličan rad postigao uspjeh uglavnom u mrežama računalnog vida; i da ne ometa postupke obuke modela, već radije djeluje kao dodatak, bez potrebe da se mijenja osnovna arhitektura ili ponovno obučavaju podaci.

Ograničavanje učinka

Brisanje pridonesenih podataka može imati potencijalno štetan učinak na funkcionalnost algoritma strojnog učenja. Kako bi to izbjegli, istraživači su iskoristili regulacija norme, značajka normalnog treninga neuronske mreže koja se obično koristi za izbjegavanje pretreniranosti. Posebna odabrana implementacija osmišljena je kako bi se osiguralo da Forsaken ne uspije konvergirati u obuci.

Kako bi uspostavili upotrebljivu disperziju podataka, istraživači su koristili podatke izvan distribucije (OOD) (tj. podatke koji nisu uključeni u stvarni skup podataka, oponašajući 'osjetljive' podatke u stvarnom skupu podataka) kako bi kalibrirali način na koji bi se algoritam trebao ponašati .

Testiranje na skupovima podataka

Metoda je testirana na osam standardnih skupova podataka i općenito je postigla stopu zaboravljanja blisku ili veću od pune ponovne obuke, s vrlo malim utjecajem na točnost modela.

Čini se nemogućim da bi potpuna ponovna obuka na uređenom skupu podataka zapravo mogla biti lošija od bilo koje druge metode, budući da ciljni podaci u potpunosti nedostaju. Međutim, model je do tog vremena apstrahirao različite značajke izbrisanih podataka na 'holografski' način, na način (po analogiji) da kap tinte redefinira korisnost čaše vode.

U stvari, izdvojeni podaci već su utjecali na težine modela, a jedini način da se njihov utjecaj u potpunosti ukloni je ponovno uvježbavanje modela od apsolutne nule, umjesto mnogo bržeg pristupa ponovnog uvježbavanja ponderiranog modela na uređenom skupu podataka .

 

Pisac o strojnom učenju, stručnjak za područje sinteze ljudske slike. Bivši voditelj istraživačkog sadržaja na Metaphysic.ai.
Osobna stranica: martinanderson.ai
Kontaktirajte nas na: [e-pošta zaštićena]
Twitter: @manders_ai