Refresh

This website www.unite.ai/sk/making-a-machine-learning-model-forget-about-you-forsaken-forgetting/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

Spojte sa s nami

Umelá inteligencia

Zabudnite na model strojového učenia

mm
Aktualizované on

Odstránenie konkrétneho údaja, ktorý prispel k modelu strojového učenia, je ako pokúsiť sa odstrániť druhú lyžicu cukru zo šálky kávy. Dáta sa už stali skutočne prepojené s mnohými ďalšími neurónmi vo vnútri modelu. Ak údajový bod predstavuje „definujúce“ údaje, ktoré boli zahrnuté v najskoršej vysokorozmernej časti tréningu, potom jeho odstránenie môže radikálne predefinovať, ako model funguje, alebo dokonca vyžadovať, aby bol po určitom čase pretrénovaný. peniaze.

Napriek tomu, aspoň v Európe, článok 17 všeobecného zákona o ochrane údajov (GDPR) Vyžaduje že spoločnosti na požiadanie odstránia takéto používateľské údaje. Keďže zákon bol formulovaný na základe toho, že toto vymazanie nebude ničím iným ako dotazom v databáze, právny predpis, ktorý má vzísť z návrhu EÚ Zákon o umelej inteligencii bude efektívne kopírovanie a vkladanie ducha GDPR do zákonov, ktoré sa vzťahujú na vyškolené systémy AI, a nie na tabuľkové údaje.

Vo svete sa zvažuje ďalšia legislatíva, ktorá bude oprávňovať jednotlivcov požiadať o vymazanie svojich údajov zo systémov strojového učenia, zatiaľ čo Kalifornský zákon o ochrane súkromia spotrebiteľov (CCPA) z roku 2018 už poskytuje toto právo obyvateľom štátu.

Prečo je to dôležité

Keď sa súbor údajov natrénuje na použiteľný model strojového učenia, charakteristiky týchto údajov sa zovšeobecnia a získajú abstraktné, pretože model je navrhnutý tak, aby odvodil princípy a široké trendy z údajov, prípadne vytvoriť algoritmus, ktorý bude užitočný pri analýze špecifických a nezobecnených údajov.

Avšak techniky ako napr inverzia modelu odhalili možnosť opätovnej identifikácie prispievajúcich údajov, ktoré sú základom konečného abstrahovaného algoritmu, pričom útoky na členstvo sú tiež schopné odhaliť zdrojové údaje vrátane citlivých údajov, ktorých zahrnutie do súboru údajov môže byť povolené len na základe pochopenia anonymity.

Stupňujúci záujem o toto úsilie sa nemusí spoliehať na miestny aktivizmus v oblasti ochrany osobných údajov: keďže sektor strojového učenia sa v priebehu nasledujúcich desiatich rokov komercializuje a štáty sa dostanú pod tlak, aby ukončili kultúra laissez faire v súvislosti s používaním zoškrabovania obrazovky na generovanie súborov údajov bude pre organizácie vynucujúce IP (a IP trollov) rastúci komerčný stimul, aby dekódovali a preskúmali údaje, ktoré prispeli k proprietárnym a vysoko zarábajúcim klasifikačným, odvodzovacím a generatívnym rámcom AI.

Vyvolanie amnézie v modeloch strojového učenia

Zostáva nám teda výzva dostať cukor z kávy von. Je to problém, ktorý bol znepokojujúce výskumníkov v posledných rokoch: v roku 2021 dokument s podporou EÚ Porovnávacia štúdia o rizikách ochrany súkromia knižníc na rozpoznávanie tváre zistili, že niekoľko populárnych algoritmov na rozpoznávanie tváre bolo schopných umožniť diskrimináciu na základe pohlavia alebo rasy pri útokoch na opätovnú identifikáciu; v roku 2015 výskum na Kolumbijskej univerzite navrhovanej metóda „strojového odučenia“ založená na aktualizácii množstva súhrnov v údajoch; a v roku 2019 výskumníci zo Stanfordu ponúkol nové delečné algoritmy pre implementácie klastrovania K-means.

Teraz výskumné konzorcium z Číny a USA zverejnilo novú prácu, ktorá zavádza jednotnú metriku na hodnotenie úspešnosti prístupov k vymazaniu údajov spolu s novou metódou „odučenia“ nazývanou Forsaken, o ktorej výskumníci tvrdia, že je schopná dosiahnuť viac ako 90 % miera zabúdania s iba 5 % stratou presnosti v celkovom výkone modelu.

papier sa nazýva Naučte sa zabudnúť: Strojové odučovanie prostredníctvom Neuron Masking a obsahuje výskumníkov z Číny a Berkeley.

Neurónové maskovanie, princíp Forsaken, využíva a gradient masky generátor ako filter na odstraňovanie konkrétnych údajov z modelu, ktorý ho efektívne aktualizuje namiesto toho, aby ho nútil preškoliť od začiatku alebo zo snímky, ktorá sa vyskytla pred zahrnutím údajov (v prípade modelov založených na streamovaní, ktoré sú priebežne aktualizované).

Architektúra generátora gradientu masky. Zdroj: https://arxiv.org/pdf/2003.10933.pdf

Architektúra generátora gradientu masky. Zdroj: https://arxiv.org/pdf/2003.10933.pdf

Biologický pôvod

Výskumníci uvádzajú, že tento prístup bol inšpirovaný biologický proces „aktívneho zabúdania“, kde používateľ podnikne rázne kroky na vymazanie všetkých engramových buniek pre konkrétnu pamäť manipuláciou so špeciálnym typom dopamínu.

Forsaken nepretržite evokuje gradient masky, ktorý replikuje túto akciu, so zabezpečením na spomalenie alebo zastavenie tohto procesu, aby sa predišlo katastrofálnemu zabudnutiu necieľových údajov.

Výhody systému spočívajú v tom, že je použiteľný na mnohé druhy existujúcich neurónových sietí, zatiaľ čo nedávna podobná práca zožala úspech najmä v sieťach počítačového videnia; a že nezasahuje do modelových tréningových postupov, ale pôsobí skôr ako doplnok, bez toho, aby vyžadovala zmenu základnej architektúry alebo preškolenie údajov.

Obmedzenie efektu

Vymazanie vložených údajov môže mať potenciálne škodlivý vplyv na funkčnosť algoritmu strojového učenia. Aby sa tomu zabránilo, výskumníci využili regularizácia noriem, vlastnosť normálneho tréningu neurónovej siete, ktorá sa bežne používa, aby sa predišlo pretrénovaniu. Konkrétna zvolená implementácia je navrhnutá tak, aby zabezpečila, že Forsaken nezlyhá pri zbližovaní v tréningu.

Na stanovenie použiteľného rozptylu údajov výskumníci použili údaje mimo distribúcie (OOD) (tj údaje, ktoré nie sú zahrnuté v skutočnom súbore údajov, napodobňujúce „citlivé“ údaje v skutočnom súbore údajov) na kalibráciu spôsobu, akým by sa mal algoritmus správať. .

Testovanie na množinách údajov

Metóda bola testovaná na ôsmich štandardných súboroch údajov a vo všeobecnosti dosiahla takmer alebo vyššiu mieru zabúdania ako úplné preškolenie, s veľmi malým vplyvom na presnosť modelu.

Zdá sa nemožné, že by úplné preškolenie na upravenom súbore údajov mohlo byť v skutočnosti horšie ako akákoľvek iná metóda, pretože cieľové údaje úplne chýbajú. Model však medzičasom abstrahoval rôzne črty vymazaných údajov „holografickým“ spôsobom, a to spôsobom (analogicky), že kvapka atramentu nanovo definuje užitočnosť pohára vody.

V skutočnosti už boli váhy modelu ovplyvnené vyňatými údajmi a jediný spôsob, ako úplne odstrániť jeho vplyv, je pretrénovať model z absolútnej nuly, a nie oveľa rýchlejší prístup pretrénovania váženého modelu na upravenom súbore údajov. .