Artificial Intelligence
Kutengeneza Modeli ya Kujifunza ya Mashine Kusahau Kuhusu Wewe

Kuondoa kipande fulani cha data kilichochangia modeli ya kujifunza mashine ni kama kujaribu kuondoa kijiko cha pili cha sukari kwenye kikombe cha kahawa. Data, kufikia wakati huu, tayari imeunganishwa kihalisi na niuroni nyingine nyingi ndani ya modeli. Ikiwa sehemu ya data inawakilisha 'kufafanua' data ambayo ilihusika katika sehemu ya awali, ya hali ya juu ya mafunzo, basi kuiondoa kunaweza kufafanua upya jinsi modeli inavyofanya kazi, au hata kuhitaji ifunzwe tena kwa baadhi ya matumizi ya muda na. pesa.
Hata hivyo, katika Ulaya angalau, Kifungu cha 17 cha Sheria ya Jumla ya Udhibiti wa Ulinzi wa Data (GDPR) inahitaji kwamba makampuni huondoa data kama hiyo ya mtumiaji kwa ombi. Kwa kuwa kitendo hicho kiliundwa kwa kuelewa kwamba ufutaji huu haungekuwa zaidi ya swali la 'kuacha' hifadhidata, sheria inayokusudiwa kuibuka kutoka kwa Rasimu ya EU. Sheria ya Ujasusi Bandia mapenzi kwa ufanisi nakala na kuweka roho ya GDPR katika sheria zinazotumika kwa mifumo ya AI iliyofunzwa badala ya data ya jedwali.
Sheria zaidi inazingatiwa duniani kote ambayo itaruhusu watu binafsi kuomba data zao zifutwe kutoka kwa mifumo ya kujifunza kwa mashine, huku Sheria ya Faragha ya Mteja ya California (CCPA) ya 2018. tayari inatoa haki hii kwa wakazi wa jimbo hilo.
Kwa nini Ni muhimu
Seti ya data inapofunzwa kuwa modeli ya kujifunza ya mashine inayoweza kutekelezeka, sifa za data hiyo huwa za jumla na dhahania, kwa sababu muundo huo umeundwa kukisia kanuni na mwelekeo mpana kutoka kwa data, hatimaye kutoa algorithm ambayo itakuwa muhimu katika kuchambua data maalum na isiyo ya jumla.
Hata hivyo, mbinu kama vile ubadilishaji wa mfano wamefichua uwezekano wa kutambua tena data inayochangia ambayo ni msingi wa algorithm ya mwisho, iliyofupishwa, wakati mashambulizi ya makisio ya wanachama pia zina uwezo wa kufichua data ya chanzo, ikijumuisha data nyeti ambayo inaweza kuwa imeruhusiwa tu kujumuishwa katika mkusanyiko wa data kuhusu uelewa wa kutokujulikana.
Kuongezeka kwa shauku katika harakati hii hakuhitaji kutegemea uharakati wa faragha wa msingi: huku sekta ya kujifunza kwa mashine ikifanya biashara katika miaka kumi ijayo, na mataifa yanakabiliwa na shinikizo la kukomesha hali ya sasa. laissez faire utamaduni juu ya matumizi ya skrini kwa ajili ya utengenezaji wa seti ya data, kutakuwa na motisha ya kibiashara inayoongezeka kwa mashirika yanayotekeleza IP (na IP trolls) ili kusimbua na kukagua data ambayo imechangia uainishaji wa wamiliki na mapato ya juu, marejeleo na mifumo ya AI ya uzalishaji.
Kushawishi Amnesia katika Miundo ya Kujifunza ya Mashine
Kwa hivyo tumebakiwa na changamoto ya kupata sukari kutoka kwenye kahawa. Ni tatizo ambalo limekuwa kusumbua watafiti katika miaka ya hivi karibuni: mnamo 2021 karatasi inayoungwa mkono na EU Utafiti Linganishi kuhusu Hatari za Faragha za Maktaba za Utambuzi wa Uso iligundua kuwa algoriti kadhaa maarufu za utambuzi wa uso ziliweza kuwezesha ubaguzi wa jinsia au rangi katika mashambulizi ya kutambua upya; katika utafiti wa 2015 kutoka Chuo Kikuu cha Columbia kupendekezwa njia ya 'kuacha kujifunza kwa mashine' kulingana na kusasisha idadi ya majumuisho ndani ya data; na katika watafiti wa 2019 wa Stanford inayotolewa algoriti za ufutaji wa riwaya za utekelezaji wa nguzo wa K-njia.
Sasa muungano wa utafiti kutoka China na Marekani umechapisha kazi mpya ambayo inaleta kipimo sawa cha kutathmini mafanikio ya mbinu za kufuta data, pamoja na mbinu mpya ya 'kutojifunza' iitwayo Iliyoachwa, ambayo watafiti wanadai ina uwezo wa kufikia zaidi ya 90. % kasi ya kusahau, huku kukiwa na upotevu wa usahihi wa 5% pekee katika utendakazi wa jumla wa muundo.
The karatasi inaitwa Jifunze Kusahau: Kutojifunza kwa Mashine kupitia Neuron Masking, na inaangazia watafiti kutoka Uchina na Berkeley.
Masking ya neuroni, kanuni nyuma ya Kuachwa, hutumia a gradient ya mask jenereta kama kichujio cha kuondolewa kwa data mahususi kutoka kwa modeli, kuisasisha ipasavyo badala ya kulazimisha ifunzwe tena kutoka mwanzo au kutoka kwa muhtasari ambao ulitokea kabla ya kujumuishwa kwa data (katika kesi ya miundo inayotegemea utiririshaji ambayo zinasasishwa mara kwa mara).

Usanifu wa jenereta ya gradient ya mask. Chanzo: https://arxiv.org/pdf/2003.10933.pdf
Asili za Kibiolojia
Watafiti wanasema kuwa mbinu hii ilitokana na mchakato wa kibiolojia ya 'kusahau kikamilifu', ambapo mtumiaji huchukua hatua madhubuti kufuta seli zote za engram kwa kumbukumbu fulani kwa kudanganya aina maalum ya dopamini.
Kitendo kilichoachwa mara kwa mara huamsha kipenyo cha barakoa ambacho kinaiga kitendo hiki, kikiwa na ulinzi wa kupunguza au kusimamisha mchakato huu ili kuepuka kusahaulika kwa data isiyolengwa.
Faida za mfumo huu ni kwamba unatumika kwa aina nyingi za mitandao ya neva iliyopo, ilhali kazi kama hiyo ya hivi majuzi imefurahia mafanikio kwa kiasi kikubwa katika mitandao ya maono ya kompyuta; na kwamba haiingiliani na taratibu za mafunzo ya kielelezo, bali hufanya kazi kama kiambatanisho, bila kuhitaji usanifu wa msingi ubadilishwe au data ifunzwe upya.
Kuzuia Athari
Kufuta data iliyochangiwa kunaweza kuwa na athari inayoweza kuwa mbaya kwa utendakazi wa kanuni ya kujifunza kwa mashine. Ili kuepusha hili, watafiti wamenyonya utaratibu wa kawaida, kipengele cha mafunzo ya kawaida ya mtandao wa neva ambayo hutumiwa kwa kawaida ili kuepuka kujizoeza kupita kiasi. Utekelezaji mahususi uliochaguliwa umeundwa ili kuhakikisha kuwa Aliyeachwa hashindwi kuungana katika mafunzo.
Ili kuanzisha mtawanyiko unaoweza kutumika wa data, watafiti walitumia data ya nje ya usambazaji (OOD) (yaani, data isiyojumuishwa kwenye mkusanyiko halisi wa data, kuiga data 'nyeti' katika mkusanyiko halisi wa data) ili kurekebisha jinsi algoriti inapaswa kutenda. .
Kujaribu kwenye Hifadhidata
Mbinu hii ilijaribiwa zaidi ya seti nane za kawaida za hifadhidata na kwa ujumla ilipata viwango vya kusahau vilivyo karibu au vya juu zaidi kuliko kujizoeza upya, na kukiwa na athari ndogo sana kwenye usahihi wa kielelezo.
Inaonekana haiwezekani kwamba mafunzo kamili kwenye hifadhidata iliyohaririwa inaweza kufanya vibaya zaidi kuliko njia nyingine yoyote, kwani data inayolengwa haipo kabisa. Hata hivyo, mtindo huo kwa wakati huu umeondoa vipengele mbalimbali vya data iliyofutwa kwa mtindo wa 'holographic', kwa njia (kwa mlinganisho) ambayo tone la wino hufafanua upya matumizi ya glasi ya maji.
Kwa kweli, uzani wa modeli tayari umeathiriwa na data iliyotozwa, na njia pekee ya kuondoa ushawishi wake ni kufundisha tena kielelezo kutoka sifuri kabisa, badala ya mbinu ya haraka zaidi ya kufundisha tena mfano ulio na uzani kwenye hifadhidata iliyohaririwa. .