Refresh

This website www.unite.ai/hy/making-a-machine-learning-model-forget-about-you-forsaken-forgetting/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

Միացեք մեզ

Մեքենայական ուսուցման մոդել պատրաստելը մոռացել է ձեզ

Արհեստական ​​բանականություն

Մեքենայական ուսուցման մոդել պատրաստելը մոռացել է ձեզ

mm
Թարմացվել է on

Հեռացնելով որոշակի տվյալներ, որոնք նպաստել են մեքենայական ուսուցման մոդելին, նույնն է, թե փորձելով հեռացնել շաքարավազի երկրորդ գդալը մեկ բաժակ սուրճից: Տվյալներն այս պահին արդեն իսկ կապված են մոդելի ներսում գտնվող բազմաթիվ այլ նեյրոնների հետ: Եթե ​​տվյալների կետը ներկայացնում է «սահմանող» տվյալներ, որոնք ներգրավված են եղել ուսուցման ամենավաղ, մեծ չափերի մասում, ապա այն հեռացնելը կարող է արմատապես վերասահմանել, թե ինչպես է մոդելը գործում, կամ նույնիսկ պահանջել, որ այն վերապատրաստվի որոշակի ժամանակի և ժամանակի ընթացքում: փող.

Այնուամենայնիվ, առնվազն Եվրոպայում տվյալների պաշտպանության ընդհանուր կանոնակարգման ակտի (GDPR) 17-րդ հոդվածը. Պահանջում է որ ընկերությունները խնդրանքով հեռացնում են օգտատերերի այդպիսի տվյալները: Քանի որ ակտը ձևակերպվել է այն ըմբռնմամբ, որ այս ջնջումը կլինի ոչ այլ ինչ, քան տվյալների բազայի «թողնել» հարցում, օրենսդրությունը, որը նախատեսված է առաջանալ ԵՄ նախագծից: Արհեստական ​​ինտելեկտի մասին ակտ արդյունավետորեն կլինի պատճենը եւ տեղադրեք GDPR-ի ոգին վերածվում է օրենքների, որոնք վերաբերում են վերապատրաստված AI համակարգերին, այլ ոչ թե աղյուսակային տվյալներին:

Ամբողջ աշխարհում քննարկվում է լրացուցիչ օրենսդրություն, որը անհատներին իրավունք կտա պահանջել ջնջել իրենց տվյալները մեքենայական ուսուցման համակարգերից, մինչդեռ Կալիֆորնիայի սպառողների գաղտնիության մասին օրենքը (CCPA) 2018 թ. արդեն տրամադրում է այս իրավունքը նահանգի բնակիչներին։

Ինչու է դա կարևոր

Երբ տվյալների բազան վերապատրաստվում է գործող մեքենայական ուսուցման մոդելի մեջ, այդ տվյալների բնութագրերը դառնում են ընդհանրացված և վերացական, քանի որ մոդելը նախագծված է ենթադրելու սկզբունքներ և լայն միտումներ տվյալներից՝ ի վերջո արտադրելով ալգորիթմ, որն օգտակար կլինի կոնկրետ և ոչ ընդհանրացված տվյալների վերլուծության համար:

Այնուամենայնիվ, այնպիսի մեթոդներ, ինչպիսիք են մոդելի շրջում բացահայտել են վերջնական, վերացական ալգորիթմի հիմքում ընկած աջակցող տվյալների վերամիավորման հնարավորությունը, մինչդեռ անդամակցության եզրակացության հարձակումները կարող են նաև բացահայտել սկզբնաղբյուր տվյալները, ներառյալ զգայուն տվյալները, որոնք կարող են թույլատրվել միայն տվյալների բազայում ներառել անանունությունը հասկանալու համար:

Այս հետապնդման նկատմամբ հետաքրքրության աճը կարիք չունի հիմնվելու հանրային գաղտնիության ակտիվության վրա. քանի որ մեքենայական ուսուցման ոլորտը առևտրայնացվում է առաջիկա տասը տարիների ընթացքում, և ազգերը ճնշում են գործադրում՝ վերջ դնելու ընթացիկին: laissez faire մշակույթ Տվյալների ստեղծման համար էկրանի քերծվածքի կիրառման հետ կապված, IP կիրառող կազմակերպությունների (և IP տրոլների) համար աճող առևտրային խթան կլինի՝ վերծանելու և վերանայելու այն տվյալները, որոնք նպաստել են սեփականության և բարձր եկամուտների դասակարգմանը, եզրակացություններին և գեներացնող AI շրջանակներին:

Մեքենայի ուսուցման մոդելներում ամնեզիայի առաջացում

Հետևաբար, մեզ մնում է սուրճից շաքարավազը հանելու մարտահրավերը: Դա խնդիր է, որը եղել է վրդովեցուցիչ հետազոտողները վերջին տարիներին. 2021 թվականին ԵՄ-ի կողմից աջակցվող փաստաթուղթը Դեմքի ճանաչման գրադարանների գաղտնիության ռիսկերի համեմատական ​​ուսումնասիրություն պարզել է, որ դեմքի ճանաչման մի քանի հանրաճանաչ ալգորիթմներ ի վիճակի են սեռի կամ ռասայական խտրականության վրա հիմնված վերամիավորման հարձակումների դեպքում. Կոլումբիայի համալսարանի 2015թ առաջարկեց «մեքենայական ուսուցման» մեթոդ, որը հիմնված է տվյալների մեջ մի շարք գումարումների թարմացման վրա. իսկ 2019 թվականին Ստենֆորդի հետազոտողները առաջարկել Նոր ջնջման ալգորիթմներ K-միջոցների կլաստերավորման իրականացման համար:

Այժմ Չինաստանից և ԱՄՆ-ից հետազոտական ​​կոնսորցիումը հրապարակել է նոր աշխատանք, որը ներկայացնում է տվյալների ջնջման մոտեցումների հաջողության գնահատման միասնական չափորոշիչ՝ Forsaken կոչվող «չուսուցման» նոր մեթոդի հետ միասին, որը հետազոտողները պնդում են, որ կարող է հասնել ավելի քան 90: Մոռանալու % տոկոսադրույք՝ մոդելի ընդհանուր կատարողականում ընդամենը 5% ճշգրտության կորստով:

  թուղթ կոչվում է Սովորեք մոռանալ. մեքենայական անսարքություն Նեյրոն Մասկինի միջոցովg, և ներկայացնում են հետազոտողներ Չինաստանից և Բերքլիից:

Նեյրոնային դիմակավորումը, Forsaken-ի հիմքում ընկած սկզբունքը, օգտագործում է ա դիմակ գրադիենտ գեներատոր՝ որպես մոդելից կոնկրետ տվյալների հեռացման զտիչ՝ արդյունավետորեն թարմացնելով դրանք, այլ ոչ թե ստիպելով դրանք վերապատրաստվել կամ զրոյից կամ պատկերից, որը տեղի է ունեցել մինչև տվյալների ընդգրկումը (հոսքային մոդելների դեպքում, որոնք շարունակաբար թարմացվում են):

Դիմակի գրադիենտ գեներատորի ճարտարապետությունը. Աղբյուր՝ https://arxiv.org/pdf/2003.10933.pdf

Դիմակի գրադիենտ գեներատորի ճարտարապետությունը. Աղբյուր՝ https://arxiv.org/pdf/2003.10933.pdf

Կենսաբանական ծագում

Հետազոտողները նշում են, որ այս մոտեցումը ոգեշնչվել է կենսաբանական գործընթաց «ակտիվ մոռացության» դեպքում, որտեղ օգտատերը կոշտ գործողություններ է ձեռնարկում՝ ջնջելու բոլոր էնգրամ բջիջները որոշակի հիշողության համար՝ հատուկ տեսակի դոֆամինի մանիպուլյացիայի միջոցով:

Forsaken-ը շարունակաբար առաջացնում է դիմակի գրադիենտ, որը կրկնում է այս գործողությունը՝ այս գործընթացը դանդաղեցնելու կամ դադարեցնելու երաշխիքներով՝ խուսափելու համար ոչ նպատակային տվյալների աղետալի մոռացությունից:

Համակարգի առավելություններն այն են, որ այն կիրառելի է գոյություն ունեցող նեյրոնային ցանցերի բազմաթիվ տեսակների համար, մինչդեռ վերջին նմանատիպ աշխատանքները մեծապես հաջողություն են ունեցել համակարգչային տեսողական ցանցերում. և որ այն չի խանգարում մոդելային ուսուցման ընթացակարգերին, այլ ավելի շուտ գործում է որպես օժանդակ միջոց՝ առանց պահանջելու, որ հիմնական ճարտարապետությունը փոխվի կամ տվյալները վերապատրաստվեն:

Էֆեկտի սահմանափակում

Ներկայացված տվյալների ջնջումը կարող է պոտենցիալ վնասակար ազդեցություն ունենալ մեքենայական ուսուցման ալգորիթմի ֆունկցիոնալության վրա: Դրանից խուսափելու համար հետազոտողները շահագործել են նորմայի կանոնակարգում, նորմալ նեյրոնային ցանցի ուսուցման առանձնահատկություն, որը սովորաբար օգտագործվում է գերմարզումներից խուսափելու համար։ Ընտրված կոնկրետ իրականացումը նախատեսված է ապահովելու համար, որ Forsaken-ը չհամընկնի վերապատրաստման մեջ:

Տվյալների օգտագործելի ցրվածություն ստեղծելու համար հետազոտողները օգտագործել են բաշխումից դուրս (OOD) տվյալներ (այսինքն՝ տվյալներ, որոնք ներառված չեն փաստացի տվյալների բազայում, ընդօրինակելով «զգայուն» տվյալները փաստացի տվյալների բազայում)՝ չափորոշելու, թե ինչպես է ալգորիթմը վարվելու։ .

Փորձարկում տվյալների հավաքածուների վրա

Մեթոդը փորձարկվել է ութ ստանդարտ տվյալների հավաքածուների վրա և, ընդհանուր առմամբ, հասել է մոտ կամ ավելի բարձր մոռանալու արագության, քան ամբողջական վերապատրաստումը, ինչը շատ քիչ ազդեցություն է ունեցել մոդելի ճշգրտության վրա:

Թվում է, թե անհնար է, որ խմբագրված տվյալների ամբողջական վերապատրաստումը կարող է իրականում ավելի վատ լինել, քան ցանկացած այլ մեթոդ, քանի որ թիրախային տվյալները բացակայում են: Այնուամենայնիվ, մոդելը մինչ այժմ վերացարկեց ջնջված տվյալների տարբեր առանձնահատկությունները «հոլոգրաֆիկ» ձևով, այնպես, ինչպես (անալոգիայով), մի կաթիլ թանաքը վերասահմանում է մեկ բաժակ ջրի օգտակարությունը:

Փաստորեն, մոդելի կշիռների վրա արդեն ազդել են կտրված տվյալները, և դրա ազդեցությունն ամբողջությամբ վերացնելու միակ միջոցը մոդելը բացարձակ զրոյից վերապատրաստելն է, քան խմբագրված տվյալների բազայի վրա կշռված մոդելը վերապատրաստելու շատ ավելի արագ մոտեցումը: .