Refresh

This website www.unite.ai/mn/making-a-machine-learning-model-forget-about-you-forsaken-forgetting/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

бидэнтэй хамт холбоно

Хиймэл оюун

Машины сургалтын загварыг таныг мартуулах

mm
шинэчлэгдсэн on

Машин сургалтын загварт хувь нэмрээ оруулсан тодорхой өгөгдлийг устгах нь аяга кофеноос хоёр дахь халбага элсэн чихрийг арилгахыг оролдсонтой адил юм. Энэ үед өгөгдөл нь загвар доторх бусад олон мэдрэлийн эсүүдтэй салшгүй холбоотой болсон. Хэрэв өгөгдлийн цэг нь сургалтын хамгийн эртний, өндөр хэмжээст хэсэгт оролцож байсан "тодорхойлох" өгөгдлүүдийг төлөөлдөг бол түүнийг арилгах нь загвар хэрхэн ажиллахыг үндсээр нь дахин тодорхойлох эсвэл тодорхой цаг хугацаа зарцуулж, дахин сургах шаардлагатай болдог. мөнгө.

Гэсэн хэдий ч Европт наад зах нь Мэдээллийг хамгаалах ерөнхий хуулийн (GDPR) 17-р зүйл. шаарддаг компаниуд хүсэлтийн дагуу ийм хэрэглэгчийн өгөгдлийг устгах. Энэхүү устгал нь мэдээллийн санг "унагах" асуулгаас өөр зүйл биш гэдгийг ойлгосны үндсэн дээр уг актыг боловсруулсан тул ЕХ-ны төслөөс хууль тогтоомжийг гаргахаар төлөвлөж байна. Хиймэл оюун ухааны тухай хууль үр дүнтэй байх болно хуулбар болон оо GDPR-ийн сүнсийг хүснэгтийн өгөгдөл гэхээсээ илүү бэлтгэгдсэн хиймэл оюун ухааны системд хамаарах хуулиудад оруулах.

2018 оны Калифорнийн Хэрэглэгчийн Нууцлалын тухай хууль (CCPA) байхад машин сургалтын системээс мэдээллээ устгах хүсэлт гаргах эрхийг хүмүүст олгох нэмэлт хууль тогтоомжийг дэлхий даяар хэлэлцэж байна. Энэ эрхийг аль хэдийн олгосон мужийн оршин суугчдад.

Энэ нь яагаад чухал вэ?

Өгөгдлийн багцыг ажиллах боломжтой машин сургалтын загвар болгон сургах үед уг өгөгдлийн шинж чанарууд нь ерөнхий болон хийсвэр болдог, учир нь уг загвар нь зарчмуудыг дүгнэх зорилготой юм. өргөн чиг хандлага өгөгдлөөс тодорхой болон ерөнхий бус өгөгдөлд дүн шинжилгээ хийхэд хэрэг болох алгоритмыг гаргана.

Гэсэн хэдий ч техник, тухайлбал загварын урвуу эцсийн, хийсвэр алгоритмын үндэс болох хувь нэмэр оруулах өгөгдлийг дахин тодорхойлох боломжийг илрүүлсэн. гишүүнчлэлийн дүгнэлтийн халдлага Зөвхөн нэрээ нууцлахын тулд өгөгдлийн багцад оруулахыг зөвшөөрсөн нууц мэдээллийг багтаасан эх сурвалжийн өгөгдлийг ил гаргах чадвартай.

Энэхүү эрэл хайгуулын сонирхол нэмэгдэж байгаа нь хувийн нууцыг хамгаалах үйл ажиллагаанд найдах шаардлагагүй: машин сургалтын салбар ирэх арван жилийн хугацаанд арилжааны шинж чанартай болж, улс орнууд одоогийн үйл ажиллагааг зогсоох шахалтад орж байна. laissez faire соёл Өгөгдлийн багц үүсгэхийн тулд дэлгэцийн хусах аргыг ашигласнаар IP-ийг хэрэгжүүлэгч байгууллагууд (болон IP троллууд) өмчийн болон өндөр орлоготой ангилал, дүгнэлт, хиймэл хиймэл оюун ухааны тогтолцоог бий болгоход хувь нэмрээ оруулсан өгөгдлийг тайлж, хянах арилжааны урамшуулал өсөх болно.

Машин сургалтын загварт амнези өдөөх

Тиймээс кофеноос элсэн чихрийг арилгах асуудал бидэнд үлдэж байна. Энэ бол өмнө нь байсан асуудал юм уйтгартай сүүлийн жилүүдэд судлаачид: 2021 онд ЕХ-ны дэмжлэгтэй баримт бичиг Царай таних номын сангийн нууцлалын эрсдэлийн харьцуулсан судалгаа Нүүр царай таних хэд хэдэн алдартай алгоритмууд нь дахин таних халдлагад хүйс, арьсны өнгөөр ​​ялгаварлан гадуурхах боломжийг олгодог болохыг олж мэдсэн; 2015 онд Колумбын их сургуулиас гаргасан судалгаа санал болгосон өгөгдлийн доторх хэд хэдэн нийлбэрийг шинэчлэхэд үндэслэсэн "машинаар сурахгүй" арга; болон 2019 онд Стэнфордын судлаачид санал болгосон K-means кластерын хэрэгжилтийг устгах шинэ алгоритмууд.

Одоо Хятад, АНУ-ын судалгааны консорциум мэдээлэл устгах аргын амжилтыг үнэлэх нэгдсэн хэмжүүр, Forsaken хэмээх шинэ "суралцах" аргачлалыг нэвтрүүлсэн шинэ бүтээлийг нийтлэв. Загварын ерөнхий гүйцэтгэлд ердөө 90%-ийн нарийвчлалын алдагдалтай марталтын хувь.

The цаасан гэж нэрлэдэг Мартаж сур: Neuron Maskin-ээр дамжуулан машиныг сургахg, мөн Хятад болон Берклигийн судлаачид оролцдог.

Forsaken-ийн цаад зарчим болох нейроны маск нь a маск градиент загвараас тодорхой өгөгдлийг устгах шүүлтүүр болгон генераторыг эхнээс нь эсвэл өгөгдлийг оруулахаас өмнө үүссэн хормын хувилбараас дахин сургах гэхээсээ илүү үр дүнтэй шинэчилнэ (стриминг дээр суурилсан загваруудын хувьд). байнга шинэчлэгдэж байдаг).

Маск градиент үүсгэгчийн архитектур. Эх сурвалж: https://arxiv.org/pdf/2003.10933.pdf

Маск градиент үүсгэгчийн архитектур. Эх сурвалж: https://arxiv.org/pdf/2003.10933.pdf

Биологийн гарал үүсэл

Судлаачдын үзэж байгаагаар энэхүү арга барил нь урам зориг өгсөн биологийн үйл явц Хэрэглэгч тусгай төрлийн допаминыг ашиглан тодорхой санах ойн бүх энграм эсийг устгахын тулд хатуу арга хэмжээ авдаг "идэвхтэй мартах".

Forsaken нь энэ үйлдлийг давтдаг маск градиентийг байнга өдөөдөг бөгөөд зорилтот бус өгөгдлийг гамшгийн байдлаар мартахаас зайлсхийхийн тулд энэ үйл явцыг удаашруулах эсвэл зогсоох хамгаалалтын арга хэмжээ авдаг.

Системийн давуу тал нь одоо байгаа олон төрлийн мэдрэлийн сүлжээнд ашиглах боломжтой байдаг бол сүүлийн үед үүнтэй төстэй ажил нь компьютерийн харааны сүлжээнд ихээхэн амжилтанд хүрсэн; мөн энэ нь загварын сургалтын горимд саад учруулахгүй, харин үндсэн архитектурыг өөрчлөх, өгөгдлийг дахин сургах шаардлагагүй, харин нэмэлт үүрэг гүйцэтгэдэг.

Үр нөлөөг хязгаарлах

Оруулсан өгөгдлийг устгах нь машин сургалтын алгоритмын үйл ажиллагаанд сөргөөр нөлөөлж болзошгүй. Үүнээс зайлсхийхийн тулд судлаачид ашигласан нормыг зохицуулах, ердийн мэдрэлийн сүлжээний сургалтын онцлог нь хэт ачаалал өгөхөөс зайлсхийхэд түгээмэл хэрэглэгддэг. Сонгосон хэрэгжүүлэлт нь Forsaken-ийг сургалтанд нэгтгэхээс зайлсхийхэд чиглэгдсэн болно.

Өгөгдлийн ашиглах боломжтой тархалтыг бий болгохын тулд судлаачид алгоритмын ажиллах арга замыг тохируулахын тулд тархалтаас гадуур (OOD) өгөгдлийг (жишээлбэл, бодит мэдээллийн багцад ороогүй өгөгдөл, бодит мэдээллийн багц дахь "эмзэг" өгөгдлийг дуурайлган) ашигласан. .

Өгөгдлийн багц дээр туршилт хийх

Энэ аргыг найман стандарт өгөгдлийн багц дээр туршсан бөгөөд ерөнхийдөө бүрэн давтан сургахтай харьцуулахад мартах түвшинтэй ойролцоо буюу өндөр түвшинд хүрсэн бөгөөд загварын нарийвчлалд маш бага нөлөө үзүүлсэн.

Засварласан өгөгдлийн багцыг бүрэн дахин сургах нь бусад аргуудаас илүү муу зүйл хийх боломжгүй юм шиг санагдаж байна, учир нь зорилтот өгөгдөл нь огт байхгүй. Гэсэн хэдий ч, загвар нь өнөөг хүртэл устгасан өгөгдлийн янз бүрийн шинж чанаруудыг "голограф" хэлбэрээр хийсвэрлэсэн бөгөөд энэ нь нэг дусал бэх нь нэг аяга усны ашиг тусыг дахин тодорхойлсон байдаг.

Үнэн хэрэгтээ загварын жинд хасагдсан өгөгдлүүд аль хэдийн нөлөөлсөн бөгөөд түүний нөлөөллийг бүрмөсөн арилгах цорын ганц арга зам бол зассан өгөгдлийн багц дээр жинлэсэн загварыг дахин сургах илүү хурдан арга биш харин загварыг үнэмлэхүй тэгээс дахин сургах явдал юм. .