Refresh

This website www.unite.ai/uz/making-a-machine-learning-model-forget-about-you-forsaken-forgetting/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

Biz bilan ulang

Sun'iy intellekt

Mashinani o'rganish modelini sizni unutishga majburlash

mm
yangilangan on

Mashinani o'rganish modeliga hissa qo'shgan ma'lum bir ma'lumotni olib tashlash, bir chashka qahvadan ikkinchi qoshiq shakarni olib tashlashga o'xshaydi. Bu vaqtga kelib ma'lumotlar allaqachon model ichidagi ko'plab boshqa neyronlar bilan uzviy bog'langan. Agar ma'lumotlar nuqtasi mashg'ulotning eng dastlabki, yuqori o'lchovli qismida ishtirok etgan ma'lumotlarni "aniqlash" ni ifodalasa, uni olib tashlash modelning qanday ishlashini tubdan qayta belgilashi yoki hatto uni ma'lum vaqt va vaqt sarflagan holda qayta o'qitishni talab qilishi mumkin. pul.

Shunga qaramay, Evropada hech bo'lmaganda, Umumiy ma'lumotlarni himoya qilishni tartibga solish to'g'risidagi qonunning (GDPR) 17-moddasi Talab qiladi kompaniyalar so'rov bo'yicha bunday foydalanuvchi ma'lumotlarini olib tashlashlari. Hujjat ushbu o'chirish ma'lumotlar bazasini "tashlash" so'rovidan boshqa narsa bo'lmasligini tushunish uchun tuzilganligi sababli, qonunchilik Evropa Ittifoqi loyihasidan paydo bo'lishi kerak. Sun'iy intellekt qonuni samarali bo'ladi nusxa va GDPR ruhini jadval ma'lumotlariga emas, balki o'qitilgan AI tizimlariga taalluqli qonunlarga aylantiradi.

Butun dunyo bo'ylab jismoniy shaxslarga mashina o'rganish tizimlaridan o'z ma'lumotlarini o'chirishni talab qilish huquqini beradigan qo'shimcha qonunlar ko'rib chiqilmoqda, 2018 yildagi Kaliforniya iste'molchilarining maxfiyligi to'g'risidagi qonun (CCPA). allaqachon bu huquqni taqdim etadi shtat rezidentlariga.

Nega muhim?

Ma'lumotlar to'plami harakatga yaroqli mashinani o'rganish modeliga o'rgatilganda, bu ma'lumotlarning xarakteristikalari umumlashtirilgan va mavhum bo'ladi, chunki model printsiplar va printsiplarni xulosa qilish uchun mo'ljallangan. keng tendentsiyalar ma'lumotlardan, natijada aniq va umumlashtirilmagan ma'lumotlarni tahlil qilishda foydali bo'ladigan algoritmni ishlab chiqaradi.

Biroq, kabi texnikalar modelning inversiyasi yakuniy, mavhum algoritmga asos bo'lgan hissa qo'shadigan ma'lumotlarni qayta identifikatsiya qilish imkoniyatini ochib berdi, shu bilan birga a'zolik haqida xulosa chiqarish hujumlari shuningdek, manba ma'lumotlarini, shu jumladan, faqat anonimlikni tushunish bo'yicha ma'lumotlar to'plamiga kiritilishiga ruxsat berilgan maxfiy ma'lumotlarni oshkor qilish imkoniyatiga ega.

Ushbu intilishlarga qiziqishning kuchayishi uchun shaxsiy daxlsizlik faolligiga tayanish shart emas: mashinani o'rganish sektori keyingi o'n yil ichida tijoratlashgani sababli va davlatlar hozirgi vaziyatni tugatish uchun bosim ostida qolishadi. laissez faire madaniyati Ma'lumotlar to'plamini yaratish uchun ekranni qirqishdan foydalanish bo'yicha, mulkiy va yuqori daromadli tasniflash, xulosa chiqarish va generativ AI ramkalariga hissa qo'shgan ma'lumotlarni dekodlash va ko'rib chiqish uchun IP-ni qo'llaydigan tashkilotlar (va IP trollari) uchun ortib borayotgan tijorat rag'bati bo'ladi.

Mashinani o'rganish modellarida amneziyani keltirib chiqarish

Shuning uchun biz shakarni qahvadan olib tashlash muammosiga duch kelamiz. Bu bo'lgan muammo bezovta qiluvchi tadqiqotchilar so'nggi yillarda: 2021 yilda Evropa Ittifoqi tomonidan qo'llab-quvvatlanadigan qog'oz Yuzni tanib olish kutubxonalarining maxfiylik xavfi bo'yicha qiyosiy tadqiqot yuzni aniqlashning bir nechta mashhur algoritmlari qayta identifikatsiya qilish hujumlarida jins yoki irqga asoslangan kamsitish imkonini berishi mumkinligini aniqladi; 2015 yilda Kolumbiya universiteti tadqiqoti taklif qilingan ma'lumotlar ichidagi bir qator yig'indilarni yangilashga asoslangan "mashinani o'zlashtirish" usuli; va 2019 yilda Stenford tadqiqotchilari taklif qildi K-vositalarini klasterlashtirishni amalga oshirish uchun yangi o'chirish algoritmlari.

Hozirda Xitoy va AQSh tadqiqot konsorsiumi ma'lumotlarni o'chirish yondashuvlarining muvaffaqiyatini baholash uchun yagona ko'rsatkichni va tadqiqotchilarning ta'kidlashicha, Forsaken deb nomlangan yangi "o'rganish" usulini taqdim etadigan yangi ishini nashr etdi. Modelning umumiy ishlashida atigi 90% aniqlik yo'qolishi bilan% unutish darajasi.

The qog'oz deyiladi Unutishni o'rganing: Neuron Maskin orqali mashinani o'rganishg va Xitoy va Berkli tadqiqotchilarining xususiyatlari.

Neyron maskalash, Forsaken tamoyili adan foydalanadi maska ​​gradienti generatorni modeldan ma'lum ma'lumotlarni olib tashlash uchun filtr sifatida, uni noldan yoki ma'lumotlar kiritilishidan oldin sodir bo'lgan snapshotdan qayta o'qitishga majburlashdan ko'ra samarali ravishda yangilaydi (oqimga asoslangan modellar bo'lsa). doimiy ravishda yangilanadi).

Niqob gradient generatorining arxitekturasi. Manba: https://arxiv.org/pdf/2003.10933.pdf

Niqob gradient generatorining arxitekturasi. Manba: https://arxiv.org/pdf/2003.10933.pdf

Biologik kelib chiqishi

Tadqiqotchilarning ta'kidlashicha, bu yondashuv ilhomlantirilgan biologik jarayon Foydalanuvchi dopaminning maxsus turini manipulyatsiya qilish orqali ma'lum bir xotira uchun barcha engram hujayralarini o'chirish uchun qattiq choralar ko'radigan "faol unutish".

Forsaken doimiy ravishda ushbu amalni takrorlaydigan niqob gradientini keltirib chiqaradi, maqsadli bo'lmagan ma'lumotlarni halokatli tarzda unutib qo'ymaslik uchun bu jarayonni sekinlashtirish yoki to'xtatish uchun himoya choralari mavjud.

Tizimning afzalliklari shundaki, u mavjud neyron tarmoqlarning ko'p turlari uchun qo'llanilishi mumkin, holbuki yaqinda shunga o'xshash ishlar asosan kompyuter ko'rish tarmoqlarida muvaffaqiyat qozongan; va u namunaviy o'qitish tartib-qoidalariga xalaqit bermasligi, balki asosiy arxitekturani o'zgartirish yoki ma'lumotlarni qayta o'qitishni talab qilmasdan, yordamchi sifatida ishlaydi.

Effektni cheklash

Qo'shilgan ma'lumotlarni o'chirish mashinani o'rganish algoritmining funksionalligiga potentsial zararli ta'sir ko'rsatishi mumkin. Buning oldini olish uchun tadqiqotchilar ekspluatatsiya qilishdi normalarni tartibga solish, odatdagi neyron tarmog'ini o'qitishning o'ziga xos xususiyati, odatda ortiqcha mashg'ulotlardan qochish uchun ishlatiladi. Tanlangan maxsus dastur Forsakenning mashg'ulotlarda birlashmasligini ta'minlash uchun mo'ljallangan.

Ma'lumotlarning foydali tarqalishini o'rnatish uchun tadqiqotchilar algoritmning o'zini tutish usulini kalibrlash uchun tarqatishdan tashqari (OOD) ma'lumotlardan (ya'ni, haqiqiy ma'lumotlar to'plamiga kiritilmagan ma'lumotlar, haqiqiy ma'lumotlar to'plamidagi "sezgir" ma'lumotlarni taqlid qilgan holda) foydalanganlar. .

Ma'lumotlar to'plamida sinov

Usul sakkizta standart ma'lumotlar to'plamida sinovdan o'tkazildi va umuman olganda, modelning aniqligiga juda kam ta'sir ko'rsatgan holda, to'liq qayta o'qitishdan ko'ra yaqin yoki undan yuqori unutish stavkalariga erishildi.

Tahrirlangan ma'lumotlar to'plamini to'liq qayta o'qitish boshqa usullardan ko'ra yomonroq bo'lishi mumkin emas, chunki maqsadli ma'lumotlar umuman yo'q. Biroq, model bu vaqtga qadar o'chirilgan ma'lumotlarning turli xususiyatlarini "golografik" usulda mavhumlashtirdi, xuddi bir tomchi siyoh bir stakan suvning foydaliligini qayta belgilaydigan tarzda (qiyoslash bo'yicha).

Haqiqatan ham, modelning og'irligiga ajralgan ma'lumotlar allaqachon ta'sir ko'rsatgan va uning ta'sirini butunlay yo'q qilishning yagona yo'li bu modelni tahrirlangan ma'lumotlar to'plamida qayta o'qitishning tezroq yondashuvidan ko'ra, modelni mutlaq noldan qayta tayyorlashdir. .