Refresh

This website www.unite.ai/bg/making-a-machine-learning-model-forget-about-you-forsaken-forgetting/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

Свържете се с нас

Накарайте модел на машинно обучение да забрави за вас

Изкуствен интелект

Накарайте модел на машинно обучение да забрави за вас

mm
Обновено on

Премахването на определена част от данните, които са допринесли за модел на машинно обучение, е като да се опитвате да премахнете втората лъжица захар от чаша кафе. До този момент данните вече са вътрешно свързани с много други неврони в модела. Ако дадена точка от данни представлява „дефиниращи“ данни, които са били включени в най-ранната, високомерна част от обучението, тогава премахването й може радикално да предефинира начина, по който функционира моделът, или дори да изисква той да бъде обучен отново с определен разход на време и пари.

Въпреки това, поне в Европа, член 17 от Общия регламент относно защитата на данните (GDPR) Изисква че компаниите премахват такива потребителски данни при поискване. Тъй като актът беше формулиран с разбирането, че това изтриване няма да бъде нищо повече от заявка за „пускане“ на базата данни, законодателството, предназначено да излезе от проекта на ЕС Закон за изкуствения интелект ще ефективно копиране и поставяне духът на GDPR в закони, които се прилагат за обучени AI системи, а не за таблични данни.

По света се обмисля допълнително законодателство, което ще даде право на лицата да поискат изтриване на техните данни от системи за машинно обучение, докато Калифорнийският закон за поверителността на потребителите (CCPA) от 2018 г. вече предоставя това право на жителите на щата.

Защо има значение

Когато набор от данни се обучава в действащ модел на машинно обучение, характеристиките на тези данни стават обобщени и абстрактни, тъй като моделът е проектиран да извежда принципи и широки тенденции от данните, като в крайна сметка създава алгоритъм, който ще бъде полезен при анализиране на специфични и необобщени данни.

Въпреки това техники като инверсия на модела са разкрили възможността за повторно идентифициране на допринасящите данни, които са в основата на крайния, абстрахиран алгоритъм, докато атаки с извод за членство също са способни да разкриват изходни данни, включително чувствителни данни, които може да са били разрешени да бъдат включени в набор от данни само при разбирането за анонимност.

Ескалирането на интереса към това преследване не трябва да разчита на активизъм за неприкосновеността на личния живот на местно ниво: тъй като секторът за машинно обучение се комерсиализира през следващите десет години и нациите са под натиск да прекратят сегашния laissez faire култура над използването на скрийнинг на екрана за генериране на набори от данни, ще има нарастващ търговски стимул за организациите, налагащи IP (и IP тролове), да декодират и преглеждат данните, които са допринесли за патентована и високодоходна класификация, изводи и генериращи AI рамки.

Предизвикване на амнезия в модели на машинно обучение

Следователно ни остава предизвикателството да извадим захарта от кафето. Това е проблем, който е бил досаден изследователи през последните години: през 2021 г. документът, подкрепен от ЕС Сравнително проучване на рисковете за поверителността на библиотеките за разпознаване на лица установи, че няколко популярни алгоритъма за разпознаване на лица са в състояние да позволят дискриминация, основана на пол или раса, при атаки за повторна идентификация; през 2015 г. изследване от Колумбийския университет предложената метод на „отучаване на машината“, базиран на актуализиране на редица суми в рамките на данните; и през 2019 г. изследователи от Станфорд предложена нови алгоритми за изтриване за реализации на групиране на K-средства.

Сега изследователски консорциум от Китай и САЩ публикува нова работа, която въвежда единна метрика за оценка на успеха на подходите за изтриване на данни, заедно с нов метод за „необучаване“, наречен Forsaken, за който изследователите твърдят, че е в състояние да постигне повече от 90 % процент на забравяне, само с 5% загуба на точност в цялостната производителност на модела.

- хартия е наречен Научете се да забравяте: Машинно отучаване чрез Neuron Masking и включва изследователи от Китай и Бъркли.

Невронното маскиране, принципът зад Forsaken, използва a маска градиент генератор като филтър за премахване на конкретни данни от модел, ефективно го актуализира, вместо да го принуждава да бъде преквалифициран или от нулата, или от моментна снимка, възникнала преди включването на данните (в случай на модели, базирани на поточно предаване, които се актуализират непрекъснато).

Архитектурата на генератора на маска градиент. Източник: https://arxiv.org/pdf/2003.10933.pdf

Архитектурата на генератора на маска градиент. Източник: https://arxiv.org/pdf/2003.10933.pdf

Биологичен произход

Изследователите заявяват, че този подход е вдъхновен от биологичен процес на „активно забравяне“, при което потребителят предприема рязко действие, за да изтрие всички енграмни клетки за определена памет чрез манипулиране на специален тип допамин.

Forsaken непрекъснато предизвиква градиент на маска, който възпроизвежда това действие, с предпазни мерки за забавяне или спиране на този процес, за да се избегне катастрофално забравяне на нецелеви данни.

Предимствата на системата са, че тя е приложима към много видове съществуващи невронни мрежи, докато скорошната подобна работа се радва на успех до голяма степен в мрежите за компютърно зрение; и че не се намесва в процедурите за обучение на модела, а по-скоро действа като допълнение, без да се изисква промяна на основната архитектура или повторно обучение на данните.

Ограничаване на ефекта

Изтриването на предоставени данни може да има потенциално вреден ефект върху функционалността на алгоритъм за машинно обучение. За да избегнат това, изследователите са използвали регулиране на нормата, характеристика на нормалното обучение на невронни мрежи, която обикновено се използва за избягване на претрениране. Конкретното избрано изпълнение е предназначено да гарантира, че Forsaken няма да успее да се сближи в обучението.

За да установят използваемо разпръскване на данни, изследователите са използвали данни извън разпространението (OOD) (т.е. данни, които не са включени в действителния набор от данни, имитиращи „чувствителни“ данни в действителния набор от данни), за да калибрират начина, по който трябва да се държи алгоритъмът .

Тестване върху набори от данни

Методът беше тестван върху осем стандартни набора от данни и като цяло постигна близки до или по-високи нива на забравяне от пълното преобучение, с много малко въздействие върху точността на модела.

Изглежда невъзможно пълното преквалифициране на редактиран набор от данни всъщност да се справи по-лошо от всеки друг метод, тъй като целевите данни изобщо липсват. Въпреки това моделът към този момент е абстрахирал различни характеристики на изтритите данни по „холографски“ начин, по начина (по аналогия), по който капка мастило предефинира полезността на чаша вода.

Всъщност теглата на модела вече са били повлияни от изрязаните данни и единственият начин да се премахне изцяло влиянието му е да се преквалифицира моделът от абсолютната нула, вместо далеч по-бързият подход за повторно обучение на претегления модел върху редактиран набор от данни .