Искусственный интеллект
Заставить модель машинного обучения забыть о вас

Удаление определенного фрагмента данных, внесшего вклад в модель машинного обучения, похоже на попытку убрать вторую ложку сахара из чашки кофе. К этому времени данные уже стали неразрывно связаны со многими другими нейронами внутри модели. Если точка данных представляет собой «определяющие» данные, которые использовались в самой ранней, многомерной части обучения, то ее удаление может радикально переопределить функционирование модели или даже потребовать ее повторного обучения с некоторыми затратами времени и деньги.
Тем не менее, по крайней мере в Европе, статья 17 Закона об общих правилах защиты данных (GDPR) требуется что компании удаляют такие пользовательские данные по запросу. Поскольку закон был сформулирован при том понимании, что это стирание будет не более чем запросом на «удаление» базы данных, законодательство, которому суждено было появиться из проекта ЕС Закон об искусственном интеллекте будет эффективно скопировать и вставить дух GDPR в законы, которые применяются к обученным системам ИИ, а не к табличным данным.
В настоящее время по всему миру рассматриваются дополнительные законодательные акты, которые дадут людям право запрашивать удаление своих данных из систем машинного обучения, в то время как Закон Калифорнии о защите конфиденциальности потребителей (CCPA) 2018 г. уже предоставляет это право к жителям штата.
Почему это имеет значение
Когда набор данных преобразуется в действенную модель машинного обучения, характеристики этих данных становятся обобщенными и абстрактными, поскольку модель предназначена для вывода принципов и широкие тенденции из данных, в конечном итоге создав алгоритм, который будет полезен при анализе конкретных и необобщенных данных.
Однако такие техники, как инверсия модели выявили возможность повторной идентификации данных, лежащих в основе окончательного абстрактного алгоритма, в то время как атаки с выводом о членстве также могут раскрывать исходные данные, в том числе конфиденциальные данные, которые могут быть разрешены для включения в набор данных только при понимании анонимности.
Повышение интереса к этому делу не обязательно должно опираться на активность широких масс в области защиты конфиденциальности: по мере того, как сектор машинного обучения будет коммерциализироваться в течение следующих десяти лет, страны будут вынуждены положить конец нынешнему культура невмешательства по сравнению с использованием очистки экрана для создания наборов данных, будет расти коммерческий стимул для организаций, обеспечивающих соблюдение ИС (и троллей ИС), для декодирования и проверки данных, которые внесли свой вклад в проприетарную и высокодоходную классификацию, логические выводы и генеративные ИИ-фреймворки.
Индуцирование амнезии в моделях машинного обучения
Таким образом, перед нами стоит задача извлечения сахара из кофе. Это проблема, которая была досадный Исследователи последних лет: в 2021 году поддержанная ЕС статья Сравнительное исследование рисков конфиденциальности библиотек распознавания лиц обнаружил, что несколько популярных алгоритмов распознавания лиц способны обеспечивать дискриминацию по признаку пола или расы в атаках с повторной идентификацией; в 2015 году исследование Колумбийского университета предложило метод «машинного отучения», основанный на обновлении ряда сумм в данных; а в 2019 году исследователи из Стэнфорда предложенный новые алгоритмы удаления для реализаций кластеризации K-средних.
Теперь исследовательский консорциум из Китая и США опубликовал новую работу, в которой вводится единая метрика для оценки успеха подходов к удалению данных, а также новый метод «разучивания» под названием «Отвергнутые», который, по утверждению исследователей, способен достичь более 90 % забывания, с потерей точности всего 5% в общей производительности модели.
Команда статье называется Научитесь забывать: машинное разучивание с помощью нейронной маскиg, в котором участвуют исследователи из Китая и Беркли.
Маскировка нейронов, принцип, лежащий в основе Отрекшихся, использует градиент маски генератор в качестве фильтра для удаления определенных данных из модели, эффективно обновляя ее, а не заставляя ее переобучаться либо с нуля, либо из моментального снимка, сделанного до включения данных (в случае потоковых моделей, которые постоянно обновляются).

Архитектура генератора градиента маски. Источник: https://arxiv.org/pdf/2003.10933.pdf
Биологическое происхождение
Исследователи утверждают, что этот подход был вдохновлен биологический процесс «активного забывания», когда пользователь предпринимает резкие действия, чтобы стереть все клетки инграммы для определенного воспоминания, манипулируя особым типом дофамина.
Forsaken постоянно вызывает градиент маски, который повторяет это действие, с мерами предосторожности, чтобы замедлить или остановить этот процесс, чтобы избежать катастрофического забывания нецелевых данных.
Преимущества системы заключаются в том, что она применима ко многим видам существующих нейронных сетей, тогда как недавние аналогичные работы пользовались успехом в основном в сетях компьютерного зрения; и что он не мешает процедурам обучения модели, а скорее действует как дополнение, не требуя изменения базовой архитектуры или переобучения данных.
Ограничение эффекта
Удаление добавленных данных может оказать потенциально пагубное влияние на функциональность алгоритма машинного обучения. Чтобы избежать этого, исследователи использовали регуляризация норм, особенность обычного обучения нейронной сети, которая обычно используется, чтобы избежать перетренированности. Выбранная конкретная реализация предназначена для того, чтобы Отрекшиеся не переставали конвергировать при обучении.
Чтобы установить пригодное для использования распределение данных, исследователи использовали данные вне распределения (OOD) (т. е. данные, не включенные в фактический набор данных, имитирующие «конфиденциальные» данные в реальном наборе данных) для калибровки того, как должен вести себя алгоритм. .
Тестирование наборов данных
Этот метод был протестирован на восьми стандартных наборах данных и в целом достиг скорости забывания, близкой или выше, чем полное переобучение, с очень небольшим влиянием на точность модели.
Кажется невероятным, чтобы полное переобучение на отредактированном наборе данных могло на самом деле работать хуже, чем любой другой метод, поскольку целевые данные полностью отсутствуют. Однако к этому времени модель абстрагировала различные особенности удаленных данных в «голографической» манере, подобно тому, как (по аналогии) капля чернил переопределяет полезность стакана воды.
По сути, на веса модели уже повлияли вырезанные данные, и единственный способ полностью устранить их влияние — это переобучить модель с абсолютного нуля, а не гораздо более быстрый подход к переобучению взвешенной модели на отредактированном наборе данных. .