Кибербезопасность

Объяснимый ИИ Может Более Легко Предоставить Конфиденциальные Данные

Published August 26, 2021

Updated April 5, 2026

Martin Anderson

Исследователи из Национального университета Сингапура пришли к выводу, что чем более объяснимым становится ИИ, тем легче становится обходить важные функции конфиденциальности в системах машинного обучения. Они также обнаружили, что даже когда модель не объяснима, возможно использовать объяснения подобных моделей для “расшифровки” конфиденциальных данных в не объяснимой модели.

Исследование исследования, озаглавленное Использование объяснений для атак на модели, подчеркивает риски использования “случайной” непрозрачности работы нейронных сетей как будто это было бы проектировочным решением по безопасности – не в последнюю очередь потому, что волна новых глобальных инициатив, включая проект регулирования ИИ Европейского Союза, характеризует объяснимый ИИ (XAI) как предпосылку для окончательной нормализации машинного обучения в обществе.

В исследовании фактическая личность успешно восстановлена из якобы анонимных данных, связанных с выражениями лица, путем использования нескольких объяснений системы машинного обучения. Источник: https://arxiv.org/pdf/2108.10800.pdf

Исследователи комментируют:

‘Объяснимый искусственный интеллект (XAI) предоставляет больше информации, чтобы помочь пользователям понять решения модели, но эта дополнительная информация создает дополнительные риски для атак на конфиденциальность. Следовательно, предоставление объяснений наносит вред конфиденциальности.’

Переидентификация частных данных

Участники наборов данных машинного обучения могут дать согласие на включение в набор данных, предполагая анонимность; в случае личной идентифицирующей информации (PII), которая попадает в системы ИИ через неформальные сборы данных (например, через социальные сети), участие может быть технически законным, но натягивает понятие “согласия”.

Несколько методов появились в последние годы, которые оказались способными деанонимизировать PII из, казалось бы, непрозрачных потоков данных машинного обучения. Извлечение модели использует доступ API (т.е. “черный ящик” доступ, без специальной доступности исходного кода или данных), чтобы извлечь PII даже из крупномасштабных провайдеров MLaaS, включая Amazon Web Services, в то время как атаки на вывод членства (MIAs), действующие под аналогичными ограничениями, потенциально могут получить конфиденциальную медицинскую информацию; кроме того, атаки на вывод атрибутов (AIAs) могут восстановить конфиденциальные данные из выходных данных API.

Раскрытие лиц

Для новой статьи исследователи сосредоточились на атаке на модель, предназначенной для получения личности из подмножества данных об эмоциях лица, которые не должны быть способны раскрыть эту информацию.

Целью системы было связать изображения, найденные в Интернете (либо опубликованные случайно в Интернете, либо в потенциальной утечке данных), с их включением в наборы данных, лежащие в основе алгоритма машинного обучения.

Исследователи обучили модель атаки на инверсию, способную восстановить исходное изображение из анонимного выходного API, без специального доступа к исходной архитектуре. Предыдущая работа в этой области была сосредоточена на системах, где идентификация (защита или раскрытие) была целью как целевой системы, так и атакующей системы; в данном случае框架 был разработан для использования выходных данных одной области и применения их к другой области.

Была использована транспонированная сверточная нейронная сеть (CNN) для предсказания “оригинального” источника лица на основе целевого вектора прогнозирования (карты салиентности) для системы распознавания эмоций, используя архитектуру U-Net для улучшения производительности восстановления лица.

Система переидентификации работает и информируется объяснимым ИИ (XAI), где знания об активации нейронов, среди многих других публичных аспектов XAI, используются для восстановления внутренних механизмов архитектуры только из ее выходных данных, что позволяет переидентифицировать изображения набора данных.

Тестирование

При тестировании системы исследователи применили ее к трем наборам данных: iCV-MEFED выражения лица; CelebA; и MNIST рукописные цифры. Чтобы приспособиться к размеру модели, используемой исследователями, три набора данных были изменены до 128×128, 265×256 и 32×32 пикселей. 50% каждого набора было использовано в качестве обучающих данных, а другая половина использовалась в качестве набора данных для атаки для обучения моделей-антагонистов.

Каждый набор данных имел разные целевые модели, и каждая атакующая сеть была масштабирована до ограничений объяснений, лежащих в основе процесса, а не использовала более глубокие нейронные модели, чья сложность превышала бы обобщение объяснений.

Типы объяснений XAI, использованные для питания попыток, включали объяснение градиента, вход градиента, Grad-CAM и слой-за-слоем пропагацию релевантности (LRP). Исследователи также оценили несколько объяснений в экспериментах.

Восстановление изображения, облегченное атакой на инверсию, осведомленной о XAI, по трем наборам данных, с идентичными целевыми и атакующими задачами.

Метрики для теста были пиксельная подобие, оцененная по средней квадратичной ошибке (MSE); подобие изображения (SSIM), перцептивно-основанный показатель подобия; точность атаки, определяемая тем, может ли классификатор успешно переименовать восстановленное изображение; и подобие вложения атаки, которое сравнивает вложения функций известных исходных данных с восстановленными данными.

Переидентификация была достигнута, с различными уровнями в зависимости от задачи и наборов данных, по всем наборам. Кроме того, исследователи обнаружили, что, создавая суррогатную целевую модель (которую они, естественно, полностью контролировали), все еще было возможно достичь переидентификации данных из внешних, “закрытых” моделей, на основе известных принципов XAI.

Исследователи обнаружили, что наиболее точные результаты были получены активационными (картами салиентности) объяснениями, которые утечили больше PII, чем подходы, основанные на чувствительности (градиент).

В будущей работе команда намерена включить различные типы объяснений XAI в новые атаки, такие как визуализация функций и векторы активации понятий.