Кібербезпека

Explainable AI може здаватися конфіденційними даними легше

Published August 26, 2021

Updated May 24, 2026

Martin Anderson

Дослідники Національного університету Сінгапуру прийшли до висновку, що чим більш пояснювана штучний інтелект, тим легше буде обійти важливі функції конфіденційності в системах машинного навчання. Вони також виявили, що навіть якщо модель не пояснювана, все одно можна використовувати пояснення подібних моделей, щоб “розшифрувати” конфіденційну інформацію в не пояснюваній моделі.

Дослідження дослідження, озаглавлене Використання пояснень для атак на інверсію моделі, підкреслює ризики використання “необхідної” не透кості того, як працюють нейронні мережі, як якщо б це була функція безпеки за призначенням – не в останню чергу тому, що хвиля нових глобальних ініціатив, включаючи проект規칙 штучного інтелекту Європейського Союзу, проект правил штучного інтелекту Європейського Союзу, описують пояснюваний штучний інтелект (XAI) як передумову для майбутньої нормалізації машинного навчання в суспільстві.

У дослідженні успішно відновлено справжню ідентичність з анонімних даних, пов’язаних з виразами обличчя, шляхом використання пояснень системи машинного навчання. Джерело: https://arxiv.org/pdf/2108.10800.pdf

Дослідники коментують:

‘Пояснюваний штучний інтелект (XAI) надає більше інформації, щоб допомогти користувачам зрозуміти рішення моделі, проте ця додаткова інформація розкриває додаткові ризики для атак на конфіденційність. Тому надання пояснень шкодить конфіденційності.’

Перевстановлення приватних даних

Учасники наборів даних машинного навчання можуть погодитися бути включеними в набір даних під умовою анонімності; у випадку з особистими ідентифікаторами інформації (PII), які потрапляють до систем штучного інтелекту через неофіційне збирання даних (наприклад, через соціальні мережі), участь може бути технічно законною, проте це ставить під сумнів概念 “погодження”.

Були розроблені кілька методів, які довели свою здатність деанонімізувати PII з явно не прозорих потоків даних машинного навчання. Вилучення моделі використовує доступ до API (тобто “чорний ящик” доступ, без особливої доступності вихідного коду або даних), щоб витягнути PII навіть з великомасштабних постачальників MLaaS, включаючи Amazon Web Services, тоді як атаки на визначення членства (MIAs), що працюють під подібними обмеженнями, потенційно можуть отримати конфіденційну медичну інформацію; крім того, атаки на атрибуцію (AIAs) можуть відновити конфіденційну інформацію з виводу API.

Відкриття облич

Для нової статті дослідники зосередилися на атаці на інверсію моделі, призначеній для отримання ідентичності з підмножини даних про вирази обличчя, які не повинні бути здатні розкрити цю інформацію.

Мета системи полягала в асоціації зображень, знайдених у вільному доступі (або опублікованих випадково в інтернеті чи в потенційній утечі даних), з їхнім включенням до наборів даних, які підтримують алгоритм машинного навчання.

Дослідники тренували модель атаки на інверсію, здатну відновити внесок зображення з анонімного виводу API, без особливого доступу до оригінальної архітектури. Попередня робота в цій галузі зосереджувалася на системах, де ідентифікація (захист або розкриття) була метою як цільової системи, так і системи атаки; у цьому випадку框 був розроблений для використання виводу однієї області та застосування його до іншої області.

Була використана транспонованої卷невої нейронної мережі (CNN) для прогнозування “оригінального” джерела обличчя на основі вектору передбачення цілі (карти салєнції) для системи розпізнавання емоцій, використовуючи архітектуру U-Net для покращення результатів відновлення обличчя.

Система перевстановлення ідентичності працює та інформується пояснюваним штучним інтелектом (XAI), де знання про активацію нейронів, серед багатьох публічних аспектів XAI, використовується для відновлення внутрішніх механізмів архітектури тільки з її виводу, що дозволяє перевстановити ідентичність зображень у наборі даних.

Тестування

Під час тестування системи дослідники застосували її до трьох наборів даних: iCV-MEFED вирази обличчя; CelebA; і MNIST рукописні цифри. Для розміру моделі, яку використовували дослідники, три набори даних були змінені до 128×128, 265×256 і 32×32 пікселів. 50% кожного набору даних було використано як тренувальні дані, а інша половина була використана як набір даних для атаки для тренування моделей антагоністів.

Кожен набір даних мав різні цільові моделі, і кожна мережа атаки була масштабована до обмежень пояснень, що підтримували процес, а не використання глибоких нейронних моделей, складність яких перевищувала б узагальнення пояснень.

Типи пояснень XAI, які були використані для підтримки спроб, включали пояснення градієнта, вхід градієнта, Grad-CAM і пошарову пропагацію важливості (LRP). Дослідники також оцінювали кілька пояснень у експериментах.

Відновлення зображення, яке підтримується атакою на інверсію XAI, по трьох наборах даних, з однаковими цільовими та завданнями атаки.

Метрики для тесту були оцінені за допомогою похибки середнього квадрату (MSE); подібності зображення (SSIM), перцептивно-оснований індекс подібності; точність атаки, визначена тим, чи може класифікатор успішно перейменувати відновлене зображення; і подібність вкладення атаки, яка порівнює вкладення функцій відомих джерел даних з відновленими даними.

Перевстановлення ідентичності було досягнуто, з різними рівнями залежно від завдання та наборів даних, по всіх наборах даних. Крім того, дослідники виявили, що, створивши замісну цільову модель (яку вони природно мали повний контроль), все одно було можливо досягти перевстановлення ідентичності даних з зовнішніх, “закритих” моделей, на основі відомих принципів XAI.

Дослідники виявили, що найбільш точні результати були отримані за допомогою пояснень, заснованих на активації (карті салєнції), які витекли більше PII, ніж підходи, засновані на чутливості (градієнт).

У майбутній роботі команда планує включити різні типи пояснень XAI в нові атаки, такі як візуалізація функцій і вектори активації концепції.

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]