Кібербезпека
Explainable AI May Surrender Confidential Data More Easily

Дослідники з Національного університету Сінгапуру дійшли висновку, що чим більш пояснювана штучний інтелект стає, тим легше буде обійти важливі функції конфіденційності в системах машинного навчання. Вони також виявили, що навіть коли модель не пояснювана, можливо використовувати пояснення подібних моделей для “розшифрування” конфіденційних даних у не-пояснюваній моделі.
Дослідження дослідження, під назвою Exploiting Explanations for Model Inversion Attacks, підкреслює ризики використання “необхідної” не透кості того, як працюють нейронні мережі, як якщо б це була функція безпеки за проектом – не в останню чергу тому, що хвиля нових глобальних ініціатив, включаючи проект регулювання штучного інтелекту Європейського Союзу, характеризують пояснюваний штучний інтелект (XAI) як передумову для майбутньої нормалізації машинного навчання в суспільстві.

У дослідженні фактична ідентичність успішно відновлена з передбачувано анонімних даних, пов’язаних з вираженнями обличчя, через використання кількох пояснень системи машинного навчання. Джерело: https://arxiv.org/pdf/2108.10800.pdf
Дослідники коментують:
‘Пояснюваний штучний інтелект (XAI) надає більше інформації, щоб допомогти користувачам зрозуміти рішення моделі, проте ця додаткова інформація розкриває додаткові ризики для атак на конфіденційність. Отже, надання пояснень шкодить конфіденційності.’
Перевизначення приватних даних
Учасники наборів даних машинного навчання можуть погодитися бути включеними в набір даних на підставі анонімності; у випадку з особистими ідентифікаторами (PII), які потрапляють до систем штучного інтелекту через неформальне збирання даних (наприклад, через соціальні мережі), участь може бути технічно законною, але порушує поняття “добровільної згоди”.
Було розроблено кілька методів, які в останні роки довели свою здатність деанонімізувати PII з явно не透ких потоків даних машинного навчання. Видалення моделі використовує доступ до API (тобто “чорний ящик” з доступом, без особливої доступності джерельного коду або даних), щоб витягнути PII навіть з великомасштабних постачальників MLaaS, включаючи Amazon Web Services, тоді як атаки на членство в моделі (MIAs) під подібними обмеженнями можуть потенційно отримати конфіденційну медичну інформацію; крім того, атаки на атрибутивну інференцію (AIAs) можуть відновити чутливі дані з виводу API.
Відкриття облич
Для нової статті дослідники зосередилися на атаці інверсії моделі, призначеної для отримання ідентичності з підмножини даних про вираження обличчя, які не повинні бути здатні розкривати цю інформацію.
Мета системи полягала в асоціації зображень, знайдених у вільному доступі (або опублікованих випадково в Інтернеті чи в потенційній утечі даних), з їхнім включенням до наборів даних, які підтримують алгоритм машинного навчання.
Дослідники тренували модель атаки інверсії, здатну відновити внесок зображення з анонімного виводу API, без особливого доступу до оригінальної архітектури. Попередня робота в цій галузі зосереджувалася на системах, де ідентифікація (захист або розкриття) була метою як цільової системи, так і системи атаки; в цьому випадку框架 був розроблений для використання виводу однієї області та застосування його до іншої області.
Було використано перевернуту卷олюційну нейронну мережу (CNN) для передбачення “оригінального” джерельного обличчя на основі вектору передбачення цілі (карти сал’єності) для системи розпізнавання емоцій, використовуючи архітектуру U-Net для покращення продуктивності відновлення обличчя.

Система повторної ідентифікації підтримується та інформується пояснюваним штучним інтелектом (XAI), де знання про активацію нейронів серед багатьох публічних аспектів XAI використовується для відновлення внутрішніх механізмів архітектури лише з її виводу, що дозволяє повторну ідентифікацію зображень набору даних.
Тестування
Під час тестування системи дослідники застосували її проти трьох наборів даних: iCV-MEFED вираження обличчя; CelebA; і MNIST рукописні цифри. Для підтримки розміру моделі, використовуваної дослідниками, три набори даних були зменшені відповідно до 128×128, 265×256 і 32×32 пікселів. 50% кожного набору було використано як навчальні дані, а інша половина була використана як набір даних для атаки для навчання моделей-антагоністів.
Кожен набір даних мав різні цільові моделі, і кожна мережа атаки була масштабована до обмежень пояснень, що лежать в основі процесу, а не використання глибоких нейронних моделей, чия складність перевищує узагальнення пояснень.
Типи пояснень XAI, використані для підтримки спроб, включали пояснення градієнта, вхід градієнта, Grad-CAM і пошарове розповсюдження важливості (LRP). Дослідники також оцінили кілька пояснень у ході експериментів.

Відновлення зображення, підтримане атакою інверсії, оснащеною XAI, по трьох наборах даних, з однаковими цільовими та завданням атаки.
Метрики для тесту були піксельною подібністю, оціненою за допомогою середньої квадратичної помилки (MSE); подібністю зображення (SSIM), індексом подібності, заснованим на сприйнятті; точністю атаки, визначеною тим, чи може класифікатор успішно перерозпознати відновлене зображення; і подібністю вкладення атаки, яка порівнює вкладення функцій відомих джерельних даних з відновленими даними.
Перевизначення було досягнуто, з різними рівнями залежно від завдання та наборів даних, по всіх наборах. Крім того, дослідники виявили, що, створивши заміську цільову модель (яку вони природно мали повний контроль), все ще було можливим досягти перевизначення даних з зовнішніх, “закритих” моделей, на основі відомих принципів XAI.
Дослідники виявили, що найбільш точні результати були отримані поясненнями, заснованими на активації (карті сал’єності), які витекли більше PII, ніж підходи, засновані на чутливості (градієнті).
У майбутній роботі команда планує включити різні типи пояснень XAI в нові атаки, такі як візуалізації функцій і вектори активації концепції.












