Cyberbezpieczeństwo

Sztuczna Inteligencja Wyjaśnialna Może Łatwiej Ujawniać Poufne Dane

Published August 26, 2021

Updated April 5, 2026

Martin Anderson

Naukowcy z Narodowego Uniwersytetu Singapurskiego doszli do wniosku, że im bardziej sztuczna inteligencja staje się wyjaśnialna, tym łatwiej będzie ominąć ważne funkcje prywatności w systemach machine learning. Stwierdzili również, że nawet gdy model nie jest wyjaśnialny, możliwe jest wykorzystanie wyjaśnień podobnych modeli do “odkodowania” wrażliwych danych w modelu niewyjaśnialnym.

Badanie badania, zatytułowane Wykorzystywanie Wyjaśnień do Ataków Inwersji Modelu, podkreśla ryzyko korzystania z “niezamierzonej” nieprzezroczystości sposobu, w jaki funkcjonują sieci neuronowe, jak gdyby była to funkcja zabezpieczeń zaprojektowana z wyprzedzeniem – nie tylko dlatego, że fala nowych globalnych inicjatyw, w tym projektu regulacji UE w sprawie sztucznej inteligencji, charakteryzuje sztuczną inteligencję wyjaśnialną (XAI) jako warunek wstępny dla ostatecznej normalizacji machine learning w społeczeństwie.

W badaniu rzeczywista tożsamość została pomyślnie odtworzona z rzekomo anonimowych danych dotyczących wyrażeń twarzy, za pomocą wykorzystania wielu wyjaśnień systemu machine learning. Źródło: https://arxiv.org/pdf/2108.10800.pdf

Naukowcy komentują:

‘Sztuczna inteligencja wyjaśnialna (XAI) zapewnia więcej informacji, aby pomóc użytkownikom zrozumieć decyzje modelu, jednak ta dodatkowa wiedza naraża na dodatkowe ryzyko ataków na prywatność. Zatem, zapewnienie wyjaśnień szkodzi prywatności.’

Re-identyfikacja Prywatnych Danych

Uczestnicy w zbiorach danych machine learning mogli wyrazić zgodę na udział w badaniu pod warunkiem anonimowości; w przypadku Osobistych Informacji Identyfikujących (PII), które trafiają do systemów AI za pośrednictwem incydentalnego gromadzenia danych (na przykład za pośrednictwem sieci społecznościowych), udział może być technicznie legalny, ale naciąga pojęcie “zgody”.

W ostatnich latach pojawiło się kilka metod, które okazały się w stanie de-anonimizować PII z pozornie nieprzezroczystych przepływów danych machine learning. Ekstrakcja modelu wykorzystuje dostęp do API (tj. Dostęp “czarnej skrzynki” bez specjalnej dostępności kodu źródłowego lub danych), aby wyodrębnić PII, nawet z dużych dostawców MLaaS, w tym Amazon Web Services, podczas gdy Ataki Inferencji Członkostwa (MIAs), działające pod podobnymi ograniczeniami, mogą potencjalnie uzyskać poufne informacje medyczne; dodatkowo Ataki Inferencji Atrybucji (AIAs) mogą odzyskać wrażliwe dane z wyjścia API.

Ujawnianie Twarzy

W ramach nowego artykułu naukowcy skoncentrowali się na ataku inwersji modelu zaprojektowanym w celu uzyskania tożsamości z podzbioru danych emocji twarzy, które nie powinny być w stanie ujawnić tych informacji.

Celem systemu było skojarzenie obrazów znalezionych w sieci (zamieszczonych przypadkowo w Internecie lub w potencjalnym naruszeniu danych) z ich uwzględnieniem w zbiorach danych, które leżą u podstaw algorytmu machine learning.

Naukowcy przeszkolili model ataku inwersji, który mógł odtworzyć obraz źródłowy z anonimowego wyjścia API, bez specjalnego dostępu do oryginalnej architektury. Poprzednie prace w tej dziedzinie koncentrowały się na systemach, w których identyfikacja (ochrona lub ujawnianie) była celem zarówno systemu docelowego, jak i systemu atakującego; w tym przypadku ramy zostały zaprojektowane w celu wykorzystania wyjścia z jednego obszaru i zastosowania go w innym obszarze.

Zastosowano przekształconą sieć neuronową (CNN) w celu przewidzenia “oryginalnego” źródłowego oblicza na podstawie wektora predykcji docelowej (mapy saliency) dla systemu rozpoznawania emocji, przy użyciu architektury U-Net w celu poprawy wydajności rekonstrukcji twarzy.

System re-identyfikacji jest zasilany i informowany przez sztuczną inteligencję wyjaśnialną (XAI), gdzie wiedza o aktywacji neuronów, wśród wielu publicznych aspektów XAI, jest wykorzystywana do odtworzenia wewnętrznych mechanizmów architektury tylko z jej wyjścia, umożliwiając re-identyfikację obrazów ze zbioru danych.

Testowanie

Podczas testowania systemu naukowcy zastosowali go do trzech zbiorów danych: iCV-MEFED wyrażeń twarzy; CelebA; oraz MNIST handwritten digits. Aby dostosować się do rozmiaru modelu używanego przez naukowców, trzy zbiory danych zostały przeskalowane odpowiednio do 128×128, 265×256 i 32×32 pikseli. 50% każdego zestawu zostało użyte jako dane szkoleniowe, a druga połowa została użyta jako zestaw danych ataku w celu przeszkolenia modeli antagonistycznych.

Każdy zestaw danych miał różne modele docelowe, a każda sieć atakująca została skalibrowana do ograniczeń wyjaśnień podstawiających proces, a nie używania głębszych modeli neuronowych, których złożoność przekraczałaby uogólnienie wyjaśnień.

Typy wyjaśnień XAI użyte do zasilania prób obejmowały Gradient Explanation, Gradient Input, Grad-CAM i Layer-Wise Relevance Propagation (LRP). Naukowcy ocenili również wiele wyjaśnień w całym eksperymencie.

Rekonstrukcja obrazu ułatwiona przez atak inwersji XAI-cognizant w trzech zbiorach danych, z takimi samymi zadaniami docelowymi i atakującymi.

Mierniki testowe obejmowały podobieństwo pikselowe oceniane przez Mean Squared Error (MSE); Podobieństwo Obrazu (SSIM), wskaźnik podobieństwa oparty na percepcji; dokładność ataku, określona przez to, czy klasyfikator może pomyślnie ponownie oznaczyć odtworzony obraz; oraz podobieństwo osadzania ataku, które porównuje osadzanie cech danych źródłowych z odtworzonymi danymi.

Re-identyfikacja została osiągnięta, z różnymi poziomami zgodnie z zadaniem i zbiorami danych, we wszystkich zestawach. Ponadto naukowcy stwierdzili, że poprzez stworzenie modelu docelowego (którymi naturalnie dysponowali), nadal było możliwe osiągnięcie re-identyfikacji danych z zewnętrznych, “zamkniętych” modeli, na podstawie znanych zasad XAI.

Naukowcy stwierdzili, że najdokładniejsze wyniki uzyskano za pomocą wyjaśnień opartych na aktywacji (mapa saliency), które przeciekały więcej PII niż podejścia oparte na wrażliwości (gradient).