Stummel Erklärbare KI kann vertrauliche Daten leichter preisgeben – Unite.AI
Vernetzen Sie sich mit uns

Internet-Sicherheit

Erklärbare KI kann vertrauliche Daten leichter preisgeben

mm

Veröffentlicht

 on

Forscher der National University of Singapore sind zu dem Schluss gekommen, dass es umso einfacher wird, wichtige Datenschutzfunktionen in maschinellen Lernsystemen zu umgehen, je erklärbarer die KI wird. Sie fanden außerdem heraus, dass es auch dann möglich ist, Erklärungen ähnlicher Modelle zu verwenden, um sensible Daten im nicht erklärbaren Modell zu „entschlüsseln“, selbst wenn ein Modell nicht erklärbar ist.

Das Forschungsprojekte, Betitelt Ausnutzen von Erklärungen für Modellinversionsangriffe, unterstreicht die Risiken, die damit verbunden sind, die „zufällige“ Undurchsichtigkeit der Funktionsweise neuronaler Netze so zu nutzen, als wäre dies ein beabsichtigtes Sicherheitsmerkmal – nicht zuletzt aufgrund einer Welle neuer globaler Initiativen, einschließlich der der Europäischen Union Entwurf von KI-Verordnungen, sind charakterisierend erklärbare KI (XAI) als Voraussetzung für die eventuelle Normalisierung des maschinellen Lernens in der Gesellschaft.

In der Forschung gelingt es, aus vermeintlich anonymen Gesichtsausdrucksdaten durch die Ausnutzung mehrerer Erklärungen des maschinellen Lernsystems eine tatsächliche Identität zu rekonstruieren. Quelle: https://arxiv.org/pdf/2108.10800.pdf

In der Forschung gelingt es, aus vermeintlich anonymen Gesichtsausdrucksdaten durch die Ausnutzung mehrerer Erklärungen des maschinellen Lernsystems eine tatsächliche Identität zu rekonstruieren. Quelle: https://arxiv.org/pdf/2108.10800.pdf

Die Forscher kommentieren:

„Erklärbare künstliche Intelligenz (XAI) bietet mehr Informationen, die Benutzern helfen, Modellentscheidungen zu verstehen, doch dieses zusätzliche Wissen birgt zusätzliche Risiken für Datenschutzangriffe.“ Daher schadet die Bereitstellung von Erklärungen der Privatsphäre.“

Neuidentifizierung privater Daten

Teilnehmer an Datensätzen für maschinelles Lernen haben möglicherweise unter der Annahme der Anonymität der Aufnahme zugestimmt; Im Fall von personenbezogenen Daten (Personal Identifiable Information, PII), die durch Ad-hoc-Datenerfassung (z. B. über soziale Netzwerke) in KI-Systemen landen, mag die Teilnahme technisch gesehen legal sein, belastet jedoch den Begriff der „Einwilligung“.

In den letzten Jahren sind mehrere Methoden entstanden, die sich als geeignet erwiesen haben, personenbezogene Daten aus scheinbar undurchsichtigen Datenflüssen des maschinellen Lernens zu deanonymisieren. Modellextraktion nutzt API-Zugriff (d. h. „Black-Box“-Zugriff, ohne besondere Verfügbarkeit des Quellcodes oder der Daten), um PII selbst von großen MLaaS-Anbietern zu extrahieren, einschließlich Amazon Web Services, während Mitgliedschaftsinferenzangriffe (MIAs), die unter ähnlichen Einschränkungen arbeiten, können möglicherweise erhalten vertrauliche medizinische Informationen; Zusätzlich können Attribution Inference Attacks (AIAs) dies tun sensible Daten wiederherstellen aus der API-Ausgabe.

Enthüllende Gesichter

Für die neue Arbeit haben sich die Forscher auf einen Modellinversionsangriff konzentriert, der darauf abzielt, eine Identität aus einer Teilmenge von Gesichtsemotionsdaten zu ermitteln, die diese Informationen nicht preisgeben sollten.

Das Ziel des Systems bestand darin, Bilder, die in freier Wildbahn gefunden wurden (entweder beiläufig im Internet veröffentlicht oder bei einem potenziellen Datenverstoß), mit ihrer Aufnahme in die Datensätze zu verknüpfen, die einem maschinellen Lernalgorithmus zugrunde liegen.

Die Forscher trainierten ein Inversion-Angriffsmodell, das in der Lage ist, das beitragende Bild aus der anonymisierten API-Ausgabe zu rekonstruieren, ohne besonderen Zugriff auf die ursprüngliche Architektur. Frühere Arbeiten auf diesem Gebiet konzentrierten sich auf Systeme, bei denen die Identifizierung (Schutz oder Offenlegung) das Ziel sowohl des Zielsystems als auch des Angriffssystems war; In diesem Fall wurde das Framework so konzipiert, dass es die Ausgabe einer Domäne nutzt und auf eine andere Domäne anwendet.

A transponiert Ein Faltungs-Neuronales Netzwerk (CNN) wurde verwendet, um ein „ursprüngliches“ Quellgesicht basierend auf dem Zielvorhersagevektor (Ausprägungskarte) für ein Emotionserkennungssystem vorherzusagen U-Net-Architektur um die Leistung der Gesichtsrekonstruktion zu verbessern.

Das System zur Neuidentifizierung wird durch erklärbare KI (Explainable AI, XAI) angetrieben und informiert, wobei das Wissen über die Aktivierung von Neuronen neben vielen beitragenden öffentlichen XAI-Facetten genutzt wird, um die internen Machenschaften der Architektur allein aus ihrer Ausgabe zu rekonstruieren und so die Neuidentifizierung der beitragenden Personen zu ermöglichen Datensatzbilder.

Das System zur Neuidentifizierung wird durch erklärbare KI (Explainable AI, XAI) angetrieben und informiert, wobei das Wissen über die Aktivierung von Neuronen neben vielen beitragenden öffentlichen XAI-Facetten genutzt wird, um die internen Machenschaften der Architektur allein aus ihrer Ausgabe zu rekonstruieren und so die Neuidentifizierung der beitragenden Personen zu ermöglichen Datensatzbilder.

Testen

Beim Testen des Systems wandten die Forscher es anhand von drei Datensätzen an:  iCV-MEFED Gesichtsausdrücke; PromiAeschriebenen Art und Weise; und MNIST handgeschriebene Ziffern. Um der von den Forschern verwendeten Modellgröße Rechnung zu tragen, wurden die drei Datensätze jeweils auf 128×128, 265×256 und 32×32 Pixel verkleinert. 50 % jedes Satzes wurden als Trainingsdaten und die andere Hälfte als Angriffsdatensatz zum Trainieren der Antagonistenmodelle verwendet.

Jeder Datensatz verfügte über unterschiedliche Zielmodelle, und jedes Angriffsnetzwerk wurde auf die Grenzen der dem Prozess zugrunde liegenden Erklärungen skaliert, anstatt tiefere neuronale Modelle zu verwenden, deren Komplexität die Verallgemeinerung der Erklärungen übersteigen würde.

Die XAI-Erklärungstypen, die zur Unterstützung der enthaltenen Versuche verwendet werden Erklärung des Farbverlaufs, Gradienteneingabe, Grad-CAM und schichtweise Relevanzausbreitung (LRP). Die Forscher bewerteten auch mehrere Erklärungen für die Experimente.

Bildrekonstruktion, erleichtert durch einen XAI-erkennenden Inversionsangriff über die drei Datensätze hinweg, mit identischen Ziel- und Angriffsaufgaben.

Bildrekonstruktion, erleichtert durch einen XAI-erkennenden Inversionsangriff über die drei Datensätze hinweg, mit identischen Ziel- und Angriffsaufgaben.

Die Metriken für den Test wurden anhand der pixelweisen Ähnlichkeit bewertet Mittlere quadratische Fehler (MSE); Bildähnlichkeit (SSIM), ein wahrnehmungsbasierter Ähnlichkeitsindex; Angriffsgenauigkeit, bestimmt dadurch, ob ein Klassifikator ein rekonstruiertes Bild erfolgreich neu kennzeichnen kann; und Angriffseinbettungsähnlichkeit, die die Merkmalseinbettungen bekannter Quelldaten mit rekonstruierten Daten vergleicht.

Die Neuidentifizierung wurde in allen Sätzen mit unterschiedlichen Stufen je nach Aufgabe und Datensätzen erreicht. Darüber hinaus stellten die Forscher fest, dass es durch die Erstellung eines Ersatzzielmodells (über das sie natürlich die vollständige Kontrolle hatten) immer noch möglich war, Daten aus externen, „geschlossenen“ Modellen auf der Grundlage bekannter XAI-Prinzipien erneut zu identifizieren.

Die Forscher fanden heraus, dass die genauesten Ergebnisse durch aktivierungsbasierte Erklärungen (Ausprägungskarte) erzielt wurden, die mehr PII preisgaben als sensitivitätsbasierte Ansätze (Gradienten).

In zukünftigen Arbeiten beabsichtigt das Team, verschiedene Arten von XAI-Erklärungen in neuartige Angriffe zu integrieren, wie z Feature-Visualisierungen und Konzeptaktivierungsvektoren.