Internet-Sicherheit
Erklärbare KI kann vertrauliche Daten leichter preisgeben

Forscher der National University of Singapore kamen zu dem Schluss, dass es umso einfacher wird, wichtige Datenschutzfunktionen in maschinellen Lernsystemen zu umgehen, je erklärbarer KI wird. Sie fanden außerdem heraus, dass es selbst bei nicht erklärbaren Modellen möglich ist, Erklärungen ähnlicher Modelle zu nutzen, um sensible Daten im nicht erklärbaren Modell zu „entschlüsseln“.
Die Forschungsprojekteassoziierte Zeichnung mit dem Titel Ausnutzen von Erklärungen für Modellinversionsangriffe, hebt die Risiken hervor, die entstehen, wenn man die „zufällige“ Intransparenz der Funktionsweise neuronaler Netzwerke ausnutzt, als wäre dies ein eingebautes Sicherheitsmerkmal – nicht zuletzt, weil eine Welle neuer globaler Initiativen, darunter die der Europäischen Union Entwurf von KI-Verordnungen, sind charakterisierend erklärbare KI (XAI) als Voraussetzung für die eventuelle Normalisierung des maschinellen Lernens in der Gesellschaft.

In der Forschung gelingt es, aus vermeintlich anonymen Gesichtsausdrucksdaten durch die Ausnutzung mehrerer Erklärungen des maschinellen Lernsystems eine tatsächliche Identität zu rekonstruieren. Quelle: https://arxiv.org/pdf/2108.10800.pdf
Die Forscher kommentieren:
„Erklärbare künstliche Intelligenz (XAI) liefert mehr Informationen, um Nutzern zu helfen, Modellentscheidungen zu verstehen. Dieses zusätzliche Wissen birgt jedoch zusätzliche Risiken für Datenschutzverletzungen. Daher gefährdet die Bereitstellung von Erklärungen die Privatsphäre.“
Neuidentifizierung privater Daten
Teilnehmer an Datensätzen für maschinelles Lernen haben möglicherweise unter der Annahme der Anonymität der Aufnahme zugestimmt. Im Fall personenbezogener Daten (PII), die durch Ad-hoc-Datenerfassung (beispielsweise über soziale Netzwerke) in KI-Systeme gelangen, ist die Teilnahme zwar technisch gesehen legal, stellt jedoch eine Belastung für den Begriff der „Zustimmung“ dar.
In den letzten Jahren sind mehrere Methoden entstanden, die sich als geeignet erwiesen haben, personenbezogene Daten aus scheinbar undurchsichtigen Datenflüssen des maschinellen Lernens zu deanonymisieren. Modellextraktion nutzt API-Zugriff (d. h. „Black Box“-Zugriff ohne besondere Verfügbarkeit des Quellcodes oder der Daten), um PII auch von MLaaS-Anbietern im großen Maßstab zu extrahieren, einschließlich Amazon Web Services, während Mitgliedschaftsinferenzangriffe (MIAs), die unter ähnlichen Einschränkungen arbeiten, können möglicherweise erhalten vertrauliche medizinische Informationen; Zusätzlich können Attribution Inference Attacks (AIAs) dies tun sensible Daten wiederherstellen aus der API-Ausgabe.
EnthĂĽllende Gesichter
Für die neue Arbeit haben sich die Forscher auf einen Modellinversionsangriff konzentriert, der darauf abzielt, eine Identität aus einer Teilmenge von Gesichtsemotionsdaten zu ermitteln, die diese Informationen nicht preisgeben sollten.
Das Ziel des Systems bestand darin, Bilder, die in freier Wildbahn gefunden wurden (entweder beiläufig im Internet veröffentlicht oder bei einem potenziellen Datenverstoß), mit ihrer Aufnahme in die Datensätze zu verknüpfen, die einem maschinellen Lernalgorithmus zugrunde liegen.
Die Forscher trainierten ein Inversion-Angriffsmodell, das in der Lage ist, das beitragende Bild aus der anonymisierten API-Ausgabe zu rekonstruieren, ohne besonderen Zugriff auf die ursprüngliche Architektur. Frühere Arbeiten auf diesem Gebiet konzentrierten sich auf Systeme, bei denen die Identifizierung (Schutz oder Offenlegung) das Ziel sowohl des Zielsystems als auch des Angriffssystems war; In diesem Fall wurde das Framework so konzipiert, dass es die Ausgabe einer Domäne nutzt und auf eine andere Domäne anwendet.
A transponiert Convolutional Neural Network (CNN) wurde eingesetzt, um ein „originales“ Quellgesicht basierend auf dem Zielvorhersagevektor (Saliency Map) für ein Emotionserkennungssystem vorherzusagen, unter Verwendung eines U-Net-Architektur um die Leistung der Gesichtsrekonstruktion zu verbessern.

Das System zur Neuidentifizierung wird durch erklärbare KI (Explainable AI, XAI) angetrieben und informiert, wobei das Wissen über die Aktivierung von Neuronen neben vielen beitragenden öffentlichen XAI-Facetten genutzt wird, um die internen Machenschaften der Architektur allein aus ihrer Ausgabe zu rekonstruieren und so die Neuidentifizierung der beitragenden Personen zu ermöglichen Datensatzbilder.
Tests
Beim Testen des Systems wandten die Forscher es anhand von drei Datensätzen an: iCV-MEFED Gesichtsausdrücke; PromiAeschriebenen Art und Weise; und MNIST handgeschriebene Ziffern. Um der von den Forschern verwendeten Modellgröße Rechnung zu tragen, wurden die drei Datensätze jeweils auf 128×128, 265×256 und 32×32 Pixel verkleinert. 50 % jedes Satzes wurden als Trainingsdaten und die andere Hälfte als Angriffsdatensatz zum Trainieren der Antagonistenmodelle verwendet.
Jeder Datensatz verfügte über unterschiedliche Zielmodelle, und jedes Angriffsnetzwerk wurde auf die Grenzen der dem Prozess zugrunde liegenden Erklärungen skaliert, anstatt tiefere neuronale Modelle zu verwenden, deren Komplexität die Verallgemeinerung der Erklärungen übersteigen würde.
Die XAI-Erklärungstypen, die zur Unterstützung der enthaltenen Versuche verwendet werden Erklärung des Farbverlaufs, Gradienteneingabe, Grad-CAM und schichtweise Relevanzausbreitung (LRP). Die Forscher bewerteten auch mehrere Erklärungen für die Experimente.

Bildrekonstruktion, erleichtert durch einen XAI-erkennenden Inversionsangriff über die drei Datensätze hinweg, mit identischen Ziel- und Angriffsaufgaben.
Die Metriken für den Test wurden anhand der pixelweisen Ähnlichkeit bewertet Mittlere quadratische Fehler (MSE); Bildähnlichkeit (SSIM), ein wahrnehmungsbasierter Ähnlichkeitsindex; Angriffsgenauigkeit, bestimmt dadurch, ob ein Klassifikator ein rekonstruiertes Bild erfolgreich neu kennzeichnen kann; und Angriffseinbettungsähnlichkeit, die die Merkmalseinbettungen bekannter Quelldaten mit rekonstruierten Daten vergleicht.
Die Re-Identifizierung wurde über alle Datensätze hinweg erreicht, wobei das Niveau je nach Aufgabe und Datensatz unterschiedlich war. Darüber hinaus stellten die Forscher fest, dass durch die Entwicklung eines Ersatzzielmodells (über das sie natürlich die vollständige Kontrolle hatten) eine Re-Identifizierung von Daten aus externen, „geschlossenen“ Modellen auf Grundlage bekannter XAI-Prinzipien möglich war.
Die Forscher fanden heraus, dass die genauesten Ergebnisse durch aktivierungsbasierte Erklärungen (Ausprägungskarte) erzielt wurden, die mehr PII preisgaben als sensitivitätsbasierte Ansätze (Gradienten).
In zukünftigen Arbeiten beabsichtigt das Team, verschiedene Arten von XAI-Erklärungen in neuartige Angriffe zu integrieren, wie z Feature-Visualisierungen und Konzeptaktivierungsvektoren.












