Künstliche Intelligenz
Lassen Sie ein Modell für maschinelles Lernen Sie vergessen

Das Entfernen eines bestimmten Datenelements, das zu einem Modell für maschinelles Lernen beigetragen hat, ist wie der Versuch, den zweiten Löffel Zucker aus einer Tasse Kaffee zu entfernen. Zu diesem Zeitpunkt sind die Daten bereits eng mit vielen anderen Neuronen innerhalb des Modells verknüpft. Wenn ein Datenpunkt „definierende“ Daten darstellt, die im frühesten, hochdimensionalen Teil des Trainings enthalten waren, kann seine Entfernung die Funktionsweise des Modells radikal neu definieren oder sogar erfordern, dass es mit einem gewissen Zeitaufwand neu trainiert wird Geld.
Dennoch gilt zumindest in Europa Artikel 17 der Datenschutz-Grundverordnung (DSGVO). erfordert dass Unternehmen solche Benutzerdaten auf Anfrage entfernen. Da bei der Formulierung des Gesetzes davon ausgegangen wurde, dass es sich bei dieser Löschung lediglich um eine Datenbankabfrage handeln würde, sollte die Gesetzgebung aus dem EU-Entwurf hervorgehen Gesetz über künstliche Intelligenz wird effektiv Kopieren und Einfügen den Geist der DSGVO in Gesetze umzusetzen, die für trainierte KI-Systeme und nicht für tabellarische Daten gelten.
Weltweit werden weitere Gesetze erwogen, die Einzelpersonen das Recht einräumen, die Löschung ihrer Daten aus maschinellen Lernsystemen zu verlangen. Der California Consumer Privacy Act (CCPA) von 2018 gewährt dieses Recht bereits an Staatsbürger.
Warum es wichtig ist
Wenn ein Datensatz in ein umsetzbares maschinelles Lernmodell trainiert wird, werden die Eigenschaften dieser Daten verallgemeinert und abstrakt, da das Modell darauf ausgelegt ist, Prinzipien abzuleiten und breite Trends aus den Daten, um schließlich einen Algorithmus zu erstellen, der bei der Analyse spezifischer und nicht verallgemeinerter Daten nützlich sein wird.
Techniken wie z Modellinversion haben die Möglichkeit aufgezeigt, die beitragenden Daten, die dem endgültigen, abstrahierten Algorithmus zugrunde liegen, erneut zu identifizieren Mitgliedschaftsinferenzangriffe sind auch in der Lage, Quelldaten offenzulegen, einschließlich sensibler Daten, deren Aufnahme in einen Datensatz möglicherweise nur aufgrund des Verständnisses der Anonymität gestattet wurde.
Das zunehmende Interesse an diesem Vorhaben muss nicht auf Basisaktivismus für den Datenschutz beruhen: Da der Bereich des maschinellen Lernens in den nächsten zehn Jahren kommerzialisiert wird und die Nationen unter Druck geraten, diesen Trend zu beenden Laissez-faire-Kultur Über den Einsatz von Screen Scraping zur Generierung von Datensätzen wird es einen wachsenden kommerziellen Anreiz für IP-durchsetzende Organisationen (und IP-Trolle) geben, die Daten zu entschlüsseln und zu überprüfen, die zu proprietären und hochverdienenden Klassifizierungs-, Inferenz- und generativen KI-Frameworks beigetragen haben.
Induzieren von Amnesie in Modellen des maschinellen Lernens
Daher stehen wir vor der Herausforderung, den Zucker aus dem Kaffee zu entfernen. Es ist ein Problem, das es gegeben hat ärgerlich Forscher in den letzten Jahren: 2021 wurde das von der EU geförderte Papier Eine vergleichende Studie zu den Datenschutzrisiken von Gesichtserkennungsbibliotheken fanden heraus, dass mehrere gängige Gesichtserkennungsalgorithmen in der Lage waren, eine Diskriminierung aufgrund des Geschlechts oder der Rasse bei Reidentifizierungsangriffen zu ermöglichen; im Jahr 2015 Forschung an der Columbia University vorgeschlage eine Methode des „maschinellen Verlernens“, die auf der Aktualisierung einer Reihe von Summierungen innerhalb der Daten basiert; und im Jahr 2019 Stanford-Forscher angeboten neuartige Löschalgorithmen für K-Means-Clustering-Implementierungen.
Jetzt hat ein Forschungskonsortium aus China und den USA eine neue Arbeit veröffentlicht, die eine einheitliche Metrik für die Bewertung des Erfolgs von Ansätzen zur Datenlöschung einführt, zusammen mit einer neuen „Verlernmethode“ namens Forsaken, die den Forschern zufolge in der Lage ist, einen Wert von mehr als 90 zu erreichen % Vergessensrate, mit nur 5 % Genauigkeitsverlust in der Gesamtleistung des Modells.
Der Krepppapier wird genannt Vergessen lernen: Maschinelles Verlernen über Neuron Masking und stellt Forscher aus China und Berkeley vor.
Neuronenmaskierung, das Prinzip hinter Forsaken, verwendet a Maskenverlauf Generator als Filter zum Entfernen spezifischer Daten aus einem Modell, wodurch es effektiv aktualisiert wird, anstatt es entweder von Grund auf oder anhand eines Snapshots neu trainieren zu müssen, der vor der Einbeziehung der Daten erstellt wurde (im Fall von Streaming-basierten Modellen). werden laufend aktualisiert).

Die Architektur des Maskengradientengenerators. Quelle: https://arxiv.org/pdf/2003.10933.pdf
Biologische Ursprünge
Die Forscher geben an, dass dieser Ansatz von inspiriert wurde biologischer Prozess des „aktiven Vergessens“, bei dem der Benutzer energische Maßnahmen ergreift, um alle Engrammzellen für eine bestimmte Erinnerung durch Manipulation einer speziellen Art von Dopamin zu löschen.
Forsaken ruft kontinuierlich einen Maskenverlauf hervor, der diese Aktion reproduziert, mit Sicherheitsmaßnahmen, um diesen Prozess zu verlangsamen oder anzuhalten, um ein katastrophales Vergessen von Nichtzieldaten zu vermeiden.
Die Vorteile des Systems bestehen darin, dass es auf viele Arten bestehender neuronaler Netze anwendbar ist, während neuere ähnliche Arbeiten größtenteils bei Computer-Vision-Netzen erfolgreich waren; und dass es die Modelltrainingsverfahren nicht beeinträchtigt, sondern als Zusatz fungiert, ohne dass die Kernarchitektur geändert oder die Daten neu trainiert werden müssen.
Den Effekt einschränken
Das Löschen der bereitgestellten Daten kann potenziell schädliche Auswirkungen auf die Funktionalität eines Algorithmus für maschinelles Lernen haben. Um dies zu vermeiden, haben die Forscher ausgenutzt Normregulierung, ein Merkmal des normalen neuronalen Netzwerktrainings, das häufig verwendet wird, um Übertraining zu vermeiden. Die ausgewählte Implementierung soll sicherstellen, dass Forsaken beim Training nicht versagt.
Um eine nutzbare Streuung der Daten zu ermitteln, verwendeten die Forscher Out-of-Distribution-Daten (OOD-Daten) (d. h. Daten, die nicht im tatsächlichen Datensatz enthalten sind und „sensible“ Daten im tatsächlichen Datensatz nachahmen), um die Art und Weise zu kalibrieren, wie sich der Algorithmus verhalten sollte .
Testen an Datensätzen
Die Methode wurde an acht Standarddatensätzen getestet und erreichte im Allgemeinen nahezu oder höhere Vergessensraten als eine vollständige Umschulung, ohne dass dies Auswirkungen auf die Modellgenauigkeit hatte.
Es scheint unmöglich, dass eine vollständige Neuschulung eines bearbeiteten Datensatzes tatsächlich schlechter abschneidet als jede andere Methode, da die Zieldaten vollständig fehlen. Allerdings hat das Modell zu diesem Zeitpunkt verschiedene Merkmale der gelöschten Daten auf „holografische“ Weise abstrahiert, so wie (analog) ein Tropfen Tinte den Nutzen eines Glases Wasser neu definiert.
Tatsächlich wurden die Gewichte des Modells bereits durch die herausgeschnittenen Daten beeinflusst, und die einzige Möglichkeit, ihren Einfluss vollständig zu beseitigen, besteht darin, das Modell vom absoluten Nullpunkt aus erneut zu trainieren, anstatt das gewichtete Modell anhand eines bearbeiteten Datensatzes erneut zu trainieren .