Andersons Blickwinkel
Extraktion von Trainingsdaten aus fein abgestimmten Stable-Diffusion-Modellen

Neue Forschung aus den USA präsentiert eine Methode, um erhebliche Teile der Trainingsdaten aus fein abgestimmten Modellen zu extrahieren.
Dies könnte potenziell rechtliche Beweise in Fällen liefern, in denen der Stil eines Künstlers kopiert wurde oder urheberrechtlich geschützte Bilder verwendet wurden, um generative Modelle von öffentlichen Figuren, urheberrechtlich geschützten Charakteren oder anderen Inhalten zu trainieren.

Aus dem neuen Paper: Die ursprünglichen Trainingsbilder sind in der oberen Reihe zu sehen, und die extrahierten Bilder sind in der unteren Reihe dargestellt. Quelle: https://arxiv.org/pdf/2410.03039
Solche Modelle sind weit verbreitet und frei verfügbar im Internet, hauptsächlich durch die enormen Benutzer-beiträgen von civit.ai und, in geringerem Umfang, auf der Hugging Face-Repository-Plattform.
Das neue Modell, das von den Forschern entwickelt wurde, heißt FineXtract, und die Autoren behaupten, dass es staatliche Spitzenleistungen in dieser Aufgabe erzielt.
Das Paper beobachtet:
‘[Unser Framework] adressiert effektiv die Herausforderung, fein abgestimmte Daten aus öffentlich verfügbaren DM-fein abgestimmten Checkpoints zu extrahieren. Durch die Ausnutzung des Übergangs von vorab trainierten DM-Verteilungen zu fein abgestimmten Datenverteilungen kann FineXtract den Generierungsprozess genau auf die Hochwahrscheinlichkeitsbereiche der fein abgestimmten Datenverteilung lenken, was eine erfolgreiche Datenextraktion ermöglicht.’

Rechts, das ursprüngliche Bild, das für das Training verwendet wurde. Zweite von rechts, das Bild, das über FineXtract extrahiert wurde. Die anderen Spalten stellen alternative, vorherige Methoden dar. Bitte beachten Sie die Quelle für eine bessere Auflösung.
Warum es wichtig ist
Die ursprünglichen trainierten Modelle für text-to-image-generative Systeme wie Stable Diffusion und Flux können von Endbenutzern heruntergeladen und fein abgestimmt werden, indem Techniken wie die 2022 DreamBooth-Implementierung verwendet werden.
Es ist noch einfacher, ein viel kleineres LoRA-Modell zu erstellen, das fast so effektiv ist wie ein vollständig fein abgestimmtes Modell.

Ein Beispiel für ein trainiertes LORA, das auf der sehr beliebten Civitai-Domain zum kostenlosen Download angeboten wird. Ein solches Modell kann in wenigen Minuten bis einigen Stunden von Enthusiasten erstellt werden, die lokale Open-Source-Software verwenden – und online, über einige der permissiveren API-getriebenen Trainingsysteme. Quelle: civitai.com
Seit 2022 ist es trivial, identitätsspezifische fein abgestimmte Checkpoints und LoRAs zu erstellen, indem nur eine kleine (im Durchschnitt 5-50) Anzahl von beschrifteten Bildern bereitgestellt und das Checkpoint (oder LoRA) lokal auf einem Open-Source-Framework wie Kohya ss trainiert wird oder über Online-Dienste.
Diese einfache Methode des Deepfaking hat in den letzten Jahren Berühmtheit in den Medien erlangt. Viele Künstler haben auch ihre Arbeit in generative Modelle eingebaut, die ihren Stil nachahmen. Die Kontroverse um diese Fragen hat an Fahrt gewonnen in den letzten 18 Monaten.

Die Leichtigkeit, mit der Benutzer AI-Systeme erstellen können, die die Arbeit von echten Künstlern nachahmen, hat in den letzten zwei Jahren für Aufruhr und diverse Kampagnen gesorgt. Quelle: https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/
Es ist schwierig, zu beweisen, welche Bilder in einem fein abgestimmten Checkpoint oder in einem LoRA verwendet wurden, da der Prozess der Generalisierung die Identität aus den kleinen Trainingsdatensätzen “abstrahiert” und nicht wahrscheinlich jemals Beispiele aus den Trainingsdaten reproduziert (außer im Fall von Overfitting, wo man davon ausgehen kann, dass das Training fehlgeschlagen ist).
Dies ist der Punkt, an dem FineXtract ins Spiel kommt. Durch den Vergleich des Zustands des “Template”-Diffusionsmodells, das der Benutzer heruntergeladen hat, mit dem Modell, das er durch Feinabstimmung oder LoRA erstellt hat, konnten die Forscher hochgenaue Rekonstruktionen der Trainingsdaten erstellen.
Obwohl FineXtract nur in der Lage war, 20% der Daten aus einer Feinabstimmung zu rekonstruieren*, ist dies mehr, als normalerweise benötigt würde, um zu beweisen, dass der Benutzer urheberrechtlich geschütztes oder anderweitig geschütztes Material bei der Erstellung eines generativen Modells verwendet hat. In den meisten der bereitgestellten Beispiele ist das extrahierte Bild extrem nah an dem bekannten Quellenmaterial.
Während Beschriftungen benötigt werden, um die Quellbilder zu extrahieren, ist dies kein erhebliches Hindernis aus zwei Gründen: a) Der Hochlader will normalerweise die Verwendung des Modells in einer Community erleichtern und stellt in der Regel geeignete Prompt-Beispiele bereit; und b) es ist nicht schwierig, die wichtigsten Begriffe blind aus dem fein abgestimmten Modell zu extrahieren:

Die wesentlichen Schlüsselwörter können normalerweise blind aus dem fein abgestimmten Modell extrahiert werden, indem ein L2-PGD-Angriff über 1000 Iterationen von einem zufälligen Prompt aus durchgeführt wird.
Benutzer vermeiden es häufig, ihre Trainingsdatensätze neben dem “Black-Box”-Modell bereitzustellen. Für die Forschung arbeiteten die Autoren mit Machine-Learning-Enthusiasten zusammen, die tatsächlich Datensätze bereitstellten.
Das neue Paper trägt den Titel Enthüllung des Unsichtbaren: Lenkung personalisierter Diffusionsmodelle zur Offenlegung von Trainingsdaten und stammt von drei Forschern der Universitäten Carnegie Mellon und Purdue.
Methode
Der “Angreifer” (in diesem Fall das FineXtract-System) vergleicht geschätzte Datenverteilungen über das ursprüngliche und fein abgestimmte Modell, in einem Prozess, den die Autoren “Modelllenkung” nennen.

Durch die “Modelllenkung”, die von den Forschern des neuen Papers entwickelt wurde, können die Feinabstimmungsmerkmale kartiert werden, was die Extraktion der Trainingsdaten ermöglicht.
Die Autoren erklären:
‘Während des Feinabstimmungsprozesses verschieben die [Diffusionsmodelle] ihre gelernte Verteilung schrittweise von der vorab trainierten DM-Verteilung zur fein abgestimmten Datenverteilung.
‘Daher approximieren wir die gelernte Verteilung der fein abgestimmten [Diffusionsmodelle] parametratisch.’
Auf diese Weise liefert die Summe der Differenz zwischen dem Kern- und dem fein abgestimmten Modell den Lenkprozess.
Die Autoren fügen hinzu:
‘Mit der Modelllenkung können wir effektiv ein “pseudo-“[Denoiser] simulieren, das zur Lenkung des Stichprozesses in die Hochwahrscheinlichkeitsregion innerhalb der fein abgestimmten Datenverteilung verwendet werden kann.’
Die Lenkung basiert teilweise auf einem zeitvariablen Rauschprozess, der dem 2023 outing Erasing Concepts from Diffusion Models ähnelt.
Die Denoising-Vorhersage liefert auch eine wahrscheinliche Classifier-Free Guidance (CFG)-Skala. Dies ist wichtig, da CFG erheblichen Einfluss auf die Bildqualität und die Treue zum Text-Prompt des Benutzers hat.
Um die Genauigkeit der extrahierten Bilder zu verbessern, greift FineXtract auf die renommierte 2023 Kollaboration Extraktion von Trainingsdaten aus Diffusionsmodellen zurück. Die verwendete Methode besteht darin, die Ähnlichkeit jedes Paares generierter Bilder auf der Grundlage einer durch die Self-Supervised Descriptor (SSCD)-Skala definierten Schwelle zu berechnen.
Auf diese Weise hilft der Clustering-Algorithmus FineXtract, die Teilmenge der extrahierten Bilder zu identifizieren, die mit den Trainingsdaten übereinstimmen.
In diesem Fall arbeiteten die Forscher mit Benutzern zusammen, die die Daten bereitgestellt hatten. Man könnte vernünftigerweise sagen, dass, abwesend solcher Daten, es unmöglich wäre, zu beweisen, dass ein bestimmtes generiertes Bild tatsächlich für das Training verwendet wurde. Es ist jedoch jetzt relativ einfach, hochgeladene Bilder entweder gegen Live-Bilder im Internet oder Bilder, die auch in bekannten und veröffentlichten Datensätzen enthalten sind, abzugleichen, allein auf der Grundlage des Bildinhalts.
Daten und Tests
Um FineXtract zu testen, führten die Autoren Experimente mit few-shot fein abgestimmten Modellen durch, die auf die beiden häufigsten Feinabstimmungsszenarien im Rahmen des Projekts abzielten: künstlerische Stile und objektgetriebene Generierung (letztere umfasst im Wesentlichen face-basierte Subjekte).
Sie wählten 20 Künstler (jeweils mit 10 Bildern) aus dem WikiArt-Datensatz und 30 Subjekte (jeweils mit 5-6 Bildern) aus dem DreamBooth-Datensatz aus, um diese jeweiligen Szenarien anzusprechen.
DreamBooth und LoRA waren die Ziel-Feinabstimmungsmethoden, und Stable Diffusion V1/.4 wurde für die Tests verwendet.
Wenn der Clustering-Algorithmus nach 30 Sekunden keine Ergebnisse zurückgab, wurde die Schwelle geändert, bis Bilder zurückgegeben wurden.
Die beiden verwendeten Metriken für die generierten Bilder waren Durchschnittliche Ähnlichkeit (AS) unter SSCD und Durchschnittliche Erfolgsrate der Extraktion (A-ESR) – ein Maß, das im Wesentlichen mit vorherigen Arbeiten übereinstimmt, bei dem ein Wert von 0,7 den Mindestwert darstellt, um eine vollständig erfolgreiche Extraktion von Trainingsdaten anzugeben.
Da vorherige Ansätze entweder direkte Text-Bild-Generierung oder CFG verwendet haben, verglichen die Forscher FineXtract mit diesen beiden Methoden.

Ergebnisse für den Vergleich von FineXtract mit den beiden beliebtesten vorherigen Methoden.
Die Autoren kommentieren:
‘Die [Ergebnisse] zeigen einen signifikanten Vorteil von FineXtract gegenüber vorherigen Methoden, mit einer Verbesserung von etwa 0,02 bis 0,05 in AS und einer Verdoppelung der A-ESR in den meisten Fällen.’
Um die Fähigkeit der Methode zu testen, sich auf neue Daten zu verallgemeinern, führten die Forscher einen weiteren Test mit Stable Diffusion (V1.4), Stable Diffusion XL und AltDiffusion durch.

FineXtract auf verschiedenen Diffusionsmodellen angewendet. Für den WikiArt-Teil konzentrierte sich der Test auf vier Klassen in WikiArt.
Wie in den oben gezeigten Ergebnissen zu sehen ist, konnte FineXtract auch in diesem umfassenderen Test eine Verbesserung gegenüber vorherigen Methoden erzielen.

Ein qualitativer Vergleich der extrahierten Ergebnisse von FineXtract und vorherigen Ansätzen. Bitte beachten Sie die Quelle für eine bessere Auflösung.
Die Autoren beobachten, dass, wenn eine größere Anzahl von Bildern in einem Datensatz für ein fein abgestimmtes Modell verwendet wird, der Clustering-Algorithmus für eine längere Zeit ausgeführt werden muss, um effektiv zu bleiben.
Sie beobachten außerdem, dass eine Vielzahl von Methoden in den letzten Jahren entwickelt wurden, um diese Art der Extraktion zu behindern, unter dem Vorwand des Schutzes der Privatsphäre. Sie testeten daher FineXtract gegen Daten, die mit den Cutout– und RandAugment-Methoden aufgerüstet wurden.

FineXtract-Leistung gegenüber durch Cutout und RandAugment geschützten Bildern.
Während die Autoren zugeben, dass die beiden Schutzsysteme ziemlich gut darin sind, die Quellen der Trainingsdaten zu verschleiern, bemerken sie, dass dies auf Kosten eines Rückgangs der Ausgabqualität geschieht, der so stark ist, dass der Schutz sinnlos wird:

Bilder, die unter Stable Diffusion V1.4 erstellt wurden, mit defensiven Maßnahmen – die die Bildqualität drastisch senken. Bitte beachten Sie die Quelle für eine bessere Auflösung.
Das Paper schließt:
‘Unsere Experimente demonstrieren die Robustheit der Methode über verschiedene Datensätze und reale Checkpoints hinweg, unterstreichen das Potenzial für Datenlecks und liefern starke Beweise für Urheberrechtsverletzungen.’
Schlussfolgerung
2024 hat sich als das Jahr erwiesen, in dem das Interesse von Unternehmen an “sauberen” Trainingsdaten deutlich zugenommen hat, angesichts der anhaltenden Medienberichterstattung über die Fähigkeit von KI, Menschen zu ersetzen, und der Aussicht, die generativen Modelle, die sie so sehr ausnutzen, rechtlich zu schützen.
Es ist leicht, zu behaupten, dass Ihre Trainingsdaten sauber sind, aber es wird auch einfacher, ähnliche Technologien zu entwickeln, um zu beweisen, dass sie es nicht sind – wie Runway ML, Stability.ai und MidJourney (unter anderen) in den letzten Tagen festgestellt haben.
Projekte wie FineXtract sind möglicherweise Vorboten des absoluten Endes der “Wild-West”-Ära der KI, in der sogar die anscheinend okkulte Natur eines trainierten latenten Raums zur Rechenschaft gezogen werden kann.
* Um der Übersichtlichkeit willen gehen wir davon aus, dass ‘Feinabstimmung und LoRA’ erforderlich sind.
Erstveröffentlichung am Montag, den 7. Oktober 2024












