Künstliche Intelligenz
Der Schaden durch die Feinabstimmung eines KI-Modells kann laut Forschungsergebnissen leicht behoben werden

Neue Forschungsergebnisse aus den USA deuten darauf hin, Feintuning Ein KI-Grundmodell auf der Grundlage Ihrer eigenen Daten muss die Funktionalität des ursprünglichen Modells nicht reduzieren oder beeinträchtigen – und eine relativ einfache Lösung kann nicht nur die Fähigkeiten des ursprünglichen Modells wiederherstellen, sondern tatsächlich zu unterstützen, die Qualität der Ausgabe, die Sie mit dem (bereits trainierten) Modell erzielen möchten.

Leistungssteigerungen bei verschiedenen Modellen mit der neuen Post-Training-Kalibrierung der Autoren. Weitere Details später im Artikel. Quelle: http://export.arxiv.org/pdf/2409.16223
Die Auswirkungen sind erheblich, nicht nur für die Technologiegiganten, deren Aufmerksamkeit sich auf die finanziellen Vorteile der Vermietung von generativen Systemen als Dienstleistung konzentriert, sondern auch für die wachsende Zahl von Hobbyisten, die auf Kabelfernsehen verzichten und Open-Source-Modelle herunterladen und anpassen, damit sie kostengünstiger und mit weniger Einschränkungen auf personalisierte KI-Schreib- und Bild-/Videogenerierungssysteme zugreifen können.
Die Autoren des Papiers scheuen sich nicht, ihre Begeisterung für das Potenzial ihrer Methode zu zeigen, die offenbar bedeutende Fortschritte gegenüber dem Jahr 2023 bringt. Einreichung Ganzheitlicher Transfer: Auf dem Weg zur unterbrechungsfreien Feinabstimmung mit partiellen Zieldaten (gemeinsam mit vielen Mitwirkenden des neuen Artikels verfasst).
Sie geben an:
„Die [Ergebnisse] sind ermutigend und haben weitreichende Auswirkungen! Sie deuten darauf hin, dass eine einfache Kalibrierung nach der Verarbeitung möglicherweise die geringere Genauigkeit des fein abgestimmten Modells in den fehlenden Klassen beheben kann, wodurch die Leistungsfähigkeit des vortrainierten Modells wiederhergestellt und gleichzeitig die verbesserte Merkmalsqualität über alle Klassen hinweg enthüllt wird.“
Wir werden uns die neue Arbeit in Kürze genauer ansehen. Sehen wir uns zunächst an, welches Problem sie lösen soll.
Warum es wichtig ist
Die erste Welle umfassender Feinabstimmung erfolgte im Zuge der Veröffentlichung von Stability.ai's Stable Diffusion Text-zu-Bild-Modell im August 2002. Die ersten Modelle, trainiert auf einer Teilmenge der Hyperscale LAION Datensatz wurden für jedermann zum Download bereitgestellt.
Benutzer, die jedoch spezifisch Inhalte (wie ihre eigene Identität, Kunststile oder die Darstellung von Prominenten) in die außergewöhnlichen generativen Qualitäten der stabilen Diffusion zu integrieren, erforderten den Einsatz von Techniken wie Traumkabine – eine Extrapolation einer Google Research-Anpassungsmethode, wodurch der Benutzer durch Feinabstimmung neue Daten in das frei verfügbare Modell eintrainieren konnte.

Beispiele für den Benutzerprozess für Googles offizielle DreamBooth-Implementierung aus dem Jahr 2022. Der Benutzer kuratiert eine kleine Auswahl an Bildern und wählt in Textaufforderungen aus dem fein abgestimmten Modell einen eindeutigen Namen (einen, den Stable Diffusion nicht in seinen Trainingsdaten hat). Quelle: https://dreambooth.github.io/
Auf diese Weise war es möglich, eine Kopie des Modells zu erhalten, die sehr gut darin war, eine bestimmte Person oder einen benutzerdefinierten Kunststil zu erstellen, die jedoch jetzt für allgemeinere Verwendung „kompromittiert“.
Das bedeutete, dass man, wenn man die Stable Diffusion so feinjustieren wollte, dass sie drei verschiedene Personen genau darstellen konnte, zwangsläufig drei verschiedene Modelle, jeweils etwa 2–4 GB oder mehr.
Jeder Versuch, diese Modelle zu verfeinern eine Sekunde Die Zeit würde nicht nur die allgemeine Leistung des Modells noch weiter verschlechtern, sondern auch die Ausgabe der vorherigen Feinabstimmungssitzung negativ beeinflussen.
In jedem Fall würden sich die berühmten DreamBooth-Modelle bald im Internet verbreiten und sich hauptsächlich auf der Domain civit.ai treffen. Schließlich wurden weniger aufwändige Methoden wie Low-Rank-Anpassung (LoRA) hat die Feinabstimmung in der Popularität überholt (ob LoRA-Ergebnisse jedoch genauso effektiv sind wie eine vollständige Feinabstimmung, bleibt abzuwarten umstrittenund NVIDIA hat seitdem Open-Source ein scheinbar effektiverer Ansatz namens Dora).
Ein LoRA fällt unter die Kategorie Parametereffiziente Feinabstimmung (PEFT), das nur eine Teilmenge der trainierten Parameter des Modells beeinflusst.
Einige Benutzer wollten die grundlegende Natur der Open-Source-Stable-Diffusion ändern Checkpoints, indem wir sie anhand von vielen Tausend Bildern feinabstimmen.
Dies führte praktisch zu einer Alternative Gründungsmodell, die auf die jeweilige Domäne zugeschnitten sind, die der Benutzer trainieren möchte (z. B. einen bestimmten Kunststil). Zu diesem Zweck sind „leichtgewichtige“ Methoden wie LoRA wahrscheinlich weniger effektiv, da die Gewichte des Modells benötigte eine schwer Voreingenommenheit gegenüber den neuen Trainingsdaten.
Lokaler Chat
Mit dem jüngsten Anstieg des Interesses an Large Language Models (LLMs), Benutzer, die die wachsenden Verkaufsstellen (und die damit verbundenen Kosten) von API-gesteuerten Diensten wie ChatGPT vermeiden möchten, haben zunehmend mit dem Download und der Feinabstimmung begonnen effektive Open Source-Modelle wie Lama 3, unter vielen anderen.
Hier auch, LoRAs können eingesetzt werden anstatt einen vollständigen Checkpoint zu optimieren. Wir haben kämpfte vor dass Feinabstimmung eine überlegene Methode zur Erstellung von LLMs ist, die an die spezifischen Bedürfnisse des Benutzers angepasst sind. Obwohl die Feinabstimmung höhere Hardwareanforderungen mit sich bringt und länger dauern kann, bietet sie eine tiefere Generalisierung der neuen Daten, die der Benutzer in das Modell integrieren möchte.
Das Problem bei der Feinabstimmung besteht darin, dass es sich um einen destruktiven Prozess handelt, der später nicht schrittweise anhand zusätzlicher Daten trainiert werden kann, wie wir oben angemerkt haben.
Die Merkmale und Verzerrungen, die in das Modell eingebracht werden, scheinen das ursprüngliche Gleichgewicht der Gewichte im Datensatz stören, was bedeutet, dass das Modell entweder mit übermäßiger Wahrscheinlichkeit diese vom Benutzer bereitgestellten Daten widerspiegelt oder zumindest insgesamt schlechtere Leistungen erbringt als das ursprüngliche Basismodell (bei Aufgaben, die nichts mit den neuen Daten zu tun haben).
Dem kann man bis zu einem gewissen Grad abhelfen, indem man Einfrieren bestimmte Teile des Modells während des Trainings; dies kann jedoch zu einer reduzierten allgemeinen Funktionalität führen, da der eingefrorene Teil der Architektur möglicherweise nicht gut auf die neu fein abgestimmten Daten innerhalb des Modells verallgemeinert werden kann. latenter Raum.
Es wäre daher wirklich großartig, wenn es eine einfachere Möglichkeit gäbe, die ursprünglichen Fähigkeiten eines feinabgestimmten Modells zu bewahren und gleichzeitig die Fähigkeit des Modells beizubehalten, Ausgaben basierend auf den Feinabstimmungsdaten zu erzeugen.
Eine solche Entwicklung wäre für alle potenziellen Nutzer von Vorteil, von Hobbyisten und Early Adopters, die lokale LLMs und andere Arten von generativen Modellen verwenden, bis hin zur FAANG-Ebene (wo ein sehr teures KI-Modell iterativ und zerstörungsfrei verbessert werden könnte, ohne dass mehrereMillionenausgaben anstatt das Training mit den zusätzlichen Daten noch einmal von vorne zu beginnen).
Nachbearbeitungskalibrierung
Dies bringt uns zurück zum neues Papier, Was heisst Feinabstimmung ist gut, wenn kalibriertund stammt von 11 Forschern der Ohio State University, der University of Wisconsin Madison und des Rensselar Polytechnic Institute.
Die Forscher wollten herausfinden, was genau in einem Basismodell bei der Feinabstimmung beschädigt wird. Sie kamen zu dem Schluss, dass der einzige große Unterschied zwischen dem Vorher- und dem Nachher-Modell darin besteht, dass die Logit-Skalen zwischen den Feinabstimmungsklassen und den ursprünglichen Klassen im Modell eine große Diskrepanz aufweisen.
Logit-Links prognostizieren die Erfolgswahrscheinlichkeit in einem logische Regression Prozess, bei dem die geschätzten Werte (die sehr genau sein können) in eine Null oder eine Eins umgewandelt werden.
Die Autoren stellten nicht nur fest, dass dieses Defizit durch eine Kalibrierungstechnik fast beiläufig reversibel ist, sondern dass dies Post facto Fix verbessert tatsächlich die Qualität der Ausgabe für die Feinabstimmungsdaten. Daher erhalten Sie mit dieser Technik nicht nur die ursprünglichen Funktionen des Basismodells, sondern auch eine bessere Integration Ihrer eigenen feinabgestimmten Daten.
(Obwohl in dem Dokument nicht auf diese Aussicht eingegangen wird, lässt diese Technik darauf schließen, dass ein Modell mehrere Male feinabgestimmt werden kann und dennoch wirksam bleibt.)
Bei der Diskussion ihrer Erkenntnisse zur Untersuchung von Modellschäden nach der Feinabstimmung erklären die Autoren:
„Zu unserer Überraschung stellen wir fest, dass das fein abgestimmte Modell weder die Beziehungen zwischen den anderen Klassen vergisst noch die Merkmale zur Erkennung dieser Klassen verschlechtert.
„Stattdessen produziert das feinabgestimmte Modell oft mehr diskriminierende Merkmale für diese anderen Klassen, selbst wenn sie bei der Feinabstimmung fehlten!
„[Was] die Genauigkeit wirklich beeinträchtigt, sind die abweichenden Logit-Skalen zwischen den Feinabstimmungsklassen und den anderen [Klassen], was bedeutet, dass eine einfache Kalibrierung nach der Verarbeitung die Leistungsfähigkeit des vorab trainierten Modells wiederherstellen und gleichzeitig die Funktionsverbesserung über alle Klassen hinweg aufdecken würde.“
Die Autoren haben die Ergebnisse ihrer Tests dieser Theorie reproduzierbar gemacht in einem GitHub-Repository.
Sie fanden heraus, dass bei der Untersuchung der einzige Teil der Architektur des Basismodells, der bei der Feinabstimmung beschädigt wird, der binärer Klassifikator, wodurch Klassen falsch klassifiziert werden, die abwesend im ursprünglichen Modell als Feinabstimmungsklassen.
In dem Papier heißt es*:
'[Durch] Hinzufügen eines Kalibrierungs-Bias-Faktors zu allen Logit-Werten fehlender Klassen [4, 40 ] kann das feinabgestimmte Modell die fehlende Klassengenauigkeit erfolgreich wiederherstellen und eine ordentliche Gesamtverbesserung im nachgelagerten [Bereich] erzielen.
„Die daraus resultierende Leistung übertrifft sogar die starke Baseline [Ganzheitlicher Transfer – das Papier, auf dem dieses Papier aufbaut ] in vielen der Benchmarks, einschließlich ImageNet und seinen Varianten [IMAGEnet, ImageNet-R(Ausgabe), ImageNet-S(ketch) ], Büro-Zuhauseund VTAB, ohne kompliziertes Training und Hyperparameter-Einstellung. "

Ergebnisse aus dem Papier: Die Autoren geben an, dass ein fein abgestimmtes Modell, bei dem eine nachträgliche Kalibrierung durchgeführt wurde, den modernsten Lösungsansatz für das Problem übertreffen kann.
Die Autoren klassifizieren die verbesserte Leistung eines nachkalibrierten, feinabgestimmten Modells als „unerwartetes, gutartiges Verhalten“ und stellen fest, dass bei einer grundlegenden Stochastischer Gradientenabstieg (SGD)-Optimierer verwendet wird, wird ein besseres Ergebnis erzielt als mit gängigeren aktuellen Optimierern, wie Marcus.
'Trotzdem,' sie bemerken „Bei ausreichend kleinen Lernraten und Gewichtsabnahmen treten die gutartigen Verhaltensweisen auf und bleiben bestehen.“
Kleinere Reparaturen
Um die Logit-Diskrepanzen zu beheben, die durch die Feinabstimmung entstanden, verwendeten die Autoren eine Technik von Zero-Shot-Lernen, wobei den Logits aller fehlenden Klassen ein konstanter Faktor hinzugefügt wird. Daraus ergibt sich eine neue Klassifizierungsregel.
Die Autoren weisen darauf hin, dass dieser Prozess die vernachlässigten fehlenden Klassen auf die gleiche Vorhersagequalität wie die fein abgestimmten Klassen „befördert“, wodurch die ursprüngliche Leistung wiederhergestellt und die Leistung der „hinzugefügten“ Daten zum Zeitpunkt der Inferenz verbessert wird.

In Tests konnte durch die Nachkalibrierung die Leistung verschiedener fein abgestimmter Modelle wiederhergestellt werden. Das in der Tabelle angegebene „Oracle“ bezeichnet einen fein abgestimmten Klassifikator, der auch fehlende Klassendaten berücksichtigt.
Sie stellen außerdem fest, dass die Nachbearbeitungskalibrierung „potenziell auf jedes Modell anwendbar“ sei und dass Methoden, die die Integrität des Basismodells durch das Einfrieren von Schichten (wie etwa dem Klassifikator und dem Backbone) aufrechterhalten wollen, im Vergleich zu ihrem eigenen vorgeschlagenen Ansatz schlecht abschneiden.
Fazit
Die Ergebnisse dieser Zusammenarbeit scheinen bedeutsam zu sein. Das Trainieren eines KI-Modells anhand eines Hyperscale-Datensatzes ist ein enormer Aufwand, vergleichbar mit dem Start eines Passagierflugzeugs. Obwohl das Training unterbrochen werden kann und etwaige Schäden durch regelmäßiges Speichern der aktuellen Gewichte (mit erheblichen Speicherkosten) gemildert werden können, um Trainingsunterbrechungen zu ermöglichen, kann man nach dem Start relativ wenig tun, um das Ergebnis zu ändern.
Das Beeindruckende an der Arbeit ist, dass die Forscher offenbar ein grundlegendes Prinzip im allgemeinen KI-Modelltraining entdeckt haben und dass ihre Lösung überraschend elegant ist.
Die wirtschaftlichen Auswirkungen, die sich aus der Fähigkeit ergeben, die Genauigkeit des Basismodells nach der Feinabstimmung beizubehalten, sind ebenfalls erheblich. Bislang bestand die gängigste Methode zur Behebung der Mängel von Multimillionen-Dollar-Modellen darin, die Ausgabe zum Zeitpunkt der Inferenz zu filtern oder die Inferenz zu kontrollieren, um etwaige Achillesfersen des Modells zu vermeiden.
Darüber hinaus könnte eine solche Technik theoretisch die Fähigkeiten fein abgestimmter generativer Modelle auf Verbraucherebene erheblich verbessern, mit dem Bonus einer Steigerung der Ausgabequalität.
* Meine Konvertierung der Inline-Zitate der Autoren in Hyperlinks.
Erstveröffentlichung Dienstag, 1. Oktober 2024








