Künstliche Intelligenz

Der Schaden durch Feinabstimmung eines KI-Modells kann leicht behoben werden, zeigt Forschung

Published October 1, 2024

Updated May 20, 2026

Martin Anderson

AI-generated image from ChatGPT. Prompt: ' a photorealistic panoramic image of a scientist in a white coat, wearing protective soldering goggles, who is soldering circuitry in an open panel of the underside of a massive and high-tech computer system. Photorealistic, gorgeous, UHQ'

Neue Forschung aus den USA zeigt, dass die Feinabstimmung eines KI-Grundmodells auf eigene Daten nicht unbedingt die Funktionalität des ursprünglichen Modells reduzieren oder beeinträchtigen muss – und dass eine relativ einfache Lösung nicht nur die Fähigkeiten des ursprünglichen Modells wiederherstellen, sondern auch die Qualität der Ausgabe verbessern kann, die man vom (bereits trainierten) Modell erhalten möchte.

Leistungssteigerungen bei diversen Modellen mit der neuen Post-Training-Kalibrierung der Autoren. Weitere Details später im Artikel. Quelle: http://export.arxiv.org/pdf/2409.16223

Die Implikationen dafür sind erheblich, nicht nur für die Tech-Giganten, deren Aufmerksamkeit auf die finanziellen Vorteile der Vermietung von generativen Systemen “as-a-Service” konvergiert, sondern auch für die wachsende Zahl von “Cord-Cutter”-Hobbyisten, die offene Modelle herunterladen und anpassen, um persönliche KI-Schreib- und Bild/Video-Generierungssysteme zu erhalten, die billiger und mit weniger Einschränkungen sind.

Die Autoren des Papiers sind nicht scheu, ihre Begeisterung für das Potenzial ihrer Methode zu zeigen, die offensichtlich erhebliche Fortschritte gegenüber dem Einreichung von 2023 Holistic Transfer: Towards Non-Disruptive Fine-Tuning with Partial Target Data (koautoriert mit vielen der Mitwirkenden des neuen Papiers) macht.

Sie stellen fest:

‘Die [Ergebnisse] sind ermutigend und haben tiefgreifende Auswirkungen! Sie implizieren, dass eine einfache Post-Processing-Kalibrierung möglicherweise die fehlerhafte Genauigkeit des feinabgestimmten Modells auf den fehlenden Klassen beheben kann, die Fähigkeit des vorab trainierten Modells wiederherstellen und gleichzeitig die verbesserte Merkmalsqualität über alle Klassen aufdecken.’

Wir werden uns bald mit der neuen Arbeit befassen. Zunächst sehen wir uns an, welches Problem sie zu lösen versucht.

Warum es wichtig ist

Die erste Welle der weit verbreiteten Feinabstimmung trat im Anschluss an die Veröffentlichung des Stable-Diffusion-Text-Bild-Modells von Stability.ai im August 2002 auf. Die frühen Modelle, die auf einem Teil des hyperskaligen LAION-Datensatzes trainiert wurden, standen für jeden zum Download zur Verfügung.

Benutzer, die jedoch spezifische Inhalte (wie ihre eigene Identität, Kunststile oder die Darstellung von Berühmtheiten) in die außergewöhnlichen generativen Eigenschaften von Stable Diffusion einfügen wollten, mussten auf Techniken wie DreamBooth zurückgreifen – eine Extrapolation einer Google-Forschungsmethode, die es dem Benutzer ermöglichte, neue Daten in das frei verfügbare Modell einzutrainieren, indem es feinabgestimmt wurde.

Beispiele für den Benutzerprozess für die offizielle DreamBooth-Implementierung von Google aus dem Jahr 2022. Der Benutzer kuratiert eine kleine Auswahl an Bildern und wählt einen eindeutigen Namen (den Stable Diffusion in seinen Trainingsdaten nicht hat) in Text-Prompts aus dem feinabgestimmten Modell. Quelle: https://dreambooth.github.io/

Auf diese Weise war es möglich, eine Kopie des Modells zu erhalten, das sehr gut darin war, eine bestimmte Person oder einen benutzerdefinierten Kunststil zu erstellen, aber das nun für den allgemeinen Gebrauch ‘kompromittiert’ war.

Dies bedeutete, dass man, wenn man Stable Diffusion so feinabstimmen wollte, dass es drei verschiedene Personen genau darstellen konnte, unvermeidlich drei verschiedene Modelle erstellen musste, jedes etwa 2-4 GB groß oder mehr.

Jeder Versuch, diese Modelle ein zweites Mal feinabzustimmen, würde nicht nur die allgemeine Leistung des Modells weiter verschlechtern, sondern auch die Ausgabe aus der vorherigen Feinabstimmungssitzung negativ beeinflussen.

Auf jeden Fall würden Celebrity-DreamBooth-Modelle bald im Internet verbreitet sein, hauptsächlich auf der civit.ai-Domäne. Schließlich würden weniger aufwändige Methoden wie Low-Rank-Adaptation (LoRA) die Feinabstimmung in Popularität überbieten (obwohl es unklar bleibt, ob LoRA-Ausgaben so effektiv sind wie eine vollständige Feinabstimmung, und NVIDIA hat inzwischen open-sourced einen offensichtlich effektiveren Ansatz namens DoRA).

Ein LoRA fällt unter die Kategorie Parameter-Efficient Fine-Tuning (PEFT), das nur einen Teil der trainierten Parameter des Modells beeinflusst.

Einige Benutzer wollten die grundlegende Natur der offengelegten Stable-Diffusion-Checkpoints ändern, indem sie diese auf Tausenden von Bildern feinabgestimmt wurden.

Dies führte effektiv zu einem alternativen Grundmodell, das für jedes Domäne, die der Benutzer zu trainieren versuchte (wie einen bestimmten Kunststil), spezialisiert war. Für diesen Zweck waren “leichtgewichtige” Methoden wie LoRA wahrscheinlich weniger effektiv, da die Gewichte des Modells eine starke Voreingenommenheit gegenüber den neuen Trainingsdaten benötigten.

Lokaler Chat

Mit dem jüngsten Anstieg des Interesses an Large Language Models (LLMs) haben Benutzer, die die wachsenden Ausgaben (und damit verbundenen Kosten) von API-getriebenen Diensten wie ChatGPT vermeiden möchten, zunehmend offene Modelle heruntergeladen und feinabgestimmt, wie z.B. Llama 3, um persönliche KI-Schreib- und Bild/Video-Generierungssysteme zu erhalten, die billiger und mit weniger Einschränkungen sind.

Auch hier können LoRAs anstelle der Feinabstimmung eines vollständigen Checkpoints verwendet werden. Wir haben zuvor argumentiert, dass die Feinabstimmung eine überlegene Methode zur Erzeugung von LLMs ist, die an die spezifischen Bedürfnisse des Benutzers angepasst sind. Obwohl die Feinabstimmung höhere Hardwareanforderungen haben und länger dauern kann, bietet sie eine tiefere Verallgemeinerung der neuen Daten, die der Benutzer in das Modell integrieren möchte.

Das Problem mit der Feinabstimmung ist, dass es ein destruktiver Prozess ist, der nicht inkrementell auf zusätzliche Daten trainiert werden kann, wie wir oben erwähnt haben.

Die Merkmale und Voreingenommenheiten, die in das Modell injiziert werden, scheinen die ursprüngliche Balance der Gewichte im Datensatz zu stören, was bedeutet, dass das Modell entweder übermäßig wahrscheinlich die vom Benutzer beigesteuerten Daten widerspiegelt oder zumindest schlechter als das ursprüngliche Grundmodell (bei Aufgaben, die nicht mit den neuen Daten zusammenhängen) funktioniert.

Man kann dies bis zu einem bestimmten Grad beheben, indem man bestimmte Teile des Modells während des Trainings einfriert; dies kann jedoch zu einer verringerten allgemeinen Funktionalität führen, da der eingefrorene Teil der Architektur möglicherweise nicht gut auf die neu feinabgestimmten Daten im latenten Raum des Modells verallgemeinert.

Es wäre daher großartig, wenn es eine einfachere Möglichkeit gäbe, die ursprünglichen Fähigkeiten eines feinabgestimmten Modells zu erhalten, während man gleichzeitig die Fähigkeit des Modells beibehält, Ausgaben auf der Grundlage der Feinabstimmungsdaten zu produzieren.

Eine solche Entwicklung wäre für die gesamte Bandbreite von potenziellen Benutzern von Vorteil, von Hobbyisten und Early Adoptern, die lokale LLMs und andere Arten von generativen Modellen verwenden, bis hin zu FAANG-Ebene (wo ein sehr teures KI-Modell iterativ und nicht-destruktiv verbessert werden könnte, ohne die multi-millionenschwere Ausgabe, das Training von vorne zu beginnen, mit den zusätzlichen Daten).

Post-Processing-Kalibrierung

Dies bringt uns zurück zu dem neuen Papier, das Feinabstimmung ist in Ordnung, wenn kalibriert heißt und von 11 Forschern der Ohio State University, der University of Wisconsin Madison und des Rensselar Polytechnic Institute stammt.

Die Forscher versuchten herauszufinden, was genau in einem Grundmodell beschädigt wird, wenn es feinabgestimmt wird. Sie sind zu dem Schluss gekommen, dass der einzige große Unterschied zwischen dem “vorher” und “nachher”-Modell darin besteht, dass die Logit-Skalen über die Feinabstimmungsklassen und die ursprünglichen Klassen im Modell eine erhebliche Diskrepanz aufweisen.

Logit-Links Vorhersagen die Wahrscheinlichkeit des Erfolgs in einem logischen Regressionsprozess, indem sie die geschätzten Werte (die sehr präzise sein können) in eine Null oder eine Eins umwandeln.

Die Autoren fanden nicht nur heraus, dass dieser Defizit fast beiläufig durch eine Kalibrierungstechnik rückgängig gemacht werden kann, sondern dass diese post facto-Lösung tatsächlich die Qualität der Ausgabe für die Feinabstimmungsdaten verbessert. Mit dieser Technik erhält man also nicht nur die ursprünglichen Fähigkeiten des Grundmodells, sondern auch eine bessere Integration der eigenen feinabgestimmten Daten.

(Obwohl das Papier diese Aussicht nicht untersucht, impliziert diese Technik, dass ein Modell mehrmals feinabgestimmt werden und dennoch effektiv bleiben kann)

Bei der Diskussion ihrer Ergebnisse zur Untersuchung von Modellschäden nach der Feinabstimmung stellen die Autoren fest:

‘Zu unserer Überraschung finden wir, dass das feinabgestimmte Modell weder die Beziehung zwischen den anderen Klassen vergisst noch die Merkmale, um diese Klassen zu erkennen, verschlechtert.

‘Stattdessen produziert das feinabgestimmte Modell oft diskriminativere Merkmale für diese anderen Klassen, selbst wenn sie während der Feinabstimmung fehlten!

‘[Was] die Genauigkeit wirklich beeinträchtigt, ist die diskrepante Logit-Skala zwischen den Feinabstimmungsklassen und den anderen [Klassen], was impliziert, dass eine einfache Post-Processing-Kalibrierung die Fähigkeit des vorab trainierten Modells wiederherstellen und gleichzeitig die Merkmalsverbesserung über alle Klassen aufdecken kann.’

Die Autoren haben die Ergebnisse ihrer Tests für diese Theorie in einem GitHub-Repository reproduzierbar gemacht.

Bei der Untersuchung fanden sie heraus, dass der einzige Teil der Architektur des Grundmodells, der durch die Feinabstimmung beschädigt wird, der binäre Klassifizierer ist, der Klassen, die abwesend im ursprünglichen Modell sind, als Feinabstimmungsklassen falsch klassifiziert.

Das Papier besagt*:

‘[Durch] Hinzufügen eines Kalibrierungs-Bias-Faktors zu allen abwesenden Klassen-Logits [4, 40 ], kann das feinabgestimmte Modell erfolgreich die abwesende Klasse-Genauigkeit wiederherstellen und eine anständige Gesamtbesserung im Downstream-[Bereich] erzielen.

‘Die resultierende Leistung schlägt sogar die starke Basislinie [Holistic Transfer – das Papier, auf dem dieses Papier aufbaut ] in vielen der Benchmarks, einschließlich ImageNet und seiner Varianten [ImageNet, ImageNet-R(endition), ImageNet-S(ketch) ], Office-Home und VTAB, ohne kompliziertes Training und Hyperparameter-Einstellung.’

Ein feinabgestimmtes Modell, das eine Post-Processing-Kalibrierung durchlaufen hat, kann, so die Autoren, die State-of-the-Art-Ansatz für das Problem übertreffen.

Ergebnisse aus dem Papier: Ein feinabgestimmtes Modell, das eine Post-Processing-Kalibrierung durchlaufen hat, kann, so die Autoren, die State-of-the-Art-Ansatz für das Problem übertreffen.

Die Autoren klassifizieren die verbesserte Leistung eines post-kalibrierten feinabgestimmten Modells als “unerwartete benehmenhafte Verhaltensweisen” und beobachten, dass, wenn ein grundlegender Stochastic-Gradient-Descent (SGD)-Optimizer verwendet wird, ein besseres Ergebnis erzielt wird als mit den populäreren aktuellen Optimizern wie Adam.

‘Noch,’ stellen sie fest ‘mit kleinen genug Lernraten und Gewichtsabfall, treten die benehmenhaften Verhaltensweisen auf und halten.’

Geringfügige Reparaturen

Um die Logit-Unterschiede zu beheben, die durch die Feinabstimmung entstehen, haben die Autoren eine Technik aus Zero-Shot-Lernen übernommen, indem sie einen konstanten Faktor zu den Logits aller abwesenden Klassen hinzufügten. Dies resultiert in einer neuen Klassifizierungsregel.

Die Autoren bemerken, dass dieser Prozess die vernachlässigten abwesenden Klassen auf die gleiche Vorhersagequalität der feinabgestimmten Klassen “befördert” und die ursprüngliche Leistung wiederherstellt und die Leistung der “hinzugefügten” Daten bei der Inferenzzeit verbessert.

In Tests wurde die Post-Kalibrierungstechnik auf eine Vielzahl von feinabgestimmten Modellen angewendet. Der ‘Oracle’ in der Tabelle bezieht sich auf einen feinabgestimmten Klassifizierer, der auch die fehlenden Klassendaten berücksichtigt.

Sie beobachten weiter, dass die Post-Processing-Kalibrierung “potenziell auf jedes Modell anwendbar” ist und dass Methoden, die versuchen, die Integrität des Grundmodells durch das Einfrieren von Schichten (wie dem Klassifizierer und dem Backbone) aufrechtzuerhalten, im Vergleich zu ihrem eigenen vorgeschlagenen Ansatz schlecht abschneiden.

Schlussfolgerung

Die Ergebnisse dieser Zusammenarbeit scheinen erheblich. Das Training eines KI-Modells auf einem hyperskaligen Datensatz ist ein enormer Einsatz, ähnlich dem Start eines Passagierflugzeugs. Obwohl das Training unterbrochen und jeder Schaden durch das regelmäßige Speichern der aktuellen Gewichte (bei erheblichen Speicherkosten) gemildert werden kann, um Unterbrechungen des Trainings zu ermöglichen, gibt es relativ wenig, was man tun kann, um das Ergebnis nach dem Start zu ändern.

Was an dieser Arbeit beeindruckend ist, ist, dass die Forscher offensichtlich ein grundlegendes Prinzip im allgemeinen KI-Modell-Training entdeckt haben, und dass ihre Lösung überraschend elegant ist.

Die wirtschaftlichen Auswirkungen der Möglichkeit, die Genauigkeit des Grundmodells nach der Feinabstimmung beizubehalten, sind auch erheblich. Bisher war die gängigste Methode, um die Mängel von millionenschweren Modellen zu beheben, die Filterung der Ausgabe bei der Inferenzzeit oder die Kontrolle der Inferenz, um jede Achillesferse im Modell zu vermeiden.

Zusätzlich könnte eine solche Technik theoretisch erhebliche Verbesserungen der Fähigkeiten feinabgestimmter generativer Modelle auf Verbraucherebene bringen, mit dem Bonus einer Steigerung der Ausgabqualität.

* Meine Umwandlung der inline-Zitate der Autoren in Hyperlinks.

Erstveröffentlicht am Dienstag, 1. Oktober 2024