Künstliche Intelligenz

LoReFT: Darstellungsfeinabstimmung für Sprachmodelle

Veröffentlicht

3 Wochen her

18. April 2024

LoReFT: Darstellungsfeinabstimmung für Sprachmodelle

Parametereffiziente Feinabstimmungs- oder PeFT-Methoden zielen darauf ab, große Sprachmodelle durch Aktualisierungen an eine kleine Anzahl von Gewichten anzupassen. Allerdings hat ein Großteil der bestehenden Interpretierbarkeitsarbeiten gezeigt, dass Darstellungen semantisch umfangreiche Informationen kodieren, was darauf hindeutet, dass es eine bessere und leistungsfähigere Alternative sein könnte, diese Darstellungen zu bearbeiten. Vorab trainierte große Modelle werden oft feinabgestimmt, um für neue Domänen oder Aufgaben verwendet zu werden, und während des Feinabstimmungsprozesses kann ein einzelnes Basismodell an eine Vielzahl von Aufgaben angepasst werden, selbst wenn nur kleine Mengen an domäneninternen Daten verfügbar sind zum Modell. Der Prozess der Feinabstimmung eines gesamten Modells ist jedoch ressourcenintensiv und teuer, insbesondere bei Sprachmodellen mit einer deutlich höheren Anzahl an Größen und Parametern.

Parametereffiziente Feinabstimmungs- oder PeFT-Methoden schlagen vor, die hohen Kosten, die mit der Feinabstimmung des gesamten Modells verbunden sind, zu bewältigen, indem nur ein kleiner Teil der verfügbaren Gesamtgewichte aktualisiert wird. Dieser Prozess trägt dazu bei, die Trainingszeit und den Speicherverbrauch zu reduzieren. Noch wichtiger ist, dass Parametereffiziente Feinabstimmungs- oder PeFT-Methoden in mehreren praktischen Situationen eine ähnliche Leistung wie die Feinabstimmung gezeigt haben. Adapter, eine gängige Familie von Parameter-effizienten Feinabstimmungs- oder PeFT-Methoden, lernen eine Bearbeitung, die zu einem zusätzlichen Satz von Gewichtungen hinzugefügt werden kann, die neben dem eingefrorenen Basismodell arbeiten, wobei neuere Adapter wie LoRA die Anzahl der trainierbaren Parameter im Lernprozess reduzieren Gewichtsaktualisierungen durch die Verwendung von Approximationen mit niedrigem Rang anstelle von Matrizen mit voller Gewichtung beim Training der Adapter.

Da frühere Arbeiten gezeigt haben, dass die Bearbeitung von Darstellungen eine bessere Alternative zu Parameter-effizienten Feinabstimmungs- oder PeFT-Methoden sein könnte, werden wir in diesem Artikel über Darstellungs-Feinabstimmungs- oder ReFT-Methoden sprechen, die auf einem eingefrorenen Modell arbeiten und aufgabenspezifisch lernen Interventionen zu verborgenen Darstellungen. Ziel dieses Artikels ist es, das ReFt- oder Representation Fine-Tuning-Framework eingehend zu behandeln, und wir untersuchen den Mechanismus, die Methodik, die Architektur des Frameworks sowie seinen Vergleich mit modernen Frameworks. Also lasst uns anfangen.

ReFT: Feinabstimmung der Darstellung für Sprachmodelle

Bei dem Versuch, vorab trainierte Sprachmodelle an neue Domänen und Aufgaben anzupassen, optimieren aktuelle Frameworks diese vorab trainierten Sprachmodelle häufig, da mit dem implementierten Feinabstimmungsprozess ein einzelnes Basismodell sogar an eine Vielzahl von Aufgaben angepasst werden kann wenn mit einer kleinen Menge domäneninterner Daten gearbeitet wird. Obwohl der Feinabstimmungsprozess die Gesamtleistung steigert, ist er ein kostspieliger Prozess, insbesondere wenn das Sprachmodell eine deutlich hohe Anzahl von Parametern aufweist. Um dieses Problem anzugehen und die damit verbundenen Kosten zu reduzieren, wird PeFT oder Parameter-effizient eingesetzt Feinabstimmung von Frameworks Aktualisieren Sie nur einen kleinen Bruchteil der Gesamtgewichte, ein Prozess, der nicht nur die Trainingszeit, sondern auch die Speichernutzung reduziert, sodass die PeFT-Frameworks im Vergleich zu vollständigen Feinabstimmungsansätzen in praktischen Szenarien eine ähnliche Leistung erzielen können. Adapter, eine gemeinsame Familie von PeFTs, funktionieren durch das Erlernen einer Bearbeitung, die zu einem zusätzlichen Satz von Gewichtungen hinzugefügt werden kann, zusammen mit einem Teilsatz von Gewichten, die im Einklang mit dem Basismodell mit eingefrorenen Gewichten arbeiten. Aktuelle Adapter-Frameworks wie LoRA und QLoRA haben gezeigt, dass es möglich ist, Adapter mit voller Präzision auf Modellen mit reduzierter Präzision zu trainieren, ohne die Leistung zu beeinträchtigen. Im Vergleich zu anderen Methoden, die neue Modellkomponenten einführen, sind Adapter in der Regel effizienter und effektiver.

Ein wesentliches Highlight aktueller Parameter-effizienter Feinabstimmungs-Frameworks besteht darin, dass sie nicht Darstellungen, sondern Gewichte modifizieren. Frameworks, die sich mit Interpretierbarkeit befassen, haben jedoch gezeigt, dass Darstellungen umfangreiche semantische Informationen kodieren, was darauf hindeutet, dass die Bearbeitung von Darstellungen im Vergleich zu Gewichtsaktualisierungen ein besserer und leistungsfähigerer Ansatz sein könnte. Diese Annahme, dass die Bearbeitung von Darstellungen der bessere Ansatz ist, bildet die Grundlage des ReFT- oder Representation Finetuning-Frameworks, das Interventionen trainiert, anstatt Modellgewichte anzupassen, und es dem Modell ermöglicht, einen kleinen Teil aller Darstellungen zu manipulieren, um das Modellverhalten zu steuern um nachgelagerte Aufgaben während der Inferenz zu lösen. ReFT- oder Darstellungs-Feinabstimmungsmethoden sind ein direkter Ersatz für gewichtsbasierte PeFT- oder Parameter-effiziente Feinabstimmungs-Frameworks. Der ReFT-Ansatz lässt sich von neueren Modellen inspirieren, die mit großer Modellinterpretierbarkeit arbeiten, die in Darstellungen eingreift, um getreue kausale Mechanismen zu finden, und das Verhalten des Modells während der Inferenz steuert, und kann daher als Verallgemeinerung der Darstellungsbearbeitungsmodelle angesehen werden. Darauf aufbauend ist LoReFT oder Low-Rank Subspace ReFT eine starke und effektive Instanz von ReFT und eine Parametrisierung von ReFT, die in verborgene Darstellungen im linearen Raum eingreift, der von einer Projektionsmatrix mit niedrigem Rang aufgespannt wird, und direkt auf dem DAS aufbaut oder Distributed Alignment Search-Framework.

Im Gegensatz zur vollständigen Feinabstimmung trainiert das PeFT- oder Parameter-effiziente Feinabstimmungs-Framework nur einen kleinen Teil der Parameter des Modells und schafft es, das Modell an nachgelagerte Aufgaben anzupassen. Das Parameter-effiziente Feinabstimmungs-Framework kann in drei Hauptkategorien eingeteilt werden:

Adapterbasierte Methoden: Adapterbasierte Methoden trainieren zusätzliche Module wie vollständig verbundene Schichten auf dem vorab trainierten Modell mit eingefrorenen Gewichten. Serienadapter fügen Komponenten zwischen dem mehrschichtigen Perzeptron oder MLP und LM oder den Aufmerksamkeitsschichten großer Modelle ein, während parallele Adapter Module neben vorhandenen Komponenten hinzufügen. Da Adapter neue Komponenten hinzufügen, die nicht einfach in bestehende Modellgewichte integriert werden können, stellen sie eine zusätzliche Belastung bei der Inferenz dar.

LoRA: LoRA und seine neueren Varianten nähern sich additiven Gewichten während des Trainings mithilfe von Matrizen mit niedrigem Rang an und erfordern keinen zusätzlichen Aufwand während der Inferenz, da die Gewichtsaktualisierungen in das Modell integriert werden können. Aus diesem Grund gelten sie als aktuell stärkste PeFT-Frameworks.

Aufforderungsbasierte Methoden: Aufforderungsbasierte Methoden fügen Soft-Tokens hinzu, die zufällig in die Eingabe initialisiert werden, und trainieren ihre Einbettungen, während die Gewichte des Sprachmodells eingefroren bleiben. Die von diesen Methoden gebotene Leistung ist im Vergleich zu anderen PeFT-Ansätzen oft nicht zufriedenstellend und sie bringen außerdem einen erheblichen Inferenzaufwand mit sich.

Anstatt die Gewichte zu aktualisieren, lernt das ReFT-Framework Eingriffe, um einen kleinen Teil der Gesamtdarstellungen zu ändern. Darüber hinaus haben aktuelle Arbeiten zur Repräsentationstechnik und Aktivierungssteuerung gezeigt, dass das Hinzufügen fester Steuerungsvektoren zum Reststrom ein gewisses Maß an Kontrolle über vorab trainierte große Modellgenerationen ermöglichen könnte, ohne dass hierfür ein hoher Ressourcenaufwand erforderlich ist Feintuning. Andere Frameworks haben gezeigt, dass das Bearbeiten von Darstellungen mit einer erlernten Skalierungs- und Übersetzungsoperation versuchen kann, die von LoRA-Adaptern gebotene Leistung bei einer Vielzahl von Aufgaben mit weniger erlernten Parametern zu erreichen, aber nicht zu übertreffen. Darüber hinaus hat der Erfolg dieser Frameworks bei einer Reihe von Aufgaben gezeigt, dass durch vorab trainierte Sprachmodelle eingeführte Darstellungen eine reichhaltige Semantik aufweisen, obwohl die Leistung dieser Modelle nicht optimal ist, was dazu führt, dass PeFTs weiterhin der Stand der Technik sind ohne zusätzliche Schlussfolgerungslast.

ReFT: Methodik und Architektur

Um den Stilerhaltungsprozess einfach zu halten, geht das ReFT-Framework von einem transformatorbasierten großen Modell als Zielmodell aus, das in der Lage ist, eine kontextualisierte Darstellung der Token-Sequenz zu erzeugen. Für eine gegebene Sequenz mit n Eingabe-Tokens bettet das ReFT-Framework diese Eingabe-Tokens zunächst in eine Liste von Darstellungen ein, woraufhin die m Schichten nacheinander die Liste der ausgeblendeten Darstellungen als Funktion der vorherigen Liste der ausgeblendeten Darstellungen berechnen. Jede verborgene Darstellung ist ein Vektor, und das Sprachmodell verwendet die endgültigen verborgenen Darstellungen, um die Vorhersagen zu erstellen. Das ReFT-Framework berücksichtigt sowohl maskierte Sprachmodelle als auch autoregressive Sprachmodelle. Gemäß der Hypothese der linearen Darstellung werden Konzepte in neuronalen Netzen nun innerhalb der linearen Unterräume von Darstellungen kodiert. Neuere Modelle haben herausgefunden, dass diese Behauptung in neuronalen Netzwerkmodellen wahr ist, die auf natürlicher Sprache und anderen Eingabeverteilungen trainiert wurden.

Darüber hinaus verwendet das Casual-Abstraktions-Framework in Interpretierbarkeitsstudien Austauschinterventionen, um die Rolle neuronaler Netzwerkkomponenten beiläufig bei der Implementierung bestimmter Verhaltensweisen zu ermitteln. Die Logik hinter der Austauschintervention besteht darin, dass, wenn man eine Darstellung auf das fixiert, was sie für eine kontrafaktische Eingabe gewesen wäre, diese Intervention die Ausgabe des Modells konsistent in der Art und Weise beeinflusst, wie die Behauptungen des ReFT-Frameworks über die für die Produktion verantwortliche Komponente Ist diese Darstellung vorhanden, spielt die Komponente eine kausale Rolle im Verhalten. Obwohl es einige Methoden gibt, ist die Distributed-Interchange-Intervention der ideale Ansatz, um zu testen, ob ein Konzept in einem linearen Unterraum einer Darstellung kodiert ist, wie in der Hypothese der linearen Darstellung behauptet. Darüber hinaus wurde die DAS-Methode bereits früher verwendet, um in Sprachmodellen eine lineare Darstellung von Entitätsattributen, Gefühlen, sprachlichen Merkmalen und mathematischem Denken zu finden. Mehrere Experimente haben jedoch gezeigt, dass die DAS-Methode sehr ausdrucksstark ist und über die Fähigkeit verfügt, kausal wirksame Unterräume zu finden, selbst wenn das Transformer-Sprachmodell zufällig initialisiert wurde und daher noch keine aufgabenspezifischen Darstellungen gelernt werden müssen, was dazu führt diskutieren, ob DAS für Interpretierbarkeitsaufgaben wirksam und verantwortungsvoll genug ist.

Die von DAS gebotene Ausdruckskraft legt nahe, dass der Ansatz ein ideales Werkzeug sein könnte, um das Verhalten des Sprachmodells zusammen mit seiner Arbeit an kontrollierbarer Generierung und verantwortungsvoller Bearbeitung zu steuern. Um Sprachmodelle für nachgelagerte Aufgaben anzupassen, verwendet das ReFT-Framework daher die Interventionsoperation „Distributed Interchange“, um eine neue Parameter-effiziente Methode zu erstellen. Darüber hinaus besteht die ReFT-Methode aus einer Reihe von Interventionen, und das Framework erzwingt, dass für zwei beliebige Interventionen, die auf derselben Ebene ausgeführt werden, die Interventionspositionen disjunkt sein müssen, wobei die Parameter aller Interventionsfunktionen unabhängig bleiben müssen. Daher handelt es sich bei ReFT um ein generisches Framework, das Eingriffe in verborgene Darstellungen während des Vorwärtsdurchlaufs des Modells umfasst.

ReFT: Experimente und Ergebnisse

Um seine Leistung im Vergleich zu bestehenden PEFT-Frameworks zu bewerten, führt das ReFT-Framework Experimente mit vier verschiedenen Benchmarks für die Verarbeitung natürlicher Sprache durch und deckt über 20 Datensätze ab. Das Hauptziel besteht darin, ein umfassendes Bild der Leistung des LoReFT-Frameworks in verschiedenen Szenarien zu liefern. Darüber hinaus müssen Entwickler bei der Implementierung des LoReFT-Frameworks in der Praxis entscheiden, wie viele Interventionen sie lernen möchten und auf welche Eingabepositionen und Ebenen sie jeweils angewendet werden sollen. Um die Aufgabe abzuschließen, optimiert das ReFT-Framework vier Hyperparameter.

Die Anzahl der Präfixpositionen, an denen eingegriffen werden soll.
Die Anzahl der Suffixpositionen, an denen eingegriffen werden soll.
Auf welche Schichten soll eingegriffen werden?
Ob Interventionsparameter über verschiedene Positionen in derselben Ebene hinweg verknüpft werden sollen oder nicht.

Auf diese Weise vereinfacht das ReFT-Framework den Hyperparameter-Suchraum und stellt nur einen festen zusätzlichen Inferenzaufwand sicher, der nicht mit der Länge der Eingabeaufforderung skaliert.

Die obige Tabelle vergleicht die Genauigkeit der LLaMA-7B- und LLaMA-13B-Frameworks mit bestehenden PEFT-Modellen über 8 Common-Sense-Argumentation-Datensätze hinweg. Wie man beobachten kann, übertrifft das LoReFT-Modell bestehende PEFT-Ansätze deutlich, obwohl es viel weniger Parameter hat, wobei die durchschnittliche Leistung von drei Läufen mit unterschiedlichen Parameter-Seeds für das LoReFT-Modell berichtet wird. Der Parameter (%) wird berechnet, indem die Anzahl der trainierbaren Parameter durch die Anzahl der Gesamtparameter des großen Basismodells dividiert wird.

Die obige Tabelle fasst den Genauigkeitsvergleich der LLaMA-7B- und LLaMA-13B-Frameworks mit vorhandenen PEFT-Modellen über vier verschiedene Datensätze zum arithmetischen Denken zusammen, wobei das Framework die durchschnittliche Leistung von drei Läufen mit unterschiedlichen Zufallsstartwerten meldet. Wie zu beobachten ist, übertrifft das LoReFT-Framework trotz viel weniger Parametern (%) bestehende PEFT-Frameworks um ein Vielfaches.

Die obige Tabelle fasst den Genauigkeitsvergleich der RoBERTa-Base- und RoBERTa-Large-Frameworks mit vorhandenen PEFT-Modellen im GLUE-Benchmark zusammen, wobei das Framework die durchschnittliche Leistung von fünf Läufen mit unterschiedlichen Zufallsstartwerten meldet. Wie zu beobachten ist, übertrifft das LoReFT-Framework trotz viel weniger Parametern (%) bestehende PEFT-Frameworks um ein Vielfaches.

Abschließende Überlegungen

In diesem Artikel haben wir über LoReFT gesprochen, eine leistungsstarke Alternative zu bestehenden PEFT-Frameworks, die eine starke Leistung in Benchmarks aus vier verschiedenen Bereichen erzielt und gleichzeitig eine bis zu 50-fache Effizienz gegenüber früheren hochmodernen PEFT-Modellen bietet. Vorab trainierte große Modelle werden oft feinabgestimmt, um für neue Domänen oder Aufgaben verwendet zu werden, und während des Feinabstimmungsprozesses kann ein einzelnes Basismodell an eine Vielzahl von Aufgaben angepasst werden, selbst wenn nur kleine Mengen an domäneninternen Daten verfügbar sind zum Modell. Der Prozess der Feinabstimmung eines gesamten Modells ist jedoch ressourcenintensiv und teuer, insbesondere bei Sprachmodellen mit einer deutlich höheren Anzahl an Größen und Parametern. Parametereffiziente Feinabstimmungs- oder PeFT-Methoden schlagen vor, die hohen Kosten, die mit der Feinabstimmung des gesamten Modells verbunden sind, zu bewältigen, indem nur ein kleiner Teil der verfügbaren Gesamtgewichte aktualisiert wird. Dieser Prozess trägt dazu bei, die Trainingszeit und den Speicherverbrauch zu reduzieren. Insbesondere etabliert LoReFT im Vergleich zu den stärksten PEFTs eine neue, hochmoderne Leistung in den Bereichen gesundes Denken, Befolgen von Anweisungen und Verständnis natürlicher Sprache.

Als nächstes

Der Aufstieg der KI-Softwareingenieure: SWE-Agent, Devin AI und die Zukunft des Codierens

Verpassen Sie nicht

Jenseits von Suchmaschinen: Der Aufstieg LLM-gestützter Webbrowser-Agenten

Kunal Kejriwal

„Von Beruf Ingenieur, von Herzen Schriftsteller“. Kunal ist ein technischer Autor mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Vereinfachung komplexer Konzepte in diesen Bereichen durch seine ansprechende und informative Dokumentation widmet.