Künstliche Intelligenz

Förderung der Ausrichtung der KI auf menschliche Werte durch WARM

Veröffentlicht 5. Februar 2024

Aayush Mittal mittal

Gewichtete durchschnittliche Belohnungsmodelle LLM

Ausrichtung von KI-Systemen an menschlichen Werten

Systeme der künstlichen Intelligenz (KI) sind zunehmend in der Lage, Menschen bei komplexen Aufgaben zu unterstützen, von Kundenservice-Chatbots bis hin zu medizinischen Diagnosealgorithmen. Da diese KI-Systeme jedoch mehr Verantwortung übernehmen, ist es von entscheidender Bedeutung, dass sie im Einklang mit den menschlichen Werten und Vorlieben bleiben. Ein Ansatz, dies zu erreichen, ist eine Technik namens Reinforcement Learning from Human Feedback (RLHF). Bei RLHF wird ein KI-System, die sogenannte Richtlinie, auf der Grundlage menschlicher Beurteilungen seines Verhaltens belohnt oder bestraft. Das Ziel besteht darin, dass die Politik lernt, ihre Belohnungen zu maximieren und sich so entsprechend den menschlichen Vorlieben zu verhalten.

Ein Kernbestandteil von RLHF ist das Belohnungsmodell (RM). Der RM ist dafür verantwortlich, die Maßnahmen und Ergebnisse der Richtlinie zu bewerten und ein Belohnungssignal zurückzugeben, um den Lernprozess zu leiten. Das Entwerfen eines guten RM ist eine Herausforderung, da menschliche Präferenzen komplex, kontextabhängig und sogar von Person zu Person unterschiedlich sein können. Kürzlich haben Forscher von Google DeepMind eine innovative Technik namens Weight Averaged Reward Models (WARM) vorgeschlagen, um das RM-Design zu verbessern.

Das Problem mit Belohnungs-Hacking

Ein großes Problem bei RLHF ist das Hacken von Belohnungen. Belohnungs-Hacking liegt vor, wenn die Richtlinie Schlupflöcher findet, um das RM-System auszunutzen, um hohe Belohnungen zu erhalten, ohne die beabsichtigten Ziele tatsächlich zu erreichen. Angenommen, das Ziel besteht darin, einer Schreibassistent-KI beizubringen, qualitativ hochwertige Zusammenfassungen zu erstellen. Der RM belohnt möglicherweise prägnante und informative Zusammenfassungen. Die Politik könnte dann lernen, dies auszunutzen, indem sie sehr kurze, wenig informative Zusammenfassungen erstellt, die mit Schlüsselwörtern gespickt sind, die den RM täuschen.

Das Hacken von Belohnungen erfolgt aus zwei Hauptgründen:

Verteilungsverschiebung – Der RM wird anhand eines begrenzten Datensatzes menschlich markierter Beispiele trainiert. Bei der Bereitstellung können die Ausgaben der Richtlinie aus verschiedenen Distributionen stammen, auf die sich der RM nicht gut verallgemeinern lässt.
Laute Etiketten – Die menschliche Kennzeichnung ist unvollständig und es gibt Meinungsverschiedenheiten zwischen den Bewertern. Der RM kann sich eher an falschen Signalen als an robusten Qualitätsindikatoren orientieren.

Belohnungs-Hacking führt zu nutzlosen Systemen, die nicht den menschlichen Erwartungen entsprechen. Schlimmer noch, es kann zu voreingenommenem oder sogar gefährlichem KI-Verhalten führen, wenn es unvorsichtig eingesetzt wird.

Der Aufstieg der Modellverschmelzung

Das wachsende Interesse an Modellzusammenführungsstrategien wie Model Ratatouille wird durch die Erkenntnis angetrieben, dass größere Modelle zwar leistungsstark, aber ineffizient und unpraktisch sein können. Das Training eines Modells mit 1 Billion Parametern erfordert unerschwingliche Daten-, Rechen-, Zeit- und Kostenmengen. Noch wichtiger ist, dass solche Modelle dazu neigen, sich übermäßig an die Trainingsverteilung anzupassen, was ihre Fähigkeit zur Verallgemeinerung auf verschiedene reale Szenarien beeinträchtigt.

Die Modellzusammenführung bietet einen alternativen Weg zur Erschließung größerer Funktionen ohne unkontrollierte Skalierung. Durch die Wiederverwendung mehrerer spezialisierter Modelle, die auf unterschiedliche Verteilungen, Aufgaben oder Ziele trainiert wurden, zielt die Modellzusammenführung darauf ab, die Vielseitigkeit und Robustheit außerhalb der Verteilung zu verbessern. Die Voraussetzung ist, dass verschiedene Modelle unterschiedliche Vorhersagemuster erfassen, die sich bei der Zusammenführung gegenseitig ergänzen können.

Aktuelle Ergebnisse veranschaulichen, wie vielversprechend dieses Konzept ist. Durch Zusammenführung erhaltene Modelle können trotz weitaus weniger Parametern die Leistung von Riesenmodellen wie GPT-3 erreichen oder sogar übertreffen. Beispielsweise erreicht ein Modell-Ratatouille-Ensemble aus nur 7 mittelgroßen Kontrollpunkten die höchste Genauigkeit bei hochdimensionalen textuellen Entailment-Datensätzen und übertrifft GPT-3.

Die Einfachheit der Zusammenführung durch Gewichtsmittelung ist ein großer Vorteil. Das Training mehrerer Hilfsmodelle erfordert zusätzliche Ressourcen. Entscheidend ist jedoch, dass die Berechnung der Inferenzzeit mit einem einzelnen Modell identisch bleibt, da die Gewichte zu einem einzigen Modell zusammengefasst werden. Dadurch lässt sich die Methode leicht anpassen, ohne dass Bedenken hinsichtlich erhöhter Latenz oder Speicherkosten bestehen.

Mechanismen hinter der Modellzusammenführung

Aber was genau ermöglicht diese Genauigkeitsgewinne durch die Zusammenführung von Modellen? Aktuelle Analysen bieten einige Hinweise:

Milderndes Auswendiglernen: Jedes Modell sieht während des Trainings unterschiedliche gemischte Stapel des Datensatzes. Durch die Mittelung wird die instanzspezifische Speicherung verringert und nur Verallgemeinerungen auf Datensatzebene beibehalten.
Varianz reduzieren: Unabhängig trainierte Modelle weisen unkorrelierte Fehler auf. Durch die Kombination wird das Rauschen gemittelt und die Kalibrierung verbessert.
Regularisierung durch Diversität: Unterschiedliche Hilfsaufgaben zwingen die Modelle dazu, sich an generalisierbarere Funktionen zu orientieren, die für alle Distributionen nützlich sind.
Zunehmende Robustheit: Inkonsistenzen in den Vorhersagen signalisieren Unsicherheit. Durch die Mittelung werden Ausreißerurteile abgemildert und so die Zuverlässigkeit erhöht.

Im Wesentlichen gleicht die Modellzusammenführung die Schwächen einzelner Modelle aus, um ihre kollektiven Stärken zu verstärken. Die zusammengeführte Darstellung erfasst die gemeinsamen zugrunde liegenden Kausalstrukturen und ignoriert zufällige Variationen.

Diese konzeptionelle Grundlage verbindet die Modellzusammenführung mit anderen beliebten Techniken wie Ensembling und Multitasking-Lernen. Alle diese Methoden nutzen die Vielfalt zwischen Modellen oder Aufgaben, um vielseitige, unsicherheitsbewusste Systeme zu erhalten. Die Einfachheit und Effizienz der Gewichtungsmittelung verleiht der Modellzusammenführung jedoch einen einzigartigen Vorteil für die Weiterentwicklung realer Implementierungen.

Gewichtete durchschnittliche Belohnungsmodelle

Ausrichtungsprozess mit WARM

WARM setzt auf innovative Weise ein Proxy-Belohnungsmodell (RM) ein, bei dem es sich um einen Gewichtungsdurchschnitt mehrerer einzelner RMs handelt, die jeweils anhand desselben vorab trainierten LLM feinabgestimmt wurden, jedoch unterschiedliche Hyperparameter aufweisen. Diese Methode verbessert die Effizienz, die Zuverlässigkeit bei Verteilungsverschiebungen und die Robustheit gegenüber inkonsistenten Präferenzen. Die Studie zeigt auch, dass die Verwendung von WARM als Proxy-RM, insbesondere bei einer erhöhten Anzahl gemittelter RMs, die Ergebnisse verbessert und den Beginn von „Reward Hacking“ verzögert, einem Phänomen, bei dem Kontrollbelohnungen mit der Zeit nachlassen.

Hier ist eine allgemeine Übersicht:

Beginnen Sie mit einem Basissprachenmodell, das auf einem großen Korpus vorab trainiert wurde. Initialisieren Sie mehrere RMs, indem Sie darüber kleine aufgabenspezifische Ebenen hinzufügen.
Passen Sie jeden RM separat am menschlichen Präferenzdatensatz an und verwenden Sie dabei verschiedene Hyperparameter wie die Lernrate für Diversität.
Mitteln Sie die Gewichte der fein abgestimmten RMs, um ein einzelnes WARM-Ensemble zu erhalten.

Die wichtigste Erkenntnis besteht darin, dass bei der Gewichtsmittelung nur die invarianten Informationen erhalten bleiben, die über alle verschiedenen RMs hinweg gelernt wurden. Dadurch wird die Abhängigkeit von Störsignalen verringert und die Robustheit erhöht. Das Ensemble profitiert auch von der Varianzreduzierung, wodurch die Zuverlässigkeit trotz Verteilungsverschiebungen verbessert wird.

Wie bereits erwähnt, ist die Vielfalt unabhängig trainierter Modelle von entscheidender Bedeutung, um das volle Potenzial der Modellzusammenführung auszuschöpfen. Doch welche konkreten Techniken gibt es, um produktive Vielfalt zu fördern?

Das WARM-Papier untersucht einige clevere Ideen, die sich allgemeiner verallgemeinern lassen:

Mischen bestellen

Ein trivialer, aber wirkungsvoller Ansatz besteht darin, die Reihenfolge zu ändern, in der Datenpunkte von jedem Modell während des Trainings gesehen werden. Selbst dieser einfache Schritt entkorreliert Gewichte und reduziert so das redundante Auswendiglernen von Mustern.

Hyperparameter-Variationen

Das Optimieren von Hyperparametern wie Lernrate und Abbruchwahrscheinlichkeit für jeden Lauf führt zu nützlicher Vielfalt. Modelle konvergieren unterschiedlich und erfassen unterschiedliche Eigenschaften des Datensatzes.

Checkpoint-Mittelung – Baklava

Die Baklava-Methode initialisiert Modelle für die Zusammenführung verschiedener Schnappschüsse entlang derselben Vortrainings-Trajektorie. Dies lockert die Einschränkungen im Vergleich zu Modellsuppen, die einen gemeinsamen Ausgangspunkt erfordern. Im Vergleich zum Modell Ratatouille vermeidet Baklava zusätzliche Aufgaben. Insgesamt wird ein effektives Gleichgewicht zwischen Genauigkeit und Vielfalt erreicht.

Feinabstimmung mehrerer Belohnungsmodelle

Der Prozess beginnt mit einem vorab trainierten Large Language Model (LLM) 𝜃_𝑝𝑡. Aus diesem Modell werden während eines Supervised Fine-Tuning (SFT)-Laufs verschiedene Kontrollpunkte {𝜃_𝑠 𝑓 𝑡_𝑖} abgeleitet, die jeweils bei unterschiedlichen SFT-Trainingsschritten erfasst werden. Diese Prüfpunkte werden dann als Initialisierungen für die Feinabstimmung mehrerer Belohnungsmodelle (RMs) {𝜙𝑖} für einen Präferenzdatensatz verwendet. Ziel dieser Feinabstimmung ist es, die Modelle besser an die menschlichen Vorlieben anzupassen. Nach der Feinabstimmung werden diese RMs durch einen Prozess der Gewichtungsmittelung kombiniert, was zum endgültigen Modell 𝜙_WARM führt.

Die Analyse bestätigt, dass das Hinzufügen älterer Kontrollpunkte durch gleitenden Durchschnitt die individuelle Leistung beeinträchtigt und die Vorteile der Diversität beeinträchtigt. Die bessere Leistung erzielen Sie, wenn Sie nur den Mittelwert der endgültigen Darstellungen aus jedem Lauf ermitteln. Im Allgemeinen bleibt die Balance zwischen Diversitätszielen und Genauigkeitserhaltung eine offene Forschungsherausforderung.

Insgesamt passt die Modellzusammenführung gut zum allgemeinen Ethos in diesem Bereich, vorhandene Ressourcen effektiv zu recyceln, um die Zuverlässigkeit, Effizienz und Vielseitigkeit zu verbessern. Die Einfachheit der Gewichtsmittelung festigt seine Position als führender Kandidat für den Zusammenbau robuster Modelle aus leicht verfügbaren Bausteinen.

Im Gegensatz zu herkömmlichen Assemblierungsmethoden, die Vorhersagen mitteln, hält WARM den Rechenaufwand minimal, indem nur ein einziger Satz von Gewichten beibehalten wird. Experimente zu Textzusammenfassungsaufgaben zeigen die Wirksamkeit von WARM:

Bei der Best-of-N-Stichprobe erreicht WARM eine Gewinnrate von 92.5 % gegenüber der Zufallsauswahl gemäß menschlichen Präferenzetiketten.
In RLHF erreicht eine WARM-Richtlinie nach der gleichen Anzahl von Schritten eine Gewinnrate von 79.4 % gegenüber einer Richtlinie, die mit einem einzelnen RM trainiert wurde.
WARM funktioniert auch dann weiterhin gut, wenn ein Viertel der menschlichen Bezeichnungen beschädigt ist.

Diese Ergebnisse veranschaulichen das Potenzial von WARM als praktische Technik zur Entwicklung realer KI-Assistenten, die sich zuverlässig verhalten. Durch die Glättung von Inkonsistenzen im menschlichen Feedback können WARM-Richtlinien weiterhin stark an den menschlichen Werten ausgerichtet bleiben, auch wenn sie weiterhin aus neuen Erfahrungen lernen.

The Bigger Picture

WARM liegt an der Schnittstelle zweier wichtiger Trends in der KI-Ausrichtungsforschung. Zunächst wird die Out-of-Distribution-Generalisierung (OOD) untersucht, die darauf abzielt, die Modellleistung bei neuen Daten zu verbessern, die von der Trainingsverteilung abweichen. An zweiter Stelle steht die Forschung zur algorithmischen Robustheit, wobei der Schwerpunkt auf der Zuverlässigkeit trotz kleiner Eingabestörungen oder Rauschen liegt.

Durch das Herstellen von Verbindungen zwischen diesen Bereichen rund um den Begriff der erlernten Invarianzen führt uns WARM zu strenger fundierten Techniken zur Werteausrichtung. Die Erkenntnisse aus WARM könnten sogar über RLHF hinaus verallgemeinert werden und Lehren für umfassendere maschinelle Lernsysteme liefern, die mit der offenen Welt interagieren.

Natürlich ist die Belohnungsmodellierung nur ein Teil des Ausrichtungspuzzles. Bei anderen Herausforderungen wie Belohnungsspezifikation, skalierbarer Aufsicht und sicherer Erkundung müssen wir noch Fortschritte machen. In Kombination mit komplementären Techniken könnte WARM die Entwicklung von KI beschleunigen, die den menschlichen Wohlstand nachhaltig fördert. Durch die gemeinsame Aufklärung der Prinzipien, die einer robusten Ausrichtung zugrunde liegen, zeigen Forscher den Weg zu einer nützlichen, ethischen KI auf.

Verwandte Themen:Belohnungsmodell RLHF RM WARM

Als nächstes

Vergleich von Quantisierungstechniken für die skalierbare Vektorsuche

Verpassen Sie nicht

OpenVoice: Vielseitiges sofortiges Klonen von Stimmen

Aayush Mittal

Ich habe die letzten fünf Jahre damit verbracht, in die faszinierende Welt des maschinellen Lernens und des Deep Learning einzutauchen. Meine Leidenschaft und mein Fachwissen haben dazu geführt, dass ich an über 50 verschiedenen Software-Engineering-Projekten mitgewirkt habe, mit besonderem Schwerpunkt auf KI/ML. Meine anhaltende Neugier hat mich auch zur Verarbeitung natürlicher Sprache geführt, einem Bereich, den ich gerne weiter erforschen möchte.

Unite.AI