Vernetzen Sie sich mit uns

KĂŒnstliche Intelligenz

Förderung der Ausrichtung der KI auf menschliche Werte durch WARM

mm
Gewichtete durchschnittliche Belohnungsmodelle LLM

Ausrichtung von KI-Systemen an menschlichen Werten

Systeme der kĂŒnstlichen Intelligenz (KI) sind zunehmend in der Lage, Menschen bei komplexen Aufgaben zu unterstĂŒtzen, von Kundenservice-Chatbots bis hin zu medizinischen Diagnosealgorithmen. Da diese KI-Systeme jedoch mehr Verantwortung ĂŒbernehmen, ist es von entscheidender Bedeutung, dass sie im Einklang mit den menschlichen Werten und Vorlieben bleiben. Ein Ansatz, dies zu erreichen, ist eine Technik namens Reinforcement Learning from Human Feedback (RLHF). Bei RLHF wird ein KI-System, die sogenannte Richtlinie, auf der Grundlage menschlicher Beurteilungen seines Verhaltens belohnt oder bestraft. Das Ziel besteht darin, dass die Politik lernt, ihre Belohnungen zu maximieren und sich so entsprechend den menschlichen Vorlieben zu verhalten.

Ein Kernbestandteil von RLHF ist das Belohnungsmodell (RM). Der RM ist dafĂŒr verantwortlich, die Maßnahmen und Ergebnisse der Richtlinie zu bewerten und ein Belohnungssignal zurĂŒckzugeben, um den Lernprozess zu leiten. Das Entwerfen eines guten RM ist eine Herausforderung, da menschliche PrĂ€ferenzen komplex, kontextabhĂ€ngig und sogar von Person zu Person unterschiedlich sein können. KĂŒrzlich haben Forscher von Google DeepMind eine innovative Technik namens Weight Averaged Reward Models (WARM) vorgeschlagen, um das RM-Design zu verbessern.

Das Problem mit Belohnungs-Hacking

Ein großes Problem bei RLHF ist das Hacken von Belohnungen. Belohnungs-Hacking liegt vor, wenn die Richtlinie Schlupflöcher findet, um das RM-System auszunutzen, um hohe Belohnungen zu erhalten, ohne die beabsichtigten Ziele tatsĂ€chlich zu erreichen. Angenommen, das Ziel besteht darin, einer Schreibassistent-KI beizubringen, qualitativ hochwertige Zusammenfassungen zu erstellen. Der RM belohnt möglicherweise prĂ€gnante und informative Zusammenfassungen. Die Politik könnte dann lernen, dies auszunutzen, indem sie sehr kurze, wenig informative Zusammenfassungen erstellt, die mit SchlĂŒsselwörtern gespickt sind, die den RM tĂ€uschen.

Das Hacken von Belohnungen erfolgt aus zwei HauptgrĂŒnden:

  1. Verteilungsverschiebung – Der RM wird anhand eines begrenzten Datensatzes menschlich markierter Beispiele trainiert. Bei der Bereitstellung können die Ausgaben der Richtlinie aus verschiedenen Distributionen stammen, auf die sich der RM nicht gut verallgemeinern lĂ€sst.
  2. Laute Etiketten – Die menschliche Kennzeichnung ist unvollstĂ€ndig und es gibt Meinungsverschiedenheiten zwischen den Bewertern. Der RM kann sich eher an falschen Signalen als an robusten QualitĂ€tsindikatoren orientieren.

Belohnungs-Hacking fĂŒhrt zu nutzlosen Systemen, die nicht den menschlichen Erwartungen entsprechen. Schlimmer noch, es kann zu voreingenommenem oder sogar gefĂ€hrlichem KI-Verhalten fĂŒhren, wenn es unvorsichtig eingesetzt wird.

Der Aufstieg der Modellverschmelzung

Das wachsende Interesse an ModellzusammenfĂŒhrungsstrategien wie Model Ratatouille wird durch die Erkenntnis angetrieben, dass grĂ¶ĂŸere Modelle zwar leistungsstark, aber ineffizient und unpraktisch sein können. Das Training eines Modells mit 1 Billion Parametern erfordert unerschwingliche Daten-, Rechen-, Zeit- und Kostenmengen. Noch wichtiger ist, dass solche Modelle dazu neigen, sich ĂŒbermĂ€ĂŸig an die Trainingsverteilung anzupassen, was ihre FĂ€higkeit zur Verallgemeinerung auf verschiedene reale Szenarien beeintrĂ€chtigt.

Die ModellzusammenfĂŒhrung bietet einen alternativen Weg zur Erschließung grĂ¶ĂŸerer Funktionen ohne unkontrollierte Skalierung. Durch die Wiederverwendung mehrerer spezialisierter Modelle, die auf unterschiedliche Verteilungen, Aufgaben oder Ziele trainiert wurden, zielt die ModellzusammenfĂŒhrung darauf ab, die Vielseitigkeit und Robustheit außerhalb der Verteilung zu verbessern. Die Voraussetzung ist, dass verschiedene Modelle unterschiedliche Vorhersagemuster erfassen, die sich bei der ZusammenfĂŒhrung gegenseitig ergĂ€nzen können.

Aktuelle Ergebnisse veranschaulichen, wie vielversprechend dieses Konzept ist. Durch ZusammenfĂŒhrung erhaltene Modelle können trotz weitaus weniger Parametern die Leistung von Riesenmodellen wie GPT-3 erreichen oder sogar ĂŒbertreffen. Beispielsweise erreicht ein Modell-Ratatouille-Ensemble aus nur 7 mittelgroßen Kontrollpunkten die höchste Genauigkeit bei hochdimensionalen textuellen Entailment-DatensĂ€tzen und ĂŒbertrifft GPT-3.

Die Einfachheit der ZusammenfĂŒhrung durch Gewichtsmittelung ist ein großer Vorteil. Das Training mehrerer Hilfsmodelle erfordert zusĂ€tzliche Ressourcen. Entscheidend ist jedoch, dass die Berechnung der Inferenzzeit mit einem einzelnen Modell identisch bleibt, da die Gewichte zu einem einzigen Modell zusammengefasst werden. Dadurch lĂ€sst sich die Methode leicht anpassen, ohne dass Bedenken hinsichtlich erhöhter Latenz oder Speicherkosten bestehen.

Mechanismen hinter der ModellzusammenfĂŒhrung

Aber was genau ermöglicht diese Genauigkeitsgewinne durch die ZusammenfĂŒhrung von Modellen? Aktuelle Analysen bieten einige Hinweise:

  • Milderndes Auswendiglernen: Jedes Modell sieht wĂ€hrend des Trainings unterschiedliche gemischte Stapel des Datensatzes. Durch die Mittelung wird die instanzspezifische Speicherung verringert und nur Verallgemeinerungen auf Datensatzebene beibehalten.
  • Varianz reduzieren: UnabhĂ€ngig trainierte Modelle weisen unkorrelierte Fehler auf. Durch die Kombination wird das Rauschen gemittelt und die Kalibrierung verbessert.
  • Regularisierung durch DiversitĂ€t: Unterschiedliche Hilfsaufgaben zwingen die Modelle dazu, sich an generalisierbarere Funktionen zu orientieren, die fĂŒr alle Distributionen nĂŒtzlich sind.
  • Zunehmende Robustheit: Inkonsistenzen in den Vorhersagen signalisieren Unsicherheit. Durch die Mittelung werden Ausreißerurteile abgemildert und so die ZuverlĂ€ssigkeit erhöht.

Im Wesentlichen gleicht die ModellzusammenfĂŒhrung die SchwĂ€chen einzelner Modelle aus, um ihre kollektiven StĂ€rken zu verstĂ€rken. Die zusammengefĂŒhrte Darstellung erfasst die gemeinsamen zugrunde liegenden Kausalstrukturen und ignoriert zufĂ€llige Variationen.

Diese konzeptionelle Grundlage verbindet die ModellzusammenfĂŒhrung mit anderen beliebten Techniken wie Ensembling und Multitasking-Lernen. Alle diese Methoden nutzen die Vielfalt zwischen Modellen oder Aufgaben, um vielseitige, unsicherheitsbewusste Systeme zu erhalten. Die Einfachheit und Effizienz der Gewichtungsmittelung verleiht der ModellzusammenfĂŒhrung jedoch einen einzigartigen Vorteil fĂŒr die Weiterentwicklung realer Implementierungen.

Gewichtete durchschnittliche Belohnungsmodelle

Ausrichtungsprozess mit WARM

Ausrichtungsprozess mit WARM

WARM setzt auf innovative Weise ein Proxy-Belohnungsmodell (RM) ein, bei dem es sich um einen Gewichtungsdurchschnitt mehrerer einzelner RMs handelt, die jeweils anhand desselben vorab trainierten LLM feinabgestimmt wurden, jedoch unterschiedliche Hyperparameter aufweisen. Diese Methode verbessert die Effizienz, die ZuverlĂ€ssigkeit bei Verteilungsverschiebungen und die Robustheit gegenĂŒber inkonsistenten PrĂ€ferenzen. Die Studie zeigt auch, dass die Verwendung von WARM als Proxy-RM, insbesondere bei einer erhöhten Anzahl gemittelter RMs, die Ergebnisse verbessert und den Beginn von „Reward Hacking“ verzögert, einem PhĂ€nomen, bei dem Kontrollbelohnungen mit der Zeit nachlassen.

Hier ist eine allgemeine Übersicht:

  1. Beginnen Sie mit einem Basissprachenmodell, das auf einem großen Korpus vorab trainiert wurde. Initialisieren Sie mehrere RMs, indem Sie darĂŒber kleine aufgabenspezifische Ebenen hinzufĂŒgen.
  2. Passen Sie jeden RM separat am menschlichen PrĂ€ferenzdatensatz an und verwenden Sie dabei verschiedene Hyperparameter wie die Lernrate fĂŒr DiversitĂ€t.
  3. Mitteln Sie die Gewichte der fein abgestimmten RMs, um ein einzelnes WARM-Ensemble zu erhalten.

Die wichtigste Erkenntnis besteht darin, dass bei der Gewichtsmittelung nur die invarianten Informationen erhalten bleiben, die ĂŒber alle verschiedenen RMs hinweg gelernt wurden. Dadurch wird die AbhĂ€ngigkeit von Störsignalen verringert und die Robustheit erhöht. Das Ensemble profitiert auch von der Varianzreduzierung, wodurch die ZuverlĂ€ssigkeit trotz Verteilungsverschiebungen verbessert wird.

Wie bereits erwĂ€hnt, ist die Vielfalt unabhĂ€ngig trainierter Modelle von entscheidender Bedeutung, um das volle Potenzial der ModellzusammenfĂŒhrung auszuschöpfen. Doch welche konkreten Techniken gibt es, um produktive Vielfalt zu fördern?

Das WARM-Papier untersucht einige clevere Ideen, die sich allgemeiner verallgemeinern lassen:

Mischen bestellen

Ein trivialer, aber wirkungsvoller Ansatz besteht darin, die Reihenfolge zu Àndern, in der Datenpunkte von jedem Modell wÀhrend des Trainings gesehen werden. Selbst dieser einfache Schritt entkorreliert Gewichte und reduziert so das redundante Auswendiglernen von Mustern.

Hyperparameter-Variationen

Das Optimieren von Hyperparametern wie Lernrate und Abbruchwahrscheinlichkeit fĂŒr jeden Lauf fĂŒhrt zu nĂŒtzlicher Vielfalt. Modelle konvergieren unterschiedlich und erfassen unterschiedliche Eigenschaften des Datensatzes.

Checkpoint-Mittelung – Baklava

Die Baklava-Methode initialisiert Modelle fĂŒr die ZusammenfĂŒhrung verschiedener SchnappschĂŒsse entlang derselben Vortrainings-Trajektorie. Dies lockert die EinschrĂ€nkungen im Vergleich zu Modellsuppen, die einen gemeinsamen Ausgangspunkt erfordern. Im Vergleich zum Modell Ratatouille vermeidet Baklava zusĂ€tzliche Aufgaben. Insgesamt wird ein effektives Gleichgewicht zwischen Genauigkeit und Vielfalt erreicht.

Feinabstimmung mehrerer Belohnungsmodelle

Der Prozess beginnt mit einem vorab trainierten Large Language Model (LLM) 𝜃_𝑝𝑡. Aus diesem Modell werden wĂ€hrend eines Supervised Fine-Tuning (SFT)-Laufs verschiedene Kontrollpunkte {𝜃_𝑠 𝑓 𝑡_𝑖} abgeleitet, die jeweils bei unterschiedlichen SFT-Trainingsschritten erfasst werden. Diese PrĂŒfpunkte werden dann als Initialisierungen fĂŒr die Feinabstimmung mehrerer Belohnungsmodelle (RMs) {𝜙𝑖} fĂŒr einen PrĂ€ferenzdatensatz verwendet. Ziel dieser Feinabstimmung ist es, die Modelle besser an die menschlichen Vorlieben anzupassen. Nach der Feinabstimmung werden diese RMs durch einen Prozess der Gewichtungsmittelung kombiniert, was zum endgĂŒltigen Modell 𝜙_WARM fĂŒhrt.

Die Analyse bestĂ€tigt, dass das HinzufĂŒgen Ă€lterer Kontrollpunkte durch gleitenden Durchschnitt die individuelle Leistung beeintrĂ€chtigt und die Vorteile der DiversitĂ€t beeintrĂ€chtigt. Die bessere Leistung erzielen Sie, wenn Sie nur den Mittelwert der endgĂŒltigen Darstellungen aus jedem Lauf ermitteln. Im Allgemeinen bleibt die Balance zwischen DiversitĂ€tszielen und Genauigkeitserhaltung eine offene Forschungsherausforderung.

Insgesamt passt die ModellzusammenfĂŒhrung gut zum allgemeinen Ethos in diesem Bereich, vorhandene Ressourcen effektiv zu recyceln, um die ZuverlĂ€ssigkeit, Effizienz und Vielseitigkeit zu verbessern. Die Einfachheit der Gewichtsmittelung festigt seine Position als fĂŒhrender Kandidat fĂŒr den Zusammenbau robuster Modelle aus leicht verfĂŒgbaren Bausteinen.

Im Gegensatz zu herkömmlichen Assemblierungsmethoden, die Vorhersagen mitteln, hÀlt WARM den Rechenaufwand minimal, indem nur ein einziger Satz von Gewichten beibehalten wird. Experimente zu Textzusammenfassungsaufgaben zeigen die Wirksamkeit von WARM:

  • Bei der Best-of-N-Stichprobe erreicht WARM eine Gewinnrate von 92.5 % gegenĂŒber der Zufallsauswahl gemĂ€ĂŸ menschlichen PrĂ€ferenzetiketten.
  • In RLHF erreicht eine WARM-Richtlinie nach der gleichen Anzahl von Schritten eine Gewinnrate von 79.4 % gegenĂŒber einer Richtlinie, die mit einem einzelnen RM trainiert wurde.
  • WARM funktioniert auch dann weiterhin gut, wenn ein Viertel der menschlichen Bezeichnungen beschĂ€digt ist.

Diese Ergebnisse veranschaulichen das Potenzial von WARM als praktische Technik zur Entwicklung realer KI-Assistenten, die sich zuverlÀssig verhalten. Durch die GlÀttung von Inkonsistenzen im menschlichen Feedback können WARM-Richtlinien weiterhin stark an den menschlichen Werten ausgerichtet bleiben, auch wenn sie weiterhin aus neuen Erfahrungen lernen.

The Bigger Picture

WARM liegt an der Schnittstelle zweier wichtiger Trends in der KI-Ausrichtungsforschung. ZunÀchst wird die Out-of-Distribution-Generalisierung (OOD) untersucht, die darauf abzielt, die Modellleistung bei neuen Daten zu verbessern, die von der Trainingsverteilung abweichen. An zweiter Stelle steht die Forschung zur algorithmischen Robustheit, wobei der Schwerpunkt auf der ZuverlÀssigkeit trotz kleiner Eingabestörungen oder Rauschen liegt.

Durch das Herstellen von Verbindungen zwischen diesen Bereichen rund um den Begriff der erlernten Invarianzen fĂŒhrt uns WARM zu strenger fundierten Techniken zur Werteausrichtung. Die Erkenntnisse aus WARM könnten sogar ĂŒber RLHF hinaus verallgemeinert werden und Lehren fĂŒr umfassendere maschinelle Lernsysteme liefern, die mit der offenen Welt interagieren.

NatĂŒrlich ist die Belohnungsmodellierung nur ein Teil des Ausrichtungspuzzles. Bei anderen Herausforderungen wie Belohnungsspezifikation, skalierbarer Aufsicht und sicherer Erkundung mĂŒssen wir noch Fortschritte machen. In Kombination mit komplementĂ€ren Techniken könnte WARM die Entwicklung von KI beschleunigen, die den menschlichen Wohlstand nachhaltig fördert. Durch die gemeinsame AufklĂ€rung der Prinzipien, die einer robusten Ausrichtung zugrunde liegen, zeigen Forscher den Weg zu einer nĂŒtzlichen, ethischen KI auf.

Ich habe die letzten fĂŒnf Jahre damit verbracht, in die faszinierende Welt des maschinellen Lernens und des Deep Learning einzutauchen. Meine Leidenschaft und mein Fachwissen haben dazu gefĂŒhrt, dass ich an ĂŒber 50 verschiedenen Software-Engineering-Projekten mitgewirkt habe, mit besonderem Schwerpunkt auf KI/ML. Meine anhaltende Neugier hat mich auch zur Verarbeitung natĂŒrlicher Sprache gefĂŒhrt, einem Bereich, den ich gerne weiter erforschen möchte.