Künstliche Intelligenz

EUREKA: Menschliche Belohnungs-Designs durch Codierung von Large Language Models

Published November 21, 2023

Updated April 4, 2026

Kunal Kejriwal

Mit den Fortschritten, die Large Language Models in den letzten Jahren gemacht haben, ist es nicht verwunderlich, warum diese LLM-Frameworks als semantische Planer für sequenzielle Hochleistungs-Entscheidungsaufgaben hervorragend geeignet sind. Dennoch haben Entwickler Schwierigkeiten, das volle Potenzial von LLM-Frameworks für das Lernen komplexer niedriger Ebenen-Manipulationen auszunutzen. Trotz ihrer Effizienz benötigen heutige Large Language Models erhebliche Domänen- und Fachkenntnisse, um auch nur einfache Fähigkeiten zu erlernen oder textuelle Prompts zu erstellen, was eine erhebliche Lücke zwischen ihrer Leistung und menschlicher Gewandtheit schafft.

Um diese Lücke zu überbrücken, haben Entwickler von Nvidia, CalTech, UPenn und anderen EUREKA vorgestellt, einen LLM-gesteuerten Algorithmus für menschliche Belohnungs-Designs. EUREKA zielt darauf ab, die verschiedenen Fähigkeiten von LLM-Frameworks, einschließlich Code-Schreiben, Kontext-Verbesserung und Zero-Shot-Inhalts-Generierung, zu nutzen, um eine beispiellose Optimierung von Belohnungs-Code durchzuführen. Diese Belohnungs-Codes, kombiniert mit Verstärkendem Lernen, ermöglichen es den Frameworks, komplexe Fähigkeiten zu erlernen oder Manipulationen durchzuführen.

In diesem Artikel werden wir das EUREKA-Framework aus Entwicklersicht betrachten, indem wir seine Architektur, Funktionsweise und die Ergebnisse, die es bei der Generierung von Belohnungsfunktionen erzielt, untersuchen. Diese Funktionen, wie von den Entwicklern behauptet, übertreffen die von Menschen generierten. Wir werden auch beleuchten, wie das EUREKA-Framework den Weg für einen neuen Ansatz zum RLHF (Reinforcement Learning mit menschlicher Rückmeldung) ebnet, indem es gradientenfreies Kontext-Lernen ermöglicht. Lassen Sie uns beginnen.

EUREKA: Eine Einführung

Heute liefern state-of-the-art-LLM-Frameworks wie GPT-3 und GPT-4 hervorragende Ergebnisse, wenn sie als semantische Planer für sequenzielle Hochleistungs-Entscheidungsaufgaben dienen, aber Entwickler suchen noch nach Wegen, um ihre Leistung bei der Erstellung von niedriger Ebenen-Manipulationen wie der Fähigkeit, einen Stift zu drehen, zu verbessern. Darüber hinaus haben Entwickler festgestellt, dass Verstärkendes Lernen verwendet werden kann, um nachhaltige Ergebnisse in gewandten Bedingungen und anderen Domänen zu erzielen, vorausgesetzt, die Belohnungsfunktionen werden sorgfältig von menschlichen Designern erstellt und diese Belohnungsfunktionen sind in der Lage, Lernsignale für günstige Verhaltensweisen bereitzustellen. Im Vergleich zu realen Verstärkendem Lernen-Aufgaben, die sparse Belohnungen akzeptieren, macht es es dem Modell schwer, Muster zu lernen, weshalb die Gestaltung dieser Belohnungen die notwendigen inkrementellen Lernsignale bereitstellt. Darüber hinaus sind Belohnungsfunktionen, trotz ihrer Wichtigkeit, extrem schwierig zu entwerfen und suboptimale Entwürfe dieser Funktionen führen oft zu ungewollten Verhaltensweisen.

Um diese Herausforderungen zu meistern und die Effizienz dieser Belohnungstoken zu maximieren, zielt das EUREKA- oder Evolution-getriebene Universelle REward- Kit für Agent darauf ab, folgende Beiträge zu leisten.

Erreichen von menschlicher Leistung bei der Gestaltung von Belohnungsfunktionen.
Effektive Lösung von Manipulationen ohne manuelle Belohnungs-Engineering.
Generieren von menschlich ausgerichteten und leistungsfähigeren Belohnungsfunktionen durch Einführung eines neuen gradientenfreien Kontext-Lernansatzes anstelle des traditionellen RLHF- oder Verstärkendem Lernen mit menschlicher Rückmeldung.

Es gibt drei wichtige algorithmische Design-Entscheidungen, die die Entwickler getroffen haben, um die Allgemeingültigkeit von EUREKA zu verbessern: evolutionäre Suche, Umgebung als Kontext und Belohnungs-Reflexion. Zunächst nimmt das EUREKA-Framework den Umgebungs-Quellcode als Kontext, um ausführbare Belohnungsfunktionen in einer Zero-Shot-Einstellung zu generieren. Anschließend führt das Framework eine evolutionäre Suche durch, um die Qualität seiner Belohnungen wesentlich zu verbessern, schlägt mit jedem Durchlauf oder Epoch Belohnungskandidaten vor und verfeinert diejenigen, die es als vielversprechend erachtet. In der dritten und letzten Phase verwendet das Framework den Belohnungs-Reflexions-Ansatz, um die Kontext-Verbesserung von Belohnungen effektiver zu machen, ein Prozess, der letztendlich dazu beiträgt, das Framework zu ermöglichen, gezielte und automatisierte Belohnungs-Editierung durch Verwendung einer textuellen Zusammenfassung der Qualität dieser Belohnungen auf der Grundlage von Richtlinien-Trainings-Statistiken zu ermöglichen. Die folgende Abbildung gibt Ihnen einen kurzen Überblick darüber, wie das EUREKA-Framework funktioniert, und in dem kommenden Abschnitt werden wir über die Architektur und die Funktionsweise ausführlicher sprechen.

EUREKA: Modell-Architektur und Problem-Setting

Das primäre Ziel der Belohnungs-Gestaltung ist es, eine geformte oder kuratierte Belohnungsfunktion für eine Ground-Truth-Belohnungsfunktion zurückzugeben, was Schwierigkeiten aufwerfen kann, wenn sie direkt optimiert wird, wie sparse Belohnungen. Darüber hinaus können Designer nur mithilfe von Abfragen auf diese Ground-Truth-Belohnungsfunktionen zugreifen, was der Grund ist, warum das EUREKA-Framework auf Belohnungs-Generierung setzt, eine Programmsynthese-Einstellung auf der Grundlage von RDP oder der Belohnungs-Design-Problematik.

Das Belohnungs-Design-Problem oder RDP ist ein Tupel, das ein Weltmodell mit einem Zustandsraum, einem Raum für Belohnungsfunktionen, einer Übergangsfunktion und einem Aktionsraum enthält. Ein Lernalgorithmus optimiert dann die Belohnungen, indem er eine Richtlinie generiert, die zu einem MDP oder Markov-Entscheidungsprozess führt, der die skalare Evolution jeder Richtlinie produziert und nur mithilfe von Richtlinien-Abfragen zugänglich ist. Das primäre Ziel von RDP ist es, eine Belohnungsfunktion so auszugeben, dass die Richtlinie in der Lage ist, den maximalen Fitness-Wert zu erreichen. Im Problem-Setting von EUREKA haben die Entwickler jeden Komponenten im Belohnungs-Design-Problem mithilfe von Code spezifiziert. Darüber hinaus ist das primäre Ziel des Belohnungs-Generierungsproblems, für eine gegebene Zeichenfolge, die die Details der Aufgabe angibt, einen Belohnungs-Code zu generieren, um den Fitness-Wert zu maximieren.

Weiterhin gibt es drei grundlegende algorithmische Komponenten im EUREKA-Framework. Evolutionäre Suche (Vorschlagen und Verfeinern von Kandidaten iterativ), Umgebung als Kontext (Generieren von ausführbaren Belohnungen in einer Zero-Shot-Einstellung) und Belohnungs-Reflexion (um eine feinere Verbesserung von Belohnungen zu ermöglichen). Der Pseudo-Code für den Algorithmus ist in der folgenden Abbildung dargestellt.

Umgebung als Kontext

Derzeit benötigen LLM-Frameworks Umgebungs-Spezifikationen als Eingaben für die Gestaltung von Belohnungen, während das EUREKA-Framework vorschlägt, den rohen Umgebungs-Code direkt als Kontext zu verwenden, ohne den Belohnungs-Code, was es den LLM-Frameworks ermöglicht, das Weltmodell als Kontext zu verwenden. Der Ansatz, den EUREKA verfolgt, hat zwei wesentliche Vorteile. Erstens sind LLM-Frameworks für Codierungszwecke auf nativen Code-Sätzen trainiert, die in bestehenden Programmiersprachen wie C, C++, Python, Java und mehr geschrieben sind, was der Grund ist, warum sie besser darin sind, Code-Ausgaben zu produzieren, wenn sie direkt dazu ermächtigt werden, Code in der Syntax und dem Stil zu komponieren, in dem sie ursprünglich trainiert wurden. Zweitens offenbart die Verwendung des Umgebungs-Quellcodes in der Regel die Umgebungen semantisch und die Variablen, die für die Ausgabe einer Belohnungsfunktion in Übereinstimmung mit der spezifizierten Aufgabe geeignet sind. Auf der Grundlage dieser Erkenntnisse weist das EUREKA-Framework den LLM an, einen ausführbaren Python-Code direkt mit Hilfe von nur Formatierungstipps und generischen Belohnungs-Designs zurückzugeben.

Evolutionäre Suche

Die Einbeziehung der evolutionären Suche in das EUREKA-Framework zielt darauf ab, eine natürliche Lösung für die Sub-Optimalitäts-Herausforderungen und Fehler zu bieten, die während der Ausführung auftreten. Mit jedem Durchlauf oder Epoch stellt das Framework verschiedene unabhängige Ausgaben des Large Language Models bereit, und vorausgesetzt, die Generierungen sind alle i.i.d., reduziert es exponentiell die Wahrscheinlichkeit, dass die Belohnungsfunktionen während der Iterationen fehlerhaft sind, wenn die Anzahl der Proben mit jedem Epoch zunimmt.

Im nächsten Schritt verwendet das EUREKA-Framework die ausführbaren Belohnungsfunktionen aus der vorherigen Iteration, um eine Kontext-Belohnungs-Mutation durchzuführen, und schlägt dann eine neue und verbesserte Belohnungsfunktion auf der Grundlage von textuellem Feedback vor. Das EUREKA-Framework, kombiniert mit der Kontext-Verbesserung und den Anweisungs-Following-Fähigkeiten von Large Language Models, ist in der Lage, den Mutation-Operator als Text-Prompt zu spezifizieren und schlägt eine Methode vor, um die textuelle Zusammenfassung der Richtlinien-Trainings-Statistik zu verwenden, um bestehende Belohnungscodes zu modifizieren.

Belohnungs-Reflexion

Um Kontext-Belohnungs-Mutationen zu begründen, ist es wesentlich, die Qualität der generierten Belohnungen zu bewerten und sie in Worte zu fassen, und das EUREKA-Framework geht dies an, indem es die einfache Strategie der Bereitstellung von numerischen Scores als Belohnungsbewertung verwendet. Wenn die Aufgaben-Fitness-Funktion als holistisches Maß für die Ground-Truth dient, mangelt es an Credit-Zuweisung und ist nicht in der Lage, wertvolle Informationen darüber zu liefern, warum die Belohnungsfunktion funktioniert oder warum sie nicht funktioniert. Also, um eine gezieltere und feinere Belohnungs-Diagnose zu liefern, schlägt das Framework vor, automatisierte Feedbacks zu verwenden, um die Richtlinien-Trainings-Dynamik in Texten zusammenzufassen. Darüber hinaus werden in dem Belohnungs-Programm die Belohnungsfunktionen im EUREKA-Framework aufgefordert, ihre Komponenten individuell offenzulegen, was es dem Framework ermöglicht, die skalaren Werte jeder einzigartigen Belohnungskomponente bei Richtlinien-Checkpoints während der gesamten Trainingsphase zu verfolgen.

Obwohl das Belohnungs-Funktion-Verfahren, das vom EUREKA-Framework verfolgt wird, einfach zu konstruieren ist, ist es wesentlich aufgrund der algorithmischen Abhängigkeit von Belohnungs-Optimierung. Es bedeutet, dass die Effektivität einer Belohnungsfunktion direkt von der Wahl eines Verstärkendem Lernen-Algorithmus beeinflusst wird, und mit einer Änderung der Hyperparameter kann die Belohnung unterschiedlich performen, auch mit dem gleichen Optimierer. Somit kann das EUREKA-Framework die Aufzeichnungen effektiver und selektiver bearbeiten, während es Belohnungsfunktionen synthetisiert, die in verbesserter Synergie mit dem Verstärkendem Lernen-Algorithmus stehen.

Training und Baseline

Es gibt zwei wichtige Trainings-Komponenten des EUREKA-Frameworks: Richtlinien-Lernen und Belohnungs-Evaluations-Metriken.

Richtlinien-Lernen

Die endgültigen Belohnungsfunktionen für jede einzelne Aufgabe werden mit Hilfe des gleichen Verstärkendem Lernen-Algorithmus unter Verwendung des gleichen Satzes von Hyperparametern optimiert, die fein abgestimmt sind, um die menschlich konstruierten Belohnungsfunktionen gut funktionieren zu lassen.

Belohnungs-Evaluations-Metriken

Da die Aufgaben-Metrik in Bezug auf Skala und semantische Bedeutung mit jeder Aufgabe variiert, berichtet das EUREKA-Framework den humanisierten Score, eine Metrik, die ein holistisches Maß für das Framework liefert, um zu vergleichen, wie es im Vergleich zu den von Experten generierten menschlichen Belohnungen in Übereinstimmung mit den Ground-Truth-Metriken performt.

Weiterhin gibt es drei primäre Baselines: L2R, Human, und Sparse.

L2R

L2R ist eine dual-stage Large Language Model-Prompting-Lösung, die hilft, templatierte Belohnungen zu generieren. Zunächst füllt ein LLM-Framework eine natürliche Sprach-Vorlage für Umgebung und Aufgabe aus, die in natürlicher Sprache spezifiziert ist, und dann konvertiert ein zweites LLM-Framework diese “Bewegungs-Beschreibung” in einen Code, der eine Belohnungsfunktion durch Aufrufen einer Reihe von manuell geschriebenen Belohnungs-API-Primitiven schreibt.

Human

Die Human-Baseline sind die ursprünglichen Belohnungsfunktionen, die von Verstärkendem Lernen-Forschern geschrieben wurden, und repräsentieren somit die Ergebnisse des menschlichen Belohnungs-Engineerings auf einem beispiellosen Level.

Sparse

Die Sparse-Baseline ähnelt den Fitness-Funktionen und wird verwendet, um die Qualität der Belohnungen zu bewerten, die das Framework generiert.

Ergebnisse und Ausgänge

Um die Leistung des EUREKA-Frameworks zu analysieren, werden wir es auf verschiedene Parameter auswerten, einschließlich seiner Leistung gegenüber menschlichen Belohnungen, Verbesserung der Ergebnisse über die Zeit, Generierung neuer Belohnungen, Ermöglichung gezielter Verbesserung, und Zusammenarbeit mit menschlicher Rückmeldung.

EUREKA übertrifft menschliche Belohnungen

Die folgende Abbildung zeigt die aggregierten Ergebnisse über verschiedene Benchmarks, und wie es deutlich zu erkennen ist, übertrifft oder performt das EUREKA-Framework auf menschlichem Level auf beiden Dexterity- und Issac-Aufgaben. Im Vergleich liefert die L2R-Baseline eine ähnliche Leistung auf niedrigdimensionalen Aufgaben, aber wenn es um hochdimensionale Aufgaben geht, ist die Leistungs-Lücke erheblich.

Konsistent verbessern über die Zeit

Eine der wichtigsten Highlights des EUREKA-Frameworks ist seine Fähigkeit, kontinuierlich zu verbessern und seine Leistung über die Zeit mit jedem Durchlauf zu steigern, und die Ergebnisse werden in der folgenden Abbildung demonstriert.

Wie es deutlich zu erkennen ist, generiert das Framework kontinuierlich bessere Belohnungen mit jedem Durchlauf, und es verbessert und übertrifft letztendlich die Leistung menschlicher Belohnungen, dank seiner Verwendung des Kontext- evolutionären Belohnungs-Suchansatzes.

Generierung neuer Belohnungen

Die Neuheit der Belohnungen des EUREKA-Frameworks kann durch Berechnung der Korrelation zwischen menschlichen und EUREKA-Belohnungen auf der Gesamtheit der Issac-Aufgaben bewertet werden. Diese Korrelationen werden dann auf einer Streu-Plot- oder Karte gegen die humanisierten Scores aufgetragen, wobei jeder Punkt auf dem Plot eine einzelne EUREKA-Belohnung für jede einzelne Aufgabe repräsentiert. Wie es deutlich zu erkennen ist, generiert das EUREKA-Framework überwiegend schwach korrelierte Belohnungsfunktionen, die menschliche Belohnungsfunktionen übertrumpfen.

Ermöglichung gezielter Verbesserung

Um die Wichtigkeit der Hinzufügung von Belohnungs-Reflexion in Belohnungs-Rückmeldung zu bewerten, haben die Entwickler eine Ablation, ein EUREKA-Framework ohne Belohnungs-Reflexion, ausgewertet, das die Rückmeldungs-Prompts reduziert, um nur Snapshot-Werte zu enthalten. Wenn die Issac-Aufgaben ausgeführt werden, haben die Entwickler festgestellt, dass ohne Belohnungs-Reflexion das EUREKA-Framework einen Rückgang von etwa 29% im Durchschnittswert des humanisierten Scores erlebt.

Zusammenarbeit mit menschlicher Rückmeldung

Um eine breite Palette von Eingaben zu generieren, um menschlich ausgerichtete und leistungsfähigere Belohnungsfunktionen zu erzeugen, führt das EUREKA-Framework neben automatisierten Belohnungs-Designs auch einen neuen gradientenfreien Kontext-Lernansatz zum Verstärkendem Lernen mit menschlicher Rückmeldung ein, und es gab zwei wesentliche Beobachtungen.

EUREKA kann von menschlichen Belohnungsfunktionen profitieren und verbessern.
Die Verwendung von menschlicher Rückmeldung für Belohnungs-Reflexion induziert ausgerichtetes Verhalten.

Die obige Abbildung zeigt, wie das EUREKA-Framework eine erhebliche Leistungs- und Effizienzsteigerung unter Verwendung von menschlicher Belohnungs-Initialisierung zeigt, unabhängig von der Qualität der menschlichen Belohnungen, was darauf hindeutet, dass die Qualität der Basis-Belohnungen keinen wesentlichen Einfluss auf die Fähigkeit des Frameworks zur Kontext-Belohnungs-Verbesserung hat.

Die obige Abbildung zeigt, wie das EUREKA-Framework nicht nur menschlich ausgerichtete Richtlinien induzieren, sondern auch Belohnungen durch Einbeziehung von menschlicher Rückmeldung modifizieren kann.

Letzte Gedanken

In diesem Artikel haben wir über EUREKA gesprochen, einem LLM-gesteuerten Algorithmus für menschliche Belohnungs-Designs, der versucht, die verschiedenen Fähigkeiten von LLM-Frameworks, einschließlich Code-Schreiben, Kontext-Verbesserung und Zero-Shot-Inhalts-Generierung, zu nutzen, um eine beispiellose Optimierung von Belohnungs-Code durchzuführen. Der Belohnungs-Code kann dann zusammen mit Verstärkendem Lernen von diesen Frameworks verwendet werden, um komplexe Fähigkeiten zu erlernen oder Manipulationen durchzuführen. Ohne menschliche Intervention oder Aufgaben-spezifische Prompt-Engineering liefert das Framework menschliche Belohnungs-Generierungsfähigkeiten auf einer breiten Palette von Aufgaben, und seine Hauptstärke liegt im Lernen komplexer Aufgaben mit einem Curriculum-Lernansatz.

Insgesamt zeigt die erhebliche Leistung und Vielseitigkeit des EUREKA-Frameworks das Potenzial auf, evolutionäre Algorithmen mit Large Language Models zu kombinieren, was zu einem skalierbaren und allgemeinen Ansatz für die Gestaltung von Belohnungen führen könnte, und diese Erkenntnis könnte auch auf andere offene Suchprobleme anwendbar sein.