Kunstmatige intelligentie

EUREKA: Menselijk niveau beloningsontwerp via codering van grote taalmodellen

Published November 21, 2023

Updated April 4, 2026

Kunal Kejriwal

Met de vooruitgang die grote taalmodellen de afgelopen jaren hebben geboekt, is het niet verwonderlijk dat deze LLM-kaders uitstekend presteren als semantische planners voor sequentiële hoge-niveau beslissingsTaken. Ontwikkelaars vinden het echter nog steeds moeilijk om het volledige potentieel van LLM-kaders te benutten voor het leren van complexe lage-niveau manipulatietaken. Ondanks hun efficiëntie hebben grote taalmodellen van tegenwoordig aanzienlijke domein- en onderwerpkennis nodig om zelfs eenvoudige vaardigheden te leren of tekstuele prompts te construeren, waardoor een aanzienlijke kloof ontstaat tussen hun prestaties en menselijk niveau behendigheid.

Om deze kloof te overbruggen, hebben ontwikkelaars van Nvidia, CalTech, UPenn en anderen EUREKA geïntroduceerd, een LLM-gepowered menselijk-niveau ontwerp algoritme. EUREKA heeft tot doel verschillende mogelijkheden van LLM-kaders te benutten, waaronder code-schrijven, in-context verbetering en zero-shot inhoudsgeneratie, om een ongekende optimalisatie van beloningscodes uit te voeren. Deze beloningscodes, in combinatie met versterking lerend, maken het mogelijk voor de kaders om complexe vaardigheden te leren of manipulatietaken uit te voeren.

In dit artikel zullen we het EUREKA-kader vanuit een ontwikkelingsperspectief onderzoeken, waarbij we zijn kader, werking en de resultaten die het behaalt bij het genereren van beloningsfuncties, bekijken. Deze functies, zoals beweerd door de ontwikkelaars, presteren beter dan die gegenereerd door mensen. We zullen ook ingaan op hoe het EUREKA-kader de weg vrijmaakt voor een nieuwe benadering van RLHF (Versterking Lerend met Menselijke Feedback) door gradient-vrije in-context lerend mogelijk te maken. Laten we beginnen.

EUREKA : Een Inleiding

Vandaag de dag leveren state of the art LLM-kaders zoals GPT-3 en GPT-4 uitstekende resultaten als semantische planners voor sequentiële hoge-niveau beslissingsTaken, maar ontwikkelaars zoeken nog steeds naar manieren om hun prestaties te verbeteren bij het leren van lage-niveau manipulatietaken zoals pen-spinning behendigheid. Bovendien hebben ontwikkelaars waargenomen dat versterking lerend kan worden gebruikt om duurzame resultaten te behalen in behendige omstandigheden en andere domeinen, mits de beloningsfuncties zorgvuldig worden geconstrueerd door menselijke ontwerpers en deze beloningsfuncties in staat zijn om de leer signalen voor gunstige gedragingen te bieden. In vergelijking met echte versterking lerend taken die spaarzame beloningen accepteren, maakt het moeilijk voor het model om de patronen te leren, vormt het vormen van deze beloningen de noodzakelijke incrementele leer signalen. Bovendien zijn beloningsfuncties, ondanks hun belang, extreem moeilijk te ontwerpen en leiden suboptimale ontwerpen van deze functies vaak tot ongewenst gedrag.

Om deze uitdagingen aan te pakken en de efficiëntie van deze belonings tokens te maximaliseren, streeft het EUREKA-kader, of Evolutie-gedreven Universele REward Kit voor Agent, naar de volgende bijdragen.

Het bereiken van menselijk-niveau prestaties voor het ontwerpen van beloningsfuncties.
Effectief oplossen van manipulatietaken zonder handmatige beloningsengineering.
Genereren van meer mens-georiënteerde en presterende beloningsfuncties door een nieuwe gradient-vrije in-context lerend benadering in te voeren in plaats van traditionele RLHF of Versterking Lerend met Menselijke Feedback methode.

Er zijn drie belangrijke algoritme-ontwerpkeuzes die de ontwikkelaars hebben gemaakt om de universaliteit van EUREKA te verbeteren: evolutionaire zoekopdracht, omgeving als context en beloningsreflectie. Ten eerste neemt het EUREKA-kader de omgevingsbroncode als context om uitvoerbare beloningsfuncties te genereren in een zero-shot instelling. Vervolgens voert het kader een evolutionaire zoekopdracht uit om de kwaliteit van zijn beloningen aanzienlijk te verbeteren, stelt batches van beloningskandidaten voor met elke iteratie of epoch en verfijnt degenen die het meest veelbelovend zijn. In de derde en laatste fase gebruikt het kader de beloningsreflectie-benadering om de in-context verbetering van beloningen effectiever te maken, een proces dat uiteindelijk helpt om het kader in staat te stellen om gerichte en geautomatiseerde beloningsbewerking te ermöglichen met behulp van een tekstuele samenvatting van de kwaliteit van deze beloningen op basis van beleidsopleidingsstatistieken. De volgende figuur geeft een overzicht van hoe het EUREKA-kader werkt en in het komende gedeelte zullen we het ontwerp en de werking in meer detail bespreken.

EUREKA : Model Architectuur en Probleem Instelling

Het primaire doel van beloningsvorming is om een gevormde of gecurateerde beloningsfunctie terug te geven voor een ground-truth beloningsfunctie, wat moeilijk kan zijn bij directe optimalisatie zoals spaarzame beloningen. Bovendien kunnen ontwerpers alleen toegang krijgen tot deze ground-truth beloningsfuncties met behulp van queries, waardoor het EUREKA-kader kiest voor beloningsgeneratie, een programma-synthese instelling op basis van RDP of de Reward Design Probleem.

De Reward Design Probleem of RDP is een tuple die een wereldmodel bevat met een staatruimte, ruimte voor beloningsfuncties, een overgangsfunctie en een actieruimte. Een leer algoritme optimaliseert vervolgens beloningen door een beleid te genereren dat resulteert in een MDP of Markov Design Proces, dat de scalaire evolutie van elk beleid produceert en alleen toegankelijk is met behulp van beleidsqueries. Het primaire doel van de RDP is om een beloningsfunctie uit te voeren op een manier zodat het beleid in staat is om de maximale fitheidsscore te bereiken. In de probleeminstelling van EUREKA hebben de ontwikkelaars elke component in de Reward Design Probleem gespecificeerd met behulp van code. Bovendien is het primaire doel van het beloningsgeneratieprobleem, voor een gegeven string die de details van de taak specificeert, om een beloningsfunctiecode te genereren om de fitheidsscore te maximaliseren.

Verder zijn er drie fundamentele algoritme-componenten in het EUREKA-kader. Evolutionaire zoekopdracht (voorstel en beloningsverfijning iteratief), omgeving als context (genereren van uitvoerbare beloningen in zero-shot instelling) en beloningsreflectie (om fijne verbetering van beloningen mogelijk te maken). De pseudocode voor het algoritme wordt weergegeven in de volgende afbeelding.

Omgeving als Context

Op dit moment hebben LLM-kaders omgevingspecificaties nodig als invoer voor het ontwerpen van beloningen, terwijl het EUREKA-kader voorstelt om de raw omgevingscode rechtstreeks als context te voeden, zonder de beloningscode, waardoor de LLM-kaders de wereldmodel als context kunnen nemen. De benadering gevolgd door EUREKA heeft twee belangrijke voordelen. Ten eerste zijn LLM-kaders voor coderingsdoeleinden getraind op native code sets die zijn geschreven in bestaande programmeertalen zoals C, C++, Python, Java en meer, wat de fundamentele reden is waarom ze beter zijn in het produceren van code-uitvoer wanneer ze rechtstreeks in staat worden gesteld om code te componeren in de syntaxis en stijl waarop ze oorspronkelijk zijn getraind. Ten tweede onthult het gebruik van de omgevingsbroncode meestal de omgevingen die betrokken zijn semantisch en de variabelen die geschikt zijn voor gebruik in een poging om een beloningsfunctie uit te voeren in overeenstemming met de gespecificeerde taak. Op basis van deze inzichten instrueert het EUREKA-kader de LLM om een meer uitvoerbare Python-code rechtstreeks terug te geven met behulp van alleen formatteringstips en generieke beloningsontwerpen.

Evolutionaire Zoekopdracht

De inclusie van evolutionaire zoekopdracht in het EUREKA-kader beoogt een natuurlijke oplossing te bieden voor de suboptimaliteit uitdagingen en fouten die tijdens de uitvoering optreden zoals eerder vermeld. Met elke iteratie of epoch, produceert het kader verschillende onafhankelijke uitvoer van de Large Language Model en vermindert, gezien de generaties allemaal i.i.d zijn, het exponentieel de kans op beloningsfuncties tijdens de iteraties die buggy zijn, gegeven het aantal samples dat toeneemt met elke epoch.

In de volgende stap gebruikt het EUREKA-kader de uitvoerbare beloningsfuncties van de vorige iteratie om een in-context beloningsmutatie uit te voeren en stelt vervolgens een nieuwe en verbeterde beloningsfunctie voor op basis van tekstuele feedback. Het EUREKA-kader, in combinatie met de in-context verbetering en instructie-volgende mogelijkheden van Large Language Models, is in staat om de mutatie-operator te specificeren als een tekstprompt en suggereert een methode om de tekstuele samenvatting van beleidsopleiding te gebruiken om bestaande beloningscode te modificeren.

Beloningsreflectie

Om in-context beloningsmutaties te gronden, is het essentieel om de kwaliteit van de gegenereerde beloningen te beoordelen en, nog belangrijker, ze in woorden te vertalen, en het EUREKA-kader tackelt dit door de eenvoudige strategie te gebruiken van het verstrekken van numerieke scores als beloningsbeoordeling. Wanneer de taakfitheidfunctie dient als een holistische meting voor ground-truth, ontbreekt het aan credit toewijzing en kan het geen waardevolle informatie bieden over waarom de beloningsfunctie werkt of waarom het niet werkt. Dus, in een poging om een meer gerichte en ingewikkelde beloningsdiagnose te bieden, stelt het kader voor om geautomatiseerde feedbacks te gebruiken om de beleidsopleidingsdynamica in tekst samen te vatten. Bovendien wordt in het beloningsprogramma de beloningsfuncties in het EUREKA-kader gevraagd om hun componenten individueel bloot te leggen, waardoor het kader in staat is om de scalaire waarden van elke unieke beloningscomponent te volgen bij beleidscontrolepunten tijdens de gehele opleidingsfase.

Hoewel het beloningsfunctieproces gevolgd door het EUREKA-kader eenvoudig is om te construeren, is het essentieel vanwege de algoritme-afhankelijke aard van het optimaliseren van beloningen. Het betekent dat de effectiviteit van een beloningsfunctie rechtstreeks wordt beïnvloed door de keuze van een Versterking Lerend algoritme en met een verandering in hyperparameters, kan de beloning anders presteren, zelfs met dezelfde optimizer. Dus kan het EUREKA-kader de records effectiever en selectiever bewerken bij het synthetiseren van beloningsfuncties die in verbeterde synergiefunctie zijn met het Versterking Lerend algoritme.

Training en Baseline

Er zijn twee belangrijke trainingscomponenten van het EUREKA-kader: Beleidsleren en Beloningsbeoordelingsmetrieken.

Beleidsleren

De definitieve beloningsfuncties voor elke individuele taak worden geoptimaliseerd met behulp van hetzelfde versterking lerend algoritme met behulp van hetzelfde set van hyperparameters die zijn gefinetuned om de door de mens geëngineerde beloningsfuncties goed te laten werken.

Beloningsbeoordelingsmetrieken

Aangezien de taakmetriek varieert in termen van schaal en semantische betekenis met elke taak, rapporteert het EUREKA-kader de mens-genormaliseerde score, een meting die een holistische maatstaf biedt voor het kader om te vergelijken hoe het presteert ten opzichte van de door de mens gegenereerde beloningen in overeenstemming met de ground-truth metrieken.

Verder zijn er drie primaire baselines: L2R, Mens, en Spaarzaam.

L2R

L2R is een dual-stage Large Language Model-promptoplossing die helpt bij het genereren van gesjabloneerde beloningen. Eerst vult een LLM-kader een natuurlijke taaltemplate in voor omgeving en taak gespecificeerd in natuurlijke taal en vervolgens converteert een tweede LLM-kader deze “bewegingsbeschrijving” in code die een beloningsfunctie schrijft door een set van handmatig geschreven belonings-API-primitieven aan te roepen.

Mens

De Mens-baseline zijn de oorspronkelijke beloningsfuncties geschreven door versterking lerend onderzoekers, waardoor ze de resultaten van menselijke beloningsengineering op een ongekend niveau vertegenwoordigen.

Spaarzaam

De Spaarzaam-baseline lijkt op de fitheidfuncties en wordt gebruikt om de kwaliteit van de beloningen die het kader genereert te evalueren.

Resultaten en Uitkomsten

Om de prestaties van het EUREKA-kader te analyseren, zullen we het evalueren op verschillende parameters, waaronder zijn prestaties ten opzichte van menselijke beloningen, verbetering in resultaten over tijd, genereren van nieuwe beloningen, mogelijk maken van gerichte verbetering, en werken met menselijke feedback.

EUREKA presteert beter dan menselijke beloningen

De volgende figuur illustreert de geaggregeerde resultaten over verschillende benchmarks en zoals duidelijk te zien is, presteert het EUREKA-kader ofwel beter dan of op gelijk niveau met menselijk-niveau beloningen op zowel Dexterity als Issac-taken. In vergelijking levert de L2R-baseline een soortgelijke prestatie op lage-dimensionale taken, maar wanneer het gaat om hoge-dimensionale taken, is de kloof in de prestaties aanzienlijk.

Consistent verbeteren over tijd

Een van de belangrijkste hoogtepunten van het EUREKA-kader is zijn vermogen om constant te verbeteren en zijn prestaties te verhogen over tijd met elke iteratie en de resultaten worden gedemonstreerd in de onderstaande figuur.

Zoals duidelijk te zien is, genereert het kader constant betere beloningen met elke iteratie en het verbetert en overtreft uiteindelijk de prestaties van menselijke beloningen, dankzij het gebruik van de in-context evolutionaire beloningszoekopdrachtbenadering.

Genereren van nieuwe beloningen

De nieuwheid van de beloningen van het EUREKA-kader kan worden beoordeeld door de correlatie tussen menselijke en EUREKA-beloningen over de gehele Issac-taken te berekenen. Deze correlaties worden vervolgens geplot op een scatterplot of kaart tegen de mens-genormaliseerde scores, met elk punt op de plot dat een individuele EUREKA-beloning voor elke individuele taak vertegenwoordigt. Zoals duidelijk te zien is, genereert het EUREKA-kader overwegend zwak gecorreleerde beloningsfuncties die menselijke beloningsfuncties overtreffen.

Mogelijk maken van gerichte verbetering

Om de belangrijkheid van het toevoegen van beloningsreflectie in beloningsfeedback te evalueren, evalueerden ontwikkelaars een ablatie, een EUREKA-kader zonder beloningsreflectie dat de feedbackprompts reduceert tot alleen snapshotwaarden. Wanneer Issac-taken werden uitgevoerd, observeerden ontwikkelaars dat zonder beloningsreflectie, het EUREKA-kader een daling van ongeveer 29% in de gemiddelde genormaliseerde score zag.

Werken met menselijke feedback

Om gemakkelijk een breed scala aan invoer te incorporeren om mens-georiënteerde en presterende beloningsfuncties te genereren, introduceert het EUREKA-kader, naast geautomatiseerde beloningsontwerpen, een nieuwe gradient-vrije in-context lerend benadering voor Versterking Lerend met Menselijke Feedback en er waren twee significante observaties.

EUREKA kan profiteren en verbeteren van menselijke beloningsfuncties.
Het gebruik van menselijke feedback voor beloningsreflectie induceert gealigneerd gedrag.

De bovenstaande figuur toont hoe het EUREKA-kader een aanzienlijke boost in prestaties en efficiëntie toont met behulp van menselijke beloningsinitialisatie, ongeacht de kwaliteit van de menselijke beloningen, wat suggereert dat de kwaliteit van de basisbeloningen geen significante invloed heeft op de in-context beloningsverbeteringsmogelijkheden van het kader.

De bovenstaande figuur illustreert hoe het EUREKA-kader niet alleen meer mens-georiënteerde beleidslijnen kan induceren, maar ook beloningen kan modificeren door menselijke feedback te incorporeren.

Slotgedachten

In dit artikel hebben we het over EUREKA, een LLM-gepowered menselijk-niveau ontwerp algoritme, dat probeert verschillende mogelijkheden van LLM-kaders te benutten, waaronder code-schrijven, in-context verbetering en zero-shot inhoudsgeneratie, om een ongekende optimalisatie van beloningscodes uit te voeren. De beloningscode, in combinatie met versterking lerend, kan vervolgens door deze kaders worden gebruikt om complexe vaardigheden te leren of manipulatietaken uit te voeren. Zonder menselijke interventie of taak-specifieke prompt-engineering, levert het kader menselijk-niveau beloningsgeneratiecapaciteiten op een breed scala aan taken en zijn belangrijkste kracht ligt in het leren van complexe taken met een curriculum lerend benadering.

Al met al geeft de aanzienlijke prestatie en veelzijdigheid van het EUREKA-kader aan dat de combinatie van evolutionaire algoritmen met grote taalmodellen mogelijk een schaalbare en algemene benadering kan opleveren voor het ontwerpen van beloningen en deze inzicht kan toepasbaar zijn op andere open-eindige zoekproblemen.