stomp EUREKA: beloningsontwerp op menselijk niveau via het coderen van grote taalmodellen - Unite.AI
Verbind je met ons

Artificial Intelligence

EUREKA: beloningsontwerp op menselijk niveau via het coderen van grote taalmodellen

mm
Bijgewerkt on

Met de vooruitgang die Large Language Models de afgelopen jaren hebben geboekt, is het niet verrassend waarom deze LLM-frameworks uitblinken als semantische planners voor sequentiële besluitvormingstaken op hoog niveau. Ontwikkelaars vinden het echter nog steeds een uitdaging om het volledige potentieel van LLM-frameworks te benutten voor het leren van complexe manipulatietaken op laag niveau. Ondanks hun efficiëntie vereisen de huidige grote taalmodellen een aanzienlijke domein- en onderwerpexpertise om zelfs eenvoudige vaardigheden te leren of tekstuele aanwijzingen te construeren, waardoor er een aanzienlijke kloof ontstaat tussen hun prestaties en behendigheid op menselijk niveau.

Om deze kloof te overbruggen hebben ontwikkelaars van Nvidia, CalTech, UPenn en anderen EUREKA geïntroduceerd, een LLM-aangedreven ontwerpalgoritme op menselijk niveau. EUREKA streeft ernaar de verschillende mogelijkheden van LLM-frameworks te benutten, waaronder het schrijven van codes, verbetering in de context en het genereren van zero-shot content, om een ​​ongekende optimalisatie van beloningscodes uit te voeren. Deze beloningscodes, gecombineerd met versterkend leren, stellen de raamwerken in staat complexe vaardigheden te leren of manipulatietaken uit te voeren.

In dit artikel zullen we het EUREKA-raamwerk onderzoeken vanuit een ontwikkelingsperspectief, waarbij we het raamwerk, de werking ervan en de resultaten die het behaalt bij het genereren van beloningsfuncties onderzoeken. Deze functies presteren, zoals de ontwikkelaars beweren, beter dan de functies die door mensen worden gegenereerd. We zullen ook onderzoeken hoe het EUREKA-framework de weg vrijmaakt voor een nieuwe benadering van RLHF (Reinforcement Learning met behulp van menselijke feedback) door gradiëntvrij in-context leren mogelijk te maken. Laten we beginnen.

EUREKA: Een inleiding

Vandaag de dag, state-of-the-art LLM-frameworks zoals GPT-3 en GPT-4 leveren uitstekende resultaten als semantische planners voor sequentiële besluitvormingstaken op hoog niveau, maar ontwikkelaars zijn nog steeds op zoek naar manieren om hun prestaties te verbeteren als het gaat om het leren van manipulatietaken op laag niveau, zoals het draaien van de pen behendigheid. Bovendien hebben ontwikkelaars opgemerkt dat versterkend leren kan worden gebruikt om duurzame resultaten te bereiken in behendige omstandigheden, en op andere domeinen, op voorwaarde dat de beloningsfuncties zorgvuldig door menselijke ontwerpers zijn geconstrueerd, en deze beloningsfuncties in staat zijn de leersignalen voor gunstig gedrag te leveren. Vergeleken met real-world versterkende leertaken die spaarzame beloningen accepteren, maakt het het model moeilijk om de patronen te leren, maar het vormgeven van deze beloningen levert de noodzakelijke incrementele leersignalen op. Bovendien zijn beloningsfuncties, ondanks hun belang, uiterst uitdagend om te ontwerpen, en suboptimale ontwerpen van deze functies leiden vaak tot onbedoeld gedrag. 

Om deze uitdagingen aan te pakken en de efficiëntie van deze beloningstokens te maximaliseren, is de EUREKA of Edoor revolutie gedreven UNiversal REafdeling Khet voor Agent wil de volgende bijdragen leveren. 

  1. Prestaties op menselijk niveau bereiken voor het ontwerpen van beloningsfuncties. 
  2. Los manipulatietaken effectief op zonder gebruik te maken van handmatige beloningstechniek. 
  3. Genereer meer mensgerichte en beter presterende beloningsfuncties door een nieuwe gradiëntvrije in-context leerbenadering te introduceren in plaats van de traditionele RLHF- of Reinforcement Learning from Human Feedback-methode. 

Er zijn drie belangrijke algoritmische ontwerpkeuzes waarvoor de ontwikkelaars hebben gekozen om de algemeenheid van EUREKA te verbeteren: evolutionair zoeken, omgeving als context en beloningsreflectie. Ten eerste neemt het EUREKA-framework de omgevingsbroncode als context om uitvoerbare beloningsfuncties te genereren in een zero-shot-setting. Hierna voert het raamwerk een evolutionaire zoektocht om de kwaliteit van de beloningen substantieel te verbeteren, stelt het bij elke iteratie of elk tijdperk een reeks beloningskandidaten voor, en verfijnt de beloningskandidaten die het het meest veelbelovend vindt. In de derde en laatste fase gebruikt het raamwerk de beloning reflectie aanpak om de in-context verbetering van beloningen effectiever te maken, een proces dat uiteindelijk helpt het raamwerk gericht en geautomatiseerd bewerken van beloningen mogelijk te maken door een tekstuele samenvatting van de kwaliteit van deze beloningen te gebruiken op basis van statistieken over beleidstraining. De volgende afbeelding geeft u een kort overzicht van hoe het EUREKA-framework werkt, en in de komende sectie zullen we in meer detail praten over de architectuur en de werking ervan. 

EUREKA: modelarchitectuur en probleemstelling

Het primaire doel van beloningsvorming is het retourneren van een gevormde of samengestelde beloningsfunctie voor een beloningsfunctie op basis van de waarheid, die problemen kan opleveren wanneer deze direct wordt geoptimaliseerd, zoals spaarzame beloningen. Bovendien kunnen ontwerpers alleen queries gebruiken om toegang te krijgen tot deze ground-truth-beloningsfuncties, wat de reden is waarom het EUREKA-framework kiest voor beloning generatie, een instelling voor programmasynthese gebaseerd op RDP of het Reward Design Problem. 

Het Reward Design Problem of RDP is een tuple dat een wereldmodel bevat met een toestandsruimte, ruimte voor beloningsfuncties, een transitiefunctie en een actieruimte. Een leeralgoritme optimaliseert vervolgens de beloningen door een beleid te genereren dat resulteert in een MDP- of Markov-ontwerpproces, dat de scalaire evolutie van elk beleid produceert en alleen toegankelijk is via beleidsquery's. Het primaire doel van het POP is om een ​​beloningsfunctie uit te voeren op een zodanige manier dat het beleid in staat is de maximale fitnessscore te behalen. In de probleemstelling van EUREKA hebben de ontwikkelaars elk onderdeel van het beloningsontwerpprobleem gespecificeerd met behulp van code. Bovendien is het primaire doel van het probleem voor het genereren van beloningen voor een gegeven reeks die de details van de taak specificeert, het genereren van een beloningsfunctiecode om de fitnessscore te maximaliseren. 

In de kern zijn er drie fundamentele algoritmische componenten in het EUREKA-framework. Evolutionair zoeken (het iteratief voorstellen en belonen van kandidaten om te verfijnen), de omgeving als context (het genereren van uitvoerbare beloningen in een zero-shot-setting) en beloningsreflectie (om fijnmazige verbetering van beloningen mogelijk te maken). De pseudocode voor het algoritme wordt geïllustreerd in de volgende afbeelding. 

Omgeving als context

Momenteel hebben LLM-frameworks omgevingsspecificaties nodig als input voor het ontwerpen van beloningen, terwijl het EUREKA-framework voorstelt om de ruwe omgevingscode rechtstreeks als context in te voeren, zonder dat de beloningscode de LLM-frameworks in staat stelt het wereldmodel als context te nemen. De aanpak van EUREKA heeft twee grote voordelen. Ten eerste worden LLM-frameworks voor codeerdoeleinden getraind op native codesets die zijn geschreven in bestaande programmeertalen zoals C, C++, Python, Java en meer, wat de fundamentele reden is waarom ze beter zijn in het produceren van code-uitvoer wanneer ze direct zijn toegestaan. om code samen te stellen in de syntaxis en stijl waarop ze oorspronkelijk hebben getraind. Ten tweede onthult het gebruik van de broncode van de omgeving gewoonlijk de betrokken omgevingen semantisch, en de variabelen die geschikt of ideaal zijn voor gebruik in een poging om een ​​beloningsfunctie uit te voeren in overeenstemming met de gespecificeerde taak. Op basis van deze inzichten instrueert het EUREKA-framework de LLM om rechtstreeks een beter uitvoerbare Python-code terug te sturen met behulp van alleen opmaaktips en generieke beloningsontwerpen. 

Evolutionair zoeken

De opname van evolutionair zoeken in het EUREKA-framework heeft tot doel een natuurlijke oplossing te bieden voor de uitdagingen op het gebied van suboptimaliteit en voor fouten die zijn opgetreden tijdens de uitvoering, zoals eerder vermeld. Bij elke iteratie of elk tijdperk levert het raamwerk verschillende onafhankelijke resultaten op van het Grote Taalmodel, en op voorwaarde dat de generaties allemaal iid zijn, verkleint het exponentieel de kans dat beloningsfuncties tijdens de iteraties fouten bevatten, aangezien het aantal samples met elk tijdperk toeneemt. 

In de volgende stap gebruikt het EUREKA-framework de uitvoerbare beloningsfuncties uit de vorige iteratie om een ​​beloningsmutatie in de context uit te voeren, en stelt vervolgens een nieuwe en verbeterde beloningsfunctie voor op basis van tekstuele feedback. Het EUREKA-framework in combinatie met de in-contextverbetering en het volgen van instructies mogelijkheden van grote taalmodellen kan de mutatieoperator als tekstprompt specificeren en stelt een methode voor om de tekstuele samenvatting van beleidstraining te gebruiken om bestaande beloningscodes te wijzigen. 

Beloning reflectie

Om beloningsmutaties in de context te onderbouwen, is het essentieel om de kwaliteit van de gegenereerde beloningen te beoordelen, en nog belangrijker, deze onder woorden te brengen. Het EUREKA-framework pakt dit aan door de eenvoudige strategie te gebruiken om de numerieke scores te verstrekken als beloningsevaluatie. Wanneer de functie voor taakfitheid dient als een holistische maatstaf voor grondwaarheid, ontbreekt het aan krediettoewijzing en kan deze geen waardevolle informatie verschaffen over waarom de beloningsfunctie werkt, of waarom deze niet werkt. In een poging om een ​​meer gerichte en ingewikkelde beloningsdiagnose te bieden, stelt het raamwerk voor om geautomatiseerde feedback te gebruiken om de dynamiek van beleidstraining in teksten samen te vatten. Bovendien wordt in het beloningsprogramma aan de beloningsfuncties in het EUREKA-framework gevraagd om hun componenten individueel bloot te leggen, waardoor het framework de scalaire waarden van elke unieke beloningscomponent kan volgen op beleidscontrolepunten gedurende de gehele trainingsfase.

Hoewel de beloningsfunctieprocedure die door het EUREKA-framework wordt gevolgd eenvoudig te construeren is, is deze essentieel dankzij de algoritmisch afhankelijke aard van het optimaliseren van beloningen. Het betekent dat de effectiviteit van een beloningsfunctie rechtstreeks wordt beïnvloed door de keuze van een Reinforcement Learning-algoritme, en dat met een verandering in hyperparameters de beloning zelfs met dezelfde optimizer anders kan presteren. Het EUREKA-framework kan de records dus effectiever en selectiever bewerken en tegelijkertijd beloningsfuncties synthetiseren die in verbeterde synergie zijn met het Reinforcement Learning-algoritme. 

Training en basislijn

Er zijn twee belangrijke trainingscomponenten van het EUREKA-framework: Beleid leren en Beloningsevaluatiestatistieken.

Beleid leren

De uiteindelijke beloningsfuncties voor elke individuele taak worden geoptimaliseerd met behulp van hetzelfde versterkingsleeralgoritme met behulp van dezelfde set hyperparameters die zijn afgestemd om de door mensen ontworpen beloningen goed te laten functioneren. 

Beloningsevaluatiestatistieken

Omdat de taakmetriek bij elke taak varieert in termen van schaal en semantische betekenis, rapporteert het EUREKA-framework de menselijke genormaliseerde score, een metriek die een holistische maatstaf biedt voor het raamwerk om te vergelijken hoe het presteert ten opzichte van de door deskundigen gegenereerde beloningen in overeenstemming met de grondwaarheidsstatistieken. 

Verderop zijn er drie primaire basislijnen: L2R, Menselijk, en Schaars. 

L2R

L2R is een tweetraps grote taalmodusEen oplossing die helpt bij het genereren van sjabloonbeloningen. Eerst vult een LLM-framework een natuurlijke taalsjabloon in voor de omgeving en taak gespecificeerd in natuurlijke taal, en vervolgens zet een tweede LLM-framework deze “bewegingsbeschrijving” om in een code die een beloningsfunctie schrijft door een reeks handmatig geschreven belonings-API-primitieven aan te roepen . 

menselijk

De menselijke basislijn zijn de originele beloningsfuncties die zijn geschreven door onderzoekers op het gebied van versterkend leren, en vertegenwoordigen daarmee de resultaten van menselijke beloningstechniek op een ongekend niveau. 

Schaars

De Sparse-basislijn lijkt op de fitnessfuncties en wordt gebruikt om de kwaliteit van de beloningen die het raamwerk genereert te evalueren. 

Resultaten en resultaten

Om de prestaties van het EUREKA-framework te analyseren, zullen we het evalueren op verschillende parameters, waaronder de bijbehorende parameters prestaties ten opzichte van menselijke beloningen, verbetering van de resultaten in de loop van de tijd, het genereren van nieuwe beloningen, het mogelijk maken van gerichte verbetering, en werken met menselijke feedback. 

EUREKA presteert beter dan menselijke beloningen

De volgende afbeelding illustreert de totale resultaten over verschillende benchmarks, en zoals duidelijk kan worden waargenomen, presteert het EUREKA-framework beter dan of presteert het vergelijkbaar met beloningen op menselijk niveau voor zowel Behendigheids- als Issac-taken. Ter vergelijking: de L2R-basislijn levert vergelijkbare prestaties bij laagdimensionale taken, maar als het om hoogdimensionale taken gaat, is de kloof in de prestaties behoorlijk substantieel. 

Consequent verbeteren in de loop van de tijd

Een van de belangrijkste hoogtepunten van het EUREKA-framework is het vermogen ervan om de prestaties in de loop van de tijd bij elke iteratie voortdurend te verbeteren en te verbeteren. De resultaten worden in de onderstaande afbeelding gedemonstreerd. 

Zoals duidelijk te zien is, genereert het raamwerk bij elke iteratie voortdurend betere beloningen, en verbetert en overtreft het uiteindelijk ook de prestaties van menselijke beloningen, dankzij het gebruik van in-context evolutionaire beloningszoekmethoden. 

Nieuwe beloningen genereren

De nieuwigheid van de beloningen van het EUREKA-raamwerk kan worden beoordeeld door de correlatie tussen menselijke en EUREKA-beloningen voor het geheel van Issac-taken te berekenen. Deze correlaties worden vervolgens uitgezet op een spreidingsdiagram of kaart tegen de menselijke genormaliseerde scores, waarbij elk punt op de grafiek een individuele EUREKA-beloning voor elke individuele taak vertegenwoordigt. Zoals duidelijk te zien is, genereert het EUREKA-raamwerk voornamelijk zwak gecorreleerde beloningsfuncties die beter presteren dan de menselijke beloningsfuncties. 

Gerichte verbetering mogelijk maken

Om het belang van het toevoegen van beloningsreflectie in beloningsfeedback te evalueren, hebben ontwikkelaars een ablatie geëvalueerd, een EUREKA-framework zonder beloningsreflectie dat de feedbackprompts reduceert tot alleen momentopnamewaarden. Bij het uitvoeren van Issac-taken merkten ontwikkelaars dat zonder beloningsreflectie het EUREKA-framework getuige was van een daling van ongeveer 29% in de gemiddelde genormaliseerde score. 

Werken met menselijke feedback

Om gemakkelijk een breed scala aan inputs te integreren om mensgerichte en beter presterende beloningsfuncties te genereren, introduceert het EUREKA-framework naast geautomatiseerde beloningsontwerpen ook een nieuwe gradiëntvrije in-context leerbenadering van Reinforcement Learning from Human Feedback, en er waren twee belangrijke observaties. 

  1. EUREKA kan profiteren en verbeteren van menselijke beloningsfuncties. 
  2. Het gebruik van menselijke feedback voor beloningsreflecties leidt tot afgestemd gedrag. 

De bovenstaande figuur laat zien hoe het EUREKA-framework een substantiële prestatieverbetering en efficiëntie laat zien met behulp van menselijke beloningsinitialisatie, ongeacht de kwaliteit van de menselijke beloningen, wat suggereert dat de kwaliteit van de basisbeloningen geen significante invloed heeft op de in-context beloningsverbeteringsmogelijkheden van het raamwerk. 

De bovenstaande figuur illustreert hoe het EUREKA-raamwerk niet alleen kan leiden tot meer op de mens gericht beleid, maar ook beloningen kan wijzigen door menselijke feedback op te nemen. 

Conclusie

In dit artikel hebben we gesproken over EUREKA, een door LLM aangedreven ontwerpalgoritme op menselijk niveau, dat probeert verschillende mogelijkheden van LLM-frameworks te benutten, waaronder het schrijven van code, mogelijkheden voor verbetering in de context en het genereren van zero-shot-inhoud om ongekende optimalisatie uit te voeren. van beloningscodes. De beloningscode kan vervolgens samen met versterkend leren door deze raamwerken worden gebruikt om complexe vaardigheden te leren of manipulatietaken uit te voeren. Zonder menselijke tussenkomst of taakspecifieke snelle engineering biedt het raamwerk mogelijkheden voor het genereren van beloningen op menselijk niveau voor een breed scala aan taken, en de grootste kracht ligt in het leren van complexe taken met een leerplanbenadering. 

Over het geheel genomen geven de substantiële prestaties en veelzijdigheid van het EUREKA-framework aan dat het potentieel van het combineren van evolutionaire algoritmen met grote taalmodellen zou kunnen resulteren in een schaalbare en algemene benadering van ontwerpbeloningen, en dit inzicht zou van toepassing kunnen zijn op andere zoekproblemen met een open einde. 

"Een ingenieur van beroep, een schrijver in hart en nieren". Kunal is een technisch schrijver met een diepe liefde voor en begrip van AI en ML, toegewijd aan het vereenvoudigen van complexe concepten op deze gebieden door middel van zijn boeiende en informatieve documentatie.