Artificiell intelligens
EUREKA: Mänsklig nivå belöningsdesign via kodning av stora språkmodeller

Med de framsteg som stora språkmodeller har gjort under de senaste åren, är det inte förvånande att dessa ramverk för LLM utmärker sig som semantiska planerare för sekventiella högnivåbeslutsuppgifter. Men utvecklare har fortfarande svårt att utnyttja den fulla potentialen hos LLM-ramverken för att lära sig komplexa lågnivåmanipulationsuppgifter. Trots deras effektivitet kräver dagens stora språkmodeller betydande domän- och ämnesexpertis för att lära sig även enkla färdigheter eller konstruera textprompt, vilket skapar en betydande klyfta mellan deras prestation och mänsklig dexteritet.
För att överbrygga denna klyfta har utvecklare från Nvidia, CalTech, UPenn och andra introducerat EUREKA, ett LLM-baserat algoritm för mänsklig nivå design. EUREKA syftar till att utnyttja olika förmågor hos LLM-ramverken, inklusive kodskrivning, kontextuell förbättring och nollskotts-innehållsgenerering, för att utföra en utanför jämförelse optimering av belöningskoder. Dessa belöningskoder, i kombination med förstärkt inlärning, möjliggör för ramverken att lära sig komplexa färdigheter eller utföra manipulationsuppgifter.
I den här artikeln kommer vi att undersöka EUREKA-ramverket ur ett utvecklingsperspektiv, med fokus på dess ramverk, funktioner och de resultat det uppnår vid generering av belöningsfunktioner. Dessa funktioner, som utvecklarna hävdar, överträffar de som genereras av människor. Vi kommer också att dyka djupare i hur EUREKA-ramverket banar väg för en ny tillvägagångssätt för RLHF (Reinforcement Learning med mänsklig återkoppling) genom att möjliggöra gradientfri inkontextinlärning. Låt oss komma igång.
EUREKA: En introduktion
Idag, state of the art LLM-ramverk som GPT-3 och GPT-4 levererar utmärkta resultat när de fungerar som semantiska planerare för sekventiella högnivåbeslutsuppgifter, men utvecklare letar fortfarande efter sätt att förbättra deras prestation när det gäller att lära sig lågnivåmanipulationsuppgifter som pennspinningsdexteritet. Dessutom har utvecklare observerat att förstärkt inlärning kan användas för att uppnå hållbara resultat i dexterösa förhållanden och andra domäner, förutsatt att belöningsfunktionerna konstrueras noggrant av mänskliga designers, och dessa belöningsfunktioner kan tillhandahålla inlärningssignaler för gynnsamma beteenden. När jämfört med verkliga förstärkta inlärningsuppgifter som accepterar glesa belöningar, gör det det svårt för modellen att lära sig mönstren, och formandet av dessa belöningar tillhandahåller de nödvändiga inkrementella inlärningssignalerna. Dessutom är belöningsfunktioner, trots deras betydelse, extremt svåra att konstruera, och underoptimala konstruktioner av dessa funktioner kan leda till oavsiktliga beteenden.

För att tackla dessa utmaningar och maximera effektiviteten hos dessa belönings-token, syftar EUREKA eller Evolutionsdriven Universal REward Kit för Agent till att göra följande bidrag.
- Uppnå mänsklig nivå för design av belöningsfunktioner.
- Lösa manipulationsuppgifter effektivt utan manuell belöningskonstruktion.
- Generera mer mänskligt anpassade och presterande belöningsfunktioner genom att införa en ny gradientfri inkontextinlärningsapproach istället för traditionell RLHF eller Reinforcement Learning från mänsklig återkoppling.
Det finns tre nyckelalgoritmiska designval som utvecklarna har valt för att förbättra EUREKAs allmänhet: evolutionsökning, miljö som kontext och belöningsreflektion. Först tar EUREKA-ramverket miljökällkoden som kontext för att generera exekverbara belöningsfunktioner i en nollskottsinställning. Följande detta, utför ramverket en evolutionsökning för att förbättra kvaliteten på sina belöningar avsevärt, föreslår batchar av belöningskandidater med varje iteration eller epok, och finslipar de som den finner vara de mest lovande. I den tredje och sista etappen, använder ramverket belöningsreflektion för att göra den inkontextuella förbättringen av belöningar mer effektiv, en process som slutligen hjälper ramverket att möjliggöra riktad och automatiserad belöningsredigering med hjälp av en textuell sammanfattning av kvaliteten på dessa belöningar baserat på policyträningsstatistik. Följande figur ger er en kort översikt över hur EUREKA-ramverket fungerar, och i den kommande avdelningen kommer vi att prata om arkitektur och funktioner i större detalj.

EUREKA: Modellarkitektur och problemställning
Det primära målet med belöningsformning är att returnera en formad eller kuraterad belöningsfunktion för en grund-sanning belöningsfunktion, som kan medföra svårigheter när den direkt optimeras som glesa belöningar. Dessutom kan designers endast använda frågor för att komma åt dessa grund-sanning belöningsfunktioner, vilket är anledningen till att EUREKA-ramverket väljer belöningsgenerering, ett programsyntes-scenariobaserat på RDP eller Belöningsdesignproblemet.
Belöningsdesignproblemet eller RDP är en tupel som innehåller en världmodell med en tillståndsrymd, utrymme för belöningsfunktioner, en övergångsfunktion och en åtgärdsrymd. Ett läralgoritm optimerar sedan belöningar genom att generera en policy som resulterar i en MDP eller Markov Design Process, som producerar skalärutvecklingen av valfri policy, och kan endast komma åt med hjälp av policyfrågor. Det primära målet med RDP är att utmatning en belöningsfunktion på ett sätt så att policyn kan uppnå den maximala fitnesspoängen. I EUREKAs problemställning har utvecklarna specificerat varje komponent i Belöningsdesignproblemet med hjälp av kod. Dessutom, för en given sträng som specificerar uppgiftsdetaljer, är det primära målet med belöningsgenereringsproblemet att generera en belöningsfunktionskod för att maximera fitnesspoängen.
Fortsättning, vid dess kärna, finns det tre grundläggande algoritmiska komponenter i EUREKA-ramverket. Evolutionsökning (förslag och belöningsfinslipning iterativt), miljö som kontext (genererar exekverbara belöningar i nollskottsinställning) och belöningsreflektion (för att möjliggöra fin-granulerad förbättring av belöningar). Pseudokoden för algoritmen visas i följande bild.

Miljö som kontext
För närvarande behöver LLM-ramverk miljöspecifikationer som indata för att designa belöningar, medan EUREKA-ramverket föreslår att mata in den råa miljökoden direkt som kontext, utan belöningskod, vilket tillåter LLM-ramverken att ta världsmodellen som kontext. Tillvägagångssättet som följs av EUREKA har två stora fördelar. Först är LLM-ramverk för kodningsändamål tränade på nativa koduppsättningar som skrivits i befintliga programmeringsspråk som C, C++, Python, Java och mer, vilket är den grundläggande anledningen till att de är bättre på att producera kodutdata när de tillåts komponera kod i syntaxen och stilen som de ursprungligen tränades på. Andra, använder miljökällkoden vanligtvis avslöjar miljöerna som är involverade semantiskt, och variablerna som är lämpliga för användning i ett försök att utmatning en belöningsfunktion i enlighet med den specificerade uppgiften. Baserat på dessa insikter, instruerar EUREKA-ramverket LLM att returnera en mer exekverbar Python-kod direkt med hjälp av endast formateringstips och generiska belöningsdesigner.
Evolutionsökning
Inklusionen av evolutionsökning i EUREKA-ramverket syftar till att presentera en naturlig lösning på underoptimalitetsutmaningarna och fel som inträffar under exekvering, som nämns tidigare. Med varje iteration eller epok, genererar ramverket olika oberoende utdata från Large Language Model, och givet att generationerna är alla oberoende och identiskt distribuerade, minskar sannolikheten för belöningsfunktioner under iterationerna som är buggiga, givet att antalet prover ökar med varje epok.
I nästa steg, använder EUREKA-ramverket de exekverbara belöningsfunktionerna från föregående iteration för att utföra en inkontextuell belöningsmutation, och sedan föreslår en ny och förbättrad belöningsfunktion baserat på textuell återkoppling. EUREKA-ramverket, när det kombineras med inkontextuell förbättring och instruktionsföljande förmågor hos Large Language Models, kan specificera mutationsoperatören som en textprompt och föreslår en metod för att använda den textuella sammanfattningen av policyträning för att modifiera befintliga belöningskod.
Belöningsreflektion
För att förankra inkontextuell belöningsmutation, är det väsentligt att bedöma kvaliteten på de genererade belöningar och, mer viktigt, sätta dem i ord, och EUREKA-ramverket tacklar det genom att använda den enkla strategin att tillhandahålla numeriska poäng som belöningsutvärdering. När uppgiftsfitnessfunktionen fungerar som en holistisk mått för grund-sanning, saknar den kredit tilldelning och kan inte tillhandahålla någon värdefull information om varför belöningsfunktionen fungerar eller varför den inte fungerar. Så, i ett försök att tillhandahålla en mer riktad och intrikat belöningsdiagnos, föreslår ramverket att använda automatiserad återkoppling för att sammanfatta policyträningsdynamiken i text. Dessutom, i belöningsprogrammet, begärs belöningsfunktionerna i EUREKA-ramverket att exponera sina komponenter individuellt, vilket tillåter ramverket att spåra skalärvärdet av varje unik belöningskomponent vid policykontrollpunkter under hela träningsfasen.

Även om belöningsfunktionsförfarandet som följs av EUREKA-ramverket är enkelt att konstruera, är det väsentligt på grund av den algoritmberoende naturen hos att optimera belöningar. Det betyder att effektiviteten hos en belöningsfunktion direkt påverkas av valet av ett förstärkt inlärningsalgoritm, och med en förändring i hyperparametrar, kan belöningen fungera annorlunda, även med samma optimerare. Således kan EUREKA-ramverket redigera posterna mer effektivt och selektivt medan det syntetiserar belöningsfunktioner som är i förbättrad samverkan med förstärkt inlärningsalgoritm.
Träning och baslinje
Det finns två stora träningskomponenter i EUREKA-ramverket: Policyinlärning och Belöningsutvärderingsmått.
Policyinlärning
De slutliga belöningsfunktionerna för varje enskild uppgift optimeras med hjälp av samma förstärkta inlärningsalgoritm med samma uppsättning hyperparametrar som är finjusterade för att göra de mänskligt konstruerade belöningsfunktionerna fungera väl.
Belöningsutvärderingsmått
Eftersom uppgiftsmåttet varierar i termer av skala och semantisk mening med varje uppgift, rapporterar EUREKA-ramverket den mänskligt normaliserade poängen, ett mått som tillhandahåller en holistisk mått för ramverket att jämföra hur det presterar mot de expert-mänskligt genererade belöningar i enlighet med grund-sanningmåtten.
Fortsättning, det finns tre primära baslinjer: L2R, Mänsklig, och Gles.
L2R
L2R är en dubbelt-steg Large Language Model som hjälper till att generera mallbaserade belöningar. Först fyller ett LLM-ramverk i en naturlig språkmall för miljö och uppgift specificerad i naturligt språk, och sedan konverterar ett andra LLM-ramverk denna “rörelsebeskrivning” till en kod som skriver en belöningsfunktion genom att anropa en uppsättning manuellt skrivna belönings-API-primitiver.
Mänsklig
Mänsklig baslinjen är de ursprungliga belöningsfunktionerna skrivna av förstärkt inlärningsforskare, och representerar därmed resultaten av mänsklig belöningskonstruktion på en utanför jämförelse nivå.
Gles
Gles baslinjen liknar fitnessfunktionerna, och de används för att utvärdera kvaliteten på de belöningar som ramverket genererar.
Resultat och utfall
För att analysera prestationen hos EUREKA-ramverket, kommer vi att utvärdera det på olika parametrar, inklusive dess prestation mot mänskliga belöningar, förbättring av resultat över tid, generering av nya belöningar, möjliggörande av riktad förbättring, och arbete med mänsklig återkoppling.
EUREKA överträffar mänskliga belöningar
Följande figur illustrerar de sammanslagna resultaten över olika benchmark, och som det kan tydligt observeras, presterar EUREKA-ramverket antingen bättre eller på samma nivå som mänskliga belöningar på både Dexterity och Issac-uppgifter. I jämförelse levererar L2R-baslinjen en liknande prestation på lågdimensionella uppgifter, men när det gäller högdimensionella uppgifter är gapet i prestationen ganska betydande.

Konsekvent förbättring över tid
En av de stora höjdpunkterna hos EUREKA-ramverket är dess förmåga att konsekvent förbättra och förbättra sin prestation över tid med varje iteration, och resultaten visas i figuren nedan.

Som det kan tydligt ses, genererar ramverket konsekvent bättre belöningar med varje iteration, och det förbättrar och slutligen överträffar prestationen hos mänskliga belöningar, tack vare dess användning av inkontextuell evolutionsbelöningsökning.
Generering av nya belöningar
Nyhetsvärdet hos belöningarna i EUREKA-ramverket kan bedömas genom att beräkna korrelationen mellan mänskliga och EUREKA-belöningar på hela Issac-uppgifter. Dessa korrelationer är sedan plottade på en spridningsplot eller karta mot de mänskligt normaliserade poängen, med varje punkt på plotten representerande en enskild EUREKA-belöningsfunktion för varje enskild uppgift. Som det kan tydligt ses, genererar EUREKA-ramverket i huvudsak svagt korrelerade belöningsfunktioner som överträffar de mänskliga belöningsfunktionerna.

Möjliggörande av riktad förbättring
För att utvärdera betydelsen av att lägga till belöningsreflektion i belöningsåterkoppling, utvärderade utvecklare en ablation, en EUREKA-ramverk utan belöningsreflektion som reducerar återkopplingsprompten till att endast bestå av ögonblicksvärden. När de körde Issac-uppgifter, observerade utvecklare att utan belöningsreflektion, upplevde EUREKA-ramverket en minskning av cirka 29% i den genomsnittliga normaliserade poängen.
Arbete med mänsklig återkoppling
För att lätt inkorporera en bred uppsättning av indata för att generera mänskligt anpassade och presterande belöningsfunktioner, introducerar EUREKA-ramverket, förutom automatiserad belöningsdesign, en ny gradientfri inkontextinlärningsapproach till förstärkt inlärning från mänsklig återkoppling, och det fanns två betydande observationer.
- EUREKA kan dra nytta av och förbättra mänskliga belöningsfunktioner.
- Användning av mänsklig återkoppling för belöningsreflektion inducerar anpassat beteende.

Ovanstående figur visar hur EUREKA-ramverket visar en betydande förbättring av prestation och effektivitet med hjälp av mänsklig belöningsinitiering, oavsett kvaliteten på de mänskliga belöningarna, vilket tyder på att kvaliteten på basbelöningarna inte har en betydande inverkan på den inkontextuella belöningsförbättringsförmågan hos ramverket.

Ovanstående figur illustrerar hur EUREKA-ramverket inte bara kan inducera mer mänskligt anpassade policyer, utan också modifiera belöningar genom att inkorporera mänsklig återkoppling.
Slutliga tankar
I den här artikeln har vi talat om EUREKA, ett LLM-baserat mänsklig nivå designalgoritm, som försöker utnyttja olika förmågor hos LLM-ramverken, inklusive kodskrivning, inkontextuell förbättring och nollskotts-innehållsgenerering, för att utföra en utanför jämförelse optimering av belöningskoder. Belöningskoden, i kombination med förstärkt inlärning, kan sedan användas av dessa ramverk för att lära sig komplexa färdigheter eller utföra manipulationsuppgifter. Utan mänsklig intervention eller uppgiftsspecifik promptkonstruktion, levererar ramverket mänsklig nivå belöningsgenereringsförmåga på en bred uppsättning uppgifter, och dess stora styrka ligger i att lära sig komplexa uppgifter med en curriculuminlärningsapproach.
Sammanfattningsvis, den betydande prestationen och flexibiliteten hos EUREKA-ramverket indikerar potentialen i att kombinera evolutionsalgoritmer med stora språkmodeller, vilket kan resultera i en skalbar och allmän approach till design av belöningar, och denna insikt kan vara tillämplig på andra öppna sökproblem.










