Kunstig intelligens

EUREKA: Menneske-nivå belønningdesign via kode-store språkmodeller

Publisert 21. november 2023

Oppdatert 22. mai 2026

Kunal Kejriwal

Med de fremskritt store språkmodeller har gjort de siste årene, er det ikke overraskende at disse rammevirkene excellerer som semantiske planleggere for sekvensielle høynivå beslutningstakser. Likevel finner utviklere det fortsatt utfordrende å utnytte det fulle potensialet til store språkmodeller for å lære komplekse lavnivå manipulasjonstakser. Til tross for deres effektivitet, trenger dagens store språkmodeller betydelig domene- og fagkunnskap for å lære selv enkle ferdigheter eller konstruere tekstuelle prompter, og skaper dermed en betydelig gap mellom deres ytelse og menneske-nivå dyktighet.

For å lukke denne gapen, har utviklere fra Nvidia, CalTech, UPenn og andre introdusert EUREKA, en LLM-drevet menneske-nivå designalgoritme. EUREKA har som mål å utnytte ulike evner i store språkmodeller, inkludert kode-skriveri, kontekst-forbedring og null-skudd innholdsgenerering, for å utføre utenforliggende optimalisering av belønningskoder. Disse belønningskodene, kombinert med forsterkingslæring, muliggjør at rammevirkene kan lære komplekse ferdigheter eller utføre manipulasjonstakser.

I denne artikkelen vil vi undersøke EUREKA-rammevirkene fra et utviklingsperspektiv, og utforske dens ramme, virkemåte og resultater den oppnår i å generere belønningfunksjoner. Disse funksjonene, ifølge utviklerne, overgår de som er generert av mennesker. Vi vil også dykke ned i hvordan EUREKA-rammevirkene åpner opp for en ny tilnærming til RLHF (Forsterkingslæring med menneskelig tilbakemelding) ved å muliggjøre gradient-fri kontekstlæring. La oss komme i gang.

EUREKA : En introduksjon

I dag, state of the art LLM-rammevirkene som GPT-3 og GPT-4 leverer utmerkede resultater når de fungerer som semantiske planleggere for sekvensielle høynivå beslutningstakser, men utviklere søker fortsatt måter å forbedre deres ytelse når det gjelder å lære lavnivå manipulasjonstakser som pen-spinning dyktighet. Videre har utviklere observert at forsterkingslæring kan brukes til å oppnå bærekraftige resultater i dyktige betingelser og andre domener, gitt at belønningfunksjonene er konstruert omsorgsfullt av menneskelige designere, og disse belønningfunksjonene er i stand til å levere læringsignalene for gunstige atferder. Når sammenlignet med virkelige forsterkingslæringstakser som aksepterer sparsomme belønninger, gjør det vanskelig for modellen å lære mønsterene, og formasjon av disse belønningene gir de nødvendige inkrementelle læringsignalene. Videre er belønningfunksjoner, til tross for deres betydning, ekstremt utfordrende å designe, og underoptimalt design av disse funksjonene kan ofte føre til uventede atferder.

For å møte disse utfordringene og maksimere effektiviteten til disse belønnings tokenene, har EUREKA eller Evolusjonsdrevet Universell BElønning Kit for Agent har som mål å bidra med følgende.

Å oppnå menneske-nivå ytelse for å designe belønningfunksjoner.
Effektivt løse manipulasjonstakser uten å bruke manuell belønningsteknikk.
Generere mer menneske-orienterte og mer effektive belønningfunksjoner ved å introdusere en ny gradient-fri kontekstlæringstilnærming i stedet for tradisjonell RLHF eller Forsterkingslæring fra menneskelig tilbakemelding metode.

Det er tre nøkkelalgoritmiske designvalg som utviklerne har valgt for å forbedre EUREKAs generellhet: evolusjons søk, miljø som kontekst og belønning refleksjon. Først tar EUREKA-rammevirkene miljøkilden som kontekst for å generere eksekverbare belønningfunksjoner i en null-skudd innstilling. Deretter utfører rammevirkene en evolusjonssøk for å forbedre kvaliteten på sine belønninger vesentlig, foreslår batcher av belønningkandidater med hver iterasjon eller epoke, og finjusterer de som den finner å være de mest lovende. I den tredje og siste fasen, bruker rammevirkene belønning refleksjon for å gjøre kontekstforbedringen av belønninger mer effektiv, en prosess som ultimate hjelper rammevirkene å aktivere målrettet og automatisert belønning redigering ved å bruke en tekstuell sammenfatting av kvaliteten på disse belønningene basert på policytrening statistikk. Følgende figur gir deg en kort oversikt over hvordan EUREKA-rammevirkene fungerer, og i den kommende seksjonen vil vi snakke om arkitekturen og virkemåten i større detalj.

EUREKA : Modellarkitektur og problemstilling

Det primære målet med belønning forming er å returnere en formet eller kurert belønningfunksjon for en grunn-sannhets belønningfunksjon, som kan være vanskelig å optimalisere direkte som sparsomme belønninger. Videre kan designere bare bruke forespørsler til å få tilgang til disse grunn-sannhets belønningfunksjonene, som er grunnen til at EUREKA-rammevirkene velger belønning generering, en program syntese innstilling basert på RDP eller Belønning Design Problemet.

Belønning Design Problemet eller RDP er en tuple som inneholder en verden modell med en tilstand rom, rom for belønningfunksjoner, en overgang funksjon og en handling rom. En læringsalgoritme optimaliserer deretter belønninger ved å generere en policy som resulterer i en MDP eller Markov Design Proses, som kun kan aksesseres ved å bruke policy forespørsler. Det primære målet med RDP er å utgang en belønningfunksjon på en måte som policyen kan oppnå maksimal fitness score. I EUREKAs problemstilling, har utviklerne spesifisert hver komponent i Belønning Design Problemet ved å bruke kode. Videre, for en gitt streng som spesifiserer detaljene til oppgaven, er det primære målet med belønning genereringsproblemet å generere en belønningfunksjonskode for å maksimere fitness scoren.

Videre, på sitt kjernepunkt, er det tre grunnleggende algoritmiske komponenter i EUREKA-rammevirkene. Evolusjonssøk (forslag og forbedring av kandidater iterativt), miljø som kontekst (generering av eksekverbare belønninger i null-skudd innstilling) og belønning refleksjon (for å aktivere fin-granulert forbedring av belønninger). Pseudokoden for algoritmen er illustrert i følgende bilde.

Miljø som kontekst

For tiden, trenger store språkmodeller miljøspesifikasjoner som inndata for å designe belønninger, mens EUREKA-rammevirkene foreslår å mata inn den rå miljøkoden direkte som kontekst, uten belønningkoden, og tillater store språkmodeller å ta verden modellen som kontekst. Tilnærmingen som følges av EUREKA har to store fordeler. Først er store språkmodeller for kodeformål trent på native kode sett som er skrevet i eksisterende programmeringsspråk som C, C++, Python, Java og mer, som er grunnen til at de er bedre på å produsere kodeutdata når de er direkte tillatt å komponere kode i syntaksen og stilen de har opprinnelig vært trent på. For det andre, avslører miljøkilden vanligvis miljøene involvert semantisk, og variablene som er best egnet for bruk i et forsøk på å utgang en belønningfunksjon i henhold til den spesifiserte oppgaven. Basert på disse innsiktene, instruerer EUREKA-rammevirkene store språkmodeller å returnere en mer eksekverbar Python-kode direkte med hjelp av bare formateringstips og generiske belønningdesign.

Evolusjonssøk

Inklusjonen av evolusjonssøk i EUREKA-rammevirkene har som mål å presentere en naturlig løsning på underoptimalitetsutfordringene og feil som oppstår under eksekvering, som nevnt tidligere. Med hver iterasjon eller epoke, genererer rammevirkene flere uavhengige utdata fra store språkmodeller, og gitt at genereringene er alle uavhengige, reduserer det eksponentielt sannsynligheten for at belønningfunksjoner under iterasjonene er feilaktige, gitt at antallet prøver øker med hver epoke.

I neste trinn, bruker EUREKA-rammevirkene de eksekverbare belønningfunksjonene fra forrige iterasjon for å utføre en kontekstuell belønning mutasjon, og foreslår deretter en ny og forbedret belønningfunksjon basert på tekstuell tilbakemelding. EUREKA-rammevirkene, kombinert med kontekstuell forbedring og instruksjonsfølging evner i store språkmodeller, er i stand til å spesifisere mutasjonsoperatoren som en tekstprompt, og foreslår en metode for å bruke tekstuell sammenfatting av policytrening til å modifisere eksisterende belønningkoder.

Belønning refleksjon

For å grunnlegge kontekstuell belønning mutasjon, er det essensielt å vurdere kvaliteten på de genererte belønningene, og mer viktig, å sette dem i ord, og EUREKA-rammevirkene møter dette ved å bruke den enkle strategien med å levere numeriske poeng som belønning evaluering. Når oppgave fitness funksjonen tjener som en helhetlig målestokk for grunn-sannhet, mangler den kreditttildeling, og er ikke i stand til å gi noen verdifull informasjon om hvorfor belønningfunksjonen fungerer, eller hvorfor den ikke fungerer. Så, i et forsøk på å gi en mer målrettet og intrikat belønning diagnose, foreslår rammevirkene å bruke automatiserte tilbakemeldinger for å sammenfatte policytrening dynamikk i tekst. Videre, i belønning programmer, blir belønningfunksjonene i EUREKA-rammevirkene bedt om å eksponere sine komponenter individuelt, og tillater rammevirkene å spore skalarverdier av hver unik belønning komponent på policy sjekkpunkter under hele trening fasen.

Til tross for at belønning prosedyren som følges av EUREKA-rammevirkene er enkel å konstruere, er den essensiell på grunn av den algoritmiske avhengige naturen til å optimalisere belønninger. Det betyr at effektiviteten av en belønningfunksjon er direkte påvirket av valget av en Forsterkingslæring algoritme, og med en endring i hyperparametere, kan belønningfunksjonen fungere forskjellig selv med samme optimizer. Derfor er EUREKA-rammevirkene i stand til å redigere rekordene mer effektivt og selektivt mens de syntetiserer belønningfunksjoner som er i forbedret harmoni med Forsterkingslæring algoritmen.

Trening og baseline

Det er to store trening komponenter i EUREKA-rammevirkene: Policy læring og Belønning evaluering metrikker.

Policy læring

Den endelige belønningfunksjonen for hver enkelt oppgave er optimalisert med hjelp av samme forsterkingslæring algoritme ved å bruke samme sett med hyperparametere som er finjustert for å gjøre menneske-ingeniørte belønningfunksjoner fungere godt.

Belønning evaluering metrikker

Ettersom oppgave metrikken varierer i skala og semantisk mening med hver oppgave, rapporterer EUREKA-rammevirkene menneske-normalisert poeng, en metrikk som gir en helhetlig målestokk for rammevirkene å sammenligne hvordan den fungerer i forhold til ekspert-menneske-genererte belønninger i henhold til grunn-sannhets metrikker.

Videre, er det tre primære baseline: L2R, Menneske, og Sparse.

L2R

L2R er en dual-stage stor språkmodell prompt løsning som hjelper med å generere malte belønninger. Først fyller en stor språkmodell inn en naturlig språk mal for miljø og oppgave spesifisert i naturlig språk, og deretter konverterer en annen stor språkmodell denne “bevegelsesbeskrivelsen” til en kode som skriver en belønningfunksjon ved å kalle en sett med manuelt skrevne belønning API-primitiver.

Menneske

Menneske baseline er de originale belønningfunksjonene skrevet av forsterkingslæring forskere, og representerer dermed resultater av menneskelig belønningsteknikk på et utenforliggende nivå.

Sparse

Sparse baseline ligner fitness funksjonene, og de brukes til å evaluere kvaliteten på belønningene rammevirkene genererer.

Resultater og utfall

For å analysere ytelsen til EUREKA-rammevirkene, vil vi evaluere den på ulike parametre, inkludert dens ytelse mot menneskelig belønninger, forbedring over tid, generering av nye belønninger, aktivere målrettet forbedring, og arbeide med menneskelig tilbakemelding.

EUREKA overgår menneskelig belønninger

Følgende figur illustrerer de samlede resultater over ulike benchmark, og som det kan tydelig sees, overgår eller fungerer EUREKA-rammevirkene på lik linje med menneske-nivå belønninger på både Dexterity og Issac oppgaver. I sammenligning, leverer L2R baseline lignende ytelse på lav-dimensjonale oppgaver, men når det gjelder høy-dimensjonale oppgaver, er gapet i ytelsen ganske betydelig.

Konstant forbedring over tid

En av de største høydepunktene til EUREKA-rammevirkene er deres evne til å konstant forbedre og forbedre ytelsen over tid med hver iterasjon, og resultater demonstreres i figuren under.

Som det kan tydelig sees, genererer rammevirkene konstant bedre belønninger med hver iterasjon, og den også forbedrer og overgår til slutt menneskelig belønning ytelse, takket være bruken av kontekstuell evolusjonær belønning søk tilnærming.

Generering av nye belønninger

Nyhetsverdien til belønningene til EUREKA-rammevirkene kan vurderes ved å beregne korrelasjonen mellom menneskelig og EUREKA belønninger på hele Issac oppgaver. Disse korrelasjonene er deretter plottet på en spredningsplot eller kart mot menneske-normaliserte poeng, med hver punkt på plottet representerer en enkelt EUREKA belønning for hver enkelt oppgave. Som det kan tydelig sees, genererer EUREKA-rammevirkene hovedsakelig svakt korrelerte belønningfunksjoner som overgår menneskelig belønningfunksjoner.

Aktivere målrettet forbedring

For å evaluere viktigheten av å legge til belønning refleksjon i belønning tilbakemelding, evaluerte utviklerne en ablasjon, en EUREKA-rammevirkene uten belønning refleksjon som reduserer tilbakemeldingspromptene til å bestå kun av snapshot verdier. Når de kjørte Issac oppgaver, observerte utviklerne at uten belønning refleksjon, opplevde EUREKA-rammevirkene en nedgang på ca. 29% i gjennomsnittlig normalisert poeng.

Arbeide med menneskelig tilbakemelding

For å lett inkorporere en bred rekke av inndata for å generere menneske-orienterte og mer effektive belønningfunksjoner, introduserer EUREKA-rammevirkene, i tillegg til automatiserte belønning design, en ny gradient-fri kontekstlæringstilnærming til Forsterkingslæring fra menneskelig tilbakemelding, og det var to betydelige observasjoner.

EUREKA kan dra nytte av og forbedre menneskelig belønningfunksjoner.
Bruk av menneskelig tilbakemelding for belønning refleksjon inducerer sammenfallende atferd.

Figuren over demonstrerer hvordan EUREKA-rammevirkene viser en betydelig forbedring i ytelse og effektivitet ved å bruke menneskelig belønning initialisering, uavhengig av kvaliteten på menneskelig belønninger, og antyder at kvaliteten på grunnbelønningene ikke har en betydelig innvirkning på kontekstuell belønning forbedrings evne til rammevirkene.

Figuren over illustrerer hvordan EUREKA-rammevirkene ikke bare kan inducere mer menneske-orienterte politikker, men også modifisere belønninger ved å inkorporere menneskelig tilbakemelding.

Slutt tanker

I denne artikkelen har vi snakket om EUREKA, en LLM-drevet menneske-nivå designalgoritme, som forsøker å utnytte ulike evner i store språkmodeller, inkludert kode-skriveri, kontekst-forbedring og null-skudd innholdsgenerering, for å utføre utenforliggende optimalisering av belønningskoder. Belønningskoden, kombinert med forsterkingslæring, kan deretter brukes av disse rammevirkene til å lære komplekse ferdigheter eller utføre manipulasjonstakser. Uten menneskelig inngripen eller oppgave-spesifikke prompt-teknikk, leverer rammevirkene menneske-nivå belønning genererings evner på en bred rekke av oppgaver, og dens største styrke ligger i å lære komplekse oppgaver med en kurve-læringstilnærming.

Overhodet, antyder den betydelige ytelsen og fleksibiliteten til EUREKA-rammevirkene at kombinasjonen av evolusjonsalgoritmer og store språkmodeller kan resultere i en skalerbar og generell tilnærming til å designe belønninger, og denne innsikten kan være anvendbar på andre åpne søkeproblemer.

Kunal Kejriwal

En ingeniør av yrke, en forfatter av hjerte. Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse av AI og ML, dedikert til å forenkle komplekse konsepter i disse feltene gjennom sin engasjerende og informerende dokumentasjon.