Umělá inteligence

EUREKA: Návrh odměn na úrovni člověka pomocí kódování velkých jazykových modelů

Published November 21, 2023

Updated April 4, 2026

Kunal Kejriwal

S pokroky, kterých dosáhly velké jazykové modely v posledních letech, není překvapivé, proč tyto rámce LLM vynikají jako semantické plánovače pro sekvenční úkoly rozhodování na vysoké úrovni. Nicméně, vývojáři stále nachází obtížné využít plný potenciál rámců LLM pro učení složitých úkolů nízké úrovně. Navzdory jejich efektivitě, dnešní velké jazykové modely vyžadují značné znalosti domény a předmětu, aby se naučily i jednoduché dovednosti nebo vytvořily textové výzvy, což vytváří značnou mezеру mezi jejich výkonem a lidskou zručností.

Aby se tato mezera zmenšila, vývojáři z Nvidia, CalTech, UPenn a dalších představili EUREKA, algoritmus návrhu odměn na úrovni člověka, který využívá LLM. EUREKA má za cíl využít různých schopností rámců LLM, včetně psaní kódu, kontextového zlepšování a generování obsahu bez přípravy, aby dosáhl bezprecedentní optimalizace kódů odměn. Tyto kódy odměn, v kombinaci s učení pomocí posilování, umožňují rámcům učit se složitým dovednostem nebo vykonávat úkoly manipulace.

V tomto článku budeme zkoumat rámec EUREKA z pohledu vývojáře, prozkoumáme jeho architekturu, fungování a výsledky, kterých dosahuje při generování funkcí odměn. Tyto funkce, podle tvrzení vývojářů, překonávají ty, které jsou generovány lidmi. Také se budeme zabývat tím, jak rámec EUREKA otevírá novou cestu pro přístup k RLHF (učení pomocí lidské zpětné vazby) umožňující gradient-free kontextové učení. Pojďme začít.

EUREKA : Úvod

Dnes, špičkové rámce LLM jako GPT-3 a GPT-4 dodávají vynikající výsledky, když slouží jako semantické plánovače pro sekvenční úkoly rozhodování na vysoké úrovni, ale vývojáři stále hledají způsoby, jak vylepšit jejich výkon, pokud jde o učení úkolů nízké úrovně, jako je zručnost otáčení pera. Kromě toho, vývojáři pozorovali, že učení pomocí posilování lze použít k dosažení udržitelných výsledků v zručných podmínkách a dalších doménách, pokud jsou funkce odměn pečlivě navrženy lidskými designéry a tyto funkce odměn jsou schopny poskytovat signály učení pro příznivé chování. Když jsou srovnány se skutečnými úkoly učení pomocí posilování, které přijímají řídké odměny, což činí obtížným pro model učit se vzorce, tvarování těchto odměn poskytuje nezbytné.incrementální signály učení. Kromě toho, funkce odměn, navzdory jejich důležitosti, jsou extrémně obtížné navrhnout a suboptimální návrhy těchto funkcí často vedou k neúmyslnému chování.

Aby se tyto výzvy zvládly a maximalizovala efektivita těchto tokenů odměn, rámec EUREKA nebo Evolučně-řízený Universal REward Kit pro Agent má následující cíle.

Dosáhnout lidské úrovně výkonu pro návrh funkcí odměn.
Úspěšně vyřešit úkoly manipulace bez použití ručního inženýrství odměn.
Generovat více lidsky orientované a výkonnější funkce odměn, než je tradiční RLHF nebo učení pomocí lidské zpětné vazby, pomocí nového gradient-free kontextového učení.

Existují tři klíčové algoritmické designové volby, které vývojáři zvolili pro zlepšení obecnosti EUREKA: evoluční hledání, prostředí jako kontext a reflexe odměn. Nejprve, rámec EUREKA bere zdrojový kód prostředí jako kontext pro generování spustitelných funkcí odměn v nastavení bez přípravy. Následně, rámec provede evoluční hledání ke zlepšení kvality svých odměn, navrhuje dávky kandidátů na odměny s každou iterací nebo epochou a rafinuje ty, které považuje za nejperspektivnější. Ve třetí a poslední fázi, rámec používá reflexi odměn pro zlepšení efektivity kontextového zlepšování odměn, proces, který nakonec pomáhá rámcům umožnit cílené a automatizované úpravy odměn pomocí textového souhrnu kvality těchto odměn na základě statistik školení politik.

EUREKA : Architektura modelu a nastavení problému

Hlavním cílem tvarování odměn je vrátit tvarovanou nebo kurátorskou funkci odměn pro grund-truth funkci odměn, což může být obtížné, pokud je přímo optimalizováno, jako řídké odměny. Kromě toho, designéři mohou použít dotazy pouze pro přístup k těmto grund-truth funkcím odměn, což je důvod, proč rámec EUREKA zvolil generování odměn, nastavení syntézy programu založené na RDP nebo Problematice návrhu odměn.

Problematika návrhu odměn nebo RDP je tuple, který obsahuje model světa s prostorem stavů, prostorem funkcí odměn, přechodovou funkcí a prostorem akcí. Algoritmus učení pak optimalizuje odměny generováním politiky, která vede k MDP nebo Markovskému procesu, který produkuje skalární vývoj libovolné politiky a může být přístupný pouze pomocí dotazů na politiku. Hlavním cílem RDP je výstup funkce odměn tak, aby politika dosáhla maximálního fitness skóre. V nastavení problému EUREKA, vývojáři specifikovali každý komponent v Problematice návrhu odměn pomocí kódu. Kromě toho, pro daný řetězec, který specifikuje detaily úkolu, hlavním cílem problému generování odměn je vygenerovat kód funkce odměn pro maximalizaci fitness skóre.

Pokračujeme, ve svém jádru, existují tři fundamentální algoritmické komponenty v rámcu EUREKA. Evoluční hledání (navrhování a oceňování kandidátů iterativně), prostředí jako kontext (generování spustitelných odměn v nastavení bez přípravy) a reflexe odměn (pro umožnění jemného zlepšování odměn). Pseudo-kód pro algoritmus je ilustrován v následující obrazovce.

Prostředí jako kontext

V současné době, rámce LLM vyžadují specifikace prostředí jako vstup pro návrh odměn, zatímco rámec EUREKA navrhuje krmit surový kód prostředí přímo jako kontext, bez kódu odměn, což umožňuje rámcům LLM vzít model světa jako kontext. Přístup, který následuje EUREKA, má dvě hlavní výhody. První, rámce LLM pro kódování jsou školeny na nativních sadách kódu, které jsou napsány v existujících programovacích jazycích, jako C, C++, Python, Java a více, což je fundamentální důvod, proč jsou lepší při produkci kódu, když jsou přímo umožněny komponovat kód v syntaxi a stylu, na kterém byli původně školeni. Druhé, použití zdrojového kódu prostředí obvykle odhaluje prostředí zapojená semanticky a proměnné, které jsou vhodné pro použití v pokusu o výstup funkce odměn v souladu se specifikovaným úkolem. Na základě těchto poznatků, rámec EUREKA instruuje LLM, aby vrátil více spustitelný Python kód přímo s pomocí pouze formátovacích tipů a obecných návrhových odměn.

Evoluční hledání

Zahrnutí evolučního hledání do rámce EUREKA má za cíl představit přirozené řešení suboptimálních výzev a chyb, ke kterým dochází během provádění, jak je zmíněno dříve. S každou iterací nebo epochou, rámec produkuje různé nezávislé výstupy z velkého jazykového modelu a poskytuje, že generace jsou všechny i.i.d, což exponenciálně snižuje pravděpodobnost, že funkce odměn během iterací budou chybné, pokud je počet vzorků zvyšován s každou epochou.

V další fázi, rámec EUREKA používá spustitelné funkce odměn z předchozí iterace pro provedení kontextového mutování odměn a poté navrhuje novou a vylepšenou funkci odměn na základě textové zpětné vazby. Rámec EUREKA, když je kombinován s kontextovým zlepšováním a instrukčními schopnostmi velkých jazykových modelů, je schopen specifikovat mutační operátor jako textový prompt a navrhuje metodu pro použití textového souhrnu školení politiky pro úpravu existujících kódů odměn.

Reflexe odměn

Aby se kontextové mutace odměn zakotvily, je nezbytné zhodnotit kvalitu vygenerovaných odměn a ještě důležitější, vyjádřit je slovy, a rámec EUREKA zvládá to pomocí jednoduché strategie poskytování numerických skórů jako hodnocení odměn. Když funkce fitness slouží jako holistický metrik pro grund-truth, chybí přiřazení kreditu a není schopna poskytnout žádnou cennou informaci o tom, proč funkce odměn funguje nebo proč nefunguje. Proto, v pokusu o poskytnutí více cílené a jemné diagnózy odměn, rámec navrhuje použít automatizované zpětné vazby pro souhrn dynamiky školení politiky v textech. Kromě toho, v programu odměn, funkce odměn v rámcu EUREKA jsou požádány, aby vystavily své komponenty jednotlivě, což umožňuje rámcům sledovat skalární hodnoty každé unikátní komponenty odměn na kontrolních bodech politiky během celého školicího procesu.

Ačkoli postup funkce odměn, který následuje rámec EUREKA, je jednoduchý na konstrukci, je nezbytný kvůli algoritmicky závislé povaze optimalizace odměn. To znamená, že účinnost funkce odměn je přímo ovlivněna volbou algoritmu učení pomocí posilování a se změnou hyperparametrů, odměna může fungovat jinak, i se stejným optimalizátorem. Proto, rámec EUREKA je schopen editovat záznamy účinněji a selektivněji, zatímco syntetizuje funkce odměn, které jsou v lepší synergii s algoritmem učení pomocí posilování.

Školení a baseline

Existují dvě hlavní školicí komponenty rámce EUREKA: Školení politiky a Metriky hodnocení odměn.

Školení politiky

Konečné funkce odměn pro každý jednotlivý úkol jsou optimalizovány pomocí stejného algoritmu učení pomocí posilování s použitím stejné sady hyperparametrů, které jsou doladěny pro to, aby funkce odměn navržené člověkem fungovaly dobře.

Metriky hodnocení odměn

Jako metrika úkolu se liší v měřítku a sémantickém významu s každým úkolem, rámec EUREKA hlásí normalizovaný skór člověka, metriku, která poskytuje holistický měřítko pro rámec porovnat, jak funguje ve srovnání s odborníky, kteří generují odměny v souladu s grund-truth metrikami.

Pokračujeme, existují tři primární baseline: L2R, Člověk, a Řídké.

L2R

L2R je dual-stage Large Language Model řešení, které pomáhá generovat šablonované odměny. První, rámec LLM vyplňuje přirozený jazykový šablonu pro prostředí a úkol specifikovaný v přirozeném jazyce a poté druhý rámec LLM převádí tuto „popis pohybu“ do kódu, který píše funkci odměn voláním sady manuálně psaných primitiv funkcí odměn.

Člověk

Baseline Člověk jsou původní funkce odměn napsané výzkumníky učení pomocí posilování, zastupující výsledky lidského inženýrství odměn na bezprecedentní úrovni.

Řídké

Baseline Řídké se podobají funkcím fitness a jsou použity pro hodnocení kvality odměn, které rámec generuje.

Výsledky a závěry

Abychom analyzovali výkon rámce EUREKA, budeme jej hodnotit na různých parametrech, včetně jeho výkonu proti lidským odměnám, zlepšení výsledků v čase, generování nových odměn, umožnění cíleného zlepšování, a práce s lidskou zpětnou vazbou.

EUREKA překonává lidské odměny

Následující obrazovka ilustruje agregované výsledky přes různé benchmarky a jak je zřejmé, rámec EUREKA buď překonává nebo funguje na stejné úrovni jako lidské odměny na úkolech Dexterity a Issac. V porovnání, baseline L2R dodává podobný výkon na úkolech s nízkou dimenzionalitou, ale když jde o úkoly s vysokou dimenzionalitou, mezera v výkonu je bastante podstatná.

Přetrvávající zlepšování v čase

Jedním z hlavních highlightů rámce EUREKA je jeho schopnost neustále zlepšovat a vylepšovat svůj výkon v čase s každou iterací a výsledky jsou demonstrovány v následující obrazovce.

Jak je zřejmé, rámec neustále generuje lepší odměny s každou iterací a také zlepšuje a nakonec překonává výkon lidských odměn, díky jeho použití kontextového evolučního hledání odměn.

Generování nových odměn

Novost odměn rámce EUREKA lze zhodnotit výpočtem korelace mezi lidskými a EUREKA odměnami na všech úkolech Issac. Tyto korelace jsou poté zobrazeny na scatter-plotu nebo mapě proti normalizovaným skórům člověka, přičemž každý bod na plotu reprezentuje jednotlivou odměnu EUREKA pro každý úkol. Jak je zřejmé, rámec EUREKA převážně generuje slabě korelované funkce odměn, které překonávají lidské funkce odměn.

Umožnění cíleného zlepšování

Aby se zhodnotila důležitost přidání reflexe odměn do zpětné vazby odměn, vývojáři vyhodnotili ablacii, rámec EUREKA bez reflexe odměn, který snižuje zpětnou vazbu na snapshot hodnoty. Když běžel úkoly Issac, vývojáři pozorovali, že bez reflexe odměn, rámec EUREKA zaznamenal pokles o asi 29% v průměrném normalizovaném skóre.

Práce s lidskou zpětnou vazbou

Aby se snadno zahrnula široká škála vstupů pro generování lidsky orientovaných a výkonnějších funkcí odměn, rámec EUREKA kromě automatizovaného návrhu odměn také představuje nový gradient-free kontextový přístup k učení pomocí lidské zpětné vazby a byly dvě významné observace.

EUREKA může profitovat a zlepšit se z lidských funkcí odměn.
Použití lidské zpětné vazby pro reflexi odměn indukuje orientované chování.

Předchozí obrazovka demonstruje, jak rámec EUREKA demonstruje podstatný nárůst výkonu a efektivity pomocí inicializace lidských odměn, bez ohledu na kvalitu lidských odměn, což naznačuje, že kvalita základních odměn nemá podstatný vliv na schopnosti kontextového zlepšování odměn rámce.

Předchozí obrazovka ilustruje, jak rámec EUREKA nejen indukuje více lidsky orientované politiky, ale také modifikuje odměny zahrnutím lidské zpětné vazby.

Závěrečné myšlenky

V tomto článku, jsme mluvili o EUREKA, LLM-powerném algoritmu návrhu na úrovni člověka, který se snaží využít různé schopnosti rámců LLM, včetně psaní kódu, kontextového zlepšování a generování obsahu bez přípravy, aby provedl bezprecedentní optimalizaci kódů odměn. Kód odměn, v kombinaci s učení pomocí posilování, může být poté použit rámcem pro učení složitým dovednostem nebo vykonávání úkolů manipulace. Bez lidského zásahu nebo úkolu-specifického inženýrství promptů, rámec dodává lidskou úroveň generování odměn na široké škále úkolů a jeho hlavní síla spočívá v učení složitých úkolů s přístupem k učební křivce.

Celkově, podstatný výkon a všestrannost rámce EUREKA naznačuje potenciál kombinace evolučních algoritmů s velkými jazykovými modely, který může vést k škálovatelnému a obecnému přístupu k návrhu odměn a tento pohled může být aplikován i na další otevřené problémy hledání.