Refresh

This website www.unite.ai/sk/eureka-human-level-reward-design-via-coding-large-language-models/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

peň EUREKA: Návrh odmien na ľudskej úrovni prostredníctvom kódovania veľkých jazykových modelov – Unite.AI
Spojte sa s nami

Umelá inteligencia

EUREKA: Návrh odmien na ľudskej úrovni prostredníctvom kódovania veľkých jazykových modelov

mm
Aktualizované on

Vďaka pokrokom, ktoré Large Language Models dosiahli v posledných rokoch, nie je prekvapujúce, prečo tieto rámce LLM vynikajú ako sémantické plánovače pre sekvenčné rozhodovacie úlohy na vysokej úrovni. Vývojári však stále považujú za náročné využiť plný potenciál rámcov LLM na učenie sa zložitých úloh manipulácie na nízkej úrovni. Napriek svojej efektívnosti vyžadujú dnešné veľké jazykové modely značnú odbornosť v oblasti a predmetu, aby sa naučili čo i len jednoduché zručnosti alebo vytvorili textové výzvy, čo vytvára značnú priepasť medzi ich výkonom a zručnosťou na ľudskej úrovni.

Na preklenutie tejto medzery vývojári z Nvidia, CalTech, UPenn a ďalších zaviedli EUREKA, algoritmus na navrhovanie na ľudskej úrovni poháňaný LLM. EUREKA sa zameriava na využitie rôznych možností rámcov LLM, vrátane písania kódu, zlepšovania kontextu a generovania obsahu s nulovým záberom, na vykonanie bezprecedentnej optimalizácie odmeňovacích kódov. Tieto kódy odmien v kombinácii s posilňujúcim učením umožňujú rámcom naučiť sa zložité zručnosti alebo vykonávať manipulačné úlohy.

V tomto článku preskúmame rámec EUREKA z perspektívy rozvoja, preskúmame jeho rámec, fungovanie a výsledky, ktoré dosahuje pri vytváraní funkcií odmeňovania. Tieto funkcie, ako tvrdia vývojári, prekonávajú funkcie generované ľuďmi. Tiež sa ponoríme do toho, ako rámec EUREKA pripravuje pôdu pre nový prístup k RLHF (Reinforcement Learning using Human Feedback) tým, že umožňuje kontextové učenie bez gradientov. Začnime.

EUREKA: Úvod

dnes, najmodernejšie rámce LLM ako GPT-3 a GPT-4 poskytujú vynikajúce výsledky, keď slúžia ako sémantické plánovače pre sekvenčné rozhodovacie úlohy na vysokej úrovni, ale vývojári stále hľadajú spôsoby, ako zvýšiť svoj výkon, pokiaľ ide o učenie sa úloh manipulácie na nízkej úrovni, ako je otáčanie pera. obratnosť. Okrem toho vývojári zistili, že učenie na posilnenie sa môže použiť na dosiahnutie trvalo udržateľných výsledkov v zručných podmienkach a v iných oblastiach za predpokladu, že funkcie odmeňovania sú starostlivo skonštruované ľudskými dizajnérmi a tieto funkcie odmeňovania sú schopné poskytnúť signály učenia pre priaznivé správanie. V porovnaní s úlohami učenia sa posilňovania v reálnom svete, ktoré akceptujú riedke odmeny, sťažuje modelu naučiť sa vzorce, tvarovanie týchto odmien poskytuje potrebné prírastkové učebné signály. Okrem toho funkcie odmeňovania sú napriek ich dôležitosti mimoriadne náročné na navrhovanie a neoptimálne návrhy týchto funkcií často vedú k neúmyselnému správaniu. 

Na zvládnutie týchto výziev a maximalizáciu efektívnosti týchto žetónov odmien je EUREKA resp Epoháňaný revolúciou Universal REstrážiť Kto pre Agent si kladie za cieľ poskytnúť nasledujúce príspevky. 

  1. Dosiahnutie výkonu na ľudskej úrovni pri navrhovaní funkcií odmeňovania. 
  2. Efektívne riešte manipulačné úlohy bez použitia manuálneho inžinierstva odmeňovania. 
  3. Generujte viac ľudsky orientovaných a výkonnejších funkcií odmeňovania zavedením nového kontextového vzdelávacieho prístupu bez gradientu namiesto tradičného RLHF alebo metódy posilnenia učenia z ľudskej spätnej väzby. 

Existujú tri kľúčové možnosti návrhu algoritmov, pre ktoré sa vývojári rozhodli zvýšiť všeobecnosť EUREKA: evolučné vyhľadávanie, prostredie ako kontext a reflexia odmeňovania. Po prvé, rámec EUREKA preberá zdrojový kód prostredia ako kontext na generovanie spustiteľných funkcií odmeňovania v nastavení nulového záberu. Následne rámec vykoná evolučné hľadanie s cieľom podstatne zlepšiť kvalitu svojich odmien, navrhuje skupiny kandidátov na odmeny v každej iterácii alebo epoche a vylepšuje tie, ktoré považuje za najsľubnejšie. V tretej a poslednej fáze rámec používa odraz odmeny prístup k zefektívneniu kontextového zlepšovania odmien, čo je proces, ktorý v konečnom dôsledku pomáha rámcu umožniť cielenú a automatizovanú úpravu odmien pomocou textového zhrnutia kvality týchto odmien na základe štatistík školení o politike. Nasledujúci obrázok vám poskytuje krátky prehľad o tom, ako funguje rámec EUREKA, a v nasledujúcej časti sa budeme baviť o architektúre a práci podrobnejšie. 

EUREKA: Architektúra modelu a nastavenie problémov

Primárnym cieľom tvarovania odmeny je vrátiť tvarovanú alebo upravenú funkciu odmeňovania pre funkciu odmeňovania založenej na pravdivosti, ktorá môže predstavovať ťažkosti pri priamej optimalizácii ako riedke odmeny. Okrem toho môžu dizajnéri použiť iba dopyty na prístup k týmto funkciám odmeňovania založených na základnej pravde, čo je dôvod, prečo sa rámec EUREKA rozhodol pre generovanie odmien, nastavenie syntézy programu založené na RDP alebo probléme s návrhom odmeny. 

Problém návrhu odmeny alebo RDP je n-tica, ktorá obsahuje model sveta so stavovým priestorom, priestorom pre funkcie odmeňovania, prechodovou funkciou a akčným priestorom. Algoritmus učenia sa potom optimalizuje odmeny vygenerovaním politiky, ktorej výsledkom je proces MDP alebo Markov Design Process, ktorý vytvára skalárny vývoj akejkoľvek politiky a je prístupný iba pomocou dotazov na politiku. Primárnym cieľom RDP je vytvoriť funkciu odmeňovania takým spôsobom, aby politika bola schopná dosiahnuť maximálne skóre vhodnosti. V nastavení problému EUREKA vývojári špecifikovali každý komponent v probléme návrhu odmeny pomocou kódu. Okrem toho, pre daný reťazec, ktorý špecifikuje detaily úlohy, je primárnym cieľom problému generovania odmeny vygenerovať kód funkcie odmeny na maximalizáciu skóre zdatnosti. 

V jadre sú tri základné algoritmické komponenty v rámci EUREKA. Evolučné vyhľadávanie (navrhovanie a odmeňovanie rafinovaných kandidátov iteratívne), prostredie ako kontext (generovanie spustiteľných odmien v nastavení nulového záberu) a reflexia odmeňovania (na umožnenie jemného zlepšovania odmien). Pseudokód pre algoritmus je znázornený na nasledujúcom obrázku. 

Prostredie ako kontext

V súčasnosti rámce LLM potrebujú špecifikácie prostredia ako vstupy na navrhovanie odmien, zatiaľ čo rámec EUREKA navrhuje napájať surový kód prostredia priamo ako kontext bez toho, aby kód odmeňovania umožňoval rámcom LLM brať svetový model ako kontext. Prístup EUREKA má dve hlavné výhody. Po prvé, rámce LLM pre účely kódovania sú trénované na natívnych sadách kódov, ktoré sú napísané v existujúcich programovacích jazykoch, ako sú C, C++, Python, Java a ďalšie, čo je základný dôvod, prečo sú lepšie pri vytváraní výstupov kódu, keď sú priamo povolené. na zostavenie kódu v syntaxi a štýle, na ktorý sa pôvodne naučili. Po druhé, použitie zdrojového kódu prostredia zvyčajne odhalí sémanticky zapojené prostredia a premenné, ktoré sú vhodné alebo ideálne na použitie pri pokuse o výstup funkcie odmeny v súlade so špecifikovanou úlohou. Na základe týchto poznatkov rámec EUREKA inštruuje LLM, aby vrátilo spustiteľnejší kód Python priamo s pomocou iba tipov na formátovanie a všeobecných návrhov odmien. 

Evolučné vyhľadávanie

Začlenenie evolučného vyhľadávania do rámca EUREKA má za cieľ predstaviť prirodzené riešenie problémov suboptimálnosti a počas vykonávania sa vyskytli chyby, ako už bolo spomenuté. S každou iteráciou alebo epochou, rámec rôznych nezávislých výstupov z Veľkého jazykového modelu, a za predpokladu, že všetky generácie sú iid, exponenciálne znižuje pravdepodobnosť, že funkcie odmeňovania počas iterácií budú chybné vzhľadom na to, že počet vzoriek sa s každou epochou zvyšuje. 

V ďalšom kroku rámec EUREKA využíva spustiteľné funkcie odmeňovania z predchádzajúcej iterácie na vykonanie mutácie odmeňovania v kontexte a potom navrhuje novú a vylepšenú funkciu odmeňovania na základe textovej spätnej väzby. Rámec EUREKA v kombinácii so zlepšením v kontexte a dodržiavaním pokynov schopnosti veľkých jazykových modelov je schopný špecifikovať operátor mutácie ako textovú výzvu a navrhuje metódu použitia textového súhrnu tréningu politiky na úpravu existujúcich kódov odmien. 

Reflexia odmeny

Na uzemnenie mutácií odmien v kontexte je nevyhnutné posúdiť kvalitu generovaných odmien, a čo je dôležitejšie, vyjadriť ich slovami, a rámec EUREKA to rieši pomocou jednoduchej stratégie poskytovania číselných skóre ako hodnotenia odmien. Keď funkcia vhodnosti úlohy slúži ako holistická metrika pre základnú pravdu, chýba jej pridelenie kreditu a nie je schopná poskytnúť žiadne cenné informácie o tom, prečo funkcia odmeňovania funguje alebo prečo nefunguje. Takže v snahe poskytnúť cielenejšiu a zložitejšiu diagnostiku odmeňovania, rámec navrhuje použiť automatizované spätné väzby na zhrnutie dynamiky školenia v textoch. Okrem toho sa v programe odmeňovania od funkcií odmeňovania v rámci EUREKA požaduje, aby odhaľovali svoje komponenty jednotlivo, čo umožňuje, aby rámec sledoval skalárne hodnoty každého jedinečného komponentu odmeny v kontrolných bodoch politiky počas celej fázy školenia.

Hoci je postup funkcie odmeňovania, ktorý sleduje rámec EUREKA, jednoduchý na zostavenie, je nevyhnutný vďaka povahe optimalizácie odmien, ktorá je závislá od algoritmu. Znamená to, že efektívnosť funkcie odmeňovania je priamo ovplyvnená výberom algoritmu posilňovacieho učenia a pri zmene hyperparametrov môže odmena fungovať odlišne aj s rovnakým optimalizátorom. Rámec EUREKA je teda schopný upravovať záznamy efektívnejšie a selektívnejšie a zároveň syntetizovať funkcie odmeňovania, ktoré sú v vylepšenej synergii s algoritmom posilňovania učenia. 

Školenie a základná línia

Rámec EUREKA má dva hlavné školiace prvky: Učenie o politike a Metriky hodnotenia odmien.

Učenie o politike

Konečné funkcie odmeňovania pre každú jednotlivú úlohu sú optimalizované pomocou rovnakého algoritmu učenia sa posilňovania pomocou rovnakej sady hyperparametrov, ktoré sú doladené tak, aby odmeny vytvorené ľuďmi fungovali dobre. 

Metriky hodnotenia odmien

Keďže metrika úlohy sa pri každej úlohe mení z hľadiska rozsahu a sémantického významu, rámec EUREKA uvádza ľudské normalizované skóre, čo je metrika, ktorá poskytuje holistické meradlo pre rámec na porovnanie toho, ako funguje s odmenami vytvorenými odborníkmi v súlade s metriky základnej pravdy. 

Postupom času existujú tri základné základné línie: L2R, človek, a Riedke. 

L2R

L2R je a dvojstupňový režim veľkého jazykal podnetné riešenie, ktoré pomáha pri generovaní šablónových odmien. Najprv rámec LLM vyplní šablónu prirodzeného jazyka pre prostredie a úlohu špecifikovanú v prirodzenom jazyku a potom druhý rámec LLM prevedie tento „popis pohybu“ na kód, ktorý zapíše funkciu odmeny volaním množiny manuálne napísaných primitív API odmeny. . 

Človek

Základná línia človeka sú pôvodné funkcie odmeňovania napísané výskumníkmi v oblasti posilňovania vzdelávania, čím predstavujú výsledky inžinierstva ľudských odmien na bezprecedentnej úrovni. 

Riedke

Sparse baseline sa podobá fitness funkciám a používa sa na vyhodnotenie kvality odmien, ktoré rámec generuje. 

Výsledky a výsledky

Aby sme analyzovali výkonnosť rámca EUREKA, budeme ho hodnotiť na rôznych parametroch vrátane jeho výkon oproti ľudským odmenám, zlepšovanie výsledkov v priebehu času, generovanie nových odmien, umožňujúce cielené zlepšovanie, a práca s ľudskou spätnou väzbou. 

EUREKA prekonáva ľudské odmeny

Nasledujúci obrázok ilustruje súhrnné výsledky v rámci rôznych benchmarkov a ako je možné jasne vidieť, rámec EUREKA buď prekoná alebo má rovnakú výkonnosť ako odmeny na ľudskej úrovni pri úlohách Obratnosť aj Issac. Na porovnanie, základná línia L2R poskytuje podobný výkon pri nízkorozmerných úlohách, ale pokiaľ ide o vysokorozmerné úlohy, rozdiel vo výkonnosti je dosť výrazný. 

Postupne sa zlepšujeme

Jedným z hlavných vrcholov rámca EUREKA je jeho schopnosť neustále zlepšovať a zlepšovať svoj výkon v priebehu času pri každej iterácii a výsledky sú znázornené na obrázku nižšie. 

Ako je jasne vidieť, rámec neustále generuje lepšie odmeny pri každej iterácii a tiež zlepšuje a nakoniec prekonáva výkonnosť ľudských odmien vďaka použitiu kontextového evolučného prístupu vyhľadávania odmien. 

Generovanie nových odmien

Novosť odmien v rámci EUREKA sa dá posúdiť výpočtom korelácie medzi ľudskými a EUREKA odmenami na všetkých úlohách Issac. Tieto korelácie sa potom vynesú do bodového grafu alebo mapy oproti ľudským normalizovaným skóre, pričom každý bod na grafe predstavuje individuálnu odmenu EUREKA za každú jednotlivú úlohu. Ako je jasne vidieť, rámec EUREKA prevažne generuje slabé korelované funkcie odmeňovania, ktoré prevyšujú ľudské funkcie odmeňovania. 

Povolenie cieleného zlepšovania

Na vyhodnotenie dôležitosti pridania odrazu odmeny v spätnej väzbe odmeny vývojári vyhodnotili abláciu, rámec EUREKA bez odrazu odmeny, ktorý redukuje výzvy na spätnú väzbu tak, aby pozostávali iba zo snímok. Pri spúšťaní úloh Issac vývojári zistili, že bez reflexie odmeňovania bol rámec EUREKA svedkom poklesu priemerného normalizovaného skóre o približne 29 %. 

Práca s ľudskou spätnou väzbou

Aby bolo možné ľahko začleniť širokú škálu vstupov na generovanie ľudsky prispôsobených a výkonnejších funkcií odmeňovania, rámec EUREKA okrem automatizovaných návrhov odmien zavádza aj nový kontextový prístup učenia bez gradientov k posilňovaniu učenia z ľudskej spätnej väzby. dve významné postrehy. 

  1. EUREKA môže využívať a zlepšovať funkcie odmeňovania ľudí. 
  2. Používanie ľudskej spätnej väzby na odrazy odmeny vyvoláva zarovnané správanie. 

Vyššie uvedený obrázok ukazuje, ako rámec EUREKA demonštruje podstatné zvýšenie výkonu a efektívnosť pomocou inicializácie ľudských odmien bez ohľadu na kvalitu ľudských odmien, čo naznačuje, že kvalita základných odmien nemá významný vplyv na schopnosti zlepšovania odmien v kontexte. rámca. 

Vyššie uvedený obrázok ilustruje, ako môže rámec EUREKA nielen vyvolať politiky prispôsobené viac ľuďom, ale aj upraviť odmeny začlenením ľudskej spätnej väzby. 

Záverečné myšlienky

V tomto článku sme hovorili o EUREKA, algoritme na navrhovanie na ľudskej úrovni poháňanom LLM, ktorý sa pokúša využiť rôzne možnosti rámcov LLM vrátane písania kódu, možností zlepšovania v kontexte a generovania obsahu s nulovým záberom na vykonanie bezprecedentnej optimalizácie. odmenových kódov. Odmenový kód spolu s posilňujúcim učením potom môžu tieto rámce použiť na osvojenie si zložitých zručností alebo na vykonávanie manipulačných úloh. Bez ľudského zásahu alebo rýchleho inžinierstva špecifického pre danú úlohu poskytuje rámec schopnosti generovania odmien na ľudskej úrovni pre širokú škálu úloh a jeho hlavná sila spočíva v učení sa zložitých úloh s prístupom k učeniu osnov. 

Celkový výkon a všestrannosť rámca EUREKA naznačuje, že potenciál kombinovania evolučných algoritmov s veľkými jazykovými modelmi môže viesť k škálovateľnému a všeobecnému prístupu k odmenám za dizajn a tento pohľad môže byť použiteľný aj pri iných problémoch s otvoreným vyhľadávaním. 

"Povolaním inžinier, srdcom spisovateľ." Kunal je technický spisovateľ s hlbokou láskou a porozumením AI a ML, ktorý sa venuje zjednodušovaniu zložitých konceptov v týchto oblastiach prostredníctvom svojej pútavej a informatívnej dokumentácie.