Inteligență artificială

EUREKA: Proiectare a recompenselor la nivel uman prin codificarea modelelor de limbaj mari

Published November 21, 2023

Updated April 4, 2026

Kunal Kejriwal

Cu progresele pe care modelele de limbaj mari le-au făcut în ultimii ani, nu este surprinzător de ce aceste cadre LLM excelează ca planificatori semantici pentru sarcinile de luare a deciziilor secvențiale de nivel înalt. Cu toate acestea, dezvoltatorii încă găsesc dificil să utilizeze pe deplin potențialul cadrelor LLM pentru învățarea sarcinilor complexe de manipulare de nivel scăzut. În ciuda eficienței lor, modelele de limbaj mari de astăzi necesită o expertiză considerabilă în domeniu și subiect pentru a învăța chiar și abilități simple sau pentru a construi prompturi textuale, creând o lacună semnificativă între performanța lor și abilitățile umane.

Pentru a acoperi această lacună, dezvoltatorii de la Nvidia, CalTech, UPenn și alții au introdus EUREKA, un algoritm de proiectare umană bazat pe LLM. EUREKA își propune să valorifice diversele capacități ale cadrelor LLM, inclusiv scrierea de cod, îmbunătățirea contextuală și generarea de conținut în zero-shot, pentru a efectua o optimizare fără precedent a codurilor de recompensă. Aceste coduri de recompensă, combinate cu învățarea prin întărire, permit cadrelor să învețe abilități complexe sau să execute sarcini de manipulare.

În acest articol, vom examina cadrul EUREKA din perspectiva dezvoltării, explorând structura sa, funcționarea și rezultatele pe care le obține în generarea funcțiilor de recompensă. Aceste funcții, așa cum afirmă dezvoltatorii, depășesc pe cele generate de oameni. Vom explora, de asemenea, modul în care cadrul EUREKA deschide calea pentru o abordare nouă a RLHF (Învățarea prin întărire cu feedback uman) prin permiterea învățării contextuale fără gradient. Să începem.

EUREKA: O introducere

Astăzi, cadrele de modele de limbaj mari de ultimă generație precum GPT-3 și GPT-4 oferă rezultate remarcabile atunci când servesc ca planificatori semantici pentru sarcinile de luare a deciziilor secvențiale de nivel înalt, dar dezvoltatorii încă caută modalități de a-și îmbunătăți performanța atunci când vine vorba de învățarea sarcinilor de manipulare de nivel scăzut, cum ar fi abilitatea de a face să se învârtă un pix. Mai mult, dezvoltatorii au observat că învățarea prin întărire poate fi utilizată pentru a obține rezultate durabile în condiții dextre și în alte domenii, cu condiția ca funcțiile de recompensă să fie construite cu atenție de designeri umani și să poată oferi semnale de învățare pentru comportamente favorabile. În comparație cu sarcinile de învățare prin întărire din lumea reală care acceptă recompense rare, face dificil pentru model să învețe modelele, modelarea acestor recompense oferă semnalele de învățare incrementale necesare. Mai mult, funcțiile de recompensă, în ciuda importanței lor, sunt extrem de dificile de proiectat, iar proiectarea suboptimă a acestor funcții duce adesea la comportamente neintenționate.

Pentru a aborda aceste provocări și a maximiza eficiența acestor tokeni de recompensă, EUREKA sau Evoluția condusă de Universal REcompensă Kit pentru Agent își propune să facă următoarele contribuții.

Atingerea performanței la nivel uman pentru proiectarea funcțiilor de recompensă.
Rezolvarea eficientă a sarcinilor de manipulare fără a utiliza ingineria manuală a recompenselor.
Generarea de funcții de recompensă mai aliniate cu omul și mai performante prin introducerea unei noi abordări de învățare contextuală fără gradient, în locul metodei tradiționale RLHF sau Învățarea prin întărire din feedback uman.

Există trei alegeri algoritmice cheie pe care dezvoltatorii le-au optat pentru a îmbunătăți generalitatea EUREKA: căutarea evolutivă, mediul ca context și reflectarea recompensei. În primul rând, cadrul EUREKA ia codul sursă al mediului ca context pentru a genera funcții de recompensă executabile într-un mediu zero-shot. Urmând aceasta, cadrul efectuează o căutare evolutivă pentru a îmbunătăți calitatea recompenselor în mod semnificativ, propune loturi de candidați pentru recompensă la fiecare iterație sau epocă și rafinează cele pe care le găsește a fi cele mai promițătoare. În etapa a treia și finală, cadrul utilizează reflectarea recompensei pentru a face îmbunătățirea contextuală a recompenselor mai eficientă, un proces care ajută în final cadrul să permită editarea țintită și automată a recompenselor prin utilizarea unui rezumat textual al calității acestor recompense pe baza statisticilor de antrenare a politicii. Următoarea figură oferă o imagine de ansamblu a modului în care funcționează cadrul EUREKA, iar în secțiunea următoare vom discuta arhitectura și funcționarea în mai multe detalii.

EUREKA: Arhitectură de model și setare de problemă

Scopul principal al modelării recompensei este de a returna o funcție de recompensă modelată sau curată pentru o funcție de recompensă de bază, care poate pune dificultăți atunci când este optimizată direct, cum ar fi recompensele rare. Mai mult, designerii pot accesa aceste funcții de recompensă de bază doar prin interogări, ceea ce este motivul pentru care cadrul EUREKA optează pentru generarea de recompensă, o setare de sinteză de programe bazată pe RDP sau Problema de proiectare a recompensei.

Problema de proiectare a recompensei sau RDP este un tuplu care conține un model de lume cu un spațiu de stare, spațiu pentru funcții de recompensă, o funcție de tranziție și un spațiu de acțiune. Un algoritm de învățare optimizează recompensele prin generarea unei politici care rezultă într-un proces de decizie Markovian, care poate fi accesat doar utilizând interogări de politică. Scopul principal al RDP este de a produce o funcție de recompensă astfel încât politica să poată atinge scorul de fitness maxim. În setarea de problemă a EUREKA, dezvoltatorii au specificat fiecare componentă din Problema de proiectare a recompensei utilizând cod. Mai mult, pentru o string dată care specifică detalii despre sarcină, obiectivul principal al problemei de generare a recompensei este de a genera un cod de funcție de recompensă pentru a maximiza scorul de fitness.

În continuare, la nivelul său fundamental, există trei componente algoritmice fundamentale în cadrul EUREKA. Căutarea evolutivă (propunerea și rafinarea candidaților iterativ), mediul ca context (generarea de recompense executabile într-un mediu zero-shot) și reflectarea recompensei (pentru a permite îmbunătățirea fină a recompenselor). Pseudocodul pentru algoritmul este ilustrat în imaginea următoare.

Mediul ca context

În prezent, cadrele LLM necesită specificații de mediu ca intrări pentru proiectarea recompenselor, în timp ce cadrul EUREKA propune să alimenteze direct codul sursă al mediului ca context, fără codul de recompensă, permițând cadrelor LLM să ia modelul de lume ca context. Abordarea urmată de EUREKA are două beneficii majore. În primul rând, cadrele LLM pentru scopuri de codare sunt antrenate pe seturi de cod nativ scrise în limbaje de programare existente, cum ar fi C, C++, Python, Java și altele, ceea ce este motivul pentru care sunt mai bune la producerea de ieșiri de cod atunci când li se permite să compună cod în sintaxa și stilul în care au fost antrenate inițial. În al doilea rând, utilizarea codului sursă al mediului dezvăluie adesea semantic mediile implicate și variabilele care sunt potrivite pentru utilizare în încercarea de a produce o funcție de recompensă în conformitate cu sarcina specificată. Pe baza acestor insighturi, cadrul EUREKA instruiește LLM-ul să returneze un cod Python mai executabil direct, cu ajutorul doar a unor sfaturi de formatare și a unor proiectări generice de recompensă.

Căutarea evolutivă

Includerea căutării evolutive în cadrul EUREKA își propune să ofere o soluție naturală pentru provocările suboptimale și erorile care apar în timpul execuției, așa cum s-a menționat anterior. La fiecare iterație sau epocă, cadrul generează diverse ieșiri independente de la modelul de limbaj mare, iar dacă generațiile sunt toate i.i.d., reduce exponențial probabilitatea ca funcțiile de recompensă din iterări să fie defecte, dat fiind că numărul de mostre crește cu fiecare epocă.

În următoarea etapă, cadrul EUREKA utilizează funcțiile de recompensă executabile din iterația anterioară pentru a efectua o mutație de recompensă contextuală și apoi propune o nouă și îmbunătățită funcție de recompensă pe baza feedback-ului textual. Cadrul EUREKA, combinat cu capacitățile de îmbunătățire contextuală și de urmărire a instrucțiunilor ale modelelor de limbaj mare, este capabil să specifice operatorul de mutație ca prompt textual și sugerează o metodă de a utiliza rezumatul textual al antrenării politicii pentru a modifica codul de recompensă existent.

Reflectarea recompensei

Pentru a ancora mutațiile de recompensă contextuale, este esențial să se evalueze calitatea recompenselor generate și, mai important, să se pună în cuvinte, iar cadrul EUREKA abordează acest lucru prin utilizarea strategiei simple de a oferi scoruri numerice ca evaluare a recompensei. Atunci când funcția de fitness a sarcinii servește ca o metrică holistică pentru adevărul de bază, îi lipsește atribuirea creditului și nu poate oferi nicio informație valoroasă despre de ce funcția de recompensă funcționează sau de ce nu funcționează. Astfel, în încercarea de a oferi o diagnosticare a recompensei mai țintită și mai detaliată, cadrul propune să utilizeze feedback-uri automate pentru a rezuma dinamica de antrenare a politicii în texte. Mai mult, în programul de recompensă, funcțiile de recompensă din cadrul EUREKA sunt solicitate să-și expună componentele individual, permițând cadrului să urmărească valorile scalare ale fiecărui component unic de recompensă la punctele de control ale politicii în timpul întregii faze de antrenare.

Deși procedura de funcție de recompensă urmată de cadrul EUREKA este simplă de construit, este esențială din cauza naturii algoritmice dependente de optimizarea recompenselor. Acest lucru înseamnă că eficacitatea unei funcții de recompensă este influențată direct de alegerea algoritmului de învățare prin întărire și, cu o schimbare a hiperparametrilor, recompensa poate performa diferit, chiar și cu același optimizer. Astfel, cadrul EUREKA poate edita înregistrările mai eficient și mai selectiv, în timp ce sintetizează funcții de recompensă care sunt în sinergie îmbunătățită cu algoritmul de învățare prin întărire.

Antrenare și bază de comparație

Există două componente majore de antrenare ale cadrului EUREKA: Învățarea politicii și Metrice de evaluare a recompensei.

Învățarea politicii

Funcțiile de recompensă finale pentru fiecare sarcină individuală sunt optimizate cu ajutorul aceluiași algoritm de învățare prin întărire, utilizând același set de hiperparametri care sunt ajustați pentru a face ca funcțiile de recompensă proiectate de om să funcționeze bine.

Metrice de evaluare a recompensei

Deoarece metrica sarcinii variază în ceea ce privește scala și semnificația semantică cu fiecare sarcină, cadrul EUREKA raportează scorul normalizat uman, o metrică care oferă o măsură holistică pentru cadrul de a compara modul în care se desfășoară în comparație cu recompensele generate de experți umani, în conformitate cu metricile de bază.

În continuare, există trei linii de bază principale: L2R, Uman, și Rare.

L2R

L2R este o soluție de promptare a modelului de limbaj mare în două etape care ajută la generarea de recompense modelate. Mai întâi, un cadru LLM completează un șablon de limbaj natural pentru mediu și sarcină specificate în limbaj natural, iar apoi un al doilea cadru LLM convertește această “descriere de mișcare” într-un cod care scrie o funcție de recompensă prin apelarea unui set de primitive de API de recompensă scrise manual.

Uman

Liniile de bază Uman sunt funcțiile de recompensă originale scrise de cercetători în învățarea prin întărire, reprezentând astfel rezultatele ingineriei de recompensă umană la un nivel fără precedent.

Rare

Liniile de bază Rare seamănă cu funcțiile de fitness și sunt utilizate pentru a evalua calitatea recompenselor generate de cadrul.

Rezultate și rezultate

Pentru a analiza performanța cadrului EUREKA, vom evalua acesta pe diverse parametri, incluzând performanța față de recompensele umane, îmbunătățirea rezultatelor în timp, generarea de recompense noi, permisivitatea îmbunătățirii țintite, și lucrul cu feedback-ul uman.

EUREKA depășește recompensele umane

Figura următoare ilustrează rezultatele agregate pe diverse benchmark-uri, și, așa cum se poate observa clar, cadrul EUREKA fie depășește, fie se desfășoară la fel ca recompensele la nivel uman pe ambele sarcini Dexterity și Issac. În comparație, liniile de bază L2R oferă o performanță similară pe sarcinile de dimensiuni mici, dar atunci când vine vorba de sarcini de dimensiuni mari, diferența de performanță este destul de substanțială.

Îmbunătățire constantă în timp

Una dintre principalele puncte forte ale cadrului EUREKA este capacitatea sa de a se îmbunătăți constant și de a-și crește performanța în timp, odată cu fiecare iterație, iar rezultatele sunt demonstrate în figura de mai jos.

Așa cum se poate observa clar, cadrul generează constant recompense mai bune cu fiecare iterație și, de asemenea, îmbunătățește și, în cele din urmă, depășește performanța recompenselor umane, mulțumită utilizării sale a abordării de căutare evolutivă contextuală.

Generarea de recompense noi

Noutatea recompenselor cadrului EUREKA poate fi evaluată prin calcularea corelației dintre recompensele umane și EUREKA pe întregul set de sarcini Issac. Aceste corelații sunt apoi plasate pe un grafic de dispersie sau hartă împotriva scorurilor normalizate umane, cu fiecare punct de pe grafic reprezentând o recompensă EUREKA individuală pentru fiecare sarcină individuală. Așa cum se poate observa clar, cadrul EUREKA generează în mod predominant funcții de recompensă slab corelate care depășesc funcțiile de recompensă umană.

Permisivitatea îmbunătățirii țintite

Pentru a evalua importanța adăugării reflectării recompensei în feedback-ul de recompensă, dezvoltatorii au evaluat o ablație, un cadru EUREKA fără reflectare a recompensei, care reduce prompt-urile de feedback doar la valori instantanee. Atunci când rulează sarcinile Issac, dezvoltatorii au observat că, fără reflectarea recompensei, cadrul EUREKA a înregistrat o scădere de aproximativ 29% în scorul mediu normalizat.

Lucrul cu feedback-urile umane

Pentru a integra cu ușurință o gamă largă de intrări pentru a genera funcții de recompensă mai aliniate cu omul și mai performante, cadrul EUREKA, pe lângă proiectarea automată a recompenselor, introduce o nouă abordare de învățare contextuală fără gradient pentru Învățarea prin întărire din feedback uman, și au fost două observații semnificative.

EUREKA poate beneficia și se poate îmbunătăți din funcțiile de recompensă umană.
Utilizarea feedback-ului uman pentru reflectarea recompensei induce un comportament aliniat.

Figura de mai sus demonstrează modul în care cadrul EUREKA demonstrează o creștere semnificativă a performanței și eficienței utilizând inițializarea recompensei umane, indiferent de calitatea recompenselor umane, sugerând că calitatea recompenselor de bază nu are un impact semnificativ asupra capacităților de îmbunătățire contextuală a recompensei ale cadrului.

Figura de mai sus ilustrează modul în care cadrul EUREKA nu numai că poate induce politici mai aliniate cu omul, dar poate modifica și recompensele prin integrarea feedback-ului uman.

Gânduri finale

În acest articol, am discutat despre EUREKA, un algoritm de proiectare umană bazat pe LLM, care își propune să valorifice diversele capacități ale cadrelor LLM, incluzând scrierea de cod, îmbunătățirea contextuală și generarea de conținut în zero-shot, pentru a efectua o optimizare fără precedent a codurilor de recompensă. Codul de recompensă, împreună cu învățarea prin întărire, poate fi utilizat de aceste cadre pentru a învăța abilități complexe sau pentru a executa sarcini de manipulare. Fără intervenție umană sau inginerie de prompt specifică sarcinii, cadrul oferă capacități de generare de recompensă la nivel uman pe o gamă largă de sarcini, iar puterea sa principală constă în învățarea sarcinilor complexe cu o abordare de învățare curriculară.

În general, performanța substanțială și versatilitatea cadrului EUREKA indică potențialul combinării algoritmilor evolutivi cu modelele de limbaj mare pentru a rezulta într-o abordare escalabilă și generală pentru proiectarea recompenselor, iar acest insight poate fi aplicabil și altor probleme de căutare deschisă.