Refresh

This website www.unite.ai/lt/eureka-human-level-reward-design-via-coding-large-language-models/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

stub EUREKA: Žmogaus lygio atlygio projektavimas per koduojant didelių kalbų modelius – Unite.AI
Susisiekti su mumis

Dirbtinis intelektas

EUREKA: Žmogaus lygio atlygio projektavimas per koduojant didelių kalbų modelius

mm
Atnaujinta on

Dėl didelių kalbų modelių pažangos pastaraisiais metais nenuostabu, kodėl šios LLM sistemos puikiai tinka nuoseklių aukšto lygio sprendimų priėmimo užduočių semantiniams planuotojams. Tačiau kūrėjams vis dar sunku išnaudoti visą LLM sistemų potencialą mokantis sudėtingų žemo lygio manipuliavimo užduočių. Nepaisant jų veiksmingumo, šiandieniniai didelių kalbų modeliai reikalauja nemažos srities ir dalykinių žinių, kad išmoktų net paprastų įgūdžių arba sudarytų tekstinius raginimus, todėl susidaro didelis atotrūkis tarp jų veikimo ir žmogaus miklumo.

Norėdami užpildyti šią spragą, kūrėjai iš Nvidia, CalTech, UPenn ir kiti pristatė EUREKA – LLM valdomą žmogaus lygio projektavimo algoritmą. EUREKA siekia panaudoti įvairias LLM struktūrų galimybes, įskaitant kodų rašymą, konteksto tobulinimą ir turinio generavimą be jokios kartos, kad atliktų precedento neturintį atlygio kodų optimizavimą. Šie atlygio kodai kartu su mokymosi pastiprinimu leidžia sistemoms išmokti sudėtingų įgūdžių arba atlikti manipuliavimo užduotis.

Šiame straipsnyje mes išnagrinėsime EUREKA sistemą iš plėtros perspektyvos, išnagrinėsime jos sistemą, veikimą ir rezultatus, kuriuos ji pasiekia generuojant atlygio funkcijas. Šios funkcijos, kaip teigia kūrėjai, pranoksta tas, kurias sukuria žmonės. Taip pat gilinsimės į tai, kaip EUREKA sistema atveria kelią naujam požiūriui į RLHF (angl. Inforcement Learning using Human Feedback), suteikdama galimybę mokytis kontekste be gradientų. Pradėkime.

EUREKA: Įvadas

šiandien moderniausios LLM sistemos pvz., GPT-3 ir GPT-4, duoda puikių rezultatų, kai yra semantiniai planuotojai atliekant nuoseklias aukšto lygio sprendimų priėmimo užduotis, tačiau kūrėjai vis dar ieško būdų, kaip pagerinti savo našumą, kai reikia mokytis žemo lygio manipuliavimo užduočių, pvz., rašiklio sukimo. vikrumas. Be to, kūrėjai pastebėjo, kad stiprinamasis mokymasis gali būti naudojamas siekiant tvarių rezultatų sudėtingomis sąlygomis ir kitose srityse, su sąlyga, kad atlygio funkcijas kruopščiai sukūrė žmonių dizaineriai, o šios atlygio funkcijos gali suteikti mokymosi signalus palankiam elgesiui. Palyginus su realaus pasaulio sustiprinimo mokymosi užduotimis, kurios priima nedidelį atlygį, modeliui sunku išmokti modelius, formuojant šiuos atlygius gaunami būtini laipsniški mokymosi signalai. Be to, atlygio funkcijos, nepaisant jų svarbos, yra labai sudėtingos projektuojant, o neoptimalus šių funkcijų dizainas dažnai sukelia nenumatytą elgesį. 

Norėdami įveikti šiuos iššūkius ir maksimaliai padidinti šių atlygio žetonų efektyvumą, EUREKA arba Evoliucijos valdomas Uuniversalus REglobotinis Ktai už Agent siekia įnešti šiuos įnašus. 

  1. Žmogaus lygio našumas kuriant atlygio funkcijas. 
  2. Efektyviai išspręskite manipuliavimo užduotis nenaudodami rankinio atlygio inžinerijos. 
  3. Sukurkite labiau su žmonėmis suderintas ir veiksmingesnes atlygio funkcijas įdiegdami naują kontekstinio mokymosi be gradiento metodą, o ne tradicinį RLHF arba sustiprinantį mokymąsi iš žmogaus grįžtamojo ryšio metodą. 

Yra trys pagrindiniai algoritminio dizaino pasirinkimai, kuriuos kūrėjai pasirinko siekdami pagerinti EUREKA bendrumą: evoliucinė paieška, aplinka kaip kontekstas ir atlygio atspindys. Pirma, EUREKA sistema apima aplinkos šaltinio kodą kaip kontekstą kad būtų sukurtos vykdomos atlygio funkcijos nulinės reikšmės nustatymu. Po to karkasas atlieka a evoliucinės paieškos Siekdama iš esmės pagerinti savo atlygio kokybę, kiekvienai iteracijai ar epochai siūlo kandidatų į atlygį partijas ir patobulina tuos, kurie, jo nuomone, yra perspektyviausi. Trečiajame ir paskutiniame etape sistema naudoja atlygio atspindys Požiūris, kad atlygio tobulinimas kontekste būtų veiksmingesnis – procesas, kuris galiausiai padeda sistemai įgalinti tikslinį ir automatinį atlygio redagavimą, naudojant tekstinę šių atlygių kokybės santrauką, pagrįstą politikos mokymo statistika. Toliau pateiktame paveikslėlyje pateikiama trumpa EUREKA sistemos veikimo apžvalga, o būsimame skyriuje kalbėsime apie architektūrą ir darbą išsamiau. 

EUREKA: modelio architektūra ir problemų nustatymas

Pagrindinis atlygio formavimo tikslas yra grąžinti suformuotą arba kuruojamą atlygio funkciją už pagrindinę atlygio funkciją, dėl kurios gali kilti sunkumų tiesiogiai optimizuojant, pavyzdžiui, nedidelius atlygius. Be to, dizaineriai gali naudoti tik užklausas, kad pasiektų šias pagrindines tiesos atlygio funkcijas, todėl EUREKA sistema pasirenka atlygio generavimas, programos sintezės nustatymas, pagrįstas KPP arba atlygio projektavimo problema. 

Atlygio dizaino problema arba RDP yra rinkinys, kuriame yra pasaulio modelis su būsenos erdve, atlygio funkcijų vieta, perėjimo funkcija ir veiksmų erdve. Tada mokymosi algoritmas optimizuoja atlygį sugeneruodamas politiką, kurios rezultatas yra MDP arba Markovo projektavimo procesas, kuris sukuria bet kokios politikos skaliarinę raidą ir gali būti pasiekiamas tik naudojant politikos užklausas. Pagrindinis KPP tikslas yra pateikti atlygio funkciją tokiu būdu, kad taikant politiką būtų galima pasiekti maksimalų tinkamumo balą. EUREKA problemos nustatymuose kūrėjai nurodė kiekvieną atlygio dizaino problemos komponentą naudodami kodą. Be to, tam tikrai eilutei, nurodančiai užduoties detales, pagrindinis atlygio generavimo problemos tikslas yra sugeneruoti atlygio funkcijos kodą, kad būtų maksimaliai padidintas tinkamumo rezultatas. 

Iš esmės EUREKA sistemoje yra trys pagrindiniai algoritminiai komponentai. Evoliucinė paieška (kartojantis kandidatų siūlymas ir apdovanojimas), aplinka kaip kontekstas (vykdomo atlygio generavimas nulinės reikšmės nustatymu) ir atlygio atspindys (kad būtų galima tiksliai pagerinti atlygį). Algoritmo pseudo kodas parodytas toliau pateiktame paveikslėlyje. 

Aplinka kaip kontekstas

Šiuo metu LLM sistemoms reikia aplinkos specifikacijų kaip įvesties kuriant atlygį, o EUREKA sistema siūlo neapdorotą aplinkos kodą pateikti tiesiogiai kaip kontekstą, o atlygio kodas neleidžia LLM sistemoms naudoti pasaulio modelį kaip kontekstą. EUREKA taikomas metodas turi du pagrindinius privalumus. Pirma, LLM sistemos, skirtos kodavimo tikslams, yra mokomos naudojant vietinius kodų rinkinius, kurie yra parašyti esamomis programavimo kalbomis, tokiomis kaip C, C++, Python, Java ir kt., o tai yra pagrindinė priežastis, kodėl jos geriau gamina kodo išvestis, kai joms leidžiama tiesiogiai. sukurti kodą pagal sintaksę ir stilių, kuriuos jie iš pradžių mokėsi. Antra, naudojant aplinkos šaltinio kodą paprastai atskleidžiama semantiškai susijusi aplinka ir kintamieji, kurie yra tinkami arba idealiai tinkami naudoti bandant išvesti atlygio funkciją pagal nurodytą užduotį. Remdamasi šiomis įžvalgomis, EUREKA sistema nurodo LLM tiesiogiai grąžinti labiau vykdomą Python kodą, naudojant tik formatavimo patarimus ir bendrus atlygio planus. 

Evoliucinė paieška

Evoliucinės paieškos įtraukimas į EUREKA sistemą siekiama pateikti natūralų neoptimalumo iššūkių ir klaidų, atsiradusių vykdymo metu, sprendimą, kaip minėta anksčiau. Su kiekviena iteracija ar epocha sistema sudaro įvairius nepriklausomus didžiosios kalbos modelio išėjimus ir, jei visos kartos yra vienodos, tai eksponentiškai sumažina tikimybę, kad atlygio funkcijos iteracijų metu bus klaidingos, atsižvelgiant į tai, kad pavyzdžių skaičius didėja su kiekviena epocha. 

Kitame žingsnyje EUREKA sistema naudoja vykdomąsias atlygio funkcijas iš ankstesnės iteracijos, atlieka konteksto atlygio mutaciją, o tada, remdamasi tekstiniu atsiliepimu, pasiūlo naują ir patobulintą atlygio funkciją. EUREKA sistema, kai ji derinama su konteksto patobulinimu ir instrukcijų vykdymu didelių kalbų modelių galimybes gali nurodyti mutacijos operatorių kaip teksto raginimą ir siūlo metodą, kaip naudoti tekstinę politikos mokymo santrauką esamiems atlygio kodams modifikuoti. 

Atlygio atspindys

Norint pagrįsti konteksto atlygio mutacijas, labai svarbu įvertinti generuojamų atlygių kokybę, o dar svarbiau – išreikšti jas žodžiais, o EUREKA sistema tai sprendžia naudodama paprastą strategiją – kaip atlygio įvertinimą pateikti skaitinius balus. Kai užduoties tinkamumo funkcija yra holistinė pagrindinės tiesos metrika, jai trūksta kredito priskyrimo ir ji negali pateikti jokios vertingos informacijos, kodėl atlygio funkcija veikia arba kodėl ji neveikia. Taigi, siekiant pateikti tikslingesnę ir sudėtingesnę atlygio diagnozę, sistemoje siūloma naudoti automatinius grįžtamuosius ryšius, kad tekstuose būtų apibendrinti politikos mokymo dinamika. Be to, atlygio programoje EUREKA sistemos atlygio funkcijų prašoma atskleisti savo komponentus atskirai, kad sistema galėtų stebėti kiekvieno unikalaus atlygio komponento skaliarines vertes politikos kontrolės taškuose per visą mokymo etapą.

Nors atlygio funkcijos procedūrą, kuria vadovaujasi EUREKA sistema, sukurti paprasta, ji yra būtina, nes atlygio optimizavimas priklauso nuo algoritmo. Tai reiškia, kad atlygio funkcijos efektyvumą tiesiogiai veikia stiprinimo mokymosi algoritmo pasirinkimas, o pasikeitus hiperparametrams, atlygis gali veikti skirtingai net naudojant tą patį optimizatorių. Taigi, EUREKA sistema gali efektyviau ir selektyviai redaguoti įrašus, kartu sintezuodama atlygio funkcijas, kurios yra sustiprintos sinergijos su sustiprinimo mokymosi algoritmu. 

Mokymas ir pradinis lygis

Yra du pagrindiniai EUREKA sistemos mokymo komponentai: Politikos mokymasis ir Atlygio vertinimo metrika.

Politikos mokymasis

Galutinės atlygio funkcijos už kiekvieną individualią užduotį optimizuojamos naudojant tą patį sustiprinimo mokymosi algoritmą, naudojant tą patį hiperparametrų rinkinį, kuris yra tiksliai sureguliuotas, kad žmogaus sukurtas apdovanojimas veiktų gerai. 

Atlygio vertinimo metrika

Kadangi užduoties metrika skiriasi pagal kiekvienos užduoties mastą ir semantinę reikšmę, EUREKA sistema praneša apie žmogaus normalizuotą balą – metriką, kuri suteikia visapusį sistemos matą, leidžiantį palyginti jos našumą su ekspertų sugeneruotais atlygiais pagal pagrindinės tiesos metrika. 

Einant toliau, yra trys pagrindinės bazinės linijos: L2R, žmogus, ir Retai. 

L2R

L2R yra a dviejų pakopų didelės kalbos režimasl raginantis sprendimas, padedantis generuoti šabloninius atlygius. Pirma, LLM sistema užpildo natūralios kalbos šabloną aplinkai ir užduočiai, nurodytai natūralia kalba, o tada antroji LLM sistema paverčia šį „judesio aprašymą“ į kodą, kuris rašo atlygio funkciją, iškviesdamas rankiniu būdu parašytų atlygio API primityvų rinkinį. . 

Žmonių

Žmogaus bazinė linija yra originalios atlygio funkcijos, kurias parašė sustiprinimo mokymosi tyrinėtojai, taip atspindintys žmogaus atlygio inžinerijos rezultatus precedento neturinčiu lygiu. 

Retai

„Sparse“ bazinė linija primena kūno rengybos funkcijas ir yra naudojama sistemos generuojamų atlygių kokybei įvertinti. 

Rezultatai ir rezultatai

Norėdami analizuoti EUREKA sistemos veikimą, įvertinsime ją pagal įvairius parametrus, įskaitant jos našumas, palyginti su žmogaus atlygiu, rezultatų gerinimas laikui bėgant, naujų atlygių generavimas, įgalinimas tikslingai tobulėti, ir darbas su žmonių atsiliepimais. 

EUREKA pranoksta žmogiškuosius apdovanojimus

Toliau pateiktame paveikslėlyje pavaizduoti apibendrinti rezultatai pagal skirtingus etalonus ir, kaip galima aiškiai pastebėti, EUREKA sistema viršija žmogaus lygio atlygį arba atlieka lygiavertį atlygį už vikrumo ir „Issac“ užduotis. Palyginimui, L2R bazinė linija užtikrina panašų našumą atliekant mažo matmens užduotis, tačiau kalbant apie didelės apimties užduotis, našumo atotrūkis yra gana didelis. 

Laikui bėgant nuolat tobulėja

Vienas iš svarbiausių EUREKA sistemos akcentų yra jos gebėjimas nuolat tobulinti ir gerinti savo veikimą laikui bėgant su kiekviena iteracija, o rezultatai parodyti toliau esančiame paveikslėlyje. 

Kaip aiškiai matyti, sistema nuolat generuoja geresnį atlygį su kiekviena iteracija, taip pat pagerina ir galiausiai pranoksta žmogaus atlygio našumą, nes joje naudojamas kontekste evoliucinės atlygio paieškos metodas. 

Naujų apdovanojimų generavimas

EUREKA sistemos atlygio naujumas gali būti įvertintas apskaičiuojant ryšį tarp žmogaus ir EUREKA atlygių, susijusių su visomis Issac užduotimis. Tada šios koreliacijos atvaizduojamos sklaidos diagramoje arba žemėlapyje, palyginti su normaliais žmogaus balais, o kiekvienas diagramos taškas reiškia individualų EUREKA atlygį už kiekvieną individualią užduotį. Kaip aiškiai matyti, EUREKA sistema daugiausia generuoja silpnas koreliuojamas atlygio funkcijas, kurios pranoksta žmogaus atlygio funkcijas. 

Tikslinio tobulinimo įgalinimas

Siekdami įvertinti atlygio atspindžio įtraukimo į atlygio grįžtamąjį ryšį svarbą, kūrėjai įvertino abliaciją – EUREKA sistemą be atlygio atspindžio, kuri sumažina grįžtamojo ryšio raginimus, kad juos sudarytų tik momentinės reikšmės. Vykdydami „Issac“ užduotis kūrėjai pastebėjo, kad be atlygio apmąstymo EUREKA sistemos vidutinis normalizuotas balas sumažėjo maždaug 29%. 

Darbas su žmonių atsiliepimais

Kad būtų galima lengvai įtraukti daugybę įvesties duomenų, skirtų žmonėms suderintoms ir veiksmingesnėms atlygio funkcijoms generuoti, EUREKA sistema, be automatinio atlygio dizaino, taip pat pristato naują be gradiento mokymosi kontekste metodą, skirtą sustiprinti mokymąsi iš žmonių atsiliepimų. du reikšmingi pastebėjimai. 

  1. EUREKA gali turėti naudos ir tobulėti iš žmogaus atlyginimo funkcijų. 
  2. Žmonių atsiliepimų naudojimas atlygio apmąstymams skatina suderintą elgesį. 

Aukščiau pateiktame paveikslėlyje parodyta, kaip EUREKA sistema žymiai padidina našumą ir efektyvumą naudojant žmogaus atlygio inicijavimą, neatsižvelgiant į žmogaus atlygio kokybę, o tai rodo, kad bazinio atlygio kokybė neturi reikšmingos įtakos atlygio tobulinimo galimybėms kontekste. pagrindo. 

Aukščiau pateiktame paveikslėlyje parodyta, kaip EUREKA sistema gali ne tik paskatinti labiau su žmonėmis suderintą politiką, bet ir pakeisti atlygį įtraukdama žmonių atsiliepimus. 

Baigiamosios mintys

Šiame straipsnyje mes kalbėjome apie EUREKA, LLM paremtą žmogaus lygio projektavimo algoritmą, kuris bando panaudoti įvairias LLM sistemų galimybes, įskaitant kodo rašymą, konteksto tobulinimo galimybes ir turinio generavimą beprecedentei optimizuoti. atlygio kodų. Tada šios sistemos gali naudoti atlygio kodą kartu su mokymusi, kad išmoktų sudėtingų įgūdžių arba atliktų manipuliavimo užduotis. Be žmogaus įsikišimo ar konkrečios užduoties inžinerijos, sistema suteikia žmogaus lygio atlygio generavimo galimybes atliekant daugybę užduočių, o pagrindinė jos stiprybė yra mokantis sudėtingų užduočių taikant mokymosi programos metodą. 

Apskritai, didelis EUREKA sistemos našumas ir universalumas rodo, kad evoliucinius algoritmus derinant su dideliais kalbos modeliais gali atsirasti keičiamo dydžio ir bendras požiūris į dizaino atlygį, o ši įžvalga gali būti pritaikyta kitoms atviros paieškos problemoms spręsti. 

„Iš profesijos inžinierius, iš širdies – rašytojas“. Kunal yra techninis rašytojas, giliai mylintis ir suprantantis dirbtinį intelektą ir ML, siekiantis supaprastinti sudėtingas sąvokas šiose srityse, pasitelkdamas patrauklią ir informatyvią dokumentaciją.