Refresh

This website www.unite.ai/mn/eureka-human-level-reward-design-via-coding-large-language-models/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

stub EUREKA: Том хэлний загваруудыг кодлох замаар хүний ​​түвшний шагналын загвар - Unite.AI
бидэнтэй хамт холбоно

Хиймэл оюун

EUREKA: Том хэлний загваруудыг кодлох замаар хүний ​​түвшний шагналын загвар

mm
шинэчлэгдсэн on

Том хэлний загварууд сүүлийн жилүүдэд гарсан дэвшлийн ачаар эдгээр LLM хүрээнүүд нь дараалсан өндөр түвшний шийдвэр гаргах даалгавруудад семантик төлөвлөгчийн хувьд давуу тал болж байгаа нь гайхмаар зүйл биш юм. Гэсэн хэдий ч хөгжүүлэгчид нарийн төвөгтэй доод түвшний манипуляцийн даалгавруудыг сурахын тулд LLM хүрээний бүх боломжуудыг ашиглахад бэрхшээлтэй хэвээр байна. Хэдийгээр үр дүнтэй хэдий ч өнөөгийн том хэлний загварууд нь энгийн ур чадвар эзэмших эсвэл текстийн зааварчилгааг бүтээхэд ихээхэн хэмжээний мэдлэг, мэдлэг шаарддаг бөгөөд энэ нь тэдний гүйцэтгэл болон хүний ​​түвшний ур чадварын хооронд мэдэгдэхүйц ялгаа үүсгэдэг.

Энэ зөрүүг арилгахын тулд Nvidia, CalTech, UPenn болон бусад компаниудын хөгжүүлэгчид LLM-ээр ажилладаг хүний ​​түвшний дизайны алгоритм болох EUREKA-г нэвтрүүлсэн. EUREKA нь урамшууллын кодыг урьд өмнө хэзээ ч байгаагүй оновчтой болгохын тулд код бичих, контекстийг сайжруулах, контент үүсгэх зэрэг LLM хүрээний янз бүрийн чадавхийг ашиглах зорилготой юм. Эдгээр урамшууллын кодууд нь бататгах сургалттай хослуулан нарийн төвөгтэй ур чадвар эзэмших эсвэл заль мэх хийх даалгавруудыг гүйцэтгэх боломжийг олгодог.

Энэ нийтлэлд бид EUREKA тогтолцоог хөгжлийн үүднээс авч үзэх, түүний хүрээ, үйл ажиллагаа, шагналын функцийг бий болгоход ямар үр дүнд хүрч байгааг судлах болно. Хөгжүүлэгчдийн үзэж байгаагаар эдгээр функцууд нь хүний ​​бүтээсэн функцээс илүү сайн ажилладаг. Мөн бид EUREKA тогтолцоо нь градиентгүй контекст суралцах боломжийг олгосноор RLHF (Хүний санал хүсэлтийг ашиглан бэхжүүлэх сургалт)-ын шинэ хандлагыг хэрхэн нээж байгааг судлах болно. Эхэлцгээе.

EUREKA: Танилцуулга

Өнөөдөр, орчин үеийн LLM хүрээ GPT-3, GPT-4 зэрэг нь дараалсан өндөр түвшний шийдвэр гаргах даалгавруудад семантик төлөвлөгчөөр ажиллахад гайхалтай үр дүнг өгдөг боловч хөгжүүлэгчид үзэг эргүүлэх зэрэг доод түвшний манипуляцийн даалгавруудыг сурахдаа гүйцэтгэлээ сайжруулах арга замыг эрэлхийлсээр байна. ур чадвар. Цаашилбал, хөгжүүлэгчид чадварлаг нөхцөлд тогтвортой үр дүнд хүрэхийн тулд бэхжүүлэх сургалтыг ашиглаж болохыг ажигласан бөгөөд шагналын функцийг хүний ​​зохион бүтээгчид нарийн зохион бүтээсэн тохиолдолд бусад домайнуудыг ашиглаж болох ба эдгээр урамшууллын функцууд нь эерэг зан үйлийн сурах дохиог өгөх чадвартай байдаг. Цөөн урамшуулал хүлээн авдаг бодит амьдрал дээрх бататгах сургалтын даалгавруудтай харьцуулбал загвар өмсөгч загварт суралцахад хүндрэл учруулдаг тул эдгээр урамшууллыг хэлбэржүүлэх нь шаардлагатай нэмэлт сургалтын дохиог өгдөг. Цаашилбал, урамшууллын функцууд нь хэдийгээр ач холбогдлыг нь үл харгалзан дизайн хийхэд маш хэцүү байдаг бөгөөд эдгээр функцүүдийн оновчтой бус загвар нь ихэвчлэн хүсээгүй зан үйлд хүргэдэг. 

Эдгээр сорилтуудыг даван туулж, эдгээр шагналын токенуудын үр ашгийг нэмэгдүүлэхийн тулд EUREKA эсвэл Eхувьсалд тулгуурласан UНиверсал REтойрог Kэнэ нь Agent нь дараах хувь нэмрийг оруулахыг зорьж байна. 

  1. Шагналын функцийг төлөвлөхдөө хүний ​​түвшний гүйцэтгэлд хүрэх. 
  2. Гарын авлагын инженерчлэлийг ашиглахгүйгээр залилан хийх ажлыг үр дүнтэй шийдвэрлэх. 
  3. Уламжлалт RLHF эсвэл Хүний санал хүсэлтээс суралцах бататгах аргын оронд градиентгүй контекст сургалтын шинэ аргыг нэвтрүүлснээр илүү хүнд тохирсон, илүү үр дүнтэй урамшууллын функцуудыг бий болго. 

EUREKA-ийн ерөнхий байдлыг сайжруулахын тулд хөгжүүлэгчид гурван үндсэн алгоритмын дизайны сонголтууд байдаг: хувьслын эрэл хайгуул, орчин нөхцөл, урамшууллын тусгал. Нэгдүгээрт, EUREKA хүрээ нь орчны эх кодыг контекст болгон тэг буудлагын тохиргоонд гүйцэтгэгдэх урамшууллын функцуудыг үүсгэх. Үүний дараа фреймворк нь хувьслын эрэл хайгуул шагналынхаа чанарыг эрс сайжруулахын тулд давталт, эрин үе бүрт урамшууллын нэр дэвшигчдийн багцыг санал болгож, хамгийн ирээдүйтэй гэж үзсэн хүмүүсийг сайжруулдаг. Гурав дахь болон эцсийн шатанд хүрээ нь ашигладаг шагналын тусгал Шагналын нөхцөл байдлын сайжруулалтыг илүү үр дүнтэй болгох арга барил нь бодлогын сургалтын статистикийн үндсэн дээр эдгээр урамшууллын чанарын текстийн хураангуйг ашиглан зорилтот болон автоматжуулсан урамшууллыг засварлах боломжийг бүрдүүлэхэд туслах үйл явц юм. Дараах зураг нь танд EUREKA тогтолцоо хэрхэн ажилладаг талаар товч тоймыг өгөх бөгөөд дараагийн хэсэгт бид архитектурын талаар илүү дэлгэрэнгүй ярих болно. 

EUREKA: Загвар архитектур ба асуудлыг тодорхойлох

Шагналыг хэлбэржүүлэх үндсэн зорилго нь үндсэн үнэний шагналын функцэд зориулж хэлбэржүүлсэн эсвэл сонгосон шагналын функцийг буцаах явдал бөгөөд энэ нь сийрэг урамшуулал шиг шууд оновчтой болгоход хүндрэл учруулж болзошгүй юм. Цаашилбал, дизайнерууд эдгээр үндсэн үнэний шагналын функцүүдэд хандахын тулд зөвхөн асуулга ашиглах боломжтой бөгөөд энэ нь EUREKA тогтолцоог сонгох болсон шалтгаан юм. шагнал бий болгох, RDP эсвэл Шагналын дизайны асуудал дээр суурилсан програмын синтезийн тохиргоо. 

Шагналын дизайны асуудал буюу RDP нь төлөвийн орон зай, шагналын функцүүдийн орон зай, шилжилтийн функц, үйл ажиллагааны орон зай бүхий дэлхийн загварыг агуулсан tuple юм. Дараа нь сургалтын алгоритм нь аливаа бодлогын скаляр хувьслыг бий болгодог MDP эсвэл Markov Design Process-д хүргэдэг бодлогыг бий болгосноор урамшууллыг оновчтой болгодог бөгөөд зөвхөн бодлогын асуулга ашиглан хандах боломжтой. RDP-ийн гол зорилго нь бодлого нь фитнессийн хамгийн дээд оноонд хүрэх чадвартай байхаар урамшууллын функцийг гаргах явдал юм. EUREKA-ийн асуудлын тохиргоонд хөгжүүлэгчид урамшууллын дизайны асуудлын бүрэлдэхүүн хэсэг бүрийг код ашиглан зааж өгсөн. Цаашилбал, даалгаврын нарийвчилсан мэдээллийг тодорхойлсон өгөгдсөн мөрийн хувьд шагнал үүсгэх асуудлын гол зорилго нь фитнессийн оноог нэмэгдүүлэхийн тулд шагналын функцийн кодыг бий болгох явдал юм. 

Үүний үндсэн дээр EUREKA тогтолцоонд гурван үндсэн алгоритмын бүрэлдэхүүн хэсэг байдаг. Хувьслын эрэл хайгуул (нэр дэвшигчдийг давталттайгаар санал болгож, урамшуулах), орчин нөхцөл (тэг цохилтын нөхцөлд гүйцэтгэх боломжтой шагналуудыг бий болгох), шагналын тусгал (шагналыг нарийн сайжруулах боломжтой болгох). Алгоритмын псевдо кодыг дараах зурагт үзүүлэв. 

Хүрээлэн буй орчин нь контекст

Одоогийн байдлаар LLM хүрээ нь урамшууллын загвар зохион бүтээх орц болгон хүрээлэн буй орчны тодорхойлолтыг шаарддаг бол EUREKA тогтолцоо нь LLM хүрээг дэлхийн загварыг контекст болгон авах боломжийг олгодог шагналын кодгүйгээр түүхий орчны кодыг шууд контекст болгон оруулахыг санал болгож байна. EUREKA-ийн баримталж буй арга нь хоёр том давуу талтай. Нэгдүгээрт, кодчиллын зориулалттай LLM хүрээг C, C++, Python, Java гэх мэт одоо байгаа програмчлалын хэл дээр бичигдсэн эх кодын багц дээр сургадаг бөгөөд энэ нь шууд зөвшөөрөгдсөн тохиолдолд кодын гаралтыг илүү сайн гаргах үндсэн шалтгаан юм. анх бэлтгэсэн синтакс, хэв маягаар код зохиох. Хоёрдугаарт, хүрээлэн буй орчны эх кодыг ашиглах нь ихэвчлэн утга учиртай холбоотой орчин, мөн заасан даалгаврын дагуу шагналын функцийг гаргах оролдлого хийхэд тохиромжтой эсвэл ашиглахад тохиромжтой хувьсагчдыг илрүүлдэг. Эдгээр ойлголтын үндсэн дээр EUREKA тогтолцоо нь LLM-д зөвхөн форматлах зөвлөмж, урамшууллын ерөнхий загваруудын тусламжтайгаар илүү гүйцэтгэгдэх боломжтой Python кодыг шууд буцааж өгөхийг зааварчилдаг. 

Хувьслын хайлт

EUREKA-ийн тогтолцоонд хувьслын хайлтыг оруулах нь дэд оновчтой байдлын сорилт, өмнө дурдсанчлан гүйцэтгэх явцад гарсан алдаануудыг арилгах байгалийн шийдлийг харуулах зорилготой юм. Давталт эсвэл эрин үе бүрт Том хэлний загвараас янз бүрийн бие даасан гаралтын хүрээ гарч ирдэг бөгөөд үе үе бүгд iid байх тохиолдолд түүврийн тоо эрин үе бүр нэмэгдэж байгаа тул давталтын үед алдаатай байх магадлалыг экспоненциалаар бууруулдаг. 

Дараагийн алхамд EUREKA тогтолцоо нь өмнөх давталтаас гүйцэтгэгдэж болох урамшууллын функцуудыг ашиглан контекст доторх урамшууллын мутаци хийж, дараа нь текстийн санал хүсэлтийн үндсэн дээр шинэ, сайжруулсан урамшууллын функцийг санал болгодог. EUREKA хүрээ нь контекст дэх сайжруулалт, зааварчилгаатай хослуулсан Том хэлний загваруудын чадвар нь мутацийн операторыг текстийн сануулга болгон зааж өгөх боломжтой бөгөөд одоо байгаа урамшууллын кодуудыг өөрчлөхийн тулд бодлогын сургалтын текстийн хураангуйг ашиглах аргыг санал болгодог. 

Шагналын тусгал

Шагналын өөрчлөлтийг үндэслэхийн тулд бий болгосон урамшууллын чанарыг үнэлэх, хамгийн чухал нь тэдгээрийг үгээр илэрхийлэх нь чухал бөгөөд EUREKA тогтолцоо нь тоон оноог шагналын үнэлгээ болгон өгөх энгийн стратегийг ашиглан үүнийг шийддэг. Даалгаврын фитнессийн функц нь бодит үнэнийг тодорхойлох цогц хэмжүүр болж үйлчилдэг бол зээлийн хуваарилалт байхгүй бөгөөд шагналын функц яагаад ажилладаг, яагаад ажиллахгүй байгаа талаар үнэ цэнэтэй мэдээлэл өгөх боломжгүй байдаг. Тиймээс, илүү зорилтот, нарийн төвөгтэй шагналын оношлогоог хангахын тулд уг тогтолцоо нь текст дэх бодлогын сургалтын динамикийг нэгтгэн дүгнэхийн тулд автоматжуулсан санал хүсэлтийг ашиглахыг санал болгож байна. Цаашилбал, урамшууллын хөтөлбөрт EUREKA хүрээн дэх урамшууллын функцууд нь бүрэлдэхүүн хэсгүүдийг тус тусад нь харуулахыг хүсдэг бөгөөд энэ нь сургалтын бүх үе шатанд бодлогын хяналтын цэгүүд дээр өвөрмөц урамшууллын бүрэлдэхүүн хэсэг бүрийн скаляр утгыг хянах боломжийг олгодог.

Хэдийгээр EUREKA тогтолцооны дагаж мөрддөг шагналын функцийг бүтээхэд хялбар боловч шагналыг оновчтой болгох алгоритмаас хамааралтай шинж чанарын ачаар энэ нь зайлшгүй чухал юм. Энэ нь урамшууллын функцийн үр нөлөө нь Бататгах сургалтын алгоритмын сонголтоос шууд хамаардаг гэсэн үг бөгөөд гиперпараметрийг өөрчилснөөр урамшуулал нь ижил оновчтой тохируулагчтай байсан ч гэсэн өөр байж болно гэсэн үг юм. Тиймээс EUREKA тогтолцоо нь сургалтын үйл ажиллагааны алгоритмтай уялдаа холбоотой урамшууллын функцуудыг нэгтгэхийн зэрэгцээ бүртгэлийг илүү үр дүнтэй, сонгон засварлах боломжтой юм. 

Сургалт ба суурь

EUREKA тогтолцооны сургалтын хоёр үндсэн бүрэлдэхүүн хэсэг байдаг: Бодлогод суралцах болон Шагналын үнэлгээний хэмжүүр.

Бодлогод суралцах

Хувь хүний ​​​​инженерийн шагналыг сайн ажиллуулахын тулд нарийн тохируулсан гиперпараметрүүдийн ижил багцыг ашиглан, бие даасан даалгавар бүрийн эцсийн шагналын функцийг ижил хүчирхэгжүүлэх сургалтын алгоритмын тусламжтайгаар оновчтой болгодог. 

Шагналын үнэлгээний хэмжүүр

Даалгаврын хэмжүүр нь ажил бүрийн хувьд цар хүрээ болон утгын утгаараа харилцан адилгүй байдаг тул EUREKA тогтолцоо нь хүний ​​хэвийн болгосон оноог тайлагнадаг бөгөөд энэ үзүүлэлт нь хүний ​​​​бүтээсэн шагналын гүйцэтгэлтэй харьцуулах цогц хэмжүүр юм. үндсэн үнэний хэмжүүрүүд. 

Цаашид гурван үндсэн суурь байна: L2R, Хүн, болон Сийрэг. 

L2R

L2R нь a хоёр үе шаттай том хэлний горимl загварчилсан урамшууллыг бий болгоход туслах өдөөн хатгасан шийдэл. Нэгдүгээрт, LLM хүрээ нь байгалийн хэлээр тодорхойлсон байгаль орчин, даалгаврын байгалийн хэлний загварыг бөглөж, дараа нь хоёрдахь LLM хүрээ нь энэхүү "хөдөлгөөний тайлбарыг" гараар бичсэн шагналын API командуудын багцыг дуудаж урамшууллын функц бичих код болгон хувиргадаг. . 

Хүний

Хүний суурь үзүүлэлт нь сурган хүмүүжүүлэх чиглэлээр мэргэшсэн судлаачдын бичсэн анхны урамшууллын функцууд бөгөөд иймээс хүний ​​шагналын инженерчлэлийн үр дүнг урьд өмнө байгаагүй түвшинд илэрхийлдэг. 

Сийрэг

Сийрэг суурь үзүүлэлт нь фитнессийн функцуудтай төстэй бөгөөд тэдгээрийг тогтолцооны бий болгосон урамшууллын чанарыг үнэлэхэд ашигладаг. 

Үр дүн ба үр дүн

EUREKA тогтолцооны гүйцэтгэлд дүн шинжилгээ хийхийн тулд бид үүнийг янз бүрийн үзүүлэлтээр үнэлнэ хүний ​​шагналын эсрэг гүйцэтгэл, цаг хугацааны явцад үр дүнг сайжруулах, шинэ урамшуулал бий болгох, зорилтот сайжруулалтыг идэвхжүүлэх, болон хүний ​​санал хүсэлттэй ажиллах. 

EUREKA нь хүний ​​​​шагналыг илүү сайн гүйцэтгэдэг

Дараах зураг нь янз бүрийн жишиг үзүүлэлтүүдийн нийлбэр үр дүнг харуулсан бөгөөд EUREKA тогтолцоо нь Dexterity болон Issac даалгавруудын аль алиных нь хувьд хүний ​​түвшний шагналыг давж, эсвэл ижил түвшинд гүйцэтгэдэг болохыг тодорхой харж болно. Харьцуулбал, L2R суурь үзүүлэлт нь бага хэмжээст даалгавруудад ижил төстэй гүйцэтгэлийг өгдөг боловч өндөр хэмжээст ажлуудын тухайд гүйцэтгэлийн зөрүү нэлээд их байдаг. 

Цаг хугацаа өнгөрөх тусам тогтмол сайжирч байна

EUREKA тогтолцооны гол онцлох зүйлсийн нэг нь давталт болгонд гүйцэтгэлээ байнга сайжруулж, сайжруулах чадвар бөгөөд үр дүнг доорх зурагт үзүүлэв. 

Эндээс харахад уг хүрээ нь давталт болгондоо илүү сайн урамшууллыг бий болгодог бөгөөд контекст доторх хувьслын шагнал хайх аргыг ашигласны ачаар хүний ​​шагналын гүйцэтгэлийг сайжруулж, улмаар давж гардаг. 

Шинэлэг шагналуудыг бий болгох

EUREKA тогтолцооны урамшууллын шинэлэг байдлыг Исакийн бүх үүрэг даалгаврын дагуу хүний ​​​​ба EUREKA шагналын хоорондын хамаарлыг тооцоолох замаар үнэлж болно. Дараа нь эдгээр харилцан хамаарлыг тараасан график эсвэл газрын зураг дээр хүний ​​нормчлогдсон онооны эсрэг зурж, график дээрх цэг бүр нь бие даасан ажил бүрийн хувьд тусдаа EUREKA шагналыг илэрхийлдэг. Эндээс харахад EUREKA тогтолцоо нь хүний ​​шагналын функцээс давсан сул харилцан хамаарал бүхий урамшууллын функцийг голчлон бий болгодог. 

Зорилтот сайжруулалтыг идэвхжүүлэх

Шагналын санал хүсэлтэд урамшууллын тусгал нэмэхийн ач холбогдлыг үнэлэхийн тулд хөгжүүлэгчид урамшууллын тусгалгүй EUREKA тогтолцооны ablation-ийг үнэлж, санал хүсэлтийг зөвхөн хормын хувилбараас бүрдүүлдэг. Issac даалгавруудыг ажиллуулахдаа хөгжүүлэгчид урамшууллын тусгалгүйгээр EUREKA тогтолцооны дундаж нормчлогдсон оноо 29 орчим хувиар буурсан болохыг ажиглав. 

Хүний санал хүсэлттэй ажиллах

Хүнд тохирсон, илүү үр дүнтэй шагналын функцүүдийг бий болгохын тулд олон төрлийн орцыг хялбархан нэгтгэхийн тулд EUREKA тогтолцоо нь автоматжуулсан урамшууллын загвараас гадна Хүний санал хүсэлтээс суралцах бататгах градиентгүй контекст сургалтын шинэ хандлагыг нэвтрүүлсэн. хоёр чухал ажиглалт. 

  1. EUREKA нь хүний ​​урамшууллын функцээс ашиг тус хүртэж, сайжруулж чадна. 
  2. Шагналын эргэцүүлэн бодоход хүний ​​санал хүсэлтийг ашиглах нь нийцтэй зан үйлийг өдөөдөг. 

Дээрх зураг нь EUREKA тогтолцоо нь гүйцэтгэлийн мэдэгдэхүйц өсөлтийг хэрхэн харуулж байгааг харуулж байгаа бөгөөд хүний ​​​​шагналын чанараас үл хамааран хүний ​​​​шагналыг эхлүүлэх үр ашиг нь үндсэн шагналын чанар нь контекст доторх шагналыг сайжруулах чадварт төдийлөн нөлөөлдөггүй болохыг харуулж байна. хүрээний. 

Дээрх зураг нь EUREKA-ийн тогтолцоо нь зөвхөн хүнтэй нийцсэн бодлогыг бий болгоод зогсохгүй хүний ​​санал хүсэлтийг нэгтгэснээр урамшууллыг хэрхэн өөрчилж болохыг харуулж байна. 

Final бодол

Энэ нийтлэлд бид LLM-ээр ажилладаг хүний ​​түвшний дизайны алгоритм болох EUREKA-ийн талаар ярилцсан бөгөөд энэ нь LLM хүрээний код бичих, контекстийг сайжруулах чадвар, урьд өмнө хэзээ ч байгаагүй оновчлолыг гүйцэтгэхийн тулд XNUMX-shot контент үүсгэх зэрэг олон боломжуудыг ашиглахыг оролдсон. шагналын кодууд. Шагналын кодыг бататгах сургалтын хамт эдгээр системүүд нарийн төвөгтэй ур чадвар эзэмших, эсвэл заль мэх хийх ажлыг гүйцэтгэхэд ашиглаж болно. Хүний оролцоогүйгээр эсвэл даалгаварт зориулсан шуурхай инженерчлэлгүйгээр уг тогтолцоо нь олон төрлийн даалгавар дээр хүний ​​түвшний шагнал урамшууллыг бий болгох боломжийг олгодог бөгөөд түүний гол хүч нь сургалтын хөтөлбөрийн сургалтын арга барилаар нарийн төвөгтэй ажлуудыг сурахад оршдог. 

Ерөнхийдөө, EUREKA тогтолцооны мэдэгдэхүйц гүйцэтгэл, олон талт байдал нь хувьслын алгоритмуудыг том хэлний загвартай хослуулах боломжийг харуулж байгаа бөгөөд дизайны урамшуулалд өргөн цар хүрээтэй, ерөнхий хандлагыг бий болгож болох бөгөөд энэхүү ойлголт нь бусад нээлттэй хайлтын асуудлуудад хэрэглэгдэх боломжтой юм. 

"Мэргэжилээрээ инженер, цээжээрээ зохиолч". Кунал бол хиймэл оюун ухаан болон ML-д гүн гүнзгий хайртай, ойлголттой техникийн зохиолч бөгөөд эдгээр салбар дахь нарийн төвөгтэй ойлголтуудыг сонирхолтой, мэдээлэл сайтай баримт бичгүүдээрээ хялбарчлахад зориулагдсан.