Штучний інтелект

EUREKA: Проектування винагород на рівні людини за допомогою кодування великих мовних моделей

Published November 21, 2023

Updated April 4, 2026

Kunal Kejriwal

З огляду на досягнення великих мовних моделей за останні роки, не дивно, чому ці rámки LLM вирізняються як семантичні плани для послідовних завдань високого рівня прийняття рішень. Однак розробники все ще знаходять складнощі у використанні повного потенціалу rámок LLM для вивчення складних завдань низького рівня маніпуляції. Незважаючи на свою ефективність, сучасні великі мовні моделі вимагають значної предметної та галузевої експертизи для вивчення навіть простих навичок або створення текстових запитів, створюючи значний розрив між їхніми можливостями та людською спритністю.

Для подолання цього розриву розробники з Nvidia, CalTech, UPenn та інших компаній представили EUREKA, алгоритм проектування на рівні людини, що використовує можливості LLM. EUREKA спрямований на використання різних можливостей rámок LLM, включаючи написання коду, покращення в контексті та генерацію контенту без попередніх знань, для здійснення безпрецедентної оптимізації кодів винагород. Ці коди винагород, у поєднанні з підкріплювальним навчанням, дозволяють rámкам вивчати складні навички або виконувати завдання маніпуляції.

У цій статті ми розглянемо rámку EUREKA з точки зору розробника, досліджуючи її rámку, принципів роботи та результатів, яких вона досягає при генерації функцій винагород. Ці функції, як стверджують розробники, перевершують ті, які генеруються людьми. Ми також розглянемо, як rámка EUREKA відкриває новий підхід до RLHF (підкріплювальне навчання з людською відповіддю) шляхом забезпечення безградієнтного навчання в контексті. Давайте почнемо.

EUREKA : Вступ

Сьогодні найновіші rámки LLM типу GPT-3 та GPT-4 демонструють видатні результати при виконанні завдань високого рівня прийняття рішень, але розробники все ще шукають способи покращити їхню продуктивність при вивченні завдань низького рівня маніпуляції, таких як дexterous tasks. Крім того, розробники спостерігали, що підкріплювальне навчання можна використовувати для досягнення сталих результатів у дexterous умовах та інших галузях, якщо функції винагород спроектовані ретельно людськими дизайнерами, та ці функції винагород здатні забезпечувати сигнали навчання для сприятливої поведінки. Коли порівнюємо завдання підкріплювального навчання, які приймають рідкі винагороди, робить складно для моделі вивчити закономірності, формування цих винагород забезпечує необхідні інкрементні сигнали навчання. Крім того, функції винагород, незважаючи на свою важливість, дуже складно проектувати, та субоптимальні проекти цих функцій часто призводять до непередбачуваної поведінки.

Для подолання цих викликів та максимізації ефективності цих токенів винагород, rámка EUREKA або Eволюційно-кероване Uніверсальне REвард Kіт для Aгента спрямована на виконання наступних внесків.

Досягнення людського рівня проектування функцій винагород.
Ефективне розв’язання завдань маніпуляції без ручного проектування винагород.
Генерація більш людських та ефективних функцій винагород шляхом введення нового безградієнтного підходу навчання в контексті замість традиційного RLHF або підкріплювального навчання з людською відповіддю.

Є три ключові алгоритмічні рішення, які розробники обрали для покращення універсальності EUREKA: еволюційний пошук, середовище як контекст та віддзеркалення винагород. По-перше, rámка EUREKA приймає вхідний код середовища як контекст для генерації виконуваних функцій винагород у режимі без попередніх знань. Після цього rámка здійснює еволюційний пошук для покращення якості своїх винагород суттєво, пропонує пакети кандидатів на винагороди з кожною ітерацією або епохою, та доопрацьовує ті, які вона знаходить найбільш перспективними. На третьому та останньому етапі rámка використовує віддзеркалення винагород для забезпечення більш ефективного покращення винагород в контексті, процес, який в кінцевому підсумку допомагає rámці забезпечити цілеспрямоване та автоматизоване редагування винагород за допомогою текстового резюме якості цих винагород на основі статистики навчання політики. Наступна фігура дає вам короткий огляд того, як працює rámка EUREKA, та в наступному розділі ми розглянемо архітектуру та принцип роботи більш детально.

EUREKA : Модель архітектури та постановка задачі

Основною метою формування винагород є повернення сформованої або відібраної функції винагород для функції винагород, яка може спричинити складнощі при прямій оптимізації, як рідкі винагороди. Крім того, дизайнери можуть використовувати лише запити для доступу до цих функцій винагород, що є причиною, чому rámка EUREKA обирає генерацію винагород, програмне синтезування на основі RDP або проблеми проектування винагород.

Проблема проектування винагород або RDP є кортежем, який містить модель світу з простором стану, простором функцій винагород, функцією переходу та простором дій. Алгоритм навчання оптимізує винагороди шляхом генерації політики, яка призводить до МДП або марковського процесу прийняття рішень, який генерує скалярну еволюцію будь-якої політики, та може бути доступний лише за допомогою запитів політики. Основною метою RDP є виведення функції винагород таким чином, щоб політика могла досягти максимального балу. У постановці задачі EUREKA розробники вказали кожну складову проблеми проектування винагород за допомогою коду. Крім того, для заданої строки, яка вказує деталі завдання, основною метою проблеми генерації винагород є генерація коду функції винагород для максимізації балу.

Далі, у рамках rámки EUREKA є три фундаментальні алгоритмічні компоненти. Еволюційний пошук (пропозиція та доопрацювання кандидатів ітеративно), середовище як контекст (генерація виконуваних винагород у режимі без попередніх знань) та віддзеркалення винагород (для забезпечення покращення винагород). Псевдокод алгоритму проілюстрований у наступній фігурі.

Середовище як контекст

Наразі rámки LLM потребують специфікацій середовища як вхідних даних для проектування винагород, тоді як rámка EUREKA пропонує подавати сирій код середовища безпосередньо як контекст, без коду винагород, що дозволяє rámкам LLM приймати модель світу як контекст. Підхід, обраний EUREKA, має дві основні переваги. По-перше, rámки LLM для кодування тренуються на вихідних наборах коду, написаних існуючими мовами програмування, такими як C, C++, Python, Java тощо, що є фундаментальною причиною, чому вони краще генерують кодові виходи, коли їм дозволяється складати код у синтаксисі та стилі, на яких вони були треновані спочатку. По-друге, використання коду середовища зазвичай розкриває середовище семантично, та змінні, які підходять для використання при спробі вивести функцію винагород згідно зі вказаним завданням. На основі цих ідей rámка EUREKA інструктує LLM повернути більш виконуваний код Python безпосередньо за допомогою лише форматних підказок та загальних проектів винагород.

Еволюційний пошук

Включення еволюційного пошуку до rámки EUREKA спрямоване на подання природного рішення проблем субоптимальності та помилок під час виконання, як згадувалося раніше. З кожною ітерацією або епохою rámка пропонує різні незалежні виходи з великої мовної моделі, та якщо генерації є всі незалежними, вона експоненційно зменшує ймовірність винагород під час ітерацій бути помилковими, залежно від кількості зразків, які збільшуються з кожною епохою.

У наступному етапі rámка EUREKA використовує виконувані функції винагород з попередньої ітерації для виконання покращення винагород в контексті, а потім пропонує нову та покращену функцію винагород на основі текстової відповіді. Рámка EUREKA, у поєднанні з покращенням в контексті та інструкційними можливостями великих мовних моделей, здатна вказати оператор мутації як текстову підказку, та пропонує метод використання текстового резюме навчання політики для модифікації існуючих кодів винагород.

Віддзеркалення винагород

Для забезпечення покращення винагород в контексті необхідно оцінити якість згенерованих винагород, та більш важливо, виразити їх словами, та rámка EUREKA розв’язує цю проблему шляхом використання простої стратегії надання числових балів як оцінки винагород. Коли функція фітнесу служить цілісною мірою для істинної функції винагород, вона не має призначення кредитів, та не може надати жодної цінної інформації щодо того, чому функція винагород працює, або чому вона не працює. Тому у спробі надати більш цілеспрямовану та складну діагностику винагород, rámка пропонує використовувати автоматичну відповідь для підсумовування динаміки навчання політики у тексті. Крім того, у програмі винагород функції винагород у rámці EUREKA запитують окремо розкрити свої складові, що дозволяє rámці відстежувати скалярні значення кожного унікального компоненту винагород на контрольних точках політики під час усього етапу навчання.

Хоча процедура функції винагород, яку слідує rámка EUREKA, проста для конструкції, вона є суттєвою через алгоритмічно-залежний характер оптимізації винагород. Це означає, що ефективність функції винагород безпосередньо залежить від вибору алгоритму навчання з підкріпленням, та з зміною гіперпараметрів винагорода може працювати по-різному навіть з тим же оптимізатором. Тому rámка EUREKA здатна редагувати записи більш ефективно та селективно під час синтезу функцій винагород, які перебувають у покращеній синергії з алгоритмом навчання з підкріпленням.

Навчання та базові показники

Є два основних компоненти навчання rámки EUREKA: навчання політики та оцінка метрик винагород.

Навчання політики

Остаточні функції винагород для кожного окремого завдання оптимізуються за допомогою того ж алгоритму навчання з підкріпленням, який використовує ті ж гіперпараметри, які доопрацьовані для того, щоб людські інженерні функції винагород працювали добре.

Оцінка метрик винагород

Оскільки метрика завдання змінюється за масштабом та семантичним значенням з кожним завданням, rámка EUREKA повідомляє про нормалізований бал людського рівня, метрику, яка забезпечує цілісну міру для порівняння того, як вона працює проти експертно згенерованих людьми винагород згідно з істинними метриками.

Далі, є три основних базових показники: L2R, Людина, та Рідка.

L2R

L2R є двостадійним рішенням великої мовної моделі для генерації шаблонних винагород. По-перше, rámка LLM заповнює шаблон природною мовою для середовища та завдання, вказаних природною мовою, а потім друга rámка LLM перетворює цей «опис руху» у код, який пише функцію винагород шляхом виклику набору вручну написаних примітивів API винагород.

Людина

Базові показники Людина є оригінальними функціями винагород, написаними дослідниками навчання з підкріпленням, що представляють результати людського проектування винагород на безпрецедентному рівні.

Рідка

Базові показники Рідка нагадують функції фітнесу, та вони використовуються для оцінки якості винагород, які rámка генерує.

Результати та підсумки

Для аналізу продуктивності rámки EUREKA ми оцінимо її на різних параметрах, включаючи її продуктивність проти людських винагород, покращення результатів з часом, генерацію нових винагород, забезпечення цілеспрямованого покращення, та роботу з людською відповіддю.

EUREKA перевершує людські винагороди

Наступна фігура ілюструє агреговані результати за різними бенчмарками, та, як можна побачити, rámка EUREKA або перевершує, або працює на рівні людських винагород на завданнях Dexterity та Issac. На відміну від цього, базові показники L2R демонструють подібну продуктивність на завданням низької розмірності, але коли мова йде про завдання високої розмірності, розрив у продуктивності досить суттєвий.

Постійне покращення з часом

Одним з основних моментів rámки EUREKA є її здатність постійно покращувати свою продуктивність з часом з кожною ітерацією, та результати продемонстровані на фігурі нижче.

Як можна побачити, rámка постійно генерує кращі винагороди з кожною ітерацією, та вона також покращує та в кінцевому підсумку перевершує продуктивність людських винагород, завдяки використанню підходу еволюційного пошуку винагород в контексті.

Генерація нових винагород

Новизна винагород rámки EUREKA можна оцінити шляхом розрахунку кореляції між людськими та EUREKA винагородами на всіх завданнях Issac. Ці кореляції потім наносяться на графік розсіювання або карту проти нормалізованих балів людського рівня, з кожною точкою на графіку, яка представляє окрему винагороду EUREKA для кожного завдання. Як можна побачити, rámка EUREKA переважно генерує слабо корельовані функції винагород, які перевершують людські винагороди.

Забезпечення цілеспрямованого покращення

Для оцінки важливості додавання віддзеркалення винагород до зворотного зв’язку винагород, розробники оцінили абляцію, rámку EUREKA без віддзеркалення винагород, яка зменшує підказки зворотного зв’язку до складу лише значень моментальних значень. Коли виконується завдання Issac, розробники спостерігали, що без віддзеркалення винагород rámка EUREKA зазнала падіння близько 29% у середньому нормалізованому балі.

Робота з людською відповіддю

Для швидкого включення широкого спектра вхідних даних для генерації людських та більш ефективних функцій винагород, rámка EUREKA, окрім автоматичного проектування винагород, вводить новий безградієнтний підхід навчання в контексті до навчання з підкріпленням з людською відповіддю, та були дві суттєві спостереження.

EUREKA може вигравати та покращуватися від людських функцій винагород.
Використання людської відповіді для віддзеркалення винагород індукує поведінку, що відповідає людським очікуванням.

Вищезазначена фігура демонструє, як rámка EUREKA демонструє суттєве покращення продуктивності та ефективності за допомогою ініціалізації людських винагород, незалежно від якості людських винагород, що свідчить про те, що якість базових винагород не має суттєвого впливу на можливості покращення винагород в контексті rámки.

Вищезазначена фігура ілюструє, як rámка EUREKA не тільки може індукувати більш людські політики, але також модифікувати винагороди шляхом включення людської відповіді.

Заключні думки

У цій статті ми говорили про EUREKA, rámку проектування на рівні людини, що використовує можливості LLM, включаючи написання коду, покращення в контексті та генерацію контенту без попередніх знань, для здійснення безпрецедентної оптимізації кодів винагород. Код винагород разом з підкріплювальним навчанням можуть бути використані цією rámкою для вивчення складних навичок або виконання завдань маніпуляції. Без людського втручання або завдання-специфічного проектування підказок rámка забезпечує можливості генерації винагород на рівні людини на широкому спектрі завдань, та її основна сила полягає у вивченні складних завдань з підходом навчання за допомогою курсу.

Загалом, суттєва продуктивність та універсальність rámки EUREKA свідчать про потенціал поєднання еволюційних алгоритмів з великими мовними моделями, який може призвести до масштабованого та загального підходу до проектування винагород, та цей висновок може бути застосований до інших відкритих пошукових задач.