Штучний інтелект

EUREKA: Проектування винагород на рівні людини за допомогою великих мовних моделей

mm

Зважаючи на досягнення великих мовних моделей за останні роки, не дивно, чому ці моделі успішно використовуються як семантичні плани для послідовних завдань високого рівня. Однак розробники все ще стикаються з труднощами при використанні повного потенціалу цих моделей для навчання складним завданням низького рівня. Незважаючи на їхню ефективність, сучасні великі мовні моделі вимагають значної предметної та галузевої експертизи для навчання навіть простих навичок або створення текстових підказок, що створює значний розрив між їхніми можливостями та можливостями людини.

Щоб подолати цей розрив, розробники з Nvidia, CalTech, UPenn та інших компаній представили EUREKA, алгоритм проектування винагород на основі великих мовних моделей. EUREKA спрямований на використання можливостей великих мовних моделей, включаючи написання коду, покращення в контексті та генерацію вмісту без попереднього навчання, для здійснення безпрецедентної оптимізації кодів винагород. Ці коди винагород, у поєднанні з навчання з підкріпленням, дозволяють моделям навчатися складним завданням або виконувати маніпуляції.

У цій статті ми розглянемо.framework EUREKA з точки зору розробника, досліджуючи його структуру, принцип роботи та результати, яких він досягає при генерації функцій винагород. Ці функції, як стверджують розробники, перевершують ті, що генеруються людиною. Ми також розглянемо, як framework EUREKA відкриває новий підхід до RLHF (навчання з підкріпленням за допомогою людської обратної зв’язності) шляхом забезпечення безградієнтного навчання в контексті. Давайте почнемо.

EUREKA: Введення

Сьогодні найкращі великі мовні моделі, такі як GPT-3 та GPT-4, демонструють видатні результати при виконанні завдань високого рівня, але розробники все ще шукають способи покращити їхню продуктивність при навчанні завдань низького рівня, таких як спіннінг ручки. Крім того, розробники спостерігали, що навчання з підкріпленням можна використовувати для досягнення сталих результатів у умовах, що вимагають спритності, та інших галузей, якщо винагороди спроектовані людьми та здатні забезпечити сигнали навчання для сприятливої поведінки. Коли порівнюємо завдання навчання з підкріпленням у реальному світі, які приймають рідкі винагороди, складно для моделі навчатися законам. Тому формування винагород забезпечує необхідні інкрементальні сигнали навчання. Крім того, функції винагород, незважаючи на їхню важливість, дуже складні у проектуванні, а субоптимальний дизайн цих функцій часто призводить до нежаданої поведінки.

Щоб подолати ці виклики та максимізувати ефективність цих токенів винагород, framework EUREKA або Еволюційний Універсальний Винагороди Кит для Агента спрямований на виконання наступних внесків.

  1. Досягнення рівня людини при проектуванні функцій винагород.
  2. Ефективне розв’язання завдань маніпуляції без використання ручного проектування винагород.
  3. Генерація більш людських та ефективних функцій винагород шляхом введення нового безградієнтного підходу навчання в контексті замість традиційного методу RLHF.

Є три ключові алгоритмічні рішення, які розробники обрали для покращення загальності EUREKA: еволюційний пошук, середовище як контекст та віддзеркалення винагород. По-перше, framework EUREKA приймає вхідний код середовища як контекст для генерації виконуваних функцій винагород у режимі нульового навчання. Після цього framework здійснює еволюційний пошук для покращення якості своїх винагород суттєво, пропонує партії кандидатів на винагороди з кожною ітерацією або епохою та розвиває ті, які він вважає найбільш перспективними. На третьому та останньому етапі framework використовує віддзеркалення винагород для того, щоб зробити покращення винагород у контексті більш ефективним, процес, який в кінцевому підсумку допомагає framework забезпечити цілеве та автоматизоване редагування винагород за допомогою текстового підсумовування якості цих винагород на основі статистики навчання політики. Наступна фігура дає вам короткий огляд того, як працює framework EUREKA, а в наступному розділі ми будемо говорити про архітектуру та принцип роботи у більшій деталі.

EUREKA: Архітектура моделі та постановка задачі

Основна мета формування винагород полягає у поверненні сформованої або відібраної функції винагород для фактичної функції винагород, яка може бути складною при прямій оптимізації, наприклад, рідкі винагороди. Крім того, дизайнери можуть використовувати лише запити для доступу до цих фактичних функцій винагород, що є причиною, по якій framework EUREKA обирає генерацію винагород, програмне середовище синтезу на основі RDP або проблеми проектування винагород.

Проблема проектування винагород або RDP є кортежем, який містить модель світу з простором стану, простором функцій винагород, функцією переходу та простором дій. Алгоритм навчання оптимізує винагороди шляхом генерації політики, яка призводить до процесу Маркова, який виробляє скалярну еволюцію будь-якої політики, і може бути доступна лише за допомогою запитів політики. Основна мета RDP полягає у виведенні функції винагород таким чином, щоб політика могла досягти максимального балу придатності. У постановці задачі EUREKA розробники вказали кожну компоненту проблеми проектування винагород за допомогою коду. Крім того, для заданої строки, яка вказує деталі завдання, основна мета проблеми генерації винагород полягає у генерації коду функції винагород для максимізації балу придатності.

Далі, у своєму ядрі, є три фундаментальні алгоритмічні компоненти у framework EUREKA. Еволюційний пошук (пропозиція та винагорода кандидатів ітеративно), середовище як контекст (генерація виконуваних винагород у режимі нульового навчання) та віддзеркалення винагород (для забезпечення тонкого покращення винагород). Псевдокод алгоритму проілюстрований у наступній картинці.

Середовище як контекст

На сьогодні великі мовні моделі потребують специфікацій середовища як вхідних даних для проектування винагород, тоді як framework EUREKA пропонує подавати вхідний код середовища безпосередньо як контекст, без коду винагород, що дозволяє великим мовним моделям приймати модель світу як контекст. Підхід, який слідує EUREKA, має дві основні переваги. По-перше, великі мовні моделі для кодування тренуються на рідних наборах коду, написаних існуючими мовами програмування, такими як C, C++, Python, Java тощо, що є фундаментальною причиною, по якій вони краще генерують кодові виходи, коли їм дозволено безпосередньо складати код у синтаксисі та стилі, на яких вони були треновані. По-друге, використання вхідного коду середовища зазвичай розкриває середовища, що беруть участь семантично, та змінні, які підходять для використання у спробі вивести функцію винагород згідно зі заданим завданням. На основі цих знань framework EUREKA інструктує велику мовну модель повернути більш виконуваний код Python безпосередньо за допомогою лише порад з форматування та загальних проектів винагород.

Еволюційний пошук

Включення еволюційного пошуку у framework EUREKA спрямоване на подання природного рішення проблем субоптимальності та помилок під час виконання, про які згадувалося раніше. З кожною ітерацією або епохою framework генерує незалежні виходи великої мовної моделі, і якщо генерації є всі незалежними та однаково розподілені, то він експоненційно зменшує ймовірність винагород під час ітерацій бути помилковими, залежно від кількості зразків, які збільшуються з кожною епохою.

На наступному етапі framework EUREKA використовує виконувані функції винагород з попередньої ітерації для виконання мутації винагород у контексті, а потім пропонує нову та покращену функцію винагород на основі текстової обратної зв’язності. Framework EUREKA, у поєднанні з покращенням у контексті та інструкціями великої мовної моделі, здатний вказати оператор мутації як текстову підказку та пропонує метод використання текстового підсумовування навчання політики для зміни існуючого коду винагород.

Віддзеркалення винагород

Щоб заснувати мутації винагород у контексті, необхідно оцінити якість згенерованих винагород та, що ще важливіше, виразити їх словами, і framework EUREKA вирішує це шляхом використання простої стратегії надання числових оцінок як оцінки винагород. Коли функція придатності завдання служить цілісною метрикою для фактичної істини, вона несе відповідальність та не може забезпечити жодної корисної інформації про те, чому функція винагород працює або чому вона не працює. Тому у спробі забезпечити більш цілеве та тонке діагнозування винагород framework пропонує використовувати автоматичну обратну зв’язність для підсумовування динаміки навчання політики у тексті. Крім того, у програмі винагород функції винагород у framework EUREKA запитують окремо виділити свої компоненти, що дозволяє framework відстежувати скалярні значення кожного унікального компонента винагород на контрольних точках політики під час всього періоду навчання.

Хоча процедура винагород, яку слідує framework EUREKA, проста у конструкції, вона є важливою через алгоритмічно-залежний характер оптимізації винагород. Це означає, що ефективність функції винагород прямо залежить від вибору алгоритму навчання з підкріпленням, а з зміною гіперпараметрів винагорода може працювати по-різному навіть з тим же оптимізатором. Тому framework EUREKA здатний редагувати записи більш ефективно та вибірково під час синтезу функцій винагород, які перебувають у покращеній синергії з алгоритмом навчання з підкріпленням.

Навчання та базові показники

Є два основних компоненти навчання у framework EUREKA: навчання політики та оцінка метрик винагород.

Навчання політики

Остаточна функція винагород для кожного окремого завдання оптимізується за допомогою того самого алгоритму навчання з підкріпленням за допомогою того самого набору гіперпараметрів, які налаштовані для того, щоб людьми спроектовані винагороди працювали добре.

Оцінка метрик винагород

Оскільки метрика завдання змінюється за масштабом та семантичним значенням з кожним завданням, framework EUREKA повідомляє про нормалізований бал людини, метрику, яка забезпечує цілісну міру для порівняння того, як він працює порівняно з експертними людьми, згенерованими винагороди згідно з метриками фактичної істини.

Далі, є три основні базові показники: L2R, Людина, та Рідка.

L2R

L2R є двостадійним рішенням великої мовної моделі для генерації шаблонних винагород. По-перше, велика мовна модель заповнює шаблон природної мови для середовища та завдання, вказаних у природній мові, а потім друга велика мовна модель перетворює цей “опис руху” у код, який пише функцію винагород шляхом виклику набору вручну написаних примітивів API винагород.

Людина

Базові показники Людина являють собою оригінальні функції винагород, написані дослідниками навчання з підкріпленням, що представляють результати людського проектування винагород на безпрецедентному рівні.

Рідка

Базові показники Рідка схожі на функції придатності та використовуються для оцінки якості винагород, згенерованих framework.

Результати та підсумки

Щоб проаналізувати продуктивність framework EUREKA, ми оцінимо його за різними параметрами, включаючи його продуктивність порівняно з людськими винагородами, покращення результатів з часом, генерацію нових винагород, забезпечення цілевого покращення, та роботу з людською обратною зв’язністю.

EUREKA перевершує людські винагороди

Наступна фігура ілюструє агреговані результати за різними бенчмарками, і як можна чітко побачити, framework EUREKA або перевершує, або працює на рівні з людськими винагородами на завданнях Dexterity та Issac. На відміну від цього, базові показники L2R демонструють подібну продуктивність на низьковимірних завданнях, але коли йдеться про високовимірні завдання, розрив у продуктивності досить суттєвий.

Постійне покращення з часом

Одним із основних亮костей framework EUREKA є його здатність постійно покращувати та підвищувати свою продуктивність з часом з кожною ітерацією, і результати демонструються на наступній картинці.

Як можна чітко побачити, framework постійно генерує кращі винагороди з кожною ітерацією, і він також покращує та в кінцевому підсумку перевершує продуктивність людських винагород, завдяки використанню підходу еволюційного пошуку винагород у контексті.

Генерація нових винагород

Новизна винагород framework EUREKA можна оцінити шляхом розрахунку кореляції між людськими та EUREKA-винагородами на всіх завданнях Issac. Ці кореляції потім наносяться на графік або карту проти нормалізованих балів людини, причому кожна точка на графіку представляє окрему винагороду EUREKA для кожного окремого завдання. Як можна чітко побачити, framework EUREKA переважно генерує слабо корельовані функції винагород, які перевершують людські функції винагород.

Забезпечення цілевого покращення

Щоб оцінити важливість додавання віддзеркалення винагород до обратної зв’язності винагород, розробники оцінили абляцію, framework EUREKA без віддзеркалення винагород, який зменшує підказки обратної зв’язності до тих, які складаються лише зі сніпшот-значень. При виконанні завдань Issac розробники спостерігали, що без віддзеркалення винагород framework EUREKA свідчив про зниження середнього нормалізованого балу приблизно на 29%.

Робота з людською обратною зв’язністю

Щоб легко включити широкий спектр входів для генерації людських та більш ефективних функцій винагород, framework EUREKA, окрім автоматичного проектування винагород, вводить новий безградієнтний підхід навчання у контексті до навчання з підкріпленням за допомогою людської обратної зв’язності, і були дві суттєві спостереження.

  1. EUREKA може виграти та покращитися з людських функцій винагород.
  2. Використання людської обратної зв’язності для віддзеркалення винагород індукує відповідну поведінку.

Наведена вище фігура демонструє, як framework EUREKA демонструє суттєве підвищення продуктивності та ефективності за допомогою ініціалізації людських винагород, незалежно від якості людських винагород, що свідчить про те, що якість базових винагород не має суттєвого впливу на можливості покращення винагород у контексті framework.

Наведена вище фігура ілюструє, як framework EUREKA не тільки може індукувати більш людські політики, але також може змінити винагороди шляхом включення людської обратної зв’язності.

Остатні думки

У цій статті ми говорили про EUREKA, алгоритм проектування винагород на рівні людини, який намагається використовувати різні можливості великих мовних моделей, включаючи написання коду, покращення у контексті та генерацію вмісту без попереднього навчання, для здійснення безпрецедентної оптимізації кодів винагород. Код винагороди разом з навчання з підкріпленням може бути використаний цими моделями для навчання складним завданням або виконанню маніпуляцій. Без людського втручання чи завдань-специфічного проектування підказок framework демонструє рівень людини при генерації винагород на широкому спектрі завдань, і його основна сила полягає у навчанні складним завданням з підходом навчання у куріколі.

Загалом, суттєва продуктивність та універсальність framework EUREKA свідчать про потенціал поєднання еволюційних алгоритмів з великими мовними моделями, який може привести до масштабованого та загального підходу до проектування винагород, і цей висновок може бути застосовний до інших відкритих пошукових завдань.

Інженер за професією, письменник серцем. Kunal є технічним письменником з глибокою любов'ю та розумінням AI і ML, присвяченим спрощенню складних концепцій у цих галузях завдяки його цікавим та інформативним документам.