Искусственный интеллект

EUREKA: Проектирование наград на уровне человека посредством кодирования больших языковых моделей

Published November 21, 2023

Updated April 4, 2026

Kunal Kejriwal

С учетом достижений больших языковых моделей в последние годы, неудивительно, почему эти рамки LLM отлично подходят для семантического планирования последовательных задач принятия решений высокого уровня. Однако разработчикам все еще сложно использовать весь потенциал рамок LLM для изучения сложных задач манипуляции низкого уровня. Несмотря на свою эффективность, современные большие языковые модели требуют значительного опыта в области и предмета, чтобы изучить даже простые навыки или создать текстовые подсказки, создавая значущий разрыв между их производительностью и человеческой ловкостью.

Чтобы сократить этот разрыв, разработчики из Nvidia, CalTech, UPenn и других представили EUREKA, алгоритм проектирования на основе LLM. EUREKA направлена на использование различных возможностей рамок LLM, включая написание кода, контекстное улучшение и генерацию контента без выстрела, для выполнения беспрецедентной оптимизации кодов наград. Эти коды наград, в сочетании с обучением с подкреплением, позволяют рамкам изучать сложные навыки или выполнять задачи манипуляции.

В этой статье мы рассмотрим рамку EUREKA с точки зрения разработки, изучая ее структуру, работу и результаты, которые она достигает при генерации функций наград. Эти функции, как утверждают разработчики, превосходят те, которые генерируются людьми. Мы также рассмотрим, как рамка EUREKA открывает путь для нового подхода к RLHF (обучению с подкреплением с помощью человеческой обратной связи) путем включения градиентно-бесплатного контекстного обучения. Давайте начнем.

EUREKA: Введение

Сегодня рамки LLM последнего поколения как GPT-3 и GPT-4 демонстрируют выдающиеся результаты при служении в качестве семантических планировщиков для последовательных задач принятия решений высокого уровня, но разработчикам все еще необходимо улучшить их производительность при изучении задач манипуляции низкого уровня, таких как ловкость вращения ручки. Кроме того, разработчики заметили, что обучение с подкреплением может быть использовано для достижения устойчивых результатов в ловких условиях и других областях, если функции наград тщательно сконструированы человеческими дизайнерами и способны обеспечить сигналы обучения для благоприятных поведений. По сравнению с реальными задачами обучения с подкреплением, которые принимают разреженные награды, что затрудняет обучение модели распознавать закономерности, формирование этих наград обеспечивает необходимые инкрементные сигналы обучения. Кроме того, функции наград, несмотря на их важность, чрезвычайно сложны в проектировании, и субоптимальные конструкции этих функций часто приводят к непредвиденному поведению.

Чтобы решить эти проблемы и максимизировать эффективность этих токенов наград, EUREKA или Эволюционно-ориентированный Универсальный Наградный Комплект для Агента направлена на достижение следующих целей.

Достижение человеческого уровня производительности при проектировании функций наград.
Эффективное решение задач манипуляции без использования ручной инженерии наград.
Генерация более человеческих и более производительных функций наград путем введения нового градиентно-бесплатного контекстного подхода к обучению вместо традиционного RLHF или обучения с подкреплением с помощью человеческой обратной связи.

Существует три ключевых алгоритмических решения, которые разработчики выбрали для улучшения универсальности EUREKA: эволюционный поиск, окружение как контекст и отражение наград. Сначала рамка EUREKA принимает исходный код окружения как контекст для генерации исполняемых функций наград в условиях без выстрела. После этого рамка выполняет эволюционный поиск для улучшения качества своих наград существенно, предлагает партии кандидатов на награды с каждой итерацией или эпохой и совершенствует те, которые она находит наиболее перспективными. На третьем и последнем этапе рамка использует отражение наград для того, чтобы сделать контекстное улучшение наград более эффективным, процесс, который в конечном итоге помогает рамке включать целевое и автоматическое редактирование наград, используя текстовое резюме качества этих наград на основе статистики обучения политики.

EUREKA: Архитектура модели и постановка проблемы

Основная цель формирования наград заключается в том, чтобы вернуть сформированную или отредактированную функцию наград для функции награды, которая может представлять трудности при прямой оптимизации, такой как разреженные награды. Кроме того, дизайнеры могут использовать только запросы для доступа к этим функциям награды, что является причиной, по которой рамка EUREKA выбирает генерацию наград, настройку синтеза программы на основе RDP или проблемы проектирования наград.

Проблема проектирования наград или RDP является кортежем, содержащим модель мира с пространством состояний, пространством функций наград, функцией перехода и пространством действий. Затем алгоритм обучения оптимизирует награды, генерируя политику, которая приводит к МДП или процессу Маркова, который производит скалярную эволюцию любой политики и может быть доступен только с помощью запросов политики. Основная цель RDP заключается в том, чтобы вывести функцию награды таким образом, чтобы политика могла достичь максимального балла приспособленности. В постановке проблемы EUREKA разработчики указали каждый компонент в проблеме проектирования наград с помощью кода. Кроме того, для заданной строки, которая указывает детали задачи, основной целью проблемы генерации наград является генерация кода функции награды для максимизации балла приспособленности.

Двигаясь дальше, в основе рамки EUREKA существуют три фундаментальных алгоритмических компонента. Эволюционный поиск (предложение и совершенствование кандидатов итеративно), окружение как контекст (генерация исполняемых наград в условиях без выстрела) и отражение наград (для включения тонкого улучшения наград). Псевдокод алгоритма проиллюстрирован на следующем изображении.

Окружение как контекст

В настоящее время рамки LLM требуют спецификаций окружения в качестве входных данных для проектирования наград, тогда как рамка EUREKA предлагает подать исходный код окружения直接 как контекст, без кода награды, позволяя рамкам LLM принимать модель мира как контекст. Подход, используемый EUREKA, имеет две основные выгоды. Во-первых, рамки LLM для целей кодирования обучены на родных наборах кода, написанных на существующих языках программирования, таких как C, C++, Python, Java и т. д., что является фундаментальной причиной, по которой они лучше производят кодовые выходы, когда им разрешено составлять код в синтаксисе и стиле, на котором они были первоначально обучены. Во-вторых, использование исходного кода окружения обычно раскрывает окружение семантически и переменные, которые подходят для использования в попытке вывода функции награды в соответствии с указанной задачей. На основе этих прозрений рамка EUREKA инструктирует LLM возвращать более исполняемый код Python напрямую с помощью только форматировочных советов и общих конструкций наград.

Эволюционный поиск

Включение эволюционного поиска в рамку EUREKA направлено на то, чтобы представить естественное решение проблем субоптимальности и ошибок, возникших во время выполнения, как упоминалось ранее. С каждой итерацией или эпохой рамка генерирует различные независимые выходы из большой языковой модели, и при условии, что все поколения являются независимыми и одинаково распределенными, она экспоненциально уменьшает вероятность того, что функции наград во время итераций будут ошибочными, учитывая, что количество образцов увеличивается с каждой эпохой.

На следующем шаге рамка EUREKA использует исполняемые функции наград из предыдущей итерации для выполнения контекстной мутации наград, а затем предлагает новую и улучшенную функцию награды на основе текстовой обратной связи. Рамка EUREKA, в сочетании с контекстным улучшением и возможностями следования инструкциям больших языковых моделей, способна указать оператор мутации как текстовую подсказку и предлагает метод использования текстового резюме обучения политики для изменения существующих кодов наград.

Отражение наград

Чтобы основать контекстные мутации наград, необходимо оценить качество сгенерированных наград и, что более важно, выразить их словами, и рамка EUREKA решает эту проблему, используя простую стратегию предоставления числовых оценок как оценку награды. Когда функция приспособленности задачи служит целостной метрикой для истинных данных, она лишена назначения кредитов и не может предоставить никакой ценной информации о том, почему функция награды работает или почему она не работает. Итак, в попытке предоставить более целевое и тонкое диагноз наград, рамка предлагает использовать автоматические обратные связи для суммирования динамики обучения политики в текстах. Кроме того, в программе наград функции наград в рамке EUREKA просят раскрыть свои компоненты индивидуально, что позволяет рамке отслеживать скалярные значения каждого уникального компонента награды на контрольных точках политики во время всей фазы обучения.

Хотя процедура функций наград, используемая рамкой EUREKA, проста в конструкции, она необходима из-за алгоритмически-зависимой природы оптимизации наград. Это означает, что эффективность функции награды напрямую влияет на выбор алгоритма обучения с подкреплением, и с изменением гиперпараметров награда может работать по-разному, даже с тем же оптимизатором. Таким образом, рамка EUREKA может редактировать записи более эффективно и избирательно, синтезируя функции наград, которые находятся в повышенной синергии с алгоритмом обучения с подкреплением.

Обучение и базовая линия

Существует два основных компонента обучения рамки EUREKA: Обучение политики и Метрики оценки наград.

Обучение политики

Окончательные функции наград для каждой отдельной задачи оптимизируются с помощью того же алгоритма обучения с подкреплением, используя один и тот же набор гиперпараметров, которые настраиваются для того, чтобы функции наград, сконструированные человеком, работали хорошо.

Метрики оценки наград

Поскольку метрика задачи варьируется по масштабу и семантическому значению с каждой задачей, рамка EUREKA сообщает о нормализованном балле человека, метрике, которая обеспечивает целостную меру для сравнения того, как она работает по сравнению с экспертными человеческими сгенерированными наградами в соответствии с метриками истинных данных.

Двигаясь дальше, существуют три основных базовых линии: L2R, Человек и Разреженные.

L2R

L2R является двухэтапным решением подсказки большой языковой модели, которое помогает генерировать шаблонные награды. Сначала рамка LLM заполняет шаблон естественного языка для окружения и задачи, указанных на естественном языке, а затем вторая рамка LLM преобразует это “описание движения” в код, который пишет функцию награды, вызывая набор手опильных примитивов API наград.

Человек

Базовая линия Человек представляет собой исходные функции наград, написанные исследователями обучения с подкреплением, таким образом, представляя результаты человеческой инженерии наград на беспрецедентном уровне.

Разреженные

Базовая линия Разреженные напоминает функции приспособленности и используется для оценки качества сгенерированных наград.

Результаты и исходы

Чтобы проанализировать производительность рамки EUREKA, мы будем оценивать ее на различных параметрах, включая ее производительность по сравнению с человеческими наградами, улучшение результатов во времени, генерацию новых наград, включение целевого улучшения и работу с человеческой обратной связью.

EUREKA превосходит человеческие награды

Следующее изображение иллюстрирует агрегированные результаты по различным базам данных, и как можно четко наблюдать, рамка EUREKA либо превосходит, либо работает на уровне человеческих наград на задачах Dexterity и Issac. В сравнении базовая линия L2R обеспечивает аналогичную производительность на задачах низкой размерности, но когда речь идет о задачах высокой размерности, разрыв в производительности довольно существенный.

Последовательно улучшаясь во времени

Одним из основных моментов рамки EUREKA является ее способность постоянно улучшать и повышать свою производительность во времени с каждой итерацией, и результаты продемонстрированы на следующем изображении.

Как можно четко видеть, рамка постоянно генерирует лучшие награды с каждой итерацией, и она также улучшает и в конечном итоге превосходит производительность человеческих наград, благодаря использованию контекстного эволюционного поиска наград.

Генерация новых наград

Новизна наград рамки EUREKA может быть оценена путем расчета корреляции между человеческими и EUREKA наградами на всех задачах Issac. Эти корреляции затем нанесены на график или карту против нормализованных баллов человека, причем каждая точка на графике представляет отдельную награду EUREKA для каждой отдельной задачи. Как можно четко видеть, рамка EUREKA в основном генерирует слабо коррелированные функции наград, превосходящие человеческие функции наград.

Включение целевого улучшения

Чтобы оценить важность добавления отражения наград в обратную связь наград, разработчики оценили абляцию, рамку EUREKA без отражения наград, которая уменьшает подсказки обратной связи до тех, которые состоят только из значений снимков. Когда они запускали задачи Issac, разработчики наблюдали, что без отражения наград рамка EUREKA столкнулась с падением примерно на 29% в среднем нормализованном балле.

Работа с человеческими обратными связями

Чтобы легко включить широкий спектр входных данных для генерации человеческих и более производительных функций наград, рамка EUREKA, помимо автоматического проектирования наград, вводит новый градиентно-бесплатный контекстный подход к обучению с помощью человеческой обратной связи, и были сделаны два значительных наблюдения.

EUREKA может извлечь пользу и улучшиться из человеческих функций наград.
Использование человеческой обратной связи для отражения наград индуцирует выровненное поведение.

Вышеуказанное изображение демонстрирует, как рамка EUREKA демонстрирует существенный прирост производительности и эффективности, используя инициализацию человеческих наград, независимо от качества человеческих наград, что указывает на то, что качество базовых наград не имеет существенного влияния на способности контекстного улучшения наград рамки.

Вышеуказанное изображение иллюстрирует, как рамка EUREKA не только может индуцировать более человеческие политики, но также изменить награды, включив человеческую обратную связь.

Окончательные мысли

В этой статье мы говорили о EUREKA, алгоритме проектирования на основе LLM, который пытается использовать различные возможности рамок LLM, включая написание кода, контекстное улучшение и генерацию контента без выстрела, для выполнения беспрецедентной оптимизации кодов наград. Код награды вместе с обучением с подкреплением может затем быть использован этими рамками для изучения сложных навыков или выполнения задач манипуляции. Без человеческого вмешательства или задачно-специфической инженерии подсказок рамка обеспечивает человеческий уровень генерации наград на широком спектре задач, и ее основная сила заключается в изучении сложных задач с помощью подхода обучения по курсу.

В целом, существенная производительность и универсальность рамки EUREKA указывают на потенциал объединения эволюционных алгоритмов с большими языковыми моделями, который может привести к масштабируемому и общему подходу к проектированию наград, и это прозрение может быть применимо к другим открытым проблемам поиска.