Connect with us

Inteligencia artificial

EUREKA: Diseño de Recompensa a Nivel Humano a través de la Codificación de Grandes Modelos de Lenguaje

mm

Con los avances que los Grandes Modelos de Lenguaje han realizado en los últimos años, no es sorprendente que estos marcos de LLM sobresalgan como planificadores semánticos para tareas de toma de decisiones secuenciales de alto nivel. Sin embargo, los desarrolladores todavía encuentran desafiante utilizar el potencial completo de los marcos de LLM para aprender tareas de manipulación complejas de bajo nivel. A pesar de su eficiencia, los Grandes Modelos de Lenguaje actuales requieren un considerable conocimiento y experiencia en el dominio y la materia para aprender incluso habilidades simples o construir instrucciones textuales, lo que crea una brecha significativa entre su rendimiento y la destreza a nivel humano.

Para bridar esta brecha, los desarrolladores de Nvidia, CalTech, UPenn y otros han introducido EUREKA, un algoritmo de diseño humano a nivel de LLM. EUREKA tiene como objetivo aprovechar las diversas capacidades de los marcos de LLM, incluida la codificación, la mejora en contexto y la generación de contenido en zero-shot, para realizar una optimización sin precedentes de los códigos de recompensa. Estos códigos de recompensa, combinados con el aprendizaje por refuerzo, permiten a los marcos aprender habilidades complejas o realizar tareas de manipulación.

En este artículo, examinaremos el marco de EUREKA desde una perspectiva de desarrollo, explorando su estructura, funcionamiento y los resultados que logra en la generación de funciones de recompensa. Estas funciones, según afirman los desarrolladores, superan a las generadas por humanos. También profundizaremos en cómo el marco de EUREKA abre el camino a un nuevo enfoque para RLHF (Aprendizaje por Refuerzo con Retroalimentación Humana) al permitir el aprendizaje en contexto sin gradiente. Comencemos.

EUREKA: Una Introducción

Hoy en día, los marcos de LLM de vanguardia como GPT-3 y GPT-4 entregan resultados sobresalientes cuando sirven como planificadores semánticos para tareas de toma de decisiones secuenciales de alto nivel, pero los desarrolladores aún buscan formas de mejorar su rendimiento cuando se trata de aprender tareas de manipulación de bajo nivel como la destreza para girar un bolígrafo. Además, los desarrolladores han observado que el aprendizaje por refuerzo puede usarse para lograr resultados sostenibles en condiciones diestras y otros dominios, siempre y cuando las funciones de recompensa estén diseñadas cuidadosamente por diseñadores humanos y estas funciones de recompensa sean capaces de proporcionar las señales de aprendizaje para comportamientos favorables. Cuando se compara con tareas de aprendizaje por refuerzo en el mundo real que aceptan recompensas escasas, hace que sea difícil para el modelo aprender los patrones, lo que hace que dar forma a estas recompensas proporcione las señales de aprendizaje incrementales necesarias. Además, las funciones de recompensa, a pesar de su importancia, son extremadamente desafiantes de diseñar, y los diseños subóptimos de estas funciones a menudo llevan a comportamientos no deseados.

Para abordar estos desafíos y maximizar la eficiencia de estos tokens de recompensa, el marco de EUREKA o Evolución dirigida Universal REcompensa Kit para Agente tiene como objetivo hacer las siguientes contribuciones.

  1. Lograr un rendimiento a nivel humano para el diseño de Funciones de Recompensa.
  2. Resolver eficazmente tareas de manipulación sin utilizar la ingeniería de recompensa manual.
  3. Generar funciones de recompensa más alineadas con los humanos y más performantes al introducir un nuevo enfoque de aprendizaje en contexto sin gradiente en lugar del método tradicional de RLHF o Aprendizaje por Refuerzo con Retroalimentación Humana.

Hay tres opciones de diseño algorítmico clave que los desarrolladores han elegido para mejorar la generalidad de EUREKA: búsqueda evolutiva, entorno como contexto y reflexión de recompensa. Primero, el marco de EUREKA toma el código fuente del entorno como contexto para generar funciones de recompensa ejecutables en un entorno de zero-shot. Siguiendo esto, el marco realiza una búsqueda evolutiva para mejorar sustancialmente la calidad de sus recompensas, propone lotes de candidatos a recompensa con cada iteración o época, y refina aquellos que encuentra como los más prometedores. En la tercera y última etapa, el marco utiliza el enfoque de reflexión de recompensa para hacer que la mejora en contexto de las recompensas sea más efectiva, un proceso que en última instancia ayuda al marco a permitir la edición de recompensas dirigida y automatizada utilizando un resumen textual de la calidad de estas recompensas en función de las estadísticas de entrenamiento de políticas. La siguiente figura le da una visión general de cómo funciona el marco de EUREKA, y en la sección siguiente, hablaremos sobre la arquitectura y el funcionamiento en mayor detalle.

EUREKA: Arquitectura del Modelo y Configuración del Problema

El objetivo principal de la configuración de la recompensa es devolver una función de recompensa formada o curada para una función de recompensa de verdad, lo que puede ser difícil de optimizar directamente como recompensas escasas. Además, los diseñadores solo pueden acceder a estas funciones de recompensa de verdad mediante consultas, lo que es la razón por la que el marco de EUREKA opta por generación de recompensa, un entorno de síntesis de programas basado en RDP o el Problema de Diseño de Recompensa.

El Problema de Diseño de Recompensa o RDP es un tuple que contiene un modelo de mundo con un espacio de estado, espacio para funciones de recompensa, una función de transición y un espacio de acción. Un algoritmo de aprendizaje luego optimiza las recompensas generando una política que resulta en un MDP o Proceso de Diseño de Markov, que produce la evolución escalar de cualquier política, y solo puede accederse utilizando consultas de política. El objetivo principal del RDP es producir una función de recompensa de tal manera que la política sea capaz de lograr la puntuación de aptitud máxima. En la configuración del problema de EUREKA, los desarrolladores han especificado cada componente en el Problema de Diseño de Recompensa utilizando código. Además, para una cadena dada que especifica los detalles de la tarea, el objetivo principal del problema de generación de recompensa es generar un código de función de recompensa para maximizar la puntuación de aptitud.

Avanzando, en el núcleo, hay tres componentes algorítmicos fundamentales en el marco de EUREKA. Búsqueda evolutiva (proponiendo y refinando candidatos de manera iterativa), entorno como contexto (generando recompensas ejecutables en un entorno de zero-shot) y reflexión de recompensa (para permitir la mejora en contexto de las recompensas). El pseudocódigo para el algoritmo se ilustra en la siguiente imagen.

Entorno como Contexto

Actualmente, los marcos de LLM necesitan especificaciones de entorno como entradas para diseñar recompensas, mientras que el marco de EUREKA propone alimentar el código fuente del entorno directamente como contexto, sin el código de recompensa, lo que permite a los marcos de LLM tomar el modelo de mundo como contexto. El enfoque seguido por EUREKA tiene dos beneficios principales. Primero, los marcos de LLM para codificación están entrenados en conjuntos de código nativos escritos en lenguajes de programación existentes como C, C++, Python, Java, etc., lo que es la razón fundamental por la que son mejores para producir salidas de código cuando se les permite componer código en la sintaxis y el estilo en el que originalmente se entrenaron. Segundo, el uso del código fuente del entorno generalmente revela los entornos involucrados semánticamente, y las variables que son aptas o ideales para usar en un intento de producir una función de recompensa de acuerdo con la tarea especificada. Sobre la base de estas ideas, el marco de EUREKA instruye al LLM para devolver un código de Python más ejecutable directamente con la ayuda de solo consejos de formato y diseños de recompensa genéricos.

Búsqueda Evolutiva

La inclusión de la búsqueda evolutiva en el marco de EUREKA tiene como objetivo presentar una solución natural a los desafíos de subóptimo y errores durante la ejecución mencionados anteriormente. Con cada iteración o época, el marco produce varias salidas independientes del Modelo de Lenguaje Grande, y proporcionado que las generaciones sean todas i.i.d, reduce exponencialmente la probabilidad de que las funciones de recompensa durante las iteraciones sean defectuosas, dado que el número de muestras aumenta con cada época.

En el siguiente paso, el marco de EUREKA utiliza las funciones de recompensa ejecutables de la iteración anterior para realizar una mutación de recompensa en contexto, y luego propone una nueva y mejorada función de recompensa en función de la retroalimentación textual. El marco de EUREKA, cuando se combina con la mejora en contexto y las capacidades de seguimiento de instrucciones de los Modelos de Lenguaje Grande, es capaz de especificar el operador de mutación como una instrucción textual y sugiere un método para usar el resumen textual del entrenamiento de políticas para modificar el código de recompensa existente.

Reflexión de Recompensa

Para fundamentar las mutaciones de recompensa en contexto, es esencial evaluar la calidad de las recompensas generadas y, más importante aún, ponerlas en palabras, y el marco de EUREKA aborda esto utilizando la estrategia simple de proporcionar puntuaciones numéricas como evaluación de recompensa. Cuando la función de aptitud de la tarea sirve como una métrica holística para la verdad, le falta la asignación de crédito y no puede proporcionar información valiosa sobre por qué la función de recompensa funciona o por qué no funciona. Así, en un intento de proporcionar un diagnóstico de recompensa más dirigido e intrincado, el marco propone usar retroalimentaciones automatizadas para resumir la dinámica de entrenamiento de políticas en textos. Además, en el programa de recompensa, las funciones de recompensa en el marco de EUREKA se les pide que expongan sus componentes individualmente, lo que permite al marco rastrear los valores escalares de cada componente de recompensa único en los puntos de control de políticas durante toda la fase de entrenamiento.

Aunque el procedimiento de función de recompensa seguido por el marco de EUREKA es simple de construir, es esencial gracias a la naturaleza algorítmica dependiente de la optimización de recompensas. Significa que la efectividad de una función de recompensa está directamente influenciada por la elección de un algoritmo de Aprendizaje por Refuerzo, y con un cambio en los hiperparámetros, la recompensa puede comportarse de manera diferente incluso con el mismo optimizador. Así, el marco de EUREKA puede editar los registros más efectiva y selectivamente mientras sintetiza funciones de recompensa que están en sinergia mejorada con el algoritmo de Aprendizaje por Refuerzo.

Entrenamiento y Línea Base

Hay dos componentes principales de entrenamiento del marco de EUREKA: Aprendizaje de Política y Métricas de Evaluación de Recompensa.

Aprendizaje de Política

La función de recompensa final para cada tarea individual se optimiza con la ayuda del mismo algoritmo de aprendizaje por refuerzo utilizando el mismo conjunto de hiperparámetros que se ajustan para hacer que la función de recompensa diseñada por humanos funcione bien.

Métricas de Evaluación de Recompensa

Como la métrica de la tarea varía en términos de escala y significado semántico con cada tarea, el marco de EUREKA informa la puntuación normalizada humana, una métrica que proporciona una medida holística para que el marco compare cómo se desempeña en comparación con las recompensas generadas por expertos humanos de acuerdo con las métricas de verdad.

Avanzando, hay tres líneas base principales: L2R, Humano, y Escaso.

L2R

L2R es una solución de activación de modelo de lenguaje grande de dos etapas que ayuda en la generación de recompensas con plantillas. Primero, un marco de LLM llena una plantilla de lenguaje natural para entorno y tarea especificada en lenguaje natural, y luego un segundo marco de LLM convierte esta “descripción de movimiento” en un código que escribe una función de recompensa llamando a un conjunto de primitivas de API de recompensa escritas manualmente.

Humano

La línea base Humana son las funciones de recompensa originales escritas por investigadores de aprendizaje por refuerzo, lo que representa los resultados de la ingeniería de recompensa humana a un nivel sin precedentes.

Escaso

La línea base Escasa se asemeja a las funciones de aptitud y se utilizan para evaluar la calidad de las recompensas que el marco genera.

Resultados y Desenlaces

Para analizar el rendimiento del marco de EUREKA, lo evaluaremos en diferentes parámetros, incluyendo su rendimiento contra recompensas humanas, mejora en los resultados con el tiempo, generación de recompensas novedosas, habilitación de mejora dirigida, y trabajo con retroalimentación humana.

EUREKA supera a las Recompensas Humanas

La siguiente figura ilustra los resultados agregados sobre diferentes benchmarks, y como se puede observar claramente, el marco de EUREKA supera o se desempeña al mismo nivel que las recompensas a nivel humano en ambas tareas de Destreza y Issac. En comparación, la línea base L2R entrega un rendimiento similar en tareas de baja dimensión, pero cuando se trata de tareas de alta dimensión, la brecha en el rendimiento es bastante sustancial.

Mejorando Constantemente con el Tiempo

Uno de los aspectos destacados del marco de EUREKA es su capacidad para mejorar constantemente su rendimiento con el tiempo con cada iteración, y los resultados se demuestran en la figura a continuación.

Como se puede ver claramente, el marco genera mejores recompensas con cada iteración, y también mejora y eventualmente supera el rendimiento de las recompensas humanas, gracias a su uso del enfoque de búsqueda de recompensa evolutiva en contexto.

Generación de Recompensas Novedosas

La novedad de las recompensas del marco de EUREKA se puede evaluar calculando la correlación entre las recompensas humanas y las de EUREKA en todas las tareas de Issac. Estas correlaciones se trazan en un gráfico de dispersión o mapa contra las puntuaciones normalizadas humanas, con cada punto en el gráfico que representa una recompensa individual de EUREKA para cada tarea individual. Como se puede ver claramente, el marco de EUREKA genera predominantemente funciones de recompensa con correlación débil que superan a las funciones de recompensa humanas.

Habilitación de Mejora Dirigida

Para evaluar la importancia de agregar reflexión de recompensa en la retroalimentación de recompensa, los desarrolladores evaluaron una abstracción, un marco de EUREKA sin reflexión de recompensa que reduce las instrucciones de retroalimentación a consistir solo en valores de instantánea. Cuando se ejecutaron tareas de Issac, los desarrolladores observaron que sin reflexión de recompensa, el marco de EUREKA experimentó una caída del 29% en la puntuación normalizada promedio.

Trabajando con Retroalimentaciones Humanas

Para incorporar fácilmente una amplia gama de entradas para generar funciones de recompensa más alineadas con los humanos y más performantes, el marco de EUREKA, además de los diseños de recompensa automatizados, introduce un nuevo enfoque de aprendizaje en contexto sin gradiente para el Aprendizaje por Refuerzo con Retroalimentación Humana, y hubo dos observaciones significativas.

  1. EUREKA puede beneficiarse y mejorar a partir de funciones de recompensa humanas.
  2. Usar retroalimentación humana para la reflexión de recompensa induce comportamiento alineado.

La figura anterior demuestra cómo el marco de EUREKA demuestra un aumento sustancial en el rendimiento y la eficiencia al usar la inicialización de recompensa humana, independientemente de la calidad de las recompensas humanas, lo que sugiere que la calidad de las recompensas base no tiene un impacto significativo en las capacidades de mejora de recompensa en contexto del marco.

La figura anterior ilustra cómo el marco de EUREKA no solo puede inducir políticas más alineadas con los humanos, sino que también puede modificar recompensas incorporando retroalimentación humana.

Pensamientos Finales

En este artículo, hemos hablado sobre EUREKA, un algoritmo de diseño a nivel humano impulsado por LLM, que intenta aprovechar las diversas capacidades de los marcos de LLM, incluida la codificación, la mejora en contexto y la generación de contenido en zero-shot, para realizar una optimización sin precedentes de los códigos de recompensa. El código de recompensa, junto con el aprendizaje por refuerzo, puede ser utilizado por estos marcos para aprender habilidades complejas o realizar tareas de manipulación. Sin intervención humana o ingeniería de instrucciones específicas de la tarea, el marco entrega capacidades de generación de recompensa a nivel humano en una amplia gama de tareas, y su principal fortaleza radica en aprender tareas complejas con un enfoque de aprendizaje de currículum.

En general, el rendimiento sustancial y la versatilidad del marco de EUREKA indican el potencial de combinar algoritmos evolutivos con modelos de lenguaje grande, lo que podría resultar en un enfoque escalable y general para diseñar recompensas, y esta idea podría ser aplicable a otros problemas de búsqueda abierta.

Un ingeniero por profesión, un escritor por corazón. Kunal es un escritor técnico con un profundo amor y comprensión de la IA y el ML, dedicado a simplificar conceptos complejos en estos campos a través de su documentación atractiva e informativa.