Refresh

This website www.unite.ai/es/eureka-human-level-reward-design-via-coding-large-language-models/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

talón EUREKA: Diseño de recompensas a nivel humano mediante la codificación de modelos de lenguaje grandes - Unite.AI
Conécte

Inteligencia artificial

EUREKA: Diseño de recompensas a nivel humano mediante la codificación de modelos de lenguaje grandes

mm
Actualizado on

Con los avances que han logrado los modelos de lenguajes grandes en los últimos años, no sorprende por qué estos marcos LLM sobresalen como planificadores semánticos para tareas secuenciales de toma de decisiones de alto nivel. Sin embargo, a los desarrolladores todavía les resulta difícil utilizar todo el potencial de los marcos LLM para aprender tareas complejas de manipulación de bajo nivel. A pesar de su eficiencia, los grandes modelos de lenguaje actuales requieren una considerable experiencia en el dominio y la materia para aprender incluso habilidades simples o construir indicaciones textuales, lo que crea una brecha significativa entre su desempeño y la destreza a nivel humano.

Para cerrar esta brecha, los desarrolladores de Nvidia, CalTech, UPenn y otros han introducido EUREKA, un algoritmo de diseño a nivel humano impulsado por LLM. EUREKA tiene como objetivo aprovechar diversas capacidades de los marcos LLM, incluida la escritura de códigos, la mejora en contexto y la generación de contenido inmediata, para realizar una optimización sin precedentes de los códigos de recompensa. Estos códigos de recompensa, combinados con el aprendizaje reforzado, permiten que los marcos aprendan habilidades complejas o realicen tareas de manipulación.

En este artículo, examinaremos el marco EUREKA desde una perspectiva de desarrollo, explorando su marco, su funcionamiento y los resultados que logra al generar funciones de recompensa. Estas funciones, según afirman los desarrolladores, superan a las generadas por humanos. También profundizaremos en cómo el marco EUREKA allana el camino para un nuevo enfoque de RLHF (aprendizaje por refuerzo mediante retroalimentación humana) al permitir el aprendizaje en contexto sin gradientes. Empecemos.

EUREKA: Introducción

Hoy, Marcos LLM de última generación como GPT-3 y GPT-4 ofrecen resultados sobresalientes cuando sirven como planificadores semánticos para tareas secuenciales de toma de decisiones de alto nivel, pero los desarrolladores todavía están buscando formas de mejorar su rendimiento cuando se trata de aprender tareas de manipulación de bajo nivel, como girar el lápiz. destreza. Además, los desarrolladores han observado que el aprendizaje por refuerzo se puede utilizar para lograr resultados sostenibles en condiciones de destreza y otros dominios, siempre que las funciones de recompensa sean construidas cuidadosamente por diseñadores humanos, y estas funciones de recompensa sean capaces de proporcionar señales de aprendizaje para comportamientos favorables. En comparación con las tareas de aprendizaje por refuerzo del mundo real que aceptan recompensas escasas, dificulta que el modelo aprenda los patrones, dar forma a estas recompensas proporciona las señales de aprendizaje incremental necesarias. Además, las funciones de recompensa, a pesar de su importancia, son extremadamente difíciles de diseñar, y los diseños subóptimos de estas funciones a menudo conducen a comportamientos no deseados. 

Para abordar estos desafíos y maximizar la eficiencia de estos tokens de recompensa, EUREKA o Eimpulsado por la evolución UNIVERSAL REsala Kpor Agent pretende realizar las siguientes aportaciones. 

  1. Lograr un desempeño a nivel humano para el diseño de funciones de recompensa. 
  2. Resuelva eficazmente tareas de manipulación sin utilizar ingeniería de recompensa manual. 
  3. Genere funciones de recompensa más alineadas con los humanos y con mayor rendimiento mediante la introducción de un nuevo enfoque de aprendizaje en contexto sin gradientes en lugar del método tradicional RLHF o aprendizaje por refuerzo a partir de retroalimentación humana. 

Hay tres opciones de diseño algorítmico clave por las que los desarrolladores han optado para mejorar la generalidad de EUREKA: búsqueda evolutiva, entorno como contexto y reflexión de recompensa. En primer lugar, el marco EUREKA toma la código fuente del entorno como contexto para generar funciones de recompensa ejecutables en una configuración de disparo cero. A continuación, el marco realiza una búsqueda evolutiva Para mejorar sustancialmente la calidad de sus recompensas, propone lotes de candidatos a recompensas con cada iteración o época, y refina aquellos que considera más prometedores. En la tercera y última etapa, el marco utiliza el reflexión de recompensa enfoque para hacer que la mejora en contexto de las recompensas sea más efectiva, un proceso que en última instancia ayuda al marco a permitir la edición de recompensas dirigida y automatizada mediante el uso de un resumen textual de la calidad de estas recompensas sobre la base de estadísticas de capacitación en políticas. La siguiente figura le brinda una breve descripción general de cómo funciona el marco EUREKA y, en la siguiente sección, hablaremos sobre la arquitectura y el trabajo con mayor detalle. 

EUREKA: Arquitectura modelo y resolución de problemas

El objetivo principal de la configuración de recompensas es devolver una función de recompensa formada o seleccionada para una función de recompensa real, lo que podría plantear dificultades cuando se optimiza directamente como recompensas escasas. Además, los diseñadores solo pueden utilizar consultas para acceder a estas funciones de recompensa reales, razón por la cual el marco EUREKA opta por generación de recompensa, una configuración de síntesis de programa basada en RDP o el problema de diseño de recompensa. 

El problema de diseño de recompensa o RDP es una tupla que contiene un modelo mundial con un espacio de estado, un espacio para funciones de recompensa, una función de transición y un espacio de acción. Luego, un algoritmo de aprendizaje optimiza las recompensas generando una política que da como resultado un MDP o proceso de diseño de Markov, que produce la evolución escalar de cualquier política y al que solo se puede acceder mediante consultas de políticas. El objetivo principal del RDP es generar una función de recompensa de manera que la política sea capaz de alcanzar la puntuación máxima de aptitud. En la configuración del problema de EUREKA, los desarrolladores han especificado cada componente del problema de diseño de recompensa utilizando código. Además, para una cadena determinada que especifica los detalles de la tarea, el objetivo principal del problema de generación de recompensas es generar un código de función de recompensa para maximizar la puntuación de aptitud. 

En esencia, hay tres componentes algorítmicos fundamentales en el marco EUREKA. Búsqueda evolutiva (proponer y recompensar a los candidatos refinados de forma iterativa), entorno como contexto (generar recompensas ejecutables en una configuración de disparo cero) y reflexión de recompensa (para permitir una mejora detallada de las recompensas). El pseudocódigo del algoritmo se ilustra en la siguiente imagen. 

El medio ambiente como contexto

Actualmente, los marcos LLM necesitan especificaciones ambientales como entradas para diseñar recompensas, mientras que el marco EUREKA propone alimentar el código del entorno sin procesar directamente como contexto, sin que el código de recompensa permita a los marcos LLM tomar el modelo mundial como contexto. El enfoque seguido por EUREKA tiene dos beneficios principales. En primer lugar, los marcos LLM para fines de codificación se entrenan en conjuntos de códigos nativos escritos en lenguajes de programación existentes como C, C++, Python, Java y más, que es la razón fundamental por la que son mejores en la producción de código cuando se les permite directamente. para componer código en la sintaxis y el estilo en el que se entrenaron originalmente. En segundo lugar, el uso del código fuente del entorno generalmente revela semánticamente los entornos involucrados y las variables que son adecuadas o ideales para usar en un intento de generar una función de recompensa de acuerdo con la tarea especificada. Sobre la base de estos conocimientos, el marco EUREKA instruye al LLM a devolver un código Python más ejecutable directamente con la ayuda únicamente de consejos de formato y diseños de recompensa genéricos. 

Búsqueda evolutiva

La inclusión de la búsqueda evolutiva en el marco EUREKA tiene como objetivo presentar una solución natural a los desafíos subóptimos y a los errores que se produjeron durante la ejecución, como se mencionó anteriormente. Con cada iteración o época, el marco genera varias salidas independientes del modelo de lenguaje grande, y siempre que todas las generaciones sean iid, reduce exponencialmente la probabilidad de que las funciones de recompensa durante las iteraciones tengan errores, dado que el número de muestras aumenta con cada época. 

En el siguiente paso, el marco EUREKA utiliza las funciones de recompensa ejecutables de la iteración anterior para realizar una mutación de recompensa en contexto y luego propone una función de recompensa nueva y mejorada sobre la base de comentarios textuales. El marco EUREKA cuando se combina con la mejora en contexto y el seguimiento de instrucciones capacidades de los modelos de lenguaje grandes es capaz de especificar el operador de mutación como un mensaje de texto y sugiere un método para utilizar el resumen textual de la capacitación de políticas para modificar los códigos de recompensa existentes. 

Reflexión de recompensa

Para fundamentar las mutaciones de recompensa en contexto, es esencial evaluar la calidad de las recompensas generadas y, lo que es más importante, ponerlas en palabras, y el marco EUREKA lo aborda utilizando la estrategia simple de proporcionar puntuaciones numéricas como evaluación de recompensa. Cuando la función de aptitud de la tarea sirve como una métrica holística para la verdad sobre el terreno, carece de asignación de crédito y no puede proporcionar ninguna información valiosa sobre por qué la función de recompensa funciona o por qué no funciona. Por lo tanto, en un intento por proporcionar un diagnóstico de recompensa más específico y complejo, el marco propone utilizar retroalimentación automatizada para resumir la dinámica de capacitación en políticas en textos. Además, en el programa de recompensa, se solicita a las funciones de recompensa en el marco EUREKA que expongan sus componentes individualmente, lo que permite que el marco rastree los valores escalares de cada componente de recompensa único en los puntos de control de políticas durante toda la fase de capacitación.

Aunque el procedimiento de función de recompensa seguido por el marco EUREKA es simple de construir, es esencial gracias a la naturaleza algorítmica dependiente de la optimización de las recompensas. Significa que la efectividad de una función de recompensa está directamente influenciada por la elección de un algoritmo de aprendizaje por refuerzo y, con un cambio en los hiperparámetros, la recompensa puede funcionar de manera diferente incluso con el mismo optimizador. Por lo tanto, el marco EUREKA puede editar los registros de manera más efectiva y selectiva mientras sintetiza funciones de recompensa que están en sinergia mejorada con el algoritmo de aprendizaje por refuerzo. 

Entrenamiento y línea de base

Hay dos componentes principales de formación en el marco EUREKA: Aprendizaje de políticas y Métricas de evaluación de recompensas.

Aprendizaje de políticas

Las funciones de recompensa finales para cada tarea individual se optimizan con la ayuda del mismo algoritmo de aprendizaje por refuerzo utilizando el mismo conjunto de hiperparámetros que están ajustados para que las recompensas diseñadas por humanos funcionen bien. 

Métricas de evaluación de recompensas

Como la métrica de la tarea varía en términos de escala y significado semántico con cada tarea, el marco EUREKA informa la puntuación humana normalizada, una métrica que proporciona una medida holística para que el marco compare su desempeño con las recompensas generadas por humanos expertos de acuerdo con las métricas de la verdad sobre el terreno. 

En adelante, hay tres líneas de base principales: L2R, humano, y Escaso. 

L2R

L2R es un Modo de lenguaje grande de dos etapasl solución de estimulación que ayuda a generar recompensas basadas en plantillas. Primero, un marco LLM completa una plantilla de lenguaje natural para el entorno y la tarea especificados en lenguaje natural, y luego un segundo marco LLM convierte esta "descripción de movimiento" en un código que escribe una función de recompensa llamando a un conjunto de primitivas API de recompensa escritas manualmente. . 

Salud

La línea de base humana son las funciones de recompensa originales escritas por investigadores del aprendizaje por refuerzo, lo que representa los resultados de la ingeniería de recompensa humana a un nivel sin precedentes. 

Escaso

La línea de base Sparse se asemeja a las funciones de aptitud física y se utilizan para evaluar la calidad de las recompensas que genera el marco. 

Resultados y efectos

Para analizar el desempeño del marco EUREKA, lo evaluaremos en diferentes parámetros, incluido su desempeño frente a recompensas humanas, mejora de los resultados a lo largo del tiempo, generación de recompensas novedosas, permitiendo mejoras específicas, y trabajando con retroalimentación humana. 

EUREKA supera las recompensas humanas

La siguiente figura ilustra los resultados agregados en diferentes puntos de referencia y, como se puede observar claramente, el marco EUREKA supera o se desempeña a la par de las recompensas a nivel humano tanto en tareas de Destreza como de Issac. En comparación, la línea base L2R ofrece un rendimiento similar en tareas de baja dimensión, pero cuando se trata de tareas de alta dimensión, la brecha en el rendimiento es bastante sustancial. 

Mejorando constantemente con el tiempo

Uno de los aspectos más destacados del marco EUREKA es su capacidad para mejorar y potenciar constantemente su rendimiento a lo largo del tiempo con cada iteración, y los resultados se demuestran en la siguiente figura. 

Como se puede ver claramente, el marco genera constantemente mejores recompensas con cada iteración, y también mejora y eventualmente supera el rendimiento de las recompensas humanas, gracias a su uso del enfoque de búsqueda de recompensas evolutivas en contexto. 

Generando nuevas recompensas

La novedad de las recompensas del marco EUREKA se puede evaluar calculando la correlación entre las recompensas humanas y EUREKA en la totalidad de las tareas de Issac. Luego, estas correlaciones se trazan en un diagrama de dispersión o mapa frente a las puntuaciones normalizadas humanas, y cada punto del gráfico representa una recompensa EUREKA individual por cada tarea individual. Como puede verse claramente, el marco EUREKA genera predominantemente funciones de recompensa correlacionadas débiles que superan a las funciones de recompensa humanas. 

Permitir mejoras específicas

Para evaluar la importancia de agregar un reflejo de recompensa en la retroalimentación de recompensa, los desarrolladores evaluaron una ablación, un marco EUREKA sin reflejo de recompensa que reduce las indicaciones de retroalimentación para que consistan solo en valores instantáneos. Al ejecutar tareas de Issac, los desarrolladores observaron que sin la reflexión de la recompensa, el marco EUREKA experimentó una caída de aproximadamente el 29 % en la puntuación normalizada promedio. 

Trabajar con comentarios humanos

Para incorporar fácilmente una amplia gama de entradas para generar funciones de recompensa más alineadas con los humanos y con mayor rendimiento, el marco EUREKA, además de los diseños de recompensas automatizados, también introduce un nuevo enfoque de aprendizaje en contexto sin gradientes para el aprendizaje por refuerzo a partir de la retroalimentación humana, y hubo dos observaciones significativas. 

  1. EUREKA puede beneficiarse y mejorar de las funciones de recompensa humana. 
  2. El uso de comentarios humanos para reflexiones de recompensa induce un comportamiento alineado. 

La figura anterior demuestra cómo el marco EUREKA demuestra un aumento sustancial en el rendimiento y la eficiencia al utilizar la inicialización de recompensas humanas, independientemente de la calidad de las recompensas humanas, lo que sugiere que la calidad de las recompensas base no tiene un impacto significativo en las capacidades de mejora de las recompensas en contexto. del marco. 

La figura anterior ilustra cómo el marco EUREKA no sólo puede inducir políticas más alineadas con los seres humanos, sino también modificar las recompensas incorporando la retroalimentación humana. 

Consideraciones Finales:

En este artículo, hemos hablado de EUREKA, un algoritmo de diseño a nivel humano impulsado por LLM, que intenta aprovechar varias capacidades de los marcos de LLM, incluida la escritura de códigos, las capacidades de mejora en contexto y la generación de contenido de disparo cero para realizar una optimización sin precedentes. de códigos de recompensa. Estos marcos pueden utilizar el código de recompensa junto con el aprendizaje por refuerzo para aprender habilidades complejas o realizar tareas de manipulación. Sin intervención humana ni ingeniería rápida para tareas específicas, el marco ofrece capacidades de generación de recompensas a nivel humano en una amplia gama de tareas, y su principal fortaleza radica en el aprendizaje de tareas complejas con un enfoque de aprendizaje curricular. 

En general, el rendimiento sustancial y la versatilidad del marco EUREKA indican que el potencial de combinar algoritmos evolutivos con grandes modelos de lenguaje podría dar como resultado un enfoque general y escalable para diseñar recompensas, y esta idea podría ser aplicable a otros problemas de búsqueda abiertos. 

"Ingeniero de profesión, escritor de corazón". Kunal es un escritor técnico con un profundo amor y comprensión de AI y ML, dedicado a simplificar conceptos complejos en estos campos a través de su atractiva e informativa documentación.