Contáctenos

Avanzando en la alineación de la IA con los valores humanos a través de WARM

Inteligencia Artificial

Avanzando en la alineación de la IA con los valores humanos a través de WARM

mm
Modelos de recompensa promediados por peso LLM

Alineación de los sistemas de IA con los valores humanos

Los sistemas de inteligencia artificial (IA) son cada vez más capaces de ayudar a los humanos en tareas complejas, desde chatbots de atención al cliente hasta algoritmos de diagnóstico médico. Sin embargo, a medida que estos sistemas de IA asumen más responsabilidades, es crucial que sigan alineados con los valores y preferencias humanos. Un enfoque para lograr esto es a través de una técnica llamada aprendizaje por refuerzo a partir de retroalimentación humana (RLHF). En RLHF, un sistema de IA, conocido como política, es recompensado o penalizado en función de juicios humanos sobre su comportamiento. El objetivo es que la política aprenda a maximizar sus recompensas y así comportarse de acuerdo con las preferencias humanas.

Un componente central de RLHF es el modelo de recompensa (RM). El RM es responsable de evaluar las acciones y resultados de la política y de devolver una señal de recompensa para guiar el proceso de aprendizaje. Diseñar un buen RM es un desafío, ya que las preferencias humanas pueden ser complejas, dependientes del contexto e incluso inconsistentes entre individuos. Recientemente, investigadores de Google DeepMind propusieron una técnica innovadora llamada Modelos de recompensa promediados por peso (WARM) para mejorar el diseño de RM.

El problema del hacking de recompensas

Un problema importante en RLHF es la piratería de recompensas. El hackeo de recompensas ocurre cuando la política encuentra lagunas para engañar al sistema RM para obtener altas recompensas sin satisfacer realmente los objetivos previstos. Por ejemplo, supongamos que el objetivo es entrenar a un asistente de redacción de IA para generar resúmenes de alta calidad. El RM podría recompensar los resúmenes concisos e informativos. La política podría entonces aprender a explotar esto generando resúmenes muy breves y poco informativos salpicados de palabras clave que engañan al RM.

El hackeo de recompensas ocurre por dos razones principales:

  1. turno de distribución – El RM está entrenado en un conjunto de datos limitado de ejemplos etiquetados por humanos. Cuando se implementan, los resultados de la política pueden provenir de diferentes distribuciones a las que el RM no se generaliza bien.
  2. Etiquetas ruidosas – El etiquetado humano es imperfecto, con desacuerdos entre evaluadores. El RM puede aferrarse a señales espurias en lugar de indicadores sólidos de calidad.

El hackeo de recompensas conduce a sistemas inútiles que no cumplen con las expectativas humanas. Peor aún, puede dar lugar a comportamientos de la IA sesgados o incluso peligrosos si se implementa descuidadamente.

El auge de la fusión de modelos

El creciente interés en estrategias de fusión de modelos como el Modelo Ratatouille está impulsado por la comprensión de que los modelos más grandes, aunque poderosos, pueden ser ineficientes y poco prácticos. Entrenar un modelo de 1 billón de parámetros requiere cantidades prohibitivas de datos, computación, tiempo y costo. Más importante aún, estos modelos tienden a sobreajustarse a la distribución de la capacitación, lo que dificulta su capacidad de generalizarse a diversos escenarios del mundo real.

La fusión de modelos proporciona una ruta alternativa para desbloquear mayores capacidades sin una ampliación incontrolada. Al reutilizar múltiples modelos especializados entrenados en diferentes distribuciones, tareas u objetivos, la fusión de modelos tiene como objetivo mejorar la versatilidad y la solidez fuera de la distribución. La premisa es que diferentes modelos capturan patrones predictivos distintos que pueden complementarse entre sí cuando se fusionan.

Los resultados recientes ilustran la promesa de este concepto. Los modelos obtenidos mediante fusión, a pesar de tener muchos menos parámetros, pueden igualar o incluso superar el rendimiento de modelos gigantes como GPT-3. Por ejemplo, un conjunto del Modelo Ratatouille de solo 7 puntos de control de tamaño mediano logra una precisión de vanguardia en conjuntos de datos de vinculación textual de alta dimensión, superando a GPT-3.

La simplicidad de fusionar por peso es una gran ventaja. Entrenar múltiples modelos auxiliares exige recursos adicionales. Pero lo más importante es que el cálculo del tiempo de inferencia sigue siendo idéntico al de un modelo único, ya que los pesos se condensan en uno solo. Esto hace que el método sea fácilmente adaptable, sin preocupaciones de mayor latencia o costos de memoria.

Mecanismos detrás de la fusión de modelos

Pero, ¿qué es exactamente lo que permite estas ganancias de precisión al fusionar modelos? Un análisis reciente ofrece algunas pistas:

  • Mitigar la memorización: Cada modelo ve diferentes lotes mezclados del conjunto de datos durante el entrenamiento. El promedio disminuye cualquier memorización específica de una instancia, reteniendo solo generalizaciones a nivel de conjunto de datos.
  • Reducir la variación: Los modelos entrenados de forma independiente tienen errores no correlacionados. Combinarlos promedia el ruido y mejora la calibración.
  • Regularización vía la Diversidad: La variación de las tareas auxiliares obliga a los modelos a aferrarse a características más generalizables y útiles en todas las distribuciones.
  • Robustez creciente: La inconsistencia en las predicciones indica incertidumbre. El promedio modera los juicios atípicos y mejora la confiabilidad.

En esencia, la fusión de modelos contrarresta las debilidades de los modelos individuales para amplificar sus fortalezas colectivas. La representación fusionada captura las estructuras causales subyacentes comunes, ignorando las variaciones incidentales.

Esta base conceptual conecta la fusión de modelos con otras técnicas populares como el ensamblaje y el aprendizaje multitarea. Todos estos métodos aprovechan la diversidad de modelos o tareas para obtener sistemas versátiles y conscientes de la incertidumbre. Sin embargo, la simplicidad y eficiencia del promedio de peso brinda a la fusión de modelos una ventaja única para avanzar en las implementaciones del mundo real.

Modelos de recompensa con peso promedio

Proceso de alineación con WARM

Proceso de alineación con WARM

CALENTAMIENTO Emplea de manera innovadora un modelo de recompensa proxy (RM), que es un promedio ponderado de múltiples RM individuales, cada uno de ellos ajustado a partir del mismo LLM previamente entrenado pero con hiperparámetros variables. Este método mejora la eficiencia, la confiabilidad bajo cambios de distribución y la solidez frente a preferencias inconsistentes. El estudio también muestra que el uso de WARM como RM proxy, particularmente con un mayor número de RM promediados, mejora los resultados y retrasa la aparición del "pirateo de recompensas", un fenómeno en el que las recompensas de control se deterioran con el tiempo.

Aquí hay una descripción general de alto nivel:

  1. Comience con un modelo de lenguaje base previamente entrenado en un corpus grande. Inicialice varios RM agregando pequeñas capas específicas de tareas en la parte superior.
  2. Ajuste cada RM por separado en el conjunto de datos de preferencias humanas, utilizando diferentes hiperparámetros como la tasa de aprendizaje para la diversidad.
  3. Promedie los pesos de los RM ajustados para obtener un único conjunto CALIENTE.

La idea clave es que el promedio de peso retiene sólo la información invariante que se aprende en todos los diversos RM. Esto reduce la dependencia de señales espurias, mejorando la robustez. El conjunto también se beneficia de la reducción de la varianza, lo que mejora la confiabilidad a pesar de los cambios en la distribución.

Como se analizó anteriormente, la diversidad entre modelos entrenados de forma independiente es crucial para desbloquear todo el potencial de la fusión de modelos. Pero ¿cuáles son algunas técnicas concretas para promover la diversidad productiva?

El artículo WARM explora algunas ideas inteligentes que podrían generalizarse de manera más amplia:

Ordenar aleatoriamente

Un enfoque trivial pero impactante es mezclar el orden en el que cada modelo ve los puntos de datos durante el entrenamiento. Incluso este simple paso descorrelaciona los pesos, reduciendo la memorización redundante de patrones.

Variaciones de hiperparámetros

Ajustar hiperparámetros como la tasa de aprendizaje y la probabilidad de abandono para cada ejecución introduce una diversidad útil. Los modelos convergen de manera diferente, capturando distintas propiedades del conjunto de datos.

Promedio de puntos de control – Baklava

El método Baklava inicializa modelos para fusionarlos a partir de diferentes instantáneas a lo largo de la misma trayectoria previa al entrenamiento. Esto relaja las restricciones en comparación con las sopas modelo que exigen un punto de partida compartido. En comparación con el modelo ratatouille, Baklava evita tareas adicionales. En general, logra un equilibrio eficaz entre precisión y diversidad.

ajuste de múltiples modelos de recompensa

El proceso comienza con un modelo de lenguaje grande (LLM) previamente entrenado 𝜃_𝑝𝑡. A partir de este modelo, se derivan varios puntos de control {𝜃_𝑠 𝑓 𝑡_𝑖} durante una ejecución de ajuste fino supervisado (SFT), cada uno recopilado en diferentes pasos de entrenamiento de SFT. Luego, estos puntos de control se utilizan como inicializaciones para ajustar múltiples modelos de recompensa (RM) {𝜙𝑖} en un conjunto de datos de preferencias. Este ajuste tiene como objetivo adaptar los modelos para que se alineen mejor con las preferencias humanas. Después del ajuste fino, estos RM se combinan mediante un proceso de promediación de pesos, lo que da como resultado el modelo final, 𝜙_WARM.

El análisis confirma que agregar puntos de control más antiguos mediante el promedio móvil perjudica el desempeño individual y compromete los méritos de la diversidad. Promediar sólo las representaciones finales de cada ejecución funciona mejor. En general, equilibrar los objetivos de diversidad con el mantenimiento de la precisión sigue siendo un desafío de investigación abierto.

En general, la fusión de modelos se alinea bien con el espíritu general en el campo de reciclar los recursos existentes de manera efectiva para mejorar la confiabilidad, eficiencia y versatilidad. La simplicidad del promedio de peso solidifica su posición como candidato líder para ensamblar modelos robustos a partir de bloques de construcción fácilmente disponibles.

A diferencia de los métodos de ensamblaje tradicionales que promedian las predicciones, WARM mantiene la sobrecarga computacional al mínimo al mantener un solo conjunto de pesos. Los experimentos sobre tareas de resumen de texto demuestran la eficacia de WARM:

  • Para el muestreo de lo mejor de N, WARM logra una tasa de ganancia del 92.5 % frente a la selección aleatoria según las etiquetas de preferencia humana.
  • En RLHF, una política WARM alcanza una tasa de éxito del 79.4% frente a una política entrenada con un solo RM después del mismo número de pasos.
  • WARM sigue funcionando bien incluso cuando una cuarta parte de las etiquetas humanas están corruptas.

Estos resultados ilustran el potencial de WARM como técnica práctica para desarrollar asistentes de IA del mundo real que se comporten de manera confiable. Al suavizar las inconsistencias en la retroalimentación humana, las políticas WARM pueden permanecer sólidamente alineadas con los valores humanos incluso mientras continúan aprendiendo de nuevas experiencias.

The Bigger Picture

WARM se encuentra en la intersección de dos tendencias clave en la investigación de alineación de la IA. El primero es el estudio de la generalización fuera de distribución (OOD), que tiene como objetivo mejorar el rendimiento del modelo en datos nuevos que difieren de la distribución de entrenamiento. En segundo lugar está la investigación sobre la robustez algorítmica, centrándose en la confiabilidad a pesar de pequeñas perturbaciones o ruido de entrada.

Al establecer conexiones entre estos campos en torno a la noción de invariancias aprendidas, WARM nos lleva hacia técnicas más rigurosamente fundamentadas para la alineación de valores. Los conocimientos de WARM podrían generalizarse incluso más allá de RLHF, proporcionando lecciones para sistemas de aprendizaje automático más amplios que interactúan con el mundo abierto.

Por supuesto, el modelado de recompensas es sólo una pieza del rompecabezas de alineación. Todavía necesitamos avanzar en otros desafíos como la especificación de recompensas, la supervisión escalable y la exploración segura. Combinado con técnicas complementarias, WARM podría acelerar el desarrollo de una IA que promueva de manera sostenible la prosperidad humana. Al dilucidar colectivamente los principios que subyacen a una alineación sólida, los investigadores están trazando el camino hacia una IA ética y beneficiosa.

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del aprendizaje automático y el aprendizaje profundo. Mi pasión y experiencia me han llevado a contribuir en más de 50 proyectos diversos de ingeniería de software, con un enfoque particular en AI/ML. Mi curiosidad constante también me ha atraído hacia el procesamiento del lenguaje natural, un campo que estoy ansioso por explorar más a fondo.