Inteligencia artificial

Avanzando la alineación de la IA con los valores humanos a través de WARM

Published February 5, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Alineación de los sistemas de IA con los valores humanos

Los sistemas de inteligencia artificial (IA) están siendo cada vez más capaces de ayudar a los humanos en tareas complejas, desde chatbots de servicio al cliente hasta algoritmos de diagnóstico médico. Sin embargo, a medida que estos sistemas de IA asumen más responsabilidades, es crucial que permanezcan alineados con los valores y preferencias humanas. Un enfoque para lograr esto es a través de una técnica llamada aprendizaje de refuerzo a partir de retroalimentación humana (RLHF). En RLHF, un sistema de IA, conocido como la política, es recompensado o penalizado en función de los juicios humanos sobre su comportamiento. El objetivo es que la política aprenda a maximizar sus recompensas y, por lo tanto, se comporte de acuerdo con las preferencias humanas.

Un componente fundamental de RLHF es el modelo de recompensa (RM). El RM es responsable de evaluar las acciones y salidas de la política, y devolver una señal de recompensa para guiar el proceso de aprendizaje. Diseñar un buen RM es desafiante, ya que las preferencias humanas pueden ser complejas, dependientes del contexto y даже inconsistentes entre individuos. Recientemente, investigadores de Google DeepMind propusieron una técnica innovadora llamada Modelos de Recompensa Promediados por Peso (WARM) para mejorar el diseño de RM.

El problema de la piratería de recompensas

Un problema importante en RLHF es la piratería de recompensas. La piratería de recompensas ocurre cuando la política encuentra lagunas para manipular el sistema de RM y obtener recompensas altas sin satisfacer realmente los objetivos pretendidos. Por ejemplo, supongamos que el objetivo es entrenar a un asistente de escritura de IA para generar resúmenes de alta calidad. El RM podría recompensar resúmenes concisos e informativos. La política podría aprender a explotar esto generando resúmenes muy cortos e informativos salpicados con palabras clave que engañan al RM.

La piratería de recompensas ocurre por dos razones principales:

Desplazamiento de distribución – El RM se entrena en un conjunto de datos limitado de ejemplos etiquetados por humanos. Cuando se despliega, las salidas de la política pueden provenir de distribuciones diferentes a las que el RM no se generaliza bien.
Etiquetas ruidosas – La etiquetación humana es imperfecta, con desacuerdos entre evaluadores. El RM puede aferrarse a señales espurias en lugar de indicadores robustos de calidad.

La piratería de recompensas conduce a sistemas inútiles que no cumplen con las expectativas humanas. Peor aún, puede resultar en comportamientos de IA sesgados o incluso peligrosos si se despliegan sin cuidado.

El auge de la fusión de modelos

El interés creciente en estrategias de fusión de modelos como Model Ratatouille se debe a la realización de que los modelos más grandes, aunque poderosos, pueden ser ineficientes e imprácticos. Entrenar un modelo de 1 billón de parámetros requiere cantidades prohibitivas de datos, cómputo, tiempo y costo. Más crucialmente, dichos modelos tienden a sobreajustarse a la distribución de entrenamiento, obstaculizando su capacidad para generalizar a escenarios del mundo real diversos.

La fusión de modelos proporciona una ruta alternativa para desbloquear capacidades mayores sin escalar sin control. Al reutilizar múltiples modelos especializados entrenados en diferentes distribuciones, tareas u objetivos, la fusión de modelos apunta a mejorar la versatilidad y la robustez fuera de la distribución. El supuesto es que diferentes modelos capturan patrones predictivos distintos que pueden complementarse entre sí cuando se fusionan.

Los resultados recientes ilustran la promesa de este concepto. Los modelos obtenidos a través de la fusión, a pesar de tener muchos menos parámetros, pueden igualar o incluso superar el rendimiento de modelos gigantes como GPT-3. Por ejemplo, un conjunto de Model Ratatouille de solo 7 puntos de control de tamaño medio logra precisión estatal en conjuntos de datos de implicación textual de alta dimensión, superando a GPT-3.

La simplicidad de la fusión por promedio de pesos es un gran bonus. Entrenar múltiples modelos auxiliares requiere recursos adicionales. Pero crucialmente, el cálculo en tiempo de inferencia permanece idéntico al de un solo modelo, ya que los pesos se condensan en uno. Esto hace que el método sea fácilmente adaptable, sin preocupaciones de aumento de latencia o costos de memoria.

Mecanismos detrás de la fusión de modelos

Pero, ¿qué exactlyo permite estos aumentos de precisión a partir de la fusión de modelos? El análisis reciente ofrece algunas pistas:

Mitigación de la memorización: Cada modelo ve lotes diferentes de datos durante el entrenamiento. El promedio disminuye cualquier memorización específica de instancias, reteniendo solo generalizaciones a nivel de conjunto de datos.
Reducción de la varianza: Los modelos entrenados de forma independiente tienen errores no correlacionados. Combinarlos promedia el ruido, mejorando la calibración.
Regularización a través de la diversidad: Tareas auxiliares variables obligan a los modelos a aferrarse a características más generalizables útiles a través de distribuciones.
Aumento de la robustez: La inconsistencia en las predicciones señaliza incertidumbre. El promedio modera los juicios de outlier, mejorando la confiabilidad.

En esencia, la fusión de modelos contrarresta las debilidades de los modelos individuales para amplificar sus fortalezas colectivas. La representación fusionada captura las estructuras causales subyacentes comunes, ignorando variaciones incidentales.

Esta base conceptual conecta la fusión de modelos con otras técnicas populares como el ensamblaje y el aprendizaje multi-tarea. Todos estos métodos aprovechan la diversidad a través de modelos o tareas para obtener sistemas versátiles y conscientes de la incertidumbre. La simplicidad y la eficiencia del promedio de pesos, sin embargo, dan a la fusión de modelos una ventaja única para avanzar en despliegues del mundo real.

Modelos de Recompensa Promediados por Peso

Proceso de alineación con WARM

WARM emplea innovadoramente un modelo de recompensa proxy (RM), que es un promedio de peso de múltiples RM individuales, cada uno afinado desde el mismo modelo de lenguaje grande preentrenado pero con hiperparámetros variables. Este método mejora la eficiencia, la confiabilidad bajo desplazamientos de distribución y la robustez contra preferencias inconsistentes. El estudio también muestra que usar WARM como el modelo de recompensa proxy, particularmente con un número aumentado de RM promediados, mejora los resultados y retrasa el inicio de la ‘piratería de recompensas’, un fenómeno donde las recompensas de control se deterioran con el tiempo.

Aquí hay una visión general de alto nivel:

Comience con un modelo de lenguaje base preentrenado en un corpus grande. Inicialice múltiples RM agregando capas específicas de tarea en la parte superior.
Ajuste cada RM por separado en el conjunto de datos de preferencias humanas, utilizando diferentes hiperparámetros como la tasa de aprendizaje para la diversidad.
Promedie los pesos de los RM ajustados para obtener un solo conjunto de WARM.

La idea clave es que el promedio de pesos retiene solo la información invariantemente aprendida a través de todos los RM diversos. Esto reduce la dependencia de señales espurias, mejorando la robustez. El conjunto también se beneficia de la reducción de la varianza, mejorando la confiabilidad a pesar de los desplazamientos de distribución.

Como se discutió anteriormente, la diversidad a través de modelos entrenados de forma independiente es crucial para desbloquear el potencial completo de la fusión de modelos. Pero, ¿qué técnicas concretas promueven la diversidad productiva?

El papel de WARM explora algunas ideas inteligentes que podrían generalizarse más ampliamente:

Reordenamientos aleatorios

Un enfoque trivial pero impactante es reordenar aleatoriamente el orden en que los puntos de datos son vistos por cada modelo durante el entrenamiento. Incluso este simple paso descorrelaciona los pesos, reduciendo la memorización redundante de patrones.

Variaciones de hiperparámetros

Ajustar hiperparámetros como la tasa de aprendizaje y la probabilidad de abandono para cada ejecución introduce diversidad útil. Los modelos convergen de forma diferente, capturando propiedades distintas del conjunto de datos.

Promedio de puntos de control – Baklava

El método Baklava inicializa modelos para la fusión a partir de instantáneas diferentes a lo largo de la misma trayectoria de preentrenamiento. Esto relaja las restricciones en comparación con las sopas de modelos que exigen un punto de partida compartido. En comparación con el modelado ratatouille, Baklava evita tareas adicionales. En general, logra un equilibrio efectivo entre precisión y diversidad.

proceso de ajuste de múltiples Modelos de Recompensa

El proceso comienza con un Modelo de Lenguaje Grande preentrenado (LLM) 𝜃_𝑝𝑡. A partir de este modelo, se derivan varios puntos de control {𝜃_𝑠 𝑓 𝑡_𝑖} durante una ejecución de Ajuste Fineto (SFT), cada uno recogido en diferentes pasos de entrenamiento de SFT. Estos puntos de control se utilizan como inicializaciones para ajustar múltiples Modelos de Recompensa (RMs) {𝜙𝑖} en un conjunto de datos de preferencias. Este ajuste apunta a adaptar los modelos para alinearse mejor con las preferencias humanas. Después del ajuste, estos RMs se combinan a través de un proceso de promedio de pesos, resultando en el modelo final, 𝜙_WARM.

El análisis confirma que agregar puntos de control más antiguos mediante promedio de pesos perjudica el rendimiento individual, comprometiendo los méritos de la diversidad. Promediar solo las representaciones finales de cada ejecución funciona mejor. En general, equilibrar los objetivos de diversidad con el mantenimiento de la precisión sigue siendo un desafío de investigación abierto.

En general, la fusión de modelos se alinea bien con la ética general en el campo para reciclar recursos existentes de forma efectiva para una mayor confiabilidad, eficiencia y versatilidad. La simplicidad del promedio de pesos solidifica su posición como un candidato principal para ensamblar modelos robustos a partir de bloques de construcción disponibles.

A diferencia de los métodos de ensamblaje tradicionales que promedian predicciones, WARM mantiene el sobrecoste computacional mínimo al mantener solo un conjunto de pesos. Los experimentos en tareas de resumen de texto demuestran la efectividad de WARM:

Para la selección del mejor de N, WARM logra una tasa de victoria del 92,5% contra la selección aleatoria según las etiquetas de preferencia humana.
En RLHF, una política de WARM alcanza una tasa de victoria del 79,4% contra una política entrenada con un solo RM después del mismo número de pasos.
WARM sigue funcionando bien incluso cuando un cuarto de las etiquetas humanas están corruptas.

Estos resultados ilustran el potencial de WARM como una técnica práctica para desarrollar asistentes de IA del mundo real que se comporten de forma confiable. Al suavizar las inconsistencias en la retroalimentación humana, las políticas de WARM pueden permanecer alineadas de forma robusta con los valores humanos incluso mientras siguen aprendiendo de nuevas experiencias.

La imagen más grande

WARM se encuentra en la intersección de dos tendencias clave en la investigación de alineación de IA. Primero es el estudio de la generalización fuera de la distribución (OOD), que apunta a mejorar el rendimiento del modelo en nuevos datos que difieren de la distribución de entrenamiento. Segundo es la investigación sobre la robustez algorítmica, centrada en la confiabilidad a pesar de pequeñas perturbaciones de entrada o ruido.

Al establecer conexiones entre estos campos alrededor de la noción de invariantes aprendidas, WARM nos acerca a técnicas más fundamentadas para la alineación de valores. Las ideas de WARM podrían generalizarse incluso más allá de RLHF, proporcionando lecciones para sistemas de aprendizaje automático más amplios que interactúan con el mundo abierto.

Por supuesto, el modelado de recompensas es solo una pieza del rompecabezas de alineación. Todavía necesitamos progreso en otros desafíos como la especificación de recompensas, la supervisión escalable y la exploración segura. Combinado con técnicas complementarias, WARM podría acelerar el desarrollo de IA que promueva sosteniblemente la prosperidad humana. Al elucidar colectivamente los principios que subyacen a la alineación robusta, los investigadores están trazando la ruta hacia IA beneficiosa y ética.

Aayush Mittal

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del Aprendizaje Automático y el Aprendizaje Profundo. Mi pasión y experiencia me han llevado a contribuir a más de 50 proyectos de ingeniería de software diversos, con un enfoque particular en AI/ML. Mi curiosidad continua también me ha llevado hacia el Procesamiento de Lenguaje Natural, un campo que estoy ansioso por explorar más a fondo.

Unite.AI