Inteligencia Artificial
Zephyr: destilación directa de alineación LLM

La capacidad y el rendimiento de modelos de lenguajes grandes, más pequeños y abiertos han avanzado significativamente en los últimos años, y hemos sido testigos del progreso desde los primeros modelos GPT-2 hasta marcos LLM más compactos, precisos y efectivos que utilizan una cantidad considerablemente mayor de tokens. que el "Computación óptima“Cantidad de tokens recomendada por las leyes de escalamiento de Chinchilla. Además, los desarrolladores han demostrado que estos marcos LLM más pequeños se pueden entrenar aún más utilizando modelos propietarios basados en dSFT o ajuste fino supervisado destilado enfoque, que utiliza el resultado de un modelo de maestro eficaz como datos supervisados para el modelo de estudiante en un intento de aumentar la precisión.
En este artículo, hablaremos sobre el marco Zephyr-7B, un estado del arte. punto de referencia de chat para modelos de parámetros 7B que no requiere anotaciones humanas. El objetivo principal del marco es permitir a los desarrolladores producir modelos de lenguaje más pequeños y grandes que estén más alineados que nunca con la intención del usuario. El marco Zephyr-7B no solo examina la aplicación de los enfoques actuales para marcos LLM más grandes como dSFT, sino que también explora la posibilidad de utilizar otros enfoques para aprender un modelo de chat que se alinee mejor con la intención del usuario. Profundizaremos en el marco de Zephyr y exploraremos su arquitectura, funcionamiento y resultados. Entonces empecemos.
Zephyr-7B: Introducción a la destilación directa de alineación en modelos de lenguaje
Como se mencionó anteriormente, los modelos de lenguaje han progresado rápidamente en los últimos años, desde los marcos GPT-2 anteriores hasta los actuales GPT-4 y MiniGPT-5 Marcos LLM que, aunque son muy exhaustivos, ahora son más precisos y mucho más eficientes. Un aspecto importante de estos marcos avanzados de LLM es que incorporan una cantidad significativamente mayor de tokens que la cantidad de tokens que anteriormente se consideraban computacionalmente óptimos según el Leyes de escala de chinchilla. Además, los desarrolladores e investigadores que trabajan en marcos LLM han aprendido que estos marcos LLM más pequeños se pueden capacitar más utilizando un dSFT basado en modelos propietarios o enfoque de ajuste fino supervisado destilado, que utiliza el resultado de un modelo docente eficaz como datos supervisados para el modelo de estudiante en un intento de aumentar la precisión. La estrategia de destilación ha demostrado ser una herramienta muy efectiva y útil para maximizar el potencial y las habilidades de los modelos abiertos en una amplia gama de tareas, aunque aún no puede replicar el desempeño logrado por el modelo docente. Además, los usuarios han informado a menudo que estos modelos suelen mostrar “desalineación de intenciones”, lo que significa que los modelos no se comportan de una manera que se alinee con los requisitos de los usuarios finales, lo que genera resultados incorrectos que no brindan los resultados o respuestas correctos a las entradas o consultas del usuario.
La alineación de intenciones siempre ha sido un desafío importante para los desarrolladores; trabajos recientes se centran en el desarrollo de puntos de referencia como AlpacaEval y MT-Bench desarrollado para abordar la desalineación. La motivación para desarrollar el marco Zephyr se puede atribuir al problema de utilizar la destilación para alinear completamente un pequeño marco LLM abierto donde el paso principal es utilizar un Feedback AIF o Inteligencia Artificial obtener datos de preferencias de un conjunto del modelo del maestro y luego aplicar la optimización de preferencias destiladas directamente como objetivo principal de aprendizaje, un enfoque que se conoce como dDPO o optimización de la política de difusión de eliminación de ruido. Lo más destacado del enfoque dDPO es que, a diferencia de sus predecesores como PPO u optimización de preferencias proximales, no requiere muestreo humano ni anotaciones y también reduce el tiempo que lleva entrenar un modelo de lenguaje. Además, también permite a los desarrolladores maximizar las recompensas de la muestra final prestando mucha atención a la secuencia de los pasos de eliminación de ruido desde el principio hasta el final, en otras palabras, en su totalidad.
Los desarrolladores han desarrollado el marco Zephyr-7B para validar este enfoque y, en cierto modo, es una versión alineada del estado del arte. Marco Mistral-7B. El marco utiliza primero dSFT o ajuste fino supervisado destilado basado en el conjunto de datos UltraChat y aplica dDPO o eliminación de ruido. Difusión Enfoque de optimización de políticas sobre los datos de retroalimentación. Los experimentos indican que el marco Zephyr-7B con 7 mil millones de parámetros ofrece resultados comparables a los obtenidos por modelos de chat alineados con retroalimentación humana con más de 70 mil millones de parámetros. Además, los experimentos también indican que los resultados se pueden mejorar tanto en términos de puntos de referencia que tienen en cuenta las capacidades conversacionales, como de puntos de referencia académicos estándar, y el uso del aprendizaje de preferencias es fundamental para lograr los resultados deseados.
La figura anterior demuestra el rendimiento de varios modelos de lenguaje en el punto de referencia MT-bench. El marco Zephyr-7B que se entrena utilizando el enfoque dDPO se compara con modelos de lenguaje más grandes, propietarios y de acceso abierto, como GPT-3.5 turbo, Llama-2-70B y más que se entrenaron utilizando aprendizaje de refuerzo adicional, y También incluyó una gran cantidad de comentarios humanos. Como se puede ver claramente, a pesar de la gran diferencia en la cantidad de parámetros que utilizan estos marcos, el marco Zephyr-7B ofrece resultados comparables con la mayoría de ellos y supera a varios marcos en diferentes dominios.
Zephyr-7B: método, funcionamiento y arquitectura
El objetivo principal del marco Zephyr-7B es ayudar a una fuente abierta modelo de lenguaje grande alinearse lo más cerca posible de la intención del usuario y, en su totalidad, el marco Zephyr-7B supone acceso a un modelo de maestro grande que se consulta mediante la generación de indicaciones. El Zephyr-7B sigue un enfoque similar al utilizado en el marco InstructGPT y tiene como objetivo generar un modelo de estudiante eficaz y preciso.
La siguiente figura demuestra brevemente los tres pasos principales involucrados en el funcionamiento del marco Zephyr-7B.
- dSFT para la construcción de conjuntos de datos a gran escala utilizando un estilo de autoinstrucción.
- Colección AIF utilizando un conjunto de modelos de chat completos seguido de binarización de preferencias y puntuación mediante GPT-4.
- dPO del modelo dSFT haciendo uso de los datos de retroalimentación.

dSFT o ajuste fino supervisado destilado
El marco comienza con un modelo de lenguaje grande sin procesar que primero debe entrenarse para responder a las indicaciones del usuario. Tradicionalmente, el entrenamiento de estos marcos LLM para responder a las indicaciones de los usuarios se realiza mediante SFT o ajuste fino supervisado en un conjunto de datos que consta de instrucciones de alta calidad y sus respuestas correspondientes. Dado que el marco Zephyr-7B tiene acceso a un modelo de lenguaje docente, el marco puede generar instrucciones y respuestas, y entrenar el modelo directamente en estas instrucciones y respuestas, y este enfoque se conoce como dSFT o SFT destilado. La siguiente figura demuestra la destilación realizada por SFT donde x representa un conjunto de indicaciones iniciales construidas con el propósito principal de representar un conjunto diverso de dominios temáticos, y representa la respuesta de muestra, que se refina usando una nueva instrucción de muestra representada por x1 y C. representa el punto final en el conjunto de datos final.
Comentarios de IA a través de preferencias
La retroalimentación humana se utiliza para asignar modelos de lenguaje grandes, ya que pueden proporcionar las señales adicionales requeridas, y esta retroalimentación humana se proporciona tradicionalmente a través de preferencias sobre la calidad de las respuestas generadas por los marcos de LLM. Sin embargo, el marco Zephyr utiliza comentarios de IA del modelo docente sobre los resultados generados por otros modelos en lugar de comentarios humanos con fines de destilación. El enfoque seguido por el marco Zephyr está influenciado por el utilizado por el marco UltraFeedback que utiliza el modelo docente para proporcionar preferencias sobre los resultados del modelo.
Similar al enfoque SFT o Ajuste fino supervisado, comienza con un conjunto de indicaciones, donde x representa cada indicación individual que luego se envía a una colección de cuatro modelos como Llama, Falcon, Claude y más, cada uno de los cuales genera una respuesta. propios. Luego, estas respuestas se envían como entrada al modelo del maestro, como GPT-3 o GPT-4, y el modelo genera una puntuación para la respuesta de entrada. Después de recopilar las puntuaciones de salida, el modelo guarda la respuesta con la puntuación más alta.
dDPO o optimización de preferencia directa destilada
dDPO es el paso final del marco Zephyr y su objetivo principal es refinar el modelo de maestro dSFT maximizando la probabilidad de clasificar la respuesta preferida en un modelo de preferencia determinado por una función de recompensa mediante la utilización del modelo de lenguaje del estudiante. El paso anterior que implicó el uso de retroalimentación de IA se centró principalmente en el uso de métodos de aprendizaje por refuerzo como PPO o optimización de políticas próximas para lograr la máxima optimización con respecto a la recompensa generada. En este paso, primero se entrena la recompensa y luego se toma una muestra de la política actual para calcular las actualizaciones y así maximizar la optimización. DPO o optimización directa de preferencias sigue un enfoque similar para optimizar el modelo de preferencia directamente utilizando los datos estáticos. El objetivo después de conectar la función de recompensa al modelo de preferencia se puede escribir como
Zephyr-7B: experimentos, puntos de referencia y resultados
El marco Zephyr lleva a cabo sus experimentos de ajuste en el marco Mistral-7B de última generación que ofrece un rendimiento comparable a modelos de lenguaje mucho más grandes en una amplia gama de tareas de procesamiento de lenguaje natural o PNL.
Conjuntos de datos
El marco Zephyr utiliza dos conjuntos de datos de diálogo que se han extraído de una combinación de modelos abiertos y propietarios, que previamente han demostrado ser eficaces para producir modelos de chat efectivos.
UltraChat
UltraChat es un conjunto de datos de autorrefinamiento que consta de casi 1.5 millones de diálogos de múltiples turnos distribuidos en 30 temas y 20 materiales de texto generados por el marco GPT-3.5-Turbo. Para abordar el problema de las mayúsculas incorrectas que enfrenta el conjunto de datos de UltraChat, el marco aplica un enfoque heurístico de mayúsculas verdaderas para eliminar los errores gramaticales.
Ultrafeedback
UltraFeedback es un conjunto de datos de indicaciones con más de 64 indicaciones, y cada una de estas indicaciones tiene cuatro respuestas LLM individuales. El marco Zephyr utiliza la puntuación media más alta obtenida del conjunto de datos UltraFeedback para construir preferencias binarias, y una de las tres respuestas LLM restantes se rechaza como aleatoria.
Evaluación
Para evaluar el rendimiento del marco Zephyr, los desarrolladores optaron por dos puntos de referencia de chat, uno de un solo turno y otro de varios turnos, en un intento de evaluar la capacidad del modelo para seguir las instrucciones del usuario y responder en consecuencia.
Banco MT
El punto de referencia de evaluación MT-Bench consta de 160 preguntas repartidas en 8 áreas de conocimiento únicas y, según el punto de referencia MT-Bench, el modelo debe responder a una pregunta inicial y proporcionar una respuesta a la pregunta de seguimiento.
AlpacaEval
AlpacaEval es un punto de referencia de un solo turno bajo el cual el modelo o marco genera respuestas de los usuarios a más de 800 preguntas repartidas en diferentes temas con el enfoque principal en la utilidad.
Además de estos dos puntos de referencia principales, el marco Zephyr-7B también se evalúa en Open LLM Leaderboard para tareas de clasificación multiclase, ARC, HellaSwag, MMLU y más. Además, independientemente de en qué punto de referencia se evalúe el marco Zephyr-7B, se compara con una variedad de modelos abiertos y propietarios, siendo sus procedimientos de alineación el único factor diferenciador.
Resultados
Ahora echemos un vistazo a cómo funciona el marco Zephyr-7B y lo comparamos con los modelos de lenguaje más modernos actuales.
La implementación del enfoque dDPO aumenta las capacidades de chat
La siguiente tabla compara el rendimiento del marco Zephyr-7B con modelos de lenguaje de última generación en los puntos de referencia AlpacaEval y MT-Bench.
Como se puede ver claramente, cuando se compara con los modelos 7B abiertos, el marco Zephyr-7B no solo supera significativamente a los modelos dSFT en los dos puntos de referencia, sino que también establece nuevos estándares de vanguardia. Además, el marco Zephyr-7B también logra superar al marco XWIN-LM-7B, que es uno de los pocos modelos entrenados en el enfoque dPPO o PPO destilado. Además, el rendimiento ofrecido por el marco Zephyr-7B es comparable a los resultados entregados por modelos de lenguaje mucho más grandes como Llama2-Chat con más de 70B parámetros.
dDPO aumenta el rendimiento de las tareas académicas
La siguiente figura compara el rendimiento del marco Zephyr-7B con una amplia gama de marcos LLM propietarios y de código abierto.
Como puede verse, el marco Zephyr-7B supera significativamente a los marcos LLM con parámetros 7B, y la brecha entre su rendimiento y el que ofrecen los modelos dSFT de mejor rendimiento también es notable. A medida que aumenta el número de parámetros, el marco Zephyr-7B se queda corto, aunque iguala el rendimiento ofrecido por marcos con 40 mil millones de parámetros.
Optimización de preferencias
En la siguiente figura, evaluamos cómo los diferentes pasos seguidos en el proceso de alineación impactan el desempeño. Como se puede observar, el enfoque dDPO cuando se combina con dSFT aumenta significativamente el rendimiento tanto en los conjuntos de datos MT-Bench como en AlpacaEval.
Finalmente, en la siguiente figura podemos ver las precisiones de las pruebas y la capacitación durante la implementación del DPO. Como puede verse, el enfoque DPO no afecta el desempeño del modelo en las tareas posteriores.
Conclusión
En este artículo, hemos hablado sobre el marco Zephyr-7B basado en el marco Mistral-7B de última generación que tiene como objetivo resolver el desafío actual de la destilación de alineación de un modelo de lenguaje grande a un marco preentrenado mucho más pequeño. El objetivo principal del marco es permitir a los desarrolladores producir modelos de lenguaje más pequeños y grandes que estén más alineados que nunca con la intención del usuario. El marco Zephyr-7B no solo examina la aplicación de los enfoques actuales para marcos LLM más grandes como dSFT, sino que también explora la posibilidad de utilizar otros enfoques para aprender un modelo de chat que se alinee mejor con la intención del usuario.
Sin embargo, a pesar de los resultados prometedores, el marco Zephyr-7B no es perfecto y aún queda trabajo por hacer. Una de las limitaciones obvias es el uso del marco GPT-4 para evaluar los puntos de referencia MT-Bench y AlpacaEval, que a menudo ha estado sesgado hacia los modelos que él mismo elabora. Sin embargo, el marco Zephyr-7B espera abrir un camino para explorar las capacidades de modelos abiertos más pequeños que sean capaces de alinearse con la intención y las interacciones del usuario.