Inteligencia artificial
Zephyr-7B: El modelo LLM hiperoptimizado de HuggingFace construido sobre Mistral 7B

Introducción
La evolución de los modelos de lenguaje grande abiertos (LLM) ha tenido un impacto significativo en la comunidad de investigación de inteligencia artificial, particularmente en el desarrollo de chatbots y aplicaciones similares. Después del lanzamiento de modelos como LLaMA, ha habido un aumento en la investigación sobre afinación eficiente, manejo de instrucciones extendidas, generación aumentada de recuperación (RAG) y cuantización.
El modelo LLaMA, por ejemplo, marcó una nueva era en la afinación y la contextualización de instrucciones, allanando el camino para modelos posteriores como MPT de MosaicML, RedPajama-INCITE de Together AI, Falcon de TII y Llama 2 de Meta. Cada uno de estos modelos contribuye con capacidades únicas, mejorando la funcionalidad y el alcance general de los LLM.
Mistral AI, una startup de París fundada por ex empleados de Google DeepMind y Meta, se ha hecho un nombre con su primera oferta: Mistral 7B.
La ventaja de Mistral 7B radica en su eficiencia, ya que ofrece capacidades similares o mejoradas en comparación con sus pares, como Llama 2, pero con una menor demanda computacional.
Específicamente ajustado para tareas instructivas, Mistral 7B Instruct brilla en plataformas como Hugging Face, donde supera a otros modelos del mismo tamaño y compite estrechamente con aquellos que tienen casi el doble de parámetros.
Basándose en esto, Hugging Face presentó Zephyr 7B Alpha, demostrando que un Mistral 7B afinado puede superar las capacidades de modelos de chat significativamente más grandes y, en algunas tareas, incluso rivalizar con GPT-4. El “Alpha” fue solo el comienzo, ya que Zephyr 7B Beta siguió poco después.
Este artículo explorará cómo Zephyr 7B aprovecha el poder de modelos más grandes para refinar su capacidad para responder y alinearse con la instrucción humana, un proceso que se hace posible a través de la técnica de destilación de conocimiento. Este método implica entrenar modelos más pequeños en los patrones complejos aprendidos por modelos más grandes, reduciendo las demandas de entrenamiento sin sacrificar las capacidades de modelado de lenguaje. Nos adentraremos en los detalles del enfoque de destilación de conocimiento de Hugging Face.
Destilación de conocimiento
Una innovación clave en el desarrollo de modelos como Zephyr-7B es la afinación supervisada destilada (dSFT). Este método implica utilizar la salida de un modelo “maestro” más grande y capaz para entrenar a un modelo “estudiante” más pequeño, mejorando su precisión. Si bien la destilación mejora los modelos abiertos en varias tareas, todavía existe una brecha en el rendimiento en comparación con los modelos maestros.
La destilación de conocimiento es un método en aprendizaje automático donde un modelo compacto, denominado “estudiante”, es enseñado a replicar el rendimiento de un modelo más grande y complejo “maestro”. Esta técnica permite que el estudiante realice tareas que anteriormente estaban más allá de su capacidad al transferir los patrones intrincados aprendidos por el maestro.
El modelo estudiante se entrena en las probabilidades de salida o características generadas por el modelo maestro, centrándose en coincidir con estas salidas en lugar de solo las predicciones finales. Esto permite que el estudiante aprenda los procesos de toma de decisiones matizados del maestro, lo que a menudo resulta en un mejor rendimiento que el entrenamiento con solo los datos de verdad.
Históricamente, la destilación de conocimiento se ha utilizado en modelos como las redes de destilación originales de Hinton, y más recientemente en NLP con modelos como DistilBERT, que destiló el modelo BERT en una versión más pequeña y rápida que retiene la mayoría de las capacidades de comprensión del lenguaje originales. Otro ejemplo es TinyBERT, que optimiza aún más el tamaño y la velocidad para dispositivos móviles o de borde.
En el caso de Zephyr-7B, la destilación de conocimiento se utiliza para infundir a un modelo de 7B parámetros con las capacidades de sus contrapartes más grandes. Al hacerlo, Zephyr-7B logra un equilibrio entre rendimiento y eficiencia, lo que lo hace adecuado para entornos donde los recursos computacionales son limitados, sin sacrificar la calidad de la interacción y la comprensión.
Al desarrollar Zephyr-7B, los investigadores abordaron el desafío de alinear un modelo LLM abierto pequeño completamente a través de la destilación. Introdujeron un enfoque llamado optimización de preferencia directa destilada (dDPO), que utiliza retroalimentación de AI de un conjunto de modelos maestros como datos de preferencia. Este método, que no requiere anotación humana, reduce significativamente el tiempo y los recursos necesarios para el entrenamiento del modelo.
Construyendo ZEPHYR-7B
Para validar dDPO, los investigadores construyeron ZEPHYR-7B, una versión alineada del modelo Mistral-7B. El proceso involucró tres pasos:
- dSFT utilizando el conjunto de datos UltraChat: La afinación supervisada destilada (dSFT) es un método avanzado para entrenar modelos de lenguaje grande (LLM) aprovechando la salida de modelos maestros más grandes y capaces. Comienza con un LLM raw que se entrena para responder a instrucciones de usuario. A diferencia de la afinación supervisada tradicional (SFT) que utiliza un conjunto de datos fijo, dSFT emplea un enfoque dinámico donde el modelo mismo genera instrucciones y respuestas. Este método, conocido como autoinstrucción, implica utilizar el modelo maestro para responder y refinar instrucciones en función de respuestas. El proceso comienza con un conjunto de instrucciones iniciales (x₀₁, x₀₂, …, x₀_J) que representan temas diversos. Cada instrucción se refina iterativamente: para una instrucción dada x₀, se genera una respuesta y₀ por el modelo maestro, y luego se muestrea una nueva instrucción x₁ en función de x₀ y y₀. El conjunto de datos final C = {(x₁, y₁), …, (x_J, y_J)} se utiliza para afinar el modelo.
- Incorporación de datos de retroalimentación de AI de UltraFeedback: Estos datos fueron cruciales para refinar las respuestas del modelo. En este paso, el modelo genera respuestas a varias instrucciones (como describir cómo hacer brownies de chocolate) que luego se clasifican por un modelo más avanzado como GPT-4. La respuesta con la puntuación más alta (yw) y una respuesta de puntuación más baja elegida al azar (yl) forman un conjunto de datos de retroalimentación D.
- Aplicación de dDPO: La última fase, optimización de preferencia directa destilada (dDPO), implica refinar el modelo dSFT para maximizar la probabilidad de clasificar las respuestas preferidas con mayor probabilidad. Esto se logra utilizando una función de recompensa rθ(x, y) en el modelo de preferencia, que se basa en la política óptima π* y la política original πdSFT. El objetivo de optimización se formula como πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT(yl|x)), lo que simplifica el proceso de entrenamiento al comenzar con la versión dSFT del modelo y iterar a través de cada triple AIF.
Es notable que Zephyr-7B logre un rendimiento comparable a modelos de 70B parámetros alineados con retroalimentación humana. Excelente en benchmarks académicos y capacidades conversacionales, destacando la efectividad del aprendizaje de preferencia en el desarrollo del modelo. Para una exploración adicional, los modelos, el código y las instrucciones están disponibles en el repositorio de GitHub de Hugging Face.
Abordar el desafío de la alineación de intención
Una preocupación notable con los LLM ha sido su alineación con la intención humana. Los modelos anteriores a menudo no producían respuestas que coincidieran con las preferencias del usuario, lo que llevaba a respuestas inexactas o irrelevantes. Sin embargo, benchmarks recientes como MT-Bench y AlpacaEval han proporcionado herramientas para cuantificar y mejorar este aspecto, destacando el rendimiento superior de los modelos propietarios entrenados con retroalimentación humana sobre aquellos entrenados solo mediante destilación.
Métodos de evaluación
La evaluación de Zephyr 7B involucró pruebas rigurosas en benchmarks que evalúan las capacidades conversacionales del modelo en contextos de una sola vuelta y múltiples vueltas:
- MT-Bench: Este benchmark de múltiples vueltas requiere que el modelo aborde 160 preguntas que abarcan ocho dominios. Cada respuesta se califica con GPT-4, y la puntuación final del modelo refleja el promedio de dos rondas de preguntas.
- AlpacaEval: En este benchmark de una sola vuelta, el modelo se presenta con 805 preguntas sobre varios temas. El enfoque aquí se centra en la utilidad del modelo, con GPT-4 calificando las respuestas para determinar una tasa de victoria comparativa.
Además, Zephyr 7B se probó en el Open LLM Leaderboard, que, si bien no es una evaluación directa de las habilidades conversacionales, ofrece información sobre el razonamiento y la veracidad del modelo después de la afinación.
Zephyr 7B se comparó con una variedad de modelos abiertos y propietarios, incluidos aquellos con diferentes tamaños y métodos de alineación. Estableció nuevos benchmarks para modelos de 7B en MT-Bench y AlpacaEval, y mostró un rendimiento competitivo contra modelos más grandes, validando la efectividad de la optimización de preferencia directa (dDPO) en el entrenamiento.
Las fases de entrenamiento SFT y DPO se configuraron meticulosamente, abarcando múltiples épocas y tasas de aprendizaje de afinación y tamaños de lote para un rendimiento óptimo. El modelo Zephyr final resultante no solo fue resistente a la sobreajuste, sino que también mejoró en el manejo de tareas prácticas y benchmarks académicos.
Conjuntos de datos y resultados
Conjuntos de datos utilizados
En el desarrollo de Zephyr-7B, se utilizaron dos conjuntos de datos clave para entrenar y refinar el modelo, cada uno abordando diferentes aspectos de la generación de diálogos:
Conjunto de datos UltraChat
- Fuente: Desarrollado a partir de diálogos generados por GPT-3.5-TURBO.
- Contenido: Contiene 1,47 millones de diálogos de múltiples vueltas en 30 temas y 20 tipos de material de texto.
- Refinamiento: El conjunto de datos se sometió a una heurística de truecasing para corregir problemas gramaticales, y se aplicaron filtros para aumentar la utilidad de las respuestas y eliminar frases de prefacio no útiles.
Conjunto de datos UltraFeedback
- Fuente: Comprende instrucciones evaluadas por GPT-4, que calificó las respuestas en función de la seguimiento de instrucciones, la honestidad y la utilidad.
- Contenido: Incluye 64.000 instrucciones con cuatro respuestas cada una, calificadas por GPT-4.
- Preferencias binarias: Generadas seleccionando la respuesta con la puntuación media más alta como “elegida” y una respuesta aleatoria de las restantes como “rechazada” para aumentar la diversidad y desafiar el proceso de optimización de preferencia directa (DPO).
Ambos conjuntos de datos son cruciales para entrenar a Zephyr-7B para que comprenda y genere diálogos humanos que sigan instrucciones, sean honestos y útiles. Estos conjuntos de datos están disponibles en el Hub de Hugging Face, al que se puede acceder aquí.
Rendimiento y resultados
El siguiente gráfico ilustra el rendimiento de Zephyr 7B en varias categorías de tareas en comparación con otros modelos como GPT-3.5-turbo, Claude 1, GPT-4 y Llama-2-70b-chat. Las categorías pueden incluir Escritura, Humanidades, Rol, Razonamiento, STEM, Extracción, Codificación y Matemáticas.
A partir del gráfico, se puede inferir en qué dominios Zephyr 7B sobresale y en qué dominios puede necesitar más mejora. Por ejemplo, si la línea de Zephyr se extiende más en el eje de Escritura en comparación con otros, sugiere que Zephyr es particularmente fuerte en la generación de contenido escrito. Por el contrario, si la línea está más cerca del centro en el eje de Matemáticas, puede indicar una debilidad relativa en la resolución de problemas matemáticos.
El gráfico de radar ayuda a identificar las fortalezas y debilidades de Zephyr 7B, proporcionando una representación visual de dónde se encuentra en comparación con modelos más grandes como GPT-4 y modelos especializados como Llama-2-70b-chat.
Comparación de varios modelos de lenguaje en dos benchmarks: MT-Bench y AlpacaEval. Los modelos se evalúan en función de su tamaño, método de alineación (como dSFT para afinación supervisada destilada o dDPO para optimización de preferencia directa destilada) y puntuaciones de rendimiento. Zephyr destaca con puntuaciones altas en ambos benchmarks, lo que indica su efectividad en la generación de respuestas alineadas.
Conclusión
En conclusión, el desarrollo de Zephyr-7B demuestra que la alineación y la destilación de capacidades conversacionales de un modelo de lenguaje grande (LLM) en un modelo más pequeño se puede lograr sin depender de métodos basados en muestreo. Al emplear la optimización de preferencia directa (DPO) con retroalimentación de AI, Zephyr-7B aprovecha la base sólida de Mistral-7B para establecer un nuevo benchmark para modelos de chat de 7B parámetros, demostrando la capacidad de los modelos abiertos más pequeños para comprender y responder a la intención del usuario de manera efectiva.
Sin embargo, este estudio no está exento de limitaciones. La dependencia de GPT-4 como evaluador para benchmarks introduce un sesgo hacia los modelos que se destilan de él, lo que podría favorecer respuestas precisas. Además, la escalabilidad de este método a modelos más grandes, como LLAMA2-70B, y su impacto en las ganancias de rendimiento siguen siendo áreas para investigar más a fondo. Estas limitaciones resaltan la necesidad de innovación continua y el desarrollo de métodos de evaluación imparciales en la comunidad de inteligencia artificial.
Más allá del estudio, es evidente que el potencial de los modelos más pequeños para funcionar al nivel de los modelos más grandes puede democratizar la inteligencia artificial, permitiendo un uso más accesible y eficiente en diversas aplicaciones. El éxito de Zephyr-7B anima a una mayor exploración de los modelos de código abierto, lo que puede acelerar los avances en inteligencia artificial al fomentar la investigación y el desarrollo colaborativos.














