Inteligencia artificial

Zephyr-7B: LLM hiperoptimizado de HuggingFace construido sobre Mistral 7B

Actualizado on 23 de noviembre.

Introducción

La evolución de los modelos abiertos de lenguaje grande (LLM) ha tenido un impacto significativo en la comunidad de investigación de IA, particularmente en el desarrollo de chatbots y aplicaciones similares. Tras el lanzamiento de modelos como LLaMA, ha habido un aumento en la investigación sobre el ajuste fino eficiente, el manejo rápido extendido, la generación aumentada de recuperación (RAG) y la cuantificación.

El modelo LLaMA, por ejemplo, marcó una nueva era en el ajuste y la contextualización rápida, allanando el camino para modelos posteriores como MPT de MosaicML, RedPajama-INCITE de Together AI, Falcon de TII y Llama 2 de Meta. Cada uno de estos modelos aporta capacidades únicas. , mejorando la funcionalidad general y el alcance de los LLM.

Mistral AI, una startup de París fundada por ex empleados de Google DeepMind y Meta, se ha hecho un nombre con su primera oferta: Mistral 7B.

La ventaja de Mistral 7B radica en su eficiencia, ya que ofrece capacidades similares o mejoradas en comparación con pares como Llama 2 pero con menos demanda computacional.

Específicamente diseñado para tareas de instrucción, Mistral 7B Instruct brilla en plataformas como Hugging Face, donde supera a otros modelos del mismo tamaño y compite estrechamente con aquellos que tienen casi el doble de sus parámetros.

A partir de esto, Hugging Face presentó Céfiro 7B Alfa, lo que demuestra que un Mistral 7B afinado puede superar las capacidades de modelos de chat significativamente más grandes y, en algunas tareas, incluso rivalizar con el GPT-4. El “Alfa” fue sólo el comienzo, ya que Céfiro 7B Beta lo siguió poco después.

Este artículo explorará cómo Zephyr 7B aprovecha el poder de modelos más grandes para refinar su capacidad de responder y alinearse con la instrucción humana, un proceso posible gracias a la técnica de destilación del conocimiento. Este método implica entrenar modelos más pequeños sobre los patrones complejos aprendidos por los más grandes, reduciendo las demandas de entrenamiento sin sacrificar las capacidades de modelado del lenguaje. Profundizaremos en los detalles del enfoque de destilación de conocimientos de Hugging Face.

Destilación del conocimiento

Una innovación clave en el desarrollo de modelos como Céfiro-7B es un ajuste fino supervisado destilado (dSFT). Este método implica utilizar el resultado de un modelo de "maestro" más grande y más capaz para entrenar un modelo de "estudiante" más pequeño, mejorando su precisión. Si bien la destilación mejora los modelos abiertos en diversas tareas, todavía existe una brecha en el desempeño en comparación con los modelos docentes.

La destilación del conocimiento es un método de aprendizaje automático en el que se utiliza un modelo compacto, denominado "estudiante”, se le enseña a replicar el desempeño de un “más grande y complejo”profesor" modelo. Esta técnica permite al estudiante realizar tareas que antes estaban fuera de su capacidad transfiriendo los intrincados patrones aprendidos por el maestro.

Destilación del conocimiento | Modelo Profesor-Estudiante

El modelo de estudiante se entrena en las probabilidades de salida o características generadas por el modelo de maestro, enfocándose en hacer coincidir estos resultados en lugar de solo las predicciones finales. Esto permite al estudiante aprender los procesos matizados de toma de decisiones del maestro, lo que a menudo resulta en un mejor desempeño en comparación con el entrenamiento con solo datos reales.

Históricamente, la destilación del conocimiento se ha utilizado en modelos como las redes de destilación originales de Hinton y, más recientemente, en PNL con modelos como DistilBERT, que destiló el modelo BERT en una versión más pequeña y más rápida que conserva la mayoría de las capacidades de comprensión del lenguaje original. Otro ejemplo es TinyBERT, que va más allá al optimizar el tamaño y la velocidad para dispositivos móviles o perimetrales.

En el caso de Zephyr-7B, la destilación de conocimientos se utiliza para dotar a un modelo de parámetros 7B más pequeño de las capacidades de sus homólogos más grandes. Al hacerlo, Zephyr-7B logra un equilibrio entre rendimiento y eficiencia, lo que lo hace adecuado para entornos donde los recursos computacionales son limitados, sin sacrificar la calidad de la interacción y la comprensión.

Al desarrollar Zephyr-7B, los investigadores abordaron el desafío de alinear un pequeño LLM abierto completamente mediante destilación. Introdujeron un enfoque llamado optimización de preferencia directa destilada (dDPO), que utiliza comentarios de IA de un conjunto de modelos de profesores como datos de preferencia. Este método, que no requiere anotaciones humanas, reduce significativamente el tiempo y los recursos necesarios para el entrenamiento del modelo.

Construyendo ZEPHYR-7B

Para validar dDPO, los investigadores construyeron ZEPHYR-7B, una versión alineada del Modelo Mistral-7B. El proceso implicó tres pasos:

dSFT usando el conjunto de datos UltraChat:Distilled Supervised Fine-Tuning (dSFT) es un método avanzado para entrenar modelos de lenguaje grandes (LLM) aprovechando la salida de modelos "profesores" más grandes y capaces. Comienza con un LLM sin procesar que está capacitado para responder a las indicaciones de los usuarios. A diferencia del ajuste fino supervisado (SFT) tradicional que utiliza un conjunto de datos fijo, dSFT emplea un enfoque dinámico en el que el modelo mismo genera instrucciones y respuestas. Este método, conocido como autoinstrucción, implica utilizar el modelo del maestro para responder y refinar instrucciones basadas en las respuestas. El proceso comienza con un conjunto de indicaciones iniciales (x₀₁, x₀₂,…, x₀_J) que representan diversos temas. Cada mensaje se refina de forma iterativa: para un mensaje dado x₀, el modelo del maestro genera una respuesta y₀, y luego se muestra una nueva instrucción x₁ basada en x₀ e y₀. El conjunto de datos final C = {(x₁, y₁),…, (x_J, y_J)} se utiliza para ajustar el modelo.
Incorporación de datos de retroalimentación de IA de UltraFeedback:Estos datos fueron cruciales para refinar las respuestas del modelo. En este paso, el modelo genera respuestas a varias indicaciones (como describir cómo hacer brownies de chocolate) que luego se clasifican mediante un modelo más avanzado como GPT-4. La respuesta con la puntuación más alta (yw) y una respuesta con la puntuación más baja (yl) elegida al azar forman un conjunto de datos de retroalimentación D.
Aplicando dDPO:La última fase, Optimización de preferencia directa destilada (dDPO), implica refinar el modelo dSFT maximizando la probabilidad de clasificar más alto las respuestas preferidas. Esto se logra utilizando una función de recompensa rθ(x, y) en el modelo de preferencia, que se basa en la política LLM óptima π* y la política original πdSFT. El objetivo de optimización se formula como πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT( yl|x)), que simplifica el proceso de entrenamiento al comenzar con la versión dSFT del modelo e iterar a través de cada triplete AIF.

El método utilizado en Zephyr-7B refleja los procesos utilizados en InstructGPT.

Sorprendentemente, Zephyr-7B logra un rendimiento comparable al de modelos mucho más grandes con parámetros 70B alineados con la retroalimentación humana. Destaca tanto en los puntos de referencia académicos como en las capacidades de conversación, destacando la eficacia del aprendizaje de preferencias en el desarrollo de modelos. Para una mayor exploración, los modelos, códigos e instrucciones están disponibles en Repositorio GitHub de Hugging Face.

Abordar el desafío de la alineación de intenciones

Una preocupación notable con los LLM ha sido su alineación con la intención humana. Los modelos anteriores a menudo no lograban producir respuestas que coincidieran con las preferencias del usuario, lo que generaba respuestas inexactas o irrelevantes. Sin embargo, puntos de referencia recientes como MT-Bench y AlpacaEval han proporcionado herramientas para cuantificar y mejorar este aspecto, destacando el rendimiento superior de los modelos patentados entrenados con retroalimentación humana sobre aquellos entrenados únicamente mediante destilación.

Métodos de evaluación

La evaluación de Zephyr 7B implicó pruebas rigurosas en todos los puntos de referencia que evalúan las capacidades de conversación de un modelo en contextos de uno y varios turnos:

Banco MT: Este punto de referencia de múltiples turnos requiere un modelo para abordar 160 preguntas que abarcan ocho dominios. Cada respuesta es calificada por GPT-4, y la puntuación final del modelo refleja el promedio de dos rondas de preguntas.
AlpacaEval: En este punto de referencia de un solo turno, el modelo se presenta con 805 preguntas sobre varios temas. La atención se centra aquí en la utilidad del modelo, con GPT-4 puntuando las respuestas para determinar una tasa de ganancia comparativa.

Además, Zephyr 7B se probó en Open LLM Leaderboard, que, si bien no es una evaluación directa de las habilidades de conversación, ofrece información sobre el razonamiento y la veracidad del modelo después del ajuste.

Se comparó Zephyr 7B con una variedad de modelos abiertos y propietarios, incluidos aquellos con diferentes tamaños y métodos de alineación. Estableció nuevos puntos de referencia para los modelos 7B en MT-Bench y AlpacaEval y mostró un rendimiento competitivo frente a modelos más grandes, validando la eficacia de la optimización de preferencias directas (dDPO) en el entrenamiento.

Las fases de capacitación de SFT y DPO se configuraron meticulosamente, abarcando múltiples épocas y ajustando las tasas de aprendizaje y los tamaños de lotes para un rendimiento óptimo. El modelo final de Zephyr surgió no sólo resistente al sobreajuste sino también mejorado en el manejo de tareas prácticas y puntos de referencia académicos.

Conjuntos de datos y resultados

Conjuntos de datos utilizados

En el desarrollo de Zephyr-7B, se utilizaron dos conjuntos de datos clave para entrenar y perfeccionar el modelo, cada uno de los cuales aborda diferentes aspectos de la generación de diálogo:

Conjunto de datos UltraChat

Fuente: Desarrollado a partir de diálogos generados por GPT-3.5-TURBO.
Contenido: Contiene 1.47 millones de diálogos de varios turnos en 30 temas y 20 tipos de material de texto.
Refinamiento: El conjunto de datos se sometió a una heurística de mayúsculas y minúsculas para corregir problemas gramaticales y se aplicaron filtros para aumentar la utilidad de las respuestas y eliminar frases preliminares inútiles.

Conjunto de datos UltraFeedback

Fuente: Incluye indicaciones evaluadas por GPT-4, que calificó las respuestas según el seguimiento de instrucciones, la honestidad y la utilidad.
Contenido: Incluye 64,000 mensajes con cuatro respuestas cada uno, clasificados por GPT-4.
Preferencias binarias: Se genera eligiendo la respuesta con la puntuación media más alta como "elegida" y una aleatoria del resto como "rechazada" para mejorar la diversidad y desafiar el proceso de Optimización de Preferencias Directas (DPO).

Ambos conjuntos de datos son cruciales para entrenar a Zephyr-7B para que comprenda y genere un diálogo humano que siga instrucciones, sea honesto y útil. Estos conjuntos de datos están disponibles en Hugging Face Hub, al que puede acceder esta página.

Desempeño y resultados

El siguiente cuadro ilustra el rendimiento de Zephyr 7B en varias categorías de tareas frente a otros modelos como GPT-3.5-turbo, Claude 1, GPT-4 y Llama-2-70b-chat. Las categorías pueden incluir escritura, humanidades, juegos de roles, razonamiento, STEM, extracción, codificación y matemáticas.

Del gráfico podemos inferir en qué dominios sobresale Zephyr 7B y qué dominios podrían necesitar más mejoras. Por ejemplo, si la línea de Zephyr se extiende más en el eje de Escritura en comparación con otras, sugiere que Zephyr es particularmente fuerte en la generación de contenido escrito. Por el contrario, si la línea está más cerca del centro del eje matemático, puede indicar una relativa debilidad en la resolución de problemas matemáticos.

El gráfico de radar ayuda a identificar las fortalezas y debilidades de Zephyr 7B, proporcionando una representación visual de su posición frente a modelos más grandes como GPT-4 y modelos especializados como Llama-2-70b-chat.

Gráfico de radar de rendimiento del modelo

Comparando varios modelos de lenguaje en dos puntos de referencia: MT-Bench y AlpacaEval. Los modelos se evalúan en función de su tamaño, método de alineación (como dSFT para un ajuste fino supervisado destilado o dDPO para optimización de preferencia directa destilada) y puntuaciones de rendimiento. Zephyr se destaca con puntuaciones altas en ambos puntos de referencia, lo que indica su eficacia a la hora de generar respuestas alineadas.

MT-Bench y AlpacaEval

Conclusión

En conclusión, el desarrollo de Zephyr-7B demuestra que se puede lograr la alineación y destilación de las capacidades conversacionales de un modelo de lenguaje grande (LLM) a un modelo más pequeño sin depender de métodos basados en muestreo. Al emplear optimización de preferencias directas (DPO) con retroalimentación de IA, Zephyr-7B aprovecha la sólida base de Mistral-7B para establecer un nuevo punto de referencia para los modelos de chat de parámetros 7B, mostrando la capacidad de modelos más pequeños de código abierto para comprender y responder al usuario. intención de manera efectiva.

Sin embargo, este estudio no está exento de limitaciones. La dependencia de GPT-4 como evaluador de puntos de referencia introduce un sesgo hacia los modelos que se derivan de él, lo que potencialmente favorece respuestas más precisas. Además, la escalabilidad de este método a modelos más grandes, como LLAMA2-70B, y su impacto en las ganancias de rendimiento siguen siendo áreas para futuras investigaciones. Estas limitaciones resaltan la necesidad de una innovación continua y el desarrollo de métodos de evaluación imparciales en la comunidad de IA.

Más allá del estudio, es evidente que el potencial de los modelos más pequeños para funcionar al nivel de sus homólogos más grandes puede democratizar la IA, permitiendo un uso más accesible y eficiente en diversas aplicaciones. El éxito de Zephyr-7B fomenta una mayor exploración de modelos de código abierto, que pueden acelerar los avances en IA al fomentar la investigación y el desarrollo colaborativos.

Temas relacionados:GPT LLM Mistral 7B céfiro Céfiro-7B

Hasta la próxima

Las limitaciones físicas impulsan la evolución de la IA similar al cerebro

No Te Lo

Siete formas en que los centros de llamadas utilizan la IA para liberar tiempo para sus agentes y clientes

Aayush Mittal

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del aprendizaje automático y el aprendizaje profundo. Mi pasión y experiencia me han llevado a contribuir en más de 50 proyectos diversos de ingeniería de software, con un enfoque particular en AI/ML. Mi curiosidad constante también me ha atraído hacia el procesamiento del lenguaje natural, un campo que estoy ansioso por explorar más a fondo.