Inteligencia Artificial

Dentro del Phi-3 Mini de Microsoft: un modelo de IA liviano que supera su peso

Publicado May 1, 2024

Aayush Mittal Mittal

Microsoft ha presentado recientemente su último modelo de lenguaje liviano llamado Phi-3 Mini, dando inicio a un trío de modelos compactos de IA que están diseñados para ofrecer un rendimiento de última generación y al mismo tiempo son lo suficientemente pequeños como para ejecutarse de manera eficiente en dispositivos con recursos informáticos limitados. Con solo 3.8 millones de parámetros, Phi-3 Mini es una fracción del tamaño de gigantes de la IA como GPT-4, pero promete igualar sus capacidades en muchas áreas clave.

El desarrollo de la Phi-3 Mini representa un hito importante en la búsqueda de democratizar las capacidades avanzadas de IA haciéndolas accesibles en una gama más amplia de hardware. Su pequeño tamaño permite implementarlo localmente en teléfonos inteligentes, tabletas y otros dispositivos perimetrales, superando las preocupaciones de latencia y privacidad asociadas con los modelos basados en la nube. Esto abre nuevas posibilidades para experiencias inteligentes en el dispositivo en varios dominios, desde asistentes virtuales e inteligencia artificial conversacional hasta asistentes de codificación y tareas de comprensión de idiomas.

: Cuantizado de 4 bits phi-3-mini ejecutándose de forma nativa en un iPhone

Bajo el capó: arquitectura y formación

En esencia, Phi-3 Mini es un modelo de decodificador de transformador construido sobre una arquitectura similar a la del modelo Llama-2 de código abierto. Cuenta con 32 capas, 3072 dimensiones ocultas y 32 cabezales de atención, con una longitud de contexto predeterminada de 4,000 tokens. Microsoft también ha introducido una versión de contexto largo llamada Phi-3 Mini-128K, que extiende la longitud del contexto a unos impresionantes 128,000 tokens utilizando técnicas como LongRope.

Sin embargo, lo que distingue a Phi-3 Mini es su metodología de entrenamiento. En lugar de depender únicamente de la fuerza bruta de conjuntos de datos masivos y potencia informática, Microsoft se ha centrado en seleccionar un conjunto de datos de entrenamiento de alta calidad y denso en razonamiento. Estos datos se componen de datos web muy filtrados, así como de datos sintéticos generados por modelos de lenguaje más grandes.

El proceso de formación sigue un enfoque de dos fases. En la primera fase, el modelo se expone a una amplia gama de fuentes web destinadas a enseñarle conocimientos generales y comprensión del lenguaje. La segunda fase combina datos web aún más filtrados con datos sintéticos diseñados para impartir habilidades de razonamiento lógico y experiencia en un nicho de dominio.

Microsoft se refiere a este enfoque como el “régimen óptimo de datos”, una desviación del tradicional “régimen óptimo de cómputo” o “régimen de sobreentrenamiento” empleado por muchos modelos de lenguajes grandes. El objetivo es calibrar los datos de entrenamiento para que coincidan con la escala del modelo, proporcionando el nivel adecuado de conocimiento y capacidad de razonamiento y dejando suficiente capacidad para otras capacidades.

: Calidad de los nuevos modelos Phi-3, medido por el rendimiento en el punto de referencia Massive Multitask Language Understanding (MMLU)

Este enfoque centrado en los datos ha dado sus frutos, ya que Phi-3 Mini logra un rendimiento notable en una amplia gama de puntos de referencia académicos, a menudo rivalizando o superando a modelos mucho más grandes. Por ejemplo, obtiene una puntuación del 69% en el punto de referencia MMLU para aprendizaje y comprensión de tareas múltiples, y de 8.38 en el banco MT para razonamiento matemático, resultados que están a la par con modelos como Mixtral 8x7B y GPT-3.5.

Seguridad y Robustez

Además de su impresionante rendimiento, Microsoft ha priorizado la seguridad y la robustez en el desarrollo de Phi-3 Mini. El modelo se ha sometido a un riguroso proceso de postentrenamiento que incluye ajuste fino supervisado (SFT) y optimización de preferencia directa (DPO).

La etapa SFT aprovecha datos altamente seleccionados en diversos dominios, incluidas matemáticas, codificación, razonamiento, conversación, identidad de modelo y seguridad. Esto ayuda a reforzar las capacidades del modelo en estas áreas y al mismo tiempo inculca un fuerte sentido de identidad y comportamiento ético.

La etapa DPO, por otro lado, se centra en alejar el modelo de comportamientos no deseados mediante el uso de respuestas rechazadas como ejemplos negativos. Este proceso cubre datos en formato de chat, tareas de razonamiento y esfuerzos de IA responsable (RAI), garantizando que Phi-3 Mini cumpla con los principios de IA ética y confiable de Microsoft.

Para mejorar aún más su perfil de seguridad, Phi-3 Mini ha sido sometido a extensas pruebas automatizadas y de equipos rojos en docenas de categorías de daños RAI. Un equipo rojo independiente de Microsoft examinó iterativamente el modelo, identificando áreas de mejora, que luego se abordaron mediante conjuntos de datos seleccionados adicionales y reentrenamiento.

Este enfoque múltiple ha reducido significativamente la incidencia de respuestas dañinas, inexactitudes fácticas y sesgos, como lo demuestran los puntos de referencia RAI internos de Microsoft. Por ejemplo, el modelo muestra bajas tasas de defectos en la continuación de contenido dañino (0.75%) y resúmenes (10%), así como una baja tasa de falta de fundamento (0.603), lo que indica que sus respuestas están firmemente arraigadas en el contexto dado.

Aplicaciones y casos de uso

Con su impresionante rendimiento y sólidas medidas de seguridad, Phi-3 Mini es ideal para una amplia gama de aplicaciones, particularmente en entornos con recursos limitados y escenarios con latencia limitada.

Una de las perspectivas más interesantes es la implementación de asistentes virtuales inteligentes e inteligencia artificial conversacional directamente en dispositivos móviles. Al ejecutarse localmente, estos asistentes pueden proporcionar respuestas instantáneas sin necesidad de una conexión de red, al mismo tiempo que garantizan que los datos confidenciales permanezcan en el dispositivo, abordando las preocupaciones de privacidad.

Las sólidas capacidades de razonamiento del Phi-3 Mini también lo convierten en un activo valioso para la asistencia en codificación y la resolución de problemas matemáticos. Los desarrolladores y estudiantes pueden beneficiarse de la finalización de código, la detección de errores y las explicaciones en el dispositivo, lo que agiliza los procesos de desarrollo y aprendizaje.

Más allá de estas aplicaciones, la versatilidad del modelo abre oportunidades en áreas como la comprensión del lenguaje, el resumen de textos y la respuesta a preguntas. Su pequeño tamaño y eficiencia lo convierten en una opción atractiva para incorporar capacidades de IA en una amplia gama de dispositivos y sistemas, desde electrodomésticos inteligentes hasta sistemas de automatización industrial.

De cara al futuro: Phi-3 pequeño y Phi-3 mediano

Aunque Phi-3 Mini Aunque es un logro notable en sí mismo, Microsoft tiene planes aún mayores para la familia Phi-3. La compañía ya ha presentado dos modelos más grandes, Phi-3 Small (7 mil millones de parámetros) y Phi-3 Medium (14 mil millones de parámetros), y se espera que ambos superen los límites del rendimiento de los modelos de lenguaje compacto.

Phi-3 Small, por ejemplo, aprovecha un tokenizador más avanzado (tiktoken) y un mecanismo de atención de consultas agrupadas, junto con una novedosa capa de atención de bloques, para optimizar su uso de memoria y al mismo tiempo mantener un rendimiento de recuperación de contexto prolongado. También incorpora un 10% adicional de datos multilingües, mejorando sus capacidades de comprensión y generación de idiomas en múltiples idiomas.

Phi-3 Medium, por otro lado, representa un importante paso adelante en escala, con 40 capas, 40 cabezales de atención y una dimensión de incrustación de 5,120. Si bien Microsoft señala que algunos puntos de referencia pueden requerir un mayor refinamiento de la combinación de datos de entrenamiento para aprovechar plenamente esta mayor capacidad, los resultados iniciales son prometedores, con mejoras sustanciales con respecto a Phi-3 Small en tareas como MMLU, TriviaQA y HumanEval.

Limitaciones y direcciones futuras

A pesar de sus impresionantes capacidades, Phi-3 Mini, como todos los modelos lingüísticos, no está exento de limitaciones. Una de las debilidades más notables es su capacidad relativamente limitada para almacenar conocimiento fáctico, como lo demuestra su menor rendimiento en puntos de referencia como TriviaQA.

Sin embargo, Microsoft cree que esta limitación puede mitigarse aumentando el modelo con capacidades de motor de búsqueda, permitiéndole recuperar y razonar información relevante bajo demanda. Este enfoque se demuestra en el Interfaz de usuario de chat de cara de abrazo, donde Phi-3 Mini puede aprovechar la búsqueda para mejorar sus respuestas.

Otra área de mejora son las capacidades multilingües del modelo. Si bien Phi-3 Small ha dado pasos iniciales al incorporar datos multilingües adicionales, se necesita más trabajo para desbloquear completamente el potencial de estos modelos compactos para aplicaciones multilingües.

De cara al futuro, Microsoft se compromete a hacer avanzar continuamente la familia de modelos Phi, abordar sus limitaciones y ampliar sus capacidades. Esto puede implicar mayores mejoras en los datos y la metodología de entrenamiento, así como la exploración de nuevas arquitecturas y técnicas diseñadas específicamente para modelos de lenguaje compactos y de alto rendimiento.

Conclusión

El Phi-3 Mini de Microsoft representa un importante avance en la democratización de las capacidades avanzadas de IA. Al ofrecer un rendimiento de última generación en un paquete compacto y eficiente en el uso de recursos, abre nuevas posibilidades para experiencias inteligentes en el dispositivo en una amplia gama de aplicaciones.

El innovador enfoque de entrenamiento del modelo, que enfatiza datos de alta calidad y densos en razonamiento por encima del puro poder computacional, ha demostrado ser un punto de inflexión, permitiendo que Phi-3 Mini alcance un rendimiento muy superior a su categoría de peso. Combinada con sus sólidas medidas de seguridad y sus continuos esfuerzos de desarrollo, la familia de modelos Phi-3 está preparada para desempeñar un papel crucial en la configuración del futuro de los sistemas inteligentes, haciendo que la IA sea más accesible, eficiente y confiable que nunca.

A medida que la industria tecnológica continúa superando los límites de lo que es posible con la IA, el compromiso de Microsoft con modelos livianos y de alto rendimiento como Phi-3 Mini representa una refrescante desviación de la sabiduría convencional de que "cuanto más grande, mejor". Al demostrar que el tamaño no lo es todo, Phi-3 Mini tiene el potencial de inspirar una nueva ola de innovación centrada en maximizar el valor y el impacto de la IA a través de la conservación inteligente de datos, el diseño cuidadoso de modelos y prácticas de desarrollo responsables.

Temas relacionados:optimización de preferencias directas microsoft Fi fi-3 Phi-3 Mini ajuste supervisado

Hasta la próxima

Amazon informa ganancias récord en el primer trimestre de 1 y lanza Amazon Q Assistant

No Te Lo

El diálogo interno de la IA: cómo la autorreflexión mejora los chatbots y los asistentes virtuales

Aayush Mittal

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del aprendizaje automático y el aprendizaje profundo. Mi pasión y experiencia me han llevado a contribuir en más de 50 proyectos diversos de ingeniería de software, con un enfoque particular en AI/ML. Mi curiosidad constante también me ha atraído hacia el procesamiento del lenguaje natural, un campo que estoy ansioso por explorar más a fondo.

Unir.AI