Contáctenos

Dentro del Phi-3 Mini de Microsoft: un modelo de IA liviano que supera su peso

Inteligencia Artificial

Dentro del Phi-3 Mini de Microsoft: un modelo de IA liviano que supera su peso

mm
Phi-3: un modelo de lenguaje altamente capaz localmente en su teléfono

Microsoft ha presentado recientemente su último modelo de lenguaje liviano llamado Phi-3 Mini, dando inicio a un trío de modelos compactos de IA que están diseñados para ofrecer un rendimiento de última generación y al mismo tiempo son lo suficientemente pequeños como para ejecutarse de manera eficiente en dispositivos con recursos informáticos limitados. Con solo 3.8 millones de parámetros, Phi-3 Mini es una fracción del tamaño de gigantes de la IA como GPT-4, pero promete igualar sus capacidades en muchas áreas clave.

El desarrollo de la Phi-3 Mini representa un hito importante en la búsqueda de democratizar las capacidades avanzadas de IA haciéndolas accesibles en una gama más amplia de hardware. Su pequeño tamaño permite implementarlo localmente en teléfonos inteligentes, tabletas y otros dispositivos perimetrales, superando las preocupaciones de latencia y privacidad asociadas con los modelos basados ​​en la nube. Esto abre nuevas posibilidades para experiencias inteligentes en el dispositivo en varios dominios, desde asistentes virtuales e inteligencia artificial conversacional hasta asistentes de codificación y tareas de comprensión de idiomas.

Phi-4-mini cuantificado de 3 bits ejecutándose de forma nativa en un iPhone
Cuantizado de 4 bits phi-3-mini ejecutándose de forma nativa en un iPhone

Bajo el capó: arquitectura y formación

En esencia, Phi-3 Mini es un modelo de decodificador de transformador construido sobre una arquitectura similar a la del modelo Llama-2 de código abierto. Cuenta con 32 capas, 3072 dimensiones ocultas y 32 cabezales de atención, con una longitud de contexto predeterminada de 4,000 tokens. Microsoft también ha introducido una versión de contexto largo llamada Phi-3 Mini-128K, que extiende la longitud del contexto a unos impresionantes 128,000 tokens utilizando técnicas como LongRope.

Sin embargo, lo que distingue a Phi-3 Mini es su metodología de entrenamiento. En lugar de depender únicamente de la fuerza bruta de conjuntos de datos masivos y potencia informática, Microsoft se ha centrado en seleccionar un conjunto de datos de entrenamiento de alta calidad y denso en razonamiento. Estos datos se componen de datos web muy filtrados, así como de datos sintéticos generados por modelos de lenguaje más grandes.

El proceso de formación sigue un enfoque de dos fases. En la primera fase, el modelo se expone a una amplia gama de fuentes web destinadas a enseñarle conocimientos generales y comprensión del lenguaje. La segunda fase combina datos web aún más filtrados con datos sintéticos diseñados para impartir habilidades de razonamiento lógico y experiencia en un nicho de dominio.

Microsoft denomina a este enfoque "régimen óptimo de datos", una desviación del tradicional "régimen óptimo de cómputo" o "régimen de sobreentrenamiento" empleado por muchos modelos de lenguaje de gran tamaño. El objetivo es calibrar los datos de entrenamiento para que se ajusten a la escala del modelo, proporcionando el nivel adecuado de conocimiento y capacidad de razonamiento, y dejando espacio suficiente para otras funciones.

Calidad de los nuevos modelos Phi-3, medida por el rendimiento en el punto de referencia Massive Multitask Language Understanding (MMLU)
Calidad de los nuevos modelos Phi-3, medido por el rendimiento en el punto de referencia Massive Multitask Language Understanding (MMLU)

Este enfoque centrado en los datos ha dado sus frutos, ya que Phi-3 Mini logra un rendimiento notable en una amplia gama de puntos de referencia académicos, a menudo rivalizando o superando a modelos mucho más grandes. Por ejemplo, obtiene una puntuación del 69% en el punto de referencia MMLU para aprendizaje y comprensión de tareas múltiples, y de 8.38 en el banco MT para razonamiento matemático, resultados que están a la par con modelos como Mixtral 8x7B y GPT-3.5.

Seguridad y Robustez

Además de su impresionante rendimiento, Microsoft ha priorizado la seguridad y la robustez en el desarrollo de Phi-3 Mini. El modelo se ha sometido a un riguroso proceso de postentrenamiento que incluye ajuste fino supervisado (SFT) y optimización de preferencia directa (DPO).

La etapa SFT aprovecha datos altamente seleccionados de diversos dominios, como matemáticas, codificación, razonamiento, conversación, identidad del modelo y seguridad. Esto ayuda a reforzar las capacidades del modelo en estas áreas, a la vez que inculca un sólido sentido de identidad y un comportamiento ético.

La etapa de DPO, por otro lado, se centra en evitar que el modelo presente comportamientos indeseados utilizando las respuestas rechazadas como ejemplos negativos. Este proceso abarca datos en formato de chat, tareas de razonamiento y esfuerzos de IA responsable (RAI), garantizando que Phi-3 Mini se adhiera a los principios de IA ética y confiable de Microsoft.

Para mejorar aún más su perfil de seguridad, Phi-3 Mini ha sido sometido a extensas pruebas automatizadas y de equipos rojos en docenas de categorías de daños RAI. Un equipo rojo independiente de Microsoft examinó iterativamente el modelo, identificando áreas de mejora, que luego se abordaron mediante conjuntos de datos seleccionados adicionales y reentrenamiento.

Este enfoque multifacético ha reducido significativamente la incidencia de respuestas perjudiciales, inexactitudes factuales y sesgos, como lo demuestran los parámetros internos de RAI de Microsoft. Por ejemplo, el modelo presenta bajas tasas de errores en la continuación de contenido perjudicial (0.75 %) y en el resumen (10 %), así como una baja tasa de falta de fundamento (0.603), lo que indica que sus respuestas están firmemente arraigadas en el contexto dado.

Aplicaciones y casos de uso

Con su impresionante rendimiento y sólidas medidas de seguridad, Phi-3 Mini es ideal para una amplia gama de aplicaciones, particularmente en entornos con recursos limitados y escenarios con latencia limitada.

Una de las perspectivas más interesantes es la implementación de asistentes virtuales inteligentes e inteligencia artificial conversacional directamente en dispositivos móviles. Al ejecutarse localmente, estos asistentes pueden proporcionar respuestas instantáneas sin necesidad de una conexión de red, al mismo tiempo que garantizan que los datos confidenciales permanezcan en el dispositivo, abordando las preocupaciones de privacidad.

Las sólidas capacidades de razonamiento de Phi-3 Mini también lo convierten en un recurso valioso para la asistencia en la codificación y la resolución de problemas matemáticos. Desarrolladores y estudiantes pueden beneficiarse de la finalización de código, la detección de errores y las explicaciones en el dispositivo, lo que agiliza los procesos de desarrollo y aprendizaje.

Más allá de estas aplicaciones, la versatilidad del modelo abre oportunidades en áreas como la comprensión del lenguaje, el resumen de textos y la respuesta a preguntas. Su pequeño tamaño y eficiencia lo convierten en una opción atractiva para integrar capacidades de IA en una amplia gama de dispositivos y sistemas, desde electrodomésticos inteligentes hasta sistemas de automatización industrial.

De cara al futuro: Phi-3 pequeño y Phi-3 mediano

Aunque Phi-3 Mini Aunque es un logro notable en sí mismo, Microsoft tiene planes aún mayores para la familia Phi-3. La compañía ya ha presentado dos modelos más grandes, Phi-3 Small (7 mil millones de parámetros) y Phi-3 Medium (14 mil millones de parámetros), y se espera que ambos superen los límites del rendimiento de los modelos de lenguaje compacto.

Phi-3 Small, por ejemplo, aprovecha un tokenizador más avanzado (tiktoken) y un mecanismo de atención de consultas agrupadas, junto con una novedosa capa de atención de bloques, para optimizar su uso de memoria y al mismo tiempo mantener un rendimiento de recuperación de contexto prolongado. También incorpora un 10% adicional de datos multilingües, mejorando sus capacidades de comprensión y generación de idiomas en múltiples idiomas.

Phi-3 Medium, por otro lado, representa un importante paso adelante en escala, con 40 capas, 40 cabezales de atención y una dimensión de incrustación de 5,120. Si bien Microsoft señala que algunos puntos de referencia pueden requerir un mayor refinamiento de la combinación de datos de entrenamiento para aprovechar plenamente esta mayor capacidad, los resultados iniciales son prometedores, con mejoras sustanciales con respecto a Phi-3 Small en tareas como MMLU, TriviaQA y HumanEval.

Limitaciones y direcciones futuras

A pesar de sus impresionantes capacidades, Phi-3 Mini, como todos los modelos lingüísticos, no está exento de limitaciones. Una de las debilidades más notables es su capacidad relativamente limitada para almacenar conocimiento fáctico, como lo demuestra su menor rendimiento en puntos de referencia como TriviaQA.

Sin embargo, Microsoft cree que esta limitación puede mitigarse aumentando el modelo con capacidades de motor de búsqueda, permitiéndole recuperar y razonar información relevante bajo demanda. Este enfoque se demuestra en el Interfaz de usuario de chat de cara de abrazo, donde Phi-3 Mini puede aprovechar la búsqueda para mejorar sus respuestas.

Otra área de mejora son las capacidades multilingües del modelo. Si bien Phi-3 Small ha dado los primeros pasos al incorporar datos multilingües adicionales, es necesario seguir trabajando para aprovechar al máximo el potencial de estos modelos compactos para aplicaciones multilingües.

De cara al futuro, Microsoft se compromete a hacer avanzar continuamente la familia de modelos Phi, abordar sus limitaciones y ampliar sus capacidades. Esto puede implicar mayores mejoras en los datos y la metodología de entrenamiento, así como la exploración de nuevas arquitecturas y técnicas diseñadas específicamente para modelos de lenguaje compactos y de alto rendimiento.

Conclusión

El Phi-3 Mini de Microsoft representa un avance significativo en la democratización de las capacidades avanzadas de IA. Al ofrecer un rendimiento de vanguardia en un formato compacto y eficiente en el uso de recursos, abre nuevas posibilidades para experiencias inteligentes en dispositivos en una amplia gama de aplicaciones.

El innovador enfoque de entrenamiento del modelo, que prioriza datos de alta calidad y de alto razonamiento por encima de la mera capacidad computacional, ha demostrado ser revolucionario, permitiendo a Phi-3 Mini superar con creces su categoría. En combinación con sus robustas medidas de seguridad y su continuo desarrollo, la familia de modelos Phi-3 está preparada para desempeñar un papel crucial en la configuración del futuro de los sistemas inteligentes, haciendo que la IA sea más accesible, eficiente y fiable que nunca.

A medida que la industria tecnológica continúa ampliando los límites de lo posible con la IA, la apuesta de Microsoft por modelos ligeros y de alto rendimiento como el Phi-3 Mini representa una refrescante ruptura con la idea generalizada de que "cuanto más grande, mejor". Al demostrar que el tamaño no lo es todo, el Phi-3 Mini tiene el potencial de inspirar una nueva ola de innovación centrada en maximizar el valor y el impacto de la IA mediante la selección inteligente de datos, el diseño meticuloso de modelos y prácticas de desarrollo responsables.

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del aprendizaje automático y el aprendizaje profundo. Mi pasión y experiencia me han llevado a contribuir en más de 50 proyectos diversos de ingeniería de software, con un enfoque particular en AI/ML. Mi curiosidad constante también me ha atraído hacia el procesamiento del lenguaje natural, un campo que estoy ansioso por explorar más a fondo.