Connect with us

Dentro de Microsoft’s Phi-3 Mini: Un modelo de inteligencia artificial ligero que supera su peso

Inteligencia artificial

Dentro de Microsoft’s Phi-3 Mini: Un modelo de inteligencia artificial ligero que supera su peso

mm
Phi-3 : A Highly Capable Language Model Locally on Your Phone

Microsoft ha presentado recientemente su último modelo de lenguaje ligero llamado Phi-3 Mini, iniciando una trilogía de modelos de inteligencia artificial compactos diseñados para ofrecer un rendimiento de vanguardia mientras son lo suficientemente pequeños como para ejecutarse de manera eficiente en dispositivos con recursos de computación limitados. Con solo 3.8 mil millones de parámetros, Phi-3 Mini es una fracción del tamaño de gigantes de la inteligencia artificial como GPT-4, y sin embargo, promete igualar sus capacidades en muchas áreas clave.

El desarrollo de Phi-3 Mini representa un hito significativo en la búsqueda de democratizar las capacidades avanzadas de inteligencia artificial al hacerlas accesibles en una gama más amplia de hardware. Su pequeña huella permite que se despliegue localmente en teléfonos inteligentes, tabletas y otros dispositivos de borde, superando la latencia y las preocupaciones de privacidad asociadas con los modelos basados en la nube. Esto abre nuevas posibilidades para experiencias inteligentes en dispositivos en varios dominios, desde asistentes virtuales y inteligencia artificial conversacional hasta asistentes de codificación y tareas de comprensión del lenguaje.

4-bit quantized phi-3-mini ejecutándose de forma nativa en un iPhone
4-bit quantized phi-3-mini ejecutándose de forma nativa en un iPhone

Detrás de la escena: Arquitectura y capacitación

En su núcleo, Phi-3 Mini es un modelo de decodificador de transformador construido sobre una arquitectura similar a la del modelo Llama-2 de código abierto. Cuenta con 32 capas, 3072 dimensiones ocultas y 32 cabezas de atención, con una longitud de contexto predeterminada de 4,000 tokens. Microsoft también ha introducido una versión de contexto largo llamada Phi-3 Mini-128K, que extiende la longitud del contexto a 128,000 tokens utilizando técnicas como LongRope.

Lo que distingue a Phi-3 Mini, sin embargo, es su metodología de capacitación. En lugar de confiar únicamente en la fuerza bruta de conjuntos de datos masivos y potencia de cómputo, Microsoft se ha centrado en curar un conjunto de datos de capacitación de alta calidad y denso en razonamiento. Este conjunto de datos está compuesto por datos web filtrados intensamente, así como datos sintéticos generados por modelos de lenguaje más grandes.

El proceso de capacitación sigue un enfoque de dos fases. En la primera fase, el modelo se expone a una amplia gama de fuentes web destinadas a enseñarle conocimiento general y comprensión del lenguaje. La segunda fase combina aún más datos web filtrados intensamente con datos sintéticos diseñados para impartir habilidades de razonamiento lógico y experiencia en nichos específicos.

Microsoft se refiere a este enfoque como el “régimen de datos óptimo”, una desviación del “régimen de cómputo óptimo” o “régimen de sobrecapacitación” empleado por muchos modelos de lenguaje grandes. El objetivo es calibrar los datos de capacitación para que coincidan con la escala del modelo, proporcionando el nivel adecuado de conocimiento y capacidad de razonamiento mientras deja capacidad suficiente para otras capacidades.

Calidad de los nuevos modelos Phi-3, medida por el rendimiento en el benchmark Massive Multitask Language Understanding (MMLU)
Calidad de los nuevos modelos Phi-3, medida por el rendimiento en el benchmark Massive Multitask Language Understanding (MMLU)

Este enfoque centrado en los datos ha dado sus frutos, ya que Phi-3 Mini logra un rendimiento notable en una amplia gama de benchmarks académicos, a menudo rivalizando o superando a modelos mucho más grandes. Por ejemplo, obtiene un 69% en el benchmark MMLU para aprendizaje y comprensión multitasca, y un 8,38 en el benchmark MT-bench para razonamiento matemático, resultados que están a la par con modelos como Mixtral 8x7B y GPT-3.5.

Seguridad y robustez

Junto con su impresionante rendimiento, Microsoft ha puesto un fuerte énfasis en la seguridad y la robustez en el desarrollo de Phi-3 Mini. El modelo ha pasado por un riguroso proceso de capacitación posterior que involucra ajuste fino supervisado (SFT) y optimización de preferencia directa (DPO).

La etapa SFT aprovecha datos altamente curados en una variedad de dominios, incluyendo matemáticas, codificación, razonamiento, conversación, identidad del modelo y seguridad. Esto ayuda a reforzar las capacidades del modelo en estas áreas mientras le inculca una fuerte sensación de identidad y comportamiento ético.

La etapa DPO, por otro lado, se centra en alejar al modelo de comportamientos no deseados utilizando respuestas rechazadas como ejemplos negativos. Este proceso cubre datos de formato de chat, tareas de razonamiento y esfuerzos de inteligencia artificial responsable (RAI), asegurando que Phi-3 Mini se adhiera a los principios de Microsoft de inteligencia artificial ética y confiable.

Para mejorar aún más su perfil de seguridad, Phi-3 Mini ha sido sometido a una amplia prueba de penetración y pruebas automatizadas en decenas de categorías de daño RAI. Un equipo de pruebas independiente en Microsoft examinó iterativamente el modelo, identificando áreas de mejora, que se abordaron mediante conjuntos de datos curados adicionales y una nueva capacitación.

Este enfoque multifacético ha reducido significativamente la incidencia de respuestas dañinas, inexactitudes factuales y sesgos, como se demuestra en los benchmarks internos de RAI de Microsoft. Por ejemplo, el modelo muestra tasas de defecto bajas para la continuación de contenido dañino (0,75%) y resumen (10%), así como una tasa baja de infundamento (0,603), lo que indica que sus respuestas están firmemente arraigadas en el contexto dado.

Aplicaciones y casos de uso

Con su impresionante rendimiento y medidas de seguridad robustas, Phi-3 Mini está bien equipado para una amplia gama de aplicaciones, particularmente en entornos con recursos limitados y escenarios con latencia.

Una de las perspectivas más emocionantes es el despliegue de asistentes virtuales inteligentes y inteligencia artificial conversacional directamente en dispositivos móviles. Al ejecutarse localmente, estos asistentes pueden proporcionar respuestas instantáneas sin necesidad de una conexión de red, mientras también garantizan que los datos sensibles permanezcan en el dispositivo, abordando las preocupaciones de privacidad.

Las sólidas habilidades de razonamiento de Phi-3 Mini también lo convierten en un activo valioso para la asistencia de codificación y la resolución de problemas matemáticos. Los desarrolladores y estudiantes pueden beneficiarse de la finalización de código en dispositivo, la detección de errores y las explicaciones, lo que agiliza los procesos de desarrollo y aprendizaje.

Más allá de estas aplicaciones, la versatilidad del modelo abre oportunidades en áreas como la comprensión del lenguaje, la resumen de texto y la respuesta a preguntas. Su pequeño tamaño y eficiencia lo convierten en una opción atractiva para integrar capacidades de inteligencia artificial en una amplia gama de dispositivos y sistemas, desde electrodomésticos inteligentes hasta sistemas de automatización industrial.

Mirando hacia adelante: Phi-3 Pequeño y Phi-3 Medio

Si bien Phi-3 Mini es un logro notable en sí mismo, Microsoft tiene planes aún más ambiciosos para la familia Phi-3. La empresa ya ha presentado dos modelos más grandes, Phi-3 Pequeño (7 mil millones de parámetros) y Phi-3 Medio (14 mil millones de parámetros), ambos de los cuales se espera que empujen los límites del rendimiento para modelos de lenguaje compactos.

Phi-3 Pequeño, por ejemplo, aprovecha un tokenizador más avanzado (tiktoken) y un mecanismo de atención de consulta agrupada, junto con una capa de atención blocksparse innovadora, para optimizar su huella de memoria mientras mantiene el rendimiento de recuperación de contexto largo. También incorpora un 10% adicional de datos multilingües, lo que mejora sus capacidades en la comprensión y generación de lenguaje en varios idiomas.

Phi-3 Medio, por otro lado, representa un paso significativo hacia arriba en escala, con 40 capas, 40 cabezas de atención y una dimensión de incrustación de 5,120. Si bien Microsoft señala que algunos benchmarks pueden requerir un refinamiento adicional de la mezcla de datos de capacitación para aprovechar al máximo esta mayor capacidad, los resultados iniciales son prometedores, con mejoras sustanciales sobre Phi-3 Pequeño en tareas como MMLU, TriviaQA y HumanEval.

Limitaciones y direcciones futuras

A pesar de sus capacidades impresionantes, Phi-3 Mini, como todos los modelos de lenguaje, no está exento de limitaciones. Una de las debilidades más notables es su capacidad relativamente limitada para almacenar conocimiento factual, como se evidencia en su menor rendimiento en benchmarks como TriviaQA.

Sin embargo, Microsoft cree que esta limitación se puede mitigar mediante la ampliación del modelo con capacidades de búsqueda, lo que le permite recuperar y razonar sobre información relevante a demanda. Este enfoque se demuestra en la interfaz de chat de Hugging Face, donde Phi-3 Mini puede aprovechar la búsqueda para mejorar sus respuestas.

Otra área de mejora es la capacidad multilingüe del modelo. Si bien Phi-3 Pequeño ha dado los primeros pasos incorporando datos multilingües adicionales, se necesita más trabajo para desbloquear completamente el potencial de estos modelos compactos para aplicaciones de lenguaje cruzado.

Mirando hacia adelante, Microsoft se compromete a seguir avanzando en la familia de modelos Phi, abordando sus limitaciones y expandiendo sus capacidades. Esto puede involucrar refinamientos adicionales en los datos de capacitación y la metodología, así como la exploración de nuevas arquitecturas y técnicas específicamente diseñadas para modelos de lenguaje compactos y de alto rendimiento.

Conclusión

El Phi-3 Mini de Microsoft representa un salto significativo en la democratización de las capacidades avanzadas de inteligencia artificial. Al ofrecer un rendimiento de vanguardia en un paquete compacto y eficiente en recursos, abre nuevas posibilidades para experiencias inteligentes en dispositivos en una amplia gama de aplicaciones.

El enfoque innovador de capacitación del modelo, que enfatiza datos de alta calidad y densos en razonamiento sobre la mera potencia de cómputo, ha demostrado ser un juego cambiatorio, permitiendo que Phi-3 Mini supere su peso. Combinado con sus medidas de seguridad robustas y esfuerzos de desarrollo en curso, la familia de modelos Phi-3 está en posición de desempeñar un papel crucial en la configuración del futuro de los sistemas inteligentes, haciendo que la inteligencia artificial sea más accesible, eficiente y confiable que nunca.

A medida que la industria tecnológica sigue empujando los límites de lo que es posible con la inteligencia artificial, el compromiso de Microsoft con modelos ligeros y de alto rendimiento como Phi-3 Mini representa una desviación refrescante de la sabiduría convencional de “más grande es mejor”. Al demostrar que el tamaño no es todo, Phi-3 Mini tiene el potencial de inspirar una nueva ola de innovación centrada en maximizar el valor y el impacto de la inteligencia artificial a través de la curación de datos inteligentes, el diseño de modelos reflexivos y prácticas de desarrollo responsables.

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del Aprendizaje Automático y el Aprendizaje Profundo. Mi pasión y experiencia me han llevado a contribuir a más de 50 proyectos de ingeniería de software diversos, con un enfoque particular en AI/ML. Mi curiosidad continua también me ha llevado hacia el Procesamiento de Lenguaje Natural, un campo que estoy ansioso por explorar más a fondo.