Inteligencia artificial

Pequeño gigante: Presentando Phi-3 de Microsoft, el modelo de lenguaje que cabe en tu teléfono

Published April 29, 2024

Updated April 27, 2026

Dr. Tehseen Zia

En el campo en rápida evolución de la inteligencia artificial, mientras que la tendencia ha inclinado con frecuencia hacia modelos más grandes y complejos, Microsoft está adoptando un enfoque diferente con su Phi-3 Mini. Este modelo de lenguaje pequeño (SLM), ahora en su tercera generación, empaqueta las capacidades robustas de los modelos más grandes en un marco que se ajusta a las estrictas limitaciones de recursos de los teléfonos inteligentes. Con 3.8 mil millones de parámetros, el Phi-3 Mini coincide con el rendimiento de los modelos de lenguaje grande (LLM) en varias tareas, incluyendo el procesamiento del lenguaje, el razonamiento, la codificación y las matemáticas, y está diseñado para una operación eficiente en dispositivos móviles a través de la cuantización.

Desafíos de los modelos de lenguaje grande

El desarrollo de los SLM de Microsoft es una respuesta a los significativos desafíos que plantean los LLM, que requieren más potencia computacional de la que normalmente está disponible en los dispositivos de los consumidores. Esta alta demanda complica su uso en computadoras y dispositivos móviles estándar, plantea preocupaciones ambientales debido a su consumo de energía durante el entrenamiento y la operación, y arriesga perpetuar sesgos con sus grandes y complejos conjuntos de datos de entrenamiento. Estos factores también pueden afectar la respuesta de los modelos en aplicaciones en tiempo real y hacer que las actualizaciones sean más desafiantes.

Phi-3 Mini: Optimizando la IA en dispositivos personales para una mayor privacidad y eficiencia

El Phi-3 Mini está diseñado estratégicamente para ofrecer una alternativa rentable y eficiente para integrar la IA avanzada directamente en dispositivos personales como teléfonos y laptops. Este diseño facilita respuestas más rápidas y más inmediatas, mejorando la interacción del usuario con la tecnología en escenarios cotidianos.

El Phi-3 Mini permite que las funcionalidades de IA sofisticadas se procesen directamente en los dispositivos móviles, lo que reduce la dependencia de los servicios en la nube y mejora el manejo de datos en tiempo real. Esta capacidad es fundamental para aplicaciones que requieren el procesamiento de datos inmediato, como la atención médica móvil, la traducción de lenguaje en tiempo real y la educación personalizada, lo que facilita avances en estos campos. La eficiencia de costos del modelo no solo reduce los costos operativos, sino que también amplía el potencial para la integración de la IA en diversas industrias, incluyendo mercados emergentes como la tecnología wearable y la automatización del hogar. El Phi-3 Mini permite el procesamiento de datos directamente en los dispositivos locales, lo que mejora la privacidad del usuario. Esto podría ser vital para el manejo de información sensible en campos como la salud personal y los servicios financieros. Además, los bajos requisitos de energía del modelo contribuyen a operaciones de IA ambientalmente sostenibles, lo que se alinea con los esfuerzos globales de sostenibilidad.

Filosofía de diseño y evolución de Phi

La filosofía de diseño de Phi se basa en el concepto de aprendizaje curricular, que se inspira en el enfoque educativo en el que los niños aprenden a través de ejemplos cada vez más desafiantes. La idea principal es comenzar el entrenamiento de la IA con ejemplos más fáciles y aumentar gradualmente la complejidad de los datos de entrenamiento a medida que avanza el proceso de aprendizaje. Microsoft ha implementado esta estrategia educativa construyendo un conjunto de datos a partir de libros de texto, como se detalla en su estudio “Los libros de texto son todo lo que necesitas“. La serie Phi se lanzó en junio de 2023, comenzando con Phi-1, un modelo compacto que cuenta con 1.300 millones de parámetros. Este modelo demostró rápidamente su eficacia, particularmente en tareas de codificación en Python, donde superó a modelos más grandes y complejos. Basándose en este éxito, Microsoft desarrolló posteriormente Phi-1.5, que mantuvo la misma cantidad de parámetros pero amplió sus capacidades en áreas como el razonamiento común y la comprensión del lenguaje. La serie destacó con el lanzamiento de Phi-2 en diciembre de 2023. Con 2.700 millones de parámetros, Phi-2 mostró habilidades impresionantes en razonamiento y comprensión del lenguaje, posicionándolo como un fuerte competidor contra modelos significativamente más grandes.

Phi-3 vs. otros modelos de lenguaje pequeños

Ampliando sus predecesores, el Phi-3 Mini extiende los avances de Phi-2 superando a otros SLM, como Gemma de Google, Mistral de Mistral, Llama3-Instruct de Meta y GPT 3.5, en una variedad de aplicaciones industriales. Estas aplicaciones incluyen comprensión del lenguaje e inferencia, conocimiento general, razonamiento común, problemas de matemáticas de escuela primaria y respuesta a preguntas médicas, mostrando un desempeño superior en comparación con estos modelos. El Phi-3 Mini también se sometió a pruebas fuera de línea en un iPhone 14 para varias tareas, incluyendo la creación de contenido y la sugerencia de actividades personalizadas según la ubicación específica. Para este propósito, el Phi-3 Mini se condensó a 1,8 GB utilizando un proceso llamado cuantización, que optimiza el modelo para dispositivos con recursos limitados convirtiendo los datos numéricos del modelo de números de punto flotante de 32 bits a formatos más compactos como enteros de 4 bits. Esto no solo reduce la huella de memoria del modelo, sino que también mejora la velocidad de procesamiento y la eficiencia de energía, lo cual es vital para los dispositivos móviles. Los desarrolladores suelen utilizar marcos como TensorFlow Lite o PyTorch Mobile, que incorporan herramientas de cuantización integradas para automatizar y refinar este proceso.

Comparación de características: Phi-3 Mini vs. Phi-2 Mini

A continuación, comparamos algunas de las características de Phi-3 con su predecesor Phi-2.

Arquitectura del modelo: Phi-2 opera en una arquitectura basada en transformadores diseñada para predecir la próxima palabra. El Phi-3 Mini también emplea una arquitectura de decodificador de transformadores pero se alinea más estrechamente con la estructura del modelo Llama-2, utilizando el mismo tokenizador con un tamaño de vocabulario de 320.641. Esta compatibilidad garantiza que las herramientas desarrolladas para Llama-2 puedan adaptarse fácilmente para su uso con Phi-3 Mini.
Longitud de contexto: El Phi-3 Mini admite una longitud de contexto de 8.000 tokens, lo que es considerablemente más grande que los 2.048 tokens de Phi-2. Este aumento permite que el Phi-3 Mini maneje interacciones más detalladas y procese tramos de texto más largos.
Ejecución local en dispositivos móviles: El Phi-3 Mini se puede comprimir a 4 bits, ocupando aproximadamente 1,8 GB de memoria, similar a Phi-2. Se probó ejecutándolo fuera de línea en un iPhone 14 con un chip A16 Bionic, donde logró una velocidad de procesamiento de más de 12 tokens por segundo, lo que coincide con el rendimiento de Phi-2 en condiciones similares.
Tamaño del modelo: Con 3.800 millones de parámetros, el Phi-3 Mini tiene una escala más grande que Phi-2, que tiene 2.700 millones de parámetros. Esto refleja sus capacidades aumentadas.
Conjunto de datos de entrenamiento: A diferencia de Phi-2, que se entrenó en 1,4 billones de tokens, el Phi-3 Mini se ha entrenado en un conjunto mucho más grande de 3,3 billones de tokens, lo que le permite lograr una mejor comprensión de los patrones de lenguaje complejos.

Abordar las limitaciones del Phi-3 Mini

Si bien el Phi-3 Mini demuestra avances significativos en el ámbito de los modelos de lenguaje pequeños, no está exento de limitaciones. Una restricción principal del Phi-3 Mini, dada su menor tamaño en comparación con los modelos de lenguaje masivos, es su capacidad limitada para almacenar conocimiento factual extenso. Esto puede afectar su capacidad para manejar de forma independiente consultas que requieren una profundidad de datos o conocimiento experto específico. Sin embargo, esto se puede mitigar integrando el Phi-3 Mini con un motor de búsqueda. De esta manera, el modelo puede acceder a una gama más amplia de información en tiempo real, compensando efectivamente sus limitaciones de conocimiento inherentes. Esta integración permite que el Phi-3 Mini funcione como un conversador muy capaz que, a pesar de tener una comprensión integral del lenguaje y el contexto, puede necesitar “consultar” información para proporcionar respuestas precisas y actualizadas.

Disponibilidad

El Phi-3 ahora está disponible en varias plataformas, incluyendo Microsoft Azure AI Studio, Hugging Face y Ollama. En Azure AI, el modelo incorpora un flujo de trabajo de despliegue-evaluación-ajuste, y en Ollama, se puede ejecutar localmente en laptops. El modelo se ha adaptado para ONNX Runtime y admite Windows DirectML, garantizando que funcione bien en varios tipos de hardware como GPU, CPU y dispositivos móviles. Además, el Phi-3 se ofrece como un microservicio a través de NVIDIA NIM, equipado con una API estándar para una implementación fácil en diferentes entornos y optimizado específicamente para GPU de NVIDIA. Microsoft planea ampliar aún más la serie Phi-3 en el futuro cercano agregando los modelos Phi-3-small (7B) y Phi-3-medium (14B), brindando a los usuarios opciones adicionales para equilibrar calidad y costo.

En resumen

El Phi-3 Mini de Microsoft está dando pasos significativos en el campo de la inteligencia artificial al adaptar el poder de los modelos de lenguaje grande para su uso en dispositivos móviles. Este modelo mejora la interacción del usuario con los dispositivos a través de un procesamiento en tiempo real más rápido y características de privacidad mejoradas. Minimiza la necesidad de servicios basados en la nube, reduce los costos operativos y amplía el alcance para las aplicaciones de IA en áreas como la atención médica y la automatización del hogar. Con un enfoque en reducir los sesgos a través del aprendizaje curricular y mantener un rendimiento competitivo, el Phi-3 Mini se está convirtiendo en una herramienta clave para la IA móvil eficiente y sostenible, transformando sutilmente la forma en que interactuamos con la tecnología a diario.

Dr. Tehseen Zia

El Dr. Tehseen Zia es un profesor asociado titular en la Universidad COMSATS de Islamabad, con un doctorado en Inteligencia Artificial de la Universidad Técnica de Viena, Austria. Especializado en Inteligencia Artificial, Aprendizaje Automático, Ciencia de Datos y Visión por Computadora, ha hecho contribuciones significativas con publicaciones en revistas científicas reputadas. El Dr. Tehseen también ha liderado varios proyectos industriales como investigador principal y ha servido como consultor de Inteligencia Artificial.

Unite.AI

Pequeño gigante: Presentando Phi-3 de Microsoft, el modelo de lenguaje que cabe en tu teléfono

Desafíos de los modelos de lenguaje grande

Phi-3 Mini: Optimizando la IA en dispositivos personales para una mayor privacidad y eficiencia

Filosofía de diseño y evolución de Phi

Phi-3 vs. otros modelos de lenguaje pequeños

Comparación de características: Phi-3 Mini vs. Phi-2 Mini

Abordar las limitaciones del Phi-3 Mini

Disponibilidad

En resumen

You may like