Inteligencia Artificial

Cómo Phi-4-Reasoning redefine el razonamiento de la IA al desafiar el mito de que "cuanto más grande, mejor".

Publicado 27 de Mayo de 2025

Dra. Tehseen Zia

El reciente lanzamiento de Microsoft de Razonamiento Phi-4 Desafía una suposición clave en la construcción de sistemas de inteligencia artificial capaces de razonar. Desde la introducción del razonamiento en cadena de pensamiento en 2022, los investigadores creían que el razonamiento avanzado requería modelos de lenguaje muy grandes con cientos de miles de millones de parámetros. Sin embargo, el nuevo modelo de 14 mil millones de parámetros de Microsoft, Phi-4-reasoning, cuestiona esta creencia. Utilizando un enfoque centrado en los datos en lugar de depender de la potencia computacional pura, el modelo logra un rendimiento comparable al de sistemas mucho más grandes. Este avance demuestra que un enfoque centrado en los datos puede ser tan eficaz para entrenar modelos de razonamiento como para el entrenamiento de IA convencional. Abre la posibilidad de que modelos de IA más pequeños logren un razonamiento avanzado al cambiar la forma en que los desarrolladores de IA entrenan los modelos de razonamiento, pasando de "cuanto más grande, mejor" a "cuanto mejores datos, mejor".

El paradigma del razonamiento tradicional

Razonamiento en cadena de pensamiento Se ha convertido en un estándar para la resolución de problemas complejos en inteligencia artificial. Esta técnica guía a los modelos lingüísticos mediante un razonamiento paso a paso, descomponiendo los problemas difíciles en pasos más pequeños y manejables. Imita el pensamiento humano al hacer que los modelos "piensen en voz alta" en lenguaje natural antes de dar una respuesta.

Sin embargo, esta capacidad tenía una limitación importante. Los investigadores consistentemente... fundada Que la inducción de cadenas de pensamiento solo funcionaba bien cuando los modelos lingüísticos eran muy grandes. La capacidad de razonamiento parecía estar directamente relacionada con el tamaño del modelo, ya que los modelos más grandes tenían un mejor rendimiento en tareas de razonamiento complejas. Este hallazgo generó competencia en la creación de grandes modelos de razonamiento, donde las empresas se centraron en convertir sus grandes modelos lingüísticos en potentes motores de razonamiento.

La idea de incorporar capacidades de razonamiento en los modelos de IA surgió principalmente de la observación de que los modelos de lenguaje grandes pueden realizar aprendizaje en contexto. Los investigadores observado Que cuando a los modelos se les muestran ejemplos de cómo resolver problemas paso a paso, aprenden a seguir este patrón para nuevos problemas. Esto llevó a la creencia de que los modelos más grandes, entrenados con datos extensos, desarrollan naturalmente un razonamiento más avanzado. La fuerte conexión entre el tamaño del modelo y el rendimiento del razonamiento se convirtió en una creencia aceptada. Los equipos invirtieron grandes recursos en escalar las capacidades de razonamiento utilizando aprendizaje reforzado, creyendo que el poder computacional era la clave para el razonamiento avanzado.

Entendiendo el enfoque centrado en datos

El auge de IA centrada en datos Desafía la mentalidad de "cuanto más grande, mejor". Este enfoque desplaza el enfoque de la arquitectura de modelos hacia la ingeniería cuidadosa de los datos utilizados para entrenar sistemas de IA. En lugar de tratar los datos como una entrada fija, la metodología centrada en datos los considera como material que puede mejorarse y optimizarse para optimizar el rendimiento de la IA.

Andrew Ng, un líder en este campo, promueve Desarrollar prácticas de ingeniería sistemáticas para mejorar la calidad de los datos, en lugar de limitarse a ajustar el código o escalar modelos. Esta filosofía reconoce que la calidad y la conservación de los datos a menudo... importa más que el tamaño del modelo. Las empresas que adoptan este enfoque demuestran que los modelos más pequeños y bien entrenados pueden superar a los más grandes si se entrenan con conjuntos de datos de alta calidad y cuidadosamente preparados.

El enfoque centrado en datos plantea una pregunta diferente: "¿Cómo podemos mejorar nuestros datos?", en lugar de "¿Cómo podemos ampliar el modelo?". Esto implica crear mejores conjuntos de datos de entrenamiento, mejorar la calidad de los datos y desarrollar una ingeniería de datos sistemática. En la IA centrada en datos, el enfoque se centra en comprender qué hace que los datos sean eficaces para tareas específicas, no solo en recopilar más.

Este enfoque ha demostrado ser muy prometedor en el entrenamiento de modelos de IA pequeños pero potentes utilizando conjuntos de datos reducidos y una computación mucho menor. Los modelos Phi de Microsoft son un buen ejemplo de entrenamiento de modelos de lenguaje pequeños con un enfoque centrado en los datos. Estos modelos se entrenan utilizando aprendizaje curricular que se inspira principalmente en cómo los niños aprenden con ejemplos cada vez más difíciles. Inicialmente, los modelos se entrenan con ejemplos fáciles, que luego se reemplazan gradualmente por otros más complejos. Microsoft creó un conjunto de datos a partir de libros de texto, como se explica en su artículo "Los libros de texto son todo lo que necesitas.” Esto ayudó fi-3 superar a modelos como Gemma de Google y GPT 3.5 en tareas como comprensión del lenguaje, conocimiento general, problemas de matemáticas de escuela primaria y respuesta a preguntas médicas.

A pesar del éxito del enfoque centrado en datos, el razonamiento, en general, se ha mantenido como una característica de los grandes modelos de IA. Esto se debe a que requiere patrones complejos y conocimiento que los modelos a gran escala capturan con mayor facilidad. Sin embargo, esta creencia ha sido cuestionada recientemente por el desarrollo del modelo de razonamiento Phi-4.

La estrategia innovadora del razonamiento Phi-4

El razonamiento Phi-4 muestra cómo un enfoque centrado en datos puede utilizarse para entrenar modelos de razonamiento pequeños. El modelo se construyó mediante un ajuste supervisado del modelo base Phi-4 con indicaciones didácticas cuidadosamente seleccionadas y ejemplos de razonamiento generados con o3-mini de OpenAI. Se priorizó la calidad y la especificidad, más que el tamaño del conjunto de datos. El modelo se entrena utilizando aproximadamente 1.4 millones de indicaciones de alta calidad en lugar de miles de millones de indicaciones genéricas. Los investigadores filtraron los ejemplos para cubrir diferentes niveles de dificultad y tipos de razonamiento, garantizando así la diversidad. Esta cuidadosa selección permitió que cada ejemplo de entrenamiento tuviera un propósito, enseñando al modelo patrones de razonamiento específicos, en lugar de simplemente aumentar el volumen de datos.

En el ajuste fino supervisado, el modelo se entrena con demostraciones de razonamiento completo que involucran el proceso de pensamiento completo. Estas cadenas de razonamiento paso a paso le ayudaron a aprender a construir argumentos lógicos y resolver problemas sistemáticamente. Para mejorar aún más su capacidad de razonamiento, se refina con aprendizaje de refuerzo en aproximadamente 6,000 problemas matemáticos de alta calidad con soluciones verificadas. Esto demuestra que incluso pequeñas dosis de aprendizaje de refuerzo enfocado pueden mejorar significativamente el razonamiento cuando se aplican a datos bien seleccionados.

Rendimiento más allá de las expectativas

Los resultados demuestran que este enfoque centrado en los datos funciona. El razonamiento Phi-4 supera a modelos de peso abierto mucho más grandes como DeepSeek-R1-Destilar-Llama-70B y casi coincide con el completo DeepSeek-R1A pesar de ser mucho más pequeño, en la prueba AIME 2025 (clasificatoria para las Olimpiadas de Matemáticas de EE. UU.) el razonamiento Phi-4 supera a DeepSeek-R1, que cuenta con 671 mil millones de parámetros.

Estos avances trascienden las matemáticas y abarcan la resolución de problemas científicos, la codificación, los algoritmos, la planificación y las tareas espaciales. Las mejoras derivadas de una cuidadosa selección de datos se trasladan fácilmente a los parámetros generales, lo que sugiere que este método desarrolla habilidades de razonamiento fundamentales en lugar de trucos específicos para cada tarea.

El razonamiento Phi-4 desafía la idea de que el razonamiento avanzado requiere una computación masiva. Un modelo de 14 mil millones de parámetros puede igualar el rendimiento de modelos decenas de veces mayores al entrenarse con datos cuidadosamente seleccionados. Esta eficiencia tiene importantes consecuencias para la implementación de la IA de razonamiento donde los recursos son limitados.

Implicaciones para el desarrollo de la IA

El éxito de Phi-4-reasoning marca un cambio en la forma de construir modelos de razonamiento de IA. En lugar de centrarse principalmente en aumentar el tamaño del modelo, los equipos pueden obtener mejores resultados invirtiendo en la calidad y la curación de datos. Esto facilita el razonamiento avanzado para organizaciones sin grandes presupuestos informáticos.

El método centrado en datos también abre nuevas vías de investigación. El trabajo futuro puede centrarse en encontrar mejores estímulos de entrenamiento, realizar demostraciones de razonamiento más completas y comprender qué datos contribuyen mejor al razonamiento. Estas direcciones podrían ser más productivas que simplemente construir modelos más grandes.

En términos más generales, esto puede ayudar a democratizar la IA. Si los modelos más pequeños, entrenados con datos seleccionados, pueden coincidir con los modelos grandes, la IA avanzada estará disponible para más desarrolladores y organizaciones. Esto también puede acelerar la adopción y la innovación de la IA en áreas donde los modelos muy grandes no son prácticos.

El futuro de los modelos de razonamiento

El razonamiento Phi-4 establece un nuevo estándar para el desarrollo de modelos de razonamiento. Es probable que los futuros sistemas de IA equilibren la gestión rigurosa de datos con mejoras arquitectónicas. Este enfoque reconoce la importancia de la calidad de los datos y el diseño del modelo, pero mejorar los datos podría generar ganancias más rápidas y rentables.

Esto también permite modelos de razonamiento especializados entrenados con datos específicos de cada dominio. En lugar de gigantes de propósito general, los equipos pueden crear modelos especializados que destaquen en campos específicos mediante la curación de datos específica. Esto generará una IA más eficiente para usos específicos.

A medida que la IA avanza, las lecciones del razonamiento Phi-4 influirán no solo en el entrenamiento de modelos de razonamiento, sino también en el desarrollo de la IA en general. El éxito de la curación de datos, superando los límites de tamaño, sugiere que el progreso futuro reside en combinar la innovación de modelos con la ingeniería de datos inteligente, en lugar de simplemente construir arquitecturas más grandes.