Inteligencia Artificial

El auge de los modelos de razonamiento pequeños: ¿puede la IA compacta igualar el razonamiento de nivel GPT?

Publicado 5 de Abril de 2025

Dra. Tehseen Zia

En los últimos años, el campo de la IA se ha visto cautivado por el éxito de los modelos de lenguaje grandes (LLM). Inicialmente diseñados para el procesamiento del lenguaje natural, estos modelos han evolucionado hasta convertirse en potentes herramientas de razonamiento capaces de abordar problemas complejos con un proceso de pensamiento paso a paso similar al humano. Sin embargo, a pesar de sus excepcionales capacidades de razonamiento, los LLM presentan importantes inconvenientes, como los altos costes computacionales y las bajas velocidades de implementación, lo que los hace poco prácticos para su uso en entornos con recursos limitados, como los dispositivos móviles o la computación en el borde. Esto ha generado un creciente interés en el desarrollo de modelos más pequeños y eficientes que puedan ofrecer capacidades de razonamiento similares, minimizando a la vez los costes y la demanda de recursos. Este artículo explora el auge de estos pequeños modelos de razonamiento, su potencial, sus retos y sus implicaciones para el futuro de la IA.

Un cambio de perspectiva

Durante gran parte de la historia reciente de la IA, este campo ha seguido el principio de las "leyes de escala", que sugiere que el rendimiento de los modelos mejora de forma predecible a medida que aumentan los datos, la potencia de cálculo y el tamaño del modelo. Si bien este enfoque ha generado modelos potentes, también ha conllevado importantes desventajas, como altos costos de infraestructura, impacto ambiental y problemas de latencia. No todas las aplicaciones requieren todas las capacidades de modelos masivos con cientos de miles de millones de parámetros. En muchos casos prácticos, como los asistentes en dispositivos, la atención médica y la educación, los modelos más pequeños pueden lograr resultados similares si pueden razonar eficazmente.

Comprender el razonamiento en IA

El razonamiento en IA se refiere a la capacidad de un modelo para seguir cadenas lógicas, comprender la causa y el efecto, deducir implicaciones, planificar los pasos de un proceso e identificar contradicciones. Para los modelos de lenguaje, esto suele implicar no solo recuperar información, sino también manipularla e inferirla mediante un enfoque estructurado y paso a paso. Este nivel de razonamiento se logra típicamente mediante el ajuste fino de los LLM para realizar un razonamiento de varios pasos antes de llegar a una respuesta. Si bien son eficaces, estos métodos requieren recursos computacionales considerables y su implementación puede ser lenta y costosa, lo que genera inquietudes sobre su accesibilidad e impacto ambiental.

Comprensión de modelos de razonamiento pequeños

Los modelos de razonamiento pequeños buscan replicar las capacidades de razonamiento de los modelos grandes, pero con mayor eficiencia en términos de potencia computacional, uso de memoria y latencia. Estos modelos suelen emplear una técnica llamada destilación del conocimiento, donde un modelo más pequeño (el "estudiante") aprende de un modelo más grande y preentrenado (el "profesor"). El proceso de destilación implica entrenar el modelo más pequeño con datos generados por el más grande, con el objetivo de transferir la capacidad de razonamiento. El modelo del estudiante se perfecciona posteriormente para mejorar su rendimiento. En algunos casos, aprendizaje reforzado Se aplica con funciones de recompensa especializadas y específicas del dominio para mejorar aún más la capacidad del modelo para realizar razonamientos específicos de la tarea.

El auge y los avances de los modelos de razonamiento pequeño

Un hito notable en el desarrollo de pequeños modelos de razonamiento llegó con el lanzamiento de DeepSeek-R1A pesar de entrenarse en un clúster relativamente modesto de GPU antiguas, DeepSeek-R1 logró un rendimiento comparable al de modelos más grandes, como el o1 de OpenAI, en pruebas de rendimiento como MMLU y GSM-8K. Este logro ha llevado a reconsiderar el enfoque de escalado tradicional, que asumía que los modelos más grandes eran inherentemente superiores.

El éxito de DeepSeek-R1 se puede atribuir a su innovador proceso de entrenamiento, que combinó el aprendizaje de refuerzo a gran escala sin depender del ajuste fino supervisado en las fases iniciales. Esta innovación condujo a la creación de DeepSeek-R1-CeroUn modelo que demostró una capacidad de razonamiento impresionante, en comparación con modelos de razonamiento más grandes. Mejoras adicionales, como el uso de datos de arranque en frío, optimizaron la coherencia del modelo y la ejecución de tareas, especialmente en áreas como matemáticas y programación.

Además, las técnicas de destilación han demostrado ser cruciales para desarrollar modelos más pequeños y eficientes a partir de modelos más grandes. Por ejemplo, DeepSeek ha publicado versiones destiladas de sus modelos, con tamaños que oscilan entre 1.5 y 70 XNUMX millones de parámetros. Utilizando estos modelos, los investigadores han entrenado un modelo comparativamente mucho más pequeño. DeepSeek-R1-Destilar-Qwen-32B que ha superado o1-mini de OpenAI En diversas pruebas de rendimiento. Estos modelos ahora se pueden implementar con hardware estándar, lo que los convierte en una opción más viable para una amplia gama de aplicaciones.

¿Pueden los modelos pequeños coincidir con el razonamiento a nivel GPT?

Para evaluar si los modelos de razonamiento pequeños (SRM) pueden igualar la capacidad de razonamiento de los modelos grandes (LRM) como GPT, es importante evaluar su rendimiento en puntos de referencia estándar. Por ejemplo, el modelo DeepSeek-R1. anotó alrededor de 0.844 en el Prueba MMLU, comparable a modelos más grandes como el o1. En el GSM-8K conjunto de datos, que se centra en las matemáticas de la escuela primaria, el modelo destilado de DeepSeek-R1 alcanzado Rendimiento de primer nivel, superando tanto al o1 como al o1-mini.

En tareas de codificación, como las de Banco de código en vivo CodeForcesModelos destilados de DeepSeek-R1 realizado De manera similar a o1-mini y GPT-4o, lo que demuestra una sólida capacidad de razonamiento en programación. Sin embargo, los modelos más grandes aún tienen un Edge en tareas que requieren una comprensión más amplia del lenguaje o el manejo de ventanas de contexto largas, ya que los modelos más pequeños tienden a ser más específicos de la tarea.

A pesar de sus fortalezas, los modelos pequeños pueden presentar dificultades en tareas de razonamiento extensas o al enfrentarse a datos desdistribuidos. Por ejemplo, en simulaciones de ajedrez LLM, DeepSeek-R1 cometió más errores que los modelos más grandes, lo que sugiere limitaciones en su capacidad para mantener la concentración y la precisión durante largos periodos.

Compensaciones e implicaciones prácticas

La relación entre el tamaño del modelo y el rendimiento es crucial al comparar los SRM con los LRM de nivel GPT. Los modelos más pequeños requieren menos memoria y potencia computacional, lo que los hace ideales para dispositivos de borde, aplicaciones móviles o situaciones donde se requiere inferencia offline. Esta eficiencia se traduce en menores costos operativos, con modelos como DeepSeek-R1 que alcanzan hasta el 96%. más barato para correr que modelos más grandes como el o1.

Sin embargo, estas mejoras de eficiencia conllevan ciertas desventajas. Los modelos más pequeños suelen estar optimizados para tareas específicas, lo que puede limitar su versatilidad en comparación con los modelos más grandes. Por ejemplo, si bien DeepSeek-R1 destaca en matemáticas y programación, carece de capacidades multimodales, como la capacidad de interpretar imágenes, que modelos más grandes como GPT-4o pueden manejar.

A pesar de estas limitaciones, las aplicaciones prácticas de los modelos de razonamiento a pequeña escala son amplias. En el ámbito sanitario, pueden impulsar herramientas de diagnóstico que analizan datos médicos en servidores hospitalarios estándar. En el ámbito educativo, pueden utilizarse para desarrollar sistemas de tutoría personalizados, proporcionando retroalimentación paso a paso a los estudiantes. En la investigación científica, pueden facilitar el análisis de datos y la comprobación de hipótesis en campos como las matemáticas y la física. El código abierto de modelos como DeepSeek-R1 también fomenta la colaboración y democratiza el acceso a la IA, permitiendo que las organizaciones más pequeñas se beneficien de tecnologías avanzadas.