Inteligencia artificial

Investigación revela que los LLMs recurren a un razonamiento simple cuando aumenta la complejidad

Published November 25, 2025

Updated April 1, 2026

Alex McFarland

Un equipo de investigadores publicó un estudio integral el 20 de noviembre analizando más de 192,000 trazas de razonamiento de modelos de lenguaje grande (LLMs), lo que revela que los sistemas de inteligencia artificial confían en estrategias lineales y poco profundas en lugar de los procesos cognitivos jerárquicos que los humanos emplean naturalmente.

El equipo de investigación examinó 18 modelos diferentes en tareas de razonamiento de texto, visión y audio, comparando sus enfoques con 54 trazas de pensamiento en voz alta de humanos recopiladas específicamente para el estudio. El análisis estableció una taxonomía de 28 elementos cognitivos que abarcan restricciones computacionales, controles meta-cognitivos, representaciones de conocimiento y operaciones de transformación, proporcionando un marco para evaluar no solo si los modelos producen respuestas correctas, sino cómo llegan a esas conclusiones.

Diferencias fundamentales en la arquitectura cognitiva

El razonamiento humano demuestra consistentemente una nesting jerárquica y un monitoreo meta-cognitivo, la capacidad de reflexionar y regular sus propios procesos de pensamiento. Los humanos organizan fluidamente la información en estructuras anidadas mientras rastrean activamente su progreso a través de problemas complejos.

Los LLMs utilizan principalmente una cadena de encadenamiento hacia adelante, moviéndose paso a paso a través de los problemas sin la organización jerárquica o la auto-reflexión que caracteriza la cognición humana. Esta divergencia se vuelve más pronunciada cuando las tareas están mal estructuradas o son ambiguas, donde la adaptabilidad humana supera significativamente los enfoques de la inteligencia artificial.

El estudio encontró que los modelos de lenguaje poseen los componentes de comportamiento asociados con un razonamiento exitoso, pero a menudo no los despliegan de forma espontánea. El rendimiento varía dramáticamente según el tipo de problema: el razonamiento de dilemas mostró la mayor variación, con modelos más pequeños que luchan significativamente, mientras que el razonamiento lógico mostró un rendimiento moderado, con modelos más grandes que generalmente superan a los más pequeños. Los modelos demuestran debilidades contraintuitivas, teniendo éxito en tareas complejas mientras fallan en variantes más simples.

Mejoras del rendimiento a través de la orientación del razonamiento

El equipo de investigación desarrolló una orientación de razonamiento en el momento de la prueba que estructura automáticamente las estructuras cognitivas exitosas, demostrando mejoras en el rendimiento de hasta un 66,7% en problemas complejos cuando los modelos están orientados a adoptar enfoques de razonamiento más similares a los humanos. Este hallazgo sugiere que los LLMs poseen capacidades latentes para un razonamiento más sofisticado, pero necesitan orientación explícita para emplearlos de manera efectiva.

La brecha entre el razonamiento humano y el de la inteligencia artificial se amplía a medida que aumenta la complejidad de la tarea. Mientras que los modelos pueden manejar problemas sencillos a través de la cadena de encadenamiento hacia adelante sola, luchan con las estrategias recursivas y de auto-monitoreo que los humanos despliegan naturalmente cuando se enfrentan a desafíos ambiguos o multi-capas.

El conjunto de datos público del estudio proporciona una línea de base para futuras investigaciones que comparan la inteligencia artificial y humana. Al mapear 28 elementos cognitivos distintos, el marco permite a los investigadores identificar exactamente dónde se rompe el razonamiento de la inteligencia artificial, en lugar de simplemente medir las puntuaciones de precisión.

Implicaciones para el desarrollo de la IA

Los hallazgos resaltan una limitación fundamental en los sistemas de inteligencia artificial actuales: la brecha entre la capacidad computacional y la sofisticación cognitiva genuina. Los modelos entrenados en conjuntos de datos masivos pueden coincidir con patrones para llegar a respuestas correctas en muchas tareas, pero carecen del pensamiento reflexivo y jerárquico que caracteriza la resolución de problemas humanos.

Esta investigación se basa en preocupaciones crecientes sobre limitaciones del razonamiento de la IA identificadas en múltiples dominios. La mejora del rendimiento a través de la orientación del razonamiento sugiere que mejores estrategias de orientación y modificaciones arquitectónicas podrían ayudar a los modelos a acceder a sus capacidades de razonamiento latentes de manera más efectiva.

La contribución más significativa del estudio puede ser su taxonomía detallada de elementos cognitivos, que proporciona a los investigadores y desarrolladores objetivos específicos de mejora. En lugar de tratar el razonamiento como una capacidad monolítica, el marco lo divide en componentes medibles que se pueden abordar individualmente a través de modificaciones de entrenamiento o técnicas de ingeniería de orientación.