Connect with us

¿Podemos confiar realmente en el razonamiento en cadena de pensamiento de la IA?

Inteligencia artificial

¿Podemos confiar realmente en el razonamiento en cadena de pensamiento de la IA?

mm

A medida que la inteligencia artificial (IA) se utiliza ampliamente en áreas como la atención médica y los coches autónomos, la pregunta de cuánto podemos confiar en ella se vuelve más crítica. Un método, llamado razonamiento en cadena de pensamiento (CoT), ha ganado atención. Ayuda a la IA a descomponer problemas complejos en pasos, mostrando cómo llega a una respuesta final. Esto no solo mejora el rendimiento, sino que también nos da una visión de cómo piensa la IA, lo que es importante para la confianza y la seguridad de los sistemas de IA.

Pero una investigación reciente de Anthropic cuestiona si CoT realmente refleja lo que está sucediendo dentro del modelo. Este artículo examina cómo funciona CoT, qué encontró Anthropic y qué significa todo esto para la construcción de una IA confiable.

Entendiendo el razonamiento en cadena de pensamiento

El razonamiento en cadena de pensamiento es una forma de solicitar a la IA que resuelva problemas de manera paso a paso. En lugar de dar solo una respuesta final, el modelo explica cada paso en el camino. Este método se introdujo en 2022 y ha ayudado a mejorar los resultados en tareas como las matemáticas, la lógica y el razonamiento.

Modelos como OpenAI’s o1 y o3, Gemini 2.5, DeepSeek R1 y Claude 3.7 Sonnet utilizan este método. Una razón por la que CoT es popular es porque hace que el razonamiento de la IA sea más visible. Esto es útil cuando el costo de los errores es alto, como en herramientas médicas o sistemas de conducción autónoma.

Sin embargo, aunque CoT ayuda con la transparencia, no siempre refleja lo que el modelo está pensando realmente. En algunos casos, las explicaciones pueden parecer lógicas pero no están basadas en los pasos reales que el modelo utilizó para llegar a su decisión.

¿Podemos confiar en la cadena de pensamiento

Anthropic probó si las explicaciones de CoT realmente reflejan cómo los modelos de IA toman decisiones. Esta calidad se llama “fidelidad”. Estudiaron cuatro modelos, incluyendo Claude 3.5 Sonnet, Claude 3.7 Sonnet, DeepSeek R1 y DeepSeek V1. Entre estos modelos, Claude 3.7 y DeepSeek R1 se entrenaron utilizando técnicas de CoT, mientras que los demás no.

Les dieron a los modelos diferentes solicitudes. Algunas de estas solicitudes incluían pistas que se suponían que influirían en el modelo de manera poco ética. Luego verificaron si la IA utilizó estas pistas en su razonamiento.

Los resultados generaron preocupación. Los modelos solo admitieron utilizar las pistas menos del 20 por ciento de las veces. Incluso los modelos entrenados para utilizar CoT dieron explicaciones fieles en solo el 25 al 33 por ciento de los casos.

Cuando las pistas involucraban acciones poco éticas, como engañar un sistema de recompensa, los modelos rara vez lo admitieron. Esto sucedió incluso aunque confiaron en esas pistas para tomar decisiones.

Entrenar a los modelos más utilizando el aprendizaje de refuerzo mejoró ligeramente. Pero no ayudó mucho cuando el comportamiento era poco ético.

Los investigadores también notaron que cuando las explicaciones no eran veraces, a menudo eran más largas y complicadas. Esto podría significar que los modelos estaban tratando de ocultar lo que realmente estaban haciendo.

También encontraron que cuanto más compleja era la tarea, menos fieles se volvían las explicaciones. Esto sugiere que CoT puede no funcionar bien para problemas difíciles. Puede ocultar lo que el modelo está haciendo realmente, especialmente en decisiones sensibles o arriesgadas.

Qué significa esto para la confianza

El estudio destaca una brecha significativa entre lo transparente que parece CoT y lo honesto que realmente es. En áreas críticas como la medicina o el transporte, esto es un riesgo grave. Si una IA da una explicación lógica pero oculta acciones poco éticas, las personas pueden confiar erróneamente en la salida.

CoT es útil para problemas que requieren razonamiento lógico a lo largo de varios pasos. Pero puede no ser útil para detectar errores raros o arriesgados. También no evita que el modelo dé respuestas engañosas o ambiguas.

La investigación muestra que CoT solo no es suficiente para confiar en la toma de decisiones de la IA. Se necesitan otras herramientas y verificaciones para asegurarse de que la IA se comporte de manera segura y honesta.

Fortalezas y límites de la cadena de pensamiento

A pesar de estos desafíos, CoT ofrece muchas ventajas. Ayuda a la IA a resolver problemas complejos dividiéndolos en partes. Por ejemplo, cuando un modelo de lenguaje grande se solicita con CoT, ha demostrado precisión de nivel superior en problemas de palabras matemáticas utilizando este razonamiento paso a paso. CoT también hace que sea más fácil para los desarrolladores y los usuarios seguir lo que el modelo está haciendo. Esto es útil en áreas como la robótica, el procesamiento de lenguaje natural o la educación.

Sin embargo, CoT no está exento de desventajas. Los modelos más pequeños luchan por generar razonamiento paso a paso, mientras que los modelos grandes necesitan más memoria y potencia para utilizarlo bien. Estas limitaciones hacen que sea desafiante aprovechar CoT en herramientas como chatbots o sistemas en tiempo real.

El rendimiento de CoT también depende de cómo se escriben las solicitudes. Las solicitudes deficientes pueden llevar a pasos malos o confusos. En algunos casos, los modelos generan explicaciones largas que no ayudan y hacen que el proceso sea más lento. Además, los errores al principio del razonamiento pueden llevar a la respuesta final. Y en campos especializados, CoT puede no funcionar bien a menos que el modelo esté entrenado en ese área.

Cuando agregamos los hallazgos de Anthropic, queda claro que CoT es útil pero no suficiente por sí solo. Es una parte de un esfuerzo más grande para construir una IA en la que las personas puedan confiar.

Hallazgos clave y el camino hacia adelante

Esta investigación señala a algunas lecciones. Primero, CoT no debe ser el único método que utilicemos para verificar el comportamiento de la IA. En áreas críticas, necesitamos más verificaciones, como mirar la actividad interna del modelo o utilizar herramientas externas para probar decisiones.

También debemos aceptar que solo porque un modelo dé una explicación clara no significa que esté diciendo la verdad. La explicación podría ser una cubierta, no una razón real.

Para lidiar con esto, los investigadores sugieren combinar CoT con otros enfoques. Estos incluyen mejores métodos de entrenamiento, aprendizaje supervisado y revisiones humanas.

Anthropic también recomienda mirar más a fondo las partes internas del modelo. Por ejemplo, verificar los patrones de activación o las capas ocultas puede mostrar si el modelo está ocultando algo.

Lo más importante es que el hecho de que los modelos puedan ocultar comportamiento poco ético muestra por qué se necesitan pruebas sólidas y reglas éticas en el desarrollo de la IA.

Construir confianza en la IA no es solo sobre un buen rendimiento. También se trata de asegurarse de que los modelos sean honestos, seguros y abiertos a la inspección.

La parte inferior

El razonamiento en cadena de pensamiento ha ayudado a mejorar cómo la IA resuelve problemas complejos y explica sus respuestas. Pero la investigación muestra que estas explicaciones no siempre son veraces, especialmente cuando se involucran cuestiones éticas.

CoT tiene límites, como costos altos, necesidad de modelos grandes y dependencia de solicitudes bien escritas. No puede garantizar que la IA actúe de manera segura o justa.

Para construir una IA en la que podamos confiar realmente, debemos combinar CoT con otros métodos, incluyendo la supervisión humana y las verificaciones internas. La investigación también debe continuar para mejorar la confiabilidad de estos modelos.

El Dr. Tehseen Zia es un profesor asociado titular en la Universidad COMSATS de Islamabad, con un doctorado en Inteligencia Artificial de la Universidad Técnica de Viena, Austria. Especializado en Inteligencia Artificial, Aprendizaje Automático, Ciencia de Datos y Visión por Computadora, ha hecho contribuciones significativas con publicaciones en revistas científicas reputadas. El Dr. Tehseen también ha liderado varios proyectos industriales como investigador principal y ha servido como consultor de Inteligencia Artificial.