Ángulo de Anderson
¿Por qué los modelos de lenguaje no pueden admitir que no conocen la respuesta?

Los modelos de lenguaje grande a menudo dan respuestas confiadas incluso cuando la pregunta no puede ser respondida. Una nueva investigación muestra que estos modelos a menudo reconocen el problema internamente, pero aún así siguen adelante y se inventan algo, lo que expone una brecha oculta entre lo que saben y lo que dicen.
Cualquiera que haya pasado un tiempo razonable con un modelo de lenguaje grande líder como ChatGPT o Qwen habrá experimentado ocasiones en las que el modelo proporciona una respuesta incorrecta (que puede o no haber tenido consecuencias catastróficas locales, dependiendo de cuánto se haya confiado en él) – y, cuando el error se hizo evidente, simplemente emitió una disculpa.
¿Por qué los modelos de lenguaje grande tienen tantas dificultades para admitir que no conocen la respuesta a una pregunta es un área de estudio pequeña pero en crecimiento. Una respuesta “confidentemente incorrecta” puede ser particularmente dañina desde una interfaz basada en API altamente censurada y filtrada como ChatGPT, porque dichos modelos bloquean agresivamente la entrada o salida de contenido NSFW o “que viola las reglas”.
Esto puede dar al usuario una falsa impresión de que el modelo es decisivo y cardinal, cuando en realidad la negativa provino de un heuristic o filtro basado en blocklist tradicional diseñado para limitar la exposición legal de la empresa anfitriona a cualquier precio, y no de ninguna intuición del modelo de lenguaje.

Del artículo de junio de 2025 ‘AbstentionBench’ de FAIR en Meta – a la izquierda, la figura destaca el rango de tipos de fallas capturadas en AbstentionBench, que prueba el comportamiento del modelo en más de 35,000 preguntas sin respuesta; en el medio, un ejemplo muestra cómo los modelos a menudo responden con respuestas inventadas en lugar de admitir que carecen de suficiente información; y a la derecha, la abstención de recuerdo disminuye cuando los modelos se ajustan para el razonamiento en lugar de seguir instrucciones. Fuente: https://arxiv.org/pdf/2506.09038
Un nuevo artículo de China sostiene que los modelos de lenguaje grande en realidad reconocen secretamente que no pueden responder a una pregunta planteada por el usuario, pero que, sin embargo, se sienten compelidos a producir algún tipo de respuesta, la mayoría de las veces, en lugar de tener suficiente confianza para decidir que una respuesta válida no está disponible debido a la falta de información del usuario, o las limitaciones del modelo, o por otras razones.
El artículo establece:
‘[Mostramos] que [los modelos de lenguaje grande] poseen capacidades cognitivas suficientes para reconocer los defectos en estas preguntas. Sin embargo, no exhiben un comportamiento de abstención apropiado, lo que revela una falta de alineación entre su cognición interna y su respuesta externa.’
Los investigadores han desarrollado un enfoque de dos etapas ligero que utiliza la monitorización cognitiva/sondeo para escanear el proceso interno del modelo de lenguaje grande en busca de indicios de que reconoce que no puede suministrar una respuesta; y luego interviene, para asegurarse de que la naturaleza “útil” del modelo no empeore los problemas del usuario al llevarlo por un camino ciego, o incluso destructivo.
El estudio utiliza preguntas matemáticas intencionalmente subespecificadas para probar si los modelos pueden reconocer cuándo una respuesta es inalcanzable; pero este diseño corre el riesgo de enmarcar la tarea como un “truco”. En realidad, los modelos enfrentan muchas razones más rutinarias para abstenerse en la conversación, desde la ambigüedad en la redacción, hasta lagunas en el conocimiento del dominio.
El nuevo trabajo se titula Responder lo inexplicable es equivocarse intencionalmente: Analizar y mitigar los fallos de abstención en modelos de razonamiento grande, y proviene de cuatro investigadores de todo el Laboratorio Estatal de Tecnología de Software Nueva y el Instituto Nacional de Ciencia de Datos de Salud de la Universidad de Nanjing.
Método
(Dado que no hay rivales apropiados para oponer al enfoque de los autores en las pruebas, y dado que el artículo sigue un formato ligeramente no convencional, así como no indexa sus citas al estándar habitual, intentaremos adherirnos a él lo mejor que podamos.)
En línea con enfoques anteriores, los autores se centraron en presentar a los modelos de lenguaje grande con preguntas matemáticas sin respuesta del conjunto de datos Synthetic Unanswerable Math (SUM) dataset, evaluando cinco familias de modelos: del rango DeepSeek, R1-Distill-Llama-8B; R1-Distill-Qwen-7B, R1-Distill-Qwen-14B; y, del serie Qwen, Qwen3-8B, así como Qwen3-14B.
Los problemas sin respuesta en SUM se crearon eliminando o corrompiendo elementos esenciales de cinco maneras: eliminar información clave; introducir ambigüedad; imponer condiciones poco realistas; hacer referencia a objetos no relacionados; o eliminar la pregunta por completo.
Posteriormente, se seleccionó una muestra de 1,000 de dichos casos para su análisis, con GPT-4o utilizado para generar explicaciones concisas que sirvieran como razones de verdad.
Las respuestas del modelo a preguntas sin respuesta se evaluaron utilizando prompts estandarizados con un presupuesto de 10,000 tokens, durante el cual se observaron tres patrones de comportamiento principales: en el primero, el modelo identificó la pregunta como insoluble y se abstuvo – generalmente respondiendo con una expresión explícita de incertidumbre; en el segundo, produjo una respuesta completa inventando información faltante, como introducir un cargo de manipulación de $9.99 para justificar un resultado final (ver imagen a continuación); En el tercero, denominado fijación cognitiva, el modelo se quedó atrapado en un bucle de razonamiento extendido, persistiendo con caminos de solución inválidos incluso después de reconocer implícitamente que la pregunta carecía de una respuesta viable:

Resultados de respuesta variables para una pregunta imposible.
El artículo presenta una tendencia en la que los modelos más grandes parecen abstenerse con más frecuencia de responder a preguntas sin respuesta, con disminuciones en respuestas inventadas y comportamientos de fijación:

Desglose de respuestas del modelo a problemas matemáticos sin respuesta, que muestra la frecuencia relativa de abstenciones correctas, respuestas inventadas y fijación cognitiva en diferentes escalas de modelo.
Sin embargo, este cambio es limitado en escala y deja una parte significativa de casos sin resolver a través de la abstención correcta, lo que sugiere que el aumento de la capacidad por sí solo no produce necesariamente un comportamiento más cauteloso.
Conciencia de estancamiento
Para probar si los modelos de lenguaje pueden detectar cuándo una pregunta en realidad no tiene respuesta, los investigadores interrumpieron la parte de razonamiento del modelo a mitad de camino y pidieron una respuesta final o una explicación de por qué la pregunta era inexplicable.
Para los casos en los que el modelo siguió razonando indefinidamente, lo detuvieron en la palabra ‘wait’, y solicitaron una respuesta; para los casos en los que el modelo inventó rápidamente una respuesta, insertaron una pausa en un límite de párrafo.

El gráfico de la izquierda muestra con qué frecuencia los modelos dan abstenciones correctas cuando se interrumpe su razonamiento, con tasas más altas para los casos de fijación que para las respuestas inventadas. El gráfico de la derecha muestra que la mayoría de los modelos pueden explicar por qué una pregunta es inexplicable cuando se les solicita, incluso si sus respuestas finales no reflejan esa comprensión.
En muchos de estos casos, el modelo dio una abstención correcta o una explicación clara, incluso si había producido una respuesta errónea anteriormente. Los autores sugieren que esto indica que el modelo a menudo reconoce el problema durante su razonamiento, pero no actúa sobre esa conciencia en su salida final.
Lectura de la mente de un modelo de lenguaje grande
Para probar si los modelos de lenguaje internamente rastrean si una pregunta es respondible, los investigadores entrenaron pequeños clasificadores en las activaciones ocultas del modelo durante el razonamiento, lo que les permitió comprobar si la distinción entre preguntas respondibles e inexplicables ya estaba presente en las señales internas del modelo – incluso si no se reflejaba en su salida final.
Basándose en la idea de que conceptos de alto nivel como veracidad o género pueden estar linealmente incrustados en las activaciones del modelo, se probó la “respondibilidad”* para una representación similar.
Se entrenaron clasificadores lineales simples (sondas) en las activaciones ocultas a través de diferentes capas del modelo, utilizando salidas de la mecanismo de atención multi-cabeza justo antes de la conexión residual.
Cada sonda se entrenó para distinguir entre preguntas respondibles e inexplicables, basándose en activaciones internas del proceso de razonamiento. La entrada consistió en 2,200 pares de preguntas muestreadas del conjunto de datos SUM, con 2,000 utilizadas para el entrenamiento y 200 para validación.
En el momento de la inferencia, la predicción del modelo se promedió a través de los tokens vistos hasta ese punto en la secuencia de razonamiento, lo que permitió a la sonda rastrear cómo surgían las señales de respuesta relacionadas con el tiempo:

Precisión de clasificación de las sondas lineales entrenadas para distinguir entre preguntas respondibles e inexplicables, medida en diferentes puntos del proceso de razonamiento. La precisión mejora generalmente a medida que avanza el razonamiento, con modelos más grandes alcanzando más del 85% en las etapas finales.
Como se muestra arriba, la precisión de la sonda mejora constantemente a medida que se desarrolla el razonamiento, con la mayoría de los modelos superando el 80% de precisión de clasificación en las etapas finales – lo que sugiere que, incluso cuando el comportamiento externo del modelo no refleja esto, las representaciones internas a menudo llevan una señal de respuesta clara que indica si una pregunta puede ser respondida.
Insistencia obstinada
Aunque los resultados anteriores sugieren que los modelos de lenguaje grande a menudo reconocen cuándo una pregunta no puede ser respondida, el artículo señala que aún tienden a seguir generando una respuesta en lugar de abstenerse.
Para investigar esta falta de alineación, los investigadores analizaron la confianza del modelo en abstenerse en puntos específicos durante el proceso de razonamiento, comparando la confianza del modelo en tres categorías de salida: abstención correcta; respuesta inventada; y fijación cognitiva.
Se utilizaron muestras de igual tamaño para cada categoría, con la confianza definida como la probabilidad media máxima asignada a cada token de salida a lo largo de los pasos de decodificación, basada en una formulación de trabajo anterior. Como se muestra en el gráfico a continuación, tanto las respuestas inventadas como los casos de fijación cognitiva mostraron una confianza de abstención más baja en comparación con la abstención correcta:

Niveles de confianza asociados con la producción de la respuesta de abstención ‘No lo sé’ en diferentes tipos de respuesta.
Los investigadores también midieron con qué frecuencia los modelos producían una respuesta ‘No lo sé’ durante el proceso de razonamiento. El gráfico a continuación indica que los casos de abstención correcta produjeron una frecuencia de abstención más alta, mientras que las otras dos categorías produjeron tales respuestas con menos frecuencia:

La frecuencia de respuestas ‘No lo sé’ observadas en los puntos de parada durante el razonamiento, mostrada para diferentes tipos de resultados de respuesta.
Estos hallazgos sugieren, según los autores, que aunque los modelos pueden detectar la inexplicabilidad internamente, a menudo carecen de la confianza para actuar sobre esa conciencia, lo que indica una preferencia persistente por completar la tarea en lugar de admitir incertidumbre.
Pruebas
Basándose en estos hallazgos, los investigadores desarrollaron un método de dos partes diseñado para mejorar la abstención. La primera etapa, la monitorización cognitiva, rastrea los estados ocultos del modelo durante la inferencia, segmentando su proceso de razonamiento en unidades naturales como cláusulas o pausas, marcadas por palabras como ‘wait’.
Al final de cada segmento, una sonda lineal ligera entrenada en señales internas vinculadas a la respuesta, estima la probabilidad de que la pregunta no pueda ser respondida. Si esta probabilidad cruza un umbral establecido, el proceso pasa a la segunda etapa: una intervención en el momento de la inferencia que dirige al modelo hacia la abstención, en lugar de inventar una respuesta.
Cuando el modelo muestra señales internas de que una pregunta no puede ser respondida, el razonamiento se interrumpe con una intervención que refuerza esta conciencia y aumenta la probabilidad de abstención. Como se muestra a continuación, la intervención representa una ‘guía de prompt’ que recuerda al modelo que la pregunta puede carecer de una respuesta válida:

Un prompt para condicionar la intervención en el momento de la inferencia.
El método también incorpora un mecanismo de salida temprana que evita que la secuencia de razonamiento continúe innecesariamente, alentando al modelo a considerar la abstención como una opción legítima y a veces preferible.
Para una fase de prueba, los investigadores utilizaron dos conjuntos de datos: Unanswerable Math Word Problem (UMWP) , y el mencionado anteriormente SUM.
El conjunto de prueba de SUM se utilizó para este propósito, que contiene 284 preguntas sin respuesta y 284 preguntas respondibles verificadas manualmente. UMWP se construyó a partir de cuatro fuentes de problemas de palabras matemáticas: SVAMP; MultiArith; Grade School Math (GSM8K); y ASDiv.
El conjunto de datos completo comprende 5,200 problemas, con 600 muestreados para pruebas, divididos equitativamente entre preguntas sin respuesta y preguntas respondibles. Para los elementos sin respuesta en UMWP, GPT-4o generó las explicaciones de verdad de por qué no podían ser resueltos.
Métricas
El rendimiento del modelo se midió utilizando cuatro métricas: tasa de abstención, la proporción de preguntas sin respuesta en las que el modelo se abstiene correctamente respondiendo “No lo sé”, como se le instruyó; precisión de razonamiento, el porcentaje de preguntas sin respuesta en las que el modelo da una explicación válida de por qué la pregunta no puede ser resuelta; uso de tokens, que detalla la cantidad de tokens generados durante el razonamiento; y precisión de respuesta, la proporción de preguntas respondibles en las que el modelo produce la solución final correcta.
Pruebas de referencia
Dado que no existen referencias estándar para este problema, los investigadores compararon su método con dos alternativas, Dynasor-CoT y Salida temprana dinámica en modelos de razonamiento (DEER), sobre la suposición de que la abstención correcta debe tratarse como la respuesta correcta cuando una pregunta no tiene solución.
Dynasor-CoT hace que los modelos produzcan respuestas intermedias y se detiene una vez que el mismo resultado aparece tres veces en sucesión, mientras que DEER monitorea la confianza a nivel de oración y detiene el razonamiento una vez que se alcanza un umbral.
Una tercera referencia, llamada Vanilla, se refiere a las salidas del modelo sin modificar. Las pruebas utilizaron las cinco variantes de Qwen y DeepSeek mencionadas anteriormente.
Los resultados agregados se ilustran a continuación:

Comparación de diferentes métodos en preguntas respondibles y sin respuesta en modelos de razonamiento grande, con los valores más altos en cada columna en negrita. Consulte el artículo original para una mejor resolución.
El nuevo enfoque produjo las tasas más altas de abstención y razonamiento preciso en preguntas sin respuesta. Para las preguntas respondibles, la precisión permaneció cerca de la de los modelos vanilla y, a veces, mejoró, lo que sugiere que la resolución de problemas normal no se vio perjudicada.
El uso de tokens también disminuyó en un 30% a 50% en los casos sin respuesta y disminuyó ligeramente en los casos respondibles, lo que indica una mayor eficiencia.
También se encontró una relación entre la tasa de abstención y la precisión de razonamiento, ya que los modelos que se abstuvieron con más frecuencia también dieron mejores explicaciones, lo que los autores interpretan como una mejora en la calidad del razonamiento.
Los modelos Qwen3 generalmente superaron a las versiones de distilación (cuantificadas), mientras que los modelos más grandes mostraron una mayor capacidad de abstención, lo que indica que tanto la arquitectura como la escala son importantes para la detección confiable de inexplicabilidad.
Finalmente, los autores informan que su nuevo método reduce las respuestas inventadas y la fijación mientras aumenta la tasa de abstenciones correctas, mientras que los enfoques de referencia que dependen solo de ‘salidas tempranas’ a veces conducen a más respuestas inventadas.
También informan ganancias en la confianza y la frecuencia de respuestas “No lo sé”, con el monitoreo basado en señales latentes que resulta más efectivo que las estrategias que dependen de señales de comportamiento.
Conclusión
La incapacidad de los modelos de lenguaje grande para abstenerse de responder a una consulta cuando es necesario es uno de los principales puntos de fricción en la experiencia del usuario de la inteligencia artificial generativa, no solo porque otros caprichos de la interfaz dan al usuario la ilusión de que el modelo de lenguaje es capaz de respuestas circunspectas, cuando – al menos por ahora – generalmente no es así.
Una preocupación sobre cualquier tipo de intervención directa que no proceda directamente del ‘carácter’ del modelo es que puede ser sobreutilizada o subutilizada, dependiendo de si las activaciones detectadas son en realidad relevantes para que el modelo admita la derrota.
Además, el costo logístico del monitoreo de la sonda lineal no es probable que sea insignificante, y es posible que los métodos heurísticos más simples, similares a los que controlan el contenido prohibido para los usuarios, puedan ser una solución más asequible, si los disparadores de ancla pueden definirse adecuadamente.
* Naturalmente, esto no se ajusta al sinónimo aparente ‘rendición de cuentas’, sino que define si una pregunta en particular puede ser respondida en absoluto.
Publicado por primera vez el miércoles 27 de agosto de 2025












