Inteligencia artificial
Cuando las pruebas de AI enseñan a los modelos a mentir

La alucinación de la IA — cuando un sistema produce respuestas que suenan correctas pero son en realidad incorrectas — sigue siendo uno de los desafíos más difíciles en la inteligencia artificial. Incluso los modelos más avanzados de hoy en día, como DeepSeek-V3, Llama, y las últimas versiones de OpenAI, todavía producen información inexacta con alta confianza. En áreas como la atención médica o la ley, estos errores pueden llevar a consecuencias graves.
Tradicionalmente, las alucinaciones se han considerado como un subproducto de cómo se entrenan los grandes modelos de lenguaje: aprenden a predecir la próxima palabra más probable sin verificar si la información es verdadera. Pero una nueva investigación sugiere que el problema puede no detenerse en el entrenamiento. Las pruebas utilizadas para probar y comparar el rendimiento de la IA pueden en realidad reforzar el comportamiento engañoso, recompensando las respuestas que suenan convincentes en lugar de las que son correctas.
Este cambio de perspectiva reformula el problema. Si los modelos están entrenados para complacer la prueba en lugar de decir la verdad, entonces las alucinaciones no son fallos accidentales, son estrategias aprendidas. Para ver por qué sucede esto, debemos mirar por qué los modelos de IA eligen adivinar en lugar de admitir su ignorancia.
Por qué los modelos de IA adivinan
Para ver por qué los modelos de IA a menudo adivinan en lugar de admitir que no saben, considera a un estudiante que enfrenta una pregunta difícil en un examen. El estudiante tiene dos opciones: dejar la respuesta en blanco y obtener cero puntos, o hacer una suposición educada que podría ganar algunos créditos. Racionalmente, adivinar parece la mejor opción porque hay al menos una posibilidad de estar en lo correcto.
Los modelos de IA enfrentan una situación similar durante la evaluación. La mayoría de las pruebas utilizan un sistema de puntuación binario: las respuestas correctas ganan puntos, mientras que las respuestas incorrectas o inciertas no ganan nada. Si a un modelo se le pregunta: “¿Cuál es el cumpleaños de un investigador?” y realmente no lo sabe, responder con “No lo sé” cuenta como un fracaso. Inventar una fecha, sin embargo, lleva alguna posibilidad de ser correcto — y incluso si está mal, el sistema no castiga la suposición confiada más que el silencio.
Esta dinámica explica por qué las alucinaciones persisten a pesar de la investigación extensiva para eliminarlas. Los modelos no se están portando mal; están siguiendo los incentivos incorporados en la evaluación. Aprenden que sonar confiado es la mejor manera de maximizar su puntuación, incluso cuando la respuesta es falsa. Como resultado, en lugar de expresar incertidumbre, los modelos están empujados a dar declaraciones autoritarias — correctas o incorrectas.
La base matemática de la deshonestidad de la IA
La investigación muestra que las alucinaciones surgen de los fundamentos matemáticos de cómo los modelos de lenguaje aprenden. Incluso si un modelo se entrenara solo con información perfectamente precisa, sus objetivos estadísticos aún llevarían a errores. Eso se debe a que generar la respuesta correcta es fundamentalmente más difícil que reconocer si una respuesta es válida.
Esto ayuda a explicar por qué los modelos a menudo fallan en hechos que carecen de patrones claros, como cumpleaños u otros detalles únicos. El análisis matemático sugiere que las tasas de alucinación en estos casos serán al menos tan altas como la fracción de hechos que aparecen solo una vez en los datos de entrenamiento. En otras palabras, cuanto más rara sea la información en los datos, más probable es que el modelo luche con ella.
El problema no se limita a hechos raros. Las limitaciones estructurales como la capacidad del modelo limitada o el diseño arquitectónico también producen errores sistemáticos. Por ejemplo, los modelos anteriores con ventanas de contexto muy cortas consistentemente fallaban en tareas que requieren razonamiento a largo plazo. Estos errores no eran fallos aleatorios, sino resultados predecibles del marco matemático del modelo.
Por qué el entrenamiento posterior no resuelve el problema
Una vez que un modelo de IA se entrena en conjuntos de datos de texto masivos, generalmente pasa por un ajuste fino para hacer que su salida sea más útil y menos perjudicial. Pero este proceso enfrenta el mismo problema fundamental que causa alucinaciones en primer lugar; la forma en que evaluamos los modelos.
Los métodos de entrenamiento más comunes, como aprendizaje de refuerzo a partir de retroalimentación humana, todavía dependen de pruebas que utilizan puntuación binaria. Estas pruebas recompensan a los modelos por dar respuestas confiadas mientras no ofrecen crédito cuando un modelo admite que no sabe. Como resultado, un sistema que siempre responde con certeza, incluso cuando está mal, puede superar a uno que admite honestamente su incertidumbre.
Los investigadores llaman a este problema la penalización de la incertidumbre. Incluso las técnicas avanzadas para detectar o reducir alucinaciones luchan cuando los benchmarks subyacentes continúan favoreciendo la sobreconfianza. En otras palabras, no importa cuán sofisticadas sean las soluciones, mientras los sistemas de evaluación recompensen las suposiciones confiadas, los modelos se inclinarán hacia respuestas incorrectas pero seguras en lugar de admisiones honestas de duda.
La ilusión del progreso
Las clasificaciones, ampliamente compartidas en la comunidad de IA, amplifican este problema. Pruebas como MMLU, GPQA, y SWE-bench dominan los artículos de investigación y los anuncios de productos. Las empresas resaltan sus puntuaciones para mostrar un progreso rápido. Sin embargo, como señala el informe, estas mismas pruebas fomentan la alucinación.
Un modelo que dice honestamente “No lo sé” puede ser más seguro en entornos del mundo real, pero se clasificará más bajo en la clasificación. En contraste, un modelo que fabrique respuestas convincentes pero falsas obtendrá una mejor puntuación. Cuando la adopción, la financiación y el prestigio dependen de las clasificaciones, la dirección del progreso se vuelve sesgada. El público ve una narrativa de mejora constante, pero debajo, los modelos están siendo entrenados para engañar.
Por qué la incertidumbre honesta es importante en la IA
Las alucinaciones no son solo un desafío de investigación; tienen consecuencias en el mundo real. En la atención médica, un modelo que fabrique interacciones de medicamentos podría engañar a los médicos. En la educación, uno que invente hechos históricos podría desinformar a los estudiantes. En el periodismo, un chatbot que produzca citas falsas pero convincentes podría difundir desinformación. Estos riesgos ya son visibles. El Índice de IA de Stanford 2025 informó que las pruebas diseñadas para medir alucinaciones han “luchado por ganar tracción”, incluso mientras la adopción de IA se acelera. Mientras tanto, las pruebas que dominan las clasificaciones y que recompensan respuestas confiadas pero poco fiables continúan estableciendo la dirección del progreso.
Estos hallazgos resaltan tanto un desafío como una oportunidad. Al examinar las raíces matemáticas de la alucinación, los investigadores han identificado direcciones claras para construir sistemas de IA más confiables. La clave es dejar de tratar la incertidumbre como un defecto y reconocerla como una capacidad esencial que debe ser medida y recompensada.
Este cambio de perspectiva tiene implicaciones más allá de reducir las alucinaciones. Los sistemas de IA que puedan evaluar y comunicar con precisión los límites de su propio conocimiento serían más adecuados para aplicaciones de alto riesgo donde la sobreconfianza conlleva riesgos serios. El diagnóstico médico, el análisis legal y la investigación científica todos requieren la capacidad de distinguir entre conocimiento confiado y especulación informada.
Reevaluando la evaluación para una IA honesta
Estos hallazgos resaltan que construir una IA más confiable requiere reevaluar cómo medimos la capacidad de la IA. En lugar de confiar en una puntuación simple de correcto o incorrecto, los marcos de evaluación deben recompensar a los modelos por expresar incertidumbre apropiadamente. Esto significa proporcionar orientación clara sobre umbrales de confianza y esquemas de puntuación correspondientes dentro de las instrucciones de las pruebas.
Un enfoque prometedor implica crear objetivos de confianza explícitos que especifiquen cuándo los modelos deben responder versus cuándo deben abstenerse. Por ejemplo, las instrucciones podrían establecer que las respuestas solo deben proporcionarse cuando la confianza supere un umbral específico, con la puntuación ajustada en consecuencia. En este conjunto, la incertidumbre ya no es una debilidad, sino una parte valiosa del comportamiento responsable.
La clave es hacer que los requisitos de confianza sean transparentes en lugar de implícitos. Las pruebas actuales crean penalizaciones ocultas por la incertidumbre que los modelos aprenden a evitar. Los objetivos de confianza explícitos permitirían a los modelos optimizar el comportamiento realmente deseado: respuestas precisas cuando estén seguros, y admisiones honestas de incertidumbre cuando el conocimiento sea escaso.
En resumen
Las alucinaciones de la IA no son fallos aleatorios — están reforzadas por las mismas pruebas utilizadas para medir el progreso. Al recompensar las suposiciones confiadas sobre la incertidumbre honesta, los sistemas de evaluación actuales empujan a los modelos hacia la decepción en lugar de la confiabilidad. Si queremos una IA que pueda ser confiable en dominios de alto riesgo como la atención médica, la ley y la ciencia, necesitamos reevaluar cómo los probamos y recompensamos. El progreso debe medirse no solo por la precisión, sino por la capacidad de reconocer y admitir lo que el modelo no sabe.












