Ángulo de Anderson

ChatGPT-5 y Gemini 2.5 producen alucinaciones en el 40% de las consultas de sala de redacción que se les plantean

mm
A robot journalist in a retro newsroom. SDXL, Flux Kontext Pro, Firefly 3, et al.

Un nuevo estudio encuentra que ChatGPT-5 y Google Gemini producen alucinaciones en el 40% de las consultas de estilo de sala de redacción, inventando frecuentemente afirmaciones que suenan confiadas pero no están sustentadas por hechos verificables. Google NotebookLM se desempeña mejor con solo el 13% – una tasa que aún así haría que cualquier periodista del mundo fuera despedido. El estudio encontró que los modelos distorsionan frecuentemente las fuentes al convertir opiniones en hechos y al eliminar la atribución, lo que los convierte en herramientas riesgosas para el periodismo. Los autores piden herramientas mejores y más dedicadas para estas tareas.

 

Los grandes modelos de lenguaje han visto una adopción rápida en el periodismo en tiempos recientes, en entornos de trabajo que han estado recortando costos, presupuestos y personal desde que el periodismo digital colapsó dos siglos de tradición en un proceso inexorable que comenzó a principios de la década de 2000.

De hecho, el terreno ya estaba listo, ya que los medios de comunicación se habían acostumbrado a recortar puestos de trabajo a través de la “innovación” desde al menos la introducción turbulenta de la composición digital en la década de 1980, así como los desafíos anteriores de la aparición de la radio y la televisión.

La entrada implacable de la IA en las salas de redacción y los medios de comunicación no ha estado exenta de contratiempos, sin embargo; en un contexto en el que el 55% de las empresas ahora se arrepiente de reemplazar a los humanos con la IA, y donde Gartner predice que las organizaciones reducirán drásticamente sus calendarios de adopción de la IA en dos años, una serie de organizaciones de noticias han vuelto a contratar a periodistas reemplazados por la IA, a medida que se hacen evidentes las graves y a menudo vergonzosas limitaciones de las alternativas de aprendizaje automático.

Errar no es solo humano

Aunque las alucinaciones han demostrado ser un problema enorme para los campos donde la citación precisa es esencial (con una atención pública notable para los casos de fracaso de la IA en los sectores jurídico, investigación y periodismo), un nuevo estudio estadounidense encuentra que el aprendizaje automático en el periodismo enfrenta desafíos más amplios de lo esperado.

La investigación de los autores evaluó ChatGPT, Google Gemini y el más enfocado en citación NotebookLM en una tarea de estilo de informe: utilizando un corpus de 300 documentos centrado en la litigación y la política de TikTok en los Estados Unidos.

Los investigadores variaron la especificidad de la solicitud y la cantidad de documentos proporcionados, y luego analizaron los resultados utilizando una taxonomía diseñada para capturar el tipo y la gravedad de las alucinaciones.

En todos los resultados, el 30% contenían al menos una alucinación, mientras que ChatGPT y Gemini cada uno mostraron una tasa de alucinación del 40% – un poco más de tres veces mayor que la tasa de error del 13% de NotebookLM.

En lugar de inventar hechos o entidades, los investigadores observan que los modelos a menudo exhiben confianza interpretativa, agregando caracterizaciones no respaldadas y convirtiendo opiniones atribuidas en declaraciones generales:

‘Cualitativamente, la mayoría de los errores no involucraban entidades inventadas o números; en cambio, observamos confianza interpretativa – los modelos agregaron caracterizaciones no respaldadas de las fuentes y transformaron opiniones atribuidas en declaraciones generales.

‘Estos patrones revelan una discrepancia epistemológica fundamental: mientras que el periodismo requiere fuentes explícitas para cada afirmación, los LLM generan texto que suena autoritario independientemente del apoyo evidente.

‘Proponemos extensiones específicas del periodismo para las taxonomías de alucinaciones existentes y argumentamos que las herramientas de sala de redacción efectivas necesitan arquitecturas que impongan una atribución precisa en lugar de optimizar la fluidez.’

El nuevo estudio, una lectura fascinante pero breve de cinco páginas, se titula No equivocado, pero no verdadero: la confianza excesiva de los LLM en consultas basadas en documentos, y proviene de tres investigadores de la Universidad Northwestern y la Universidad de Minnesota.

Teoría y método

La causa exacta de las alucinaciones* es objeto de debate en diferentes momentos; aunque casi todas las teorías coinciden en que la calidad de los datos y/o las distribuciones son un factor contribuyente en el momento del entrenamiento, incluso se ha propuesto que el 100% de la salida de los LLM es esencialmente una alucinación (excepto que algunas de esas alucinaciones coinciden con la realidad).

Los autores observan:

‘Desde una perspectiva técnica, las alucinaciones surgen de la capacidad de los LLM para generar texto que sigue patrones comunes sin poseer una comprensión de lo que es verdadero. Esta característica da como resultado respuestas plausibles que no reflejan la realidad – por ejemplo, la ley de caso fabricada por el LLM que llega a los argumentos.

‘Y mientras que las capacidades de los LLM han aumentado dramáticamente en los últimos cinco años, las alucinaciones siguen siendo un problema, en algunos casos incluso aumentando a medida que los modelos se vuelven más capaces.’

El sector de investigación, observa el documento, ha explorado una serie de formas de reducir o comprender mejor las alucinaciones de los LLM, que tienden a caer en tres áreas principales: primero, en contexto, los modelos pueden basarse en fuentes externas como bases de datos, colecciones de documentos o contenido web para respaldar sus afirmaciones.

Esto funciona bien cuando el material es confiable y completo, pero las lagunas, la información desactualizada o la mala calidad de los datos aún causan errores; y los modelos también tienen la costumbre de hacer declaraciones confiadas que van más allá de lo que las fuentes realmente dicen.

En segundo lugar, la solicitud y la decodificación se refiere al uso de instrucciones cuidadosas para guiar a los modelos. Esto puede involucrar pedir a los modelos que verifiquen su evidencia, dividir tareas en pasos más pequeños o seguir formatos más estrictos. A veces, los modelos incluso se dirigen a revisar su propio trabajo o comparar múltiples respuestas.

Estas técnicas pueden detectar errores, pero también aumentan los costos, y a menudo fallan al detectar errores sutiles; por lo tanto, sin una verificación de evidencia confiable, gran parte de la carga de verificación aún recae en el usuario.

En tercer lugar, modelos y herramientas se refiere a dar a los LLM acceso a recursos que pueden respaldar la verificación, como motores de búsqueda o calculadoras – aunque la precisión también puede mejorar cuando los modelos se entrenan con datos bien fundamentados o cuando se incorporan funciones de citación.

Sin embargo, estas medidas no son infalibles, y aún dependen de la calidad de las fuentes, la claridad de las directrices y la supervisión humana, para evitar que la información falsa se propague.

Tik Tok

Para descubrir qué enfoques podrían ser realmente útiles para los periodistas, el estudio llevó a cabo evaluaciones diseñadas para reflejar flujos de trabajo y estándares de sala de redacción reales, con alucinaciones examinadas en el contexto de tareas de informe típicas.

Los modelos de vanguardia se probaron utilizando estrategias de solicitud comunes y configuraciones de fundamentación de documentos, para que se pudieran medir tanto la frecuencia como el tipo de errores de alucinación – junto con lo que esos errores significan en realidad para la integración de la IA en las salas de redacción.

El análisis se centró en el tipo de consulta basada en documentos típica en el periodismo de investigación y periodismo de investigación. Los autores buscaron curar un corpus destinado a reflejar un proyecto de sala de redacción pequeño a mediano, pero que aún fuera lo suficientemente grande como para capturar la complejidad del periodismo del mundo real; con este fin, seleccionaron el esfuerzo legal en curso para prohibir TikTok en los Estados Unidos.

Los documentos se recopilaron de The Washington Post, The New York Times, ProQuest y Westlaw, lo que resultó en una colección de 300 documentos que comprende cinco artículos académicos, 150 artículos de noticias y 145 presentaciones legales (con la compilación completa disponible para los investigadores académicos a solicitud a través del repositorio del proyecto).

Dado que las respuestas de los LLM dependen en gran medida de cómo se formula la solicitud y cuánto contexto se proporciona, los autores diseñaron cinco consultas que van desde muy generales hasta muy específicas – desde preguntas generales sobre las prohibiciones de TikTok hasta solicitudes detalladas de testimonios de casos judiciales específicos.

La cantidad de documentos proporcionados a cada modelo varió en 10, 100 – o todos los 300, del corpus completo, con dos documentos clave incluidos en cada muestra, para garantizar la coherencia. Se produjeron 15 respuestas para cada modelo, excepto ChatGPT, que se limitó a 10 respuestas.

Contendientes

Se probaron tres herramientas, cada una reflejando un enfoque diferente para la consulta basada en documentos: ChatGPT-5 se evaluó utilizando la característica de proyectos, que limitó las cargas a 100 documentos; Google Gemini 2.5 Pro pudo procesar el corpus completo de 300 documentos en contexto (utilizando su ventana de contexto de un millón de tokens para ingerir directamente los 923,000 tokens); Google NotebookLM, que ofrece recuperación de citación incorporada, se probó utilizando cuadernos dedicados para cada muestra.

Mientras que estos métodos de manejo de documentos difieren, los tres representan herramientas reales actualmente disponibles para los periodistas; y en cualquier caso, el estado actual es más experimental que homogéneo, con una paridad de funciones y alcance que inevitablemente difiere entre las ofertas actuales.

Para capturar el rango de comportamientos de alucinación posibles, se utilizó una taxonomía de un trabajo anterior de 2023, con alucinaciones codificadas por orientación (distorsión vs. elaboración); categoría (tipo de error); y grado (gravedad calificada como leve, moderada o alarmante).

Todas las salidas del modelo se anotaron con un autor humano, que revisó cada oración y aplicó estos códigos. Los errores no cubiertos por la taxonomía se marcaron como misceláneos, y se analizaron posteriormente para desarrollar categorías específicas del periodismo.

Datos y pruebas

En la prueba inicial para la prevalencia de alucinaciones, 12 de 40 respuestas del modelo se encontraron que contenían al menos una alucinación, con una variación notable entre las herramientas. ChatGPT y Gemini cada uno produjeron alucinaciones en el 40% de sus salidas, mientras que NotebookLM produjo alucinaciones en solo el 13% de los casos:

Tasas generales de alucinación para cada herramienta, con Gemini y ChatGPT produciendo la proporción más alta de respuestas que contienen errores. Fuente: https://arxiv.org/pdf/2509.25498

Tasas generales de alucinación para cada herramienta, con Gemini y ChatGPT produciendo la proporción más alta de respuestas que contienen errores. Fuente: https://arxiv.org/pdf/2509.25498

De estos resultados, los autores comentan:

‘Esto indica que, si bien la mayoría de las respuestas en todas las herramientas no contienen alucinaciones, la elección de la herramienta sí hace una diferencia para el mismo corpus de documentos y conjunto de consultas.’

Las alucinaciones rara vez ocurren en aislamiento, observa el documento; Gemini promedió cuatro por respuesta defectuosa, NotebookLM tres, y ChatGPT 1,5. La mayoría fueron moderadas en gravedad, pero el 14% se clasificaron como alarmantes. En un caso, ChatGPT inventó un motivo de represalia detrás de una prohibición de TikTok que no aparecía en la fuente:

‘[En] una consulta, ChatGPT enmarcó una posible prohibición de TikTok como una medida recíproca por parte de los legisladores de EE. UU. en respuesta a la política china, una afirmación completamente ausente del documento de fuente citado.’

En general, el 64% de las respuestas que alucinaban introdujeron inexactitudes factuales o tangentes, lo que plantea dudas sobre si el uso de LLM realmente ahorra tiempo en este tipo de flujo de trabajo basado en información, al menos en el estado actual de la técnica.

En esta prueba inicial, la mayoría de las alucinaciones no encajaban en las categorías de taxonomía existentes, a menudo involucrando citas fabricadas o expansiones de acrónimos incorrectas, lo que sugiere que los marcos actuales pueden ser demasiado estrechos para los casos de uso del periodismo.

La tasa de alucinación más baja de NotebookLM, observan los autores, sugiere que su sistema RAG basado en citación proporciona una base más confiable que la característica de proyectos de ChatGPT o el procesamiento en contexto de Gemini, especialmente cuando se deben hacer referencia a documentos específicos.

En cuanto al estudio de las características cualitativas de las alucinaciones observadas en los resultados de la prueba, los investigadores observan que las alucinaciones se debieron no principalmente a hechos inventados, sino a exceso de interpretación:

‘Los modelos agregaron caracterizaciones confiadas sobre los propósitos de los documentos, las audiencias y las intenciones de los oradores que parecían autoritarias pero carecían de base en el texto real. Transformaron declaraciones tentativas o atribuidas en afirmaciones definitivas.’

La confianza excesiva tomó dos formas: primero, los modelos agregaron afirmaciones no respaldadas sobre el propósito o la audiencia de un documento, como etiquetar un artículo como “escrito para el público” o una presentación como “dirigida a abogados”.

En segundo lugar, convirtieron opiniones atribuidas en declaraciones que parecen hechos, ocultando la fuente original y socavando la evaluación de la fuente.

Estos comportamientos aparecieron en todas las herramientas y no se limitaron a una arquitectura – y la mayoría de los errores no fueron invenciones, sino interpretaciones excesivas.

La mayoría de las alucinaciones se etiquetaron como misceláneos, porque no encajaban en las categorías existentes, lo que difumina las diferencias clave entre los tipos de errores. Problemas frecuentes como la falta de atribución y las descripciones de fuentes vagas sugieren que las taxonomías actuales pasan por alto los tipos de errores que más importan en el periodismo, donde la citación clara es esencial.

Los autores observan que ‘Los modelos agregan análisis confiados que los documentos no respaldan y eliminan la atribución crucial.’

Conclusión

Cualquiera que haya experimentado con los tres modelos estudiados en el nuevo documento sabrá que cada uno tiene sus debilidades y fortalezas. Aunque NotebookLM se desempeña mucho mejor en citación que ChatGPT o Gemini, uno podría considerar que se construyó específicamente para esta funcionalidad, y aún así entrega una tasa de error que haría que la mayoría de los periodistas, investigadores o abogados fueran despedidos, con incidentes repetidos.

Además, NotebookLM, que se posiciona como un marco de investigación, carece de muchos de los refinamientos de UX que hacen que las otras dos plataformas sean una experiencia de escritura más fácil.

Sin embargo, al menos NotebookLM parece leer realmente los documentos subidos en lugar de caer en el hábito destructivo de ChatGPT de inferir lo que podría decir un documento subido, basándose en lo que sabe sobre la distribución general de documentos similares. Puede ser una lucha cuesta arriba lograr que cualquier versión de ChatGPT realice una lectura de texto completo de material subido, en lugar de confiar en los metadatos o en sus propias suposiciones/alucinaciones.

Para los campos donde la procedencia y los estándares de citación son críticos, como la ley, el periodismo y la investigación científica, parece que no hay instalaciones entrenadas de forma nativa en los LLM actuales que puedan mejorar su capacidad limitada para extraer y procesar información que el usuario les dirige.

Como están las cosas, y pendiente de la llegada de sistemas auxiliares que puedan ofrecer una mejor interfaz con los LLM que un simple prompt de sistema o ajuste de MCP, todo lo que estos sistemas produzcan para estos sectores críticos de la misión aún necesita ser verificado por esos humanos costosos, incómodos y, en general, molestos.

 

* Google Cloud ofrece una explicación razonablemente interesante y completa sobre el tema aquí.

Mi conversión de las citas en línea de los autores a hipervínculos.

Publicado por primera vez el miércoles 1 de octubre de 2025. Enmendado el jueves 2 de octubre para corregir un error en el resumen y enmendar un error estilístico en el primer párrafo.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.