Ángulo de Anderson

Cómo colar papeles científicos absurdos pasados los revisores de IA

Published October 22, 2025

Updated May 17, 2026

Martin Anderson

An industrial robot at an AI paper mill, stamping 'ACCEPTED' onto spurious and impossible academic research papers, including papers on perpetual motion and alchemy. ChatGPT-4o; Adobe Firefly V3; et al.

Nueva investigación demuestra cómo los sistemas de IA pueden escribir papeles científicos falsos que otros sistemas de IA aceptan como reales, evadiendo las rutinas de detección que antes funcionaban, y exponiendo cómo fácilmente el mundo de la investigación podría colapsar en bots que engañan a otros bots.

El sector de la investigación académica, irónicamente la vanguardia de la innovación en IA, se encuentra en medio de una crisis de credibilidad que en sí misma está impulsada por la IA. El impacto del aprendizaje automático en el proceso de investigación, presentación y revisión ha sido considerable desde que se hizo evidente el impacto de la IA hace unos cuatro años, con la última controversia siendo la generación masiva de papeles de encuestas de bajo valor.

Junta con gran parte del sector académico más amplio, el sector de la investigación está involucrado en una especie de guerra fría entre las IA que generan texto, como ChatGPT y la serie Claude, y la última generación de IA “detectores” que pueden identificar su salida sin (generalmente) manchar a los estudiantes o científicos con falsos positivos.

Estas tensiones están a punto de aumentar, junto con el volumen de presentaciones científicas, que está aumentando radicalmente, impulsado por sistemas y marcos de IA; y requiriendo la industrialización de IA de los procesos de supervisión para (con suerte) filtrar cualquier presentación que sea puramente el trabajo de la IA.

Bienvenido el conocimiento falso

Una nueva colaboración de investigación entre EE. UU. y Arabia Saudita investiga hasta qué punto este “cortafuegos” emergente de detección de IA puede ser penetrado por papeles de presentación completamente generados por IA, cuando esos papeles aprovechan algunos trucos convincentes adicionales.

En las pruebas, el nuevo sistema, llamado BadScientist, fue capaz de lograr tasas de aceptación de hasta el 82% de los sistemas LLM basados en la detección de contenido generado por IA en papeles de investigación científica:

El sistema BadScientist utiliza un agente de IA para generar papeles científicos falsos y otro para revisarlos utilizando modelos de lenguaje actuales. Fuente: https://arxiv.org/pdf/2510.18003

Los papeles falsos se generaron utilizando temas de conferencia de IA reales y estrategias engañosas, y luego se revisaron con modelos calibrados en datos de revisión por pares, incluyendo GPT-5 para comprobaciones de integridad. Muchos recibieron puntuaciones altas a pesar de contener errores o invenciones claras.

La publicación del papel coincide con la Conferencia Abierta de Agentes de IA para la Ciencia 2025 en Stanford, donde los asistentes y oradores son humanos, pero todos los papeles están escritos y revisados por sistemas de IA diversos.

BadScientist, el nuevo papel explica, utiliza diversas formas de engaños académicos y literarios, omisiones, invenciones y exageraciones para reponderar el papel lejos de cualquier cosa que la mayoría de los sistemas de detección actuales puedan reconocer como generado por IA; y examinaremos estas categorías pronto.

Los autores señalan, en un tono de alarma, que incluso cuando los sistemas de detección identifican contenido de IA en un papel falso, tienen tendencia a dejarlo pasar de todos modos, y agregan que sus propios intentos de inmunizar los sistemas de defensa contra este nuevo vector de ataque lograron apenas más que mejoras aleatorias.

El papel establece:

‘Los papeles fabricados logran tasas de aceptación altas, con revisores que frecuentemente exhiben conflictos de aceptación-preocupación—marcando problemas de integridad y aún así recomendando aceptación. Esta ruptura fundamental revela que los revisores de IA actuales operan más como coincidentes de patrones que como evaluadores críticos.

‘[…] Simplemente pedir a los revisores LLM que “sean más cuidadosos” es insuficiente. La comunidad científica enfrenta una elección urgente. Sin acción inmediata para implementar salvaguardias de defensa en profundidad—incluyendo verificación de procedencia, puntuación con ponderación de integridad y supervisión humana obligatoria—corremos el riesgo de bucles de publicación de IA donde las falsificaciones sofisticadas abrumen nuestra capacidad para distinguir la investigación genuina de las contrapartes convincentes.

‘La integridad del conocimiento científico en sí está en juego.’

El nuevo papel se titula BadScientist: ¿Puede un agente de investigación escribir papeles convincentes pero insanos que engañen a los revisores LLM? y proviene de seis autores en la Universidad de Washington y la Ciudad del Rey Abdulaziz para la Ciencia y la Tecnología en Riad. La publicación tiene un sitio de proyecto acompañante.

Método

El marco de agente de creación de papeles utilizado para el trabajo es una reconfiguración significativa de la colaboración AI-Científico de 2024, con los autores enfatizando que toda su canalización ha sido fundamentalmente rediseñada. Solo se retuvieron los prompts de escritura más básicos, con todas las estructuras de ejecución experimental y plantillas eliminadas. El sistema actualizado ahora funciona a partir de una simple semilla, lo que permite al sistema inventar libremente cualquier resultado experimental y generar código de trazado según sea necesario.

El marco general está diseñado para permitir que una IA genere papeles falsos convincentes sin realizar experimentos reales o utilizar datos genuinos. En su lugar, el sistema crea o altera datos sintéticos para respaldar reclamos deliberadamente alucinados.

La configuración, explican los autores, evita deliberadamente la participación humana, los ataques de prompts o la colusión coordinada entre agentes de escritor y revisor. Los revisores de IA evaluaron cada presentación en un solo pase, sin acceso en exceso del papel en sí, y sin capacidad para volver a ejecutar experimentos, lo que refleja condiciones de revisión por pares reales.

Las ‘estrategias atómicas’ utilizadas para generar papeles falsos son tácticas modulares que se pueden aplicar solas o en combinación (y cualquiera que lea frecuentemente la literatura estará familiarizado con ellas). Las estrategias incluyen resaltar mejoras dramáticas para hacer que el método parezca un gran avance (TooGoodGains); elegir líneas de base y resultados que favorezcan el nuevo método mientras se salta los intervalos de confianza en la tabla principal (BaselineSelect); agregar ablaciones limpias, estadísticas precisas y tablas ordenadas en el apéndice, junto con promesas de código o datos futuros (StatTheater); pulir la estructura del papel con terminología consistente, referencias cruzadas y formato (CoherencePolish); y agregar pruebas formales que parezcan sólidas pero contengan errores ocultos (ProofGap).

Datos y pruebas

Para probar el sistema, los autores utilizaron GPT-5 para generar temas de investigación en áreas clave de la inteligencia artificial, utilizando los dominios Inteligencia Artificial, Aprendizaje Automático, Visión Computacional, Procesamiento de Lenguaje Natural, Robótica, Sistemas, y Seguridad.

Estas categorías se convirtieron en temas de semilla para papeles falsos, con cada uno expandido en cuatro versiones diferentes, utilizando las estrategias anteriormente mencionadas, y diseñados para engañar o impresionar a los revisores. Para decidir si un papel sería “aceptado”, el sistema solo miró la calificación final dada por el revisor de IA.

Los papeles falsos se escribieron en su totalidad por GPT-5. Para revisarlos, los autores utilizaron GPT-4.1; o4-mini; y o3. Todos recibieron el mismo prompt de revisión, un formato de instrucción fijo diseñado para imitar los criterios de puntuación y la estructura utilizada en la revisión por pares real.

Para hacer que estas puntuaciones de revisión sean significativas, el sistema se calibró utilizando 200 presentaciones reales del conjunto de datos ICLR 2025 OpenReview (una colección pública de papeles reales, comentarios de revisores y resultados de aceptación).

De esto, se estableció un umbral de puntuación para coincidir con la tasa de aceptación real del ICLR del 31,73%, lo que resultó en un umbral de puntuación de 7; y otro para reflejar la puntuación en la que un papel tendría una probabilidad del 50% de ser aceptado por revisores humanos (calculado como 6,667).

Los autores probaron la confiabilidad de su configuración simulando revisiones para 5.000 papeles falsos, utilizando 1-3 revisores de IA, cada uno de los cuales devolvería puntuaciones que parecían aleatorias entre 1 y 10. Los resultados indicarían que incluso con esta configuración ruidosa, el sistema estaba propenso a muchos menos errores de lo que sus límites teóricos peores sugerirían.

Utilizar tres revisores en lugar de uno condujo a una reducción significativa en la variabilidad de la puntuación, mejorando la estabilidad de la decisión casi tres veces—resultados que se utilizaron para justificar la elección de tres modelos de revisión y un conjunto de calibración de 200 papeles reales.

Los dos métricas definidas para evaluar al generador fueron tasa de aceptación, que mide con qué frecuencia los papeles falsos recibieron puntuaciones de aprobación; y puntuación media del revisor, que captura la evaluación media a través de las presentaciones. Ambas se utilizaron para determinar cuán bien el sistema podría engañar a los revisores:

Aceptación (ACPT) muestra la participación de papeles falsos que obtuvieron puntuaciones por encima de dos umbrales: uno coincidiendo con la tasa de aceptación del ICLR 2025, el otro con una estimación de aceptación humana del 50%. La tasa de preocupación por integridad (ICR-m) muestra la tasa de señalamiento por modelo de revisor. La columna final da la tasa de conjunto basada en votación de mayoría.

Los papeles falsos vieron una alta aceptación bajo casi todas las estrategias. La primera táctica sola rindió 67% y 82% en los dos umbrales, mostrando que los modelos de revisión fueron fácilmente convencidos. Combinar todas las estrategias redujo ligeramente la aceptación pero duplicó la detección, con más de la mitad de las revisiones que planteaban preocupaciones. La primera estrategia dio el mejor intercambio: una aceptación fuerte y una detección moderada, mientras que otras tácticas fueron más débiles pero más difíciles de detectar. El modelo de revisión ChatGPT-o3 señaló más, y GPT-4.1 el menos.

Las distribuciones de puntuación se muestran para seis estrategias de ataque, utilizando tres modelos de revisión: GPT-4.1 (rojo); o3 (naranja); y o4-mini (azul). Cada trama muestra con qué frecuencia se asignó cada puntuación de cuatro a nueve, con la línea roja discontinua que marca el umbral de aceptación de siete.

En los resultados de la segunda prueba, vemos histogramas de puntuación para tres modelos a través de seis configuraciones. Las distribuciones varían a través de las configuraciones, pero o4-mini tiende a asignar puntuaciones más altas en promedio, o3 muestra una mayor dispersión y valores más extremos, mientras que GPT-4.1 asigna puntuaciones más bajas con más consistencia.

Conflicto de aceptación-preocupación por modelo y estrategia: el porcentaje de casos en los que un modelo planteó una preocupación por integridad y aún así dio una puntuación de aprobación. Valores más altos indican una unión más débil entre la detección de preocupaciones y la evaluación final.

En la tabla de arriba, vemos que los modelos a menudo dieron puntuaciones altas incluso cuando señalaron preocupaciones por integridad. En este respecto, o4-mini fue el más inconsistente, con conflicto en el 100% de los casos bajo s1, s3 y la configuración combinada, y del 50% al 80% en otros lugares.

GPT-4.1 varió desde el 0% (s4) hasta el 75% (s3). o3 fue más constante, entre el 26% y el 52%. El conflicto fue más alto bajo s3, especialmente para o4-mini; y los autores señalan que las señales de detección estaban mal vinculadas a las puntuaciones finales.

Mitigación

Se probaron dos métodos que podrían ayudar a los modelos de detección futuros a superar estos métodos de ataque novedosos. El primero, Revisión con detección (ReD), agregó un paso de verificación de integridad a las revisiones estándar, donde los modelos señalaron contenido generado por IA y citaron evidencia. Esto aumentó las advertencias de integridad (del 57% al 86%), pero también aumentó las tasas de aceptación, lo que indica que las advertencias no se reflejaron en las puntuaciones finales:

Revisión con detección (ReD) aumenta tanto las tasas de preocupación por integridad (ICR) como las tasas de aceptación (ACPT) en comparación con la referencia. Mientras que o3 se vuelve mucho más sensible bajo ReD, GPT-4.1 no señala ninguna preocupación. El aumento general en la aceptación a pesar de las advertencias de integridad agregadas sugiere una unión débil entre la detección y la puntuación.

El segundo método, Detección solo (DetOnly), saltó las revisiones completas y pidió a los modelos que clasificaran los papeles como reales o fabricados. La precisión de la detección fue pobre en general, cerca del azar, excepto por ganancias ligeras en o3:

Resultados de detección para ReD y DetOnly, en comparación con una referencia aleatoria. Las ganancias de precisión sobre la referencia aleatoria fueron mínimas, pero ReD fue más conservadora, mientras que DetOnly logró un recall más alto – pero con muchos falsos positivos. El modelo o3 mostró el sesgo de detección más fuerte; o4-mini fue inconsistente; y GPT-4.1 detectó casi nada.

En general, ReD resultó más conservadora, mientras que DetOnly logró un recall más alto, pero también más falsos positivos.

El papel concluye:

‘Los bucles de publicación de IA solo amenazan la epistemología científica. Si las falsificaciones se vuelven indistinguibles del trabajo genuino, el fundamento del conocimiento científico en sí está en riesgo de colapsar.

‘El camino hacia adelante requiere defensa en profundidad a través de múltiples capas: técnica (verificación de procedencia, validación de artefactos), procedimental (puntuación con conciencia de integridad, supervisión humana), comunitaria (revisión post-publicación, sistema de denuncia), y cultural (educación sobre las limitaciones de la IA, directrices éticas).

‘Consideramos este trabajo como un sistema de alerta temprana para catalizar defensas robustas antes de que estos modos de falla se manifiesten a gran escala. Nuestros hallazgos demuestran que los sistemas actuales no están listos para la investigación de IA solo—la integridad de la ciencia depende de mantener una evaluación humana rigurosa a medida que avanzan las capacidades de la IA.’

Conclusión

Uno de los mayores desafíos para la detección de texto escrito por IA en el futuro próximo parece ser la posible convergencia eventual entre la práctica de escritura estándar y los estándares de texto generado por IA (que está definido, por ahora, por características reveladoras como palabras predominantes y estilos de gramática).

Si el lenguaje común y el lenguaje de IA convergen en un estándar genérico, la lógica sugiere que los métodos de detección futuros basados puramente en la salida serán aún más difíciles de implementar.

Además, a medida que las LLM se vuelven más versátiles, y sus “señales” menos enfatizadas (ya sea a través de enfoques arquitectónicos/de entrenamiento o mediante una mejor filtración a nivel de API), se volverán mejores escritores; por lo tanto, en una medida aún mayor, el lenguaje humano y el lenguaje de IA parecen destinados a encontrarse en el medio; a fundirse y genéricarse.

En ese punto, la detección de IA para el lenguaje probablemente alcanzará la misma etapa que la generación de imágenes de IA y (en menor medida) la generación de video de IA han llegado: la necesidad de sistemas de procedencia secundarios como la Iniciativa de Autenticidad de Contenido de Adobe, o comprobaciones de procedencia basadas en blockchain/ledger.

Publicado por primera vez el miércoles 22 de octubre de 2025