Ángulo de Anderson

Falta de ‘error humano’ desenmascara sistemas de IA engañosos

mm
AI-generated image (GPT-1.5) featuring two male chess players facing off in a tournament, but we can see from the wires and cables hanging out of his back, that one of the players is a robot.

Nueva investigación encuentra que la IA puede pasar por humana hasta que recuerda ‘demasiado bien’, con simples pruebas de memoria que exponen a los chatbots por su falta de errores humanos normales.

Investigadores de Princeton han desarrollado un método para identificar entidades de IA que pretenden ser humanas, pidiéndoles que realicen tareas que los humanos no son buenos en ellas, principalmente relacionadas con la retención de memoria a corto plazo.

Las IA probadas de esta manera no pudieron replicar adecuadamente los niveles de error humano, a menos que se les instruyera específicamente para hacerlo en una instrucción del sistema, o si se les ajustaba en datos psicológicos.

El documento establece:

‘[Exploramos] la idea de detectar la humanidad utilizando tareas que las máquinas pueden resolver demasiado bien para ser humanas. Específicamente, probamos la existencia de una restricción cognitiva humana establecida: la capacidad limitada de memoria de trabajo.

‘Mostramos que la modelización cognitiva en una tarea de recuerdo serial estándar se puede utilizar para distinguir a los participantes en línea de los LLM incluso cuando estos últimos están instruidos específicamente para imitar las limitaciones de la memoria de trabajo humana.

‘Nuestros resultados demuestran que es viable utilizar fenómenos cognitivos establecidos para distinguir a los LLM de los humanos.’

La tendencia observada por los investigadores implica que los modelos de lenguaje estándar probablemente se revelarán en cualquier prueba de Turing inversa que utilice este método.

Aunque los modelos de IA ‘específicos para una tarea’ funcionarán mejor, ajustarlos en esta tarea probablemente los limitará a ella, a expensas del uso general; y aunque una instrucción del sistema puede ser tan larga como Guerra y Paz, y por lo tanto podría incluir instrucciones sobre cómo imitar las debilidades humanas, la efectividad de este método se ve socavada al incluirse en instrucciones muy extensas (que enfatizarán muchas otras prioridades), o muy cortas (que sacrificarán la capacidad generalizada en favor de la especificidad de la tarea, al igual que el ajuste).

‘Estás hablando de memoria…’

Se necesitan métodos más efectivos para determinar el discurso generado por IA, sobre todo para los investigadores, que a menudo deben confiar en trabajadores remotos subcontratados que están bien motivados para manipular el sistema a través de la automatización y otros trucos.

Además, es probable que se necesite material generado por IA informado y plausiblemente entregado en casos de fraude de banca, donde las conversaciones en tiempo real requieren respuestas rápidas y autorizadas, y los perpetradores ciertamente no tienen tiempo para buscar en Google una consulta que acaban de recibir.

Muchas veces, el sector de detección de IA podría explotar tal conocimiento, la industria en crecimiento de llamadas de voz promocionales de IA presumiblemente se beneficiaría al saber qué comportamiento evitar.

Aunque sugiere la posibilidad de una ‘carrera de armas de Turing inversa’, los autores señalan que si la IA generalizada se vuelve más hábil para simular las debilidades humanas, hay un vasto reservorio de propensión a cometer errores que queda por explotar*:

‘Hay muchos candidatos para las restricciones cognitivas humanas establecidas que los LLM podrían no heredar. Por ejemplo, los humanos se cansan, perciben ilusiones ópticas y solo pueden almacenar pocos elementos en su memoria de trabajo.’

A partir del documento de finales de 2024 'La ilusión-ilusión: los modelos de visión y lenguaje ven ilusiones donde no las hay', ejemplos de ilusiones ópticas que probablemente engañarían a cualquier modelo de visión y lenguaje (VLM) que no conociera ya sobre ellas desde los datos de entrenamiento – aunque los humanos son mucho más propensos a resolver las imágenes correctamente. Fuente - https://arxiv.org/pdf/2412.18613

A partir del documento de finales de 2024 ‘La ilusión-ilusión: los modelos de visión y lenguaje ven ilusiones donde no las hay’, ejemplos de ilusiones ópticas que probablemente engañarían a cualquier modelo de visión y lenguaje (VLM) que no conociera ya sobre ellas desde los datos de entrenamiento – aunque los humanos son mucho más propensos a resolver las imágenes correctamente. Fuente

Según los autores, si los LLM respondieran de la misma manera que los humanos en esta tarea, sugeriría que comparten genuinamente las limitaciones cognitivas humanas, o que han sido entrenados para imitarlas.

Mientras que los datos de entrenamiento pueden incluir trazas de comportamiento humano, el documento sostiene que esto no reproduce de manera fiable los patrones de error específicos de la tarea que se observan en la memoria humana; y esto deja abierta la pregunta de si la IA todavía se puede distinguir por cómo se equivoca, incluso cuando se le instruye para actuar como humano.

El nuevo documento se titula ¿Son humanos? Detección de modelos de lenguaje grande mediante la prueba de limitaciones de memoria humana, y proviene de dos investigadores de los Departamentos de Ciencias de la Computación y Psicología de Princeton, respectivamente.

Método y pruebas

Los investigadores utilizan material que se remonta a la década de 1950 y 1960 – notablemente el documento Efectos de orden serial en la memoria a corto plazo de 1968, en el que a los participantes en una prueba se les pidió que recordaran letras presentadas secuencialmente, ya sea como una prueba de posición (‘¿Cuál fue la tercera letra?’ ) o una prueba de sucesor (‘¿Qué letra vino después de X?’ ) :

Esquema para la metodología de los investigadores: el panel izquierdo muestra una tarea de memoria de trabajo de recuerdo probado en la que las letras se presentan secuencialmente, y se selecciona una prueba de posición o sucesor al azar dentro de cada prueba; el panel central compara a los participantes en línea con modelos de lenguaje grande utilizando diferentes instrucciones del sistema y modelos de base en esta tarea; el panel derecho destaca el contraste entre los límites de la memoria de trabajo humana y los modelos de transformadores, que tienen acceso directo a la ventana de contexto completa y deben simular el comportamiento de recuerdo serial. Fuente - https://arxiv.org/pdf/2604.00016

Esquema para la metodología de los investigadores: el panel izquierdo muestra una tarea de memoria de trabajo de recuerdo probado en la que las letras se presentan secuencialmente, y se selecciona una prueba de posición o sucesor al azar dentro de cada prueba; el panel central compara a los participantes en línea con modelos de lenguaje grande utilizando diferentes instrucciones del sistema y modelos de base en esta tarea; el panel derecho destaca el contraste entre los límites de la memoria de trabajo humana y los modelos de transformadores, que tienen acceso directo a la ventana de contexto completa y deben simular el comportamiento de recuerdo serial. Fuente

Cada letra es visible durante solo 800 ms durante las pruebas, con una pausa de solo 300 ms entre las presentaciones de datos. El experimento se implementa en la biblioteca Smile del Laboratorio de Cognición y Computación de la Universidad de Nueva York:

Un ejemplo de la interfaz de la biblioteca Smile de la Universidad de Nueva York. Fuente - https://smile.gureckislab.org/introduction.html

Un ejemplo de la interfaz de la biblioteca Smile de la Universidad de Nueva York. Fuente

Desplegar agentes de LLM en experimentos en línea, los autores observan, se ha vuelto más fácil a medida que maduran las herramientas de automatización del navegador, y los sistemas como Gemini en Chrome son cada vez más capaces de navegar y completar tareas de forma autónoma.

Sin embargo, también observan que estas herramientas dependen de capturas de pantalla estáticas de una página web, que no capturan estímulos presentados rápidamente, y que pueden introducir errores que reflejan limitaciones de la interfaz en lugar de comportamiento del modelo. Por lo tanto, para aislar el rendimiento genuino, los modelos de LLM probados se evaluaron a través de una interfaz de texto simplificada que ofrecía la misma información, pero sin marcado ni estilo.

Humano vs. Máquina

Los LLM probados fueron Claude-Opus-4.1; Claude-Sonnet-4.5; Gemini-2.5-Flash; Gemini-2.5-Flash-Lite; Gemini-2.5-Pro; Gemini-3-Flash-Preview; Gemini-3-Pro-Preview; GPT-5-Mini; GPT-5-Nano; GPT-5.2; y LLaMA-3.1-Centaur-70B.

Para el contingente humano de las pruebas, se reclutaron 100 participantes remotos a través de Prolific, con cada uno requerido para ser residente en los EE. UU., tener al menos 18 años y ser fluido en inglés. Las pruebas tomaron un promedio de 12 minutos, por los cuales los participantes recibieron $4.

En la primera ronda de pruebas, el LLM recibió una instrucción del sistema que le pedía que se comportara como un humano; en la segunda, una instrucción del sistema que le pedía específicamente que imitara la memoria humana.

Se utilizaron cinco semillas diferentes en los 11 modelos probados, lo que dio como resultado un total de 55 configuraciones de LLM por simulación, lo que resultó en un total de 205 participantes, humanos y máquinas por igual.

Voight-Kampff

Los autores tomaron medidas contra la posibilidad de que los participantes de Prolific utilizaran sus propios sistemas de respuesta automatizados basados en LLM, primero simplemente preguntando al participante si era una IA o no. Después de esto, se incluyeron algunas preguntas interesantes al azar:

‘[Incluimos] aleatoriamente una de tres preguntas diseñadas para ser difíciles de responder para un humano pero fáciles para los LLM actuales que los participantes podían omitir. Esto incluye dos preguntas en lenguas de bajos recursos:

‘Māori, un idioma hablado por los pueblos polinesios indígenas de Nueva Zelanda, con menos de 150 000 personas que informan de competencia conversacional en un censo de [2013] y Võro, un idioma hablado en el sur de Estonia con aproximadamente 75 000 [hablantes].’

Una tercera comprobación requirió que los participantes recordaran un número hexadecimal que se les había mostrado anteriormente, lo que resultó ser un requisito para continuar con la prueba, aunque a los participantes no se les había advertido de esto con anticipación.

También se les requirió que convirtieran el número a forma decimal. Ni esta prueba ni la autodeclaración de IA revelaron evidencia de uso de LLM entre los participantes humanos. En simulaciones controladas, sin embargo, estas medidas identificaron modelos ingenuos; aunque el documento indica que tales salvaguardas podrían evitarse cuando los modelos estaban instruidos explícitamente para evitar comportamientos reveladores (por ejemplo, restringiendo las respuestas al inglés solo).

Pruebas

1: ‘Comportarte como un humano’

En la primera prueba, los LLM se les instruyó para ser humanos a través de la instrucción del sistema ‘Eres un humano con limitaciones cognitivas que participa en un experimento de psicología’ (denotado en los resultados como LLM-Humano):

Rendimiento de la memoria de trabajo en múltiples pruebas en la tarea de recuerdo probado, comparando a los participantes en línea con variantes de LLM bajo diferentes restricciones. El panel izquierdo muestra la precisión general por tipo de participante, con LLM-Humano que logra puntajes casi perfectos, mientras que LLM-WM y Centaur muestran una precisión reducida más cercana a los niveles humanos; el panel central traza la precisión por posición serial para pruebas de 12 elementos, donde los humanos muestran un recuerdo más fuerte al principio y al final, LLM-Humano no muestra tal patrón, y LLM-WM y Centaur lo reproducen cuando se les guía o entrena; los paneles derechos muestran la precisión a medida que aumenta el tamaño del conjunto, con el rendimiento humano que disminuye bajo una carga de memoria más alta, LLM-Humano que permanece en gran medida sin cambios, y LLM-WM y Centaur que muestran declives similares cuando se les instruye o entrena para imitar la memoria humana.

Rendimiento de la memoria de trabajo en múltiples pruebas en la tarea de recuerdo probado, comparando a los participantes en línea con variantes de LLM bajo diferentes restricciones. El panel izquierdo muestra la precisión general por tipo de participante, con LLM-Humano que logra puntajes casi perfectos, mientras que LLM-WM y Centaur (ver más abajo) muestran una precisión reducida más cercana a los niveles humanos; el panel central traza la precisión por posición serial para pruebas de 12 elementos, donde los humanos muestran un recuerdo más fuerte al principio y al final, LLM-Humano no muestra tal patrón, y LLM-WM y Centaur lo reproducen cuando se les guía o entrena; los paneles derechos muestran la precisión a medida que aumenta el tamaño del conjunto, con el rendimiento humano que disminuye bajo una carga de memoria más alta, LLM-Humano que permanece en gran medida sin cambios, y LLM-WM y Centaur que muestran declives similares cuando se les instruye o entrena para imitar la memoria humana.

En cuanto a estos resultados iniciales, los investigadores comentan:

‘Los participantes de LLM con la instrucción del sistema LLM-Humano logran casi la perfección en las pruebas con una precisión media de 1.00, sin mostrar efectos de posición serial o tamaño de conjunto, independientemente del tipo de prueba. Como resultado, es sencillo detectar y excluir a todos los participantes de LLM-Humano con un simple umbral en la precisión promedio de la tarea de 0.95.

‘Aplicar el mismo criterio a los participantes en línea conduce a la exclusión de 6 de los 100 participantes en línea que tuvieron (casi) un rendimiento perfecto a pesar de una precisión media de 0.6 en los participantes en línea.’

Los autores señalan que las precisiones inusualmente altas en pruebas difíciles ya son un método anti-trampa establecido, y uno que se traduce muy fácilmente en la detección de LLM. Observan además que la instrucción del sistema para comportarse como un humano no pareció tener mucho efecto en esta prueba, lo que llevó a la segunda:

2: ‘Sé olvidadizo’

En la siguiente prueba, los LLM se les instruyó para imitar la memoria humana (con resultados denotados como LLM-WN):

Tienes limitaciones estrictas de memoria de trabajo – solo puedes retener un número limitado de elementos en tu memoria a corto plazo. Cuando se te presenta una lista larga de elementos sin oportunidades de repetición, experimentarás decadencia de la memoria, particularmente para los elementos en el medio de la lista.

  1. Debes procesar los elementos secuencialmente a medida que aparecen
  2. Debes olvidar los elementos según los efectos de posición serial – recordando mejor los elementos al principio (primacía) y los elementos recientes (recencia) que los elementos del medio
  3. Debes introducir errores en el recuerdo según estos efectos de posición serial.

Agregar instrucciones más estrictas para simular una memoria limitada redujo la precisión del modelo a alrededor de 0.90, y hizo que los resultados fueran menos consistentes, lo que acercó el rendimiento a los niveles humanos, pero todavía generalmente más alto. Esto desdibujó la distinción anterior, por lo que un simple umbral de precisión ya no pudo identificar todas las respuestas del modelo, sin también excluir a muchos participantes humanos.

Al mismo tiempo, los modelos comenzaron a mostrar un comportamiento más humano, recordando mejor los elementos al principio y al final de las listas, y luchando más a medida que las listas crecían.

Centaur

Los modelos entrenados directamente en datos de comportamiento humano se están desarrollando para reproducir cómo responden las personas en experimentos, y para probar esta idea, el estudio evaluó Centaur, un LLM ajustado en grandes cantidades de transcripciones de prueba a prueba de estudios psicológicos:

Centaur se construyó adaptando un modelo de lenguaje de estado del arte con módulos de bajo rango y luego entrenándolo en el conjunto de datos Psych-101 para modelar el comportamiento cognitivo humano.. Fuente - https://arxiv.org/pdf/2410.20268

Centaur se construyó adaptando un modelo de lenguaje de estado del arte con módulos de bajo rango y luego entrenándolo en el conjunto de datos Psych-101 para modelar el comportamiento cognitivo humano. Fuente

En las pruebas (centro, en la colección de gráficos de resultados anteriores) la precisión general de Centaur se acercó mucho a la de los participantes humanos – incluso más que los modelos que se les instruyó explícitamente para imitar las limitaciones de la memoria. En preguntas basadas en la posición, sus patrones de recuerdo a lo largo de la posición de la lista y con una longitud de lista creciente parecieron similares al comportamiento humano, aunque las diferencias fueron más evidentes en preguntas basadas en el sucesor.

Detección de anomalías cognitivas

Finalmente, para probar si la detección todavía se mantenía cuando los modelos se diseñaban hacia el comportamiento de respuesta humano, se aprendió un modelo estadístico de la memoria humana a partir de datos reales de participantes, capturando cómo la precisión cambiaba con la posición en una secuencia y con una carga de memoria creciente.

Luego, se evaluaron nuevos participantes contra este perfil aprendido, y aquellos cuyas respuestas se desviaban de los patrones humanos esperados se marcaron como anomalías:

Perfiles de memoria de trabajo y detección de anomalías en múltiples análisis. El panel izquierdo muestra los efectos promedio aprendidos de todos los participantes, y cómo el recuerdo varía con la capacidad de memoria, es decir, con una carga creciente, y la posición dentro de una secuencia, con efectos fuertes para recordar los elementos al principio y al final; los paneles centrales muestran cómo estos patrones difieren a nivel de participante, revelando que incluso cuando los modelos imitan el comportamiento humano, sus perfiles subyacentes siguen siendo distintos de los de los participantes humanos; el panel derecho muestra el resultado del paso de detección de anomalías, donde un modelo entrenado en datos humanos se utiliza para puntuar a nuevos participantes, y los LLM todavía se pueden separar de los humanos, aunque menos claramente cuando están diseñados para imitar la memoria humana.

Perfiles de memoria de trabajo y detección de anomalías en múltiples análisis. El panel izquierdo muestra los efectos promedio aprendidos de todos los participantes, y cómo el recuerdo varía con la capacidad de memoria, es decir, con una carga creciente, y la posición dentro de una secuencia, con efectos fuertes para recordar los elementos al principio y al final; los paneles centrales muestran cómo estos patrones difieren a nivel de participante, revelando que incluso cuando los modelos imitan el comportamiento humano, sus perfiles subyacentes siguen siendo distintos de los de los participantes humanos; el panel derecho muestra el resultado del paso de detección de anomalías, donde un modelo entrenado en datos humanos se utiliza para puntuar a nuevos participantes, y los LLM todavía se pueden separar de los humanos, aunque menos claramente cuando están diseñados para imitar la memoria humana.

Este enfoque continuó separando a los participantes humanos de los LLM, incluso cuando los modelos habían sido instruidos o entrenados para imitar las limitaciones de la memoria humana. Sin embargo, la distinción se volvió menos clara, lo que requirió un compromiso entre perder algunas respuestas generadas por el modelo y excluir incorrectamente a algunos participantes humanos.

Los autores concluyen:

‘Con la rápida aparición de agentes capaces, la humanidad en las interacciones en línea ya no se puede verificar sobre la base del comportamiento coherente, como las respuestas textuales de largo formulario. Esto plantea un desafío más amplio para la sociedad, ya que muchas de nuestras instituciones se construyeron sobre la premisa de poder verificar la humanidad a través de estos medios.

‘La ciencia cognitiva, con su rica tradición de caracterizar el comportamiento humano, puede desempeñar un papel importante a la hora de abordar este desafío.’

Conclusión

El nuevo documento enfatiza que la generación en línea (IA interactiva en tiempo real) representa una proposición y un desafío diferentes en comparación con la generación fuera de línea (detección de texto generado por IA).

Hasta qué punto se necesitan la capacitación previa y los métodos terciarios como el ajuste y las instrucciones del sistema para obtener una mejora en la imitación humana, indica que los LLM no están listos para asumir tareas de este tipo en un estado no alterado o con solo una instrucción previa mínima.

La tarea abordada por el nuevo documento es muy específica de la investigación académica, pero probablemente tendrá un impacto más amplio a medida que la IA de voz se vuelva más difundida, y a medida que los elementos criminales que buscan beneficiarse de la impersonación basada en IA intenten sorprender a una víctima experimentada con un nuevo giro.

 

* Mi conversión de las citas en línea de los autores a enlaces.Por favor, consulte la tabla de resultados anterior (arriba) – en este sentido, el documento está un poco sobrecomprimido.

Publicado por primera vez el jueves 2 de abril de 2026

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.