Ángulo de Anderson

Los grandes modelos de lenguaje están memorizando los conjuntos de datos destinados a probarlos

Published May 16, 2025

Updated April 2, 2026

Martin Anderson

'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

Si confías en la IA para recomendarte qué ver, leer o comprar, una nueva investigación indica que algunos sistemas pueden basar estos resultados en memoria en lugar de habilidad: en lugar de aprender a hacer sugerencias útiles, los modelos a menudo recuerdan elementos de los conjuntos de datos utilizados para evaluarlos, lo que lleva a un rendimiento sobreestimado y recomendaciones que pueden estar desactualizadas o mal adaptadas al usuario.

En el aprendizaje automático, se utiliza una división de prueba para ver si un modelo entrenado ha aprendido a resolver problemas que son similares, pero no idénticos al material en el que se entrenó.

Así, si un nuevo modelo de IA de ‘reconocimiento de razas de perros’ se entrena en un conjunto de datos de 100.000 fotos de perros, generalmente tendrá una división 80/20: 80.000 fotos suministradas para entrenar el modelo; y 20.000 fotos retenidas y utilizadas como material para probar el modelo terminado.

Es obvio decir que, si los datos de entrenamiento de la IA incluyen inadvertidamente la sección ‘secreta’ del 20% de la división de prueba, el modelo aprobará estas pruebas, porque ya conoce las respuestas (ya ha visto el 100% de los datos del dominio). Por supuesto, esto no refleja con precisión cómo se desempeñará el modelo más adelante, en nuevos datos ‘en vivo’, en un contexto de producción.

Spoilers de películas

El problema de que la IA haga trampa en sus exámenes ha crecido al mismo ritmo que la escala de los modelos en sí. Debido a que los sistemas de hoy en día se entrenan en vastos corpus web raspados indiscriminadamente, como Common Crawl, la posibilidad de que los conjuntos de datos de referencia (es decir, el 20% retenido) se incluyan en la mezcla de entrenamiento ya no es un caso de borde, sino el valor predeterminado: un síndrome conocido como contaminación de datos; y a esta escala, la curación manual que podría detectar tales errores es logísticamente imposible.

Este caso se explora en un nuevo documento de la Politecnico di Bari de Italia, donde los investigadores se centran en el papel desproporcionado de un conjunto de datos de recomendación de películas, MovieLens-1M, que argumentan que ha sido parcialmente memorizado por varios modelos de IA líderes durante el entrenamiento.

Debido a que este conjunto de datos en particular se utiliza ampliamente en la prueba de sistemas de recomendación, su presencia en la memoria de los modelos potencialmente hace que esas pruebas sean insignificantes: lo que parece ser inteligencia puede en realidad ser simple recuerdo, y lo que parece ser una habilidad de recomendación intuitiva puede ser solo un eco estadístico que refleja una exposición anterior.