Angle d’Anderson

Les grands modèles de langage mémorisent les jeux de données destinés à les tester

Published May 16, 2025

Updated April 2, 2026

Martin Anderson

'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

Si vous vous fiez à l’IA pour vous recommander ce que regarder, lire ou acheter, de nouvelles recherches indiquent que certains systèmes peuvent baser ces résultats sur la mémoire plutôt que sur les compétences : au lieu d’apprendre à faire des suggestions utiles, les modèles rappellent souvent des éléments des jeux de données utilisés pour les évaluer, ce qui entraîne des performances surestimées et des recommandations qui peuvent être obsolètes ou mal adaptées à l’utilisateur.

En apprentissage automatique, un test-split est utilisé pour voir si un modèle formé a appris à résoudre des problèmes similaires, mais non identiques au matériel sur lequel il a été formé.

Donc, si un nouveau modèle d’IA de reconnaissance de races de chiens est formé sur un jeu de données de 100 000 photos de chiens, il comportera généralement un split 80/20 – 80 000 photos fournies pour former le modèle ; et 20 000 photos retenues et utilisées comme matériel pour tester le modèle terminé.

Il est évident de dire que si les données de formation de l’IA incluent involontairement la section « secrète » de 20 % du test-split, le modèle obtiendra d’excellentes notes à ces tests, car il connaît déjà les réponses (il a déjà vu 100 % du domaine des données). Bien sûr, cela ne reflète pas avec précision la façon dont le modèle se comportera plus tard, sur de nouvelles données « en direct », dans un contexte de production.

Spoilers de films

Le problème de l’IA trichant à ses examens a augmenté au rythme de l’échelle des modèles eux-mêmes. Puisque les systèmes d’aujourd’hui sont formés sur de vastes corpus web-scraped sans discernement tels que Common Crawl, la possibilité que les jeux de données de référence (c’est-à-dire les 20 % retenus) se glissent dans le mélange de formation n’est plus un cas de bord, mais la norme – un syndrome connu sous le nom de contamination de données ; et à cette échelle, la curation manuelle qui pourrait détecter de telles erreurs est logistiquement impossible.

Ce cas est exploré dans un nouvel article de l’Université polytechnique de Bari, en Italie, où les chercheurs se concentrent sur le rôle disproportionné d’un seul jeu de données de recommandation de films, MovieLens-1M, qu’ils affirment avoir été partiellement mémorisé par plusieurs modèles d’IA de pointe pendant la formation.

Puisque ce jeu de données en particulier est très utilisé dans le test des systèmes de recommandation, sa présence dans la mémoire des modèles rend potentiellement ces tests sans signification : ce qui apparaît comme de l’intelligence peut en fait être un simple rappel, et ce qui ressemble à une compétence de recommandation intuitive peut être juste un écho statistique reflétant une exposition antérieure.

Les auteurs déclarent :

‘Nos résultats démontrent que les LLM possèdent une connaissance approfondie du jeu de données MovieLens-1M, couvrant les éléments, les attributs d’utilisateur et les historiques d’interaction. Notamment, une invite simple permet à GPT-4o de récupérer près de 80 % des enregistrements MovieID::Titre.

‘Aucun des modèles examinés n’est exempt de ces connaissances, suggérant que les données MovieLens-1M sont probablement incluses dans leurs ensembles de formation. Nous avons observé des tendances similaires dans la récupération des attributs d’utilisateur et des historiques d’interaction.’

Le bref nouvel article est intitulé Les LLM mémorisent-ils les jeux de données de recommandation ? Une étude préliminaire sur MovieLens-1M, et provient de six chercheurs de l’Université polytechnique de Bari. Le pipeline pour reproduire leur travail a été rendu disponible sur GitHub.

Méthode

Pour comprendre si les modèles en question avaient vraiment appris ou simplement rappelé, les chercheurs ont commencé par définir ce que signifie la mémorisation dans ce contexte, et ont commencé par tester si un modèle était capable de récupérer des informations spécifiques du jeu de données MovieLens-1M, lorsqu’il est invité de la bonne manière.

Si un modèle était montré un numéro d’ID de film et pouvait produire son titre et son genre, cela comptait comme une mémorisation d’un élément ; si cela pouvait générer des détails sur un utilisateur (tels que l’âge, la profession ou le code postal) à partir d’un ID d’utilisateur, cela comptait également comme une mémorisation d’utilisateur ; et si cela pouvait reproduire la note de film suivante d’un utilisateur à partir d’une séquence connue de notes précédentes, cela était considéré comme une preuve que le modèle pouvait rappeler des données d’interaction spécifiques, plutôt que d’apprendre des modèles généraux.

Chacune de ces formes de rappel a été testée à l’aide d’invites soigneusement rédigés, conçus pour inciter le modèle sans lui fournir de nouvelles informations. Plus la réponse était précise, plus il était probable que le modèle ait déjà rencontré ces données pendant la formation :

Zero-shot prompting pour le protocole d’évaluation utilisé dans le nouvel article. Source : https://arxiv.org/pdf/2505.10212

Données et tests

Pour créer un jeu de données approprié, les auteurs ont examiné des articles récents de deux des principales conférences du domaine, ACM RecSys 2024 , et ACM SIGIR 2024. MovieLens-1M est apparu le plus souvent, cité dans juste un peu plus d’un cinquième des soumissions. Puisque des études antérieures avaient atteint des conclusions similaires, cela n’était pas un résultat surprenant, mais plutôt une confirmation de la domination du jeu de données.

MovieLens-1M se compose de trois fichiers : Movies.dat, qui liste les films par ID, titre et genre ; Users.dat, qui mappe les ID d’utilisateur à des champs biographiques de base ; et Ratings.dat, qui enregistre qui a noté quoi, et quand.

Pour savoir si ces données avaient été mémorisées par les grands modèles de langage, les chercheurs ont utilisé des techniques d’invites introduites pour la première fois dans l’article paper Extracting Training Data from Large Language Models, et plus tard adaptées dans le travail ultérieur Bag of Tricks for Training Data Extraction from Language Models.

La méthode est directe : posez une question qui reflète le format du jeu de données et voyez si le modèle répond correctement. Zero-shot, Chain-of-Thought, et few-shot prompting ont été testés, et il a été constaté que la dernière méthode, dans laquelle le modèle est montré quelques exemples, était la plus efficace ; même si des approches plus élaborées pourraient donner lieu à un rappel plus élevé, cela a été considéré comme suffisant pour révéler ce qui avait été mémorisé.

Few-shot prompt utilisé pour tester si un modèle peut reproduire des valeurs spécifiques de MovieLens-1M lorsqu’il est interrogé avec un contexte minimal.

Pour mesurer la mémorisation, les chercheurs ont défini trois formes de rappel : élément, utilisateur, et interaction. Ces tests ont examiné si un modèle pouvait récupérer un titre de film à partir de son ID, générer des détails d’utilisateur à partir d’un ID d’utilisateur, ou prédire la note suivante d’un utilisateur en fonction des notes précédentes. Chacun a été noté à l’aide d’une métrique de couverture* qui reflétait la quantité de données du jeu de données qui pouvait être reconstruite par le biais d’invites.

Les modèles testés étaient GPT-4o ; GPT-4o mini ; GPT-3.5 turbo ; Llama-3.3 70B ; Llama-3.2 3B ; Llama-3.2 1B ; Llama-3.1 405B ; Llama-3.1 70B ; et Llama-3.1 8B. Tous ont été exécutés avec température réglée à zéro, top_p réglé à un, et les pénalités de fréquence et de présence désactivées. Une graine aléatoire fixe a assuré une sortie cohérente entre les exécutions.

Proportion des entrées de MovieLens-1M récupérées à partir de movies.dat, users.dat et ratings.dat, avec les modèles regroupés par version et classés par nombre de paramètres.

Pour sonder à quel point MovieLens-1M avait été absorbé, les chercheurs ont invité chaque modèle à récupérer des entrées exactes des trois fichiers (mentionnés ci-dessus) du jeu de données : Movies.dat, Users.dat, et Ratings.dat.

Les résultats des tests initiaux, montrés ci-dessus, révèlent des différences nettes non seulement entre les familles GPT et Llama, mais également entre les tailles de modèle. Alors que GPT-4o et GPT-3.5 turbo récupèrent de grandes parties du jeu de données avec facilité, la plupart des modèles open-source ne rappellent qu’une fraction du même matériel, suggérant une exposition inégale à cette référence lors de la formation.

Ces différences ne sont pas faibles. Sur les trois fichiers, les modèles les plus forts n’ont pas simplement surpassé les modèles plus faibles, mais ont rappelé des portions entières de MovieLens-1M.

Dans le cas de GPT-4o, la couverture était suffisamment élevée pour suggérer qu’une part non négligeable du jeu de données avait été directement mémorisée.

Les auteurs déclarent :

‘Notamment, une invite simple permet à GPT-4o de récupérer près de 80 % des enregistrements MovieID::Titre. Aucun des modèles examinés n’est exempt de ces connaissances, suggérant que les données MovieLens-1M sont probablement incluses dans leurs ensembles de formation. Nous avons observé des tendances similaires dans la récupération des attributs d’utilisateur et des historiques d’interaction.’

Ensuite, les auteurs ont testé l’impact de la mémorisation sur les tâches de recommandation en invitant chaque modèle à agir comme un système de recommandation. Pour évaluer les performances, ils ont comparé la sortie à sept méthodes standard : UserKNN ; ItemKNN ; BPRMF ; EASE^R ; LightGCN ; MostPop ; et Random.

Le jeu de données MovieLens-1M a été divisé 80/20 en ensembles de formation et de test, en utilisant une stratégie d’échantillonnage leave-one-out pour simuler une utilisation en temps réel. Les métriques utilisées étaient Hit Rate (HR@[n]) ; et nDCG(@[n]) :

Précision des recommandations sur les références standard et les méthodes basées sur les LLM. Les modèles sont regroupés par famille et classés par nombre de paramètres, avec des valeurs en gras indiquant le score le plus élevé dans chaque groupe.

Ici, plusieurs grands modèles de langage ont surpassé les références traditionnelles dans toutes les métriques, avec GPT-4o établissant une large avance dans chaque colonne, et même des modèles de taille moyenne tels que GPT-3.5 turbo et Llama-3.1 405B dépassant régulièrement les méthodes de référence telles que BPRMF et LightGCN.

Parmi les variantes Llama plus petites, les performances ont varié fortement, mais Llama-3.2 3B se démarque, avec le HR@1 le plus élevé dans son groupe.

Les résultats, suggèrent les auteurs, indiquent que les données mémorisées peuvent se traduire par des avantages mesurables dans les tâches de recommandation, en particulier pour les modèles les plus forts.

Dans une observation supplémentaire, les chercheurs poursuivent :

‘Bien que les performances de recommandation semblent exceptionnelles, la comparaison du tableau 2 avec le tableau 1 révèle un modèle intéressant. Dans chaque groupe, le modèle avec une mémorisation plus élevée démontre également de meilleures performances dans la tâche de recommandation.

‘Par exemple, GPT-4o surpasse GPT-4o mini, et Llama-3.1 405B surpasse Llama-3.1 70B et 8B.

‘Ces résultats mettent en évidence que l’évaluation des LLM sur des jeux de données qui ont fuité dans leurs ensembles de formation peut conduire à des performances trop optimistes, motivées par la mémorisation plutôt que par la généralisation.’

En ce qui concerne l’impact de la taille du modèle sur ce problème, les auteurs ont observé une corrélation claire entre la taille, la mémorisation et les performances de recommandation, avec les modèles plus grands ne retenant pas seulement plus de données du jeu de données MovieLens-1M, mais également performant mieux dans les tâches en aval.

Llama-3.1 405B, par exemple, a montré un taux de mémorisation moyen de 12,9 %, tandis que Llama-3.1 8B n’a retenu que 5,82 %. Cette réduction de 55 % du rappel a correspondu à une baisse de 54,23 % de nDCG et de 47,36 % de HR sur les seuils d’évaluation.

Le modèle a tenu tout au long – où la mémorisation a diminué, les performances apparentes ont également diminué :

‘Ces résultats suggèrent que l’augmentation de la taille du modèle conduit à une plus grande mémorisation du jeu de données, ce qui se traduit par de meilleures performances.

‘Par conséquent, même si les modèles plus grands présentent de meilleures performances de recommandation, ils posent également des risques liés à la fuite potentielle des données de formation.’

Le dernier test a examiné si la mémorisation reflète le biais de popularité intégré à MovieLens-1M. Les éléments ont été regroupés par fréquence d’interaction, et le graphique ci-dessous montre que les modèles plus grands ont systématiquement favorisé les entrées les plus populaires :

Couverture des éléments par modèle sur trois niveaux de popularité : 20 % les plus populaires ; 20 % modérément populaires ; et 20 % les moins interactifs.

GPT-4o a récupéré 89,06 % des éléments les plus populaires, mais seulement 63,97 % des moins populaires. GPT-4o mini et les modèles Llama plus petits ont montré une couverture beaucoup plus faible dans toutes les bandes. Les chercheurs déclarent que cette tendance suggère que la mémorisation non seulement augmente avec la taille du modèle, mais amplifie également les déséquilibres préexistants dans les données de formation.

Martin Anderson

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.

Unite.AI

Les grands modèles de langage mémorisent les jeux de données destinés à les tester

Spoilers de films

Méthode

Données et tests

You may like