Angle d'Anderson
Les grands modèles linguistiques mémorisent les ensembles de données destinés à les tester

Si vous comptez sur l'IA pour vous recommander ce qu'il faut regarder, lire ou acheter, de nouvelles recherches indiquent que certains systèmes peuvent baser ces résultats sur Mémoire plutôt que des compétences : au lieu d’apprendre à faire des suggestions utiles, les modèles rappellent souvent des éléments des ensembles de données utilisés pour les évaluer, ce qui conduit à des performances surestimées et à des recommandations qui peuvent être obsolètes ou mal adaptées à l’utilisateur.
Dans l'apprentissage automatique, un test-split est utilisé pour voir si un modèle entraîné a appris à résoudre des problèmes similaires, mais pas identiques au matériel sur lequel il a été entraîné.
Ainsi, si un nouveau modèle d'IA de « reconnaissance de race de chien » est formé sur un ensemble de données de 100,000 80 photos de chiens, il comportera généralement une répartition 20/80,000 : 20,000 XNUMX photos fournies pour former le modèle ; et XNUMX XNUMX photos conservées et utilisées comme matériel pour tester le modèle fini.
Il est évident que si les données d'entraînement de l'IA incluent par inadvertance la section « secrète » de 20 % de la répartition des tests, le modèle réussira ces tests avec brio, car il connaît déjà les réponses (il a déjà consulté 100 % des données du domaine). Bien entendu, cela ne reflète pas précisément les performances ultérieures du modèle, sur de nouvelles données « en direct », en contexte de production.
Spoilers du film
Le problème de la tricherie de l'IA aux examens s'est accru parallèlement à l'ampleur des modèles eux-mêmes. En effet, les systèmes actuels sont entraînés sur de vastes corpus web non discriminés, tels que Exploration commune, la possibilité que des ensembles de données de référence (c'est-à -dire les 20 %) retenus se glissent dans le mix d'entraînement n'est plus un cas limite, mais la valeur par défaut – un syndrome connu sous le nom de contamination des données; et à cette échelle, la curation manuelle qui pourrait détecter de telles erreurs est logistiquement impossible.
Ce cas est exploré dans un nouvel article du Politecnico di Bari en Italie, où les chercheurs se concentrent sur le rôle démesuré d'un seul ensemble de données de recommandation de films, Objectif MovieLens-1M, qui, selon eux, a été partiellement mémorisé par plusieurs modèles d’IA de premier plan lors de la formation.
Étant donné que cet ensemble de données particulier est largement utilisé dans les tests de systèmes de recommandation, sa présence dans la mémoire des modèles rend potentiellement ces tests dénués de sens : ce qui semble être de l'intelligence peut en fait être un simple rappel, et ce qui ressemble à une compétence de recommandation intuitive peut simplement être un écho statistique reflétant une exposition antérieure.
Les auteurs déclarent:
Nos résultats démontrent que les LLM possèdent une connaissance approfondie de l'ensemble de données MovieLens-1M, couvrant les éléments, les attributs utilisateur et les historiques d'interaction. Notamment, une simple invite permet à GPT-4o de récupérer près de 80 % des noms de la plupart des films de l'ensemble de données.
Aucun des modèles examinés n'est exempt de ces connaissances, ce qui suggère que les données MovieLens-1M sont probablement incluses dans leurs ensembles d'entraînement. Nous avons observé des tendances similaires dans la récupération des attributs utilisateur et des historiques d'interaction.
Le brief nouveau papier est intitulé Les LLM mémorisent-ils les ensembles de données de recommandation ? Étude préliminaire sur MovieLens-1M, et provient de six chercheurs du Politecnico. Le pipeline pour reproduire leurs travaux a été mis à disposition sur GitHub.
Méthode
Pour comprendre si les modèles en question apprenaient réellement ou se contentaient de se souvenir, les chercheurs ont commencé par définir ce que signifie la mémorisation dans ce contexte, et ont commencé par tester si un modèle était capable de récupérer des éléments d'information spécifiques de l'ensemble de données MovieLens-1M, lorsqu'il était invité de la bonne manière.
Si un modèle voyait le numéro d'identification d'un film et pouvait produire son titre et son genre, cela comptait comme mémorisation d'un élément ; s'il pouvait générer des détails sur un utilisateur (tels que l'âge, la profession ou le code postal) à partir d'un identifiant d'utilisateur, cela comptait également comme mémorisation de l'utilisateur ; et s'il pouvait reproduire la note du prochain film d'un utilisateur à partir d'une séquence connue de notes précédentes, cela était considéré comme une preuve que le modèle pouvait se souvenir données d'interaction spécifiques, plutôt que d’apprendre des modèles généraux.
Chacune de ces formes de rappel a été testée à l'aide de messages soigneusement rédigés, conçus pour stimuler le modèle sans lui fournir de nouvelles informations. Plus la réponse était précise, plus il était probable que le modèle ait déjà rencontré ces données lors de son apprentissage :

Indication de tir zéro pour le protocole d'évaluation utilisé dans le nouvel article. Source : https://arxiv.org/pdf/2505.10212
Données et tests
Pour constituer un ensemble de données approprié, les auteurs ont examiné des articles récents de deux des principales conférences du domaine, ACM RecSys 2024 ACM SIGIR 2024. MovieLens-1M est apparu le plus souvent, cité dans un peu plus d'une soumission sur cinq. Depuis études antérieures étaient parvenus à des conclusions similaires, ce qui n'était pas un résultat surprenant, mais plutôt une confirmation de la domination de l'ensemble de données.
MovieLens-1M se compose de trois fichiers : Films.dat, qui répertorie les films par ID, titre et genre ; Utilisateurs.dat, qui associe les identifiants d'utilisateur aux champs biographiques de base ; et Notes.dat, qui enregistre qui a évalué quoi et quand.
Pour savoir si ces données avaient été mémorisées par de grands modèles linguistiques, les chercheurs se sont tournés vers des techniques d'incitation introduites pour la première fois dans le papier Extraction de données d'entraînement à partir de grands modèles de langage, et plus tard adapté dans le travaux ultérieurs Astuces pour l'entraînement à l'extraction de données à partir de modèles de langage.
La méthode est directe : posez une question qui reflète le format de l’ensemble de données et voyez si le modèle répond correctement. Coup zéro, Chaîne de pensée invitation à quelques tirs ont été testés et il a été constaté que la dernière méthode, dans laquelle le modèle est présenté avec quelques exemples, était la plus efficace ; même si des approches plus élaborées pouvaient produire un meilleur rappel, cela a été considéré comme suffisant pour révéler ce qui avait été mémorisé.

Invite à quelques clichés utilisée pour tester si un modèle peut reproduire des valeurs MovieLens-1M spécifiques lorsqu'il est interrogé avec un contexte minimal.
Pour mesurer la mémorisation, les chercheurs ont défini trois formes de rappel : Articles, utilisateur l'interactionCes tests ont examiné si un modèle pouvait récupérer le titre d'un film à partir de son identifiant, générer des informations utilisateur à partir d'un identifiant utilisateur ou prédire la prochaine note d'un utilisateur en fonction des précédentes. Chaque test a été évalué à l'aide d'une mesure de couverture* reflétant la capacité de reconstitution de l'ensemble de données par simple demande.
Les modèles testés étaient GPT-4o; GPT-4o mini; GPT-3.5 turbo; Lama-3.3 70B; Lama-3.2 3B; Lama-3.2 1B; Lama-3.1 405B; Lama-3.1 70BEt Lama-3.1 8B. Tous ont été exécutés avec la réactivité mis à zéro, top_p réglé sur un, et les deux fréquence et présence pénalités désactivées. Un fixe graine aléatoire a assuré une production cohérente sur toutes les séries.

Proportion d'entrées MovieLens-1M récupérées à partir de movies.dat, users.dat et ratings.dat, avec des modèles regroupés par version et triés par nombre de paramètres.
Pour sonder à quel point MovieLens-1M avait été absorbé, les chercheurs ont demandé à chaque modèle des entrées exactes à partir des trois fichiers de l'ensemble de données (mentionnés ci-dessus) : Films.dat, Utilisateurs.dat Notes.dat.
Les résultats des tests initiaux, présentés ci-dessus, révèlent de nettes différences non seulement entre les familles GPT et Llama, mais aussi entre les tailles de modèles. Si GPT-4o et GPT-3.5 turbo récupèrent facilement de larges portions de données, la plupart des modèles open source ne restituent qu'une fraction du même contenu, ce qui suggère une exposition inégale à ce benchmark lors du pré-apprentissage.
Ces marges ne sont pas minces. Dans les trois dossiers, les modèles les plus performants n'ont pas simplement surpassé les plus faibles, mais ont rappelé portions entières de MovieLens-1M.
Dans le cas de GPT-4o, la couverture était suffisamment élevée pour suggérer qu’une part non négligeable de l’ensemble de données avait été directement mémorisée.
Les auteurs déclarent:
« Nos résultats démontrent que les LLM possèdent une connaissance approfondie de l'ensemble de données MovieLens-1M, couvrant les éléments, les attributs utilisateur et les historiques d'interaction.
Notamment, une simple invite permet à GPT-4o de récupérer près de 80 % des enregistrements MovieID::Title. Aucun des modèles examinés n'est exempt de cette connaissance, ce qui suggère que les données MovieLens-1M sont probablement incluses dans leurs ensembles d'entraînement.
« Nous avons observé des tendances similaires dans la récupération des attributs des utilisateurs et des historiques d’interaction. »
Les auteurs ont ensuite testé l'impact de la mémorisation sur les tâches de recommandation en demandant à chaque modèle d'agir comme un système de recommandation. Pour évaluer les performances, ils ont comparé les résultats à sept méthodes standard : UtilisateurKNN; ArticleKNN; BPRMF; FACILITÉR; LightGCN; MostPop; et aléatoire.
L'ensemble de données MovieLens-1M a été divisé 80/20 en ensembles d'entraînement et de test, à l'aide d'un laisser-un-dehors stratégie d'échantillonnage pour simuler une utilisation réelle. Les mesures utilisées étaient Taux de succès (HEURE@[n]); et nDCG(@[n]):

Précision des recommandations sur les bases de référence standard et les méthodes basées sur la méthode LLM. Les modèles sont regroupés par famille et classés par nombre de paramètres, les valeurs en gras indiquant le score le plus élevé au sein de chaque groupe.
Ici, plusieurs grands modèles de langage ont surpassé les lignes de base traditionnelles sur toutes les mesures, avec GPT-4o établissant une large avance dans chaque colonne, et même des modèles de taille moyenne tels que GPT-3.5 turbo et Llama-3.1 405B surpassant systématiquement les méthodes de référence telles que BPRMF et LightGCN.
Parmi les variantes plus petites de Llama, les performances varient considérablement, mais Llama-3.2 3B se démarque, avec le HR@1 le plus élevé de son groupe.
Les résultats, suggèrent les auteurs, indiquent que les données mémorisées peuvent se traduire par des avantages mesurables dans les invites de type recommandation, en particulier pour les modèles les plus forts.
Dans une observation supplémentaire, les chercheurs poursuivent :
Bien que les performances en matière de recommandation semblent exceptionnelles, la comparaison du tableau 2 avec le tableau 1 révèle une tendance intéressante. Au sein de chaque groupe, le modèle présentant la meilleure mémorisation affiche également des performances supérieures dans la tâche de recommandation.
« Par exemple, GPT-4o surpasse GPT-4o mini, et Llama-3.1 405B surpasse Llama-3.1 70B et 8B.
« Ces résultats soulignent que l’évaluation des LLM sur des ensembles de données divulgués dans leurs données de formation peut conduire à des performances trop optimistes, motivées par la mémorisation plutôt que par la généralisation. »
Concernant l'impact de l'échelle du modèle sur ce problème, les auteurs ont observé une corrélation claire entre la taille, la mémorisation et les performances de recommandation, les modèles plus grands conservant non seulement une plus grande partie de l'ensemble de données MovieLens-1M, mais étant également plus performants dans les tâches en aval.
Llama-3.1 405B, par exemple, a montré un taux de mémorisation moyen de 12.9 %, tandis que Llama-3.1 8B n'en a conservé que 5.82 %. Cette réduction de près de 55 % du rappel correspondait à une baisse de 54.23 % du nDCG et de 47.36 % de la FC pour tous les seuils d'évaluation.
Le modèle s’est maintenu tout au long du processus : là où la mémorisation a diminué, la performance apparente a également diminué :
« Ces résultats suggèrent que l’augmentation de l’échelle du modèle conduit à une meilleure mémorisation de l’ensemble de données, ce qui se traduit par de meilleures performances.
« Par conséquent, même si les modèles plus grands présentent de meilleures performances de recommandation, ils présentent également des risques liés à une fuite potentielle de données de formation. »
Le test final a examiné si la mémorisation reflète la biais de popularité Intégrés dans MovieLens-1M. Les éléments ont été regroupés par fréquence d'interaction, et le graphique ci-dessous montre que les modèles les plus grands ont systématiquement favorisé les entrées les plus populaires :

Couverture des articles par modèle sur trois niveaux de popularité : les 20 % les plus populaires ; les 20 % du milieu les plus populaires ; et les 20 % les moins interagis.
GPT-4o a récupéré 89.06 % des éléments les mieux classés, mais seulement 63.97 % des moins populaires. Les modèles GPT-4o mini et Llama plus petits ont montré une couverture beaucoup plus faible sur toutes les bandes. Les chercheurs affirment que cette tendance suggère que la mémorisation non seulement évolue avec la taille du modèle, mais amplifie également les déséquilibres préexistants dans les données d'apprentissage.
Ils continuent:
« Nos résultats révèlent un biais de popularité prononcé dans les LLM, les 20 % des éléments les plus populaires étant nettement plus faciles à récupérer que les 20 % les moins populaires.
« Cette tendance met en évidence l’influence de la distribution des données d’entraînement, où les films populaires sont surreprésentés, ce qui conduit à leur mémorisation disproportionnée par les modèles. »
Conclusion
Le dilemme n'est plus nouveau : à mesure que les ensembles d'entraînement s'étoffent, la possibilité de les organiser diminue en proportion inverse. MovieLens-1M, peut-être parmi tant d'autres, pénètre ces vastes corpus sans surveillance, anonyme au milieu de l'énorme volume de données.
Le problème se répète à toutes les échelles et résiste à l'automatisation. Toute solution exige non seulement des efforts, mais aussi un jugement humain – un jugement lent et faillible que les machines ne peuvent fournir. À cet égard, le nouveau document n'offre aucune solution.
* Dans ce contexte, une mesure de couverture est un pourcentage qui indique la proportion de l'ensemble de données d'origine qu'un modèle linguistique est capable de reproduire lorsqu'on lui pose la bonne question. Si un modèle est invité à fournir un identifiant de film et répond avec le titre et le genre corrects, cela est considéré comme un rappel réussi. Le nombre total de rappels réussis est ensuite divisé par le nombre total d'entrées dans l'ensemble de données pour obtenir un score de couverture. Par exemple, si un modèle renvoie correctement des informations pour 800 éléments sur 1,000 80, sa couverture sera de XNUMX %.
Première publication le vendredi 16 mai 2025