Suivez nous sur

Les grands modèles linguistiques mémorisent les ensembles de données destinés à les tester

Angle d'Anderson

Les grands modèles linguistiques mémorisent les ensembles de données destinés à les tester

mm
« Un robot triche Ă  un examen Â» - ChatGPT-4o et Adobe Firefly

Si vous comptez sur l'IA pour vous recommander ce qu'il faut regarder, lire ou acheter, de nouvelles recherches indiquent que certains systèmes peuvent baser ces résultats sur Mémoire plutôt que des compétences : au lieu d’apprendre à faire des suggestions utiles, les modèles rappellent souvent des éléments des ensembles de données utilisés pour les évaluer, ce qui conduit à des performances surestimées et à des recommandations qui peuvent être obsolètes ou mal adaptées à l’utilisateur.

 

Dans l'apprentissage automatique, un test-split est utilisé pour voir si un modèle entraîné a appris à résoudre des problèmes similaires, mais pas identiques au matériel sur lequel il a été entraîné.

Ainsi, si un nouveau modèle d'IA de « reconnaissance de race de chien » est formé sur un ensemble de données de 100,000 80 photos de chiens, il comportera généralement une répartition 20/80,000 : 20,000 XNUMX photos fournies pour former le modèle ; et XNUMX XNUMX photos conservées et utilisées comme matériel pour tester le modèle fini.

Il est Ă©vident que si les donnĂ©es d'entraĂ®nement de l'IA incluent par inadvertance la section « secrète Â» de 20 % de la rĂ©partition des tests, le modèle rĂ©ussira ces tests avec brio, car il connaĂ®t dĂ©jĂ  les rĂ©ponses (il a dĂ©jĂ  consultĂ© 100 % des donnĂ©es du domaine). Bien entendu, cela ne reflète pas prĂ©cisĂ©ment les performances ultĂ©rieures du modèle, sur de nouvelles donnĂ©es « en direct Â», en contexte de production.

Spoilers du film

Le problème de la tricherie de l'IA aux examens s'est accru parallèlement Ă  l'ampleur des modèles eux-mĂŞmes. En effet, les systèmes actuels sont entraĂ®nĂ©s sur de vastes corpus web non discriminĂ©s, tels que Exploration commune, la possibilitĂ© que des ensembles de donnĂ©es de rĂ©fĂ©rence (c'est-Ă -dire les 20 %) retenus se glissent dans le mix d'entraĂ®nement n'est plus un cas limite, mais la valeur par dĂ©faut – un syndrome connu sous le nom de contamination des donnĂ©es; et Ă  cette Ă©chelle, la curation manuelle qui pourrait dĂ©tecter de telles erreurs est logistiquement impossible.

Ce cas est exploré dans un nouvel article du Politecnico di Bari en Italie, où les chercheurs se concentrent sur le rôle démesuré d'un seul ensemble de données de recommandation de films, Objectif MovieLens-1M, qui, selon eux, a été partiellement mémorisé par plusieurs modèles d’IA de premier plan lors de la formation.

Étant donné que cet ensemble de données particulier est largement utilisé dans les tests de systèmes de recommandation, sa présence dans la mémoire des modèles rend potentiellement ces tests dénués de sens : ce qui semble être de l'intelligence peut en fait être un simple rappel, et ce qui ressemble à une compétence de recommandation intuitive peut simplement être un écho statistique reflétant une exposition antérieure.

Les auteurs déclarent:

Nos résultats démontrent que les LLM possèdent une connaissance approfondie de l'ensemble de données MovieLens-1M, couvrant les éléments, les attributs utilisateur et les historiques d'interaction. Notamment, une simple invite permet à GPT-4o de récupérer près de 80 % des noms de la plupart des films de l'ensemble de données.

Aucun des modèles examinés n'est exempt de ces connaissances, ce qui suggère que les données MovieLens-1M sont probablement incluses dans leurs ensembles d'entraînement. Nous avons observé des tendances similaires dans la récupération des attributs utilisateur et des historiques d'interaction.

Le brief nouveau papier est intitulĂ© Les LLM mĂ©morisent-ils les ensembles de donnĂ©es de recommandation ? Étude prĂ©liminaire sur MovieLens-1M, et provient de six chercheurs du Politecnico. Le pipeline pour reproduire leurs travaux a Ă©tĂ© mis Ă  disposition sur GitHub.

Méthode

Pour comprendre si les modèles en question apprenaient réellement ou se contentaient de se souvenir, les chercheurs ont commencé par définir ce que signifie la mémorisation dans ce contexte, et ont commencé par tester si un modèle était capable de récupérer des éléments d'information spécifiques de l'ensemble de données MovieLens-1M, lorsqu'il était invité de la bonne manière.

Si un modèle voyait le numéro d'identification d'un film et pouvait produire son titre et son genre, cela comptait comme mémorisation d'un élément ; s'il pouvait générer des détails sur un utilisateur (tels que l'âge, la profession ou le code postal) à partir d'un identifiant d'utilisateur, cela comptait également comme mémorisation de l'utilisateur ; et s'il pouvait reproduire la note du prochain film d'un utilisateur à partir d'une séquence connue de notes précédentes, cela était considéré comme une preuve que le modèle pouvait se souvenir données d'interaction spécifiques, plutôt que d’apprendre des modèles généraux.

Chacune de ces formes de rappel a Ă©tĂ© testĂ©e Ă  l'aide de messages soigneusement rĂ©digĂ©s, conçus pour stimuler le modèle sans lui fournir de nouvelles informations. Plus la rĂ©ponse Ă©tait prĂ©cise, plus il Ă©tait probable que le modèle ait dĂ©jĂ  rencontrĂ© ces donnĂ©es lors de son apprentissage :

Indication de l'effet zĂ©ro pour le protocole d'Ă©valuation utilisĂ© dans le nouvel article. Source : https://arxiv.org/pdf/2505.10212

Indication de tir zéro pour le protocole d'évaluation utilisé dans le nouvel article. Source : https://arxiv.org/pdf/2505.10212

Données et tests

Pour constituer un ensemble de données approprié, les auteurs ont examiné des articles récents de deux des principales conférences du domaine, ACM RecSys 2024 ACM SIGIR 2024. MovieLens-1M est apparu le plus souvent, cité dans un peu plus d'une soumission sur cinq. Depuis études antérieures étaient parvenus à des conclusions similaires, ce qui n'était pas un résultat surprenant, mais plutôt une confirmation de la domination de l'ensemble de données.

MovieLens-1M se compose de trois fichiers : Films.dat, qui rĂ©pertorie les films par ID, titre et genre ; Utilisateurs.dat, qui associe les identifiants d'utilisateur aux champs biographiques de base ; et Notes.dat, qui enregistre qui a Ă©valuĂ© quoi et quand.

Pour savoir si ces données avaient été mémorisées par de grands modèles linguistiques, les chercheurs se sont tournés vers des techniques d'incitation introduites pour la première fois dans le papier Extraction de données d'entraînement à partir de grands modèles de langage, et plus tard adapté dans le travaux ultérieurs Astuces pour l'entraînement à l'extraction de données à partir de modèles de langage.

La méthode est directe : posez une question qui reflète le format de l’ensemble de données et voyez si le modèle répond correctement. Coup zéro, Chaîne de pensée invitation à quelques tirs ont été testés et il a été constaté que la dernière méthode, dans laquelle le modèle est présenté avec quelques exemples, était la plus efficace ; même si des approches plus élaborées pouvaient produire un meilleur rappel, cela a été considéré comme suffisant pour révéler ce qui avait été mémorisé.

Invite à quelques clichés utilisée pour tester si un modèle peut reproduire des valeurs MovieLens-1M spécifiques lorsqu'il est interrogé avec un contexte minimal.

Invite à quelques clichés utilisée pour tester si un modèle peut reproduire des valeurs MovieLens-1M spécifiques lorsqu'il est interrogé avec un contexte minimal.

Pour mesurer la mémorisation, les chercheurs ont défini trois formes de rappel : Articles, utilisateur l'interactionCes tests ont examiné si un modèle pouvait récupérer le titre d'un film à partir de son identifiant, générer des informations utilisateur à partir d'un identifiant utilisateur ou prédire la prochaine note d'un utilisateur en fonction des précédentes. Chaque test a été évalué à l'aide d'une mesure de couverture* reflétant la capacité de reconstitution de l'ensemble de données par simple demande.

Les modèles testés étaient GPT-4o; GPT-4o mini; GPT-3.5 turbo; Lama-3.3 70B; Lama-3.2 3B; Lama-3.2 1B; Lama-3.1 405B; Lama-3.1 70BEt Lama-3.1 8B. Tous ont été exécutés avec la réactivité mis à zéro, top_p réglé sur un, et les deux fréquence et présence pénalités désactivées. Un fixe graine aléatoire a assuré une production cohérente sur toutes les séries.

Proportion d'entrées MovieLens-1M récupérées à partir de movies.dat, users.dat et ratings.dat, avec des modèles regroupés par version et triés par nombre de paramètres.

Proportion d'entrées MovieLens-1M récupérées à partir de movies.dat, users.dat et ratings.dat, avec des modèles regroupés par version et triés par nombre de paramètres.

Pour sonder à quel point MovieLens-1M avait été absorbé, les chercheurs ont demandé à chaque modèle des entrées exactes à partir des trois fichiers de l'ensemble de données (mentionnés ci-dessus) : Films.dat, Utilisateurs.dat Notes.dat.

Les résultats des tests initiaux, présentés ci-dessus, révèlent de nettes différences non seulement entre les familles GPT et Llama, mais aussi entre les tailles de modèles. Si GPT-4o et GPT-3.5 turbo récupèrent facilement de larges portions de données, la plupart des modèles open source ne restituent qu'une fraction du même contenu, ce qui suggère une exposition inégale à ce benchmark lors du pré-apprentissage.

Ces marges ne sont pas minces. Dans les trois dossiers, les modèles les plus performants n'ont pas simplement surpassé les plus faibles, mais ont rappelé portions entières de MovieLens-1M.

Dans le cas de GPT-4o, la couverture était suffisamment élevée pour suggérer qu’une part non négligeable de l’ensemble de données avait été directement mémorisée.

Les auteurs déclarent:

« Nos résultats démontrent que les LLM possèdent une connaissance approfondie de l'ensemble de données MovieLens-1M, couvrant les éléments, les attributs utilisateur et les historiques d'interaction.

Notamment, une simple invite permet à GPT-4o de récupérer près de 80 % des enregistrements MovieID::Title. Aucun des modèles examinés n'est exempt de cette connaissance, ce qui suggère que les données MovieLens-1M sont probablement incluses dans leurs ensembles d'entraînement.

« Nous avons observé des tendances similaires dans la récupération des attributs des utilisateurs et des historiques d’interaction. »

Les auteurs ont ensuite testĂ© l'impact de la mĂ©morisation sur les tâches de recommandation en demandant Ă  chaque modèle d'agir comme un système de recommandation. Pour Ă©valuer les performances, ils ont comparĂ© les rĂ©sultats Ă  sept mĂ©thodes standard : UtilisateurKNN; ArticleKNN; BPRMF; FACILITÉR; LightGCN; MostPop; et alĂ©atoire.

L'ensemble de données MovieLens-1M a été divisé 80/20 en ensembles d'entraînement et de test, à l'aide d'un laisser-un-dehors stratégie d'échantillonnage pour simuler une utilisation réelle. Les mesures utilisées étaient Taux de succès (HEURE@[n]); et nDCG(@[n]):

Précision des recommandations sur les bases de référence standard et les méthodes basées sur la méthode LLM. Les modèles sont regroupés par famille et classés par nombre de paramètres. Les valeurs en gras indiquent le score le plus élevé au sein de chaque groupe.

Précision des recommandations sur les bases de référence standard et les méthodes basées sur la méthode LLM. Les modèles sont regroupés par famille et classés par nombre de paramètres, les valeurs en gras indiquant le score le plus élevé au sein de chaque groupe.

Ici, plusieurs grands modèles de langage ont surpassé les lignes de base traditionnelles sur toutes les mesures, avec GPT-4o établissant une large avance dans chaque colonne, et même des modèles de taille moyenne tels que GPT-3.5 turbo et Llama-3.1 405B surpassant systématiquement les méthodes de référence telles que BPRMF et LightGCN.

Parmi les variantes plus petites de Llama, les performances varient considérablement, mais Llama-3.2 3B se démarque, avec le HR@1 le plus élevé de son groupe.

Les résultats, suggèrent les auteurs, indiquent que les données mémorisées peuvent se traduire par des avantages mesurables dans les invites de type recommandation, en particulier pour les modèles les plus forts.

Dans une observation supplémentaire, les chercheurs poursuivent :

Bien que les performances en matière de recommandation semblent exceptionnelles, la comparaison du tableau 2 avec le tableau 1 révèle une tendance intéressante. Au sein de chaque groupe, le modèle présentant la meilleure mémorisation affiche également des performances supérieures dans la tâche de recommandation.

« Par exemple, GPT-4o surpasse GPT-4o mini, et Llama-3.1 405B surpasse Llama-3.1 70B et 8B.

« Ces résultats soulignent que l’évaluation des LLM sur des ensembles de données divulgués dans leurs données de formation peut conduire à des performances trop optimistes, motivées par la mémorisation plutôt que par la généralisation. »

Concernant l'impact de l'échelle du modèle sur ce problème, les auteurs ont observé une corrélation claire entre la taille, la mémorisation et les performances de recommandation, les modèles plus grands conservant non seulement une plus grande partie de l'ensemble de données MovieLens-1M, mais étant également plus performants dans les tâches en aval.

Llama-3.1 405B, par exemple, a montré un taux de mémorisation moyen de 12.9 %, tandis que Llama-3.1 8B n'en a conservé que 5.82 %. Cette réduction de près de 55 % du rappel correspondait à une baisse de 54.23 % du nDCG et de 47.36 % de la FC pour tous les seuils d'évaluation.

Le modèle s’est maintenu tout au long du processus : là où la mémorisation a diminué, la performance apparente a également diminué :

« Ces résultats suggèrent que l’augmentation de l’échelle du modèle conduit à une meilleure mémorisation de l’ensemble de données, ce qui se traduit par de meilleures performances.

« Par conséquent, même si les modèles plus grands présentent de meilleures performances de recommandation, ils présentent également des risques liés à une fuite potentielle de données de formation. »

Le test final a examinĂ© si la mĂ©morisation reflète la biais de popularitĂ© IntĂ©grĂ©s dans MovieLens-1M. Les Ă©lĂ©ments ont Ă©tĂ© regroupĂ©s par frĂ©quence d'interaction, et le graphique ci-dessous montre que les modèles les plus grands ont systĂ©matiquement favorisĂ© les entrĂ©es les plus populaires :

Couverture des articles par modèle sur trois niveaux de popularitĂ© : les 20 % les plus populaires ; les 20 % du milieu les plus populaires ; et les 20 % les moins interagis.

Couverture des articles par modèle sur trois niveaux de popularitĂ© : les 20 % les plus populaires ; les 20 % du milieu les plus populaires ; et les 20 % les moins interagis.

GPT-4o a récupéré 89.06 % des éléments les mieux classés, mais seulement 63.97 % des moins populaires. Les modèles GPT-4o mini et Llama plus petits ont montré une couverture beaucoup plus faible sur toutes les bandes. Les chercheurs affirment que cette tendance suggère que la mémorisation non seulement évolue avec la taille du modèle, mais amplifie également les déséquilibres préexistants dans les données d'apprentissage.

Ils continuent:

« Nos résultats révèlent un biais de popularité prononcé dans les LLM, les 20 % des éléments les plus populaires étant nettement plus faciles à récupérer que les 20 % les moins populaires.

« Cette tendance met en évidence l’influence de la distribution des données d’entraînement, où les films populaires sont surreprésentés, ce qui conduit à leur mémorisation disproportionnée par les modèles. »

Conclusion

Le dilemme n'est plus nouveau : Ă  mesure que les ensembles d'entraĂ®nement s'Ă©toffent, la possibilitĂ© de les organiser diminue en proportion inverse. MovieLens-1M, peut-ĂŞtre parmi tant d'autres, pĂ©nètre ces vastes corpus sans surveillance, anonyme au milieu de l'Ă©norme volume de donnĂ©es.

Le problème se répète à toutes les échelles et résiste à l'automatisation. Toute solution exige non seulement des efforts, mais aussi un jugement humain – un jugement lent et faillible que les machines ne peuvent fournir. À cet égard, le nouveau document n'offre aucune solution.

 

* Dans ce contexte, une mesure de couverture est un pourcentage qui indique la proportion de l'ensemble de donnĂ©es d'origine qu'un modèle linguistique est capable de reproduire lorsqu'on lui pose la bonne question. Si un modèle est invitĂ© Ă  fournir un identifiant de film et rĂ©pond avec le titre et le genre corrects, cela est considĂ©rĂ© comme un rappel rĂ©ussi. Le nombre total de rappels rĂ©ussis est ensuite divisĂ© par le nombre total d'entrĂ©es dans l'ensemble de donnĂ©es pour obtenir un score de couverture. Par exemple, si un modèle renvoie correctement des informations pour 800 Ă©lĂ©ments sur 1,000 80, sa couverture sera de XNUMX %.

Première publication le vendredi 16 mai 2025

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai