Anderson 视角
大型语言模型正在记忆用于测试它们的数据集

如果您依赖 AI 来推荐观看、阅读或购买的内容,新的研究表明,一些系统可能是基于记忆而不是技能来生成这些结果的:这些模型经常回忆用于评估它们的数据集中的项目,导致性能被高估和推荐可能过时或与用户不匹配的内容。
在机器学习中,测试集用于检查训练好的模型是否学会了解决类似但不相同的问题。
例如,如果一个新的 AI“犬种识别”模型在 10 万张狗的图片数据集上训练,它通常会采用 80/20 的划分——80,000 张图片用于训练模型,20,000 张图片保留用于测试完成的模型。
显然,如果 AI 的训练数据无意中包含了“秘密”的 20% 测试集,模型将会轻松通过这些测试,因为它已经知道答案(它已经看过 100% 的领域数据)。当然,这并不准确地反映模型在新数据上的性能。
电影剧透
随着模型规模的增长,AI 作弊的可能性也增加了。由于今天的系统是在大量的网络抓取数据集上训练的,例如 Common Crawl,基准数据集(即保留的 20%)进入训练混合的可能性不再是边缘情况,而是默认情况——一种称为 数据污染 的现象;在这种规模下,手动策划以捕获此类错误的工作量是不可行的。
意大利波利特尼科大学的研究人员关注了一个单一的电影推荐数据集 MovieLens-1M,他们认为它已经被几个领先的 AI 模型在训练过程中部分记忆。
由于这个数据集在推荐系统的测试中被广泛使用,其存在于模型的记忆中可能使这些测试变得毫无意义:看似智能的行为可能只是简单的回忆,而看似直觉的推荐技能可能只是统计上的回声,反映了之前的接触。
研究人员指出:
‘我们的发现表明,LLM 具有对 MovieLens-1M 数据集的广泛知识,涵盖项目、用户属性和交互历史。值得注意的是,一个简单的提示可以让 GPT-4o 回忆起数据集中大约 80% 的电影 ID 和标题。没有一个模型是完全没有这种知识的,这表明 MovieLens-1M 数据可能包含在它们的训练集中。我们观察到类似的趋势在检索用户属性和交互历史中。’
‘我们发现,LLM 具有对 MovieLens-1M 数据集的广泛知识,涵盖项目、用户属性和交互历史。一个简单的提示可以让 GPT-4o 回忆起数据集中大约 80% 的电影 ID 和标题。没有一个模型是完全没有这种知识的,这表明 MovieLens-1M 数据可能包含在它们的训练集中。我们观察到类似的趋势在检索用户属性和交互历史中。’
这篇简短的 新论文 的标题是 LLM 是否记忆推荐数据集?一项关于 MovieLens-1M 的初步研究,由六位波利特尼科大学的研究人员撰写。他们的工作流程已经在 GitHub 上公开。
方法
为了了解这些模型是否真正学习了还是只是回忆,研究人员首先定义了在此背景下记忆的含义,并开始测试模型是否能够从 MovieLens-1M 数据集中检索特定的信息。
如果一个模型可以从电影 ID 中产生标题和类型,那就被认为是记忆了一个项目;如果它可以从用户 ID 中生成用户的详细信息(例如年龄、职业或邮政编码),那也被认为是用户记忆;如果它可以重现用户的下一个电影评分,从已知的先前评分中,那就被认为是回忆了特定的交互数据,而不是学习了通用模式。
每一种回忆形式都使用精心设计的提示进行测试,提示的设计目的是在不提供新信息的情况下引导模型。回复的准确性越高,模型已经在训练过程中遇到过该数据的可能性就越大。

零次提示用于评估协议的新论文。来源:https://arxiv.org/pdf/2505.10212
数据和测试
为了收集合适的数据集,作者调查了两个主要会议的最近论文,ACM RecSys 2024 和 ACM SIGIR 2024。MovieLens-1M 出现在超过五分之一的提交中。由于 早期研究 已经得出类似的结论,这并不是一个意外的结果,而是一个确认该数据集的主导地位。
MovieLens-1M 由三个文件组成:Movies.dat,它列出了电影的 ID、标题和类型;Users.dat,它将用户 ID 映射到基本的生物信息字段;以及 Ratings.dat,它记录了谁评分了什么以及何时评分。
为了了解这些数据是否被大型语言模型记忆,研究人员使用了最初在 论文 从大型语言模型中提取训练数据 中引入的提示技术,并在后续工作 中进行了适应 从语言模型中提取训练数据的技巧集。
方法很直接:提出一个与数据集格式相匹配的问题,并查看模型是否能正确回答。 零次、思维链 和 少次 提示都被测试了,发现后者最有效;即使更复杂的方法可能会产生更高的回忆率,但这被认为足以揭示什么已经被记住了。

少次提示用于测试模型是否可以在最少上下文中重现特定的 MovieLens-1M 值。
为了衡量记忆的程度,研究人员定义了三种形式的回忆:项目、用户 和 交互。这些测试检查模型是否可以从电影 ID 中检索电影标题、从用户 ID 中生成用户详细信息或根据先前的评分预测用户的下一个评分。每个测试都使用一个覆盖度指标来评估,可以通过提示重建数据集的多少部分来计算。
被测试的模型包括 GPT-4o;GPT-4o mini;GPT-3.5 turbo;Llama-3.3 70B;Llama-3.2 3B;Llama-3.2 1B;Llama-3.1 405B;Llama-3.1 70B;和 Llama-3.1 8B。所有模型都以温度为零、top_p 为一和禁用频率和存在性惩罚运行。一个固定的 随机种子 确保了在运行中的一致输出。

从 movies.dat、users.dat 和 ratings.dat 中检索的 MovieLens-1M 条目的比例,按版本和参数数量对模型进行分组和排序。
为了检查 MovieLens-1M 被吸收的深度,研究人员提示每个模型从数据集的三个文件中检索确切的条目:Movies.dat、Users.dat 和 Ratings.dat。
初始测试的结果显示,不仅在 GPT 和 Llama 家族之间存在明显的差异,而且在不同规模的模型之间也存在差异。虽然 GPT-4o 和 GPT-3.5 turbo 很容易地检索到大量数据集,但大多数开源模型只回忆起了相同材料的一小部分,表明在预训练中对基准的接触不均匀。
这些差异并不是微小的。跨所有三个文件,表现最好的模型不仅仅在回忆率上超过了较弱的模型,而且回忆了 MovieLens-1M 的整个部分。
在 GPT-4o 的情况下,覆盖率足够高,表明数据集的非平凡部分已经被直接记忆。
研究人员指出:
‘我们的发现表明,LLM 具有对 MovieLens-1M 数据集的广泛知识,涵盖项目、用户属性和交互历史。值得注意的是,一个简单的提示可以让 GPT-4o 回忆起数据集中大约 80% 的电影 ID 和标题。没有一个模型是完全没有这种知识的,这表明 MovieLens-1M 数据可能包含在它们的训练集中。我们观察到类似的趋势在检索用户属性和交互历史中。’
‘我们发现,LLM 具有对 MovieLens-1M 数据集的广泛知识,涵盖项目、用户属性和交互历史。一个简单的提示可以让 GPT-4o 回忆起数据集中大约 80% 的电影 ID 和标题。没有一个模型是完全没有这种知识的,这表明 MovieLens-1M 数据可能包含在它们的训练集中。我们观察到类似的趋势在检索用户属性和交互历史中。’
接下来,研究人员测试了记忆对推荐任务的影响,通过提示每个模型像推荐系统一样工作。为了基准性能,他们将输出与七种标准方法进行比较:UserKNN;ItemKNN;BPRMF;EASER;LightGCN;MostPop;和 Random。
MovieLens-1M 数据集被分成 80/20 的训练集和测试集,使用 留一法 采样策略来模拟现实世界的使用。使用的指标是 命中率(HR@[n])和 nDCG(@[n])。

标准基准和基于 LLM 的方法的推荐准确率。模型按家族和参数数量对齐,粗体值表示每组最高分。
在这里,几个大型语言模型在所有指标上都超过了传统的基准,GPT-4o 在每一列都建立了巨大的领先优势,甚至中等规模的模型,如 GPT-3.5 turbo 和 Llama-3.1 405B,一致地超过了基准方法,如 BPRMF 和 LightGCN。
在较小的 Llama 变体中,性能差异很大,但 Llama-3.2 3B 脱颖而出,在其组中具有最高的 HR@1。
研究人员指出,结果表明,记忆的数据可以转化为推荐式提示中的可衡量优势,特别是对于最强大的模型。
在另外一个观察中,研究人员继续说:
‘尽管推荐性能看起来很出色,但比较表 2 和表 1 会发现一个有趣的模式。在每个组中,具有更高记忆的模型也表现出更好的推荐任务性能。例如,GPT-4o 比 GPT-4o mini 表现更好,Llama-3.1 405B 也比 Llama-3.1 70B 和 8B 表现更好。这些结果强调了评估 LLM 在其训练数据中泄露的数据集可能会导致由于记忆而不是泛化导致的过于乐观的性能。’
‘我们的发现表明,LLM 具有对 MovieLens-1M 数据集的广泛知识,涵盖项目、用户属性和交互历史。一个简单的提示可以让 GPT-4o 回忆起数据集中大约 80% 的电影 ID 和标题。没有一个模型是完全没有这种知识的,这表明 MovieLens-1M 数据可能包含在它们的训练集中。我们观察到类似的趋势在检索用户属性和交互历史中。’
关于模型规模对这一问题的影响,研究人员观察到一个明确的相关性:规模越大,记忆越多,推荐性能也越好。较大的模型不仅保留了更多的 MovieLens-1M 数据集,而且在下游任务中也表现更好。
Llama-3.1 405B 表现出 12.9% 的平均记忆率,而 Llama-3.1 8B 只保留了 5.82%。这种回忆率的减少对应着 nDCG 和 HR 的显著下降。
这种模式在整个过程中都成立——记忆力下降,性能也会下降:
‘这些发现表明,增加模型规模会导致对数据集的记忆增加,导致性能提高。因此,虽然更大的模型表现出更好的推荐性能,但它们也带来了潜在的训练数据泄露风险。’
‘这些发现表明,增加模型规模会导致对数据集的记忆增加,导致性能提高。因此,虽然更大的模型表现出更好的推荐性能,但它们也带来了潜在的训练数据泄露风险。’
最后一个测试检查了记忆是否反映了 MovieLens-1M 中的 流行度偏差。项目被分为交互频率,下面的图表显示,较大的模型一致地偏爱最流行的条目:

按三种流行度等级划分的项目覆盖率:最流行的 20%、中等流行的 20% 和最不流行的 20%。
GPT-4o 检索了 89.06% 的顶级项目,但只检索了 63.97% 的最不流行的项目。GPT-4o mini 和较小的 Llama 模型在所有带宽上都显示出明显较低的覆盖率。
研究人员继续说:
‘我们的发现揭示了 LLM 中的明显流行度偏差,前 20% 的流行项目比最不流行的 20% 更容易检索。这种趋势凸显了训练数据分布的影响,其中流行电影被过度代表,导致它们被模型不成比例地记忆。’
‘我们的发现揭示了 LLM 中的明显流行度偏差,前 20% 的流行项目比最不流行的 20% 更容易检索。这种趋势凸显了训练数据分布的影响,其中流行电影被过度代表,导致它们被模型不成比例地记忆。’
结论
这个困境已经不是新鲜事了:随着训练集的增长,策划它们的可能性会成反比地减少。MovieLens-1M,也许还有其他许多数据集,在没有监督的情况下进入了这些庞大的语料库中。
这个问题在每个规模上都存在,并且抵制自动化。任何解决方案都需要不仅仅是努力,还需要人类的判断——那种缓慢、有缺陷的判断,机器无法提供。在这方面,新论文没有提供任何前进的方法。
* 在此背景下,覆盖度指标是一个百分比,表示语言模型能够在被问及正确的问题时重建原始数据集的多少部分。如果一个模型被提示电影 ID 并以正确的标题和类型作出响应,那就被认为是一个成功的回忆。然后将成功回忆的总数除以数据集中的条目总数,得出覆盖度评分。例如,如果一个模型正确返回 1,000 个项目中的 800 个信息,其覆盖度将为 80%。
首次发布于 2025 年 5 月 16 日












