Anderson 视角
大型语言模型正在记忆用来测试它们的数据集

如果您依赖 AI 来推荐观看、阅读或购买的内容,新的研究表明,一些系统可能是基于 记忆 而不是技能:它们不学习如何提出有用的建议,而是从用来评估它们的数据集中回忆项目,导致性能被高估,并且推荐可能过时或与用户不匹配。
在机器学习中,测试集 用于检查训练模型是否学会解决类似但不相同的问题。
因此,如果一个新的 AI “犬种识别”模型在 10 万张狗的图片数据集上进行训练,通常会采用 80/20 的分割 – 8 万张图片用于训练模型;2 万张图片保留并用于测试完成的模型。
显然,如果 AI 的训练数据无意中包含“秘密”的 20% 测试集,模型将会轻松通过这些测试,因为它已经知道答案(它已经看过 100% 的域数据)。当然,这并不准确地反映模型在生产环境中处理新“实时”数据的性能。
电影剧透
AI 作弊的問題随着模型规模的增长而增长。由于今天的系统是使用庞大、不加区别的网络爬取语料库(如 Common Crawl)进行训练的,基准数据集(即保留的 20%)混入训练混合的可能性不再是边缘情况,而是默认情况 – 这是一种称为 数据污染 的综合征;在这种规模下,手动策划以捕获此类错误是 логистически不可能的。
这种情况在意大利波利特尼科迪巴里的一篇新论文中得到了探讨,研究人员关注一个电影推荐数据集 MovieLens-1M,他们认为它已经被几个领先的 AI 模型在训练期间部分 记忆。
由于该数据集在测试推荐系统中被广泛使用,其存在于模型的记忆中可能使这些测试变得毫无意义:看似智能的东西实际上可能只是简单的回忆,而看似直觉推荐技能可能只是一个统计回声,反映了早期的暴露。
作者指出:
‘我们的发现表明,LLM 具有对 MovieLens-1M 数据集的广泛知识,涵盖项目、用户属性和交互历史。值得注意的是,一个简单的提示可以使 GPT-4o 回忆起近 80% 的电影 ID:: 标题记录。没有一个检查过的模型是没有这种知识的,这表明 MovieLens-1M 数据可能包含在它们的训练集中。我们观察到类似的趋势在检索用户属性和交互历史中。’
‘我们观察到类似的趋势在检索用户属性和交互历史中。’
简短的 新论文 的标题为 LLM 是否记忆推荐数据集?关于 MovieLens-1M 的初步研究,由六位波利特尼科研究人员撰写。用于复制他们工作的流水线已在 GitHub 上提供。
方法
为了了解这些模型是否真正学习或只是回忆,研究人员首先定义了在此背景下什么是记忆,并开始测试模型是否能够在被提示时以正确的方式检索 MovieLens-1M 数据集中的特定信息。
如果模型能够从电影 ID 中产生标题和类型,那就被认为是记忆项目;如果它能够从用户 ID 中生成用户详细信息(如年龄、职业或邮政编码),那也被认为是用户记忆;如果它能够从已知序列中重现用户的下一个电影评分,那就被视为回忆 特定交互数据 的证据,而不是学习一般模式。
每一种回忆形式都使用精心设计的提示进行测试,这些提示旨在轻轻地推动模型,而不提供新信息。回应的准确性越高,模型已经在训练期间遇到该数据的可能性就越大:

用于新论文中使用的评估协议的零次提示。来源:https://arxiv.org/pdf/2505.10212
数据和测试
为了策划一个合适的数据集,作者调查了该领域两个主要会议的最近论文,ACM RecSys 2024 和 ACM SIGIR 2024。MovieLens-1M 出现在最常使用的测试推荐系统中,它在超过五分之一的投稿中被引用。
由于 早期研究 已经得出了类似的结论,这并不是一个意外的结果,而是对数据集主导地位的确认。
MovieLens-1M 由三个文件组成:Movies.dat,它按 ID、标题和类型列出电影;Users.dat,它将用户 ID 映射到基本的传记字段;以及 Ratings.dat,它记录谁评分了什么以及何时评分。
为了确定这些数据是否被大型语言模型记忆,研究人员使用了首先在 论文 从大型语言模型中提取训练数据 中引入的提示技术,并在后续工作 中进行了改进 从语言模型中提取训练数据的技巧集。
方法很直接:提出一个与数据集格式相匹配的问题,并查看模型是否正确回答。 零次、思维链 和 少次 提示都被测试过,发现最后一种方法最有效,即模型被展示几个示例;即使更复杂的方法可能会产生更高的回忆率,但这被认为足以揭示什么被记住了。

用于测试模型在最少上下文提示下是否可以复制特定 MovieLens-1M 值的少次提示。
为了衡量记忆,研究人员定义了三种形式的回忆:项目、用户 和 交互。这些测试检查模型是否能够从 ID 中检索电影标题、从用户 ID 中生成用户详细信息或根据之前的评分预测用户的下一个评分。每个测试都使用一个覆盖度指标来评分,该指标反映了可以通过提示重建数据集的多少。
被测试的模型是 GPT-4o;GPT-4o mini;GPT-3.5 turbo;Llama-3.3 70B;Llama-3.2 3B;Llama-3.2 1B;Llama-3.1 405B;Llama-3.1 70B;和 Llama-3.1 8B。所有模型都以 温度 设置为零、top_p 设置为一、频率和存在性惩罚均禁用。固定 随机种子 确保了在运行之间的一致输出。

从 movies.dat、users.dat 和 ratings.dat 中检索的 MovieLens-1M 条目的比例,按版本和参数数量对模型进行分组和排序。
为了探究 MovieLens-1M 被吸收的程度有多深,研究人员提示每个模型从数据集的三个文件(上述)中检索确切的条目:Movies.dat、Users.dat 和 Ratings.dat。
初始测试的结果显示,不仅在 GPT 和 Llama 家族之间存在明显的差异,而且在模型大小之间也存在差异。虽然 GPT-4o 和 GPT-3.5 turbo 很容易地检索了大量数据集,但大多数开源模型只回忆了相同材料的一小部分,这表明它们在预训练中对该基准的暴露不均匀。
这些并不是小幅度的差异。在所有三个文件中,较强的模型不仅优于较弱的模型,而且回忆起了 MovieLens-1M 的 整个部分。
在 GPT-4o 的情况下,覆盖范围足以表明数据集的非平凡部分已经被直接记忆。
作者指出:
‘我们的发现表明,LLM 具有对 MovieLens-1M 数据集的广泛知识,涵盖项目、用户属性和交互历史。值得注意的是,一个简单的提示可以使 GPT-4o 回忆起近 80% 的电影 ID:: 标题记录。没有一个检查过的模型是没有这种知识的,这表明 MovieLens-1M 数据可能包含在它们的训练集中。我们观察到类似的趋势在检索用户属性和交互历史中。’
‘我们观察到类似的趋势在检索用户属性和交互历史中。’
接下来,作者测试了记忆对推荐任务的影响,通过提示每个模型作为推荐系统运行。为了基准性能,他们将输出与七种标准方法进行比较:UserKNN;ItemKNN;BPRMF;EASER;LightGCN;MostPop;和 Random。
MovieLens-1M 数据集被分成 80/20 的训练集和测试集,使用 留一法 采样策略来模拟实际使用。使用的指标是 命中率(HR@[n]);和 nDCG(@[n]):

标准基准和基于 LLM 的方法的推荐准确性。模型按家族分组,按参数数量排序,粗体值表示每组内的最高分数。
这里,几个大型语言模型在所有指标上都优于传统基准,GPT-4o 在每一列都建立了广泛的领先优势,甚至中等大小的模型,如 GPT-3.5 turbo 和 Llama-3.1 405B 一致地超越了基准方法,如 BPRMF 和 LightGCN。
在较小的 Llama 变体中,性能差异很大,但 Llama-3.2 3B 在其组中表现出色,具有最高的 HR@1。
作者指出,结果表明,记忆的数据可以转化为推荐式提示中的可衡量优势,特别是对于最强大的模型。
在一个额外的观察中,研究人员继续:
‘虽然推荐性能看似出色,但比较表 2 和表 1 会发现一个有趣的模式。在每个组中,具有更高记忆的模型也表现出更好的推荐性能。例如,GPT-4o 超过 GPT-4o mini,Llama-3.1 405B 超过 Llama-3.1 70B 和 8B。这些结果强调了评估 LLM 在其训练数据中泄露的数据集可能会导致过于乐观的性能,由记忆而不是泛化驱动。’
‘例如,GPT-4o 超过 GPT-4o mini,Llama-3.1 405B 超过 Llama-3.1 70B 和 8B。这些结果强调了评估 LLM 在其训练数据中泄露的数据集可能会导致过于乐观的性能,由记忆而不是泛化驱动。’
‘这些结果强调了评估 LLM 在其训练数据中泄露的数据集可能会导致过于乐观的性能,由记忆而不是泛化驱动。’
关于模型规模对这一问题的影响,作者观察到了一种明显的相关性,即规模、记忆和推荐性能之间的相关性,较大的模型不仅保留了更多的 MovieLens-1M 数据集,而且在下游任务中也表现得更好。
例如,Llama-3.1 405B 表现出 12.9% 的平均记忆率,而 Llama-3.1 8B 只保留了 5.82%。这种记忆回忆减少了近 55%,这与 nDCG 和 HR 在评估截止点上的 54.23% 和 47.36% 的下降相对应。
这种模式在整个过程中都存在 – 记忆力减少,性能也会减少:
‘这些发现表明,增加模型规模会导致对数据集的记忆增加,从而导致性能提高。因此,虽然更大的模型表现出更好的推荐性能,但它们也带来了与潜在训练数据泄露相关的风险。’
‘因此,虽然更大的模型表现出更好的推荐性能,但它们也带来了与潜在训练数据泄露相关的风险。’
最后一个测试检查了记忆是否反映了 MovieLens-1M 中的 流行度偏差。项目按交互频率分组,下面的图表显示了较大的模型一致地偏爱最流行的条目:

项目覆盖范围按模型和三个流行度等级划分:最流行的 20%、中等流行的 20% 和最不互动的 20%。
GPT-4o 回忆起了 89.06% 的顶级项目,但只有 63.97% 的最不流行的项目。GPT-4o mini 和较小的 Llama 模型在所有频段中都显示出明显较低的覆盖率。研究人员指出,这种趋势表明记忆不仅随着模型大小的增加而增加,而且还放大了训练数据中已有的不平衡。
他们继续说:
‘我们的发现揭示了 LLM 中的明显流行度偏差,20% 最流行的项目比 20% 最不流行的项目更容易检索。这种趋势突出了训练数据分布的影响,其中流行的电影被过度表示,导致模型过度记忆。’
‘这种趋势突出了训练数据分布的影响,其中流行的电影被过度表示,导致模型过度记忆。’
结论
困境并非新鲜事:随着训练集的增长,策划它们的前景会成反比减少。MovieLens-1M,也许还有其他许多数据集,都进入了这些庞大的语料库中,没有任何监督,在数据的庞大体积中默默无闻。
这个问题在每个规模上都重复出现,并且抵制自动化。任何解决方案都需要不仅仅是努力,还需要人类的判断 – 那种缓慢、容易出错的判断,机器无法提供。在这方面,新论文没有提供任何前进的方法。
* 在此背景下,覆盖度指标是百分比,显示语言模型在被问及正确问题时能够重现原始数据集的多少。例如,如果模型被提示电影 ID 并正确响应标题和类型,则计为成功回忆。然后将成功回忆的总数除以数据集中的条目总数,得出覆盖度评分。例如,如果模型正确返回 1,000 个项目中的 800 个信息,则其覆盖度为 80%。
首次发布于 2025 年 5 月 16 日












