Anderson 视角

大型语言模型正在记忆用来测试它们的数据集

Published May 16, 2025

Updated April 26, 2026

Martin Anderson

'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

如果您依赖 AI 来推荐观看、阅读或购买的内容，新的研究表明，一些系统可能是基于 记忆 而不是技能：它们不学习如何提出有用的建议，而是从用来评估它们的数据集中回忆项目，导致性能被高估，并且推荐可能过时或与用户不匹配。

在机器学习中，测试集用于检查训练模型是否学会解决类似但不相同的问题。

因此，如果一个新的 AI “犬种识别”模型在 10 万张狗的图片数据集上进行训练，通常会采用 80/20 的分割 – 8 万张图片用于训练模型；2 万张图片保留并用于测试完成的模型。

显然，如果 AI 的训练数据无意中包含“秘密”的 20% 测试集，模型将会轻松通过这些测试，因为它已经知道答案（它已经看过 100% 的域数据）。当然，这并不准确地反映模型在生产环境中处理新“实时”数据的性能。

电影剧透

AI 作弊的問題随着模型规模的增长而增长。由于今天的系统是使用庞大、不加区别的网络爬取语料库（如 Common Crawl）进行训练的，基准数据集（即保留的 20%）混入训练混合的可能性不再是边缘情况，而是默认情况 – 这是一种称为数据污染的综合征；在这种规模下，手动策划以捕获此类错误是 логистически不可能的。

这种情况在意大利波利特尼科迪巴里的一篇新论文中得到了探讨，研究人员关注一个电影推荐数据集 MovieLens-1M，他们认为它已经被几个领先的 AI 模型在训练期间部分记忆。

由于该数据集在测试推荐系统中被广泛使用，其存在于模型的记忆中可能使这些测试变得毫无意义：看似智能的东西实际上可能只是简单的回忆，而看似直觉推荐技能可能只是一个统计回声，反映了早期的暴露。

作者指出：

‘我们的发现表明，LLM 具有对 MovieLens-1M 数据集的广泛知识，涵盖项目、用户属性和交互历史。值得注意的是，一个简单的提示可以使 GPT-4o 回忆起近 80% 的电影 ID:: 标题记录。没有一个检查过的模型是没有这种知识的，这表明 MovieLens-1M 数据可能包含在它们的训练集中。我们观察到类似的趋势在检索用户属性和交互历史中。’

‘我们观察到类似的趋势在检索用户属性和交互历史中。’

简短的新论文的标题为 LLM 是否记忆推荐数据集？关于 MovieLens-1M 的初步研究，由六位波利特尼科研究人员撰写。用于复制他们工作的流水线已在 GitHub 上提供。

方法

为了了解这些模型是否真正学习或只是回忆，研究人员首先定义了在此背景下什么是记忆，并开始测试模型是否能够在被提示时以正确的方式检索 MovieLens-1M 数据集中的特定信息。

如果模型能够从电影 ID 中产生标题和类型，那就被认为是记忆项目；如果它能够从用户 ID 中生成用户详细信息（如年龄、职业或邮政编码），那也被认为是用户记忆；如果它能够从已知序列中重现用户的下一个电影评分，那就被视为回忆 特定交互数据 的证据，而不是学习一般模式。

每一种回忆形式都使用精心设计的提示进行测试，这些提示旨在轻轻地推动模型，而不提供新信息。回应的准确性越高，模型已经在训练期间遇到该数据的可能性就越大：

用于新论文中使用的评估协议的零次提示。来源：https://arxiv.org/pdf/2505.10212

数据和测试

为了策划一个合适的数据集，作者调查了该领域两个主要会议的最近论文，ACM RecSys 2024 和 ACM SIGIR 2024。MovieLens-1M 出现在最常使用的测试推荐系统中，它在超过五分之一的投稿中被引用。

由于早期研究已经得出了类似的结论，这并不是一个意外的结果，而是对数据集主导地位的确认。

MovieLens-1M 由三个文件组成：Movies.dat，它按 ID、标题和类型列出电影；Users.dat，它将用户 ID 映射到基本的传记字段；以及 Ratings.dat，它记录谁评分了什么以及何时评分。

为了确定这些数据是否被大型语言模型记忆，研究人员使用了首先在论文 从大型语言模型中提取训练数据 中引入的提示技术，并在后续工作中进行了改进 从语言模型中提取训练数据的技巧集。

方法很直接：提出一个与数据集格式相匹配的问题，并查看模型是否正确回答。零次、思维链 和少次提示都被测试过，发现最后一种方法最有效，即模型被展示几个示例；即使更复杂的方法可能会产生更高的回忆率，但这被认为足以揭示什么被记住了。

用于测试模型在最少上下文提示下是否可以复制特定 MovieLens-1M 值的少次提示。

为了衡量记忆，研究人员定义了三种形式的回忆：项目、用户和交互。这些测试检查模型是否能够从 ID 中检索电影标题、从用户 ID 中生成用户详细信息或根据之前的评分预测用户的下一个评分。每个测试都使用一个覆盖度指标来评分，该指标反映了可以通过提示重建数据集的多少。

被测试的模型是 GPT-4o；GPT-4o mini；GPT-3.5 turbo；Llama-3.3 70B；Llama-3.2 3B；Llama-3.2 1B；Llama-3.1 405B；Llama-3.1 70B；和 Llama-3.1 8B。所有模型都以温度设置为零、top_p 设置为一、频率和存在性惩罚均禁用。固定随机种子确保了在运行之间的一致输出。

从 movies.dat、users.dat 和 ratings.dat 中检索的 MovieLens-1M 条目的比例，按版本和参数数量对模型进行分组和排序。

为了探究 MovieLens-1M 被吸收的程度有多深，研究人员提示每个模型从数据集的三个文件（上述）中检索确切的条目：Movies.dat、Users.dat 和 Ratings.dat。

初始测试的结果显示，不仅在 GPT 和 Llama 家族之间存在明显的差异，而且在模型大小之间也存在差异。虽然 GPT-4o 和 GPT-3.5 turbo 很容易地检索了大量数据集，但大多数开源模型只回忆了相同材料的一小部分，这表明它们在预训练中对该基准的暴露不均匀。

这些并不是小幅度的差异。在所有三个文件中，较强的模型不仅优于较弱的模型，而且回忆起了 MovieLens-1M 的 整个部分。

在 GPT-4o 的情况下，覆盖范围足以表明数据集的非平凡部分已经被直接记忆。

作者指出：

‘我们观察到类似的趋势在检索用户属性和交互历史中。’

接下来，作者测试了记忆对推荐任务的影响，通过提示每个模型作为推荐系统运行。为了基准性能，他们将输出与七种标准方法进行比较：UserKNN；ItemKNN；BPRMF；EASE^R；LightGCN；MostPop；和 Random。

MovieLens-1M 数据集被分成 80/20 的训练集和测试集，使用留一法采样策略来模拟实际使用。使用的指标是命中率（HR@[n]）；和 nDCG(@[n])：

标准基准和基于 LLM 的方法的推荐准确性。模型按家族分组，按参数数量排序，粗体值表示每组内的最高分数。

这里，几个大型语言模型在所有指标上都优于传统基准，GPT-4o 在每一列都建立了广泛的领先优势，甚至中等大小的模型，如 GPT-3.5 turbo 和 Llama-3.1 405B 一致地超越了基准方法，如 BPRMF 和 LightGCN。

在较小的 Llama 变体中，性能差异很大，但 Llama-3.2 3B 在其组中表现出色，具有最高的 HR@1。

作者指出，结果表明，记忆的数据可以转化为推荐式提示中的可衡量优势，特别是对于最强大的模型。

在一个额外的观察中，研究人员继续：

‘虽然推荐性能看似出色，但比较表 2 和表 1 会发现一个有趣的模式。在每个组中，具有更高记忆的模型也表现出更好的推荐性能。例如，GPT-4o 超过 GPT-4o mini，Llama-3.1 405B 超过 Llama-3.1 70B 和 8B。这些结果强调了评估 LLM 在其训练数据中泄露的数据集可能会导致过于乐观的性能，由记忆而不是泛化驱动。’

‘例如，GPT-4o 超过 GPT-4o mini，Llama-3.1 405B 超过 Llama-3.1 70B 和 8B。这些结果强调了评估 LLM 在其训练数据中泄露的数据集可能会导致过于乐观的性能，由记忆而不是泛化驱动。’

‘这些结果强调了评估 LLM 在其训练数据中泄露的数据集可能会导致过于乐观的性能，由记忆而不是泛化驱动。’

关于模型规模对这一问题的影响，作者观察到了一种明显的相关性，即规模、记忆和推荐性能之间的相关性，较大的模型不仅保留了更多的 MovieLens-1M 数据集，而且在下游任务中也表现得更好。

例如，Llama-3.1 405B 表现出 12.9% 的平均记忆率，而 Llama-3.1 8B 只保留了 5.82%。这种记忆回忆减少了近 55%，这与 nDCG 和 HR 在评估截止点上的 54.23% 和 47.36% 的下降相对应。

这种模式在整个过程中都存在 – 记忆力减少，性能也会减少：

‘这些发现表明，增加模型规模会导致对数据集的记忆增加，从而导致性能提高。因此，虽然更大的模型表现出更好的推荐性能，但它们也带来了与潜在训练数据泄露相关的风险。’

‘因此，虽然更大的模型表现出更好的推荐性能，但它们也带来了与潜在训练数据泄露相关的风险。’

最后一个测试检查了记忆是否反映了 MovieLens-1M 中的流行度偏差。项目按交互频率分组，下面的图表显示了较大的模型一致地偏爱最流行的条目：

项目覆盖范围按模型和三个流行度等级划分：最流行的 20%、中等流行的 20% 和最不互动的 20%。

GPT-4o 回忆起了 89.06% 的顶级项目，但只有 63.97% 的最不流行的项目。GPT-4o mini 和较小的 Llama 模型在所有频段中都显示出明显较低的覆盖率。研究人员指出，这种趋势表明记忆不仅随着模型大小的增加而增加，而且还放大了训练数据中已有的不平衡。

他们继续说：

‘我们的发现揭示了 LLM 中的明显流行度偏差，20% 最流行的项目比 20% 最不流行的项目更容易检索。这种趋势突出了训练数据分布的影响，其中流行的电影被过度表示，导致模型过度记忆。’

‘这种趋势突出了训练数据分布的影响，其中流行的电影被过度表示，导致模型过度记忆。’

结论

困境并非新鲜事：随着训练集的增长，策划它们的前景会成反比减少。MovieLens-1M，也许还有其他许多数据集，都进入了这些庞大的语料库中，没有任何监督，在数据的庞大体积中默默无闻。

这个问题在每个规模上都重复出现，并且抵制自动化。任何解决方案都需要不仅仅是努力，还需要人类的判断 – 那种缓慢、容易出错的判断，机器无法提供。在这方面，新论文没有提供任何前进的方法。

* 在此背景下，覆盖度指标是百分比，显示语言模型在被问及正确问题时能够重现原始数据集的多少。例如，如果模型被提示电影 ID 并正确响应标题和类型，则计为成功回忆。然后将成功回忆的总数除以数据集中的条目总数，得出覆盖度评分。例如，如果模型正确返回 1,000 个项目中的 800 个信息，则其覆盖度为 80%。

首次发布于 2025 年 5 月 16 日