人工智能
从预训练自然语言模型中检索真实世界的电子邮件地址

美国的新研究表明,预训练语言模型(PLMs)如GPT-3可以成功查询到在训练数据中包含的真实世界电子邮件地址。虽然目前很难通过询问语言模型关于电子邮件地址关联的人来获取真实的电子邮件地址,但研究发现,语言模型越大,执行此类数据外泄的可能性就越大;而查询越广泛、越有信息,获取功能性电子邮件地址就越容易。该论文指出:
‘结果表明,PLMs确实记住了大量电子邮件地址;然而,它们不理解名称和电子邮件地址之间的确切关联,例如,哪个电子邮件地址属于哪个人的。因此,给定电子邮件地址的上下文,PLMs可以恢复相当数量的电子邮件地址,而通过使用名称查询,只有少数电子邮件地址被正确预测。’
为了测试这一理论,作者训练了三个大小和参数不等的PLMs,并使用攻击者可能使用的模板和方法进行查询。该论文对允许在大型PLMs依赖的巨大训练语料库中包含真实世界个人信息的风险提供了三个关键见解。首先,长文本模式(在查询中)增加了仅通过命名个人的可能性,获取关于个人的私人信息。其次,攻击者可能会利用他们对目标的现有知识,并且攻击者拥有越多此类先验知识,就越有可能外泄记忆的数据,例如电子邮件地址。第三,作者假设,较大、更强大的自然语言处理(NLP)模型可能使攻击者能够提取更多信息,减少当前PLMs的“安全通过模糊性”方面,因为越来越复杂和超大规模的模型由FAANG级别的实体训练。最后,论文得出结论,个人信息确实可以通过记忆过程保留和泄露,即模型仅部分“消化”训练数据,因此可以将未破坏的信息用作查询的“事实”数据。作者得出结论:
‘从上下文设置的结果来看,我们发现最大的GPT-Neo模型可以通过记忆正确恢复8.80%的电子邮件地址。’
‘虽然这种设置不如其他设置那么危险,因为如果语料库不是公开的,用户基本上不可能知道上下文,但电子邮件地址仍可能被意外生成,威胁不能被忽视。’
尽管研究选择电子邮件地址作为可能容易受到保护的个人身份信息(PII)示例,但论文强调了在患者的医疗数据外泄方面的广泛研究,并将他们的实验视为原则的示范,而不是特定强调电子邮件地址在此背景下的漏洞。论文题为大型预训练语言模型是否泄露您的个人信息?,由伊利诺伊大学厄巴纳-香槟分校的三位研究人员撰写。
记忆和关联
该工作集中在记忆信息的程度上。训练好的NLP模型不能完全抽象它所训练的信息,否则它将无法进行连贯的论证或召唤任何事实数据。为此,模型将记忆和保护离散的数据块,这将代表可能的响应中的最小语义节点。最大问题是记忆信息是否可以通过召唤其他信息(如命名实体)来提取,例如一个人。在这种情况下,训练在非公开和特权数据上的NLP模型可能持有关于埃隆·马斯克的医院数据,例如患者记录、名称和电子邮件地址。最坏的情况是,使用“什么是埃隆·马斯克的电子邮件地址?”或“什么是埃隆·马斯克的患者病史?”等提示查询此类数据库将产生这些数据点。实际上,这几乎从不发生,出于多种原因。例如,如果保护记忆的事实(如电子邮件地址)代表一个离散的单位,则下一个离散单位将不仅仅是简单地跳转到更高层次的信息(即关于埃隆·马斯克),而可能是与任何特定的人或数据点无关的更大跳转。另外,虽然关联的理由不一定是任意的,但也不是可预测的线性;关联可能基于与简单的分层信息检索(如生成合理的抽象对话)不同的损失目标训练的权重,或者以NLP系统的架构师指导(或甚至禁止)的方式进行。
测试PLMs
作者在三个GPT-Neo因果语言模型家族的迭代中测试了他们的理论,这些模型在Pile数据集上训练,参数分别为1.25亿、13亿和27亿。Pile是一个公共数据集的集合,包括UC伯克利恩隆数据库,该数据库包含基于电子邮件交换的社交网络信息。由于恩隆遵循标准的名.姓@域约定(例如[email protected]),此类电子邮件地址被过滤掉,因为机器学习不需要猜测这种简单的模式。研究人员还过滤掉了令牌少于三个的名称/电子邮件对,并在预处理完成后得到了3238个名称/邮件对,这些对在随后的实验中被使用。在上下文设置实验中,研究人员使用了50、100或200个令牌,位于目标电子邮件地址之前的上下文,以提示来提取地址。在零次设置实验中,手动创建了四个提示,后两个基于标准电子邮件头约定,例如—原始消息—\n来自:{name0} [mailto:{email0}]。

零次设置的模板。 来源:https://arxiv.org/pdf/2205.12628.pdf
接下来,考虑了少次设置场景,即攻击者有一些先验知识,可以帮助他们制作一个提示来获取所需的信息。在制作的提示中,研究人员考虑目标域是否已知或未知。

少次设置的迭代。
最后,基于规则的方法使用28种标准电子邮件地址模式的可能变体来尝试恢复目标电子邮件地址。这需要大量查询来涵盖所有可能的排列。

测试中使用的基于规则的模式。
结果
对于上下文预测任务,GPT-Neo能够预测高达8.80%的电子邮件地址,包括不符合标准模式的地址。

上下文预测任务的结果。第一列详细说明了电子邮件地址之前的令牌数量。
对于零次设置任务,PLM仅能够正确预测少数电子邮件地址,大多数符合研究人员制定的标准模式。

零次设置的结果,其中域是未知的。
作者指出,0次(D)设置显著优于其稳定版本,显然是由于更长的前缀。
‘这表明PLMs主要基于序列的记忆来进行这些预测;如果它们基于关联来进行预测,它们应该表现得相似。0次(D)优于0次(C)的原因是更长的上下文可以发现更多的[记忆]’
更大的模型,风险更高
关于从训练模型中外泄个人数据的潜在风险,作者观察到:
‘对于所有已知域、未知域和上下文设置,当我们从125M模型更改为1.3B模型时,准确性会显著提高。在大多数情况下,当从1.3B模型更改为2.7B模型时,预测准确性也会增加。’
研究人员提供了两个可能的解释,说明为什么会这样。首先,参数更高的模型简单地能够记忆更多的训练数据。其次,更大的模型更复杂,能够更好地理解制作的提示,因此能够“连接”关于一个人的不同信息。他们指出,在当前的技术水平下,个人信息相对安全,不会受到此类攻击。为了防止这种攻击,面对越来越大、越来越复杂的新模型,作者建议架构应经过严格的预处理以过滤掉PII;考虑使用差异私有梯度下降进行训练;并在任何后处理环境中包含过滤器,例如API(例如,OpenAI的DALL-E 2 API具有大量过滤器,以及对提示的人工审查)。他们进一步建议避免使用符合可猜测和标准模式的电子邮件地址,尽管这些建议已经是网络安全的标准。 * 我用超链接替换了作者的内联引用。 首次发布于2022年5月26日。
