人工智能

真实身份可以从合成数据集中恢复

Published November 6, 2024

Updated April 27, 2026

Martin Anderson

Sample comparison images from the paper 'Unveiling Synthetic Faces: How Synthetic Datasets Can Expose Real Identities', including original images (top), and inferred images (bottom).

如果 2022 年标志着生成式 AI 的颠覆性潜力首次引起广泛的公众关注，那么 2024 年则是企业在渴望利用其力量的同时，关于其底层数据合法性的问题成为中心话题的年份。

美国的合理使用原则，以及长期以来允许学术和商业研究部门探索生成式 AI 的隐含学术许可，变得越来越难以维持，因为大量抄袭证据浮出水面。随后，美国目前不允许 AI 生成的内容被版权保护。

这些问题远未解决，也不会很快解决；2023 年，由于媒体和公众对生成式 AI 输出的法律地位的担忧日益增长，美国版权局对此方面的生成式 AI 进行了为期数年的调查，并在 2024 年 7 月发布了第一部分报告(关于数字复制品的报告)。

与此同时，企业利益因可能使他们面临法律后果而感到沮丧，因为他们希望利用的昂贵模型最终会带来明确的立法和定义。

昂贵的短期解决方案是通过训练模型使用公司有权利用的数据来使生成式模型合法化。Adobe 的文本到图像（现在还有文本到视频）Firefly 架构主要由其购买 2014 年的 Fotolia 股票图像数据集提供动力，补充使用已过期的公共领域数据*. 同时，现有的股票照片供应商，如 Getty 和 Shutterstock，已经利用新的许可数据价值，并且有越来越多的协议来许可内容或开发自己的知识产权合规 GenAI 系统。

合成解决方案

由于从训练好的 AI 模型的潜在空间中删除版权数据存在问题，因此在此领域的错误可能会给使用机器学习的消费者和商业解决方案的公司带来巨大的成本。

一种替代且更便宜的解决方案是使用合成数据，其中数据集由目标领域的随机生成示例组成（例如面部、猫、教堂，甚至更广泛的数据集）。

像 thispersondoesnotexist.com 这样的网站早已推广了使用生成式对抗网络（GAN）等技术生成看似真实的“非真实”人脸照片的想法，而这些照片与现实世界中实际存在的人无关。

因此，如果您在此类抽象和非真实示例上训练面部识别系统或生成系统，您可以在理论上获得 AI 模型的逼真生产标准，而无需考虑数据是否合法可用。

平衡行为

问题在于，生成合成数据的系统本身是使用真实数据训练的。如果这些数据中的痕迹渗透到合成数据中，这可能表明受限制或未经授权的材料已被用于经济利益。

为了避免这种情况，并生成真正“随机”的图像，这些模型需要确保它们是良好的泛化。泛化是指训练好的 AI 模型能够内在地理解高级概念（例如 “面部”、“男人” 或 “女人”）而无需复制实际训练数据的能力。

不幸的是，训练系统可能很难产生（或识别）细节，除非它在数据集上进行了大量训练。这使系统面临记忆的风险：一种重现实际训练数据的趋势。

这可以通过设置更松弛的 学习率 或通过在核心概念仍然可塑且未与任何特定数据点（例如面部数据集中的特定人脸图像）关联时结束训练来缓解。

然而，这两种补救措施可能会导致模型的细节更少，因为系统没有机会超越目标领域的“基础知识”并深入到具体细节。

因此，在科学文献中，通常应用非常高的学习率和综合训练计划。虽然研究人员通常试图在最终模型中平衡广泛的适用性和细节，但即使稍微“记忆”的系统也经常将自己误认为是良好的泛化 – 即使在初步测试中也是如此。

面部揭露

这引出了瑞士的一个有趣新论文，该论文声称是第一个证明可以从理论上完全随机的生成图像中恢复原始的真实图像：

从训练数据中泄露的示例面部图像。在上面一行中，我们看到原始（真实）的图像；在下面一行中，我们看到随机生成的图像，它们在很大程度上符合真实图像。来源：https://arxiv.org/pdf/2410.24015

作者认为，结果表明“合成”生成器确实记住了大量的训练数据点，以实现更大的细节。他们还指出，依赖合成数据来保护 AI 生产者免受法律后果的系统在这方面可能非常不可靠。

研究人员对六个最先进的合成数据集进行了广泛的研究，证明在所有情况下，原始（可能受版权保护或受保护）的数据都可以恢复。他们评论说：

‘我们的实验表明，目前最先进的合成面部识别数据集包含的样本与其生成器模型的训练数据非常接近。在某些情况下，合成样本与原始图像有细微的变化，但我们也可以观察到，在某些情况下，生成的样本具有更多的变化（例如，不同的姿势、光照条件等），同时保持身份。这表明生成器模型正在学习和记忆训练数据中的身份相关信息，并可能生成类似的身份。这引发了人们对在隐私敏感任务（如生物识别和面部识别）中使用合成数据的严重担忧。’

该论文题为 揭示合成面部：合成数据集如何暴露真实身份，来自瑞士马蒂尼的 Idiap 研究所、洛桑的联邦理工学院（EPFL）和洛桑大学（UNIL）的两位研究人员。

方法、数据和结果

该研究中记忆的面部是通过会员推断攻击揭示的。虽然这个概念听起来很复杂，但它实际上是很容易理解的：在这种情况下，会员推断是指询问系统，直到它揭示与您正在寻找的数据匹配或非常相似的数据。

从研究中获得的推断数据源的进一步示例。在这种情况下，源合成图像是来自 DCFace 数据集。

研究人员研究了六个合成数据集，其中（真实）数据集来源已知。由于所讨论的真实和假数据集都包含大量图像，因此这相当于在 haystack 中寻找一根针。

因此，作者使用了一个开源的面部识别模型^†，其 ResNet100 主干网络是在 AdaFace 损失函数（在 WebFace12M 数据集上）上训练的。

所用的六个合成数据集是：DCFace（一个潜在扩散模型）；IDiff-Face（均匀 – 一个基于 FFHQ 的扩散模型）；IDiff-Face（两阶段 – 使用不同采样方法的变体）；GANDiffFace（基于生成式对抗网络和扩散模型，使用 StyleGAN3 生成初始身份，然后使用 DreamBooth 创建多样化的示例）；IDNet（一个基于 StyleGAN-ADA 的 GAN 方法）；以及 SFace（一个保护身份的框架）。

由于 GANDiffFace 使用 GAN 和扩散方法，因此它被比较为 StyleGAN 的训练数据集 – 这个网络提供的最接近“真实面部”的起源。

作者排除了使用 CGI 而不是 AI 方法的合成数据集，并在评估结果时，对于儿童（由于此方面的分布异常）以及非面部图像（在面部数据集中经常出现，因为网页抓取系统产生具有面部特征的对象或伪像的假阳性）进行了匹配的排除。

余弦相似度计算了所有检索到的对，并连接到直方图中，如下所示：