人工智能
真实身份可以从合成数据集中恢复

如果 2022 年标志着生成式 AI 的颠覆性潜力首次引起广泛的公众关注,那么 2024 年则是企业在渴望利用其力量的同时,关于其底层数据合法性的问题成为中心话题的年份。
美国的 合理使用原则,以及长期以来允许学术和商业研究部门探索生成式 AI 的隐含学术许可,变得越来越难以维持,因为大量 抄袭证据浮出水面。随后,美国目前 不允许 AI 生成的内容被版权保护。
这些问题远未解决,也不会很快解决;2023 年,由于 媒体和公众对生成式 AI 输出的法律地位的担忧日益增长,美国版权局对此方面的生成式 AI 进行了为期数年的调查,并在 2024 年 7 月发布了 第一部分报告(关于数字复制品的报告)。
与此同时,企业利益因可能使他们面临法律后果而感到沮丧,因为他们希望利用的昂贵模型最终会带来明确的立法和定义。
昂贵的短期解决方案是通过训练模型使用公司有权利用的数据来使生成式模型合法化。Adobe 的文本到图像(现在还有 文本到视频)Firefly 架构主要由其 购买 2014 年的 Fotolia 股票图像数据集提供动力,补充 使用已过期的公共领域数据*. 同时,现有的股票照片供应商,如 Getty 和 Shutterstock,已经 利用 新的许可数据价值,并且有越来越多的协议来许可内容或开发自己的知识产权合规 GenAI 系统。
合成解决方案
由于从训练好的 AI 模型的 潜在空间 中删除版权数据存在问题,因此在此领域的错误可能会给使用机器学习的消费者和商业解决方案的公司带来巨大的成本。
一种替代且更便宜的解决方案是使用 合成数据,其中数据集由目标领域的随机生成示例组成(例如面部、猫、教堂,甚至更广泛的数据集)。
像 thispersondoesnotexist.com 这样的网站早已推广了使用生成式对抗网络(GAN)等技术生成看似真实的“非真实”人脸照片的想法,而这些照片与现实世界中实际存在的人无关。
因此,如果您在此类抽象和非真实示例上训练面部识别系统或生成系统,您可以在理论上获得 AI 模型的逼真生产标准,而无需考虑数据是否合法可用。
平衡行为
问题在于,生成合成数据的系统本身是使用真实数据训练的。如果这些数据中的痕迹渗透到合成数据中,这可能表明受限制或未经授权的材料已被用于经济利益。
为了避免这种情况,并生成真正“随机”的图像,这些模型需要确保它们是良好的 泛化。 泛化 是指训练好的 AI 模型能够内在地理解高级概念(例如 “面部”、“男人” 或 “女人”)而无需复制实际训练数据的能力。
不幸的是,训练系统可能很难产生(或识别)细节,除非它在数据集上进行了大量训练。这使系统面临 记忆 的风险:一种重现实际训练数据的趋势。
这可以通过设置更松弛的 学习率 或通过在核心概念仍然可塑且未与任何特定数据点(例如面部数据集中的特定人脸图像)关联时结束训练来缓解。
然而,这两种补救措施可能会导致模型的细节更少,因为系统没有机会超越目标领域的“基础知识”并深入到具体细节。
因此,在科学文献中,通常应用非常高的学习率和综合训练计划。虽然研究人员通常试图在最终模型中平衡广泛的适用性和细节,但即使稍微“记忆”的系统也经常将自己误认为是良好的泛化 – 即使在初步测试中也是如此。
面部揭露
这引出了瑞士的一个有趣新论文,该论文声称是第一个证明可以从理论上完全随机的生成图像中恢复原始的真实图像:

从训练数据中泄露的示例面部图像。在上面一行中,我们看到原始(真实)的图像;在下面一行中,我们看到随机生成的图像,它们在很大程度上符合真实图像。 来源:https://arxiv.org/pdf/2410.24015
作者认为,结果表明“合成”生成器确实记住了大量的训练数据点,以实现更大的细节。他们还指出,依赖合成数据来保护 AI 生产者免受法律后果的系统在这方面可能非常不可靠。
研究人员对六个最先进的合成数据集进行了广泛的研究,证明在所有情况下,原始(可能受版权保护或受保护)的数据都可以恢复。他们评论说:
‘我们的实验表明,目前最先进的合成面部识别数据集包含的样本与其生成器模型的训练数据非常接近。在某些情况下,合成样本与原始图像有细微的变化,但我们也可以观察到,在某些情况下,生成的样本具有更多的变化(例如,不同的姿势、光照条件等),同时保持身份。这表明生成器模型正在学习和记忆训练数据中的身份相关信息,并可能生成类似的身份。这引发了人们对在隐私敏感任务(如生物识别和面部识别)中使用合成数据的严重担忧。’
该论文 题为 揭示合成面部:合成数据集如何暴露真实身份,来自瑞士马蒂尼的 Idiap 研究所、洛桑的联邦理工学院(EPFL)和洛桑大学(UNIL)的两位研究人员。
方法、数据和结果
该研究中记忆的面部是通过 会员推断攻击揭示的。虽然这个概念听起来很复杂,但它实际上是很容易理解的:在这种情况下,会员推断是指询问系统,直到它揭示与您正在寻找的数据匹配或非常相似的数据。

从研究中获得的推断数据源的进一步示例。在这种情况下,源合成图像是来自 DCFace 数据集。
研究人员研究了六个合成数据集,其中(真实)数据集来源已知。由于所讨论的真实和假数据集都包含大量图像,因此这相当于在 haystack 中寻找一根针。
因此,作者使用了一个开源的面部识别模型†,其 ResNet100 主干网络是在 AdaFace 损失函数(在 WebFace12M 数据集上)上训练的。
所用的六个合成数据集是:DCFace(一个潜在扩散模型);IDiff-Face(均匀 – 一个基于 FFHQ 的扩散模型);IDiff-Face(两阶段 – 使用不同采样方法的变体);GANDiffFace(基于生成式对抗网络和扩散模型,使用 StyleGAN3 生成初始身份,然后使用 DreamBooth 创建多样化的示例);IDNet(一个基于 StyleGAN-ADA 的 GAN 方法);以及 SFace(一个保护身份的框架)。
由于 GANDiffFace 使用 GAN 和扩散方法,因此它被比较为 StyleGAN 的训练数据集 – 这个网络提供的最接近“真实面部”的起源。
作者排除了使用 CGI 而不是 AI 方法的合成数据集,并在评估结果时,对于儿童(由于此方面的分布异常)以及非面部图像(在面部数据集中经常出现,因为网页抓取系统产生具有面部特征的对象或伪像的假阳性)进行了匹配的排除。
余弦相似度 计算了所有检索到的对,并连接到直方图中,如下所示:

对不同数据集计算的余弦相似度得分的直方图表示,以及 top-k 对的相似度值(虚线)。
相似度的数量在上面的图中以峰值表示。该论文还包含六个数据集及其在原始(真实)数据集中估计的图像的示例比较,以及一些选择,如下所示:

源论文中重现的许多实例的示例,读者可以参考更全面的选择。
该论文评论说:
‘[生成的] 合成数据集包含的图像与其生成器模型的训练集非常相似,这引发了人们对生成此类身份的担忧。’
作者指出,对于这种方法,扩大到更大规模的数据集可能效率不高,因为必要的计算将非常繁重。他们还观察到,需要视觉比较来推断匹配,而仅凭自动面部识别可能不足以完成更大的任务。
关于研究的影响以及未来发展的前景,该工作指出:
‘[我们] 想要强调的是,生成合成数据集的主要动机是解决使用大规模网络爬虫面部数据集时的隐私问题。 ‘
‘因此,合成数据集中的任何敏感信息(例如训练数据中的真实图像的身份)的泄露都会引发人们对在隐私敏感任务(如生物识别)中使用合成数据的严重担忧。我们的研究揭示了生成合成面部识别数据集的隐私陷阱,并为未来的研究铺平了道路,以生成负责任的合成面部数据集。’
虽然作者承诺在 项目页面 发布此项工作的代码,但目前尚无仓库链接。
结论
最近,媒体关注了训练 AI 模型在 AI 生成数据上的 递减回报。
然而,瑞士的新研究将人们的注意力集中在可能对希望利用和从中获利的生成式 AI 的日益增长的公司来说更为紧迫的问题上 – 即使在旨在抵制此类做法的数据集中,也可能仍然存在知识产权受保护或未经授权的数据模式。如果我们必须给它一个定义,那么在这种情况下,它可能被称为“面部洗钱”。
* 然而,Adobe 允许用户上传的 AI 生成图像到 Adobe Stock,这实际上破坏了此数据的法律“纯度”。彭博社 声称 2024 年 4 月,MidJourney 生成式 AI 系统的用户提供的图像已被纳入 Firefly 的功能。
† 该论文中未指定此模型。
首次发布于 2024 年 11 月 6 日












