人工智能

重识别 GAN 生成器的源数据

Published July 16, 2021

Updated April 5, 2026

Martin Anderson

法国的新研究提出了一种技术，可以“重识别”那些贡献于合成生成数据的源身份，例如面部生成项目中生成的“不存在的人”，如 This Person Does Not Exist。

在论文中提出的方法，名为 This Person (Probably) Exists. Identity Membership Attacks Against GAN Generated Faces，不需要（不太可能）访问训练架构或模型数据，可以应用于各种应用中，目前正在探索使用生成对抗网络（GANs）作为方法来匿名化个人可识别信息（PII），或作为生成合成数据的方法，同时保护源材料。

研究人员提出了一个名为 身份成员攻击 的方法，该方法评估单个身份在贡献数据集中频繁出现的可能性，而不是尝试关注特定的身份特征（即，原始图像的像素组用于训练生成模型）。

Source: https://arxiv.org/pdf/2107.06018.pdf

上面的图像来自研究，每行开始于由 StyleGAN 创建的 GAN 生成图像。左边的图像块来自 40,000 张图像，中间来自 80,000 张图像，右边的图像块来自 46,000 张图像。所有图像来自 VGG2Face2 数据集。

一些样本有短暂的相似之处，而其他样本则强烈地与训练数据相关。研究人员使用面部识别网络成功识别了这些面部。

超越面值

这种性质的重识别方法对许多研究领域有多种影响；位于诺曼底的卡昂大学的研究人员强调，他们的技术不仅限于面部集和面部生成 GAN 框架，也同样适用于医疗成像数据集和生物特征数据，以及其他可能的图像合成框架攻击面。

‘我们认为，如果成功，这种攻击将成为在敏感环境中安全交换 GANs 的一个严重障碍。例如，在绘画或其他艺术作品的背景下，分发非私有生成器可能会因明显的版权问题而被排除。在更重要的是，考虑一个生物识别公司 A 发布一个生成器，暴露其消费者身份。另一家公司 B 可能会潜在地检测到哪些消费者也是公司 A 的客户。类似的情况可能会对医疗数据造成严重问题，因为泄露 GAN 可能会违反患者疾病的个人信息。’

重识别非法网页抓取或私人数据

虽然论文仅轻轻触及了这个主题，但从抽象输出（如 GAN 生成的面部，虽然这同样适用于编码器/解码器系统和其他架构）中识别原始源数据的能力，对于未来 5-10 年的版权保护实施具有显著的影响。

目前，大多数国家正在采取 自由放任 的方法来抓取公共网络数据，以免在即将到来的机器学习经济的发展阶段落后。随着这种气候的商业化和巩固，存在显著的潜在可能，下一代“数据流氓”将对历史上用于机器学习算法的数据集中的图像提出版权要求。

随着开发的算法成熟并随着时间的推移变得更加有价值，任何在其早期开发中未经许可使用的图像，都可能通过类似于新法国论文中提出的方法从其输出中推断出来，这是一个潜在的法律责任，规模与 SCO Vs IBM（一个传奇的长期技术诉讼，继续威胁 Linux 操作系统）类似。

利用多样性与频率的墨西哥僵局

法国研究人员使用的主要技术是利用原始数据集图像的频率作为重识别的关键。原始数据集中特定身份的出现频率越高，就越有可能通过将攻击结果与公开或私人可用的数据集相关联来识别该原始身份。

研究人员指出，这可以通过在源数据集中包含更多样化的数据（例如面部）来缓解，并且不应训练数据集太长以至于发生过拟合。问题在于，模型必须在更高维空间中实现良好的抽象，并且需要比严格必要的更多的数据来获得合理的合成结果。

实现这种泛化的最佳方法是昂贵且耗时的：潜在空间（机器学习模型中公式分析部分，数据被输入其中）将需要更多资源；数据集将需要更多的策划；由于数据量需要显著，因此批处理大小和速率调度将需要针对质量和高水平的泛化进行优化，而不是训练速度和经济性，从而导致开发成本更高，开发时间更长。

此外，过拟合的生成算法可以实现高度逼真的合成数据，即使输出数据（例如面部、地图、生物医学图像等）不完全抽象，但具有比理想状态更大的源数据的区别特征——一个诱人的捷径。在当前的机器学习领域的“狂野西部”气候中，小型项目正在尝试用较少的资源挑战 FAANG 的领导地位，或者为收购而吸引注意力，在这种情况下，是否总是能达到如此高的标准是值得怀疑的。

论文还观察到，源数据点（例如面部）的多样性本身不足以通过这些和类似的方法防止重识别，因为训练的早期停止可能会导致源身份不足以抽象。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

重识别 GAN 生成器的源数据

超越面值

重识别非法网页抓取或私人数据

利用多样性与频率的墨西哥僵局

You may like