人工智能

研究人员发现深度伪造的坚韧特征，有助于长期检测

Published July 22, 2022

Updated April 28, 2026

Martin Anderson

自2018年最早的深度伪造检测解决方案出现以来，计算机视觉和安全研究领域一直在寻找深度伪造视频的基本特征——能够抵抗流行的面部合成技术（如基于自动编码器的深度伪造包，如DeepFaceLab和FaceSwap，以及使用生成对抗网络来重建、模拟或改变人脸）改进的信号。

许多“线索”，例如缺乏眨眼，已经被深度伪造的改进所淘汰，而数字来源技术（如Adobe领导的内容真实性计划）的潜在使用，包括区块链方法和数字水印的潜在来源照片——要么需要对互联网上现有的源图像进行大规模和昂贵的更改，要么需要各国和政府之间的显著合作努力来创建监督和验证系统。

因此，如果可以在具有改变、虚构或身份交换的人脸的图像和视频内容中发现一个真正基本且坚韧的特征，那将非常有用；一个可以直接从伪造的视频中推断出来的特征，而无需大规模验证、加密资产哈希、上下文检查、合理性评估、基于伪影的检测例程或其他繁琐的深度伪造检测方法。

深度伪造的框架

中国和澳大利亚的一项新研究合作认为，他们已经找到了这个“圣杯”，即规则性破坏。

作者设计了一种方法，比较真实视频的空间完整性和时间连续性与包含深度伪造内容的视频，并发现任何深度伪造干预都会破坏图像的规则性，无论多么微妙。

这是因为深度伪造过程将目标视频分解为帧，并将训练好的深度伪造模型的效果应用于每个（替换的）帧。流行的深度伪造分布以与动画师相同的方式运作，在这个方面给予每个帧的真实性比每个帧对整个视频的空间完整性和时间连续性的贡献更多的关注。

从论文中：A）数据之间的差异。我们看到p-fake的干扰以与深度伪造相同的方式改变图像的时空质量，而不替换身份。B）三种数据的噪声分析，显示p-fake如何模拟深度伪造的破坏。C）三种数据的时间可视化，真实数据在波动中显示出更大的完整性。D）真实、伪造和p-fake视频的提取特征的T-SNE可视化。来源：https://arxiv.org/pdf/2207.10402.pdf

这与视频编解码器处理原始录制或处理的帧序列的方式不同。为了节省文件大小或使视频适合流媒体播放，视频编解码器会丢弃大量信息。即使在最高质量设置下，编解码器也会分配关键帧（用户可以设置的变量）——整个、几乎未压缩的图像，它们以预设的间隔出现在视频中。

关键帧之间的帧在一定程度上被估计为关键帧的变体，并将尽可能多地重用来自相邻关键帧的信息，而不是成为独立的帧。

左边，完整的关键帧或“i帧”存储在压缩视频中，代价是文件大小；右边，间隔“delta帧”重用更数据丰富的关键帧的任何适用部分。 来源：https://blog.video.ibm.com/streaming-video-tips/keyframes-interframe-video-compression/

以这种方式，块（包含x个帧，取决于关键帧设置）可以说是典型压缩视频中考虑的最小单位，而不是任何单个帧。甚至关键帧本身，也被称为i帧，也是该单位的一部分。

在传统的卡通动画中，编解码器正在执行一种补间动画，关键帧作为间隔、派生的帧（也称为delta帧）的支撑点。

相比之下，深度伪造叠加将大量的注意力和资源集中在每个个别帧上，而不考虑帧的更广泛的上下文，也不考虑压缩和基于块的编码如何影响“真实”视频的特征。

对真实视频（左）和被深度伪造破坏的视频（右）之间的时间质量不连续性的更近距离观察。

尽管一些更好的深度伪造者使用After Effects等软件包进行广泛的后处理，并且DeepFaceLab分布有一些本地容量来应用“混合”过程，如运动模糊，但这种技巧并不会影响真实视频和深度伪造视频之间的空间和时间质量的不匹配。

新论文通过创建时空规则性破坏来检测深度伪造，来自清华大学、百度公司视觉技术部和墨尔本大学的研究人员。

“伪造”的伪造视频

论文背后的研究人员将研究的功能性集成到一个名为伪造生成器（p-fake生成器）的模块中，该模块将真实视频转换为伪深度伪造视频，以与实际深度伪造过程相同的方式扰乱它们，而不执行任何深度伪造操作。

测试表明，该模块可以以几乎零成本的资源添加到所有现有的深度伪造检测系统中，并且它显著提高了它们的性能。

该发现可以帮助解决深度伪造检测研究中的另一个障碍：缺乏真实和最新的数据集。由于深度伪造生成是一个复杂和耗时的过程，社区已经在过去五年中开发了许多深度伪造数据集，其中许多已经过时。

通过将规则性破坏作为视频后期改变的深度伪造无关信号，新方法可以生成无限的样本和数据集视频，这些视频关注深度伪造的这一方面。

STE块的概述，其中使用通道向时间卷积作为刺激来生成时空增强的编码，结果是即使非常令人信服的深度伪造也会产生相同的签名。通过这种方法，可以生成带有相同签名特征的“伪造”的伪造视频，这些视频不依赖于特定的分布，也不依赖于易变的方面，如特征行为或算法伪影。

测试

研究人员对六个著名的深度伪造检测研究数据集进行了实验：FaceForensics++（FF++）；WildDeepFake；Deepfake Detection Challenge预览（DFDCP）；Celeb-DF；Deepfake Detection（DFD）；以及Face Shifter（FSh）。

对于FF++，研究人员在原始数据集上训练了他们的模型，并分别测试了每个四个子集。没有使用任何深度伪造材料进行训练，新方法能够超越最先进的结果。

该方法还在FF++ C23压缩数据集上获得了领先地位，该数据集提供了具有现实世界深度伪造查看环境中可信的压缩伪影的示例。

作者评论：

‘在FF++中的性能验证了我们主要想法的可行性，而现有的深度伪造检测方法的普遍性仍然是一个主要问题，因为当在未见过的技术生成的深度伪造上进行测试时，性能不能得到保证。 ‘

‘考虑到检测器和伪造者之间的军备竞赛的现实，普遍性是衡量检测方法在现实世界中的有效性的一个重要标准。’

虽然研究人员进行了一些子测试（请参阅论文的详细信息）关于“稳健性”以及改变输入的视频类型（即真实、虚假、p-fake等），但最有趣的结果来自跨数据集性能测试。

对于此项测试，作者在上述“现实世界”的FF++ c23版本上训练了他们的模型，并将其测试到四个数据集，获得了，作者声称，所有数据集上的更好的性能。

跨数据集挑战的结果。论文指出SBI使用了与作者自己的方法类似的方法，而研究人员声称p-fake在时空规则性破坏方面表现更好。

论文指出：

‘在最具挑战性的Deepwild上，我们的方法在AUC%方面比最先进的方法高出约10个百分点。我们认为这是因为Deepwild中深度伪造的多样性很大，这使得其他方法难以从已见过的深度伪造中泛化。’

用于测试的指标是准确率（ACC）、接收者操作特征曲线下面积（AUC）和等错误率（EER）。

反击？

虽然媒体将深度伪造开发者和深度伪造检测研究人员之间的紧张关系描述为技术战争，但可以说，前者只是试图制作更令人信服的输出，而增加深度伪造检测难度是这些努力的偶然副产品。

开发者是否会尝试解决这个新发现的缺陷取决于他们是否觉得规则性破坏可以被肉眼察觉为深度伪造视频的不真实性标志，因此从纯粹的质量角度来看，这个指标值得解决。

尽管已经过去五年了，深度伪造仍然是一种相对新生的技术，社区可能更痴迷于细节和分辨率，而不是正确的上下文或匹配压缩视频的签名，这些都需要输出的某种“降级”——这正是深度伪造社区目前正在努力解决的问题。

如果那里的一般共识是规则性破坏是一个不会影响质量的新兴签名，那么可能不会有任何努力来弥补它——即使它可以通过某些后处理或架构过程来“抵消”，这也远未明确。

首次发布于2022年7月22日。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

研究人员发现深度伪造的坚韧特征，有助于长期检测

深度伪造的框架

“伪造”的伪造视频

测试

反击？

You may like