Anderson 视角

深度信息可以实时揭露深度伪造

发布于 2022年8月24日

更新于 2026年5月23日

作者

Martin Anderson

意大利的新研究发现，图像中获得的深度信息可以成为检测深度伪造的有用工具，即使在实时中。

过去五年中，深度伪造检测的大多数研究都集中在缺陷识别（可以通过改进技术来缓解，或被误认为是视频编解码器压缩不良）上，环境照明，生物特征，时间破坏，甚至人类直觉，但这项新研究是首次提出深度信息可能是深度伪造内容的有价值线索。

推导出的深度图和真实与假图像的感知深度信息之间的差异。 来源：https://arxiv.org/pdf/2208.11074.pdf

关键地，新研究中开发的检测框架在轻量级网络（如Xception）上运行得很好，并且在MobileNet上运行得也还可以，新论文承认，通过这样的网络提供的低延迟推理可以使实时深度伪造检测成为可能，尤其是在最近的对Binance的攻击之后。

可以通过仅使用灰度图像来实现更大的推理时间节省，因为系统不需要全彩图像来确定真假深度图之间的差异，而可以仅使用灰度图像来高效地运行。

作者们指出：‘这表明，在这种情况下，深度信息对分类的贡献比色彩伪影更为重要。’

这些发现代表了深度伪造检测研究的新浪潮，针对的是实时面部合成系统，如DeepFaceLive，这是一个在过去3-4个月中显著加速的努力，尤其是在FBI关于实时视频和音频深度伪造风险的警告之后。

这篇题为DepthFake：基于深度的深度伪造视频检测策略的论文来自罗马大学的五位研究人员。

边缘情况

在训练过程中，基于自动编码器的深度伪造模型优先考虑面部的内部区域，例如眼睛、鼻子和嘴巴。在大多数情况下，通过开源分布，如DeepFaceLab和FaceSwap（这两个都是从2017年的Reddit代码中fork出来的），面部的外部特征通常不会在训练的很晚阶段之前变得明显，并且不太可能与内部面部区域的合成质量相匹配。

来自以前研究的面部“显著性图”的可视化。 来源：https://arxiv.org/pdf/2203.01318.pdf

通常，这不是问题，因为我们倾向于首先关注眼睛，然后优先考虑外部特征，但如果我们正在与假装成另一个身份的人实时交谈，这可能会触发社会惯例和处理限制，这些限制在评估“渲染”的深度伪造视频时是不存在的。

然而，深度伪造面部边缘区域的缺乏细节或准确性可以通过算法检测到。在三月，一个基于外周面部区域的系统被宣布。但是，由于它需要大量的训练数据，因此它只适用于可能出现在流行面部数据集（如ImageNet）中的名人，这些数据集在当前的计算机视觉和深度伪造检测技术中具有来源。

相反，新的系统，称为DepthFake，可以在不知道身份的情况下运行，通过区分真实和假视频内容的估计深度图信息的质量。

深入探讨

深度图信息越来越被集成到智能手机中，包括人工智能辅助立体实现，这些实现对计算机视觉研究特别有用。在新研究中，作者们使用了爱尔兰国立大学的FaceDepth模型，这是一个可以从单源图像中高效估计深度图的卷积编码器-解码器网络。

FaceDepth模型在运行。 来源：https://tinyurl.com/3ctcazma

接下来，意大利研究人员的新框架从原始RGB图像和推导出的深度图中提取了面部的224×224像素补丁。关键地，这使得过程可以在不改变大小的情况下复制核心内容；这是重要的，因为大小标准化的重置算法会对目标区域的质量产生不利影响。

使用来自真实和深度伪造源的这些信息，研究人员然后训练了一个可以根据深度图的感知质量差异区分真实和伪造实例的卷积神经网络（CNN）。

DepthFake的概念管道。

FaceDepth模型在现实和合成数据上使用混合函数进行训练，可以提供面部外部边缘的更大细节，使其非常适合DepthFake。它使用MobileNet实例作为特征提取器，并使用480×640输入图像输出240×320深度图。每个深度图代表新项目判别器中使用的四个输入通道中的一个。

深度图自动嵌入到原始RGB图像中，以提供现代智能手机相机可以输出的带有深度信息的RGBD图像。

训练

该模型在Xception网络上进行训练，该网络已经在ImageNet上预训练过，尽管需要对架构进行一些适应，以便在保持正确的权重初始化的同时纳入额外的深度信息。

此外，深度信息和网络预期之间的值范围不匹配，需要研究人员将值归一化到0-255。

在训练过程中，只应用了翻转和旋转。在许多情况下，会向模型呈现各种其他视觉扰动，以开发强大的推理，但由于需要保留源照片中有限且非常脆弱的边缘深度图信息，研究人员采用了精简的方案。

该系统还在简单的2通道灰度图上进行了训练，以确定源图像需要多复杂才能获得可行的算法。

训练使用TensorFlow API在NVIDIA GTX 1080上进行，具有8GB的VRAM，使用ADAMAX优化器，进行25个epoch，批大小为32。输入分辨率在裁剪过程中固定为224×224，面部检测和提取使用dlib C++库完成。

结果

结果的准确性是在Deepfake、Face2Face、FaceSwap、Neural Texture和具有RGB和RGBD输入的完整数据集上进行测试的，使用了FaceForensic++框架。

四种深度伪造方法和整个未拆分数据集的准确性结果。结果分为源RGB图像和带有嵌入推理深度图的图像的分析。最佳结果以粗体显示，下面的百分比数字表明深度图信息提高结果的程度。

在所有情况下，深度通道都提高了模型在所有配置中的性能。Xception获得了最佳结果，轻量级的MobileNet紧随其后。在此基础上，作者们评论说：

‘值得注意的是，MobileNet略逊于Xception，并且优于更深的ResNet50。这是一个值得注意的结果，尤其是考虑到减少实时应用的推理时间的目标。虽然这不是本工作的主要贡献，但我们仍然认为这是未来发展的一个令人鼓舞的结果。’

研究人员还指出，RGBD和2通道灰度输入相对于RGB和直接灰度输入具有持续的优势，观察到灰度深度推理的转换计算成本很低，使得模型可以在有限的本地资源下获得更好的结果，从而促进了基于深度信息的实时深度伪造检测的未来发展。

首次发表于2022年8月24日。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

深度信息可以实时揭露深度伪造

边缘情况

深入探讨

训练

结果

You may like