存根 深度信息可以实时揭示 Deepfakes - Unite.AI
关注我们.

人工智能

深度信息可以实时揭示深度伪造品

mm
更新 on

意大利的新研究发现,从图像中获得的深度信息可以成为检测深度赝品的有用工具——即使是实时检测。

尽管过去五年来深度伪造检测的大部分研究都集中在 文物识别 (可以通过改进技术来缓解,或者被误认为视频编解码器压缩不佳), 环境照明, 生物特征, 时间中断, 乃至 人的本能这项新研究首次表明深度信息可能是深度伪造内容的宝贵密码。

派生深度图的示例,以及真实图像和假图像之间感知深度信息的差异。 资料来源:https://arxiv.org/pdf/2208.11074.pdf

派生深度图的示例,以及真实图像和假图像之间感知深度信息的差异。 资料来源:https://arxiv.org/pdf/2208.11074.pdf

至关重要的是,为这项新研究开发的检测框架在轻量级网络上运行得很好,例如 Xception,并且可以接受地很好 移动网,并且新论文承认,通过此类网络提供的低延迟推理可以实现实时深度伪造检测,以应对实时深度伪造欺诈的新趋势,例如最近的 对币安的攻击.

可以实现推理时间的更大经济性,因为系统不需要全彩图像来确定假深度图和真实深度图之间的差异,而是可以仅对深度信息的灰度图像进行令人惊讶的有效操作。

作者指出: “这一结果表明,在这种情况下,深度对分类的贡献比颜色伪影更相关。”

这些发现代表了新一波深度伪造检测研究的一部分,该研究针对的是实时面部合成系统,例如 深脸直播 – 在联邦调查局 (FBI) 的调查之后,过去 3-4 个月内,这一工作的进展显着加快 三月警告 关于实时视频和音频深度伪造的风险。

标题为 DepthFake:一种基于深度的 Deepfake 视频检测策略,来自罗马第一大学的五位研究人员。

边缘情况

在训练过程中,基于自动编码器的 Deepfake 模型会优先考虑面部的内部区域,例如眼睛、鼻子和嘴巴。 在大多数情况下,跨开源发行版,例如 深度人脸实验室换脸 (都是从原来的 2017 年分叉出来的 Reddit 代码 在删除之前),面部的外部轮廓直到训练的最后阶段才变得清晰,并且不太可能与内部面部区域的合成质量相匹配。

从之前的研究中,我们看到了面部“显着图”的可视化。 资料来源:https://arxiv.org/pdf/2203.01318.pdf

从之前的研究中,我们看到了面部“显着图”的可视化。 资料来源:https://arxiv.org/pdf/2203.01318.pdf

通常情况下,这并不重要,因为我们倾向于首先关注眼睛并优先考虑“向外”,注意力水平逐渐减弱,这意味着我们不太可能因外围质量的下降而感到不安——尤其是当我们与对方现场交谈时伪造另一个身份的人,这会引发社会习俗和 处理限制 当我们评估“渲染”的 Deepfake 镜头时,它不存在。

然而,可以通过算法检测到深度伪造面部受影响的边缘区域缺乏细节或准确性。 XNUMX月份,在面部周边区域按键的系统被推出 公布。然而,由于它需要高于平均水平的训练数据,因此它仅适用于可能出现在流行面部数据集(例如 ImageNet)中的名人,这些数据集源于当前的计算机视觉和深度伪造检测技术。

相反,新系统名为 深度假,通过区分真实和虚假视频内容中估计深度图信息的质量,甚至可以对模糊或未知的身份进行一般操作。

深入

深度图信息越来越多地融入智能手机中,包括 AI辅助立体实施 这对于计算机视觉研究特别有用。在这项新研究中,作者使用了爱尔兰国立大学的 FaceDepth 模型,这是一种卷积编码器/解码器网络,可以有效地估计单源图像的深度图。

实际使用的 FaceDepth 模型。 来源:https://tinyurl.com/3ctcazma

实际使用的 FaceDepth 模型。 来源:https://tinyurl.com/3ctcazma

接下来,意大利研究人员的新框架的管道从原始 RGB 图像和导出的深度图中提取主体脸部的 224×224 像素块。 至关重要的是,这允许进程复制核心内容而无需调整其大小; 这很重要,因为尺寸标准调整大小算法会对目标区域的质量产生不利影响。

然后,研究人员利用来自真实来源和深度伪造来源的这些信息,训练了一个卷积神经网络 (CNN),该网络能够根据各个深度图的感知质量之间的差异区分真实实例和伪造实例。

DepthFake 的概念管道。

DepthFake 的概念管道。

FaceDepth 模型使用混合函数在真实的合成数据上进行训练,该函数在面部的外边缘提供更多细节,使其非常适合 DepthFake。它使用 MobileNet 实例作为特征提取器,并使用 480×640 输入图像进行训练,输出 240×320 深度图。每个深度图代表新项目鉴别器中使用的四个输入通道的四分之一。

深度图会自动嵌入到原始 RGB 图像中,以提供现代智能手机相机可以输出的充满深度信息的 RGBD 图像。

产品培训

该模型在已在 ImageNet 上预训练的 Xception 网络上进行训练,但该架构需要进行一些调整,以便在保持权重正确初始化的同时容纳额外的深度信息。

此外,深度信息与网络预期之间的值范围不匹配,因此研究人员必须将值标准化为 0-255。

在训练过程中,仅应用翻转和旋转。 在许多情况下,会向模型呈现各种其他视觉扰动,以便发展稳健的推理,但保留源照片中有限且非常脆弱的边缘深度图信息的必要性迫使研究人员采用精简方案。

该系统还接受了简单的 2 通道灰度训练,以确定源图像需要有多复杂才能获得可行的算法。

通过 TensorFlow API 在具有 1080GB VRAM 的 NVIDIA GTX 8 上进行训练,使用 ADAMAX 优化器,训练 25 个周期,批量大小为 32。在裁剪过程中输入分辨率固定为 224×224,面部检测和提取采用完成与 数据库 C++ 库。

成果

结果的准确性针对 Deepfake 进行了测试, 面对面, 换脸, 神经纹理,以及具有 RGB 和 RGBD 输入的完整数据集,使用 人脸取证++ 框架。

四种 Deepfake 方法以及整个未分割数据集的准确性结果。 结果分为源 RGB 图像分析和嵌入推断深度图的相同图像。 最佳结果以粗体显示,下面的百分比数字显示了深度图信息改善结果的程度。

四种 Deepfake 方法以及整个未分割数据集的准确性结果。 结果分为源 RGB 图像分析和嵌入推断深度图的相同图像。 最佳结果以粗体显示,下面的百分比数字显示了深度图信息改善结果的程度。

在所有情况下,深度通道都会提高模型在所有配置下的性能。 Xception 获得了最好的结果,灵活的 MobileNet 紧随其后。 对此,作者评论道:

“有趣的是,MobileNet 略逊于 Xception,但优于更深的 ResNet50。 当考虑减少实时应用程序的推理时间的目标时,这是一个值得注意的结果。 虽然这不是这项工作的主要贡献,但我们仍然认为它对未来的发展是一个令人鼓舞的结果。

研究人员还注意到 RGBD 和 2 通道灰度输入相对于 RGB 和直接灰度输入具有一致的优势,观察到深度推断的灰度转换在计算上非常便宜,允许模型在非常有限的本地资源下获得改进的结果,促进基于深度信息的实时深度换脸检测的未来发展。

 

首次发布于 24 年 2022 月 XNUMX 日。