Connect with us

人工智能

识别名人深度伪造从外部面部区域

mm

微软和一所中国大学之间的新合作提出了识别名人深度伪造的新方法,利用当前深度伪造技术的缺陷来识别被“投射”到其他人身上的身份。这种方法被称为 身份一致性变换器 (ICT),它通过比较面部的外部部分(下巴、颧骨、发际线和其他外部边缘线)与面部内部来工作。该系统利用公开可用的名人图像数据,这限制了其有效性仅限于流行的名人,他们的图像在计算机视觉数据集中和互联网上广泛可用。

七种技术的伪造面部覆盖区域:DeepFake 在 FF+;DeepFake 在 Google DeepFake 检测;DeepFaceLab;Face2Face;FSGAN;和 DF-VAE。来源:https://arxiv.org/pdf/2203.01318.pdf

七种技术的伪造面部覆盖区域:DeepFake 在 FF+;DeepFake 在 Google DeepFake 检测;DeepFaceLab;Face2Face;FSGAN;和 DF-VAE。流行的包如 DeepFaceLab 和 FaceSwap 提供类似的约束覆盖。来源:https://arxiv.org/pdf/2203.01318.pdf

如上图所示,目前流行的深度伪造方法非常耗资源,并依赖于适合的主机面部(将被替换身份的图像或视频)来最小化面部替换的证据。虽然不同的方法可能涵盖整个前额和大部分下巴和颧骨区域,但所有这些方法都受到主机面部框架的限制。

强调 ICT 计算的“内部”和“外部”身份的显著性图。其中,内部面部匹配已建立,但外部身份不匹配,ICT 将图像评估为假。

强调 ICT 计算的“内部”和“外部”身份的显著性图。其中,内部面部匹配已建立,但外部身份不匹配,ICT 将图像评估为假。

在测试中,ICT 证明能够检测低分辨率视频中的深度伪造内容,在这种情况下,整个视频的内容由于压缩伪影而降级,从而帮助隐藏深度伪造过程的残余证据——这是许多竞争深度伪造检测方法感到困惑的情况。

ICT 在识别深度伪造内容方面优于竞争对手。请参阅文章末尾的视频以获取更多示例和更好的分辨率。来源:https://www.youtube.com/watch?v=zgF50dcymj8

ICT 在识别深度伪造内容方面优于竞争对手。请参阅文章末尾的视频以获取更多示例和更好的分辨率。来源:https://www.youtube.com/watch?v=zgF50dcymj8

该论文题为 保护名人以身份一致性变换器,由九位研究人员撰写,他们分别隶属于中国科学技术大学、微软研究亚洲和微软云 + AI。

可信度差距

有至少两个原因可以解释为什么流行的面部交换算法(如 DeepFaceLabFaceSwap)忽略了被交换面部身份的外部区域。

首先,训练深度伪造模型是耗时且资源密集的,采用“兼容”的主机面部/身体可以释放 GPU 周期和 epoch,以集中于相对不变的面部内部区域,我们用它来区分身份(因为诸如体重波动和老化等变量在短期内不太可能改变这些核心面部特征)。

其次,大多数深度伪造方法(这绝对是 DeepFaceLab 的情况,DeepFaceLab 是最流行或臭名昭著的从业者使用的软件)在复制面部“边缘”(如颧骨和下巴区域)方面具有有限的能力,并受到其上游(2017)代码没有广泛解决这个问题的事实的限制。

在身份不匹配的情况下,深度伪造算法必须“填充”面部周围的背景区域,它最多只能笨拙地完成,即使在最好的深度伪造者(如 Ctrl Shift Face)手中也是如此,他们的输出被用于论文的研究。

最好的深度伪造者:来自著名深度伪造者 Ctrl-Shift-Face 的深度伪造视频截图,交换吉姆·凯瑞和加里·奥德曼。这项工作可以说是目前通过 DeepFaceLab 和后处理技术可获得的最佳输出。然而,交换仍然仅限于 DFL 对外部面部的关注,需要大量的数据策划和训练来解决外部线条。来源:https://www.youtube.com/watch?v=x8igrh1eyLk

最好的深度伪造者:来自著名深度伪造者 Ctrl-Shift-Face 的深度伪造视频截图,交换吉姆·凯瑞和加里·奥德曼。这项工作可以说是目前通过 DeepFaceLab 和后处理技术可获得的最佳输出。然而,交换仍然仅限于 DFL 对外部面部的关注,需要大量的数据策划和训练来解决外部线条。来源:https://www.youtube.com/watch?v=x8igrh1eyLk

这种“手法”或注意力转移在很大程度上逃避了公众的注意,因为我们对深度伪造的批判性能力仍然处于“震惊和敬畏”的阶段。

分裂身份

新论文指出,大多数先前的深度伪造检测方法依赖于背叛交换过程的伪影,例如 不一致的头部姿势眨眼,以及 众多其他技术。就在本周,另一篇新的深度伪造检测论文提出了使用 FaceSwap 框架中不同模型类型的“签名”来帮助识别使用它创建的伪造视频(见下图)。

通过 FaceSwap 框架中不同模型类型的特征来识别深度伪造。来源:https://arxiv.org/pdf/2202.12951.pdf

通过 FaceSwap 框架中不同模型类型的特征来识别深度伪造。来源:https://arxiv.org/pdf/2202.12951.pdf

相比之下,ICT 的架构为一个人创建两个单独的嵌套身份,每个身份都必须在整个身份被认为是“真实”的之前进行验证。

ICT 的训练和测试阶段架构。

ICT 的训练和测试阶段架构。

身份的分裂是通过视觉 Transformer 实现的,它在将调查区域分为属于内部或外部身份的标记之前执行面部识别。

将补丁分配给两个平行的身份标志。

将补丁分配给两个平行的身份标志。

论文指出:

“不幸的是,现有的面部验证方法往往表征最具鉴别力的区域,即内部面部用于验证,并未捕获外部面部的身份信息。使用身份一致性变换器,我们训练一个模型来学习一对身份向量,一個用于内部面部,另一个用于外部面部,通过设计一个 Transformer,使内部和外部身份可以在统一的模型中同时学习。”

由于没有现有的此类识别协议的模型,作者已经设计了一种新的、一致性损失,可以作为真实性的度量。从身份提取模型中得到的“内部令牌”和“外部令牌”被添加到面部识别框架中产生的更传统的补丁嵌入中。

数据和训练

ICT 网络是在微软研究的 MS-Celeb-1M 数据集上进行训练的,该数据集包含 1000 万张名人面部图像,涵盖 100 万个身份,包括演员、政客和其他许多类型的知名人物。根据先前方法 Face X-ray(另一个微软研究计划)的程序,ICT 自己的假生成例程交换了数据集中面部的内部和外部区域,以创建用于测试算法的材料。

为了执行这些内部交换,ICT 确定数据集中两张具有相似头部姿势和面部标志的图像,生成一个中心特征的掩码区域(可以执行交换),并使用 RGB 颜色校正执行深度伪造交换。

ICT 仅限于名人识别的原因是它依赖于(在其最有效的变体中)一个新型参考集,该集集成来自中心语料库(在本例中为 MS-Celeb-1M,尽管引用可以扩展到网络可用图像,这将只可能存在于足够质量和数量的知名公共人物中)的派生面部向量。

这些派生向量对作为真实性令牌来验证内部和外部面部区域。

作者指出,从这些方法获得的令牌代表“高级”特征,导致深度伪造检测过程更有可能在具有挑战性的环境中生存,例如低分辨率或其他降级视频。

关键地,ICT 寻找基于伪影的证据,而是专注于身份验证方法,更符合面部识别技术——一种在低体积数据(如调查针对非名人目标的深度伪造复仇色情)中很难的方法。

测试

在 MS-Celeb-1M 上训练后,ICT 被分为参考辅助和“盲”版本的算法,并测试了各种竞争数据集和方法。这些包括 FaceForensics++(FF++),一个包含 1000 个真实和深度伪造视频的数据集,跨四种方法创建,包括 Face2Face 和 FaceSwap;谷歌的 Deepfake 检测(DFD),也由谷歌生成的数千个深度伪造视频组成;Celeb-DeepFake v1(CD1),其中包含 408 个真实和 795 个合成、低伪影视频;Celeb-DeepFake v2,V1 的扩展,包含 590 个真实和 5,639 个假视频;以及中国 2020 年的 Deeper-Forensics(Deeper)。

这些是数据集;测试挑战中的检测方法是 多任务MesoInc4胶囊、Xception-c0、c2(FF++ 中使用的方法)、FWA/DSP-FW、来自奥尔巴尼大学的 两分支PCL+I2G 和 Yuval Nirkin 的 上下文不一致性方法

上述检测方法旨在检测特定类型的面部操作。除了这些方法外,新论文的作者还测试了更一般的深度伪造检测产品 Face X-ray、密歇根州立大学的 FFDCNNDetectionPatch-Forensics

测试中最明显的结果是,竞争方法在视频分辨率和质量降低时,其有效性会大大降低。由于一些最严重的深度伪造渗透我们辨别能力的潜力(尤其是在当前时间)在非高清或其他质量受损的视频中,因此这似乎是一个重大的结果。

在上面的结果图中,蓝色和红色线表示 ICT 方法对图像降级的所有领域的恢复力,除了高斯噪声(在 Zoom 和网络摄像头风格的视频中不太可能出现),而竞争方法的可靠性则大幅下降。

在下面的结果表中,我们看到各种深度伪造检测方法在未见数据集上的有效性。灰色和星号结果表示来自原始发布结果的比较,在闭源项目中无法外部验证。跨几乎所有可比框架,ICT 都优于对手的深度伪造检测方法(以粗体显示)。

作为额外测试,作者在 YouTube 频道 Ctrl Shift Face 上运行了内容,并发现竞争方法在识别高质量深度伪造内容方面取得了显著低于 ICT 的分数:

值得注意的是,FF++ 方法(Xception-c23)和 FFD,在一些测试数据中取得了最高分,但在“现实世界”中高质量深度伪造内容的背景下,却远远低于 ICT。

作者以希望这篇论文的结果能够引导深度伪造检测社区朝着类似的计划发展,这些计划专注于更容易推广的高级特征,并远离基于伪影的检测的“冷战”,在这种情况下,最新的方法经常被深度伪造框架的发展或其他因素所取代,这些因素使得这些方法的恢复力降低。

请查看下面的补充视频以获取更多示例,展示 ICT 识别经常欺骗其他方法的深度伪造内容:

 

首次发布于 2022 年 3 月 4 日。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai