人工智能

从外脸区域识别名人 Deepfakes

更新 on 2022 年 12 月 9 日

微软与中国一所大学之间的一项新合作提出了一种识别名人深度造假的新方法，利用当前深度造假技术的缺点来识别“投射”到其他人身上的身份。

该方法称为 身份一致性转换器 (ICT)，通过将面部最外侧部分（下巴、颧骨、发际线和其他外部边缘轮廓）与面部内部进行比较来进行工作。该系统利用了名人的常见公共图像数据，这限制了其对流行名人的有效性，这些名人的图像在广泛使用的计算机视觉数据集中和互联网上有大量可用。

七种技术对伪造面孔的伪造覆盖率：FF+ 中的 DeepFake； Google DeepFake 检测中的 DeepFake；深脸实验室；面对面； FSGAN；和 DF-VAE。资料来源：https://arxiv.org/pdf/2.pdf

七种技术对伪造面孔的伪造覆盖率：FF+ 中的 DeepFake； Google DeepFake 检测中的 DeepFake；深脸实验室；面对面； FSGAN；和 DF-VAE。 DeepFaceLab 和 FaceSwap 等流行软件包提供了类似的有限覆盖范围。资料来源：https://arxiv.org/pdf/2203.01318.pdf

如上图所示，当前流行的深度伪造方法非常受资源限制，并且依赖适当的主机面孔（身份将被深度伪造的人的图像或视频）来最大程度地减少面部替换的证据。

尽管不同的方法可能涵盖整个前额以及下巴和颧骨区域的大部分，但所有方法都或多或少地限制在主体脸部的框架内。

强调由 ICT 计算的“内部”和“外部”身份的显着图。如果建立了内部面部匹配但外部身份不对应，ICT 会将图像评估为错误。

在测试中，ICT 证明能够在低分辨率视频等容易造假的范围内检测深度造假内容，其中整个视频的内容因压缩伪影而降级，有助于隐藏深度造假过程的残留证据——这种情况让许多竞争者感到困惑深度伪造检测方法。

ICT 在识别深度伪造内容方面优于竞争对手。请参阅文章末尾嵌入的视频以获取更多示例和更好的分辨率。来源：https://www.youtube.com/watch?v=zgF50dcymj8

ICT 在识别深度伪造内容方面优于竞争对手。请参阅文章末尾嵌入的视频以获取更多示例和更好的分辨率。有关更多示例，请参阅文章末尾的嵌入式源视频。来源：https://www.youtube.com/watch?v=zgF50dcymj8

纸标题为 使用身份一致性转换器保护名人，来自中国科学技术大学、微软亚洲研究院、微软云+AI的九名研究人员。

可信度差距

流行的换脸算法至少有几个原因，例如深度人脸实验室和换脸忽略交换的面部身份的最外层区域。

首先，训练 Deepfake 模型非常耗时且资源匮乏，而采用“兼容”的主机面部/身体可以释放 GPU 周期和周期，以专注于我们用来区分身份的面部相对不可变的内部区域（因为体重波动和衰老等变量在短期内最不可能改变这些核心面部特征）。

其次，大多数 Deepfake 方法（DeepFaceLab 就是这种情况，最受欢迎或最臭名昭著的从业者使用的软件）复制“面部末端”边缘（例如脸颊和下巴区域）的能力有限，并且受到以下事实的限制：他们的上游（2017）代码没有广泛解决这个问题。

在身份不匹配的情况下，深度造假算法必须“修复”脸部周围的背景区域，即使在最优秀的深度造假者手中，它也只能做得很笨拙，例如 Ctrl Shift面，其输出用于论文的研究。

精选中的精选：来自广受好评的 Deepfake Ctrl-Shift-Face 的 Deepfake 视频剧照，将金·凯瑞 (Jim Carrey) 换成加里·奥德曼 (Gary Oldman)。这项工作可以说代表了目前通过 DeepFaceLab 和后处理技术可获得的一些最佳输出。尽管如此，交换仍然仅限于 DFL 对外表面的关注相对较少，需要付出巨大的数据管理和培训努力来解决最外层的轮廓问题。来源：https://www.youtube.com/watch?v=x8igrh1eyLk

在当前人们对深度造假日益增长的现实主义的担忧中，这种“花招”或注意力转移在很大程度上逃避了公众的关注，因为我们对深度造假的批判能力仍在发展，超越了“震惊和敬畏”阶段。

身份分裂

新论文指出，大多数先前的深度伪造检测方法都依赖于背叛交换过程的伪影，例如头部姿势不一致和眨眼，其中许多其他技术。就在本周，另一篇新的深度伪造检测论文发表了建议使用 FaceSwap 框架中不同模型类型的“签名”来帮助识别用它创建的伪造视频（见下图）。

通过表征 FaceSwap 框架中不同模型类型的签名来识别深度伪造品。 资料来源：https://arxiv.org/pdf/2202.12951.pdf

相比之下，ICT 的架构为一个人创建了两个独立的嵌套身份，每个身份都必须经过验证，然后才能将整个身份断定为“真实”的镜头或图像。

ICT 培训和测试阶段的架构。

愿景促进了身份的分裂变压器，它在将调查区域分割为属于内部或外部身份的令牌之前执行面部识别。

在两个平行的身份能指之间分配补丁。

该文件指出：

“不幸的是，现有的面部验证[方法]往往会刻画最具辨别力的区域，即内部面部进行验证，而无法捕获外部面部的身份信息。通过 Identity Consistency Transformer，我们训练一个模型来学习一对身份向量，一个用于内部面孔，另一个用于外部面孔，通过设计一个 Transformer，使得内部和外部身份可以在无缝统一的环境中同时学习。模型。'

由于该识别协议没有现有模型，因此作者设计了一种新的一致性损失，可以作为真实性的衡量标准。身份提取模型产生的“内部令牌”和“外部令牌”被添加到面部识别框架生成的更传统的补丁嵌入中。

数据和培训

ICT 网络接受了 Microsoft Research 的培训 MS-Celeb-1M 该数据集包含 10 万张名人脸部图像，涵盖 XNUMX 万个身份，包括演员、政治家和许多其他类型的知名人物。按照之前方法的流程面部X光检查（另一项微软研究计划），ICT 自己的伪造生成例程会交换从该数据集中提取的面部的内部和外部区域，以创建用于测试算法的材料。

为了执行这些内部交换，ICT 识别数据集中表现出相似头部姿势和面部标志的两幅图像，生成中心特征的掩模区域（可以在其中执行交换），并通过 RGB 颜色校正执行 Deepfake 交换。

ICT 仅限于名人识别的原因是，它依赖于（以其最有效的变体）一个新颖的参考集，该参考集包含从中央语料库导出的面部向量（在本例中为 MS-Celeb-1M，尽管参考可以扩展）网络可用的图像，这些图像只有在知名公众人物的质量和数量上才可能存在）。

这些派生的向量集对充当真实性标记，以串联验证内表面和外表面区域。

作者指出，从这些方法获得的令牌代表“高级”特征，从而导致深度伪造检测过程更有可能在低分辨率或其他降级视频等具有挑战性的环境中生存。

至关重要的是，ICT 是不能寻找基于人工制品的证据，而是专注于更符合面部识别技术的身份验证方法——这种方法在数据量较少的情况下很困难，就像调查深假复仇色情针对非著名目标。

检测

在 MS-Celeb-1M 上进行训练后，ICT 被分为参考辅助算法和“盲”算法版本，并针对一系列竞争数据集和方法进行了测试。这些包括人脸取证++ (FF++)，包含 1000 个真实和深度伪造视频的数据集，通过四种方法创建，包括面对面和换脸；谷歌的深度伪造检测 (DFD)，也由数千个谷歌生成的深度伪造视频组成； Celeb-DeepFake v1 (CD1)，其中包含 408 个真实视频和 795 个合成低伪影视频； Celeb-DeepFake v2，V1 的扩展，包含 590 个真实视频和 5,639 个假视频；以及中国的2020 更深入的取证（更深）。

这些是数据集；测试挑战中的检测方法是多任务, 中观公司4, 胶囊、Xception-c0、c2（FF++中采用的方法）、 FWA/DSP-FW 来自奥尔巴尼大学，两支, PCL+I2G和尤瓦尔·尼尔金的上下文差异法.

上述检测方法旨在检测特定类型的面部操纵。除此之外，新论文的作者还测试了更通用的深度伪造检测产品面部X光检查，密歇根州立大学 FFD, CNN检测及补丁取证来自麻省理工学院 CSAIL。

测试最明显的结果是，随着视频分辨率和质量的降低，竞争方法的有效性急剧下降。由于深度造假渗透我们的歧视能力的一些最严重的潜力在于（尤其是在当前）非高清或其他质量受损的视频，这似乎是一个重要的结果。