Anderson 视角
识别名人深度伪造的外部面部区域

微软和一所中国大学之间的新合作提出了识别名人深度伪造的新方法,即利用当前深度伪造技术的缺陷来识别被“投射”到其他人身上的身份。
这种方法被称为 身份一致性变换器 (ICT),它通过比较面部的外部部分(下巴、颧骨、发际线等外部边缘)与面部内部来工作。该系统利用公开的名人图像数据,这限制了其有效性仅限于流行的名人,他们的图像在计算机视觉数据集中和互联网上广泛可用。

七种技术的伪造面部覆盖范围:DeepFake in FF+;DeepFake in Google DeepFake Detection;DeepFaceLab;Face2Face;FSGAN;和 DF-VAE。流行的软件包,如 DeepFaceLab 和 FaceSwap,提供类似的受限覆盖范围。 来源:https://arxiv.org/pdf/2203.01318.pdf
如上图所示,目前流行的深度伪造方法非常耗资源,并依赖于适合的宿主面部/身体来最小化面部替换的证据。
虽然不同的方法可能涵盖整个前额和大部分下巴和颧骨区域,但所有这些方法都受到宿主面部框架的限制。

强调 ICT 计算的“内部”和“外部”身份的显著性图。内部面部匹配建立,但外部身份不匹配时,ICT 将图像评估为假的。
在测试中,ICT 证明能够在低分辨率视频等深度伪造友好环境中检测深度伪造内容,在这种环境中,整个视频的内容由于压缩伪影而降级,这有助于隐藏深度伪造过程的残留证据——这是许多竞争的深度伪造检测方法所困惑的环境。

ICT 在识别深度伪造内容方面优于其他方法。请参阅文章末尾的视频以获取更多示例和更高的分辨率。请参阅文章末尾的嵌入式来源视频以获取更多示例。 来源:https://www.youtube.com/watch?v=zgF50dcymj8
该 论文 的标题为 使用身份一致性变换器保护名人,由九位研究人员撰写,他们分别隶属于中国科学技术大学、微软研究亚洲和微软云 + AI。
可信度差距
流行的面部替换算法(如 DeepFaceLab 和 FaceSwap)有两个主要原因忽略了外部面部区域。
首先,训练深度伪造模型需要耗费时间和资源,采用“兼容”的宿主面部/身体可以释放 GPU 周期和 epoch 来集中于相对不变的面部内部区域,我们用这些区域来区分身份(因为诸如体重波动和老化等变量不太可能在短期内改变这些核心面部特征)。
其次,大多数深度伪造方法(这也是 DeepFaceLab 的情况,它是最流行或臭名昭著的实践者所使用的软件)在复制面部边缘(如颧骨和下巴)方面能力有限,并受到其上游(2017)代码没有广泛解决这个问题的限制。
在身份不匹配的情况下,深度伪造算法必须在面部周围“修复”背景区域,这是即使在最好的深度伪造者(如 Ctrl Shift Face)手中也是笨拙的,即使他们的输出被用于论文的研究。

最好的深度伪造者:来自著名深度伪造者 Ctrl-Shift-Face 的深度伪造视频截图,交换吉姆·凯瑞和加里·奥德曼。这项工作可以说是目前通过 DeepFaceLab 和后处理技术可获得的最佳输出。然而,交换仍然局限于 DFL 对外部面部的关注度较低,需要大量的数据策划和训练来解决外部边缘问题。 来源:https://www.youtube.com/watch?v=x8igrh1eyLk
这种“手法”或注意力转移在当前对深度伪造日益逼真的关注中大多数时候都能躲过公众的注意,因为我们对深度伪造的批判性思维仍然处于“震惊和敬畏”的阶段。
分裂身份
新论文指出,大多数以前的深度伪造检测方法都依赖于背叛交换过程的伪影,例如 不一致的头部姿势 和 眨眼,以及 许多其他技术。就在本周,另一篇新的深度伪造检测论文 提议 使用 FaceSwap 框架中不同模型类型的“签名”来帮助识别使用它创建的伪造视频(见下图)。

通过 FaceSwap 框架中不同模型类型的特征来识别深度伪造。 来源:https://arxiv.org/pdf/2202.12951.pdf
相比之下,ICT 的架构为一个人创建两个独立的嵌套身份,每个身份都必须在整个身份被认为是“真实”之前进行验证。

ICT 的训练和测试阶段架构。
身份的分离是通过视觉 Transformer 实现的,它在将调查区域分为属于内部或外部身份的标记之前执行面部识别。

在两个平行身份标志器之间分配补丁。
论文指出:
“不幸的是,现有的面部验证方法往往只描述最具鉴别力的区域,即内部面部用于验证,并且未能捕获外部面部的身份信息。使用身份一致性变换器,我们训练一个模型来学习一对身份向量,一对用于内部面部,另一对用于外部面部,通过设计一个 Transformer,使内部和外部身份可以在一个无缝统一的模型中同时学习。”
由于没有现有的此类识别协议的模型,作者设计了一种新的 일致性损失,可以作为真实性的度量。从身份提取模型中得到的“内部令牌”和“外部令牌”被添加到面部识别框架中产生的传统补丁嵌入中。
数据和训练
ICT 网络是在微软研究的 MS-Celeb-1M 数据集上训练的,该数据集包含 1,000 万名人的面部图像,涵盖 100 万个身份,包括演员、政治家和其他类型的知名人物。根据之前方法 Face X-ray(微软研究的另一个计划)的程序,ICT 的假面生成例程从该数据集中提取面部的内部和外部区域,以创建测试算法的材料。
要执行这些内部交换,ICT 确定数据集中具有相似头部姿势和面部标志的两个图像,生成一个中央特征的掩码区域(可以在其中执行交换),并使用 RGB 颜色校正执行深度伪造交换。
ICT 仅限于名人识别的原因是它依赖于一个新颖的参考集,该集将来自中心语料库(在本例中为 MS-Celeb-1M,尽管引用可以扩展到网络可用图像,这将只可能为知名公众人物存在足够的质量和数量)的派生面部向量。
这些从这些方法中获得的向量对作为身份验证令牌来验证内部和外部面部区域。
作者指出,这些方法获得的令牌代表“高级”特征,导致深度伪造检测过程更有可能在具有挑战性的环境中(如低分辨率或降级视频)生存下来。
关键的是,ICT 不 寻找基于伪影的证据,而是专注于与面部识别技术更一致的身份验证方法——一种在低体积数据(如调查针对非名人目标的深度伪造复仇色情事件)中很难做到的方法。
测试
在 MS-Celeb-1M 上训练后,ICT 被分为参考辅助和“盲”版本的算法,并测试了各种竞争数据集和方法。这些包括 FaceForensics++(FF++),一个包含 1000 个真实和深度伪造视频的数据集,使用四种方法创建,包括 Face2Face 和 FaceSwap;谷歌的 Deepfake Detection(DFD),也包含成千上万个谷歌生成的深度伪造视频;Celeb-DeepFake v1(CD1),它包含 408 个真实和 795 个合成的低伪影视频;Celeb-DeepFake v2,是 V1 的扩展,包含 590 个真实和 5,639 个假视频;以及中国 2020 年的 Deeper-Forensics(Deeper)。
这些是数据集;测试挑战中的检测方法是 多任务、MesoInc4、胶囊、Xception-c0、c2(FF++ 中使用的方法)、FWA/DSP-FW、来自奥尔巴尼大学的 Two-Branch、PCL+I2G 和 Yuval Nirkin 的 上下文不一致性方法。
上述检测方法旨在检测特定类型的面部操作。此外,新论文的作者测试了更一般的深度伪造检测方法,包括 Face X-ray、密歇根州立大学的 FFD、CNNDetection 和 MIT CSAIL 的 Patch-Forensics。
测试中最明显的结果是,竞争方法在视频分辨率和质量降低时其有效性急剧下降。由于一些最严重的深度伪造渗透到我们辨别能力的潜力(尤其是在当前时期)在非高清或其他质量受损的视频中,因此这似乎是一个重要的结果。

上面的结果图中,蓝色和红色线表示 ICT 方法在图像降级的所有领域中的恢复力,除了高斯噪声(在 Zoom 和网络摄像头风格的录像中不太可能发生),而竞争方法的可靠性则急剧下降。
下面的结果表中,我们可以看到各种深度伪造检测方法在未见数据集上的有效性。灰色和星号结果表示来自闭源项目的原始发布结果的比较,这些结果无法外部验证。在几乎所有可比框架中,ICT 都优于对手的深度伪造检测方法(以粗体显示)。

作为额外的测试,作者运行了来自著名深度伪造者 Ctrl Shift Face 的 YouTube 频道的内容,并发现竞争方法实现了显著低于 ICT 的识别分数:

值得注意的是,FF++ 方法(Xception-c23)和 FFD,在新论文的一般测试中实现了一些最高分数,但在“现实世界”中高精度深度伪造内容的背景下,它们实现了远低于 ICT 的分数。
作者以希望这项工作的结果能够引导深度伪造检测社区朝着类似的计划发展,这些计划专注于更容易推广的高级特征,并远离基于伪影的检测的“冷战”,在这种情况下,最新的方法经常被深度伪造框架的发展或其他因素所破坏,使得这些方法的恢复力降低,结束了这篇论文。
查看文章末尾的配套视频以获取更多 ICT 识别深度伪造内容的示例,这些内容往往比其他方法更聪明。
首次发布于 2022 年 3 月 4 日。












