人工智能
从外脸区域识别名人 Deepfakes

微软与中国一所大学之间的一项新合作提出了一种识别名人深度伪造的新方法,即利用当前深度伪造技术的缺点来识别已“投射”到其他人身上的身份。
该方法称为 身份一致性转换器 (ICT),通过将面部最外侧部分(下巴、颧骨、发际线和其他外部边缘轮廓)与面部内部进行比较来进行工作。该系统利用了名人的常见公共图像数据,这限制了其对流行名人的有效性,这些名人的图像在广泛使用的计算机视觉数据集中和互联网上有大量可用。

七种技术对伪造面孔的伪造覆盖率:FF+ 中的 DeepFake; Google DeepFake 检测中的 DeepFake; 深脸实验室; 面对面; FSGAN; 和 DF-VAE。 DeepFaceLab 和 FaceSwap 等流行软件包提供了类似的有限覆盖范围。 资料来源:https://arxiv.org/pdf/2203.01318.pdf
如上图所示,当前流行的深度伪造方法非常受资源限制,并且依赖适当的主机面孔(身份将被深度伪造的人的图像或视频)来最大程度地减少面部替换的证据。
尽管不同的方法可能涵盖整个前额以及下巴和颧骨区域的大部分,但所有方法都或多或少地限制在主体脸部的框架内。

ICT 计算出的显著图,用于强调“内部”和“外部”身份。如果内部面部匹配成功,但外部身份不符,ICT 会将该图像判定为假图像。
在测试中,ICT 证明能够在低分辨率视频等容易造假的范围内检测深度造假内容,其中整个视频的内容因压缩伪影而降级,有助于隐藏深度造假过程的残留证据——这种情况让许多竞争者感到困惑深度伪造检测方法。

ICT 在识别深度伪造内容方面优于竞争对手。 请参阅文章末尾嵌入的视频以获取更多示例和更好的分辨率。 有关更多示例,请参阅文章末尾的嵌入式源视频。 来源:https://www.youtube.com/watch?v=zgF50dcymj8
这个 纸 标题为 使用身份一致性转换器保护名人,来自中国科学技术大学、微软亚洲研究院、微软云+AI的九名研究人员。
可信度差距
流行的换脸算法至少有几个原因,例如 深度人脸实验室 与 换脸 忽略交换的面部身份的最外层区域。
首先,训练深度伪造模型非常耗时且资源至关重要,而采用“兼容”的宿主面部/身体可以释放 GPU 周期和时期,以专注于我们用来区分身份的相对不变的面部内部区域(因为体重波动和衰老等变量在短期内最不可能改变这些核心面部特征)。
其次,大多数深度伪造方法(最受欢迎或最臭名昭著的从业者使用的软件 DeepFaceLab 就是这种情况)在复制“脸部末端”边缘(例如脸颊和下巴区域)的能力有限,并且受到其上游(2017)代码没有广泛解决这个问题。
如果身份不匹配,深度伪造算法必须“修复”脸部周围的背景区域,即使在最好的深度伪造者手中,它也只能笨拙地完成这项工作,例如 Ctrl Shift面,其输出被用于本文的研究。

精选中的精选:来自广受好评的 Deepfake Ctrl-Shift-Face 的 Deepfake 视频剧照,将金·凯瑞 (Jim Carrey) 换成加里·奥德曼 (Gary Oldman)。 这项工作可以说代表了目前通过 DeepFaceLab 和后处理技术可获得的一些最佳输出。 尽管如此,交换仍然仅限于 DFL 对外表面的关注相对较少,需要付出巨大的数据管理和培训努力来解决最外层的轮廓问题。 来源:https://www.youtube.com/watch?v=x8igrh1eyLk
在当前人们对深度伪造日益增长的真实感的担忧中,这种“花招”或注意力的转移在很大程度上逃脱了公众的注意,因为我们对深度伪造的批判能力仍在发展,超越了“震惊和敬畏”的阶段。
身份分裂
新论文指出,大多数先前的深度伪造检测方法都依赖于背叛交换过程的伪影,例如 头部姿势不一致 与 眨眼,其中 许多其他技术。 就在本周,另一篇新的深度伪造检测论文发表了 建议 使用 FaceSwap 框架中不同模型类型的“签名”来帮助识别使用它创建的伪造视频(见下图)。

通过表征 FaceSwap 框架中不同模型类型的签名来识别深度伪造品。 资料来源:https://arxiv.org/pdf/2202.12951.pdf
相比之下,ICT 的架构为一个人创建了两个独立的嵌套身份,必须先验证每个身份,然后才能将整个身份认定为“真实”的镜头或图像。

ICT 培训和测试阶段的架构。
愿景促进了身份的分裂 变压器,它在将调查区域分割为属于内部或外部身份的令牌之前执行面部识别。

在两个平行的身份能指之间分配补丁。
该文件指出:
遗憾的是,现有的人脸验证方法倾向于识别最具鉴别力的区域,即用于验证的内侧人脸,而无法捕捉外侧人脸中的身份信息。借助身份一致性变换器 (Identity Consistency Transformer),我们设计了一个变换器 (Transformer),训练一个模型来学习一对身份向量,一个用于内侧人脸,另一个用于外侧人脸,从而在一个无缝统一的模型中同时学习内侧和外侧身份。
由于目前尚无针对该识别协议的模型,作者设计了一种新的一致性损失函数,可以作为真实性的度量标准。身份提取模型生成的“内部标记”和“外部标记”被添加到面部识别框架生成的更传统的块嵌入中。
数据和培训
ICT 网络在微软研究院的 MS-Celeb-1M 该数据集包含 10 万张名人脸部图像,涵盖 XNUMX 万个身份,包括演员、政治家和许多其他类型的知名人物。 按照之前方法的流程 面部X光检查 (另一项微软研究院计划),ICT 自己的伪生成程序会交换从该数据集中提取的面部的内外区域,以创建用于测试算法的材料。
为了执行这些内部交换,ICT 识别数据集中表现出相似头部姿势和面部标志的两幅图像,生成中心特征的掩模区域(可以在其中执行交换),并通过 RGB 颜色校正执行 Deepfake 交换。
ICT 仅限于名人识别的原因是,它依赖于(以其最有效的变体)一个新颖的参考集,该参考集包含从中央语料库导出的面部向量(在本例中为 MS-Celeb-1M,尽管参考可以扩展)网络可用的图像,这些图像只有在知名公众人物的质量和数量上才可能存在)。
这些派生的向量集对充当真实性标记,以串联验证内表面和外表面区域。
作者指出,通过这些方法获得的标记代表了“高级”特征,从而使深度伪造检测过程更有可能在低分辨率或其他质量下降的视频等具有挑战性的环境中生存下来。
至关重要的是,ICT 是 不会 寻找基于人工制品的证据,而是专注于更符合面部识别技术的身份验证方法——这种方法在数据量较少的情况下很困难,就像调查 深假复仇色情 针对非著名目标。
检测
在 MS-Celeb-1M 上进行训练后,ICT 被分为参考辅助和“盲测”两种算法版本,并与一系列竞争数据集和方法进行了测试。这些测试包括 人脸取证++ (FF++),包含 1000 个真实和深度伪造视频的数据集,通过四种方法创建,包括 面对面 和 FaceSwap;谷歌的 深度伪造检测 (DFD),也由数千个谷歌生成的深度伪造视频组成; Celeb-DeepFake v1 (CD1),其中包含 408 个真实视频和 795 个合成低伪影视频;Celeb-DeepFake v2,是 V1 的扩展,包含 590 个真实视频和 5,639 个虚假视频;以及中国 2020 更深入的取证 (更深)。
这些是数据集; 测试挑战中的检测方法是 多任务, 中观公司4, 胶囊、Xception-c0、c2(FF++中采用的方法)、 FWA/DSP-FW 来自奥尔巴尼大学, 两支, PCL+I2G以及 Yuval Nirkin 的 上下文差异法.
上述检测方法旨在检测特定类型的面部篡改。除此之外,新论文的作者还测试了更通用的深度伪造检测方法。 面部X光检查,密歇根州立大学的 FFD, CNN检测和 补丁取证 来自麻省理工学院 CSAIL。
测试最明显的结果是,随着视频分辨率和质量的降低,竞争方法的有效性急剧下降。 由于深度造假渗透我们的歧视能力的一些最严重的潜力在于(尤其是在当前)非高清或其他质量受损的视频,这似乎是一个重要的结果。

在上面的结果图中,蓝线和红线表示 ICT 方法对除高斯噪声障碍(在 Zoom 和网络摄像头风格的镜头中不太可能出现)之外所有领域的图像退化具有恢复能力,而竞争方法的可靠性则急剧下降。
在下面的结果表中,我们看到了各种深度伪造检测方法在未见过的数据集上的有效性。 灰色和带星号的结果表示与闭源项目中最初发布的结果的比较,无法进行外部验证。 在几乎所有可比较的框架中,ICT 在试验数据集上的表现都优于竞争对手的 Deepfake 检测方法(以粗体显示)。

作为一项额外测试,作者运行了广受好评的 Deepfaker Ctrl Shift Face 的 YouTube 频道中的内容,发现竞争方法的识别分数明显较差:

值得注意的是,FF++ 方法(Xception-c23)和 FFD 在新论文的常规测试中在某些测试数据上取得了最高分数,但在“现实世界”高强度深度伪造内容环境中,它们的得分远低于 ICT。
作者在论文最后表示,希望论文结果能够引导深度伪造检测社区采取类似的举措,专注于更容易推广的高级特征,远离伪造检测的“冷战”,在冷战中,最新的方法通常会因深度伪造框架的发展或其他使这些方法缺乏弹性的因素而被淘汰。
请观看下面随附的补充视频,了解更多信息通信技术识别深度造假内容的示例,这些内容通常比其他方法更狡猾。
首次发布于 4 年 2022 月 XNUMX 日。










