人工智能
从外脸区域识别名人 Deepfakes
微软与中国一所大学之间的一项新合作提出了一种识别名人深度造假的新方法,利用当前深度造假技术的缺点来识别“投射”到其他人身上的身份。
该方法称为 身份一致性转换器 (ICT),通过将面部最外侧部分(下巴、颧骨、发际线和其他外部边缘轮廓)与面部内部进行比较来进行工作。该系统利用了名人的常见公共图像数据,这限制了其对流行名人的有效性,这些名人的图像在广泛使用的计算机视觉数据集中和互联网上有大量可用。
如上图所示,当前流行的深度伪造方法非常受资源限制,并且依赖适当的主机面孔(身份将被深度伪造的人的图像或视频)来最大程度地减少面部替换的证据。
尽管不同的方法可能涵盖整个前额以及下巴和颧骨区域的大部分,但所有方法都或多或少地限制在主体脸部的框架内。
在测试中,ICT 证明能够在低分辨率视频等容易造假的范围内检测深度造假内容,其中整个视频的内容因压缩伪影而降级,有助于隐藏深度造假过程的残留证据——这种情况让许多竞争者感到困惑深度伪造检测方法。
纸 标题为 使用身份一致性转换器保护名人,来自中国科学技术大学、微软亚洲研究院、微软云+AI的九名研究人员。
可信度差距
流行的换脸算法至少有几个原因,例如 深度人脸实验室 和 换脸 忽略交换的面部身份的最外层区域。
首先,训练 Deepfake 模型非常耗时且资源匮乏,而采用“兼容”的主机面部/身体可以释放 GPU 周期和周期,以专注于我们用来区分身份的面部相对不可变的内部区域(因为体重波动和衰老等变量在短期内最不可能改变这些核心面部特征)。
其次,大多数 Deepfake 方法(DeepFaceLab 就是这种情况,最受欢迎或最臭名昭著的从业者使用的软件)复制“面部末端”边缘(例如脸颊和下巴区域)的能力有限,并且受到以下事实的限制:他们的上游(2017)代码没有广泛解决这个问题。
在身份不匹配的情况下,深度造假算法必须“修复”脸部周围的背景区域,即使在最优秀的深度造假者手中,它也只能做得很笨拙,例如 Ctrl Shift面,其输出用于论文的研究。
在当前人们对深度造假日益增长的现实主义的担忧中,这种“花招”或注意力转移在很大程度上逃避了公众的关注,因为我们对深度造假的批判能力仍在发展,超越了“震惊和敬畏”阶段。
身份分裂
新论文指出,大多数先前的深度伪造检测方法都依赖于背叛交换过程的伪影,例如 头部姿势不一致 和 眨眼,其中 许多其他技术。 就在本周,另一篇新的深度伪造检测论文发表了 建议 使用 FaceSwap 框架中不同模型类型的“签名”来帮助识别用它创建的伪造视频(见下图)。
相比之下,ICT 的架构为一个人创建了两个独立的嵌套身份,每个身份都必须经过验证,然后才能将整个身份断定为“真实”的镜头或图像。
愿景促进了身份的分裂 变压器,它在将调查区域分割为属于内部或外部身份的令牌之前执行面部识别。
该文件指出:
“不幸的是,现有的面部验证[方法]往往会刻画最具辨别力的区域,即内部面部进行验证,而无法捕获外部面部的身份信息。 通过 Identity Consistency Transformer,我们训练一个模型来学习一对身份向量,一个用于内部面孔,另一个用于外部面孔,通过设计一个 Transformer,使得内部和外部身份可以在无缝统一的环境中同时学习。模型。'
由于该识别协议没有现有模型,因此作者设计了一种新的一致性损失,可以作为真实性的衡量标准。 身份提取模型产生的“内部令牌”和“外部令牌”被添加到面部识别框架生成的更传统的补丁嵌入中。
数据和培训
ICT 网络接受了 Microsoft Research 的培训 MS-Celeb-1M 该数据集包含 10 万张名人脸部图像,涵盖 XNUMX 万个身份,包括演员、政治家和许多其他类型的知名人物。 按照之前方法的流程 面部X光检查 (另一项微软研究计划),ICT 自己的伪造生成例程会交换从该数据集中提取的面部的内部和外部区域,以创建用于测试算法的材料。
为了执行这些内部交换,ICT 识别数据集中表现出相似头部姿势和面部标志的两幅图像,生成中心特征的掩模区域(可以在其中执行交换),并通过 RGB 颜色校正执行 Deepfake 交换。
ICT 仅限于名人识别的原因是,它依赖于(以其最有效的变体)一个新颖的参考集,该参考集包含从中央语料库导出的面部向量(在本例中为 MS-Celeb-1M,尽管参考可以扩展)网络可用的图像,这些图像只有在知名公众人物的质量和数量上才可能存在)。
这些派生的向量集对充当真实性标记,以串联验证内表面和外表面区域。
作者指出,从这些方法获得的令牌代表“高级”特征,从而导致深度伪造检测过程更有可能在低分辨率或其他降级视频等具有挑战性的环境中生存。
至关重要的是,ICT 是 不能 寻找基于人工制品的证据,而是专注于更符合面部识别技术的身份验证方法——这种方法在数据量较少的情况下很困难,就像调查 深假复仇色情 针对非著名目标。
检测
在 MS-Celeb-1M 上进行训练后,ICT 被分为参考辅助算法和“盲”算法版本,并针对一系列竞争数据集和方法进行了测试。 这些包括 人脸取证++ (FF++),包含 1000 个真实和深度伪造视频的数据集,通过四种方法创建,包括 面对面 和换脸; 谷歌的 深度伪造检测 (DFD),也由数千个谷歌生成的深度伪造视频组成; Celeb-DeepFake v1 (CD1),其中包含 408 个真实视频和 795 个合成低伪影视频; Celeb-DeepFake v2,V1 的扩展,包含 590 个真实视频和 5,639 个假视频; 以及中国的2020 更深入的取证 (更深)。
这些是数据集; 测试挑战中的检测方法是 多任务, 中观公司4, 胶囊、Xception-c0、c2(FF++中采用的方法)、 FWA/DSP-FW 来自奥尔巴尼大学, 两支, PCL+I2G和尤瓦尔·尼尔金的 上下文差异法.
上述检测方法旨在检测特定类型的面部操纵。 除此之外,新论文的作者还测试了更通用的深度伪造检测产品 面部X光检查,密歇根州立大学 FFD, CNN检测及 补丁取证 来自麻省理工学院 CSAIL。
测试最明显的结果是,随着视频分辨率和质量的降低,竞争方法的有效性急剧下降。 由于深度造假渗透我们的歧视能力的一些最严重的潜力在于(尤其是在当前)非高清或其他质量受损的视频,这似乎是一个重要的结果。
在上面的结果图中,蓝线和红线表示 ICT 方法在除高斯噪声障碍(在 Zoom 和网络摄像头式镜头中不太可能)之外的所有区域中对图像退化的恢复力,而竞争方法的可靠性则直线下降。
在下面的结果表中,我们看到了各种深度伪造检测方法在未见过的数据集上的有效性。 灰色和带星号的结果表示与闭源项目中最初发布的结果的比较,无法进行外部验证。 在几乎所有可比较的框架中,ICT 在试验数据集上的表现都优于竞争对手的 Deepfake 检测方法(以粗体显示)。
作为一项额外测试,作者运行了广受好评的 Deepfaker Ctrl Shift Face 的 YouTube 频道中的内容,发现竞争方法的识别分数明显较差:
这里值得注意的是,FF++ 方法 (Xception-c23) 和 FFD 在新论文的一般测试中的一些测试数据中取得了一些最高分,但在“现实世界”环境中取得的分数远低于 ICT大量的深度造假内容。
作者在总结这篇论文时希望其结果能够引导 Deepfake 检测社区采取类似的举措,专注于更容易概括的高级特征,并远离伪影检测的“冷战”,其中最新的方法通常被Deepfake 框架的发展,或其他因素导致此类方法的弹性较差。
请观看下面随附的补充视频,了解更多信息通信技术识别深度造假内容的示例,这些内容通常比其他方法更狡猾。
首次发布于 4 年 2022 月 XNUMX 日。