人工智能
一种新的、更简单的Deepfake方法超越了先前的方法

中国的一组AI研究人员与美国的研究人员合作,可能开发出了自从四年前深度伪造技术出现以来首次真正的创新。
这种新方法可以执行面部交换,优于所有现有的框架,在标准的感知测试中,无需耗时地收集和整理大量专用数据集,并训练它们长达一周,以仅仅识别单个身份。对于新论文中呈现的示例,模型是在两个流行的名人数据集的全部数据上训练的,使用一个NVIDIA Tesla P40 GPU,大约训练了三天。

全视频可在本文末尾找到。 在新论文的补充材料中提供的一个视频样本中,斯嘉丽·约翰逊的脸被转移到源视频上。CihaNet通过形成和执行源和目标身份之间的更深层次的关系,消除了边缘遮罩的问题,从而消除了传统深度伪造方法中出现的“明显边界”和其他叠加故障。来源: https://mitchellx.github.io/#video
这种新方法消除了将移植的身份粗糙地“粘贴”到目标视频中的需要,这通常会导致出现可疑的伪影,这些伪影出现在假面结束和真实的底层面开始的地方。相反,使用“幻觉地图”来执行视觉方面的更深层次的混合,因为该系统比当前方法更有效地将身份与上下文分离,因此可以在更深层次上混合目标身份。

来自论文。CihaNet转换是通过幻觉地图(底行)实现的。该系统使用上下文信息(即面部方向、头发、眼镜和其他遮挡等),全部来自将要被叠加新身份的图像,并且使用面部身份信息全部来自将被插入图像的人。这种将面部与上下文分离的能力对于系统的成功至关重要。来源: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257
有效地,新的幻觉地图为交换提供了更完整的上下文,而不是需要大量策划(在DeepFaceLab的情况下,还需要单独训练)的硬遮罩,同时提供了有限的灵活性,以便在两个身份之间真正融合。

来自补充材料中提供的样本,使用了FFHQ和Celeb-A HQ数据集,跨VGGFace和Forensics++。前两列显示随机选择的(真实)要交换的图像。接下来的四列显示使用当前四种最有效方法的交换结果,而最后一列显示CihaNet的结果。FaceSwap仓库被用于代替更流行的DeepFaceLab,因为两个项目都是2017年GitHub上原始Deepfakes代码的分支。虽然每个项目都添加了模型、技术、多样化的UI和补充工具,但使深度伪造成为可能的底层代码从未改变,并且仍然是两个项目共有的。来源: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip
论文题目为《一阶段上下文和身份幻觉网络》,由JD AI研究和马萨诸塞大学阿默斯特分校的研究人员撰写,并得到了中国国家重点研发计划(Grant No. 2020AAA0103800)的支持。它于10月20日至24日在中国成都举行的第29届ACM国际多媒体会议上发表。
无需“面对面”对齐
最流行的当前深度伪造软件DeepFaceLab和竞争对手FaceSwap,执行繁琐且经常手动策划的工作流程,以确定面部朝向、需要考虑的障碍(再次手动)以及许多其他令人恼火的障碍(包括照明),使得它们的使用远非媒体自深度伪造出现以来所描绘的“点按即用”的体验。
相比之下,CihaNet不需要两张图像直接面对摄像头以提取和利用单个图像中的有用身份信息。

在这些示例中,一套深度伪造软件竞争者面临着交换面部的任务,这些面部不仅在身份上不同,而且方向也不相同。来自原始深度伪造仓库的软件(如流行的DeepFaceLab和FaceSwap,见上图)无法处理两个要交换的图像之间的角度差异(见第三列)。同时,CihaNet可以正确抽象身份,因为面部的“姿势”并不是身份信息的固有部分。
架构
CihaNet项目的作者表示,他们的灵感来自2019年微软研究院和北京大学的合作项目FaceShifter,尽管它对旧方法的核心架构进行了一些显著和关键的更改。
FaceShifter使用两个自适应实例归一化(AdaIN)网络来处理身份信息,这些信息然后通过一个遮罩传递到目标图像中,以一种类似于当前流行的深度伪造软件(及其相关限制)的方式,使用一个额外的HEAR-Net(其中包括一个单独训练的子网,训练于遮挡障碍——一个额外的复杂层)。
相反,新的架构直接使用这种“上下文”信息来执行转换过程本身,通过一个两步骤的级联自适应实例归一化(C-AdaIN)操作,这提供了ID相关区域的上下文的一致性。
系统中至关重要的第二个子网被称为交换块(SwapBlk),它从参考图像的上下文和源图像的嵌入“身份”信息中生成一个集成特征,绕过了传统方法中必要的多个阶段。
为了帮助区分上下文和身份,对于每个级别都会生成一个幻觉地图,它代替了软分割遮罩,并作用于更广泛的特征,以执行深度伪造过程的这一关键部分。

随着幻觉地图(右下图)值的增加,身份之间出现了更清晰的路径。
这种方式,整个交换过程是在单个阶段完成的,无需后处理。
数据和测试
为了尝试该系统,研究人员在两个流行且多样化的开源图像数据集上训练了四个模型:CelebA-HQ和NVIDIA的Flickr-Faces-HQ数据集(FFHQ),每个数据集包含30,000和70,000张图像。
在这些基础数据集上没有进行任何剪枝或过滤。在每种情况下,研究人员使用单个Tesla GPU在三天内训练了每个数据集的全部数据,使用Adam优化器的学习率为0.0002。
然后,他们渲染了一系列在数据集中呈现的成千上万个个体之间的随机交换,不考虑面部是否相似或甚至是否性别匹配,并将CihaNet的结果与四个领先的深度伪造框架的输出进行比较:FaceSwap(代表更流行的DeepFaceLab,因为它们共享一个根代码库,即2017年将深度伪造带到世界的原始仓库);上述FaceShifter;FSGAN;以及SimSwap。
通过比较结果,使用VGG-Face、FFHQ、CelebA-HQ和FaceForensics++,作者发现他们的新模型在所有先前的模型中表现最佳,如下表所示。

用于评估结果的三个指标是结构相似性(SSIM)、姿势估计错误和ID检索准确率,它是基于成功检索的配对百分比计算的。
研究人员声称,CihaNet代表了一种更好的方法,具有更高的质量结果,并且在深度伪造技术方面取得了显著进步,通过消除广泛而耗时的遮罩架构和方法的负担,并实现了身份与上下文之间更有用的和更可行的分离。
查看下面的视频示例,以查看新技术的更多内容。你可以在这里找到完整的视频。
来自新论文的补充材料,CihaNet在各种身份上执行面部交换。 来源:https://mitchellx.github.io/#video


