人工智能
解开是下一场 Deepfake 革命
CGI 数据增强正在一个新项目中使用,以更好地控制深度伪造图像。 尽管你仍然无法有效地使用 CGI 头部来填补 Deepfake 面部数据集中缺失的空白,但将身份与上下文分离的新一波研究意味着很快你可能就不需要这么做了。
过去几年中一些最成功的病毒式深度假视频的创作者非常仔细地选择源视频,避免持续的侧面镜头(即警察逮捕程序中流行的侧面照片)、锐角以及不寻常或夸张的表情。 越来越多的病毒式深度造假者制作的演示视频经过编辑,选择了“最简单”的深度造假角度和表情。
事实上,插入深度造假名人的最合适的目标视频是原始人(其身份将被深度造假删除)直视镜头、表情范围最小的视频。
因为 Deepfake 技术,例如 深度人脸实验室 和 换脸 很好地执行这些更简单的交换,我们对他们所完成的事情感到非常眼花缭乱,以至于没有注意到他们无法做到什么,而且 - 通常 - 甚至不尝试:
新的研究 来自以色列的公司提出了一种使用合成数据(例如 CGI 头像)的新颖方法,通过真正将面部身份(即从各个角度来看“汤姆·克鲁斯”的基本面部特征)与其背景(即 抬头, 侧视, 皱眉, 在黑暗中皱起眉头, 眉头皱起, 闭着眼睛等)。
这不仅仅是 深度假头傀儡,一种更适合化身和部分面部唇形同步的技术,但其在成熟的深度伪造视频转换方面的潜力有限。
相反,这代表了工具性根本分离的前进方向(例如 “改变头部的角度”, “制造皱眉”)从身份出发,提供了一条通往高级而不是基于“衍生”图像合成的 Deepfake 框架的路径。
新论文的标题是 Delta-GAN-Encoder:使用少量合成样本对显式图像编辑的语义变化进行编码,来自以色列理工学院 Technion 的研究人员。
为了理解这项工作的意义,我们来看看目前从深度伪造色情网站到各地深度伪造是如何制作的。 工业光魔 (因为 DeepFaceLab 开源存储库目前在“业余”和专业深度造假领域均占主导地位)。
是什么阻碍了当前的 Deepfake 技术?
Deepfakes 目前是通过训练 编码器/解码器 在两个面部图像文件夹上建立机器学习模型——你想要“涂色”的人(在前面的例子中,是阿尼)和你想要叠加到镜头中的人(Sly)。
那么编码器/解码器系统 比较每一个图像 在每个文件夹中相互交换,维持、改进和重复此操作数十万次迭代(通常长达一周),直到它充分了解两个身份的基本特征,可以随意交换它们。
对于在此过程中交换的两个人中的每一个人,deepfake 架构学到的身份信息是 与上下文纠缠在一起。 它无法“一劳永逸”地学习和应用有关通用姿势的原则,但需要训练数据集中的大量示例,以用于面部交换中涉及的每个身份。
因此,如果你想交换两个身份,做一些比仅仅微笑或直视镜头更不寻常的事情,你将需要 许多 两个面部集合中特定姿势/身份的实例:
如果 A 组包含不寻常的姿势,但 B 组缺少它,那么你就很不走运了; 无论你训练模型多久,它都永远无法学会在身份之间很好地重现该姿势,因为它在训练时只拥有一半的必要信息。
即使您确实有匹配的图像,也可能还不够:如果 A 组具有匹配的姿势,但在侧面照明很刺眼的情况下,与其他脸部组中平光照明的等效姿势相比,交换的质量会获胜不像每个人都有共同的照明特征那样好。
为什么数据稀缺
除非你经常被捕,否则你可能不会有那么多自己的侧面照片。 任何出现的东西,你都可能扔掉。 由于图片经纪公司也这样做,因此很难获得侧面照片。
Deepfakers 通常会在面部集中包含他们所拥有的有限侧视图个人资料数据的多个副本,以便该姿势至少获得 小 培训期间的注意力和时间,而不是被打折为 局外人.
但是,侧视脸部图片的可能类型比数据集中可能包含的类型要多得多 – 微笑, 皱着眉头, 尖叫, 哭泣, 昏暗的灯光下, 轻蔑的, 无聊, 快乐, 闪光灯, 抬头, 向下看, 睁开眼睛, 闭上眼睛…等等。 目标深度伪造目标视频中可能需要任何这些姿势的多种组合。
这只是个人资料。 你有多少张自己的照片 直起来? 你是否有足够的能力广泛地代表 10,000 种可能的表达方式 您可能会在从特定的相机角度保持特定的姿势时佩戴,至少覆盖了一些 一百万种可能的照明环境?
很可能,你甚至没有 一种 你自己抬头的照片。 这只是全面覆盖所需的一百个或更多角度中的两个。
即使可以在一系列照明条件下从各个角度生成脸部的完整覆盖,所得数据集也太大而无法训练,大约有数十万张图片; 即使它 可以 如果要进行训练,当前的 Deepfake 框架的训练过程的性质将丢弃绝大多数额外数据,转而支持有限数量的派生特征,因为当前的框架是还原论的,并且可扩展性不太好。
合成替代品
自从 Deepfakes 出现以来,Deepfakes 就尝试使用 CGI 风格的图像、Cinema3D 和 Maya 等 4D 应用程序制作的头部来生成那些“缺失的姿势”。
这种方法通常会被新的 Deepfake 从业者早期放弃,因为尽管它可以提供其他方式无法提供的姿势和表情,但由于 ID 和上下文/语义信息的纠缠,CGI 面孔的合成外观通常会渗透到交换中。
这可能会导致在原本令人信服的深度造假视频中突然出现“恐怖谷”面孔,因为算法开始利用它可能拥有的不寻常姿势或表情的唯一数据——明显是假面孔。
CGI 面孔作为独立的概念指南
相反,以色列研究人员的新 Delta-GAN 编码器(DGE)方法更为有效,因为 CGI 图像中的姿势和上下文信息已与目标的“身份”信息完全分离。
我们可以在下图中看到这一原理的实际应用,其中通过使用 CGI 图像作为指导获得了各种头部方向。 由于身份特征与上下文特征无关,因此 CGI 脸部的假合成外观和其中所描绘的身份都不会渗透:
这种身份和背景的分离是在训练阶段实现的。 新的 Deepfake 架构的管道在预先训练的生成对抗网络 (GAN) 中寻找与要转换的图像相匹配的潜在向量——这是一种基于 2 年的 Sim2018Real 方法 项目 来自 IBM 人工智能研究部门。
研究人员观察到:
“只需几个因特定属性而异的样本,人们就可以学习预先训练的纠缠生成模型的解纠缠行为。 不需要精确的现实世界样本来达到该目标,这不一定可行。
“通过使用非现实数据样本,利用编码潜在向量的语义可以实现相同的目标。 无需明确的潜在空间行为探索即可对现有数据样本应用所需的更改。
研究人员预计,该项目中探索的解开纠缠的核心原理可以转移到其他领域,例如内部建筑模拟,并且 Delta-GAN-Encoder 采用的 Sim2Real 方法最终可以实现基于草图的深度伪造工具,而不是基于草图。 CGI 风格的输入。
可以说,新的以色列系统可能或可能无法合成深度伪造视频的程度远不如该研究在将背景与身份分离方面取得的进展重要,在此过程中获得对潜在空间的更多控制一个 GAN 的。
解缠结是图像合成中一个活跃的研究领域; 2021 年 XNUMX 月,亚马逊领导的一项研究 纸 展示了类似的姿势控制和解缠,并且在 2018 年 纸 中国科学院深圳先进技术研究院的研究人员在 GAN 中生成任意观点方面取得了进展。