存根 解开是下一场 Deepfake 革命 - Unite.AI
关注我们.

人工智能

解开是下一场 Deepfake 革命

mm
更新 on

CGI 数据增强正在一个新项目中使用,以更好地控制深度伪造图像。 尽管你仍然无法有效地使用 CGI 头部来填补 Deepfake 面部数据集中缺失的空白,但将身份与上下文分离的新一波研究意味着很快你可能就不需要这么做了。

过去几年中一些最成功的病毒式深度假视频的创作者非常仔细地选择源视频,避免持续的侧面镜头(即警察逮捕程序中流行的侧面照片)、锐角以及不寻常或夸张的表情。 越来越多的病毒式深度造假者制作的演示视频经过编辑,选择了“最简单”的深度造假角度和表情。

事实上,插入深度造假名人的最合适的目标视频是原始人(其身份将被深度造假删除)直视镜头、表情范围最小的视频。

近年来,大多数流行的深度假货都显示拍摄对象直接面对镜头,并且要么只带有流行的表情(例如微笑),这些表情可以很容易地从红地毯狗仔队的输出中提取出来,要么(就像 2019 年西尔维斯特·史泰龙的假货一样)如终结者(左图),理想情况下根本没有任何表情,因为中性表情非常常见,这使得它们很容易融入深度伪造模型中。

近年来,大多数流行的深度假货都显示拍摄对象直接面对镜头,并且要么只带有流行的表情(例如微笑),这些表情可以很容易地从红地毯狗仔队的输出中提取出来,要么(就像 2019 年西尔维斯特·史泰龙的假货一样)如终结者(左图),理想情况下根本没有任何表情,因为中性表情非常常见,这使得它们很容易融入深度伪造模型中。

因为 Deepfake 技术,例如 深度人脸实验室换脸 很好地执行这些更简单的交换,我们对他们所完成的事情感到非常眼花缭乱,以至于没有注意到他们无法做到什么,而且 - 通常 - 甚至不尝试:

摘自一段广受好评的 Deepfake 视频,其中阿诺德·施瓦辛格 (Arnold Schwarzenegger) 变成了西尔维斯特·史泰龙 (Sylvester Stallone)——除非角度太棘手。 侧面仍然是当前 Deepfake 方法中的一个持久问题,部分原因是用于在 Deepfake 框架中定义面部姿势的开源软件未针对侧视图进行优化,但主要是因为在必要的一个或两个方面缺乏合适的源材料数据集。 来源:https://www.youtube.com/watch?v=AQvCmQFScMA

摘自一段广受好评的 Deepfake 视频,其中阿诺德·施瓦辛格 (Arnold Schwarzenegger) 变成了西尔维斯特·史泰龙 (Sylvester Stallone)——除非角度太棘手。 侧面仍然是当前 Deepfake 方法中的一个持久问题,部分原因是用于在 Deepfake 框架中定义面部姿势的开源软件未针对侧视图进行优化,但主要是因为在必要的一个或两个方面缺乏合适的源材料数据集。 来源:https://www.youtube.com/watch?v=AQvCmQFScMA

新的研究 来自以色列的公司提出了一种使用合成数据(例如 CGI 头像)的新颖方法,通过真正将面部身份(即从各个角度来看“汤姆·克鲁斯”的基本面部特征)与其背景(即 抬头, 侧视, 皱眉, 在黑暗中皱起眉头, 眉头皱起, 闭着眼睛等)。

新系统使用不相关的合成面部数据(左图),将姿势和背景(即眨眼)与个人的身份编码分开。 在顶行,我们看到一个“眨眼”被转移到巴拉克·奥巴马的身份上,这是由学习到的 GAN 潜在空间的非线性路径(由左侧的 CGI 图像表示)引发的。 在下面的行中,我们看到拉伸的嘴角刻面转移到前总统身上。 右下角,我们看到这两个特性同时应用。 资料来源:https://arxiv.org/pdf/2111.08419.pdf

新系统使用不相关的合成面部数据(左图),将姿势和背景(即眨眼)与个人的身份编码分开。 在顶行中,我们看到一个“眨眼”被转移到巴拉克·奥巴马的身份上,这是由学习到的 GAN 潜在空间的非线性路径(由左侧的 CGI 图像表示)引发的。 在下面的行中,我们看到拉伸的嘴角刻面转移到前总统身上。 右下角,我们看到这两个特性同时应用。 资料来源:https://arxiv.org/pdf/2111.08419.pdf

这不仅仅是 深度假头傀儡,一种更适合化身和部分面部唇形同步的技术,但其在成熟的深度伪造视频转换方面的潜力有限。

相反,这代表了工具性根本分离的前进方向(例如 “改变头部的角度”, “制造皱眉”)从身份出发,提供了一条通往高级而不是基于“衍生”图像合成的 Deepfake 框架的路径。

新论文的标题是 Delta-GAN-Encoder:使用少量合成样本对显式图像编辑的语义变化进行编码,来自以色列理工学院 Technion 的研究人员。

为了理解这项工作的意义,我们来看看目前从深度伪造色情网站到各地深度伪造是如何制作的。 工业光魔 (因为 DeepFaceLab 开源存储库目前在“业余”和专业深度造假领域均占主导地位)。

是什么阻碍了当前的 Deepfake 技术?

Deepfakes 目前是通过训练 编码器/解码器 在两个面部图像文件夹上建立机器学习模型——你想要“涂色”的人(在前面的例子中,是阿尼)和你想要叠加到镜头中的人(Sly)。

两个不同脸部组的不同姿势和照明条件的示例。 请注意 A 列第三行末尾的独特表达式,它在其他数据集中不太可能有相近的等效表达式。

两个不同脸部组的不同姿势和照明条件的示例。 请注意 A 列第三行末尾的独特表达式,它在其他数据集中不太可能有相近的等效表达式。

那么编码器/解码器系统 比较每一个图像 在每个文件夹中相互交换,维持、改进和重复此操作数十万次迭代(通常长达一周),直到它充分了解两个身份的基本特征,可以随意交换它们。

对于在此过程中交换的两个人中的每一个人,deepfake 架构学到的身份信息是 与上下文纠缠在一起。 它无法“一劳永逸”地学习和应用有关通用姿势的原则,但需要训练数据集中的大量示例,以用于面部交换中涉及的每个身份。

因此,如果你想交换两个身份,做一些比仅仅微笑或直视镜头更不寻常的事情,你将需要 许多 两个面部集合中特定姿势/身份的实例:

由于面部 ID 和姿势特征目前如此交织在一起,因此需要在两个面部数据集上对表情、头部姿势和(在较小程度上)照明进行广泛的奇偶校验,以便在 DeepFaceLab 等系统上训练有效的深度伪造模型。 两个脸部集中的特定配置(例如“侧视/微笑/阳光”)越少,如果需要,它在深度伪造视频中渲染的准确度就越低。

由于面部 ID 和姿势特征目前如此交织在一起,因此需要在两个面部数据集上对表情、头部姿势和(在较小程度上)照明进行广泛的奇偶校验,以便在 DeepFaceLab 等系统上训练有效的深度伪造模型。 两个脸部集中的特定配置(例如“侧视/微笑/阳光”)越少,如果需要,它在深度伪造视频中渲染的准确度就越低。

如果 A 组包含不寻常的姿势,但 B 组缺少它,那么你就很不走运了; 无论你训练模型多久,它都永远无法学会在身份之间很好地重现该姿势,因为它在训练时只拥有一半的必要信息。

即使您确实有匹配的图像,也可能还不够:如果 A 组具有匹配的姿势,但在侧面照明很刺眼的情况下,与其他脸部组中平光照明的等效姿势相比,交换的质量会获胜不像每个人都有共同的照明特征那样好。

为什么数据稀缺

除非你经常被捕,否则你可能不会有那么多自己的侧面照片。 任何出现的东西,你都可能扔掉。 由于图片经纪公司也这样做,因此很难获得侧面照片。

Deepfakers 通常会在面部集中包含他们所拥有的有限侧视图个人资料数据的多个副本,以便该姿势至少获得 培训期间的注意力和时间,而不是被打折为 局外人.

但是,侧视脸部图片的可能类型比数据集中可能包含的类型要多得多 – 微笑, 皱着眉头, 尖叫, 哭泣, 昏暗的灯光下, 轻蔑的, 无聊, 快乐, 闪光灯, 抬头, 向下看, 睁开眼睛, 闭上眼睛…等等。 目标深度伪造目标视频中可能需要任何这些姿势的多种组合。

这只是个人资料。 你有多少张自己的照片 直起来? 你是否有足够的能力广泛地代表 10,000 种可能的表达方式 您可能会在从特定的相机角度保持特定的姿势时佩戴,至少覆盖了一些 一百万种可能的照明环境?

很可能,你甚至没有 一种 你自己抬头的照片。 这只是全面覆盖所需的一百个或更多角度中的两个。

即使可以在一系列照明条件下从各个角度生成脸部的完整覆盖,所得数据集也太大而无法训练,大约有数十万张图片; 即使它 可以 如果要进行训练,当前的 Deepfake 框架的训练过程的性​​质将丢弃绝大多数额外数据,转而支持有限数量的派生特征,因为当前的框架是还原论的,并且可扩展性不太好。

合成替代品

自从 Deepfakes 出现以来,Deepfakes 就尝试使用 CGI 风格的图像、Cinema3D 和 Maya 等 4D 应用程序制作的头部来生成那些“缺失的姿势”。

无需人工智能; 在传统的 CGI 程序 Cinema 4D 中,使用网格和位图纹理重新创建了一位女演员,该技术的历史可以追溯到 1960 世纪 1990 年代,但直到 XNUMX 世纪 XNUMX 年代才得到广泛使用。 理论上,该面部模型可用于生成异常姿势、光照风格和面部表情的深度伪造源数据。 事实上,它在深度伪造中作用有限或没有用处,因为渲染的“虚假”往往会在交换的视频中渗透出来。 来源:本文作者图片 https://rossdawson.com/futurist/implications-of-ai/compressive-guide-ai-artificial-intelligence-visual-effects-vfx/

无需人工智能; 在传统的 CGI 程序 Cinema 4D 中,使用网格和位图纹理重新创建了一位女演员,该技术的历史可以追溯到 1960 世纪 1990 年代,但直到 XNUMX 世纪 XNUMX 年代才得到广泛使用。 理论上,该面部模型可用于生成异常姿势、光照风格和面部表情的深度伪造源数据。 事实上,它在深度伪造中作用有限或没有用处,因为渲染的“虚假”往往会在交换的视频中渗透出来。 来源:本文作者图片 https://rossdawson.com/futurist/implications-of-ai/compressive-guide-ai-artificial-intelligence-visual-effects-vfx/

这种方法通常会被新的 Deepfake 从业者早期放弃,因为尽管它可以提供其他方式无法提供的姿势和表情,但由于 ID 和上下文/语义信息的纠缠,CGI 面孔的合成外观通常会渗透到交换中。

这可能会导致在原本令人信服的深度造假视频中突然出现“恐怖谷”面孔,因为算法开始利用它可能拥有的不寻常姿势或表情的唯一数据——明显是假面孔。

DeepFaceLive 的默认安装中包含了澳大利亚女演员 Margot Robbie 的 3D Deepfake 算法,这是 DeepFaceLab 的一个版本,可以在直播(例如网络摄像头会话)中进行 DeepFake 。 如上图所示,CGI 版本可用于获取 Deepfake 数据集中不寻常的“缺失”角度。 资料来源:https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace

最受深度伪造者欢迎的主题之一是澳大利亚女演员玛格特·罗比的 3D 深度伪造算法 包括 在 DeepFaceLive 的默认安装中,DeepFaceLab 的一个版本可以在直播中(例如网络摄像头会话)执行深度伪造。 如上图所示,CGI 版本可用于获取 Deepfake 数据集中不寻常的“缺失”角度。 Source: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace

CGI 面孔作为独立的概念指南

相反,以色列研究人员的新 Delta-GAN 编码器(DGE)方法更为有效,因为 CGI 图像中的姿势和上下文信息已与目标的“身份”信息完全分离。

我们可以在下图中看到这一原理的实际应用,其中通过使用 CGI 图像作为指导获得了各种头部方向。 由于身份特征与上下文特征无关,因此 CGI 脸部的假合成外观和其中所描绘的身份都不会渗透:

使用新方法,你不需要找到三张单独的现实生活源图片来从多个角度进行深度伪造 - 你只需旋转 CGI 头部,其高级抽象特征就可以强加到身份上,而不会泄露任何 ID信息。

使用新方法,你不需要找到三张单独的现实生活源图片来从多个角度进行深度伪造 - 你只需旋转 CGI 头部,其高级抽象特征就可以强加到身份上,而不会泄露任何 ID信息。

Delta-GAN 编码器。 左上组:可以在一秒钟内改变源图像的角度以渲染新的源图像,这反映在输出中; 右上组:照明也与身份无关,允许照明风格的叠加; 左下组:多个面部细节被改变以创建“悲伤”的表情; 右下组:改变了一个面部表情细节,使眼睛眯起。

Delta-GAN 编码器。 左上组:可以在一秒钟内改变源图像的角度以渲染新的源图像,这反映在输出中; 右上组:照明也与身份无关,允许照明风格的叠加; 左下组:多个面部细节被改变以创建“悲伤”的表情; 右下组:改变了一个面部表情细节,使眼睛眯起。

这种身份和背景的分离是在训练阶段实现的。 新的 Deepfake 架构的管道在预先训练的生成对抗网络 (GAN) 中寻找与要转换的图像相匹配的潜在向量——这是一种基于 2 年的 Sim2018Real 方法 项目 来自 IBM 人工智能研究部门。

研究人员观察到:

“只需几个因特定属性而异的样本,人们就可以学习预先训练的纠缠生成模型的解纠缠行为。 不需要精确的现实世界样本来达到该目标,这不一定可行。

“通过使用非现实数据样本,利用编码潜在向量的语义可以实现相同的目标。 无需明确的潜在空间行为探索即可对现有数据样本应用所需的更改。

研究人员预计,该项目中探索的解开纠缠的核心原理可以转移到其他领域,例如内部建筑模拟,并且 Delta-GAN-Encoder 采用的 Sim2Real 方法最终可以实现基于草图的深度伪造工具,而不是基于草图。 CGI 风格的输入。

可以说,新的以色列系统可能或可能无法合成深度伪造视频的程度远不如该研究在将背景与身份分离方面取得的进展重要,在此过程中获得对潜在空间的更多控制一个 GAN 的。

解缠结是图像合成中一个活跃的研究领域; 2021 年 XNUMX 月,亚马逊领导的一项研究 展示了类似的姿势控制和解缠,并且在 2018 年 中国科学院深圳先进技术研究院的研究人员在 GAN 中生成任意观点方面取得了进展。