Connect with us

人工智能

为什么当前的Deepfakes无法传达情感的细微差别

mm
The Book of Boba Fett - Disney

昨天,星球大战衍生剧波巴·费特之书第6集的首播似乎分裂了粉丝的意见。在一般的赞同中,社交网络上有一个普遍的假设,即对马克·哈米尔(Mark Hamill)的数字去老化重现(与2020年在曼达洛人第二季结局中的前一次出现相比)有了显著的改善,这是工业光魔公司聘请了业余的Deepfakes实践者Shamook(他曾用开源软件极大地改进了他的作品)的直接结果;并且角色的人物形象必须是Deepfakes技术与可能用CGI整理的结合。

目前,这一说法的确认还很有限,尽管Shamook自从与工业光魔公司签订了保密协议(NDA)后,对外界保持沉默。尽管如此,这项工作相比2020年的CGI技术有了显著的改进;展现出一些与从档案作品派生的Deepfakes模型相关的“光泽”;并且总体上符合当前Deepfakes的最佳视觉标准。

粉丝们的另一个观点是,这次对“年轻卢克”的尝试与之前的版本有着不同的缺陷。也许最有说服力的证据是,新卢克·天行者重现的长序列中缺乏表达性和微妙、恰当的情感,这更像是Deepfakes的特征,而不是CGI的特征;The Verge将波巴·费特模拟描述为“马克·哈米尔1983年凝固的、不祥的面容”。

无论波巴·费特的新重现背后的技术是什么,Deepfakes转换都有一个与情感细微差别相关的基本问题,这个问题很难通过改变架构或提高源训练材料来解决,并且通常会通过流行的Deepfakes制作人员在选择目标视频时所做的谨慎选择来避免。

面部对齐限制

最常用的两个Deepfakes开源仓库是DeepFaceLab(DFL)和FaceSwap,两者都源自2017年的匿名和有争议的源代码,DFL在视觉特效行业中拥有巨大的领先优势,尽管其工具性有限。

这些软件包最初的任务是从源材料(即视频帧和/或静止图像)中识别出面部,并提取面部特征。

阿德里安·布拉特的面部对齐网络(FAN)在行动,来自官方仓库。来源:https://github.com/1adrianb/face-alignment

面部对齐网络(FAN)在行动,来自官方仓库。 来源:https://github.com/1adrianb/face-alignment

DFL和FaceSwap都使用面部对齐网络(FAN)库。FAN可以为提取的面部创建2D和3D(见上图)特征。3D特征可以在面部被感知的方向上进行广泛的考虑,直到极端的侧面和相对锐角。

然而,很明显,这些是非常基本的指南,用于引导和评估像素:

来自FaceSwap论坛的面部线条的大致指示。来源:https://forum.faceswap.dev/viewtopic.php?f=25&t=27

来自FaceSwap论坛的面部线条的大致指示。 来源:https://forum.faceswap.dev/viewtopic.php?f=25&t=27

面部的最基本线条是被允许的:眼睛可以睁开和闭上,下巴也可以,基本的嘴部配置(如微笑、皱眉等)可以被追踪和适应。面部可以在任何方向上旋转,最高可达200度,从相机的视角来看。

除此之外,这些是相当粗糙的围栏,用于像素在这些边界内的行为,并且代表Deepfakes过程中唯一真正的数学和精确的面部指南。训练过程本身只是比较像素在这些边界内或附近的排列方式。

在DeepFaceLab中训练。来源:https://medium.com/geekculture/realistic-deepfakes-with-deepfacelab-530e90bd29f2

在DeepFaceLab中训练。 来源:https://medium.com/geekculture/realistic-deepfakes-with-deepfacelab-530e90bd29f2

由于没有面部子部分的拓扑结构的规定(例如脸颊的凸凹、老化细节、酒窝等),甚至无法尝试匹配源面部(“要写入的面部”)和目标面部(“要粘贴的面部”)身份之间的这些“微妙”的子特征。

处理有限的数据

获取两个身份之间的匹配数据以用于训练Deepfakes并不是一件容易的事。您需要匹配的角度越不寻常,您可能需要在该角度匹配(在身份A和B之间)是否实际上具有相同的表情方面做出更多的妥协。

接近,但不是完全匹配。

接近,但不是完全匹配。

在上面的例子中,两个身份在姿势上相当相似,但这是数据集可以接近的最接近的匹配。

仍然存在明显的差异:角度和镜头不完全匹配,照明也不匹配;主体A的眼睛并没有完全闭上,不像主体B;图像质量和压缩在主体A中更差;而且,主体B似乎比主体A更“高兴”。

但是,你知道的,这就是我们所拥有的,所以我们将不得不在此基础上进行训练。

由于这个A<>B匹配具有如此多的不寻常元素,你可以肯定,在数据集中几乎没有类似的配对。因此,训练将要么欠拟合它,要么过拟合它。

欠拟合:如果这个匹配是一个真正的少数(即父数据集相当大,并且不经常出现这些两个照片的特征),那么它将不会在更“流行”的(即简单/中立)配对中获得太多的训练时间。因此,这个角度/表情将不会在使用训练模型创建的Deepfakes中被很好地表示。

过拟合:由于稀缺的数据匹配,Deepfakers有时会在数据集中复制该配对多次,以便它有更好的机会成为最终模型中的一个特征。这将导致过拟合,在使用该模型创建的Deepfakes视频中,重复两个照片之间的不匹配之处,例如眼睛闭合的程度。

在下面的图像中,我们看到弗拉基米尔·普京正在DeepFaceLab中接受训练,以便将其替换为凯文·斯派西。这里,训练已经相对高级,达到160,000次迭代

来源:https://i.imgur.com/OdXHLhU.jpg(最初来自一个我在这里无法链接的网站)。

来源:https://i.imgur.com/OdXHLhU.jpg

随意的观察者可能会认为,在这些测试交换中,普京看起来有点像,嗯,太空了,而不是斯派西。让我们看看一个在线情绪识别程序如何看待表达式之间的不匹配:

来源:https://www.noldus.com/facereader/measure-your-emotions

来源:https://www.noldus.com/facereader/measure-your-emotions

根据这个特定的预言,它分析了比DFL和FaceSwap更详细的面部拓扑,斯派西在这个配对中看起来不那么愤怒厌恶轻蔑,而是Deepfakes中的普京。

不匹配的表情是作为一个包裹的组成部分,因为流行的Deepfakes应用程序没有注册或匹配表情或情绪的能力,除了作为原始像素到像素的映射。

对于我们来说,这些差异是巨大的。我们从很小的时候就学会了阅读面部表情作为一种基本的生存技巧,并且在成年后继续依赖这种技能,以实现社会融合和进步、交配和持续的威胁评估框架。由于我们对微表情非常敏感,Deepfakes技术最终需要考虑这一点。

逆势而行

尽管Deepfakes革命带来了将“经典”电影明星插入现代电影和电视的承诺,但人工智能无法回到过去,并以更兼容的定义和质量拍摄他们的经典作品,这对于这种用例至关重要。

假设(并且出于我们的目的,这并不重要,它是否是错误的)波巴·费特哈米尔重建主要是训练有素的Deepfakes模型的作品,那么该模型的数据集将需要利用在节目时间线附近的时期(即哈米尔作为三十多岁的人,在绝地归来的制作期间,1981-83年)的录像。

这部电影是在东曼彩色负片250T 5293/7293上拍摄的,这是一种当时被认为是中等到细粒度的乳剂,但即使在1980年代末期,也被更清晰、更广泛的色域和更高保真的乳剂所超越。这是一种属于那个时代的乳剂,而绝地归来的宏伟视野使得即使是主要演员也很少有特写镜头,这使得颗粒问题更加关键,因为源面部只占据了帧的一部分。

马克·哈米尔在《绝地归来》(1983年)中的多个场景。

马克·哈米尔在《绝地归来》(1983年)中的多个场景。

此外,许多特效镜头中的哈米尔将被送到光学打印机中,增加了胶片颗粒。然而,访问卢卡斯影业档案(这些档案可能已经很好地保存了主负片,并且可以提供数小时的额外未使用的原始镜头)可能会克服这个问题。

有时,可以覆盖一个演员多年来的作品,以增加和多样化Deepfakes数据集。在哈米尔的例子中,Deepfakers因哈米尔在1977年发生车祸后外貌的变化以及他几乎立即开始了他作为配音演员的第二职业(在绝地归来之后),使得源材料相对稀缺。

情感范围有限?

如果您需要您的Deepfakes演员来渲染场景,您将需要源镜头,其中包含异常广泛的面部表情。可能只有在演员特定年龄段的镜头中才能找到这些表情。

例如,到绝地归来的故事弧线为止,哈米尔的角色已经基本上掌握了他的情绪,这是原创系列神话的核心发展。因此,如果您从绝地归来数据创建一个哈米尔Deepfakes模型,您将不得不使用相比早期系列中更为有限的表情范围和不常见的面部姿势,这是哈米尔的角色在那个时候所要求的。

即使你考虑到绝地归来中有时卢克·天行者角色处于压力之下,可以提供更广泛的表情的素材,但面部材料在这些场景中是短暂的,并且受到动作场景中典型的运动模糊和快速编辑的影响;因此,数据是相当不平衡的。

概括:情绪的融合

如果波巴·费特天行者重现确实是一个Deepfakes,那么从某些方面对其提出的缺乏表达范围的批评并非完全是由于源材料的限制。Deepfakes的编码器-解码器训练过程正在寻找一个概括模型,该模型成功地从成千上万的图像中提取出核心特征,并且至少可以尝试对数据集中缺失或罕见的角度进行Deepfakes处理。

如果没有这种灵活性,Deepfakes架构将只是在每帧的基础上复制和粘贴基本形态,而不会考虑时间适应或上下文。

然而,换取这种多功能性的痛苦折中是,表达式的保真度可能会成为这个过程的牺牲品,而任何“微妙”的表达式可能不是正确的。我们都像100件乐器组成的管弦乐队一样演奏我们的脸,并且我们都很擅长这样做,而Deepfakes软件则明显缺乏至少弦乐部分。

表情的感受差异

面部运动及其对我们的影响并不是一个在所有面部上都统一的语言;罗杰·摩尔的扬起眉毛可能看起来很无忧无虑,但在塞斯·罗根身上可能看起来不那么成熟,而玛丽莲·梦露的诱惑力可能会在一个最可用的角色是“愤怒”或“不满”的人(例如奥布里·普拉扎在公园与休闲七季中的角色)身上转化为更负面的情绪。

因此,A/B面部集之间的像素到像素的等价性在这方面并不是特别有帮助;但这是当前状态的艺术软件中所提供的全部内容。

什么可能是必要的,是一个不仅能够识别表情和推断情绪,而且能够体现高级概念(如愤怒诱惑无聊疲劳等)的Deepfakes框架,并且能够在每个面部身份中对这些情绪和相关的表情进行分类,而不是检查和复制嘴巴或眼睑的排列。

 

 

首次发布于2022年2月3日。更新于东欧时间7:47,错误的名称归属。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai