人工智能

利用人工智能改变视频片段中的情绪

更新 on 2022 年 12 月 9 日

来自希腊和英国的研究人员开发了一种新颖的深度学习方法，可以改变视频片段中人们的表情和明显情绪，同时保持嘴唇动作对原始音频的保真度，这是之前的尝试无法比拟的。

从本文附带的视频（嵌入在本文末尾）中可以看到演员阿尔·帕西诺的表情被 NED 基于高级语义概念巧妙改变的简短片段。来源：https://www.youtube.com/watch?v=Li6W8pRDMJQ

从本文附带的视频（嵌入在本文末尾）中可以看到演员阿尔·帕西诺的表情被 NED 根据定义个人面部表情及其相关情感的高级语义概念巧妙地改变的简短片段。右侧的“参考驱动”方法采用源视频的解释情感并将其应用于整个视频序列。来源：https://www.youtube.com/watch?v=Li6W8pRDMJQ

这个特定领域属于不断增长的类别深造的情感，其中原始说话者的身份被保留，但他们的表情和微表情被改变。随着这种特殊的人工智能技术的成熟，它为电影和电视制作提供了对演员表情进行微妙改变的可能性，但也开辟了一个相当新的“情感改变”视频深度伪造类别。

改变面孔

政治家等公众人物的面部表情是经过严格控制的； 2016年希拉里克林顿的面部表情来了在媒体的密切关注下因为它们对她的选举前景有潜在的负面影响；事实证明，面部表情也是一种感兴趣的话题联邦调查局；他们是关键指标在求职面试中，对于试图通过 Zoom 预筛选的求职者来说，现场“表情控制”过滤器的（遥远）前景成为理想的发展。

英国 2005 年的一项研究断言，面部外观影响投票决定，而 2019 年《华盛顿邮报》的一篇专题研究了使用“断章取义”的视频剪辑共享，这是目前假新闻支持者必须能够真正改变公众人物的行为、反应或感受的最接近的事情。

走向神经表达操纵

目前，操纵面部情感的最先进技术还相当初级，因为它涉及解决解开高级概念（例如伤心, 愤怒, 快乐, 微笑）来自实际视频内容。尽管传统的 Deepfake 架构似乎很好地实现了这种解开，但在不同身份之间镜像情感仍然需要两个训练面部集包含每个身份的匹配表情。

由于面部 ID 和姿势特征目前如此交织在一起，因此需要在两个面部数据集上对表情、头部姿势和（在较小程度上）照明进行广泛的奇偶校验，以便在 DeepFaceLab 等系统上训练有效的深度伪造模型。两个脸部集中的特定配置（例如“侧视/微笑/阳光”）越少，如果需要，它在深度伪造视频中渲染的准确度就越低。

用于训练深度伪造的数据集中的面部图像的典型示例。目前，你只能通过在深度伪造神经网络中创建 ID 特定的表情<>表情路径来操纵一个人的面部表情。 2017 年的 Deepfake 软件对“微笑”没有内在的语义理解——它只是映射并匹配两个对象的面部几何形状的感知变化。

我们所希望但尚未完美实现的是识别主体 B（例如）如何微笑，并简单地创建一个 '微笑' 架构中的切换，无需将其映射到受试者 A 微笑的等效图像。

新文标题为 神经情感总监：“野外”视频中面部表情的语音保留语义控制，来自雅典国立技术大学电气与计算机工程学院、希腊研究与技术基金会 (FORTH) 计算机科学研究所以及雅典大学工程、数学和物理科学学院的研究人员英国埃克塞特大学。

该团队开发了一个名为 神经情感总监 (NED)，结合了基于 3D 的情感翻译网络， 基于 3D 的情感操纵器。

NED 获取接收到的表达参数序列并将其转换为目标域。它是在无与伦比的数据上进行训练的，这意味着不需要在每个身份都有相应面部表情的数据集上进行训练。

本文末尾显示的视频经过了一系列测试，其中 NED 将明显的情绪状态强加到 YouTube 数据集的镜头上。

作者声称 NED 是第一个基于视频的方法，用于在随机和不可预测的情况下“指导”演员，并且已在 NED 上提供了代码项目页.

方法和架构

该系统在两个带有“情感”标签的大型视频数据集上进行训练。

输出由视频面部渲染器启用，该渲染器使用传统的面部图像合成技术将所需的情感渲染到视频中，包括面部分割、面部标志对齐和混合，其中仅合成面部区域，然后将其强加到原始镜头上。

神经情绪检测器 (NED) 管道的架构。 资料来源：https://arxiv.org/pdf/2112.00585.pdf

最初，系统获得 3D 面部恢复，并对输入帧施加面部标志对齐以识别表情。此后，这些恢复的表情参数被传递到基于 3D 的情感操纵器，并通过语义标签（例如“快乐”）或参考文件计算风格向量。

参考文件是描绘特定识别表情/情感的视频，然后将其强加到整个目标视频上，替换原始表情。

情感传递管道中的各个阶段，以从 YouTube 视频中采样的各种演员为主角。

最终生成的 3D 脸部形状随后与归一化平均脸部坐标 (NMFC) 和眼睛图像（上图中的红点）连接，并传递到神经渲染器，由神经渲染器执行最终操作。

成果

研究人员进行了广泛的研究，包括用户和消融研究，以评估该方法相对于先前工作的有效性，并发现在大多数类别中，NED 都优于神经面部操纵这一子领域的当前技术水平。

该论文的作者设想，这项工作的后续实现以及类似性质的工具将主要在电视和电影行业中有用，并指出：

“我们的方法为神经渲染技术的有用应用开辟了许多新的可能性，从电影后期制作和视频游戏到照片般逼真的情感化身。”

这是该领域的早期工作，但也是第一个尝试使用视频而不是静态图像进行面部重演的工作。尽管视频本质上是许多快速运行在一起的静态图像，但由于时间因素的考虑，使得之前的情感传递应用效果较差。在随附的视频和论文中的示例中，作者将 NED 的输出与其他类似的最新方法进行了视觉比较。

更详细的比较以及更多 NED 示例可以在下面的完整视频中找到：

[CVPR 2022] NED：“野外”视频中面部表情的语音保留语义控制

[CVPR 2022] NED: Speech-preserving semantic control of facial expressions in “in-the-wild” videos

Watch this video on YouTube

3 年 2021 月 18 日，30:2 GMT+XNUMX – 应该论文作者之一的要求，对“参考文件”进行了更正，我错误地称其为静态照片（实际上它是视频剪辑）。还对研究与技术基金会计算机科学研究所的名称进行了修改。
3 年 2021 月 20 日，50:2 GMT+XNUMX——论文作者之一再次请求对上述机构的名称进行进一步修改。