人工智能
利用人工智能改变视频片段中的情绪
来自希腊和英国的研究人员开发了一种新颖的深度学习方法,可以改变视频片段中人们的表情和明显情绪,同时保持嘴唇动作对原始音频的保真度,这是之前的尝试无法比拟的。
这个特定领域属于不断增长的类别 深造的情感,其中原始说话者的身份被保留,但他们的表情和微表情被改变。随着这种特殊的人工智能技术的成熟,它为电影和电视制作提供了对演员表情进行微妙改变的可能性,但也开辟了一个相当新的“情感改变”视频深度伪造类别。
改变面孔
政治家等公众人物的面部表情是经过严格控制的; 2016年希拉里克林顿的面部表情来了 在媒体的密切关注下 因为它们对她的选举前景有潜在的负面影响; 事实证明,面部表情也是一种 感兴趣的话题 联邦调查局; 他们是 关键指标 在求职面试中,对于试图通过 Zoom 预筛选的求职者来说,现场“表情控制”过滤器的(遥远)前景成为理想的发展。
英国 2005 年的一项研究断言,面部外观 影响投票决定,而 2019 年《华盛顿邮报》的一篇专题研究了 使用“断章取义”的视频剪辑共享,这是目前假新闻支持者必须能够真正改变公众人物的行为、反应或感受的最接近的事情。
走向神经表达操纵
目前,操纵面部情感的最先进技术还相当初级,因为它涉及解决 解开 高级概念(例如 伤心, 愤怒, 快乐, 微笑)来自实际视频内容。 尽管传统的 Deepfake 架构似乎很好地实现了这种解开,但在不同身份之间镜像情感仍然需要两个训练面部集包含每个身份的匹配表情。
我们所希望但尚未完美实现的是识别主体 B(例如)如何微笑,并简单地创建一个 '微笑' 架构中的切换,无需将其映射到受试者 A 微笑的等效图像。
新文 标题为 神经情感总监:“野外”视频中面部表情的语音保留语义控制,来自雅典国立技术大学电气与计算机工程学院、希腊研究与技术基金会 (FORTH) 计算机科学研究所以及雅典大学工程、数学和物理科学学院的研究人员英国埃克塞特大学。
该团队开发了一个名为 神经情感总监 (NED),结合了基于 3D 的情感翻译网络, 基于 3D 的情感操纵器。
NED 获取接收到的表达参数序列并将其转换为目标域。 它是在无与伦比的数据上进行训练的,这意味着不需要在每个身份都有相应面部表情的数据集上进行训练。
作者声称 NED 是第一个基于视频的方法,用于在随机和不可预测的情况下“指导”演员,并且已在 NED 上提供了代码 项目页.
方法和架构
该系统在两个带有“情感”标签的大型视频数据集上进行训练。
输出由视频面部渲染器启用,该渲染器使用传统的面部图像合成技术将所需的情感渲染到视频中,包括面部分割、面部标志对齐和混合,其中仅合成面部区域,然后将其强加到原始镜头上。
最初,系统获得 3D 面部恢复,并对输入帧施加面部标志对齐以识别表情。 此后,这些恢复的表情参数被传递到基于 3D 的情感操纵器,并通过语义标签(例如“快乐”)或参考文件计算风格向量。
参考文件是描绘特定识别表情/情感的视频,然后将其强加到整个目标视频上,替换原始表情。
最终生成的 3D 脸部形状随后与归一化平均脸部坐标 (NMFC) 和眼睛图像(上图中的红点)连接,并传递到神经渲染器,由神经渲染器执行最终操作。
成果
研究人员进行了广泛的研究,包括用户和消融研究,以评估该方法相对于先前工作的有效性,并发现在大多数类别中,NED 都优于神经面部操纵这一子领域的当前技术水平。
该论文的作者设想,这项工作的后续实现以及类似性质的工具将主要在电视和电影行业中有用,并指出:
“我们的方法为神经渲染技术的有用应用开辟了许多新的可能性,从电影后期制作和视频游戏到照片般逼真的情感化身。”
这是该领域的早期工作,但也是第一个尝试使用视频而不是静态图像进行面部重演的工作。 尽管视频本质上是许多快速运行在一起的静态图像,但由于时间因素的考虑,使得之前的情感传递应用效果较差。 在随附的视频和论文中的示例中,作者将 NED 的输出与其他类似的最新方法进行了视觉比较。
更详细的比较以及更多 NED 示例可以在下面的完整视频中找到:
3 年 2021 月 18 日,30:2 GMT+XNUMX – 应该论文作者之一的要求,对“参考文件”进行了更正,我错误地称其为静态照片(实际上它是视频剪辑)。 还对研究与技术基金会计算机科学研究所的名称进行了修改。
3 年 2021 月 20 日,50:2 GMT+XNUMX——论文作者之一再次请求对上述机构的名称进行进一步修改。