Connect with us

人工智能

使用机器学习在视频中重塑面部

mm

中国和英国的研究合作开发了一种新的方法来重塑视频中的面部。这种技术允许对面部结构进行令人信服的加宽和缩窄,具有高一致性和无伪影。

从研究人员用作源材料的YouTube视频中,女演员詹妮弗·劳伦斯出现为一个更为修长的个性(右)。请参阅文章底部嵌入的视频以查看更多示例,分辨率更好。来源:https://www.youtube.com/watch?v=tA2BxvrKvjE

从研究人员用作源材料的YouTube视频中,女演员詹妮弗·劳伦斯出现为一个更为憔悴的个性(右)。请参阅文章底部嵌入的视频以查看更多示例,分辨率更好。来源:https://www.youtube.com/watch?v=tA2BxvrKvjE

这种转换通常只可能通过传统的CGI方法来实现,这需要通过详细和昂贵的运动捕捉、骨骼绑定和纹理过程来完全重建面部。

相反,这种技术中的CGI被集成到一个神经管道中,作为参数化的3D面部信息,随后被用作机器学习工作流的基础。

传统的参数化面部越来越多地被用作使用AI而不是CGI的转换过程的指导。来源:https://arxiv.org/pdf/2205.02538.pdf

传统的参数化面部越来越多地被用作使用AI而不是CGI的转换过程的指导。来源:https://arxiv.org/pdf/2205.02538.pdf

作者表示:

‘我们的目标是通过编辑肖像面部的整体形状来生成高质量的肖像视频重塑结果,按照现实世界中的自然面部变形。这可以用于诸如美化的形状生成和视觉效果的面部夸张等应用。’

尽管2D面部变形和失真自Photoshop出现以来就已对消费者开放(并导致了奇怪和经常不可接受的子文化的出现,例如面部失真和身体畸形恐惧症),但在不使用CGI的情况下在视频中实现这一点是一个棘手的技巧。

马克·扎克伯格的尺寸被中英技术扩大和缩小。

马克·扎克伯格的面部尺寸被中英技术扩大和缩小。

身体重塑目前是计算机视觉领域的一个热点领域,主要是由于其在时尚电子商务中的潜力,尽管使某人看起来更高或更苗条目前是一个值得注意的挑战。

同样,在视频片段中以一致和令人信服的方式改变头部的形状一直是新论文研究人员之前工作的主题,尽管这种实现方式存在伪影和其他限制。新的系统将该先前研究的能力从静态输出扩展到视频输出。

新的系统是在一台配备AMD Ryzen 9 3950X和32GB内存的台式电脑上训练的,使用OpenCV的光流算法来创建运动图,并使用StructureFlow框架进行平滑;面部对齐网络(FAN)组件用于特征点估计,也用于流行的深度伪造包;以及Ceres Solver来解决优化挑战。

新系统的面部加宽的极端示例。

新系统的面部加宽的极端示例。

论文题为《视频中肖像的参数化重塑》,由浙江大学的三位研究人员和巴斯大学的一位研究人员撰写。

关于面部

在新的系统下,视频被提取成图像序列,并首先估计每个面部的刚性姿势。然后,估计一系列后续帧以沿着整个图像序列(即视频帧)构建一致的身份参数。

面部变形系统的架构流程。

面部变形系统的架构流程。

之后,评估表达式,得出一个通过线性回归实现的重塑参数。然后,一个新颖的有符号距离函数(SDF)方法构建了面部线条在重塑前后的密集2D映射。

最后,在输出视频上执行内容感知变形优化。

参数化面部

该过程使用3D可变形面部模型(3DMM),这是一种越来越流行的神经和基于GAN的面部合成系统的辅助工具,也适用于深度伪造检测系统。

不是来自论文的,但这是一个3D可变形面部模型(3DMM)的示例——新项目中使用的参数化原型面部。顶部左侧,特征点应用于3DMM面部。顶部右侧,等距图的3D网格顶点。底部左侧显示特征点拟合;底部中间,提取面部纹理的等距图;底部右侧,结果拟合和形状。来源:http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

不是来自新论文的,但这是一个3D可变形面部模型(3DMM)的示例——新项目中使用的参数化原型面部。顶部左侧,特征点应用于3DMM面部。顶部右侧,等距图的3D网格顶点。底部左侧显示特征点拟合;底部中间,提取面部纹理的等距图;底部右侧,结果拟合和形状。来源:http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

新的系统必须考虑遮挡的情况,例如当对象看向别处时。这是深度伪造软件中最大的挑战之一,因为FAN特征点在这些情况下几乎没有能力,并且随着面部转向或被遮挡,质量会恶化。

新的系统可以通过定义一种能够匹配3D面部(3DMM)和2D面部(由FAN特征点定义)边界的轮廓能量来避免这种陷阱。

优化

这种系统的一个有用部署将是实现实时变形,例如在视频聊天过滤器中。当前框架不支持此功能,所需的计算资源将使“实时”变形成为一个值得注意的挑战。

根据论文,假设24fps视频目标,管道中的每帧操作代表每秒 footage 的16.344秒的延迟,并且还有身份估计和3D面部变形的额外一次性延迟(321ms和160ms)。

因此,优化是降低延迟的关键。由于跨所有帧的联合优化会给过程增加严重的开销,而init风格的优化(假设从第一帧开始的说话者的身份一致性)可能会导致异常,作者采用了稀疏方案来计算在实际间隔处采样的帧的系数。

然后在此帧子集上执行联合优化,导致重构过程更为精简。

面部变形

项目中使用的变形技术是作者2020年工作《深度形状肖像》(DSP)的改进。

深度形状肖像,2020年ACM多媒体会议的投稿。论文由ZJU-Tencent游戏和智能图形创新技术联合实验室的研究人员领导。来源:http://www.cad.zju.edu.cn/home/jin/mm2020/demo.mp4

深度形状肖像,2020年ACM多媒体会议的投稿。论文由ZJU-Tencent游戏和智能图形创新技术联合实验室的研究人员领导。来源:http://www.cad.zju.edu.cn/home/jin/mm2020/demo.mp4

作者观察到:‘我们将这种方法从重塑单个单眼图像扩展到重塑整个图像序列。’

测试

论文指出,没有可比拟的先前材料来评估新方法。因此,作者将他们的变形视频输出帧与静态DSP输出进行了比较。

将新系统与深度形状肖像的静态图像进行测试。

将新系统与深度形状肖像的静态图像进行测试。

作者指出,DSP方法会产生伪影,这是由于其使用了稀疏映射——一个新框架通过密集映射解决的问题。另外,论文声称,DSP生成的视频缺乏平滑度和视觉连贯性。

作者表示:

‘结果表明,我们的方法可以稳健地生成连贯的重塑肖像视频,而基于图像的方法很容易导致明显的闪烁伪影。’

查看以下附件视频以获取更多示例:

https://www.youtube.com/watch?v=tA2BxvrKvjE

 

首次发布于2022年5月9日。于东欧时间下午6点修改,替换了SDF的“field”为“function”。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai