Connect with us

人工智能

使用机器学习在视频中重塑面部

mm

中国和英国的研究合作开发了一种新的方法来重塑视频中的面部。这种技术可以实现令人信服的面部结构的加宽和变窄,具有高的一致性和没有伪影。

从YouTube视频中使用的源材料,女演员詹妮弗·劳伦斯出现在更为修长的个性(右)。请参阅文章底部嵌入的视频以获取更多示例和更好的分辨率。来源:https://www.youtube.com/watch?v=tA2BxvrKvjE

从YouTube视频中使用的源材料,女演员詹妮弗·劳伦斯出现在更为修长的个性(右)。请参阅文章底部嵌入的视频以获取更多示例和更好的分辨率。来源:https://www.youtube.com/watch?v=tA2BxvrKvjE

这种转换通常只可能通过传统的CGI方法来实现,这需要通过详细和昂贵的运动捕捉、骨骼绑定和纹理过程来完全重建面部。

相反,所使用的CGI技术被集成到一个神经管道中,作为参数化的3D面部信息,随后被用作机器学习工作流的基础。

传统的参数化面部越来越多地被用作使用AI而不是CGI的转换过程的指导。来源:https://arxiv.org/pdf/2205.02538.pdf

传统的参数化面部越来越多地被用作使用AI而不是CGI的转换过程的指导。来源:https://arxiv.org/pdf/2205.02538.pdf

作者表示:

‘我们的目标是通过编辑面部的整体形状来生成高质量的肖像视频重塑结果,根据现实世界中的自然面部变形。这可以用于诸如美化的形状生成和视觉效果的面部夸张等应用。’

虽然2D面部扭曲和变形自Photoshop出现以来就已可供消费者使用(并导致了奇怪和往往不可接受的子文化的产生,例如面部变形和身体畸形),但在不使用CGI的情况下在视频中实现这一点是一件棘手的事情。

马克·扎克伯格的尺寸被中英技术扩大和缩小。

马克·扎克伯格的面部尺寸被中英技术扩大和缩小。

身体重塑目前是计算机视觉领域的一个热点,主要是由于其在时尚电子商务中的潜力,尽管使某人看起来更高或更具骨骼多样性目前是一个值得注意的挑战。

同样,在视频片段中以一致且令人信服的方式改变头部的形状一直是新论文研究人员之前工作的主题,尽管该实现遭受了伪影和其他限制。新的系统扩展了该先前研究的能力,从静态到视频输出。

新系统是在一台配备AMD Ryzen 9 3950X和32GB内存的台式电脑上训练的,使用OpenCV的光流算法来生成运动图,并使用StructureFlow框架进行平滑;面部对齐网络(FAN)组件用于特征点估计,也用于流行的深度伪造包;以及Ceres Solver来解决优化挑战。

新系统的面部加宽的极端示例。

新系统的面部加宽的极端示例。

论文题为《视频中肖像的参数化重塑》,由浙江大学的三位研究人员和巴斯大学的一位研究人员撰写。

关于面部

在新系统中,视频被提取成图像序列,并首先估计每个面部的刚性姿势。然后,构造一致的身份参数,用于整个图像序列(即视频帧)。

面部变形系统的架构流程。

面部变形系统的架构流程。

之后,评估表情,产生一个重塑参数,通过线性回归实现。然后,一个新颖的有符号距离函数(SDF)方法构造了面部线条在重塑前后的密集2D映射。

最后,在输出视频上执行内容感知变形优化。

参数化面部

该过程使用3D可变形面部模型(3DMM),这是神经和GAN-based面部合成系统中越来越流行的辅助工具,也适用于深度伪造检测系统。

不是来自论文的,但这是一个3D可变形面部模型(3DMM)的示例——一个参数化的原型面部,用于新项目。顶部左侧,特征点应用于3DMM面部。顶部右侧,等值图的3D网格顶点。底部左侧显示特征点拟合;底部中间,提取面部纹理的等值图;底部右侧,结果拟合和形状。来源:http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

不是来自新论文的,但这是一个3D可变形面部模型(3DMM)的示例——一个参数化的原型面部,用于新项目。顶部左侧,特征点应用于3DMM面部。顶部右侧,等值图的3D网格顶点。底部左侧显示特征点拟合;底部中间,提取面部纹理的等值图;底部右侧,结果拟合和形状。 来源:http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

新系统的工作流程必须考虑遮挡的情况,例如当主题看向别处时。这是深度伪造软件中最大的挑战之一,因为FAN特征点在这些情况下几乎没有容量,并且随着面部的转移或遮挡,质量会恶化。

新系统可以通过定义一种能够匹配3D面部(3DMM)和2D面部(由FAN特征点定义)边界的轮廓能量来避免这个陷阱。

优化

这种系统的一个有用部署将是实现实时变形,例如在视频聊天过滤器中。当前框架不支持此功能,所需的计算资源将使“实时”变形成为一个值得注意的挑战。

根据论文,假设24fps视频目标,管道中的每帧操作代表每秒16.344秒的延迟,并且还有身份估计和3D面部变形的额外一次性延迟(321ms和160ms)。

因此,优化是降低延迟的关键。由于跨所有帧的联合优化会给过程增加严重的开销,而init-style优化(假设从第一帧开始,发言者的身份一致)可能会导致异常,作者采用了一种稀疏方案来计算在实际间隔处采样的帧的系数。

然后在这个帧子集上执行联合优化,导致重构过程更加精简。

面部变形

项目中使用的变形技术是作者2020年工作《深度形状肖像》的改编。

深度形状肖像,2020年ACM多媒体会议的投稿。论文由ZJU-Tencent游戏和智能图形创新技术联合实验室的研究人员领导。来源:http://www.cad.zju.edu.cn/home/jin/mm2020/demo.mp4

深度形状肖像,2020年ACM多媒体会议的投稿。论文由ZJU-Tencent游戏和智能图形创新技术联合实验室的研究人员领导。 来源:http://www.cad.zju.edu.cn/home/jin/mm2020/demo.mp4

作者观察到:
‘我们将这种方法从重塑单个单眼图像扩展到重塑整个图像序列。’

测试

论文指出,没有可比性的先前材料来评估新方法。因此,作者将他们的变形视频输出帧与静态DSP输出进行了比较。

测试新系统与来自深度形状肖像的静态图像。

测试新系统与来自深度形状肖像的静态图像。

作者指出,DSP方法会产生伪影,这是由于其使用稀疏映射造成的——这是新框架通过密集映射解决的问题。另外,论文声称,DSP生成的视频,展示了缺乏平滑度和视觉一致性。

作者表示:

‘结果表明,我们的方法可以稳健地生成连贯的重塑肖像视频,而基于图像的方法很容易导致明显的闪烁伪影。’

请查看下面的配套视频,以获取更多示例:

 

最初发布于2022年5月9日。修改于东欧时间下午6点,替换了’SDF’的’字段’为’函数’。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai