关注我们.

人工智能

AniPortrait:音频驱动的真实肖像动画合成

mm

发布时间

 on

多年来,从静态图像和音频创建逼真且富有表现力的肖像动画已经得到了广泛的应用,包括游戏、数字媒体、虚拟现实等等。尽管其具有潜在的应用前景,但开发人员仍然很难创建能够生成高质量动画、保持时间一致性且具有视觉吸引力的框架。造成这种复杂性的一个主要原因是需要对嘴唇运动、头部位置和面部表情进行复杂的协调,以形成引人注目的视觉效果。 

在本文中,我们将讨论 AniPortrait,这是一个新颖的框架,旨在生成由参考肖像图像和音频样本驱动的高质量动画。 AniPortrait 框架的工作分为两个阶段。首先,AniPortrait 框架从音频样本中提取中间 3D 表示,并将它们投影到一系列 2D 面部标志中。接下来,该框架采用鲁棒的扩散模型与运动模块相结合,将地标序列转换为时间一致且逼真的动画。实验结果证明了 AniPortrait 框架的优越性和能力,可以生成具有卓越视觉质量、姿势多样性和面部自然度的高质量动画,从而提供增强和丰富的感知体验。此外,AniPortrait框架在可控性和灵活性方面具有显着的潜力,可以有效应用于面部重现、面部动作编辑等领域。本文旨在深入介绍 AniPortrait 框架,我们探讨了该框架的机制、方法、架构以及它与最先进框架的比较。那么让我们开始吧。 

AniPortrait:逼真的肖像动画

创建逼真且富有表现力的肖像动画一段时间以来一直是研究人员关注的焦点,因为它具有令人难以置信的潜力以及从数字媒体、虚拟现实到游戏等领域的应用。尽管经过多年的研究和开发,制作保持时间一致性且具有视觉吸引力的高质量动画仍然是一个重大挑战。开发人员面临的一个主要障碍是需要在头部位置、视觉表达和嘴唇动作之间进行复杂的协调,以打造引人注目的视觉效果。现有方法未能应对这些挑战,主要是因为它们中的大多数依赖于容量有限的生成器,如 NeRF、基于运动的解码器和 GAN 来创建视觉内容。这些网络的泛化能力有限,并且在生成高质量内容方面不稳定。然而,最近出现的扩散模型促进了高质量图像的生成,并且基于扩散模型和时间模块构建的一些框架促进了引人注目的视频的创建,从而使扩散模型表现出色。 

AniPortrait 框架以扩散模型的进步为基础,旨在使用参考图像和音频样本生成高质量的动画肖像。 AniPortrait 框架的工作分为两个阶段。在第一阶段,AniPortrait 框架采用基于 Transformer 的模型从音频输入中提取一系列 3D 面部网格和头部姿势,然后将它们投影到一系列 2D 面部标志序列中。第一阶段帮助 AniPortrait 框架捕获音频中的嘴唇运动和微妙表情,以及与音频样本节奏同步的头部运动。第二阶段,AniPortrait 框架采用强大的扩散模型,并将其与运动模块集成,将面部标志序列转换为逼真且时间一致的动画肖像。更具体地说,AniPortrait 框架借鉴了现有 AnimateAnyone 模型的网络架构,该模型采用了 Stable Diffusion 1.5,这是一种强大的 扩散模型 根据参考图像和身体运动序列生成逼真且流畅的图像。值得注意的是,AniPortrait 框架并没有像 AnimateAnyone 框架中那样使用该网络中的姿态引导模块,而是对其进行了重新设计,使得 AniPortrait 框架不仅保持了轻量级的设计,而且在生成唇形方面表现出了更高的精度。动作。 

实验结果证明了 AniPortrait 框架在创建具有令人印象深刻的面部自然度、出色的视觉质量和多样化姿势的动画方面的优越性。通过采用 3D 面部表征作为中间特征,AniPortrait 框架可以灵活地根据其要求修改这些表征。这种适应性显着增强了 AniPortrait 框架在面部重演和面部动作编辑等领域的适用性。 

AniPortrait:工作和方法论

所提出的 AniPortrait 框架包括两个模块,即 Lmk2Video 和 Audio2Lmk。 Audio2Lmk 模块尝试提取一系列地标序列,从音频输入中捕获复杂的嘴唇运动和面部表情,而 Lmk2Video 模块则使用此地标序列生成具有时间稳定性的高质量肖像视频。下图概述了 AniPortrait 框架的工作情况。可以看出,AniPortrait 框架首先从音频中提取 3D 面部网格和头部姿势,然后将这两个元素投影为 2D 关键点。在第二阶段,该框架采用扩散模型将二维关键点转换为肖像视频,两个阶段在网络中同时进行训练。 

音频2Lmk

对于给定的语音片段序列,AniPortrait 框架的主要目标是通过平移和旋转的矢量表示来预测相应的 3D 面部网格序列。 AniPortrait框架采用预训练的wav2vec方法来提取音频特征,该模型具有高度的泛化性,能够准确地识别音频中的语调和发音,这对于生成音频数据起着至关重要的作用。 逼真的面部动画。通过利用获得的强大语音特征,AniPortrait 框架能够有效地采用由两个 fc 层组成的简单架构,将这些特征转换为 3D 面部网格。 AniPortrait 框架观察到,模型实现的这种简单设计不仅提高了推理过程的效率,而且保证了准确性。将音频转换为姿势时,AniPortrait 框架采用相同的 wav2vec 网络作为主干,尽管该模型不与音频到网格模块共享权重。这主要是因为姿势更多地与音频中存在的音调和节奏相关,与音频和网格任务相比,其侧重点不同。为了考虑先前状态的影响,AniPortrait 框架采用 Transformer 解码器来解码姿势序列。在此过程中,框架使用交叉注意机制将音频特征集成到解码器中,并且对于这两个模块,框架使用 L1 损失对其进行训练。一旦模型获得姿势和网格序列,它就会采用透视投影将这些序列转换为面部标志的二维序列,然后将其用作后续阶段的输入信号。 

Lmk2视频

对于给定的参考肖像图像和面部标志序列,所提出的 Lmk2Video 模块创建时间一致的肖像动画,并且该动画将运动与标志序列对齐,并保持与参考图像一致的外观,最后,该框架将肖像动画表示为一系列肖像帧。 Lmk2Video网络结构的设计从现有的AnimateAnyone框架中寻求灵感。 AniPortrait 框架采用了 稳定扩散 1.5,一个极其有效的扩散模型作为其支柱,并结合了一个时间运动模块,可以有效地将多帧噪声输入转换为视频帧序列。同时,ReferencenNet网络组件镜像了Stable Diffusion 1.5的结构,并利用它从参考图像中提取外观信息,并将其集成到主干中。战略设计可确保面部 ID 在整个输出视频中保持一致。与 AnimateAnyone 框架不同,AniPortrait 框架增强了 PoseGuider 设计的复杂性。 AnimateAnyone 框架的原始版本仅包含几个卷积层,其中地标特征与主干输入层的潜在特征合并。 AniPortrait 框架发现该设计在捕捉复杂的嘴唇运动方面存在不足,为了解决这个问题,该框架采用了 ConvNet 架构的多尺度策略,并将相应尺度的标志性特征合并到主干的不同块中。此外,AniPortrait 框架通过将参考图像的地标作为附加输入引入了额外的改进。 PoseGuider组件的交叉注意力模块促进了每一帧的目标地标和参考地标之间的交互。这个过程为网络提供了额外的线索来理解外观和面部特征之间的相关性,从而有助于生成具有更精确运动的肖像动画。 

AniPortrait:实施和结果

对于 Audio2Lmk 阶段,AniPortrait 框架采用 wav2vec2.0 组件作为骨干,并利用 MediaPipe 架构提取 3D 网格和 6D 姿势进行注释。该模型从其内部数据集获取 Audio2Mesh 组件的训练数据,该数据集包含来自单个说话者的近 60 分钟的高质量语音数据。为了确保 MediaPipe 组件提取的 3D 网格稳定,要求配音演员面向摄像机,并在整个录制过程中保持稳定的头部位置。对于 Lmk2Video 模块,AniPortrait 框架实现了两阶段训练方法。在第一阶段,该框架专注于训练ReferenceNet和PoseGuider(主干的2D组件),并省略了运动模块。第二步,AniPortrait框架冻结所有其他组件,并专注于训练运动模块。在这个阶段,该框架利用两个大规模高质量面部视频数据集来训练模型,并使用 MediaPipe 组件处理所有数据以提取 2D 面部标志。此外,为了增强网络对嘴唇运动的敏感度,AniPortrait 模型在从 2D 地标渲染姿势图像时,用不同的颜色区分上唇和下唇。 

如下图所示,AniPortrait 框架生成一系列动画,展现出卓越的品质和真实感。

然后,该框架利用可编辑的中间 3D 表示来根据要求操作输出。例如,用户可以从某个来源提取地标并更改其 ID,从而允许 AniPortrait 框架创建面部重演效果。 

总结

在本文中,我们讨论了 AniPortrait,这是一个新颖的框架,旨在生成由参考肖像图像和音频样本驱动的高质量动画。只需输入参考图像和音频剪辑,AniPortrait 框架就能够生成具有自然头部运动和平滑嘴唇运动特征的肖像视频。通过利用扩散模型强大的泛化能力,AniPortrait 框架生成的动画能够显示令人印象深刻的逼真图像质量和逼真的运动。 AniPortrait 框架的工作分为两个阶段。首先,AniPortrait 框架从音频样本中提取中间 3D 表示,并将它们投影到一系列 2D 面部标志中。接下来,该框架采用鲁棒的扩散模型与运动模块相结合,将地标序列转换为时间一致且逼真的动画。实验结果证明了 AniPortrait 框架的优越性和能力,可以生成具有卓越视觉质量、姿势多样性和面部自然度的高质量动画,从而提供增强和丰富的感知体验。此外,AniPortrait框架在可控性和灵活性方面具有显着的潜力,可以有效应用于面部重现、面部动作编辑等领域。

“职业工程师,心灵作家”。 Kunal 是一位技术作家,对人工智能和机器学习有着深厚的热爱和理解,致力于通过他引人入胜且信息丰富的文档来简化这些领域的复杂概念。