人工智能

MagicDance: 真实的人类舞蹈视频生成

Published December 28, 2023

Updated April 4, 2026

Kunal Kejriwal

MagicDance: Realistic Human Dance Video Generation

计算机视觉是人工智能行业中最被讨论的领域之一，得益于它在各类实时任务中的潜在应用。近年来，计算机视觉框架发展迅速，现代模型现在能够在实时场景中分析面部特征、物体等。尽管具有这些能力，人类运动转移仍然是计算机视觉模型面临的一项挑战性任务。这项任务涉及从源图像或视频到目标图像或视频的面部和身体运动重定向。人类运动转移被广泛用于计算机视觉模型中，用于样式化图像或视频、编辑多媒体内容、数字人合成，甚至生成感知框架的数据。

在本文中，我们关注MagicDance，一种基于扩散的模型，旨在革新人类运动转移。MagicDance框架专门旨在将2D人类面部表情和运动转移到具有挑战性的人类舞蹈视频上。其目标是为特定目标身份生成新的姿势序列驱动的舞蹈视频，同时保持原始身份。MagicDance框架采用两阶段训练策略，重点是人类运动解耦和外观因素，如皮肤色调、面部表情和服装。我们将深入探讨MagicDance框架，探索其架构、功能和与其他最先进的人类运动转移框架相比的性能。让我们开始吧。

MagicDance : 真实的人类运动转移

如前所述，人类运动转移是最复杂的计算机视觉任务之一，因为从源图像或视频到目标图像或视频转移人类运动和表情的复杂性。传统上，计算机视觉框架通过在目标数据集上训练特定任务的生成模型（包括GAN或生成对抗网络）来实现人类运动转移，以实现面部表情和身体姿势。虽然训练和使用生成模型在某些情况下可以提供令人满意的结果，但它们通常存在两个主要限制。

它们严重依赖图像变形组件，因此它们经常难以插入源图像中由于视角变化或自遮挡而不可见的身体部位。
它们无法推广到外部来源的图像，这限制了它们的应用，特别是在野外的实时场景中。

现代扩散模型在不同条件下展示了出色的图像生成能力，并且扩散模型现在可以通过从大规模图像数据集学习来呈现一系列下游任务（如视频生成和图像修复）的强大视觉效果。由于其能力，扩散模型可能是人类运动转移任务的理想选择。虽然扩散模型可以用于人类运动转移，但它在生成内容的质量、身份保留或由于模型设计和训练策略限制而导致的时间不一致性方面存在一些限制。另外，基于扩散的模型在推广性方面与GAN框架相比没有显著优势。

为了克服扩散和GAN基于框架在人类运动转移任务中面临的障碍，开发人员引入了MagicDance，一种新颖的框架，旨在利用扩散框架的潜力来实现人类运动转移，展示出前所未有的身份保留、视觉质量和域推广能力。MagicDance框架的核心概念是将问题分为两个阶段：外观控制和运动控制，这两种能力是图像扩散框架实现准确运动转移输出所必需的。

上图简要概述了MagicDance框架，如图所示，框架采用稳定扩散模型，并部署两个额外的组件：外观控制模型和姿势控制网，前者通过注意力从参考图像中为SD模型提供外观指导，后者从条件图像或视频中为扩散模型提供表情/姿势指导。框架还采用多阶段训练策略来有效地学习这些子模块，以解耦姿势控制和外观。

总之，MagicDance框架是一个

新颖且有效的框架，包括外观解耦姿势控制和外观控制预训练。
MagicDance框架能够在姿势条件输入和参考图像或视频的控制下生成真实的人类面部表情和人类运动。
MagicDance框架旨在通过引入多源注意力模块来生成外观一致的人类内容，该模块为稳定扩散UNet框架提供准确的指导。
MagicDance框架还可以用作稳定扩散框架的方便扩展或插件，并确保与现有模型权重的兼容性，因为它不需要对参数进行额外的微调。

此外，MagicDance框架在外观和运动推广方面展示了卓越的能力。

外观推广：MagicDance框架在生成多样化外观方面展示了卓越的能力。
运动推广：MagicDance框架还具有生成广泛运动的能力。

MagicDance : 目标和架构

对于给定的参考图像，无论是真实的人还是风格化图像，MagicDance框架的主要目标是生成一个输出图像或输出视频，条件为输入和姿势输入{P，F}，其中P表示人类姿势骨架，F表示面部标志。生成的输出图像或视频应保留所涉及的人类的外观和身份，以及参考图像中的背景内容，同时保留由姿势输入定义的姿势和表情。

架构

在训练期间，MagicDance框架作为一个帧重构任务来训练，以重构来自同一参考视频的参考图像和姿势输入的真值。在测试期间，为了实现运动转移，姿势输入和参考图像来自不同的来源。

MagicDance框架的整体架构可以分为四类：初步阶段、外观控制预训练、外观解耦姿势控制和运动模块。

初步阶段

潜在扩散模型或LDM代表专门为在潜在空间中运行而设计的扩散模型，得益于自编码器的使用，而稳定扩散框架是LDM的一个值得注意的实例，它采用量化-变分自编码器和时间U-Net架构。稳定扩散模型采用基于CLIP的变换器作为文本编码器来处理文本输入，通过将文本输入转换为嵌入。稳定扩散框架的训练阶段将模型暴露在文本条件和输入图像上，涉及将图像编码为潜在表示，并将其提交给由高斯方法引导的一系列扩散步骤。结果序列产生一个嘈杂的潜在表示，提供一个标准正态分布，稳定扩散框架的主要学习目标是迭代地对嘈杂的潜在表示进行去噪，直到潜在表示。

外观控制预训练

原始ControlNet框架的一个主要问题是它无法在空间上变化的运动中一致地控制外观，尽管它倾向于生成姿势与输入图像中姿势相似的图像，但整体外观主要由文本输入影响。虽然这种方法有效，但它不适合涉及运动转移的任务，在这些任务中，参考图像而不是文本输入是外观信息的主要来源。

MagicDance框架中的外观控制预训练模块被设计为一个辅助分支，提供分层的外观控制指导。与依赖文本输入不同，该模块专注于利用参考图像的外观属性，以提高框架准确生成外观特征的能力，特别是在涉及复杂运动动态的场景中。此外，仅在外观控制预训练期间训练外观控制模型。

外观解耦姿势控制

一种简单的解决方案是直接将预训练的ControlNet模型与预训练的外观控制模型集成，而无需微调。然而，这种集成可能会导致框架难以控制外观独立的姿势，从而导致输入姿势和生成姿势之间的差异。为了解决这种差异，MagicDance框架共同微调了姿势控制网模型和预训练的外观控制模型。

运动模块

当外观解耦姿势控制网和外观控制模型共同工作时，可以实现准确有效的图像到运动转移，尽管这可能会导致时间不一致。为了确保时间一致性，框架将一个额外的运动模块集成到主要的稳定扩散UNet架构中。

MagicDance : 预训练和数据集

对于预训练，MagicDance框架使用一个TikTok数据集，包含350多个舞蹈视频，长度在10到15秒之间，捕捉单个的人在跳舞，视频中大多数包含面部和上身。MagicDance框架以每秒30帧的速度提取每个单独的视频，并在每个帧上运行OpenPose，以推断姿势骨架、手势和面部标志。

对于预训练，外观控制模型以批大小64在8个NVIDIA A100 GPU上预训练了10,000步，图像大小为512 x 512，然后共同微调姿势控制和外观控制模型，批大小为16，20,000步。在训练期间，MagicDance框架随机采样两个帧作为目标和参考，图像在相同的位置和相同的高度裁剪。在评估期间，模型在中心裁剪图像，而不是随机裁剪。

MagicDance : 结果

对MagicDance框架进行的实验结果如下图所示，MagicDance框架在人类运动转移方面超越了现有的框架，如Disco和DreamPose，跨所有指标。名称前带有“*”的框架使用目标图像作为输入，包含比其他框架更多的信息。

值得注意的是，MagicDance框架实现了0.426的Face-Cos分数，比Disco框架提高了156.62%，比DreamPose框架提高了近400%。结果表明MagicDance框架在保留身份信息方面具有强大的能力，性能的明显提高表明MagicDance框架在现有最先进方法上的优势。

以下图表比较了MagicDance、Disco和TPS框架之间的人类视频生成质量。如图所示，GT、Disco和TPS框架生成的结果遭受人类姿势身份和面部表情不一致的困扰。

此外，以下图表展示了MagicDance框架在TikTok数据集上的面部表情和人类姿势转移的可视化，MagicDance框架能够在多样化的面部标志和姿势骨架输入下生成真实和生动的表情和运动，同时从参考输入图像中准确保留身份信息。

值得注意的是，MagicDance框架具有出色的推广能力，能够处理未见过的姿势和风格的外域参考图像，即使没有在目标域上进行额外的微调，结果如下图所示。

以下图表展示了MagicDance框架在面部表情转移和零次人类运动方面的可视化能力。如图所示，MagicDance框架完美地推广到野外人类运动。

MagicDance : 限制

OpenPose是MagicDance框架的一个重要组件，因为它在姿势控制中起着至关重要的作用，显著影响生成图像的质量和时间一致性。然而，MagicDance框架仍然难以准确检测面部标志和姿势骨架，特别是当图像中的物体部分可见或显示快速运动时。这些问题可能会导致生成图像中的伪影。

结论

在本文中，我们讨论了MagicDance，一种基于扩散的模型，旨在革新人类运动转移。MagicDance框架尝试将2D人类面部表情和运动转移到具有挑战性的人类舞蹈视频上，具体目标是为特定目标身份生成新的姿势序列驱动的舞蹈视频，同时保持身份不变。MagicDance框架采用两阶段训练策略，用于人类运动解耦和外观，如皮肤色调、面部表情和服装。

MagicDance是一个新颖的方法，用于促进真实的人类视频生成，通过整合面部和运动表达转移，实现一致的野外动画生成，无需进一步的微调，展示了显著的改进，超越了现有的方法。此外，MagicDance框架在复杂运动序列和多样化人类身份方面展示了卓越的推广能力，确立了MagicDance框架在人工智能辅助运动转移和视频生成领域的领先地位。

Related Topics:dance diffusion MagicDance motion transfer