人工智能

一种新的用于时间一致的稳定扩散视频角色系统

Published September 25, 2024

Updated April 27, 2026

Martin Anderson

A capture from the project page of MIMO (https://menyifang.github.io/projects/MIMO/index.html), depicting a motion-driven wolf creature.

阿里巴巴集团的一项新举措提供了我所见过的最好的方法之一，用于从基于稳定扩散的基础模型生成全身人类角色。

该系统被称为 MIMO（MIMicking with Object Interactions），它使用了一系列流行的技术和模块，包括基于CGI的人类模型和 AnimateDiff，以实现视频中时间一致的角色替换 – 或者驱动一个具有用户定义的骨骼姿势的角色。

这里我们看到从单个图像源中插值的角色，并由预定义的运动驱动：

[点击下面的视频播放]

从单个源图像中，三个多样的人物被驱动由一个 3D 姿势序列（最左边）使用 MIMO 系统。 请参阅项目网站和附件的 YouTube 视频（在本文末嵌入）以获取更多示例和更高的分辨率。 来源：https://menyifang.github.io/projects/MIMO/index.html

可以从视频帧和其他多种方式中生成的角色，可以集成到真实世界的视频中。

MIMO 提供了一种新颖的系统，它生成三个离散的编码，每个编码对应于角色、场景和遮挡（即抠图，当某个物体或人出现在被描绘的角色前面时）。这些编码在推理时集成。

[点击下面的视频播放]

MIMO 可以用照片般真实或风格化的角色替换原始角色，这些角色遵循目标视频的运动。请参阅项目网站和附件的 YouTube 视频（在本文末嵌入）以获取更多示例和更高的分辨率。

该系统是在稳定扩散 V1.5 模型上训练的，使用研究人员精心策划的自定义数据集，数据集由真实世界和模拟视频组成。

基于扩散的视频的最大问题是时间稳定性，其中视频的内容要么闪烁，要么以不适合一致角色表示的方式“演化”。

MIMO 相反，有效地使用单个图像作为一致的指导，可以由中间的 SMPL CGI 模型协调和约束。

由于源参考是一致的，并且基础模型已用足够的代表性运动示例增强，该系统的时间一致输出能力远远高于基于扩散的角色的一般标准。

[点击下面的视频播放]

更多由姿势驱动的 MIMO 角色示例。请参阅项目网站和附件的 YouTube 视频（在本文末嵌入）以获取更多示例和更高的分辨率。

越来越多地，单个图像被用作有效的神经表示的源， либо单独使用， либо以多模态方式与文本提示结合使用。例如，流行的 LivePortrait 面部转移系统也可以从单个面部图像中生成非常逼真的深度伪造面部从单个面部图像。

研究人员认为，MIMO 系统中使用的原理可以扩展到其他类型的生成系统和框架中。

新论文的标题是 MIMO：具有空间分解建模的可控角色视频合成，它来自阿里巴巴集团智能计算研究所的四位研究人员。该工作有一个视频丰富的项目页面和一个附件的 YouTube 视频，也嵌入在本文末。

方法

MIMO 实现了自动和无监督分离上述三个空间组件，在端到端的架构中（即所有子过程都集成到系统中，用户只需提供输入材料）。

MIMO 的概念架构。 来源：https://arxiv.org/pdf/2409.16160

源视频中的物体从 2D 转换为 3D，最初使用单目深度估计器 Depth Anything。每个帧中的人类元素使用 Tune-A-Video 项目的方法提取。

这些特征然后通过 Facebook Research 的 Segment Anything 2 架构转换为基于视频的体积facet。

场景层本身是通过删除其他两个层中检测到的物体来获得的，有效地提供了一个类似 rotoscope 的掩码。

对于运动，提取的人类元素的潜在代码锚定到一个默认的人类 CGI 模型，其运动提供了渲染的人类内容的上下文。

通过 NVIDIA 的可微分光栅器得到的人类内容的 2D 特征图，由 2020 年的计划得到。将从 SMPL 获得的 3D 数据与通过 NVIDIA 方法获得的 2D 数据相结合，代表“神经人”的潜在代码具有与其最终上下文的实质对应关系。

此时，需要建立一个在使用 SMPL 的架构中常需要的参考 – 一个规范姿势。这与达芬奇的 ‘维特鲁威人’ 类似，因为它代表了一个零姿势模板，可以接受内容，然后被变形，并带着它（有效地）纹理映射的内容。

这些变形，或“偏离正常”，代表人类运动，而 SMPL 模型保持了构成提取的人类身份的潜在代码，因此以姿势和纹理的正确表示表示最终的角色。

SMPL 人物中的规范姿势示例。 来源：https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264

关于纠缠的问题（训练数据可以变得不灵活，当你将其拉伸到其训练范围和关联之外时），作者指出*：

‘为了完全分离外观和姿势视频帧，理想的解决方案是从单目视频中学习动态人类表示，并将其从姿势空间转换为规范空间。 ‘

‘考虑到效率，我们采用了一种简化的方法，即直接将姿势的人类图像转换为使用预训练的人类重姿模型的规范结果。 ‘

‘合成的规范外观图像被送入 ID 编码器以获取身份[代码]。 ‘

‘这种简单的设计使得身份和运动属性完全分离。 ‘

对于场景和遮挡方面，使用一个共享和固定的变分自编码器（VAE – 在这种情况下来自 2013 年的出版物）来将场景和遮挡元素嵌入到潜在空间中。使用 2023 年 ProPainter 项目中的修复方法处理不一致性。

一旦以这种方式组装和修饰，视频中的背景和任何遮挡物体都将为移动的人类角色提供遮罩。

这些分解的属性然后被送入基于稳定扩散 V1.5 架构的 U-Net 主干。完成的场景代码与主机系统的本地潜在噪声连接。人类组件通过自注意力和交叉注意力层集成。

然后，通过 VAE 解码器输出去噪结果。

数据和测试

对于训练，研究人员创建了一个名为 HUD-7K 的人类视频数据集，包括 5,000 个真实人物视频和 2,000 个由 En3D 系统创建的合成动画。真实视频不需要注释，因为 MIMO 架构中的图像提取过程是非语义的。合成数据是完全注释的。

该模型在八个 NVIDIA A100 GPU（尽管论文没有指定这些是 40GB 或 80GB VRAM 模型）上训练，训练 50 次迭代，使用 24 个视频帧和批大小为 4，直到收敛。

系统的运动模块在 AnimateDiff 的权重上训练。在训练过程中，VAE 编码器/解码器的权重和 CLIP 图像编码器被冻结（相比之下，完整的微调将对基础模型产生更广泛的影响）。

虽然 MIMO 没有与类似系统进行试验，但研究人员在 AMASS 和 Mixamo 中获取的难以获取的运动序列上测试了它。这些运动包括攀爬、玩耍和跳舞。

他们还在野外的人类视频中测试了该系统。在两种情况下，论文报告了“高稳健性”用于这些未见的 3D 运动，从不同的视角来看。

虽然论文提供了多个静态图像结果来展示该系统的有效性，但 MIMO 的真正性能最好通过项目页面和 YouTube 视频中提供的广泛视频结果来评估（这些视频来自嵌入在本文末的视频）。

作者总结如下：

‘实验结果表明，我们的方法不仅可以灵活地控制角色、运动和场景，还可以扩展到任意角色、适用于新颖的 3D 运动，并适用于交互式场景。 ‘

‘我们还相信，我们的解决方案，它考虑了固有的 3D 性质，并自动将 2D 视频编码为分层空间组件，可以激发未来关于 3D 感知视频合成的研究。 ‘

‘此外，我们的框架不仅适合生成角色视频，还可以潜在地适用于其他可控视频合成任务。 ‘

结论

看到一个基于稳定扩散的角色系统，似乎能够实现时间稳定性，这是令人耳目一新的 – 尤其是因为高斯角色似乎正在获得领先地位在这个特定的研究领域。

MIMO 中表示的风格化角色是有效的，虽然 MIMO 可以产生的照片般真实的程度目前还不如高斯斑点能够实现的水平，但在基于语义的潜在扩散网络（LDM）中创建时间一致的人类的多样优势是显著的。

* 我将作者的内联引用转换为超链接，并在必要时添加外部解释性超链接。

首次发布于星期三，2024 年 9 月 25 日

Related Topics:AnimateDiff MIMO Stable Diffusion temporal stability

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

一种新的用于时间一致的稳定扩散视频角色系统

方法

数据和测试

结论

You may like