关注我们.

安德森的角度

HunyuanCustom 推出单图像视频深度伪造,并支持音频和唇形同步

mm
图片来自新论文 https://arxiv.org/pdf/2505.04512

本文讨论了新发布的多模态混元视频世界模型“混元定制”。这篇新论文涵盖了广泛的内容,并结合了在 项目页*,限制我们进行比平常更广泛的报道,并限制复制伴随此版本的大量视频材料(因为许多视频需要大量的重新编辑和处理,以提高布局的可读性)。

另外请注意,本文将基于 API 的生成系统 Kling 称为“Keling”。为了清晰起见,我通篇都使用“Kling”来代替。

 

腾讯正在发布其 浑源视频模型相关的一幅素描作品 浑源海关。 新版本显然能够 混源LoRA型号 冗余,通过允许用户通过 图片:

点击播放。 提示:“一位男士正在厨房里一边听音乐一边煮螺蛳粉。” 这种新方法与闭源和开源方法都进行了比较,包括该领域一个强劲对手——Kling。 来源:https://hunyuancustom.github.io/(警告:占用大量 CPU/内存的网站!)

在上面视频的最左栏中,我们看到了提供给 HunyuanCustom 的单源图像,其旁边的第二栏是新系统对提示的解读。其余几栏则展示了各种专有系统和 FOSS 系统的结果: 克林; 维杜; 鼠兔; 海螺; 和 广域网基于 SkyReels-A2.

在下面的视频中,我们看到了此版本必不可少的三个场景的渲染图: 人+物; 单字符模拟;和 虚拟试穿 (人+衣服):

点击播放. 从混元视频支持网站材料中编辑的三个示例。

我们可以从这些例子中注意到一些事情,主要与依赖于 单一源图像, 而不是同一主题的多张图像。

在第一个视频片段中,该男子基本上仍然面向镜头。他的头部略微向下倾斜,并向侧面倾斜,旋转角度不超过20-25度。但如果倾斜角度超过这个角度,系统就不得不开始猜测他的侧面像了。这很难,甚至可能无法仅凭一张正面照片就准确判断。

在第二个例子中,我们看到小女孩 微笑 渲染视频中她与单张静态源图像中的样子完全一样。同样,仅凭这张图像作为参考,“混元定制”不得不对她“静息面容”的样子做出相对缺乏根据的猜测。此外,她的面部表情与面对镜头时的姿势偏差,并不比之前的例子(“男人吃薯片”)更大。

在最后一个例子中,我们看到,由于源材料(女人和她穿的衣服)不是完整的图像,因此渲染器裁剪了场景以适应 - 这实际上是数据问题的一个很好的解决方案!

重点是,虽然新系统可以处理多幅图像(例如 人+薯片人+衣服),它显然不允许多个角度或替代视图 单个字符,以便能够适应不同的表达方式或不寻常的角度。因此,该系统可能难以取代日益壮大的LoRA模型生态系统。 如雨后春笋般涌现 自去年 20 月发布以来,这些工具一直在 HunyuanVideo 周围使用,因为这些工具可以帮助 HunyuanVideo 从任何角度生成一致的角色,并且与训练数据集(通常为 60-XNUMX 张图像)中所表示的任何面部表情保持一致。

有线声音

对于音频,HunyuanCustom 利用 潜伏同步 系统(众所周知,业余爱好者很难设置并获得良好的结果)用于获取与用户提供的音频和文本相匹配的唇部动作:

有音频。点击播放。 来自 HunyuanCustom 补充站点的各种口型同步示例,已编辑在一起。

在撰写本文时,还没有英文示例,但这些示例看起来相当不错——如果创建它们的方法易于安装和访问,那就更好了。

编辑现有视频

新系统在视频到视频(V2V,或称 Vid2Vid)编辑方面取得了令人印象深刻的效果,该系统会遮盖现有(真实)视频的某个片段,并智能地将其替换为单个参考图像中指定的对象。以下是来自补充材料网站的一个示例:

点击播放。 仅针对中心对象,但其周围的剩余部分也会在 HunyuanCustom vid2vid 过程中发生改变。

正如我们所见,并且作为 vid2vid 场景中的标准, 整个视频 在某种程度上,这个过程会改变细胞的形态,但改变最多的还是目标区域,也就是毛绒玩具。或许可以开发一些管道,在特定条件下实现这样的转变。 垃圾遮罩 这种方法使大部分视频内容与原始内容保持一致。这正是 Adob​​e Firefly 的底层实现,而且效果相当不错——但在 FOSS 生成场景中,这是一个研究不足的过程。

也就是说,所提供的大多数替代示例在针对这些集成方面做得更好,正如我们在下面的汇编中看到的那样:

点击播放。 在《HunyuanCustom》中使用vid2vid插入内容的多种示例,表现出对非目标材料的显著尊重。

新的开始?

这一举措是 浑源视频项目,而不是硬性地脱离该开发流程。该项目的增强功能是以离散的架构插入而不是全面的结构变化的形式引入的,旨在使模型能够跨框架保持身份保真度,而无需依赖 特定主题 微调,就像 LoRA 或文本反转方法一样。

因此需要明确的是,HunyuanCustom 不是从头开始训练的,而是对 2024 年 XNUMX 月 HunyuanVideo 基础模型的微调。

那些已经开发了 HunyuanVideo LoRA 的人可能会想知道他们是否还能使用这个新版本,或者他们是否必须重新发明 LoRA 轮子 再次 如果他们想要比新版本内置的更多定制功能。

一般来说,经过严格微调的超大规模模型版本会改变 模型权重 以至于为早期模型制作的 LoRA 无法与新改进的模型正常工作,或者根本无法工作。

然而,有时,微调的流行可能会挑战它的起源:微调成为有效 拥有专门的生态系统和自己的追随者,是 小马扩散 的调整 稳定扩散 XL (SDXL)。Pony 目前在 千变万化 CivitAI 领域,大量 LoRA 使用 Pony(而非 SDXL)作为基础模型,并且在推理时需要 Pony。

释放

项目页 等加工。为 新文 (标题为 HunyuanCustom:一种用于定制视频生成的多模态驱动架构) 链接到 GitHub 网站 正如我所写,它刚刚开始发挥作用,并且似乎包含了本地实现的所有代码和必要的权重,以及拟议的时间表(其中唯一重要的事情是 ComfyUI 集成)。

在撰写本文时,该项目的 拥抱脸的存在 仍然是 404。但是有一个 基于 API 的版本 只要您能提供微信扫描码,就可以在那里演示该系统。

我很少看到在一个程序集中如此复​​杂和广泛地使用如此多种多样的项目,正如 HunyuanCustom 中所证明的那样 - 并且大概某些许可证无论如何都会要求全面发布。

GitHub 页面上公布了两种型号:需要 720GB GPU 峰值内存的 1280px8px 版本,以及需要 512GB GPU 峰值内存的 896px60px 版本。

存储库状态 “24px720px1280f 所需的最低 GPU 内存为 129GB,但速度非常慢……我们建议使用具有 80GB 内存的 GPU,以获得更好的生成质量” – 并重申该系统目前仅在 Linux 上进行过测试。

早期的混元视频模型自正式发布以来, 量化的 尺寸缩小到可以在小于 24GB 的 VRAM 上运行,并且似乎可以合理地假设新模型同样会被社区改编成更加消费者友好的形式,并且它将很快适应在 Windows 系统上使用。

由于时间限制以及此次发布的信息量巨大,我们只能进行较为宽泛的了解,而无法进行深入的探讨。不过,我们还是先来简单了解一下 HunyuanCustom 吧。

论文概览

HunyuanCustom 的数据管道显然符合 《通用数据保护条例》(GDPR) 框架,结合了合成和开源视频数据集,包括 OpenHumanVid,代表八个核心类别: 人类, 动物, 工厂, 景观, 车辆, 对象, 建筑灵魂.

摘自发布论文,概述了 HunyuanCustom 数据构建流程中各种贡献包。来源:https://arxiv.org/pdf/2505.04512

从发布论文中概述了 HunyuanCustom 数据构建管道中的各种贡献包。 来源:https://arxiv.org/pdf/2505.04512

初始过滤开始于 PyScene检测,将视频分割成单片段。 TextBPN-Plus-Plus 然后用于删除包含过多屏幕文本、字幕、水印或徽标的视频。

为了解决分辨率和时长不一致的问题,视频片段的时长被标准化为 512 秒,并在短边调整为 720 或 XNUMX 像素。美化滤镜使用 考拉-36M,新论文研究人员整理的自定义数据集应用了 0.06 的自定义阈值。

主题提取过程结合了 Qwen7B 大型语言模型(LLM), YOLO11X 物体识别框架,以及流行的 洞察人脸 建筑,来识别和验证人类身份。

对于非人类受试者, 奎文 以及 停飞的萨姆-2 用于提取相关的边界框,如果太小则会被丢弃。

使用 Grounded SAM 2 进行语义分割的示例,用于浑源控制项目。来源:https://github.com/IDEA-Research/Grounded-SAM-2

浑源控制项目中使用 Grounded SAM 2 进行语义分割的示例。 来源:https://github.com/IDEA-Research/Grounded-SAM-2

多主题提取利用 佛罗伦萨2 用于边界框注释,Grounded SAM 2 用于分割,然后对训练帧进行聚类和时间分割。

处理过的片段通过注释得到进一步增强,使用由浑元团队开发的专有结构化标签系统,并提供分层元数据,例如描述和摄像机运动提示。

面罩增强 在训练过程中采用了包括转换为边界框在内的策略来减少 过度拟合 并确保模型适应不同的物体形状。

音频数据使用前面提到的 LatentSync 进行同步,如果同步分数低于最低阈值,则丢弃剪辑。

盲图像质量评估框架 超级智商 用于排除得分低于 40 分(根据 HyperIQA 的定制量表)的视频。然后使用 耳语 为下游任务提取特征。

作者们结合 拉瓦 他们还在注释阶段重点介绍了语言助手模型,并强调了该框架在 HunyuanCustom 中的核心地位。LLaVA 用于生成图像字幕,并协助将视觉内容与文本提示对齐,从而支持构建跨模态的连贯训练信号:

HunyuanCustom 框架支持以文本、图像、音频和视频输入为条件的身份一致的视频生成。

HunyuanCustom 框架支持以文本、图像、音频和视频输入为条件的身份一致的视频生成。

通过利用 LLaVA 的视觉语言对齐功能,该流程在视觉元素和其文本描述之间获得了额外的语义一致性——这在多主题或复杂场景中尤其有价值。

自定义视频

为了能够根据参考图像和提示生成视频,我们创建了以 LLaVA 为中心的两个模块,首先调整了 HunyuanVideo 的输入结构,使其能够接受图像和文本。

这涉及到格式化提示,使其能够直接嵌入图像或为其添加简短的身份描述标签。使用分隔符来防止图像嵌入淹没提示内容。

由于 LLaVA 的视觉编码器在图像和文本特征对齐过程中倾向于压缩或丢弃细粒度的空间细节(特别是在将单个参考图像转换为一般语义嵌入时),因此 身份增强模块 已纳入。由于几乎所有视频潜在扩散模型在没有 LoRA 的情况下都难以维持身份,即使在五秒钟的片段中也是如此,因此该模块在社区测试中的表现可能意义重大。

无论如何,参考图像随后都会使用原始 HunyuanVideo 模型中的因果 3D-VAE 进行调整大小和编码,其 插入到跨时间轴的视频潜伏中,并应用空间偏移以防止图像在输出中直接再现,同时仍引导生成。

该模型的训练使用 流量匹配,噪声样本取自 对数正态 分布——并且训练网络从这些嘈杂的潜在信息中恢复正确的视频。LLaVA 和视频生成器都经过了微调,以便图像和提示能够更流畅地引导输出,并保持主体身份的一致性。

对于多主题提示,每个图像文本对被单独嵌入并分配不同的时间位置,从而可以区分身份,并支持生成涉及 相互作用的主体。

声音与视觉

HunyuanCustom 使用用户输入的音频和文本提示来条件化音频/语音生成,允许角色在反映所描述设置的场景中说话。

为了实现这一点,一个身份解耦的 AudioNet 模块引入了音频特征,而不会干扰从参考图像和提示中嵌入的身份信号。这些特征与压缩视频时间线对齐,被划分为帧级片段,并使用空间 交叉注意力 保持每个帧独立的机制,保持主题一致性并避免时间干扰。

第二个时间注入模块提供对时间和运动的更精细控制,与 AudioNet 协同工作,将音频特征映射到潜在序列的特定区域,并使用 多层感知器 (MLP)将它们转换成 代币化 运动偏移。这使得手势和面部动作能够更精确地跟随语音输入的节奏和重点。

HunyuanCustom 允许直接编辑现有视频中的主体,无需重新构建整个视频片段,即可替换或插入人物或物体。这对于需要有针对性地改变外观或动作的任务非常有用。

点击播放。 来自补充站点的另一个示例。

为了方便在现有视频中高效地替换主题,新系统避免了当前流行的资源密集型方法,例如 真空真空管或者将整个视频序列合并在一起,而更倾向于使用预训练的因果 3D-VAE 压缩参考视频——将其与生成流程的内部视频潜在向量对齐,然后将两者相加。这使得流程相对轻量,同时仍然允许外部视频内容引导输出。

一个小型神经网络负责处理清晰输入视频与生成过程中使用的噪声潜在特征之间的对齐。该系统测试了两种注入此信息的方法:合并两组特征,然后再次压缩;以及逐帧添加特征。作者发现,第二种方法效果更好,在保持计算负载不变的同时避免了质量损失。

数据与测试

在测试中,使用的指标是:身份一致性模块 弧面,从参考图像和生成视频的每一帧中提取面部嵌入,然后计算它们之间的平均余弦相似度; 主题相似性通过将 YOLO11x 段发送到 恐龙 2 为了比较; CLIP-B,文本-视频对齐,测量提示和生成的视频之间的相似性;再次使用 CLIP-B,计算每个帧与其相邻帧和第一帧之间的相似性,以及时间一致性; 动态度,如所定义的 工作台.

如前所述,基准闭源竞争对手包括 Hailuo、Vidu 2.0、Kling (1.6) 和 Pika。竞争的自由/开源软件框架包括 VACE 和 SkyReels-A2。

模型性能评估:HunyuanCustom 与领先的视频定制方法在身份一致性 (Face-Sim)、主体相似性 (DINO-Sim)、文本-视频对齐 (CLIP-BT)、时间一致性 (Temp-Consis) 和运动强度 (DD) 方面进行了比较。最优结果以粗体显示,次优结果以下划线显示。

模型性能评估:HunyuanCustom 与领先的视频定制方法在身份一致性 (Face-Sim)、主体相似性 (DINO-Sim)、文本-视频对齐 (CLIP-BT)、时间一致性 (Temp-Consis) 和运动强度 (DD) 方面进行了比较。最优结果以粗体显示,次优结果以下划线显示。

对于这些结果,作者指出:

我们的[HunyuanCustom]实现了最佳的身份一致性和主体一致性。它在快速跟随和时间一致性方面也取得了相当的成果。[Hailuo]的剪辑得分最高,因为它仅需身份一致性就能很好地遵循文本指令,但牺牲了非人类主体的一致性(DINO-Sim最差)。在动态度方面,[Vidu]和[VACE]表现不佳,这可能是由于模型规模较小造成的。

虽然项目网站上充斥着各种对比视频(其布局似乎是为了网站美观而非方便比较而设计的),但就初始定性测试而言,目前还没有一个与PDF文件中静态结果相当的视频。虽然我把它放在这里,但我还是鼓励读者仔细观看项目网站上的视频,因为它们能更好地展现测试结果:

论文中对以对象为中心的视频定制进行了比较。虽然观看者(一如既往)应该参考源 PDF 以获得更好的分辨率,但项目网站上的视频或许是更有启发性的资源。

论文中对以对象为中心的视频定制进行了比较。虽然观看者(一如既往)应该参考源 PDF 以获得更好的分辨率,但在这种情况下,项目网站上的视频可能更具启发性。

作者在此评论:

可以看出,[Vidu]、[Skyreels A2] 和我们的方法在提示对齐和主题一致性方面都取得了相对较好的效果,但我们的视频质量优于 Vidu 和 Skyreels,这得益于我们的基础模型即 [Hunyuanvideo-13B] 良好的视频生成性能。

“在商业产品中,虽然 [Kling] 的视频质量很好,但视频的第一帧存在复制粘贴 [问题],有时主体移动太快而 [模糊],导致观看体验不佳。”

作者进一步评论说,Pika 在时间一致性方面表现不佳,引入了字幕伪影(数据管理不善的影响,视频片段中的文本元素被允许污染核心概念)。

他们指出,Hailuo 保留了面部特征,但无法保持全身特征的一致性。研究人员断言,在开源方法中,VACE 无法保持身份一致性,而他们认为 HunyuanCustom 制作的视频在保持高质量和多样性的同时,具有很强的身份保留能力。

接下来进行了测试 多主题视频定制与同类竞争对手相比,结果略有不同。与前面的示例一样,扁平化的 PDF 结果并非项目现场提供的视频的印刷版,但在呈现的结果中却独树一帜:

使用多主题视频定制进行比较。请参阅 PDF 以获取更详细的细节和分辨率。

使用多主题视频定制进行比较。请参阅 PDF 以获取更详细的细节和分辨率。

该文件指出:

[Pika] 可以生成指定的主体,但在视频帧中表现出不稳定性,例如在某个场景中,一名男子消失了,而一名女子未能按照提示打开门。[Vidu] 和 [VACE] 部分捕捉到了人类身份,但丢失了非人类物体的重要细​​节,这表明它在表现非人类主体方面存在局限性。

“[SkyReels A2] 经历了严重的帧不稳定,在正确的情况下,碎片出现明显变化,并出现大量伪影。

“相比之下,我们的 HunyuanCustom 可以有效地捕捉人类和非人类主体的身份,生成符合给定提示的视频,并保持较高的视觉质量和稳定性。”

另一项实验是“虚拟人广告”,其中框架的任务是将产品与人结合起来:

定性测试阶段的神经“产品植入”示例。请参阅 PDF 文档以获取更详细的信息和分辨率。

定性测试阶段的神经“产品植入”示例。请参阅 PDF 文档以获取更详细的信息和分辨率。

对于这一轮,作者指出:

“[结果]表明,HunyuanCustom 有效地保持了人类的身份,同时保留了目标产品的细节,包括其上的文字。

“此外,人与产品之间的互动显得自然,视频也紧密贴合给出的提示,凸显了HunyuanCustom在制作广告视频方面的巨大潜力。”

视频结果非常有用的一个领域是音频驱动主题定制的定性回合,其中角色根据文本描述的场景和姿势说出相应的音频。

音频部分结果已提供——不过在这种情况下,视频结果可能更佳。由于 PDF 图表较大,难以在本文中容纳,因此此处仅复制了其上半部分。如需更详细的信息和分辨率,请参阅源 PDF。

音频部分结果已提供——不过在这种情况下,视频结果可能更佳。由于 PDF 图表较大,难以在本文中容纳,因此此处仅复制了其上半部分。如需更详细的信息和分辨率,请参阅源 PDF。

作者断言:

“以前的音频驱动的人体动画方法输入人体图像和音频,其中人体的姿势、服饰和环境与给定的图像保持一致,并且无法在其他手势和环境中生成视频,这可能会限制它们的应用。

“……[我们的] HunyuanCustom 可以实现音频驱动的人体定制,其中角色在文本描述的场景和姿势中说出相应的音频,从而实现更加灵活和可控的音频驱动人体动画。”

进一步的测试(请参阅 PDF 了解所有详细信息)包括将新系统与 VACE 和 Kling 1.6 进行一轮视频主题替换对比:

测试视频到视频模式下的主题替换。请参阅源 PDF 以获取更详细的信息和分辨率。

测试视频到视频模式下的主题替换。请参阅源 PDF 以获取更详细的信息和分辨率。

对于新论文中提出的最后几项测试,研究人员认为:

由于严格遵守输入蒙版,VACE 存在边界伪影,导致主体形状不自然,运动连续性中断。相比之下,[Kling] 则表现出复制粘贴的效果,主体直接叠加在视频上,导致与背景的融合不佳。

“相比之下,HunyuanCustom 有效地避免了边界伪影,实现了与视频背景的无缝融合,并保持了强大的身份保留——展示了其在视频编辑任务中的卓越性能。”

结语

这是一个令人着迷的版本,尤其是因为它解决了最近一直不满的业余爱好者圈子里一直抱怨的一个问题——缺乏口型同步,因此,浑元视频和 Wan 2.1 等系统中增强的真实感可能会被赋予一个新的真实性维度。

虽然项目网站上几乎所有比较视频示例的布局使得将 HunyuanCustom 的功能与之前的竞争对手进行比较变得相当困难,但必须指出的是,在视频合成领域,很少有项目有勇气与 Kling 进行测试,而 Kling 是一个商业视频传播 API,始终徘徊在排行榜的顶部或附近;腾讯似乎已经以相当令人印象深刻的方式在与这一老牌对手的竞争中取得了进展。

 

* 问题在于,某些视频太宽、太短且分辨率太高,无法在 VLC 或 Windows Media Player 等标准视频播放器中播放,而是显示黑屏。

首次发布于 8 年 2025 月 XNUMX 日星期四

机器学习作家,人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站: 马丁南德森.ai
联系我们 [email protected]
推特:@manders_ai