Anderson 视角

HunyuanCustom实现单图像视频Deepfakes，具有音频和唇部同步

发布于 2025年5月8日

更新于 2026年5月19日

作者

Martin Anderson

Images from the new paper at https://arxiv.org/pdf/2505.04512

本文讨论了一个新的多模态Hunyuan视频世界模型的发布，称为’HunyuanCustom’。新论文的广泛覆盖范围，加上项目页面上提供的许多示例视频，限制了我们通常的报道范围，并限制了我们对伴随此次发布的巨大视频材料的重现（因为许多视频需要大量重新编辑和处理，以提高布局的可读性）。

另外，请注意，该论文将基于API的生成系统Kling称为’Keling’。为了清晰起见，我将在整个文章中使用’Kling’。

腾讯正在发布其Hunyuan视频模型的新版本，名为HunyuanCustom。此次发布似乎能够使Hunyuan LoRA模型变得多余，因为它允许用户仅通过单个图像创建“Deepfake”风格的视频自定义：

点击播放。 提示：’一个人正在听音乐并在厨房里煮螺蛳粉’。新方法与包括Kling在内的闭源和开源方法进行了比较，Kling是这一领域的重要对手。来源：https://hunyuancustom.github.io/（警告：CPU/内存密集型网站！）

在上面的视频中，我们看到最左边的列是提供给HunyuanCustom的单个源图像，其后是新系统对提示的解释，旁边是来自各种专有和FOSS系统的结果：Kling；Vidu；Pika；Hailuo；以及Wan基于的SkyReels-A2。

在下面的视频中，我们看到三个场景的渲染，这些场景对于此次发布至关重要：分别是人+物体；单角色模拟；以及虚拟试穿（人+衣服）：

点击播放。三个来自Hunyuan视频支持网站的示例，经过编辑。

我们可以从这些示例中注意到一些事情，主要与系统依赖单个源图像而不是同一主题的多个图像有关。

在第一个片段中，男人基本上仍然面对着摄像机。他将头低下并向侧面倾斜，旋转不超过20-25度，但在超过该倾斜度时，系统将不得不开始猜测他从侧面看起来是什么样子。这很难，可能无法从单个正面图像中准确判断。

在第二个示例中，我们看到那个小女孩在渲染的视频中微笑，就像她在单个静态源图像中一样。同样，具有该图像作为参考，HunyuanCustom将不得不对她的“休息面部”进行相对无知的猜测。此外，她的脸部不会偏离相机正面的姿势超过前一个示例（“吃薯片的男人”）。

在最后一个示例中，我们看到由于源材料——女人和她被提示穿上的衣服——不是完整的图像，渲染的场景被裁剪以适应——这实际上是一个很好的解决数据问题的方法！

关键点是，虽然新系统可以处理多个图像（例如人+薯片或人+衣服），但它似乎不允许对单个角色的多个角度或视图进行处理，因此可能难以取代HunyuanVideo发布后围绕其发展起来的LoRA模型生态系统，因为这些模型可以帮助HunyuanVideo从任何角度和训练数据集中表示的任何面部表情中生成一致的角色（20-60张图像是典型的）。

连接音频

对于音频，HunyuanCustom利用LatentSync系统（对于爱好者来说，很难设置和获得良好的结果）来获得与用户提供的音频和文本匹配的唇部运动：

包含音频。点击播放。来自HunyuanCustom补充网站的各种唇部同步示例，编辑在一起。

在编写时，没有英文示例，但这些示例似乎相当好——尤其是如果创建它们的方法易于安装和使用。

编辑现有视频

新系统提供了非常令人印象深刻的视频到视频（V2V或Vid2Vid）编辑结果，其中现有（真实）视频的片段被智能地用单个参考图像中的主题替换。以下是补充材料网站上的一个示例：

点击播放。仅针对中央对象，但周围的内容也会在HunyuanCustom的Vid2Vid过程中改变。

如我们所见，并且在Vid2Vid场景中是标准的，整个视频在某种程度上都被该过程改变，尽管在目标区域（即毛绒玩具）中改变最明显。可以假设管道可以被开发来在垃圾遮罩方法下创建此类转换，这将使大多数视频内容保持与原始内容相同。这是Adobe Firefly在内部所做的，并且做得相当好——但这是FOSS生成场景中一个研究较少的过程。

话虽如此，提供的绝大多数替代示例在这些集成方面做得更好，如下面的编译所示：

点击播放。 HunyuanCustom中使用Vid2Vid的各种示例，展现出对未针对的材料的显著尊重。

新开始？

此次发布是Hunyuan视频项目的发展，而不是从该开发流中硬性转向。项目的增强功能是作为离散的架构插入引入的，而不是进行彻底的结构更改，旨在允许模型在帧之间保持身份保真，而无需依赖特定主题的微调，如LoRA或文本逆转方法。

为了澄清，HunyuanCustom并非从头开始训练的，而是2024年12月HunyuanVideo基础模型的微调。

那些开发了HunyuanVideo LoRAs的人可能会想知道他们是否仍然可以与此次新发布的版本一起使用，还是需要重新发明LoRA轮子，如果他们想要比此次新发布中内置的更高的自定义能力。

一般来说，一个大规模模型的重度微调版本会改变模型权重，使得为早期模型创建的LoRAs无法正常或完全地与新精细模型一起工作。

有时，一个微调的流行度会挑战其起源：一个微调成为有效分支的例子，具有其自身的生态系统和追随者，是Pony Diffusion对Stable Diffusion XL(SDXL)的微调。Pony目前在不断变化的CivitAI领域拥有592,000+次下载，拥有大量使用Pony（而非SDXL）作为基础模型的LoRAs，并且需要Pony进行推理。

发布

项目页面针对新论文（题为HunyuanCustom：一种用于自定义视频生成的多模态驱动架构），包含指向GitHub网站的链接，该网站在我写作时刚刚变得可用，并似乎包含所有代码和必要的权重用于本地实现，以及一个拟议的时间表（其中唯一重要的即将到来的事件是ComfyUI集成）。

在编写时，项目的Hugging Face存在仍然是404。然而，有一个基于API的版本，可以在提供WeChat扫码的情况下演示系统。

我很少见到像HunyuanCustom这样的项目，它将如此广泛的项目以如此精细的方式组合在一起——并且可以假设其中一些许可证将在任何情况下都需要完整发布。

GitHub页面上宣布了两个模型：一个720px1280px版本，需要8GB的GPU峰值内存；另一个512px896px版本，需要60GB的GPU峰值内存。

存储库声明“最低GPU内存要求为24GB用于720px1280px129f，但速度非常慢…我们建议使用80GB内存的GPU以获得更好的生成质量”——并且指出系统仅在Linux上进行了测试。

早期的Hunyuan Video模型自其官方发布以来，已经被量化到可以在低于24GB的VRAM下运行的尺寸，似乎合理地假设新模型也将被社区适配为更适合消费者的形式，并且将被适配用于Windows系统。

由于时间限制和此次发布所伴随的信息量过大，我们只能对此次发布进行更广泛的介绍，而不是深入的介绍。尽管如此，让我们深入了解HunyuanCustom。

查看论文

HunyuanCustom的数据管道，显然符合GDPR框架，结合了合成和开源视频数据集，包括OpenHumanVid，其中有八个核心类别：人类，动物，植物，景观，车辆，物体，建筑，和动漫。

从发布论文中，HunyuanCustom数据构造管道中多样化的贡献包的概述。 来源：https://arxiv.org/pdf/2505.04512

初始过滤从PySceneDetect开始，该工具将视频分段为单个镜头。然后使用TextBPN-Plus-Plus删除包含过多屏幕文本、字幕、水印或标志的视频。

为了解决分辨率和持续时间的不一致性，片段被标准化为5秒的长度，并调整为512或720像素的短边。美学过滤由Koala-36M处理，应用了0.06的自定义阈值，用于由新论文的研究人员策划的自定义数据集。

主题提取过程结合了Qwen7B大型语言模型（LLM），YOLO11X对象识别框架，以及流行的InsightFace架构，以识别和验证人类身份。

对于非人类主题，QwenVL和Grounded SAM 2被用来提取相关的边界框，这些边界框如果太小则被丢弃。

Hunyuan Control项目中使用的Grounded SAM 2的语义分割示例。 来源：https://github.com/IDEA-Research/Grounded-SAM-2

多主题提取使用Florence2进行边界框注释，并使用Grounded SAM 2进行分割，接着是训练帧的聚类和时间分割。

处理后的片段通过使用Hunyuan团队开发的专有结构化标签系统进行注释，该系统提供了分层元数据，例如描述和相机运动提示。

掩码增强策略，包括转换为边界框，在训练期间应用，以减少过拟合，并确保模型适应各种物体形状。

音频数据使用上述的LatentSync进行同步，并丢弃同步评分低于最小阈值的片段。

盲图像质量评估框架HyperIQA 被用来排除评分低于40（在HyperIQA的专用量表上）的视频。然后使用Whisper处理有效的音频轨道，以提取用于下游任务的特征。

作者在注释阶段纳入了LLaVA语言助手模型，并强调了该框架在HunyuanCustom中的核心地位。LLaVA用于生成图像字幕，并在构建跨模态的连贯训练信号时支持将视觉内容与文本提示对齐：

HunyuanCustom框架支持基于文本、图像、音频和视频输入的身份一致性视频生成。

通过利用LLaVA的视觉语言对齐能力，管道获得了视觉元素和其文本描述之间的额外语义一致性层——尤其是在多主题或复杂场景中具有价值。

自定义视频

为了允许基于参考图像和提示的视频生成，创建了两个围绕LLaVA的模块，首先通过使HunyuanVideo的输入结构能够接受图像和文本来适应输入结构。

这涉及以嵌入图像或用短身份描述标记图像的方式格式化提示。使用分隔符令牌来防止图像嵌入压倒提示内容。

由于LLaVA的视觉编码器倾向于在对齐图像和文本特征时压缩或丢弃细粒度的空间细节（特别是在将单个参考图像转换为一般语义嵌入时），因此纳入了身份增强模块。由于几乎所有视频潜在扩散模型在没有LoRA的情况下都难以保持身份，即使在5秒的片段中，社区测试中该模块的性能可能会很重要。

在任何情况下，参考图像都会被重新调整大小并使用来自原始HunyuanVideo模型的因果3D-VAE进行编码，其潜在插入到视频潜在中，沿时间轴应用空间偏移，以防止图像在输出中直接被复制，同时仍然指导生成。

模型使用Flow Matching进行训练，噪声样本从logit-normal分布中抽取，并且网络被训练为从这些噪声潜在中恢复正确的视频。LLaVA和视频生成器都进行了微调，以便图像和提示可以更流畅地指导输出并保持主题身份的一致性。

对于多主题提示，每个图像-文本对被单独嵌入并分配了不同的时间位置，允许识别身份并支持生成涉及多个交互主题的场景。

声音与视觉

HunyuanCustom使用用户输入的音频和文本提示来条件化音频/语音生成，使角色能够在反映所描述设置的场景中说话。

为了支持这一点，引入了一个身份解耦音频网络模块，引入了音频特征，而不会破坏从参考图像和提示中嵌入的身份信号。这些特征与压缩的视频时间轴对齐，分为帧级别的段，并使用空间跨注意力机制注入，这个机制保持每个帧的隔离，保留主题的一致性并避免时间干扰。

第二个时间注入模块提供了对时间和运动的更精细的控制，协同工作与AudioNet，并将音频特征映射到潜在序列的特定区域，并使用多层感知器(MLP)将它们转换为标记级运动偏移量。这允许手势和面部运动以更大的精度跟随口语输入的节奏和强调。

HunyuanCustom允许直接编辑现有视频中的主题，替换或将人或物体插入场景中，无需从头开始重建整个剪辑。这使其适用于涉及以针对方式改变外观或运动的任务。

点击播放。 来自补充网站的另一个示例。

为了在现有视频中高效地替换主题，新系统避免了最近方法（如当前流行的VACE）中资源密集型的方法，而是偏爱使用预训练的因果3D-VAE压缩参考视频，并将其与生成管道的内部视频潜在变量对齐，然后将它们相加。这使得该过程相对较轻量，同时仍允许外部视频内容来指导输出。

一个小型神经网络处理干净输入视频和用于生成的噪声潜在变量之间的对齐。系统测试了两种将此信息注入的方法：在再次压缩之前合并两个特征集；以及逐帧添加特征。作者发现第二种方法效果更好，并且避免了质量损失，同时保持计算负载不变。

数据和测试

在测试中，使用的指标是：ArcFace中的身份一致性模块，该模块从参考图像和生成视频的每一帧中提取面部嵌入，然后计算它们之间的平均余弦相似度；主题相似度，通过将YOLO11x段发送到Dino 2进行比较；CLIP-B，文本-视频对齐，用于测量提示和生成视频之间的相似度；CLIP-B，再次用于计算每一帧与其相邻帧和第一帧之间的相似度，以及时间一致性；以及动态度，由VBench定义。

如前所述，基准闭源竞争对手是Hailuo；Vidu 2.0；Kling（1.6）；和Pika。竞争的FOSS框架是VACE和SkyReels-A2。

将HunyuanCustom与领先的视频自定义方法进行比较，评估其在ID一致性（Face-Sim）、主题相似度（DINO-Sim）、文本-视频对齐（CLIP-B-T）、时间一致性（Temp-Consis）和运动强度（DD）方面的性能。最佳和次佳结果分别以粗体和下划线表示。

关于这些结果，作者指出：

‘我们的[HunyuanCustom]实现了最佳的ID一致性和主题一致性。它还在提示跟随和时间一致性方面实现了可比的结果。[Hailuo]具有最佳的CLIP评分，因为它可以仅凭借ID一致性良好地跟随文本指令，牺牲了非人类主题的一致性（最差的DINO-Sim）。在动态度方面，[Vidu]和[VACE]表现较差，这可能是由于模型尺寸较小所致。’

尽管项目网站的布局使得比较视频示例变得困难，但必须注意到，很少有项目在视频合成领域有勇气将自己与Kling（商业视频扩散API）进行比较，Kling始终处于或接近领先地位；腾讯似乎以相当令人印象深刻的方式在这一领域取得了进展。