人工智能
The Rise of Hunyuan Video Deepfakes (Chinese)

由于这里讨论的一些材料的性质,本文将包含比平常少的参考链接和插图。
在人工智能合成社区中,目前正在发生一些值得注意的事情,尽管其意义可能需要一段时间才能变得明显。爱好者们正在训练生成式人工智能视频模型来复制人们的外貌,使用基于视频的LoRAs,在腾讯最近发布的开源Hunyuan Video框架上。
点击播放。 来自Civit社区的Hunyuan基于LoRA自定义的多样化结果。通过训练低秩适应模型(LoRAs),在过去两年中困扰人工智能视频生成的时间稳定性问题得到了显著改善。 来源:civit.ai
在上面的视频中,女演员娜塔莉·波特曼、克里斯蒂娜·亨德里克斯和斯嘉丽·约翰逊,以及科技领袖埃隆·马斯克的外貌,都被训练成相对较小的附加文件,用于Hunyuan生成式视频系统,可以在用户的计算机上安装(无内容过滤器,如NSFW过滤器)。
上面显示的克里斯蒂娜·亨德里克斯LoRA的创作者表示,只需要来自《广告狂人》电视剧的16张图像就可以开发出该模型(该模型仅为307mb下载);来自Stable Diffusion社区的Reddit和Discord的多个帖子确认,这种LoRA通常不需要大量训练数据或长时间的训练。
Click播放。 阿诺德·施瓦辛格在一个Hunyuan视频LoRA中被赋予了生命,该LoRA可以在Civit下载。请参阅https://www.youtube.com/watch?v=1D7B9g9rY68以获取进一步的阿诺德示例,由AI爱好者鲍勃·道尔提供。
Hunyuan LoRAs可以在静态图像或视频上进行训练,尽管在视频上训练需要更大的硬件资源和更长的训练时间。
Hunyuan Video模型具有13亿个参数,超过Sora的12亿个参数,并远远超过于2024年夏季发布的开源Hunyuan-DiT模型,该模型仅有1.5亿个参数。
就像两年半之前的情况一样,当时的Stable Diffusion和LoRA(请参阅这里的Stable Diffusion 1.5的“本地”名人示例),基础模型对名人个性的理解远远不如通过“ID注入”的LoRA实现所能获得的保真度。
有效地,一个定制的、面向个性的LoRA可以“免费搭乘”基础Hunyuan模型的显著合成能力,提供比2017年时代的自动编码深度伪造或通过系统如著名的LivePortrait将静态图像添加到运动中更有效的人类合成。
所有这里描绘的LoRAs都可以从非常受欢迎的Civit社区免费下载,而更丰富的旧版“静态图像”LoRAs也可以潜在地创建“种子”图像用于视频创建过程(即图像到视频,一种待发布的Hunyuan Video功能,尽管目前有变通方法)。
点击播放。 上面,来自静态Flux LoRA的样本;下面,来自Hunyuan视频LoRA的示例,展示音乐家泰勒·斯威夫特。这些LoRAs都可以在Civit社区免费获取。
当我写这篇文章时,Civit网站为“Hunyuan”提供了128个搜索结果。几乎所有这些结果都以某种方式与NSFW模型相关;22个描绘名人;18个旨在促进色情内容的生成;只有七个描绘男性而不是女性。
有什么新鲜事?
由于深度伪造一词的演变性质,以及公众对当前人工智能人类视频合成框架的局限性的有限理解,Hunyuan LoRA的意义并不容易被人理解,尤其对于那些偶尔关注生成式人工智能场景的人。让我们回顾一下Hunyuan LoRAs和之前的基于身份的AI视频生成方法之间的一些关键差异。
1:无限制的本地安装
Hunyuan Video最重要的方面是它可以下载到本地,并将一个非常强大且无审查的AI视频生成系统放在普通用户的手中,以及VFX社区(在许可证允许的范围内)。
上一次这种情况发生是在2022年夏天,Stability.ai发布了开源的Stable Diffusion模型。在那时,OpenAI的DALL-E2已经吸引了公众的想象力,尽管DALLE-2是一个带有显著限制的付费服务(这些限制随着时间的推移而增加)。
当Stable Diffusion变得可用时,低秩适应使得可以生成任何人(名人或非名人)的身份图像,庞大的开发者和消费者兴趣帮助Stable Diffusion在受欢迎程度上超过DALLE-2;尽管后者是一个更强大的系统,但其审查程序被许多用户视为繁琐,自定义也是不可能的。
可以说,同样的情景现在也适用于Sora和Hunyuan——或者更准确地说,适用于Sora级别的专有生成式视频系统和开源对手,其中Hunyuan是第一个——但可能不是最后一个(这里,请考虑Flux最终将在稳定扩散方面取得显著进步)。
希望创建Hunyuan LoRA输出但缺乏强大设备的用户可以像往常一样,将GPU方面的训练外包给在线计算服务,例如RunPod。这与在Kaiber或Kling等平台创建AI视频不同,因为在支持本地工作流程的同时,租用在线GPU不涉及语义或基于图像的过滤(审查)。
2:无需“宿主”视频和高强度努力
当深度伪造在2017年底突然出现时,匿名发布的代码将演变成主流分支DeepFaceLab和FaceSwap(以及DeepFaceLive实时深度伪造系统)。
这种方法需要对每个要交换的身份的成千上万张面部图像进行精心策划;投入到这一阶段的努力越少,模型的效果就越差。另外,训练时间根据可用的硬件不同而有所不同,长期以来甚至会给能干的系统带来压力。
当模型终于准备好后,它只能将面部强加到现有的视频中,并且通常需要一个“目标”(即真实)身份,其外貌与被强加的身份相似。
最近,ROOP、LivePortrait和众多类似的框架提供了类似的功能,需要的努力较少,结果往往更好——但没有生成准确的全身深度伪造的能力——或除了面部以外的任何其他元素。

来自Bob Doyle的YouTube内容流的ROOP Unleashed和LivePortrait(左下角插图)示例。来源:https://www.youtube.com/watch?v=i39xeYPBAAM和https://www.youtube.com/watch?v=QGatEItg2Ns
相比之下,Hunyuan LoRAs(和将不可避免地跟随的类似系统)允许无限制地创建整个世界,包括全身模拟的用户训练LoRA身份。
3:大大提高的时间一致性
时间一致性已经成为扩散视频的圣杯,已经有几年了。使用LoRA和相关提示,Hunyuan视频生成具有一个恒定的身份参考来遵循。在理论上(这些都是早期),可以训练多个特定身份的LoRAs,每个都穿着特定的服装。
在这些条件下,服装也不会在整个视频生成过程中“突变”(因为生成系统将下一帧的基础放在有限的前几帧窗口上)。
(或者,就像图像基于LoRA系统一样,可以简单地将多个LoRAs(例如身份+服装LoRAs)应用于单个视频生成)
4:进入“人类实验”
正如我最近观察到的,专有和FAANG级别的生成式人工智能领域似乎现在非常担心其项目的潜在人工智能合成能力的批评,以至于实际的人很少出现在主要公告和发布的项目页面中。相反,相关的宣传文学越来越多地显示“可爱”和其他“非威胁性”的主题在合成结果中。
随着Hunyuan LoRAs的出现,社区第一次有机会在一个非常强大的(而不是边缘的)系统中推动基于LDM的人类视频合成的边界,并全面探索大多数人最感兴趣的主题——人。
影响
由于在Civit社区中搜索“Hunyuan”主要显示名人LoRAs和“硬核”LoRAs,Hunyuan LoRAs的出现最主要的影响是,它们将被用于创建真人(包括名人和不知名人)的AI色情(或诽谤性)视频。
为了符合法律要求,创建Hunyuan LoRAs并在各种Discord服务器上实验的爱好者们在发布真人示例时非常小心。然而,即使是图像深度伪造已经被严重武器化;添加真正逼真的视频到混合中可能最终会证明媒体在过去七年中反复出现的担忧是合理的,并引发了新的法规。
驱动力
像往常一样,色情仍然 推动技术进步。无论我们如何看待这种用法,这种不懈的动力都推动着最先进技术的进步,这些进步最终可以惠及更主流的采用。
在这种情况下,代价可能会更高,因为超现实视频创作的开源化对犯罪、政治和道德滥用有明显的影响。
一个专门用于AI生成NSFW视频内容的Reddit群组(我不会在这里提及其名称),其关联的开放Discord服务器正在改进ComfyUI 工作流,以用于Hunyuan基于视频色情生成。每天,用户都会发布NSFW片段的示例,其中许多可以合理地被称为“极端”,或至少在论坛规则中施加的限制下挣扎。
该社区还维护着一个大量的、成熟的GitHub存储库,包含可以下载和处理色情视频的工具,以提供新模型的训练数据。
由于最受欢迎的LoRA训练器Kohya-ss 现在支持Hunyuan LoRA训练,进入无限制生成式视频训练的障碍每天都在降低,硬件要求也在降低。
专门为AI色情(而不是基于身份的模型,如名人)训练的关键方面是,像Hunyuan这样的标准基础模型并没有专门针对NSFW输出进行训练,因此可能在生成NSFW内容时性能较差,或者无法以令人信服的方式分离学习的概念和关联。
通过开发针对NSFW的精细化基础模型和LoRAs,将越来越可能将训练好的身份投影到专用的“色情”视频域中;毕竟,这只是已经发生在静态图像上的事情,已经过去两年半了。
VFX
Hunyuan Video LoRAs提供的时间一致性显著提高,对于依赖开源软件的AI视觉特效行业来说是一个显著的优势。
虽然Hunyuan Video LoRA方法会生成整个帧和环境,但VFX公司已经开始尝试使用这种方法获得时间一致的human面部,以便将面部叠加或集成到现实世界的源视频中。
像爱好者社区一样,VFX公司必须等待Hunyuan Video的图像到视频和视频到视频功能,这可能是该框架和潜在适应性的最有用的桥梁;或者改进,并利用这个间隔来探索框架和潜在适应性的外部能力,甚至是Hunyuan Video的专有内部分支。
虽然Hunyuan Video的许可条款技术上允许在获得许可的情况下描绘真实个体,但它们禁止在欧盟、英国和韩国使用。然而,这并不一定意味着Hunyuan Video不会在这些地区使用;然而,外部数据审计的前景,以执行日益增长的围绕生成式人工智能的法规,可能会使这种违法使用变得有风险。
许可条款中还有一个可能存在歧义的区域指出:
“如果在腾讯Hunyuan版本发布日期,所有由或为Licensee提供的产品或服务的月度活跃用户超过1000万,则您必须从腾讯请求许可,腾讯可以自行决定是否向您授予许可,您在获得腾讯的明确许可之前,不得行使本协议下的任何权利。”
这一条款明显针对的是那些可能“中间人”Hunyuan Video的众多公司,为相对技术不熟练的用户群体服务,并且需要在用户数量超过一定门槛时将腾讯纳入其中。
无论这句话是否也涵盖间接使用(即通过在流行电影和电视中提供Hunyuan启用的视觉效果输出),可能需要澄清。
结论
由于深度伪造视频已经存在很长时间了,很容易低估Hunyuan Video LoRA作为一种身份合成和深度伪造方法的重要性,并假设目前在Civit社区和相关Discord和子版块中体现的发展仅代表了迈向真正可控的人类视频合成的一小步。
更有可能的是,目前的努力仅代表了Hunyuan Video创造完全令人信服的全身和全环境深度伪造的潜力的一小部分;一旦图像到视频组件发布(据传将在本月发生),一个更细致的生成力水平将变得可用于爱好者和专业社区。
当Stability.ai在2022年发布Stable Diffusion时,许多观察者无法确定为什么该公司会放弃当时如此有价值和强大的生成系统。对于Hunyuan Video,利润动机直接构建在许可证中——尽管腾讯可能会发现很难确定何时触发利润分享计划。
无论如何,结果是相同的,就像2022年一样:专门的开发社区已经迅速、热情地围绕发布形成。这些努力将在接下来的12个月内走的有些道路肯定会引发新的头条新闻。
* 发布时为136。
最初发布于2025年1月7日,星期二。












