Anderson 视角

为什么概念纠缠意味着你无法按照自己的方式拥有 AI 视频

Published March 23, 2026

Updated May 16, 2026

Martin Anderson

AI-generated image (GPT-1.5) depicting a man trying to fit disparate Legos together.

AI 视频工具承诺提供完全的控制，但隐藏的“概念纠缠”将身份、表情和行为粘合在一起，迫使用户使用黑客和模板技巧来打破 GenAI 魔法的神话。

观点自从我五年前深入讨论这个话题以来，训练的 AI 系统中的“概念纠缠”问题已经扩展到更广泛的用户群体，但仍然没有被真正理解。

当时，自编码器深度伪造系统（即现在已经不再使用的DeepFaceLab和FaceSwap，两者都源自于2017年在Reddit上发布的代码）是创建相对逼真的深度伪造的人脸的唯一选择。

这些系统依赖于大量的面部训练数据集，旨在为AI模型提供有关以下信息：A）该人在休息状态下的外貌（一个规范参考嵌入）和B）该人在各种情况下的外貌，从睡眠到笑、恐惧、无聊、愤世嫉俗、悲伤等等。

身份不单独存在，而是与面部表情一起出现。另外，某些情绪可能只在特定的、极端角度下有可用的面部数据，这将使角度与情绪相关联，反之亦然。

问题在于，规范身份通常需要从非“中性”的面部捕获中推断出来，因此，网页抓取数据集中的微笑和笑容的泛滥会使分布偏向“微笑默认”值。这是因为这些模型通常使用的网页抓取训练数据中包含大量的红毯拍照，以及其他任何可能使数据集偏向某种图像的原因。

换句话说，自编码器系统必须尝试从成千上万张面部特征因正常面部表情而扭曲的图像中提取“中性”身份概念。

它还必须尝试分离语义面部概念的不同情绪从面部拍摄的角度。这意味着，如果唯一可用的“恐惧”面部表情都是从侧面拍摄的，训练系统只能从该角度最优地重现这种情绪。

面向未来

随着扩散模型从2022年开始在生成AI图像（以及后来的视频）领域占据主导地位，生成系统在提供有限面部数据时变得更擅长于外推准确的面部表情。

即使是创建令人信服的侧面视图的严峻挑战，也基本上已经被克服，而表达数据也基本上已经从身份中分离出来——以至于由自编码器驱动的DeepFaceLive流媒体系统开创的实时深度伪造木偶技术已经有了许多有效的离线扩散应用，实时演示可能是未来的发展方向：

点击播放。 来自“FlashPortrait”项目的各种驱动头像的示例。在这种情况下，现实域的位置无关紧要，如果有的话。 来源

然而，随着GenAI的画布扩大，输出变得更加复杂，纠缠问题只是扩散到其他多个领域——目前正在使用一些相当廉价和过时的技巧来“解决”这个问题。如果您不知道这些技巧是什么，您可能会对AI视频和图像的快速进步和克服旧问题的能力有更积极的看法。

健谈的猫

希望很明显，为什么身份和情绪对旧的2017年自编码器系统来说很难分离。原因是A）有一种数据太多，或者一种重要数据的特定版本太多，这两种情况都会导致分布偏差；和/或B）模型架构不适合在推理时分离这些质量，倾向于将它们“粘合”在一起，除非用户采取非常规的措施来确保数据集的平衡。

同样，在过去几年中，类似的问题出现在各种开源和专有视频模型中，尽管它们被对幻觉、缺乏审查和其他主题的批评所掩盖。

例如，在Wan2.+系统中，许多用户发现很难阻止他们生成的角色不断说话，并且通常也很难阻止他们看着相机。

后一个问题（看着相机或打破第四堵墙）在视频合成系统出现之前就已经存在，因为它出现在各种图像扩散系统中，这是由于网页抓取数据集（如LAION）中“看着相机”的照片的普遍性所致。

“健谈”角色问题源于YouTube上“网红”视频的丰富，这些视频自然提供了数千小时的直接对着镜头的演讲，通常被策划成数据集，研究科学家可以在这些数据集中洗白网页抓取数据，提供学术背景。

但是，除非原始或后续策划者采取措施限制此类视频的数量，并将其与其他类型的镜头平衡，否则视频模型中就会出现严重的偏差，这种偏差需要通过提示式补救措施和第三方辅助系统来解决。

面对Wan的“健谈”问题，Reddit用户u/Several-Estimate-681想出了一个解决方法，利用Wan 2.1 Infinite Talk V2V系统中的一个设置，该系统旨在鼓励网红风格的健谈——该框架允许用户让渲染角色保持沉默：

点击播放： 只需聆听 — 一个解决Wan2.+中角色注意力问题的变通方法。 来源

很明显，这种捷径并不是低级架构解决方案，而且在真正的解决方案被创造者实施之前，概念纠缠的“打地鼠”游戏可能会在下一个版本发布时重新开始。

廉价和脆弱

扩散架构本身并没有使这些问题不可避免；事实上，如果有办法对数百万个数据点的超大规模数据集应用真正有效的策划、分类和高质量的字幕和注释，那么几乎所有这些问题都可能消失。

然而，这种关注细节的水平将类似于曼哈顿计划，在后勤、范围、所需资源和长期努力方面。这在一个新架构甚至新架构版本可能会破坏这种努力的程度的气候下，是没有当前意愿去做出这样的承诺的。

因此，为了获得可用的模型，廉价的方法仍然是首选。廉价方法的一个例子是数据增强，当应用于错误的数据集视频片段时，可能会产生可笑的结果：

因为数据增强通常会反转数据集中源视频的方向，AI模型可能会偶尔学习一些“不可能”的动作。 – 来源

然而，总的来说，石头滚上坡和人物打破角色转变为“网红模式”往往被认为是生成系统的附带损害，这些系统尽管存在这些持续的错误和弱点，但仍然可以被诱导产生令人印象深刻的结果和足够令人惊叹的头条新闻。

模板解决方案

在当前时期，数百个生成视频域名几乎都在某种程度上违反了新一波法律和反对GenAI的趋势，但它们仍然在享受它们的时间，直到执法、黑名单或其他形式的去平台化将这些商业服务移除。

更大、更知名的此类网站，例如Kling和Grok，往往要么遵循某种形式的自我审查（最终），要么对批评做出回应，通过改变其平台为用户提供的内容类型来应对。

但在这些大牌网站背后，是数百个其他昙花一现的运营商，不断满足对新颖（往往更极端）内容的需求。

这种低成本的供应方式排除了从头训练基础模型的极高成本和努力。即使是微调，也被排除了，因为它的成本也很高。

因此，这些网站提供“模板”，在实践中，它们的行为与自定义训练的LoRAs完全相同，LoRAs已经被AI爱好者使用了四年多，用于训练任何所需的身份、风格、对象和（在视频LoRAs的情况下）运动或动作到一个专用的LoRA辅助工具中。

在LoRA被置于用户和基础模型之间时，所获得的结果将非常特定于LoRA的训练内容，通常，模型的整体性能将受到LoRA的权重弯曲影响，LoRA将非常好地重现其自身的主题，但也会将该材料插入到任何请求中（如果这些飞-by-night GenAI视频网站允许这种控制——它们不允许；它们只是提供一个 [操作您的选择] 模板，并以最有可能成功应用模板的方式解释用户的输入文本/图像/视频）。

出于明显的原因，我无法在本文中嵌入网站示例；但是，研究文献最近提供了一些类似的例子。例如，EffectMaker项目展示了该原理的实际应用，即将特定操作应用于用户提供的图像：

点击播放。 在EffectMaker中，可以将精细调整的特定效果应用于自定义输入。 来源

即使在这些高度策划和针对性强的环境中，用户经常抱怨需要进行多次令牌燃烧尝试才能获得良好的结果，我们不应将此归咎于提供商的贪婪或不诚实的做法，而更可能是由于固有地“击中和错过”的DiT GenAI框架所致。

更广泛的公众可能会从精心挑选的例子中获得对GenAI能力的印象，这些例子并不能代表初学者用户可能获得的结果。如果用户为一个模板（即AI网站提供的LoRA）烧掉六次尝试，他们往往会发布和赞扬最好的结果，传达出这样的印象：可以通过查询基础模型获得这样的结果，并传达出这样的印象：生成基础模型比实际上更具分离性。