Unite.AI - AI News & Research

AI-generated image (GPT-1.5) depicting a man trying to fit disparate Legos together.

Anderson 视角4 days ago

为何概念纠缠意味着你无法拥有“随心所欲”的AI视频

AI视频工具承诺提供完全控制，但隐藏的“概念纠缠”将身份、表情和行为粘合在一起，迫使人们使用各种变通方法和模板技巧，从而打破了生成式AI轻松魔法的神话。观点自从我上次在五年前深入探讨这个话题以来，经过训练的AI系统中的概念纠缠问题已经扩展到更广泛的用户群体，但其本质并未得到更好的理解。当时，自编码器深度伪造系统（即现已失效的DeepFaceLab和色情内容较少的FaceSwap，两者均源自2017年声名狼藉且几乎立即被禁的Reddit代码发布）是创建相对逼真的人物深度伪造视频的唯一选择。这些系统依赖于广泛的面部训练数据集，旨在为AI模型提供以下信息：A) 人物在平静状态下的样貌（一个规范参考嵌入），以及B) 他们在面部所能反映的各种情境下的样貌，从睡眠到大笑、恐惧、无聊、讥讽、悲伤等等。问题在于，规范身份通常必须从本身并非“中性”的面部捕捉图像中推断出来，因此从库存数据集中抓取到的占多数的微笑和露齿笑图像会将分布偏向“默认微笑”状态。这是因为为这些模型提供信息的网络抓取训练数据中含有大量红毯狗仔队照片，以及数据集可能偏向某类图像的任何其他同样似是而非的原因。换句话说，自编码器系统必须尝试从成千上万张面部特征因正常面部表情而扭曲的图像中提取“中性”身份概念。它还必须尝试将不同情绪的面部语义概念与面部拍摄的角度分离开来。这意味着，如果唯一可用的“恐惧”面部表情是从侧面视角拍摄的，那么训练后的系统将只能从该视角最佳地再现该情绪。面向未来随着基于扩散的方法从2022年起接管生成式AI图像（以及后来的视频）领域，生成系统在提供有限面部数据时，推断准确面部表情的能力变得强得多。即使在当前最先进的技术下，创建令人信服的侧面视图这一极其棘手的挑战也几乎已被克服，同时表情数据已相当有效地与身份分离——以至于由自编码器驱动的DeepFaceLive流媒体系统开创的那种实时深度伪造操控技术，已拥有许多有效的离线扩散应用，实时演绎很可能成为未来的发展方向：点击播放。来自’FlashPortrait’项目，通过源视频驱动头像的多样化示例。在这种情况下，“真实”域位于哪一侧（如果有的话）并不重要。来源然而，随着生成式AI的画布拓宽且输出变得更加复杂，纠缠问题只是简单地扩散到了许多其他领域——并且目前正通过一些相当廉价和相当古老的技巧来“修复”。如果你不知道这些技巧是什么，你可能会对视频和图像AI的进化速度以及克服其旧有顽疾的能力持更乐观的看法。喋喋不休的猫希望现在能清楚为什么身份和情绪对于那些2017年代的老旧自编码器系统来说难以分离。这是因为 a) 某一类数据过多，或者重要数据中某一类型的具体版本过于特定，任何一种情况都会导致分布偏差；和/或 B) 模型架构不足以分离这些特性，并且倾向于在推理时将它们“粘合在一起”，除非用户付出极大努力确保数据集的平衡。出于完全相同的原因，过去几年中，许多开源和专有视频模型也出现了类似问题，尽管它们被围绕幻觉、缺乏审查以及各种其他话题的更高级别的批评所掩盖。例如，在Wan2.+...