Anderson 视角
为什么AI视频有时会倒着播放

如果2022年是生成式AI吸引更广泛公众想象力的年份,那么2025年就是新一代来自中国的生成式视频框架吸引同样关注的年份。
Tencent的Hunyuan Video已经对爱好者AI社区产生了重大影响,其开源发布的全世界视频扩散模型使用户可以根据自己的需求进行定制。
紧随其后的是阿里巴巴最近发布的Wan 2.1,这是当前最强大的图像到视频FOSS解决方案之一,现已支持通过Wan LoRAs进行自定义。
除了最近的人类中心基础模型SkyReels的可用性之外,我们还期待着阿里巴巴全面的VACE视频创建和编辑套件的发布:
点击播放。 阿里巴巴的多功能AI编辑套件VACE的即将发布令用户社区感到兴奋。 来源:https://ali-vilab.github.io/VACE-Page/
突然的影响
生成式视频AI研究场景本身同样令人震惊;现在才三月中旬,星期二提交给Arxiv的计算机视觉部分(生成式AI论文的中心)就有近350篇论文——这是一个与会议季高峰时期相关的数字。
自2022年夏季Stable Diffusion发布以来,过去两年中没有重大发展,直到最近几周,新发布和创新以如此快的速度进行,以至于几乎不可能跟上所有内容,更不用说全部涵盖了。
视频扩散模型,如Hunyuan和Wan 2.1,终于解决了长期未解决的问题,即与人类、环境和物体的生成相关的时间一致性问题。
毫无疑问,目前VFX工作室正在将这些新中国视频模型应用于面部交换等挑战,尽管目前缺乏ControlNet风格的辅助机制。
一个重大的障碍可能已经被克服,尽管不是通过预期的途径。
然而,剩下的问题中,这个问题并非微不足道:
点击播放。 基于提示“A small rock tumbles down a steep, rocky hillside, displacing soil and small stones”,Wan 2.1,实现了最高分,却犯了一个简单的错误。 来源:https://videophy2.github.io/
上坡倒退
所有当前可用的文本到视频和图像到视频系统,包括商业闭源模型,都有产生物理错误的倾向,例如上面的视频显示一块石头向上滚动,基于提示“一块小石头沿着陡峭的岩石山坡滚下,移动土壤和小石头”。
一个理论认为,这种情况发生的原因是,模型总是在单个图像上训练,即使它们是在视频(以单帧序列形式写入以进行训练)上训练的;它们可能没有学习正确的时间顺序,即“之前”和“之后”的图像。
然而,最可能的解决方案是,这些模型使用了涉及将源训练片段向前和向后暴露给模型的数据增强例程,有效地将训练数据加倍。
长期以来,人们就知道,这不应该被任意地完成,因为有些运动可以逆转,而有些则不可以。2019年,英国布里斯托尔大学的一项研究试图开发一种方法来区分等价、不变和不可逆的源数据视频片段,这些片段共存于一个数据集中(见下图),以便从数据增强例程中过滤掉不合适的源片段。

三个运动类型的示例,只有一个是可以自由逆转的,同时保持合理的物理动力学。来源:https://arxiv.org/abs/1909.09422
这些工作的作者明确表述了这个问题:
‘我们发现反转视频的真实性被反转伪影所背叛,反转伪影是指场景中不可能在自然世界中出现的方面。一些伪影很微妙,而其他一些则很容易被发现,例如反转“投掷”动作,其中被投掷的物体从地板上突然升起。
‘我们观察到两种类型的反转伪影,物理伪影,即违反自然法则的伪影,以及不太可能的伪影,即描绘不太可能的场景的伪影。这些伪影并不相互排斥,许多反转动作都经历了这两种类型的伪影,例如展开一张纸。
‘物理伪影的例子包括:逆重力(例如“掉落某物”),物体上的自发冲量(例如“旋转钢笔”),以及不可逆的状态变化(例如“燃烧蜡烛”)。不太可能的伪影的例子:从橱柜中取出一个盘子,擦干它,然后将其放在晾干架上。
‘这种数据的重用在训练时非常常见,可以带来好处——例如,确保模型不会只学习图像或物体的一个视图,这个视图可以被翻转或旋转而不会失去其核心的连贯性和逻辑。
‘这只适用于真正对称的物体;当然,从“反转”的视频中学习物理只在反转版本与正向版本一样有意义时才有效。 ‘
暂时逆转
我们没有证据表明Hunyuan Video和Wan 2.1等系统在训练期间允许任意“反转”剪辑被暴露给模型(两组研究人员都没有具体说明数据增强例程)。
然而,唯一合理的替代可能性是,驱动这些模型的超大规模数据集可能包含实际上以逆序发生的运动剪辑。
上面嵌入的视频中的石头是使用Wan 2.1生成的,并出现在一项新研究中,该研究检查了视频扩散模型如何处理物理。
在这项工作的测试中,Wan 2.1仅获得22%的分数,表明其一致遵守物理定律的能力。
然而,这是所有测试系统中最好的成绩,表明我们可能已经找到了视频AI的下一个绊脚石:

领先的开源和闭源系统的得分,框架的输出由人工标注员评估。来源:https://arxiv.org/pdf/2503.06800
这项工作的作者开发了一个基准测试系统,现已进入第二个版本,称为VideoPhy,以代码形式提供:
虽然这项工作的范围超出了我们在此处全面涵盖的范围,但让我们来看看其方法论和为未来的模型训练会话提供方向以避免这些奇怪的逆转实例的潜力。
这项研究由六位来自UCLA和Google Research的研究人员进行,题为“VideoPhy-2:视频生成中的挑战性动作中心物理常识评估”。一个繁忙的配套项目网站也可用,包括代码和数据集,以及一个数据集查看器。
点击播放。 这里,OpenAI Sora模型无法理解桨和反射之间的交互,也无法为船上的人或船与她互动的方式提供逻辑的物理流动。
方法
作者将他们工作的最新版本描述为“视频生成的挑战性常识评估数据集”。该集合包含197个动作,涵盖了多种多样的物理活动,如呼啦圈、体操和网球,以及物体交互,如弯曲物体直到它断裂。
一个大型语言模型(LLM)用于从这些种子动作中生成3840个提示,这些提示然后用于通过各种被测试的框架合成视频。
在整个过程中,作者开发了一份候选物理规则和定律的清单,这些规则和定律应该由AI生成的视频满足,使用视觉语言模型进行评估。
作者表示:
‘例如,在一段体育运动员打网球的视频中,一个物理规则是网球应该在重力下沿着抛物线轨迹运动。对于金标准判断,我们要求人工标注员根据整体语义一致性和物理常识对每个视频进行评分,并标记其遵守各种物理规则的程度。 ‘

上:使用LLM从动作生成文本提示,并使用文本到视频生成器创建视频。视觉语言模型为视频添加字幕,识别可能的物理规则。下:人工标注员评估视频的真实性,确认规则违反,添加缺失的规则,并检查视频是否与原始提示匹配。
最初,研究人员策划了一组动作来评估AI生成视频的物理常识。他们从超过600个动作开始,这些动作来自Kinetics、UCF-101和SSv2数据集,重点关注涉及体育、物体交互和现实世界物理的活动。
两个独立的STEM培训学生标注员小组(至少拥有本科毕业证书)审查并过滤了列表,选择测试原理的动作,如重力、动量和弹性,同时删除低运动任务,如打字、抚摸猫或咀嚼。
在进一步使用Gemini-2.0-Flash-Exp精炼后,数据集包括197个动作,其中54个涉及物体交互,143个集中在物理和体育活动上:

从精炼动作中提取的样本。
在第二阶段,研究人员使用Gemini-2.0-Flash-Exp为数据集中的每个动作生成20个提示,总共生成3,940个提示。生成过程重点关注可以清晰地在生成的视频中表示的物理交互,排除了非视觉元素,如情绪、感官细节和抽象语言,但包含了多样的人物和物体。
例如,不像简单的提示“一名射箭手释放箭”,模型被引导生成更详细的版本,如“一名射箭手将弓弦拉回完全紧张状态,然后释放箭,箭飞直并击中纸目标上的靶心”。
由于现代视频模型可以解释更长的描述,研究人员使用Mistral-NeMo-12B-Instruct提示扩充器进一步完善了字幕,以添加视觉细节而不改变原始含义。

VideoPhy-2的样本提示,按物理活动或物体交互分类。每个提示都与其对应的动作和相关的物理原理配对。
对于第三阶段,物理规则不是从文本提示中推导出来的,而是从生成的视频中推导出来的,因为生成模型可能难以遵循条件文本提示。
视频首先使用VideoPhy-2提示生成,然后使用Gemini-2.0-Flash-Exp进行“上字幕”,以提取关键细节。模型为每个视频提出了三个预期的物理规则,人工标注员审查并通过识别其他潜在的违规行为来扩展这些规则。

扩充字幕的示例。
接下来,为了确定最具挑战性的动作,研究人员使用CogVideoX-5B生成视频,并使用VideoPhy-2数据集中的提示。他们然后选择了197个动作中的60个,模型在这些动作中一致地未能遵循提示和基本的物理常识。
这些动作涉及物理丰富的交互,如铁饼投掷中的动量转移,状态变化,如弯曲物体直到它断裂,平衡任务,如走钢丝,以及复杂的运动,如后空翻、撑杆跳和抛披萨等。总共选择了1,200个提示,以增加子数据集的难度。
所得到的数据集由3,940个字幕组成,比之前的版本多5.72倍。原始字幕的平均长度为16个标记,而扩充后的字幕达到138个标记——分别长1.88倍和16.2倍。
该数据集还包含102,000个人类标注,涵盖语义一致性、物理常识和多个视频生成模型中的规则违反。
评估
研究人员然后定义了明确的标准来评估视频。主要目标是评估每个视频与其输入提示和基本物理原理的匹配程度。
与其简单地根据偏好对视频进行排名,不如使用基于评分的反馈来捕捉特定的成功和失败。人工标注员使用五点评分系统对视频进行评分,同时还检查视频是否遵循各种物理规则和定律。
对于人工评估,一组12名标注员从亚马逊Mechanical Turk(AMT)试验中选出,并在接受详细的远程说明后提供评分。为了公平起见,语义一致性和物理常识是分别评估的(在原始VideoPhy研究中,它们是联合评估的)。
标注员首先评估视频与输入提示的匹配程度,然后分别评估物理可信度,使用五点评分系统对规则违反和整体真实性进行评分。仅显示原始提示,以保持模型间的公平比较。

呈现给AMT标注员的界面。
虽然人类判断仍然是金标准,但它很昂贵,并且有一些缺点。因此,自动化评估对于更快、更可扩展的模型评估至关重要。
论文的作者测试了几种视频语言模型,包括Gemini-2.0-Flash-Exp和VideoScore,以评估其对视频进行语义准确性和“物理常识”评分的能力。
模型再次使用五点评分系统对每个视频进行评分,同时还进行了一个单独的分类任务,以确定是否遵守了物理规则、违反了规则或不清楚。
实验表明,现有的视频语言模型难以匹配人类判断,主要是由于物理推理能力较弱和提示的复杂性。为了改进自动评估,研究人员开发了VideoPhy-2-Autoeval,一种7B参数模型,旨在提供更准确的预测,涵盖三个类别:语义一致性、物理常识和规则遵守,使用VideoCon-Physics模型在50,000个人类标注中进行了微调。
数据和测试
有了这些工具,作者测试了一些生成式视频系统,既通过本地安装,也通过必要的商业API:CogVideoX-5B;VideoCrafter2;HunyuanVideo-13B;Cosmos-Diffusion;Wan2.1-14B;OpenAI Sora;以及Luma Ray。
模型使用可能的扩充字幕进行提示,除非Hunyuan Video和VideoCrafter2,它们在77个标记的CLIP限制下运行,无法接受长度超过一定限制的提示。
生成的视频被限制在6秒以内,因为较短的输出更容易评估。
驱动数据来自VideoPhy-2数据集,该数据集被分为基准测试集和训练集。每个模型生成590个视频,除Sora和Ray2外(由于成本因素,这些模型生成的视频数量较少)。
(请参阅原始论文以获取进一步的评估细节,这些细节在论文中详细记录。)
最初的评估处理了物理活动/体育(PA)和物体交互(OI),并测试了总体数据集和上述“更难”的子集:

初始轮次的结果。
作者对此进行了评论:
‘即使是表现最好的模型Wan2.1-14B,也只在我们数据集的完整和困难子集上获得了32.6%和21.9%的分数。其相对较强的性能可以归因于其多模态训练数据的多样性,以及在广泛动作范围内保持高质量视频的强大运动过滤。 ‘
‘此外,我们观察到闭源模型(如Ray2)比开源模型(如Wan2.1-14B和CogVideoX-5B)表现更差,这表明闭源模型并不一定在捕捉物理常识方面优于开源模型。 ‘
‘值得注意的是,Cosmos-Diffusion-7B即使在更大的HunyuanVideo-13B模型中也获得了第二好的分数,这可能是由于其训练数据中对人类动作的高表示度以及合成模拟。 ‘
结果显示,视频模型在处理物理活动(如体育)时比处理简单的物体交互时更难以应对。这表明,在这个领域改进AI生成的视频将需要更好的数据集,特别是高质量的体育视频,如网球、铁饼、棒球和板球。
该研究还检查了一个模型的物理合理性是否与其他视频质量指标(如美观度和运动平滑度)相关。发现没有强烈的相关性,这意味着一个模型不能仅通过生成视觉上吸引人或流畅的运动来提高其在VideoPhy-2上的表现——它需要对物理常识有更深入的理解。
虽然该论文提供了丰富的定性示例,但PDF中提供的静态示例与作者在项目网站上提供的广泛视频示例似乎没有太大关系。因此,我们将查看一些静态示例,然后查看一些实际的项目视频。
点击播放。 这里的字幕是“一个人用力扭干一条湿毛巾,水以可见的弧线喷出”——但产生的水源更像水管而不是毛巾。
点击播放。 这里的字幕是“一位化学家从烧杯中将清澈的液体倒入试管中,小心避免溢出”——但从壶中流出的水量与壶中装入的水量不一致。
正如我在开始时提到的,这个项目相关的材料量远远超过了我们在这里可以涵盖的范围。因此,请参阅原始论文、项目网站和前面提到的相关网站,以获取作者程序和测试示例的详细概述。
* 至于注释的来源,论文只指定“为这些任务获取”——似乎12名AMT工作者生成了大量注释。
首次发布于2025年3月13日星期四。












