关注我们.

安德森的角度

为什么人工智能视频有时会出错

mm
ChatGPT/Firefly 图像描绘了一名水上摩托艇运动员在自己面前留下的不可能的尾流。

如果说 2022 年是生成式人工智能吸引更广泛公众想象力的一年,那么 2025 年则是新一代生成式人工智能诞生的一年。 电影 来自中国的框架似乎也将做同样的事情。

腾讯旗下的混元视频 重要的影响 业余人工智能社区对其开源全世界视频传播模型进行了研究,用户可以 根据他们的需要量身定制.

紧随其后的是阿里巴巴最近 莞2.1,这一时期最强大的图像到视频 FOSS 解决方案之一——现在支持通过 万罗拉.

除了最近以人为本的基础模型 SkyReels在撰写本文时,我们还在等待阿里巴巴发布全面的 真空真空管 视频创作和编辑套件:

点击播放。 阿里巴巴多功能AI编辑套件VACE即将发布,引起用户热议。 来源:https://ali-vilab.github.io/VACE-Page/

突然冲击

生成视频 AI 研究领域本身也同样具有爆炸性;现在还是三月上半月,周二提交给 Arxiv 计算机视觉部分(生成 AI 论文的中心)的文章数量已接近 350 篇 —— 这个数字与会议季节的高峰期更为相关。

发射 2022 年夏季稳定扩散(以及随后的发展 梦亭劳拉 定制方法 (customization methods) 一直缺乏进一步的重大发展,直到最近几周,新产品的发布和创新以如此惊人的速度进行,几乎不可能随时了解所有内容,更不用说涵盖所有内容了。

经过数百项研究计划多年的失败努力,视频传播模型(如“混元”和“万 2.1”)终于解决了 问题 of 时间一致性 因为它与人类的产生有关,并且很大程度上也与环境和物体有关。

毫无疑问,视觉特效工作室目前正在投入人员和资源来适应新的中国视频模式,以解决诸如换脸等迫在眉睫的挑战,尽管目前缺乏 控制网- 为这些系统提供辅助机制。

尽管并非通过预期的途径,但如此重大的障碍有可能被克服,这一定令人感到欣慰。

然而,在仍然存在的问题中,有这个问题并不小:

点击播放。 根据题目“一块小石头从陡峭的岩石山坡上滚落,移位了土壤和小石头”的提示,在新试卷中取得最高分的 Wan 2.1 犯了一个简单的错误。 来源:https://videophy2.github.io/

倒着上山

目前所有可用的文本转视频和图像转视频系统,包括商业闭源模型,都有可能产生类似上述物理失误,视频中一块石头滚动 上坡,根据提示'一块小石头从陡峭的岩石山坡上滚落下来,带走了土壤和小石头 “。

关于为什么会发生这种情况,有一种理论认为, 最近提出的 在阿里巴巴和阿联酋的学术合作中,模型总是在单幅图像上进行训练,从某种意义上说,即使它们是在视频上进行训练(为了训练目的,视频被写成单帧序列);而且它们不一定能学习正确的时间顺序 '前' '后' 图片。

然而,最有可能的解决方案是,所讨论的模型已经使用了 数据扩充 涉及将源训练剪辑暴露给模型的例程 向后,有效地使训练数据加倍。

人们早就知道,这种做法不应该随意进行,因为有些动作是反向的,但很多动作不是。 2019研究 来自英国布里斯托大学的研究人员试图开发一种可以区分 等变, 不变的不可逆转 源数据视频片段共存于单个数据集中(见下图),不合适的源片段可能会从数据增强程序中被过滤掉。

三种运动类型的示例,其中只有一种可以自由逆转,同时保持合理的物理动力学。来源:https://arxiv.org/abs/1909.09422

三种运动类型的示例,其中只有一种可以自由逆转,同时保持合理的物理动力学。 资料来源:https://arxiv.org/abs/1909.09422

该作品的作者明确阐述了这个问题:

“我们发现反转视频的真实感被反转伪影所背叛,这些场景在自然世界中不可能出现。有些伪影很微妙,而有些则很容易发现,比如反转的“投掷”动作,投掷的物体会自发地从地板上升起。

“我们观察到两种类型的逆转伪影,一种是物理的,它们表现出违反自然法则的行为,另一种是不可能发生的,它们描绘了一种可能但不太可能发生的情景。这些并不相互排斥,许多逆转动作都会遭受这两种类型的伪影,比如在展开一张纸时。

“物理人工制品的例子包括:重力倒置(例如‘掉落某物’)、物体上的自发脉冲(例如‘旋转一支笔’)和不可逆的状态变化(例如‘点燃一支蜡烛’)。一个不可能人工制品的例子:从橱柜里拿出一个盘子,擦干它,然后把它放在干燥架上。

“这种数据重复使用在训练时非常常见,并且可能带来好处——例如,确保模型不会只学习图像或物体的一个视图,而这些视图可以在不失去其中心连贯性和逻辑的情况下被翻转或旋转。

“当然,这只适用于真正对称的物体;并且,只有当反转版本与正向版本同样有意义时,从‘反转’视频中学习物理才有效。”

暂时撤销

我们没有任何证据表明浑元视频和 Wan 2.1 等系统允许在训练期间向模型展示任意“反转”的剪辑(两组研究人员都没有具体说明数据增强例程)。

然而,面对 如此多的报道 (以及我自己的实践经验)似乎支持这些模型的超大规模数据集可能包含以下片段: 实际上以反向发生的动作为特征.

上面嵌入的示例视频中的岩石是使用 Wan 2.1 生成的,并在一项研究视频扩散模型如何处理物理问题的新研究中出现。

在该项目的测试中,Wan 2.1 在始终遵循物理定律的能力方面仅取得了 22% 的分数。

然而,这是 世界上最好的 在所有接受测试的系统中,这一分数达到了历史最高,这表明我们可能已经找到了视频 AI 的下一个绊脚石:

领先的开源和闭源系统获得的分数,框架的输出由人工注释者评估。来源:https://arxiv.org/pdf/2503.06800

由领先的开源和闭源系统获得的分数,框架的输出由人工注释者评估。 来源:https://arxiv.org/pdf/2503.06800

这项研究的作者开发了一个基准测试系统,目前已进入第二轮迭代,名为 视频物理,代码如下 在 GitHub 上可用.

虽然这项工作的范围超出了我们在这里可以全面涵盖的范围,但让我们总体看一下它的方法,以及它建立一个指标的潜力,该指标可以帮助引导未来的模型训练过程远离这些奇怪的逆转情况。

这个 根据一项研究,由加州大学洛杉矶分校和谷歌研究院的六名研究人员进行的一项研究被称为 VideoPhy-2:视频生成中具有挑战性的以动作为中心的物理常识评估. 拥挤的陪同人员 项目现场 还提供代码和数据集 在GitHub以及数据集查看器 在 Hugging Face.

点击播放。 在这里,备受推崇的 OpenAI Sora 模型无法理解桨和反射之间的相互作用,并且无法为船上的人或船与她互动的方式提供合乎逻辑的物理流动。

付款方式

作者描述了他们工作的最新版本, 视频物理-2,作为“现实世界行动的具有挑战性的常识评估数据集”。该数据集包含 197 种动作,涵盖各种不同的体育活动,例如 呼啦圈, 体操网球以及对象交互,例如 弯曲物体直至其断裂.

大型语言模型 (LLM) 用于从这些种子动作中生成 3840 个提示,然后这些提示用于通过正在试验的各种框架合成视频。

在整个过程中,作者使用视觉语言模型进行评估,制定了人工智能生成的视频应该满足的“候选”物理规则和定律列表。

作者指出:

例如,在一段运动员打网球的视频中,一个物理规则是网球在重力作用下应该遵循抛物线轨迹。为了做出黄金标准判断,我们要求人工注释员根据整体语义遵循度和物理常识对每个视频进行评分,并标记其是否符合各种物理规则。

上图:使用 LLM 从动作生成文本提示,并使用文本转视频生成器创建视频。视觉语言模型为视频添加字幕,识别可能起作用的物理规则。下图:人工注释者评估视频的真实性,确认规则违规,添加缺失的规则,并检查视频是否与原始提示相匹配。

上图:使用 LLM 从动作生成文本提示,并使用文本转视频生成器创建视频。视觉语言模型为视频添加字幕,识别可能起作用的物理规则。下图:人工注释者评估视频的真实性,确认规则违规,添加缺失的规则,并检查视频是否与原始提示相匹配。

最初,研究人员精心挑选了一组动作来评估人工智能生成的视频中的物理常识。他们从来自 动力学, UCF-101SSv2 数据集,重点关注涉及体育、物体交互和现实世界物理的活动。

两组独立的、接受过 STEM 培训的学生注释者(至少获得本科学历)审查并筛选了该列表,选择了测试以下原则的操作: 重力, 势头弹性,同时删除低运动任务,例如 键入, 抚摸一只猫咀嚼.

经过进一步完善 Gemini-2.0-Flash-Exp 为了消除重复,最终的数据集包括 197 个动作,其中 54 个涉及物体交互,143 个以身体和体育活动为中心:

从提炼的动作中得到的样本。

从提炼的动作中得到的样本。

在第二阶段,研究人员使用 Gemini-2.0-Flash-Exp 为数据集中的每个动作生成 20 个提示,总共生成 3,940 个提示。生成过程侧重于可见的物理交互,这些交互可以在生成的视频中清晰呈现。这排除了非视觉元素,例如 情绪, 感官细节抽象语言,但包含了不同的人物和物体。

例如,不要使用像“弓箭手射出箭,该模型被引导生成更详细的版本,例如 “弓箭手将弓弦拉紧,然后射出箭,箭会直线飞行,击中纸靶上的靶心“。

由于现代视频模型可以解释更长的描述,研究人员使用 Mistral-NeMo-12B-指令 提示升采样器,在不改变原意的情况下添加视觉细节。

VideoPhy-2 的示例提示,按身体活动或物体交互分类。每个提示都与其相应的动作和它测试的相关物理原理配对。

VideoPhy-2 的示例提示,按身体活动或物体交互分类。每个提示都与其相应的动作和它测试的相关物理原理配对。

对于第三阶段,物理规则不是来自文本提示,而是来自生成的视频,因为生成模型很难遵守条件文本提示。

视频首先使用 VideoPhy-2 提示创建,然后使用 Gemini-2.0-Flash-Exp 进行“上行字幕”以提取关键细节。该模型为每个视频提出了三条预期的物理规则,人工注释人员通过识别其他潜在违规行为来审查和扩展这些规则。

来自上采样字幕的示例。

来自上采样字幕的示例。

接下来,为了确定最具挑战性的动作,研究人员使用 CogVideoX-5B 使用 VideoPhy-2 数据集中的提示。然后,他们从 60 个动作中选出了 197 个动作,这些动作模型始终无法遵循提示和基本的物理常识。

这些动作涉及物理特性丰富的互动,例如掷铁饼时的动量传递、状态变化(例如弯曲物体直至其断裂)、平衡任务(例如走钢丝)以及包括后空翻、撑杆跳和扔披萨等复杂动作。总共选择了 1,200 个提示来增加子数据集的难度。

最终的数据集包含 3,940 个字幕,比 VideoPhy 的早期版本多 5.72 倍。原始字幕的平均长度为 16 个标记,而上采样字幕则达到 138 个标记,分别是 1.88 倍和 16.2 倍。

该数据集还包含 102,000 条人工注释,涵盖多个视频生成模型的语义遵从性、物理常识和规则违规。

评价

研究人员随后制定了评估视频的明确标准。主要目标是评估每个视频与输入提示的匹配程度以及遵循基本物理原理的程度。

他们不是简单地根据喜好对视频进行排序,而是使用基于评分的反馈来捕捉具体的成功和失败。人工注释者按照五分制对视频进行评分,以便做出更详细的判断,同时评估还检查视频是否遵循各种物理规则和定律。

对于人工评估,从 Amazon Mechanical Turk (AMT) 的试验中选出了一组 12 名注释者,并在收到详细的远程指令后提供评分。为了公平起见, 语义依附物理常识 是单独评估的(在原始的 VideoPhy 研究中,他们是联合评估的)。

注释者首先评估视频与输入提示的匹配程度,然后分别评估物理合理性、评分规则违规和整体真实性(五分制)。仅显示原始提示,以保持模型之间的公平比较。

向 AMT 注释者呈现的界面。

向 AMT 注释者呈现的界面。

尽管人类判断仍然是黄金标准,但它成本高昂,并且伴随着 警告数量.因此,自动化评估对于更快、更具可扩展性的模型评估至关重要。

该论文的作者测试了几种视频语言模型,包括 Gemini-2.0-Flash-Exp 和 视频评分,他们根据语义准确性和“物理常识”对视频进行评分的能力。

模型再次根据五分量表对每个视频进行评分,而单独的分类任务则确定是否遵循、违反或不清楚物理规则。

实验表明,现有的视频语言模型很难与人类判断相匹配,主要是因为物理推理能力较弱,提示也比较复杂。为了改进自动评估,研究人员开发了 视频Phy-2-Autoeval,这是一个 7B 参数模型,旨在为以下三个类别提供更准确的预测: 语义依附; 物理常识;和 遵守规则,微调 VideoCon-物理 模型使用了 50,000 条人工注释*。

数据与测试

利用这些工具,作者测试了许多生成视频系统,既通过本地安装,也通过商业 API(必要时):CogVideoX-5B; 视频制作者2; 混元视频-13B; 科斯莫斯扩散;万2.1-14B; OpenAI 索拉;和 鲁玛射线.

在可能的情况下,模型会使用上采样字幕进行提示,但 Hunyuan Video 和 VideoCrafter2 则在 77-token 下运行 CLIP 限制,并且不能接受超过一定长度的提示。

生成的视频保持在 6 秒以内,因为较短的输出更容易评估。

驾驶数据来自 VideoPhy-2 数据集,该数据集被分为基准和训练集。除 Sora 和 Ray590 外,每个模型生成了 2 个视频;由于成本因素(这些模型生成的视频数量较少)。

(有关进一步的评估细节,请参阅源论文,其中有详尽的记录)

初步评估涉及 体力活动/运动 (PA)和 对象交互 (OI),并测试了一般数据集和前面提到的“更难”子集:

初轮结果。

初轮结果。

以下是作者的评论:

“即使是性能最佳的模型 Wan2.1-14B,在我们数据集的完整分割和硬分割中也仅分别达到 32.6% 和 21.9%。与其他模型相比,其相对强劲的性能可以归因于其多模态训练数据的多样性,以及可在各种动作中保留高质量视频的强大运动过滤功能。

“此外,我们观察到封闭模型(例如 Ray2)的表现比开放模型(例如 Wan2.1-14B 和 CogVideoX-5B)更差。这表明封闭模型在捕捉物理常识方面并不一定优于开放模型。

值得注意的是,Cosmos-Diffusion-7B 在硬分割测试中取得了第二好的成绩,甚至超过了规模更大的 HunyuanVideo-13B 模型。这可能是由于其训练数据中对人类行为的高度表征,以及合成渲染的模拟。

结果表明,视频模型在处理体育等体力活动时比处理简单的物体交互时更吃力。这表明,要改进该领域的人工智能视频,需要更好的数据集——尤其是网球、铁饼、棒球和板球等运动的高质量镜头。

该研究还考察了模型的物理合理性是否与其他视频质量指标(如美观性和运动流畅度)相关。研究结果显示,二者之间没有很强的相关性,这意味着模型不能仅通过生成视觉吸引力或流畅的运动来提高其在 VideoPhy-2 上的性能——它需要对物理常识有更深入的理解。

尽管本文提供了丰富的定性示例,但 PDF 中提供的静态示例似乎很少与作者在项目现场提供的大量基于视频的示例相关。因此,我们将查看一小部分静态示例,然后再查看一些实际项目视频。

上排是 Wan2.1 生成的视频。(a)在 Ray2 中,左侧的水上摩托艇落后后向后移动。(b)在浑源-13B 中,大锤在挥动过程中发生变形,一块破碎的木板意外出现。(c)在宇宙-7B 中,标枪在接触地面之前就喷出了沙子。

上排是 Wan2.1 生成的视频。(a)在 Ray2 中,左侧的水上摩托艇落后后向后移动。(b)在浑源-13B 中,大锤在挥动过程中发生变形,一块破碎的木板意外出现。(c)在宇宙-7B 中,标枪在接触地面之前就喷出了沙子。

对于上述定性测试,作者评论道:

“[我们] 观察到违反物理常识的行为,例如水上摩托艇不自然地反向移动,以及实心大锤的变形,这些都违背了弹性原理。然而,就连万也缺乏物理常识,正如 [本文开头嵌入的剪辑] 所示。

“在这种情况下,我们强调一块岩石开始滚动并加速上坡,违背了重力的物理定律。”

来自项目现场的更多示例:

点击播放。 这里的标题是“一个人用力扭动一条湿毛巾,水以可见的弧线向外喷出”——但由此产生的水源更像是水管而不是毛巾。

点击播放。 这里的标题是“一位化学家将烧杯中的透明液体倒入试管,小心避免溢出”,但我们可以看到,添加到烧杯中的水量与从水壶中流出的水量不一致。

正如我在一开始提到的,该项目所涉及的材料数量远远超出了本文所能涵盖的范围。因此,请参阅前面提到的源论文、项目网站和相关网站,以获取作者程序的真正详尽概述,以及更多的测试示例和程序细节。

 

* 至于注释的来源,论文仅指定“为这些任务而获得”——其中很多似乎都是由 12 名 AMT 工人生成的。

首次发布于 13 年 2025 月 XNUMX 日星期四

机器学习作家,人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站: 马丁南德森.ai
联系我们 [email protected]
推特:@manders_ai