人工智能

人工智能世界模型真的能理解物理定律吗？

发布时间 2024 年 11 月 26 日

马丁安德森

ChatGPT-4o 制作的图像，描绘了表现出异常物理特性的各种物体。该提示是通过对话开发的

人们对视觉语言人工智能模型的最大希望是，未来某一天，它们将具备更大的自主性和多功能性，融入物理定律的原理，就像我们通过早期经验对这些原理形成天生的理解一样。

例如，儿童球类运动往往会发展对运动动力学的理解以及重量和表面纹理对轨迹的影响。同样，与浴缸、洒出的饮料、海洋、游泳池和其他各种液体等常见场景的互动将使我们对液体在重力作用下的行为方式产生多种多样且可扩展的理解。

即使是不太常见的现象的假设——例如燃烧、爆炸和压力下的建筑重量分布——也会通过接触电视节目和电影或社交媒体视频而被无意识地吸收。

当我们研究原则在这些系统背后，从学术层面来说，我们只是在“改造”我们对它们的直觉（但无知）心理模型。

一人大师

目前，大多数人工智能模型相比之下更加“专业化”，其中许多模型要么微调或者从头开始对特定于某些用例的图像或视频数据集进行训练，而不是旨在培养对管理法律的一般理解。

其他人可以提出外貌对物理定律的理解；但他们实际上可能只是从训练数据中重现样本，而不是真正理解运动物理等领域的基础知识，从而能够根据用户的提示产生真正新颖的（科学上合理的）描述。

在生成式人工智能系统产品化和商业化的这个微妙时刻，我们和投资者需要仔细审查，区分新人工智能模型精心设计的营销与其局限性的现实。

十一月的最有趣的论文由字节跳动研究院牵头的人工智能研究团队解决了这个问题，探索了“通用”生成模型的表面能力与实际能力之间的差距，例如空.

这项研究得出的结论是，在目前的技术水平下，这种类型的模型生成的输出更有可能是 模仿训练数据中的例子 而不是真正展示对现实世界中运行的底层物理约束的充分理解。

论文指出*：

“这些模型很容易受到训练集中“欺骗性”示例的影响，导致它们在某些条件下以“基于案例”的方式进行概括。这种现象也观察在大型语言模型中，描述模型在解决新任务时引用类似训练案例的趋势。

例如，考虑一个基于高速匀速直线运动球体数据进行训练的视频模型。如果通过水平翻转视频进行数据增强，从而引入反向运动，该模型可能会生成低速球体在初始帧后改变方向的场景，即使这种行为在物理上并不正确。

我们将仔细研究这篇论文——标题为 使用法学硕士评估决策制定的世界模型 – 很快。但首先，让我们来看看这些明显局限性的背景。

追忆似水年华

没有概括，训练有素的人工智能模型只不过是其训练数据部分的昂贵电子表格：找到适当的搜索词，您就可以调出该数据的一个实例。

在这种情况下，该模型实际上充当了“神经搜索引擎”，因为它无法对所需输出产生抽象或“创造性”的解释，而是复制一些细微的变化在训练过程中看到的数据。

这被称为背诵 – 一个有争议的问题，因为真正具有延展性和解释性的人工智能模型往往缺乏细节，而真正详细的模型往往缺乏原创性和灵活性。

如果模型创建者没有不受限制地使用该数据的权利，并且可以通过越来越多的数据来证明该数据带来的好处，那么受记忆影响的模型重现训练数据的能力就是一个潜在的法律障碍。提取方法.

由于记忆，未经授权的数据的痕迹可能会坚持，菊花链，通过多个训练系统，就像一个不可磨灭的、无意的水印——即使在机器学习从业者已经小心确保使用“安全”数据的项目中也是如此。

世界模特

然而，记忆的核心问题是它往往会传达 智力错觉或者认为人工智能模型已经概括了基本规律或领域，而事实上，大量记忆数据造成了这种错觉（即模型有如此多的潜在数据示例可供选择，以至于人类很难分辨它是在重复学习到的内容，还是对生成过程中涉及的概念有真正抽象的理解）。

这一问题对日益增长的关注产生了影响 世界模特 – 高度多样化、昂贵训练的人工智能系统的前景，这些系统包含多种已知定律，具有丰富的可探索性。

世界模型在生成图像和视频领域尤其受关注。2023 年，RunwayML 开始了研究计划深入研究此类模型的开发和可行性；DeepMind 最近雇用广受好评的 Sora 生成视频的创始人之一正在研究这种模型；以及初创公司比如希格斯菲尔德正在对图像和视频合成的世界模型进行大量投资。

硬组合

生成视频人工智能系统的新发展前景之一是，它们有望学习基本的物理定律，如运动、人体运动学（如步态特征), 流体动力学以及其他已知的、至少在视觉上为人类所熟悉的物理现象。

如果生成式人工智能能够实现这一里程碑，它就能产生超现实的视觉效果，描绘爆炸、洪水以及多种物体之间可能发生的碰撞事件。

另一方面，如果人工智能系统只是接受了数千（或数十万）个描述此类事件的视频的训练，那么当它接受训练时，它能够相当令人信服地重现训练数据。 类似数据指向用户的目标查询; 然而失败如果查询结合了太多概念，而这些概念在数据中根本无法体现出来。

此外，这些限制不会立即显现出来，除非有人用这种具有挑战性的组合来推动系统。

这意味着新的生成系统可能能够生成病毒式视频内容，虽然令人印象深刻，但会对系统的能力和理解深度造成错误的印象，因为它所代表的任务对系统来说并不是真正的挑战。

例如，一个相对常见且传播范围较广的事件，例如 “一栋建筑被拆毁”，可能存在 在多个视频中 在用于训练模型的数据集中，该模型应该对物理学有所了解。因此，该模型可以很好地概括这一概念，甚至在从大量视频中学习到的参数范围内产生真正新颖的输出。

这是一个 分布内 例如，数据集包含许多对 AI 系统有用的例子。

然而，如果有人要求举一个更奇怪或更似是而非的例子，比如 “埃菲尔铁塔被外星入侵者炸毁了”，该模型需要结合“冶金特性”、“爆炸特性”、“重力”、“风阻”和“外星飞船”等不同领域。

这是一个 分布外 （OOD）示例，它结合了如此多的纠缠概念，以至于系统很可能无法生成令人信服的示例，或者默认使用训练时最接近的语义示例——即使该示例不符合用户的提示。

除非模型的源数据集包含描绘相同或类似事件的好莱坞风格 CGI VFX，否则这种描述绝对要求它对物理定律有很好的概括和延展性的理解。

身体约束

这篇新论文由字节跳动、清华大学和以色列理工学院合作完成，它表明，Sora 等模型不仅不会以这种方式真正内化确定性物理定律，但扩大数据（过去 18 个月的常用方法）在大多数情况下似乎并没有带来真正的改善。

该论文不仅探讨了特定物理定律的外推极限——例如运动物体在碰撞时的行为，或者当它们的路径受阻时的行为——还探讨了模型的 组合泛化 – 将两个不同物理原理的表示合并为单个生成输出的实例。

新论文的视频摘要。 资料来源：https://x.com/bingyikang/status/1853635009611219019

研究人员选择研究的三条物理定律是 抛物线运动; 匀速直线运动;和 完全弹性碰撞.

从上面的视频中可以看出，研究结果表明，像 Sora 这样的模型并没有真正内化物理定律，而是倾向于重现训练数据。

此外，作者发现，颜色和形状等方面在推理时变得如此纠缠在一起，以至于生成的球可能会变成正方形，显然是因为数据集示例中的类似运动以正方形而不是球为特征（参见上面嵌入的视频中的示例）。

该论文特别投入社交媒体研究部门得出的结论是：

“我们的研究表明，尽管扩展在 Sora 的更广泛成功中发挥了作用，但单靠扩展不足以让视频生成模型揭示基本的物理定律......

“……[研究结果]表明，单靠扩展无法解决 OOD 问题，尽管它确实可以提高其他场景下的性能。

“我们的深入分析表明，视频模型泛化更多地依赖于参考类似的训练示例，而不是学习通用规则。我们在这种“基于案例”的行为中观察到了颜色 > 大小 > 速度 > 形状的优先顺序。

“[我们的]研究表明，简单的缩放不足以让视频生成模型发现基本的物理定律。”

当被问及研究团队是否找到了解决这个问题的方法时，该论文的一位作者评论:

“很遗憾，我们还没有。实际上，这可能是整个人工智能社区的使命。”

方法与数据

研究人员使用了可变自动编码器（VAE）和 DIT 架构来生成视频样本。在此设置中，压缩的潜在表征由 VAE 与 DiT 的建模协同工作去噪的过程。

视频是在 Stable Diffusion V1.5-VAE 上进行训练的。架构基本保持不变，仅在流程末端进行了架构增强：

“[我们保留了] 空间维度上大部分原始二维卷积、组规范化和注意力机制。

“为了将这个结构扩展为时空自动编码器，我们将编码器的最后几个 2D 下采样块和解码器的最初几个 2D 上采样块转换为 3D 块，并采用多个额外的 1D 层来增强时间建模。”

为了实现视频建模，修改后的 VAE 与 HQ 图像和视频数据进行联合训练，并使用 SD2 架构原生的 1.5D 生成对抗网络 (GAN) 组件进行 3D 增强。

使用的图像数据集是 Stable Diffusion 的原始来源， LAION-美学，并进行过滤，此外数据处理。对于视频数据，从 Vimeo-90K, 熊猫-70m 以及高清视频格式数据集。

数据经过一百万步的训练，应用了随机调整大小的裁剪和随机水平翻转，数据扩充流程。

乐死了;失控;疯掉

如上所述，随机水平翻转数据增强工艺在训练旨在产生真实运动的系统时，这可能是一个负担。这是因为训练模型的输出可能会考虑都物体的方向，并在尝试协商这些冲突数据时引起随机逆转（参见上面嵌入的视频）。

另一方面，如果水平翻转折扣，那么模型就更有可能产生符合以下条件的输出 只有一个方向 从训练数据中学习。

因此，这个问题没有简单的解决办法，除非系统真正吸收来自原生版本和翻转版本的所有运动可能性——这是儿童很容易发展的能力，但对于人工智能模型来说，这显然是一个更大的挑战。

检测

对于第一组实验，研究人员设计了一个 2D 模拟器来制作符合经典力学定律的物体运动和碰撞的视频，这为模型的评估提供了一个大容量、可控的数据集，排除了真实世界视频的模糊性。盒子2D 使用物理游戏引擎来制作这些视频。

上面列出的三种基本场景是测试的重点：均匀线性运动、完全弹性碰撞和抛物线运动。

越来越大的数据集（从 30,000 个到 XNUMX 万个视频）被用于训练不同大小和复杂程度的模型（DiT-S 到 DiT-L），其中每个视频的前三帧用于调节。

第一组实验中训练的不同模型的详细信息。 来源：https://arxiv.org/pdf/2411.02385

研究人员发现，随着数据量的增加，分布内 (ID) 结果可以很好地扩展，而 OOD 生成并没有改善，表明泛化存在缺陷。

第一轮测试的结果。

作者指出：

“这些发现表明，在 OOD 场景中，无法通过扩展进行推理。”

接下来，研究人员测试并训练了旨在展示组合泛化能力的系统，其中两个对比的运动结合在一起（希望）产生一个忠实于每个独立运动背后的物理定律的有凝聚力的运动。

对于此阶段的测试，作者使用了菲瑞模拟器，创建一个 2D 环境，描绘多个形状各异的物体自由落体，并在各种复杂的交互中相互碰撞。

第二次测试的评估指标是 Fréchet 视频距离（FVD）；结构相似性指数（SSIM）；峰值信噪比峰值信噪比（PSNR）；学习感知相似性度量（LPIPS）；以及一项人体研究（结果标记为“异常”）。

我们创建了三种规模的训练数据集，分别为 100,000 万个视频、0.6 万个视频和 3-6 万个视频。由于视频的复杂性增加，我们使用了 DiT-B 和 DiT-XL 模型，并使用第一帧进行调节。

该模型以 256×256 的分辨率训练了一百万步，每个视频 32 帧。

第二轮测试的结果。

该测试的结果表明，仅仅增加数据量是不够的：

该文件指出：

这些结果表明，模型容量和组合空间的覆盖范围对于组合泛化至关重要。这一见解意味着视频生成的缩放定律应该侧重于增加组合多样性，而不仅仅是扩大数据量。

最后，研究人员进行了进一步的测试，试图确定视频生成模型是否能够真正吸收物理定律，或者它是否只是在推理时记忆和重现训练数据。

在这里，他们研究了“基于案例”的泛化概念，其中模型在面对新情况时倾向于模仿特定的训练示例，以及研究均匀运动的示例 - 具体来说，训练数据中的运动方向如何影响训练模型的预测。

两组训练数据， 匀速运动 以及碰撞，每个视频都由描绘 2.5 到 4 个单位速度的匀速运动视频组成，前三帧用作条件。潜在值如下速度被省略，并且在训练之后，对可见和不可见的场景进行测试。

下面我们看到了均匀运动产生测试的结果：

均匀运动生成测试的结果，其中训练期间省略了“速度”变量。

作者指出：

“由于训练集存在很大差距，当初始帧显示中等速度时，模型倾向于生成速度较高或较低的视频，以类似于训练数据。”

对于碰撞测试，涉及的变量要多得多，并且模型需要学习二维非线性函数.

碰撞：第三轮也是最后一轮测试的结果。

作者观察到，“欺骗性”示例的存在，例如反向运动（即，球从表面弹起并改变其路线），可能会误导模型并导致其生成物理上不正确的预测。

结语

如果非人工智能算法（即“烘焙”的程序方法）包含 数学规则 对于流体、重力或压力下的物体等物理现象的行为，有一组不变的常数可用于准确渲染。

然而，新论文的研究结果表明，在生成模型的训练过程中并没有发展出这种等效关系或对经典物理定律的内在理解，而且增加数据量并不能解决问题，反而会使问题变得更加模糊——因为系统在推理时可以模仿更多的训练视频。

* 我将作者的内嵌引用转换为超链接。

首次发布于 26 年 2024 月 XNUMX 日星期二

相关话题：人工智能视频创作视频扩散视频合成