安德森的角度

解决扩散模型对镜子和反射的有限理解

发布时间 2025 年 4 月 28 日

马丁安德森

自从生成式人工智能开始引起公众兴趣以来，计算机视觉研究领域对开发能够理解和复制物理定律的人工智能模型的兴趣日益加深；然而，教会机器学习系统模拟重力和液体动力学至少在过去五年.

建立潜在扩散模型（LDM）在 2022 年成为生成式人工智能领域的主导，研究人员越来越专注 LDM 架构在理解和再现物理现象方面的能力有限。如今，随着 OpenAI 生成视频模型的里程碑式发展，这个问题变得更加突出。索拉，以及（可以说）最近发布的更重要的开源视频模型混元视频以及莞2.1.

反思不好

大多数旨在提升LDM对物理学理解的研究都集中在步态模拟、粒子物理学以及牛顿运动的其他方面。这些领域之所以受到关注，是因为基本物理行为的不准确性会立即损害AI生成视频的真实性。

然而，一小部分但不断增长的研究集中在 LDM 最大的弱点之一—— 相对无能产生准确的反思.

摘自2025年2409.14677月发表的论文《反射现实：使扩散模型能够产生忠实的镜面反射》，其中列举了“反射失败”的例子，并与研究人员自己的方法进行了比较。来源：https://arxiv.org/pdf/XNUMX

摘自 2025 年 XNUMX 月的论文《反映现实：使扩散模型能够产生忠实的镜面反射》，其中列举了与研究人员自己的方法相比的“反射失败”的例子。 来源：https://arxiv.org/pdf/2409.14677

这个问题在 CGI 时代也是一个挑战，在电子游戏领域依然如此，光线跟踪算法模拟光线与表面相互作用时的路径。光线追踪计算虚拟光线如何从物体上反射或穿过，从而创建逼真的反射、折射和阴影。

然而，由于每次额外的反弹都会大大增加计算成本，因此实时应用程序必须通过限制允许的光线反弹次数来权衡延迟和准确性。

在传统的 3D（即 CGI）场景中，虚拟计算的光束的表示，采用了 1960 世纪 1982 年代首次开发的技术和原理，并在 93 年至 1982 年间（即《电子世界争霸战》[1993] 和《侏罗纪公园》[XNUMX] 之间的时期）达到顶峰。来源：https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

在传统的基于 3D（即 CGI）的场景中，对虚拟计算的光束进行表示，采用 1960 世纪 1982 年代首次开发的技术和原理，并在 93 年至 1982 年间达到顶峰（从《电子世界争霸战》[1993] 到《侏罗纪公园》[XNUMX] 之间的时期）。资料来源：https://www.unrealengine.com/en-US/explainers/ray-tracing/what-is-real-time-ray-tracing

例如，描绘镜子前的镀铬茶壶可能涉及光线追踪过程，光线在反射面之间反复反射，形成几乎无限的循环，对最终图像几乎没有实际作用。在大多数情况下，两到三次反射的深度已经超出了观看者的感知范围。一次反射会导致镜面变黑，因为光线必须完成至少两次反射才能形成可见的反射。

每次额外的反弹都会大幅增加计算成本，通常会使渲染时间加倍，从而加快反射的处理速度最重要的机会之一用于提高光线追踪渲染质量。

当然，反射会发生，并且对于照片级真实感至关重要，尤其是在一些不太明显的场景中 - 例如雨后城市街道或战场的反射表面；商店橱窗或玻璃门口对面街道的倒影；或者在所描绘人物的眼镜中，可能需要出现物体和环境。

通过传统合成技术实现的模拟双胞胎反射，是《黑客帝国》（1999）中一个标志性场景。

图像问题

因此，在扩散模型出现之前流行的框架，例如神经辐射场（NeRF），以及一些最近的挑战者，例如高斯泼溅一直坚持自己的奋斗，以自然的方式实现反思。

此号²—神经射频项目（如下图所示）提出了一种基于 NeRF 的玻璃场景建模方法。该方法使用依赖于和独立于观察者视角的元素来建模折射和反射。这种方法使研究人员能够估计发生折射的表面，特别是玻璃表面，并能够分离和建模直射光和反射光成分。

Ref2Nerf 论文中的示例。来源：https://arxiv.org/pdf/2311.17116

来自 Ref2Nerf 论文的示例。 来源：https://arxiv.org/pdf/2311.17116

过去 4-5 年中其他面向 NeRF 的反射解决方案包括 NeRFReN, 反映现实以及 Meta 的 2024 平面反射感知神经辐射场 项目.

对于 GSplat，诸如镜像-3DGS, 反射高斯溅射和参考高斯已经提出了关于反射问题的解决方案，而 2023 Nero 项目提出了一种将反射特性融入神经表征的定制方法。

MirrorVerse

让扩散模型遵循反射逻辑，可以说比高斯Splatting和NeRF等明确结构化、非语义化的方法更困难。在扩散模型中，只有当训练数据包含广泛场景中大量不同的示例时，此类规则才有可能可靠地嵌入，这使得它严重依赖于原始数据集的分布和质量。

传统上，添加此类特定行为属于劳拉或微调基础模型；但这些都不是理想的解决方案，因为 LoRA 倾向于将输出偏向自己的训练数据，甚至在没有提示的情况下也是如此，而微调——除了成本高昂之外——可能会使主要模型不可逆转地脱离主流，并产生一系列永远不会与任何 other 模型的应变，包括原始应变。

总体而言，改进扩散模型需要训练数据更加关注反射的物理特性。然而，许多其他领域也需要类似的特别关注。在超大规模数据集的背景下，定制化管理成本高昂且难度大，以这种方式解决每个弱点是不切实际的。

尽管如此，LDM 反射问题的解决方案确实时有出现。印度最近尝试的一项尝试是 MirrorVerse 该项目提供了改进的数据集和训练方法，能够提高扩散研究中这一特定挑战的最新水平。

最右边是 MirrorVerse 的结果与两种先前方法（中间两列）的对比。来源：https://arxiv.org/pdf/2504.15397

最右边是 MirrorVerse 的结果与两种先前的方法（中间两列）的结果对比。 来源：https://arxiv.org/pdf/2504.15397

正如我们在上面的例子（新研究 PDF 中的特征图像）中看到的，MirrorVerse 在解决同一问题的最新产品上有所改进，但还远非完美。

在右上角的图像中，我们看到陶瓷罐的位置稍微偏右了，而在下图中，严格来说，杯子的反射不应该出现，但却在右侧区域出现了一个不准确的反射，这违反了自然反射角度的逻辑。

因此，我们将研究这种新方法，并不是因为它可能代表了基于扩散的反射的当前最先进的技术，而是为了说明这对于潜在扩散模型（静态和视频）来说可能是一个棘手的问题，因为反射率所需的数据示例最有可能与特定的动作和场景纠缠在一起。

因此，LDM 的这一特定功能可能仍然无法达到 NeRF、GSplat 以及传统 CGI 等结构特定方法的水平。

此新文标题为 MirrorVerse：推动传播模型真实地反映世界，由印度理工学院班加罗尔分校视觉与人工智能实验室和班加罗尔三星研发机构的三位研究人员共同完成。该论文相关项目页面，以及ASA Hugging Face 的数据集，附带源代码发布于 GitHub.

付款方式

研究人员从一开始就注意到稳定扩散和助焊剂在尊重基于反思的提示方面，巧妙地说明了这个问题：

摘自论文：当前最先进的文本到图像模型 SD3.5 和 Flux 在场景中生成反射时，在产生一致且几何精确的反射方面面临重大挑战。

摘自论文：当前最先进的文本到图像模型 SD3.5 和 Flux 在场景中生成一致且几何准确的反射时面临着巨大的挑战。

研究人员已经开发出 MirrorFusion 2.0，这是一个基于扩散的生成模型，旨在提高合成图像中镜面反射的照片级真实感和几何精度。该模型的训练基于研究人员自己新整理的数据集，名为 MirrorGen2，旨在解决概括以前的方法中观察到的弱点。

MirrorGen2 扩展了早期的方法，引入了 随机物体定位, 随机旋转和 明确的客体基础，目的是确保反射在相对于镜面的更广泛的物体姿势和位置上保持合理。

MirrorVerse 中合成数据生成示意图：数据集生成流程应用了关键的增强技术，通过使用 3D 定位器在场景中随机定位、旋转和固定物体。对象还以语义一致的组合配对，以模拟复杂的空间关系和遮挡，从而使数据集能够捕捉多物体场景中更真实的交互。

为了进一步增强模型处理复杂空间排列的能力，MirrorGen2 管道采用了配对物体场景，使系统能够更好地表示反射设置中多个元素之间的遮挡和相互作用。

该文件指出：

类别手动配对以确保语义一致性——例如，将椅子与桌子配对。在渲染过程中，在定位和旋转主要[对象]之后，将从配对类别中采样并排列另一个[对象]，以防止重叠，从而确保场景内的空间区域清晰可辨。

关于明确的对象接地，作者确保生成的对象在输出合成数据中“锚定”到地面，而不是不适当地“悬停”，这可能发生在大规模生成合成数据或使用高度自动化的方法时。

由于数据集创新是本文新颖性的核心，我们将比平时更早地进行这部分的报道。

数据与测试

SynMirrorV2

研究人员的 SynMirrorV2 数据集旨在提高镜面反射训练数据的多样性和真实感，其特征是来自奥布贾宇宙以及亚马逊伯克利对象（ABO）数据集，这些选择随后通过对象 3DIT以及 V1 的过滤过程 MirrorFusion项目，以淘汰低质量资产。最终，资产池中精炼出了 66,062 个对象。

Objaverse 数据集的示例，用于创建新系统的精选数据集。来源：https://arxiv.org/pdf/2212.08051

Objaverse 数据集中的示例，用于创建新系统的精选数据集。 来源：https://arxiv.org/pdf/2212.08051

场景构建包括将这些物体放置在纹理地板上 CC-纹理和 HDRI 背景波利哈文 CGI 库，使用全墙或高矩形镜子。照明采用标准化区域光，位于物体上方和后方，角度为 45 度。物体被缩放以适应单位立方体，并使用预先计算的镜子和相机视角交点进行定位。截头体，确保可见性。

围绕 y 轴应用随机旋转，并使用接地技术来防止“浮动伪影”。

为了模拟更复杂的场景，该数据集还整合了多个物体，这些物体根据 ABO 类别的语义连贯配对进行排列。为了避免重叠，我们放置了次要物体，从而创建了 3,140 个多物体场景，旨在捕捉不同的遮挡和深度关系。

作者数据集中渲染的视图示例包含多个（两个以上）对象，下面显示了对象分割和深度图可视化的图示。

训练过程

研究人员认识到，单靠合成现实主义不足以对现实世界数据进行稳健的推广，因此开发了一个三阶段的课程学习过程来训练 MirrorFusion 2.0。

在第一阶段，作者初始化了权重具有稳定扩散的调节和生成分支 v1.5 检查点，并在单对象训练上对模型进行微调分裂 SynMirrorV2 数据集。与上述 反映现实 项目中，研究人员没有冻结生成分支。然后，他们对该模型进行了 40,000 次迭代训练。

在第 2 阶段，该模型在 SynMirrorV10,000 的多对象训练分割上进行了额外的 2 次迭代微调，以教会系统处理遮挡以及现实场景中更复杂的空间排列。

最后，在第 3 阶段，使用来自以下平台的真实数据进行了另外 10,000 次微调迭代： MSD数据集，使用由 Matterport3D 单目深度估计器。

MSD 数据集中的示例，将真实场景分析成深度图和分割图。来源：https://arxiv.org/pdf/1908.09101

来自 MSD 数据集的示例，将真实世界场景分析为深度和分割图。 来源：https://arxiv.org/pdf/1908.09101

在训练期间，20% 的训练时间省略了文本提示，以鼓励模型充分利用可用的深度信息（即“掩蔽”方法）。

所有阶段的训练均在四块 NVIDIA A100 GPU 上进行（VRAM 规格未提供，但每块卡的显存容量应为 40GB 或 80GB）。学习率为 1e^-5 每个 GPU 的批次大小为 4，亚当优化器。

该训练方案逐步增加了呈现给模型的任务难度，从更简单的合成场景开始，逐渐发展到更具挑战性的构图，目的是开发强大的现实世界可转移性。

测试与验证

作者将 MirrorFusion 2.0 与之前最先进的 MirrorFusion 进行比较，并将其作为基线，并在 MirrorBenchV2 数据集上进行了实验，涵盖了单物体和多物体场景。

对 MSD 数据集中的样本进行了额外的定性测试，并且谷歌扫描的物体（GSO）数据集。

此次评估使用了 2,991 张来自可见和不可见类别的单物体图像，以及 300 张来自 ABO 的双物体场景图像。性能测量使用峰值信噪比峰值信噪比（PSNR）；结构相似性指数（SSIM）；和学习感知图像块相似性（LPIPS）分数，以评估蒙版镜区域的反射质量。 CLIP 相似性用于评估文本与输入提示的对齐情况。

在定量测试中，作者使用四个种子针对特定提示生成图像，并选择 SSIM 得分最高的图像。定量测试的两个结果报告表如下所示。

左图：MirrorBenchV2 单对象分割中单对象反射生成质量的定量结果。MirrorFusion 2.0 的表现优于基线，最佳结果以粗体显示。右图：MirrorBenchV2 多对象分割中多对象反射生成质量的定量结果。使用多对象训练的 MirrorFusion 2.0 的表现优于不使用多对象训练的版本，最佳结果以粗体显示。

作者评论：

“[结果表明]我们的方法优于基线方法，并且对多个对象进行微调可以改善复杂场景的结果。”

大部分结果以及作者所强调的结果都涉及定性测试。由于这些插图的尺寸限制，我们只能部分复现论文中的示例。

在 MirrorBenchV2 上进行比较：基线未能保持准确的反射和空间一致性，显示出不正确的椅子方向和多个物体的扭曲反射，而（作者认为）MirrorFusion 2.0 正确渲染了椅子和沙发，具有准确的位置、方向和结构。

在这些主观结果中，研究人员认为，基线模型未能准确呈现反射中的物体方向和空间关系，经常产生诸如旋转错误和物体漂浮等伪影。作者认为，在 SynMirrorV2.0 上训练的 MirrorFusion 2 能够在单物体和多物体场景中保持正确的物体方向和位置，从而产生更真实、更连贯的反射。

下面我们来看看上述 GSO 数据集的定性结果：

在 GSO 数据集上进行比较。基线版本错误地表示了物体结构，并产生了不完整、扭曲的反射，而作者认为 MirrorFusion 2.0 保留了空间完整性，即使在分布范围外的物体上也能生成准确的几何形状、颜色和细节。

在 GSO 数据集上进行比较。基线版本会错误地表示物体结构，并产生不完整、扭曲的反射，而作者认为 MirrorFusion 2.0 能够保留空间完整性，并生成精确的几何形状、颜色和细节，即使是分布范围外的物体也是如此。

以下是作者的评论：

MirrorFusion 2.0 生成的反射效果显著更加精准逼真。例如，在上图 5（a）中，MirrorFusion 2.0 正确地反射了抽屉把手（以绿色突出显示），而基准模型则产生了不真实的反射（以红色突出显示）。

“同样，对于图 5 (b) 中的“白黄马克杯”，MirrorFusion 2.0 提供了令人信服的几何形状，且伪影最少，而不像基线那样能够准确捕捉物体的几何形状和外观。”

最后的定性测试针对的是前面提到的真实世界 MSD 数据集（部分结果如下所示）：

真实场景下 MirrorFusion、MirrorFusion 2.0 以及基于 MSD 数据集进行微调的 MirrorFusion 2.0 的对比结果。作者认为，MirrorFusion 2.0 能够更准确地捕捉复杂场景的细节，包括桌面上杂乱的物体以及三维环境中的多面镜子。由于原始论文中结果的维度有限，此处仅展示部分结果，读者如需完整结果和更高分辨率，请参阅原始论文。

作者观察到，虽然 MirrorFusion 2.0 在 MirrorBenchV2 和 GSO 数据上表现良好，但它最初在 MSD 数据集中处理复杂的真实场景时遇到了困难。在 MSD 的一个子集上对模型进行微调，提高了其处理杂乱环境和多个镜像的能力，从而在保留的测试样本中获得了更连贯、更细致的反射。

此外，还进行了一项用户研究，结果显示 84% 的用户更喜欢 MirrorFusion 2.0 而不是基线方法。