人工智能

Splatter Image：基于高斯抹除的超快单视图3D重构

发布于 2024年1月12日

更新于 2026年5月22日

作者

Kunal Kejriwal

Splatter Image: Ultra-Fast Single-View 3D Reconstruction

单视图3D物体重构是计算机视觉领域的一个热门研究话题，使用卷积神经网络已经取得了显著的成果。单视图3D重构模型可以使用单张图像作为参考，生成物体的3D模型，使其成为计算机视觉领域的一个重要研究方向。

例如，考虑上述图像中的摩托车。生成其3D结构需要一个复杂的流程，首先将低级图像的线索与高级语义信息和结构安排知识相结合。由于该过程的复杂性，单视图3D重构一直是计算机视觉领域的一个重大挑战。为了提高单视图3D重构的效率，开发人员已经致力于Splatter Image方法，该方法旨在实现超快的单视图3D形状和3D外观构建。Splatter Image框架的核心使用高斯抹除方法来分析3D表示，利用其速度和质量优势。

最近，高斯抹除方法已被多视图重构模型广泛应用于实时渲染、增强缩放和快速训练。然而，Splatter Image是第一个将高斯抹除方法应用于单视图重构任务的框架。Splatter Image框架不仅可以生成单视图3D表示，还可以通过注册个别高斯混合到一个共同的参考系中，并通过预测个别视图的高斯混合来实现多视图3D重构。该框架还注入了轻量级的跨注意力层，以便在预测过程中实现不同视图之间的通信。

从经验上讲，Splatter Image框架可以生成360度的物体重构，即使只看到物体的一侧。该框架将不同的高斯分配到2D邻域的不同部分，以编码生成的360度信息。同时，该框架还可以通过预测不透明度为零来自动关闭某些高斯，从而在后处理中剔除它们。

总之，Splatter Image框架是一个用于生成单视图3D物体重构的新方法，通过将高斯抹除方法应用于单视图重构任务。该框架可以实现超快的单视图3D形状和3D外观构建，并且可以扩展到多视图3D重构任务。Splatter Image框架的性能优异，能够在标准基准测试中取得最先进的结果，并且可以在单个GPU上训练和评估。

Splatter Image框架是一个用于生成单视图3D物体重构的新方法，通过将高斯抹除方法应用于单视图重构任务。
该框架可以扩展到多视图3D重构任务，通过注册个别高斯混合到一个共同的参考系中，并通过预测个别视图的高斯混合。
Splatter Image框架的性能优异，能够在标准基准测试中取得最先进的结果，并且可以在单个GPU上训练和评估。

Splatter Image：方法和架构

高斯抹除

高斯抹除是一种用于重构3D图像和实时渲染的栅格化方法。3D空间中的高斯被称为高斯混合，机器学习技术被用于学习每个高斯的参数。高斯抹除不需要在渲染过程中进行训练，这使得渲染速度更快。

3D高斯抹除首先使用输入图像生成点云，然后使用输入图像估计相机的外部参数，如倾斜和位置，并使用这些参数计算点云。使用不同的机器学习方法，高斯抹除然后优化每个高斯的四个参数：位置（它位于哪里）、协方差（其拉伸或缩放的程度）、颜色（其RGB颜色）和透明度（其透明度）。优化过程渲染每个相机位置的图像，并使用它来确定参数更接近原始图像。因此，生成的3D高斯抹除输出是一个图像，称为Splatter Image，它最像原始图像，从相机位置捕获。

Splatter Image

渲染器组件将3D高斯混合映射到图像中。为了执行单视图3D重构，框架然后寻找3D高斯的逆函数，以从图像中重构3D高斯混合。关键是提出一个有效且简单的逆函数设计。具体来说，对于输入图像，框架预测每个像素的高斯使用图像到图像的神经网络架构输出图像，即Splatter Image。网络还预测形状、透明度和颜色。

图像级别损失

利用高斯抹除方法的速度和效率的主要优势是，它可以在每次迭代中渲染所有图像，即使批量大小相对较大。此外，它意味着框架不仅可以使用可分解的损失函数，还可以使用图像级别的损失函数，这些损失函数不能分解为每像素的损失函数。

尺度归一化

仅通过查看单个视图来估计物体的大小是一个具有挑战性的任务，尤其是在训练过程中使用损失函数时。然而，在合成数据集中，所有物体都以相同的相机内参和距离相机的固定距离渲染，这最终有助于解决模糊性。然而，在具有真实图像的数据集中，模糊性很明显，Splatter Image框架采用几种预处理方法来近似修复所有物体的尺度。

视图依赖颜色

为了表示视图依赖颜色，Splatter Image框架使用球面谐波来推广颜色超出兰伯特颜色模型。对于每个高斯，模型定义了由网络预测的系数和球面谐波。视图变化将相机源的视图方向转换为参考系中的对应视图方向。然后模型找到对应的系数来找到变换的颜色函数。模型可以做到这一点，因为在旋转下，球面谐波是封闭的，包括所有其他顺序。

神经网络架构

预测器从输入图像到高斯混合的架构的大部分与SongUNet框架中使用的过程相同。最后一层被替换为一个1×1卷积层，颜色模型决定输出通道的宽度。给定输入图像，网络生成输出通道张量作为输出，对于每个像素通道，编码参数，然后转换为偏移、透明度、旋转、深度和颜色。然后框架使用非线性函数激活参数并获得高斯参数。

Splatter Image：实验和结果

单视图3D重构性能

Splatter Image框架通过评估新视图合成质量来衡量其重构的质量，因为框架使用源视图渲染3D形状以执行重构。框架通过测量SSIM、PSNR和LPIPS评分来评估其性能。

多视图3D重构

为了评估其多视图3D重构能力，Splatter Image框架在SpaneNet-SRN Cars数据集上训练以进行两视图预测。现有方法使用绝对相机姿势条件进行多视图3D重构任务，这意味着模型主要依赖于物体的规范方向。虽然它可以完成任务，但它限制了模型的适用性，因为绝对相机姿势通常对于新物体图像是未知的。

最后的想法

在本文中，我们讨论了Splatter Image，一种旨在实现超快单视图3D形状和3D外观构建的方法。Splatter Image框架的核心使用高斯抹除方法来分析3D表示，利用其速度和质量优势。Splatter Image框架使用现成的2D CNN架构来预测每个像素的一个伪图像，其中包含一个有色高斯。通过使用高斯抹除方法，Splatter Image框架能够将快速渲染与快速推理相结合，实现快速训练和更快的评估，适用于真实和合成基准测试。