人工智能

单视图3D重构的工作原理？

发布于 2024年1月19日

更新于 2026年5月22日

作者

Kunal Kejriwal

传统上，基于卷积神经网络的单视图物体重构模型在重构任务中表现出色。近年来，单视图3D重构成为人工智能社区中一个热门的研究话题。无论采用什么具体方法，所有单视图3D重构模型都共享一个共同的方法，即在其框架中包含一个编码器-解码器网络。该网络在输出空间中对3D结构进行复杂的推理。

在本文中，我们将探讨单视图3D重构在实时操作的工作原理，以及这些框架在重构任务中面临的当前挑战。我们将讨论单视图3D重构模型使用的各种关键组件和方法，并探索可以提高这些框架性能的策略。另外，我们将分析使用编码器-解码器方法的最先进框架的结果。让我们开始吧。

单视图3D物体重构

单视图3D物体重构涉及从单个视点或更简单地说，从单个图像生成物体的3D模型。例如，从图像中推断出物体（如摩托车）的3D结构是一个复杂的过程。它结合了对部件结构安排、低级图像线索和高级语义信息的知识。这个范围涵盖了两个主要方面：重构和识别。重构过程使用诸如阴影、纹理和视觉效果等线索来辨别输入图像的3D结构。相反，识别过程将输入图像进行分类，并从数据库中检索合适的3D模型。

当前的单视图3D物体重构模型可能在架构上有所不同，但它们都通过在其框架中包含编码器-解码器结构而统一起来。在这种结构中，编码器将输入图像映射到潜在表示，而解码器则对输出空间的3D结构进行复杂的推理。为了成功执行此任务，网络必须集成高级和低级信息。另外，许多最先进的编码器-解码器方法依赖于识别来执行单视图3D重构任务，这限制了它们的重构能力。此外，现代卷积神经网络在单视图3D物体重构中的性能可以在不显式推断3D物体结构的情况下被超越。然而，识别在卷积神经网络中的主导地位受到各种实验程序的影响，包括评估协议和数据集组成等因素的影响，这使得框架能够找到捷径解决方案，即图像识别。

传统上，单视图3D物体重构框架使用形状从阴影的方法来执行重构任务，纹理和失焦作为重构任务的奇异视图。由于这些技术使用单个深度线索，因此它们能够为表面的可见部分提供推理。另外，许多单视图3D重构框架使用多个线索以及结构知识来估计单个单眼图像的深度，这使得这些框架能够预测可见表面的深度。最近的深度估计框架使用卷积神经网络结构从单眼图像中提取深度。

但是，为了有效地执行单视图3D重构，模型不仅需要对图像中的3D结构进行推理，还需要使用从数据中学习到的某些先验来对图像中的不可见部分进行推理。为此，大多数模型目前使用训练好的卷积神经网络结构来将2D图像映射到3D形状，使用直接的3D监督。虽然许多其他框架使用基于体素的3D形状表示，并使用潜在表示来生成3D上卷积。某些框架还将输出空间等级划分，以增强计算和内存效率，从而使模型能够预测更高分辨率的3D形状。最近的研究重点是使用较弱的监督形式来预测单视图3D形状，使用卷积神经网络，通过比较预测形状和其真实值来训练形状回归器，或者使用多个学习信号来训练平均形状，以帮助模型预测变形。单视图3D重构进展有限的另一个原因是可用于此任务的训练数据量有限。

继续讨论，单视图3D重构是一个复杂的任务，因为它不仅在几何上解释视觉数据，还在语义上解释。虽然它们并非完全不同，但它们跨越了从几何重构到语义识别的不同范围。重构任务需要对图像中物体的3D结构进行像素级的推理。重构任务不需要对图像内容进行语义理解，可以使用低级图像线索（如纹理、颜色、阴影、阴影、透视和焦点）来实现。相反，识别是使用图像语义的极端情况，因为识别任务使用整个物体，并将其归类为输入图像，并从数据库中检索相应的3D模型。虽然识别任务可以对图像中不可见的物体部分提供强大的推理，但语义解决方案仅在可以由数据库中的物体解释时才可行。

虽然识别和重构任务可能彼此大不相同，但它们都倾向于忽略输入图像中包含的有价值信息。建议同时使用这两种任务来获得最佳可能的结果，并获得准确的3D形状用于物体重构，即对于单视图3D重构任务，模型应使用结构知识、低级图像线索和对物体的高级理解。

单视图3D重构：传统设置

为了解释单视图3D重构框架的传统设置和分析其设置，我们将使用标准设置来估计使用单个视图或图像的3D形状。用于训练的数据集是ShapeNet数据集，并评估模型在13个类别上的性能，这使得模型能够理解数据集中的类别数量如何确定形状估计性能。

大多数现代卷积神经网络使用单个图像来预测高分辨率的3D模型，这些框架可以根据输出的表示进行分类：深度图、点云和体素网格。模型使用OGN或八叉树生成网络作为其代表方法，历史上已超越体素网格方法，并/或能够覆盖主导输出表示。相比之下，现有方法使用输出表示，OGN方法使模型能够预测高分辨率形状，并使用八叉树来高效地表示占据的空间。

基线

为了评估结果，模型使用两个基线，纯粹将问题视为识别任务。第一个基线基于聚类，第二个基线执行数据库检索。

聚类

在聚类基线中，模型使用K-Means算法将训练形状聚类为K个子类别，并在32*32*32体素化的向量上运行算法。确定聚类分配后，模型切换回使用更高分辨率的模型。然后，模型计算每个聚类的平均形状，并对平均形状进行阈值处理，阈值通过最大化模型上的平均IoU（交并比）来计算。由于模型知道训练数据中的3D形状和图像之间的关系，因此模型可以轻松地将图像与其对应的聚类进行匹配。

检索

检索基线学习将形状和图像嵌入到联合空间中。模型考虑训练集中3D矩阵形状的成对相似性来构建嵌入空间。模型通过使用多维缩放和萨蒙映射方法将矩阵中的每一行压缩为低维描述符来实现此目的。另外，为了计算两个任意形状之间的相似性，模型使用光场描述符。另外，模型训练一个卷积神经网络来将图像映射到描述符中，以将图像嵌入到空间中。

分析

单视图3D重构模型遵循不同的策略，因此它们在某些领域中优于其他模型，而在其他领域中则逊色。为了比较不同的框架并评估其性能，我们有不同的指标，其中之一是平均IoU评分。

如上图所示，尽管它们具有不同的架构，但当前的3D重构最先进模型都能提供几乎相同的性能。然而，值得注意的是，尽管它是一种纯粹的识别方法，但检索框架在平均和中位数IoU评分方面优于其他模型。聚类框架提供了坚实的结果，优于AtlasNet、OGN和Matryoshka框架。然而，这个分析中最意外的结果是Oracle NN在使用完美的检索架构的情况下优于所有其他方法。虽然计算平均IoU评分有助于比较，但它并不能提供完整的图景，因为结果的方差很高，无论使用哪种模型。

常见评估指标

单视图3D重构模型通常使用不同的评估指标来分析其在一系列任务中的性能。以下是一些常用的评估指标。

交并比

交并比的平均值是单视图3D重构模型中常用的一个量化指标，用于作为基准。虽然IoU提供了一些关于模型性能的见解，但它不被认为是评估方法的唯一指标，因为它仅在值足够高时指示预测形状的质量，并且在两个给定形状的低和中等评分之间存在显著的差异。

Chamfer距离

Chamfer距离定义在点云上，并且被设计为可以适当地应用于不同的3D表示。然而，Chamfer距离评估指标对异常值非常敏感，这使得它成为一个有问题的指标来评估模型的性能，异常值与参考形状的距离极大地决定了生成质量。

F-评分

F-评分是大多数多视图3D重构模型中常用的一个评估指标。F-评分指标是精度和召回率之间的调和平均值，它显式地评估物体表面之间的距离。精度计算重构点中在预定义距离内的百分比，以衡量重构的准确性。另一方面，召回率计算真实值中在预定义距离内的百分比，以衡量重构的完整性。另外，通过改变距离阈值，开发人员可以控制F-评分指标的严格性。

按类分析

上述框架的性能相似性并不是由于方法在不同子集类别上运行的结果，以下图表显示了不同类别上的一致的相对性能，Oracle NN检索基线实现了最好的结果，所有方法在所有类别上都观察到高方差。

另外，一个类别中可用的训练样本数量可能会导致人们认为它会影响每个类别的性能。然而，如下图所示，一个类别中可用的训练样本数量并不会影响每个类别的性能，一个类别中的样本数量和其平均IoU评分之间没有关联。

定性分析

上述定量结果得到以下图表的定性结果的支持。

对于大多数类别，聚类基线和解码器方法的预测之间没有显著的差异。聚类方法在样本与平均聚类形状之间的距离很大时，或者当平均形状本身不能很好地描述聚类时，无法提供结果。另一方面，使用解码器方法和检索架构的框架提供了最准确和最吸引人的结果，因为它们能够在生成的3D模型中包含细节。

单视图3D重构：最终想法

在本文中，我们讨论了单视图3D物体重构，并讨论了它的工作原理。我们还讨论了两个基线：检索和聚类，检索基线方法优于当前的最先进模型。最后，尽管单视图3D物体重构是人工智能社区中最热门和最受研究的主题之一，并且在过去的几年中取得了显著的进步，但单视图3D物体重构仍然远未完善，并且在未来几年中需要克服重大的障碍。