Connect with us

人工智能

单视图3D重构是如何工作的?

mm

传统上,基于卷积神经网络的单视图物体重构模型在重构任务中表现出色。近年来,单视图3D重构已成为人工智能社区中一个流行的研究主题。无论采用何种具体方法,所有单视图3D重构模型都共享一种共同的方法,即在其框架中包含编码器-解码器网络。该网络对输出空间中的3D结构进行复杂的推理。

在本文中,我们将探讨单视图3D重构如何在实时工作,以及这些框架在重构任务中面临的当前挑战。我们将讨论单视图3D重构模型使用的各种关键组件和方法,并探索可以提高这些框架性能的策略。另外,我们将分析使用编码器-解码器方法的最先进框架的结果。让我们深入探讨。

单视图3D物体重构

单视图3D物体重构涉及从单个视点或更简单地说,从单个图像生成物体的3D模型。例如,从图像推断物体(如摩托车)的3D结构是一个复杂的过程。它结合了对部件结构安排、低级图像线索和高级语义信息的知识。这个范围涵盖了两个主要方面:重构识别。重构过程使用诸如阴影、纹理和视觉效果等线索来辨别输入图像的3D结构。相反,识别过程对输入图像进行分类,并从数据库中检索合适的3D模型。

当前的单视图3D物体重构模型可能在架构上有所不同,但它们都通过在其框架中包含编码器-解码器结构而统一起来。在这种结构中,编码器将输入图像映射到潜在表示,而解码器对输出空间的3D结构进行复杂的推理。为了成功执行此任务,网络必须集成高级和低级信息。另外,许多最先进的编码器-解码器方法依赖于单视图3D重构任务的识别,这限制了它们的重构能力。另外,现代卷积神经网络在单视图3D物体重构中的性能可以在不显式推断3D物体结构的情况下被超越。然而,识别在单视图物体重构任务中的卷积网络的主导地位受到各种实验程序的影响,包括评估协议和数据集组成。这些因素使得框架能够找到捷径解决方案,在本例中,即图像识别。

传统上,单视图3D物体重构框架使用形状从阴影方法来处理重构任务,纹理和失焦作为重构任务的异国情调视图。由于这些技术使用单个深度线索,因此它们能够对表面的可见部分提供推理。另外,许多单视图3D重构框架使用多个线索以及结构知识来估计单个单眼图像的深度,这种组合使这些框架能够预测可见表面的深度。最近的深度估计框架使用卷积神经网络结构从单眼图像中提取深度。

但是,为了有效地进行单视图3D重构,模型不仅需要推理图像中可见对象的3D结构,还需要使用从数据中学习的某些先验知识来推理图像中的不可见部分。为了实现这一点,大多数模型目前使用训练好的卷积神经网络结构将2D图像映射到3D形状,使用直接的3D监督,而许多其他框架使用基于体素的3D形状表示,并使用潜在表示来生成3D上卷积。某些框架还将输出空间等级划分为提高计算和内存效率,使模型能够预测更高分辨率的3D形状。最近的研究重点是使用较弱的监督形式来预测单视图3D形状,使用卷积神经网络,或者比较预测形状及其真实值来训练形状回归器,或者使用多个学习信号来训练平均形状,以帮助模型预测变形。单视图3D重构进展有限的另一个原因是可用于此任务的训练数据量有限。

继续,单视图3D重构是一个复杂的任务,因为它不仅解释视觉数据的几何信息,还解释语义信息。虽然它们不是完全不同的,但它们跨越了从几何重构到语义识别的不同范围。重构任务需要对图像中对象的3D结构进行像素级推理。重构任务不需要对图像内容进行语义理解,可以使用低级图像线索(如纹理、颜色、阴影、阴影、透视和焦点)来实现。另一方面,识别是使用图像语义的极端情况,识别任务使用整个对象,并将其分类为输入,并从数据库中检索相应的形状。虽然识别任务可以对图像中不可见的对象部分提供强大的推理,但语义解决方案仅在可以用数据库中的对象解释时才可行。

虽然识别和重构任务可能相互不同,但它们都倾向于忽略输入图像中包含的有价值信息。建议同时使用这两种任务来获得最佳可能的结果,并获得对象重构的准确3D形状,即对于最优的单视图3D重构任务,模型应采用结构知识、低级图像线索和对对象的高级理解。

单视图3D重构:传统设置

为了解释单视图3D重构框架的传统设置和分析其设置,我们将使用标准设置来估计使用单个视图或对象图像的3D形状。用于训练的数据集是ShapeNet数据集,并在13个类别中评估性能,这使得模型能够了解数据集中的类别数量如何确定模型的形状估计性能。

大多数现代卷积神经网络使用单个图像来预测高分辨率3D模型,这些框架可以根据其输出表示进行分类:深度图、点云和体素网格。该模型使用OGN或八叉树生成网络作为其代表方法,历史上已经超越了体素网格方法,并且/或者可以覆盖主导输出表示。相比使用输出表示的现有方法,OGN方法允许模型预测高分辨率形状,并使用八叉树来高效地表示占用的空间。

基线

为了评估结果,模型使用两个基线,将问题纯粹视为识别任务。第一个基线基于聚类,而第二个基线执行数据库检索。

聚类

在聚类基线中,模型使用K-Means算法对训练形状进行聚类或分组为K个子类别,并在32*32*32体素化的矢量上运行算法。确定聚类分配后,模型切换回使用更高分辨率的模型。然后,模型计算每个聚类中的平均形状,并对平均形状进行阈值处理,其中最优值是通过最大化训练数据中模型的平均IoU(交并比)来计算的。由于模型知道训练数据中3D形状和图像之间的关系,因此模型可以轻松地将图像与其对应的聚类进行匹配。

检索

检索基线学习将形状和图像嵌入到联合空间中。模型通过考虑训练集中的3D矩阵形状的成对相似性来构造嵌入空间。模型通过使用多维缩放和Sammon映射方法将矩阵中的每一行压缩为低维描述符来实现此目的。另外,为了计算两个任意形状之间的相似性,模型使用光场描述符。另外,模型训练一个卷积神经网络将图像映射到描述符中,以将图像嵌入到空间中。

分析

单视图3D重构模型遵循不同的策略,因此它们在某些领域中优于其他模型,但在其他领域中却存在不足。为了比较不同的框架并评估其性能,我们有不同的指标,其中一个是平均IoU评分。

如上图所示,尽管具有不同的架构,当前最先进的3D重构模型在性能上几乎相同。然而,值得注意的是,尽管它是一种纯粹的识别方法,但检索框架在平均和中位数IoU评分方面优于其他模型。聚类框架提供了坚实的结果,优于AtlasNet、OGN和Matryoshka框架。然而,这个分析中最意外的结果是Oracle NN在使用完美的检索架构的情况下优于所有其他方法。虽然计算平均IoU评分有助于比较,但它并不能提供完整的图景,因为结果的方差很高,无论使用哪种模型。

常见评估指标

单视图3D重构模型通常使用不同的评估指标来分析其在广泛任务中的性能。以下是一些常用的评估指标。

交并比

交并比的平均值是单视图3D重构模型中常用的量化指标,用于衡量其性能。虽然IoU提供了一些有关模型性能的见解,但它不被认为是评估方法的唯一指标,因为它仅在值足够高且两个给定形状的低和中等评分之间存在显著差异时,才表示预测形状的质量。

Chamfer距离

Chamfer距离定义在点云上,并且它被设计为可以满意地应用于不同的3D表示。然而,Chamfer距离评估指标对异常值非常敏感,这使得它成为评估模型性能的有问题的指标,异常值与参考形状的距离在很大程度上决定了生成质量。

F-评分

F-评分是多视图3D重构模型中常用的评估指标。F-评分指标被定义为召回和精度的调和平均值,它显式地评估对象表面的距离。精度计算重构点中在预定义距离内的百分比,以测量重构的准确性。召回计算点中在预定义距离内的百分比,以测量重构的完整性。另外,通过改变距离阈值,开发人员可以控制F-评分指标的严格性。

每类分析

上述框架的性能相似性并不是由于方法在不同子集类上运行的结果,以下图表展示了不同类别中的一致性相对性能,Oracle NN检索基线实现了最佳结果,所有方法在所有类别中都观察到高方差。

另外,可能会认为一个类别中可用的训练样本数量会影响每个类别的性能。然而,如下图所示,一个类别中可用的训练样本数量与每个类别的平均IoU评分没有关联。

定性分析

上述定量结果得到以下图表的定性结果的支持。

对于大多数类别,聚类基线和解码器方法的预测之间没有显著的差异。聚类方法在样本与平均聚类形状之间的距离很大,或者当平均形状本身不能很好地描述聚类时,会失败。另一方面,使用解码器方法和检索架构的框架会提供最准确和最有吸引力的结果,因为它们能够在生成的3D模型中包含细节。

单视图3D重构:最终想法

在本文中,我们讨论了单视图3D物体重构,并讨论了它的工作原理,讨论了两个基线:检索和分类,检索基线方法优于当前最先进的模型。最后,虽然单视图3D物体重构是人工智能社区中最热门和最研究的话题之一,并且在过去的几年中取得了显著的进步,但单视图3D物体重构仍然远未完善,并且在未来几年中需要克服重大的障碍。

专业为工程师,心为作家。 Kunal是一名技术作家,对AI和ML有着深厚的热爱和理解,致力于通过其引人入胜和信息丰富的文档来简化这些领域中的复杂概念。