人工智能

Uni3D：探索统一的3D表示

Published October 27, 2023

Updated April 4, 2026

Kunal Kejriwal

近年来，扩大文本和视觉表示的研究一直是主要焦点。近期的发展和研究导致了语言学习和视觉方面的众多革命。然而，尽管扩大文本和视觉表示很受欢迎，但3D场景和对象的表示扩大却没有被充分讨论。

今天，我们将讨论Uni3D，一个旨在探索统一3D表示的3D基础模型。Uni3D框架采用2D初始化的ViT框架，端到端预训练，以将图像文本特征与其对应的3D点云特征对齐。

Uni3D框架使用预文任务和简单的架构来利用大量预训练的2D模型和图像文本对齐模型作为初始化和目标，从而释放2D模型和策略在3D世界中的全部潜力。

在本文中，我们将深入探讨3D计算机视觉和Uni3D框架，探索模型的基本概念和架构。让我们开始。

Uni3D和3D表示学习：介绍

过去几年，计算机视觉已经成为人工智能行业中最受投资的领域之一。随着2D计算机视觉框架的重大进展，开发人员将重点转移到3D计算机视觉。特别是3D表示学习，它结合了计算机图形学、机器学习、计算机视觉和数学来自动处理和理解3D几何。3D传感器如LiDAR的快速发展以及其在AR/VR行业的广泛应用，导致3D表示学习获得了越来越多的关注。其潜在应用每天都在增长。

尽管现有的框架在3D模型架构、任务导向建模和学习目标方面取得了显著进展，但大多数研究都在相对较小的规模上进行，数据、参数和任务场景有限。学习可扩展的3D表示的挑战，这些表示可以应用于不同环境中的实时应用，仍然基本上没有被探索。

随着时间的推移，近年来，扩大预训练的大型语言模型已经帮助革命性地改变了自然语言处理领域，最近的工作表明，从语言到2D的进展可以通过数据和模型扩大实现，这为开发人员提供了尝试和重新尝试这种成功来学习可扩展和转移到实际应用的3D表示的机会。

Uni3D是一个可扩展和统一的预训练3D框架，旨在学习大规模3D表示，测试其在超过10亿参数、10万张图像和7千万文本以及超过100万3D形状的规模上的极限。下图比较了Uni3D框架在零样本设置中的准确率与参数。Uni3D框架成功地将3D表示从600万扩大到超过10亿。

Uni3D框架由2D ViT或视觉变换器作为3D编码器，端到端预训练，以将图像文本特征与3D点云特征对齐。Uni3D框架使用预文任务和简单的架构来利用大量预训练的2D模型和图像文本对齐模型作为初始化和目标，从而释放2D模型和策略在3D世界中的全部潜力。

Uni3D框架的灵活性和可扩展性通过以下方面来衡量：

扩大模型规模，从600万到超过10亿参数。
从2D初始化到文本监督的视觉自监督学习。
文本图像目标模型扩大，从1.5亿到超过10亿参数。

在Uni3D提供的灵活和统一的框架下，开发人员在扩大每个组件时观察到性能的连贯提升。大规模3D表示学习也从共享的2D和扩大策略中受益。

如图所示，Uni3D框架在零样本和少样本设置中显示出与先前艺术作品相比的性能提升。值得注意的是，Uni3D框架在ModelNet上返回超过88%的零样本分类准确率，与多个最先进的监督方法的性能相当。

此外，Uni3D框架在执行其他代表性3D任务（如部件分割和开放世界理解）时也表现出色。Uni3D框架旨在通过扩大3D基础模型和统一的预训练方法来学习更强大的3D表示，以弥合2D和3D视觉之间的差距，并促进模态的收敛。

Uni3D：相关工作

Uni3D框架从以前的3D表示学习和基础模型（尤其是在不同模态下）的发展中汲取灵感和教训。

3D表示学习

3D表示学习方法使用点云来理解3D对象，这个领域近期被开发人员广泛探索。已经观察到这些点云可以使用特定的3D预文任务（包括掩码点建模、自重建和对比学习）进行自监督预训练。

值得注意的是，这些方法通常使用有限的数据，并且通常不探索从2D或NLP到3D的多模态表示。然而，CLIP框架最近的成功表明，使用对比学习方法可以从原始文本中学习视觉概念，并进一步尝试通过使用相同的对比学习方法来学习3D表示，以对齐图像、文本和点云特征。

基础模型

开发人员一直致力于设计基础模型来扩大和统一多模态表示。例如，在NLP领域，开发人员一直致力于扩大预训练语言模型的框架，这正在革命性地改变NLP行业。另外，在2D视觉领域也可以观察到进展，因为开发人员正在致力于使用数据和模型扩大的框架来促进语言到2D模型的进展，尽管这些框架对于3D模型来说很难复制，因为3D数据的可用性有限，并且存在统一和扩大3D框架的挑战。

通过学习上述两个工作领域，开发人员创建了Uni3D框架，这是第一个具有超过10亿参数的3D基础模型，使用统一的ViT或视觉变换器架构，允许开发人员使用统一的3D或NLP扩大策略来扩大Uni3D模型。开发人员希望这种方法将使Uni3D框架能够弥合2D和3D视觉之间的差距，并促进模态的收敛。

Uni3D：方法和架构

上图展示了Uni3D框架的概述，一个可扩展和统一的预训练3D框架，用于大规模3D表示学习。开发人员使用超过7千万文本、10万张图像和超过100万3D形状来扩大Uni3D框架到超过10亿参数。Uni3D框架使用2D ViT或视觉变换器作为3D编码器，端到端预训练，以将图像文本数据与3D点云特征对齐，从而实现高效和准确的结果。

让我们更详细地了解Uni3D框架的工作原理。

扩大Uni3D框架

以前的点云表示学习研究传统上专注于设计特定的模型架构，以实现更好的性能和更广泛的应用，并且通常使用有限的数据和小规模数据集。然而，最近的研究尝试了在3D中使用可扩展的预训练，但由于3D数据的可用性有限，结果并不显著。为了解决3D框架的可扩展性问题，Uni3D框架利用了类似于视觉变换器的vanilla变换器结构，可以通过使用统一的2D或NLP扩大策略来扩大模型规模。

初始化Uni3D

扩大3D表示的另一个重大挑战是收敛和过拟合的问题，这些问题是由于模型的大小而导致的。克服这一挑战的一种有效方法是使用特定的3D预文任务来预训练单个3D骨架，并初始化预训练参数。然而，这种方法需要高昂的训练成本，并且由于3D数据的可用性有限，很难为跨模态学习建立强大的初始化。

Uni3D框架利用了类似于ViT的vanilla变换器结构，可以自然地采用其他模态的预训练大型模型来初始化Uni3D框架。

多模态对齐

Uni3D框架尝试通过使用类似于OpenShape和ULIP框架的范式来学习图像、语言和点云之间的多模态对齐。为了确保与其他方法的公平比较，Uni3D框架使用OpenShape的集合3D数据集进行训练。这个集合数据集由OpenShape包含4个3D数据集：

Objaverse。
ShapeNet。
3D-FUTURE。
ABO。

实验和结果

Uni3D框架在不同的设置和各种分类任务中进行了测试，包括零样本和少样本设置、开放世界理解等。让我们更详细地了解这些结果。

零样本形状分类

为了评估Uni3D框架在零样本形状分类任务中的性能，开发人员在三个基准测试中进行了实验，包括ModelNet、ScanObjNN和Objaverse-LVIS基准测试数据集。ModelNet和ScanObjNN是广泛用于分类任务的数据集，分别包含15个和40个对象类别，而Objaverse-LVIS基准测试是一个包含超过40,000个对象和1,100多个类别的清理和注释数据集。框架之间的比较如图所示，Uni3D框架在不同设置中显著优于以前的最先进框架。

少样本线性探测

在AI中，线性探测是一种常用的方法，用于评估框架或模型学习的表示。为了评估Uni3D的线性探测能力，开发人员使用OpenShape的常用设置冻结了Uni3D框架的参数。然后，开发人员使用少样本类标签训练了一个线性分类器。下图展示了不同框架在Objaverse-LVIS数据集上的线性探测能力，展示了模型在10个随机种子上的平均性能。如图所示，Uni3D框架在不同少样本设置中显著优于现有方法。

开放世界理解

为了评估Uni3D框架在实时理解真实世界形状和对象的能力，开发人员使用ScanNet和CLIP数据集来探索Uni3D的性能。值得注意的是，场景的ground truth实例分割是可用的，主要目标是识别每个场景的个别实例的类别，在零样本设置中。结果如图所示，Uni3D框架在执行真实世界理解和识别时表现出色。尽管Uni3D框架从未在真实世界数据集上训练过，但它仍然优于现有框架。

跨模态检索

Uni3D框架学习的多模态表示可以使框架能够从文本或图像中检索3D形状。为了检索3D形状，模型计算3D形状的嵌入和查询文本提示或查询图像的嵌入之间的余弦相似度。然后，框架使用KNN或K最近邻算法生成最类似于查询的3D形状，结果如图所示。如图所示，Uni3D框架成功地使用真实世界图像检索3D形状。值得注意的是，训练图像仅用于渲染目的，真实世界图像和训练图像之间的差距很大。另外，模型还可以使用两个输入图像来检索两个输入图像都类似的形状，方法是使用两个图像的嵌入平均值和3D形状的嵌入之间的余弦相似度。结果很有趣，因为它们展示了Uni3D学习多样3D表示和感知多个2D信号的能力。

在第一列中，框架使用两个查询图像来返回最类似于查询图像的3D形状。在第二列中，框架使用两个输入图像来检索两个输入图像都类似的3D形状。最后，在最后一列中，模型使用查询文本来返回最类似于文本查询的3D形状。

最后的想法

在本文中，我们讨论了Uni3D，一个可扩展和统一的预训练3D框架，旨在学习大规模3D表示，测试其在超过10亿参数、10万张图像和7千万文本以及超过100万3D形状的规模上的极限。开发人员创建了一个带有类似于ViT的vanilla变换器结构的框架，可以使用统一的2D或NLP扩大策略来扩大Uni3D模型。另外，Uni3D框架可以利用大量预训练的2D框架和2D策略来扩大到3D世界。实验结果已经展示了Uni3D框架的巨大潜力，因为它在各种设置中返回准确和高效的结果，并优于现有的最先进框架。

Unite.AI