Connect with us

Unite.AI

神经部件：分解原始形状以获得有意义的推理几何

人工智能

神经部件：分解原始形状以获得有意义的推理几何

Published June 22, 2021

Updated April 28, 2026

By

Martin Anderson

近年来，能够从静态单个图像生成 3D 几何的系统已经大量涌现，但是它们获得的物体往往是“融合”在一起的，没有任何真正的语义模式来反映这些部件如何贡献于整体。

有很多很好的理由来生成具有有意义的部件划分的分层推理模型，包括工业分析、医学研究和成像应用、自动为视频游戏、模拟器和 VR/AR 环境生成几何、视觉特效 rigging 等。

近年来开发的许多方法，例如超二次曲面形状解析，产生的结果不太令人满意，并且难以使该领域的状态超越 cuboid 风格的指示性切片。

超二次曲面和其他方法提供的粗略或广义代表性子部件的推理图像。来源：https://www.youtube.com/watch?v=6WK3B0IZJsw

超二次曲面和其他方法提供的粗略或广义代表性子部件的推理图像。 来源：https://www.youtube.com/watch?v=6WK3B0IZJsw

然而，来自马克斯·普朗克研究所的新研究，题为 神经部件：使用可逆神经网络学习富有表现力的 3D 形状抽象，提供了一种新的神经原始 3D 表示系统，创建语义上有用的部分。

以前的方法可以分解大型推理对象，但不是以语义上有用的方式。右侧，神经部件方法创建更实用的碎片。来源：https://paschalidoud.github.io/neural_parts

以前的方法可以分解大型推理对象，但不是以语义上有用的方式。右侧，神经部件方法创建更实用的碎片。 来源：https://paschalidoud.github.io/neural_parts

该分割是通过可逆神经网络（INN）实现的，使用条件同胚将基本几何形状变形为原始形状，反之亦然，计算两个方向的拓扑层次结构。这样，每个原始形状都与一个可学习的原始嵌入相关联，以生成该原始形状的形状嵌入。

架构

神经部件需要在重构质量和原始形状完整性之间取得平衡，因为复杂的原始形状会使系统趋向于复杂的解构。因此，神经部件的架构被设计为以一种优雅的方式平衡这些相互矛盾的考虑。

神经部件架构由一个特征提取器组成，映射输入向量，并且有一个条件同胚组件，学习由形状嵌入条件的同胚映射。

特征提取器的初始部分使用 ResNet-18 组件提取特征图像。条件同胚组件使用真值非体积保持（真实 NVP）变换模块。

评估

该系统被测试在三个数据集上 – 2017 年的动态 FAUST（D-FAUST）、FreiHAND(2019) 和斯坦福大学 2015 年的流行 ShapeNet。 D-FAUST 包含 38,640 个以人为中心的网格，这对于比较是合适的，而 FreiHAND 中的前 5000 个手势被用于生成网格。对于 ShapeNet，研究人员遵循斯坦福研究人员在 2016 年概述的相同类别特定训练。

测试是针对原始形状方法进行的，包括超二次曲面、CvxNet 和 H-SQs。

在 ShapeNet 下，研究人员发现神经部件模型比 CvxNet 在 5 和 25 个原始形状的水平上产生更准确的重构。数据库中的一些较简单的物体，例如椅子，根本没有足够的几何结构来进行有意义的解构。

对于 FreiHAND，神经部件产生了更几何准确的重构，捕捉了更好的细节，例如拇指位置。研究人员指出，相比之下，CvxNet 和 SQs 更专注于一般的核心结构，并缺乏这些细节。

对于动态 FAUST，CvxNet 和 SQs 被比较为使用五个原始形状来捕捉最初从数据中推断的人体的完整性。神经部件能够实现更平滑的分割，而不会牺牲拓扑的基本要素。

未来工作

研究人员计划通过使用可微渲染技术来扩展神经部件，以研究那些不直接提供目标网格的研究。由于当前神经部件框架中使用的基本形状是基本球体，研究人员也正在考虑使用更复杂和更具表现力的几何原始形状。

Related Topics:Computer Vision research

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai