为盲人绘制路径，机器学习的新突破

发布于 2021年7月8日

更新于 2026年5月24日

作者

Martin Anderson

德国最新研究提出了一种新颖的、基于GPU的便携式系统，帮助视力障碍人士在现实世界中导航。该系统解决了实时计算机视觉框架中的一个核心挑战——识别玻璃和其他透明障碍。

来自卡尔斯鲁厄理工学院的论文详细介绍了一个用户佩戴的系统，称为Trans4Trans，包括一副智能眼镜连接到便携式GPU外壳，有效地是一个轻量级笔记本电脑，捕获640×480像素的RGB和深度图像，并将其传递给语义分割框架。

Trans4Trans系统的移动传感器。 来源:https://arxiv.org/pdf/2107.03172.pdf

系统的感官反馈能力得到了骨传导耳机的增强，耳机会对环境障碍发出声响反馈。

Trans4Trans系统还在Microsoft HoloLens 2增强现实设备上进行了测试，实现了对潜在危险障碍（如玻璃门）的完全和一致的分割（即识别）。

Trans4Trans在HoloLens 2上运行。

Trans4Trans采用双重方法，使用基于变压器的编码器和解码器，并利用专有的变压器配对模块(TPM)，能够收集密集分区的嵌入生成的特征图，而基于变压器的解码器能够一致地解析其配对编码器的特征图。

Trans4Trans的架构。

每个TPM由一个基于变压器的层组成，对于系统的低资源消耗和便携性至关重要。解码器包含四个对称阶段，用于编码器，每个阶段都有一个TPM模块分配。系统通过将多个方法的功能集成到一个连贯的系统中来节省资源，而不是在线性工作流中部署两个单独的模型。

系统使用的眼镜集成了RealSense R200 RGB-D传感器，而主机则包含一个Jetson AGX XavierNVIDIA GPU，专为嵌入式系统设计，具有384个NVIDIA CUDA核心和48个Tensor核心。

R200提供斑点投影和被动立体匹配，使其适用于室内和室外环境。斑点设施在评估透明表面时特别有益，因为它增强和阐明了传入的视觉数据，而不会被极端光源所迷惑。传感器的红外功能也有助于获得明显的几何形状和形成可行的深度图，这对于障碍物避免至关重要。

系统需要在足够的数据频率和过多信息之间取得平衡，因为佩戴者需要通过音频反馈和振动反馈清晰地感知环境。

因此，Trans4Trans人为地限制了反馈数据的数量，使用一个默认阈值设置为一米，而不是强迫用户学习多个振动设置以适应不同距离的即将到来的物体和障碍。

Trans4Trans系统在两个处理透明物体分割的数据集上进行了测试：Trans10K-V2，来自香港大学等，其中包含10,428张透明物体的图像，用于验证、训练和测试；以及Stanford2D3D数据集，包含70,496张混合透明度物体的图像，分辨率为1080×1080。

Trans10K数据集的图像和对应的掩码。 来源:https://arxiv.org/pdf/2101.08461.pdf

Stanford2D3D系统在运行。 来源:http://buildingparser.stanford.edu/dataset.html

在测试中，Trans4Trans还能够分割由Trans2Seg 计划在2021年初发布的透明物体，这些物体以前被误分类，而Trans4Trans需要的GFLOPS较少来计算和分割表面。

与Trans2Seq不同，后者使用基于CNN的编码器和基于变压器的解码器，Trans4Trans使用仅基于变压器的编码器-解码器架构，超越了以前的方法，并且在PVT上有了显著的改进。

该算法还实现了针对特定数量透明类别的最先进结果，包括罐子、窗户、门、杯子、盒子和瓶子。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI