使用视觉位置识别进行室内用户定位

发布时间 2021 年 12 月 22 日

乔维塔·凯斯勒

视觉地点识别是的基石之一计算机视觉开发和机器人技术。 VPR 算法的任务是根据图像识别检查位置。该技术可以支持自主机器人和人类劳动力，识别周围环境并促进执行所需的操作。

研究人员 NeuroSYS 利用计算机视觉算法作为开发的 AR 平台的一部分，纳斯流，实现交互式工作指导和实践培训，以在接受现场培训时确定用户位置。在这种情况下，由于减少了事先培训和监督的需要，使用 VPR 可以显着加速入职和学习过程。

使用 GPS 定位一个人或找到想要的地方已经是老新闻了。但是当卫星导航系统无法运行时该怎么办呢？室内定位系统 (IPS) 正在发挥作用。

当大海捞针时，您可以利用各种技术，包括信标、磁定位、带有加速计和陀螺仪的惯性测量单元 (IMU)、测量从最后已知点开始的运动、基于 Wi-Fi 的定位，或者简单地说——利用视觉标记。

所有上述方法都有其缺陷（例如需要安装标记或信标、IMU 随着时间的推移增加测量误差并需要重新定位），超过了它们的优点。事实证明，解决关键问题（精确到最近几米的一般用户行踪）的解决方案属于算法的范围。

此识别地点的过程依赖于两步过程，创建两个数据库。最初，对目标地点进行拍照，并由特征检测器标记某些项目、关键点，以识别该区域的特征元素。然后，将标记点与参考图像进行比较。一旦特征匹配器认为评估的关键点足够相似，图片就有资格显示相同的地方。

此 图像数据库 结合了目标位置的图片（在本例中为工作空间）及其一组属性，包括唯一标识符，后跟本地和全局描述符。另一组，则 房间数据库，将奇异关键点与所考虑空间中的某些区域进行匹配。

研究人员利用视觉位置识别领域的 SuperPoint、SuperGlue 和 netVLAD 神经网络，将上述过程用于用户定位。深度神经网络 SuperPoint 和 SuperGlue 协作进行特征检测和匹配，从数据库中提取信息。

全局描述符登场

该过程需要全局描述符，作为区分地点的向量，以明确的方式识别区域。为了发挥其作用，向量应该与照明和视角无关——无论视角和照明条件如何，全局描述符在区分不同图片中的位置时都应该毫无疑问。

此外，感兴趣区域中存在的变量对象不应受全局描述符的约束，作为区分位置的特征。家具和设备等物品很容易发生变化（重新装修、拆除），这意味着它们无法通过它们的存在来定义区域。

计算机视觉驱动地点识别依赖于检查位置的永久性元素，如门、窗、楼梯和其他具有持久性的独特物品。在相关研究过程中，使用深度神经网络 NetVLAD 进行计算，从而呈现出满足设定要求的向量。在全局描述符匹配过程中，处理最相似向量的图像，然后计算每个特征锚点之间的距离。

当处理两个数据库（房间数据库和另一个数据库，包含关键点和全局描述符）时，系统处理图像的属性。在执行相似性和最短距离估计后，第二个神经网络 SuperGlue 识别位置图像。简而言之，使用 VPR 的系统可以根据匹配关键点的数量进行用户定位。

该算法在以下领域得到应用：人工智能与增强现实平台帮助用户佩戴智能眼镜进行培训。VPR 能够识别受训人员在工作场所的定位，并根据特定地点启动相应的教程和指南，从而提高安全性并减少对直接监督的需求。

作为智能增长运营计划的一部分，该项目由欧洲区域发展基金下的欧盟基金共同资助。项目作为国家研究与发展中心的一部分实施：快速通道。