室内用户定位使用视觉场景识别

发布于 2021年12月22日

更新于 2026年5月24日

作者

Jowita Kessler

视觉场景识别是计算机视觉开发和机器人技术的基础。视觉场景识别算法的任务是根据图像识别检查过的位置。这种技术可以支持自主机器人和人类工作人员，识别周围环境并促进所需操作的执行。

研究人员在NeuroSYS利用计算机视觉算法作为开发的AR平台Nsflow的一部分，实现交互式工作指令和实践培训，以识别用户在现场培训期间的位置。在这种情况下，视觉场景识别的使用导致了入职和学习过程的显著加速，因为减少了对之前培训和监督的需求。

使用GPS定位一个人或找到所需的位置已经是老新闻了。但是，当基于卫星的导航系统不可用时该怎么办？室内定位系统（IPS）来救援。

当寻找一根针在一堆干草中时，可以使用各种技术，包括信标、磁性定位、惯性测量单元（IMU）带有加速度计和陀螺仪、从最后一个已知点测量运动、Wi-Fi基于定位或简单地使用视觉标记。

上述所有方法都有缺陷（例如，需要安装标记或信标，IMU随时间增加测量误差并需要重新定位），超过了它们的优点。解决关键问题——一般用户的位置，精度到几米——的解决方案被证明是在算法的范围内。

视觉场景识别过程依赖于一个两步骤的程序，创建两个数据库。最初，目标位置被拍摄，并且某些项目、关键点被特征检测器标记以识别该区域的特征元素。之后，标记的点被与参考图像进行比较。一旦被评估的关键点被特征匹配器认为足够相似，图像就被认为是显示同一个位置。

图像数据库图像数据库结合了目标位置的图像，在本例中是工作空间，并且包含一组属性，包括唯一标识符、局部和全局描述符。另一个数据库，房间数据库，匹配单个关键点与特定区域中的某些区域。

使用SuperPoint、SuperGlue和netVLAD神经网络从视觉场景识别领域，研究人员利用上述过程进行用户定位。深度神经网络SuperPoint和SuperGlue在特征检测和匹配中合作，提取数据库中的信息。

全局描述符登场

该过程需要全局描述符，作为区分位置的向量，识别区域的方式不具有任何歧义。为了履行他们的角色，向量应该是照明和视角无关的——无论视角和照明条件，全局描述符应该在区分不同图像中的位置时不留下任何疑问。

此外，区域内存在的可变物体不应被全局描述符作为区分位置的特征绑定。像家具和设备这样的物体容易发生变化（重新装饰、拆除），这意味着它们不能通过其存在来定义区域。

计算机视觉驱动的场景识别依赖于检查位置的永久元素，如门、窗、楼梯和其他具有长期性的独特物品。在相关研究中，深度神经网络NetVLAD用于计算，结果向量满足设置的要求。在全局描述符匹配的过程中，处理最相似的向量图像，按照特征锚点之间的距离进行计算。

处理两个数据库——房间数据库和另一个包含关键点和全局描述符的数据库——系统处理图像的属性。执行相似性和最短距离估计后，第二个神经网络SuperGlue识别位置图像。使用视觉场景识别的系统允许基于匹配关键点的数量进行用户定位。

算法在AI和AR平台中得到了应用，帮助用户使用智能眼镜进行培训。视觉场景识别使得在工作场所中对受训人员进行定位成为可能，启动分配给特定位置的适当教程和指南，提高安全性，减少对直接监督的需求。项目由欧洲联盟资金在智能增长运营计划的框架内作为国家研究和发展中心：快速通道的一部分共同资助。

项目由欧洲联盟资金在智能增长运营计划的框架内作为国家研究和发展中心：快速通道的一部分共同资助。

Jowita Kessler

Jowita Kessler 是一位位于波兰的科技爱好者，在 NeuroSYS 担任内容营销专员。是一位强迫性读者和写作爱好者，致力于消除人文和技术之间的障碍。私下里：白日梦者和夜行者，猫和蝙蝠的粉丝。