通过直视控制无人机

发布时间 2021 年 9 月 13 日

马丁安德森

中国研究人员开发出一种新算法，可以通过直接解读用户视觉来控制无人机飞行。实际上，人类操作员“成为”无人机，并根据用户的注视方向引导其飞行轨迹。

左下角显示的是用户的视角，无人机的飞行路径由一个阴影设备从外部捕捉。文章末尾的视频提供了更详细的全动态画面。 资料来源：https://www.youtube.com/watch?v=WYujLePQwB8

这个纸叫做 GPA-远程操作：凝视增强感知感知安全辅助空中远程操作，来自浙江大学信息系统与控制研究所、南京工程学院自动化学院的研究人员。研究人员今天还发布了一段视频，展示了该系统的功能（见文章末尾）。

研究人员正在寻求消除无人机控制的抽象层，他们认为二级控制单元需要训练，并且只是对用户意图的粗略抽象，从而导致不可预测的操纵和对制导动作的误解。

今年早些时候，同一研究人员发表的一篇论文强调了无人机导航中视线可见性的重要性，目前的工作是对以下研究结果的进一步发展：那项研究.

上图为无人机测试实验室“突击训练”的飞行轨迹合成图（见结尾视频，了解在自然露天环境下进行的外部测试）。下图为操作员佩戴的眼动仪，其数据通过四旋翼无人机前置摄像头（右下）的直接视角进行采集。资料来源：https://arxiv.org/pdf/2109.04907.pdf

GPA 使用后端优化器，将用户的视线细化到最安全的最佳路径，可以说相当于视频游戏中的“自动瞄准”，而且延迟几乎为零（原因很明显）。

无人机子系统模块直接安装在无人机中，包括状态估计、规划、测绘和控制模块的设施。本地系统从最终用户安装在头戴式安全带中的单眼单元接收眼睛注视数据，该单元提供初始拓扑路径，系统必须即时清理该路径。

为了为遥控器创造连贯的体验，用户接收到的单色视图由机载无人机系统自动居中，尤其是因为如果没有这个系统，将很难解释新的预期路线偏差（如改变注视方向）。

该系统首先解析来自图像流的估计矢量坐标。由于研究人员系统的视频输入目前是单目，因此摄像头的感知深度边界用于获取第二个（深度）矢量，并将其叠加到从图像导出的二维矢量上。理论上，后续迭代可以使用立体摄像头来改进此流程，但额外的处理开销是否能保留基于硬件的三维感知的优势仍有待观察。

在任何情况下，通过获得 3D 值，计算结果将用作广度优先搜索（BFS）。否则将被 BFS 排除的像素（即识别为已在边界内的像素）被用作锚点 DBSCAN聚类（如果尚未聚类），并且例程从最后一个断点恢复到 BFS 评估。

GPA 的架构。

该过程不断迭代，直到在与视场（FOV - 在这种情况下，必须绝对清晰以避免碰撞）相对应的边缘参数内识别和标记对象。

最后，使用矢量计算来生成清晰的路径，或者验证用户的注视方向是否已经是穿过或越过障碍物的安全路径。

测试系统忽略可见性的情况（左）以及重新计算轨迹以将可见性视为飞行路径关键的情况（右）。

为了测试基于凝视的无人机控制系统，中国研究人员使用了一系列对该系统零知识且没有控制无人机飞行经验的志愿者。受试者被要求在封闭和外部环境中通过障碍路线，仅通过三个简短的定向例程来熟悉系统的基本操作。

此外，在向志愿者介绍了障碍物的基本拓扑结构后，研究人员还添加了简报中未包括的“意外障碍”。

上图是在线四旋翼无人机的轨迹，按高度着色。下面是可通行的障碍物，从盒子开始，一直到环。

在实践中，该系统能够有效地校正注视数据，从而使所使用的空间关键型无人机能够无碰撞地通过（或穿过）环形和盒状障碍物，研究人员得出的结论是，他们的系统既是直观、安全，操作安全系数高。

研究人员还将他们的方法与 FocusTrack 架构的性能进行了比较雄霸航空2 系统，得出的结论是，它通过能够衡量精确的用户意图并采取行动而优于后者。

眼动追踪技术在基于机器学习的 SDV 系统的自动驾驶车辆数据收集、飞行员注意力模式研究等领域得到了广泛的研究。今年7月，来自保加利亚的一个研究小组出版对无人机 (UAV) 飞行员的观察发现，飞行的着陆阶段对于新手来说是最具挑战性的。

请查看下面研究人员的 GPA 官方视频。

联合人工智能