Anderson 视角

从身体姿势检测眼神接触,使用机器学习

mm

来自法国和瑞士的研究人员开发了一种计算机视觉系统,可以仅凭借一个人站立或移动的方式来估计该人是否直接看着“自我”相机,即人工智能系统的相机。

该新框架使用非常简化的信息来进行这种评估,以语义关键点(见下图)的形式,而不是主要分析面部图像中的眼部位置。这使得所得到的检测方法非常轻量和敏捷,与更数据密集的目标检测架构(如YOLO)相比。

该新框架评估一个人是否在街上看着人工智能的捕获传感器,仅基于他们身体的摆放。这里,绿色高亮的人可能在看着相机,而红色高亮的人更可能在看别处。来源: https://arxiv.org/pdf/2112.04212.pdf

该新框架评估一个人是否在街上看着人工智能的捕获传感器,仅基于他们身体的摆放。这里,绿色高亮的人可能在看着相机,而红色高亮的人更可能在看别处。 来源: https://arxiv.org/pdf/2112.04212.pdf

尽管这项工作是由开发更好的自动驾驶车辆安全系统的愿望所驱动,但该论文的作者们承认,它可以在其他行业中具有更广泛的应用,指出 ‘即使在智能城市中,眼神接触检测也可以有助于更好地理解行人的行为,例如确定他们的注意力在哪里或他们正在看什么公共标志’

为了促进这项工作和随后的系统的进一步发展,研究人员编制了一份新的、全面的数据集,称为LOOK,它直接解决了在任意场景(如街景、自驾车相机捕获的场景或机器人导航的场景)中眼神接触检测的特定挑战。该数据集涵盖了四个城市的多样化捕获:波士顿、新加坡、图宾根和帕洛阿尔托。作者们声称,LOOK是最多样化的“野外”眼神接触检测数据集,包含大约8000个标记的行人视角。

框架的结果,绿色高亮表示“看者”

框架的结果,绿色高亮表示“看者”

研究 的标题为 行人是否注意?野外眼神接触检测,来自瑞士Visual Intelligence for Transportation(VITA)研究计划的四名研究人员和巴黎索邦大学的一名研究人员。

架构

在该领域的大多数以前的工作都集中在驾驶员注意力上,使用机器学习分析驾驶员面部相机的输出,并依赖于对驾驶员的固定、近距离和清晰的视图——这种视图不太可能在公共电视摄像头的低分辨率视频中可用,在这种视频中,人们可能太远而无法通过面部分析系统确定他们的眼神方向,而且其他遮挡(如墨镜)也会干扰。

更重要的是,自动驾驶车辆的外置摄像头可能无法获得最佳视角,使“低级”关键点信息成为基于姿势的眼神分析框架的理想基础。自动驾驶车辆系统需要一种快速响应、闪电般快速的方法来判断行人是否看到了自动驾驶车辆——在行人可能步入车道的情况下,延迟可能意味着生死的差异。

研究人员开发的模块化架构接受一个人的全身图像(通常),从中提取2D关节到一个基本的、骨架化的形式。

新法國/瑞士眼神接触检测系统的架构

新法國/瑞士眼神接触检测系统的架构

姿势被归一化以去除Y轴上的信息,创建一个“平面”的姿势表示,这使其与算法学习的成千上万个已知姿势(同样被“平面化”)及其相关的二进制标志/标签(即 0:不看 1:看)保持一致。

姿势被比较到算法内部知识中,以确定该姿势与其他被识别为“看着相机”的行人图像的匹配程度——这些注释是使用作者为亚马逊 Mechanical Turk 工作人员开发的自定义浏览器工具创建的,这些工作人员参与了 LOOK 数据集的开发。

LOOK 中的每个图像都经过四名 AMT 工作人员的审查,只有四分之三工作人员同意结果的图像才被包含在最终集合中。

头部剪裁信息是以前工作中最不可靠的指标之一,在任意城市场景中,它是架构中一个可选的数据流,仅当捕获质量和覆盖范围足以支持关于该人是否在看相机的决定时才会被纳入。

数据

研究人员从几个不适合此任务的先前数据集中推导出LOOK。只有两个数据集直接共享该项目的范围: JAADPIE,每个都有局限性。

JAAD 是 2017 年由多伦多约克大学提供的,包含 39 万个标记的行人示例,包括边界框和行为注释。其中,只有 17,000 个被标记为 看着驾驶员(即自我相机)。该数据集包含 346 个 30fps 的片段,运行在 5-10 秒的车载摄像头录像中,录制于北美和欧洲。JAAD 有很高的重复率,唯一的行人总数只有 686。

最近(2019 年)的 PIE 来自多伦多约克大学,与 JAAD 类似,因为它具有车载 30fps 录像,这次来自六个小时的驾驶录像,来自多伦多市中心,产生了 70 万个注释的行人和 1,842 个唯一的行人,只有 180 个在看相机。

相反,新论文的研究人员从三个先前的自动驾驶数据集中编制了最合适的数据: KITTIJRDBNuScenes,分别来自德国卡尔斯鲁厄理工学院、澳大利亚斯坦福大学和莫纳什大学以及曾经的麻省理工学院分支机构 Nutonomy。

该策划结果产生了来自四个城市(波士顿、 新加坡、 图宾根和帕洛阿尔托)的广泛捕获集。作者们声称,LOOK 是“野外”眼神接触检测中最多样化的数据集,包含大约 8000 个标记的行人视角。

训练和结果

提取、训练和评估都在单个 NVIDIA GeForce GTX 1080ti 上进行,具有 11GB 的 VRAM,运行在 3.20GHz 的 Intel Core i7-8700 CPU 上。

作者发现,他们的方法不仅改进了最先进的基准至少 5%,而且在JAAD上训练的模型对未见数据推广得非常好,这是通过混合多个数据集进行交叉测试得到的结果。

由于测试很复杂,并且必须为基于剪裁的模型提供条件(而面部隔离和剪裁并不是该新计划的架构的核心),请参阅论文以获取详细的结果。

JAAD 数据集的平均精度(AP)结果,以百分比和像素中的边界框高度表示,作者的结果以粗体表示。

JAAD 数据集的平均精度(AP)结果,以百分比和像素中的边界框高度表示,作者的结果以粗体表示。

研究人员已公开发布了他们的代码,数据集可在 这里 获取,源代码可在 GitHub 上获取。

作者们以希望他们的工作能够激发进一步的研究努力为结尾,研究的是他们所说的 ‘重要但被忽视的话题’

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai