Anderson 视角
AI 揭示空白墙所揭示的秘密活动

一项由 NVIDIA 和 MIT 贡献者的研究合作开发了一种机器学习方法,可以仅通过观察附近墙壁上的间接照明来识别隐藏的人,即使这些人不在照明光源附近。该方法在尝试识别隐藏人数时的准确率接近 94%,还可以通过大幅放大对人类眼睛和标准图像放大方法不可见的光线反弹来识别隐藏人员的具体活动。

新方法放大了光线的微小变化,使用卷积神经网络来识别变化区域。 来源:https://www.youtube.com/watch?v=K4PapXyX-bI
新论文的标题是《你可以通过盯着空白墙学到什么》,由 NVIDIA、MIT 和以色列理工学院的贡献者共同完成。
以前的“看到墙外”的方法依赖于可控光源或已知遮挡源的先验知识,而新的技术可以推广到任何新房间,无需重新校准。两个识别隐藏人员的卷积神经网络仅使用 20 个场景的数据进行训练。
该项目的目标是高风险、安全关键情况下的搜索和救援行动、一般执法监视任务、紧急响应场景、老年人跌倒检测以及作为自动驾驶车辆检测隐藏行人的手段。
被动评估
与计算机视觉项目一样,中心任务是识别、分类和操作化图像流中的感知状态变化。连接这些变化会产生可以用来识别个体数量或检测一个或多个个体活动的签名模式。
该工作开启了完全被动场景评估的可能性,无需使用反射表面、Wi-Fi 信号、雷达、声音或其他特殊情况,这些情况在其他近年来的研究中是必需的,以便在危险或关键环境中建立隐藏的人类存在。

新研究中使用的样本数据收集场景。 来源:https://arxiv.org/pdf/2108.13027.pdf
实际应用场景中的环境光通常会淹没由隐藏人员反射的光线微小变化。研究人员计算,个体的光线扰动贡献通常小于总可见光线的 1%。
去除静态照明
为了从静态墙壁图像中提取运动,需要计算视频的时间平均值并从每一帧中去除它。结果的运动模式通常低于甚至良好视频设备的噪声阈值,实际上大部分运动发生在负像素空间中。
为了解决这个问题,研究人员将视频下采样 16 倍,然后将结果视频上采样 50 倍,同时添加中灰色基准来识别负像素(这些不能被基线视频传感器噪声解释).

人类感知的墙壁与提取的隐藏个体扰动之间的差异。
感知运动的时间窗口非常脆弱,甚至可以被 60 Hz 的交流频率的灯光闪烁影响。因此,这种自然扰动也必须被评估和从视频中去除,然后才能出现人为运动。
最后,系统生成的时空图表明了特定数量的隐藏房间居民的离散视觉签名:

代表房间中隐藏人数的签名时空图。
不同的人类活动也会产生可以被分类和识别的签名扰动:

不活动、行走、蹲下、挥手和跳跃的时空图签名。
为了产生一个用于隐藏人员识别的自动机器学习工作流程,使用了 20 个适当场景的不同视频来训练两个在大致相同配置上运行的神经网络——一个用于计数场景中的人员数量,另一个用于识别发生的任何运动。
测试
研究人员在 10 个未见过的现实世界环境中测试了训练好的系统,这些环境旨在重现最终部署的限制。系统能够在分类隐藏人员数量时达到 94.4% 的准确率(在 256 帧或大约 8 秒的视频中),并在分类活动时达到 93.7% 的准确率(在相同条件下)。虽然准确率会随着源帧数的减少而降低,但这种降低并不是线性的,即使 64 帧也能达到 79.4% 的“人员数量”评估准确率(相比之下,四倍的帧数可以达到近 95% 的准确率)。
虽然该方法对基于天气的照明变化具有鲁棒性,但它在电视照亮的场景中或人员穿着与反射墙相同颜色的单色服装的情况下会遇到困难。
更多关于该研究的细节,包括更高质量的提取视频,可以在文章末尾的官方视频中看到。













