监控

AI 揭示空白墙壁揭示的秘密活动

Published September 9, 2021

Updated April 28, 2026

Martin Anderson

一项研究合作，包括来自 NVIDIA 和 MIT 的贡献者，开发了一种机器学习方法，可以仅通过观察附近墙壁上的间接照明来识别隐藏的人，即使这些人不在照明光源附近。该方法在尝试识别隐藏人数时的准确率接近 94%，还可以通过大量放大对人类眼睛和标准图像放大方法不可见的光线反弹来识别隐藏人员的具体活动。

新方法放大不可察觉的光线扰动，使用卷积神经网络识别变化区域。 来源：https://www.youtube.com/watch?v=K4PapXyX-bI

新论文标题为《盯着空白墙壁可以学到什么》，由 NVIDIA 和 MIT 以及以色列理工学院的贡献者共同完成。

以前的“看到墙外”的方法依赖于可控光源或已知遮挡源的先验知识，而新技术可以推广到任何新房间，无需重新校准。用于识别隐藏人员的两个卷积神经网络仅使用 20 个场景的数据。

该项目针对高风险、安全关键情况，用于搜索和救援操作、一般执法监视任务、紧急响应场景、老年人跌倒检测以及自动驾驶车辆检测隐藏行人。

被动评估

与计算机视觉项目一样，中心任务是识别、分类和操作化图像流中的感知状态变化。连接这些变化会导致可以用于识别个体数量或检测一个或多个个体活动的特征模式。

这项工作开启了完全被动场景评估的可能性，无需使用反射表面、Wi-Fi 信号、雷达、声音或其他“特殊情况”，这些都是近年来其他研究努力中为了在危险或关键环境中建立隐藏的人类存在而采用的方法。

新研究中使用的样本数据收集场景。受试者仔细摆放，以免投射阴影或直接遮挡任何光源，并且不允许使用反射表面或其他“作弊”向量。 来源：https://arxiv.org/pdf/2108.13027.pdf

有效地，典型应用场景中的环境光会淹没由隐藏人员反射光线引起的微小扰动。研究人员计算，个体的光线扰动贡献通常小于总可见光的 1%。

去除静态照明

为了从静态墙壁图像中提取运动，需要计算视频的时间平均值并从每一帧中去除它。结果的运动模式通常低于良好质量的视频设备的噪声阈值，实际上大部分运动发生在负像素空间中。

为了解决这个问题，研究人员将视频下采样 16 倍，然后将结果视频上采样 50 倍，同时添加中灰色基准来判断负像素的存在（这些不能被基线视频传感器噪声解释）。

人类感知的墙壁与提取的隐藏个体扰动之间的差异。由于图像质量是此研究的核心问题，请参阅文章末尾的官方视频以获取更高质量的图像。

感知运动的时间窗口非常脆弱，甚至可以受到 60 Hz 交流频率的灯光闪烁的影响。因此，这种自然扰动也必须在运动出现之前从视频中评估和去除。

最后，系统生成了信号特定数量的隐藏房间居民的空间时间图 – 离散的视觉特征：

代表房间中隐藏人员数量的特征空间时间图。

不同的人类活动也会导致可以分类和识别的特征扰动：

不活动、行走、蹲下、挥手和跳跃的空间时间图特征。

为了产生自动化的机器学习基于工作流程用于隐藏人员识别，使用了 20 个适当场景的多样化视频来训练两个在广泛相似配置上运行的神经网络 – 一个用于计算场景中的人数，另一个用于识别发生的任何运动。

测试

研究人员在 10 个未见过的真实世界环境中测试了训练好的系统，这些环境旨在重现最终部署的限制。系统能够在分类隐藏人员数量时达到 94.4% 的准确率（在 256 帧中，通常刚好超过 8 秒的视频），并在分类活动时达到 93.7% 的准确率（在相同条件下）。虽然准确率会随着源帧数量的减少而降低，但它并不是线性的降低，即使 64 帧也可以达到 79.4% 的“人员数量”评估准确率（相对于四倍的帧数几乎达到 95%）。

虽然该方法对基于天气的照明变化具有鲁棒性，但它在电视照亮的场景中或人员穿着与反射墙壁相同颜色的单色服装的情况下会遇到困难。

更多关于该研究的详细信息，包括提取的更高质量视频，可以在文章末尾的官方视频中看到。

Unite.AI

AI 揭示空白墙壁揭示的秘密活动

被动评估

去除静态照明

测试

You may like