Anderson 视角

可以躲避行人识别系统的“秘密路线”

发布于 2025年1月28日

更新于 2026年5月19日

作者

Martin Anderson

ChatGPT-4o: Variation on prompt: ‘a 1792x1024 feature image depicting an orthogonal ariel view looking down on NYC's 42nd street area. Most of the image should have a blue hue, but within the sidewalk areas there should be red-tinted pathways indicated, like a kind of map route. Make it like The Sims.’

一项由以色列和日本合作的新研究声称，行人检测系统具有固有的弱点，允许了解情况的个人通过仔细规划的路线来躲避面部识别系统，这些路线经过的是监控网络最不有效的区域。

利用来自东京、纽约和旧金山的公共可用视频，研究人员开发了一种自动计算此类路径的方法，基于最可能在公共网络中使用的最流行的物体识别系统。

研究中使用的三个十字路口：东京日本的涩谷十字路口，纽约的百老汇，旧金山的卡斯特罗区。 来源：https://arxiv.org/pdf/2501.15653

通过这种方法，可以生成 置信热图，它标记出摄像头视频流中行人最不可能提供正面面部识别的区域：

右侧，我们看到研究人员方法生成的置信热图。红色区域表示低置信度，和一个配置的姿势、摄像头姿势和其他因素可能会阻碍面部识别。

理论上，这种方法可以被用来开发一个位置感知应用程序，或其他平台来分发从A到B的最不“识别友好”的路径，在任何计算位置。

新论文提出了这种方法，称为 基于位置的隐私增强技术 (L-PET)；它还提出了一个对策，称为 基于位置的自适应阈值 (L-BAT)，它基本上运行相同的例程，但然后使用这些信息来加强和改进监控措施，而不是想办法避免被识别；在许多情况下，这样的改进将不可能在没有进一步投资于监控基础设施的情况下实现。

论文因此建立了一个潜在的技术升级战之间的对立，寻求优化他们的路线以避免被检测和监控系统使用面部识别技术的能力。

以前的躲避检测方法不如这个那么优雅，集中在对抗性方法上，例如 TnT 攻击，和使用打印图案来混淆检测算法。

2019 年的工作‘欺骗自动化监控摄像头：对抗性补丁攻击人体检测’展示了一个对抗性打印图案，能够说服识别系统没有人被检测到，允许一种‘隐身’。来源：https://arxiv.org/pdf/1904.08653

研究人员观察到，他们的方法需要较少的准备，无需设计对抗性可穿戴物品（见上图）。

这篇论文的标题是《一种不使用对抗性配件的行人检测躲避技术》，来自五位来自以色列本古里安大学和富士通公司的研究人员。

方法和测试

按照之前的工作，如对抗性面具，AdvHat，对抗性补丁，和其他类似的工作，研究人员假设行人“攻击者”知道正在使用的物体检测系统。这实际上不是一个不合理的假设，因为像 YOLO 这样的最先进的开源系统被广泛采用在监控系统中，如思科和超光学（目前 YOLO 开发的核心驱动力）。

这篇论文还假设行人可以访问互联网上固定在要计算的位置的直播流，这在大多数可能有强烈覆盖的地区是一个合理的假设。

例如 511ny.org 提供了许多监控摄像头的访问权限。 来源：https://511ny.or

除了这些之外，行人需要访问所提出的方法，并且需要访问场景本身（即要建立“安全”路线的交叉路口和路线）。

为了开发 L-PET，作者们评估了行人角度与摄像头的关系；摄像头高度的影响；距离的影响；以及时间的影响。为了获得基准真值，他们在 0°、45°、90°、135°、180°、225°、270° 和 315° 的角度拍摄了一张人像照片。

研究人员进行的基准真值观察。

他们在三个不同的摄像头高度（0.6m、1.8m、2.4m）和不同的照明条件（早晨、下午、晚上和“实验室”条件）下重复了这些变化。

将这些视频输入 Faster R-CNN 和 YOLOv3 物体检测器后，他们发现物体的置信度取决于行人的角度、距离、摄像头高度和天气/照明条件*。

作者们然后测试了更广泛的物体检测器在相同的场景中：Faster R-CNN；YOLOv3；SSD；DiffusionDet；和 RTMDet。

作者们说：

‘我们发现所有五种物体检测器架构都受到行人位置和环境光的影响。另外，我们发现对于五种模型中的三种（YOLOv3、SSD 和 RTMDet），这种影响在所有环境光照水平下都存在。’

为了扩大范围，研究人员使用了来自东京、纽约和旧金山三个地点的公共交通摄像头的视频。

每个地点提供了五到六个录制的视频，每个录制的视频大约有四个小时的录像。为了分析检测性能，每两秒钟从录制的视频中提取一帧，并使用 Faster R-CNN 物体检测器进行处理。对于获得的帧中的每个像素，方法估计了“人”检测边界框在该像素中存在的平均置信度。

‘我们发现，在所有三个地点，物体检测器的置信度都取决于帧中的人的位置。例如，在涩谷十字路口的视频中，有大面积的低置信度区域，离摄像头较远，以及离摄像头较近的地方，一根柱子部分遮挡了行人的视线。’

L-PET 方法基本上就是这个过程，据称被“武器化”以获得一个城市区域的路径，这条路径最不可能导致行人被成功识别。

相比之下，L-BAT 跟随相同的过程，区别在于它更新了检测系统中的分数，创建了一个反馈循环，旨在消除 L-PET 方法并使系统的“盲点”更加有效。

(在实际操作中，然而，基于获得的热图来改进覆盖范围将需要不仅仅是升级摄像头；根据测试标准，包括位置，它将需要安装额外的摄像头来覆盖被忽略的区域——因此可以认为 L-PET 方法将这种“冷战”升级为一个非常昂贵的场景)

在卡斯特罗街的观察区域，分析了五个视频中的每个像素的行人检测平均置信度，使用了不同的检测器框架。每个视频都在不同的照明条件下录制：日出、白天、日落和两个不同的夜间设置。结果分别针对每个照明场景进行了展示。

将像素矩阵表示转换为适合该任务的图表示后，研究人员修改了 Dijkstra 算法来计算行人导航区域的最优路径，以最小化检测置信度，将高置信度区域视为具有更高“成本”的区域。这种改进使算法能够识别通过盲点或低检测区域的路径，有效地引导行人沿着对监控系统的可见性降低的路径行进。

一个可视化，展示了场景的热图从像素矩阵表示转换为图表示的过程。

研究人员评估了 L-BAT 系统对行人检测的影响，使用了从四个小时的公共行人交通录制中构建的数据集。为了填充集合，每两秒钟处理一帧，使用 SSD 物体检测器。

从每一帧中，选择一个包含检测到的人的边界框作为正样本，并使用一个随机区域没有检测到的人作为负样本。这些双样本形成了一个用于评估两个 Faster R-CNN 模型的数据集——一个应用了 L-BAT，另一个没有应用。

模型的性能通过检查它们识别正样本和负样本的准确性来评估：一个与正样本重叠的边界框被认为是真阳性，而一个与负样本重叠的边界框被标记为假阳性。

用于确定 L-BAT 检测可靠性的指标是曲线下面积 (AUC)；真阳性率 (TPR)；假阳性率 (FPR)；和平均真阳性置信度。研究人员断言，使用 L-BAT 增强了检测置信度，同时保持了高真阳性率（尽管假阳性略有增加）。

总之，作者们指出，这种方法有一些局限性。其中一个是由他们的方法生成的热图特定于一天中的某个时间。虽然他们没有详细说明，但这表明需要一个更大、多层次的方法来更灵活地处理一天中的时间。

他们还观察到，热图不会转移到不同的模型架构，并且与特定的物体检测器模型绑定。由于提出的工作本质上是一个概念验证，可能也可以开发出更为精致的架构来解决这个技术债务。

结论

任何一种新型攻击方法，其解决方案是“购买新的监控摄像头”，都有一定的优势，因为在高度监控的地区扩展市政摄像头网络可能是政治上具有挑战性的，并且代表了一项通常需要选民授权的重大市政开支。

也许这项工作提出的最大的问题是 ‘是否有闭源监控系统利用开源 SOTA 框架，如 YOLO？’。这是当然无法知道的，因为这些系统的制造商会认为，这可能会使他们暴露在攻击之下。

尽管如此，政府 IT 和自有代码迁移到全球和开源代码的趋势表明，任何人测试作者的说法（例如使用 YOLO）可能会立即获得成功。

* 我通常会包含提供的相关表格结果，但在这种情况下，论文的表格对于普通读者来说并不具有启发性，因此总结更为有用。

首次发表于 2025 年 1 月 28 日

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

可以躲避行人识别系统的“秘密路线”

方法和测试

结论

发现更多