人工智能
能够破坏行人识别系统的“秘密路线”

一项由以色列和日本联合开展的新研究合作表明,行人检测系统具有固有的弱点,允许了解内情的个人通过仔细规划路线,避免在监控网络中最不有效的区域被面部识别系统识别。
在使用公开的监控视频的帮助下,来自东京、纽约和旧金山的研究人员开发了一种自动计算此类路径的方法,基于最可能在公共网络中使用的最流行的物体识别系统。

研究中使用的三个十字路口:东京日本的涩谷十字路口;纽约的百老汇;旧金山的卡斯特罗区。 来源:https://arxiv.org/pdf/2501.15653
通过这种方法,可以生成置信热图,标记出摄像头画面中行人不太可能提供正面面部识别结果的区域:

在右边,我们看到研究人员方法生成的置信热图。红色区域表示低置信度,以及可能阻碍面部识别的姿势、摄像头姿势和其他因素的配置。
理论上,这种方法可以被 instrumentalized 成为一个位置感知应用程序,或其他类型的平台,以分发从 A 到 B 的最不“识别友好”的路径,在任何计算位置。
新论文提出了这种方法论,标题为基于位置的隐私增强技术(L-PET);它还提出了一个对策,标题为基于位置的自适应阈值(L-BAT),它本质上运行相同的例程,但然后使用信息来加强和改进监控措施,而不是想出方法来避免被识别;在许多情况下,这样的改进将不可能在没有进一步投资监控基础设施的情况下实现。
该论文因此建立了一个潜在的技术升级战之间的对立,寻求优化他们的路线以避免被检测和监控系统使用面部识别技术的能力。
破坏检测的先前方法不如这个方法优雅,集中在对抗性方法,例如TnT攻击,以及使用打印图案来混淆检测算法。

2019年的工作‘欺骗自动化监控摄像头:对抗性补丁攻击人检测’展示了一个对抗性打印图案,能够说服识别系统没有检测到人,从而实现了一种‘不可见性’。 来源:https://arxiv.org/pdf/1904.08653
研究人员观察到,他们的方法需要较少的准备,没有必要设计对抗性可穿戴物品(见上图)。
论文的标题为一种不使用对抗性配饰的街头视频摄像头检测规避隐私增强技术,来自五位研究人员,分别来自内盖夫本-古里安大学和富士通有限公司。
方法和测试
按照之前的工作,如对抗性面具、AdvHat、对抗性补丁,以及其他类似的尝试,研究人员假设行人“攻击者”知道监控网络中使用的物体检测系统。这实际上不是一个不合理的假设,因为像YOLO这样的最先进的开源系统被广泛采用在监控系统中,如思科和超光学(目前是YOLO开发的核心驱动力)。
该论文还假设行人可以访问互联网上固定在要计算位置的直播流,这在大多数可能有强烈监控的区域来说也是一个合理的假设。

511ny.org等网站提供了对纽约市许多监控摄像头的访问。 来源:https://511ny.or
除了这些,行人需要访问提出的方法和场景本身(即要建立“安全”路线的交叉路口和路线)。
为了开发L-PET,作者评估了行人角度对摄像头的影响;摄像头高度的影响;距离的影响;以及一天中的时间的影响。为了获得真实数据,他们在0°、45°、90°、135°、180°、225°、270°和315°角度拍摄了一张人像。

研究人员进行的真实数据观察。
他们在三个不同的摄像头高度(0.6m、1.8m、2.4m)和不同的照明条件(早晨、下午、晚上和“实验室”条件)下重复这些变化。
将这些视频输入Faster R-CNN和YOLOv3物体检测器,他们发现物体的置信度取决于行人的角度的锐度、行人的距离、摄像头高度和天气/照明条件*。
作者然后在相同场景中测试了一系列更广泛的物体检测器:Faster R-CNN;YOLOv3;SSD;DiffusionDet;和RTMDet。
作者指出:
‘我们发现所有五种物体检测器架构都受到行人位置和环境光的影响。另外,我们发现对于五种模型中的三种(YOLOv3、SSD和RTMDet),这种影响在所有环境光照水平下都存在。’
为了扩大范围,研究人员使用了从三个位置拍摄的公开交通摄像头的视频:东京的涩谷十字路口,纽约的百老汇和旧金山的卡斯特罗区。
每个位置提供了五到六段录像,每段录像大约有四个小时的视频。为了分析检测性能,每两秒钟从录像中提取一帧,并使用Faster R-CNN物体检测器进行处理。对于获得的帧中的每个像素,方法估计了“人”检测边界框存在于该像素中的平均置信度。
‘我们发现,在三个位置中,物体检测器的置信度都取决于帧中人的位置。例如,在涩谷十字路口的视频中,远离摄像头的地方有大面积的低置信度区域,以及靠近摄像头的地方,有一根柱子部分遮挡了过往的行人。’
L-PET方法本质上就是这个过程,可以说是“武器化”以获得一个通过城市区域的路径,该路径最不可能导致行人被成功识别。
相比之下,L-BAT遵循相同的程序,区别在于它更新检测系统中的分数,创建一个反馈循环,旨在消除L-PET方法并使系统的“盲点”更有效。
(在实际中,然而,基于获得的热图来改善覆盖范围,需要的不仅仅是升级预期位置的摄像头;根据测试标准,包括位置,这需要安装额外的摄像头来覆盖被忽略的区域——因此可以说L-PET方法将这种“冷战”升级为一个非常昂贵的场景)

在卡斯特罗街观察区域内,行人检测的平均置信度,跨不同检测器框架,分析了五个视频。每个视频是在不同的照明条件下录制的:日出、白天、日落和两个不同的夜间设置。结果分别针对每个照明场景进行呈现。
将像素 기반矩阵表示转换为适合该任务的图表示,研究人员改进了Dijkstra算法,以计算行人导航通过监控检测减少区域的最佳路径。
与其找到最短路径,算法被修改为最小化检测置信度,将高置信度区域视为具有更高“成本”的区域。这种改进使算法能够识别通过盲点或低检测区域的路径,有效地引导行人沿着对监控系统可见性降低的路径行进。

场景热图从像素矩阵表示转换为图表示的可视化。
研究人员使用从上述四小时公共行人流量录像构建的数据集评估了L-BAT系统对行人检测的影响。为了填充集合,每两秒钟处理一帧,使用SSD物体检测器。
从每一帧中,选择一个包含检测到的人的边界框作为正样本,另一个随机区域没有检测到人作为负样本。这些双样本形成了一个用于评估两种Faster R-CNN模型的数据集:一种应用了L-BAT,另一种没有。
模型的性能通过检查它们如何准确地识别正负样本来评估:一个与正样本重叠的边界框被认为是真阳性,而一个与负样本重叠的边界框被标记为假阳性。
用于确定L-BAT检测可靠性的指标包括曲线下面积(AUC);真阳性率(TPR);假阳性率(FPR);以及平均真阳性置信度。研究人员断言,使用L-BAT提高了检测置信度,同时保持了高真阳性率(尽管有轻微的假阳性增加)。
在结束时,作者指出这种方法有一些局限性。其中一个是由他们的方法生成的热图特定于一天中的某个时间。虽然他们没有详细说明,但这将表明需要一个更大、多层次的方法来更灵活地处理一天中的时间。
他们还观察到,热图不会转移到不同的模型架构,并且与特定的物体检测器模型绑定。由于提出的工作本质上是一个概念验证,可能也可以开发更为精巧的架构来解决这个技术债务。
结论
任何新攻击方法,其解决方案是“购买新监控摄像头”,都有一定的优势,因为在高度监控的区域扩展公民摄像头网络可能是政治上具有挑战性的,并且代表了一项重大公民开支,这通常需要选民的授权。
也许这个工作提出的最大问题是‘闭源监控系统是否使用开源SOTA框架,如YOLO?’。这是当然不可能知道的,因为制造商们会认为披露此类使用可能会使他们暴露于攻击之下。
然而,政府IT和自有代码向全球开源代码的迁移表明,任何人都可能使用(例如)YOLO来测试作者的说法,并且可能会立即获得成功。
* 我通常会在论文中包含相关表格结果,但在这种情况下,论文的表格太复杂,不能让普通读者明白,因此总结更有用。
首次发布于2025年1月28日,星期二












