Connect with us

歩行者認識システムを妨げることができる「秘密ルート」

人工知能

歩行者認識システムを妨げることができる「秘密ルート」

mm
ChatGPT-4o: Variation on prompt: ‘a 1792x1024 feature image depicting an orthogonal ariel view looking down on NYC's 42nd street area. Most of the image should have a blue hue, but within the sidewalk areas there should be red-tinted pathways indicated, like a kind of map route. Make it like The Sims.’

イスラエルと日本の新しい研究協力は、歩行者検出システムには内在的な弱点があり、情報に基づいた個人によって、注意深く計画されたルートを通じて、監視ネットワークが最も効果的でないエリアをナビゲートすることで、顔認識システムを回避することができることを主張している。

東京、ニューヨーク、サンフランシスコの公開されている映像を使用して、研究者は、公共のネットワークで使用される可能性のある最も人気のあるオブジェクト認識システムに基づいて、suchパスの自動計算方法を開発した。

研究で使用された3つの交差点:東京の渋谷交差点、日本;ニューヨークのブロードウェイ;サンフランシスコのカストロ地区。ソース:https://arxiv.org/pdf/2501.15653

研究で使用された3つの交差点:東京の渋谷交差点、日本;ニューヨークのブロードウェイ;サンフランシスコのカストロ地区。 ソース:https://arxiv.org/pdf/2501.15653

この方法では、信頼度ヒートマップを生成することが可能であり、カメラ映像内で歩行者が顔認識システムによって正確に検出される可能性が低いエリアを示す。

右側の画像は、研究者の方法によって生成された信頼度ヒートマップである。赤いエリアは信頼度が低く、姿勢、カメラの向き、その他の要因が顔認識を妨げる可能性が高いことを示す。

右側の画像は、研究者の方法によって生成された信頼度ヒートマップである。

理論的には、such方法は、特定の場所での最も「認識に適さない」パスをAからBまで計算するためのロケーションアウェアアプリまたはプラットフォームに組み込むことができる。

新しい論文では、Location-based Privacy Enhancing Technique(L-PET)と呼ばれるsuch方法論を提案している。また、Location-Based Adaptive Threshold(L-BAT)と呼ばれる対策も提案しており、基本的に同じルーチンを実行するが、代わりに情報を使用して監視措置を強化し、改善する。

論文は、監視システムの能力と、検出を避けるために最適なルートを探す能力の間の潜在的な技術的エスカレーション戦争を提案している。

検出を妨げる前の方法は、such方法ほど優雅ではなく、対抗的なアプローチ、such as TnT Attacks、および印刷されたパターンを使用して検出アルゴリズムを混乱させることに焦点を当てている。

2019年の研究「Fooling automated surveillance cameras: adversarial patches to attack person detection」は、人物検出を攻撃するために対抗的な印刷パターンを実証した。ソース:https://arxiv.org/pdf/1904.08653

2019年の研究「Fooling automated surveillance cameras: adversarial patches to attack person detection」は、人物検出を攻撃するために対抗的な印刷パターンを実証した。 ソース:https://arxiv.org/pdf/1904.08653

研究者は、彼らのアプローチでは、対抗的な着用アイテムを設計する必要がないことを観察している。

論文は、A Privacy Enhancing Technique to Evade Detection by Street Video Cameras Without Using Adversarial Accessoriesと題され、ベン・グリオン大学と富士通の5人の研究者によって執筆された。

方法とテスト

以前の研究、such as Adversarial MaskAdvHat対抗的なパッチ、および他の類似の研究と同様に、研究者は、歩行者「攻撃者」が監視ネットワークで使用されているオブジェクト検出システムを知っていることを前提としている。これは、YOLOのような最先端のオープンソースシステムが監視システムで広く採用されているため、実際には妥当な仮定である。

論文では、歩行者がインターネット上の特定の場所のライブストリームにアクセスできることも前提としているが、これは監視カメラの配置が濃密な場所では妥当な仮定である。

511ny.orgのようなサイトは、ニューヨーク市内の多くの監視カメラへのアクセスを提供している。ソース:https://511ny.or

511ny.orgのようなサイトは、ニューヨーク市内の多くの監視カメラへのアクセスを提供している。 ソース:https://511ny.or

これ以外に、歩行者は提案された方法とシーンそのもの(つまり、安全なルートを確立するための交差点とルート)へのアクセスが必要である。

L-PETを開発するために、著者は、歩行者の角度がカメラに対してどのように影響するか、カメラの高さがどのように影響するか、距離がどのように影響するか、1日の時間がどのように影響するかを評価した。

研究者によって実施されたグラウンドトゥルース観測。

研究者によって実施されたグラウンドトゥルース観測。

これらのバリエーションを3つの異なるカメラ高さ(0.6m、1.8m、2.4m)で繰り返し、さまざまな照明条件(朝、午後、夜、そして「ラボ」条件)で実施した。

これらの映像をFaster R-CNNYOLOv3オブジェクト検出器に供給すると、オブジェクトの信頼度は歩行者の角度、距離、カメラの高さ、天候/照明条件によって異なることがわかった。

著者は、さらに多くのオブジェクト検出器を同じシナリオでテストした:Faster R-CNN;YOLOv3;SSDDiffusionDet;およびRTMDet

著者は次のように述べている:

『すべての5つのオブジェクト検出器アーキテクチャが歩行者の位置と周囲光によって影響されることがわかった。また、5つのモデル(YOLOv3、SSD、RTMDet)の3つでは、すべての周囲光レベルで影響が持続することがわかった。』

範囲を拡大するために、研究者は東京の渋谷交差点、ニューヨークのブロードウェイ、サンフランシスコのカストロ地区の3つの場所で公開されている交通カメラからの映像を使用した。

各場所では、約4時間の映像が5〜6回録画された。検出性能を分析するために、2秒ごとに1フレームが抽出され、Faster R-CNNオブジェクト検出器で処理された。

取得したフレームの各ピクセルについて、方法は「人物」検出バウンディングボックスが存在する可能性の平均信頼度を推定した。

『3つの場所すべてで、オブジェクト検出器の信頼度がフレーム内の人の位置によって異なることがわかった。たとえば、渋谷交差点の映像では、カメラから遠く離れた場所や、歩行者が通過するときにポールが部分的に遮る近くの場所に、信頼度が低い大きなエリアがある。』

L-PET方法は、基本的に、都市部を通る最も認識されにくいパスを取得するために「兵器化」されたこの手順である。

一方、L-BATは同じ手順を実行するが、検出システムのスコアを更新して、L-PETアプローチを無効化し、システムの「盲点」をより効果的にするためのフィードバックループを作成する。

(実際には、取得したヒートマップに基づいてカバレッジを改善するには、単にカメラをアップグレードするだけでなく、見落とされたエリアをカバーするために追加のカメラを設置する必要があるため、L-PET方法はこの特定の「冷戦」を非常に高価なシナリオにエスカレートさせる。)

カストロストリートの観測エリアの各ピクセルに対する平均歩行者検出信頼度。さまざまな検出器フレームワークで、5つのビデオを分析した。各ビデオは、日出、昼、日没、2つの異なる夜間設定の異なる照明条件で録画された。結果は、各照明シナリオごとに別々に提示される。

カストロストリートの観測エリアの各ピクセルに対する平均歩行者検出信頼度。

ピクセルベースの行列表現をタスクに適したグラフ表現に変換した後、研究者は、歩行者が監視システムに検出される可能性が低いエリアを通過する最適なパスを計算するために、Dijkstraアルゴリズムを適応させた。

代わりに、最短パスを見つけるのではなく、検出信頼度を最小化し、高信頼度領域を「コスト」の高い領域として扱うことで、アルゴリズムは盲点や低検出領域を通過するパスを識別することができた。

シーンのヒートマップをピクセルベースの行列からグラフベースの表現に変換するプロセスを示す視覚化。

シーンのヒートマップをピクセルベースの行列からグラフベースの表現に変換するプロセスを示す視覚化。

研究者は、L-BATシステムが歩行者検出に与える影響を、4時間の録画から構築されたデータセットを使用して評価した。

データセットを構築するために、2秒ごとに1フレームが処理され、Faster R-CNNオブジェクト検出器を使用して、1つのフレームから1つのバウンディングボックスが選択され、検出された人物を含む正のサンプルとして使用され、検出された人物を含まないランダムなエリアが負のサンプルとして使用された。

これらのツインサンプルは、L-BATが適用されたFaster R-CNNモデルと適用されていないFaster R-CNNモデルの2つを評価するためのデータセットを形成した。

モデルの性能は、正のサンプルと負のサンプルをどの程度正確に識別できるかによって評価された:正のサンプルと重なり合うバウンディングボックスは真の陽性とみなされ、負のサンプルと重なり合うバウンディングボックスは偽の陽性とラベル付けされた。

L-BATの検出信頼度を決定するために使用されたメトリックは、面積下のカーブ(AUC);真の陽性率(TPR);偽の陽性率(FPR);および平均真の陽性信頼度であった。

研究者は、L-BATの使用によって検出信頼度が向上し、真の陽性率が高く維持された(ただし、偽の陽性がわずかに増加した)と主張している。

結論として、著者は、アプローチにはいくつかの限界があることを指摘している。1つは、生成されるヒートマップが特定の1日の時間に特有であることである。さらに、ヒートマップは異なるモデルアーキテクチャに転送できないことがわかっている。

結論

新しい攻撃方法に対する解決策が「新しい監視カメラの購入」である場合、そのような方法にはいくつかの利点がある。なぜなら、高度に監視されているエリアでの市民カメラネットワークの拡大は、政治的に課題であり、通常、投票者の承認が必要な大きな公的費用を表すからである。

おそらく、研究によって提起される最大の疑問は、『閉じたソースの監視システムは、YOLOのようなオープンソースの最先端フレームワークを利用しているか』である。当然、これはわからない。なぜなら、米国(少なくとも)での多くの国家および市民カメラネットワークを動かしている、独自の監視システムの製造元は、そのような使用を公開することは攻撃につながる可能性があると主張するからである。

しかしながら、政府のITや社内独自のコードが、グローバルかつオープンソースのコードに移行していることから、著者の主張を(たとえばYOLOで)テストすることは、すぐに大きな成功を収めることができるかもしれない。

 

* 通常、論文に含まれている関連する表の結果を含めるが、この場合、論文の表の複雑さにより、読者にとってあまり参考にならないため、要約はより役立つ。

初めて2025年1月28日に公開された。

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。