Spojte se s námi

„Tajné cesty“, které mohou zmařit systémy rozpoznávání chodců

Umělá inteligence

„Tajné cesty“, které mohou zmařit systémy rozpoznávání chodců

mm
ChatGPT-4o: Variace na výzvu: 'obrázek s rozlišením 1792 x 1024 zobrazující ortogonální pohled ariel shlíží na 42. ulici v New Yorku. Většina obrázku by měla mít modrý odstín, ale v oblastech chodníků by měly být vyznačeny červeně zbarvené cesty, jako druh trasy na mapě. Udělejte to jako The Sims.“

Nová výzkumná spolupráce mezi Izraelem a Japonskem tvrdí, že systémy detekce chodců mají inherentní slabiny, které umožňují dobře informovaným jedincům vyhýbat se systémům rozpoznávání obličejů procházením pečlivě naplánovaných tras přes oblasti, kde jsou sledovací sítě nejméně účinné.

S pomocí veřejně dostupné záběry z Tokia, New Yorku a San Francisca výzkumníci vyvinuli automatizovanou metodu výpočtu takových cest, založenou na nejpopulárnějších systémech rozpoznávání objektů, které se pravděpodobně používají ve veřejných sítích.

Tři přechody použité ve studii: Shibuya Crossing v Tokiu, Japonsko; Broadway, New York; a Castro District, San Francisco. Zdroj: https://arxiv.org/pdf/2501.15653

Tři přechody použité ve studii: Shibuya Crossing v Tokiu, Japonsko; Broadway, New York; a Castro District, San Francisco. Zdroj: https://arxiv.org/pdf/2501.15653

Touto metodou je možné generovat teplotní mapy důvěry které vymezují oblasti v rámci kamery, kde je nejmenší pravděpodobnost, že chodci zaznamenají pozitivní zásah při rozpoznání obličeje:

Vpravo vidíme teplotní mapu spolehlivosti vytvořenou metodou výzkumníků. Červené oblasti označují nízkou sebedůvěru a konfiguraci postoje, pozice kamery a další faktory, které pravděpodobně brání rozpoznání obličeje.

Vpravo vidíme teplotní mapu spolehlivosti vytvořenou metodou výzkumníků. Červené oblasti označují nízkou sebedůvěru a konfiguraci postoje, pozice kamery a další faktory, které pravděpodobně brání rozpoznání obličeje.

Teoreticky by taková metoda mohla být instrumentalizována do aplikace uvědomující si polohu nebo do nějaké jiné platformy pro šíření cest z A do B, které jsou nejméně „přívětivé pro rozpoznávání“ v jakémkoli vypočítaném místě.

Nový článek takovou metodiku navrhuje s názvem Technika pro zvýšení soukromí na základě polohy (L-PET); také navrhuje protiopatření s názvem Adaptivní prahová hodnota založená na umístění (L-BAT), která v podstatě používá přesně tytéž rutiny, ale poté využívá informace k posílení a zlepšení opatření dozoru, místo aby vymýšlela způsoby, jak se vyhnout uznání; a v mnoha případech by taková zlepšení nebyla možná bez dalších investic do sledovací infrastruktury.

Dokument proto nastoluje potenciální technologickou eskalační válku mezi těmi, kteří se snaží optimalizovat své trasy, aby se vyhnuli odhalení, a schopností sledovacích systémů plně využívat technologie rozpoznávání obličejů.

Dřívější metody detekce fólií jsou méně elegantní než tyto a jsou v centru pozornosti protichůdné přístupy, Jako TnT útoky, a použití tištěné vzory zmást detekční algoritmus.

Práce z roku 2019 „Oklamání automatických sledovacích kamer: záplaty protivníka pro detekci osob napadajících“ demonstrovala nepřátelský tištěný vzor schopný přesvědčit rozpoznávací systém, že není detekována žádná osoba, což umožňuje určitý druh „neviditelnosti“. Zdroj: https://arxiv.org/pdf/1904.08653

Práce z roku 2019 „Oklamání automatických sledovacích kamer: záplaty protivníka pro detekci osob napadajících“ demonstrovala nepřátelský tištěný vzor schopný přesvědčit rozpoznávací systém, že není detekována žádná osoba, což umožňuje určitý druh „neviditelnosti“. Zdroj: https://arxiv.org/pdf/1904.08653

Výzkumníci stojící za novým dokumentem pozorují, že jejich přístup vyžaduje méně přípravy, bez nutnosti vymýšlet nepřátelské nositelné předměty (viz obrázek výše).

Jedno papír je s názvem Technika pro zvýšení soukromí, jak se vyhnout detekci pouličními videokamerami bez použití doplňkového příslušenstvía pochází od pěti výzkumníků z Ben-Gurion University of the Negev a Fujitsu Limited.

Metoda a testy

V souladu s předchozími díly jako např Maska protivníka, AdvHat, adversarial patchea různé další podobné výlety, vědci předpokládají, že „útočník“ chodců ví, který systém detekce objektů je používán v sledovací síti. To ve skutečnosti není nepřiměřený předpoklad, vzhledem k širokému zavádění nejmodernějších open source systémů, jako je YOLO, v sledovacích systémech od podobných Cisco si Ultralytika (v současnosti hlavní hnací silou ve vývoji YOLO).

Dokument také předpokládá, že chodec má přístup k živému přenosu na internetu, který je pevně stanoven na místech, která mají být vypočítána, což je opět rozumný předpoklad na většině míst, která pravděpodobně mají intenzitu pokrytí.

Stránky jako 511ny.org nabízejí přístup k mnoha kamerám v oblasti NYC. Zdroj: https://511ny.or

Stránky jako 511ny.org nabízejí přístup k mnoha sledovacím kamerám v oblasti NYC. Zdroj: https://511ny.or

Kromě toho potřebuje chodec přístup k navrhovanému způsobu a ke scéně samotné (tj. přechodům a trasám, na kterých má být zřízena „bezpečná“ cesta).

Pro vývoj L-PET autoři hodnotili vliv úhlu chodce ve vztahu ke kameře; vliv výšky kamery; vliv vzdálenosti; a vliv denní doby. Aby získali základní pravdu, vyfotografovali osobu v úhlech 0°, 45°, 90°, 135°, 180°, 225°, 270° a 315°.

Pozorování pozemní pravdy provedená výzkumníky.

Pozorování pozemní pravdy provedená výzkumníky.

Tyto variace opakovali ve třech různých výškách kamery (0.6 m, 1.8 m, 2.4 m) a za různých světelných podmínek (ráno, odpoledne, noc a „laboratorní“ podmínky).

Přivádění těchto záběrů do Rychlejší R-CNN si YOLOv3 detektory objektů, zjistili, že spolehlivost objektu závisí na ostrosti úhlu chodce, vzdálenosti chodce, výšce kamery a povětrnostních/světelných podmínkách*.

Autoři poté testovali širší škálu detektorů objektů ve stejném scénáři: Rychlejší R-CNN; YOLOv3; SSD; DiffusionDetA RTMDet.

Autoři uvádějí:

„Zjistili jsme, že všech pět architektur detektorů objektů je ovlivněno polohou chodce a okolním světlem. Kromě toho jsme zjistili, že u tří z pěti modelů (YOLOv3, SSD a RTMDet) efekt přetrvává při všech úrovních okolního osvětlení.“

K rozšíření rozsahu vědci použili záběry pořízené z veřejně dostupných dopravních kamer na třech místech: Shibuya Crossing v Tokiu, Broadway v New Yorku a Castro District v San Franciscu.

Každá lokace poskytla pět až šest nahrávek s přibližně čtyřmi hodinami stopáže na nahrávku. Pro analýzu výkonu detekce byl každé dvě sekundy extrahován jeden snímek a zpracován pomocí detektoru objektů Faster R-CNN. Pro každý pixel v získaných snímcích metoda odhadla průměrnou spolehlivost ohraničujících rámečků detekce „osoby“ přítomných v tomto pixelu.

„Zjistili jsme, že na všech třech místech se spolehlivost detektoru objektů lišila v závislosti na umístění lidí v záběru. Například na záběrech Shibuya Crossing jsou velké oblasti s nízkou spolehlivostí dále od kamery, stejně jako blíže ke kameře, kde sloup částečně zakrývá procházející chodce.“

Metoda L-PET je v podstatě tento postup, pravděpodobně „vyzbrojený“ k získání cesty přes městskou oblast, u které je nejméně pravděpodobné, že povede k úspěšnému rozpoznání chodce.

Naproti tomu L-BAT se řídí stejným postupem, s tím rozdílem, že aktualizuje skóre v detekčním systému, čímž vytváří zpětnovazební smyčku navrženou tak, aby se vyhnula přístupu L-PET a aby byly „slepé oblasti“ systému efektivnější.

(Z praktického hlediska by však zlepšení pokrytí na základě získaných teplotních map vyžadovalo více než jen upgrade kamery sedící v očekávané poloze; na základě testovacích kritérií, včetně umístění, by vyžadovalo instalaci dalších kamer k pokrytí zanedbaných oblasti – lze tedy tvrdit, že metoda L-PET eskaluje tuto konkrétní „studenou válku“ do velmi nákladného scénáře)

Průměrná spolehlivost detekce chodců pro každý pixel, napříč různými detektory, v pozorované oblasti Castro Street, analyzovaná na pěti videích. Každé video bylo nahráno za různých světelných podmínek: východ slunce, den, západ slunce a dvě různá noční nastavení. Výsledky jsou uvedeny samostatně pro každý scénář osvětlení.

Průměrná spolehlivost detekce chodců pro každý pixel, napříč různými detektory, v pozorované oblasti Castro Street, analyzovaná na pěti videích. Každé video bylo nahráno za různých světelných podmínek: východ slunce, den, západ slunce a dvě různá noční nastavení. Výsledky jsou uvedeny samostatně pro každý scénář osvětlení.

Po převedení maticové reprezentace založené na pixelech na a grafická reprezentace vhodné pro daný úkol, výzkumníci upravili Dijkstrův algoritmus pro výpočet optimálních cest pro chodce, aby mohli procházet oblastmi se sníženou detekcí dohledu.

Namísto hledání nejkratší cesty byl algoritmus upraven tak, aby minimalizoval spolehlivost detekce a považoval oblasti s vysokou spolehlivostí za oblasti s vyššími „náklady“. Tato úprava umožnila algoritmu identifikovat trasy procházející slepými úhly nebo zónami s nízkou detekcí a účinně navádět chodce po stezkách se sníženou viditelností k sledovacím systémům.

Vizualizace znázorňující transformaci tepelné mapy scény z matice založené na pixelech do zobrazení založeného na grafu.

Vizualizace znázorňující transformaci tepelné mapy scény z pixelové matice do grafické reprezentace.

Vědci vyhodnotili vliv systému L-BAT na detekci chodců pomocí datové sady sestavené ze zmíněných čtyřhodinových záznamů veřejného chodu. K naplnění kolekce byl zpracován jeden snímek každé dvě sekundy pomocí detektoru objektů SSD.

Z každého snímku byl vybrán jeden ohraničující rámeček obsahující detekovanou osobu jako pozitivní vzorek a další náhodná oblast bez detekovaných osob byla použita jako negativní vzorek. Tyto dvojité vzorky tvořily soubor dat pro vyhodnocení dvou modelů Faster R-CNN – jeden s aplikovanou L-BAT a jeden bez.

Výkon modelů byl hodnocen kontrolou toho, jak přesně identifikovaly pozitivní a negativní vzorky: ohraničující rámeček překrývající pozitivní vzorek byl považován za skutečně pozitivní, zatímco ohraničující rámeček překrývající negativní vzorek byl označen jako falešně pozitivní.

Metriky používané ke stanovení spolehlivosti detekce L-BAT byly Oblast pod křivkou (AUC); skutečně pozitivní sazba (TPR); falešně pozitivní četnost (FPR); a průměrné skutečné pozitivní sebevědomí. Výzkumníci tvrdí, že použití L-BAT zvýšilo spolehlivost detekce při zachování vysoké skutečné pozitivní míry (i když s mírným zvýšením falešných pozitivních výsledků).

Na závěr autoři poznamenávají, že tento přístup má určitá omezení. Jedním z nich je, že tepelné mapy generované jejich metodou jsou specifické pro konkrétní denní dobu. Ačkoli to nevysvětlují, znamenalo by to, že by byl zapotřebí větší, víceúrovňový přístup, který by zohlednil denní dobu ve flexibilnějším nasazení.

Pozorují také, že heatmapy se nepřenesou do různých modelových architektur a jsou vázány na konkrétní model detektoru objektů. Vzhledem k tomu, že navrhovaná práce je v podstatě důkazem konceptu, pravděpodobně by bylo také možné vyvinout šikovnější architektury, které by tento technický dluh napravily.

Proč investovat do čističky vzduchu?

Jakákoli nová metoda útoku, pro kterou je řešením „platba za nové sledovací kamery“, má určitou výhodu, protože rozšiřování sítí občanských kamer ve vysoce sledovaných oblastech může být politicky náročné, stejně jako představují významné občanské výdaje, které budou obvykle potřebovat mandát voliče.

Možná největší otázka, kterou práce klade, je "Využívají uzavřené sledovací systémy open source SOTA rámce, jako je YOLO?". To je samozřejmě nemožné vědět, protože tvůrci proprietárních systémů, které pohánějí tolik státních a občanských kamerových sítí (alespoň v USA), by tvrdili, že odhalení takového použití by je mohlo otevřít k útoku.

Nicméně migrace vládního IT a vnitropodnikového proprietárního kódu na globální a otevřený zdrojový kód by naznačovala, že kdokoli testuje spor autorů s (například) YOLO, by mohl okamžitě vyhrát jackpot.

 

* Normálně bych zahrnul výsledky souvisejících tabulek, když jsou uvedeny v článku, ale v tomto případě je složitost tabulek v článku činí pro běžného čtenáře neosvětlujícími, a proto je užitečnější shrnutí.

Poprvé zveřejněno v úterý 28. ledna 2025