Umělá inteligence
‘Tajné trasy’, které mohou zmařit systémy rozpoznávání chodců

Nová výzkumná spolupráce mezi Izraelem a Japonskem tvrdí, že systémy rozpoznávání chodců mají vrozené slabosti, které umožňují dobře informovaným jedincům vyhnout se systémům rozpoznávání obličeje navigací po pečlivě naplánovaných trasách v oblastech, kde jsou sledovací sítě nejméně efektivní.
S pomocí veřejně dostupných záběrů z Tokia, New Yorku a San Francisca vyvinuli výzkumníci automatizovanou metodu pro výpočet takových cest, na základě nejpopulárnějších systémů rozpoznávání objektů, které jsou pravděpodobně používány ve veřejných sítích.

Tři přechody použité ve studii: Shibuya Crossing v Tokiu, Japonsko; Broadway, New York; a Castro District, San Francisco. Source: https://arxiv.org/pdf/2501.15653
Tuto metodu je možné použít k vygenerování map confidence, které označují oblasti v rámci kamery, kde chodci jsou nejméně pravděpodobně rozpoznáni:

Na pravé straně vidíme mapu confidence generovanou metodou výzkumníků. Červené oblasti označují nízkou confidence, a konfiguraci postoje, polohy kamery a dalších faktorů, které jsou pravděpodobně bránit rozpoznání obličeje.
Teoreticky by taková metoda mohla být instrumentalizována do lokací-aware aplikací nebo jiných platforem pro šíření nejméně “rozpoznávacích” cest z bodu A do bodu B v libovolné vypočítané lokalitě.
Nová práce navrhuje takovou metodologii, nazvanou Location-based Privacy Enhancing Technique (L-PET); navrhuje také protiopatření nazvané Location-Based Adaptive Threshold (L-BAT), které vlastně běží stejné rutiny, ale pak používá informace k posílení a zlepšení sledovacích opatření, místo toho, aby vymyslel způsoby, jak se vyhnout rozpoznání; a ve mnoha případech by taková zlepšení nebyla možná bez další investice do sledovací infrastruktury.
Práce tedy vytváří potenciální technologickou válku eskalace mezi těmi, kteří se snaží optimalizovat své trasy, aby se vyhnuli detekci, a schopností sledovacích systémů plně využívat technologie rozpoznávání obličeje.
Předchozí metody zmaření detekce jsou méně elegantní než tato, a soustředí se na adversativní přístupy, jako jsou TnT Attacks, a použití vytištěných vzorů k dezorientaci algoritmu detekce.

Práce z roku 2019 ‘Fooling automated surveillance cameras: adversarial patches to attack person detection’ prokázala adversativní vytištěný vzor schopný přesvědčit systém rozpoznávání, že nebyla detekována žádná osoba, umožňující jakýsi ‘neviditelnost’. Source: https://arxiv.org/pdf/1904.08653
Výzkumníci za novou prací pozorují, že jejich přístup vyžaduje méně přípravy, bez potřeby vymyslet adversativní nositelné předměty (viz obrázek výše).
Práce je nazvaná A Privacy Enhancing Technique to Evade Detection by Street Video Cameras Without Using Adversarial Accessories, a pochází od pěti výzkumníků z Ben-Gurion University of the Negev a Fujitsu Limited.
Metoda a testy
V souladu s předchozími pracemi, jako je Adversarial Mask, AdvHat, adversativní vzory, a různých dalších podobných prací, výzkumníci předpokládají, že chodec “útočník” ví, který objektový detekční systém je použit v sledovací síti. To je vlastně nepřiměřené předpoklad, kvůli širokému rozšíření otevřených zdrojových systémů, jako je YOLO, ve sledovacích systémech firem, jako je Cisco a Ultralytics (nyní centrální hnací síla ve vývoji YOLO).
Práce také předpokládá, že chodec má přístup k internetovému streamu v místě, které má být vypočítáno, což je opět přiměřený předpoklad ve většině míst, která mají intenzitu pokrytí.

Stránky, jako je 511ny.org, nabízejí přístup k mnoha sledovacím kamerám v oblasti NYC. Source: https://511ny.or
Kromě toho chodec potřebuje přístup k navrhované metodě a k samotné scéně (tj. přechodům a trasám, ve kterých má být stanoven “bezpečný” chod).
Pro vývoj L-PET vyhodnotili autoři účinek úhlu chodce vzhledem ke kameře; účinek výšky kamery; účinek vzdálenosti; a účinek času dne. Pro získání základních skutečností vyfotografovali osobu v úhlech 0°, 45°, 90°, 135°, 180°, 225°, 270° a 315°.

Základní pozorování provedená výzkumníky.
Opakovali tyto variace ve třech různých výškách kamer (0,6 m, 1,8 m, 2,4 m) a s různými světelnými podmínkami (ráno, odpoledne, noc a “lab” podmínky).
Tyto záběry pak použili pro Faster R-CNN a YOLOv3 objektové detektory, a zjistili, že confidence objektu závisí na ostrosti úhlu chodce, vzdálenosti chodce, výšce kamery a světelných podmínkách*.
Autoři pak otestovali širší řadu objektových detektorů ve stejné scéně: Faster R-CNN; YOLOv3; SSD; DiffusionDet; a RTMDet.
Autoři uvádějí:
‘Zjistili jsme, že všechny pět objektových detektorů je ovlivněno polohou chodce a okolním světlem. Kromě toho jsme zjistili, že pro tři z pěti modelů (YOLOv3, SSD a RTMDet) účinek přetrvává ve všech úrovních okolního světla.’
Pro rozšíření rozsahu použili výzkumníci záběry z veřejně dostupných dopravních kamer ve třech lokalitách: Shibuya Crossing v Tokiu, Broadway v New Yorku a Castro District v San Francisku.
Každá lokalita poskytla mezi pěti a šesti záznamy, s přibližně čtyřmi hodinami záběru na záznam. Pro analýzu detekční výkonnosti extrahovali jeden snímek každých dvě sekundy a zpracovali jej pomocí detektoru objektů Faster R-CNN. Pro každý pixel ve získaných snímcích odhadovali metoda průměrnou confidence “osobního” detekčního boxu, který je přítomen v tomto pixelu.
‘Zjistili jsme, že ve všech třech lokalitách se confidence objektového detektoru lišila v závislosti na poloze osob ve snímku. Například ve snímcích z Shibuya Crossing existují velké oblasti nízké confidence dále od kamery, stejně jako blíže kamerě, kde sloupek částečně zakrývá projíždějící chodce.’
Metoda L-PET je vlastně tento postup, který lze použít k získání cesty přes městskou oblast, která je nejméně pravděpodobně rozpoznána.
Naopak, L-BAT postupuje stejným způsobem, s tím rozdílem, že aktualizuje skóre v detekčním systému, vytváří zpětnou smyčku, která je navržena tak, aby eliminovala přístup L-PET a učila “slepá místa” systému, aby byly efektivnější.
(V praktických termínech by však zlepšení pokrytí na základě získaných map confidence vyžadovalo více než jen upgrade kamery v očekávané pozici; na základě testovacích kritérií, včetně lokality, by vyžadovalo instalaci dalších kamer pro pokrytí zanedbaných oblastí – proto by se dalo tvrdit, že metoda L-PET eskaluje tuto konkrétní “studenou válku” do velmi nákladné scénáře)

Průměrná confidence detekce chodců pro každý pixel, napříč různými detekčními rámci, v pozorované oblasti Castro Street, analyzované napříč pěti videi. Každé video bylo zaznamenáno za různých světelných podmínek: východ slunce, den, západ slunce a dvě různé noční nastavení. Výsledky jsou prezentovány samostatně pro každé světelné scénáře.
Po převodu pixelového matricového представienia do grafického представienia vhodné pro úkol, výzkumníci přizpůsobili Dijkstra algoritmus pro výpočet optimálních cest pro chodce, aby se vyhnuli oblastem se sníženou detekcí.
Místo nalezení nejkratší cesty, algoritmus byl modifikován tak, aby minimalizoval detekční confidence, a tím, že vysoké confidence oblasti byly považovány za oblasti s vyšší “nákladovostí”. Tato adaptace umožnila algoritmu identifikovat trasy, které procházejí slepými místy nebo oblastmi s nízkou detekcí, a tím efektivně navigovaly chodce po cestách s redukovanou viditelností pro sledovací systémy.

Vizualizace transformace scény z pixelového matricového представienia do grafického представienia.
Výzkumníci vyhodnotili dopad systému L-BAT na detekci chodců pomocí datové sady vytvořené z výše uvedených čtyřhodinových záznamů veřejného pěšího provozu. Pro vytvoření datové sady zpracovali jeden snímek každých dvě sekundy pomocí detektoru objektů SSD.
Z každého snímku byl vybrán jeden detekční box obsahující detekovanou osobu jako pozitivní vzorek, a další náhodná oblast bez detekovaných osob byla použita jako negativní vzorek. Tyto dvojité vzorky tvořily datovou sadu pro vyhodnocení dvou modelů Faster R-CNN – jednoho s aplikovaným L-BAT a jednoho bez něj.
Výkonnost modelů byla vyhodnocena tím, jak přesně identifikovaly pozitivní a negativní vzorky: detekční box překrývající se s pozitivním vzorkem byl považován za pravdivý pozitivní, zatímco detekční box překrývající se s negativním vzorkem byl označen jako falešný pozitivní.
Metriky použité pro určení detekční spolehlivosti L-BAT byly Area Under the Curve (AUC); pravdivá pozitivní míra (TPR); falešná pozitivní míra (FPR); a průměrná pravdivá pozitivní confidence. Výzkumníci tvrdí, že použití L-BAT zlepšilo detekční confidence, zatímco udržovalo vysokou pravdivou pozitivní míru (i když s mírným zvýšením falešných pozitiv).
Na závěr autoři poznamenávají, že přístup má einige omezení. Jedním z nich je, že mapy confidence generované jejich metodou jsou specifické pro konkrétní čas dne. Ačkoli se o tom nezmiňují, to by naznačovalo, že by byla potřeba komplexnější, víceúrovňová metoda, aby se zohlednil čas dne v flexibilnějším nasazení.
Také pozorují, že mapy confidence nebudou přenosné na různé architektury modelů, a jsou vázané na konkrétní detektor objektů. Protože navrhovaná práce je vlastně proof-of-concept, mohly by být vyvinuty i lebih sofistikované architektury, aby se vyřešily tyto technické dluhy.
Závěr
Každá nová útočná metoda, pro kterou je řešení “platit za nové sledovací kamery”, má nějakou výhodu, protože rozšiřování městských kamerových sítí v oblastech s vysokou mírou sledování může být politicky náročné, stejně jako představuje významné občanské výdaje, které obvykle vyžadují volební mandát.
Možná největší otázka, kterou práce klade, je ‘Zda uzavřené sledovací systémy využívají otevřené zdrojové rámce, jako je YOLO?’. To je, samozřejmě, nemožné vědět, protože tvůrci proprietárních systémů, které pohání tolik státních a občanských kamerových sítí (alespoň ve Spojených státech), by argumentovali, že zveřejnění takové informace by je vystavilo útokům.
Nicméně, migrace vládních IT a proprietárního kódu na globální a otevřený kód by naznačovala, že kdokoli, kdo testuje tvrzení autorů s (například) YOLO, by mohl hned uhodit jackpot.
* Obvykle bych zahrnoval související tabulkové výsledky, když jsou poskytovány v práci, ale v tomto případě komplexnost tabulek práce dělá je neosvětlující pro běžného čtenáře, a souhrn je tedy více užitečný.
Poprvé zveřejněno v úterý, 28. ledna 2025








