Inteligență artificială

Rutele ‘Secrete’ Care Pot Foila Sistemele de Recunoaștere a Pietonilor

Published January 28, 2025

Updated April 26, 2026

Martin Anderson

ChatGPT-4o: Variation on prompt: ‘a 1792x1024 feature image depicting an orthogonal ariel view looking down on NYC's 42nd street area. Most of the image should have a blue hue, but within the sidewalk areas there should be red-tinted pathways indicated, like a kind of map route. Make it like The Sims.’

O nouă colaborare de cercetare între Israel și Japonia susține că sistemele de detectare a pietonilor posedă slăbiciuni inerente, permițând indivizilor bine informați să evite sistemele de recunoaștere facială prin navigarea pe rute atent planificate prin zone în care rețelele de supraveghere sunt mai puțin eficiente.

Cu ajutorul înregistrărilor video publice din Tokyo, New York și San Francisco, cercetătorii au dezvoltat o metodă automată de calculare a unor astfel de rute, pe baza celor mai populare sisteme de recunoaștere a obiectelor care sunt probabil să fie utilizate în rețelele publice.

Cele trei intersecții utilizate în studiu: Shibuya Crossing în Tokyo, Japonia; Broadway, New York; și Castro District, San Francisco. Sursă: https://arxiv.org/pdf/2501.15653

Prin această metodă, este posibil să se genereze hărți de căldură de încredere care marchează zonele din fluxul de cameră în care pietonii sunt mai puțin probabil să ofere un rezultat pozitiv de recunoaștere facială:

În partea dreaptă, vedem harta de căldură de încredere generată de metoda cercetătorilor. Zonele roșii indică o încredere scăzută, și o configurație de poziție, unghi de cameră și alți factori care sunt probabil să împiedice recunoașterea facială.

În teorie, o astfel de metodă ar putea fi instrumentalizată într-o aplicație conștientă de locație, sau pe o altă platformă pentru a disemina rutele cele mai puțin „prietenoase” pentru recunoaștere de la A la B în orice locație calculată.

Articolul nou propune o astfel de metodologie, intitulată Tehnică de Îmbunătățire a Confidențialității Bazată pe Locație (L-PET); el propune, de asemenea, o contramăsură intitulată Prag Adaptiv Bazat pe Locație (L-BAT), care, în esență, rulează aceleași rutine, dar apoi utilizează informațiile pentru a întări și îmbunătăți măsurile de supraveghere, în loc de a concepe modalități de a evita recunoașterea; și, în multe cazuri, astfel de îmbunătățiri nu ar fi posibile fără o investiție suplimentară în infrastructura de supraveghere.

Articolul stabilește, astfel, un potențial război tehnologic de escaladă între cei care își optimizează rutele pentru a evita detectarea și capacitatea sistemelor de supraveghere de a face uz de tehnologiile de recunoaștere facială.

Metodele anterioare de a evita detectarea sunt mai puțin elegante decât aceasta și se concentrează pe abordări adversative, cum ar fi Atacuri TnT, și utilizarea modelelor imprimate pentru a confunda algoritmul de detectare.

Lucrarea din 2019 „Fooling automated surveillance cameras: adversarial patches to attack person detection” a demonstrat un model imprimat adversativ capabil să convingă un sistem de recunoaștere că nu există o persoană detectată, permițând o formă de „invizibilitate”. Sursă: https://arxiv.org/pdf/1904.08653

Cercetătorii din spatele noului articol observă că abordarea lor necesită mai puțină pregătire, fără nevoia de a concepe articole vestimentare adversative (a se vedea imaginea de mai sus).

Articolul articolul este intitulat O Tehnică de Îmbunătățire a Confidențialității pentru a Evita Detectarea de către Camerele de Supraveghere Stradale Fără Utilizarea de Accesorii Adversative, și provine de la cinci cercetători de la Universitatea Ben-Gurion din Negev și Fujitsu Limited.

Metodă și Teste

În conformitate cu lucrările anterioare, cum ar fi Masca Adversativă, AdvHat, modelele adversative, și diverse alte ieșiri similare, cercetătorii presupun că „atacatorul” pieton știe care este sistemul de detectare a obiectelor utilizat în rețeaua de supraveghere. Acesta nu este, de fapt, un presupus nerezonabil, datorită adoptării largi a sistemelor deschise de ultimă generație, cum ar fi YOLO, în sistemele de supraveghere de la companii precum Cisco și Ultralytics (în prezent, forța motrice centrală în dezvoltarea YOLO).

Articolul presupune, de asemenea, că pietonul are acces la un flux live pe internet fixat pe locațiile care urmează a fi calculate, ceea ce, din nou, este o presupunere rezonabilă în majoritatea locurilor care au o intensitate de acoperire.

Site-urile precum 511ny.org oferă acces la multe camere de supraveghere din zona NYC. Sursă: https://511ny.or

Pe lângă aceasta, pietonul are nevoie de acces la metoda propusă și la scena în sine (adică, intersecțiile și rutele în care o „rută sigură” urmează a fi stabilită).

Pentru a dezvolta L-PET, autorii au evaluat efectul unghiului pietonului în raport cu camera; efectul înălțimii camerei; efectul distanței; și efectul orei din zi. Pentru a obține adevărul, ei au fotografiat o persoană la unghiurile 0°, 45°, 90°, 135°, 180°, 225°, 270° și 315°.

Observațiile de adevăr efectuate de cercetători.

Ei au repetat aceste variații la trei înălțimi de cameră diferite (0,6 m, 1,8 m, 2,4 m) și cu condiții de iluminare variate (dimineață, după-amiază, noapte și „laborator”).

În conformitate cu Faster R-CNN și YOLOv3 detectoare de obiecte, ei au constatat că încrederea obiectului depinde de ascuțimea unghiului pietonului, distanța pietonului, înălțimea camerei și condițiile de iluminare.

Autorii au testat, de asemenea, o gamă mai largă de detectoare de obiecte în același scenariu: Faster R-CNN; YOLOv3; SSD; DiffusionDet; și RTMDet.

Autorii afirmă:

„Am constatat că toate cinci arhitecturi de detectoare de obiecte sunt afectate de poziția pietonului și de lumina ambientală. În plus, am constatat că, pentru trei dintre cele cinci modele (YOLOv3, SSD și RTMDet), efectul persistă în toate nivelurile de iluminare ambientală.”

Pentru a extinde domeniul de aplicare, cercetătorii au utilizat înregistrări video din camerele de supraveghere publice din trei locații: Shibuya Crossing în Tokyo, Broadway în New York și Castro District în San Francisco.

Fiecare locație a furnizat între cinci și șase înregistrări, cu aproximativ patru ore de înregistrare per înregistrare. Pentru a analiza performanța de detectare, un cadru a fost extras la fiecare două secunde și procesat utilizând un detectiv de obiecte Faster R-CNN. Pentru fiecare pixel din cadrul obținut, metoda a estimat încrederea medie a „cutiei de delimitare a persoanei” care este prezentă în acel pixel.

„Am constatat că, în toate cele trei locații, încrederea detectivului de obiecte variază în funcție de locația oamenilor în cadru. De exemplu, în înregistrarea de la Shibuya Crossing, există zone mari de încredere scăzută mai departe de cameră, precum și mai aproape de cameră, unde un stâlp parțial ascunde pietonii care trec.”

Metoda L-PET este, în esență, această procedură, care poate fi „înarmată” pentru a obține o rută printr-o zonă urbană care este mai puțin probabil să rezulte în recunoașterea cu succes a pietonului.

În schimb, L-BAT urmează aceeași procedură, cu diferența că actualizează scorurile în sistemul de detectare, creând un buclă de feedback proiectată pentru a înlătura abordarea L-PET și pentru a face „zonele oarbe” ale sistemului mai eficiente.

(În termeni practici, cu toate acestea, îmbunătățirea acoperirii pe baza hărților de căldură obținute ar necesita mai mult decât doar o actualizare a camerei care stă în poziția așteptată; pe baza criteriilor de testare, inclusiv locația, ar necesita instalarea de camere suplimentare pentru a acoperi zonele neglijate – prin urmare, se poate argumenta că metoda L-PET escaladează acest „război rece” într-un scenariu foarte costisitor într-adevăr)

Încrederea medie de detectare a pietonilor pentru fiecare pixel, în diverse cadre de detectare, în zona observată a străzii Castro, analizată în cinci videoclipuri. Fiecare videoclip a fost înregistrat în condiții de iluminare diferite: răsărit, zi, apus și două setări distincte de noapte. Rezultatele sunt prezentate separat pentru fiecare scenariu de iluminare.

Convertind reprezentarea matricială bazată pe pixeli într-o reprezentare grafică adecvată pentru sarcină, cercetătorii au adaptat algoritmul Dijkstra pentru a calcula rute optime pentru pietoni pentru a naviga prin zone cu detectare redusă de supraveghere.

În loc de a găsi drumul cel mai scurt, algoritmul a fost modificat pentru a minimiza încrederea de detectare, tratând regiunile cu încredere ridicată ca zone cu „cost” mai mare. Această adaptare a permis algoritmului să identifice rute care trec prin zone oarbe sau zone cu detectare redusă, ghidând, în esență, pietonii de-a lungul rutelor cu vizibilitate redusă pentru sistemele de supraveghere.

O vizualizare care arată transformarea hărții de căldură a scenei dintr-o matrice bazată pe pixeli într-o reprezentare grafică.

Cercetătorii au evaluat impactul sistemului L-BAT asupra detectării pietonilor cu un set de date construit din înregistrările de patru ore ale traficului pietonal public.

Pentru a popula colecția, un cadru a fost procesat la fiecare două secunde utilizând un detectiv de obiecte SSD. Din fiecare cadru, o cutie de delimitare a fost selectată care conținea o persoană detectată ca o mostră pozitivă, și o altă zonă aleatorie fără oameni detectați a fost utilizată ca o mostră negativă. Aceste mostre gemene au format un set de date pentru evaluarea a două modele Faster R-CNN – unul cu L-BAT aplicat și unul fără.

Performanța modelelor a fost evaluată prin verificarea modului în care au identificat cu acuratețe mostrele pozitive și negative: o cutie de delimitare care se suprapunea peste o mostră pozitivă a fost considerată un adevărat pozitiv, în timp ce o cutie de delimitare care se suprapunea peste o mostră negativă a fost etichetată ca un fals pozitiv.

Metricele utilizate pentru a determina fiabilitatea detectării L-BAT au fost Aria sub Curba (AUC); rata de detectare pozitivă (TPR); rata de detectare falsă (FPR); și încrederea medie de detectare pozitivă. Cercetătorii afirmă că utilizarea L-BAT a îmbunătățit încrederea de detectare, menținând, în același timp, o rată ridicată de detectare pozitivă (chiar dacă cu o ușoară creștere a falselor pozitive).

În încheiere, autorii notează că abordarea are unele limitări. Una dintre ele este că hărțile de căldură generate de metoda lor sunt specifice unei anumite ore din zi. Deși nu o explică, acest lucru ar indica că o abordare mai amplă și mai flexibilă ar fi necesară pentru a lua în considerare ora din zi într-o implementare mai flexibilă.

Ei observă, de asemenea, că hărțile de căldură nu se vor transfera la arhitecturi de modele diferite și sunt legate de un anumit model de detectare a obiectelor. Deoarece lucrarea propusă este, în esență, o demonstrație a conceptului, arhitecturi mai abile ar putea, probabil, să fie dezvoltate pentru a remedia această datorie tehnică.

Concluzie

Orice nouă metodă de atac pentru care soluția este „plata pentru noi camere de supraveghere” are un anumit avantaj, deoarece extinderea rețelelor de camere civice în zonele puternic supravegheate poate fi politic dificilă, precum și o cheltuială civică semnificativă care va necesita, de obicei, un mandat al votanților.

Poate cea mai mare întrebare ridicată de această lucrare este „Oare sistemele de supraveghere cu sursă închisă utilizează cadre de ultimă generație deschise, cum ar fi YOLO?”. Acest lucru este, desigur, imposibil de știut, deoarece producătorii sistemelor proprietare care alimentează atât de multe rețele de camere de stat și civile (cel puțin în SUA) ar argumenta că divulgarea unei astfel de utilizări i-ar expune la atac.

Cu toate acestea, migrarea IT-ului guvernamental și a codului proprietar intern către codul deschis global ar sugera că oricine testează afirmația autorilor cu (de exemplu) YOLO ar putea lovi jackpotul imediat.

* Aș include, de obicei, rezultatele tabelelor atunci când sunt furnizate în articol, dar în acest caz complexitatea tabelelor articolului le face neiluminatoare pentru cititorul ocazional, și o sinteză este, prin urmare, mai utilă.

Publicat pentru prima dată marți, 28 ianuarie 2025

Martin Anderson

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.

Unite.AI

Rutele ‘Secrete’ Care Pot Foila Sistemele de Recunoaștere a Pietonilor

Metodă și Teste

Concluzie

You may like