Conectează-te cu noi

Inteligența artificială

„Rutele secrete” care pot împiedica sistemele de recunoaștere a pietonilor

mm
ChatGPT-4o: Variație la prompt: „o imagine caracteristică de 1792x1024 care înfățișează o vedere ariel ortogonală cu privirea în jos pe zona străzii 42 din New York. Cea mai mare parte a imaginii ar trebui să aibă o nuanță albastră, dar în zonele de trotuar ar trebui să fie indicate căi roșii, ca un fel de traseu pe hartă. Fă-l ca Sims.'

O nouă colaborare de cercetare între Israel și Japonia susține că sistemele de detectare a pietonilor posedă slăbiciuni inerente, permițând persoanelor bine informate să se sustragă sistemelor de recunoaștere facială navigând pe rute planificate cu atenție prin zone în care rețelele de supraveghere sunt mai puțin eficiente.

Cu ajutorul înregistrări disponibile publicului de la Tokyo, New York și San Francisco, cercetătorii au dezvoltat o metodă automată de calcul a unor astfel de căi, bazată pe cele mai populare sisteme de recunoaștere a obiectelor care ar putea fi utilizate în rețelele publice.

Cele trei traversări utilizate în studiu: Shibuya Crossing în Tokyo, Japonia; Broadway, New York; și districtul Castro, San Francisco. Sursa: https://arxiv.org/pdf/2501.15653

Cele trei traversări utilizate în studiu: Shibuya Crossing în Tokyo, Japonia; Broadway, New York; și districtul Castro, San Francisco. Sursa: https://arxiv.org/pdf/2501.15653

Prin această metodă, este posibil să se genereze hărți termice de încredere care delimitează zonele din fluxul camerei unde pietonii sunt cel mai puțin probabil să ofere o lovitură pozitivă de recunoaștere facială:

În dreapta, vedem harta termică de încredere generată de metoda cercetătorilor. Zonele roșii indică o încredere scăzută și o configurație de poziție, poziția camerei și alți factori care ar putea împiedica recunoașterea facială.

În dreapta, vedem harta termică de încredere generată de metoda cercetătorilor. Zonele roșii indică o încredere scăzută și o configurație de poziție, poziția camerei și alți factori care ar putea împiedica recunoașterea facială.

Teoretic, o astfel de metodă ar putea fi instrumentalizată într-o aplicație care știe locația sau într-un alt tip de platformă pentru a disemina cele mai puțin „favorabile recunoașterii” căi de la A la B în orice locație calculată.

Noua lucrare propune o astfel de metodologie, intitulată Tehnica de îmbunătățire a confidențialității bazată pe locație (L-PET); propune şi o contramăsură intitulată Pragul adaptativ bazat pe locație (L-BAT), care rulează în esență exact aceleași rutine, dar apoi utilizează informațiile pentru a consolida și îmbunătăți măsurile de supraveghere, în loc să elaboreze modalități de a evita recunoașterea; și, în multe cazuri, astfel de îmbunătățiri nu ar fi posibile fără investiții suplimentare în infrastructura de supraveghere.

Prin urmare, lucrarea stabilește un potențial război tehnologic de escaladare între cei care încearcă să-și optimizeze rutele pentru a evita detectarea și capacitatea sistemelor de supraveghere de a folosi pe deplin tehnologiile de recunoaștere facială.

Metodele anterioare de detectare a foliei sunt mai puțin elegante decât aceasta și se concentrează pe abordări contradictorii, Cum ar fi Atacurile TnT, și utilizarea modele imprimate pentru a confunda algoritmul de detectare.

Lucrarea din 2019 „Păcălirea camerelor de supraveghere automatizate: patch-uri adversarii pentru a ataca detectarea persoanei” a demonstrat un model tipărit adversar capabil să convingă un sistem de recunoaștere că nicio persoană nu este detectată, permițând un fel de „invizibilitate”. Sursa: https://arxiv.org/pdf/1904.08653

Lucrarea din 2019 „Păcălirea camerelor de supraveghere automatizate: patch-uri adversarii pentru a ataca detectarea persoanei” a demonstrat un model tipărit adversar capabil să convingă un sistem de recunoaștere că nicio persoană nu este detectată, permițând un fel de „invizibilitate”. Sursa: https://arxiv.org/pdf/1904.08653

Cercetătorii din spatele noii lucrări observă că abordarea lor necesită mai puțină pregătire, fără a fi nevoie să creeze articole purtabile adverse (vezi imaginea de mai sus).

hârtie se intitulează O tehnică de îmbunătățire a confidențialității pentru a evita detectarea de către camerele video stradale fără a utiliza accesorii adverseși provine de la cinci cercetători de la Universitatea Ben-Gurion din Negev și Fujitsu Limited.

Metodă și teste

În conformitate cu lucrările anterioare precum Mască adversară, AdvHat, petice adverse, și diverse alte ieșiri similare, cercetătorii presupun că „atacatorul” pietonului știe ce sistem de detectare a obiectelor este utilizat în rețeaua de supraveghere. Aceasta nu este de fapt o presupunere nerezonabilă, din cauza adoptării pe scară largă a sistemelor open source de ultimă generație, cum ar fi YOLO, în sistemele de supraveghere precum Cisco și Ultralitice (în prezent, forța motrice centrală în dezvoltarea YOLO).

Lucrarea presupune, de asemenea, că pietonul are acces la un flux live pe internet fixat pe locațiile de calculat, ceea ce, din nou, este un presupunere rezonabilă în majoritatea locurilor susceptibile de a avea o intensitate de acoperire.

articole precum 511ny.org oferă acces la multe camere de supraveghere din zona NYC. Sursa: https://511ny.or

Site-uri precum 511ny.org oferă acces la multe camere de supraveghere din zona NYC. Sursa: https://511ny.or

Pe lângă aceasta, pietonul are nevoie de acces la metoda propusă și la locul propriu-zis (adică trecerile și traseele pe care urmează să fie stabilită o rută „sigură”).

Pentru a dezvolta L-PET, autorii au evaluat efectul unghiului pietonal în raport cu camera; efectul înălțimii camerei; efectul distanței; și efectul orei din zi. Pentru a obține adevărul de bază, au fotografiat o persoană la unghiurile 0°, 45°, 90°, 135°, 180°, 225°, 270° și 315°.

Observații de bază ale adevărului efectuate de cercetători.

Observații de bază ale adevărului efectuate de cercetători.

Ei au repetat aceste variații la trei înălțimi diferite ale camerei (0.6 m, 1.8 m, 2.4 m) și cu condiții de iluminare variate (dimineața, după-amiaza, noaptea și condiții de „laborator”).

Hrănirea acestei înregistrări la R-CNN mai rapid și YOLOv3 detectoare de obiecte, au descoperit că încrederea obiectului depinde de acuitatea unghiului pietonului, distanța pietonului, înălțimea camerei și condițiile meteorologice/luminoase*.

Autorii au testat apoi o gamă mai largă de detectoare de obiecte în același scenariu: Faster R-CNN; YOLOv3; SSD; DiffusionDetŞi RTMDet.

Autorii afirmă:

„Am descoperit că toate cele cinci arhitecturi ale detectoarelor de obiecte sunt afectate de poziția pietonului și de lumina ambientală. În plus, am constatat că pentru trei dintre cele cinci modele (YOLOv3, SSD și RTMDet) efectul persistă la toate nivelurile de lumină ambientală.'

Pentru a extinde domeniul de aplicare, cercetătorii au folosit imagini realizate de la camerele de trafic disponibile public în trei locații: Shibuya Crossing din Tokyo, Broadway din New York și Castro District din San Francisco.

Fiecare locație a furnizat între cinci și șase înregistrări, cu aproximativ patru ore de filmare per înregistrare. Pentru a analiza performanța de detecție, un cadru a fost extras la fiecare două secunde și procesat folosind un detector de obiecte Faster R-CNN. Pentru fiecare pixel din cadrele obținute, metoda a estimat încrederea medie a casetelor de delimitare de detecție „persoană” prezente în acel pixel.

„Am descoperit că în toate cele trei locații, încrederea detectorului de obiecte a variat în funcție de locația oamenilor în cadru. De exemplu, în filmările Shibuya Crossing, există zone mari de încredere scăzută mai departe de cameră, precum și mai aproape de cameră, unde un stâlp ascunde parțial pietonii care trec.

Metoda L-PET este în esență această procedură, probabil „armată” pentru a obține o cale printr-o zonă urbană care este cel mai puțin probabil ca pietonul să fie recunoscut cu succes.

În schimb, L-BAT urmează aceeași procedură, cu diferența că actualizează scorurile din sistemul de detecție, creând o buclă de feedback menită să evite abordarea L-PET și să facă „zonele oarbe” ale sistemului mai eficiente.

(În termeni practici, totuși, îmbunătățirea acoperirii pe baza hărților termice obținute ar necesita mai mult decât o actualizare a camerei în poziția așteptată; pe baza criteriilor de testare, inclusiv a locației, ar necesita instalarea de camere suplimentare pentru a acoperi cele neglijate. zone – prin urmare s-ar putea argumenta că metoda L-PET escaladează acest „război rece” special într-un scenariu foarte costisitor)

Încrederea medie de detecție a pietonilor pentru fiecare pixel, în diverse cadre de detectoare, în zona observată a străzii Castro, analizată în cinci videoclipuri. Fiecare videoclip a fost înregistrat în diferite condiții de iluminare: răsărit, zi, apus și două setări distincte pe timp de noapte. Rezultatele sunt prezentate separat pentru fiecare scenariu de iluminare.

Încrederea medie de detecție a pietonilor pentru fiecare pixel, în diverse cadre de detectoare, în zona observată a străzii Castro, analizată în cinci videoclipuri. Fiecare videoclip a fost înregistrat în diferite condiții de iluminare: răsărit, zi, apus și două setări distincte pe timp de noapte. Rezultatele sunt prezentate separat pentru fiecare scenariu de iluminare.

După ce am convertit reprezentarea matriceală bazată pe pixeli în a reprezentare grafică potrivite pentru sarcină, cercetătorii au adaptat Algoritmul Dijkstra pentru a calcula trasee optime pentru ca pietonii să navigheze prin zone cu detecție de supraveghere redusă.

În loc să găsească calea cea mai scurtă, algoritmul a fost modificat pentru a minimiza încrederea în detecție, tratând regiunile cu încredere ridicată ca zone cu „cost” mai mare. Această adaptare a permis algoritmului să identifice rutele care trec prin punctele moarte sau zonele cu detecție scăzută, ghidând efectiv pietonii de-a lungul căilor cu vizibilitate redusă către sistemele de supraveghere.

O vizualizare care ilustrează transformarea hărții de căldură a scenei dintr-o matrice bazată pe pixeli într-o reprezentare bazată pe grafic.

O vizualizare care prezintă transformarea hărții termice a scenei dintr-o matrice bazată pe pixeli într-o reprezentare bazată pe grafice.

Cercetătorii au evaluat impactul sistemului L-BAT asupra detectării pietonilor cu un set de date construit din înregistrările de patru ore menționate mai sus ale traficului pietonal public. Pentru a popula colecția, un cadru a fost procesat la fiecare două secunde folosind un detector de obiecte SSD.

Din fiecare cadru, a fost selectată o casetă de delimitare care conține o persoană detectată ca probă pozitivă, iar o altă zonă aleatorie fără persoane detectate a fost utilizată ca probă negativă. Aceste probe duble au format un set de date pentru evaluarea a două modele Faster R-CNN – unul cu L-BAT aplicat și unul fără.

Performanța modelelor a fost evaluată prin verificarea cât de precis au identificat eșantioanele pozitive și negative: o casetă de delimitare care se suprapune cu un eșantion pozitiv a fost considerată un adevărat pozitiv, în timp ce o casetă de delimitare care se suprapune pe un eșantion negativ a fost etichetată fals pozitiv.

Măsurile utilizate pentru a determina fiabilitatea detectării L-BAT au fost Zona sub curbă (AUC); rata pozitivă adevărată (TPR); rata fals pozitive (FPR); și încrederea pozitivă adevărată medie. Cercetătorii susțin că utilizarea L-BAT a sporit încrederea în detecție, menținând în același timp o rată ridicată de pozitive adevărate (deși cu o ușoară creștere a rezultatelor false pozitive).

În încheiere, autorii notează că abordarea are unele limitări. Una este că hărțile termice generate de metoda lor sunt specifice unui anumit moment al zilei. Deși nu explică acest lucru, acest lucru ar indica faptul că ar fi necesară o abordare mai mare, pe mai multe niveluri, pentru a ține cont de momentul din zi într-o implementare mai flexibilă.

De asemenea, ei observă că hărțile termice nu se vor transfera la diferite arhitecturi de model și sunt legate de un model specific de detector de obiecte. Întrucât lucrarea propusă este în esență o dovadă de concept, ar putea fi, probabil, dezvoltate și arhitecturi mai abile pentru a remedia această datorie tehnică.

Concluzie

Orice metodă nouă de atac pentru care soluția „plătește pentru noi camere de supraveghere” are un avantaj, deoarece extinderea rețelelor de camere civice în zonele foarte supravegheate poate fi provocatoare din punct de vedere politic, precum și reprezentând o cheltuială civică notabilă care va avea nevoie de obicei de un mandat de alegător.

Poate cea mai mare întrebare pusă de lucrare este „Sistemele de supraveghere cu sursă închisă folosesc cadre SOTA cu sursă deschisă, cum ar fi YOLO?”. Acest lucru este, desigur, imposibil de știut, deoarece producătorii sistemelor proprietare care alimentează atât de multe rețele de camere de stat și civice (cel puțin în SUA) ar argumenta că dezvăluirea unei astfel de utilizări le-ar putea deschide spre atac.

Cu toate acestea, migrarea IT-ului guvernamental și a codului proprietar intern către codul global și open source ar sugera că oricine testează afirmația autorilor cu (de exemplu) YOLO ar putea ajunge imediat la jackpot-ul.

 

* În mod normal, aș include rezultatele tabelelor asociate atunci când sunt furnizate în lucrare, dar în acest caz complexitatea tabelelor lucrării le face neluminoase pentru cititorul obișnuit și, prin urmare, un rezumat este mai util.

Prima dată publicată marți, 28 ianuarie 2025