Τεχνητή νοημοσύνη

Τα ‘Μυστικά Μονοπάτια’ που Μπορούν να Αποτυχούν τα Συστήματα Αναγνώρισης Πεζών

Published January 28, 2025

Updated April 26, 2026

Martin Anderson

ChatGPT-4o: Variation on prompt: ‘a 1792x1024 feature image depicting an orthogonal ariel view looking down on NYC's 42nd street area. Most of the image should have a blue hue, but within the sidewalk areas there should be red-tinted pathways indicated, like a kind of map route. Make it like The Sims.’

Μια νέα ερευνητική συνεργασία μεταξύ Ισραήλ και Ιαπωνίας υποστηρίζει ότι τα συστήματα ανίχνευσης πεζών διαθέτουν εγγενείς αδυναμίες, επιτρέποντας σε ενημερωμένα άτομα να αποφεύγουν τα συστήματα αναγνώρισης προσώπου навигώντας προσεκτικά σχεδιασμένα μονοπάτια через περιοχές όπου τα δίκτυα επιτήρησης είναι λιγότερο αποτελεσματικά.

Με τη βοήθεια δημόσια διαθέσιμου υλικού από το Τόκιο, τη Νέα Υόρκη και το Σαν Φρανσίσκο, οι ερευνητές ανέπτυξαν một αυτοματοποιημένη μέθοδο υπολογισμού τέτοιων διαδρομών, με βάση τα πιο δημοφιλή συστήματα αναγνώρισης αντικειμένων που είναι πιθανό να χρησιμοποιούνται σε δημόσιους δικτυους.

Τα τρία πέρασμα που χρησιμοποιήθηκαν στη μελέτη: Shibuya Crossing στο Τόκιο, Ιαπωνία, Broadway, Νέα Υόρκη και Castro District, Σαν Φρανσίσκο. Source: https://arxiv.org/pdf/2501.15653

Με αυτή τη μέθοδο, είναι δυνατό να δημιουργηθούν χαρτογραφίες εμπιστοσύνης που οριοθετούν τις περιοχές μέσα στη κάμερα όπου οι πεζοί είναι λιγότερο πιθανό να δώσουν einen θετικό αναγνώριση προσώπου:

Στη δεξιά, βλέπουμε τη χαρτογραφία εμπιστοσύνης που δημιουργήθηκε από τη μέθοδο των ερευνητών. Οι κόκκινες περιοχές υποδεικνύουν χαμηλή εμπιστοσύνη και μια διαμόρφωση στάσης, θέση κάμερας και άλλων παραγόντων που είναι πιθανό να εμποδίσουν την αναγνώριση προσώπου.

Θεωρητικά, μια τέτοια μέθοδος θα μπορούσε να instrumentalized σε μια εφαρμογή που είναι συνειδητή της τοποθεσίας ή σε κάποιο άλλο είδος πλατφόρμας για τη διάδοση των λιγότερο «αναγνωριστικών» διαδρομών από το Α στο Β σε οποιαδήποτε υπολογισμένη τοποθεσία.

Το νέο έγγραφο προτείνει μια τέτοια μεθοδολογία, με τίτλο Location-based Privacy Enhancing Technique (L-PET), και επίσης προτείνει ένα αντίμετρο με τίτλο Location-Based Adaptive Threshold (L-BAT), το οποίο στην ουσία εκτελεί τις ίδιες διαδικασίες, αλλά στη συνέχεια χρησιμοποιεί τις πληροφορίες για να ενισχύσει και να βελτιώσει τα μέτρα επιτήρησης, αντί να σχεδιάζει τρόπους για να αποφευχθεί η αναγνώριση, και σε πολλές περιπτώσεις, τέτοιες βελτιώσεις δεν θα ήταν δυνατές χωρίς περαιτέρω επένδυση στην υποδομή επιτήρησης.

Το έγγραφο ορίζει, επομένως, einen πιθανό τεχνολογικό πόλεμο εκτόξευσης μεταξύ εκείνων που επιδιώκουν να βελτιώσουν τις διαδρομές τους για να αποφύγουν την ανίχνευση και της ικανότητας των συστημάτων επιτήρησης να κάνουν πλήρη χρήση των τεχνολογιών αναγνώρισης προσώπου.

Προηγούμενες μεθόδους για να αποτυχούν την ανίχνευση είναι λιγότερο κομψές από αυτήν, και επικεντρώνονται σε αντίθετες προσεγγίσεις, όπως TnT Attacks, και τη χρήση τυπογραφημένων προτύπων για να συγχύσουν τον αλγόριθμο ανίχνευσης.

Το έργο του 2019 ‘Fooling automated surveillance cameras: adversarial patches to attack person detection’ επέδειξε ένα αντίθετο τυπογραφημένο πρότυπο ικανό να πείσει ένα σύστημα αναγνώρισης ότι δεν υπάρχει άτομο, επιτρέποντας ένα είδος «αορατότητας». Source: https://arxiv.org/pdf/1904.08653

Οι ερευνητές πίσω από το νέο έγγραφο παρατηρούν ότι η προσέγγισή τους απαιτεί λιγότερη προετοιμασία, χωρίς την ανάγκη να σχεδιάσουν αντίθετα φορέματα (βλέπε εικόνα πάνω).

Το έγγραφο έχει τίτλο Μια Τεχνική Βελτίωσης της Ιδιωτικής ζωής για να Αποφευχθεί η Ανίχνευση από Κάμερες Δρόμου Χωρίς τη Χρήση Αντιθετικών Αξεσουάρ, και προέρχεται από πέντε ερευνητές σε όλη τη Ben-Gurion University of the Negev και Fujitsu Limited.

Μέθοδος και Δοκιμές

Σύμφωνα με προηγούμενες εργασίες όπως Adversarial Mask, AdvHat, αντίθετα πρότυπα, και διάφορες άλλες παρόμοιες εργασίες, οι ερευνητές υποθέτουν ότι ο πεζός «επιθετικός» γνωρίζει ποιο σύστημα ανίχνευσης αντικειμένων χρησιμοποιείται στο δίκτυο επιτήρησης. Αυτό είναι στην πραγματικότητα μια合理 υπόθεση, λόγω της ευρείας υιοθέτησης των ανοιχτών πηγών συστημάτων όπως το YOLO στα συστήματα επιτήρησης από εταιρείες όπως Cisco και Ultralytics (η οποία είναι αυτή τη στιγμή η κεντρική δύναμη πίσω από την ανάπτυξη του YOLO).

Το έγγραφο επίσης υποθέτει ότι ο πεζός έχει πρόσβαση σε μια ζωντανή ροή στο διαδίκτυο που είναι στερεωμένη στις τοποθεσίες που πρέπει να υπολογιστούν, το οποίο, και πάλι, είναι μια λογική υπόθεση στις περισσότερες περιοχές που είναι πιθανό να έχουν μια ένταση κάλυψης.

Ιστοσελίδες όπως το 511ny.org προσφέρουν πρόσβαση σε πολλές κάμερες επιτήρησης στην περιοχή της Νέας Υόρκης. Source: https://511ny.or

Εκτός από αυτό, ο πεζός χρειάζεται πρόσβαση στη προτεινόμενη μέθοδο, και στην σκηνή herself (δηλαδή, τα πέρασμα και τις διαδρομές στις οποίες μια «ασφαλής» διαδρομή πρέπει να καθοριστεί).

Για να αναπτύξουν την L-PET, οι συγγραφείς αξιολόγησαν την επίδραση της γωνίας του πεζού σε σχέση με την κάμερα, την επίδραση του ύψους της κάμερας, την επίδραση της απόστασης και την επίδραση της ώρας της ημέρας. Για να λάβουν την αλήθεια, φωτογράφισαν ένα άτομο στις γωνίες 0°, 45°, 90°, 135°, 180°, 225°, 270° και 315°.

Παρατηρήσεις αλήθειας που thực hiệnθηκαν από τους ερευνητές.

Επαναλάβαν αυτές τις παραλλαγές σε τρεις διαφορετικές υψόμετρα κάμερας (0,6 μ, 1,8 μ, 2,4 μ), και με διάφορες συνθήκες φωτισμού (πρωί, απογευματίνα, νύχτα και «лаб» συνθήκες).

Τρέχοντας αυτό το υλικό στη Faster R-CNN και YOLOv3 ανιχνευτές αντικειμένων, βρήκαν ότι η εμπιστοσύνη του αντικειμένου εξαρτάται από την οξύτητα της γωνίας του πεζού, την απόσταση του πεζού, το ύψος της κάμερας και τις καιρικές συνθήκες/συνθήκες φωτισμού*.

Οι συγγραφείς στη συνέχεια δοκιμάζουν ένα ευρύτερο φάσμα ανιχνευτών αντικειμένων στη même σκηνή: Faster R-CNN, YOLOv3, SSD, DiffusionDet και RTMDet.

Οι συγγραφείς δηλώνουν:

‘Βρήκαμε ότι όλα τα πέντε αρχιτεκτονικά ανιχνευτών αντικειμένων επηρεάζονται από τη θέση του πεζού και το περιβάλλον φως. Επιπλέον, βρήκαμε ότι για τρία από τα πέντε μοντέλα (YOLOv3, SSD και RTMDet) η επίδραση διαρκεί σε όλα τα επίπεδα περιβάλλοντος φωτός.’

Για να επεκτείνουν το πεδίο, οι ερευνητές χρησιμοποίησαν υλικό που ελήφθη από δημόσιες κάμερες κυκλοφορίας σε τρεις τοποθεσίες: Shibuya Crossing στο Τόκιο, Broadway στη Νέα Υόρκη και Castro District στο Σαν Φρανσίσκο.

Κάθε τοποθεσία παρείχε μεταξύ πέντε και έξι ηχογραφήσεων, με περίπου τέσσερις ώρες υλικού ανά ηχογράφηση. Για να αναλύσουν την απόδοση ανίχνευσης, μια καρέ εξήχθη κάθε δύο δευτερόλεπτα και επεξεργάστηκε χρησιμοποιώντας einen ανιχνευτή αντικειμένων Faster R-CNN. Για κάθε pixel στις ληφθείσες καρέ, η μέθοδος εκτίμησε την μέση εμπιστοσύνη των «πρόσωπο» ανιχνευτών που είναι παρόντες σε αυτόν τον pixel.

‘Βρήκαμε ότι σε όλες τις τρεις τοποθεσίες, η εμπιστοσύνη του ανιχνευτή αντικειμένων ποικίλει ανάλογα με τη θέση των ανθρώπων στη καρέ. Για παράδειγμα, στο υλικό του Shibuya Crossing, υπάρχουν μεγάλες περιοχές χαμηλής εμπιστοσύνης μακρύτερα από την κάμερα, καθώς και κοντά στην κάμερα, όπου ένας πήχης μερικώς αποκρύπτει τους πεζούς που περνούν.’

Η μέθοδος L-PET είναι ουσιαστικά αυτή η διαδικασία, που μπορεί να «οπλοποιηθεί» για να ληφθεί μια διαδρομή μέσα από μια αστική περιοχή που είναι λιγότερο πιθανό να οδηγήσει σε επιτυχή αναγνώριση του πεζού.

Αντίθετα, η L-BAT ακολουθεί την ίδια διαδικασία, με τη διαφορά ότι ενημερώνει τους βαθμούς στο σύστημα ανίχνευσης, δημιουργώντας einen βρόχο ανατροφοδότησης που σχεδιάζεται για να αποτρέψει την προσέγγιση L-PET και να κάνει τις «τυφλές περιοχές» του συστήματος πιο αποτελεσματικές.

(Σε πρακτικούς όρους, ωστόσο, η βελτίωση της κάλυψης με βάση τις ληφθείσες χαρτογραφίες θα απαιτούσε περισσότερο από μια αναβάθμιση της κάμερας που κάθεται στη预期μένη θέση, με βάση τα κριτήρια δοκιμής, συμπεριλαμβανομένης της τοποθεσίας, θα απαιτούσε την εγκατάσταση επιπλέον καμερών για να καλύψει τις παραμελημένες περιοχές – επομένως θα μπορούσε να υποστηριχθεί ότι η μέθοδος L-PET ενισχύει αυτόν τον συγκεκριμένο «ψυχρό πόλεμο» σε ένα πολύ ακριβό σενάριο)

Η μέση εμπιστοσύνη ανίχνευσης πεζών για κάθε pixel, σε διάφορους ανιχνευτές, στην παρατηρούμενη περιοχή του Castro Street, αναλύεται σε πέντε βίντεο. Κάθε βίντεο ηχογραφήθηκε υπό διαφορετικές συνθήκες φωτισμού: ανατολή, ημέρα, δύση και δύο διαφορετικές νυχτερινές ρυθμίσεις. Τα αποτελέσματα παρουσιάζονται ξεχωριστά για κάθε σενάριο φωτισμού.

Μετά τη μετατροπή της ματρίτσας pixel-based σε μια παράσταση γραφήματος που είναι κατάλληλη για την εργασία, οι ερευνητές προσάρμοσαν τον αλγόριθμο Dijkstra για να υπολογίσουν τις βέλτιστες διαδρομές για τους πεζούς να διασχίσουν περιοχές με μειωμένη ανίχνευση επιτήρησης.

Αντί να βρουν τη συντομότερη διαδρομή, ο αλγόριθμος τροποποιήθηκε για να ελαχιστοποιήσει την εμπιστοσύνη ανίχνευσης, αντιμετωπίζοντας περιοχές υψηλής εμπιστοσύνης ως περιοχές με υψηλότερο «κόστος». Αυτή η προσαρμογή επέτρεψε στον αλγόριθμο να αναγνωρίσει διαδρομές που διέρχονται από τυφλές περιοχές ή ζώνες χαμηλής ανίχνευσης, οδηγώντας τους πεζούς κατά μήκος διαδρομών με μειωμένη ορατότητα για τα συστήματα επιτήρησης.

Μια οπτικοποίηση που απεικονίζει τη μετατροπή της χαρτογραφίας της σκηνής από μια ματρίца pixel-based σε μια παράσταση γραφήματος.

Οι ερευνητές αξιολόγησαν την επίδραση του συστήματος L-BAT στην ανίχνευση πεζών με ένα σύνολο δεδομένων που κατασκευάστηκε από τις προαναφερθείσες ηχογραφήσεις τεσσάρων ωρών δημόσιου πεζοδρόμου.

Για να πληρώσουν τη συλλογή, μια καρέ επεξεργάστηκε κάθε δύο δευτερόλεπτα χρησιμοποιώντας einen ανιχνευτή αντικειμένων SSD. Από κάθε καρέ, μια θυρίδα επιλέχθηκε που περιείχε έναν ανιχνευμένο άνθρωπο ως θετικό δείγμα, και μια άλλη τυχαία περιοχή χωρίς ανιχνευμένους ανθρώπους χρησιμοποιήθηκε ως αρνητικό δείγμα. Αυτά τα δίδυμα δείγματα σχημάτισαν ένα σύνολο δεδομένων για την αξιολόγηση δύο μοντέλων Faster R-CNN – ένα με την L-BAT εφαρμοσμένη, και ένα χωρίς.

Η απόδοση των μοντέλων αξιολογήθηκε με την επαλήθευση της ακρίβειας με την οποία αναγνώριζαν τα θετικά και αρνητικά δείγματα: μια θυρίδα που перекrýει ένα θετικό δείγμα θεωρήθηκε ως αληθές θετικό, ενώ μια θυρίδα που перекrýει ένα αρνητικό δείγμα θεωρήθηκε ως ψευδές θετικό.

Τα μετρικά που χρησιμοποιήθηκαν για να καθορίσουν την αξιοπιστία ανίχνευσης της L-BAT ήταν Εμβαδόν Κάτω από την Καμπύλη (AUC), ποσοστό αληθών θετικών (TPR), ποσοστό ψευδών θετικών (FPR) και μέση αληθινή εμπιστοσύνη θετικών. Οι ερευνητές δηλώνουν ότι η χρήση της L-BAT ενίσχυσε την εμπιστοσύνη ανίχνευσης ενώ διατήρησε υψηλό ποσοστό αληθών θετικών (αν και με μια μικρή αύξηση ψευδών θετικών).

Στο κλείσιμο, οι συγγραφείς σημειώνουν ότι η προσέγγισή τους έχει κάποια περιορισμένα. Ένα από αυτά είναι ότι οι χαρτογραφίες που παράγονται από τη μέθοδό τους είναι συγκεκριμένες σε μια συγκεκριμένη ώρα της ημέρας. Αν και δεν επεκτείνουν πάνω σε αυτό, αυτό θα υποδείκνυε ότι μια μεγαλύτερη, πολλαπλή προσέγγιση θα ήταν απαραίτητη για να λογαριαστεί η ώρα της ημέρας σε μια πιο ευέλικτη ανάπτυξη.

Σημειώνουν επίσης ότι οι χαρτογραφίες δεν θα μεταφερθούν σε διαφορετικές αρχιτεκτονικές μοντέλων, και είναι συνδεδεμένες με ένα συγκεκριμένο μοντέλο ανιχνευτή αντικειμένων.既然 η εργασία που προτάθηκε είναι ουσιαστικά μια απόδειξη-концепτ, πιο ικανές αρχιτεκτονικές θα μπορούσαν, προφανώς, να αναπτυχθούν για να αποκαταστήσουν αυτό το τεχνικό χρέος.

Συμπέρασμα

Κάθε νέα μέθοδος επίθεσης για την οποία η λύση είναι «πληρωμή για νέες κάμερες επιτήρησης» έχει κάποιο πλεονέκτημα,既然 η επέκταση των δικτύων καμερών σε περιοχές με υψηλή επιτήρηση μπορεί να είναι πολιτικά προκλητική, καθώς και να αντιπροσωπεύει einen σημαντικό δημοτικό έξοδο που θα χρειαζόταν συνήθως μια ψηφοφόρο εντολή.

Ίσως η μεγαλύτερη ερώτηση που θέτει η εργασία είναι ‘Κάνουν τα κλειστά συστήματα επιτήρησης χρήση ανοιχτών πηγών SOTA πλαισίων όπως το YOLO;’. Αυτό, φυσικά, είναι αδύνατο να γνωρίζουμε,既然 οι κατασκευαστές των ιδιωτικών συστημάτων που δραρούν πολλά κρατικά και δημοτικά δίκτυα καμερών (τουλάχιστον στις ΗΠΑ) θα επιχειρήσουν ότι η αποκάλυψη μιας τέτοιας χρήσης θα τους ανοίξει σε επίθεση.

Ωστόσο, η μετανάστευση της κυβερνητικής ΤΠ και των εσωτερικών ιδιωτικών κωδικών σε παγκόσμιους και ανοιχτούς κώδικες θα υποδείκνυε ότι όποιος δοκιμάζει την αξίωση των συγγραφέων με (για παράδειγμα) YOLO θα μπορούσε να χτυπήσει το jackpot αμέσως.

* Θα συμπεριέλαβα συνήθως σχετικά αποτελέσματα πινάκων όταν παρέχονται στο έγγραφο, αλλά σε αυτή την περίπτωση η πολυπλοκότητα των πινάκων του εγγράφου τους καθιστά ασαφείς για τον καθημερινό αναγνώστη, και ένα περίγραμμα είναι επομένως πιο χρήσιμο.

Πρώτη δημοσίευση Τρίτη, 28 Ιανουαρίου 2025

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]

Unite.AI

Τα ‘Μυστικά Μονοπάτια’ που Μπορούν να Αποτυχούν τα Συστήματα Αναγνώρισης Πεζών

Μέθοδος και Δοκιμές

Συμπέρασμα

You may like