Επιτήρηση
‘Δεδομένα’ Συνθετικά Πρόσωπα Μπορούν Να Βοηθήσουν τη Βελτίωση της Αναγνώρισης Προσώπου

Ερευνητές από το Πανεπιστήμιο του Μίσιγκαν έχουν αναπτύξει einen τρόπο για τα συνθετικά πρόσωπα να κάνουν μια παύση από τη σκηνή των deepfakes και να κάνουν κάτι καλό στον κόσμο – βοηθώντας τα συστήματα αναγνώρισης εικόνων να γίνουν πιο ακριβή.
Το νέο μοντέλο συνθετικής πρόσωπου (CFSM) που έχουν αναπτύξει είναι ικανό να αναγεννήσει πρόσωπα στο στυλ πραγματικών βίντεο επιτήρησης, αντί να βασίζεται στις ομοιόμορφες υψηλότερης ποιότητας εικόνες που χρησιμοποιούνται σε δημοφιλείς ανοικτές πηγές δεδομένων διασημοτήτων, οι οποίες δεν αντανακλούν όλα τα λάθη και τις ελλείψεις των γνήσιων συστημάτων CCTV, όπως η θόλωση προσώπου, η χαμηλή ανάλυση και ο θόρυβος αισθητήρα – παράγοντες που μπορούν να επηρεάσουν την ακρίβεια αναγνώρισης.

Σχέδιο αρχιτεκτονικής για το Μοντέλο Συνθετικής Πρόσωπου (CFSM). Πηγή: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf
Το CFSM δεν προορίζεται ειδικά για την αυθεντική模仿ση των θέσεων κεφαλής, των εκφράσεων ή όλων των άλλων συνήθων χαρακτηριστικών που είναι το αντικείμενο των συστημάτων deepfake, αλλά για τη γεννήτρια μιας σειράς εναλλακτικών προοπτικών στο στυλ του συστήματος αναγνώρισης, χρησιμοποιώντας μεταφορά στυλ.
Το σύστημα σχεδιάστηκε για να μιμηθεί το στυλ του στόχου συστήματος και να προσαρμόσει την έξοδο του ανάλογα με την ανάλυση και την εύρος των ‘εξοχών’ εκεί. Η περίπτωση χρήσης περιλαμβάνει παλαιά συστήματα που δεν είναι πιθανό να αναβαθμιστούν λόγω κόστους, αλλά τα οποία μπορούν τώρα να συμβάλλουν λίγο στις νέες γενιές τεχνολογιών αναγνώρισης προσώπου, λόγω της κακής ποιότητας της έξοδου που μπορεί να ήταν πρωτοποριακή.
Κατά τη δοκιμή του συστήματος, οι ερευνητές βρήκαν ότι έκανε αξιοσημείωτες κερδισμένες στην κατάσταση της τέχνης στα συστήματα αναγνώρισης εικόνων που πρέπει να αντιμετωπίσουν αυτό το είδος θορύβου και χαμηλής ποιότητας δεδομένων.

Εκπαίδευση των μοντέλων αναγνώρισης προσώπου για να προσαρμοστούν στις περιορισμοί των συστημάτων στόχου. Πηγή: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf
Βρήκαν επίσης ένα χρήσιμο παραπροϊόν της διαδικασίας – ότι τα σύνολα δεδομένων στόχου θα μπορούσαν τώρα να χαρακτηριστούν και να συγκριθούν μεταξύ τους, καθιστώντας τη σύγκριση, τη βάση και τη γεννήτρια των εξειδικευμένων συνόλων δεδομένων για διάφορα συστήματα CCTV πιο εύκολη στο μέλλον.
Επιπλέον, η μέθοδος μπορεί να εφαρμοστεί σε υπάρχοντα σύνολα δεδομένων, εκτελώντας de facto προσαρμογή τομέα και καθιστώντας τα πιο κατάλληλα για συστήματα αναγνώρισης προσώπου.
Το νέο έγγραφο έχει τον τίτλο Ελεγχόμενη και Καθοδηγούμενη Συνθετική Πρόσωπο για Ανεμπόδιστη Αναγνώριση Προσώπου, υποστηρίζεται εν μέρει από το Γραφείο του Διευθυντή της Εθνικής Υπηρεσίας Πληροφοριών (ODNI, στο IARPA), και προέρχεται από τέσσερις ερευνητές από το Τμήμα Επιστήμης και Μηχανικής του MSU.
Featured Content
Η αναγνώριση προσώπου χαμηλής ποιότητας (LQFR) έχει γίνει ένας αξιοσημείωτος τομέας μελέτης τα τελευταία χρόνια. Επειδή οι δημόσιες και δημοτικές αρχές έχτισαν συστήματα βίντεο επιτήρησης για να είναι ανθεκτικά και μακροχρόνια (χωρίς να θέλουν να ξαναδανείζουν πόρους στο πρόβλημα περιοδικά), πολλά ‘παλαιά’ συστήματα επιτήρησης έχουν γίνει θύματα τεχνικού χρέους, σε σχέση με την προσαρμοστικότητά τους ως πηγών δεδομένων για τη μηχανική μάθηση.

Διάφορες επιπέδου ανάλυσης προσώπου σε μια σειρά από ιστορικά και πιο πρόσφατα συστήματα βίντεο επιτήρησης. Πηγή: https://arxiv.org/pdf/1805.11519.pdf
Τυχαία, αυτό είναι μια εργασία που τα μοντέλα διάχυσης και άλλα μοντέλα θορύβου είναι ασυνήθιστα καλά προσαρμοσμένα να λύσουν. Πολλά από τα πιο δημοφιλή και αποτελεσματικά συστήματα σύνθεσης εικόνων των τελευταίων ετών εκτελούν αύξηση ανάλυσης χαμηλής ανάλυσης εικόνων ως μέρος του πipelines, ενώ αυτό είναι επίσης απολύτως απαραίτητο για τεχνικές συμπίεσης νευρωνικών (μέθοδοι για να αποθηκεύουν εικόνες και ταινίες ως νευρωνικά δεδομένα αντί για bitmap δεδομένα).
Μέρος της πρόκλησης της αναγνώρισης προσώπου είναι να αποκτήσει την μέγιστη δυνατή ακρίβεια από το ελάχιστο δυνατό αριθμό χαρακτηριστικών που μπορούν να εξαχθούν από τις μικρότερες και λιγότερο υποσχόμενες εικόνες χαμηλής ανάλυσης. Αυτό το περιορισμό υπάρχει όχι μόνο επειδή είναι χρήσιμο να μπορείτε να αναγνωρίσετε (ή να δημιουργήσετε) ένα πρόσωπο σε χαμηλή ανάλυση, αλλά και λόγω τεχνικών περιορισμών στο μέγεθος των εικόνων που μπορούν να περάσουν από τον εμβρυοντικό χώρο ενός μοντέλου που εκπαιδεύεται σε ό,τι VRAM είναι διαθέσιμο σε μια τοπική GPU.
Σε αυτή την έννοια, ο όρος ‘χαρακτηριστικά’ είναι συναρπαστικός,既然 αυτά τα χαρακτηριστικά μπορούν επίσης να ληφθούν από ένα σύνολο δεδομένων από παγκάκια. Στο τομέα της όρασης υπολογιστή, ‘χαρακτηριστικά’ αναφέρεται στα διακριτικά χαρακτηριστικά που λαμβάνονται από εικόνες – οποιαδήποτε εικόνες, είτε είναι τα χαρακτηριστικά ενός ναού, ενός βουνού, ή η διάθεση προσώπου σε ένα σύνολο δεδομένων προσώπου.
Καθώς οι αλγόριθμοι όρασης υπολογιστή είναι τώρα ικανοί να αυξάνουν εικόνες και βίντεο, διάφορες μέθοδοι έχουν προταθεί για να ‘βελτιώσουν’ χαμηλής ανάλυσης ή αλλοιωμένα υλικό επιτήρησης, μέχρι το σημείο που θα μπορούσε να είναι δυνατό να χρησιμοποιηθούν τέτοιες αυξήσεις για νομικούς σκοπούς, όπως η τοποθέτηση ενός ατόμου σε μια σκηνή, σε σχέση με μια έρευνα εγκλήματος.
Εκτός από τη δυνατότητα λανθασμένης αναγνώρισης, η οποία έχει περίčas gathered επικεφαλίδες, θεωρητικά δεν θα ήταν απαραίτητο να υπερ-αναλύσετε ή να μετατρέψετε αλλοιωμένα υλικό επιτήρησης για να κάνετε μια θετική αναγνώριση ενός ατόμου,既然 ένα σύστημα αναγνώρισης προσώπου που προσανατολίζεται σε χαμηλού επιπέδου χαρακτηριστικά δεν θα χρειαζόταν αυτό το επίπεδο ανάλυσης και σαφήνειας. Επιπλέον, τέτοιες μετατροπές είναι ακριβές στην πράξη και ανακύπτουν πρόσθετα, πρόσφατα ερωτήματα γύρω από την потенτική τους εγκυρότητα και νομιμότητα.
Η Ανάγκη για Περισσότερα ‘Δεδομένα’ Διασημοτήτων
Θα ήταν πιο χρήσιμο αν ένα σύστημα αναγνώρισης προσώπου θα μπορούσε να εξαγάγει χαρακτηριστικά (δηλαδή χαρακτηριστικά μηχανικής μάθησης ανθρώπινων χαρακτηριστικών) από την έξοδο των παλαιών συστημάτων όπως είναι, κατανοώντας καλύτερα τη σχέση μεταξύ ‘υψηλής ανάλυσης’ ταυτότητας και των αλλοιωμένων εικόνων που είναι διαθέσιμες σε αμετάβλητα (και συχνά αντικαταστάσιμα) υπάρχοντα συστήματα βίντεο επιτήρησης.
Το πρόβλημα εδώ είναι ένα πρόβλημα προτύπων: κοινά σύνολα δεδομένων που συλλέγονται από το διαδίκτυο όπως MS-Celeb-1M και WebFace260M (μεταξύ άλλων), έχουν αγκιστρωθεί από την ερευνητική κοινότητα επειδή παρέχουν σταθερά σημεία αναφοράς με τα οποία οι ερευνητές μπορούν να μετρήσουν την προοδότησή τους έναντι της τρέχουσας κατάστασης της τέχνης.

Παραδείγματα από το δημοφιλές σύνολο δεδομένων MS-Celeb1m. Πηγή: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/
Ωστόσο, οι συγγραφείς υποστηρίζουν ότι οι αλγόριθμοι αναγνώρισης προσώπου (FR) που εκπαιδεύονται σε αυτά τα σύνολα δεδομένων είναι ακατάλληλα υλικό για τα οπτικά ‘τομείς’ της έξοδου από πολλά παλαιά συστήματα επιτήρησης.
Το έγγραφο αναφέρει*:
‘[Κατάσταση της τέχνης] (SoTA) μοντέλα FR δεν λειτουργούν καλά σε πραγματικά δεδομένα επιτήρησης (ανεμπόδιστα) λόγω του προβλήματος μετατόπισης τομέα, δηλαδή τα μεγάλα σύνολα δεδομένων (ημι-περιορισμένα) που λαμβάνονται μέσω διαδικτυακών διασημοτήτων λείπουν σε φυσικό περιβάλλον, όπως εγγενής θόρυβος αισθητήρα, χαμηλή ανάλυση, θόλωση κίνησης, επίδραση τουρμπουλένς, κ.λπ.
‘Για παράδειγμα, η ακρίβεια 1:1 επαλήθευσης που αναφέρεται από ένα από τα SoTA μοντέλα στο ανεμπόδιστο IJB-S σύνολο δεδομένων είναι περίπου 30% χαμηλότερη από το ημι-περιορισμένο LFW.
‘Μια πιθανή θεραπεία σε αυτό το χάσμα απόδοσης είναι να συναθροίσετε ένα μεγάλο σύνολο δεδομένων ανεμπόδιστου προσώπου. Ωστόσο, η κατασκευή ενός τέτοιου συνόλου δεδομένων με δεκάδες χιλιάδες υποκειμένου είναι προβληματικά δύσκολο με υψηλό χειρονακτικό κόστος ετικέτας.’
Το έγγραφο αναφέρει διάφορες προηγούμενες μεθόδους που έχουν προσπαθήσει να ‘ταιριάξουν’ τους διαφορετικούς τύπους εξόδου από ιστορικά ή χαμηλού κόστους συστημάτων επιτήρησης, αλλά σημειώνουν ότι αυτές έχουν να κάνουν με ‘τυφλά’ αυξήσεις. Αντιθέτως, το CFSM λαμβάνει άμεση ανάδραση από την έξοδο του συστήματος στόχου κατά την εκπαίδευση και προσαρμόζεται μέσω μεταφοράς στυλ για να μιμηθεί αυτόν τον τομέα.

Η ηθοποιός Natalie Portman, keine ξένη στα λίγα σύνολα δεδομένων που κυριαρχούν στην κοινότητα όρασης υπολογιστή, εμφανίζεται μεταξύ των ταυτοτήτων σε αυτό το παράδειγμα του CFSM που εκτελείται με στυλ-συσχετισμένη προσαρμογή τομέα με βάση την ανάδραση από τον τομέα του πραγματικού μοντέλου στόχου.
Οι συγγραφείς σχολιάζουν:
‘Με την ανάδραση από το μοντέλο FR, οι συνθετικές εικόνες είναι πιο ωφέλιμες για την απόδοση FR, οδηγώντας σε σημαντικά βελτιωμένες ικανότητες γενίκευσης των μοντέλων FR που εκπαιδεύονται με αυτές.’
Δοκιμές
Οι ερευνητές χρησιμοποίησαν το προηγούμενο έργο του MSU ως πρότυπο για δοκιμή του συστήματος. Βασισμένοι στα ίδια πρωτόκολλα πειραμάτων, χρησιμοποίησαν το MS-Celeb-1m, το οποίο αποτελείται αποκλειστικά από διαδικτυακές φωτογραφίες διασημοτήτων, ως το συνδεδεμένο σύνολο δεδομένων εκπαίδευσης. Για ισότητα, συμπεριέλαβαν επίσης το MS1M-V2, το οποίο περιέχει 3,9 εκατομμύρια εικόνες με 85.700 κλάσεις.
Τα δεδομένα στόχου ήταν το σύνολο δεδομένων WiderFace, από το Πανεπιστήμιο του Χονγκ Κονγκ. Αυτό είναι ένα ιδιαίτερα διαφοροποιημένο σύνολο εικόνων που σχεδιάστηκε για εργασίες ανίχνευσης προσώπου σε προκλήσεις. 70.000 εικόνες από αυτό το σύνολο χρησιμοποιήθηκαν.
Για αξιολόγηση, το σύστημα δοκιμάστηκε σε τέσσερις αναγνώρισης προσώπου: : IJB-B, IJB-C, IJB-S, και TinyFace.
Το CFSM εκπαιδεύτηκε με ~10% των δεδομένων εκπαίδευσης από το MS-Celeb-1m, περίπου 0,4 εκατομμύρια εικόνες, για 125.000 επαναλήψεις με μέγεθος δείγματος 32 υπό τον βελτιστοποιητή Adam με ρυθμό μάθησης 1e-4.
Το μοντέλο αναγνώρισης προσώπου στόχου χρησιμοποιούσε μια τροποποίηση του ResNet-50 για το σκελετό, με την ενεργοποιημένη συνάρτηση ArcFace κατά την εκπαίδευση. Επιπλέον, ένα μοντέλο εκπαιδεύτηκε με το CFSM ως αφαίρεση και συγκριτική άσκηση (σημειωμένο ως ‘ArcFace’ στον πίνακα αποτελεσμάτων παρακάτω).
Οι συγγραφείς σχολιάζουν τα πρωταρχικά αποτελέσματα:
‘Το μοντέλο ArcFace υπερέχει από όλα τα βασικά μοντέλα και στις δύο εργασίες αναγνώρισης και επαλήθευσης προσώπου, και επιτυγχάνει μια νέα κατάσταση της τέχνης απόδοση.’
Η ικανότητα να εξαγάγει τομείς από τις διάφορες ιδιότητες των παλαιών ή υπο-σπεκ συστημάτων επιτήρησης επίσης επιτρέπει στους συγγραφείς να συγκρίνουν και να αξιολογήσουν τη συσχέτιση κατανομής μεταξύ αυτών των πλαισίων, και να παρουσιάσουν κάθε σύστημα σε σχέση με ένα οπτικό στυλ που θα μπορούσε να αξιοποιηθεί σε μελλοντική εργασία.
Οι συγγραφείς σημειώνουν επιπλέον ότι το σύστημά τους θα μπορούσε να κάνει μια χρήσιμη χρήση ορισμένων τεχνολογιών που έχουν, μέχρι τώρα, θεωρηθεί αποκλειστικά ως προβλήματα που πρέπει να επιλυθούν από την ερευνητική και όραση κοινότητα:
‘[CFSM] δείχνει ότι η εχθρική χειραγώγηση θα μπορούσε να πηγαίνει πέρα από το να είναι ένας επιτιθέμενος, και να υπηρετεί για να αυξήσει τις ακρίβειες αναγνώρισης σε εργασίες όρασης. Εν τω μεταξύ, ορίσαμε einen μετρητή ομοιότητας συνόλου δεδομένων με βάση τις μαθημένες βάσεις στυλ, οι οποίες συλλαμβάνουν τις διαφορές στυλ σε ένα τρόπο που είναι αδιάφορος για ετικέτες ή προβλέψεις.’
‘Πιστεύουμε ότι η έρευνά μας έχει παρουσιάσει τη δύναμη ενός ελεγχόμενου και καθοδηγούμενου μοντέλου συνθετικής πρόσωπου για ανεμπόδιστη αναγνώριση προσώπου και παρέχει μια κατανόηση των διαφορών συνόλου δεδομένων.’
* Η μετατροπή των εσωτερικών εικασιών των συγγραφέων σε υπερ-σύνδεσμους.
Πρώτη δημοσίευση 1ης Αυγούστου 2022.








