Τεχνητή νοημοσύνη
Αναγνώριση Ψευδών Προσώπων Celebrities από Περιοχές του Εξωτερικού Προσώπου

Μια νέα συνεργασία μεταξύ της Microsoft και ενός κινεζικού πανεπιστημίου έχει προτείνει einen νέο τρόπο αναγνώρισης ψευδών προσώπων celebrities, αξιοποιώντας τις ελλείψεις των τρεχουσών τεχνικών ψευδών προσώπων για την αναγνώριση ταυτοτήτων που έχουν “προβλεφθεί” σε άλλα άτομα.
Η προσέγγιση ονομάζεται Identity Consistency Transformer (ICT) και λειτουργεί συγκρίνοντας τα εξωτερικά μέρη του προσώπου (γνάθος, ζυγωματικά, γραμμή μαλλιών και άλλα εξωτερικά χαρακτηριστικά) με το εσωτερικό του προσώπου. Το σύστημα εκμεταλλεύεται διαθέσιμα δημόσια δεδομένα εικόνων διάσημων προσώπων, τα οποία περιορίζουν την αποτελεσματικότητά του σε δημοφιλείς celebrities, των οποίων οι εικόνες είναι διαθέσιμες σε μεγάλους αριθμούς σε ευρέως διαθέσιμα σύνολα δεδομένων όρασης υπολογιστή και στο διαδίκτυο.

The forgery coverage of faked faces across seven techniques: DeepFake in FF+; DeepFake in Google DeepFake Detection; DeepFaceLab; Face2Face; FSGAN; and DF-VAE. Popular packages such as DeepFaceLab and FaceSwap provide similarly constrained coverage. Source: https://arxiv.org/pdf/2203.01318.pdf
Όπως δείχνει η εικόνα παραπάνω, οι τρέχουσες δημοφιλείς μέθοδοι για ψεύτικα πρόσωπα είναι khá περιορισμένες και βασίζονται σε κατάλληλες εικόνες ξενόγλωσσων προσώπων (η εικόνα ή το βίντεο ενός ατόμου που θα αντικατασταθεί από το ψεύτικο πρόσωπο) για να ελαττωθεί η απόδειξη της αντικατάστασης του προσώπου.
Αν και διαφορετικές μέθοδοι μπορεί να καλύπτουν το πλήρες μέτωπο και ένα μεγάλο μέρος της γνάθου και των ζυγωματικών περιοχών, όλες είναι πιο ή λιγότερο περιορισμένες μέσα στο πλαίσιο του ξενόγλωσσου προσώπου.

A saliency map that emphasizes the ‘inner’ and ‘outer’ identities calculated by ICT. Where an inner facial match is established but an outer identity does not correspond, ICT evaluates the image as false.
Σε δοκιμές, το ICT απέδειξε ότι μπορεί να ανιχνεύσει περιεχόμενο ψευδών προσώπων σε ψευδείς φιλικές περιοχές, όπως βίντεο χαμηλής ανάλυσης, όπου το περιεχόμενο του ολόκληρου βίντεο είναι υποβαθμισμένο από αρτεφάκτα συμπίεσης, βοηθώντας να κρυφτεί το υπολειμματικό αποτέλεσμα της διαδικασίας ψευδών προσώπων – μια περίπτωση που μπερδεύει πολλές ανταγωνιστικές μέθοδοι ανίχνευσης ψευδών προσώπων.

ICT outperforms contenders in recognizing deepfake content. See video embedded at end of article for more examples and better resolution. See embedded source video at end of article for further examples. Source: https://www.youtube.com/watch?v=zgF50dcymj8
Το άρθρο ονομάζεται Προστασία Celebrities με Identity Consistency Transformer και προέρχεται από εννέα ερευνητές που συνδέονται με το Πανεπιστήμιο Επιστημών και Τεχνολογίας της Κίνας, την Microsoft Research Asia και την Microsoft Cloud + AI.
Το Χάσμα Πιστότητας
Υπάρχουν τουλάχιστον δύο λόγοι για τους οποίους οι δημοφιλείς αλγόριθμοι ανταλλαγής προσώπων, όπως το DeepFaceLab και το FaceSwap, παραμελούν την εξωτερική περιοχή του ανταλλαγμένου προσώπου.
Πρώτον, η εκπαίδευση μοντέλων ψευδών προσώπων είναι χρονοβόρα και απαιτεί πολλές πόρους, και η υιοθέτηση “συμβατών” ξενόγλωσσων προσώπων/σωμάτων απελευθερώνει κύκλους GPU και επαναλήψεις για να συγκεντρωθούν στις σχετικά αμετάβλητες εσωτερικές περιοχές του προσώπου, τις οποίες χρησιμοποιούμε για να διακρίνουμε την ταυτότητα (καθώς μεταβλητές όπως η αύξηση βάρους και η γήρανση είναι λιγότερο πιθανό να αλλάξουν αυτά τα βασικά χαρακτηριστικά του προσώπου στο σύντομο χρονικό διάστημα).
Δεύτερον, οι περισσότερες μέθοδοι ψευδών προσώπων (και αυτό είναι σίγουρα η περίπτωση με το DeepFaceLab, το λογισμικό που χρησιμοποιείται από τους πιο δημοφιλείς ή πιο臭名昭著 ερευνητές) έχουν περιορισμένη ικανότητα να αναπαράγουν “τέλος του προσώπου” περιθώρια, όπως ζυγωματικά και γνάθος, και είναι περιορισμένες από το γεγονός ότι ο κώδικας τους δεν έχει αντιμετωπίσει εκτενώς αυτό το ζήτημα.
Στις περιπτώσεις όπου οι ταυτότητες δεν ταιριάζουν καλά, ο αλγόριθμος ψευδών προσώπων πρέπει να “πληρώσει” τις περιοχές του φόντου γύρω από το πρόσωπο, το οποίο το κάνει άσχημα ακόμη και στα χέρια των καλύτερων ψευδών προσώπων, όπως το Ctrl Shift Face, του οποίου το περιεχόμενο χρησιμοποιήθηκε στις μελέτες του άρθρου.

The best of the best: stills from a deepfake video from acclaimed deepfaker Ctrl-Shift-Face, swapping Jim Carrey over Gary Oldman. This work arguably represents some of the best output currently available via DeepFaceLab and post-processing techniques. Nonetheless, the swaps remain limited to the relatively scant attention that DFL gives to the outer face, requiring a Herculean effort of data curation and training to address the outermost lineaments. Source: https://www.youtube.com/watch?v=x8igrh1eyLk
Αυτή η “παλιά μαγική” ή απόκρυψη της προσοχής largely escapes δημόσια προσοχή στην τρέχουσα ανησυχία για την αυξανόμενη ρεαλιστικότητα των ψευδών προσώπων, επειδή οι κριτικές μας ικανότητες γύρω από τα ψεύτικα πρόσωπα είναι ακόμη σε εξέλιξη πέρα από το στάδιο “σοκ και θαύμα”.
Διχοτομικές Ταυτότητες
Το νέο άρθρο σημειώνει ότι οι περισσότερες προηγούμενες μέθοδοι ανίχνευσης ψευδών προσώπων βασίζονται σε τεχνάσματα που προδίδουν τη διαδικασία ανταλλαγής, όπως ασυνεπείς στάσεις κεφαλής και αναβληθείς, μεταξύ πολλών άλλων τεχνικών. Μόνο αυτή την εβδομάδα, ένα νέο άρθρο ανίχνευσης ψευδών προσώπων έχει προτείνει να χρησιμοποιηθεί η “υπογραφή” των διαφορετικών τύπων μοντέλων στο πλαίσιο FaceSwap για να βοηθήσει στην αναγνώριση ψευδών βίντεο που δημιουργήθηκαν με αυτό (δείτε την εικόνα παρακάτω).

Identifying deepfakes by characterizing the signatures of different model types in the FaceSwap framework. Source: https://arxiv.org/pdf/2202.12951.pdf
Αντίθετα, η αρχιτεκτονική του ICT δημιουργεί δύο ξεχωριστά εμβυθισμένα πρόσωπα για ένα άτομο, από τα οποία το καθένα πρέπει να επιβεβαιωθεί πριν από την ολοκλήρωση της ταυτότητας ως “αληθινό” βίντεο ή εικόνα.

Architecture for the training and testing phases of ICT.
Η διχοτόμηση των ταυτοτήτων διευκολύνεται από einen Transformer, ο οποίος thực hiện αναγνώριση προσώπου πριν από τη διαίρεση των ερευνώμενων περιοχών σε tokens που ανήκουν στις εσωτερικές ή εξωτερικές ταυτότητες.

Distributing patches among the two parallel identity signifiers.
Το άρθρο αναφέρει:
‘Unfortunately existing face verification [methods] tend to characterize the most discriminative region, i.e., the inner face for verification and fail to capture the identity information in the outer face. With Identity Consistency Transformer, we train a model to learn a pair of identity vectors, one for the inner face and the other for the outer face, by designing a Transformer such that the inner and the outer identities can be learned simultaneously in a seamlessly unified model.’
Καθώς δεν υπάρχει υπάρχον μοντέλο για αυτό το πρωτόκολλο αναγνώρισης, οι συγγραφείς έχουν επινοήσει einen νέο τύπο συνιστώσας απώλειας που μπορεί να ενεργεί ως μέτρο για την αυθεντικότητα. Τα “εσωτερικά tokens” και “εξωτερικά tokens” που προκύπτουν από το μοντέλο εξαγωγής ταυτότητας προστίθενται στα πιο συμβατικά patch embeddings που παράγονται από πλαισιαία αναγνώρισης προσώπου.
Δεδομένα και Εκπαίδευση
Το δίκτυο ICT εκπαιδεύτηκε στο σύνολο δεδομένων MS-Celeb-1M της Microsoft Research, το οποίο περιέχει 10 εκατομμύρια εικόνες προσώπων celebrities που καλύπτουν 1 εκατομμύριο ταυτότητες, συμπεριλαμβανομένων ηθοποιών, πολιτικών και πολλών άλλων τύπων εξέχοντων προσωπικοτήτων. Σύμφωνα με τη διαδικασία της προηγούμενης μεθόδου Face X-ray (μία άλλη πρωτοβουλία της Microsoft Research), η δική του ICT διαδικασία γεννήτριας ψευδών προσώπων ανταλλάσσει εσωτερικές και εξωτερικές περιοχές προσώπων που προέρχονται από αυτό το σύνολο δεδομένων, για να δημιουργήσει υλικό στο οποίο να δοκιμαστεί ο αλγόριθμος.
Για να thực hiện αυτές τις εσωτερικές ανταλλαγές, το ICT αναγνωρίζει δύο εικόνες στο σύνολο δεδομένων που εμφανίζουν παρόμοιες στάσεις κεφαλής και χαρακτηριστικά προσώπου, δημιουργεί μια περιοχή μάσκας των κεντρικών χαρακτηριστικών (στην οποία μπορεί να πραγματοποιηθεί ανταλλαγή) και thựcεί eine ψεύτικη ανταλλαγή με διόρθωση χρωμάτων RGB.
Ο λόγος για τον οποίο το ICT περιορίζεται στην αναγνώριση celebrities είναι ότι βασίζεται (στην πιο αποτελεσματική του παραλλαγή) σε einen νέο σύνολο αναφοράς που ενσωματώνει παραγόμενα διανύσματα προσώπων από einen κεντρικό πυρήνα (σε αυτή την περίπτωση MS-Celeb-1M, αν και η αναφορά θα μπορούσε να επεκταθεί σε εικόνες που είναι διαθέσιμες στο δίκτυο, οι οποίες θα υπήρχαν πιθανότατα σε επαρκείς ποσότητες και ποιότητα μόνο για γνωστά δημόσια πρόσωπα).
Αυτά τα ζευγάρια διανυσμάτων που προέρχονται από αυτές τις μεθόδους ενεργούν ως tokens αυθεντικότητας για να επιβεβαιώσουν τις εσωτερικές και εξωτερικές περιοχές του προσώπου ταυτόχρονα.
Οι συγγραφείς σημειώνουν ότι τα tokens που λαμβάνονται από αυτές τις μεθόδους αντιπροσωπεύουν “υψηλού επιπέδου” χαρακτηριστικά, οδηγώντας σε μια διαδικασία ανίχνευσης ψευδών προσώπων που είναι πιο πιθανό να επιβιώσει σε απαιτητικά περιβάλλοντα, όπως βίντεο χαμηλής ανάλυσης ή άλλα υποβαθμισμένα βίντεο.
Κρίσιμο είναι ότι το ICT δεν αναζητά αποδεικτικά στοιχεία βασισμένα σε τεχνάσματα, αλλά αντίθετα επικεντρώνεται σε μεθόδους επαλήθευσης ταυτότητας που είναι πιο σύμφωνες με τεχνικές αναγνώρισης προσώπου – μια προσέγγιση που είναι δύσκολη με χαμηλό όγκο δεδομένων, όπως είναι η περίπτωση της έρευνας περιστατικών ψευδών προσώπων εναντίον μη διάσημων στόχων.
Δοκιμές
Εκπαιδευμένο στο MS-Celeb-1M, το ICT χωρίστηκε σε εκδόσεις με βοήθεια αναφοράς και “τυφλές” εκδόσεις του αλγορίθμου και δοκιμάστηκε εναντίον einer σειράς ανταγωνιστικών συνόλων δεδομένων και μεθόδων. Αυτά περιελάμβαναν FaceForensics++ (FF++), ένα σύνολο 1000 αυθεντικών και ψευδών βίντεο που δημιουργήθηκαν με τέσσερις μεθόδους, συμπεριλαμβανομένων Face2Face και FaceSwap; το Deepfake Detection (DFD) της Google, το οποίο αποτελείται από χιλιάδες ψεύτικα βίντεο που δημιουργήθηκαν από την Google; Celeb-DeepFake v1 (CD1), το οποίο περιλαμβάνει 408 πραγματικά και 795 συνθετικά, χαμηλής τεχνικής βίντεο; Celeb-DeepFake v2, μια επέκταση του V1 που περιέχει 590 πραγματικά και 5.639 ψεύτικα βίντεο; και το Deeper-Forensics (Deeper) της Κίνας το 2020.
Αυτά είναι τα σύνολα δεδομένων; οι μέθοδοι ανίχνευσης ψευδών προσώπων στις δοκιμαστικές προκλήσεις ήταν Multi-task, MesoInc4, Capsule, Xception-c0, c2 (μία μέθοδος που χρησιμοποιείται στο FF++), FWA/DSP-FW από το Πανεπιστήμιο του Όλμπανι, Two-Branch, PCL+I2G, και η μέθοδος context-discrepancy του Yuval Nirkin.
Οι ανωτέρω μέθοδοι ανίχνευσης ψευδών προσώπων έχουν ως στόχο την ανίχνευση συγκεκριμένων τύπων χειρισμών προσώπου. Εκτός από αυτές, οι συγγραφείς του νέου άρθρου δοκιμάστηκαν επίσης πιο γενικές προσεγγίσεις ανίχνευσης ψευδών προσώπων Face X-ray, το FFD του Πανεπιστημίου του Μίσιγκαν, το CNNDetection και το Patch-Forensics από το CSAIL του MIT.
Τα πιο εμφανή αποτελέσματα από τη δοκιμή είναι ότι οι ανταγωνιστικές μέθοδοι πέφτουν δραματικά σε αποτελεσματικότητα καθώς η ανάλυση και η ποιότητα του βίντεο μειώνονται. Καθώς κάποιες από τις πιο σοβαρές δυνατότητες διείσδυσης των ψευδών προσώπων στις διακριτικές μας ικανότητες (όχι τουλάχιστον στο τρέχον χρονικό διάστημα) βρίσκονται σε μη HD ή άλλες υποβαθμισμένες ποιότητες βίντεο, αυτό θα φαινόταν να είναι ένα σημαντικό αποτέλεσμα.

Στον πίνακα αποτελεσμάτων παρακάτω, βλέπουμε την αποτελεσματικότητα των διαφορετικών μεθόδων ανίχνευσης ψευδών προσώπων στα μη είδημένα σύνολα δεδομένων. Τα γκρίζα και με αστερίσκο αποτελέσματα υποδεικνύουν σύγκριση από αρχικά δημοσιευμένα αποτελέσματα σε κλειστά έργα, τα οποία δεν μπορούν να επιβεβαιωθούν εξωτερικά. Σε σχεδόν όλα τα συγκρίσιμα πλαισιαία, το ICT υπερέχει των ανταγωνιστικών μεθόδων ανίχνευσης ψευδών προσώπων (που εμφανίζονται με τολμηρά) στα δοκιμασμένα σύνολα δεδομένων.

Ως πρόσθετη δοκιμή, οι συγγραφείς έτρεξαν περιεχόμενο από το κανάλι του YouTube του διακεκριμένου deepfaker Ctrl Shift Face και βρήκαν ότι οι ανταγωνιστικές μέθοδοι πέτυχαν αξιοσημείωτα κατώτερα σκορ:

Είναι αξιοσημείωτο ότι οι μέθοδοι FF++ (Xception-c23) και FFD, οι οποίες επιτύγχαναν κάποια από τα υψηλότερα σκορ σε κάποια από τα δοκιμασμένα δεδομένα στις γενικές δοκιμές του νέου άρθρου, εδώ επιτύγχαναν ένα πολύ χαμηλότερο σκορ από το ICT σε ένα “πραγματικό κόσμο” περιβάλλον ψευδών προσώπων υψηλής προσπάθειας.
Οι συγγραφείς ολοκληρώνουν το άρθρο με την ελπίδα ότι τα αποτελέσματά του θα κατευθύνουν την κοινότητα ανίχνευσης ψευδών προσώπων προς παρόμοιες πρωτοβουλίες που επικεντρώνονται σε πιο εύκολα γενικεύσιμα χαρακτηριστικά υψηλού επιπέδου και μακριά από τον “ψυχρό πόλεμο” της ανίχνευσης τεχνασμάτων, στον οποίο οι τελευταίες μέθοδοι αντικαθίστανται κανονικά από εξελίξεις σε πλαίσια ψευδών προσώπων ή από άλλα παράγοντες που κάνουν τέτοιες μέθοδοι λιγότερο ανθεκτικές.
Δείτε το συνοδευτικό βίντεο παρακάτω για περισσότερα παραδείγματα του ICT που αναγνωρίζουν περιεχόμενο ψευδών προσώπων που συχνά ξεπερνούν τις εναλλακτικές μεθόδους.
https://www.youtube.com/watch?v=zgF50dcymj8
Πρώτη δημοσίευση 4η Μαρτίου 2022.










