Τεχνητή νοημοσύνη

Οι Deepfakes Μπορούν Αποτελεσματικά Να Εξαπατήσουν Πολλές Μεγάλες Facial ‘Liveness’ APIs

Published February 23, 2022

Updated April 28, 2026

Martin Anderson

From DeepFace Live - Arnold Schwarzenegger 224 3.03M Iterations | RTX A6000 - https://www.youtube.com/watch?v=9tr35y-yQRY

Μια νέα έρευνα συνεργασίας μεταξύ των ΗΠΑ και της Κίνας έχει διερευνήσει την ευαλότητα των deepfakes σε κάποια από τα μεγαλύτερα συστήματα αυθεντικοποίησης προσώπου στον κόσμο και βρήκε ότι τα περισσότερα από αυτά είναι ευάλωτα σε εξελισσόμενες μορφές επιθέσεων deepfake.

Η έρευνα διεξήχθη με βάση μια προσαρμοσμένη πλατφόρμα που αναπτύχθηκε εναντίον συστημάτων Facial Liveness Verification (FLV) που παρέχονται από μεγάλους προμηθευτές και πωλούνται ως υπηρεσία σε πελάτες όπως αεροπορικές εταιρείες και εταιρείες ασφάλισης.

Από το έγγραφο, μια επισκόπηση της λειτουργίας των Facial Liveness Verification (FLV) APIs σε μεγάλους παρόχους. Πηγή: https://arxiv.org/pdf/2202.10673.pdf

Η Facial Liveness έχει ως στόχο να αποτρέψει τη χρήση τεχνικών όπως οι επιθετικές επιθέσεις εικόνας, η χρήση μασκών και προηχογραφημένου βίντεο, τα λεγόμενα “master faces” και άλλες μορφές κλονοποίησης οπτικής ταυτότητας.

Η μελέτη καταλήγει στο συμπέρασμα ότι ο περιορισμένος αριθμός μονάδων ανίχνευσης deepfake που έχουν αναπτυχθεί σε αυτά τα συστήματα, πολλά από τα οποία εξυπηρετούν εκατομμύρια πελάτες, είναι μακράν ατελείς και μπορεί να έχουν ρυθμιστεί σε τεχνικές deepfake που είναι πλέον ξεπερασμένες ή μπορεί να είναι πολύ αρχιτεκτονικά συγκεκριμένες.

Οι συγγραφείς σημειώνουν:

‘[Διάφορες] μεθόδους deepfake επίσης δείχνουν διακυμάνσεις σε διαφορετικούς προμηθευτές… Χωρίς πρόσβαση στα τεχνικά στοιχεία των στόχων FLV,.speculate ότι τέτοιες διακυμάνσεις οφείλονται στα μέτρα άμυνας που έχουν αναπτυχθεί από διαφορετικούς προμηθευτές. Για παράδειγμα, ορισμένοι προμηθευτές μπορεί να αναπτύξουν άμυνα κατά συγκεκριμένων επιθέσεων deepfake.’

Και συνεχίζουν:

‘[Οι περισσότεροι] FLV APIs δεν χρησιμοποιούν ανίχνευση anti-deepfake· ακόμη και για εκείνους με τέτοιες άμυνες, η αποτελεσματικότητά τους είναι ανησυχητική (π.χ. μπορεί να ανιχνεύσει υψηλής ποιότητας συνθετικές βίντεο αλλά να αποτύχει να ανιχνεύσει χαμηλής ποιότητας ones).’

Οι ερευνητές παρατηρούν, σε αυτήν τη σχέση, ότι η “αυθεντικότητα” είναι σχετική:

‘[Ακόμη και] αν ένα συνθετικό βίντεο είναι μη πραγματικό για τους ανθρώπους, μπορεί ακόμη να παραβιάσει το τρέχον μηχανισμό ανίχνευσης anti-deepfake με πολύ υψηλό ποσοστό επιτυχίας.’

Πάνω, δείγματα εικόνων deepfake που μπόρεσαν να πιστοποιηθούν στις πειραματικές διαδικασίες των συγγραφέων. Κάτω, φαινομενικά πιο ρεαλιστικά ψευδείς εικόνες που απέτυχαν να πιστοποιηθούν.

Μια άλλη εύρεση ήταν ότι η τρέχουσα διαμόρφωση των γενικών συστημάτων αυθεντικοποίησης προσώπου είναι偏向 προς τους λευκούς άνδρες. Κατά συνέπεια, οι γυναίκες και οι μη λευκοί ταυτότητες βρέθηκαν να είναι πιο αποτελεσματικές στο να παραβιάσουν τα συστήματα αυθεντικοποίησης, θέτοντας τους πελάτες σε αυτές τις κατηγορίες σε μεγαλύτερο κίνδυνο παραβίασης μέσω τεχνικών deepfake.

Η αναφορά βρίσκει ότι οι ταυτότητες των λευκών ανδρών είναι οι πιο αυστηρά και ακριβώς αξιολογημένες από τις δημοφιλείς APIs αυθεντικοποίησης προσώπου. Στο παραπάνω πίνακα, βλέπουμε ότι οι γυναίκες και οι μη λευκοί ταυτότητες μπορούν να χρησιμοποιηθούν πιο εύκολα για να παραβιάσουν τα συστήματα.

Το έγγραφο παρατηρεί ότι ‘υπάρχουν προκαταλήψεις στην [Facial Liveness Verification], οι οποίες μπορεί να φέρουν σημαντικούς κινδύνους ασφαλείας σε μια συγκεκριμένη ομάδα ανθρώπων.’

Οι συγγραφείς επίσης διεξήγαγαν ηθικές επιθέσεις αυθεντικοποίησης προσώπου εναντίον μιας κινεζικής κυβέρνησης, μιας μεγάλης κινεζικής αεροπορικής εταιρείας, μιας από τις μεγαλύτερες ασφαλιστικών εταιρειών στην Κίνα και R360, μιας από τις μεγαλύτερες ομάδες επενδύσεων unicorn στον κόσμο, και αναφέρουν επιτυχία στην παραβίαση των συστημάτων αυθεντικοποίησης αυτών των οργανισμών.

Στην περίπτωση μιας επιτυχούς παραβίασης αυθεντικοποίησης για την κινεζική αεροπορική εταιρεία, η API απαιτούσε από τον χρήστη να “κουνήσει το κεφάλι” ως απόδειξη ενάντια σε πιθανό υλικό deepfake, αλλά αυτό αποδείχθηκε ότι δεν λειτουργεί ενάντια στο πλαίσιο που αναπτύχθηκε από τους ερευνητές, το οποίο περιλαμβάνει έξι αρχιτεκτονικές deepfake.

Παρά την αξιολόγηση της κίνησης του κεφαλιού του χρήστη από την αεροπορική εταιρεία, το περιεχόμενο deepfake μπόρεσε να περάσει το τεστ.

Το έγγραφο σημειώνει ότι οι συγγραφείς επικοινώνησαν με τους προμηθευτές που συμμετείχαν, οι οποίοι έχουν αναφέρει ότι έχουν αναγνωρίσει το έργο.

Οι συγγραφείς προτείνουν μια σειρά από συστάσεις για βελτιώσεις στην τρέχουσα κατάσταση της τέχνης στην FLV, συμπεριλαμβανομένης της εγκατάλειψης της αυθεντικοποίησης με βάση μια einz εικόνα (‘Image-based FLV’), όπου η αυθεντικοποίηση βασίζεται σε μια einz εικόνα από το βίντεο του πελάτη· μια πιο ευέλικτη και ολοκληρωμένη ενημέρωση των συστημάτων ανίχνευσης deepfake σε οπτικά και φωνητικά πεδία· την επιβολή της ανάγκης για φωνητική αυθεντικοποίηση στο βίντεο του χρήστη να συγχρονιστεί με τις κινήσεις των χειλιών (τα οποία δεν είναι τώρα, γενικά)· και την απαίτηση από τους χρήστες να εκτελέσουν χειρονομίες και κινήσεις που είναι δύσκολο για τα συστήματα deepfake να αναπαράγουν (για παράδειγμα, προφίλ views και μερική απόκρυψη του προσώπου).

Το έγγραφο έχει τον τίτλο Seeing is Living? Rethinking the Security of Facial Liveness Verification in the Deepfake Era, και προέρχεται από τους συν-πρωταγωνιστές Changjiang Li και Li Wang, και πέντε άλλους συγγραφείς από το Πανεπιστήμιο της Πενσυλβάνια, το Πανεπιστήμιο Zhejiang και το Πανεπιστήμιο Shandong.

Οι Κεντρικοί Στόχοι

Οι ερευνητές στόχευαν τους ‘έξι πιο αντιπροσωπευτικούς’ προμηθευτές Facial Liveness Verification (FLV), οι οποίοι έχουν αναonomize με κρυπτογράφημα στο έρευνα.

Οι προμηθευτές αντιπροσωπεύονται ως εξής: ‘BD’ και ‘TC’ αντιπροσωπεύουν einen ομόσπονδο προμηθευτή με τον μεγαλύτερο αριθμό κλήσεων API προσώπου, και τη μεγαλύτερη μερίδα των κινεζικών υπηρεσιών cloud AI· ‘HW’ είναι ‘ένας από τους προμηθευτές με την μεγαλύτερη [κινεζική] δημόσια αγορά cloud’· ‘CW’ έχει τον ταχύτερο ρυθμό ανάπτυξης στην υπολογιστική όραση, και είναι σε θέση να πάρει μια ηγετική θέση στην αγορά· ‘ST’ είναι μεταξύ των μεγαλύτερων προμηθευτών υπολογιστικής όρασης· και ‘iFT’ αριθμεί μεταξύ των μεγαλύτερων προμηθευτών λογισμικού AI στην Κίνα.

Δεδομένα και Αρχιτεκτονική

Τα υποκείμενα δεδομένα που τροφοδοτούν το έργο περιλαμβάνουν ένα σύνολο δεδομένων 625.537 εικόνων από την κινεζική πρωτοβουλία CelebA-Spoof, μαζί με ζωντανούς βίντεο από το dataset SiW-M του Πανεπιστημίου του Michigan το 2019.

Όλες οι πειραματικές διαδικασίες διεξήχθησαν σε ένα διακομιστή που χαρακτηρίζεται από δίδυμα 2,40GHz Intel Xeon E5-2640 v4 CPUs που τρέχουν σε 256 GB RAM με 4TB HDD, και τέσσερις ορχηστρικές 1080Ti NVIDIA GPUs, για συνολικά 44GB VRAM.

Έξι σε Ένα

Το πλαίσιο που αναπτύχθηκε από τους συγγραφείς του εγγράφου ονομάζεται LiveBugger, και περιλαμβάνει έξι state-of-the-art deepfake frameworks που αντιτάχθηκαν στα τέσσερα κύρια αμυντικά μέτρα στα συστήματα FLV.

LiveBugger περιλαμβάνει διαφορετικές προσεγγίσεις deepfake, και επικεντρώνεται στα τέσσερα κύρια vectors επιθέσεων στα συστήματα FLV.

Τα έξι deepfake frameworks που χρησιμοποιήθηκαν είναι: το 2018 του Πανεπιστημίου Oxford X2Face· η αμερικανική ακαδημαϊκή συνεργασία ICface· δύο παραλλαγές του 2019 του ισραηλινού έργου FSGAN· το ιταλικό First Order Method Model (FOMM), από τις αρχές του 2020· και η συνεργασία του Πανεπιστημίου Peking με την Microsoft Research FaceShifter (αν και поскольку το FaceShifter δεν είναι ανοικτό, οι συγγραφείς έπρεπε να το αναπαράγουν με βάση τις δημοσιευμένες αρχιτεκτονικές λεπτομέρειες).

Οι μέθοδοι που χρησιμοποιήθηκαν μεταξύ αυτών των πλαισίων περιλαμβάνουν τη χρήση προ-αποτυπωμένου βίντεο στο οποίο τα θέματα του βίντεο ψευδούς εκτελούν προκαθορισμένες ενέργειες που έχουν εξαχθεί από τις απαιτήσεις αυθεντικοποίησης της API σε một προηγούμενο μοντέλο αξιολόγησης του LiveBugger, και επίσης τη χρήση αποτελεσματικού ‘deepfake puppetry’, το οποίο μεταφράζει τις ζωντανές κινήσεις ενός ατόμου σε μια deepfaked ροή που έχει εισαχθεί σε μια συνδεδεμένη ροή webcam.

Ένα παράδειγμα του τελευταίου είναι DeepFaceLive, το οποίο παρουσιάστηκε το προηγούμενο καλοκαίρι ως ένα παράρτημα του δημοφιλού DeepFaceLab, για να ενεργοποιήσει τη ροή deepfake σε πραγματικό χρόνο, αλλά το οποίο δεν περιλαμβάνεται στην έρευνα των συγγραφέων.

Επιθέσεις στους Τέσσερις Διανυσματικούς

Οι τέσσερις διανυσματικοί στοιχείς σε ένα τυπικό σύστημα FLV είναι: image-based FLV, το οποίο χρησιμοποιεί μια einz φωτογραφία που παρέχεται από τον χρήστη ως token αυθεντικοποίησης ενάντια σε μια ταυτότητα προσώπου που είναι καταγεγραμμένη στο σύστημα· silence-based FLV, το οποίο απαιτεί από τον χρήστη να ανεβάσει ένα βίντεο clip· action-based FLV, το οποίο απαιτεί από τον χρήστη να εκτελέσει ενέργειες που ορίζονται από την πλατφόρμα· και voice-based FLV, το οποίο ταιριάζει την ομιλία του χρήστη με το πρότυπο ομιλίας που είναι αποθηκευμένο στη βάση δεδομένων του συστήματος.

Η πρώτη πρόκληση για το σύστημα είναι να καθορίσει το βαθμό στον οποίο μια API θα αποκαλύψει τις απαιτήσεις της,既然 possono να προβλεφθούν και να καλυφθούν στη διαδικασία deepfaking. Αυτό χειρίζεται το Intelligence Engine στο LiveBugger, το οποίο συλλέγει πληροφορίες σχετικά με τις απαιτήσεις από δημόσιες API τεκμηρίωση και άλλες πηγές.

Αποτελέσματα

Οι συγγραφείς βρήκαν ότι όλα τα έξι αξιολογημένα APIs δεν χρησιμοποιούν ανίχνευση συνέχειας, επιτρέποντας στο μηχανισμό deepfaker στο LiveBugger να συνθέσει απλώς συνθετική ήχο με deepfaked βίντεο, με βάση το υλικό που συνεισέφεραν οι εθελοντές.

Ωστόσο, ορισμένες εφαρμογές downstream (δηλαδή πελάτες των πλαισίων API) βρέθηκαν να έχουν προσθέσει ανίχνευση συνέχειας στη διαδικασία, απαιτώντας την προ-εγγραφή ενός βίντεο που να περιλαμβάνει την παραβίαση αυτής της ανίχνευσης.

Επιπλέον, μόνο quelques από τους προμηθευτές API χρησιμοποιούν ανίχνευση lip language· για τους περισσότερους από αυτούς, το βίντεο και η ήχος αναλύονται ως ξεχωριστά ποσά, και δεν υπάρχει λειτουργία που προσπαθεί να ταιριάξει την κίνηση των χειλιών με το παρεχόμενο ήχο.

Διάφορες επιτυχίες που καλύπτουν το εύρος των τεχνικών deepfake που είναι διαθέσιμες στο LiveBugger ενάντια στο διαφορετικό πεδίο των διανυσματικών στοιχείων FLV APIs. Υψηλότερα νούμερα δείχνουν υψηλότερο ποσοστό επιτυχίας στην διείσδυση FLV χρησιμοποιώντας τεχνικές deepfake. Δεν όλες οι APIs περιλαμβάνουν όλες τις δυνατές άμυνες για FLV· για παράδειγμα, einige δεν προσφέρουν καμία άμυνα ενάντια σε deepfakes, ενώ άλλες δεν ελέγχουν αν η κίνηση των χειλιών και ο ήχος ταιριάζουν στο βίντεο του χρήστη κατά την αυθεντικοποίηση.

Συμπέρασμα

Τα αποτελέσματα και οι ενδείξεις του εγγράφου για το μέλλον των FLV APIs είναι λαβυρινθικά, και οι συγγραφείς έχουν συνδυάσει αυτά τα στοιχεία σε μια λειτουργική ‘αρχιτεκτονική ευαλωτότητας’ που θα μπορούσε να βοηθήσει τους développers FLV να κατανοήσουν καλύτερα κάποια από τα ζητήματα που ανακαλύφθηκαν.

Το δίκτυο των συστάσεων του εγγράφου σχετικά με την υπάρχουσα και πιθανή ευαλωτότητα των ρουτινών ταυτοποίησης βίντεο με βάση το πρόσωπο σε επιθέσεις deepfake.

Οι συστάσεις σημειώνουν:

‘Οι κίνδυνοι ασφαλείας της FLV υπάρχουν ευρέως σε πολλές πραγματικές εφαρμογές, και έτσι απειλούν την ασφάλεια εκατομμυρίων τελικών χρηστών’

Οι συγγραφείς επίσης παρατηρούν ότι η χρήση της action-based FLV είναι ‘περιφερειακή’, και ότι η αύξηση του αριθμού των ενεργειών που απαιτούνται από τους χρήστες ‘δεν μπορεί να φέρει κανένα κέρδος ασφαλείας’.

Επιπλέον, οι συγγραφείς σημειώνουν ότι η συνδυασμένη χρήση αναγνώρισης φωνής και χρονικής αναγνώρισης προσώπου (σε βίντεο) είναι μια άκαρπη άμυνα, εκτός αν οι προμηθευτές API αρχίσουν να απαιτούν ότι οι κινήσεις των χειλιών είναι συγχρονισμένες με τον ήχο.

Το έγγραφο δημοσιεύθηκε υπό το φως μιας πρόσφατης προειδοποίησης του FBI για τους κινδύνους της απάτης deepfake, σχεδόν ένα χρόνο μετά την προειδοποίηση τους για τη χρήση της τεχνολογίας σε ξένες επιρροές και γενικές φόβους ότι η τεχνολογία deepfake σε πραγματικό χρόνο θα διευκολύνει μια νέα κύμα εγκλημάτων σε μια κοινή που ακόμα εμπιστεύεται την ασφάλεια αυθεντικοποίησης βίντεο.

Αυτά είναι ακόμα τα πρώτα χρόνια της deepfake ως επιφάνεια επιθέσεων αυθεντικοποίησης· το 2020, 35 εκατομμύρια δολάρια απαγχονίστηκαν από μια τράπεζα στο UAE με τη χρήση τεχνολογίας deepfake audio, και ένας βρετανός εκτελεστής ήταν επίσης απάτημένος να διαβιβάσει 243.000 το 2019.

Πρώτη δημοσίευση 23ης Φεβρουαρίου 2022.

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]