Τεχνητή νοημοσύνη

Αναίρεση Ψευδούς Βίντεο Κλήσεων Μέσω Ιλουμινίσεων Οθόνης

Published July 6, 2022

Updated April 28, 2026

Martin Anderson

Μια νέα συνεργασία μεταξύ eines ερευνητή από την Εθνική Υπηρεσία Ασφαλείας των Ηνωμένων Πολιτειών (NSA) και του Πανεπιστημίου της Καλιφόρνιας στο Μπέρκλεϊ προσφέρει μια νέα μέθοδο για την ανίχνευση ψευδούς περιεχομένου σε ζωντανούς βίντεο – παρατηρώντας την επίδραση της φωτισμού της οθόνης στην εμφάνιση του ατόμου στην άλλη πλευρά της βίντεο κλήσης.

Ο δημοφιλής χρήστης DeepFaceLive Druuzil Tech & Games δοκιμάζει το δικό του μοντέλο Christian Bale DeepFaceLab σε μια ζωντανή συνεδρία με τους οπαδούς του, ενώ αλλάζουν οι πηγές φωτισμού. Source: https://www.youtube.com/watch?v=XPQLDnogLKA

Το σύστημα λειτουργεί τοποθετώντας ένα γραφικό στοιχείο στην οθόνη του χρήστη που αλλάζει μια στενή περιοχή του χρώματος γρηγορότερα από ό,τι ένα τυπικό σύστημα ψευδούς βίντεο μπορεί να ανταποκριθεί – ακόμη και αν, όπως η εφαρμογή DeepFaceLive (παρατηρήθηκε παραπάνω), έχει κάποια ικανότητα διατήρησης ζωντανού χρωματικού μεταφορέα και λογαριασμού για περιβαλλοντική φωτισμό.

Η ομοιόμορφη εικόνα χρώματος που εμφανίζεται στην οθόνη του ατόμου στην άλλη πλευρά (δηλ. ο πιθανός ψευδής απάτης) κυκλοφορεί μέσα από μια περιορισμένη ποικιλία αλλαγών χρώματος που σχεδιάζονται να μην ενεργοποιούν την αυτόματη λευκή ισορροπία της webcam και άλλα συστήματα συμμόρφωσης φωτισμού, τα οποία θα компромπάρουν τη μέθοδο.

Από το έγγραφο, μια εικονογράφηση της αλλαγής των συνθηκών φωτισμού από την οθόνη μπροστά σε ένα χρήστη, η οποία λειτουργεί αποτελεσματικά ως μια διάχυτη ‘περιοχή φωτισμού’. Source: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

Η θεωρία πίσω από эту προσέγγιση είναι ότι τα ζωντανά συστήματα ψευδούς βίντεο δεν μπορούν να ανταποκριθούν εγκαίρως στις αλλαγές που απεικονίζονται στην οθόνη γραφικού, αυξάνοντας την ‘καθυστέρηση’ του ψευδούς βίντεο σε ορισμένα μέρη του φάσματος χρώματος, αποκαλύπτοντας την παρουσία του.

Για να μπορέσει να μετρήσει με ακρίβεια το αντανακλωμένο φωτισμό της οθόνης, το σύστημα χρειάζεται να λάβει υπόψη και να αποκλείσει την επίδραση του γενικού περιβαλλοντικού φωτισμού που δεν σχετίζεται με το φωτισμό της οθόνης. Τότε είναι σε θέση να διακρίνει ελλείψεις στη μέτρηση του ενεργού φωτισμού και του χρώματος του προσώπου των χρηστών, αντιπροσωπεύοντας μια χρονική μετατόπιση 1-4 καρέ διαφορά μεταξύ κάθε:

Με την περιορισμένη ποικιλία αλλαγών χρώματος στο γραφικό ‘ανιχνευτή’, και διασφαλίζοντας ότι η webcam του χρήστη δεν προκαλείται να αυτο-ρυθμίσει τις ρυθμίσεις καταγραφής με υπερβολική αλλαγή φωτισμού οθόνης, οι ερευνητές έχουν能够 να διακρίνουν μια προειδοποιητική καθυστέρηση στην προσαρμογή του ψευδούς βίντεο στις αλλαγές φωτισμού.

Το έγγραφο καταλήγει:

‘Λόγω του λογικού εύλογου ελέγχου που τοποθετούμε στις ζωντανές βίντεο κλήσεις, και την αυξανόμενη πανταχού παρούσα των βίντεο κλήσεων στις προσωπικές και επαγγελματικές μας ζωές, προτείνουμε ότι οι τεχνικές για την αυθεντικοποίηση βίντεο (και ήχου) κλήσεων θα αυξήσουν μόνο την σημασία τους.’

Η μελέτη έχει τον τίτλο Αναίρεση Ψευδούς Βίντεο σε Πραγματικό Χρόνο Χρησιμοποιώντας Ενεργό Φωτισμό, και προέρχεται από την Candice R. Gerstner, μια εφαρμοσμένη ερευνήτρια μαθηματικού στο Υπουργείο Άμυνας των ΗΠΑ, και τον Καθηγητή Hany Farid του Μπέρκλεϊ.

Διάβρωση της Εμπιστοσύνης

Η σκηνή ερευνών κατά του ψευδούς βίντεο έχει στρεβλώσει σημαντικά τους τελευταίους έξι μήνες, μακριά από την γενική ανίχνευση ψευδούς βίντεο (δηλ. στοχεύοντας σε προηχογραφημένα βίντεο και πορνογραφικό περιεχόμενο) και προς την ανίχνευση ‘ζωντανού’ βίντεο, ως απάντηση σε μια αυξανόμενη κυματία περιστατικών χρήσης ψευδούς βίντεο σε βίντεο κλήσεις και στην πρόσφατη προειδοποίηση του FBI σχετικά με την αυξανόμενη χρήση τέτοιων τεχνολογιών σε εφαρμογές για απομακρυσμένη εργασία.

Ακόμη και όπου μια βίντεο κλήση δεν αποδεικνύεται ότι ήταν ψευδής, οι αυξημένες ευκαιρίες για AI-ωθούμενους βίντεο απατεώνες αρχίζουν να γεννήσουν παρανοϊα.

Το νέο έγγραφο αναφέρει:

‘Η δημιουργία ψευδούς βίντεο σε πραγματικό χρόνο [παρουσιάζει] μοναδικές απειλές λόγω του γενικού αισθήματος εμπιστοσύνης που περιβάλλει μια ζωντανή βίντεο ή τηλεφωνική κλήση, και της πρόκλησης της ανίχνευσης ψευδούς βίντεο σε πραγματικό χρόνο, καθώς μια κλήση αναπτύσσεται.’

Η ερευνητική κοινότητα έχει ήδη θέσει ως στόχο να βρει ακαταμάχητες ενδείξεις ψευδούς περιεχομένου που δεν μπορούν εύκολα να αντισταθμιστούν. Αν και τα μέσα ενημέρωσης έχουν χαρακτηρίσει συνήθως αυτόν τον αγώνα ως τεχνολογικό πόλεμο μεταξύ ερευνητών ασφαλείας και αναπτύκτων ψευδούς βίντεο, οι περισσότερες ανατροπές των πρώτων προσεγγίσεων (όπως ανάλυση αναπνοής ματιών, διακρίβωση στάσης κεφαλής, και ανάλυση συμπεριφοράς) έχουν συμβεί απλά επειδή οι αναπτύκτες και οι χρήστες προσπαθούσαν να κάνουν πιο ρεαλιστικά ψευδείς βίντεο γενικά, και όχι συγκεκριμένα για να αντιμετωπίσουν το τελευταίο ‘σημάδι’ που αναγνωρίστηκε από την κοινότητα ασφαλείας.

Βάζοντας Φως στο Ζωντανό Ψευδές Βίντεο

Η ανίχνευση ψευδούς βίντεο σε ζωντανούς βίντεο περιβάλλοντες φέρει το βάρος της λογαριασμού για κακές συνδέσεις βίντεο, οι οποίες είναι πολύ συχνές σε σενάρια τηλεδιάσκεψης. Ακόμη και χωρίς ένα παρεμβατικό στρώμα ψευδούς βίντεο, το περιεχόμενο βίντεο μπορεί να υπόκειται σε καθυστερήσεις τύπου NASA, artefacts απόδοση, και άλλους τύπους υποβάθμισης σε ήχο και βίντεο. Αυτά μπορούν να κρύψουν τις άσχημες άκρες σε μια ζωντανή αρχιτεκτονική ψευδούς βίντεο, και σε ήχο ψευδούς βίντεο.

Το νέο σύστημα των ερευνητών βελτιώνει τα αποτελέσματα και τις μεθόδους που παρουσιάζονται σε μια έκδοση του 2020 από το Κέντρο για τη Δικτυωμένη Υπολογιστική στο Πανεπιστήμιο Temple στη Φιλαδέλφεια.

Από το έγγραφο του 2020, μπορούμε να παρατηρήσουμε την αλλαγή του ‘γεμισμένου’ φωτισμού προσώπου καθώς αλλάζει το περιεχόμενο της οθόνης του χρήστη. Source: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

Η διαφορά στη νέα εργασία είναι ότι λαμβάνει υπόψη τον τρόπο με τον οποίο οι webcam ανταποκρίνονται στις αλλαγές φωτισμού. Οι ερευνητές εξηγούν:

‘Επειδή όλες οι σύγχρονες webcam thực hiện αυτόματη έκθεση, ο τύπος υψηλής έντασης ενεργού φωτισμού [χρησιμοποιείται στην προηγούμενη εργασία] είναι πιθανό να προκαλέσει την αυτόματη έκθεση της κάμερας, η οποία με τη σειρά της θα προκαλέσει την καταγραφή της εμφάνισης του προσώπου. Για να αποφευχθεί αυτό, χρησιμοποιούμε μια ενεργό φωτισμό που αποτελείται από μια ισοχρωματική αλλαγή χρώματος.

‘Ενώ αυτό αποφεύγει την αυτόματη έκθεση της κάμερας, θα μπορούσε να προκαλέσει την λευκή ισορροπία της κάμερας, η οποία με τη σειρά της θα προκαλέσει την καταγραφή της εμφάνισης του προσώπου. Για να αποφευχθεί αυτό, λειτουργούμε σε μια περιοχή χρώματος που έχουμε εμπειρικά καθορίσει ότι δεν προκαλεί λευκή ισορροπία.’

Για αυτή την πρωτοβουλία, οι ερευνητές εξέτασαν επίσης παρόμοιες προηγούμενες προσπάθειες, όπως το LiveScreen, το οποίο Applies μια αόρατη φωτισμό σε μια οθόνη του τελικού χρήστη σε μια προσπάθεια να αποκαλύψει ψευδές περιεχόμενο.

Αν και αυτό το σύστημα πέτυχε ένα ποσοστό ακρίβειας 94,8%, οι ερευνητές καταλήγουν στο συμπέρασμα ότι η λεπτότητα των μοτίβων φωτισμού θα κάνει μια τέτοια κρυφή προσέγγιση δύσκολο να εφαρμοστεί σε φωτεινά περιβάλλοντα, και αντίθετα προτείνουν ότι το δικό τους σύστημα, ή ένα που ακολουθεί παρόμοιες γραμμές, θα μπορούσε να ενσωματωθεί δημόσια και από προεπιλογή σε δημοφιλή λογισμικό τηλεδιάσκεψης:

‘Η παρέμβασή μας θα μπορούσε να πραγματοποιηθεί είτε από έναν συμμετέχοντα σε μια κλήση που απλώς μοιράζεται την οθόνη και εμφανίζει το χρονικά μεταβαλλόμενο μοτίβο, είτε, ιδανικά, θα μπορούσε να ενσωματωθεί trực tiếp στο πρόγραμμα-πελάτης βίντεο κλήσεων.’

Δοκιμές

Οι ερευνητές χρησιμοποίησαν μια смесь συνθετικών και πραγματικών υποκειμένων για να δοκιμάσουν τον ανιχνευτή ψευδούς βίντεο Dlib. Για το συνθετικό σενάριο, χρησιμοποίησαν Mitsuba, einen forward και inverse renderer από το Eidgenössische Technische Hochschule (ETH) στη Ζυρίχη.

Δείγματα από το συνθετικό σετ δεδομένων, με ποικίλες αποχρώσεις δέρματος, μέγεθος πηγής φωτός, ένταση περιβαλλοντικού φωτός και απόσταση από την κάμερα.

Η σκηνή που απεικονίζεται περιλαμβάνει ένα παραμετρικό CGI κεφάλι που έχει κατανεμηθεί από μια εικονική κάμερα με 90° οπτικό πεδίο. Τα κεφάλια έχουν Lambertian ανακλαστικότητα και ουδέτερες αποχρώσεις δέρματος, και βρίσκονται 2 πόδια μπροστά από την εικονική κάμερα.

Για να δοκιμάσουν το πλαίσιο σε μια ποικιλία πιθανών αποχρώσεων δέρματος και ρυθμίσεων, οι ερευνητές έτρεξαν μια σειρά δοκιμών, μεταβάλλοντας διαφορετικά στοιχεία διαδοχικά. Τα στοιχεία που άλλαξαν περιλαμβάνουν απόχρωση δέρματος, απόσταση και μέγεθος φωτός.

Οι ερευνητές σχολιάζουν:

‘Στη模拟, με τις διάφορες υποθέσεις μας ικανοποιημένες, η προτεινόμενη τεχνική μας είναι εξαιρετικά ανθεκτική σε một ευρύ φάσμα ρυθμίσεων εικόνας.’

Για το πραγματικό σενάριο, οι ερευνητές χρησιμοποίησαν 15 εθελοντές με μια ποικιλία αποχρώσεων δέρματος, σε διαφορετικά περιβάλλοντα. Κάθε ένας υποβεβληθηκε σε δύο κύκλους της περιορισμένης ποικιλίας αλλαγών χρώματος, υπό συνθήκες όπου μια συχνότητα ανανέωσης οθόνης 30Hz ήταν συγχρονισμένη με την webcam, που σημαίνει ότι η ενεργό φωτισμό θα διαρκούσε μόνο για ένα δευτερόλεπτο κάθε φορά. Τα αποτελέσματα ήταν γενικά συγκρίσιμα με τις συνθετικές δοκιμές, αν και οι συσχετίσεις αυξήθηκαν σημαντικά με μεγαλύτερες τιμές φωτισμού.

Μελλοντικές Κατευθύνσεις

Το σύστημα, οι ερευνητές παραδέχονται, δεν λαμβάνει υπόψη τις τυπικές οφθαλμικές αποκρύψεις, όπως μπαντές, γυαλιά ή γενειάδα. Ωστόσο, σημειώνουν ότι η μάσκα这种 μπορεί να προστεθεί σε μεταγενέστερα συστήματα (μέσω ετικετών και μεταγενέστερης σεμαντικής τομής), τα οποία θα μπορούσαν να εκπαιδευτούν να λαμβάνουν τιμές αποκλειστικά από τις περιοχές δέρματος του στόχου.

Οι ερευνητές επίσης προτείνουν ότι μια παρόμοια παραλλαγή θα μπορούσε να χρησιμοποιηθεί για την ανίχνευση ψευδούς ήχου κλήσεων, και ότι ο ήχος ανίχνευσης θα μπορούσε να παιχτεί σε μια συχνότητα έξω από το φυσιολογικό ανθρώπινο ακουστικό φάσμα.

Πιθανότατα το πιο ενδιαφέρον, οι ερευνητές επίσης προτείνουν ότι η επέκταση της περιοχής αξιολόγησης πέρα από το πρόσωπο σε ένα πλουσιότερο πλαίσιο θα μπορούσε να βελτιώσει σημαντικά την πιθανότητα ανίχνευσης ψευδούς βίντεο:

‘Μια πιο εξελιγμένη 3-D εκτίμηση φωτισμού θα παρείχε πιθανότατα ένα πλουσιότερο μοντέλο εμφάνισης, το οποίο θα ήταν ακόμη πιο δύσκολο για έναν ψευδόμενο να παραβιάσει. Ενώ εστιάσαμε μόνο στο πρόσωπο, η οθόνη υπολογιστή επίσης φωτίζει το λαιμό, το άνω μέρος του σώματος και το περιβάλλον, από τα οποία θα μπορούσαν να ληφθούν παρόμοιες μετρήσεις.

‘Αυτές οι πρόσθετες μετρήσεις θα ανάγκαζαν τον ψευδόμενο να λάβει υπόψη όλη τη 3-D σκηνή, όχι μόνο το πρόσωπο.’

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]