Τεχνητή νοημοσύνη

Οι πληροφορίες βάθους μπορούν να αποκαλύψουν Deepfakes σε πραγματικό χρόνο

Published August 24, 2022

Updated April 28, 2026

Martin Anderson

Νέα έρευνα από την Ιταλία έχει διαπιστώσει ότι οι πληροφορίες βάθους που λαμβάνονται από εικόνες μπορούν να είναι ένα χρήσιμο εργαλείο για την ανίχνευση deepfakes – ακόμη και σε πραγματικό χρόνο.

Ενώ η πλειονότητα της έρευνας για την ανίχνευση deepfakes τα τελευταία πέντε χρόνια έχει επικεντρωθεί στην ταυτοποίηση τεχνικών (οι οποίες μπορούν να μειωθούν με βελτιωμένες τεχνικές ή να συγχυστούν με κακή συμπίεση βίντεο), περιβαλλοντική φωτισμό, βιομετρικά χαρακτηριστικά, χρονική διακοπή, και ακόμη ανθρώπινη直觉, η νέα μελέτη είναι η πρώτη που προτείνει ότι οι πληροφορίες βάθους θα μπορούσαν να είναι ένα πολύτιμο κωδικό για το περιεχόμενο deepfake.

Παραδείγματα παραγώμενων χαρτών βάθους και η διαφορά στην αισθητηριακή πληροφορία βάθους μεταξύ πραγματικών και ψευδών εικόνων. Πηγή: https://arxiv.org/pdf/2208.11074.pdf

Κριτικά, τα πλαίσια ανίχνευσης που αναπτύχθηκαν για τη νέα μελέτη λειτουργούν πολύ καλά σε ένα ελαφρύ δίκτυο όπως το Xception, και αποδεκτά καλά στο MobileNet, και η νέα εργασία αναγνωρίζει ότι η χαμηλή καθυστέρηση της εύρεσης που προσφέρεται μέσω τέτοιων δικτύων μπορεί να επιτρέψει την ανίχνευση deepfake σε πραγματικό χρόνο ενάντια στη νέα τάση για ζωντανούς deepfake απάτες, όπως η πρόσφατη επίθεση στη Binance.

Μεγαλύτερη οικονομία στο χρόνο εύρεσης μπορεί να επιτευχθεί επειδή το σύστημα δεν χρειάζεται πλήρεις εικόνες σε χρώμα για να καθορίσει τη διαφορά μεταξύ ψευδών και πραγματικών χαρτών βάθους, αλλά μπορεί να λειτουργήσει εκπληκτικά αποτελεσματικά μόνο με εικόνες σε κλίμακα του γκρι του χάρτη βάθους.

Οι συγγραφείς δηλώνουν: ‘Αυτό το αποτέλεσμα δείχνει ότι το βάθος σε αυτή την περίπτωση προσφέρει μια πιο σχετική συνεισφορά στην ταξινόμηση από τα χρωματικά τεχνικά.’

Τα ευρήματα αντιπροσωπεύουν μέρος μιας νέας κυμαίας έρευνας για την ανίχνευση deepfake που κατευθύνεται ενάντια σε συστήματα σύνθεσης προσώπου σε πραγματικό χρόνο όπως το DeepFaceLive – ένα σημείο προσπάθειας που έχει επιταχύνει αξιοσημείωτα τα τελευταία 3-4 μήνες, μετά την προειδοποίηση του FBI τον Μάρτιο για τον κίνδυνο βίντεο και ήχου deepfake σε πραγματικό χρόνο.

Το έγγραφο έχει τον τίτλο DepthFake: μια βάση-στρατηγική για την ανίχνευση βίντεο Deepfake, και προέρχεται από πέντε ερευνητές στο Πανεπιστήμιο Sapienza της Ρώμης.

Περιπτώσεις άκρων

Κατά την εκπαίδευση, τα μοντέλα deepfake που βασίζονται σε autoencoder προτιμούν τις εσωτερικές περιοχές του προσώπου, όπως τα μάτια, η μύτη και το στόμα. Σε meisten περιπτώσεις, σε ανοικτές πηγές όπως DeepFaceLab και FaceSwap (και τα δύο forked από τον αρχικό κώδικα Reddit πριν από τη διαγραφή του), οι εξωτερικές γραμμές του προσώπου δεν γίνονται καλά ορισμένες μέχρι ένα πολύ晚ό στάδιο της εκπαίδευσης, και είναι απίθανο να ταιριάζουν στην ποιότητα σύνθεσης στην εσωτερική περιοχή του προσώπου.

Από μια προηγούμενη μελέτη, βλέπουμε μια οπτικοποίηση ‘χαρτών σαληνότητας’ του προσώπου. Πηγή: https://arxiv.org/pdf/2203.01318.pdf

Συνήθως, αυτό δεν είναι σημαντικό,既然 η τάση μας να επικεντρωθούμε πρώτα στα μάτια και να προτιμούμε, ‘εξωτερικά’ σε μειούμενους βαθμούς προσοχής σημαίνει ότι είναι απίθανο να μας беспокоit η πτώση στην περιφερειακή ποιότητα – ιδιαίτερα αν μιλάμε ζωντανούς με το άτομο που μιμείται μια άλλη ταυτότητα, το οποίο ενεργοποιεί κοινωνικές συμβάσεις και περιορισμοί επεξεργασίας που δεν υπάρχουν όταν αξιολογούμε ‘rendered’ βίντεο deepfake.

Ωστόσο, η έλλειψη λεπτομέρειας ή ακρίβειας στις επηρεαζόμενες περιφερειακές περιοχές ενός deepfaked προσώπου μπορεί να ανιχνευθεί αλγοριθμικά. Τον Μάρτιο, ένα σύστημα που βασίζεται στην περιφερειακή περιοχή του προσώπου ανακοινώθηκε. Ωστόσο,既然 απαιτεί πάνω από το μέσο όρο ποσότητα δεδομένων εκπαίδευσης, προορίζεται μόνο για διασημότητες που είναι πιθανό να εμφανιστούν σε δημοφιλείς συνόλους δεδομένων προσώπου (όπως το ImageNet) που έχουν προέλευση στις τρέχουσες τεχνικές υπολογιστικής όρασης και ανίχνευσης deepfake.

Αντίθετα, το νέο σύστημα, με τίτλο DepthFake, μπορεί να λειτουργήσει γενικά ακόμη και σε άγνωστες ή ασήμαντες ταυτότητες, διακρίνοντας την ποιότητα της εκτιμώμενης πληροφορίας βάθους σε πραγματικό και ψευδές βίντεο περιεχόμενο.

Πηγαίνωντας βαθιά

Οι πληροφορίες βάθους ενσωματώνονται ολοένα και περισσότερο σε smartphones, συμπεριλαμβανομένων εκτελέσεων στερεοσκοπικού βάθους με τη βοήθεια AI που είναι ιδιαίτερα χρήσιμες για μελέτες υπολογιστικής όρασης. Στη νέα μελέτη, οι συγγραφείς έχουν χρησιμοποιήσει το μοντέλο FaceDepth του Εθνικού Πανεπιστημίου της Ιρλανδίας, ένα σύμπλεγμα encoder/decoder που μπορεί να εκτιμήσει αποτελεσματικά χάρτες βάθους από εικόνες μιας πηγής.

Το μοντέλο FaceDepth σε δράση. Πηγή: https://tinyurl.com/3ctcazma

Επόμενο, η διαδικασία για το νέο πλαίσιο των Ιταλών ερευνητών εξάγει ένα τμήμα 224×224 pixel του προσώπου του υποκειμένου από την αρχική εικόνα RGB και τον παραγόμενο χάρτη βάθους. Κριτικά, αυτό επιτρέπει στη διαδικασία να αντιγράψει το βασικό περιεχόμενο χωρίς να το μετεξέλιξη σε μέγεθος; αυτό είναι σημαντικό,既然 οι αλγόριθμοι μετεξέλιξης μεγέθους θα επηρεάσουν αρνητικά την ποιότητα των στοχευόμενων περιοχών.

Χρησιμοποιώντας αυτές τις πληροφορίες, και από πραγματικές και deepfaked πηγές, οι ερευνητές στη συνέχεια εκπαίδευσαν ένα σύμπλεγμα νευρωνικού δικτύου (CNN) ικανό να διακρίνει πραγματικά από ψευδείς περιπτώσεις, με βάση τις διαφορές μεταξύ της αισθητηριακής ποιότητας των αντίστοιχων χαρτών βάθους.

Εννοιολογική διαδικασία για το DepthFake.

Το μοντέλο FaceDepth εκπαιδεύτηκε σε πραγματικά και συνθετικά δεδομένα χρησιμοποιώντας eine υβριδική συνάρτηση που προσφέρει μεγαλύτερη λεπτομέρεια στις εξωτερικές περιοχές του προσώπου, καθιστώντας το κατάλληλο για το DepthFake. Χρησιμοποιεί μια περίπτωση MobileNet ως εξαγωγέα χαρακτηριστικών, και εκπαιδεύτηκε με είσοδο 480×640 εικόνων που εξόδου 240×320 χάρτες βάθους. Κάθε χάρτης βάθους αντιπροσωπεύει ένα τέταρτο των τεσσάρων εισοδικών καναλιών που χρησιμοποιούνται στη νέα εργασία του project’s discriminator.

Ο χάρτης βάθους ενσωματώνεται αυτόματα στην αρχική εικόνα RGB για να παρέχει το είδος εικόνας RGBD, πλήρης με πληροφορίες βάθους, που μπορούν να εξοδεύσουν οι σύγχρονες камέρες smartphone.

Εκπαίδευση

Το μοντέλο εκπαιδεύτηκε σε ένα δίκτυο Xception που είχε ήδη προ-εκπαιδευτεί στο ImageNet, αν και η αρχιτεκτονική χρειαζόταν κάποια προσαρμογή για να φιλοξενήσει την πρόσθετη πληροφορία βάθους ενώ διατηρούσε την σωστή αρχικοποίηση των βαρών.

Επιπλέον, μια ανταπόκριση στις τιμές μεταξύ της πληροφορίας βάθους και αυτού που το δίκτυο περιμένει απαιτούσε ότι οι ερευνητές να κανονικοποιήσουν τις τιμές σε 0-255.

Κατά την εκπαίδευση, μόνο η αναστροφή και η περιστροφή εφαρμόστηκαν. Σε πολλές περιπτώσεις, διάφορες άλλες οπτικές παραμορφώσεις θα παρουσιαζόταν στο μοντέλο για να αναπτύξουν ρομποτική εύρεση, αλλά η αναγκαιότητα να διατηρηθεί η περιορισμένη και πολύ εύθραυστη πληροφορία χάρτη βάθους στις πηγαίες φωτογραφίες ανάγκασε τους ερευνητές να υιοθετήσουν ένα απλοποιημένο καθεστώς.

Το σύστημα εκπαιδεύτηκε επίσης σε απλές 2-καναλιές σε κλίμακα του γκρι, για να καθορίσει πόσο περίπλοκες χρειάζονται οι είσοδοι εικόνων για να ληφθεί ένα λειτουργικό αλγόριθμο.

Η εκπαίδευση πραγματοποιήθηκε μέσω της API TensorFlow σε ένα NVIDIA GTX 1080 με 8GB VRAM, χρησιμοποιώντας τον βελτιωτή ADAMAX, για 25 επαναλήψεις, σε μέγεθος δείγματος 32. Η ανάλυση εισόδου ήταν σταθερή σε 224×224 κατά την περικοπή, και η ανίχνευση και εξαγωγή προσώπου πραγματοποιήθηκε με τη βιβλιοθήκη C++ dlib.

Αποτελέσματα

Η ακρίβεια των αποτελεσμάτων ελέγχθηκε ενάντια στο Deepfake, Face2Face, FaceSwap, Neural Texture, και το πλήρες σύνολο δεδομένων με είσοδο RGB και RGBD, χρησιμοποιώντας το πλαίσιο FaceForensic++.

Αποτελέσματα στην ακρίβεια πάνω από τέσσερις μεθόδους deepfake, και ενάντια στο πλήρες μη-διαχωρισμένο σύνολο δεδομένων. Τα αποτελέσματα χωρίζονται μεταξύ της ανάλυσης των πηγαίων εικόνων RGB, και των ίδιων εικόνων με einen ενσωματωμένο εύρεσης χάρτη βάθους. Τα καλύτερα αποτελέσματα είναι σε έντονα, με ποσοστιαίες τιμές κάτω από τις οποίες δείχνουν το βαθμό στον οποίο η πληροφορία βάθους βελτιώνει το αποτέλεσμα.

Σε όλες τις περιπτώσεις, ο κανάλι βάθους βελτιώνει την απόδοση του μοντέλου σε όλες τις διαμορφώσεις. Το Xception λαμβάνει τα καλύτερα αποτελέσματα, με το MobileNet κοντά δεύτερο. Σε αυτό, οι συγγραφείς σχολιάζουν:

‘[Είναι] ενδιαφέρον να σημειωθεί ότι το MobileNet είναι ελαφρώς κατώτερο από το Xception και υπερβαίνει το sâuτικό ResNet50. Αυτό είναι ένα αξιοσημείωτο αποτέλεσμα όταν λαμβάνεται υπόψη ο στόχος της μείωσης του χρόνου εύρεσης για εφαρμογές σε πραγματικό χρόνο. Αν και αυτό δεν είναι η κύρια συνεισφορά αυτής της εργασίας, το θεωρούμε ένα ενθαρρυντικό αποτέλεσμα για μελλοντικές αναπτύξεις.’

Οι ερευνητές σημειώνουν επίσης μια συνεχή υπεροχή των εισόδων RGBD και 2-καναλιών σε κλίμακα του γκρι над τις είσοδοι RGB και απλής κλίμακας του γκρι, παρατηρώντας ότι οι μετατροπές σε κλίμακα του γκρι των εύρεσεων βάθους, οι οποίες είναι υπολογιστικά πολύ φθηνές, επιτρέπουν στο μοντέλο να λάβει βελτιωμένα αποτελέσματα με πολύ περιορισμένα τοπικά μέσα, διευκολύνοντας την μελλοντική ανάπτυξη ανίχνευσης deepfake σε πραγματικό χρόνο με βάση τις πληροφορίες βάθους.

Πρώτη δημοσίευση 24ης Αυγούστου 2022.

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]

Unite.AI

Οι πληροφορίες βάθους μπορούν να αποκαλύψουν Deepfakes σε πραγματικό χρόνο

Περιπτώσεις άκρων

Πηγαίνωντας βαθιά

Εκπαίδευση

Αποτελέσματα

You may like