Η γωνία του Anderson
Η Αποσύνδεση Είναι Η Επόμενη Επανάσταση των Deepfake

Η CGI δεδομένα επέκταση χρησιμοποιείται σε ένα νέο έργο για να κερδίσει μεγαλύτερη έλεγχο πάνω στις εικόνες deepfake. Αν και ακόμη δεν μπορείτε να χρησιμοποιήσετε αποτελεσματικά CGI κεφάλια για να συμπληρώσετε τα λείψανα στα δεδομένα deepfake, μια νέα έρευνα για την αποσύνδεση της ταυτότητας από το контέκστ意味 ότι σύντομα μπορεί να μην χρειάζεται.
Οι δημιουργοί ορισμένων από τα πιο επιτυχημένα ιογενή βίντεο deepfake των τελευταίων ετών επιλέγουν τα πηγαία βίντεο τους πολύ προσεκτικά, αποφεύγοντας τις συνεχείς προφίλ λήψεις (δηλαδή, τον τύπο των πλευρικών mugshots που έχουν γίνει δημοφιλείς από τις διαδικασίες σύλληψης της αστυνομίας), οξείες γωνίες και ασυνήθιστες ή υπερβολικές εκφράσεις. Όλο και περισσότερο, τα βίντεο που παράγονται από τους ιογενείς deepfakers είναι επεξεργασμένες συνθέσεις που επιλέγουν τις “ευκολότερες” γωνίες και εκφράσεις για να deepfake.
Στην πραγματικότητα, το πιο ευνοϊκό στόχο βίντεο για να εισαγάγετε ένα deepfake είναι ένα όπου το αρχικό άτομο (η ταυτότητα του οποίου θα σβηστεί από το deepfake) κοιτάζει κατευθείαν στην κάμερα, με ελάχιστη ποικιλία εκφράσεων.

Η πλειοψηφία των δημοφιλών deepfake των τελευταίων ετών έχουν δείξει τους υποκειμένους να κοιτάζουν κατευθείαν στην κάμερα, και είτε να φέρουν μόνο δημοφιλείς εκφράσεις (όπως το γέλιο), οι οποίες μπορούν να εξαχθούν εύκολα από τα βίντεο των папαράτσι, είτε (όπως το ψεύτικο του Sylvester Stallone ως Terminator, που φαίνεται αριστερά), ιδανικά χωρίς καμία έκφραση,既然 ότι οι ουδέτερες εκφράσεις είναι εξαιρετικά κοινές, καθιστώντας τις εύκολες να ενσωματωθούν στα μοντέλα deepfake.
Επειδή οι τεχνολογίες deepfake όπως το DeepFaceLab και το FaceSwap εκτελούν αυτές τις απλές ανταλλαγές πολύ καλά, είμαστε αρκετά εντυπωσιασμένοι από αυτά που επιτύχουν, ώστε να μην παρατηρήσουμε τι δεν είναι ικανοί να κάνουν, και – συχνά – δεν προσπαθούμε καν να το κάνουμε:

Λήψεις από ένα διακεκριμένο βίντεο deepfake όπου ο Arnold Schwarzenegger μετατρέπεται σε Sylvester Stallone – εκτός αν οι γωνίες είναι πολύ δυσκολές. Τα προφίλ παραμένουν ένα μόνιμο πρόβλημα με τις τρέχουσες προσεγγίσεις deepfake, εν μέρει επειδή το ανοικτό λογισμικό που χρησιμοποιείται για να ορίσει τις στάσεις του προσώπου στα πλαίσια deepfake δεν είναι βελτιστοποιημένο για πλευρικές απόψεις, αλλά κυρίως επειδή της έλλειψης κατάλληλου υλικού σε ένα ή και στα δύο απαραίτητα σύνολα δεδομένων. Source: https://www.youtube.com/watch?v=AQvCmQFScMA
Νέα έρευνα από το Ισραήλ προτείνει μια νέα μέθοδο για την χρήση συνθετικών δεδομένων, όπως CGI κεφάλια, για να φέρει τα deepfake στη δεκαετία του 2020, αποσυνδέοντας πραγματικά την ταυτότητα από το контέκστ.

Το νέο σύστημα αποσυνδέει διακριτικά τη στάση και το контέκστ (π.χ. το κλείσιμο του ματιού) από την κωδικοποίηση της ταυτότητας, χρησιμοποιώντας μη σχετικά συνθετικά δεδομένα προσώπου (φωτογραφία αριστερά). Στην πρώτη σειρά, βλέπουμε ένα ‘κλείσιμο του ματιού’ που μεταφέρεται στην ταυτότητα του Barack Obama, που προκύπτει από τον μη γραμμικό δρόμο του latent χώρου ενός GAN, που αντιπροσωπεύεται από την CGI εικόνα αριστερά. Στην σειρά κάτω, βλέπουμε την εκτεταμένη γωνία του στόματος που μεταφέρεται στην ταυτότητα του πρώην Προέδρου. Κάτω δεξιά, βλέπουμε και τα δύο χαρακτηριστικά που εφαρμόζονται ταυτόχρονα. Source: https://arxiv.org/pdf/2111.08419.pdf
Αυτό δεν είναι απλά ψεύτικο κεφάλι, μια τεχνική που είναι πιο κατάλληλη για अवатар και μερική lip-synching, και η οποία έχει περιορισμένο потенシャル για πλήρη μετασχηματισμό βίντεο deepfake.
Αντίθετα, αυτό αντιπροσωπεύει einen τρόπο για μια θεμελιώδη αποσύνδεση της λειτουργικότητας (όπως ‘αλλάξτε τη γωνία του κεφαλιού’, ‘δημιουργήστε ένα γρύπο’) από την ταυτότητα, προσφέροντας έναν δρόμο για ένα υψηλό επίπεδο και όχι ‘παράγωγο’ σύστημα σύνθεσης εικόνας deepfake.
Το νέο έγγραφο έχει τον τίτλο Delta-GAN-Encoder: Encoding Semantic Changes for Explicit Image Editing, using Few Synthetic Samples, και προέρχεται από ερευνητές στο Technion – Ισραηλινό Ινστιτούτο Τεχνολογίας.
Για να κατανοήσουμε τι σημαίνει αυτή η εργασία, ας δούμε πώς παράγονται τα deepfake σήμερα, από τα ιογενή βίντεο deepfake μέχρι την Industrial Light and Magic (既然 ότι το ανοικτό αποθετήριο DeepFaceLab είναι目前 dominant και στα “ερασιτεχνικά” και στα επαγγελματικά deepfaking).
Τι Κρατάει Πίσω την Τρέχουσα Τεχνολογία Deepfake;
Τα deepfake δημιουργούνται σήμερα με την εκπαίδευση ενός encoder/decoder μοντέλου μηχανικής μάθησης σε δύο φακέλους εικόνων προσώπου – το άτομο που θέλετε να ‘ζωγραφίσετε’ (στην προηγούμενη περίπτωση, αυτό είναι ο Arnie) και το άτομο που θέλετε να τοποθετήσετε στο βίντεο (ο Sly).

Παραδείγματα ποικίλων στηθών και συνθηκών φωτισμού σε δύο διαφορετικά σύνολα προσώπων. Σημειώστε την ιδιαίτερη έκφραση στο τέλος της τρίτης σειράς στη στήλη Α, η οποία είναι απίθανο να έχει μια κοντινή αντίστοιχη στη άλλη βάση δεδομένων.
Το σύστημα encoder/decoder τότε συγκρίνει κάθε einzel εικόνα σε κάθε φάκελο με κάθε άλλη, διατηρώντας, βελτιώνοντας και επαναλαμβάνοντας αυτήν την επιχείρηση για εκατοντάδες χιλιάδες επαναλήψεις (συχνά για όσο και μια εβδομάδα), μέχρι να κατανοήσει τις βασικές χαρακτηριστικές των δύο ταυτοτήτων αρκετά καλά για να τις ανταλλάξει隨意.
Για κάθε ένα από τα δύο άτομα που ανταλλάσσονται στη διαδικασία, ό,τι μαθαίνει το deepfake αρχιτεκτονική για την ταυτότητα είναι συνδεδεμένο με το контέκστ. Δεν μπορεί να μάθει και να εφαρμόσει αρχές για μια γενική στάση ‘για καλό και για πάντα’, αλλά χρειάζεται πολλά παραδείγματα στη βάση δεδομένων εκπαίδευσης, για κάθε ταυτότητα που θα εμπλακεί στη ανταλλαγή προσώπων.
Επομένως, αν θέλετε να ανταλλάξετε δύο ταυτότητες που κάνουν κάτι πιο ασυνήθιστο από το να χαμογελάνε ή να κοιτάζουν κατευθείαν στην κάμερα, θα χρειαστείτε πολλά παραδείγματα αυτής της συγκεκριμένης στάσης/ταυτότητας σε και τα δύο σύνολα δεδομένων:

Επειδή τα χαρακτηριστικά του προσώπου και της στάσης είναι τώρα τόσο συνδεδεμένα, μια ευρεία ισορροπία της έκφρασης, της στάσης του κεφαλιού και (σε μικρότερο βαθμό) του φωτισμού απαιτείται σε δύο σύνολα δεδομένων προσώπων για να εκπαιδεύσετε ένα αποτελεσματικό μοντέλο deepfake σε συστήματα όπως το DeepFaceLab. Όσο λιγότερο μια συγκεκριμένη διαμόρφωση (όπως ‘πλευρική/χαμογελώντας/ηλιοφωτισμένη’) εμφανίζεται σε και τα δύο σύνολα δεδομένων, τόσο λιγότερο ακριβώς θα αναπαρασταθεί σε ένα βίντεο deepfake, αν χρειαστεί.
Αν το σύνολο Α περιέχει την ασυνήθιστη στάση, αλλά το σύνολο Β της λείπει, είστε σχεδόν απέξω από τη τύχη σας· ανεξάρτητα από το πόσο καιρό εκπαιδεύσετε το μοντέλο, δεν θα μάθει ποτέ να αναπαράγει αυτήν τη στάση καλά μεταξύ των ταυτοτήτων, επειδή είχε μόνο τη μισή απαραίτητη πληροφορία όταν εκπαιδεύτηκε.
Εάν έχετε ταιριαστά εικόνες, μπορεί να μην είναι αρκετό: αν το σύνολο Α περιέχει τη στάση, αλλά με δραστική πλευρική φωτισμό, σε σύγκριση με την ισοφωτισμένη αντίστοιχη στάση στο άλλο σύνολο δεδομένων, η ποιότητα της ανταλλαγής δεν θα είναι τόσο καλή όσο αν και τα δύο είχαν κοινά χαρακτηριστικά φωτισμού.
Γιατί τα Δεδομένα Είναι Σπάνια;
Εξαιρετικά, εκτός αν συλλαμβάνεστε τακτικά, δεν έχετε πολλές πλευρικές λήψεις του εαυτού σας. Οποίες προέκυψαν, τις περισσότερες φορές τις έρριξατε.既然 ότι οι υπηρεσίες εικόνων κάνουν το ίδιο, οι πλευρικές λήψεις του προσώπου είναι δύσκολο να βρεθούν.
Οι deepfakers συχνά περιλαμβάνουν πολλαπλά αντίγραφα των περιορισμένων πλευρικών δεδομένων που έχουν για μια ταυτότητα σε ένα σύνολο δεδομένων, μόνο και μόνο για να δώσουν λίγη προσοχή και χρόνο στη στάση αυτή κατά την εκπαίδευση, αντί να την αγνοούν ως εξαιρετική περίπτωση.

Αλλά υπάρχουν πολλά περισσότερα είδη πλευρικών εικόνων του προσώπου από ό,τι είναι πιθανό να είναι διαθέσιμα για ένταξη σε μια βάση δεδομένων – χαμογελώντας, γρύπωντας, βογκώντας, κλαίγοντας, σκοτεινά φωτισμένα, εξευτελιστικά, βαρετά, χαρούμενα, φλας φωτισμένα, κοιτάζοντας πάνω, κοιτάζοντας κάτω, ανοιχτά μάτια, κλειστά μάτια… και così weiter. Οποιαδήποτε από αυτές τις στάσεις, σε πολλαπλά συνδυασμούς, θα μπορούσε να χρειαστεί σε ένα στόχο βίντεο deepfake.
Και αυτό είναι μόνο για τα προφίλ. Πόσες εικόνες έχετε του εαυτού σας κοιτάζοντας κατευθείαν πάνω; Έχετε αρκετές για να αντιπροσωπεύσετε ευρέως τις 10.000 πιθανές εκφράσεις που μπορεί να φέρετε ενώ κρατάτε ακριβώς αυτήν τη στάση από αυτήν την ακριβή γωνία κάμερας, καλύπτοντας τουλάχιστον κάποια από τις ένα εκατομμύριο πιθανές περιβαλλοντικές συνθήκες;
Πιθανότητες είναι ότι δεν έχετε μία εικόνα του εαυτού σας κοιτάζοντας πάνω. Και αυτό είναι μόνο δύο γωνίες από τις εκατοντάδες που χρειάζονται για πλήρη κάλυψη.
Εάν ήταν δυνατό να δημιουργηθεί πλήρης κάλυψη του προσώπου από όλες τις γωνίες υπό μια ποικιλία συνθηκών φωτισμού, η αποτελούμενη βάση δεδομένων θα ήταν πολύ μεγάλη για να εκπαιδευτεί, στην τάξη των εκατοντάδων χιλιάδων εικόνων· και ακόμη και αν μπορούσε να εκπαιδευτεί, η φύση της διαδικασίας εκπαίδευσης για τις τρέχουσες προσεγγίσεις deepfake θα έριχνε την πλειοψηφία αυτής της πρόσθετης πληροφορίας για μια περιορισμένη ποσότητα παραγώγων χαρακτηριστικών, επειδή οι τρέχουσες προσεγγίσεις είναι αναγωγικές και όχι πολύ κλιμακωτές.
Συνθετική Αντικατάσταση
Από την αυγή των deepfake, οι deepfakers έχουν πειραματιστεί με τη χρήση CGI-στιλ εικόνων, κεφαλιών που δημιουργούνται σε εφαρμογές 3D όπως το Cinema4D και το Maya, για να δημιουργήσουν αυτές τις ‘λείψανες’ στάσεις.

Χωρίς AI; μια ηθοποιός αναδημιουργείται σε ένα παραδοσιακό πρόγραμμα CGI, το Cinema 4D, χρησιμοποιώντας mesh και bitmap κειμένου – τεχνολογία που χρονολογείται από τη δεκαετία του 1960, αν και έγινε ευρέως χρησιμοποιημένη μόνο από τη δεκαετία του 1990. Θεωρητικά, αυτό το μοντέλο προσώπου θα μπορούσε να χρησιμοποιηθεί για να δημιουργήσει δεδομένα πηγής deepfake για ασυνήθιστες στάσεις, στυλ φωτισμού και εκφράσεις. Στην πραγματικότητα, ήταν περιορισμένης ή καθόλου χρήσης στο deepfaking,既然 ότι η ‘ψευτικότητα’ των renderings tends να διαρρεύσει στα ανταλλαγμένα βίντεο. Source: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/
Αυτή η μέθοδος γενικά εγκαταλείπεται νωρίς από νέους deepfake πρακτικούς,既然 ότι μπορεί να παρέχει στάσεις και εκφράσεις που αλλιώς δεν είναι διαθέσιμες, η συνθετική εμφάνιση των CGI προσώπων συνήθως διαρρέει στις ανταλλαγές λόγω της συνδέσμου ID και контέκστ/σεμαντικής πληροφορίας.
Αυτό μπορεί να οδηγήσει σε ξαφνική εμφάνιση ‘ακαδημαϊκών’ προσώπων σε ένα αλλιώς πειστικό βίντεο deepfake,既然 ότι το αλγόριθμο αρχίζει να βασίζεται στη μόνη πληροφορία που μπορεί να έχει για μια ασυνήθιστη στάση ή έκφραση – φανερά ψεύτικα πρόσωπα.

Μια από τις πιο δημοφιλείς ηθοποιούς για deepfakers, ένας αλγόριθμος 3D για την Αυστραλή ηθοποιό Margot Robbie περιλαμβάνεται στην προεπιλογή εγκατάστασης του DeepFaceLive, μιας έκδοσης του DeepFaceLab που μπορεί να εκτελέσει deepfakes σε μια ζωντανή ροή, όπως μια συνεδρία webcam. Ένα CGI μοντέλο, όπως φαίνεται παραπάνω, θα μπορούσε να χρησιμοποιηθεί για να αποκτήσετε ασυνήθιστες ‘λείψανες’ γωνίες σε σύνολα δεδομένων deepfake. Source: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace
CGI Πρόσωπα ως Αποσυνδεμένα, Εννοιολογικά Οδηγίες
Αντίθετα, η νέα μέθοδος Delta-GAN Encoder (DGE) από τους Ισραηλινούς ερευνητές είναι πιο αποτελεσματική,既然 ότι η στάση και η πληροφορία контέκστ από τις CGI εικόνες έχουν αποσυνδεθεί πλήρως από την ‘ταυτότητα’ πληροφορία του στόχου.
Μπορούμε να δούμε αυτό το principio σε δράση στην εικόνα παρακάτω, όπου διάφορες προσανατολισμοί κεφαλής έχουν αποκτηθεί χρησιμοποιώντας την CGI εικόνα ως οδηγία.既然 ότι τα χαρακτηριστικά της ταυτότητας δεν σχετίζονται με τις πληροφορίες контέκστ, δεν υπάρχει διαρροή ούτε της ψευτικής εμφάνισης των CGI προσώπων ούτε της ταυτότητας που απεικονίζεται σε αυτά:

Με τη νέα μέθοδο, δεν χρειάζεται να βρείτε τρεις ξεχωριστές πραγματικές εικόνες για να εκτελέσετε ένα deepfake από πολλές γωνίες – μπορείτε απλά να περιστρέψετε το CGI κεφάλι, των οποίων τα υψηλά επίπεδα αφηρημένων χαρακτηριστικών επιβάλλονται στην ταυτότητα χωρίς να διαρρέουν καμία πληροφορία ταυτότητας.

Delta-GAN-Encoder. Άνω αριστερή ομάδα: η γωνία μιας πηγαίας εικόνας μπορεί να αλλάξει σε δευτερόλεπτο για να αποδώσει μια νέα πηγαία εικόνα, η οποία αντικατοπτρίζεται στην έξοδο: άνω δεξιά ομάδα: το φωτισμό είναι επίσης αποσυνδεμένο από την ταυτότητα, επιτρέποντας την επικάλυψη των στυλ φωτισμού: κάτω αριστερή ομάδα: πολλαπλά χαρακτηριστικά του προσώπου αλλάζουν για να δημιουργήσουν μια ‘λυπημένη’ έκφραση: κάτω δεξιά ομάδα: ένα μόνο χαρακτηριστικό του προσώπου αλλάζει, ώστε τα μάτια να σφίγγονται.
Αυτή η αποσύνδεση της ταυτότητας και του контέκστ επιτυγχάνεται στη φάση εκπαίδευσης. Η διαδικασία για τη νέα αρχιτεκτονική deepfake αναζητά τον latent διανυσματικό στοιχείο σε ένα προ-εκπαιδευμένο Generative Adversarial Network (GAN) που αντιστοιχεί στην εικόνα που θα μετασχηματιστεί — μια Sim2Real μεθοδολογία που βασίζεται σε ένα έργο του 2018 από το τμήμα έρευνας AI της IBM.
Οι ερευνητές παρατηρούν:
‘Με μόνο quelques δείγματα, τα οποία διαφέρουν από ένα συγκεκριμένο χαρακτηριστικό, μπορείτε να μάθετε τη διαχωρισμένη συμπεριφορά ενός προ-εκπαιδευμένου entangled γενετικού μοντέλου. Δεν υπάρχει ανάγκη για ακριβή πραγματικά δείγματα για να φτάσετε σε αυτό το στόχο, το οποίο δεν είναι απαραίτητα εφικτό.
‘Χρησιμοποιώντας μη πραγματικά δείγματα δεδομένων, το ίδιο στόχο μπορεί να επιτευχθεί χάρη στην εκμετάλλευση των σεμαντικών των κωδικοποιημένων latent διανυσματικών. Η εφαρμογή των επιθυμητών αλλαγών στα υπάρχοντα δείγματα δεδομένων μπορεί να γίνει χωρίς ρητή εξερεύνηση της συμπεριφοράς του latent χώρου.’
Οι ερευνητές προβλέπουν ότι οι βασικοί κανόνες της αποσύνδεσης που εξερευνήθηκαν σε αυτό το έργο θα μπορούσαν να μεταφερθούν σε άλλα πεδία, όπως οι προσομοιώσεις εσωτερικής αρχιτεκτονικής, και ότι η Sim2Real μεθοδολογία που υιοθετήθηκε για το Delta-GAN-Encoder θα μπορούσε τελικά να επιτρέψει deepfake εργαλεία βασισμένα σε απλές σкетχές, αντί για CGI-στίλ εισαγωγή.
Θα μπορούσε να επιχειρηθεί ότι το βαθμό στο οποίο το νέο ισραηλινό σύστημα μπορεί ή δεν μπορεί να συνθέσει deepfake βίντεο είναι πολύ λιγότερο σημαντικό από την πρόοδο που έχει κάνει η έρευνα στην αποσύνδεση του контέκστ από την ταυτότητα, αποκτώντας μεγαλύτερο έλεγχο στον latent χώρο ενός GAN.
Η αποσύνδεση είναι ένα ενεργό πεδίο έρευνας στη σύνθεση εικόνας; τον Ιανουάριο του 2021, một έρευνα έγγραφο από την Amazon έδειξε παρόμοια έλεγχο στάσης και αποσύνδεση, και το 2018 ένα έγγραφο από τα Ινστιτούτα Προηγμένων Τεχνολογιών του Σεντζέν στην Κινεζική Ακαδημία Επιστημών έκανε πρόοδο στην γεννήση αυθαίρετων απόψεων σε ένα GAN.













