στέλεχος Το Disentanglement Is the Next Deepfake Revolution - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

Το Disentanglement Is the Next Deepfake Revolution

mm
Ενημερώθηκε on

Η επαύξηση δεδομένων CGI χρησιμοποιείται σε ένα νέο έργο για να αποκτήσει μεγαλύτερο έλεγχο στις βαθιές ψευδείς εικόνες. Αν και ακόμα δεν μπορείτε να χρησιμοποιήσετε αποτελεσματικά τις κεφαλές CGI για να καλύψετε τα κενά που λείπουν στα βαθιά ψεύτικα σύνολα δεδομένων προσώπων, ένα νέο κύμα έρευνας για την αποσύνδεση της ταυτότητας από το πλαίσιο σημαίνει ότι σύντομα, ίσως να μην χρειαστεί να το κάνετε.

Οι δημιουργοί μερικών από τα πιο επιτυχημένα viral deepfake βίντεο των τελευταίων ετών επιλέγουν πολύ προσεκτικά τα βίντεό τους στην πηγή, αποφεύγοντας παρατεταμένες λήψεις προφίλ (δηλαδή το είδος των πλάγιων λήψεων που διαδόθηκαν από τις διαδικασίες σύλληψης της αστυνομίας), οξείες γωνίες και ασυνήθιστες ή υπερβολικές εκφράσεις . Όλο και περισσότερο, τα βίντεο επίδειξης που παράγονται από viral deepfakers είναι επεξεργασμένες συλλογές που επιλέγουν τις πιο «εύκολες» γωνίες και εκφράσεις για deepfake.

Στην πραγματικότητα, το πιο βολικό βίντεο-στόχος στο οποίο μπορείτε να εισαγάγετε μια βαθιά ψεύτικη διασημότητα είναι ένα βίντεο όπου το αρχικό άτομο (η ταυτότητα του οποίου θα διαγραφεί από το deepfake) κοιτάζει κατευθείαν στην κάμερα, με ελάχιστο εύρος εκφράσεων.

Η πλειονότητα των δημοφιλών deepfakes των τελευταίων ετών έδειξαν θέματα που βλέπουν απευθείας την κάμερα και είτε φέρουν μόνο δημοφιλείς εκφράσεις (όπως το χαμόγελο), οι οποίες μπορούν εύκολα να εξαχθούν από την παραγωγή παπαράτσι στο κόκκινο χαλί, είτε (όπως με το ψεύτικο του 2019 του Sylvester Stallone όπως ο Εξολοθρευτής, στην εικόνα αριστερά), ιδανικά χωρίς καμία έκφραση, καθώς οι ουδέτερες εκφράσεις είναι εξαιρετικά κοινές, καθιστώντας εύκολη την ενσωμάτωσή τους σε μοντέλα deepfake.

Η πλειονότητα των δημοφιλών deepfakes των τελευταίων ετών έδειξαν θέματα που βλέπουν απευθείας την κάμερα και είτε φέρουν μόνο δημοφιλείς εκφράσεις (όπως το χαμόγελο), οι οποίες μπορούν εύκολα να εξαχθούν από την παραγωγή παπαράτσι στο κόκκινο χαλί, είτε (όπως με το ψεύτικο του 2019 του Sylvester Stallone όπως ο Εξολοθρευτής, στην εικόνα αριστερά), ιδανικά χωρίς καμία έκφραση, καθώς οι ουδέτερες εκφράσεις είναι εξαιρετικά κοινές, καθιστώντας εύκολη την ενσωμάτωσή τους σε μοντέλα deepfake.

Επειδή τεχνολογίες deepfake όπως π.χ DeepFaceLab και Ανταλλαγή προσώπου εκτελέστε αυτές τις απλούστερες ανταλλαγές πολύ καλά, είμαστε αρκετά έκθαμβοι από αυτά που καταφέρνουν ώστε να μην παρατηρήσουμε τι είναι ανίκανοι και – συχνά – δεν επιχειρούμε καν:

Αποσπάσματα από ένα αναγνωρισμένο deepfake βίντεο όπου ο Arnold Schwarzenegger μεταμορφώνεται σε Sylvester Stallone – εκτός αν οι γωνίες είναι πολύ δύσκολες. Τα προφίλ παραμένουν ένα διαρκές πρόβλημα με τις τρέχουσες προσεγγίσεις deepfake, εν μέρει επειδή το λογισμικό ανοιχτού κώδικα που χρησιμοποιείται για τον καθορισμό στάσεων προσώπου σε deepfake πλαίσια δεν είναι βελτιστοποιημένο για πλάγιες όψεις, αλλά κυρίως λόγω της έλλειψης κατάλληλου υλικού πηγής σε ένα ή και στα δύο απαραίτητα σύνολα δεδομένων. Πηγή: https://www.youtube.com/watch?v=AQvCmQFScMA

Αποσπάσματα από ένα αναγνωρισμένο deepfake βίντεο όπου ο Arnold Schwarzenegger μεταμορφώνεται σε Sylvester Stallone – εκτός αν οι γωνίες είναι πολύ δύσκολες. Τα προφίλ παραμένουν ένα διαρκές πρόβλημα με τις τρέχουσες προσεγγίσεις deepfake, εν μέρει επειδή το λογισμικό ανοιχτού κώδικα που χρησιμοποιείται για τον καθορισμό στάσεων προσώπου σε deepfake πλαίσια δεν είναι βελτιστοποιημένο για πλάγιες όψεις, αλλά κυρίως λόγω της έλλειψης κατάλληλου υλικού πηγής σε ένα ή και στα δύο απαραίτητα σύνολα δεδομένων. Πηγή: https://www.youtube.com/watch?v=AQvCmQFScMA

Νέα έρευνα από το Ισραήλ προτείνει μια νέα μέθοδο χρήσης συνθετικών δεδομένων, όπως οι κεφαλές CGI, για να φέρει το deepfaking στη δεκαετία του 2020, διαχωρίζοντας πραγματικά τις ταυτότητες του προσώπου (δηλ. τα βασικά χαρακτηριστικά του προσώπου του «Tom Cruise», από όλες τις γωνίες) από το περιβάλλον τους (π.χ. ψαχνωντας, κοιτάζοντας λοξά, σκουπίζοντας, σκυθρωπός στο σκοτάδι, φρύδια αυλακωμένα, κλειστα ματια, Κ.λπ.).

Το νέο σύστημα διαχωρίζει διακριτά τη πόζα και το πλαίσιο (δηλαδή κλείνοντας το μάτι) από την κωδικοποίηση ταυτότητας του ατόμου, χρησιμοποιώντας άσχετα συνθετικά δεδομένα προσώπου (εικόνα αριστερά). Στην επάνω σειρά, βλέπουμε ένα «κλείσιμο του ματιού» που μεταφέρεται στην ταυτότητα του Μπαράκ Ομπάμα, που υποκινείται από τη μαθημένη μη γραμμική διαδρομή του λανθάνοντος χώρου ενός GAN, που αντιπροσωπεύεται από την εικόνα CGI στα αριστερά. Στην παρακάτω σειρά, βλέπουμε την τεντωμένη γωνιακή όψη του στόματος να μεταφέρεται στον πρώην Πρόεδρο. Κάτω δεξιά, βλέπουμε και τα δύο χαρακτηριστικά να εφαρμόζονται ταυτόχρονα. Πηγή: https://arxiv.org/pdf/2111.08419.pdf

Το νέο σύστημα διαχωρίζει διακριτά τη πόζα και το πλαίσιο (δηλαδή κλείνοντας το μάτι) από την κωδικοποίηση ταυτότητας του ατόμου, χρησιμοποιώντας άσχετα συνθετικά δεδομένα προσώπου (εικόνα αριστερά). Στην επάνω σειρά, βλέπουμε ένα «κλείσιμο του ματιού» που μεταφέρεται στην ταυτότητα του Μπαράκ Ομπάμα, που υποκινείται από τη μαθημένη μη γραμμική διαδρομή του λανθάνοντος χώρου ενός GAN, που αντιπροσωπεύεται από την εικόνα CGI στα αριστερά. Στην παρακάτω σειρά, βλέπουμε την τεντωμένη γωνιακή όψη του στόματος να μεταφέρεται στον πρώην πρόεδρο. Κάτω δεξιά, βλέπουμε και τα δύο χαρακτηριστικά να εφαρμόζονται ταυτόχρονα. Πηγή: https://arxiv.org/pdf/2111.08419.pdf

Αυτό δεν είναι απλό deepfake κεφάλι-κουκλοθέατρο, μια τεχνική πιο κατάλληλη για είδωλα και μερικό συγχρονισμό χειλιών με πρόσωπο, και η οποία έχει περιορισμένες δυνατότητες για πλήρεις μετασχηματισμούς deepfake βίντεο.

Αντίθετα, αυτό αντιπροσωπεύει έναν δρόμο προς τα εμπρός για έναν θεμελιώδη διαχωρισμό των εργαλείων (όπως π.χ «αλλάξτε τη γωνία του κεφαλιού», "δημιουργώ συνοφρυώματα") από την ταυτότητα, προσφέροντας μια διαδρομή προς ένα υψηλού επιπέδου και όχι «παράγωγο» πλαίσιο σύνθεσης εικόνας που βασίζεται σε deepfake.

Η νέα εφημερίδα έχει τίτλο Delta-GAN-Encoder: Κωδικοποίηση σημασιολογικών αλλαγών για ρητή επεξεργασία εικόνας, χρησιμοποιώντας λίγα συνθετικά δείγματα, και προέρχεται από ερευνητές στο Technion – Israel Institute of Technology.

Για να κατανοήσουμε τι σημαίνει το έργο, ας ρίξουμε μια ματιά στον τρόπο με τον οποίο παράγονται αυτήν τη στιγμή τα deepfakes παντού, από ιστοσελίδες deepfake πορνό έως Βιομηχανικό φως και μαγεία (καθώς το αποθετήριο ανοιχτού κώδικα DeepFaceLab είναι επί του παρόντος κυρίαρχο τόσο στο 'ερασιτεχνικό' όσο και στο επαγγελματικό deepfaking).

Τι είναι αυτό που συγκρατεί την τρέχουσα τεχνολογία Deepfake;

Τα Deepfakes δημιουργούνται αυτήν τη στιγμή με την εκπαίδευση ενός κωδικοποιητής/αποκωδικοποιητής μοντέλο μηχανικής εκμάθησης σε δύο φακέλους εικόνων προσώπων – το άτομο που θέλετε να «ζωγραφίσετε» (στο προηγούμενο παράδειγμα, αυτός είναι ο Arnie) και το άτομο που θέλετε να τοποθετήσετε στο υλικό (Sly).

Παραδείγματα διαφορετικών συνθηκών πόζας και φωτισμού σε δύο διαφορετικά σετ προσώπων. Σημειώστε τη διακριτική έκφραση στο τέλος της τρίτης σειράς στη στήλη Α, η οποία είναι απίθανο να έχει κοντινό ισοδύναμο στο άλλο σύνολο δεδομένων.

Παραδείγματα διαφορετικών συνθηκών πόζας και φωτισμού σε δύο διαφορετικά σετ προσώπων. Σημειώστε τη διακριτική έκφραση στο τέλος της τρίτης σειράς στη στήλη Α, η οποία είναι απίθανο να έχει κοντινό ισοδύναμο στο άλλο σύνολο δεδομένων.

Το σύστημα κωδικοποιητή/αποκωδικοποιητή τότε συγκρίνει κάθε εικόνα σε κάθε φάκελο ο ένας στον άλλο, διατηρώντας, βελτιώνοντας και επαναλαμβάνοντας αυτή τη λειτουργία για εκατοντάδες χιλιάδες επαναλήψεις (συχνά για μια εβδομάδα), έως ότου κατανοήσει τα βασικά χαρακτηριστικά και των δύο ταυτοτήτων αρκετά καλά για να τα ανταλλάξει κατά βούληση.

Για καθένα από τα δύο άτομα που ανταλλάσσονται στη διαδικασία, αυτό που μαθαίνει η βαθιά ψεύτικη αρχιτεκτονική για την ταυτότητα είναι μπλεγμένο με το πλαίσιο. Δεν μπορεί να μάθει και να εφαρμόσει αρχές σχετικά με μια γενική πόζα «για το καλό και για όλους», αλλά χρειάζεται άφθονα παραδείγματα στο σύνολο δεδομένων εκπαίδευσης, για κάθε ταυτότητα που πρόκειται να εμπλακεί στην εναλλαγή προσώπων.

Επομένως, αν θέλετε να ανταλλάξετε δύο ταυτότητες που κάνουν κάτι πιο ασυνήθιστο από το να χαμογελάτε ή να κοιτάτε κατευθείαν στην κάμερα, θα χρειαστείτε πολοί περιπτώσεις αυτής της συγκεκριμένης πόζας/ταυτότητας στα δύο πρόσωπα:

Επειδή τα χαρακτηριστικά αναγνώρισης προσώπου και πόζας είναι επί του παρόντος τόσο αλληλένδετα, απαιτείται ευρεία ισοτιμία έκφρασης, στάσης κεφαλιού και (σε ​​μικρότερο βαθμό) φωτισμός σε δύο σύνολα δεδομένων προσώπου, προκειμένου να εκπαιδεύσουμε ένα αποτελεσματικό μοντέλο deepfake σε συστήματα όπως το DeepFaceLab. Όσο λιγότερο εμφανίζεται μια συγκεκριμένη διαμόρφωση (όπως «πλάγια όψη/χαμογελαστό/ηλιοφώτιστο») και στα δύο σετ προσώπων, τόσο λιγότερη ακρίβεια θα αποδίδεται σε ένα βαθύ ψεύτικο βίντεο, εάν χρειαστεί.

Επειδή τα χαρακτηριστικά αναγνώρισης προσώπου και πόζας είναι επί του παρόντος τόσο αλληλένδετα, απαιτείται ευρεία ισοτιμία έκφρασης, στάσης κεφαλιού και (σε ​​μικρότερο βαθμό) φωτισμός σε δύο σύνολα δεδομένων προσώπου, προκειμένου να εκπαιδεύσουμε ένα αποτελεσματικό μοντέλο deepfake σε συστήματα όπως το DeepFaceLab. Όσο λιγότερο εμφανίζεται μια συγκεκριμένη διαμόρφωση (όπως «πλάγια όψη/χαμογελαστό/ηλιοφώτιστο») και στα δύο σετ προσώπων, τόσο λιγότερη ακρίβεια θα αποδίδεται σε ένα βαθύ ψεύτικο βίντεο, εάν χρειαστεί.

Αν το σετ Α περιέχει την ασυνήθιστη πόζα, αλλά το σετ Β στερείται, δεν έχετε τύχη. ανεξάρτητα από το πόσο καιρό εκπαιδεύετε το μοντέλο, δεν θα μάθει ποτέ να αναπαράγει καλά αυτή τη πόζα μεταξύ των ταυτοτήτων, γιατί είχε μόνο τις μισές απαραίτητες πληροφορίες όταν εκπαιδεύτηκε.

Ακόμα κι αν έχετε αντίστοιχες εικόνες, μπορεί να μην είναι αρκετό: αν το σετ Α έχει την αντίστοιχη πόζα, αλλά με έντονο πλευρικό φωτισμό, σε σύγκριση με την ισοδύναμη στάση με επίπεδο φωτισμό στο άλλο σετ προσώπου, η ποιότητα της ανταλλαγής κέρδισε Δεν είναι τόσο καλό σαν να μοιράζονται κοινά χαρακτηριστικά φωτισμού.

Γιατί τα δεδομένα είναι σπάνια

Αν δεν συλλαμβάνεστε τακτικά, πιθανότατα δεν έχετε τόσες πολλές πλάγιες φωτογραφίες του εαυτού σας. Ό,τι προέκυψε, πιθανότατα το πέταξες. Δεδομένου ότι τα πρακτορεία φωτογραφιών κάνουν το ίδιο, οι λήψεις προσώπου προφίλ είναι δύσκολο να βρεθούν.

Οι Deepfakers συχνά περιλαμβάνουν πολλαπλά αντίγραφα των περιορισμένων δεδομένων προφίλ πλευρικής προβολής που έχουν για μια ταυτότητα σε ένα σετ προσώπου, ακριβώς έτσι ώστε η πόζα να έχει τουλάχιστον ένα λίγο προσοχή και χρόνος κατά τη διάρκεια της προπόνησης, αντί να μειώνεται ως α απότομη.

Ωστόσο, υπάρχουν πολλοί περισσότεροι πιθανοί τύποι εικόνων με πλάγια όψη από ό,τι είναι πιθανό να είναι διαθέσιμοι για συμπερίληψη σε ένα σύνολο δεδομένων – χαμογελαστά, συνοφρυωμένος, σκούξιμο, κλάμα, σκούρο φωτισμένο, περιφρονητικός, βαριούνται, χαρούμενος, αναβοσβήνει, ψαχνωντας, κοιτάζοντας κάτω, μάτια ανοιχτά, μάτια κλειστά…και ούτω καθεξής. Οποιαδήποτε από αυτές τις πόζες, σε πολλαπλούς συνδυασμούς, θα μπορούσε να χρειαστεί σε ένα στοχευμένο βίντεο στόχο deepfake.

Και αυτό είναι μόνο προφίλ. Πόσες φωτογραφίες έχετε να κοιτάτε ευθεία επάνω? Έχετε αρκετά για να εκπροσωπήσετε ευρέως το 10,000 πιθανές εκφράσεις μπορεί να φοράτε ενώ κρατάτε αυτήν ακριβώς τη πόζα από αυτήν ακριβώς τη γωνία της κάμερας, καλύπτοντας τουλάχιστον μερικά από τα ένα εκατομμύριο πιθανά περιβάλλοντα φωτισμού?

Οι πιθανότητες είναι, δεν έχετε καν ένας εικόνα του εαυτού σας κοιτώντας ψηλά. Και αυτό είναι μόνο δύο γωνίες από τις εκατό ή περισσότερες που απαιτούνται για πλήρη κάλυψη.

Ακόμα κι αν ήταν δυνατό να δημιουργηθεί πλήρης κάλυψη ενός προσώπου από όλες τις γωνίες κάτω από μια σειρά συνθηκών φωτισμού, το σύνολο δεδομένων που θα προέκυπτε θα ήταν πολύ μεγάλο για να εκπαιδευτεί, της τάξης των εκατοντάδων χιλιάδων εικόνων. και ακόμη κι αν είναι θα μπορούσε να Για να είστε εκπαιδευμένοι, η φύση της διαδικασίας εκπαίδευσης για τα τρέχοντα deepfake πλαίσια θα απορρίψει τη συντριπτική πλειοψηφία αυτών των επιπλέον δεδομένων υπέρ ενός περιορισμένου αριθμού παράγωγων χαρακτηριστικών, επειδή τα τρέχοντα πλαίσια είναι αναγωγικά και όχι πολύ επεκτάσιμα.

Συνθετική υποκατάσταση

Από την αυγή των deepfakes, οι deepfaker έχουν πειραματιστεί με τη χρήση εικόνων σε στυλ CGI, κεφαλές κατασκευασμένες σε τρισδιάστατες εφαρμογές όπως το Cinema3D και η Maya, για να δημιουργήσουν αυτές τις «πόζες που λείπουν».

Δεν απαιτείται AI. μια ηθοποιός αναδημιουργείται σε ένα παραδοσιακό πρόγραμμα CGI, το Cinema 4D, χρησιμοποιώντας πλέγματα και bitmapped textures – τεχνολογία που χρονολογείται από τη δεκαετία του 1960, αν και επιτυγχάνει ευρεία χρήση μόνο από τη δεκαετία του 1990 και μετά. Θεωρητικά, αυτό το μοντέλο προσώπου θα μπορούσε να χρησιμοποιηθεί για τη δημιουργία βαθιάς ψεύτικης πηγής δεδομένων για ασυνήθιστες πόζες, στυλ φωτισμού και εκφράσεις προσώπου. Στην πραγματικότητα, έχει περιορισμένη ή καθόλου χρήση στο deepfaking, καθώς η «ψεύτικη» των ερμηνειών τείνει να αιμορραγεί στα ανταλλαγμένα βίντεο. Πηγή: Εικόνα του συγγραφέα αυτού του άρθρου στη διεύθυνση https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

Δεν απαιτείται AI. μια ηθοποιός αναδημιουργείται σε ένα παραδοσιακό πρόγραμμα CGI, το Cinema 4D, χρησιμοποιώντας πλέγματα και bitmapped textures – τεχνολογία που χρονολογείται από τη δεκαετία του 1960, αν και επιτυγχάνει ευρεία χρήση μόνο από τη δεκαετία του 1990 και μετά. Θεωρητικά, αυτό το μοντέλο προσώπου θα μπορούσε να χρησιμοποιηθεί για τη δημιουργία βαθιάς ψεύτικης πηγής δεδομένων για ασυνήθιστες πόζες, στυλ φωτισμού και εκφράσεις προσώπου. Στην πραγματικότητα, έχει περιορισμένη ή καθόλου χρήση στο deepfaking, καθώς η «ψεύτικη» των ερμηνειών τείνει να αιμορραγεί στα ανταλλαγμένα βίντεο. Πηγή: Εικόνα του συγγραφέα αυτού του άρθρου στη διεύθυνση https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

Αυτή η μέθοδος γενικά εγκαταλείπεται νωρίς από νέους επαγγελματίες του deepfake, επειδή παρόλο που μπορεί να παρέχει πόζες και εκφράσεις που διαφορετικά δεν είναι διαθέσιμες, η συνθετική εμφάνιση των προσόψεων CGI συνήθως αιμορραγεί στις εναλλαγές λόγω εμπλοκής του αναγνωριστικού και των συμφραζομένων/σημασιολογικών πληροφοριών.

Αυτό μπορεί να οδηγήσει στην ξαφνική αναλαμπή προσώπων «ασυνήθιστης κοιλάδας» σε ένα κατά τα άλλα πειστικό deepfake βίντεο, καθώς ο αλγόριθμος αρχίζει να βασίζεται στα μόνα δεδομένα που μπορεί να έχει για μια ασυνήθιστη πόζα ή έκφραση – εμφανώς ψεύτικα πρόσωπα.

Μεταξύ των πιο δημοφιλών θεμάτων για τους deepfakers, ένας αλγόριθμος 3D deepfake για την Αυστραλή ηθοποιό Margot Robbie περιλαμβάνεται στην προεπιλεγμένη εγκατάσταση του DeepFaceLive, μιας έκδοσης του DeepFaceLab που μπορεί να εκτελεί deepfakes σε ζωντανή ροή, όπως μια περίοδο λειτουργίας κάμερας web. Μια έκδοση CGI, όπως απεικονίζεται παραπάνω, θα μπορούσε να χρησιμοποιηθεί για να ληφθούν ασυνήθιστες γωνίες που λείπουν σε σύνολα δεδομένων deepfake. Πηγή: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace

Ανάμεσα στα πιο δημοφιλή θέματα για τους deepfakers, ένας 3D αλγόριθμος deepfake για την Αυστραλή ηθοποιό Margot Robbie είναι περιλαμβάνονται στην προεπιλεγμένη εγκατάσταση του DeepFaceLive, μιας έκδοσης του DeepFaceLab που μπορεί να εκτελεί deepfakes σε μια ζωντανή ροή, όπως μια περίοδο λειτουργίας κάμερας web. Μια έκδοση CGI, όπως απεικονίζεται παραπάνω, θα μπορούσε να χρησιμοποιηθεί για να ληφθούν ασυνήθιστες γωνίες που λείπουν σε σύνολα δεδομένων deepfake. Source: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace

CGI Faces ως αποσπασμένες, εννοιολογικές κατευθυντήριες γραμμές

Αντίθετα, η νέα μέθοδος Delta-GAN Encoder (DGE) από τους Ισραηλινούς ερευνητές είναι πιο αποτελεσματική, επειδή οι πληροφορίες πόζας και συμφραζομένων από τις εικόνες CGI έχουν διαχωριστεί πλήρως από τις πληροφορίες «ταυτότητας» του στόχου.

Μπορούμε να δούμε αυτήν την αρχή σε δράση στην παρακάτω εικόνα, όπου έχουν ληφθεί διάφοροι προσανατολισμοί κεφαλής χρησιμοποιώντας τις εικόνες CGI ως κατευθυντήρια γραμμή. Δεδομένου ότι τα χαρακτηριστικά ταυτότητας δεν σχετίζονται με τα συμφραζόμενα χαρακτηριστικά, δεν υπάρχει αιμορραγία ούτε από την ψεύτικη συνθετική εμφάνιση του προσώπου CGI ούτε από την ταυτότητα που απεικονίζεται σε αυτό:

Με τη νέα μέθοδο, δεν χρειάζεται να βρείτε τρεις ξεχωριστές εικόνες πηγής πραγματικής ζωής για να δημιουργήσετε ένα deepfake από πολλές γωνίες – μπορείτε απλώς να περιστρέψετε την κεφαλή CGI, της οποίας τα αφηρημένα χαρακτηριστικά υψηλού επιπέδου επιβάλλονται στην ταυτότητα χωρίς διαρροή ταυτότητας πληροφορίες.

Με τη νέα μέθοδο, δεν χρειάζεται να βρείτε τρεις ξεχωριστές εικόνες πηγής πραγματικής ζωής για να δημιουργήσετε ένα deepfake από πολλές γωνίες – μπορείτε απλώς να περιστρέψετε την κεφαλή CGI, της οποίας τα αφηρημένα χαρακτηριστικά υψηλού επιπέδου επιβάλλονται στην ταυτότητα χωρίς διαρροή ταυτότητας πληροφορίες.

Delta-GAN-Encoder. Επάνω αριστερή ομάδα: η γωνία μιας εικόνας πηγής μπορεί να αλλάξει σε ένα δευτερόλεπτο για να αποδώσει μια νέα εικόνα πηγής, η οποία αντανακλάται στην έξοδο. επάνω δεξιά ομάδα: ο φωτισμός αποσυνδέεται επίσης από την ταυτότητα, επιτρέποντας την υπέρθεση των στυλ φωτισμού. ομάδα κάτω-αριστερά: πολλές λεπτομέρειες του προσώπου αλλάζουν για να δημιουργήσουν μια «λυπητερή» έκφραση. ομάδα κάτω δεξιά: μια μεμονωμένη λεπτομέρεια έκφρασης του προσώπου έχει αλλάξει, έτσι ώστε τα μάτια να στραβώνουν.

Delta-GAN-Encoder. Επάνω αριστερή ομάδα: η γωνία μιας εικόνας πηγής μπορεί να αλλάξει σε ένα δευτερόλεπτο για να αποδώσει μια νέα εικόνα πηγής, η οποία αντικατοπτρίζεται στην έξοδο. επάνω δεξιά ομάδα: ο φωτισμός αποσυνδέεται επίσης από την ταυτότητα, επιτρέποντας την υπέρθεση των στυλ φωτισμού. ομάδα κάτω-αριστερά: πολλές λεπτομέρειες του προσώπου αλλάζουν για να δημιουργήσουν μια «λυπητερή» έκφραση. ομάδα κάτω δεξιά: μια μεμονωμένη λεπτομέρεια έκφρασης του προσώπου έχει αλλάξει, έτσι ώστε τα μάτια να στραβώνουν.

Αυτός ο διαχωρισμός ταυτότητας και πλαισίου επιτυγχάνεται στο στάδιο της εκπαίδευσης. Ο αγωγός για τη νέα αρχιτεκτονική deepfake αναζητά το λανθάνον διάνυσμα σε ένα προεκπαιδευμένο Generative Adversarial Network (GAN) που ταιριάζει με την εικόνα που πρόκειται να μετασχηματιστεί — μια μεθοδολογία Sim2Real που βασίζεται σε ένα 2018 σχέδιο από την ερευνητική ενότητα AI της IBM.

Οι ερευνητές παρατηρούν:

«Με λίγα μόνο δείγματα, τα οποία διαφέρουν από μια συγκεκριμένη ιδιότητα, μπορεί κανείς να μάθει τη συμπεριφορά αποσύμπλεξης ενός προεκπαιδευμένου εμπλεκόμενου παραγωγικού μοντέλου. Δεν χρειάζεται να υπάρχουν ακριβή δείγματα πραγματικού κόσμου για να επιτευχθεί αυτός ο στόχος, κάτι που δεν είναι απαραίτητα εφικτό.

«Με τη χρήση μη ρεαλιστικών δειγμάτων δεδομένων, ο ίδιος στόχος μπορεί να επιτευχθεί χάρη στη μόχλευση της σημασιολογίας των κωδικοποιημένων λανθάνοντων διανυσμάτων. Η εφαρμογή επιθυμητών αλλαγών σε υπάρχοντα δείγματα δεδομένων μπορεί να γίνει χωρίς ρητή εξερεύνηση συμπεριφοράς λανθάνοντος χώρου.'

Οι ερευνητές αναμένουν ότι οι βασικές αρχές της αποσύνθεσης που διερευνήθηκαν στο έργο θα μπορούσαν να μεταφερθούν σε άλλους τομείς, όπως οι προσομοιώσεις εσωτερικής αρχιτεκτονικής, και ότι η μέθοδος Sim2Real που υιοθετήθηκε για το Delta-GAN-Encoder θα μπορούσε τελικά να επιτρέψει το deepfake όργανο βασισμένο σε απλά σκίτσα, αντί Είσοδος τύπου CGI.

Θα μπορούσε να υποστηριχθεί ότι ο βαθμός στον οποίο το νέο ισραηλινό σύστημα θα μπορούσε ή δεν θα μπορούσε να συνθέσει βαθιά ψεύτικα βίντεο είναι πολύ λιγότερο σημαντικός από την πρόοδο που έχει σημειώσει η έρευνα στην αποσύνδεση του πλαισίου από την ταυτότητα, κατά τη διαδικασία απόκτησης μεγαλύτερου ελέγχου στον λανθάνοντα χώρο ενός GAN.

Το Disentanglement είναι ένα ενεργό πεδίο έρευνας στη σύνθεση εικόνας. τον Ιανουάριο του 2021, μια έρευνα της Amazon χαρτί έδειξε παρόμοιο έλεγχο πόζας και απομπλέξιμο, και το 2018 α χαρτί από τα Ινστιτούτα Προηγμένης Τεχνολογίας Shenzhen στην Κινεζική Ακαδημία Επιστημών σημείωσε πρόοδο στη δημιουργία αυθαίρετων απόψεων σε ένα GAN.