Τεχνητή νοημοσύνη
Το Disentanglement Is the Next Deepfake Revolution
Η επαύξηση δεδομένων CGI χρησιμοποιείται σε ένα νέο έργο για να αποκτήσει μεγαλύτερο έλεγχο στις βαθιές ψευδείς εικόνες. Αν και ακόμα δεν μπορείτε να χρησιμοποιήσετε αποτελεσματικά τις κεφαλές CGI για να καλύψετε τα κενά που λείπουν στα βαθιά ψεύτικα σύνολα δεδομένων προσώπων, ένα νέο κύμα έρευνας για την αποσύνδεση της ταυτότητας από το πλαίσιο σημαίνει ότι σύντομα, ίσως να μην χρειαστεί να το κάνετε.
Οι δημιουργοί μερικών από τα πιο επιτυχημένα viral deepfake βίντεο των τελευταίων ετών επιλέγουν πολύ προσεκτικά τα βίντεό τους στην πηγή, αποφεύγοντας παρατεταμένες λήψεις προφίλ (δηλαδή το είδος των πλάγιων λήψεων που διαδόθηκαν από τις διαδικασίες σύλληψης της αστυνομίας), οξείες γωνίες και ασυνήθιστες ή υπερβολικές εκφράσεις . Όλο και περισσότερο, τα βίντεο επίδειξης που παράγονται από viral deepfakers είναι επεξεργασμένες συλλογές που επιλέγουν τις πιο «εύκολες» γωνίες και εκφράσεις για deepfake.
Στην πραγματικότητα, το πιο βολικό βίντεο-στόχος στο οποίο μπορείτε να εισαγάγετε μια βαθιά ψεύτικη διασημότητα είναι ένα βίντεο όπου το αρχικό άτομο (η ταυτότητα του οποίου θα διαγραφεί από το deepfake) κοιτάζει κατευθείαν στην κάμερα, με ελάχιστο εύρος εκφράσεων.
Επειδή τεχνολογίες deepfake όπως π.χ DeepFaceLab και Ανταλλαγή προσώπου εκτελέστε αυτές τις απλούστερες ανταλλαγές πολύ καλά, είμαστε αρκετά έκθαμβοι από αυτά που καταφέρνουν ώστε να μην παρατηρήσουμε τι είναι ανίκανοι και – συχνά – δεν επιχειρούμε καν:
Νέα έρευνα από το Ισραήλ προτείνει μια νέα μέθοδο χρήσης συνθετικών δεδομένων, όπως οι κεφαλές CGI, για να φέρει το deepfaking στη δεκαετία του 2020, διαχωρίζοντας πραγματικά τις ταυτότητες του προσώπου (δηλ. τα βασικά χαρακτηριστικά του προσώπου του «Tom Cruise», από όλες τις γωνίες) από το περιβάλλον τους (π.χ. ψαχνωντας, κοιτάζοντας λοξά, σκουπίζοντας, σκυθρωπός στο σκοτάδι, φρύδια αυλακωμένα, κλειστα ματια, Κ.λπ.).
Αυτό δεν είναι απλό deepfake κεφάλι-κουκλοθέατρο, μια τεχνική πιο κατάλληλη για είδωλα και μερικό συγχρονισμό χειλιών με πρόσωπο, και η οποία έχει περιορισμένες δυνατότητες για πλήρεις μετασχηματισμούς deepfake βίντεο.
Αντίθετα, αυτό αντιπροσωπεύει έναν δρόμο προς τα εμπρός για έναν θεμελιώδη διαχωρισμό των εργαλείων (όπως π.χ «αλλάξτε τη γωνία του κεφαλιού», "δημιουργώ συνοφρυώματα") από την ταυτότητα, προσφέροντας μια διαδρομή προς ένα υψηλού επιπέδου και όχι «παράγωγο» πλαίσιο σύνθεσης εικόνας που βασίζεται σε deepfake.
Η νέα εφημερίδα έχει τίτλο Delta-GAN-Encoder: Κωδικοποίηση σημασιολογικών αλλαγών για ρητή επεξεργασία εικόνας, χρησιμοποιώντας λίγα συνθετικά δείγματα, και προέρχεται από ερευνητές στο Technion – Israel Institute of Technology.
Για να κατανοήσουμε τι σημαίνει το έργο, ας ρίξουμε μια ματιά στον τρόπο με τον οποίο παράγονται αυτήν τη στιγμή τα deepfakes παντού, από ιστοσελίδες deepfake πορνό έως Βιομηχανικό φως και μαγεία (καθώς το αποθετήριο ανοιχτού κώδικα DeepFaceLab είναι επί του παρόντος κυρίαρχο τόσο στο 'ερασιτεχνικό' όσο και στο επαγγελματικό deepfaking).
Τι είναι αυτό που συγκρατεί την τρέχουσα τεχνολογία Deepfake;
Τα Deepfakes δημιουργούνται αυτήν τη στιγμή με την εκπαίδευση ενός κωδικοποιητής/αποκωδικοποιητής μοντέλο μηχανικής εκμάθησης σε δύο φακέλους εικόνων προσώπων – το άτομο που θέλετε να «ζωγραφίσετε» (στο προηγούμενο παράδειγμα, αυτός είναι ο Arnie) και το άτομο που θέλετε να τοποθετήσετε στο υλικό (Sly).
Το σύστημα κωδικοποιητή/αποκωδικοποιητή τότε συγκρίνει κάθε εικόνα σε κάθε φάκελο ο ένας στον άλλο, διατηρώντας, βελτιώνοντας και επαναλαμβάνοντας αυτή τη λειτουργία για εκατοντάδες χιλιάδες επαναλήψεις (συχνά για μια εβδομάδα), έως ότου κατανοήσει τα βασικά χαρακτηριστικά και των δύο ταυτοτήτων αρκετά καλά για να τα ανταλλάξει κατά βούληση.
Για καθένα από τα δύο άτομα που ανταλλάσσονται στη διαδικασία, αυτό που μαθαίνει η βαθιά ψεύτικη αρχιτεκτονική για την ταυτότητα είναι μπλεγμένο με το πλαίσιο. Δεν μπορεί να μάθει και να εφαρμόσει αρχές σχετικά με μια γενική πόζα «για το καλό και για όλους», αλλά χρειάζεται άφθονα παραδείγματα στο σύνολο δεδομένων εκπαίδευσης, για κάθε ταυτότητα που πρόκειται να εμπλακεί στην εναλλαγή προσώπων.
Επομένως, αν θέλετε να ανταλλάξετε δύο ταυτότητες που κάνουν κάτι πιο ασυνήθιστο από το να χαμογελάτε ή να κοιτάτε κατευθείαν στην κάμερα, θα χρειαστείτε πολοί περιπτώσεις αυτής της συγκεκριμένης πόζας/ταυτότητας στα δύο πρόσωπα:
Αν το σετ Α περιέχει την ασυνήθιστη πόζα, αλλά το σετ Β στερείται, δεν έχετε τύχη. ανεξάρτητα από το πόσο καιρό εκπαιδεύετε το μοντέλο, δεν θα μάθει ποτέ να αναπαράγει καλά αυτή τη πόζα μεταξύ των ταυτοτήτων, γιατί είχε μόνο τις μισές απαραίτητες πληροφορίες όταν εκπαιδεύτηκε.
Ακόμα κι αν έχετε αντίστοιχες εικόνες, μπορεί να μην είναι αρκετό: αν το σετ Α έχει την αντίστοιχη πόζα, αλλά με έντονο πλευρικό φωτισμό, σε σύγκριση με την ισοδύναμη στάση με επίπεδο φωτισμό στο άλλο σετ προσώπου, η ποιότητα της ανταλλαγής κέρδισε Δεν είναι τόσο καλό σαν να μοιράζονται κοινά χαρακτηριστικά φωτισμού.
Γιατί τα δεδομένα είναι σπάνια
Αν δεν συλλαμβάνεστε τακτικά, πιθανότατα δεν έχετε τόσες πολλές πλάγιες φωτογραφίες του εαυτού σας. Ό,τι προέκυψε, πιθανότατα το πέταξες. Δεδομένου ότι τα πρακτορεία φωτογραφιών κάνουν το ίδιο, οι λήψεις προσώπου προφίλ είναι δύσκολο να βρεθούν.
Οι Deepfakers συχνά περιλαμβάνουν πολλαπλά αντίγραφα των περιορισμένων δεδομένων προφίλ πλευρικής προβολής που έχουν για μια ταυτότητα σε ένα σετ προσώπου, ακριβώς έτσι ώστε η πόζα να έχει τουλάχιστον ένα λίγο προσοχή και χρόνος κατά τη διάρκεια της προπόνησης, αντί να μειώνεται ως α απότομη.
Ωστόσο, υπάρχουν πολλοί περισσότεροι πιθανοί τύποι εικόνων με πλάγια όψη από ό,τι είναι πιθανό να είναι διαθέσιμοι για συμπερίληψη σε ένα σύνολο δεδομένων – χαμογελαστά, συνοφρυωμένος, σκούξιμο, κλάμα, σκούρο φωτισμένο, περιφρονητικός, βαριούνται, χαρούμενος, αναβοσβήνει, ψαχνωντας, κοιτάζοντας κάτω, μάτια ανοιχτά, μάτια κλειστά…και ούτω καθεξής. Οποιαδήποτε από αυτές τις πόζες, σε πολλαπλούς συνδυασμούς, θα μπορούσε να χρειαστεί σε ένα στοχευμένο βίντεο στόχο deepfake.
Και αυτό είναι μόνο προφίλ. Πόσες φωτογραφίες έχετε να κοιτάτε ευθεία επάνω? Έχετε αρκετά για να εκπροσωπήσετε ευρέως το 10,000 πιθανές εκφράσεις μπορεί να φοράτε ενώ κρατάτε αυτήν ακριβώς τη πόζα από αυτήν ακριβώς τη γωνία της κάμερας, καλύπτοντας τουλάχιστον μερικά από τα ένα εκατομμύριο πιθανά περιβάλλοντα φωτισμού?
Οι πιθανότητες είναι, δεν έχετε καν ένας εικόνα του εαυτού σας κοιτώντας ψηλά. Και αυτό είναι μόνο δύο γωνίες από τις εκατό ή περισσότερες που απαιτούνται για πλήρη κάλυψη.
Ακόμα κι αν ήταν δυνατό να δημιουργηθεί πλήρης κάλυψη ενός προσώπου από όλες τις γωνίες κάτω από μια σειρά συνθηκών φωτισμού, το σύνολο δεδομένων που θα προέκυπτε θα ήταν πολύ μεγάλο για να εκπαιδευτεί, της τάξης των εκατοντάδων χιλιάδων εικόνων. και ακόμη κι αν είναι θα μπορούσε να Για να είστε εκπαιδευμένοι, η φύση της διαδικασίας εκπαίδευσης για τα τρέχοντα deepfake πλαίσια θα απορρίψει τη συντριπτική πλειοψηφία αυτών των επιπλέον δεδομένων υπέρ ενός περιορισμένου αριθμού παράγωγων χαρακτηριστικών, επειδή τα τρέχοντα πλαίσια είναι αναγωγικά και όχι πολύ επεκτάσιμα.
Συνθετική υποκατάσταση
Από την αυγή των deepfakes, οι deepfaker έχουν πειραματιστεί με τη χρήση εικόνων σε στυλ CGI, κεφαλές κατασκευασμένες σε τρισδιάστατες εφαρμογές όπως το Cinema3D και η Maya, για να δημιουργήσουν αυτές τις «πόζες που λείπουν».
Αυτή η μέθοδος γενικά εγκαταλείπεται νωρίς από νέους επαγγελματίες του deepfake, επειδή παρόλο που μπορεί να παρέχει πόζες και εκφράσεις που διαφορετικά δεν είναι διαθέσιμες, η συνθετική εμφάνιση των προσόψεων CGI συνήθως αιμορραγεί στις εναλλαγές λόγω εμπλοκής του αναγνωριστικού και των συμφραζομένων/σημασιολογικών πληροφοριών.
Αυτό μπορεί να οδηγήσει στην ξαφνική αναλαμπή προσώπων «ασυνήθιστης κοιλάδας» σε ένα κατά τα άλλα πειστικό deepfake βίντεο, καθώς ο αλγόριθμος αρχίζει να βασίζεται στα μόνα δεδομένα που μπορεί να έχει για μια ασυνήθιστη πόζα ή έκφραση – εμφανώς ψεύτικα πρόσωπα.
CGI Faces ως αποσπασμένες, εννοιολογικές κατευθυντήριες γραμμές
Αντίθετα, η νέα μέθοδος Delta-GAN Encoder (DGE) από τους Ισραηλινούς ερευνητές είναι πιο αποτελεσματική, επειδή οι πληροφορίες πόζας και συμφραζομένων από τις εικόνες CGI έχουν διαχωριστεί πλήρως από τις πληροφορίες «ταυτότητας» του στόχου.
Μπορούμε να δούμε αυτήν την αρχή σε δράση στην παρακάτω εικόνα, όπου έχουν ληφθεί διάφοροι προσανατολισμοί κεφαλής χρησιμοποιώντας τις εικόνες CGI ως κατευθυντήρια γραμμή. Δεδομένου ότι τα χαρακτηριστικά ταυτότητας δεν σχετίζονται με τα συμφραζόμενα χαρακτηριστικά, δεν υπάρχει αιμορραγία ούτε από την ψεύτικη συνθετική εμφάνιση του προσώπου CGI ούτε από την ταυτότητα που απεικονίζεται σε αυτό:
Αυτός ο διαχωρισμός ταυτότητας και πλαισίου επιτυγχάνεται στο στάδιο της εκπαίδευσης. Ο αγωγός για τη νέα αρχιτεκτονική deepfake αναζητά το λανθάνον διάνυσμα σε ένα προεκπαιδευμένο Generative Adversarial Network (GAN) που ταιριάζει με την εικόνα που πρόκειται να μετασχηματιστεί — μια μεθοδολογία Sim2Real που βασίζεται σε ένα 2018 σχέδιο από την ερευνητική ενότητα AI της IBM.
Οι ερευνητές παρατηρούν:
«Με λίγα μόνο δείγματα, τα οποία διαφέρουν από μια συγκεκριμένη ιδιότητα, μπορεί κανείς να μάθει τη συμπεριφορά αποσύμπλεξης ενός προεκπαιδευμένου εμπλεκόμενου παραγωγικού μοντέλου. Δεν χρειάζεται να υπάρχουν ακριβή δείγματα πραγματικού κόσμου για να επιτευχθεί αυτός ο στόχος, κάτι που δεν είναι απαραίτητα εφικτό.
«Με τη χρήση μη ρεαλιστικών δειγμάτων δεδομένων, ο ίδιος στόχος μπορεί να επιτευχθεί χάρη στη μόχλευση της σημασιολογίας των κωδικοποιημένων λανθάνοντων διανυσμάτων. Η εφαρμογή επιθυμητών αλλαγών σε υπάρχοντα δείγματα δεδομένων μπορεί να γίνει χωρίς ρητή εξερεύνηση συμπεριφοράς λανθάνοντος χώρου.'
Οι ερευνητές αναμένουν ότι οι βασικές αρχές της αποσύνθεσης που διερευνήθηκαν στο έργο θα μπορούσαν να μεταφερθούν σε άλλους τομείς, όπως οι προσομοιώσεις εσωτερικής αρχιτεκτονικής, και ότι η μέθοδος Sim2Real που υιοθετήθηκε για το Delta-GAN-Encoder θα μπορούσε τελικά να επιτρέψει το deepfake όργανο βασισμένο σε απλά σκίτσα, αντί Είσοδος τύπου CGI.
Θα μπορούσε να υποστηριχθεί ότι ο βαθμός στον οποίο το νέο ισραηλινό σύστημα θα μπορούσε ή δεν θα μπορούσε να συνθέσει βαθιά ψεύτικα βίντεο είναι πολύ λιγότερο σημαντικός από την πρόοδο που έχει σημειώσει η έρευνα στην αποσύνδεση του πλαισίου από την ταυτότητα, κατά τη διαδικασία απόκτησης μεγαλύτερου ελέγχου στον λανθάνοντα χώρο ενός GAN.
Το Disentanglement είναι ένα ενεργό πεδίο έρευνας στη σύνθεση εικόνας. τον Ιανουάριο του 2021, μια έρευνα της Amazon χαρτί έδειξε παρόμοιο έλεγχο πόζας και απομπλέξιμο, και το 2018 α χαρτί από τα Ινστιτούτα Προηγμένης Τεχνολογίας Shenzhen στην Κινεζική Ακαδημία Επιστημών σημείωσε πρόοδο στη δημιουργία αυθαίρετων απόψεων σε ένα GAN.