Τεχνητή νοημοσύνη

Η Αυγή των Deepfaked Συναισθημάτων

Published September 20, 2021

Updated April 28, 2026

Martin Anderson

Οι ερευνητές έχουν αναπτύξει eine νέα τεχνική μηχανικής μάθησης για να επιβάλλουν αυθαίρετα νέες συναισθήματα σε πρόσωπα σε βίντεο, προσαρμόζοντας τις υπάρχουσες τεχνολογίες που έχουν πρόσφατα αναδυθεί ως λύσεις για να ταιριάξουν τις κινήσεις των χειλιών με τη δίωξη ξένων γλωσσών.

Η έρευνα είναι μια ισότιμη συνεργασία μεταξύ του Πανεπιστημίου του Northeastern στη Βοστώνη και του Media Lab στο MIT, και έχει τον τίτλο Invertable Frowns: Video-to-Video Facial Emotion Translation. Αν και οι ερευνητές παραδέχονται ότι η αρχική ποιότητα των αποτελεσμάτων πρέπει να αναπτυχθεί μέσω περαιτέρω ερευνών, ισχυρίζονται ότι η τεχνική, που ονομάζεται Wav2Lip-Emotion, είναι η πρώτη του είδους της που αντιμετωπίζει直接 την τροποποίηση της πλήρους έκφρασης του βίντεο μέσω τεχνικών νευρωνικών δικτύων.

Ο βασικός κώδικας έχει εκδοθεί στο GitHub, αν και τα checkpoints του μοντέλου θα προστεθούν στο ανοιχτό αποθετήριο αργότερα, οι συγγραφείς υποσχέθηκαν.

Στο αριστερό, ένα ‘λυπηρό’ кадρό του πηγαίου βίντεο. Στο δεξί, ένα ‘ευτυχισμένο’ кадρό. Στο κέντρο υπάρχουν δύο ναissant προσεγγίσεις για την σύνθεση εναλλακτικών συναισθημάτων – πρώτη σειρά: ένα πλήρως-καλυμμένο πρόσωπο όπου ολόκληρη η επιφάνεια της έκφρασης έχει αντικατασταθεί· δεύτερη σειρά: μια πιο παραδοσιακή μέθοδος Wav2Lip, η οποία αντικαθιστά μόνο το κατώτερο μέρος του προσώπου. Πηγή: https://raw.githubusercontent.com/jagnusson/Wav2Lip-Emotion/main/literature/ADGD_2021_Wav2Lip-emotion.pdf

Μια Μονή Βίντεο ως Πηγή Δεδομένων

Θεωρητικά, τέτοιες χειρισμοί είναι δυνατοί τώρα μέσω πλήρους σωματικής εκπαίδευσης σε παραδοσιακές βιβλιοθήκες deepfake όπως DeepFaceLab ή FaceSwap. Ωστόσο, η τυπική ροή εργασίας θα涉άζει την χρήση μιας εναλλακτικής ταυτότητας στο ‘στόχο’ ταυτότητα, όπως ένας ηθοποιός που μιμείται τον στόχο, των οποίων οι δικές του εκφράσεις θα μεταφερθούν σε άλλο άτομο, μαζί με την υπόλοιπη απόδοση. Επιπλέον, τεχνικές κλονοποίησης φωνής deepfake θα ήταν συνήθως απαραίτητες για να ολοκληρωθεί η ψευδαίσθηση.

Περαιτέρω, η αλλαγή της έκφρασης του στόχου1>στόχου1 σε ένα μόνο πηγαίο βίντεο υπό αυτές τις δημοφιλείς αρχιτεκτονικές θα涉άζει την αλλαγή των διανυσμάτων ευθυγράμμισης του προσώπου με έναν τρόπο που αυτές οι αρχιτεκτονικές δεν διευκολύνουν目前.

Το Wav2Lip-Emotion διατηρεί τη συγχρονία των χειλιών του αρχικού βίντεο με τον ήχο του διαλόγου ενώ μετατρέπει τις συνδεδεμένες εκφράσεις.

Αντίθετα, το Wav2Lip-Emotion επιδιώκει να ‘αντιγράψει και να επικολλήσει’ εκφράσεις που σχετίζονται με συναισθήματα από ένα μέρος του βίντεο και να τις αντικαταστήσει σε άλλους πόντους, με μια αυτο-επιβεβλημένη φειδωλία των πηγαίων δεδομένων που προορίζεται τελικά να προσφέρει μια μέθοδο χαμηλότερου κόστους για την τροποποίηση της έκφρασης.

Μοντέλα εκτός σύνδεσης θα μπορούσαν να αναπτυχθούν αργότερα που θα εκπαιδεύονται σε εναλλακτικά βίντεο του ομιλητή, καταργώντας την ανάγκη για οποιοδήποτε ένα βίντεο να περιέχει ένα ‘παλέτα’ καταστάσεων έκφρασης με τις οποίες να χειρίζεται το βίντεο.

Πιθανές Εφαρμογές

Οι συγγραφείς προτείνουν eine σειρά εφαρμογών για την τροποποίηση της έκφρασης, συμπεριλαμβανομένης μιας ζωντανού φίλτρου βίντεο για να αποζημιώσει τις επιπτώσεις του PTSD και των θυμάτων προσωπικού παλιού. Το έγγραφο παρατηρεί:

‘Άτομα με ή χωρίς περιορισμένες εκφράσεις του προσώπου μπορεί να ωφεληθούν από την điều chỉnh των δικών τους εκφράσεων για να ταιριάξουν καλύτερα με τις κοινωνικές τους περιστάσεις. Κάποιος μπορεί να θέλει να αλλάξει τις εκφράσεις σε βίντεο που του δείχνουν. Οι ομιλητές μπορεί να φωνάζουν ο ένας στον άλλον κατά τη διάρκεια μιας τηλεδιάσκεψης, αλλά παρόλα αυτά θέλουν να συλλέξουν το περιεχόμενο της ανταλλαγής τους χωρίς τις δυσάρεστες εκφράσεις. Ή ένας σκηνοθέτης μπορεί να θέλει να αυξήσει ή να μειώσει τις εκφράσεις του ηθοποιού.’

Καθώς η έκφραση του προσώπου είναι ένα κλειδί και βασικό δείκτη προθέσεων, ακόμη και όπου μπορεί να τρίβει ενάντια στις λέξεις που ομιλούνται, η ικανότητα να αλλάξει την έκφραση προσφέρει, σε κάποιο βαθμό, την ικανότητα να αλλάξει πώς η επικοινωνία λαμβάνεται.

Προηγούμενη Εργασία

Το ενδιαφέρον για την αλλαγή της έκφρασης με τη βοήθεια της μηχανικής μάθησης ανάγεται τουλάχιστον στο 2012, όταν μια συνεργασία μεταξύ της Adobe, της Facebook και του Πανεπιστημίου Rutgers πρότεινε μια μέθοδο για να αλλάξει τις εκφράσεις χρησιμοποιώντας μια προσέγγιση ανακατασκευής γεωμετρίας 3D με βάση τον τενσόρα, η οποία επέβαλε εργατικά ένα CGI mesh πάνω σε κάθε кадρό του στόχου βίντεο για να επιτύχει την αλλαγή.

Η έρευνα του 2012 της Adobe/Facebook χειρίστηκε τις εκφράσεις με την επιβολή παραδοσιακών, CGI-κίνητων αλλαγών στο βίντεο. Οι εκφράσεις θα μπορούσαν να αυξηθούν ή να μειωθούν. Πηγή: https://yfalan.github.io/files/papers/FeiYang_CVPR2012.pdf

Αν και τα αποτελέσματα ήταν υποσχόμενα, η τεχνική ήταν βαρετή και οι πόρους που χρειάζονταν ήταν σημαντικοί. Σε αυτό το σημείο, η CGI ήταν πολύ πιο μπροστά από τις προσεγγίσεις της υπολογιστικής όρασης για την άμεση χειραγώγηση του χώρου και των pixel.

Περισσότερο σχετικά με το νέο έγγραφο είναι το MEAD, ένα σύνολο δεδομένων και μοντέλο γεννήτριας εκφράσεων που κυκλοφόρησε το 2020, ικανό να παράγει ‘ομιλώντας-κεφαλή’ βίντεο, αν και χωρίς το επίπεδο σοφιστικέ της που είναι потенτικά достиγσιμο με την τροποποίηση του πηγαίου βίντεο直接.

Γεννήτρια εκφράσεων με το MEAD του 2020, μια συνεργασία μεταξύ της SenseTime Research, του Carnegie Mellon και τριών κινεζικών πανεπιστημίων. Πηγή: https://wywu.github.io/projects/MEAD/MEAD.html

Το 2018, μια άλλη εργασία, με τίτλο GANimation: Anatomically-aware Facial Animation from a Single Image, αναδύθηκε ως αμερικανική/ισπανική ακαδημαϊκή ερευνητική συνεργασία, και χρησιμοποίησε Generative Adversarial Networks για να αυξήσει ή να αλλάξει τις εκφράσεις σε στατικές εικόνες μόνο.

Αλλαγή εκφράσεων σε στατικές εικόνες με GANimation. Πηγή: https://arxiv.org/pdf/1807.09251.pdf

Wav2Lip-Emotion

Αντίθετα, το νέο έργο βασίζεται στο Wav2Lip, το οποίο πρόσπαθε το 2020 να προσφέρει μια πιθανή μέθοδο για την επανασύνδεση της κίνησης των χειλιών για να ταιριάξει με νέο εισαγόμενο λόγο (ή τραγούδι) που δεν εμφανιζόταν στο αρχικό βίντεο.

Η αρχική αρχιτεκτονική Wav2Lip εκπαιδεύτηκε σε ένα σώμα προφορικών προτάσεων από τα αρχεία της BBC. Για να προσαρμόσουν το Wav2Lip στην εργασία της αλλαγής της έκφρασης, οι ερευνητές ‘λειτούργησαν’ την αρχιτεκτονική στο παραπάνω αναφερθέν σύνολο δεδομένων MEAD.

Το MEAD αποτελείται από 40 ώρες βίντεο με 60 ηθοποιούς που διαβάζουν την ίδια πρόταση ενώ εκτελούν eine ποικιλία εκφράσεων του προσώπου. Οι ηθοποιοί προέρχονται από 15 διαφορετικές χώρες και προσφέρουν eine ποικιλία διεθνών χαρακτηριστικών που αποσκοπούν στην βοήθεια του έργου (και των παραγώγων έργων) να παράγει εφαρμόσιμη και καλά γενικευμένη σύνθεση εκφράσεων.

Στην время της έρευνας, το MEAD είχε κυκλοφορήσει μόνο το πρώτο μέρος του συνόλου δεδομένων, που περιλαμβάνει 47 άτομα που εκτελούν εκφράσεις όπως ‘θυμωμένος’, ‘απωθητικός’, ‘φόβος’, ‘εξουσία’, ‘ευτυχισμένος’, ‘λυπημένος’ και ‘έκπληξη’. Σε αυτή την αρχική έξοδο σε μια νέα προσέγγιση, οι ερευνητές περιόρισαν το πεδίο του έργου στην επιβολή ή αλλαγή των αντιλαμβανόμενων συναισθημάτων ‘ευτυχισμένος’ και ‘λυπημένος’,既然 αυτά είναι τα πιο εύκολα αναγνωρίσιμα.

Μέθοδος και Αποτελέσματα

Η αρχική αρχιτεκτονική Wav2Lip αντικαθιστά μόνο το κατώτερο τμήμα του προσώπου, ενώ το Wav2Lip-Emotion πειραματίζεται επίσης με μια πλήρη μάσκα αντικατάστασης του προσώπου και σύνθεση έκφρασης. Έτσι, ήταν αναγκαίο για τους ερευνητές να τροποποιήσουν επιπλέον τις ενσωματωμένες μεθόδους αξιολόγησης,既然 αυτές δεν были σχεδιασμένες για μια πλήρη ρύθμιση προσώπου.

Οι συγγραφείς βελτιώνουν τον αρχικό κώδικα διατηρώντας την αρχική είσοδο ήχου, διατηρώντας τη συμφωνία της κίνησης των χειλιών.

Το γεννήτρια στοιχείο περιλαμβάνει einen κωδικοποιητή ταυτότητας, κωδικοποιητή ομιλίας και αποκωδικοποιητή προσώπου, σύμφωνα με την προηγούμενη εργασία. Το στοιχείο ομιλίας κωδικοποιείται επιπλέον ως στοιβάζοντας 2D σύγκλιση που συνδέονται με τους συσχετιζόμενους πλαισίου.

Εκτός από το γεννήτρια στοιχείο, η τροποποιημένη αρχιτεκτονική περιλαμβάνει τρία κύρια στοιχεία διακρίσεων, που στοχεύουν στην ποιότητα της συγχρονίας των χειλιών, ένα στοιχείο στόχου συναισθήματος, και ένα στοιχείο οπτικής ποιότητας που εκπαιδεύεται ανταγωνιστικά.

Για την πλήρη ανακατασκευή του προσώπου, η αρχική εργασία Wav2Lip δεν περιείχε κανένα προηγούμενο, και επομένως το μοντέλο εκπαιδεύτηκε από την αρχή. Για την εκπαίδευση του κατώτερου μέρους του προσώπου (ημι-μάσκα), οι ερευνητές προχώρησαν από τα checkpoints που περιλαμβάνονταν στον αρχικό κώδικα Wav2Lip.

Εκτός από την αυτόματη αξιολόγηση, οι ερευνητές χρησιμοποίησαν crowd-sourced γνώμη που παρέχθηκε από μια ημι-αυτόματη πλατφόρμα υπηρεσιών. Οι εργάτες αξιολόγησαν γενικά το εξόδους πολύ υψηλά σε σχέση με την αναγνώριση των επιβαλλόμενων συναισθημάτων, ενώ μόνο αναφέρουν ‘μετριοπαθείς’ αξιολογήσεις για την ποιότητα της εικόνας.

Οι συγγραφείς προτείνουν ότι, εκτός από την βελτίωση της ποιότητας του παραγώμενου βίντεο με περαιτέρω βελτιώσεις, μελλοντικές επαναλήψεις της εργασίας θα μπορούσαν να περιλάβουν eine ευρύτερη ποικιλία συναισθημάτων, και ότι η εργασία θα μπορούσε να εφαρμοστεί επίσης σε μελλοντικές εργασίες σε ετικετημένα ή αυτόματα αναγνωρισμένα πηγαία δεδομένων και συνόλους δεδομένων, οδηγώντας τελικά σε ένα αυθεντικό σύστημα στο οποίο τα συναισθήματα θα μπορούσαν να ρυθμιστούν ή να αντικατασταθούν με αντίθετα συναισθήματα σε σχέση με το αρχικό πηγαίο βίντεο.