Τεχνητή νοημοσύνη

Αναδιάρθρωση Προσώπων σε Βίντεο με Μηχανική Μάθηση

Published May 9, 2022

Updated April 5, 2026

Martin Anderson

Μια ερευνητική συνεργασία μεταξύ Κίνας και Ηνωμένου Βασιλείου έχει αναπτύξει eine νέα μέθοδο για να αναδιαμορφώσει τα πρόσωπα σε βίντεο. Η τεχνική επιτρέπει μια πειστική ελαφριά και στενή αναμόρφωση της δομής του προσώπου, με υψηλή συνεχή και απουσία τεχνιτών.

Από ένα βίντεο στο YouTube που χρησιμοποιήθηκε ως υλικό από τους ερευνητές, η ηθοποιός Jennifer Lawrence εμφανίζεται ως ένα πιο γαμψό πρόσωπο (δεξιά). Δείτε το συνοδευτικό βίντεο που είναι ενσωματωμένο στο κάτω μέρος του άρθρου για πολλά περισσότερα παραδείγματα σε καλύτερη ανάλυση. Source: https://www.youtube.com/watch?v=tA2BxvrKvjE

Αυτού του είδους η μεταμόρφωση είναι συνήθως δυνατή μόνο μέσω παραδοσιακών μεθόδων CGI που θα χρειαζόταν να αναδημιουργήσουν εντελώς το πρόσωπο μέσω λεπτομερών και ακριβών διαδικασιών motion-capping, rigging και texturing.

Αντίθετα, ότι CGI υπάρχει στη τεχνική είναι ενσωματωμένο σε μια νευρωνική διαδικασία ως παραμετρικές 3D πληροφορίες προσώπου που χρησιμοποιούνται στη συνέχεια ως βάση για μια διαδικασία μηχανικής μάθησης.

Παραδοσιακά παραμετρικά πρόσωπα χρησιμοποιούνται όλο και περισσότερο ως οδηγίες για μεταμορφωτικές διαδικασίες που χρησιμοποιούν AI αντί για CGI. Source: https://arxiv.org/pdf/2205.02538.pdf

Οι συγγραφείς δηλώνουν:

‘Ο στόχος μας είναι να παράγουμε υψηλής ποιότητας αποτελέσματα αναμόρφωσης βίντεο προφίλ, επεξεργαζόμενοι τη γενική μορφή των προφίλ προσώπων σύμφωνα με τη φυσική παραμόρφωση του προσώπου στον πραγματικό κόσμο. Αυτό μπορεί να χρησιμοποιηθεί για εφαρμογές όπως η δημιουργία προφίλ για καλλωπισμός και η υπερβολή του προσώπου για οπτικά εφέ.’

Αν και η διαμόρφωση και η παραμόρφωση του προσώπου σε 2D έχει διατεθεί στους καταναλωτές από την εποχή του Photoshop (και έχει οδηγήσει σε περίεργες και συχνά απαράδεκτες υποκουλτούρες γύρω από τη διαμόρφωση του προσώπου και τη δυσμορφία του σώματος), είναι một δύσκολο κόλπο να το πετύχεις σε βίντεο χωρίς να χρησιμοποιήσεις CGI.

Οι διαστάσεις του Mark Zuckerberg επεκτάθηκαν και στενεύτηκαν από τη νέα Κινεζο-Βρετανική τεχνική.

Η αναμόρφωση του σώματος είναι目前 ένα πεδίο εντατικής έρευνας στο τομέα της οπτικής ανίχνευσης, κυρίως λόγω της потенικής του εφαρμογής στη μόδα ηλεκτρονικού εμπορίου, αν και η εμφάνιση κάποιου ως ψηλότερου ή σκελετικού διαφορετικού είναι目前 ένα σημαντικό πρόκληση.

Ομοίως, η αλλαγή της μορφής του κεφαλιού σε βίντεο σε συνεχή και πειστική τρόπο έχει sido το αντικείμενο προηγούμενης εργασίας από τους ερευνητές της νέας εργασίας, αν και αυτή η εφαρμογή είχε προβλήματα και άλλες περιορισμοί. Η νέα πρόταση επεκτείνει την ικανότητα αυτής της προηγούμενης έρευνας από στατικά σε βίντεο εξόδου.

Το νέο σύστημα εκπαιδεύτηκε σε ένα επιτραπέζιο υπολογιστή με AMD Ryzen 9 3950X με 32GB μνήμης και χρησιμοποιεί einen αλγόριθμο οπτικού ροής από OpenCV για χάρτες κίνησης, λειασμένο από το StructureFlow πλαίσιο· το Δίκτυο Συγκλίνουσας Προσαρμογής (FAN) για εκτίμηση ορόσημων, το οποίο χρησιμοποιείται επίσης στα δημοφιλή πακέτα deepfakes· και τον Ceres Solver για την επίλυση προβλημάτων βελτιστοποίησης.

Ένα ακραίο παράδειγμα ευρείας παραμόρφωσης με το νέο σύστημα.

Το έγγραφο έχει τον τίτλο Παραμετρική Αναμόρφωση Προσώπων σε Βίντεο και προέρχεται από τρεις ερευνητές στο Πανεπιστήμιο Zhejiang και έναν από το Πανεπιστήμιο του Bath.

Σχετικά με το Πρόσωπο

Υπό το νέο σύστημα, το βίντεο εξάγεται σε μια ακολουθία εικόνων και μια σκληρή στάση εκτιμάται πρώτα για κάθε πρόσωπο. Στη συνέχεια, ένας αντιπρόσωπος αριθμός επόμενων καρέ εκτιμάται από κοινού για να κατασκευαστούν συνεπή παραμέτρους ταυτότητας κατά τη διάρκεια ολόκληρης της ακολουθίας εικόνων (δηλαδή τα καρέ του βίντεο).

Αρχιτεκτονική ροής του συστήματος παραμόρφωσης προσώπου.

Μετά από αυτό, η έκφραση αξιολογείται, δίνοντας μια παράμετρο αναμόρφωσης που εφαρμόζεται με γραμμική παλινδρόμηση. Στη συνέχεια, μια νέα υπογεγραμμένη συνάρτηση απόστασης (SDF) προσέγγιση κατασκευάζει μια πυκνή 2D χαρτογράφηση των χαρακτηριστικών του προσώπου πριν και μετά την αναμόρφωση.

Τέλος, μια συνειδητή βελτιστοποίηση παραμόρφωσης thựcείται στο εξοδικό βίντεο.

Παραμετρικά Πρόσωπα

Η διαδικασία χρησιμοποιεί ένα 3D Μορφολογικό Μοντέλο Προσώπου (3DMM), ένα όλο και περισσότερο δημοφιλές βοηθητικό για νευρωνικά και GAN-βασισμένα συστήματα σύνθεσης προσώπου, καθώς και είναι εφαρμόσιμο για συστήματα ανίχνευσης deepfakes.

Δεν προέρχεται από το έγγραφο, αλλά ένα παράδειγμα 3D Μορφολογικού Μοντέλου Προσώπου (3DMM) – ένα παραμετρικό πρωτότυπο πρόσωπο που χρησιμοποιείται στη νέα εργασία. Πάνω αριστερά, εφαρμογή ορόσημων σε ένα 3DMM πρόσωπο. Πάνω δεξιά, οι κόμβοι του 3D πλέγματος ενός ισοχάρτη. Κάτω αριστερά, εφαρμογή ορόσημων· κάτω-μέσα, ένας ισοχάρτης της εξαγηγμένης текстούρας προσώπου· και κάτω δεξιά, μια αποτελεσματική εφαρμογή και μορφή. Source: http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

Δεν προέρχεται από το νέο έγγραφο, αλλά ένα παράδειγμα 3D Μορφολογικού Μοντέλου Προσώπου (3DMM) – ένα παραμετρικό πρωτότυπο πρόσωπο που χρησιμοποιείται στη νέα εργασία. Πάνω αριστερά, εφαρμογή ορόσημων σε ένα 3DMM πρόσωπο. Πάνω δεξιά, οι κόμβοι του 3D πλέγματος ενός ισοχάρτη. Κάτω αριστερά, εφαρμογή ορόσημων· κάτω-μέσα, ένας ισοχάρτης της εξαγηγμένης текстούρας προσώπου· και κάτω δεξιά, μια αποτελεσματική εφαρμογή και μορφή. Source: http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

Η ροή της νέας διαδικασίας πρέπει να λαμβάνει υπόψη περιπτώσεις οκκλουσίας, όπως μια περίπτωση όπου το υποκείμενο κοιτάζει μακριά. Αυτό είναι ένα από τα μεγαλύτερα προβλήματα στο λογισμικό deepfakes,既然 τα ορόσημα FAN έχουν μικρή ικανότητα να αντιμετωπίσουν αυτές τις περιπτώσεις και τείνουν να χάνουν την ποιότητα τους καθώς το πρόσωπο αποστρέφεται ή οκκλουσιώνεται.

Το νέο σύστημα είναι σε θέση να αποφύγει αυτή την παγίδα ορίζοντας μια ενέργεια περιγράμματος που είναι ικανή να ταιριάζει στα όρια μεταξύ του 3D προσώπου (3DMM) και του 2D προσώπου (όπως ορίζεται από τα ορόσημα FAN).

Βελτιστοποίηση

Μια χρήσιμη ανάπτυξη για ένα τέτοιο σύστημα θα ήταν να εφαρμόσει πραγματικό χρόνο παραμόρφωση, για παράδειγμα σε φίλτρα βίντεο-κλήσεων. Το τρέχον πλαίσιο δεν επιτρέπει这一, και οι υπολογιστικοί πόροι που απαιτούνται θα έκαναν την ‘ζωντανή’ παραμόρφωση μια σημαντική πρόκληση.

Σύμφωνα με το έγγραφο, και με την υπόθεση ενός στόχου βίντεο 24fps, οι επιχειρήσεις ανά καρέ στην πipeline αντιπροσωπεύουν καθυστέρηση 16,344 δευτερολέπτων για κάθε δευτερόλεπτο βίντεο, με πρόσθετες μοναδικές επιπτώσεις για εκτίμηση ταυτότητας και αναμόρφωση 3D προσώπου (321ms και 160ms, αντίστοιχα).

Επομένως, η βελτιστοποίηση είναι κλειδί για την πρόοδο προς τη μείωση της καθυστέρησης.既然 η συνειδητή βελτιστοποίηση σε όλα τα καρέ θα προσθέσει σοβαρή επιβάρυνση στη διαδικασία, και η βελτιστοποίηση init-στύλου (υποθέτοντας τη συνεχή ταυτότητα του ομιλητή από το πρώτο καρέ) θα μπορούσε να οδηγήσει σε ανωμαλίες, οι συγγραφείς έχουν υιοθετήσει ένα稀 σχήμα για τον υπολογισμό των συντελεστών των καρέ δειγμάτων σε πρακτικά διαστήματα.

Η συνειδητή βελτιστοποίηση thựcείται στη συνέχεια σε αυτό το υποσύνολο καρέ, οδηγώντας σε μια λιγότερη διαδικασία ανακατασκευής.

Παραμόρφωση Προσώπου

Η τεχνική παραμόρφωσης που χρησιμοποιείται στο έργο είναι μια προσαρμογή της εργασίας των συγγραφέων του 2020 Βαθιά Σχηματικά Πρόσωπα (DSP).

Βαθιά Σχηματικά Πρόσωπα, μια υποβολή του 2020 στην ACM Multimedia. Το έγγραφο είναι υπό την ηγεσία ερευνητών από το ZJU-Tencent Game και Intelligent Graphics Innovation Technology Joint Lab. Source: http://www.cad.zju.edu.cn/home/jin/mm2020/demo.mp4

Οι συγγραφείς παρατηρούν ‘Εκτείνουμε αυτή τη μέθοδο από την αναμόρφωση μιας μονόπλευρης εικόνας στην αναμόρφωση ολόκληρης της ακολουθίας εικόνων.’

Δοκιμές

Το έγγραφο παρατηρεί ότι δεν υπήρχε κανένα συγκρίσιμο υλικό κατά την αξιολόγηση της νέας μεθόδου. Επομένως, οι συγγραφείς σύγκριναν καρέ της παραμορφωμένης εξόδου βίντεο με στατικά αποτελέσματα DSP.

Δοκιμή του νέου συστήματος με στατικές εικόνες από το Deep Shapely Portraits.

Οι συγγραφείς σημειώνουν ότι τα τεχνικά προβλήματα προκύπτουν από τη μέθοδο DSP, λόγω της χρήσης σπανιού χαρτογράφησης – ένα πρόβλημα που το νέο πλαίσιο λύνει με πυκνή χαρτογράφηση. Επιπλέον, το βίντεο που παράγεται από το DSP, το έγγραφο υποστηρίζει, παρατηρεί έλλειψη ομαλότητας και οπτικής συνάφειας.

Οι συγγραφείς δηλώνουν:

‘Τα αποτελέσματα δείχνουν ότι η προσέγγισή μας μπορεί να παράγει συνεπή και αναμορφωμένα βίντεο προφίλ, ενώ η μεθοδολογία βασισμένη σε εικόνες μπορεί εύκολα να οδηγήσει σε εμφανή τεχνικά προβλήματα.’

Δείτε το συνοδευτικό βίντεο παρακάτω, για περισσότερα παραδείγματα:

Πρώτη δημοσίευση 9ης Μαΐου 2022. Τροποποιήθηκε 6pm EET, αντικαταστάθηκε ‘πεδίο’ με ‘συναρτήσεις’ για SDF.

Related Topics:deepfake DeepFakes image synthesis research