Τεχνητή νοημοσύνη

Η Disney Συνδυάζει CGI Με Νευρωνική Απόδοση για να Αντιμετωπίσει την ‘Παράξενη Κοιλάδα’

Published November 30, 2021

Updated April 28, 2026

Martin Anderson

Το τμήμα ερευνών της Disney για την τεχνητή νοημοσύνη έχει αναπτύξει μια υβριδική μέθοδο για την προσομοίωση προσώπου υψηλής ποιότητας, συνδυάζοντας τις δυνατότητες της νευρωνικής απόδοσης προσώπου με τη συνεπή προσέγγιση βασισμένη στο CGI.

Το εκκρεμές έγγραφο έχει τον τίτλο Απόδοση με Στυλ: Συνδυασμός Παραδοσιακών και Νευρωνικών Προσεγγίσεων για Υψηλής Ποιότητας Απόδοση Προσώπου και προβλέπεται σε ένα νέο 10-λεπτο βίντεο στο κανάλι Disney Research στο YouTube (εμφανίζεται στο τέλος του άρθρου*).

Δικτυωμένα με νευρωνικές απόδοσης προσώπου. Πηγή: https://www.youtube.com/watch?v=k-RKSGbWLng

Δικτυωμένα με νευρωνικές απόδοσης προσώπου. Δείτε το βίντεο στο τέλος του άρθρου για καλύτερη λεπτομέρεια και ποιότητα. Πηγή: https://www.youtube.com/watch?v=k-RKSGbWLng (αντικαταστάθηκε από https://www.youtube.com/watch?v=TwpLqTmvqVk)

Όπως σημειώνει το βίντεο, η νευρωνική απόδοση προσώπου (συμπεριλαμβανομένων των deepfakes) μπορεί να παράγει πολύ πιο ρεαλιστικά μάτια και εσωτερικά του στόματος από ό,τι είναι ικανό το CGI, ενώ τα CGI-κίνητρα υφής προσώπου είναι πιο συνεπή και κατάλληλα για έξοδο VFX κινηματογράφου.

Επομένως, η Disney πειραματίζεται με το να αφήσει τον νευρωνικό γεννήτορα NVIDIA StyleGan2 να χειρίζεται τα περιβάλλοντα χαρακτηριστικά του προσώπου και τα ‘ζωτικά’ στοιχεία, όπως τα μάτια, ενώ τοποθετεί συνεπή CGI δέρμα προσώπου και σχετικά στοιχεία στην έξοδο.

Από το βίντεο (δείτε το τέλος του άρθρου), η αρχιτεκτονική концепция της υβριδικής προσέγγισης της Disney, όπου ένα παλιό CGI δίκτυο, του τύπου που χρησιμοποιήθηκε για να αναδημιουργηθεί ο ‘νέος’ Carrie Fisher και ο late Peter Cushing για το Rogue One (2016), ενσωματώνεται σε νευρωνικά-αποδομένα περιβάλλοντα προσώπου.

Το βίντεο αναφέρει:

‘[Υπάρχει] ακόμη ένα τεράστιο χάσμα μεταξύ того που οι άνθρωποι μπορούν εύκολα να καταγράψουν και να αποδώσουν versus τελικές φωτορεαλιστικές ψηφιακές διπλότυπες, πλήρεις με μαλλιά, μάτια και εσωτερικά του στόματος. Για να κλείσει αυτό το χάσμα, συνήθως απαιτείται πολύ χειρονακτική εργασία από εξειδικευμένους καλλιτέχνες.’

Στην πραγματικότητα, ακόμη και τα πιο σύγχρονα συστήματα καπνοποίησης προσώπου δεν προσπαθούν να αναδημιουργήσουν μάτια, εσωτερικά του στόματος ή μαλλιά, τα οποία είτε έχουν ζητήματα αυθεντικότητας σε τέτοιες τεχνικές (μάτια) είτε ζητήματα χρονικής συνεπής (μαλλιά).

Το βίντεο εικονογραφεί τι θα λάβουν οι καλλιτέχνες VFX μετά από μια τυπική σύγχρονη συνεδρία καπνοποίησης προσώπου. Μάτια, μαλλιά, γένια και εσωτερικά του στόματος θα πρέπει όλα να χειρίζονται από ξεχωριστές ομάδες στη διαδικασία παραγωγής, εκτός από την υφή και το φωτισμό.

Έλεγχος Φωτισμού

Η υβριδική προσέγγιση είναι επίσης ένα πλεονέκτημα με τη σχεδίαση φωτισμού – μια αξιοσημείωτη πρόκληση για τη νευρωνική απόδοση προσώπου, поскольку τα CGI-δέρματα μπορούν να είναι πιο εύκολα ανα relit.

Μια κινούμενη εκδοχή της CGI/Νευρωνικής προσέγγισης.

Σε πιο απαιτητικά περιβάλλοντα, όπως εξωτερικές λήψεις, οι ερευνητές έχουν αναπτύξει μια μέθοδο για inpainting γύρω από ένα είδος αποστρατιωτικοποιημένης ζώνης που περιβάλλει το άτομο που ‘δημιουργείται’.

Μια μαύρη περιφέρεια δημιουργείται για να επιτρέψει ένα ‘κανβά’ για inpainting των εξωτερικών μερών της ταυτότητας και την ενσωμάτωση του CGI δέρματος στην kết hợp CGI/νευρωνική έξοδο.

Το βίντεο σημειώνει:

‘[Η] νευρωνική απόδοση δεν ταιριάζει με τον περιορισμό του φόντου απόλυτα. – είναι μόνο για να οδηγήσει, поскольку η βελτιστοποίηση για ρεαλιστικά ανθρώπινα στοιχεία όπως τα μαλλιά, τα μάτια και τα δόντια είναι ο κύριος στόχος. Περισσότερο απαιτητικό είναι να προσπαθήσετε να διατηρήσετε μια συνεπή ταυτότητα, ενώ αλλάζετε το περιβάλλον φωτισμού.’

Δημιουργία CGI Δικτυωμάτων από Νευρωνικές Απόδοσης

Η ερευνητική ομάδα έχει επίσης αναπτύξει einen variational autoencoder που έχει εκπαιδευτεί σε ένα (απροσδιόριστο) μεγάλο σύνολο εικόνων προσώπου 3D, και ισχυρίζεται ότι μπορεί να παράγει ‘τυχαία αλλά πιθανές’ 3D δίκτυα προσώπου από δεδομένα αλήθειας.

Υπάρχουν περιορισμοί για αυτή την έρευνα να υπερβεί, συμπεριλαμβανομένης της δυσκολίας να κρατήσει τα μαλλιά χρονικά συνεπή στις νευρωνικές απόδοσης, και το βίντεο (δείτε παρακάτω) δείχνει αρκετά παραδείγματα ταχέως μεταβαλλόμενων μαλλιών σε μια αλλιώς συνεπή πλανητική γύρω από ένα CGI/νευρωνικό πρόσωπο.

Η χρονική συνεπής στη νευρωνική βίντεο απόδοση είναι ένα πολύ μεγαλύτερο πρόβλημα από ό,τι αυτό της Disney, και φαίνεται πιθανό ότι μεταγενέστερες επαναλήψεις αυτού του συστήματος μπορεί να καταφύγουν στην προσθήκη μαλλιών ‘σε μετά-παραγωγή’, ή διάφορες άλλες πιθανές προσεγγίσεις για τη γεννήτρια μαλλιών παρά να ελπίζουν ότι μια νέα νευρωνική προσέγγιση θα λύσει τελικά το πρόβλημα.

Χρήσεις για Γεννήτρια Δεδομένων

Η μέθοδος προτείνεται επίσης ως μια πιθανή μέθοδος για τη γεννήτρια συνθετικών δεδομένων και την εμπλουτισμένη τοπίο εικόνων προσώπου, το οποίο έχει τα τελευταία χρόνια γίνει επικίνδυνα μονότονο.

Η Disney οραματίζεται την καινούρια τεχνική που πληρώνει τις εικόνες δεδομένων προσώπου.

‘[Κάθε] φωτορεαλιστικό αποτέλεσμα που παράγουμε έχει μια υποκείμενη αντίστοιχη γεωμετρία, και χάρτες εμφάνισης, αποδοθεί από άγνωστες οπτικές γωνίες με γνωστό φωτισμό. Αυτή η ‘αλήθεια’ πληροφορία μπορεί να είναι ζωτική για την εκπαίδευση εφαρμογών, όπως μονοοπτική, 3D ανακατασκευή προσώπου, αναγνώριση προσώπου, ή κατανόηση σκηνής. Και έτσι κάθε αποτέλεσμα απόδοση θα μπορούσε να θεωρηθεί ως δείγμα δεδομένων, και μπορούμε να παράγουμε πολλές παραλλαγές πολλών διαφορετικών ατόμων.

‘Επιπλέον, ακόμη και για ένα μόνο άτομο που αποδίδεται σε μια seule έκφραση με μια seule οπτική γωνία και φωτισμό, μπορούμε να παράγουμε τυχαίες παραλλαγές της φωτορεαλιστικής απόδοσης με την αλλαγή του τυχαίου σπόρου κατά την оптимποίηση.’

Οι ερευνητές σημειώνουν ότι αυτή η ποικιλία της ρυθμιζόμενης εξόδου θα μπορούσε να είναι χρήσιμη στην εκπαίδευση εφαρμογών αναγνώρισης προσώπου, και καταλήγουν:

‘[Η] μέθοδος μας είναι σε θέση να εκμεταλλευτεί την τρέχουσα τεχνολογία για την καπνοποίηση δέρματος προσώπου, μοντελοποίηση και απόδοση, και να δημιουργήσει αυτόματα πλήρη φωτορεαλιστικές απόδοσης προσώπου που ταιριάζουν με την επιθυμητή ταυτότητα, έκφραση και διαμόρφωση σκηνής. Αυτή η προσέγγιση έχει εφαρμογές και απόδοση προσώπου για ταινίες και ψυχαγωγία, σώζοντας χειρονακτική εργασία καλλιτεχνών και επίσης για γεννήτρια δεδομένων σε διάφορους τομείς της βαθιάς μάθησης.’

Για μια πιο sâuστόχαστη ματιά στην καινούρια προσέγγιση, δείτε το 10-λεπτο βίντεο που κυκλοφόρησε σήμερα:

* Ο αρχικός σύνδεσμος βίντεο αντικαταστάθηκε από έναν άλλον που φαίνεται να είναι ίδιος 8 ώρες μετά τη δημοσίευση του άρθρου. Άλλαξα όλους τους σχετικούς συνδέσμους, καθώς δεν υπάρχει ίχνος του αρχικού βίντεο.

8:24 GMT+2 – Αντικαταστάθηκε το βίντεο, καθώς αντικαταστάθηκε από το κανάλι Disney Research YouTube για κάποιο λόγο.

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]