στέλεχος Δημιουργία Full Body Deepfakes με συνδυασμό πολλαπλών NeRFs - Unite.AI
Συνδεθείτε μαζί μας

Τεχνητή νοημοσύνη

Δημιουργία Full Body Deepfakes με συνδυασμό πολλαπλών NeRF

mm
Ενημερώθηκε on

Ο τομέας της έρευνας σύνθεσης εικόνων είναι γεμάτος με νέες προτάσεις για συστήματα ικανά να δημιουργούν βίντεο με ολόκληρο το σώμα και εικόνες νέων – κυρίως νεαρών γυναικών – με διάφορους τύπους ενδυμασίας. Κυρίως οι παραγόμενες εικόνες είναι στατικές; περιστασιακά, οι αναπαραστάσεις κινούνται, αν και συνήθως όχι πολύ καλά.

Ο ρυθμός αυτού του συγκεκριμένου ερευνητικού σκέλους είναι παγετώδης σε σύγκριση με το τρέχον ιλιγγιώδες επίπεδο προόδου σε συναφείς τομείς όπως μοντέλα λανθάνουσας διάχυσης; Ωστόσο, οι ερευνητικές ομάδες, η πλειονότητα στην Ασία, συνεχίζουν να αποκλείουν αμείλικτα το πρόβλημα.

Ένα από τα δεκάδες, αν όχι εκατοντάδες προτεινόμενα ή ημι-εκτοξευμένα συστήματα «εικονικής δοκιμής» των τελευταίων 10-15 ετών, όπου τα σώματα αξιολογούνται μέσω της αναγνώρισης αντικειμένων που βασίζεται στη μηχανική μάθηση και προσαρμόζονται στα προτεινόμενα είδη ένδυσης. Πηγή: https://www.youtube.com/watch?v=0ZXrgGyhbak

Ένα από τα δεκάδες, αν όχι εκατοντάδες προτεινόμενα ή ημικυκλοφορημένα συστήματα «εικονικής δοκιμής» των τελευταίων 10-15 ετών, όπου τα σώματα αξιολογούνται μέσω της αναγνώρισης αντικειμένων που βασίζεται στη μηχανική μάθηση και προσαρμόζονται στα προτεινόμενα είδη ένδυσης. Πηγή: https://www.youtube.com/watch?v=2ZXrgGyhbak

Ο στόχος είναι να δημιουργηθούν νέα συστήματα που θα επιτρέψουν «εικονικές δοκιμές» για την αγορά μόδας και ένδυσης – συστήματα που μπορούν να προσαρμοστούν τόσο στον πελάτη όσο και στο συγκεκριμένο προϊόν που είναι επί του παρόντος διαθέσιμο ή πρόκειται να κυκλοφορήσει, χωρίς την αδικία του πραγματικού -χρόνος υπέρθεση of ρούχα, ή την ανάγκη να ζητήσετε από τους πελάτες να το κάνουν στείλτε ελαφρώς NSFW εικόνες για αγωγούς απόδοσης που βασίζονται σε ML.

Καμία από τις δημοφιλείς αρχιτεκτονικές σύνθεσης δεν φαίνεται εύκολα προσαρμόσιμη σε αυτήν την εργασία: η λανθάνον χώρο των Generative Adversarial Networks (GANs) είναι ακατάλληλα για την παραγωγή πειστικής χρονικής κίνησης (ή ακόμα και για επεξεργασία γενικά); αν και καλά ικανός για τη δημιουργία ρεαλιστικής ανθρώπινης κίνησης, Πεδία νευρικής ακτινοβολίας (NeRF) είναι συνήθως φυσικά ανθεκτικός στο είδος της επεξεργασίας που θα ήταν απαραίτητο για να «ανταλλάξουμε» άτομα ή ρούχα κατά βούληση. οι αυτόματες κωδικοποιητές θα απαιτούσαν επαχθή εκπαίδευση για άτομα/ρούχα. και τα μοντέλα λανθάνουσας διάχυσης, όπως τα GAN, έχουν μηδενικούς εγγενείς χρονικούς μηχανισμούς, για τη δημιουργία βίντεο.

EVA3D

Ωστόσο, τα χαρτιά και οι προτάσεις συνεχίζονται. Το τελευταίο παρουσιάζει ασυνήθιστο ενδιαφέρον σε μια κατά τα άλλα αδιάκριτη και αποκλειστικά επιχειρηματική γραμμή έρευνας.

EVA3D, από το Τεχνολογικό Πανεπιστήμιο Nanyang της Σιγκαπούρης, είναι η πρώτη ένδειξη μιας προσέγγισης που έχει έρθει εδώ και πολύ καιρό – η χρήση πολλαπλούς Δίκτυα Neural Radiance Field, καθένα από τα οποία είναι αφιερωμένο σε ένα ξεχωριστό μέρος του σώματος και τα οποία στη συνέχεια συντίθενται σε μια συναρμολογημένη και συνεκτική απεικόνιση.

Μια κινητή νεαρή γυναίκα που αποτελείται από πολλά δίκτυα NeRF, για το EVA3D. Πηγή: https://hongfz16.github.io/projects/EVA3D.html

Μια κινητή νεαρή γυναίκα που αποτελείται από πολλά δίκτυα NeRF, για το EVA3D. Πηγή: https://hongfz16.github.io/projects/EVA3D.html

Τα αποτελέσματα, όσον αφορά την κίνηση, είναι… εντάξει. Αν και η οπτικοποίηση του EVA3D δεν είναι έξω από την παράξενη κοιλάδα, μπορούν τουλάχιστον να δουν τη ράμπα από το σημείο που στέκονται.

Αυτό που κάνει το EVA3D εξαιρετικό είναι ότι οι ερευνητές πίσω από αυτό, σχεδόν μοναδικά στον τομέα της σύνθεσης εικόνας ολόκληρου του σώματος, έχουν συνειδητοποιήσει ότι ένα μεμονωμένο δίκτυο (GAN, NeRF ή άλλο) δεν πρόκειται να είναι σε θέση να χειριστεί επεξεργάσιμο και ευέλικτο ανθρώπινο πλήρες παραγωγή αμαξώματος για μερικά χρόνια – εν μέρει λόγω του ρυθμού της έρευνας και εν μέρει λόγω υλικού και άλλων υλικοτεχνικών περιορισμών.

Ως εκ τούτου, η ομάδα Nanyang έχει υποδιαιρέσει την εργασία σε 16 δίκτυα και πολλαπλές τεχνολογίες – μια προσέγγιση που έχει ήδη υιοθετηθεί για τη νευρωνική απόδοση αστικών περιβαλλόντων σε Block-NeRF και CityNeRF, και το οποίο φαίνεται πιθανό να γίνει ένα ολοένα και πιο ενδιαφέρον και δυνητικά γόνιμο μέτρο στα μισά του δρόμου για την επίτευξη πλαστών πλαστών σε ολόκληρο το σώμα τα επόμενα πέντε χρόνια, εν αναμονή νέων εννοιολογικών εξελίξεων ή εξελίξεων υλικού.

Δεν είναι όλες οι προκλήσεις που υπάρχουν για τη δημιουργία αυτού του είδους «εικονικής δοκιμής» τεχνικές ή υλικοτεχνικές και το έγγραφο περιγράφει ορισμένα από τα ζητήματα δεδομένων, ιδιαίτερα όσον αφορά την μάθηση χωρίς επίβλεψη:

Τα σύνολα δεδομένων [Fashion] έχουν ως επί το πλείστον πολύ περιορισμένες ανθρώπινες στάσεις (οι περισσότερες είναι παρόμοιες όρθιες στάσεις) και πολύ ανισόρροπες γωνίες θέασης (οι περισσότερες είναι μπροστινές όψεις). Αυτή η ανισορροπημένη κατανομή δεδομένων 2D θα μπορούσε να εμποδίσει την εκμάθηση των τρισδιάστατων GAN ​​χωρίς επίβλεψη, οδηγώντας σε δυσκολίες στη σύνθεση νέας προβολής/πόζας. Ως εκ τούτου, χρειάζεται μια σωστή στρατηγική κατάρτισης για να μετριαστεί το πρόβλημα.

Η ροή εργασίας EVA3D τμηματοποιεί το ανθρώπινο σώμα σε 16 ξεχωριστά μέρη, καθένα από τα οποία δημιουργείται μέσω του δικού του δικτύου NeRF. Προφανώς, αυτό δημιουργεί αρκετά «μη παγωμένα» τμήματα για να είναι σε θέση να γαλβανίσει το σχήμα μέσω της σύλληψης κίνησης ή άλλων τύπων δεδομένων κίνησης. Εκτός από αυτό το πλεονέκτημα, ωστόσο, επιτρέπει επίσης στο σύστημα να εκχωρεί τους μέγιστους πόρους στα μέρη του σώματος που «πουλούν» τη συνολική εντύπωση.

Για παράδειγμα, τα ανθρώπινα πόδια έχουν πολύ περιορισμένο εύρος άρθρωσης, ενώ η αυθεντικότητα του προσώπου και του κεφαλιού, εκτός από την ποιότητα της κίνησης ολόκληρου του σώματος γενικά, είναι πιθανό να είναι το επίκεντρο της αυθεντικότητας για την απόδοση.

Μια ποιοτική σύγκριση μεταξύ EVA3D και προηγούμενων μεθόδων. Οι συγγραφείς ισχυρίζονται ότι τα αποτελέσματα SOTA από αυτή την άποψη.

Μια ποιοτική σύγκριση μεταξύ EVA3D και προηγούμενων μεθόδων. Οι συγγραφείς ισχυρίζονται ότι τα αποτελέσματα SOTA από αυτή την άποψη.

Η προσέγγιση διαφέρει ριζικά από το έργο που επικεντρώνεται στο NeRF με το οποίο σχετίζεται εννοιολογικά – του 2021 A-NeRF, από το Πανεπιστήμιο της Βρετανικής Κολομβίας και το Reality Labs Research, το οποίο προσπάθησε να προσθέσει έναν εσωτερικό σκελετό ελέγχου σε μια κατά τα άλλα συμβατικά «ενιαία» αναπαράσταση NeRF, καθιστώντας πιο δύσκολη την κατανομή πόρων επεξεργασίας σε διαφορετικά μέρη του σώματος ανάλογα με τις ανάγκες .

Προηγούμενες κινήσεις – Το A-NeRF συνδυάζει ένα «ψημένο» NeRF με το ίδιο είδος όλκιμου και αρθρωτού κεντρικού αρματώματος που χρησιμοποιεί η βιομηχανία VFX τόσο καιρό για να εμψυχώνει χαρακτήρες CGI. Πηγή: https://lemonatsu.github.io/anerf/

Προηγούμενες κινήσεις – Το A-NeRF συνδυάζει ένα «ψημένο» NeRF με το ίδιο είδος όλκιμου και αρθρωτού κεντρικού αρματώματος που χρησιμοποιεί η βιομηχανία VFX εδώ και πολύ καιρό για την εμψύχωση χαρακτήρων CGI. Πηγή: https://lemonatsu.github.io/anerf/

Όπως με τα περισσότερα παρόμοια ανθρωποκεντρικά έργα που επιδιώκουν να αξιοποιήσουν τον λανθάνοντα χώρο των διαφόρων δημοφιλών προσεγγίσεων, το EVA3D χρησιμοποιεί ένα Skinned Multi-Person Linear Model (SMPL), μια «παραδοσιακή» μέθοδος που βασίζεται στο CGI για την προσθήκη εργαλείων στη γενική αφαίρεση των τρεχουσών μεθόδων σύνθεσης. Νωρίτερα φέτος, μια άλλη εργασία, αυτή τη φορά από το Πανεπιστήμιο Zhejiang στο Hangzhou, και τη Σχολή Δημιουργικών Μέσων στο Πανεπιστήμιο Πόλης του Χονγκ Κονγκ, χρησιμοποίησε τέτοιες μεθόδους για να εκτελέσει αναμόρφωση του νευρικού σώματος.

Τα ποιοτικά αποτελέσματα του EVA3D στο DeepFashion.

Τα ποιοτικά αποτελέσματα του EVA3D στο DeepFashion.

Μέθοδος

Το μοντέλο SMPL που χρησιμοποιείται στη διαδικασία είναι συντονισμένο στον ανθρώπινο «προηγούμενο» – το άτομο που ουσιαστικά υφίσταται οικειοθελώς παραποιήσεις από το EVA3D, και τα βάρη του που διαπραγματεύονται τις διαφορές μεταξύ του κανονικού χώρου (δηλ. του «σε ηρεμία» ή « ουδέτερη θέση ενός μοντέλου SMPL) και τον τρόπο που αποδίδεται η τελική εμφάνιση.

Η εννοιολογική ροή εργασίας για το EVA3D. Πηγή: https://arxiv.org/pdf/2210.04888.pdf

Η εννοιολογική ροή εργασίας για το EVA3D. Πηγή: https://arxiv.org/pdf/2210.04888.pdf

Όπως φαίνεται στην παραπάνω εικόνα, τα πλαίσια οριοθέτησης του SMPL χρησιμοποιούνται ως ορισμοί ορίων για τα 16 δίκτυα που τελικά θα συνθέσουν το σώμα. Αντίστροφος Linear Blend Skinning Ο αλγόριθμος (LBS) του SMPL χρησιμοποιείται στη συνέχεια για τη μεταφορά ορατών δειγματοληπτικών ακτίνων στον κανονικό χώρο (παθητική στάση). Στη συνέχεια, τα 16 υποδίκτυα ερωτώνται, με βάση αυτές τις διαμορφώσεις, και τελικά συμμορφώνονται σε μια τελική απόδοση.

Στη συνέχεια, ολόκληρο το σύνθετο NeRF χρησιμοποιείται για την κατασκευή ενός τρισδιάστατου ανθρώπινου πλαισίου GAN.

Οι αποδόσεις του πλαισίου GAN δεύτερου σταδίου θα εκπαιδευτούν τελικά σε γνήσιες συλλογές 2D εικόνων ανθρώπων/μόδας.

Οι αποδόσεις του πλαισίου GAN δεύτερου σταδίου θα εκπαιδευτούν τελικά σε γνήσιες συλλογές 2D εικόνων ανθρώπων/μόδας.

Κάθε υποδίκτυο που αντιπροσωπεύει μέρος του ανθρώπινου σώματος αποτελείται από στοιβαγμένα Perceptrons Multi-Layer (MLPs) με ΣΕΙΡΗΝΑ Ενεργοποίηση (Sinusoidal Representation Networks). Αν και το SIREN επιλύει πολλά προβλήματα σε μια ροή εργασίας όπως αυτή, και σε παρόμοια έργα, τείνει να υπερπροσαρμόζεται αντί να γενικεύει, και οι ερευνητές προτείνουν ότι θα μπορούσαν να χρησιμοποιηθούν εναλλακτικές βιβλιοθήκες στο μέλλον (βλ. τέλος του άρθρου).

Δεδομένα, Εκπαίδευση και Δοκιμές

Το EVA3D αντιμετωπίζει ασυνήθιστα προβλήματα δεδομένων, λόγω των περιορισμών και του μορφοποιημένου στυλ των στάσεων που είναι διαθέσιμα σε σύνολα δεδομένων που βασίζονται στη μόδα, τα οποία τείνουν να μην έχουν εναλλακτικές ή πρωτότυπες προβολές και είναι, ίσως σκόπιμα, επαναλαμβανόμενες, προκειμένου να επικεντρωθεί η προσοχή σε τα ρούχα παρά ο άνθρωπος που τα φοράει.

Λόγω αυτής της μη ισορροπημένης κατανομής πόζας, το EVA3D χρησιμοποιεί ανθρώπινες προτεραιότητες (βλ. παραπάνω) με βάση τη γεωμετρία του προτύπου SMPL και στη συνέχεια προβλέπει ένα πεδίο υπογεγραμμένης απόστασης (SDF) αντιστάθμιση αυτής της πόζας, αντί μιας απλής στάσης στόχου.

Για τα υποστηρικτικά πειράματα, οι ερευνητές χρησιμοποίησαν τέσσερα σύνολα δεδομένων: DeepFashion; SHHQ; UBCFashion. και το Βάση δεδομένων χορού βίντεο AIST (AIST DB Dance).

Οι δύο τελευταίες περιέχουν πιο ποικίλες στάσεις από τις δύο πρώτες, αλλά αντιπροσωπεύουν τα ίδια άτομα επαναλαμβανόμενα, γεγονός που ακυρώνει αυτήν την κατά τα άλλα χρήσιμη ποικιλομορφία. με λίγα λόγια, τα δεδομένα είναι κάτι παραπάνω από προκλητικά, δεδομένης της αποστολής.

Παραδείγματα από το SSHQ. Πηγή: https://arxiv.org/pdf/2204.11823.pdf

Παραδείγματα από το SSHQ. Πηγή: https://arxiv.org/pdf/2204.11823.pdf

Οι βασικές γραμμές που χρησιμοποιήθηκαν ήταν ΕΝΑΡΦ-ΓΑΝ, το πρώτο έργο που απέδωσε γραφικά NeRF από σύνολα δεδομένων 2D εικόνων. Stanford και NVIDIA EG3D? Και StyleSDF, μια συνεργασία μεταξύ του Πανεπιστημίου της Ουάσιγκτον, της Adobe Research και του Πανεπιστημίου του Στάνφορντ – όλες οι μέθοδοι που απαιτούν βιβλιοθήκες υπερ-ανάλυσης προκειμένου να κλιμακωθούν από εγγενή σε υψηλή ανάλυση.

Οι μετρήσεις που υιοθετήθηκαν ήταν οι αμφιλεγόμενος Απόσταση έναρξης Frechet (ΜΟΥΡΕΛΛΟ) και Απόσταση έναρξης πυρήνα (ΠΑΙΔΙ), μαζί με το ποσοστό των σωστών σημείων κλειδιών ([προστασία μέσω email]).

Σε ποσοτικές αξιολογήσεις, το EVA3D ηγήθηκε σε όλες τις μετρήσεις σε τέσσερα σύνολα δεδομένων:

Ποσοτικά αποτελέσματα.

Ποσοτικά αποτελέσματα.

Οι ερευνητές σημειώνουν ότι το EVA3D επιτυγχάνει το χαμηλότερο ποσοστό σφάλματος για την απόδοση γεωμετρίας, κρίσιμο παράγοντα σε ένα έργο αυτού του τύπου. Παρατηρούν επίσης ότι το σύστημά τους μπορεί να ελέγξει την παραγόμενη πόζα και να πετύχει υψηλότερα [προστασία μέσω email] βαθμολογείται, σε αντίθεση με την EG3D, τη μόνη ανταγωνιστική μέθοδο που σημείωσε υψηλότερη βαθμολογία, σε μία κατηγορία.

Το EVA3D λειτουργεί εγγενώς με την τυπική μέχρι τώρα ανάλυση 512x512 px, αν και θα μπορούσε εύκολα και αποτελεσματικά να αναβαθμιστεί σε ανάλυση HD με τη συσσώρευση σε ανώτερα επίπεδα, όπως έκανε πρόσφατα η Google με την προσφορά κειμένου σε βίντεο ανάλυσης 1024 Imagen Βίντεο.

Η μέθοδος δεν είναι χωρίς όρια. Το έγγραφο σημειώνει ότι η ενεργοποίηση SIREN μπορεί να προκαλέσει κυκλικά τεχνουργήματα, τα οποία θα μπορούσαν να διορθωθούν σε μελλοντικές εκδόσεις με τη χρήση μιας εναλλακτικής αναπαράστασης βάσης, όπως το EG3D, σε συνδυασμό με έναν αποκωδικοποιητή 2D. Επιπλέον, είναι δύσκολο να προσαρμοστεί με ακρίβεια το SMPL στις πηγές δεδομένων μόδας.

Τέλος, το σύστημα δεν μπορεί εύκολα να φιλοξενήσει μεγαλύτερα και πιο ρευστά ρούχα, όπως μεγάλα φορέματα. Τα ενδύματα αυτού του τύπου παρουσιάζουν το ίδιο είδος ρευστότητας που κάνει τη δημιουργία νευρικά αποδιδόμενων μαλλιών μια τέτοια πρόκληση. Προφανώς, μια κατάλληλη λύση θα μπορούσε να βοηθήσει στην αντιμετώπιση και των δύο προβλημάτων.

Επίδειξη βίντεο για EVA3D: Compositional 3D Human Generation από συλλογές εικόνων 2D

 

Πρώτη δημοσίευση 12 Οκτωβρίου 2022.

Συγγραφέας για τη μηχανική μάθηση, την τεχνητή νοημοσύνη και τα μεγάλα δεδομένα.
Προσωπικός ιστότοπος: martinanderson.ai
Επαφή: [προστασία μέσω email]
Twitter: @manders_ai